CN106162323A

CN106162323A - 一种视频数据处理方法及装置

Info

Publication number: CN106162323A
Application number: CN201510138078.4A
Authority: CN
Inventors: 刘赵杰
Original assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Current assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2016-11-23

Abstract

本发明公开了一种视频数据处理方法及装置，用以提高视频数据处理效率，防止视频版权泄露。所述方法包括：从所述视频数据中识别出语音数据；按照在视频数据中的时间顺序将所述语音数据依序分段，获得至少一个语音数据段；将所述语音数据段分别发送给不同的处理部件，所述处理部件用于对自身接收到的语音数据段进行文字识别处理；接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息；将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理；获取所述视频数据的字幕信息。上述技术方案，通过分段对视频中的语音数据进行处理并生成字幕信息，提高了视频数据处理工作的效率，并有效防止视频版权的泄露。

Description

一种视频数据处理方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种视频数据处理方法及装置。

背景技术

经过近几年互联网视频的发展，网络视频资源需求量也逐步增多，这就对视频数据处理的效率也有了更高的要求。而目前互联网视频数据处理过程主要还是将一个视频作为整体进行数据处理，而多数视频的时长通常较大，导致视频编辑时间也较长，效率低下，并且技术人员得到整个视频数据后，容易造成视频版权的泄露。

发明内容

本发明提供一种视频数据处理方法及装置，用以提高视频数据处理效率，防止视频版权泄露。

根据本发明实施例的第一方面，提供一种视频数据处理方法，可包括：

从所述视频数据中识别出语音数据；

按照在视频数据中的时间顺序将所述语音数据依序分段，获得至少一个语音数据段，每个语音数据段的时长等于或小于预设时长；

将所述至少一个语音数据段分别发送给不同的处理部件，所述处理部件用于对自身接收到的语音数据段进行文字识别处理；

接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息；

将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理；

获取所述视频数据的字幕信息。

在一个实施例中，所述处理部件可包括处理设备和/或处理程序。

在一个实施例中，所述按照在视频数据中的时间顺序将所述语音数据依序分段，获得至少一个语音数据段之后，可包括：

对至少一个语音数据段分别进行标识处理，获得每个语音数据段的标识；

所述将所述至少一个语音数据段分别发送给不同的处理部件的同时，还可包括：

将所述语音数据段的标识同时发送给处理该语音数据段的处理部件；

所述接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息，可包括：

接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。

在一个实施例中，所述将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理，可包括：

将所述字幕信息与原视频数据进行整合。

根据本发明实施例的第二方面，提供一种视频数据处理装置，可包括：

识别模块，用于从所述视频数据中识别出语音数据；

分段模块，用于按照在视频数据中的时间顺序将所述语音数据依序分段，获得至少一个语音数据段，每个语音数据段的时长等于或小于预设时长；

发送模块，用于将所述至少一个语音数据段分别发送给不同的处理部件，所述处理部件用于对自身接收到的语音数据段进行文字识别处理；

接收模块，用于接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息；

处理模块，用于将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理；

获取模块，用于获取所述视频数据的字幕信息。

在一个实施例中，所述分段模块，可包括：

标识子模块，用于对至少一个语音数据段分别进行标识处理，获得每个语

音数据段的标识；

所述发送模块，可包括：

发送子模块，用于将所述语音数据段的标识同时发送给处理该语音数据段的处理部件；

所述接收模块，可包括：

接收子模块，用于接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。

在一个实施例中，所述处理模块，可包括：

整合子模块，用于将所述字幕信息与原视频数据进行整合。

本发明实施例提供的技术方案可产生以下有益效果：通过从视频数据中识别出语音数据；按照在视频数据中的时间顺序将所述语音数据依序分段，获得至少一个语音数据段，每个语音数据段的时长等于或小于预设时长；将所述至少一个语音数据段分别发送给不同的处理部件，所述处理部件用于对自身接收到的语音数据段进行文字识别处理；接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息；将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理；获取所述视频数据的字幕信息。即分段对视频中的语音数据进行处理并生成字幕信息，从而使视频编辑人员可以相互独立地对各分段视频进行编辑，不仅提高了视频数据处理工作的效率，还能有效防止视频版权的泄露。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明根据一示例性实施例示出的视频数据处理方法的流程图；

图2为本发明根据一示例性实施例示出的视频数据处理装置的框图；

图3为本发明根据一示例性实施例示出的另一视频数据处理装置的框图；

图4为本发明根据一示例性实施例示出的另一视频数据处理装置的框图；

图5为本发明根据一示例性实施例示出的另一视频数据处理装置的框图；

图6为本发明根据一示例性实施例示出的另一视频数据处理装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本公开实施例提供了一种视频数据处理方法，该方法可用于视频数据处理或者其它用于视频数据处理的设备中，如图1所示，该方法包括步骤S101-S106：

在步骤S101中，从视频数据中识别出语音数据。

在步骤S102中，按照在视频数据中的时间顺序将所述语音数据依序分段，获得至少一个语音数据段，每个语音数据段的时长等于或小于预设时长。

例如，在一个时长为两小时的视频中，将该视频平均分成10段，则分段后的每段视频时长为12分钟，即每个语音数据段的时长也是12分钟。

在步骤S103中，将上述至少一个语音数据段分别发送给不同的处理部件，处理部件用于对自身接收到的语音数据段进行文字识别处理。

例如，将上述步骤S102中分成的10个语音数据段，分别发送给10个处理处理部件，并分别独立地进行数据处理，识别出各语音数据段中包含的语言信息，进而生成文字形式的识别结果。

在步骤S104中，接收处理设备各自传送来的文字识别结果和相应的语音数据段的信息。

其中，语音数据段的信息可以是其在视频中的位置或时长。

在步骤S105中，将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理。

在一个应用场景中，由于各处理部件生成文字识别结果的用时不同，所以接收到的各数据段的顺序并非是各自在原视频中的顺序，此时，需要对各视频段按照各自在原视频中的位置进行重新排列。

在步骤S106中，获取视频数据的字幕信息。

其中，获取到的字幕信息是连贯地、按照原视频中音频数据的播放顺序进行拼接排列后的整体。

上述方法的有益效果是，有效提高了视频数据处理的效率，并且防止了视频版权的泄露。

在一个实施例中，上述处理部件可包括处理设备和/或处理程序。

例如处理设备是可以是电子计算机、多媒体终端等，处理程序可以是AdobePremiere、会声会影等。

在一个实施例中，步骤S102还可实施为：

其中，标识处理可以是记录该音频数据段在视频中的位置或者某个特定帧对应的音频信号。

则此时，步骤S103可实施为：将语音数据段的标识同时发送给处理该语音数据段的处理部件；

相应地，步骤S104可实施为：接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。

上述方法的有益效果是：提高各音频数据段拼接的速度和准确性，还方便技术人员日后对视频进行二次或多次编辑时，可以仅通过查找某个音频数据段的标识从而获取整个视频数据段，提高了编辑效率。

在一个实施例中，步骤S105还可实施为：

将所述字幕信息与原视频数据进行整合。

具体实施为将获取的字幕信息与原视频进行合成处理，使视频中的音频与音频数据对应的字幕信息实现同步；此时步骤S106可实施为，获取将字幕信息与原视频数据进行合成后的视频。有益效果是使观众能够更加全面的掌握视频内容。

对应本发明实施例提供的视频数据处理方法，本发明还提供视频数据处理装置，如图2所示，该装置可包括：

识别模块21，用于从视频数据中识别出语音数据；

分段模块22，用于按照在视频数据中的时间顺序将语音数据依序分段，获得至少一个语音数据段，每个语音数据段的时长等于或小于预设时长；

发送模块23，用于将上述至少一个语音数据段分别发送给不同的处理部件，处理部件用于对自身接收到的语音数据段进行文字识别处理；

接收模块24，用于接收处理设备各自传送来的文字识别结果和相应的语音数据段的信息；

处理模块25，用于将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理；

获取模块26，用于获取视频数据的字幕信息。

在一个实施例中，处理部件可包括处理设备和/或处理程序。

在一个实施例中，如图3所示，分段模块22可包括：

标识子模块221，用于对至少一个语音数据段分别进行标识处理，获得每

个语音数据段的标识；

如图4所示，发送模块23可包括：

发送子模块231，用于将语音数据段的标识同时发送给处理该语音数据段的处理部件；

如图5所示，接收模块24可包括：

接收子模块241，用于接收处理设备各自传送来的文字识别结果和相应的语音数据段的标识。

在一个实施例中，如图6所示，处理模块25可包括：

整合子模块251，用于将字幕信息与原视频数据进行整合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频数据处理方法，其特征在于，包括：

从所述视频数据中识别出语音数据；

获取所述视频数据的字幕信息。

2.如权利要求1所述的方法，其特征在于，

所述处理部件包括处理设备和/或处理程序。

3.如权利要求1或2所述的方法，其特征在于，

所述按照在视频数据中的时间顺序将所述语音数据依序分段，获得至少一个语音数据段之后，还包括：对至少一个语音数据段分别进行标识处理，获得每个语音数据段的标识；

所述将所述至少一个语音数据段分别发送给不同的处理部件的同时，还包括：将所述语音数据段的标识同时发送给处理该语音数据段的处理部件；

所述接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息，还包括：接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。

4.如权利要求1所述的方法，其特征在于，所述将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序，进行拼接处理，还包括：将所述字幕信息与原视频数据进行整合。

5.一种视频数据处理装置，其特征在于，包括：

识别模块，用于从所述视频数据中识别出语音数据；

获取模块，用于获取所述视频数据的字幕信息。

6.如权利要求5所述的装置，其特征在于，

所述处理部件包括处理设备和/或处理程序。

7.如权利要求5或6所述的装置，其特征在于，

所述分段模块，包括：标识子模块，用于对至少一个语音数据段分别进行标识处理，获得每个语音数据段的标识；

所述发送模块，包括：发送子模块，用于将所述语音数据段的标识同时发送给处理该语音数据段的处理部件；

所述接收模块，包括：接收子模块，用于接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。

8.如权利要求5所述的装置，其特征在于，所述处理模块，包括：

整合子模块，用于将所述字幕信息与原视频数据进行整合。