CN106162323A - 一种视频数据处理方法及装置 - Google Patents

一种视频数据处理方法及装置 Download PDF

Info

Publication number
CN106162323A
CN106162323A CN201510138078.4A CN201510138078A CN106162323A CN 106162323 A CN106162323 A CN 106162323A CN 201510138078 A CN201510138078 A CN 201510138078A CN 106162323 A CN106162323 A CN 106162323A
Authority
CN
China
Prior art keywords
speech data
data section
video data
video
text region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510138078.4A
Other languages
English (en)
Inventor
刘赵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Tvmining Juyuan Media Technology Co Ltd
Original Assignee
Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Tvmining Juyuan Media Technology Co Ltd filed Critical Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority to CN201510138078.4A priority Critical patent/CN106162323A/zh
Publication of CN106162323A publication Critical patent/CN106162323A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种视频数据处理方法及装置,用以提高视频数据处理效率,防止视频版权泄露。所述方法包括:从所述视频数据中识别出语音数据;按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段;将所述语音数据段分别发送给不同的处理部件,所述处理部件用于对自身接收到的语音数据段进行文字识别处理;接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息;将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理;获取所述视频数据的字幕信息。上述技术方案,通过分段对视频中的语音数据进行处理并生成字幕信息,提高了视频数据处理工作的效率,并有效防止视频版权的泄露。

Description

一种视频数据处理方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种视频数据处理方法及装置。
背景技术
经过近几年互联网视频的发展,网络视频资源需求量也逐步增多,这就对视频数据处理的效率也有了更高的要求。而目前互联网视频数据处理过程主要还是将一个视频作为整体进行数据处理,而多数视频的时长通常较大,导致视频编辑时间也较长,效率低下,并且技术人员得到整个视频数据后,容易造成视频版权的泄露。
发明内容
本发明提供一种视频数据处理方法及装置,用以提高视频数据处理效率,防止视频版权泄露。
根据本发明实施例的第一方面,提供一种视频数据处理方法,可包括:
从所述视频数据中识别出语音数据;
按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段,每个语音数据段的时长等于或小于预设时长;
将所述至少一个语音数据段分别发送给不同的处理部件,所述处理部件用于对自身接收到的语音数据段进行文字识别处理;
接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息;
将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理;
获取所述视频数据的字幕信息。
在一个实施例中,所述处理部件可包括处理设备和/或处理程序。
在一个实施例中,所述按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段之后,可包括:
对至少一个语音数据段分别进行标识处理,获得每个语音数据段的标识;
所述将所述至少一个语音数据段分别发送给不同的处理部件的同时,还可包括:
将所述语音数据段的标识同时发送给处理该语音数据段的处理部件;
所述接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息,可包括:
接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。
在一个实施例中,所述将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理,可包括:
将所述字幕信息与原视频数据进行整合。
根据本发明实施例的第二方面,提供一种视频数据处理装置,可包括:
识别模块,用于从所述视频数据中识别出语音数据;
分段模块,用于按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段,每个语音数据段的时长等于或小于预设时长;
发送模块,用于将所述至少一个语音数据段分别发送给不同的处理部件,所述处理部件用于对自身接收到的语音数据段进行文字识别处理;
接收模块,用于接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息;
处理模块,用于将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理;
获取模块,用于获取所述视频数据的字幕信息。
在一个实施例中,所述处理部件可包括处理设备和/或处理程序。
在一个实施例中,所述分段模块,可包括:
标识子模块,用于对至少一个语音数据段分别进行标识处理,获得每个语
音数据段的标识;
所述发送模块,可包括:
发送子模块,用于将所述语音数据段的标识同时发送给处理该语音数据段的处理部件;
所述接收模块,可包括:
接收子模块,用于接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。
在一个实施例中,所述处理模块,可包括:
整合子模块,用于将所述字幕信息与原视频数据进行整合。
本发明实施例提供的技术方案可产生以下有益效果:通过从视频数据中识别出语音数据;按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段,每个语音数据段的时长等于或小于预设时长;将所述至少一个语音数据段分别发送给不同的处理部件,所述处理部件用于对自身接收到的语音数据段进行文字识别处理;接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息;将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理;获取所述视频数据的字幕信息。即分段对视频中的语音数据进行处理并生成字幕信息,从而使视频编辑人员可以相互独立地对各分段视频进行编辑,不仅提高了视频数据处理工作的效率,还能有效防止视频版权的泄露。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明根据一示例性实施例示出的视频数据处理方法的流程图;
图2为本发明根据一示例性实施例示出的视频数据处理装置的框图;
图3为本发明根据一示例性实施例示出的另一视频数据处理装置的框图;
图4为本发明根据一示例性实施例示出的另一视频数据处理装置的框图;
图5为本发明根据一示例性实施例示出的另一视频数据处理装置的框图;
图6为本发明根据一示例性实施例示出的另一视频数据处理装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本公开实施例提供了一种视频数据处理方法,该方法可用于视频数据处理或者其它用于视频数据处理的设备中,如图1所示,该方法包括步骤S101-S106:
在步骤S101中,从视频数据中识别出语音数据。
在步骤S102中,按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段,每个语音数据段的时长等于或小于预设时长。
例如,在一个时长为两小时的视频中,将该视频平均分成10段,则分段后的每段视频时长为12分钟,即每个语音数据段的时长也是12分钟。
在步骤S103中,将上述至少一个语音数据段分别发送给不同的处理部件,处理部件用于对自身接收到的语音数据段进行文字识别处理。
例如,将上述步骤S102中分成的10个语音数据段,分别发送给10个处理处理部件,并分别独立地进行数据处理,识别出各语音数据段中包含的语言信息,进而生成文字形式的识别结果。
在步骤S104中,接收处理设备各自传送来的文字识别结果和相应的语音数据段的信息。
其中,语音数据段的信息可以是其在视频中的位置或时长。
在步骤S105中,将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理。
在一个应用场景中,由于各处理部件生成文字识别结果的用时不同,所以接收到的各数据段的顺序并非是各自在原视频中的顺序,此时,需要对各视频段按照各自在原视频中的位置进行重新排列。
在步骤S106中,获取视频数据的字幕信息。
其中,获取到的字幕信息是连贯地、按照原视频中音频数据的播放顺序进行拼接排列后的整体。
上述方法的有益效果是,有效提高了视频数据处理的效率,并且防止了视频版权的泄露。
在一个实施例中,上述处理部件可包括处理设备和/或处理程序。
例如处理设备是可以是电子计算机、多媒体终端等,处理程序可以是AdobePremiere、会声会影等。
在一个实施例中,步骤S102还可实施为:
对至少一个语音数据段分别进行标识处理,获得每个语音数据段的标识;
其中,标识处理可以是记录该音频数据段在视频中的位置或者某个特定帧对应的音频信号。
则此时,步骤S103可实施为:将语音数据段的标识同时发送给处理该语音数据段的处理部件;
相应地,步骤S104可实施为:接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。
上述方法的有益效果是:提高各音频数据段拼接的速度和准确性,还方便技术人员日后对视频进行二次或多次编辑时,可以仅通过查找某个音频数据段的标识从而获取整个视频数据段,提高了编辑效率。
在一个实施例中,步骤S105还可实施为:
将所述字幕信息与原视频数据进行整合。
具体实施为将获取的字幕信息与原视频进行合成处理,使视频中的音频与音频数据对应的字幕信息实现同步;此时步骤S106可实施为,获取将字幕信息与原视频数据进行合成后的视频。有益效果是使观众能够更加全面的掌握视频内容。
对应本发明实施例提供的视频数据处理方法,本发明还提供视频数据处理装置,如图2所示,该装置可包括:
识别模块21,用于从视频数据中识别出语音数据;
分段模块22,用于按照在视频数据中的时间顺序将语音数据依序分段,获得至少一个语音数据段,每个语音数据段的时长等于或小于预设时长;
发送模块23,用于将上述至少一个语音数据段分别发送给不同的处理部件,处理部件用于对自身接收到的语音数据段进行文字识别处理;
接收模块24,用于接收处理设备各自传送来的文字识别结果和相应的语音数据段的信息;
处理模块25,用于将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理;
获取模块26,用于获取视频数据的字幕信息。
在一个实施例中,处理部件可包括处理设备和/或处理程序。
在一个实施例中,如图3所示,分段模块22可包括:
标识子模块221,用于对至少一个语音数据段分别进行标识处理,获得每
个语音数据段的标识;
如图4所示,发送模块23可包括:
发送子模块231,用于将语音数据段的标识同时发送给处理该语音数据段的处理部件;
如图5所示,接收模块24可包括:
接收子模块241,用于接收处理设备各自传送来的文字识别结果和相应的语音数据段的标识。
在一个实施例中,如图6所示,处理模块25可包括:
整合子模块251,用于将字幕信息与原视频数据进行整合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种视频数据处理方法,其特征在于,包括:
从所述视频数据中识别出语音数据;
按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段,每个语音数据段的时长等于或小于预设时长;
将所述至少一个语音数据段分别发送给不同的处理部件,所述处理部件用于对自身接收到的语音数据段进行文字识别处理;
接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息;
将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理;
获取所述视频数据的字幕信息。
2.如权利要求1所述的方法,其特征在于,
所述处理部件包括处理设备和/或处理程序。
3.如权利要求1或2所述的方法,其特征在于,
所述按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段之后,还包括:对至少一个语音数据段分别进行标识处理,获得每个语音数据段的标识;
所述将所述至少一个语音数据段分别发送给不同的处理部件的同时,还包括:将所述语音数据段的标识同时发送给处理该语音数据段的处理部件;
所述接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息,还包括:接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。
4.如权利要求1所述的方法,其特征在于,所述将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理,还包括:将所述字幕信息与原视频数据进行整合。
5.一种视频数据处理装置,其特征在于,包括:
识别模块,用于从所述视频数据中识别出语音数据;
分段模块,用于按照在视频数据中的时间顺序将所述语音数据依序分段,获得至少一个语音数据段,每个语音数据段的时长等于或小于预设时长;
发送模块,用于将所述至少一个语音数据段分别发送给不同的处理部件,所述处理部件用于对自身接收到的语音数据段进行文字识别处理;
接收模块,用于接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的信息;
处理模块,用于将接收到的文字识别结果按照相应的语音数据段在视频数据中的时间顺序,进行拼接处理;
获取模块,用于获取所述视频数据的字幕信息。
6.如权利要求5所述的装置,其特征在于,
所述处理部件包括处理设备和/或处理程序。
7.如权利要求5或6所述的装置,其特征在于,
所述分段模块,包括:标识子模块,用于对至少一个语音数据段分别进行标识处理,获得每个语音数据段的标识;
所述发送模块,包括:发送子模块,用于将所述语音数据段的标识同时发送给处理该语音数据段的处理部件;
所述接收模块,包括:接收子模块,用于接收所述处理设备各自传送来的文字识别结果和相应的语音数据段的标识。
8.如权利要求5所述的装置,其特征在于,所述处理模块,包括:
整合子模块,用于将所述字幕信息与原视频数据进行整合。
CN201510138078.4A 2015-03-26 2015-03-26 一种视频数据处理方法及装置 Pending CN106162323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510138078.4A CN106162323A (zh) 2015-03-26 2015-03-26 一种视频数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510138078.4A CN106162323A (zh) 2015-03-26 2015-03-26 一种视频数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN106162323A true CN106162323A (zh) 2016-11-23

Family

ID=57338986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510138078.4A Pending CN106162323A (zh) 2015-03-26 2015-03-26 一种视频数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106162323A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109040779A (zh) * 2018-07-16 2018-12-18 腾讯科技(深圳)有限公司 字幕内容生成方法、装置、计算机设备及存储介质
CN109309844A (zh) * 2017-07-26 2019-02-05 腾讯科技(深圳)有限公司 视频台词处理方法、视频客户端及服务器
CN112528073A (zh) * 2019-09-03 2021-03-19 北京国双科技有限公司 视频生成方法及装置
CN113411326A (zh) * 2021-06-17 2021-09-17 上海明略人工智能(集团)有限公司 用于音频加密的方法及装置、电子设备、系统、可读存储介质
CN114420125A (zh) * 2020-10-12 2022-04-29 腾讯科技(深圳)有限公司 音频处理方法、装置、电子设备及介质
CN115250377A (zh) * 2021-04-27 2022-10-28 深圳市帧彩影视科技有限公司 视频处理方法、处理平台、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006115606A2 (en) * 2005-04-26 2006-11-02 Thomson Licensing Synchronized stream packing
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN103561217A (zh) * 2013-10-14 2014-02-05 深圳创维数字技术股份有限公司 一种生成字幕的方法及终端
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006115606A2 (en) * 2005-04-26 2006-11-02 Thomson Licensing Synchronized stream packing
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN103561217A (zh) * 2013-10-14 2014-02-05 深圳创维数字技术股份有限公司 一种生成字幕的方法及终端
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309844A (zh) * 2017-07-26 2019-02-05 腾讯科技(深圳)有限公司 视频台词处理方法、视频客户端及服务器
CN109040779A (zh) * 2018-07-16 2018-12-18 腾讯科技(深圳)有限公司 字幕内容生成方法、装置、计算机设备及存储介质
CN109040779B (zh) * 2018-07-16 2019-11-26 腾讯科技(深圳)有限公司 字幕内容生成方法、装置、计算机设备及存储介质
CN112528073A (zh) * 2019-09-03 2021-03-19 北京国双科技有限公司 视频生成方法及装置
CN112528073B (zh) * 2019-09-03 2024-07-26 北京国双科技有限公司 视频生成方法及装置
CN114420125A (zh) * 2020-10-12 2022-04-29 腾讯科技(深圳)有限公司 音频处理方法、装置、电子设备及介质
CN115250377A (zh) * 2021-04-27 2022-10-28 深圳市帧彩影视科技有限公司 视频处理方法、处理平台、电子设备及存储介质
CN115250377B (zh) * 2021-04-27 2024-04-02 深圳市帧彩影视科技有限公司 视频处理方法、处理平台、电子设备及存储介质
CN113411326A (zh) * 2021-06-17 2021-09-17 上海明略人工智能(集团)有限公司 用于音频加密的方法及装置、电子设备、系统、可读存储介质

Similar Documents

Publication Publication Date Title
CN106162323A (zh) 一种视频数据处理方法及装置
US8150687B2 (en) Recognizing speech, and processing data
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
US8818173B2 (en) Synchronous data tracks in a media editing system
CN111955013B (zh) 促进实时流事件期间交互作用的方法和系统
CN108063970A (zh) 一种处理直播流的方法和装置
US20130007043A1 (en) Voice description of time-based media for indexing and searching
CN105898556A (zh) 一种外挂字幕的自动同步方法及装置
CN105376612A (zh) 一种视频播放方法、媒体设备、播放设备以及多媒体系统
CN113824986B (zh) 基于上下文直播音频审核方法、装置、存储介质及设备
CN103260082A (zh) 一种视频处理方法及装置
CN112954434B (zh) 字幕处理方法、系统、电子设备和存储介质
CN104994404A (zh) 一种为视频获取关键词的方法及装置
KR20160119218A (ko) 사운드 이미지 재생 방법 및 디바이스
CN104185088B (zh) 一种视频处理方法及装置
CN106162293A (zh) 一种视频声音与图像同步的方法及装置
US20140156651A1 (en) Automatic summarizing of media content
US11770590B1 (en) Providing subtitle for video content in spoken language
CN106791988A (zh) 多媒体数据轮播方法和终端
CN108597521A (zh) 音频角色分割与识别文字的交互系统、方法、终端及介质
CN104349173A (zh) 视频复读方法及装置
JP2010198247A (ja) 支援装置、支援プログラム、および支援方法
CN109858005B (zh) 基于语音识别的文档更新方法、装置、设备及存储介质
CN110312161B (zh) 一种视频配音方法、装置及终端设备
CN113923479A (zh) 音视频剪辑方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication