CN110933485A

CN110933485A - 一种视频字幕生成方法、系统、装置和存储介质

Info

Publication number: CN110933485A
Application number: CN201911000368.7A
Authority: CN
Inventors: 张金良
Original assignee: Tianmai Juyuan (hangzhou) Media Technology Co Ltd
Current assignee: Beijing Lajin Zhongbo Technology Co ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-03-27

Abstract

本发明公开了一种视频字幕生成方法、系统、装置和存储介质，所述方法包括获取视频的画面数据流和声音数据流，对所述画面数据流和声音数据流均进行相同的分段处理，分别对各所述声音数据段进行语音识别以及根据各所述文本段，分别在相应的画面数据段生成同步的字幕等步骤。本发明可以将视频信号中的声音数据流自动转换成字幕，并叠加到画面数据流，免去了现有技术中人工打字的过程，降低了使用成本和出错率，而且具有很低的时延，减少对直播的影响；通过对画面数据流和声音数据流进行分段处理，并对分段处理所得的多个声音数据段同时进行语音识别，可以成倍地提高语音识别的效率，进一步降低时延。本发明广泛应用于计算机技术领域。

Description

一种视频字幕生成方法、系统、装置和存储介质

技术领域

本发明涉及计算机技术领域，尤其是一种视频字幕生成方法、系统、装置和存储介质。

背景技术

在播送新闻、表演节目以及新兴的主播等视频时，如果视频中带有字幕，可以增强视频的信息表达力，增加观众的观看体验。传统的字幕添加方法是人工手打字幕文本，将字幕文本输入到视频处理软件中生成字幕。由于人工打字的速率有限，传统的字幕添加方法主要应用在具有事先预备好的发言稿的新闻播报领域，以及录制视频等领域。但是，直播形式的电视节目越来越多，春晚等直播节目中主持人与观众的即兴交流越来越多，难以根据确定的发言稿去进行手打字幕文本；新近出现的主播视频和自媒体等形式的视频，其表演、录制和播送均由一人完成，不能安排专门的打字员去手打字幕文本。传统的字幕添加方法已不能适应上述这些应用场景的需求。

通过计算机语音识别技术可以快速将声音信号转换成文字文本，其转换速度是打字员先收听视频中人物的发言再进行打字这一过程所不能比拟的。公布号为CN109819202A的专利申请文件所记载的字幕添加装置及字幕添加方法，介绍了如何将计算机语音识别技术用于解决视频字幕的自动生成这一技术问题。该专利申请文件所记载的技术方案可以实现根据所输入的视频信号，自动生成字幕并叠加到视频上，免去人工打字所带来的一系列缺点。但是，该技术的缺点是，最终输出的带有字幕的视频信号与输入的视频信号之间可能具有较大的时延，由于该技术方案主要是针对视频会议设计的，在视频会议环境下较大的时延是可以接受的，但是如果将该技术方案应用到新闻、体育比赛、表演节目和主播等领域，较大的时延则可能造成不愉快的观看体验。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种视频字幕生成方法、系统、装置和存储介质。

一方面，本发明实施例中包括一种视频字幕生成方法，包括以下步骤：

获取视频的画面数据流和声音数据流；

对所述画面数据流和声音数据流均进行相同的分段处理；所述分段处理将所述画面数据流分解成为多个画面数据段，也将所述声音数据流分解成为多个声音数据段；

分别对各所述声音数据段进行语音识别；所述语音识别分别根据各所述声音数据段识别得到相应的文本段；

根据各所述文本段，分别在相应的画面数据段生成同步的字幕。

进一步地，所述获取视频的画面数据流和声音数据流这一步骤，具体包括：

缓存一段时间的视频信号；

将所缓存的所述视频信号分离为所述画面数据流和声音数据流。

进一步地，所述对所述画面数据流和声音数据流均进行相同的分段处理这一步骤，具体包括：

确定分段长度；

将所述声音数据流分解为多个时长均等于所述分段长度的声音数据段；

将所述画面数据流分解为多个时长均等于所述分段长度的画面数据段。

对所述声音数据流进行去噪处理；所述去噪处理用于去除声音数据流中携带的噪音和环境音；

对经过去噪处理的所述声音数据流进行时域分析，获取所述时域分析输出的时域波形图；

对所述时域波形图上持续时间超过预设阈值的零值点进行检测；

将所检测到的相邻各零值点之间的时间间隔确定为分段长度；

按照所确定的各所述分段长度，将所述声音数据流分解为多个具有相应时长的的声音数据段，将所述画面数据流分解为多个具有相应时长的的画面数据段。

对经过去噪处理的所述声音数据流进行频域分析，获取所述频域分析输出的频谱图；

从所述频谱图识别出所述声音数据流中对应最大能量的声音频率；

根据所识别出的所述声音频率计算单位发音长度；所述单位发音长度为所述声音频率的倒数；

根据所述单位发音长度的整数倍确定分段长度；

进一步地，所述视频字幕生成方法还包括以下步骤：

将生成字幕之后的各所述画面数据段重新合成为画面数据流；

将各所述声音数据段重新合成为声音数据流；

将重新合成所得的画面数据流和声音数据流合成为视频信号。

进一步地，所述视频字幕生成方法还包括以下步骤：

获取由各所述文本段依次拼合所成的一个组合文本；

对所述组合文本进行语义分析；

根据所述语义分析的结果，对各所述文本段中的相应字符进行修正。

另一方面，本发明实施例中还包括一种视频字幕生成系统，包括：

数据流获取模块，用于获取视频的画面数据流和声音数据流；

数据流分段模块，用于对所述画面数据流和声音数据流均进行相同的分段处理；所述分段处理将所述画面数据流分解成为多个画面数据段，也将所述声音数据流分解成为多个声音数据段；

语音识别模块，用于分别对各所述声音数据段进行语音识别；所述语音识别分别根据各所述声音数据段识别得到相应的文本段；

字幕生成模块，用于根据各所述文本段，分别在相应的画面数据段生成同步的字幕。

另一方面，本发明实施例中还包括一种视频字幕生成装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明实施例所述方法。

另一方面，本发明实施例中还包括一种介质，其具有存储功能，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行本发明实施例所述方法。

本发明的有益效果是：实施例中所述的视频字幕生成方法可以在视频播送过程的任何一个环节执行字幕生成方法，可移植性强；可以对直播或回放产生的视频信号进行处理，将视频信号中的声音数据流自动转换成字幕，并叠加到画面数据流，免去了现有技术中人工打字的过程，降低了使用成本和出错率，而且，由于语音识别算法的效率很高，对视频信号的接收和字幕的生成和叠加等过程可以在很短的时间内完成，与现有技术相比具有很低的时延，减少对直播的影响；通过缓存得到画面数据流和声音数据流，对画面数据流和声音数据流进行分段处理，并对分段处理所得的多个声音数据段同时进行语音识别，可以成倍地提高语音识别的效率，进一步降低时延。

附图说明

图1为实施例中所述视频字幕生成方法的流程图；

图2为实施例中所述视频字幕生成方法的原理图；

图3为实施例中对所述画面数据流和声音数据流进行分段处理的一种原理示意图；

图4为实施例中所述时域波形图的示意图；

图5为实施例中对所述画面数据流和声音数据流进行分段处理的另一种原理示意图。

具体实施方式

实施例1

本实施例中所述一种视频字幕生成方法，参照图1，包括以下步骤：

S1.获取视频的画面数据流和声音数据流；

S2.对所述画面数据流和声音数据流均进行相同的分段处理；所述分段处理将所述画面数据流分解成为多个画面数据段，也将所述声音数据流分解成为多个声音数据段；

S3.分别对各所述声音数据段进行语音识别；所述语音识别分别根据各所述声音数据段识别得到相应的文本段；

S4.根据各所述文本段，分别在相应的画面数据段生成同步的字幕。

所述步骤S1-S4适用于对新闻、体育比赛、表演节目、电视剧、电影、小视频和主播等产生的视频信号进行处理，从而生成字幕并添加到视频画面中。步骤S1-S4既适用于对直播形式的视频信号进行处理，也适用于对录播形式的视频信号进行处理，它们的主要原理是一样的。由于观众对视频的时效性要求逐渐提高，越来越倾向于收看直播形式的视频，而且向视频添加字幕的技术难点也集中在直播形式的视频，因此本实施例以向直播形式的视频添加字幕为例对本发明字幕生成方法进行说明。

在直播形式的视频放送中，一般包含以下参与者：视频拍摄者、视频制作者、视频发送者、视频中转者、视频接收者和视频观看者，并且存在由一人或一个单位同时作为不同的参与者的情况。例如，在联欢晚会节目中，晚会现场的视频拍摄者拍摄得到原始信号，并将原始信号上传到后台的视频制作者；视频制作者对原始信号进行镜头切换、尺寸调整和色彩渲染等处理后得到视频信号，并将视频信号传送到视频发送者；视频发送者的身份可以是电视台的卫星发射站以及互联网视频分享平台的服务器等；视频发送者对外发送视频信号，或者开放供不同的终端访问，使得这些终端可以获取到视频信号，例如电视台通过卫星或者有线网络发送视频信号，使得分布在各地的电视机可以接收到视频信号并进行播放，使用手机或电脑等终端访问互联网视频分享平台的服务器，可以在线播放视频信号；视频中转者是分布在各地的信号中转站或者镜像服务器，其起到信号增益以及访问分流的作用，以增强观众接收到视频信号的成功率；视频接收者是接收视频信号的手机、电脑或电视机等终端及其观众，当这些终端的所有权属于其观众时，所述视频接收者和视频观看者是同一主体，而现实中也存在终端的所有权人与观众并非同一主体的情况，例如设置在体育场的公共大屏幕，其所有权属于体育场管理方，此时视频接收者是指体育场管理方及公共大屏幕，而视频观看者是指体育场内的观众。

上述视频拍摄者、视频制作者、视频发送者、视频中转者、视频接收者和视频观看者等参与者参与的视频放送过程中，在数据层面的原理是视频拍摄者所拍摄得到的视频信号形成数据流，沿着各参与者组成的数据链路，最终流向至最末的视频观看者处被转换成为视觉效果和听觉效果，供观众收听和收看。在视频信号数据流动过程中，各参与者都可以对视频信号进行处理，例如缓存、读取、尺寸变换、格式转换、压缩、解压、加密和解密等，得益于各参与者强大的计算机处理能力，这些处理过程只需要占用较少的时间，因此视频信号数据流动的时延较小，即最终放映出的视觉效果和听觉效果与视频拍摄现场的视觉效果和听觉效果之间的时差较小，实现直播效果。

在各参与者分别具有数据存储能力和处理能力的情况下，所述视频字幕生成方法中的步骤S1-S4可以分别交由不同的参与者来执行，也可以集中交由同一参与者来执行。本实施例中，以同一参与者来执行步骤S1-S4为例，来对所述视频字幕生成方法进行说明。

由处于不同环节的参与者执行步骤S1-S4可以取得不同的最终放映效果，这主要是因为不同的参与者所具备的数据存储能力和处理能力不同，从而影响直播的时延；而不同的参与者所使用的语音识别不同，可能会导致语音识别效果具有不同的风格，影响最终放映出的视觉效果和听觉效果。例如，如果由视频制作者来执行步骤S1-S4，由于视频制作者一般是电视台或者互联网视频分享平台，他们一般使用性能更强大的计算机设备，执行步骤S1-S4所耗费的时间更少，因此使得整个视频信号放送过程的时延更小，而视频制作者所放送的视频信号可能供多个不同的视频接收者接收，最终供不同的视频观看者观看，这些视频观看者最终观看到的字幕是由视频制作者执行步骤S1-S4所生成和添加的，因此视频制作者执行步骤S3时所使用的语音识别算法的识别风格将影响多个视频观看者。如果由视频接收者来执行步骤S1-S4，由于视频接收者一般是普通用户，他们一般使用性能不强大的家用电脑或者手机等设备，执行步骤S1-S4所耗费的时间更多，因此使得整个视频信号放送过程的时延更大，而视频制作者所放送的视频信号可能供多个不同的视频接收者接收，这些视频信号本身是不带有字幕的，由视频接收者各自执行步骤S1-S4去添加字幕，因此视频接收者执行步骤S3时所使用的语音识别算法的识别风格仅影响个别视频观看者，其他视频接收者可以根据个人喜好选择使用其他语音识别算法，或者不执行步骤S1-S4，即选择观看无字幕的视频。

无论是哪一参与者执行步骤S1-S4，其依赖的根本原理都是一样的，本领域技术人员可以根据执行步骤S1-S4的参与者所使用的计算机设备，使用合适的编程语言编写计算机程序，从而执行步骤S1-S4，不同的参与者执行步骤S1-S4一般仅有处理速度上的区别。

本实施例中，所述步骤S1是由以下的步骤S101和S102组成的：

S101.缓存一段时间的视频信号；

S102.将所缓存的所述视频信号分离为所述画面数据流和声音数据流。

通过执行步骤S101和S102，可以获取到后续步骤S2-S4中所要处理的对象，即视频信号及其分离得到的画面数据流和声音数据流。

执行步骤S101和S102的硬件基础是有足够大的存储空间，这些存储空间可以使用先进先出的方式来缓存视频信号。

例如，在存储器中设置第一存储区和第二存储区，分别用于缓存时长为10s的视频信号。第一存储区和第二存储区轮流工作，同一时间只有一个存储区用于缓存视频信号，当其中一个存储区存储满时，切换到由另一存储区缓存视频信号，对于已存储满的存储区，从中读取出所缓存的视频信号进行处理，并清空这个已存储满的存储区。

所缓存的视频信号包括画面部分和声音部分，分别用于产生视觉效果和听觉效果，它们在数据层面的表现形式为数据流，即分别形成画面数据流和声音数据流。步骤S102的具体执行过程与视频信号的格式有关，例如通过同轴电缆传输的模拟形式的视频信号，其画面数据流和声音数据流分别被调制至不同的频段，可以通过选频的方式分离得到画面数据流和声音数据流；而一些电视信号服务商所提供的视频信号是使用MPEG2格式编码的，可以使用该编码标准对视频信号进行解码，从而分离得到画面数据流和声音数据流。

从同一视频信号分离得到的画面数据流和声音数据流具有相同的时长。例如从缓存时长为10s的视频信号分离得到的画面数据流和声音数据流，其时长均为10s。如果使用视频播放软件单独播放画面数据流，则可以播放出没有声音的视频画面；如果使用音乐播放软件单独播放声音数据流，则可以播放出没有视频画面的声音。

步骤S2中，所述分段处理是指对画面数据流和声音数据流进行切割，使得其分别成为多个画面数据段和声音数据段。所述分段处理应当是可逆的，也就是分段处理所得的画面数据段与画面数据流是部分和整体的关系，分段处理的过程中不应造成数据的损失，可以将分段处理所得的所有的画面数据段重新生成画面数据流，对声音数据流的分段处理同理。

所述相同的分段处理是指所得的画面数据段的个数与声音数据段的个数相同，而且每个画面数据段的时长与对应的声音数据段的时长相等。经过所述相同的分段处理，每个画面数据段与其对应的声音数据段都可以组合成可以播放出视频画面和配套的声音的视频段。

步骤S3中，对各所述声音数据段进行语音识别的过程是同时进行的，即同时地独立执行对各所述声音数据段进行语音识别的过程。所述语音识别可以使用现有的语音识别算法来实现，这些语音识别算法可能需要向开发者请求商业授权。所述语音识别是将语音信号转换成相应的文本，在本实施例中，将一个声音数据段输入到语音识别算法，语音识别算法将输出相应的文本段。也就是说，本实施例中，执行步骤S3之后，画面数据段、声音数据段和文本段具有一一对应的关系。

语音识别算法除了生成文本段之外，还根据声音数据段中的发音时间，确定并记录文本段中每个文本字符的出现时间，也就是将文本段中每个文本字符与声音数据段和画面数据段中的时间轴进行对应，使得执行步骤S4时，所生成的字幕可以与画面数据段的播放同步。步骤S4中，将每个文本字符图形化并叠加到对应数据轴相同位置的画面中，从而实现字幕的生成。

步骤S1-S4的原理如图2所示。执行步骤S1-S4可以取得以下技术效果：

可以在视频播送过程的任何一个环节执行字幕生成方法，可移植性强；可以对直播或回放产生的视频信号进行处理，将视频信号中的声音数据流自动转换成字幕，并叠加到画面数据流，免去了现有技术中人工打字的过程，降低了使用成本和出错率，而且，由于语音识别算法的效率很高，对视频信号的接收和字幕的生成和叠加等过程可以在很短的时间内完成，与现有技术相比具有很低的时延，减少对直播的影响；通过缓存得到画面数据流和声音数据流，对画面数据流和声音数据流进行分段处理，并对分段处理所得的多个声音数据段同时进行语音识别，可以成倍地提高语音识别的效率，进一步降低时延。

进一步作为优选的实施方式，所述步骤S2，也就是对所述画面数据流和声音数据流均进行相同的分段处理这一步骤，具体包括：

S201A.确定分段长度；

S202A.将所述声音数据流分解为多个时长均等于所述分段长度的声音数据段；

S203A.将所述画面数据流分解为多个时长均等于所述分段长度的画面数据段。

所述步骤S201A-S203A是本实施例中步骤S3的第一种具体实现方式。

步骤S201A-S203A的原理如图3所示。所述分段长度是一自定义的时长，例如设定为1s。通过执行步骤S202A和S203A，所分解得到的声音数据段和画面数据段的时长均为1s。执行步骤S201A-S203A的优点在于逻辑简单、计算量低，只需要设定统一的分段长度即可进行划分，对执行这些步骤的计算机设备的性能要求较低。

S201B.对所述声音数据流进行去噪处理；所述去噪处理用于去除声音数据流中携带的噪音和环境音；

S202B.对经过去噪处理的所述声音数据流进行时域分析，获取所述时域分析输出的时域波形图；

S203B.对所述时域波形图上持续时间超过预设阈值的零值点进行检测；

S204B.将所检测到的相邻各零值点之间的时间间隔确定为分段长度；

S205B.按照所确定的各所述分段长度，将所述声音数据流分解为多个具有相应时长的的声音数据段，将所述画面数据流分解为多个具有相应时长的的画面数据段。

所述步骤S201B-S205B是本实施例中步骤S3的第二种具体实现方式。

步骤S201B中，使用去噪算法比声音数据流进行处理，可以滤除声音数据流中携带的噪音和环境音，仅保留声音数据流中的人物说话声音，以便于后续进行语音识别。

步骤S202B中，对声音数据流进行时域分析，可以获得如图4所示的时域波形图。时域波形图中包含有多组波形，每组波形分别对应人物的一个发音。根据自然规律，当人物讲话时，每个发音之间相隔一定的时间间隔，而所讲的两句话之间将有较长的时间间隔以形成停顿。不同人的停顿时间不同，普遍在0.5s左右。因此，可以设定0.5s为阈值，执行步骤S203B，检测时域波形图中持续时间超过0.5s的零点值，这些零点值对应的是讲话时的停顿点，即所讲的两个句子之间的分界点。

参照图4和图5，图4中测得的符合条件的零点值有两个，将第一个零点值的持续时间1设定为图5中的分段长度1，将第二个零点值的持续时间2设定为图5中的分段长度2，然后使用所设定的分段长度对画面数据流和声音长度进行分段处理。

通过执行步骤S201B-S205B，可以根据声音数据流中说话的停顿时间确定不同的分段长度，这使得分段处理所得到的每一声音数据段都分别包含完整的句子。当使用具有智能识别的语音识别算法执行步骤S3时，对完整句子的识别效果要比不完整句子的识别效果更好，因此对执行步骤S201B-S205B分段处理所得的声音数据段进行语音识别可以取得更准确的识别效果，提高所生成的字幕的质量。

S201C.对所述声音数据流进行去噪处理；所述去噪处理用于去除声音数据流中携带的噪音和环境音；

S202C.对经过去噪处理的所述声音数据流进行频域分析，获取所述频域分析输出的频谱图；

S203C.从所述频谱图识别出所述声音数据流中对应最大能量的声音频率；

S204C.根据所识别出的所述声音频率计算单位发音长度；所述单位发音长度为所述声音频率的倒数；

S205C.根据所述单位发音长度的整数倍确定分段长度；

S206C.按照所确定的各所述分段长度，将所述声音数据流分解为多个具有相应时长的的声音数据段，将所述画面数据流分解为多个具有相应时长的的画面数据段。

所述步骤S201C-S206C是本实施例中步骤S3的第三种具体实现方式。

步骤S201C中，使用去噪算法比声音数据流进行处理，可以滤除声音数据流中携带的噪音和环境音，仅保留声音数据流中的人物说话声音，以便于后续进行语音识别。

步骤S202B中，对声音数据流进行FFT等频域分析，可以获得频谱图。频谱图中包含的波形表示了声音数据流中各频率组分所对应的能量，从中识别出对应最大能量的声音频率。由频域分析的原理可知，讲话时语速是相对固定的，即每个字的发音频率是相对恒定的。在消除声音数据流中的噪音之后，频谱图中对应最大强度的声音频率，实际上就是讲话中的发音频率，即对应最大强度的声音频率的倒数就是讲话中两个字发音之间的时间间隔，也就是步骤S204C计算所得的单位发音长度。

步骤S205C和S206C中，以所述单位发音长度的整数倍确定分段长度，并使用所确定的分段长度去对声音数据流进行分段，可以在一定程度上保证分段所得的各声音数据段包含完整的单字发音，在一定程度上避免出现同一个字的发音被分在了不同的声音数据段中的情况，从而提高对各声音数据段的语音识别准确率。

进一步作为优选的实施方式，所述视频字幕生成方法还包括以下步骤：

S5.将生成字幕之后的各所述画面数据段重新合成为画面数据流；

S6.将各所述声音数据段重新合成为声音数据流；

S7.将重新合成所得的画面数据流和声音数据流合成为视频信号。

本实施例中，对画面数据流和声音数据流的分段是可逆的，可以将各画面数据段和各声音数据段分别进行合成。视执行步骤S1-S7的参与者的不同，最后合成的视频信号可以进行发送、中继或者播放等处理，例如由视频制作者执行步骤S1-S7时，执行步骤S7所得的视频信号可以继续发送出去供视频接收者接收。

S3A.获取由各所述文本段依次拼合所成的一个组合文本；

S3B.对所述组合文本进行语义分析；

S3C.根据所述语义分析的结果，对各所述文本段中的相应字符进行修正。

所述步骤S3A-S3C可以在执行步骤S3之后、执行步骤S4之前执行。

步骤S3A中，对执行步骤S3所得的文本段进行拼合，所得的组合文本实际上是对声音数据流整体进行语音识别的结果。步骤S3B和S3C中，使用语义分析算法对组合文本进行语义分析，识别和纠正组合文本中的语法瑕疵。

通过执行步骤S3A-S3C，可以将分别进行的语音识别的结果统一到一个组合文本中进行语义分析，从而纠正对不同声音数据段分别进行语音识别时可能产生的识别错误，提高对声音数据流整体的识别正确率，进而提高所生成的字幕的质量。

本实施例还包括一种视频字幕生成系统，包括：

所述数据流获取模块、数据流分段模块、语音识别模块和字幕生成模块可以是具有相应功能的硬件模块或软件模块。

本实施例还包括一种视频字幕生成装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行所述视频字幕生成方法。

本实施例还包括一种介质，其具有存储功能，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述视频字幕生成方法。

所述的视频字幕生成系统、装置和存储介质，可以执行本发明实施例所述视频字幕生成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读介质在计算机程序中实现，其中如此配置的介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像系统、装置通信等等。本发明的各方面可以以存储在非暂时性介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入介质、RAM、ROM等，使得其可由可编程计算机读取，当介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种视频字幕生成方法，其特征在于，包括以下步骤：

获取视频的画面数据流和声音数据流；

2.根据权利要求1所述的一种视频字幕生成方法，其特征在于，所述获取视频的画面数据流和声音数据流这一步骤，具体包括：

缓存一段时间的视频信号；

3.根据权利要求1所述的一种视频字幕生成方法，其特征在于，所述对所述画面数据流和声音数据流均进行相同的分段处理这一步骤，具体包括：

确定分段长度；

4.根据权利要求1所述的一种视频字幕生成方法，其特征在于，所述对所述画面数据流和声音数据流均进行相同的分段处理这一步骤，具体包括：

5.根据权利要求1所述的一种视频字幕生成方法，其特征在于，所述对所述画面数据流和声音数据流均进行相同的分段处理这一步骤，具体包括：

根据所述单位发音长度的整数倍确定分段长度；

6.根据权利要求1所述的一种视频字幕生成方法，其特征在于，还包括以下步骤：

将各所述声音数据段重新合成为声音数据流；

7.根据权利要求1所述的一种视频字幕生成方法，其特征在于，还包括以下步骤：

获取由各所述文本段依次拼合所成的一个组合文本；

对所述组合文本进行语义分析；

8.一种视频字幕生成系统，其特征在于，包括：

9.一种视频字幕生成装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-7任一项所述方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。