CN111986656A

CN111986656A - 教学视频自动字幕处理方法与系统

Info

Publication number: CN111986656A
Application number: CN202010891570.XA
Authority: CN
Inventors: 樊星
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-11-24
Anticipated expiration: 2040-08-31
Also published as: CN111986656B

Abstract

本发明提供了教学视频自动字幕处理方法与系统，其通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，其通过自动化的方式来识别教学视频中的声音信息，再根据该声音信息生成相应的字幕以添加到教学视频中，其能够快速地对教学视频进行字幕的自动加工处理，从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。

Description

教学视频自动字幕处理方法与系统

技术领域

本发明涉及智能教育的技术领域，特别涉及教学视频自动字幕处理方法与系统。

背景技术

目前，智能教学需要借助相应的教学视频执行预设课程的教授，而现有的教学视频通常都是预先录制形成的，但是录制形成的教学视频是未配置有字幕的，在缺少字幕的情况下，用户可能无法清楚地和准确地理解教学视频中的语音信息，这严重地降低了教学视频对不同场合的适用性。现有技术通常是通过人工方式识别教学视频中的语音信息，再根据该语音信息生成相应的字幕以添加到教学视频中，但是这种方式不仅工作大、效率低下，并且还容易出现字幕翻译错误和字幕显示时序发生偏差的情况。

发明内容

针对现有技术存在的缺陷，本发明提供教学视频自动字幕处理方法与系统，其通过将预设教学视频拆解为连续图像数据和连续声音数据，并按照该预设教学视频的播放时间轴信息，将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据，并对若干该声音片段子数据进行语音识别，从而获得关于每一个该声音片段子数据对应的语音识别数据，并将该语音识别数据转换为预设语种的文字片段数据，再将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据该播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干该图像帧片段子数据与若干该声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频；可见，该教学视频自动字幕处理方法与系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，其通过自动化的方式来识别教学视频中的声音信息，再根据该声音信息生成相应的字幕以添加到教学视频中，其能够快速地对教学视频进行字幕的自动加工处理，从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。

本发明提供教学视频自动字幕处理方法，其特征在于，其包括如下步骤：

步骤S1，将预设教学视频拆解为连续图像数据和连续声音数据，并按照所述预设教学视频的播放时间轴信息，将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据；

步骤S2，对若干所述声音片段子数据进行语音识别，从而获得关于每一个所述声音片段子数据对应的语音识别数据，并将所述语音识别数据转换为预设语种的文字片段数据；

步骤S3，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频；

进一步，在所述步骤S1中，将预设教学视频拆解为连续图像数据和连续声音数据，并按照所述预设教学视频的播放时间轴信息，将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括，

步骤S101，在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理，从而分别提取得到所述连续图像数据和所述连续声音数据；

步骤S102，以所述同一起始时刻为基准，从所述预设教学视频中提取得到所述播放时间轴信息，并将所述播放时间轴信息划分为若干具有相同长度的播放时间间隔；

步骤S103，按照若干所述播放时间间隔，将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据，其中，每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间；

进一步，在所述步骤S2中，对若干所述声音片段子数据进行语音识别，从而获得关于每一个所述声音片段子数据对应的语音识别数据，并将所述语音识别数据转换为预设语种的文字片段数据具体包括，

步骤S201，对若干所述声音片段子数据进行背景噪声过滤去除处理，并识别每一个所述声音片段子数据对应的语种类型；

步骤S202，根据所述语种类型，对每一个所述声音片段子数据进行语音识别，从而得到对应的语音识别语句和/或词汇集合，以此作为所述语音识别数据；

步骤S203，对所述语音识别语句和/或词汇集合进行文本编辑，从而将所述语音识别数据转换为对应预设语种的文字片段数据；

进一步，在所述步骤S3中，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频具体包括，

步骤S301，确定所述文字片段数据包含的文字字数总量和所述文字片段数据对应的声音片段子数据的持续时间，并根据所述文字字数总量和所述持续时间，确定所述文字片段数据进行动态显示时对应的文字显示速度；

步骤S302，根据所述文字显示速度，将所述文字片段数据转换为动态显示播放的字幕片段数据；

步骤S303，根据所述播放时间轴信息，将所有所述图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列，并且将所述字幕片段数据序列依序添加至所述图像帧片段子数据序列；

步骤S304，将所述图像帧片段子数据序列中的图像帧片段子数据和若干所述声音片段子数据一一对应组合，从而生成带有自动显示字幕的教学视频。

在一个实施例中，在所述步骤S202中，根据所述语种类型，对每一个所述声音片段子数据进行语音识别，从而得到对应的语音识别语句和/或词汇集合，以此作为所述语音识别数据具体包括，

假设对于给定的一个声音片段子数据S由如下形式构成

s＝w₁，w_2，w₃，…，w_m (1)

在上述公式(1)中，w_i表示第i个声音统计基元、且i＝1，2，3，…，m，m表示声音统计基元的总数量；所述声音统计基元对应的文字包括字、词或者短语；

假设n1，n2，n3，…，nm分别表示声音统计基元w₁，w_2，w₃，…，w_m各自对应的同音基元数量，w_i对应的同音基元是指与所述w_i中的声音统计基元发声相同的文字，所述文字为一组或多组；则声音统计基元w₁对应的文字取w₁对应的第1个同音基元到第n1个同音基元中任一个同音基元的概率P(w_1j)为

在上述公式(2)中，j表示声音统计基元w₁对应的上述任一个同音基元的序号，其为1至n1中的任一正整数；

声音统计基元w₂对应的文字取w₂对应的第1个同音基元到第n2个同音基元中任一个同音基元的概率P(w_2j)为

在上述公式(3)中，j表示声音统计基元w₂的同音基元的序号，其为1至n2中的任一正整数，P(w_2j|w_1j)表示当所述声音统计基元w₂对应的文字取w₂对应的上述任一个同音基元的同时，声音统计基元w₁对应的文字取w₁对应的任一个同音基元的概率中的最大值；

同理，声音统计基元w_m对应的文字取w_m对应的第1个同音基元到第nm个同音基元中任一个同音基元的概率P(w_mj)为：

在上述公式(3)中，j表示声音统计基元w_m的同音基元的序号，其为1至nm中的任一正整数，P(w_mj|w_1jw_2j…w_(m-1)j)表示当所述声音统计基元w_m对应的文字取w_m对应的上述任一个同音基元的同时，其它声音统计基元对应的文字取该其它声音统计基元对应的任一个同音基元的概率中的最大值；

所述声音片段子数据S对应的语音识别数据共有

种可能的文字组合，取P(s)最大时对应的文字组合即为所述声音片段子数据S对应的语音识别数据；其中，P(s)＝max(P(w_1j)P(w_2j)…P(w_mj))。

在一个实施例中，所述步骤S3，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，具体包括步骤A1-A2：

步骤A1、将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，形成多个添加有字幕的图像帧片段子数据；

步骤A2、针对每个添加有字幕的图像帧片段子数据，执行如下步骤A21-A26：

步骤A21、对当前添加有字幕的图像帧片段子数据中包括的人物嘴部动作进行分析，确定出所述当前添加有字幕的图像帧片段子数据中嘴部发生动作的目标人物以及目标人物嘴部发生动作时所在的目标图像帧；

步骤A22、获取所述目标图像帧中添加的目标字幕；在当前添加有字幕的图像帧片段子数据对应的声音片段子数据中，获取所述目标字幕所对应的目标声音片段；获取所述目标声音片段对应的目标声音特征；

步骤A23、对所述目标图像帧中的目标人物人脸进行识别，获取所述目标人物的脸部特征；从预设的人物生物特征数据库中，确定所述目标人物的脸部特征对应的声音特征；

步骤A24、判断所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征是否相匹配；如果匹配，则执行步骤A25；如果不匹配，则执行步骤A26；

步骤A25、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征匹配，则根据所述目标人物的脸部特征从预设的人物信息数据库中查找所述目标人物对应的目标客户端，将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给所述目标客户端，由所述目标客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述目标人物，由所述目标人物对所述目标字幕进行校正，并由所述目标客户端接收所述目标人物输入的对所述目标字幕的校正结果，由所述目标客户端将对所述目标字幕的校正结果发送给所述服务器；所述服务器接收到所述目标字幕的校正结果后，对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正；

步骤A26、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征不匹配，则将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给预设客户端，由所述预设客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述预设客户端的用户，由预设客户端的用户对所述目标字幕进行校正，并由所述预设客户端接收所述用户输入的对所述目标字幕的校正结果，由所述预设客户端将对所述目标字幕的校正结果发送给所述服务器；所述服务器接收到所述目标字幕的校正结果后，对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正。

本发明提供教学视频自动字幕处理系统，其包括教学视频拆解模块、图像/声音数据划分模块、语音识别与转换模块、文字片段生成模块、字幕片段生成模块、字幕片段添加模块和图像/声音重组合模块；其中，

所述教学视频拆解模块用于将预设教学视频拆解为连续图像数据和连续声音数据；

所述图像/声音数据划分模块用于按照所述预设教学视频的播放时间轴信息，将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据；

所述语音识别与转换模块用于对若干所述声音片段子数据进行语音识别，从而获得关于每一个所述声音片段子数据对应的语音识别数据；

所述文字片段生成模块用于将所述语音识别数据转换为预设语种的文字片段数据；

所述字幕片段生成模块用于将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据；

所述字幕片段添加模块用于根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中；

所述图像/声音重组合模块用于将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频；

进一步，所述教学视频拆解模块将预设教学视频拆解为连续图像数据和连续声音数据具体包括在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理，从而分别提取得到所述连续图像数据和所述连续声音数据；

所述图像/声音数据划分模块按照所述预设教学视频的播放时间轴信息，将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括，

以所述同一起始时刻为基准，从所述预设教学视频中提取得到所述播放时间轴信息，并将所述播放时间轴信息划分为若干具有相同长度的播放时间间隔，

再按照若干所述播放时间间隔，将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据，其中，每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间；

进一步，所述语音识别与转换模块对若干所述声音片段子数据进行语音识别，从而获得关于每一个所述声音片段子数据对应的语音识别数据具体包括，

对若干所述声音片段子数据进行背景噪声过滤去除处理，并识别每一个所述声音片段子数据对应的语种类型，

再根据所述语种类型，对每一个所述声音片段子数据进行语音识别，从而得到对应的语音识别语句和/或词汇集合，以此作为所述语音识别数据；

所述文字片段生成模块将所述语音识别数据转换为预设语种的文字片段数据具体包括对所述语音识别语句和/或词汇集合进行文本编辑，从而将所述语音识别数据转换为对应预设语种的文字片段数据；

进一步，所述字幕片段生成模块将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据具体包括，

确定所述文字片段数据包含的文字字数总量和所述文字片段数据对应的声音片段子数据的持续时间，并根据所述文字字数总量和所述持续时间，确定所述文字片段数据进行动态显示时对应的文字显示速度；

再根据所述文字显示速度，将所述文字片段数据转换为动态显示播放的字幕片段数据；

所述字幕片段添加模块根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中具体包括根据所述播放时间轴信息，将所有所述图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列，并且将所述字幕片段数据序列依序添加至所述图像帧片段子数据序列；

所述图像/声音重组合模块将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频具体包括将所述图像帧片段子数据序列中的图像帧片段子数据和若干所述声音片段子数据一一对应组合，从而生成带有自动显示字幕的教学视频。

相比于现有技术，该教学视频自动字幕处理方法与系统通过将预设教学视频拆解为连续图像数据和连续声音数据，并按照该预设教学视频的播放时间轴信息，将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据，并对若干该声音片段子数据进行语音识别，从而获得关于每一个该声音片段子数据对应的语音识别数据，并将该语音识别数据转换为预设语种的文字片段数据，再将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据该播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干该图像帧片段子数据与若干该声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频；可见，该教学视频自动字幕处理方法与系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，其通过自动化的方式来识别教学视频中的声音信息，再根据该声音信息生成相应的字幕以添加到教学视频中，其能够快速地对教学视频进行字幕的自动加工处理，从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的教学视频自动字幕处理方法的流程示意图。

图2为本发明提供的教学视频自动字幕处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的教学视频自动字幕处理方法的流程示意图。该教学视频自动字幕处理方法用于服务器，包括如下步骤：

步骤S1，将预设教学视频拆解为连续图像数据和连续声音数据，并按照该预设教学视频的播放时间轴信息，将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据；

步骤S2，对若干该声音片段子数据进行语音识别，从而获得关于每一个该声音片段子数据对应的语音识别数据，并将该语音识别数据转换为预设语种的文字片段数据；

步骤S3，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据该播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干该图像帧片段子数据与若干该声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频。

该教学视频自动字幕处理方法通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，其通过自动化的方式来识别教学视频中的声音信息，再根据该声音信息生成相应的字幕以添加到教学视频中，其能够快速地对教学视频进行字幕的自动加工处理，从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。

优选地，在该步骤S1中，将预设教学视频拆解为连续图像数据和连续声音数据，并按照该预设教学视频的播放时间轴信息，将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括，

步骤S101，在同一起始时刻对该预设教学视频进行图像-声音数据分离处理，从而分别提取得到该连续图像数据和该连续声音数据；

步骤S102，以该同一起始时刻为基准，从该预设教学视频中提取得到该播放时间轴信息，并将该播放时间轴信息划分为若干具有相同长度的播放时间间隔；

步骤S103，按照若干该播放时间间隔，将该连续图像数据和该连续声音数据分别划分为若干该图像帧片段子数据和若干该声音片段子数据，其中，每一个该图像帧片段子数据和每一个该声音片段子数据均具有相同的持续时间。

通过以同一起始时刻为基准，对预设教学视频进行图像信息和声音信息的分离处理以及图像信息和声音信息的划分处理，以此得到相应的图像帧片段子数据和声音片段子数据，这样能够有效地对图像信息和声音信息进行区分化分析处理，从而提高对教师视频分析的针对性和避免发生数据分析混乱的情况。

优选地，在该步骤S2中，对若干该声音片段子数据进行语音识别，从而获得关于每一个该声音片段子数据对应的语音识别数据，并将该语音识别数据转换为预设语种的文字片段数据具体包括，

步骤S201，对若干该声音片段子数据进行背景噪声过滤去除处理，并识别每一个该声音片段子数据对应的语种类型；

步骤S202，根据该语种类型，对每一个该声音片段子数据进行语音识别，从而得到对应的语音识别语句和/或词汇集合，以此作为该语音识别数据；

步骤S203，对该语音识别语句和/或词汇集合进行文本编辑，从而将该语音识别数据转换为对应预设语种的文字片段数据。

通过对该声音片段子数据进行背景噪声降噪处理和语种匹配的语音识别处理，能够保证对声音片段子数据的识别准确性以及提高该文字片段数据的语义准确性。

优选地，在该步骤S3中，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据该播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干该图像帧片段子数据与若干该声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频具体包括，

步骤S301，确定该文字片段数据包含的文字字数总量和该文字片段数据对应的声音片段子数据的持续时间，并根据该文字字数总量和该持续时间，确定该文字片段数据进行动态显示时对应的文字显示速度；

步骤S302，根据该文字显示速度，将该文字片段数据转换为动态显示播放的字幕片段数据；

步骤S303，根据该播放时间轴信息，将所有该图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列，并且将该字幕片段数据序列依序添加至该图像帧片段子数据序列；

步骤S304，将该图像帧片段子数据序列中的图像帧片段子数据和若干该声音片段子数据一一对应组合，从而生成带有自动显示字幕的教学视频。

通过字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，能够保证该字幕片段数据能够按照教学视频自身的播放进度融合到教学视频中，从而实现教学视频的智能化和高效化字幕配置。

假设对于给定的一个声音片段子数据S由如下形式构成

s＝w₁，w_2，w₃，…，w_m (1)

声音统计基元w₂对应的文字取w₂对应的第1个同音基元到第n2个同音基元中任一个同音基元的概率P(w_2j)为：

在上述公式(3)中，j表示声音统计基元w₂的同音基元的序号，其为1至n2中的任一正整数，P(w_2j|w_1j)表示当所述声音统计基元w₂对应的文字取w₂对应的上述任一个同音基元的同时，声音统计基元w₁对应的文字取w₁对应的任一个同音基元的概率中的最大值；例如“工商银行”，拼音是gong shang yin hang,如果第一个字是“工”,假如第二个字是shang的同音字有“商”、“上”、“伤”,那么就是算P(商|工)、P(上|工)、P(伤|工)在语料库中的概率，最大的那个就是前述概率中的最大值；

所述声音片段子数据S对应的语音识别数据共有

上述过程考虑到汉语中存在数量庞大的同音字问题，为了提升语音识别的准确性，最大限度减少音同别字的情况发生，其能够提高语音识别的准确性和最大限度地降低同音字误识别的情况发生。

步骤A26、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征不匹配，则将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给预设客户端，由所述预设客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述预设客户端的用户(可以是对视频进行统一处理的视频处理工作人员)，由预设客户端的用户对所述目标字幕进行校正，并由所述预设客户端接收所述用户输入的对所述目标字幕的校正结果，由所述预设客户端将对所述目标字幕的校正结果发送给所述服务器；所述服务器接收到所述目标字幕的校正结果后，对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正。

上述技术方案的有益效果为：当教学视频中包括多个人物说话，则可以按照上述技术方案分别向每个人物发送其自身说话时对应的视频片段及其字幕，由每个人物对自身说话时对应的字幕进行校正，使得可以各人负责各人所对应的字幕校正，使得校正准确率更高；同时，如果是对于不知道是哪个人物说话产生的字幕，则由对视频进行统一处理的视频处理工作人员统一进行处理(对应步骤A26)，经过上述手段，不仅可以提高字幕校正的准确率，而且由于字幕由多人配合一起进行校正，还可以提高校正的效率。

参阅图2，为本发明实施例提供的教学视频自动字幕处理系统的结构示意图。该教学视频自动字幕处理系统包括教学视频拆解模块、图像/声音数据划分模块、语音识别与转换模块、文字片段生成模块、字幕片段生成模块、字幕片段添加模块和图像/声音重组合模块；用于服务器，其中，

该教学视频拆解模块用于将预设教学视频拆解为连续图像数据和连续声音数据；

该图像/声音数据划分模块用于按照该预设教学视频的播放时间轴信息，将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据；

该语音识别与转换模块用于对若干该声音片段子数据进行语音识别，从而获得关于每一个该声音片段子数据对应的语音识别数据；

该文字片段生成模块用于将该语音识别数据转换为预设语种的文字片段数据；

该字幕片段生成模块用于将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据；

该字幕片段添加模块用于根据该播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中；

该图像/声音重组合模块用于将若干该图像帧片段子数据与若干该声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频。

该教学视频自动字幕处理系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，其通过自动化的方式来识别教学视频中的声音信息，再根据该声音信息生成相应的字幕以添加到教学视频中，其能够快速地对教学视频进行字幕的自动加工处理，从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。

优选地，该教学视频拆解模块将预设教学视频拆解为连续图像数据和连续声音数据具体包括在同一起始时刻对该预设教学视频进行图像-声音数据分离处理，从而分别提取得到该连续图像数据和该连续声音数据；

该图像/声音数据划分模块按照该预设教学视频的播放时间轴信息，将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括，

以该同一起始时刻为基准，从该预设教学视频中提取得到该播放时间轴信息，并将该播放时间轴信息划分为若干具有相同长度的播放时间间隔，

再按照若干该播放时间间隔，将该连续图像数据和该连续声音数据分别划分为若干该图像帧片段子数据和若干该声音片段子数据，其中，每一个该图像帧片段子数据和每一个该声音片段子数据均具有相同的持续时间。

优选地，该语音识别与转换模块对若干该声音片段子数据进行语音识别，从而获得关于每一个该声音片段子数据对应的语音识别数据具体包括，

对若干该声音片段子数据进行背景噪声过滤去除处理，并识别每一个该声音片段子数据对应的语种类型，

再根据该语种类型，对每一个该声音片段子数据进行语音识别，从而得到对应的语音识别语句和/或词汇集合，以此作为该语音识别数据；

该文字片段生成模块将该语音识别数据转换为预设语种的文字片段数据具体包括对该语音识别语句和/或词汇集合进行文本编辑，从而将该语音识别数据转换为对应预设语种的文字片段数据。

优选地，该字幕片段生成模块将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据具体包括，

确定该文字片段数据包含的文字字数总量和该文字片段数据对应的声音片段子数据的持续时间，并根据该文字字数总量和该持续时间，确定该文字片段数据进行动态显示时对应的文字显示速度；

再根据该文字显示速度，将该文字片段数据转换为动态显示播放的字幕片段数据；

该字幕片段添加模块根据该播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中具体包括根据该播放时间轴信息，将所有该图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列，并且将该字幕片段数据序列依序添加至该图像帧片段子数据序列；

该图像/声音重组合模块将若干该图像帧片段子数据与若干该声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频具体包括将该图像帧片段子数据序列中的图像帧片段子数据和若干该声音片段子数据一一对应组合，从而生成带有自动显示字幕的教学视频。

从上述实施例的内容可知，该教学视频自动字幕处理方法与系统通过将预设教学视频拆解为连续图像数据和连续声音数据，并按照该预设教学视频的播放时间轴信息，将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据，并对若干该声音片段子数据进行语音识别，从而获得关于每一个该声音片段子数据对应的语音识别数据，并将该语音识别数据转换为预设语种的文字片段数据，再将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据该播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干该图像帧片段子数据与若干该声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频；可见，该教学视频自动字幕处理方法与系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，其通过自动化的方式来识别教学视频中的声音信息，再根据该声音信息生成相应的字幕以添加到教学视频中，其能够快速地对教学视频进行字幕的自动加工处理，从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.教学视频自动字幕处理方法，其特征在于，用于服务器，其包括如下步骤：

步骤S3，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频。

2.如权利要求1所述的教学视频自动字幕处理方法，其特征在于：

在所述步骤S1中，将预设教学视频拆解为连续图像数据和连续声音数据，并按照所述预设教学视频的播放时间轴信息，将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括，

步骤S103，按照若干所述播放时间间隔，将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据，其中，每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间。

3.如权利要求1所述的教学视频自动字幕处理方法，其特征在于：

在所述步骤S2中，对若干所述声音片段子数据进行语音识别，从而获得关于每一个所述声音片段子数据对应的语音识别数据，并将所述语音识别数据转换为预设语种的文字片段数据具体包括，

步骤S203，对所述语音识别语句和/或词汇集合进行文本编辑，从而将所述语音识别数据转换为对应预设语种的文字片段数据。

4.如权利要求1所述的教学视频自动字幕处理方法，其特征在于：

在所述步骤S3中，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频具体包括，

5.如权利要求3所述的方法，其特征在于，

在所述步骤S202中，根据所述语种类型，对每一个所述声音片段子数据进行语音识别，从而得到对应的语音识别语句和/或词汇集合，以此作为所述语音识别数据具体包括，

假设对于给定的一个声音片段子数据S由如下形式构成

s＝w₁，w₂，w₃，…，w_m (1)

假设n₁，n₂，n₃，…，n_m分别表示声音统计基元w₁，w₂，w₃，…，w_m各自对应的同音基元数量，w_i对应的同音基元是指与所述w_i中的声音统计基元发声相同的文字，所述文字为一组或多组；则声音统计基元w₁对应的文字取w₁对应的第1个同音基元到第n₁个同音基元中任一个同音基元的概率P(w_1j)为

在上述公式(2)中，j表示声音统计基元w₁对应的上述任一个同音基元的序号，其为1至n₁中的任一正整数；

声音统计基元w₂对应的文字取w₂对应的第1个同音基元到第n₂个同音基元中任一个同音基元的概率P(w_2j)为：

在上述公式(3)中，j表示声音统计基元w₂的同音基元的序号，其为1至n₂中的任一正整数，P(w_2j|w_1j)表示当所述声音统计基元w₂对应的文字取w₂对应的上述任一个同音基元的同时，声音统计基元w₁对应的文字取w₁对应的任一个同音基元的概率中的最大值；

同理，声音统计基元w_m对应的文字取w_m对应的第1个同音基元到第n_m个同音基元中任一个同音基元的概率P(w_mj)为：

在上述公式(3)中，j表示声音统计基元w_m的同音基元的序号，其为1至n_m中的任一正整数，P(w_mj|w_1jw_2j…w_(m-1)j)表示当所述声音统计基元w_m对应的文字取w_m对应的上述任一个同音基元的同时，其它声音统计基元对应的文字取该其它声音统计基元对应的任一个同音基元的概率中的最大值；

所述声音片段子数据S对应的语音识别数据共有

6.如权利要求1所述的方法，其特征在于，

所述步骤S3，将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据，并根据所述播放时间轴信息，将所有字幕片段数据添加至其对应的图像帧片段子数据中，具体包括步骤A1-A2：

7.教学视频自动字幕处理系统，其特征在于，其包括教学视频拆解模块、图像/声音数据划分模块、语音识别与转换模块、文字片段生成模块、字幕片段生成模块、字幕片段添加模块和图像/声音重组合模块；其中，所述教学视频拆解模块用于将预设教学视频拆解为连续图像数据和连续声音数据；

所述图像/声音重组合模块用于将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合，从而生成带有自动显示字幕的教学视频。

8.如权利要求7所述的教学视频自动字幕处理系统，其特征在于：

所述教学视频拆解模块将预设教学视频拆解为连续图像数据和连续声音数据具体包括在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理，从而分别提取得到所述连续图像数据和所述连续声音数据；所述图像/声音数据划分模块按照所述预设教学视频的播放时间轴信息，将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括，

再按照若干所述播放时间间隔，将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据，其中，每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间。

9.如权利要求7所述的教学视频自动字幕处理系统，其特征在于：

所述语音识别与转换模块对若干所述声音片段子数据进行语音识别，从而获得关于每一个所述声音片段子数据对应的语音识别数据具体包括，对若干所述声音片段子数据进行背景噪声过滤去除处理，并识别每一个所述声音片段子数据对应的语种类型，

或者

所述字幕片段生成模块将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据具体包括，