CN106328146A

CN106328146A - 一种视频的字幕生成方法及装置

Info

Publication number: CN106328146A
Application number: CN201610701574.0A
Authority: CN
Inventors: 石江; 曹建中
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2017-01-11

Abstract

本发明适用字幕制作技术领域，提供了一种视频的字幕生成方法及装置，该方法包括：获取输入的视频文件中包含的音频数据，提取音频数据对应语音的特征信息，根据提取的特征信息，在预设的数据库中匹配对应的说话者，根据说话者的标识获取说话者的语音字典，语音字典存储了说话者的预设语音和与预设语音对应的文字，根据得到的特征信息以及说话者的语音字典，对音频数据对应的语音进行语音识别，得到对应的文字，根据视频文件的时间轴对识别得到的文字进行校对，以得到与视频同步的字幕文件，从而在对视频中的语音进行识别时结合语音发出者的语音特征信息、特定发音和与其对应文字的对应关系，实现视频中语音的精确识别，最终获得精确的视频字幕。

Description

一种视频的字幕生成方法及装置

技术领域

本发明属于字幕制作技术领域，尤其涉及一种视频的字幕生成方法及装置。

背景技术

通常情况下音视频字幕的制作方法一般有两种，一种是完全手工操作，字幕制作者边听音频边录入文字，之后对时间轴进行校对生成字幕文件，最后将可将字幕外挂或内置，得到具有字幕的音视频文件。另一种字幕制作方法相对高效一点，该方法通过使用语音识别技术，把音频识别为文字，通过语音间的停顿自动断句，生成带有时间轴的字幕文件，最后经过人工审核得到最终的字幕文件，但这种方法下的语音识别正确率并不很高。而且由于教育类音视频文件录制的是不同老师讲授课程的教育音视频，而不同老师的语速、口音、普通话标准程度等都不相同，因此，会进一步降低音视频中语音的识别率，导致生成的字幕文件准确率低下。

发明内容

本发明的目的在于提供一种视频的字幕生成方法及装置，旨在解决由于现有技术无法提供一种有效的视频字幕生成方法，导致字幕准确性不高、生成效率低下的问题。

一方面，本发明提供了一种视频的字幕生成方法，所述方法包括下述步骤：

获取输入的视频文件中包含的音频数据，提取所述音频数据对应语音的特征信息；

根据所述提取的特征信息，在预设的数据库中匹配对应的说话者，根据所述说话者的标识获取所述说话者的语音字典，所述语音字典存储了所述说话者的预设语音和与所述预设语音对应的文字；

根据所述得到的特征信息以及所述说话者的语音字典，对所述音频数据对应的语音进行语音识别，得到对应的文字；

根据所述视频文件的时间轴对所述识别得到的文字进行校对，以得到与所述视频同步的字幕文件。

另一方面，本发明提供了一种视频的字幕生成装置，所述装置包括：

语音特征提取单元，用于获取输入的视频文件中包含的音频数据，提取所述音频数据对应语音的特征信息；

语音字典获取单元，用于根据所述提取的特征信息，在预设的数据库中匹配对应的说话者，根据所述说话者的标识获取所述说话者的语音字典，所述语音字典存储了所述说话者的预设语音和与所述预设语音对应的文字；

语音识别单元，用于根据所述得到的特征信息以及所述说话者的语音字典，对所述音频数据对应的语音进行语音识别，得到对应的文字；以及

字幕生成单元，用于根据所述视频文件的时间轴对所述识别得到的文字进行校对，以得到与所述视频同步的字幕文件。

本发明在生成字幕时，获取输入的视频文件中的音频数据，提取音频数据对应语音的特征信息，根据提取的特征信息，在预设的数据库中匹配对应的说话者，进而根据说话者的标识获取说话者的语音字典，根据得到的特征信息以及说话者的语音字典，对音频数据对应的语音进行语音识别，得到对应的文字，根据视频文件的时间轴对识别得到的文字进行校对，以得到与视频同步的字幕文件，从而在语音识别时结合语音发出者的语音特征信息、特定发音和与其对应文字对应关系，实现视频中语音的精确识别，最终获得精确的视频字幕。

附图说明

图1是本发明实施例一提供的视频的字幕生成方法的实现流程图；

图2是本发明实施例二提供的视频的字幕生成方法的实现流程图；

图3是本发明实施例三提供的视频的字幕生成装置的结构示意图；以及

图4是本发明实施例四提供的视频的字幕生成装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的视频的字幕生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，获取输入的视频文件中包含的音频数据，提取该音频数据对应语音的特征信息。

本发明实施例适用于字幕制作或视频播放设备，或字幕制作系统、视频播放系统，特别适用于对教育类视频的字幕制作，尤其适用于单个人员(说话者)讲解的教育类视频课程。优选地，当用户输入或导入需要制作字幕的视频时，对输入的视频文件进行转码操作，得到包含音频数据的音频文件，从而简化音频数据的获取过程。在得到音频数据后，提取该音频数据对应的说话者语音或声音的特征信息，其中，说话者是指视频中说话的人，在教育类视频中说话者一般为单个老师、讲师或培训师，而语音或声音特征信息为响度、音调、音色等表征说话者声音特征的信息。

在步骤S102中，根据提取的特征信息，在预设的数据库中匹配对应的说话者，根据该说话者的标识获取该说话者的语音字典，语音字典存储了说话者的预设语音和与预设语音对应的文字。

在本发明实施例中，预先构建一数据库，该数据库中存储有说话者的声音特征等记录。作为示例地，例如，在数据库记录中以说话者标识为索引，存储有说话者的声音特征信息，进一步地可存储有说话者语音字典标识，语音字典标识则关联有对应的语音字典。由于每个人说话时所带的乡土口音、发音准确度等可能都不相同，因此，在本发明实施例中通过为每个说话者构建语音字典，以提高语音识别的准确率，语音字典记录了说话者个人语音和文字的对应关系，例如，说话者特定的发音和该发音对应的文字、说话者语音多次识别过程中有误的发音和对应正确的文字，等等。

在匹配说话者时，具体地，可通过将提取的特征信息和数据库中的特征信息进行匹配，从而匹配得到对应的说话者，进而根据该说话者的标识获取该说话者的语音字典。

在步骤S103中，根据得到的特征信息以及说话者的语音字典，对音频数据对应的语音进行语音识别，得到对应的文字。

在本发明实施例中，在对音频数据对应的语音进行语音识别时，通过语音识别算法(例如，基于模式匹配的动态时间规整法DTW、隐马尔可夫模型法HMM、基于人工神经网络识别法ANN等)并结合并发明实施例的说话者语音字典，对视频中说话者的语音进行识别。优选地，在使用语音识别算法对语音进行识别时，若识别过程中语音识别算法识别正确的概率较高时则可直接使用语音识别算法进行识别即可，若识别概率较低时，则结合发明实施例的说话者语音字典进行语音识别，从而在保证语音识别的准确率的同时，提高语音识别效率。

在步骤S104中，根据视频文件的时间轴对识别得到的文字进行校对，以得到与视频同步的字幕文件。

本发明实施例在生成字幕时，获取输入的视频文件中的音频数据，提取音频数据对应语音的特征信息，根据提取的特征信息，在预设的数据库中匹配对应的说话者，进而根据说话者的标识获取说话者的语音字典，根据得到的特征信息以及说话者的语音字典，对音频数据对应的语音进行语音识别，得到对应的文字，根据视频文件的时间轴对识别得到的文字进行校对，以得到与视频同步的字幕文件，从而在语音识别时结合语音发出者的语音特征信息、特定发音和与其对应文字对应关系，实现视频中语音的精确识别，最终获得精确的视频字幕。

实施例二：

图2示出了本发明实施例二提供的视频的字幕生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，对说话者进行语音采样，提取说话者语音的特征信息，将说话者的标识和说话者的特征信息关联起来并存储到预设的数据库中。

在本发明实施例中，说话者是指待制作字幕的视频中的说话人员，在教育类视频中说话者一般为单个老师、讲师或培训师。为了提高后续语音识别的准确性，在这里预先对说话者进行语音采样，提取说话者语音的特征信息，将说话者的标识和说话者的特征信息关联起来并存储到预先构建的数据库中，以用于后续说话者的匹配。

在步骤S202中，对采样得到的语音进行语音识别，得到样本语音和与样本语音对应的文字，将样本语音和与样本语音对应的文字存储到语音字典。

在本发明实施例中，为了得到说话者的语音字典，需要对采样得到的语音进行语音识别，得到样本语音和与样本语音对应的文字。在得到样本语音和与样本语音对应的文字时，由于说话者带有一定口音且发音准确性可能不高，因此，在需要时可对对应的文字(即识别得到的文字)进行修改、改正，以得到样本语音和与样本语音对应的正确文字。最后，将样本语音和与样本语音对应的正确文字存储到语音字典中，以用于构建说话者的语音字典。

在步骤S203中，获取输入的视频文件中包含的音频数据，提取该音频数据对应语音的特征信息。

在步骤S204中，根据提取的特征信息，在预设的数据库中匹配对应的说话者，根据该说话者的标识获取该说话者的语音字典，语音字典存储了说话者的预设语音和与预设语音对应的文字。

在步骤S205中，根据得到的特征信息以及说话者的语音字典，对音频数据对应的语音进行语音识别，得到对应的文字。

在本发明实施例中，步骤S203至步骤S205可参考实施一中步骤S101至S103的描述，在此不再赘述。

在步骤S206中，根据视频文件的时间轴对识别得到的文字进行校对，以得到与视频同步的字幕文件。

在本发明实施例中，优选地，在对识别得到的文字进行校对之前，若接收到用户输入的对文字进行修改的指令时，对文字进行修改，更新识别得到的文字，从而进一步提高识别准确率。

进一步优选地，建立音频数据对应的语音与更新文字之间的对应关系，将对应关系存储到语音字典中，实现字幕制作过程中说话者语音字幕的自我学习、自我更新，从而不断完善语音字典，提高后续视频文件中语音的识别准确率。另一方面，语音字典在前期也无需一次性构造，降低语音字典构建的成本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例三：

图3示出了本发明实施例三提供的视频的字幕生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

语音特征提取单元31，用于获取输入的视频文件中包含的音频数据，提取音频数据对应语音的特征信息；

语音字典获取单元32，用于根据提取的特征信息，在预设的数据库中匹配对应的说话者，根据说话者的标识获取说话者的语音字典，语音字典存储了说话者的预设语音和与预设语音对应的文字；

语音识别单元33，用于根据得到的特征信息以及说话者的语音字典，对音频数据对应的语音进行语音识别，得到对应的文字；以及

字幕生成单元34，用于根据视频文件的时间轴对识别得到的文字进行校对，以得到与视频同步的字幕文件。

在本发明实施例中，视频的字幕生成装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为视频播放设备的一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考实施例一的描述，在此不再赘述。

实施例四：

图4示出了本发明实施例四提供的视频的字幕生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

特征关联单元41，用于对说话者进行语音采样，提取说话者语音的特征信息，将说话者的标识和说话者的特征信息关联起来并存储到预设的数据库中；

字典构造单元42，用于对采样得到的语音进行语音识别，得到样本语音和与样本语音对应的文字，将样本语音和与样本语音对应的文字存储到语音字典；

语音特征提取单元43，用于获取输入的视频文件中包含的音频数据，提取音频数据对应语音的特征信息；

语音字典获取单元44，用于根据提取的特征信息，在预设的数据库中匹配对应的说话者，根据说话者的标识获取说话者的语音字典，语音字典存储了说话者的预设语音和与预设语音对应的文字；

语音识别单元45，用于根据得到的特征信息以及说话者的语音字典，对音频数据对应的语音进行语音识别，得到对应的文字；

文字更新单元46，用于当接收到用户输入的对文字进行修改的指令时，对文字进行修改，更新识别得到的文字；

关系存储单元47，用于建立音频数据对应的语音与更新文字之间的对应关系，将对应关系存储到语音字典中；以及

字幕生成单元48，用于根据视频文件的时间轴对识别得到的文字进行校对，以得到与视频同步的字幕文件。

其中，语音特征提取单元43包括：

文件转码单元431，用于对输入的视频文件进行转码操作，得到包含音频数据的音频文件。

在本发明实施例中，视频的字幕生成装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考实施例二的描述，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频的字幕生成方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，获取输入的视频文件中包含的音频数据的步骤之前，所述方法还包括：

对所述说话者进行语音采样，提取所述说话者语音的特征信息，将所述说话者的标识和说话者的特征信息关联起来并存储到所述预设的数据库中；

对所述采样得到的语音进行语音识别，得到样本语音和与所述样本语音对应的文字，将所述样本语音和与所述样本语音对应的文字存储到所述语音字典。

3.如权利要求1所述的方法，其特征在于，对所述音频数据对应的语音进行语音识别，得到对应的文字的步骤之后，根据所述视频文件的时间轴对所述识别得到的文字进行校对的步骤之前，所述方法还包括：

当接收到用户输入的对所述文字进行修改的指令时，对所述文字进行修改，更新所述识别得到的文字。

4.如权利要求3所述的方法，其特征在于，更新所述识别得到的文字的步骤之后，所述方法还包括：

建立所述音频数据对应的语音与所述更新文字之间的对应关系，将所述对应关系存储到所述语音字典中。

5.如权利要求1所述的方法，其特征在于，获取输入的视频文件中包含的音频数据的步骤，包括：

对所述输入的视频文件进行转码操作，得到包含所述音频数据的音频文件。

6.一种视频的字幕生成装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

特征关联单元，用于对所述说话者进行语音采样，提取所述说话者语音的特征信息，将所述说话者的标识和说话者的特征信息关联起来并存储到所述预设的数据库中；以及

字典构造单元，用于对所述采样得到的语音进行语音识别，得到样本语音和与所述样本语音对应的文字，将所述样本语音和与所述样本语音对应的文字存储到所述语音字典。

8.如权利要求6所述的装置，其特征在于，所述装置还包括：

文字更新单元，用于当接收到用户输入的对所述文字进行修改的指令时，对所述文字进行修改，更新所述识别得到的文字。

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

关系存储单元，用于建立所述音频数据对应的语音与所述更新文字之间的对应关系，将所述对应关系存储到所述语音字典中。

10.如权利要求6所述的装置，其特征在于，所述语音特征提取单元包括：

文件转码单元，用于对所述输入的视频文件进行转码操作，得到包含所述音频数据的音频文件。