CN106878805A

CN106878805A - 一种混合语种字幕文件生成方法及装置

Info

Publication number: CN106878805A
Application number: CN201710065710.6A
Authority: CN
Inventors: 王金龙
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2017-06-20

Abstract

本发明适用计算机技术领域，提供了一种混合语种字幕文件生成方法及装置，所述方法包括：接收用户输入的音视频文件，提取音视频文件中的音频，将音频分割为多个音频段，并存储每个音频段对应的时间信息，对多个音频段进行语种识别，获取音频段对应的语种类别，根据语种类别，对多个音频段进行语音识别，并获取音频段语音识别后的文本内容，根据音频段的时间信息和文本内容，生成混合语种的字幕文本，从而通过语种识别和语音识别为无字幕视频实现混合语种字幕文件的自动生成，有效地提高混合语种语音识别的准确率和混合语种字幕文件的生成效率，降低了混合语种字幕文件的生成成本。

Description

一种混合语种字幕文件生成方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种混合语种字幕文件生成方法及装置。

背景技术

在影视剧节目或者在网上课堂等视频中，字幕能够很好地帮助观众理解节目剧情或者人物说话的意思，因此字幕已经成为各类视频不可或缺的部分。由于在这些视频中，可能出现人物说话时用到多种语言的情形，例如在英文课堂教学中，老师通常将英文和中文掺杂使用，因此这类视频涉及到混合语种字幕的生成的问题。目前，在现有技术中对于混合语种字幕生成问题，通常先将视频的音频语音识别为一种单独的语言，再又人工将相应的部分改为另外一种语言，可见，这种方式不仅耗时较长、效率较低，而且语音识别准确率不高。

发明内容

本发明的目的在于提供一种混合语种字幕文件生成方法及装置，旨在解决由于现有技术无法提供一种有效的混合语种字幕文件的生成方法，导致混合语种字幕文件生成效率低、成本高的问题。

一方面，本发明提供了一种混合语种字幕文件生成方法，所述方法包括下述步骤：

接收用户输入的音视频文件，提取所述音视频文件中的音频；

将所述音频分割为多个音频段，并存储每个音频段对应的时间信息；

对所述多个音频段进行语种识别，获取所述音频段对应的语种类别；

根据所述语种类别，对所述多个音频段进行语音识别，并获取所述音频段语音识别后的文本内容；

根据所述音频段的时间信息和文本内容，生成混合语种的字幕文本。

另一方面，本发明提供了一种混合语种字幕文件生成系统，所述系统包括：

音音频提取模块，用于接收用户输入的音视频文件，提取所述音视频文件中的音频；

音频分割模块，用于将所述音频分割为多个音频段，并存储每个音频段对应的时间信息；

语种识别模块，用于对所述多个音频段进行语种识别，获取所述音频段对应的语种类别；

语音识别模块，用于根据所述语种类别，对所述多个音频段进行语音识别，并获取所述音频段语音识别后的文本内容；以及

字幕生成模块，用于根据所述音频段的时间信息和文本内容，生成混合语种的字幕文本。

本发明接收用户输入的音视频文件，提取音视频文件中的音频，将音频分割为多个音频段，并存储每个音频段对应的时间信息，对多个音频段进行语种识别，获取音频段对应的语种类别，根据该语种类别，对多个音频段进行语音识别，并获取这些音频段语音识别后的文本内容，根据音频段的时间信息和文本内容，生成混合语种的字幕文本，从而实现了混合语种字幕文件的生成，有效地提高了混合语种语音的识别准确率和混合语种字幕文件的生成效率，降低了混合语种字幕文件的生成成本。

附图说明

图1是本发明实施例一提供的混合语种字幕文件生成方法的实现流程图；

图2是本发明实施例二提供的混合语种字幕文件生成装置的结构示意图；以及

图3是本发明实施例三提供的混合语种字幕文件生成装置的优选结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的混合语种字幕文件生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收用户输入的音视频文件，提取音视频文件中的音频。

本发明实施例适用于支持音视频播放的计算机、手机、平板电脑等音视频播放设备。音视频文件为无字幕的音频文件或者视频文件，且该音频或者视频中可能出现多种语言，例如，一句话中同时出现中文和英文、或者一段话中同时出现一句或多句中文和英文。具体地，当该音视频文件为视频文件时，需分离出该视频文件中的音频流，并将该音频流保存为音频文件，以便后续步骤中的音频分割、语种识别等操作。

优选地，提取出音视频文件中的音频后可对该音频进行预处理，预处理方式可包括音频信号去噪、分贝值设置等，以去除音频中的噪音干扰和弱化背景音，从而使得音频中的发音更为清晰，得到更适于语音识别和语种识别的音频。

在步骤S102中，将音频分割为多个音频段，并存储每个音频段对应的时间信息。

在本发明实施例中，预先设定用于分割音频的语音停顿间隔阈值和当前音视频播放设备的显示屏幕宽度值，可依照这两个值对音频进行分割，得到适合语音识别和显示屏幕宽度的多个音频段。

具体地，先检测音频中的停顿处或静音处，当该停顿处或静音处的持续时长超过语音停顿间隔阈值时，可将该停顿处或静音处设置为该音频的分割点，接着，根据显示屏幕宽度值，确定最长音频时间间隔和最短音频时间间隔，当音频中相邻分割点间的持续时长超过最长音频时间间隔时，在相邻分割点间的音频段中再次设置一个分割点，为减少设置好该分割点后再次出现相邻分割点间的持续时长超过最长音频时间间隔或不足最短时间间隔情形的概率，该分割点可设置在对应音频段的正中位置，当音频中相邻分割点间的持续时长不足虽短音频时间间隔时，可将该相邻分割点间的音频段与持续时长较短的相邻音频段进行合并。因此根据语音停顿间隔阈值对音频进行分割，可较大概率地满足音频段的句意完整性，根据显示屏幕宽度值对音频进行分割，可使音频段的文字内容在显示屏幕中的显示效果。

具体地，音频段的时间信息可包括该音频段在整段音频中的开始时间和结束时间，其中，开始时间和结束时间用于计算每个音频段的持续时长以及用于生成字幕文本的时间轴。

在步骤S103中，根据语种类别，对多个音频段进行语种识别，获取每个音频段对应的语种类别。

在本发明实施例中，由于音频段中可能存在多种语言，因此可对音频段进行语种识别，以得到音频段的语言种类，其中，语种类别可包括中文、英文等。具体地，可预先训练出用于多种语种识别的识别模型或者识别库，并对待识别的音频段进行特征提取，将该音频段的特征输入该识别模型或识别库，得到该特征的匹配结果，并根据该结果确定该音频段的语种类别。

优选地，可将识别错误的音频加入训练库，以优化或扩充用于语种识别的识别模型或识别库，以用于语种识别，进一步提高语种识别的准确率。

优选地，可根据基于语音音素的方法或基于声学特征的方法构建并训练得到多语种的识别模型或者识别库，以用于语种识别，从而提高语种识别的准确率。

在步骤S104中，根据语种类别，对多个音频段进行语音识别，并获取音频段语音识别后的文本内容。

在本发明实施例中，可预先构建多语种的语音识别系统，在语音识别过程中，根据音频段对应的语种类别，调用该语种类别对应的语音识别系统对该音频段进行语音识别。具体地，在语音识别系统接收到待识别的音频段后，提取音频段的语音特征，并将该语音特征与语音识别系统中预先存储的语音特征进行匹配，接着，根据匹配结果，获得音频段的语音识别结果，并生成音频段对应的文本内容。其中，文本内容与音频段两者的语种类别一样。

优选地，当音频段的语音特征在语音识别系统中匹配失败时，将该音频段发送到预设的通用语音识别系统进行识别，以得到较为准确的识别结果，具体地，通用语音识别系统可为优同科技语音识别系统、科大讯飞语音识别系统等。

在步骤S105中，根据音频段的时间信息和文本内容，生成混合语种的字幕文本。

在本发明实施例中，音频段的时间信息为该音频段在整段音频中的开始时间和结束时间，因此可根据时间信息生成相应文本内容的开始时间轴和结束时间轴，即文本内容为开始时间轴和结束时间轴之间的字幕内容。因此，可根据所有音频段的时间信息和文本内容，生成混合语种的字幕文本。

在本发明实施例中，对无字幕混合语种的音视频文件进行音频分割，得到多段音频段和每个音频段的时间信息，对这些音频段进行语种识别和语音识别，获得每个音频段对应的文本内容，最后根据每个音频段的时间信息和文本内容，生成混合语种的字幕文件，从而为无字幕混合语种的音视频文件生成的字幕文件，解决了音频中多种语种掺杂出现时的字幕生成问题，并有效地提高了混合语种音频的语音识别准确率和混合语种字幕文件的生成效率，有效地降低了混合语种字幕文件的生成成本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图2示出了本发明实施例二提供的混合语种字幕文件生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

音频提取模块21，用于接收用户输入的音视频文件，提取音视频文件中的音频。

在本发明实施例中，当该音视频文件为视频文件时，需分离出该视频文件中的音频流，并将该音频流保存为音频文件，以便后续步骤中的音频分割、语种识别等操作。

音频分割模块22，用于将音频分割为多个音频段，并存储每个音频段对应的时间信息。

语种识别模块23，用于根据语种类别，对多个音频段进行语种识别，获取每个音频段对应的语种类别。

语音识别模块24，用于根据语种类别，对多个音频段进行语音识别，并获取音频段语音识别后的文本内容。

字幕生成模块25，根据音频段的时间信息和文本内容，生成混合语种的字幕文本。

实施例三：

图3示出了本发明实施例三提供的混合语种字幕文件生成结构的优选结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

音频提取模块31，用于接收用户输入的音视频文件，提取音视频文件中的音频。

音频分割模块32，用于将音频分割为多个音频段，并存储每个音频段对应的时间信息。

在本发明实施例中，预先设置语音停顿间隔阈值和当前音视频播放设备的显示屏幕宽度值，并根据该语音停顿间隔阈值对音频进行初步分割，再根据显示屏幕宽度值，对音频进行再次分割和合并，最终得到多段音频段。

语种识别模块33，用于根据语种类别，对多个音频段进行语种识别，获取每个音频段对应的语种类别。

在本发明实施例中，可预先训练出用于多种语种识别的识别模型或者识别库，并对待识别的音频段进行特征提取，将该音频段的特征输入该识别模型或识别库，得到该特征的匹配结果，并根据该结果确定该音频段的语种类别。

语音识别模块34，用于根据语种类别，对多个音频段进行语音识别，并获取音频段语音识别后的文本内容。

在本发明实施例中，可预先构建多语种的语音识别系统，在语音识别过程中，根据音频段对应的语种类别，调用该语种类别对应的语音识别系统。在语音识别系统中，提取音频段的语音特征，并将该语音特征与语音识别系统中预先存储的语音特征进行匹配，接着，根据匹配结果，获得音频段的语音识别结果，并生成音频段对应的文本内容。具体地，文本内容与音频段两者的语种类别一样。

字幕生成模块35，根据音频段的时间信息和文本内容，生成混合语种的字幕文本。

在本发明实施例中，可根据时间信息生成相应文本内容的开始时间轴和结束时间轴，即文本内容为开始时间轴和结束时间轴之间的字幕内容。因此，可根据所有音频段的时间信息和文本内容，生成混合语种的字幕文本。

因此，优选地，音频分割模块32可包括初步分割模块321和分割合并模块322，其中：

初步分割模块321，用于根据音频的语音停顿，对音频进行初步分割；以及

分割合并模块322，用于根据预设的显示屏幕宽度，对初步分割后的音频进行再次分割和合并，获得多个音频段，并存储每个音频段对应的时间信息。

优选地，语种识别模块33可包括特征提取模块331和语种确定模块332，其中：

特征提取模块331，用于根据预设的多语种识别模型或识别库，提取音频段的特征；以及

语种确定模块332，用于在多语种识别模型或识别库中，对特征进行匹配，并根据匹配结果确定音频段的语种类别。

优选地，语音识别模块34可包括语音识别子模块341，其中：

语音识别子模块341，用于获取音频段中音频的语种类别，并调用语种类别对应的语音识别系统，对音频段进行语音识别，以获取音频段对应的文本内容。

优选地，字幕生成子模块35可包括时间轴生成模块351和字幕生成子模块352，其中：

时间轴生成模块351，用于根据音频段的时间信息，生成文本内容的时间轴；以及

字幕生成子模块352，用于根据文本内容和文本内容的时间轴，生成混合语种的字幕文件。

在本发明实施例中，实现了为无字幕混合语种的音视频文件生成对应的字幕文件，解决了音频中多种语种掺杂出现时的字幕生成问题，从而有效提高了混合语种音频的语音识别准确率和混合语种字幕文件生成的效率，并有效地降低了混合语种字幕文件生成的成本。

在本发明实施例中，混合语种字幕文件生成装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合语种字幕文件生成方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，将所述音频分割为多个音频段，并存储每个音频段对应的时间信息的步骤，包括：

根据所述音频的语音停顿，对所述音频进行初步分割；

根据预设的显示屏幕宽度，对所述初步分割后的音频进行再次分割和合并，获得所述多个音频段，并存储每个音频段对应的时间信息。

3.如权利要求1所述的方法，其特征在于，对所述多个音频段进行语种识别，获取所述音频段对应的语种类别的步骤，包括：

根据预设的多语种识别模型或识别库，提取所述音频段的特征；

在所述多语种识别模型或识别库中，对所述特征进行匹配，并根据匹配结果确定所述音频段的语种类别。

4.如权利要求1所述的方法，其特征在于，对所述多个音频段进行语音识别，并获取所述音频段语音识别后的文本内容的步骤，包括：

获取所述音频段的语种类别，并调用所述语种类别对应的语音识别系统，对所述音频段进行语音识别，以获取所述音频段的文本内容。

5.如权利要求1所述的方法，其特征在于，根据所述语种，根据所述音频段的时间信息和文本内容，生成混合语种的字幕文本的步骤，包括：

根据所述音频段的时间信息，生成所述文本内容的时间轴；

根据所述文本内容和所述文本内容的时间轴，生成所述混合语种的字幕文件。

6.一种混合语种字幕文件的生成装置，其特征在于，所述装置包括：

音频提取模块，用于接收用户输入的音视频文件，提取所述音视频文件中的音频；

7.如权利要求6所述的装置，其特征在于，所述音频分割模块包括：

初步分割模块，用于根据所述音频的语音停顿，对所述音频进行初步分割；以及

分割合并模块，用于根据预设的显示屏幕宽度，对所述初步分割后的音频进行再次分割和合并，获得所述多个音频段，并存储每个音频段对应的时间信息。

8.如权利要求6所述的装置，其特征在于，所述语种识别模块包括：

特征提取模块，用于根据预设的多语种识别模型或识别库，提取所述音频段的特征；以及

语种确定模块，用于在所述多语种识别模型或识别库中，对所述特征进行匹配，并根据匹配结果确定所述音频段的语种类别。

9.如权利要求6所述的装置，其特征在于，所述语音识别模块包括：

语音识别子模块，用于获取所述音频段的语种类别，并调用所述语种类别对应的语音识别系统，对所述音频段进行语音识别，以获取所述音频段的文本内容。

10.如权利要求6所述的装置，其特征在于，所述字幕生成模块包括：

时间轴生成模块，用于根据所述音频段的时间信息，生成所述文本内容的时间轴；以及

字幕生成子模块，用于根据所述文本内容和所述文本内容的时间轴，生成所述混合语种的字幕文件。