CN113225612A

CN113225612A - 字幕生成方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN113225612A
Application number: CN202110402433.XA
Authority: CN
Inventors: 杨鹤; 任浩; 方向阳; 牛正青; 杨亮; 兰永亮; 岳海纯; 常恒毅
Original assignee: New Oriental Education Technology Group Co ltd
Current assignee: New Oriental Education Technology Group Co ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-08-06
Anticipated expiration: 2041-04-14
Also published as: CN113225612B

Abstract

本公开涉及一种字幕生成方法、装置、计算机可读存储介质及电子设备。方法包括：获取待生成字幕的目标视频的音频数据；将音频数据进行切分，得到多个音频片段；针对各音频片段，提取音频片段对应的第一文本数据；提取第一文本数据的字符语义特征、短语语义特征及音素特征；根据字符语义特征、短语语义特征及音素特征，对第一文本数据进行修正，得到音频片段对应的第二文本数据；将每一音频片段对应的第二文本数据合并，得到目标视频的字幕信息。这样，利用第一文本数据的字符语义特征、短语语义特征及音素特征对其进行修正，可保证第一文本数据和视频字幕的准确性。另外，各音频片段可并行进行文本数据的提取以及修正操作，从而提升字幕生成效率。

Description

字幕生成方法、装置、计算机可读存储介质及电子设备

技术领域

本公开涉及多媒体技术领域，具体地，涉及一种字幕生成方法、装置、计算机可读存储介质及电子设备。

背景技术

现阶段，主要通过以下方式生成视频字幕：首先从视频中分离出音频数据；然后对该音频数据进行语音识别(Automatic Speech Recognition，ASR)，并将语音识别结果作为视频字幕。但当音频数据中存在背景音乐、杂音、专有名词或者中英文混合的情况时，语音识别的准确率将受到影响，这样，生成字幕的准确性也就无法保证。

发明内容

为了克服相关技术中存在的问题，本公开的提供一种字幕生成方法、装置、计算机可读存储介质及电子设备。

为了实现上述目的，第一方面，本公开提供一种字幕生成方法，包括：

获取待生成字幕的目标视频的音频数据；

将所述音频数据进行切分，得到多个音频片段；

针对每一所述音频片段，提取所述音频片段对应的第一文本数据；提取所述第一文本数据的字符语义特征、短语语义特征以及音素特征；根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据；

将每一所述音频片段对应的第二文本数据合并，得到所述目标视频的字幕信息。

可选地，所述根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据，包括：

将所述第一文本数据的字符语义特征、短语语义特征以及音素特征进行拼接，得到拼接特征；

根据所述拼接特征，预测所述第一文本数据中每一字符对应的概率分布，其中，所述字符对应的所述概率分布包括预设参考字符在所述字符在所述第一文本数据中的位置出现的概率；

针对所述第一文本数据中的每一所述字符，根据所述字符对应的所述概率分布，确定所述字符是否为错别字；若所述字符为错别字，则利用所述字符对应的概率分布中、最大概率对应的所述预设参考字符替换所述字符，以得到所述第二文本数据。

可选地，所述根据所述字符对应的所述概率分布，确定所述字符是否为错别字，包括：

若所述字符对应的所述概率分布中概率最高的K个概率对应的预设参考字符中、不存在所述字符，则确定所述字符为错别字，其中，K为大于或等于1的整数。

可选地，所述方法还包括：

获取所述目标视频的图像数据；

针对每一所述音频片段，从所述图像数据中确定与所述音频片段对应的图像序列；

提取所述图像序列中包含的第三文本数据，并根据所述图像序列，生成用于描述所述图像序列的第四文本数据；

在所述利用所述字符对应的概率分布中、最大概率对应的所述预设参考字符替换所述字符的步骤之前，所述根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据，还包括：

若所述字符为错别字，则针对所述字符对应的所述概率分布中概率最高的K个概率对应的预设参考字符中的每一预设参考字符，判断该预设参考字符是否出现在所述第三文本数据或所述第四文本数据中；若该预设参考字符出现在所述第三文本数据或所述第四文本数据中，则增大该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率，并对应减小所述字符对应的所述概率分布中、除所述概率最高的K个概率对应的预设参考字符外的任一其他预设参考字符在所述字符在所述第一文本数据中的位置出现的概率。

可选地，所述根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据，还包括：

若该预设参考字符未出现在所述第三文本数据和所述第四文本数据中，则保持该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率不变。

可选地，所述目标视频的类型为教学视频；

所述方法还包括：

根据所述第一文本数据，确定所述目标视频所属的目标学科和目标学段；

若所述字符为错别字，则针对所述字符对应的所述概率分布中概率最高的K个概率对应的预设参考字符中的每一预设参考字符，判断该预设参考字符是否出现在与所述目标学科和所述学段对应的词表中；若该预设参考字符出现在所述与所述目标学科和所述学段对应的词表中，则增大该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率，并对应减小所述字符对应的所述概率分布中、除概率最高的K个概率对应的预设参考字符外的任一其他预设参考字符在所述字符在所述第一文本数据中的位置出现的概率。

若该预设参考字符未出现在所述与所述目标学科和所述学段对应的词表中，则保持该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率不变。

可选地，所述目标视频的类型为教学视频；

所述提取所述第一文本数据的短语语义特征，包括：

将所述第一文本数据中、属于预设的教学大纲短语表中的短语确定为目标短语；

提取所述目标短语的语义特征，作为所述第一文本数据的短语语义特征。

可选地，所述第一文本数据为中英文混合文本；

所述提取所述第一文本数据的音素特征，包括：

根据预设的字符与音素的对应关系，将所述第一文本数据转换为目标音素序列，其中，在所述对应关系中，相似发音的中文字符和英文字符对应的音素相同；

将所述目标音素序列输入预先训练好的音素语言模型中，得到所述第一文本数据的音素特征。

可选地，所述音素语言模型通过如下方式训练得到：

获取参考文本数据以及所述参考文本数据的参考音素特征；

根据所述对应关系，将所述参考文本数据转换为参考音素序列；

通过将所述参考音素序列作为所述音素语言模型的输入，将所述参考音素特征作为所述音素语言模型的目标输出的方式进行模型训练，以得到所述音素语言模型。

可选地，在所述将每一所述音频片段对应的第二文本数据合并，得到所述目标视频的字幕信息的步骤之前，所述方法还包括：

判断所述第二文本数据与所述第一文本数据是否一致；

若所述第二文本数据与所述第一文本数据不一致，则将所述第二文本数据作为新的第一文本数据，之后，重新执行所述提取所述第一文本数据的字符语义特征、短语语义特征以及音素特征的步骤至所述判断所述第二文本数据与所述第一文本数据是否一致的步骤，直至所述第二文本数据与所述第一文本数据一致为止。

第二方面，本公开提供一种字幕生成装置，包括：

获取模块，用于获取待生成字幕的目标视频的音频数据；

切分模块，用于将所述获取模块获取到的所述音频数据进行切分，得到多个音频片段；

修正模块，用于针对所述切分模块得到的每一所述音频片段，提取所述音频片段对应的第一文本数据；提取所述第一文本数据的字符语义特征、短语语义特征以及音素特征；根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据；

合并模块，用于将所述修正模块提取到的每一所述音频片段对应的第二文本数据合并，得到所述目标视频的字幕信息。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。

在上述技术方案中，在获取到待生成字幕的目标视频的音频数据后，将该音频数据进行切分，得到多个音频片段；之后，针对每一音频片段，提取该音频片段对应的第一文本数据以及该第一文本数据的字符语义特征、短语语义特征以及音素特征，并根据该第一文本数据的字符语义特征、短语语义特征以及音素特征，对第一文本数据进行修正，得到该音频片段对应的第二文本数据；最后，将每一音频片段对应的第二文本数据合并，得到目标视频的字幕信息。在提取到音频片段对应的第一文本数据后，并不直接将其作为字幕，而是利用该第一文本数据的字符语义特征、短语语义特征以及音素特征共同对第一文本数据进行修正，可以使得用于第一文本数据修正的语义特征信息更加丰富、全面，由此，可以提升第一文本数据的准确性，从而保证视频字幕的准确性。另外，各音频片段可以并行进行文本数据的提取以及修正操作，从而提升了字幕生成的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种字幕生成方法的流程图。

图2是根据一示例性实施例示出的一种音素语言模型训练方法的流程图。

图3是根据一示例性实施例示出的一种对第一文本数据进行修正的方法的流程图。

图4是根据一示例性实施例示出的一种字幕生成装置的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据一示例性实施例示出的一种字幕生成方法的流程图。如图1所示，该方法包括S101～S104。

在S101中，获取待生成字幕的目标视频的音频数据。

在本公开中，目标视频的类型可以为教学视频、美食视频、旅游视频等。

在S102中，将音频数据进行切分，得到多个音频片段。

在本公开中，可以识别音频数据中的静音片段，并将持续时长超过预设时长的静音片段确定为目标片段；以目标片段的首尾位置为切分点，对音频数据进行切分，得到多个片段；从多个片段中滤除上述目标片段，得到多个音频片段。

在S103中，针对每一音频片段，提取音频片段对应的第一文本数据，提取第一文本数据的字符语义特征、短语语义特征以及音素特征，根据第一文本数据的字符语义特征、短语语义特征以及音素特征，对第一文本数据进行修正，得到音频片段对应的第二文本数据。

在本公开中，可以将音频片段输入至语音识别模型中，以得到该音频片段对应的第一文本数据。其中，语音识别模型可以例如是前馈神经网络(Deep-feedforwardsequential memory networks，DFSMN)模型、长短时记忆网络(Long Short-Term Memory，LSTM)模型等。

另外，可以通过转换器的双向编码表示(Bidirectional EncoderRepresentationfrom Transformers，BERT)模型来提取第一文本数据的字符语义特征。

在S104中，将每一音频片段对应的第二文本数据合并，得到目标视频的字幕信息。

下面针对上述S103中的提取第一文本数据的短语语义特征的具体实施方式进行详细说明。

具体来说，可以通过多种实施方式来实现，在一种实施方式中，可以使用自然语言处理工具，将取第一文本数据的句子按照语法成分分解为多个短语；之后，分别提取各短语的语义特征，作为第一文本数据的短语语义特征，示例地，可以通过循环神经网络语义提取模型来提取各短语的语义特征。

在另一种实施方式中，目标视频的类型为教学视频，此时，可以将第一文本数据中、属于预设的教学大纲短语表中的短语确定为目标短语；然后，提取目标短语的语义特征，作为第一文本数据的短语语义特征，示例地，可以通过循环神经网络语义提取模型来提取目标短语的语义特征。由于教学视频中通常存在专业名词，基于教学大纲短语表对第一文本数据进行短语提取，能够充分利用教学领域相关的短语语义特征对第一文本数据进行修正，从而提升第一文本数据和视频字幕的准确性。

下面针对上述S103中的提取第一文本数据的音素特征的具体实施方式进行详细说明。

具体来说，可以通过多种实施方式来实现，在一种实施方式中，第一文本数据为单一语种(例如，中文语种、英文语种、日文语种等)，此时，可以根据第一文本数据所属语种对应的音素表，将第一文本数据转换为目标音素序列；然后，提取目标音素序列中的音素特征，作为第一文本数据的音素特征。其中，目标音素序列是由第一文本数据中各字符对应的音素按照其在第一文本数据中的先后顺序排列而成。

在另一种实施方式中，第一文本数据为中英文混合文本，此时，可以根据预设的字符与音素的对应关系，将第一文本数据转换为目标音素序列；然后，将目标音素序列输入预先训练好的音素语言模型中，得到第一文本数据的音素特征。其中，在上述预设的字符与音素的对应关系中，相似发音的中文字符和英文字符对应的音素相同，由此，可有效提升后续第一文本数据和视频字幕的准确性。

其中，上述音素语言模型可以通过图2中所示的S201～S203训练得到：

在S201中，获取参考文本数据以及参考文本数据的参考音素特征。

在S202中，根据对应关系，将参考文本数据转换为参考音素序列。

在S203中，通过将参考音素序列作为音素语言模型的输入，将参考音素特征作为音素语言模型的目标输出的方式进行模型训练，以得到音素语言模型。

下面针对上述S103中的根据第一文本数据的字符语义特征、短语语义特征以及音素特征，对第一文本数据进行修正，得到音频片段对应的第二文本数据的具体实施方式进行详细说明。具体来说，可以通过图3中所示的S1031～S1033来实现。

在S1031中，将第一文本数据的字符语义特征、短语语义特征以及音素特征进行拼接，得到拼接特征。

在S1032中，根据拼接特征，预测第一文本数据中每一字符对应的概率分布。

在本公开中，各字符对应的概率分布包括预设参考字符在该字符在第一文本数据中的位置出现的概率，其中，预设参考字符可以为预设字符库中的各字符，预设字符库包括常用字符，可以从包含大量文本的语料库中提取得到。

另外，可以将拼接特征输入到预先训练好的概率预测模型(例如，双向长短时记忆循环网络(Bi-directional Long Short-Term Memory，BiLSTM))中，得到第一文本数据中每一字符对应的概率分布。

在S1033中，针对第一文本数据中的每一字符，根据该字符对应的概率分布，确定该字符是否为错别字，若该字符为错别字，则利用该字符对应的概率分布中、最大概率对应的预设参考字符替换该字符，以得到第二文本数据。

在本公开中，根据该字符对应的概率分布，可以通过以下方式来确定该字符是否为错别字：若该字符对应的概率分布中概率最高的K个概率对应的预设参考字符中、不存在该字符，则确定该字符为错别字，其中，K为大于或等于1的整数。

具体来说，当K等于1时：若该字符对应的概率分布中、最大概率对应的预设参考字符并非是该字符，则确定该字符为错别字；若该字符对应的概率分布中、最大概率对应的预设参考字符为该字符，则确定该字符并非是错别字。当K大于1时：若该字符对应的概率分布中概率最高的K个概率对应的预设参考字符中、不存在该字符，则确定该字符为错别字；若该字符对应的概率分布中概率最高的K个概率对应的预设参考字符中、存在该字符，则确定该字符并非是错别字。

若该字符为错别字，则利用该字符对应的概率分布中、最大概率对应的预设参考字符替换该字符；若该字符并非为错别字，则不执行任何操作。

另外，为了进一步提升第一文本数据和视频字幕的准确性，可以对上述错别字对应的概率分布进行修正，之后，基于修正后的概率分布进行错别字替换。在本公开中，可以通过多种实施方式来实现，在一种实施方式中，可以利用上述目标视频的图像数据对上述概率分布进行修正。具体来说，上述方法还包括以下步骤(1)～步骤(3)：

(1)获取目标视频的图像数据。

(2)针对每一音频片段，从图像数据中确定与音频片段对应的图像序列。

(3)提取图像序列中包含的第三文本数据，并根据图像序列，生成用于描述图像序列的第四文本数据。

此时，在上述S1033中的利用字符对应的概率分布中、最大概率对应的预设参考字符替换该字符的步骤之前，上述S103还包括以下步骤：

若该字符为错别字，则针对该字符对应的概率分布中概率最高的K个概率对应的预设参考字符中的每一预设参考字符，判断该预设参考字符是否出现在第三文本数据或第四文本数据中；若该预设参考字符出现在第三文本数据或第四文本数据中，则该预设参考字符很可能为该字符在第一文本数据中的位置处的正确字符，因此，增大该预设参考字符在该字符在第一文本数据中的位置出现的概率，并对应减小字符对应的概率分布中、除概率最高的K个概率对应的预设参考字符外的任一其他预设参考字符在该字符在第一文本数据中的位置出现的概率，其中，该字符在第一文本数据中的位置出现的概率的增大量与该任一其他预设参考字符在该字符在第一文本数据中的位置出现的概率的减小量相等；若该预设参考字符未出现在第三文本数据和第四文本数据中，则保持该预设参考字符在该字符在第一文本数据中的位置出现的概率不变。这样，可以提升后续错别字纠正的准确性，从而提升第一文本数据和视频字幕的准确性。

在本公开中，图像序列中可能包含板书、演示文稿等文字信息，可以通过图像识别的方式来识别图像序列中包含的文本信息，作为第三文本数据。另外，还可以基于语义分割模型检测图像序列中的事物，并使用图像描述模型(例如，循环神经网络(RecurrentNeural Network，RNN)、LSTM等)生成用于描述图像序列的第四文本数据。

在另一种实施方式中，在目标视频的类型为教学视频时，可以利用与上述目标视频所属的目标学科和目标学段对应的词表对上述概率分布进行修正。具体来说，上述方法还包括以下步骤：

根据第一文本数据，确定目标视频所属的目标学科和目标学段。

此时，在上述S1033中的利用字符对应的概率分布中、最大概率对应的预设参考字符替换字符的步骤之前，上述S103还包括以下步骤：

若该字符为错别字，则针对该字符对应的概率分布中概率最高的K个概率对应的预设参考字符中的每一预设参考字符，判断该预设参考字符是否出现在与目标学科和学段对应的词表中；若该预设参考字符出现在与目标学科和学段对应的词表中，则该预设参考字符很可能为该字符在第一文本数据中的位置处的正确字符，因此，增大该预设参考字符在该字符在第一文本数据中的位置出现的概率，并对应减小字符对应的概率分布中、除概率最高的K个概率对应的预设参考字符外的任一其他预设参考字符在该字符在第一文本数据中的位置出现的概率，其中，该字符在第一文本数据中的位置出现的概率的增大量与该任一其他预设参考字符在该字符在第一文本数据中的位置出现的概率的减小量相等；若该预设参考字符未出现在与目标学科和学段对应的词表中，则保持该预设参考字符在该字符在第一文本数据中的位置出现的概率不变。这样，可以提升后续错别字纠正的准确性，从而提升第一文本数据和视频字幕的准确性。

另外，可以通过以下方式来确定目标视频所属的目标学科和目标学段：将第一文本数据输入预先训练好的学科分类模型中，得到目标视频所属的目标学科和目标学段。

其中，学科分类模型可以通过以下方式训练得到：获取教学文本数据和该教学文本数据对应的参考学科和参考学段；通过将教学文本数据作为学科分类模型的输入，将参考学科和参考学段作为学科分类模型的目标输出的方式进行模型训练，以得到该学科分类模型。

此外，为了进一步提升第一文本数据和视频字幕的准确性，在上述S104之前，上述方法还包括以下步骤1)和步骤2)：

1)判断第二文本数据与第一文本数据是否一致。

若第二文本数据与第一文本数据不一致，则执行以下步骤2)，之后，返回上述S103中的提取第一文本数据的字符语义特征、短语语义特征以及音素特征这一步骤，直至第二文本数据与第一文本数据一致为止；若第二文本数据与第一文本数据一致，则执行S104。

2)将第二文本数据作为新的第一文本数据。

基于同样的发明构思，本公开还提供一种字幕生成装置。如图4所示，该装置400包括：获取模块401，用于获取待生成字幕的目标视频的音频数据；切分模块402，用于将所述获取模块401获取到的所述音频数据进行切分，得到多个音频片段；修正模块403，用于针对所述切分模块402得到的每一所述音频片段，提取所述音频片段对应的第一文本数据；提取所述第一文本数据的字符语义特征、短语语义特征以及音素特征；根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据；合并模块404，用于将所述修正模块403提取到的每一所述音频片段对应的第二文本数据合并，得到所述目标视频的字幕信息。

可选地，所述修正模块403包括：拼接子模块，用于将所述第一文本数据的字符语义特征、短语语义特征以及音素特征进行拼接，得到拼接特征；预测子模块，用于根据所述拼接特征，预测所述第一文本数据中每一字符对应的概率分布，其中，所述字符对应的所述概率分布包括预设参考字符在所述字符在所述第一文本数据中的位置出现的概率；替换子模块，用于：针对所述第一文本数据中的每一所述字符，根据所述字符对应的所述概率分布，确定所述字符是否为错别字；若所述字符为错别字，则利用所述字符对应的概率分布中、最大概率对应的所述预设参考字符替换所述字符，以得到所述第二文本数据。

可选地，所述替换子模块用于若所述字符对应的所述概率分布中概率最高的K个概率对应的预设参考字符中、不存在所述字符，则确定所述字符为错别字，其中，K为大于或等于1的整数。

可选地，所述装置400还包括：图像数据获取模块，用于获取所述目标视频的图像数据；第一确定模块，用于针对每一所述音频片段，从所述图像数据中确定与所述音频片段对应的图像序列；生成模块，用于提取所述图像序列中包含的第三文本数据，并根据所述图像序列，生成用于描述所述图像序列的第四文本数据；所述修正模块403还包括：第一概率调整子模块，用于在利用所述字符对应的概率分布中、最大概率对应的所述预设参考字符替换所述字符之前，若所述字符为错别字，则针对所述字符对应的所述概率分布中概率最高的K个概率对应的预设参考字符中的每一预设参考字符，判断该预设参考字符是否出现在所述第三文本数据或所述第四文本数据中；若该预设参考字符出现在所述第三文本数据或所述第四文本数据中，则增大该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率，并对应减小所述字符对应的所述概率分布中、除所述概率最高的K个概率对应的预设参考字符外的任一其他预设参考字符在所述字符在所述第一文本数据中的位置出现的概率。

可选地，所述修正模块403还包括：第一保持子模块，用于若该预设参考字符未出现在所述第三文本数据和所述第四文本数据中，则保持该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率不变。

可选地，所述目标视频的类型为教学视频；所述装置400还包括：第二确定模块，用于根据所述第一文本数据，确定所述目标视频所属的目标学科和目标学段；所述修正模块403还包括：第二概率调整子模块，用于在利用所述字符对应的概率分布中、最大概率对应的所述预设参考字符替换所述字符之前，若所述字符为错别字，则针对所述字符对应的所述概率分布中概率最高的K个概率对应的预设参考字符中的每一预设参考字符，判断该预设参考字符是否出现在与所述目标学科和所述学段对应的词表中；若该预设参考字符出现在所述与所述目标学科和所述学段对应的词表中，则增大该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率，并对应减小所述字符对应的所述概率分布中、除概率最高的K个概率对应的预设参考字符外的任一其他预设参考字符在所述字符在所述第一文本数据中的位置出现的概率。

可选地，所述修正模块403还包括：第二保持子模块，用于若该预设参考字符未出现在所述与所述目标学科和所述学段对应的词表中，则保持该预设参考字符在所述字符在所述第一文本数据中的位置出现的概率不变。

可选地，所述目标视频的类型为教学视频；所述修正模块403包括：确定子模块，用于将所述第一文本数据中、属于预设的教学大纲短语表中的短语确定为目标短语；提取子模块，用于提取所述目标短语的语义特征，作为所述第一文本数据的短语语义特征。

可选地，所述第一文本数据为中英文混合文本；所述修正模块403包括：转换子模块，用于根据预设的字符与音素的对应关系，将所述第一文本数据转换为目标音素序列，其中，在所述对应关系中，相似发音的中文字符和英文字符对应的音素相同；输入子模块，用于将所述目标音素序列输入预先训练好的音素语言模型中，得到所述第一文本数据的音素特征。

可选地，所述音素语言模型通过模型训练装置训练得到，其中，所述模型训练装置包括：特征获取模块，用于获取参考文本数据以及所述参考文本数据的参考音素特征；转换模块，用于根据所述对应关系，将所述参考文本数据转换为参考音素序列；训练模块，用于通过将所述参考音素序列作为所述音素语言模型的输入，将所述参考音素特征作为所述音素语言模型的目标输出的方式进行模型训练，以得到所述音素语言模型。

可选地，所述装置400还包括：判断模块，用于在所述合并模块404将每一所述音频片段对应的第二文本数据合并，得到所述目标视频的字幕信息之前，判断所述第二文本数据与所述第一文本数据是否一致；触发模块，用于若所述第二文本数据与所述第一文本数据不一致，则将所述第二文本数据作为新的第一文本数据，之后，触发所述修正模块403提取所述第一文本数据的字符语义特征、短语语义特征以及音素特征，直至所述第二文本数据与所述第一文本数据一致为止。

另外，需要说明说明的是，上述模型训练装置可以独立于上述字幕生成装置400，也可以集成在上述字幕生成装置400内，在本公开中不作具体限定。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开提供的上述字幕生成方法的步骤。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的字幕生成方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的字幕生成方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的字幕生成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的字幕生成方法。

图6是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的字幕生成方法。

另外，电子设备600还可以包括电源组件626和通信组件650，该电源组件626可以被配置为执行电子设备600的电源管理，该通信组件650可以被配置为实现电子设备600的通信，例如，有线或无线通信。此外，该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的字幕生成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器632，上述程序指令可由电子设备600的处理器622执行以完成上述的字幕生成方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的字幕生成方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种字幕生成方法，其特征在于，包括：

获取待生成字幕的目标视频的音频数据；

将所述音频数据进行切分，得到多个音频片段；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述字符对应的所述概率分布，确定所述字符是否为错别字，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述目标视频的图像数据；

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据，还包括：

6.根据权利要求2所述的方法，其特征在于，所述目标视频的类型为教学视频；

所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一文本数据的字符语义特征、短语语义特征以及音素特征，对所述第一文本数据进行修正，得到所述音频片段对应的第二文本数据，还包括：

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述目标视频的类型为教学视频；

所述提取所述第一文本数据的短语语义特征，包括：

9.根据权利要求1-7中任一项所述的方法，其特征在于，所述第一文本数据为中英文混合文本；

所述提取所述第一文本数据的音素特征，包括：

10.根据权利要求9所述的方法，其特征在于，所述音素语言模型通过如下方式训练得到：

获取参考文本数据以及所述参考文本数据的参考音素特征；

11.根据权利要求1-7中任一项所述的方法，其特征在于，在所述将每一所述音频片段对应的第二文本数据合并，得到所述目标视频的字幕信息的步骤之前，所述方法还包括：

判断所述第二文本数据与所述第一文本数据是否一致；

12.一种字幕生成装置，其特征在于，包括：

获取模块，用于获取待生成字幕的目标视频的音频数据；

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-11中任一项所述方法的步骤。

14.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-11中任一项所述方法的步骤。