CN115862631A

CN115862631A - 一种字幕生成方法、装置、电子设备和存储介质

Info

Publication number: CN115862631A
Application number: CN202211590893.0A
Authority: CN
Inventors: 程平; 吴松城
Original assignee: Xiamen Black Mirror Technology Co ltd
Current assignee: Xiamen Black Mirror Technology Co ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-03-28

Abstract

本发明公开了一种字幕生成方法、装置、电子设备和存储介质，该方法包括：获取待识别语音和第一文本，基于预设语音识别算法对待识别语音进行语音识别，得到至少一个文本语句，待识别语音是基于第一文本生成的；若第一文本中带有标点符号，基于标点符号将第一文本划分为多个语句单元；基于预设分词算法对各语句单元进行分词处理，得到多个分词；将文本语句分别与各分词进行匹配，根据匹配结果确定各语句单元中与文本语句对应的目标语句单元；基于目标语句单元校正文本语句并得到目标文本语句，根据各目标文本语句生成目标字幕，基于先验的文本信息校正语音识别出的文本语句，实现了更加准确的进行字幕生成，提升了用户体验。

Description

一种字幕生成方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种字幕生成方法、装置、电子设备和存储介质。

背景技术

用户在收看一些音视频时，可以通过音视频展示画面上显示的字幕理解音视频内容。

现有技术中在进行字幕生成时，一般依赖人工手动录入或者通过语音识别技术自动生成文本信息编码到视频文件中。对于人工手动录入生成字幕的方式，存在效率低的问题。对于基于语音识别生成字幕的方式，依靠深度学习神经网络技术将输入的语音信息转化成含有时间戳信息的文本信息，最终依据时间戳信息转化成视频帧数范围，将文本信息添加到对应的视频帧中，生成字幕。然而语音识别的准确率很容易受到语音音量和音色等因素的影响，使转化出的文本信息产生不同程度的错误率，从而导致生成的字幕不准确。

因此，如何更加准确的进行字幕生成，是目前有待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例提供一种字幕生成方法、装置、电子设备和存储介质，用以更加准确的进行字幕生成。

第一方面，提供一种字幕生成方法，所述方法包括：获取待识别语音和第一文本，基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句，其中，所述待识别语音是基于所述第一文本生成的；若所述第一文本中带有标点符号，基于所述标点符号将所述第一文本划分为多个语句单元；基于预设分词算法对各所述语句单元进行分词处理，得到多个分词；将所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元；基于所述目标语句单元校正所述文本语句并得到目标文本语句，根据各所述目标文本语句生成目标字幕。

第二方面，提供一种字幕生成装置，所述装置包括：语音识别模块，用于获取待识别语音和第一文本，基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句，其中，所述待识别语音是基于所述第一文本生成的；划分模块，用于若所述第一文本中带有标点符号，基于所述标点符号将所述第一文本划分为多个语句单元；分词模块，用于基于预设分词算法对各所述语句单元进行分词处理，得到多个分词；匹配模块，用于将各所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元；生成模块，用于基于所述目标语句单元校正所述文本语句并得到目标文本语句，根据各所述目标文本语句生成目标字幕。

第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述的字幕生成方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的字幕生成方法。

通过应用以上技术方案，获取待识别语音和第一文本，基于预设语音识别算法对待识别语音进行语音识别，得到至少一个文本语句，其中，待识别语音是基于第一文本生成的；若第一文本中带有标点符号，基于标点符号将第一文本划分为多个语句单元；基于预设分词算法对各语句单元进行分词处理，得到多个分词；将文本语句分别与各分词进行匹配，根据匹配结果确定各语句单元中与文本语句对应的目标语句单元；基于目标语句单元校正文本语句并得到目标文本语句，根据各目标文本语句生成目标字幕。基于先验的文本信息校正语音识别出的文本语句，避免了字幕中存在错别字的情况，实现了更加准确的进行字幕生成，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种字幕生成方法的流程示意图；

图2示出了本发明另一实施例提出的一种字幕生成方法的流程示意图；

图3示出了本发明实施例提出的一种字幕生成装置的结构示意图；

图4示出了本发明实施例提出的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请实施例提供一种字幕生成方法，如图1所示，该方法包括以下步骤：

步骤S101，获取待识别语音和第一文本，基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句。

本实施例中，待识别语音是基于第一文本生成的，即第一文本为与待识别语音对应的准确文本。可通过对第一文本进行语音合成，得到该待识别语音。或对用户读取该第一文本的语音进行实时录制，得到该待识别语音。待识别语音和第一文本可以是用户上传的，或者也可以是用户从云端下载的，或者也可以是从其他终端或服务器发送的。

基于预设语音识别算法对待识别语音进行语音识别，得到至少一个文本语句，语音识别的准确率容易受到语音音量和音色等因素的影响，该文本语句中可能存在错别字，例如，若第一文本为“我爱劳动人民”，而文本语句为“我爱劳动人名”，文本语句中的“名”为错别字。因此，后续需要基于第一文本对该文本语句进行校正。各文本语句均带有时间戳信息，不同的文本语句是基于时间戳信息区分的。

可选的，待识别语音的格式为包括MP3、WAV、WMA、Flac、MIDI、RA、APE、AAC、CDA、MOV等格式中的任一种，第一文本和文本语句的格式为包括txt、doc等格式中的任一种，预设语音识别算法为包括DTW(Dynamic Time Warping，动态时间规整)算法、VQ(VectorQuantization，矢量量化)算法、HMM(Hidden Markov Model，马尔可夫模型)算法、ANN(Artificial Neural Networks，人工神经网络)算法等算法中的任一种。

在本申请一些实施例中，在基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句之前，所述方法还包括：

基于预设语音降噪算法对所述待识别语音进行降噪。

本实施例中，通过在进行语音识别之前，对待识别语音进行降噪，可以提高识别出的文本语句的准确性，可选的，预设语音降噪算法为包括LMS自适应滤波器及陷波器降噪、普减法、维纳滤波降噪、双麦克风降噪、AI降噪等降噪算法中的任一种。

可选的，也可基于预设音频处理软件对待识别语音进行降噪，如Adobe AuditionCS6，VinylStudio等。

在本申请一些实施例中，所述获取待识别语音和第一文本，包括：

获取所述第一文本并基于预设语音合成算法对所述第一文本进行语音合成，得到所述待识别语音；或，

获取用户上传的语音内容和所述第一文本，将所述语音内容作为所述待识别语音。

本实施例中，可通过两种方式获取待识别语音和第一文本，第一种方式为：先获取第一文本，然后基于预设语音合成算法对第一文本进行语音合成，从而获取待识别语音；第二种方式为：用户直接上传该待识别语音和第一文本。基于不同的获取方式，实现了更加灵活可靠的获取待识别语音和第一文本。

步骤S102，若所述第一文本中带有标点符号，基于所述标点符号将所述第一文本划分为多个语句单元。

本实施例中，视频中的字幕应该符合文本的语义特征，字幕中起始文本应该符合标点符号的停顿规律，为了避免将文本中标点符号前后碎片化的文字包含在完整的字幕中，以使第一文本更加准确的对文本语句进行校正，需要在第一文本中带有标点符号(如逗号、句号等)时，基于标点符号将第一文本划分为多个语句单元。

在本申请一些实施例中，在获取待识别语音和第一文本之后，所述方法还包括：

若所述第一文本中不带有所述标点符号，将所述第一文本作为所述语句单元。

本实施例中，若第一文本中不带有标点符号，则确定第一文本为单个语句单元，不需要进一步划分，将该第一文本作为语句单元即可，从而保证准确的获取语句单元。

步骤S103，基于预设分词算法对各所述语句单元进行分词处理，得到多个分词。

本实施例中，需要利用第一文本中的各个分词与文本语句进行匹配，来校正文本语句，基于预设分词算法对各语句单元进行分词处理，得到多个分词。举例来说，若语句单元为“我爱劳动人民”，各分词可以为[“我”、“爱”、“劳动”、“人民”]。

预设分词算法可以为现有的分词算法，如最大匹配分词算法、最短路径分词算法、生成式模型分词算法、判别式模型分词算法、神经网络分词算法等。本领域技术人员可根据实际需要使用不同的预设分词算法以及不同的分词策略进行分词。

步骤S104，将所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元。

本实施例中，将文本语句分别与各分词进行匹配，最终可从各语句单元中确定与文本语句对应的目标语句单元，与其他语句单元相比，该目标语句单元为与文本语句相似度最高的语句单元。因此，若文本语句中存在错别字，则该目标语句单元为文本语句的准确文本。

在本申请一些实施例中，所述将所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元，包括：

将各所述分词从单个分词开始依次递增，形成多个连续分词序列；

将所述文本语句分别与各所述连续分词序列进行比较，并确定所述连续分词序列中与所述文本语句中相同字符的个数；

根据所述相同字符的个数与所述文本语句中总字符个数的比值确定各所述连续分词序列的匹配得分；

根据匹配得分最高的最长连续分词序列确定所述目标语句单元。

本实施例中，先将各分词从单个分词开始依次递增，形成多个连续分词序列，该连续分词序列由单个分词组成或由连续的几个分词组成，为了保证可靠匹配，单个连续分词序列中各分词属于一个语句单元。然后，将文本语句分别与各连续分词序列进行比较，判断两者中相同字符的个数，再根据相同字符的个数与文本语句中总字符个数的比值确定各连续分词序列的匹配得分，匹配得分最高的最长连续分词序列与文本语句的相似度最高，因此，将该最长连续分词序列确定为目标语句单元。

举例来说，若第一文本为“我爱劳动人民”，语句文本为“我爱劳动人名”，各分词为[“我”、“爱”、“劳动”、“人民”]，则相应的连续分词序列为：“我”、“我爱”、“我爱劳动”、“我爱劳动人民”，进行迭代匹配，即分别进行：

将“我爱劳动人名”与“我”进行比较，匹配得分为：1/6；

将“我爱劳动人名”与“我爱”进行比较，匹配得分为：1/3；

将“我爱劳动人名”与“我爱劳动”进行比较，匹配得分为：2/3；

将“我爱劳动人名”与“我爱劳动人民”进行比较，匹配得分为：5/6；

由上可知，连续分词序列“我爱劳动人民”为匹配得分最高的最长连续分词序列，目标语句单元为“我爱劳动人民”。

需要说明的是，以上实施例的方案仅为本申请所提出的一种具体实现方案，其他将文本语句分别与各分词进行匹配的方式均属于本申请的保护范围。

步骤S105，基于所述目标语句单元校正所述文本语句并得到目标文本语句，根据各所述目标文本语句生成目标字幕。

本实施例中，目标语句单元是与文本语句对应的正确文本，基于目标语句单元校正该文本语句中的错别字，得到没有错别字的目标文本语句，将各目标文本语句按时间戳组合在一起，生成准确的目标字幕。

通过应用以上技术方案，获取待识别语音和第一文本，基于预设语音识别算法对待识别语音进行语音识别，得到至少一个文本语句，其中，待识别语音是基于第一文本生成的；若第一文本中带有标点符号，基于标点符号将第一文本划分为多个语句单元；基于预设分词算法对各语句单元进行分词处理，得到多个分词；将文本语句分别与各分词进行匹配，根据匹配结果确定各语句单元中与文本语句对应的目标语句单元；基于目标语句单元校正文本语句并得到目标文本语句，根据各目标文本语句生成目标字幕，基于先验的文本信息校正语音识别出的文本语句，避免了字幕中存在错别字的情况，实现了更加准确的进行字幕生成，提升了用户体验。

本申请实施例还提出了一种字幕生成方法，如图2所示，该方法包括以下步骤：

步骤S201，获取待识别语音和第一文本，基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句。

本实施例中，待识别语音是基于第一文本生成的，也即第一文本为与待识别语音对应的准确文本。可通过对第一文本进行语音合成，得到该待识别语音。或对用户读取该第一文本的语音进行实时录制，得到该待识别语音。待识别语音和第一文本可以是用户上传的，或者也可以是用户从云端下载的，或者也可以是从其他终端或服务器发送的。

基于预设语音识别算法待识别语音进行语音识别，得到至少一个文本语句，语音识别的准确率很容易受到语音音量和音色等因素的影响，该文本语句中可能存在错别字，例如，若第一文本为“我爱劳动人民”，而文本语句为“我爱劳动人名”，文本语句中的“名”为错别字。因此，后续需要基于第一文本对该文本语句进行校正。各文本语句均带有时间戳信息，不同的文本语句是基于时间戳信息区分的。

步骤S202，若所述第一文本中带有标点符号，基于所述标点符号将所述第一文本划分为多个语句单元。

步骤S203，基于预设分词算法对各所述语句单元进行分词处理，得到多个分词。

步骤S204，将所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元。

本实施例中，将文本语句分别与各分词进行匹配，最终可从各语句单元中确定与文本语句对应的目标语句单元，与其他语句单元相比，该目标语句单元为与文本语句相似度最高的语句单元。因此，若文本语句中存在错别字，则该目标语句单元相当于文本语句的准确文本。

步骤S205，基于所述目标语句单元校正所述文本语句并得到目标文本语句。

本实施例中，目标语句单元是与文本语句对应的正确文本，基于目标语句单元校正该文本语句中的错别字，得到没有错别字的目标文本语句。

步骤S206，判断目标文本语句的长度是否与目标语句单元的长度一致，若是执行步骤S208，否则执行步骤S207。

本实施例中，由于语音识别得到的文本语句，部分结果存在非语义一致性的特点，产生非正常的断句，例如将当前文本语句的首个词连在上个文本语句的末尾词之后。此时判断目标文本语句的长度是否与目标语句单元的长度一致，若不一致，则需要通过进一步修正使目标文本语句在语句停顿上更加合理。

步骤S207，基于所述目标语句单元修正所述目标文本语句的长度。

本实施例中，若目标文本语句的长度与目标语句单元不一致，说明目标语句单元存在非正常的断句，基于目标语句单元修正目标文本语句的长度，从而得到更加准确的目标文本语句，使字幕的断句更加准确。

在本申请一些实施例中，所述基于所述目标语句单元修正所述目标文本语句的长度，包括：

若所述目标文本语句的长度大于所述目标语句单元的长度，且所述目标文本语句比所述目标语句单元多出的第一目标字符段与第二目标字符段一致，将所述第一目标字符段移动至下一个目标文本语句中的首个词之前，其中，所述第二目标字符段为在所述目标语句单元之后的下一个语句单元中起始部分的字符段；

若所述目标文本语句的长度小于所述目标语句单元的长度，且所述目标语句单元比所述目标文本语句多出的第三目标字符段与第四目标字符段一致，将所述第四目标字符段移动至所述目标文本语句的末尾词之后，其中，所述第四目标字符段为所述下一个目标文本语句中起始部分的字符段。

本实施例中，目标文本语句的长度与目标语句单元的长度不一致时，存在两种情况，第一种情况为：目标文本语句的长度大于目标语句单元的长度，此时将目标文本语句比目标语句单元多出的第一目标字符段与第二目标字符段比较，第二目标字符段为在目标语句单元之后的下一个语句单元中起始部分的字符段，若第一目标字符段与第二目标字符段一致，则说明第一字符段应当为下一个目标文本语句中起始部分的字符段，因此，将第一目标字符段从目标文本语句移动至下一个目标文本语句中的首个词之前，从而使目标文本语句的长度恢复为正常断句时的长度。

第二种情况为：目标文本语句的长度小于目标语句单元的长度，此时将目标语句单元比目标文本语句多出的第三目标字符段与第四目标字符段比较，第四目标字符段为下一个目标文本语句中起始部分的字符段，若第三目标字符段与第四目标字符段一致，说明第四目标字符段应当作为目标文本语句结束部分的字符段，因此，将第四目标字符段从下一个目标文本语句移动至目标文本语句的末尾词之后，从而使目标文本语句的长度恢复为正常断句时的长度。

可以理解的是，第一目标字符段和第三目标字符段可以为一个词或多个词。

举例来说，在第一目标字符段和第三目标字符段为一个词时，对目标语句单元的长度进行以下调整：

若目标文本语句的长度大于目标语句单元的长度，且目标文本语句中的末尾词与在目标语句单元之后的下一个语句单元中第一个分词一致，说明目标文本语句中的末尾词应当为下一个目标文本语句中的首个词，将目标文本语句中的末尾词从目标文本语句移动到下一个目标文本语句中的首个词之前；

若目标文本语句的长度小于目标语句单元的长度，且目标语句单元的最后一个分词与下一个目标文本语句中的首个词一致，说明下一个目标文本语句中的首个词应当作为目标文本语句的末尾词，将下一个目标文本语句中的首个词移动到目标文本语句中的末尾词之后。

通过将目标文本语句中多出的字符段与下一个语句单元进行比对，或将目标文本语句中缺少的字符段与下一个目标文本语句比对，实现了准确的对目标文本语句的长度进行修正。

步骤S208，根据各所述目标文本语句生成目标字幕。

本实施例中，将各目标文本语句按时间戳组合在一起，生成准确的目标字幕。

通过应用以上技术方案，获取待识别语音和第一文本，基于预设语音识别算法对待识别语音进行语音识别，得到至少一个文本语句，其中，待识别语音是基于第一文本生成的；若第一文本中带有标点符号，基于标点符号将第一文本划分为多个语句单元；基于预设分词算法对各语句单元进行分词处理，得到多个分词；将文本语句分别与各分词进行匹配，根据匹配结果确定各语句单元中与文本语句对应的目标语句单元；基于目标语句单元校正文本语句并得到目标文本语句，判断目标文本语句的长度是否与目标语句单元的长度一致；若不一致，基于目标语句单元修正目标文本语句的长度；根据各目标文本语句生成目标字幕。基于先验的文本信息校正语音识别出的文本语句，避免了字幕中存在错别字的情况，并对校正后的文本语句的长度进行修正，使其在语句停顿上更加合理，实现了更加准确的进行字幕生成，提升了用户体验。

本申请实施例还提出了一种字幕生成装置，如图3所示，所述装置包括：

语音识别模块301，用于获取待识别语音和第一文本，基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句，其中，所述待识别语音是基于所述第一文本生成的；

划分模块302，用于若所述第一文本中带有标点符号，基于所述标点符号将所述第一文本划分为多个语句单元；

分词模块303，用于基于预设分词算法对各所述语句单元进行分词处理，得到多个分词；

匹配模块304，用于将各所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元；

生成模块305，用于基于所述目标语句单元校正所述文本语句并得到目标文本语句，根据各所述目标文本语句生成目标字幕。

在具体的应用场景中，匹配模块304，具体用于：

在具体的应用场景中，所述装置还包括修正模块，用于：

判断所述目标文本语句的长度是否与所述目标语句单元的长度一致；

若不一致，基于所述目标语句单元修正所述目标文本语句的长度。

在具体的应用场景中，所述修正模块，具体用于：

在具体的应用场景中，划分模块302，还用于：

在具体的应用场景中，所述装置还包括降噪模块，用于：

基于预设语音降噪算法对所述待识别语音进行降噪。

在具体的应用场景中，语音识别模块301，具体用于：

通过应用以上技术方案，字幕生成装置包括：语音识别模块，用于获取待识别语音和第一文本，基于预设语音识别算法对待识别语音进行语音识别，得到至少一个文本语句，其中，待识别语音是基于第一文本生成的；划分模块，用于若第一文本中带有标点符号，基于标点符号将第一文本划分为多个语句单元；分词模块，用于基于预设分词算法对各语句单元进行分词处理，得到多个分词；匹配模块，用于将各文本语句分别与各分词进行匹配，根据匹配结果确定各语句单元中与文本语句对应的目标语句单元；生成模块，用于基于目标语句单元校正文本语句并得到目标文本语句，根据各目标文本语句生成目标字幕，基于先验的文本信息校正语音识别出的文本语句，避免了字幕中存在错别字的情况，实现了更加准确的进行字幕生成，提升了用户体验。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存储处理器的可执行指令；

处理器401，被配置为经由执行所述可执行指令来执行：

获取待识别语音和第一文本，基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句，其中，所述待识别语音是基于所述第一文本生成的；

若所述第一文本中带有标点符号，基于所述标点符号将所述第一文本划分为多个语句单元；

基于预设分词算法对各所述语句单元进行分词处理，得到多个分词；

将所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元；

基于所述目标语句单元校正所述文本语句并得到目标文本语句，根据各所述目标文本语句生成目标字幕。

上述通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的字幕生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的字幕生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种字幕生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元，包括：

3.如权利要求1所述的方法，其特征在于，在基于所述目标语句单元校正所述文本语句并得到目标文本语句之后，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述基于所述目标语句单元修正所述目标文本语句的长度，包括：

5.如权利要求1所述的方法，其特征在于，在获取待识别语音和第一文本之后，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，在基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句之前，所述方法还包括：

基于预设语音降噪算法对所述待识别语音进行降噪。

7.如权利要求1所述的方法，其特征在于，所述获取待识别语音和第一文本，包括：

8.一种字幕生成装置，其特征在于，所述装置包括：

语音识别模块，用于获取待识别语音和第一文本，基于预设语音识别算法对所述待识别语音进行语音识别，得到至少一个文本语句，其中，所述待识别语音是基于所述第一文本生成的；

划分模块，用于若所述第一文本中带有标点符号，基于所述标点符号将所述第一文本划分为多个语句单元；

分词模块，用于基于预设分词算法对各所述语句单元进行分词处理，得到多个分词；

匹配模块，用于将各所述文本语句分别与各所述分词进行匹配，根据匹配结果确定各所述语句单元中与所述文本语句对应的目标语句单元；

生成模块，用于基于所述目标语句单元校正所述文本语句并得到目标文本语句，根据各所述目标文本语句生成目标字幕。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述的字幕生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的字幕生成方法。