CN116524906A

CN116524906A - 用于语音识别的训练数据生成方法、系统和电子设备

Info

Publication number: CN116524906A
Application number: CN202310271330.3A
Authority: CN
Inventors: 张记成; 唐健; 薛少飞
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-08-01

Abstract

本发明实施例提供一种用于语音识别的训练数据生成方法、系统和电子设备。该方法包括：对视频进行文本识别，确定视频内包含时间边界的字幕文本；基于字幕文本的时间边界从视频中截取出与字幕文本时间相对应的音频片段；将字幕文本确定为音频片段的文本识别标签；利用预训练的语音识别模型对音频片段进行语音识别，将得到的语音识别结果确定为音频片段的语音识别标签；基于语音识别标签对文本识别标签中的错误字幕文本进行过滤，将过滤后的文本识别标签确定为用于语音识别的训练数据。本发明实施例可以根据不同语种种类的视频生成有效的用于语音识别的训练数据，新生成的数据不受原有数据的限制，使得数据的多样性得到了保证。

Description

用于语音识别的训练数据生成方法、系统和电子设备

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音识别的训练数据生成方法、系统和电子设备。

背景技术

随着基于深度神经网络的不断发展，端到端语音识别框架由于其简单和紧凑性，已在语音识别的研究以及工业应用中占据主导地位，并且具有很好的语音识别性能。尽管取得了很多进展，端到端语音识别建模框架仍然面临很多挑战。例如，在端到端建模框架中，数据紧缺问题始终是存在的。当模型层数越来越深时，对数据的渴望更是迫切。如果没有足够的训练数据，很难获取到令人满意的性能。为了获取用于语音识别的训练数据，通常会使用以下方式：

1、提取语音中的音频特征构建特征库，利用特征库生成新的语音训练数据；2、对语音进行加噪等处理，生成新的语音训练数据；3、利用语音识别模型对采集的语音标注伪标签，利用伪标签数据直接用于训练。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

1、构建音频的特征库，其生成的新数据的多样性受原始数据限制，无法产生新领域音频数据。该方法仅仅是对现有音频进行组合，可以认为仅仅是扩充了现有领域数据，并且新生成的音频的说话人也是原数据中已经存在的；

2、加噪处理生成的语音也仅仅是扩充了数据量，但无法提升数据多样性，对于语音识别训练的性能提升并不大；

3、使用语音识别模型来生成伪标签，生成标签的准确率跟语音识别模型的性能强相关，如果用生成的伪标签数据直接参与训练，效果提升非常有限。

发明内容

为了至少解决现有技术中生成的音频可能是原数据中已经存在的，生成的音频不具有多样性，对语音识别的训练效果有限的问题。第一方面，本发明实施例提供一种用于语音识别的训练数据生成方法，包括：

对视频进行文本识别，确定所述视频内包含时间边界的字幕文本；

基于所述字幕文本的时间边界从所述视频中截取出与所述字幕文本时间相对应的音频片段；

将所述字幕文本确定为所述音频片段的文本识别标签；

利用预训练的语音识别模型对所述音频片段进行语音识别，将得到的语音识别结果确定为所述音频片段的语音识别标签；

基于所述语音识别标签对所述文本识别标签中的错误字幕文本进行过滤，将过滤后的文本识别标签确定为用于语音识别的训练数据。

第二方面，本发明实施例提供一种用于语音识别的训练数据生成系统，包括：

字幕文本确定程序模块，用于对视频进行文本识别，确定所述视频内包含时间边界的字幕文本；

音频片段截取程序模块，用于基于所述字幕文本的时间边界从所述视频中截取出与所述字幕文本时间相对应的音频片段；

文本识别标签确定程序模块，用于将所述字幕文本确定为所述音频片段的文本识别标签；

语音识别标签确定程序模块，用于利用预训练的语音识别模型对所述音频片段进行语音识别，将得到的语音识别结果确定为所述音频片段的语音识别标签；

训练数据确定程序模块，用于基于所述语音识别标签对所述文本识别标签中的错误字幕文本进行过滤，将过滤后的文本识别标签确定为用于语音识别的训练数据。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音识别的训练数据生成方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音识别的训练数据生成方法的步骤。

本发明实施例的有益效果在于：一方面可以根据不同语种种类的视频生成有效的用于语音识别的训练数据，新生成的数据不受原有数据的限制，使得数据的多样性得到了保证，并且可以根据视频种类来生成指定领域的数据。另一方面，通过预训练的语音识别模型进一步对标注出的数据进行筛选，但筛选过程并没有完全依赖于语音识别模型，即不要求语音识别模型对新数据完全识别，仅仅是为了过滤文本标注错误或无声区域(音频中有字幕，无人声)的数据，进一步保证了筛选数据的有效性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音识别的训练数据生成方法的流程图；

图2是本发明一实施例提供的一种用于语音识别的训练数据生成方法的整体流程示意图；

图3是本发明一实施例提供的一种用于语音识别的训练数据生成系统的结构示意图；

图4为本发明一实施例提供的一种用于语音识别的训练数据生成的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音识别的训练数据生成方法的流程图，包括如下步骤：

S11：对视频进行文本识别，确定所述视频内包含时间边界的字幕文本；

S12：基于所述字幕文本的时间边界从所述视频中截取出与所述字幕文本时间相对应的音频片段；

S13：将所述字幕文本确定为所述音频片段的文本识别标签；

S14：利用预训练的语音识别模型对所述音频片段进行语音识别，将得到的语音识别结果确定为所述音频片段的语音识别标签；

S15：基于所述语音识别标签对所述文本识别标签中的错误字幕文本进行过滤，将过滤后的文本识别标签确定为用于语音识别的训练数据。

在本实施方式中，考虑到现有技术的数据扩充可能无法有效的增加数据的多样性，而生成伪标签方法并无法很好的保证数据的质量。本方法生成的用于语音识别的训练数据同时要保证增加数据的多样性和丰富性，以及数据的有效性和准确性，在这三者的共同促进下，才能给语音识别性能带来有效的性能提升。

本方法发现，广泛采集的音频质量自身往往难以把控，而视频中的音频质量相对更高，例如各大电视剧、电影或者各大UP主上传的视频，并且可以根据训练的需求选择不同语种的视频。例如，训练普通话的语音识别模型，可以选择中文普通话的视频；如果要训练粤语的语音识别模型，则可以选择粤语的视频。上述列举的视频中还带有字幕，可以更便捷的生成用于语音识别的训练数据。因此，本方法能够针对某个专门的领域进行处理，例如中文领域、粤语领域、外语领域等。更新不同的领域需求选择不同语言的视频。

对于步骤S11，例如需求用于普通话语音识别模型的训练数据时，可以选择中文视频，例如电视剧、电影等。对视频中的画面进行文本识别，识别出画面中所有的文字。例如，在视频第10秒至第12秒识别到视频中的画面的字幕为“我们先走，两日后再来”。但具体的识别并非如此简单。

作为一种实施方式，所述对视频进行文本识别，确定所述视频内包含时间边界的字幕文本包括：

对所述视频进行文本检测，具体的，对所述视频的每一帧进行文本检测，或对所述视频进行跳帧的文本检测，确定所述视频在不同帧值时所展示图像中处于各位置的文本；

至少基于所述文本的位置确定所述文本中的非字幕文本以及字幕文本；

对各帧值的字幕文本进行文本聚类，确定文本聚类后所述字幕文本在所述视频中出现的开始时间以及结束时间；

将所述开始时间以及结束时间确定为所述字幕文本的时间边界。

在本实施方式中，视频按照视频流的方式进行处理，对视频流中的每一帧图片执行文本检测和文本识别，识别该视频中所有帧的图像中包含的文字，例如，除了识别到字幕中的“我们先走，两日后再来”，还会识别到视频本身画面中的文字，例如，视频画面中牌匾的“妙手回春”的文字。然而，在真正实际应用中，考虑到每秒视频有24帧图像，如果帧帧都进行识别，则过于浪费，因此，为了节省计算量以及时间，采取了跳帧的识别操作。例如隔六帧进行检测和识别一次(对视频中第一帧、第七帧、第十三帧、第十九帧、第二十五帧(下一秒的第一帧)等执行文本检测和文本识别)。例如，第十秒的第一帧、第七帧、第十三帧、第十九帧、第二十五帧、第十一秒的第一帧、第七帧、第十三帧、第十九帧、第二十五帧、第十二秒的第一帧、第七帧、第十三帧、第十九帧识别到“我们先走，两日后再来”和“妙手回春”。识别过程中记录了该条视频所有跳帧识别的结果，以及结果对应的帧值(帧值用于后期计算时间边界)。

在上述识别过程中，各帧的图像中会检测出多个区域的文本，例如，视频下方的字幕区域的“我们先走，两日后再来”，以及视频图像中右上牌匾的“妙手回春”。也就是说，我们只需要字幕区域的“我们先走，两日后再来”，而其他区域的“妙手回春”这类非字幕文本是无法与音频进行一一对应，因此需要删除这些非字幕区域文本。

具体的，所述至少基于所述文本的位置确定所述文本中的非字幕文本以及字幕文本包括：

基于所述文本的位置以及所述文本在所述视频中出现的频率确定所述文本中的非字幕文本以及字幕文本。

在本实施方式中，文本识别过程中已经单独存储了所有检测出来的文本区域以及保存了该文本区域对应的文本，因此在此步骤将统计所有单独区域对应的文本出现的频率，在一般的视频中如果视频中有非字幕文本(通常是网站或视频名称，LOGO标签等)，这些标签出现的频率一般较高，所以设置频率阈值，当出现频率超过阈值的文本，都直接移除(被当作非字幕文本)。

例如，第十秒的第一帧、第七帧、第十三帧、第十九帧、第二十五帧、第十一秒的第一帧、第七帧、第十三帧、第十九帧、第二十五帧、第十二秒的第一帧、第七帧、第十三帧、第十九帧识别到的“妙手回春”就被移除。

在移除之后，对“我们先走，两日后再来”按照其对应的帧数从小到大进行排序，并且对每一帧的识别结果进行文本归一化处理，去除标点符号，如果每一帧有多个识别结果，将多个识别结果根据其检测坐标按照位置顺序转化为一个字符串(多行字幕现象)。由于已经将每一帧都转换成为了一个文本字符串，接着就是要对这些文本字符串进行聚类，将相邻帧多个相似或相同的字符串归并为同一个，如果多个相邻帧出现的字符串都相同，则直接将这个相同的字符串作为该条字幕的最终标注结果，按照这个相同字符串第一次出现的帧数当作开始时间，最后一次出现的帧数当作结束时间，最后完成该条字幕的标注。如果相邻多个帧出现了多个不同但相似的结果，则在多个结果中采取投票操作，取出现次数最多的文本作为最终的结果，同样取这些相似结果第一次和最后一次出现的结果为开始和结束时间，最终完成该条字幕的标注。

进而识别出的“我们先走，两日后再来”的开始时间为第十秒的第一帧，结束时间为第十二秒的第十九帧，这也就是字幕“我们先走，两日后再来”在视频中的时间边界。通过这种方式不断的进行识别，得到多条包含时间边界的字幕文本。总的来说，通过聚类可以识别出字幕文本和非字幕文本，并且对非字幕文本进行有效的过滤，并且通过每段字幕的开始帧和结尾帧进行时间边界的标注，两者结合使得前期标注出的数据更加有效和准确。

对于步骤S12，在步骤S11文本识别之后，利用确定出的时间边界从视频中截取出与字幕文本相对应的音频片段，例如，基于字幕“我们先走，两日后再来”的时间边界从视频中截取第十秒的第一帧到第十二秒的第十九帧的音频片段。按照同样的方式，截取出其他字幕文本对应的音频片段。

对于步骤S13，在步骤S12截取后，将“我们先走，两日后再来”作为第十秒的第一帧到第十二秒的第十九帧的音频片段的文本识别标签，同样的，再利用其他的字幕文本确定为其他时间音频片段的文本识别标签。

对于步骤S14，在步骤S13确定的文本识别标签和音频片段作为一个生成阶段，该阶段已经可以用于训练语音识别模型，然而上述标签还是存在一定的错误，直接用于训练语音识别模型还是会对识别效果产生一定的负面影响。因此，为了进一步提升生成训练数据的质量，还需进一步的处理。步骤S13中这一阶段确定的标注结果(文本识别标签)中可能还存在一些标注错误(包含了文本识别错误、时间边界标注错误、非字幕区域文本错误(非字幕区域可能去除不干净)等)，则还需要进一步对第一阶段的识别结果进行过滤筛选，而使用人工校验筛选无疑会耗费大量的人力，如果不去除而直接参与训练则会影响最终的模型性能。

因此采用预训练的语音识别模型进行过滤筛选无疑是最好的选择。而一个好的语音识别系统往往包含了声学模型和语言模型两部分，两部分都在语音识别系统中占据了比较重要的地位。

作为一种实施方式，所述预训练的语音识别模型由所述音频片段、所述文本识别标签以及与所述视频相同语种的训练数据训练获得，包括：

利用所述音频片段、所述文本识别标签训练第一语言模型；

通过预设的插值系数将所述第一语言模型与预设目标领域的第二语言模型结合，得到最终语言模型；

基于与所述视频相同语种的训练数据训练声学模型，利用所述声学模型以及所述最终语言模型生成预训练的语音识别模型。

在本实施方式中，首先使用步骤S13中确定的标注结果(文本识别标签)来训练一个语言模型，该语言模型选择合适的插值系数与原始领域的文本训练的语言模型进行插值构成最终的语言模型。不同的插值系数可能会导致最终筛选出有效数据的时长有所不同，因此可以通过多次实验来选择最合适的插值系数。利用语言模型插值方案，将带筛选数据集的文本训练语言模型，并且跟原始语言模型做插值，进一步提升本方法的筛选数据效果和准确率。

由于输入视频是中文视频，在准备声学模型时，声学模型可以是和视频中相同语种的数据训练的声学模型(例如也是中文的训练数据)，将声学模型与上一步训练的语言模型结合，得到预训练的语音识别模型。利用上述步骤得到的预训练的语音识别模型对音频片段进行语音识别，将得到的语音识别结果确定为所述音频片段的语音识别标签。也就是说，对于视频中的一段音频，不但有了根据视频中字幕得到的文本识别标签，也有了根据视频中音频得到的语音识别标签。

对于步骤S15，通过步骤S14，每一段音频都有了文本识别标签和语音识别标签。具体的，为了过滤出标注结果中的错误数据，将音频片段的文本识别标签视为Ground Truth(参考标准)，利用音频片段的语音识别标签计算WER(Word Error Rate，字错率)，通过设置过滤阈值，如果WER小于设置的阈值时，则将文本识别标签作为最终的标注结果，如果大于设置的阈值时，则将文本识别标签确定为错误字幕文本进行抛弃过滤。通过上述方式对所有音频片段的文本识别标签进行过滤，得到中文领域的用于语音识别的训练数据。同样的，如果输入的是其他语言的视频，可以得到其他语言领域的用于语音识别的训练数据，本方法的整体流程如图2所示。

通过该实施方式可以看出，一方面可以根据不同语种种类的视频生成有效的用于语音识别的训练数据，新生成的数据不受原有数据的限制，使得数据的多样性得到了保证，并且可以根据视频种类来生成指定领域的数据。另一方面，通过预训练的语音识别模型进一步对标注出的数据进行筛选，但筛选过程并没有完全依赖于语音识别模型，即不要求语音识别模型对新数据完全识别，仅仅是为了过滤文本标注错误或无声区域(音频中有字幕，无人声)的数据，进一步保证了筛选数据的有效性和准确性。

如图3所示为本发明一实施例提供的一种用于语音识别的训练数据生成系统的结构示意图，该系统可执行上述任意实施例所述的用于语音识别的训练数据生成方法，并配置在终端中。

本实施例提供的一种用于语音识别的训练数据生成系统10包括：字幕文本确定程序模块11，音频片段截取程序模块12，文本识别标签确定程序模块13，语音识别标签确定程序模块14和训练数据确定程序模块15。

其中，字幕文本确定程序模块11用于对视频进行文本识别，确定所述视频内包含时间边界的字幕文本；音频片段截取程序模块12用于基于所述字幕文本的时间边界从所述视频中截取出与所述字幕文本时间相对应的音频片段；文本识别标签确定程序模块13用于将所述字幕文本确定为所述音频片段的文本识别标签；语音识别标签确定程序模块14用于利用预训练的语音识别模型对所述音频片段进行语音识别，将得到的语音识别结果确定为所述音频片段的语音识别标签；训练数据确定程序模块15。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音识别的训练数据生成方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将所述字幕文本确定为所述音频片段的文本识别标签；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音识别的训练数据生成方法。

图4是本申请另一实施例提供的用于语音识别的训练数据生成方法的电子设备的硬件结构示意图，如图4所示，该设备包括：

一个或多个处理器410以及存储器420，图4中以一个处理器410为例。用于语音识别的训练数据生成方法的设备还可以包括：输入装置430和输出装置440。

处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的用于语音识别的训练数据生成方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于语音识别的训练数据生成方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可接收输入的数字或字符信息。输出装置440可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器420中，当被所述一个或者多个处理器410执行时，执行上述任意方法实施例中的用于语音识别的训练数据生成方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音识别的训练数据生成方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音识别的训练数据生成方法，包括：

将所述字幕文本确定为所述音频片段的文本识别标签；

2.根据权利要求1所述的方法，其中，所述对视频进行文本识别，确定所述视频内包含时间边界的字幕文本包括：

对所述视频进行文本检测，确定所述视频在不同帧值时所展示图像中处于各位置的文本；

3.根据权利要求2所述的方法，其中，所述对所述视频进行文本检测包括：对所述视频的每一帧进行文本检测，或对所述视频进行跳帧的文本检测。

4.根据权利要求2所述的方法，其中，所述至少基于所述文本的位置确定所述文本中的非字幕文本以及字幕文本包括：

5.根据权利要求1所述的方法，其中，所述预训练的语音识别模型由所述音频片段、所述文本识别标签以及与所述视频相同语种的训练数据训练获得，包括：

利用所述音频片段、所述文本识别标签训练第一语言模型；

6.一种用于语音识别的训练数据生成系统，包括：

7.根据权利要求6所述的系统，其中，所述字幕文本确定程序模块用于：

8.根据权利要求7所述的系统，其中，所述对所述视频进行文本检测包括：对所述视频的每一帧进行文本检测，或对所述视频进行跳帧的文本检测。

9.根据权利要求7所述的系统，其中，所述至少基于所述文本的位置确定所述文本中的非字幕文本以及字幕文本包括：

10.根据权利要求6所述的系统，其中，所述预训练的语音识别模型由所述音频片段、所述文本识别标签以及与所述视频相同语种的训练数据训练获得，包括：

利用所述音频片段、所述文本识别标签训练第一语言模型；

11.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。