CN113450774A

CN113450774A - 一种训练数据的获取方法及装置

Info

Publication number: CN113450774A
Application number: CN202110700061.9A
Authority: CN
Inventors: 杨震; 刘�东; 李响; 张神权; 韩其琛
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-28
Anticipated expiration: 2041-06-23

Abstract

本申请涉及语音识别领域，提供了一种训练数据的获取方法及装置，以解决难以获取到符合语音识别训练标准的训练数据的问题，该方法包括：获取多媒体文件的原始字幕文本，并对原始字幕文本执行第一处理流程，获得候选字幕文本；获取多媒体文件的原始音频片段，并对原始音频片段执行第二处理流程，获得候选音频片段；最后，对候选字幕文本和候选音频片段进行对齐处理，获得包含对应于时间序列的目标字幕文本和目标音频片段的训练数据。本申请实施例对基于弱监督标注的原始字幕文本执行第一处理流程，获得候选字幕文本，不仅降低了训练数据的获取难度，还提高了训练数据的准确率，可在较短时间内获取到大量符合语音识别训练标准的训练数据。

Description

一种训练数据的获取方法及装置

技术领域

本申请涉及语音识别技术领域，提供了一种训练数据的获取方法及装置。

背景技术

随着科学技术的发展，语音识别技术越来越广泛地应用于人们日常的工作生活当中，比如，在智能家居、车载导航、视频制作等场景中应用语音识别技术。

语音识别技术的关键是使用标注好的语音识别训练数据，对语音识别模型进行训练，而在相关技术中，提供了以下三种获得训练数据的方式。

方式一，基于人工标注的训练数据获取方式。该方式中的一条语音数据需要进行多次人工检查，才能被标注为训练数据，获取训练数据的效率较低，也难以保证训练数据的准确率符合语音识别训练标准。另外，标注者在标注西班牙语、葡萄牙语等源自其他语言的语音数据时，也需要标注者具备较高的专业技能，进一步增加了多语种训练数据的获取难度。

方式二，基于语音识别系统的训练数据获取方式。但语音识别系统的识别结果会存在一定误差，无法保证输出的训练数据完全准确，而且使用语音识别系统的识别结果训练其他语音识别系统，理论上来说，训练完毕的其他语音识别系统的性能，也难以超越原有语音识别系统的性能。

方式三，基于语音评测系统的训练数据获取方式。因语音评测系统的稀疏性，难以获取大量的、来自不同领域的训练数据，导致语音评测系统最终获取到的训练数据存在明显的偏置，不利于后续训练语音识别系统。

发明内容

本申请实施例提供了一种训练数据的获取方法及装置，以解决难以获取到符合语音识别训练标准的训练数据的问题。

第一方面，本申请实施例提供了一种训练数据的获取方法，所述训练数据用于训练语音识别模型，包括：

获取多媒体文件的原始字幕文本，并对所述原始字幕文本执行第一处理流程，获得候选字幕文本；

获取所述多媒体文件的原始音频片段，并对所述原始音频片段执行第二处理流程，获得候选音频片段；

对所述候选字幕文本和所述候选音频片段进行对齐处理，获得所述训练数据，其中，所述训练数据包括对应于时间序列的目标字幕文本和目标音频片段。

可选的，所述获取多媒体文件的原始字幕文本，包括：

获取所述多媒体文件的外挂式字幕文件；

对所述外挂式字幕文件进行文件解析，获得外挂式字幕文本，并将所述外挂式字幕文本作为所述原始字幕文本。

可选的，所述获取多媒体文件的原始字幕文本，包括：

对所述多媒体文件的各帧第一视频图像进行字符识别处理，获得各帧第一视频图像所包含的初始字符序列；

对各个初始字符序列进行筛选，剔除不符合预设文本筛选规则的初始字符序列，获得候选字符序列集合，并将所述候选字符序列集合作为所述原始字幕文本。

可选的，在对所述多媒体文件的各帧第一视频图像进行字符识别处理之前，所述方法还包括，通过以下至少一种方式获得所述各帧第一视频图像：

针对所述多媒体文件的各帧第二视频图像，分别执行以下操作：比较当前一帧第二视频图像和参考帧视频图像之间的画面变化，若第一比较结果符合预设比较规则，则将所述当前一帧第二视频图像作为一帧第一视频图像输出；

按照预设抽帧周期，从所述多媒体文件中抽取相应数量的多帧第二视频图像，并将抽取出的所述多帧第二视频图像作为所述各帧第一视频图像输出。

可选的，所述对所述各个初始字符序列进行筛选，剔除不符合预设文本筛选规则的初始字符序列，获得候选字符序列集合，包括以下至少一种筛选方式：

从所述各个初始字符序列中，剔除与设定字符序列方向不符的初始字符序列，获得所述候选字符序列集合；

从所述各个初始字符序列中，剔除第一视频图像的目标字符变化值不符合预设字符变化规则的初始字符序列，获得所述候选字符序列集合；

基于所述各个初始字符序列的字符数目以及各自对应的连续帧数，对所述各个初始字符序列进行筛选，获得所述候选字符序列集合。

可选的，所述设定字符序列方向包括水平字符序列，和竖直字符序列。

可选的，所述从所述各个初始字符序列中，剔除第一视频图像的目标字符变化值不符合预设字符变化规则的初始字符序列，包括：

针对各帧第一视频图像，分别执行以下操作：若一帧第一视频图像中的全部初始字符变化值均低于设定第一阈值，则判定所述一帧第一视频图像的目标字符变化值不符合所述字符变化规则，并剔除所述一帧第一视频图像上的所述全部初始字符序列。

可选的，通过以下方式确定所述一帧第一视频图像中的至少一个初始字符变化值：

循环遍历所述一帧第一视频图像上的各个第一初始字符序列，其中，每遍历一个第一初始字符序列，基于所述一个第一初始字符序列与相邻一帧第一视频图像上对应位置的第二初始字符序列之间的像素差异值，确定所述一个第一初始字符序列的初始字符变化值。

可选的，所述获取多媒体文件的原始字幕文本，包括：

对所述多媒体文件的原始音频片段进行语音识别处理，将语音识别结果作为所述原始字幕文本；或者，

获取所述多媒体文件的音频字幕文件，对所述音频字幕文件进行文件解析，获得所述原始字幕文本。

可选的，所述对所述原始字幕文本执行第一处理流程，获得候选字幕文本，包括以下至少一种操作：

将所述原始字幕文本中的特定字符，转换为对应的汉字；

基于预设的映射关系，将所述原始字幕文本中的拼音缩写转换为对应的映射词集合；

若所述原始字幕文本中存在混淆词，则在所述原始字幕文本中插入对应的混淆词集合。

可选的，所述混淆词为同义词、同音词中的至少一种。

可选的，所述对所述原始音频片段执行第二处理流程，获得候选音频片段，包括：

对所述多媒体文件的原始音频片段进行语音活性检测处理，滤除所述原始音频片段中的冗余音频片段，获得所述候选音频片段。

可选的，所述对所述候选字幕文本和所述候选音频片段进行对齐处理，获得所述训练数据，包括：

将所述候选音频片段输入预设的声学模型中，获得对应的声学状态序列；

基于所述声学状态序列中的各帧声学状态，与所述候选字幕文本中的各个候选词语之间的匹配概率值，对所述候选字幕文本和所述候选音频片段进行对齐处理，并将对齐结果作为所述训练数据。

可选的，若获得多个对齐结果，则所述方法还包括：

将所述多个对齐结果，分别输入预设的文本分类模型中，获得对应的文本合理度；其中，所述文本分类模型每读取一个对齐结果，计算所述一个对齐结果出现在所述候选字幕文本中的条件概率，并将所述条件概率，作为对应的文本合理度输出；

将最大文本合理度对应的对齐结果，作为所述训练数据。

可选的，所述文本分类模型是基于各个样本字幕文本、以及对应的样本字幕词汇集训练得到的，其中，一个样本字幕词汇集对应至少一个样本字幕文本。

可选的，在获得所述训练数据之后，所述方法还包括：

将所述训练数据中的目标字幕文本与所述原始字幕文本进行比较，若第二比较结果表征所述目标字幕文本中含有语气词，则保留所述目标字幕文本中的语气词；

若所述第二比较结果表征所述训练数据的错误率超过设定第二阈值，则舍弃所述训练数据，其中，所述训练数据的错误率是基于所述训练数据中被切除的音频片段的时长与所述训练数据的整体时长确定的，所述被切除的音频片段是与所述原始字幕文本不匹配的目标字幕文本所对应的音频片段。

可选的，在保留所述目标字幕文本中的语气词之后，所述方法还包括：

基于所述目标字幕文本，对所述原始字幕文本进行文本修正。

第二方面，本申请实施例还提供了一种训练数据的获取装置，所述训练数据用于训练语音识别模型，包括：

文本生成单元，用于获取多媒体文件的原始字幕文本，并对所述原始字幕文本执行第一处理流程，获得候选字幕文本；

音频生成单元，用于获取所述多媒体文件的原始音频片段，并对所述原始音频片段执行第二处理流程，获得候选音频片段；

对齐单元，用于对所述候选字幕文本和所述候选音频片段进行对齐处理，获得所述训练数据，其中，所述训练数据包括对应于时间序列的目标字幕文本和目标音频片段。

可选的，所述文本生成单元用于：

获取所述多媒体文件的外挂式字幕文件；

可选的，所述文本生成单元用于：

可选的，在对所述多媒体文件的各帧第一视频图像进行字符识别处理之前，所述文本生成单元通过以下至少一种方式获得所述各帧第一视频图像：

可选的，所述文本生成单元采用以下至少一种筛选方式，获得所述候选字符序列集合：

可选的，所述文本生成单元用于：

可选的，所述文本生成单元通过以下方式确定所述一帧第一视频图像中的至少一个初始字符变化值：

可选的，所述文本生成单元用于：

可选的，所述文本生成单元采用以下至少一种操作，获得所述候选字幕文本：

将所述原始字幕文本中的特定字符，转换为对应的汉字；

可选的，所述混淆词为同义词、同音词中的至少一种。

可选的，所述音频生成单元用于：

可选的，所述对齐单元用于：

可选的，若获得多个对齐结果，则所述装置还包括筛选单元，所述筛选单元用于：

将最大文本合理度对应的对齐结果，作为所述训练数据。

可选的，在获得述训练数据之后，所述筛选单元还用于：

可选的，在保留所述目标字幕文本中的语气词之后，所述装置还包括修正单元，所述修正单元用于：

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种训练数据的获取方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种训练数据的获取方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种训练数据的获取方法及装置，该方法包括：获取多媒体文件的原始字幕文本，并对原始字幕文本执行第一处理流程，获得候选字幕文本；获取多媒体文件的原始音频片段，并对原始音频片段执行第二处理流程，获得候选音频片段；最后，对候选字幕文本和候选音频片段进行对齐处理，获得包含对应于时间序列的目标字幕文本和目标音频片段的训练数据。本申请实施例是对基于弱监督标注的原始字幕文本执行第一处理流程，获得候选字幕文本，在降低训练数据获取难度的同时，还有效提高了训练数据的准确率，以便在较短时间内获取到大量的符合语音识别训练标准的训练数据。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的获取训练数据的流程示意图；

图2a为本申请实施例提供的从内嵌式字幕中获取原始字幕文本的流程示意图；

图2b为本申请实施例提供的一帧第一视频图像上的初始字符序列示意图；

图2c为本申请实施例提供的一帧第一视频图像上的初始字符序列筛选前后对比示意图；

图2d为本申请实施例提供的相邻两帧第一视频图像上的初始字符序列示意图；

图3a为本申请实施例提供的对齐候选字幕文本和候选音频片段的流程示意图；

图3b为本申请实施例提供的对齐结果示意图；

图3c为本申请实施例提供的目标字幕文本与原始字幕文本的对比示意图；

图4为本申请实施例中提供的一种训练数据的获取装置的结构示意图；

图5为本申请实施例中的一种计算机设备的结构示意图；

图6为应用本申请实施例的一种计算装置的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

在互联网中存在大量的基于弱监督标注的原始字幕文本，如带有字幕的影视作品、带有字幕的长视频或短视频、有声读物、基于语音识别技术识别的新闻音频等。尤其是带有字幕的影视作品、带有字幕的长视频或短视频，其所携带的字幕绝大多数是经过人工校对的，具有一定准确度，若在此基础上，进一步地对上述原始字幕文本进行纠错等筛选处理，可在短时间内获得大量准确率较高的训练数据，还可以在一定程度上降低训练数据的获取难度。

有鉴于此，本申请实施例提供了一种新的训练数据的获取方法及装置。该方法通过对基于弱监督标注的原始字幕文本执行第一处理流程，获得准确率较高的候选字幕文本；以及，通过对多媒体文件的原始音频片段执行第二处理流程，剔除无人声语音信号的冗余音频片段，获得候选音频片段；最后，对候选字幕文本和候选音频片段进行对齐处理，获得训练数据，其中，训练数据中的目标字幕文本和目标音频片段是基于时间序列一一对应的，由此可以解决相关技术中难以获取到符合语音识别训练标准的训练数据的问题。

由于基于本申请实施例提供的训练数据的获取方法及装置，所获取到的训练数据，是用于训练语音识别模型的。因此，在应用到语音识别技术的场景下(如，智能家居、车载导航、视频制作等场景中均可应用语音识别技术)，均存在训练语音识别模型的需求，进而可获取该场景下基于弱监督标注的原始字幕文本，再基于本申请实施例提供的训练数据的获取方法和原始字幕文本，生成相应的训练数据。

参阅图1示出的流程示意图，对本申请实施例提出的训练数据获取方法进行介绍。

S101：获取多媒体文件的原始字幕文本，并对原始字幕文本执行第一处理流程，获得候选字幕文本。

多媒体文件包括音频文件、视频文件，针对不同格式的文件，本申请实施例提供了不同的原始字幕文本的获取方式。

(1)、获取多媒体文件的外挂式字幕文件，对外挂式字幕文件进行文件解析，获得外挂式字幕文本，并将外挂式字幕文本作为原始字幕文本。

外挂式字幕指的是与视频文件相分离的字幕文件，是单独运行在视频文件之外的一种字幕文件，相对于内嵌式字幕来说，采用外挂式字幕对视频文件本身的分辨率损害很小，甚至为零。

因此，直接获取与视频文件相关联的外挂式字幕文件，并对外挂式字幕文件进行文件解析，获得相应的外挂式字幕文本，将外挂式字幕文本作为原始字幕文本。绝大多数的外挂式字幕文本是经过人工校对的、具有一定准确度的文本，因此，通过对外挂式字幕文本执行纠错等第一处理流程，获得准确率较高的候选字幕文本，进而降低训练数据的获取难度，简化获取训练数据的步骤，节省获取训练数据的时间。

(2)、若视频文件中的字幕文本为内嵌式字幕，由于视频文件与字幕文件已集成到一起，无法获取单独的字幕文件，进而无法通过解析文件的方式，获得相应的字幕文本。因此，本申请实施例是基于光学字符识别(Optical Character Recognition，OCR)方式，从视频文件的各帧第一视频图像中获得初始字符序列；再剔除不符合预设文本筛选规则的初始字符序列，获得相应的原始字幕文本。

同样地，绝大多数的内嵌式字幕也是经过人工校对的、具有一定准确率的文本，对内嵌式字幕文本执行纠错等第一处理流程，可获得准确率较高的候选字幕文本，进而降低训练数据的获取难度，简化获取训练数据的步骤，节省获取训练数据的时间。

具体地，请参阅图2a所示的流程示意图，从内嵌式字幕中获取原始字幕文本的过程如下。

S1011：对多媒体文件的各帧第一视频图像进行字符识别处理，获得各帧第一视频图像所包含的初始字符序列。

在执行步骤1011之前，还需要通过以下至少一种方式获得各帧第一视频图像：

a.针对多媒体文件的各帧第二视频图像，分别执行以下操作：比较当前一帧第二视频图像和参考帧视频图像之间的画面变化，若第一比较结果符合预设比较规则，则将当前一帧第二视频图像作为一帧第一视频图像输出。

通常在画面突然发生变化(如，场景切换、人物变化)时，产生突变画面的一帧视频图像上的字幕文本也会发生变化，因此，抽取方式a通过比较当前一帧第二视频图像与参考帧视频图像之间的画面变化，在确定两帧之间的画面存在突然画面突变的情况时，抽取当前一帧第二视频图像，并将该帧第二视频图像判定为一帧第一视频图像。

其中，参考帧视频图像可以是视频文件中的首帧视频图像，也可以是与当前一帧视频图像相邻的上一帧视频图像，本申请在此不做限定。

b.按照预设抽帧周期，从多媒体文件中抽取相应数量的多帧第二视频图像，并将抽取出的多帧第二视频图像作为各帧第一视频图像输出。

若视频文件中的画面没有发生突然变化，还可以采用抽取方式b，从视频文件中抽取相应数量的多帧第二视频图像。通常人类语速是每秒3～4个字，在确保合理设置抽帧周期的前提下，也可以获得包含不同字幕文本的多帧第二视频图像。

假设视频文件的总播放时长为1分钟，设置抽帧周期为2s，则每隔2s从该视频文件中抽取一帧第二视频图像，最终共抽取30帧第二视频图像。

在采用抽取方式a或抽取方式b获取到各帧第一视频图像之后，使用OCR)方式对各帧第一视频图像进行字符识别处理，获得各帧第一视频图像所包含的初始字符序列；其中，一帧第一视频图像上的初始字符序列如图2b所示。

S1012：对各个初始字符序列进行筛选，剔除不符合预设文本筛选规则的初始字符序列，获得候选字符序列集合，并将候选字符序列集合作为原始字幕文本。

可选的，本申请实施例采用以下至少一种筛选方式，对各个初始字符序列进行筛选，剔除不符合文本筛选规则的初始字符序列，获得候选字符序列集合。

a.从各个初始字符序列中，剔除与设定字符序列方向不符的初始字符序列，获得候选字符序列集合。

由于不同视频文件的内嵌式字幕的格式有所不同，初始字符序列也不会固定出现在视频文件的某个位置上。通常内嵌式字幕是水平或竖直放置在视频文件中的，因此，为了减少冗余字符的干扰因素，本申请实施例会剔除除水平字符序列、竖直字符序列以外的字符序列。

如图2c所示，该帧第一视频图像上包含多个初始字符序列，采用方式a剔除与设定字符序列方向不符的初始字符序列，获得如图2c所示的候选字符序列。

b.从各个初始字符序列中，剔除第一视频图像的目标字符变化值不符合预设字符变化规则的初始字符序列，获得候选字符序列集合。

通常在画面突然发生变化(如，场景切换、人物变化)时，产生突变画面的一帧视频图像上的字幕文本也会发生变化，经过筛选方式b的进一步筛选，可以保留画面变化较大的第一视频图像。具体地，针对各帧第一视频图像，分别执行以下操作：若一帧第一视频图像中的全部初始字符变化值均低于设定第一阈值，则判定该帧第一视频图像的目标字符变化值不符合字符变化规则，并剔除该帧第一视频图像上的全部初始字符序列。

为了便于描述，以一帧第一视频图像为例，确定该帧第一视频图像中的至少一个初始字符变化值的过程如下。

如图2b所示，一帧第一视频图像上包含多个第一初始字符序列，循环遍历该帧第一视频图像上的各个第一初始字符序列，其中，每遍历一个第一初始字符序列i，基于第一初始字符序列i与相邻一帧第一视频图像上对应位置的第二初始字符序列j之间的像素差异值，确定第一初始字符序列i的初始字符变化值。其中，相邻两帧第一视频图像上的两个初始字符序列的位置相对应，指的是两个初始字符序列在各自第一视频图像上的文本框位置、文本框尺寸均相同。

例如，如图2d所示的一帧第一视频图像包含3个第一初始字符序列，循环遍历各个第一初始字符序列，基于公式1计算获得各自的初始字符变化值。而公式1中的D表示第一初始字符序列i的初始字符变化值，f₁表示第一初始字符序列i，f₂表示第二初始字符序列j，e_k,i表示第一初始字符序列i中的第k个像素点，e_k,j表示第二初始字符j中的第k个像素点，n表示第一初始字符序列i或第二初始字符序列j包含的像素点总数。因两个初始字符序列的文本框尺寸相同，所以两个初始字符序列包含的像素点总数也是相同的，均为n。

c.基于各个初始字符序列的字符数目以及各自对应的连续帧数，对各个初始字符序列进行筛选，获得候选字符序列集合。

由于OCR识别错误等原因，可能存在字幕文本与视频画面不对应的片段，为了剔除音画不匹配的片段，可以基于初始字符序列的字符数目与对应的连续帧数之间的比值，对各个初始字符序列进行筛选，仅保留比值位于预设的合理比值范围内的初始字符序列，这样，能够过滤掉大部分字幕与视频画面不对应的片段，可以降低后续处理错误数据的修正成本，有利于提高训练数据的获取准确率。其中，本申请实施例预先针对不同的应用场景，设定了对应的合理比值范围。

针对短视频领域的视频文件，基于上述提供的筛选方式a～c获得对应的原始字幕文本，而针对其他领域的视频文件，可事先使用小批量的验证集调整筛选方式a～c的规则参数，获得符合该领域需求的筛选方式a＇～c＇，并筛选方式a＇～c＇获得对应的原始字幕文本。

(3)、若多媒体文件未关联外挂式字幕文件，或者在多媒体文件中未嵌入内嵌式字幕，则对多媒体文件的原始音频片段进行语音识别处理，将语音识别结果作为原始字幕文本；或者，

若多媒体文件为音频文件，且音频文件携带了音频字幕文件，则获取多媒体文件的音频字幕文件，对音频字幕文件进行文件解析，获得原始字幕文本。

本申请实施例获取的原始字幕文本是基于弱监督标注的方式获得的，虽然其所携带的字幕已经经过人工校对，是具有一定准确度的文本，但原始字幕文本还可能因人为原因(如，视频制作者在录制字幕时，将“一直很安静”误写成“一致很安静”，或者视频制作者为了规避平台检测机制，使用拼音缩写替代部分词语)、OCR原因(如，OCR误识别、多识别、识别错，引入与视频内容无关的字符等)等原因存在一些错误。那么为了保证语音识别模型的准确率，则需要对原始字幕文本执行以下至少一种操作，获得候选字幕文本。之后还可以基于候选字幕文本构建文本分类模型，使得原本存在文本错误的原始字幕文本，在后续的流程中还可以被纠正回来。

a.将原始字幕文本中的特定字符，转换为对应的汉字。

对原始字幕文本进行文本正则化，将原始字幕文本中的特定字符(如，阿拉伯数字、表情符号等)，转换为对应的汉字。如，将“24小时”转换为“二十四小时”。

b.基于预设的映射关系，将原始字幕文本中的拼音缩写转换为对应的映射词集合。

若原始字幕文本中的非中文词语，在预设的英文词典中有对应的匹配项，则判定其为英文词语，并保留该英文词语；否则，判定其为拼音缩写，并基于预设的映射关系，将拼音缩写转换为对应的映射词集合。如，将“jq”转换为由“金钱”、“机器”和“景区”构成的映射词集合。

c.若原始字幕文本中存在混淆词，则在原始字幕文本中插入对应的混淆词集合。

本申请实施例中的混淆词集合为同义词、同音词中的至少一种。如，由“一直”、“一致”构成的同音词集合。

S102：获取多媒体文件的原始音频片段，并对原始音频片段执行第二处理流程，获得候选音频片段。

多媒体文件中可能存在大量的无人声语音信号的音频片段，这些音频片段没有对应的字幕文本，对训练语音识别模型也没有太大的用处。因此，在执行步骤102时，采用语音活性检测(Voice Activity Detection，VAD)检测原始音频片段中的语音信号，保留人声语音信号对应的音频片段，剔除只包含背景音乐的冗余音频片段，获得候选音频片段。

S103：对候选字幕文本和候选音频片段进行对齐处理，获得训练数据，其中，训练数据包括对应于时间序列的目标字幕文本和目标音频片段。

参阅图3a示出的流程示意图，对候选字幕文本和候选音频片段的对齐过程进行介绍。

S1031：将候选音频片段输入预设的声学模型中，获得对应的声学状态序列。

S1032：基于声学状态序列中的各帧声学状态，与候选字幕文本中的各个候选词语之间的匹配概率值，对候选字幕文本和候选音频片段进行对齐处理，并将对齐结果作为训练数据。

在强制对齐候选字幕文本和候选音频片段的过程中，是采用基于动态规划的前向后向算法，确定声学状态序列中各帧声学状态，与候选字幕文本中各个候选词语之间的匹配概率值，可获得如图3b所示的一个对齐结果。

本申请实施例中的声学模型是基于隐马尔科夫的声学模型，对该模型输出的各帧声学特征执行前向后向算法时，可以通过自循环方式停留在当前的声学状态中，也可以前进到下一个声学状态中，或者跳过一个声学状态，直接与后面的声学状态相连接，因此，最终可能获得多个对齐结果。

若获得多个对齐结果，则将多个对齐结果分别输入预设的文本分类模型中，获得对应的文本合理度；其中，文本分类模型每读取一个对齐结果，计算该对齐结果出现在候选字幕文本中的条件概率，并将条件概率作为文本合理度输出；最终将最大文本合理度对应的对齐结果，作为训练数据。最大文本合理度对应的对齐结果，意味着文本分类模型认为该对齐结果的语句符合语法逻辑，且语句通顺，能够清楚明白地表达句子含义，因此，将最大文本合理度对应的对齐结果作为训练数据，更加有利于保证训练数据的获取准确率，也可以确保基于该训练数据训练获得的语音识别模型的性能效果。

另外，本申请实施例中的文本分类模型，是基于各个样本字幕文本、以及对应的样本字幕词汇集训练得到的；其中，一个样本词汇集对应至少一个样本字幕文本。

为了便于描述，以一个样本字幕文本为例，介绍文本分类模型的一轮训练过程。

为了让各个样本字幕文本均获得一定的条件概率，模型采用如公式2所示的聂氏平滑(Kneser-Ney smoothing)策略，计算各个样本字幕文本的条件概率，并基于条件概率和设定第三阈值之间的比较结果，确定对应的预测分类结果；再基于预测分类结果与样本词汇集的实际分类结果之间的损失值，回调文本分类模型中的模型参数。

其中，

表征在样本字幕文本中第(i-n+1)～第(i-1)个字组合在一起的前提下，出现样本字幕文本中第i个字的条件概率，

表征在样本字幕文本中第(i-n+2)～第(i-1)个字组合在一起的前提下，出现样本字幕文本中第i个字的条件概率，

表征包含样本字幕文本中第(i-n+1)～第i个字的组合，出现在样本词汇集中的总频次，n为样本字幕文本的总字符数。

c(w_i-1)表征样本字幕文本中第(i-1)个字出现在样本词汇集中的总频次，c(w_i-1,w_i)表征包含样本字幕文本中第(i-1)～第i个字的组合，出现在样本词汇集中的总频次。d为固定值，对于中文这类常用词汇相对较少的语言来说，d的取值一般较小，通常在(0.1，0.3)的区间内，这样生成的文本分类模型具有较高的偏置性，能够在解码时按照候选字幕文本中设定的路径搜索；而对于英文这类常用词汇相对较多的语言来说，d的取值一般较大，通常在(0.3,0.5)的区间内，这样生成的文本分类模型没有过于严重的偏置约束，能够包容不同的单词文本。

另外，本申请实施例还考虑到音频片段中可能存在连续的、重复的、迟疑的常见语气词(如，啊、嗯、这个、那个等等)，在获得训练数据之后，还会将训练数据中的目标字幕文本与原始字幕文本进行比较，若第二比较结果表征目标字幕文本中含有语气词，则保留目标字幕文本中的语气词，并基于目标字幕文本，对原始字幕文本进行文本修正，使得目标字幕文本的内容更加贴近人类讲话方式，有利于提高语音识别模型的容错率，也可以令语音识别模型的识别结果更加趋近于用户一开始输入的语音内容，优化语音识别模型的识别效果；而修正后的原始字幕文本也可以作为获得新的训练数据的基础，使得新的训练数据中也含有语气词，以便优化基于该新的训练数据，训练获得的语音识别模型的识别效果。

若第二比较结果表征训练数据的错误率超过设定第二阈值，则舍弃该训练数据，其中，训练数据的错误率是基于训练数据中被切除的音频片段的时长与训练数据的整体时长确定的，被切除的音频片段是与原始字幕文本不匹配的目标字幕文本所对应的音频片段。

如图3c所示，目标字幕文本与原始字幕文本在第3.2～3.4s内不匹配，则截取目标字幕文本第0～3.2s之内的数据作为训练数据。

经过步骤101～103，可以获得大量符合语音识别训练标准的训练数据，并使用训练数据训练语音识别模型。另外，针对其他领域的训练数据获取需求，还可以在原有算法模型的基础上，根据相关领域的小批量验证集，微调声学模型、文本分类模型等多个算法模型的模型参数，以及微调筛选方式a～c的规则参数，获得符合该领域需求的筛选方式a＇～c＇，再使用调整后的算法模型、规则参数，生成该领域下的训练数据，以达到快速响应用户定制化需求的目的。

与上述方法实施例基于同一发明构思，本申请实施例还提供了一种训练数据的获取装置，参阅图4所示的结构示意图，该装置中可以包括文本生成单元401、音频生成单元402、对齐单元403、筛选单元404和修正单元405，其中，

文本生成单元401，用于获取多媒体文件的原始字幕文本，并对所述原始字幕文本执行第一处理流程，获得候选字幕文本；

音频生成单元402，用于获取所述多媒体文件的原始音频片段，并对所述原始音频片段执行第二处理流程，获得候选音频片段；

对齐单元403，用于对所述候选字幕文本和所述候选音频片段进行对齐处理，获得所述训练数据，其中，所述训练数据包括对应于时间序列的目标字幕文本和目标音频片段。

可选的，所述文本生成单元401用于：

获取所述多媒体文件的外挂式字幕文件；

可选的，所述文本生成单元401用于：

可选的，在对所述多媒体文件的各帧第一视频图像进行字符识别处理之前，所述文本生成单元401通过以下至少一种方式获得所述各帧第一视频图像：

可选的，所述文本生成单元401采用以下至少一种筛选方式，获得所述候选字符序列集合：

可选的，所述文本生成单元401用于：

可选的，所述文本生成单元401通过以下方式确定所述一帧第一视频图像中的至少一个初始字符变化值：

可选的，所述文本生成单元401用于：

可选的，所述文本生成单元401采用以下至少一种操作，获得所述候选字幕文本：

将所述原始字幕文本中的特定字符，转换为对应的汉字；

可选的，所述混淆词为同义词、同音词中的至少一种。

可选的，所述音频生成单元402用于：

可选的，所述对齐单元403用于：

可选的，若获得多个对齐结果，则所述装置还包括筛选单元404，所述筛选单元404用于：

将最大文本合理度对应的对齐结果，作为所述训练数据。

可选的，在获得述训练数据之后，所述筛选单元404还用于：

可选的，在保留所述目标字幕文本中的语气词之后，所述装置还包括修正单元405，所述修正单元405用于：

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的训练数据的获取方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算机设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种消除回声设备，参阅图5所示，计算机设备500可以至少包括处理器501、以及存储器502。其中，所述存储器502存储有程序代码，当所述程序代码被所述处理器501执行时，使得所述处理器501执行上述任意一种训练数据的获取方法的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的训练数据的获取方法中的步骤。例如，处理器可以执行如图1中所示的步骤。

下面参照图6来描述根据本申请的这种实施方式的计算装置600。图6的计算装置600仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算装置600以通用计算装置的形式表现。计算装置600的组件可以包括但不限于：上述至少一个处理单元601、上述至少一个存储单元602、连接不同系统组件(包括存储单元602和处理单元601)的总线603。

总线603表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元602可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)6021和/或高速缓存存储单元6022，还可以进一步包括只读存储器(ROM)6023。

存储单元602还可以包括具有一组(至少一个)程序模块6024的程序/实用工具6025，这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置600也可以与一个或多个外部设备604(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置600交互的设备通信，和/或与使得该计算装置600能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算装置600还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器606通过总线603与用于计算装置600的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的训练数据的获取方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的训练数据的获取方法中的步骤，例如，计算机设备可以执行如图1中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种训练数据的获取方法，其特征在于，所述训练数据用于训练语音识别模型，包括：

2.如权利要求1所述的方法，其特征在于，所述获取多媒体文件的原始字幕文本，包括：

获取所述多媒体文件的外挂式字幕文件；

3.如权利要求1所述的方法，其特征在于，所述获取多媒体文件的原始字幕文本，包括：

4.如权利要求1所述的方法，其特征在于，所述获取多媒体文件的原始字幕文本，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述原始字幕文本执行第一处理流程，获得候选字幕文本，包括以下至少一种操作：

将所述原始字幕文本中的特定字符，转换为对应的汉字；

6.如权利要求1所述的方法，其特征在于，所述对所述原始音频片段执行第二处理流程，获得候选音频片段，包括：

7.如权利要求1所述的方法，其特征在于，所述对所述候选字幕文本和所述候选音频片段进行对齐处理，获得所述训练数据，包括：

8.一种训练数据的获取装置，其特征在于，所述训练数据用于训练语音识别模型，包括：

9.一种计算机设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行权利要求1～7中任一项所述方法的步骤。