CN113889088B

CN113889088B - 训练语音识别模型的方法及装置、电子设备和存储介质

Info

Publication number: CN113889088B
Application number: CN202111146371.7A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-07-15
Anticipated expiration: 2041-09-28
Also published as: CN113889088A; US20220277732A1; EP4024393A2; EP4024393A3

Abstract

本公开提供了用于训练语音识别模型的方法及装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及语音技术和深度学习领域。具体实现方案为：基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，该样本语音包括多个对象的对话并且具有对应的样本文本；基于与第一目标帧相对应的样本文本中的文本元素之前的相邻文本元素，生成与第一目标帧相对应的预测文本元素，文本元素和相邻文本元素针对多个对象中的目标对象；基于预测文本元素与多个特征向量中的第一特征向量，获得第一目标文本元素；基于第一目标文本元素和样本文本来调整语音识别模型以获得经训练的语音识别模型。通过本公开，实现了多人语音快速识别，提高了识别的精度。

Description

训练语音识别模型的方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音技术和深度学习领域的用于训练语音识别模型的方法及装置、用于处理语音数据的方法及装置、电子设备和存储介质。

背景技术

随着技术的进步，语音数据被越来越多的应用于现有的各种应用中。在很多场景中，都会出现需要处理的语音数据。例如，在客服，会议，或其他多人对话场景里面，会存在大量的语音文件。这些语音文件通常是单声道的，即一个音频文件里面包含至少两个说话人的声音。随着应用场景的增加，越来越多的音频数据需要处理。然而，在音频数据的处理过程中还存在许多需要解决的问题。

发明内容

本公开提供了一种用于训练语音识别模型的方法及装置、用于处理语音数据的方法及装置、电子设备和存储介质。

根据本公开的第一方面，提供了一种用于训练语音识别模型的方法。所述方法包括：基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，样本语音包括多个对象的对话并且具有对应的样本文本；基于与第一目标帧相对应的样本文本中的文本元素之前的相邻文本元素，生成与第一目标帧相对应的预测文本元素，文本元素和相邻文本元素针对多个对象中的目标对象；基于预测文本元素与多个特征向量中的第一特征向量，获得第一目标文本元素；基于第一目标文本元素和样本文本来调整语音识别模型以获得经训练的语音识别模型。

根据本公开的第二方面，提供了一种用于处理语音数据的方法。该方法包括：获取待识别语音；提取针对待识别语音中的至少一个帧的音频特征数据；将音频特征数据应用于根据本公开的第一方面的方法训练得到的语音识别模型，以确定与待识别语音相对应的文本。

根据本公开的第三方面，提供了一种用于训练语音识别模型的装置。该装置包括：特征向量获取模块，被配置为基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，样本语音包括多个对象的对话并且具有对应的样本文本；文本元素应用模块，被配置为基于与第一目标帧相对应的样本文本中的文本元素之前的相邻文本元素，生成与第一目标帧相对应的预测文本元素，文本元素和相邻文本元素针对多个对象中的目标对象；目标文本元素获取模块，被配置为基于预测文本元素与多个特征向量中的第一特征向量，获得第一目标文本元素；调整模块，被配置为基于第一目标文本元素和样本文本来调整语音识别模型以获得经训练的语音识别模型。

根据本公开的第四方面，提供了一种用于处理语音数据的装置。该装置包括语音获取模块，被配置为获取待识别语音；提取模块，被配置为提取针对待识别语音中的至少一个帧的音频特征数据；文本确定模块，被配置为将音频特征数据应用于根据本公开的第三方面的装置训练得到的语音识别模型，以确定与待识别语音相对应的文本。

根据本公开的第五方面，提供了一种电子设备。该电子设备包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第一方面或第二方面的方法。

根据本公开的第六方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据本公开的第一方面或第二方面的方法。

根据本公开的第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开的第一方面或第二方面的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的用于训练语音识别模型的方法200的流程图；

图3示出了根据本公开的一些实施例的用于训练语音识别模型的系统300的示意图；

图4示出了根据本公开的一些实施例的用于处理语音数据的方法400的流程图

图5示出了根据本公开的一些实施例的用于训练语音识别模型的装置500的示意图；

图6示出了根据本公开的一些实施例的用于处理语音数据的装置600的示意图；

图7示出了能够实施本公开的多个实施例的设备700的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上文所述，在客服，会议，或其他多人对话场景里面，通常是单声道的，即一个音频文件里面包含至少两个说话人的声音，并且某些时候，会存在两人或多人同时说话，这样给后面的转写(音频转文字)带来一定的困难，一方面是说话人特点的变化，另外是音频的重叠，即鸡尾酒效应，最后是没法对文字进行说话人区分。

一般情况下，先对音频进行说话人分离，然后对分离后的音频进行语音转写，这样就可以得到对应的区分说话人的文字。

传统上处理语音的说话人分离的算法有时间延迟神经网络(time delay neuralnetworks,TDNN)-xvector以及凝聚层次聚类(agglomerative hierarchical clustering,AHC)，还有一些端到端的框架；语音转写有传统的GMM-HMM，DNN-HMM，以及一些端到端的框架RNN-T，LAS，LSTM-CTC等。

然而，对于上述传统的方案，过程比较繁琐，且不是端到端，训练与测试过程可能不匹配，另外对于说话人重叠的情况分离效果不理想。此外，语音转写系统没有区分说话人特征。在一个音频多说话人场景下识别精度会受影响，并且不能按说话人进行转写，而且转写的过程中没有结合语义的信息。

为了至少解决上述问题，根据本公开的实施例，提出一种用于训练语音识别模型的方法的改进方案。在该方案中计算设备基于与一段样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，一段样本语音包括多个对象的对话并且具有对应的样本文本。然后，计算设备基于与第一帧相对应的样本文本中的文本元素之前的相邻文本元素，生成与第一目标帧相对应的预测文本元素，文本元素和相邻文本元素针对多个对象中的目标对象。接下来，基于预测文本元素与多个特征向量中的第一特征向量，获得目标文本元素。最后，基于目标文本元素和样本文本来调整语音识别模型以获得经训练的语音识别模型。通过该方法，实现了对多人语音的快速识别，并且通过结合语义特征，提高了识别的精度，节省了计算量，并且提高了效率。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境100包括计算设备104。

计算设备104可用于训练语音识别模型108，也可用于使用已训练好的语音识别模型108。图1示了在计算设备104训练语音识别模型或使用语音识别模型108，其仅是示例，而非对本公开的限制。语音识别模型108可以位于多个不同的计算设备上或者部署在云上。

计算设备104包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。

在一些实施例中，计算设备104在训练语音识别模型时，接收样本语音。样本语音是对接收的语音102进行说话人标注得到的。还可以获得与样本语音对应的文本内容。备选地或附加地，为了增加样本语音的多样性，还可以样本语音进行预处理，包括去除噪声(包括环境噪声，忙音，彩铃声等)，得到干净的音频。附加地，还可以进行数据增强，一个示例中，对样本语音进行时间弯折，频率掩盖等。时间弯折是指将音频中部分时段的音频信息清除，频率掩盖是将部分频率信息移除。

然后，对样本语音进行分帧。然后提取每帧的特征，比如80维的梅尔倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)，感性线性预测(Perceptual LinearPredictive，PLP)或滤波器组(Fbank)等。然后将每帧的特征作为到语音识别模型的输入。备选地或附加地，对直接从帧中提取的特征进行一阶、二阶差分，然后再正则化，即正态分布规整。这样每帧音频提取到80*3维的特征，分别称为静态，一阶差分，二阶差分特征。然后将80*3维的特征作为到语音识别模型的输入。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，还会对样本语音对应的样本文本进行预处理，包括对文本进行清洗符号归一化，包括去除特殊符号，如@*％等，规整数字单位符号，例如将150、2010年、kg统一为汉字表示等，然后对预测网络进行预训练。

在一些实施例中，计算设备104接收到的语音102是已经处理好的语音数据，即包括语音特征的语音数据。

将语音的特征数据输入混合编码器模块110。一些实施例中，混合编码器模块110可由多个卷积神经网络层和一个最大池化层来构成。在另一些实施例中，用户可以设置混合编码器为任意合适的结构。上述示例仅是用于描述本公开，而非对本公开的具体限定。

混合编码模块110将接收到的语音特征数据进行处理后得到中间特征。在一个示例中，该中间特征不仅包括了语音内容的特征，还包括了与语音内容相关的说话人的信息，例如语速、性别、情绪等信息。

图1中示出了混合编码模块110与两个语音识别模块114、116相连，两个语音识别模块114、116具有对应的预测模块112、118。因此，混合编码器模块后具有两个分支。其仅是示例，而非对本公开的具体限定。混合编码模块110可以与多个语音识别模块和多个对应的预测模块相连。其中语音识别模块和对应的预测模块的数目可以基于要训练的语音中的说话人的数目来确定。以图1为例，该语音识别模型用于处理两个说话人的语音。

混合编码器102生成与语音中的说话人的数目相同的多个中间特征。然后将中间特征提供给语音识别模块114和116。对于不同的说话人，样本文本中与说话人对应的文本部分分别应用于与说话人对应的预测模块。例如，预测模块112用于语音102中的第一个说话人，预测模块118用于语音102中的第二个说话人。以第一说话人为例，其说话的文本部分多个文本元素，其中文本元素可以为字，也可以为词组。当与第一说话人的文本部分中的第一个文本元素对应的帧输入完成后，则可以将第一说话人的第一文本元素应用于预测模块，以用于预测与下一帧相对应的文本元素。对于第二说话人，由于当前的音频帧并不对应第二说话人的文本，因此，第二说话人的预测模块还是处理输入文本开始状态，无法预测出文本。其中预测模块是预先训练好的用于基于先前的文本元素预测后面的文本元素的模型。该预测模块可用任意合适的对话语料库或文本库进行训练。

然后语音识别模块基于接收的由样本语音得到的中间特征以及接收预测文本来结合样本文本106来确定是否调整语音识别模型的参数。

在一些实施例中，该语音识别模块包括由向量映射模块以将中间特征映射到更高维的空间的高维向量。例如向量映射模块为由多个时间延迟神经网络构成的扬声器依赖编码器(Speaker dependent encoder)。相对中间特征，高维向量更聚焦于语音中的内容信息。语音识别模块还包括识别编码器、连接网络(Joint network)和分类器(softmax)。其中，识别编码器由多个注意力层构成，其将从向量映射模块获得的高维向量中的内容信息提取出来。然后该提取的内容信息和由预测模块预测的文本元素输入连接网络，然后再输入分类器以获得与该帧对应的所有候选文本元素的概率。例如，确定与多个字对应的概率，诸如，如果该模型用于生成语音对应的汉字文本，则确定所有的汉字中的每个汉字对应的概率；如果该模型用于生成语音对应的英文文本，则确定所有字母或单词中的每个字母或单词对应的概率。然后结合针对该段语音中的多个帧得到多组候选文字的概率，以及这些帧对应的样本文本，然后结合损失函数来确定是否需要对语音识别模型进行调整。如果需要调整，则调整模型后继续训练以得到经训练的语音识别模型。

在一些实施例中，在计算设备104中运行语音识别模型时，可以接收作为要处理的语音作为输入，然后将该语音进行如上各种处理后，将语音中帧的特征信息输入语音识别模型来获得对应的文本。在该过程中，在由语音识别模块处理一个帧时，将该帧之前由语音识别模块确定的文本元素输入预测模块得到针对该帧的文本元素，然后再结合该帧的特征向量来确定与该帧对应的目标文本元素。例如，将语音识别模块中的分类器中概率最大的文本元素作为与该帧对应的目标文本元素。

通过该方法，实现了对多人语音的快速识别，并且通过结合语义特征，提高了识别的精度，节省了计算量，并且提高了效率。

上面结合图1描述了本公开的多个实施例的能够在其中实现的环境100。下面结合图2描述根据本公开的一些实施例的用于训练语音识别模型方法200的流程图。图2中的方法200可以由图1中的计算设备104或任意合适的计算设备执行。

在框202处，基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，样本语音包括多个对象的对话并且具有对应的样本文本。如图1所示，计算设备104将由语音102得到的样本语音中的第一目标帧对应的音频特征数据输入混合编码器模块以得到多个特征向量。

在一些实施例中，语音识别模型包括混合编码模块、多个语音识别模块和多个预测模块。通过该模型设置方式，可以快速的实现模型训练。例如图2所示语音识别模型包括混合编码模块110、两个语音识别模块114和116和两个预测模块112和118。

在一些实施例中，计算设备104获取目标语音。然后计算设备104利用多个对象中的对象的标识来对目标语音进行标注。接下来计算设备104对标注的语音进行预处理以获样本语音，例如进行除噪声以及时间弯折，频率掩盖等。然后，计算设备104提取样本语音中的第一帧的音频特征数据。通过该方式，可以快速得到音频特征数据。

在一些实施例中，计算设备确定与目标语音相对应的样本文本。通过该方式，可以快速得到样本文本。

在一些实施例中，将音频特征数据应用于混合编码块中的卷积层以及池化层以获得多个特征向量。例如该特征向量为由混合编码模块生成的中间向量。通过该方法，可以快速的得到中间向量。在一个示例中，该音频特征数据为与第一目标帧数据相对应的特征向量，例如MFCC、PLP、或Fbank等。在另一个示例中，该音频特征数据为对数据的特征向量进行一阶、二阶差分，然后再正则化得到的80*3维的特征数据。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框204处，基于与第一目标帧相对应的样本文本中的文本元素之前的相邻文本元素，生成与第一目标帧相对应的预测文本元素，文本元素和相邻文本元素针对多个对象中的目标对象。例如，图1中计算设备104在训练的语音识别模型时，将与第一目标帧对应的文本内容之前的文本元素作为预测模块的输入来预测与第一目标帧对应的文本元素。

在一些实施例中，计算设备104确定与第一目标帧相对应的文本元素以及与文本元素相对应的目标对象，目标对象为讲话内容包括该文本元素的说话人。此时由于样本语音及样本文本被标注过，可以从样本文本中确定出文本元素之前的、对应于说话者的相邻文本元素；然后将相邻文本元素应用于针对该说话人的多个预测模型中的第一预测模块以生成预测文本元素。在训练时，为每个说话人分配了一个预测模块。通过该方式，可以快速准确地预测文本元素。

在框206处，基于预测文本元素与多个特征向量中的第一特征向量，获得第一目标文本元素。

在一些实施例中，计算设备104将第一特征向量应用于第一语音识别模块中的向量映射模块以获得高维向量。其中该向量映射模块可以为说话者独立(speakerdependent,SD)编码器。然后，计算设备104将高维向量应用于第一语音识别模块的识别编码模块以用于识别出文本信息。然后，计算设备基于文本信息和预测文本元素来生成第一目标文本元素。在一个示例中，连接网络接收文本信息和预测文本元素。连接网络连接到分类器，然后由分类器确定出该帧对应的所有文本元素中的每个文本元素的概率。概率最高的文本元素作为第一目标文本元素以输入到预测模块。由于在训练过程中已标识出每帧对应的文本，可以通过样本文本确定出第一目标文本元素以用于预测模块。通过该方式，可以快速的确定出第一目标文本元素。

在框208处，基于第一目标文本元素和样本文本来调整语音识别模型以获得经训练的语音识别模型。

在一些实施例中，计算设备在分类器会获得与该帧对应的所有文本元素的概率。因此，计算设备会获取到第一目标文本元素及其对应的概率，同时计算设备还会获得针对该帧的其他文本元素及其对应的概率。接下来，计算设备104还会获取与样本语音中的第二帧相对应的第二目标文本元素，以及第二目标文本元素的概率及对应于所有文本元素中其他文本元素的概率。然后，基于第一目标文本元素、第二目标文本元素和样本文本来调整语音识别模型。例如，针对预定数目的帧将得到的预定数目的多个概率集，每个概率集包括每帧对应的所有文本元素的概率。然后利用该多个概率集与针对该预定数目的帧的文本来计算损失函数的值。以此方式，还会计算与混合编码模块连接的其他分支的损失函数的值。将针对多个语音识别模块的损失函数的值求和来确定是否需要继续调整语音识别模型。例如，通过将损失函数的值与预定阈值进行比较，满足预定条件，则不进行调整，不满足，则进行调整。例如，如果大于预定阈值，则不再进行调整，如果小于预定阈值，则进行调整。

上面结和图2描述了根据本公开的一些实施例的用于训练语音识别模型的方法200的流程图。下面结合图3描述用于训练语音识别模型的系统300的示意图。

混合编码器302由多个卷积神经网络和最大池化层构成，整体输入为音频的特征，比如80维的MFCC，经过一阶、二阶差分，然后再正则化，即正态分布规整，这样输入到CNN的三个通道(channel)上。然后经由SD编码器304、306输出为带有特点说话人信息的高级特征向量V。SD编码器304、306由多个时间延迟神经网络TDNN构成。

识别编码器308、310由多个注意力层(attention)构成，预测网络326、328由多个BLSTM层构成，连接网络312、314由一层全连接层和tanh激活层构成。分类器316和318的输出为文本单元(字或词)对应的概率。训练的策略是顺序相关的。此外，系统300还包括RNN-T损失函数320、322。

识别编码器308、310是将特征向量内部的内容信息提取出来，其内部的注意力层关注各个特征间的重要性的关系，突出强化更重要的特征，提取出鉴别性更强的特征。预测网络326、328是结合对应说话人的文本内容的历史来预测计算当前要说的文本信息，输入的是历史文本，输出是预测的文本信息，这样充分利用了语义相关的信息，来进行辅助识别。例如预测网络可以为双向长短期记忆网络BLSTM，因为可以学习到时间跨度更大的特征的相关性。

整体训练是顺序相关的，即输入的语音中，哪个说话人先说，那么对应的文本就作为SD编码器304分支的标注，后说的即与SD编码器306分支对应，而且预测网络也是与说话人相对应的。

在训练时，对样本语音进行分帧，每帧提取特征，比如80维的MFCC，PLP或Fbank等，经过一阶、二阶差分，然后再正则化，即正态分布规整，这样每帧音频提取到80*3维的特征，分别称为静态，一阶差分，二阶差分特征

然后，将静态一阶二阶差分特征输入到混合编码器302里面，对应CNN卷积的三个通道得到中间特征，然后接着分别输入到SD编码器304、306，这样提取到带有说话人特征的高级特征向量V1，V2…Vx等，其中x为正整数。

然后将对高级特征向量V1,V2…Vx分别输入到识别编码器308、310，提取相应的内容相关特征向量C1,C2,…Cx；此时按照输入的音频里面不同说话人先后顺序，将对应的历史文本(文本标注)分别输入到预测网络326、328里面，计算当前预测的文本信息T1，T2，…Tx。

接下来，计算设备104将Cx结合Tx输入到连接网络，再经过分类器316、318，然后分别计算各个分支的RNN-T损失，通过求和模块324将所有的损失求和，再反向根据随机梯度下降准则(SGD)更新网络参数，这样反复迭代多轮至收敛，这样得到说话人分离的语音识别模型

在使用该模型时，提取到一段语音的音频特征后，输入混合编码器，SD编码器，以及识别编码器进行前向计算，预测网络输入为识别结果的历史信息，计算当前的预测信息，结合Cx，再分别输入到连接网络和分类器，就可以获得各个说话人对应的文本内容。

通过该方法，实现了对多人语音的快速识别，并且通过结合语义特征，提高了识别的精度，节省了计算量，并且提高了效率

上面结和图3描述了根据本公开的一些实施例的训练语音识别模型的系统300的示意图图。下面结合图4描述用于处理语音数据的方法400的流程图。图4中的方法400可以由图1中的计算设备104或任意合适的计算设备执行。

在框402，获取待识别语音。例如，计算设备104获得要处理的待识别语音。然后对该待识别语音执行预定的处理。然后，对该待识别语音进行分帧处理。

在框404，提取针对待识别语音中的至少一个帧的音频特征数据。计算设备104提取至少一个帧中每个帧的音频特征数据。例如MFCC特征。然后对该特征再进行预定处理以获得更多维数的特征。

在框406，将音频特征数据应用于前述方法200训练得到的语音识别模型，以确定与待识别语音相对应的文本。计算设备104将该音频特征应用于语音识别模型108来获得对应的文本。

图5示出了根据本公开实施例的用于训练语音识别模型的装置500的示意性框图。语音识别模型包括混合编码模块、多个语音识别模块和多个预测模块。如图5所示，装置500特征向量获取模块502，被配置为基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，样本语音包括多个对象的对话并且具有对应的样本文本；文本元素应用模块504，被配置为基于与第一目标帧相对应的样本文本中的文本元素之前的相邻文本元素，生成与第一帧相对应的预测文本元素，文本元素和相邻文本元素针对多个对象中的目标对象；目标文本元素获取模块506，被配置为基于预测文本元素与多个特征向量中的第一特征向量，获得第一目标文本元素；调整模块508，被配置为基于第一目标文本元素和样本文本来调整语音识别模型以获得经训练的语音识别模型。

在一些实施例中，语音识别模型包括混合编码模块、多个语音识别模块和多个预测模块

在一些实施例中，特征向量获取模块502包括：音频特征数据应用模块，被配置为将音频特征数据应用于混合编码块中的卷积层以及池化层以获得多个特征向量。

在一些实施例中，文本元素应用模块504包括：目标对象确定模块，被配置为确定与第一目标帧相对应的文本元素以及与文本元素相对应的目标对象；相邻文本元素确定模块，被配置为从样本文本中确定出文本元素之前的、对应于目标对象的相邻文本元素；生成模块，被配置为将相邻文本元素应用于多个预测模块中的第一预测模块以生成预测文本元素。

在一些实施例中，目标文本元素获取模块506包括：高维向量获取模块，被配置为将第一特征向量应用于多个语音识别模块中的第一语音识别模块中的向量映射模块以获得高维向量；文本信息识别模块，被配置为将高维向量应用于第一语音识别模块的识别编码模块以用于识别出文本信息；目标文本元素生成模块，被配置为基于文本信息和预测文本元素来生成第一目标文本元素。

在一些实施例中，调整模块508包括第二文本元素获取模块，被配置为获取与样本语音中的第二帧相对应的第二目标文本元素；模型调整模块，被配置为基于第一目标文本元素、第二目标文本元素和样本文本来调整语音识别模型。

在一些实施例中，装置500还包括：语音获取模块，被配置为获取目标语音；标注模块，被配置为利用多个对象中的对象的标识来对目标语音进行标注；预处理模块，被配置为对标注的语音进行预处理以获得样本语音；提取模块，被配置为提取样本语音中的第一帧的音频特征数据。

在一些实施例中，装置500还包括样本文本确定模块，被配置为确定与目标语音相对应的样本文本。

图6示出了根据本公开实施例的用于处理语音数据的装置600的示意性框图。如图6所示，装置600包括语音获取模块602，被配置为获取待识别语音；提取模块604，被配置为提取针对待识别语音中的至少一个帧的音频特征数据；文本确定模块606，被配置为将音频特征数据应用于根据图5中所示的装置训练得到的语音识别模型，以确定与待识别语音相对应的文本。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。该示例电子设备700可用于实现图1中的计算设备104。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法200和400。例如，在一些实施例中，方法200和400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法200和400的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200和400。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于训练语音识别模型的方法，所述方法包括：

基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，所述样本语音包括多个对象的对话并且具有对应的样本文本；

基于与所述第一目标帧相对应的所述样本文本中的文本元素之前的相邻文本元素，生成与所述第一目标帧相对应的预测文本元素，所述文本元素和所述相邻文本元素针对所述多个对象中的目标对象；

基于所述预测文本元素与所述多个特征向量中的第一特征向量，获得第一目标文本元素；以及

基于所述第一目标文本元素和所述样本文本来调整所述语音识别模型以获得经训练的所述语音识别模型。

2.根据权利要求1所述的方法，其中所述语音识别模型包括混合编码模块、多个语音识别模块和多个预测模块。

3.根据权利要求2所述的方法，其中基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量包括：

将所述音频特征数据应用于所述混合编码块中的卷积层以及池化层以获得所述多个特征向量。

4.根据权利要求2所述的方法，其中基于与所述第一目标帧相对应的所述样本文本中的文本元素之前的相邻文本元素，生成与所述第一目标帧相对应的预测文本元素包括：

确定与所述第一目标帧相对应的文本元素以及与所述文本元素相对应的目标对象；

从所述样本文本中确定出所述文本元素之前的、对应于所述目标对象的相邻文本元素；以及

将所述相邻文本元素应用于所述多个预测模块中的第一预测模块以生成所述预测文本元素。

5.根据权利要求2所述的方法，其中基于所述预测文本元素与所述多个特征向量中的第一特征向量，获得第一目标文本元素包括：

将所述第一特征向量应用于所述多个语音识别模块中的第一语音识别模块中的向量映射模块以获得高维向量；

将所述高维向量应用于所述第一语音识别模块的识别编码模块以用于识别出文本信息；

基于所述文本信息和所述预测文本元素来生成所述第一目标文本元素。

6.根据权利要求1所述的方法，其中基于所述第一目标文本元素和所述样本文本来调整所述语音识别模型包括：

获取与所述样本语音中的第二目标帧相对应的第二目标文本元素；以及

基于所述第一目标文本元素、所述第二目标文本元素和所述样本文本来调整所述语音识别模型。

7.根据要求1所述的方法，还包括：

获取目标语音；

利用所述多个对象中的对象的标识来对所述目标语音进行标注；

对标注的语音进行预处理以获得所述样本语音；以及

提取所述样本语音中的第一目标帧的音频特征数据。

8.根据权利要求7所述的方法，还包括：

确定与所述目标语音相对应的样本文本。

9.一种用于处理语音数据的方法，包括：

获取待识别语音；

提取针对所述待识别语音中的至少一个帧的音频特征数据；以及

将所述音频特征数据应用于根据权利要求1-8中任一方法训练得到的语音识别模型，以确定与所述待识别语音相对应的文本。

10.一种用于训练语音识别模型的装置，所述装置包括：

特征向量获取模块，被配置为基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，所述样本语音包括多个对象的对话并且具有对应的样本文本；

文本元素应用模块，被配置为基于与所述第一目标帧相对应的所述样本文本中的文本元素之前的相邻文本元素，生成与所述第一目标帧相对应的预测文本元素，所述文本元素和所述相邻文本元素针对所述多个对象中的目标对象；

目标文本元素获取模块，被配置为基于所述预测文本元素与所述多个特征向量中的第一特征向量，获得第一目标文本元素；以及

调整模块，被配置为基于所述第一目标文本元素和所述样本文本来调整所述语音识别模型以获得经训练的所述语音识别模型。

11.根据权利要求10所述的装置，其中所述语音识别模型包括混合编码模块、多个语音识别模块和多个预测模块。

12.根据权利要求11所述的装置，其中所述特征向量获取模块包括：

音频特征数据应用模块，被配置为将所述音频特征数据应用于所述混合编码块中的卷积层以及池化层以获得所述多个特征向量。

13.根据权利要求11所述的装置，其中所述文本元素应用模块包括：

目标对象确定模块，被配置为确定与所述第一目标帧相对应的文本元素以及与所述文本元素相对应的目标对象；

相邻文本元素确定模块，被配置为从所述样本文本中确定出所述文本元素之前的、对应于所述目标对象的相邻文本元素；以及

生成模块，被配置为将所述相邻文本元素应用于所述多个预测模块中的第一预测模块以生成所述预测文本元素。

14.根据权利要求11所述的装置，其中所述目标文本元素获取模块包括：

高维向量获取模块，被配置为将所述第一特征向量应用于所述多个语音识别模块中的第一语音识别模块中的向量映射模块以获得高维向量；

文本信息识别模块，被配置为将所述高维向量应用于所述第一语音识别模块的识别编码模块以用于识别出文本信息；以及

目标文本元素生成模块，被配置为基于所述文本信息和所述预测文本元素来生成所述第一目标文本元素。

15.根据权利要求10所述的装置，其中所述调整模块包括：

第二文本元素获取模块，被配置为获取与所述样本语音中的第二目标帧相对应的第二目标文本元素；以及

模型调整模块，被配置为基于所述第一目标文本元素、所述第二目标文本元素和所述样本文本来调整所述语音识别模型。

16.根据权利要求10所述的装置，还包括：

语音获取模块，被配置为获取目标语音；

标注模块，被配置为利用所述多个对象中的对象的标识来对所述目标语音进行标注；

预处理模块，被配置为对标注的语音进行预处理以获得所述样本语音；以及

提取模块，被配置为提取所述样本语音中的第一目标帧的音频特征数据。

17.根据权利要求16所述的装置，还包括：

样本文本确定模块，被配置为确定与所述目标语音相对应的样本文本。

18.一种用于处理语音数据的装置，包括：

语音获取模块，被配置为获取待识别语音；

提取模块，被配置为提取针对所述待识别语音中的至少一个帧的音频特征数据；以及

文本确定模块，被配置为将所述音频特征数据应用于根据权利要求10-17中任一装置训练得到的语音识别模型，以确定与所述待识别语音相对应的文本。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8或9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8或9中任一项所述的方法。