CN111833849A

CN111833849A - 语音识别和语音模型训练的方法及存储介质和电子设备

Info

Publication number: CN111833849A
Application number: CN202010162942.5A
Authority: CN
Inventors: 徐海洋; 韩堃
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-10-27

Abstract

公开了一种语音识别和语音模型训练的方法及存储介质和电子设备。通过获取语音训练集并根据语音训练集获取文本训练集，根据文本训练集获取预训练的文本模型，根据预训练的文本模型和语音训练集获取预训练的语音模型。由此，使得预训练的语音模型中融合了文本特征，可以降低语音模型的训练难度，提高语音识别的准确性。

Description

语音识别和语音模型训练的方法及存储介质和电子设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别和语音模型训练的方法及存储介质和电子设备。

背景技术

随着人工智能技术的快速发展，智能机器人越来越多的替代人工客服与用户进行语音交互(IVR，Interactive Voice Response)，节省了大量的人力。语音交互的核心主要就是机器如何正确的理解用户的意图，从而做出正确的回应来帮助用户快速，准确的解决问题。

现有技术中对于意图识别的方法一般分为管道(Pipleline)和端到端(End-to-End)两种方法。其中，管道的方法是先对语音信息进行语音识别以获得文本信息，然后用NLP(Natural Language Processing，自然语言处理)的方法对文本信息进行意图识别。端到端的方法并不需要获取文本信息，直接将语音信息通过模型进行意图识别。

由于端到端的方法可以简化语义理解的过程，提高响应的效率，因而受到越来越大的关注。但是已有的端到端的方法需要大量的标注数据，学习难度较大，而且意图识别的准确性也较低。

发明内容

有鉴于此,本发明实施例的目的在于提供一种语音识别和语音模型训练的方法及存储介质和电子设备，可以降低语音模型的训练难度，提高语音识别的准确性。

第一方面，本发明实施例提供了一种语音模型的训练方法，所述方法包括：

获取语音训练集，所述语音训练集包括多个语音信息和对应的意图标识；

对所述语音信息进行语音识别以获取文本训练集，所述文本训练集包括多个文本信息和对应的意图标识；

根据所述文本训练集获取预训练的文本模型；以及

根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。

优选地，所述文本模型包括第一特征提取层和第一意图识别层；

其中，根据所述文本训练集获取预训练的文本模型包括：

基于预定的分词算法对所述文本训练集中各文本信息进行分词处理以获取对应的词序列，所述词序列包括多个词；

根据所述词序列获取第一嵌入向量；

将所述第一嵌入向量输入所述第一特征提取层获取所述文本信息的文本向量；

将所述文本向量输入到第一意图识别层获得输出；以及

根据所述第一意图识别层的输出和对应的意图对所述第一特征提取层和所述第一意图识别层进行调整以获取所述预训练的文本模型。

优选地，所述语音模型包括第二特征提取层和第二意图识别层；

其中，根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型包括：

根据所述预训练的文本模型对所述第二特征提取层进行调整以使得所述语音模型输出的语音向量与所述文本模型输出的文本向量一致；以及

根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整以使得所述语音模型获取所述语音信息的意图。

优选地，根据所述预训练的文本模型对所述第二特征提取层进行调整包括：

对所述语音训练集中各语音信息进行分帧处理以获取帧序列；

根据所述帧序列获取第二嵌入向量；

将所述第二嵌入向量输入所述第二特征提取层获取所述语音信息的语音向量；

根据预定的映射关系将所述语音向量转换为映射向量；

通过判别模型比较所述映射向量和所述文本向量以获取比较结果；以及

根据所述比较结果对所述第二特征提取层进行调整。

优选地，根据所述比较结果对所述第二特征提取层进行调整包括：

保持所述语音模型不变，对所述判别模型进行调整以使得所述比较结果表征的所述映射向量和所述文本向量的差异度较大；以及

保持所述判别模型不变，对所述第二特征提取层进行调整以使得所述比较结果表征的所述映射向量和所述文本向量的差异度较小。

优选地，根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整包括：

将所述语音向量和所述映射向量融合以获取融合向量；

将所述融合向量输入所述第二意图识别层获得输出；以及

根据所述第二意图识别层的输出和对应的意图对所述第二意图识别层和第二特征提取层进行调整。

优选地，所述语音模型为BERT模型、XL-NET模型、GPT2模型或T5模型；

所述文本模型为BERT模型、XL-NET模型、GPT2模型或T5模型。

第二方面，本发明实施例提供了一种语音识别方法，所述方法包括：

获取待识别语音信息；

对所述待识别语音信息进行分帧处理以获取帧序列；

根据所述帧序列获取第二嵌入向量；

将所述第二嵌入向量输入第二特征提取层获取所述待处理语音信息的语音向量；

根据预定的映射关系将所述语音向量转换为映射向量；

将所述语音向量和所述映射向量融合以获取融合向量；以及

将所述融合向量输入所述第二意图识别层以获取所述待处理语音信息的意图。

第三方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面和第二方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面和第二方面所述的方法。

本发明实施例的技术方案通过获取语音训练集并根据语音训练集获取文本训练集，根据文本训练集获取预训练的文本模型，根据预训练的文本模型和语音训练集获取预训练的语音模型。由此，使得预训练的语音模型中融合了文本特征，可以降低语音模型的训练难度，提高语音识别的准确性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的语音识别系统的示意图；

图2是本发明实施例的语音识别模型的示意图；

图3是本发明实施例的语音识别方法的流程图；

图4是本发明实施例的语音识别模型的第二特征提取层的示意图；

图5是本发明实施例的语音模型训练系统的示意图；

图6是本发明实施例的语音模型训练方法的流程图；

图7是本发明实施例的获取预训练的文本模型的流程图；

图8是本发明实施例的获取第一嵌入向量的示意图；

图9是本发明实施例的第一特征提取层的示意图；

图10是本发明实施例的对第二特征提取层进行调整的流程图；

图11是本发明实施例的获取第二嵌入向量的示意图；

图12是本发明实施例的第二特征提取层的示意图；

图13是本发明实施例的电子设备的示意。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

同时，应当理解，在以下的描述中，“电路”是指由至少一个元件或子电路通过电气连接或电磁连接构成的导电回路。当称元件或电路“连接到”另一元件或称元件/电路“连接在”两个节点之间时，它可以是直接耦接或连接到另一元件或者可以存在中间元件，元件之间的连接可以是物理上的、逻辑上的、或者其结合。相反，当称元件“直接耦接到”或“直接连接到”另一元件时，意味着两者不存在中间元件。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是本发明实施例的语音识别系统的示意图。如图1所示，本发明实施例的语音识别系统包括至少一个终端设备A1和至少一个服务器A2。其中，终端设备A1用于获取用户输入的待识别语音信息，并将所述待识别语音信息发送至服务器A2。服务器A2用于对所述待识别语音信息进行处理以获取对应的意图。

在本实施例中，终端设备A1用于采集语音信号作为待识别语音信息发送至服务器A2。可选地，所述终端设备A1可以通过手机、平板电脑、笔记本计算机、台式电脑或其它具备语音采集功能的电子设备等实现。

在本实施例中，服务器A2用于接收终端设备A1发送的待识别语音信息，并获取所述待识别语音信息的意图。

可选地，所述服务器A2可以通过本地服务器或云服务器实现。进一步地，服务器A2可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可选地，所述服务器A2还被配置为根据识别到的意图获取对应的应答语，并将所述应答语发送至客户端A1，由此，可以实现智能对话。

进一步地，服务器A2通过内置的语音识别模型获取所述待识别语音信息的意图。其中，语音识别模型可参照图2，包括第二输入层21、第二特征提取层22、映射层23、融合层24和第二意图识别层25。其中，第二输入层21用于对待识别语音信息S进行分帧处理以获取帧序列，并根据所述帧序列获取第二嵌入向量E。第二特征提取层22用于根据所述第二嵌入向量E获取所述待识别语音信息的语音向量Vs。映射层23用于根据预定的映射关系将所述语音向量Vs转换为映射向量Vp。融合层24用于将所述语音向量Vs和所述映射向量Vp融合以获取融合向量Vq。第二意图识别层25用于根据所述融合向量Vq获取所述待处理语音信息的意图R。

在本实施例中，以所述语音识别模型为BERT(Bidirectional EncoderRepresentations from Transformers)模型为例进行说明。应理解，所述语音识别模型也可以为XL-NET模型、GPT2模型或T5模型等。

进一步地，语音识别模型获取待识别语音信息的意图的方法可参照图3，包括如下步骤：

步骤S310、获取待识别语音信息。

在本实施例中，语音识别模型获取待识别语音信息，并将所述待识别语音信息输入到输入层21。

步骤S320、对所述待识别语音信息进行分帧处理以获取帧序列。

步骤S330、根据所述帧序列获取第二嵌入向量。

对于上述步骤S320-S330，可以通过现有的各种方法实现。本发明实施例以通过MFCC(梅尔倒谱系数，Mel-scaleFrequency Cepstral Coefficients)来实现进行说明，具体包括如下步骤：

步骤S331、对待识别语音信息进行预处理。

在本实施例中，预处理是将语音信号通过一个高通滤波器进行预加重处理，预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

步骤S332、分帧处理。

在本实施例中，先将多个采样点集合成一个观测单位，称为帧。通常情况下每帧包括256或512个采样点，涵盖的时间约为20-30ms左右。为了避免相邻两帧的变化过大，将两相邻帧之间有一段重叠区域，此重叠区域包含了多个取样点，取样点的数量约为采样点数量的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是32ms。由此，可以得到帧序列。

步骤S333、加窗处理。

在本实施例中将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0，1，…，N-1。其中，N为帧的大小。

步骤S334、快速傅里叶变换处理。

在本实施例中，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还需要再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

步骤S335、平滑处理。

在本实施例中，将上述得到的功率谱通过多个三角带通滤波器组进行处理，以对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。因此，一段语音的音调或音高，是不会呈现在MFCC参数内，也就是说，以MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响。此外，还可以降低运算量。

步骤S336、计算每个滤波器组输出的对数能量。

步骤S337、将所述对数能量经离散余弦变换得到MFCC系数。

由此，得到的每一帧的MFCC系数即为每一帧的特征向量。

进一步地，以将所述待识别语音信息分为n帧为例进行说明，通过上述步骤可得到每一帧的帧向量Efj。

步骤S338、获取各帧的位置信息。

在本实施例中，获取各帧的位置信息。对于第j帧，其位置信息记为Epj。

由此，根据帧向量和位置信息得到每一帧的帧向量Ej＝Efj+Epj，其中，Ej为第j帧的帧向量，j＝1,2，…，n。进而可以得到第二嵌入向量E为(E1，E2，…，En)。

步骤S340、将所述第二嵌入向量输入第二特征提取层获取所述待处理语音信息的语音向量。

在本实施例中，以所述语音识别模型为BERT模型为例进行说明，第二特征提取层22的结构可参照图4，BERT是一个双向Transformer(编码器)的模型，对语境的理解会比单向的语言模型更深刻，通过双向编码器即可得到每个输入帧的上下文表示Vfj，进而根据每个帧的上下文表示获取语音向量Vs。

步骤S350、根据预定的映射关系将所述语音向量转换为映射向量。

在本实施例中，映射层23根据预定的映射关系将所述语音向量Vs转换为映射向量Vp，其中，映射向量Vp表征将所述语音信息转换为文本后对应的文本向量。

步骤S360、将所述语音向量和所述映射向量融合以获取融合向量。

在本实施例中，融合层24将所述语音向量Vs和所述映射向量Vp融合以获取融合向量Vq。

可选地，所述融合可以是将所述语音向量Vs和所述映射向量Vp进行拼接。

步骤S370、将所述融合向量输入所述第二意图识别层以获取所述待处理语音信息的意图。

在本实施例中，第二意图识别层25根据所述融合向量Vq获取所述待处理语音信息的意图R。

在一个可选的实现方式中，所述第二意图识别层25为最大池化层，根据所述融合向量获取语音信息分别为各意图的概率，选择概率最大的为对应的意图。

在另一个可选的实现方式中，所述第二意图识别层25可以通过CRF(ConditionalRandom Field，条件随机场)来实现，根据所述融合向量获取对应的意图。

本发明实施例通过获取待识别语音信息，对所述待识别语音信息进行分帧处理以获取帧序列，根据所述帧序列获取第二嵌入向量并输入到第二特征提取层获取所述待处理语音信息的语音向量，根据预定的映射关系将所述语音向量转换为映射向量，将所述语音向量和所述映射向量融合以获取融合向量，将所述融合向量输入所述第二意图识别层以获取所述待处理语音信息的意图。由此，使得语音识别过程中融合了文本特征，可以提高语音识别的准确性。

进一步地，图5是本发明实施例的语音模型的训练系统的示意图。如图5所示，本发明实施例的语音模型的训练系统包括文本模型1、语音模型2、判别模型3和识别模块4。其中，识别模块4用于对语音训练集中的语音信息进行语音识别以获取文本训练集，所述文本训练集包括多个文本信息和对应的意图标识。文本模型1用于根据所述文本训练集获取预训练的文本模型。语音模型2用于根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。

具体地，语音模型的训练方法可参照图6，包括如下步骤：

步骤S610、获取语音训练集。

在本实施例中，所述语音训练集包括多个语音信息和对应的意图标识。

在一个具体的实现方式中，以应用在网约车中的智能对话为例进行说明，获取司机或乘客与客服的通话数据，从司机或乘客手机端采集语音信息，并对对应的意图进行标注，所述意图可以包括订单信息、订单取消、订单支付、申诉、报备和其它类型。

可选地，语音训练集中语音信息的数据量可以为20000通通话。

步骤S620、对所述语音信息进行语音识别以获取文本训练集。

在本实施例中，所述文本训练集包括多个文本信息和对应的意图标识。

进一步地，通过识别模块4对所述语音训练集中语音信息进行文本识别，获取对应的文本信息，并将所述文本信息和对应的意图生成文本训练集。

进一步地，可以通过ASR(Automatic Speech Recognition，语音识别技术)将语音信息转换为对应的文本信息。ASR也被称为自动语音识别，将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

步骤S630、根据所述文本训练集获取预训练的文本模型。

在本实施例中，文本模型1根据所述文本训练集获取预训练的文本模型。

在本实施例中，以所述文本模型为BERT(Bidirectional EncoderRepresentations from Transformers)模型为例进行说明。应理解，所述语音识别模型也可以为XL-NET模型、GPT2模型或T5模型等。

进一步地，为了降低训练难度，所述文本模型选取在现有的NLP各个任务中都取得最好效果的已经训练好的文本模型，通过本发明实施例的方法对其进行微调。

进一步地，获取预训练的文本模型的方法可参照图7，包括如下步骤：

步骤S631、基于预定的分词算法对所述文本训练集中各文本信息进行分词处理以获取对应的词序列，所述词序列包括多个词。

在本实施例中，第一输入层11获取文本训练集，并基于预定的分词算法对所述文本训练集中各文本信息进行分词处理以获取对应的词序列，所述词序列包括多个词。

可选地，所述第一输入层11可以根据语种的不同包括多种分词算法。本实施例以所述第一输入层11包括英文分词算法和中文分词算法为例进行说明。

在对中文进行分词时，分词算法可以采用结巴分词算法。具体步骤为：

步骤一，构造前缀词典。结巴分词首先会依照统计词典构造前缀词典。具体做法为：首先定义一个空的字典，然后遍历每一行，取词条作为字典的键，词频作为对应的键值，然后遍历该词条的前缀，如果前缀对应的键不在字典里，就把该前缀设为字典新的键，对应的键值设为0，如果前缀在字典里，则什么都不做。这样等遍历完后，前缀词典就构造好了。在构造前缀词典时，会对统计词典里所有词条的词频做一下累加，获取累加值。

步骤二，生成DAG(Directed Acyclic Graph，有向无环图)。用正则表达式分割句子后，对每一个单独的子句会生成一个有向无环图。具体方式为：先定义一个空的字典，然后遍历子句，当前子句元素的索引会作为字典的一个键，对应的键值为一个列表(初始为空)，然后会以当前索引作为子串的起始索引，不断向后遍历生成不同的子串，如果子串在前缀词典里且键值不为0的话，则把子串的终止索引添加到列表中。这样等遍历完子句的所有字后，对应的DAG就生成好了。

步骤三，计算最大概率路径。DAG的起点到终点会有很多路径，需要找到一条概率最大的路径，然后据此进行分词。可以采用动态规划来求解最大概率路径。具体实现方式为：从子句的最后一个字开始，倒序遍历子句的每个字，取当前字对应索引在DAG字典中的键值，然后遍历该列表，当前字会和列表中每个字两两组合成一个词条，然后基于词频计算出当前字到句尾的概率，以元组的方式保存最大概率，元祖第一个元素是最大概率的对数，第二个元素为最大概率对应词条的终止索引。

步骤四，对未登录词采用HMM(隐马尔可夫模型，Hidden Markov Model)模型进行分词。当出现没有在前缀词典里收录的词时，会采用HMM模型进行分词。HMM模型有5个基本组成：观测序列、状态序列、状态初始概率、状态转移概率和状态发射概率。分词属于HMM的预测问题，即已知观测序列、状态初始概率、状态转移概率和状态发射概率的条件下，求状态序列。结巴分词已经内置了训练好的状态初始概率、状态转移概率和状态发射概率。句子会作为观测序列，当有新句子进来时，具体做法为：先通过Viterbi(维比特)算法求出概率最大的状态序列，然后基于状态序列输出分词结果。

由此，可以实现对中文句子进行分词以获取词序列。

在对英文进行分词时，分词算法可以采用Stanford CoreNLP算法，StanfordCoreNLP是斯坦福大学的自然语言处理工具包，目前已经支持多种语言的处理。具体步骤为：

由此，可以实现对英文句子进行分词以获取词序列Wi。

步骤S632、根据所述词序列获取第一嵌入向量。

在本实施例中，第一输入层11根据所述词序列获取第一嵌入向量。具体如图8所示，对于文本训练集中任意文本信息Ti，第一输入层11对其进行分词后得到的词序列包括m个词，W1-Wm。第一输入层11根据所述词序列获取文本信息的嵌入向量E，其中，嵌入向量E包括m+1个向量，E0-Em。其中，E0为文本信息的意图分类表示，E1-Em分别为词序列中各词的信息表示。

对于E0，包括Ecls和Ep0，Ecls表征文本信息的意图分类信息，Ep0表示意图分类信息的位置。通常情况下，设置E0在第一个位置。

对于Ei，i＝1,2，…，m，包括Ewi和Epi，其中，Ewi表示词的词义，可选地，Ewi为词向量。Epi表示词在词序列中的位置信息。

进一步地，可以采用现有的各种获取词向量的方法，例如，CBOW(Continuous Bag-of-Word，连续词袋)模型、word2vec模型、Skip-gram(连续跳跃)模型等。

由此，可以得到嵌入向量Ei。

步骤S633、将所述第一嵌入向量输入所述第一特征提取层获取所述文本信息的文本向量。

在本实施例中，第一特征提取层12根据所述嵌入向量E获取文本向量Vt。

BERT是一个双向Transformer(编码器)的模型，对语境的理解会比单向的语言模型更深刻，本实施例采用MLM(Masked Language Model，遮蔽语言模型)进行训练。具体如图9所示，MLM随机遮蔽一部分输入词，仅基于被遮蔽的输入的语境来预测其原始词汇。在本实施例中，训练数据生成器随机选择15％的词。例如在这个句子“my dog is hairy”中，它选择的词是“hairy”。然后，执行以下过程：

80％的时间：用[MASK]标记替换单词，例如，将“my dog is hairy”替换为“my dogis[MASK]”。

10％的时间：用一个随机的单词替换该单词，例如，将“my dog is hairy”替换为“my dog is apple”。

10％的时间：保持单词不变，例如，将“my dog is hairy”替换为“my dog ishairy”。

这样做的目的是将表示偏向于实际观察到的单词。由于编码器不知道将被要求预测哪些词已被随机替换，因此它被迫保持每个输入词的分布式上下文表示。此外，因为随机替换只发生在所有输入的1.5％(即15％的10％)，这似乎不会损害模型的语言理解能力。

由此，即可得到每个输入词的上下文表示Vwi，进而根据每个词的上下文表示获取文本向量Vt。

步骤S634、将所述文本向量输入到第一意图识别层获得输出。

在本实施例中，第一意图识别层13根据所述文本向量Vt获取输出。在一个可选的实现方式中，所述第一意图识别层13为最大池化层，根据所述文本向量获取输出。

在另一个可选的实现方式中，所述第一意图识别层13可以通过CRF(ConditionalRandom Field，条件随机场)来实现，根据所述文本向量获取输出。

在本实施例中，所述输出为第一损失值Loss1。可选地，所述第一损失值Loss1用于表征第一意图识别层13输出为正确意图的概率。

步骤S635、根据所述第一意图识别层的输出和对应的意图对所述第一特征提取层和所述第一意图识别层进行调整以获取所述预训练的文本模型。

在本实施例中，对所述第一特征提取层12和所述第一意图识别层13进行调整以使得所述第一意图识别层13输出为正确意图的概率最大。

由此，即可得到与训练的文本模型。

步骤S640、根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。

在本实施例中，根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型如图10所示，包括：

步骤S641、根据所述预训练的文本模型对所述第二特征提取层进行调整以使得所述语音模型输出的语音向量与所述文本模型输出的文本向量一致。

步骤S642、根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整以使得所述语音模型获取所述语音信息的意图。

进一步地，根据所述预训练的文本模型对所述第二特征提取层进行调整包括如下步骤：

步骤S6411、对所述语音训练集中各语音信息进行分帧处理以获取帧序列。

在本实施例中，第二输入层21接收语音训练集中的语音信息，对所述语音信息Si进行分帧处理以获取帧序列。

进一步地，先将多个采样点集合成一个观测单位，称为帧。通常情况下每帧包括256或512个采样点，涵盖的时间约为20-30ms左右。为了避免相邻两帧的变化过大，将两相邻帧之间有一段重叠区域，此重叠区域包含了多个取样点，取样点的数量约为采样点数量的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是32ms。由此，即可获取帧序列。

步骤S6412、根据所述帧序列获取第二嵌入向量。

在本实施例中，第二输入层21根据所述帧序列获取第二嵌入向量。具体如图11所示，对于语音训练集中任意语音信息Sj，第二输入层21对其进行分帧后得到的帧序列包括n个帧，F1-Fn。第二输入层21根据所述帧序列获取文本信息的第二嵌入向量，其中，第二嵌入向量包括n+1个向量，E0-En。其中，E0为语音信息的意图分类表示，E1-En分别为帧序列中各帧的信息表示。

对于E0，包括Ecls和Ep0，Ecls表征语音信息的意图分类信息，Ep0表示意图分类信息的位置。通常情况下，设置E0在第一个位置。

对于Ej，1≤j≤n，包括Efj和Epj，其中，Efj表示帧的语义，可选地，Efj为帧向量。Epj表示帧在帧序列中的位置信息。

进一步地，可以采用现有的各种获取帧向量的方法，本实施例采用上述步骤S333-S338的方法，在此不再赘述。由此，可以得到第二嵌入向量Ej。

步骤S6413、将所述第二嵌入向量输入所述第二特征提取层获取所述语音信息的语音向量。

具体地，如图12所示，BERT是一个双向Transformer(编码器)的模型，对语境的理解会比单向的语言模型更深刻，本实施例采用MLM(Masked Language Model，遮蔽语言模型)进行训练。具体地，MLM随机遮蔽一部分输入，仅基于被遮蔽的输入的语境来预测其原始词汇。

由于编码器不知道将被要求预测哪些帧已被随机替换，因此它被迫保持每个输入帧的分布式上下文表示。此外，因为随机替换只发生在所有输入的1.5％(即15％的10％)，这似乎不会损害模型的语言理解能力。

由此，即可得到每个输入帧的上下文表示Vfj，j＝0，1，…，n，进而根据每个帧的上下文表示获取语音向量Vs。

步骤S6414、根据预定的映射关系将所述语音向量转换为映射向量。

在本实施例中，映射层23根据预定的映射矩阵将所述语音向量Vs转换为映射向量Vp，所述映射向量Vp用于表征所述语音向量Vs对应的文本向量。

步骤S6415、通过判别模型比较所述映射向量和所述文本向量以获取比较结果。

步骤S6416、根据所述比较结果对所述第二特征提取层进行调整。

本实施例通过对抗生成网络对所述第二特征提取层22进行优化。

具体地，对于上述步骤S6415-S6416，判别模型3接收文本模型输出的文本向量Vw和映射向量Vp并输出比较结果，所述比较结果为第三损失值Loss3，所述第三损失值Loss3用于表征所述文本向量Vw和映射向量Vp的差异度或相似度。本实施例以比较结果为差异度为例进行说明，具体包括如下步骤：

步骤一，保持所述语音模型不变，对所述判别模型进行调整以使得所述比较结果表征的所述映射向量和所述文本向量的差异度较大。

由此，可以使得判别模型具有较强的差异度识别能力。

步骤二，保持所述判别模型不变，对所述第二特征提取层进行调整以使得所述比较结果表征的所述映射向量和所述文本向量的差异度较小。

由此，可以使得映射向量与文本向量尽可能相似。

重复步骤一和步骤二，直到判别模型比较不出映射向量与文本向量的差别。

由此，可以使得第二特征提取层输出的语音向量经过映射后与第一特征提取层输出的文本向量一致。

进一步地，对于上述步骤S642，根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整包括如下步骤：

步骤S6421、将所述语音向量和所述映射向量融合以获取融合向量。

在本实施例中，融合层24将所述语音向量Vs和所述映射向量Vp融合以获取融合向量Vq，由此，使得融合向量Vq中既包括语音特征，又包括文本特征。

步骤S6422、将所述融合向量输入所述第二意图识别层获得输出。

在本实施例中，第二意图识别层25根据所述融合向量Vq获取输出。

在一个可选的实现方式中，所述第二意图识别层25为最大池化层，根据所述融合向量获取输出。

在另一个可选的实现方式中，所述第二意图识别层25可以通过CRF(ConditionalRandom Field，条件随机场)来实现，根据所述融合向量获取对应的输出。

在本实施例中，所述输出为第二损失值Loss2。可选地，所述第二损失值Loss2用于表征第二意图识别层253输出为正确意图的概率。

步骤S6423、根据所述第二意图识别层的输出和对应的意图对所述第二意图识别层和第二特征提取层进行调整。

在本实施例中，对所述第二特征提取层22和所述第二意图识别层25进行调整以使得所述第二意图识别层25输出为正确意图的概率最大。

进一步地，所述方法还包括：

重复步骤S641和步骤S642，直到所述第二意图识别层25输出为正确意图的概率最大。由此，即可得到与训练的语音模型。

本发明实施例通过获取语音训练集并根据语音训练集获取文本训练集，根据文本训练集获取预训练的文本模型，根据预训练的文本模型和语音训练集获取预训练的语音模型。由此，使得预训练的语音模型中融合了文本特征，可以降低语音模型的训练难度，提高语音识别的准确性。

图13是本发明实施例的电子设备的示意图。图13所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器131和存储器132。处理器131和存储器132通过总线133连接。存储器132适于存储处理器131可执行的指令或程序。处理器131可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器131通过执行存储器132所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线133将上述多个组件连接在一起，同时将上述组件连接到显示控制器134和显示装置以及输入/输出(I/O)装置135。输入/输出(I/O)装置135可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置135通过输入/输出(I/O)控制器136与系统相连。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本发明是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音模型的训练方法，其特征在于，所述方法包括：

根据所述文本训练集获取预训练的文本模型；以及

2.根据权利要求1所述的方法，其特征在于，所述文本模型包括第一特征提取层和第一意图识别层；

其中，根据所述文本训练集获取预训练的文本模型包括：

根据所述词序列获取第一嵌入向量；

将所述文本向量输入到第一意图识别层获得输出；以及

3.根据权利要求1所述的方法，其特征在于，所述语音模型包括第二特征提取层和第二意图识别层；

4.根据权利要求3所述的方法，其特征在于，根据所述预训练的文本模型对所述第二特征提取层进行调整包括：

根据所述帧序列获取第二嵌入向量；

根据预定的映射关系将所述语音向量转换为映射向量；

根据所述比较结果对所述第二特征提取层进行调整。

5.根据权利要求4所述的方法，其特征在于，根据所述比较结果对所述第二特征提取层进行调整包括：

6.根据权利要求4所述的方法，其特征在于，根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整包括：

将所述语音向量和所述映射向量融合以获取融合向量；

将所述融合向量输入所述第二意图识别层获得输出；以及

7.根据权利要求1所述的方法，其特征在于，所述语音模型为BERT模型、XL-NET模型、GPT2模型或T5模型；

所述文本模型为BERT模型、XL-NET模型、GPT2模型或T5模型。

8.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音信息；

对所述待识别语音信息进行分帧处理以获取帧序列；

根据所述帧序列获取第二嵌入向量；

根据预定的映射关系将所述语音向量转换为映射向量；

将所述语音向量和所述映射向量融合以获取融合向量；以及

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。