CN113782030B

CN113782030B - 基于多模态语音识别结果纠错方法及相关设备

Info

Publication number: CN113782030B
Application number: CN202111062688.2A
Authority: CN
Inventors: 庄子扬; 魏韬; 马骏; 王少军; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2024-02-02
Anticipated expiration: 2041-09-10
Also published as: CN113782030A

Abstract

本申请实施例提供了一种基于多模态语音识别结果纠错方法及相关设备，所述方法包括：采用声学模型和语言模型对用户的语音数据进行处理，获得多个第一候选识别结果以及对应的声学得分和语言得分；获得每个第一候选识别结果对应的权重得分；将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量；将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果。本发明可以有效地纠正语音识别结果的文本错误，尤其是针对谐音字的错误，可以得到有效纠正。

Description

基于多模态语音识别结果纠错方法及相关设备

技术领域

本申请涉及人工智能领域，特别涉及一种基于多模态语音识别结果纠错方法及相关设备。

背景技术

基于人工智能的语音识别技术现已广泛应用在车载导航、智能家居、社交聊天、应用助手、娱乐游戏等多种场景中。语音识别技术能够实现自动识别用户输入的语音内容，将语音内容转换成对应的文本输出，大大提高了用户与终端交互的便利性。然而，在实际的语音交互过程中，由于用户发音不标准、噪音等因素的影响，使得语音识别的错误率较高。而现有技术都集中在提升语音识别准确率上，却缺乏对语音识别结果的纠错手段。以上原因，极大影响语音交互产品的推广。

发明内容

本申请的目的在于针对现有技术的不足，提供一种基于多模态语音识别结果纠错方法、装置、计算机设备和计算机可读存储介质，可以有效纠正语音识别结果的错误，对语音识别系统的用户体验有极大的改善。

第一方面，本申请提供了一种基于多模态语音识别结果纠错方法，所述方法包括：

获取语音数据；

采用声学模型和语言模型对所述语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分；

针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分；

将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；

从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量；

将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果。

根据本申请的一些实施例，上述方案中，所述纠错模型包括输入层、全连接层和softmax层；

所述将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果，包括：

将所述文本序列向量和所述拼音序列向量输入至所述输入层，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，以获得融合后的特征向量；

将所述融合后的特征向量输入至所述全连接层，并经全连接层输入至所述softmax层，以获得由所述softmax层输出的纠错识别结果。

根据本申请的一些实施例，上述方案中，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，包括：

通过所述输入层对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算。

根据本申请的一些实施例，上述方案中，所述获取所述目标识别结果的文本序列向量，包括：

将所述目标识别结果的文本数据输入至预先训练好的BERT模型中，以获得所述文本数据的文本序列向量。

根据本申请的一些实施例，上述方案中，所述获取声学得分最高的第一候选识别结果对应的拼音序列向量，包括：

获取声学得分最高的第一候选识别结果对应的拼音序列；

将所述拼音序列输入至预先训练好的Tacotron2模型，以获得所述拼音序列向量。

根据本申请的一些实施例，上述方案中，在所述将所述拼音序列输入至预先训练好的Tacotron2模型之前，所述方法还包括：

构建拼音序列样本集，所述拼音序列样本集包括多个拼音序列样本；

获取每个所述拼音序列样本对应的普通话发音的梅尔谱特征，得到多个梅尔谱序列向量；

根据多个所述拼音序列样本和多个所述梅尔谱序列向量，对Tacotron2模型进行训练，以获得训练好的Tacotron2模型。

根据本申请的一些实施例，上述方案中，在所述获得纠错识别结果之后，还包括：将所述纠错识别结果替换所述目标识别结果，以将所述纠错识别结果作为最终识别结果。

第二方面，本申请提供了一种基于多模态语音识别结果纠错装置，所述装置包括：

获取模块，用于获取语音数据；

第一处理模块，用于采用声学模型和语言模型对所述语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分；

第二处理模块，用于针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分；

第三处理模块，用于将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；

第四处理模块，用于从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量；

纠错模块，将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如上第一方面描述的任一项所述方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上第一方面描述的任一项所述方法的步骤。

本申请实施例所提供的技术方案具有如下的有益效果：

本申请实施例，采用声学模型和语言模型对用户的语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分；针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分；将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量；将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以进而获得纠错识别结果。本申请实施例采用多模态特征融合的方法，融合声学得分最高的结果对应的拼音序列向量特征和目标识别结果的文本序列向量特征进行纠错，可以有效地纠正语音识别结果的文本错误，尤其是针对谐音字的错误，可以得到有效纠正。本申请实施例的技术方案由于利用了声学特征进行纠错，因而可以提高纠错的召回率，以及降低误纠率，，对整体语音识别准确率的提升有显著的有益效果。

附图说明

图1是本申请实施例提供的一种基于多模态语音识别结果纠错方法的流程示意图；

图2是图1中步骤S150的子步骤流程示意图；

图3是本申请实施例提供的Tacotron2模型的结构示意图；

图4是图1中步骤S160的子步骤流程示意图；

图5是本申请实施例提供的一种基于多模态语音识别结果纠错装置的结构示意图；

图6是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。文本“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

应了解，本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

基于人工智能的语音识别技术现已广泛应用在车载导航、智能家居、社交聊天、应用助手、娱乐游戏等多种场景中。语音识别技术能够实现自动识别用户输入的语音内容，并将语音内容转换成对应的文本输出，从而大大提高了用户与终端交互的便利性。

在实际的语音交互过程中，由于用户发音不标准、噪音等因素的影响，使得语音识别的结果错误率较高。例如，终端对接收到某用户输入的语音信息后，对语音信息进行自动识别及转换后输出文本“情告诉我”，然而正确的输出结果应当是“请告诉我”。诸如此类的语法错误、谐音错误是影响语音识别用户体验的痛点。

相关技术中，为纠正语音识别结果的文本错误，有人根据汉语语音的特点，通过总结在连续汉语语音识别的汉字序列中出现错误的规律，写出相应的用于查错和校正的语法和句法语义规则，利用“词汇语义驱动”的分析方法，找到汉字序列中的错误并校正，最终得到正确的汉字序列。还有人提出通过语言模型根据说话人说出的词序列的似然概率，以对语音识别结果的文本进行纠错。但上述的方法都是基于文本进行语法或句法的纠错，准确率不高。

本申请实施例提供一种基于多模态语音识别结果纠错方法、装置、计算机设备和计算机可读存储介质，基于深度学习的基础上结合了语音识别解码过程中的声学特征和文本特征信息，可以有效纠正语音识别结果的错误，尤其是一些语法错误、谐音错误，能够大大提升语音识别系统的用户体验度。

本申请实施例提供的基于多模态语音识别结果纠错方法具体可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmentedreality，AR)/虚拟现实(virtualreality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonalcomputer，UMPC)、上网本、个人数字助理(personaldigitalassistant，PDA)等终端设备上，也可以应用于音箱、电视、洗衣机等智能家电设备上，本申请实施例对终端设备的具体类型不作任何限制。

请参见图1，图1示出了本申请实施例提供的一种基于多模态语音识别结果纠错方法的流程示意图。该方法包括以下步骤：

S110,获取语音数据。

可以理解的是，应用本申请实施例的方法的终端设备设置有语音采集装置。语音采集装置具体可以是拾音器装置。拾音器是一种声音传感器，是将声音信号转换为电信号的能量转换器件，也称麦克风、话筒、微音器。终端设备可通过拾音器采集用户的语音信息，语音信息的声音振动传到麦克风的振膜上，推动里边的磁铁形成变化的电流，这样变化的电流送到后面的声音处理电路进行放大处理，形成语音信号。终端在通过语音采集装置采集得到语音信号后，可对采集到的语音信号进行空时采样处理，得到语音数据。语音数据的形成过程包括：通过拾音器采集接收范围内的语音信号，然后将语音信号转换为模拟电信号，再通过前端放大器对模拟电信号进行放大处理；接着利用多通道同步采样单元对放大后的模拟电信号进行采样，以将模拟电信号转换为数字电信号，形成待识别的语音数据。

S120,采用声学模型和语言模型对所述语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分。

具体实施时，可以将语音数据输入至声学模型；然后利用声学模型对语音数据进行声学特征提取处理，以获得待识别语音数据对应的声学特征。这里，声学特征具体可以是FBK特征、基频特征、共振峰特征、频谱特征等等。

声学模型还可对声学特征信息进行识别，得到当前语音数据的至少一个音素以及至少一个音素中各音素的声学得分，然后根据声学得分确定多个与所述待识别语音对应的候选文本序列。

具体实施时，还通过语言模型对各个候选文本序列进行打分，得到各个候选文本序列对应的语言得分。

基于各个候选文本序列对应的声学得分和语言得分，可以确定最终的文本序列，也即要输出的语音识别结果。应能理解，这里的候选文本序列即为上述的第一候选识别结果。

S130,针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分。

示例性的，在语音识别过程中，声学模型和语音模型分别根据输入的声学特征和文本特征计算出多条候选结果的声学得分及语言得分，然后通过加权求和得到每个候选结果的权重得分。

S140,将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量。

在获得各个第一候选识别结果的权重得分之后，可以从多个第一候选识别结果中确定最优的结果输出。具体的，可以将得分最高的第一候选识别结果作为目标识别结果，输出目标识别结果对应的文本序列。

可以理解的是，声学模型输出的得分用于表示给定的声学特征属于各个声学建模单元的概率，语言模型则表示一个文本序列出现的先验概率。在通过前述步骤获取语音识别结果时，常由于正确的文本序列的语法、句法出现不频繁等原因，语言得分较低，导致最终的权重得分不够高，所以无法输出正确结果。本申请实施例后续将对目标识别结果的文本序列进行纠正，以最终输出正确的结果。

为对目标识别结果的文本序列进行纠错处理，在获得目标识别结果对应的文本序列之后，还获取该文本序列的向量表达。

作为示例，所述获取所述目标识别结果的文本序列向量，具体包括：将所述目标识别结果的文本数据输入至预先训练好的BERT模型中，以获得所述文本数据的文本序列向量。

BERT模型是一种预训练的语言模型。BERT模型中预置有字符向量表，每一个字符都可以在字符向量表中找到对应的向量。BERT模型将文本中无法直接计算的字符转变为可以计算的向量形式，根据字符的上下文信息来丰富字的语义向量，以通过这些数字化的向量较好地反映出对应字符在句子中的含义。具体实施时，BERT模型可以根据给定句子中某个字符的前面和后面的字符(即上下问信息)，对该字符预测出现的概率进行预测，根据预测的概率为该句子选取正确的字符，以使得输出的句子符合人类语言习惯。

S150,从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量。

作为示例，参见图2，步骤S150具体可以包括以下子步骤：

S151，获取声学得分最高的第一候选识别结果对应的拼音序列。

可以理解的是，在通过声学模型和语言模型获取识别结果的过程中，正确的识别结果往往能够获得较高的声学得分。例如，对于“请告诉我”的语音识别过程中，获得声学最高分的候选结果的拼音序列为“qing3 gao4 su4 wo3”，因而可将该拼音序列作为辅助纠错信息，以对先前获得的目标识别结果“情告诉我”进行纠错。

S152，将所述拼音序列输入至预先训练好的Tacotron2模型，以获得所述拼音序列向量。

应了解，Tacotron2是一种基于神经网络的端到端TTS模型。Tacotron2模型可以将输入的文本通过编码器转换成连续的字符嵌入向量(Character Embeddings)，再通过连接层和多层LSTM网络对字符嵌入向量进行处理，输出与文本对应的梅尔谱特征向量。在本申请实施例中，利用拼音序列替换文本作为Tacotron2模型的输入，通过编码器转换成连续的拼音序列嵌入向量(可理解为拼音序列的Embeddings)，通过连接层和多层LSTM网络对拼音序列的嵌入向量进行处理，输出与拼音序列对应的梅尔谱特征向量，然后取拼音序列的Embeddings作为所述拼音序列向量。

可以理解的是，为达到输入拼音序列至Tacotron2模型以获得拼音序列向量的效果，需要预先对Tacotron2模型进行训练。即在所述将所述拼音序列输入至预先训练好的Tacotron2模型之前，本申请实施例的方法还包括以下步骤：

S1501，构建拼音序列样本集，所述拼音序列样本集包括多个拼音序列样本；

S1502，获取每个所述拼音序列样本对应的普通话发音的梅尔谱特征，得到多个梅尔谱序列向量；

S1503，根据多个所述拼音序列样本和多个所述梅尔谱序列向量，对Tacotron2模型进行训练，以获得训练好的Tacotron2模型。

具体的，图3示出了本申请实施例提供的Tacotron2模型的结构示意图。在对图3所示的Tacotron2模型进行训练的过程中，可以预先构建拼音序列样本集，并获取拼音序列样本集中每个所述拼音序列样本对应的普通话标准发音片段，提取该发音片段对应的梅尔谱特征样本向量作为模型训练的标签；具体训练时，每个输入的拼音序列会对应一个随机初始化的拼音embedding向量，该向量通过3个卷积层后接入bi-LSTM网络，对该向量进行时间维度上的编码，之后通过Location Sensitive Attention得到基于位置特征的注意力，再通过若干层网络生成梅尔谱特征向量，最后计算与梅尔谱特征样本向量的损失(loss)值，根据该loss值对模型参数进行优化，直至模型收敛，得到训练好的Tacotron2模型。

S160,将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果。

示例性的，所述纠错模型可以包括输入层、全连接层和softmax层。其中，输入层用于对输入的所述文本序列向量和所述拼音序列向量进行融合，得到多模态的特征向量；全连接层连接输入层和softmax层，用于将多模态的特征向量进行降维并拼接得到一个长向量；softmax层用于根据全连接层的输出的长向量生成多个文本，并计算每个文本为正确识别结果的概率数据，然后将概率最高的文本作为纠错识别结果输出。

对应的，请参见图4，步骤S160中，将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果，具体可以包括如下子步骤：

S161，将所述文本序列向量和所述拼音序列向量输入至所述输入层，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，以获得融合后的特征向量；

S162，将所述融合后的特征向量输入至所述全连接层，并经全连接层输入至所述softmax层，以获得由所述softmax层输出的纠错识别结果。

在步骤S161中，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，具体包括：通过所述输入层对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算。

示例性的，对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算，可通过以下公式(1)和(2)实现。

F^e＝σ(F^pW^p+b^p)·F^s (1)

F^es＝F^e+F^s (2)

其中，公式(1)中Fs表示文本序列向量，Fp表示拼音序列向量，是模型学习参数，σ为非线性激活函数(具体可以是ReLU激活函数)，“·”表示向量点乘。公式(2)表示残差连接，公式(2)的结果F^es作为全连接层的输入。

可以理解的是，在所述获得纠错识别结果之后，本申请实施例将所述纠错识别结果作为最终识别结果输出。

在本申请实施例的一个示例性应用场景中，终端接收用户的语音数据之后，采用声学模型和语言模型对所述语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分；针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分，其中，权重得分最高的结果为“情告诉我”，因此将“情告诉我”作为目标识别结果，然后获取所述目标识别结果“情告诉我”的文本序列向量；再从此前得到的多个第一候选识别结果中，确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量，这里假定声学得分最高的结果对应的拼音序列为“qing3 gao4 su4 wo3”，将该拼音序列转化为拼音序列向量；将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，获得纠错识别结果“请告诉我”；最后，将“请告诉我”作为最终识别结果输出。

可选的，在所述获得纠错识别结果之后，还可包括以下步骤：判断所述获得纠错识别结果的文本是否存在错误；在所述纠错识别结果的文本存在错误时，利用所述文本序列向量、所述拼音序列向量和所述纠错识别结果再次训练所述纠错模型。

可以理解的是，如果经过纠错模型对目标识别结果进行纠错后，输出的文本仍存在错误，则可利用上述的文本序列向量、拼音序列向量以及纠错识别结果再次训练所述纠错模型，以提高纠错模型输出结果的正确率，同时降低误纠率。

具体实现时，可以判断所述纠错识别结果的文本是否存在错误，然后对纠错识别结果进行打标签，例如，文本正确的，将纠错识别结果的标签设置为1；文本错误的，将纠错识别结果设置为第二预设值(例如0)。在利用上述的文本序列向量、拼音序列向量以及纠错识别结果再次训练所述纠错模型时，将文本序列向量、拼音序列向量作为输入，将纠错识别结果的第二预设值作为期望输出的概率数据，进而训练纠错模型。经过多次迭代优化，提高纠错模型输出结果的正确率，同时降低误纠率。本申请实施例，采用声学模型和语言模型对用户的语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分；针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分；将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量；将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以进而获得纠错识别结果。本申请实施例采用多模态特征融合的方法，融合声学得分最高的结果对应的拼音序列向量特征和目标识别结果的文本序列向量特征进行纠错，可以有效地纠正语音识别结果的文本错误，尤其是针对谐音字的错误，可以得到有效纠正。本申请实施例的技术方案由于利用了声学特征进行纠错，因而可以提高纠错的召回率，以及降低误纠率，对整体语音识别准确率的提升有显著的有益效果。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

请参见图5，本申请提供了一种基于多模态语音识别结果纠错装置，所述装置包括：

获取模块，用于获取语音数据；

作为示例，所述纠错模型包括输入层、全连接层和softmax层。

在一个具体实施例中，该纠错模块包括：

融合单元，用于将所述文本序列向量和所述拼音序列向量输入至所述输入层，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，以获得融合后的特征向量；

结果输出单元，用于将所述融合后的特征向量输入至所述全连接层，并经全连接层输入至所述softmax层，以获得由所述softmax层输出的纠错识别结果。

在一个具体实施例中，该融合单元通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，包括：通过所述输入层对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算。

在一个具体实施例中，该第三处理模块包括：

第一确定单元，用于将权重得分最高的第一候选识别结果作为目标识别结果；

第一获取单元，用于将所述目标识别结果的文本数据输入至预先训练好的BERT模型中，以获得所述文本数据的文本序列向量。

在一个具体实施例中，该第四处理模块包括：

第二确定单元，用于从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果；

第二获取单元，用于获取声学得分最高的第一候选识别结果对应的拼音序列；将所述拼音序列输入至预先训练好的Tacotron2模型，以获得所述拼音序列向量。

在一个具体实施例中，该装置还包括训练模块，该训练模块用于：

在一个具体实施例中，该训练模块用于还用于：在所述纠错识别结果的文本存在错误时，利用所述文本序列向量、所述拼音序列向量和所述纠错识别结果再次训练所述纠错模型。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图6示出了本申请实施例提供的计算机设备500。该计算机设备500包括但不限于：

存储器510，用于存储程序；

处理器520，用于执行存储器510存储的程序，当处理器520执行存储器510存储的程序时，处理器520用于执行上述的基于多模态语音识别结果纠错方法。

处理器520和存储器510可以通过总线或者其他方式连接。

存储器510作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本发明任意实施例描述的基于多模态语音识别结果纠错方法。处理器520通过运行存储在存储器510中的非暂态软件程序以及指令，从而实现上述的基于多模态语音识别结果纠错方法。

存储器510可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述的基于多模态语音识别结果纠错方法。此外，存储器510可以包括高速随机存取存储器，还可以包括非暂态存储器，比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器510可选包括相对于处理器520远程设置的存储器，这些远程存储器可以通过网络连接至该处理器520。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的基于多模态语音识别结果纠错方法所需的非暂态软件程序以及指令存储在存储器510中，当被一个或者多个处理器520执行时，执行本发明任意实施例提供的基于多模态语音识别结果纠错方法。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述的基于多模态语音识别结果纠错方法。

在一实施例中，该存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器520执行，比如，被上述计算机设备500中的一个处理器520执行，可使得上述一个或多个处理器520执行本发明任意实施例提供的基于多模态语音识别结果纠错方法。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的。共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种基于多模态语音识别结果纠错方法，其特征在于，所述方法包括：

获取语音数据；

从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，获取所述声学得分最高的第一候选识别结果对应的拼音序列，将所述拼音序列输入至预先训练好的Tacotron2模型，以获得所述声学得分最高的第一候选识别结果对应的拼音序列向量；

将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果；

其中，所述Tacotron2模型通过以下步骤训练获得：构建拼音序列样本集，所述拼音序列样本集包括多个拼音序列样本，获取每个所述拼音序列样本对应的普通话发音的梅尔谱特征，得到多个梅尔谱序列向量，根据多个所述拼音序列样本和多个所述梅尔谱序列向量，对Tacotron2模型进行训练，以获得训练好的Tacotron2模型。

2.根据权利要求1所述的方法，其特征在于，所述纠错模型包括输入层、全连接层和softmax层；

3.根据权利要求2所述的方法，其特征在于，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取所述目标识别结果的文本序列向量，包括：

5.根据权利要求1所述的方法，其特征在于，在所述获得纠错识别结果之后，还包括：

判断所述获得纠错识别结果的文本是否存在错误；

在所述纠错识别结果的文本存在错误时，利用所述文本序列向量、所述拼音序列向量和所述纠错识别结果再次训练所述纠错模型。

6.一种基于多模态语音识别结果纠错装置，其特征在于，所述装置包括：

获取模块，用于获取语音数据；

第四处理模块，用于从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，获取所述声学得分最高的第一候选识别结果对应的拼音序列，将所述拼音序列输入至预先训练好的Tacotron2模型，以获得所述声学得分最高的第一候选识别结果对应的拼音序列向量；

纠错模块，将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项所述方法的步骤。