CN112420050B

CN112420050B - 一种语音识别方法、装置和电子设备

Info

Publication number: CN112420050B
Application number: CN202011294806.8A
Authority: CN
Inventors: 易中华
Original assignee: Beijing Dipai Intelligent Technology Co ltd
Current assignee: Beijing Dipai Intelligent Technology Co ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-06-18
Anticipated expiration: 2040-11-18
Also published as: WO2022105472A1; JP7335569B2; CN112420050A; JP2022551678A

Abstract

本申请实施例提供了一种语音识别方法、装置和电子设备，能够使用声学模型生成第一语音数据对应的第一声学表征；使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，以使数据生成器模型用于根据任意文本数据生成对应的声学表征；使用数据生成器模型生成第二文本数据对应的第二声学表征，第二文本数据的规模大于第一文本数据；使用第二文本数据和第二声学表征训练语言模型，以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。本申请实施例的技术方案，通过数据生成器模型增大了声学表征的规模，使得训练得到的语音识别系统可以应用于大词汇量连续语音识别的场景中，并且具有较高的准确性。

Description

一种语音识别方法、装置和电子设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种语音识别方法、装置和电子设备。

背景技术

语音识别技术(speech recognition)，也被称为自动语音识别(automaticspeech recognition，ASR)、电脑语音识别(computer speech recognition)或是语音转文本识别(speech to text,STT)，其目标是计算机自动将人类的语音内容转换为相应的文字。语音识别技术可以应用在包括语音拨号、语音导航、室内设备控制、语音文档检索、听写数据录入等众多领域。如果将语音识别技术与其他自然语言处理技术(如机器翻译及语音合成技术)相结合，则可以构建出更加复杂的应用，例如语音到语音的翻译等。

目前的语音识别系统，通常采用声学模型和语言模型完全分离的方法进行训练，并以一种松耦合的方式进行语音识别应用，声学模型中仅蕴含最基础的语言模型信息，而语言模型仅蕴含了语言相关的信息却与声学数据无关，即语言模型仅仅表征了文本层面的文字搭配关系。这种方案的缺陷在于：声学模型和语言模型是单独训练并且独立优化的，因此无法对管道方案进行端到端的整体优化，也就无法得出全局最优识别结果，因此管道方案的语音识别准确性难以提升。

为克服上述缺陷，现有技术还通过了一种将语音识别系统的所有组件作为单一的端到端网络模型的方案。然而，这种端到端网络模型的方案采用音频-文本的样本训练，而目前音频-文本的样本的数量规模通常只能满足声学模型的训练要求，无法满足语言模型的训练要求，这就导致该模型无法在大词汇量连续语音识别应用中有广泛适用性，仅能用于特定用途的小型语音识别系统中，并且准确率和扩展性不如传统管道方案如声学模型加N-Gram语言模型。

发明内容

本申请实施例提供了一种语音识别方法、装置和电子设备，以解决提高语音识别系统的识别准确率。

第一方面，本申请实施例提供了一种语音识别方法，该方法包括：使用声学模型生成第一语音数据对应的第一声学表征；使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，以使数据生成器模型用于根据任意文本数据生成对应的声学表征；使用数据生成器模型生成第二文本数据对应的第二声学表征，第二文本数据的规模大于第一文本数据；使用第二文本数据和第二声学表征训练语言模型，以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。

在一种可选择的实现方式中，使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，包括：生成第一文本数据对应的第一发音符号序列；以第一发音符号序列作为数据生成器模型的输入，以第一声学表征作为数据生成器模型的输出，并且使用声学模型的输出作为数据生成器模型的监督信号，训练数据生成器模型。

在一种可选择的实现方式中，使用数据生成器模型生成第二文本数据对应的第二声学表征，包括：生成第二文本数据对应的第二发音符号序列；将第二发音符号序列输入到数据生成器模型，以生成第二声学表征。

在一种可选择的实现方式中，声学模型包括高斯混合模型结合隐马尔可夫模型GMM-HMM，或者神经网络模型结合隐马尔可夫模型NN-HMM；神经网络模型包括长短期记忆网络模型LSTM；声学表征包括GMM-HMM输出的所有HMM状态下的输出概率；或者，声学表征包括神经网络模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率PDF的发音单元序列网格。所述发音单元可以是状态、因素、声韵母、音节、字或者词，本实施例对此不做限定。

在一种可选择的实现方式中，数据生成器模型包括生成对抗网络GANNet。

在一种可选择的实现方式中，使用第二文本数据和第二声学表征训练语言模型，包括：以第二声学表征为语言模型的输入，以第二文本数据为语言模型的输出，训练语言模型。

在一种可选择的实现方式中，使用第二文本数据和第二声学表征训练语言模型，包括：以第一声学表征和第二声学表征为语言模型的输入，以第一文本数据和第二文本数据为语言模型的输出，训练语言模型。

在一种可选择的实现方式中，语言模型包括基于注意力机制的序列到序列的编码器和解码器；编码器包括循环神经网络结构或者卷积神经网络结构；解码器包括循环神经网络结构。

第二方面，本申请实施例提供了一种语音识别装置，该装置包括：第一训练单元，用于使用声学模型生成第一语音数据对应的第一声学表征；第二训练单元，用于使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，以使数据生成器模型用于根据任意文本数据生成对应的声学表征；第一生成单元，用于使用数据生成器模型生成第二文本数据对应的第二声学表征，第二文本数据的规模大于第一文本数据；第二生成单元，用于使用第二文本数据和第二声学表征训练语言模型，以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器和存储器，存储器存储有计算机程序指令，当计算机程序指令被处理器执行时，使得处理器执行以下程序步骤：使用声学模型生成第一语音数据对应的第一声学表征；使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，以使数据生成器模型用于根据任意文本数据生成对应的声学表征；使用数据生成器模型生成第二文本数据对应的第二声学表征，第二文本数据的规模大于第一文本数据；使用第二文本数据和第二声学表征训练语言模型，以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。

本申请实施例的技术方案，基于声音模型AM、语言模型LM和数据生成器模型之间的输入输出关系，一般地，先使用语音-文本对数据训练得到声学模型，再使用声学模型以语音-文本对数据上的声学表征输出作为目标、文本作为输入训练数据生成器模型，从而实现从任意的文本生成对应的声学表征，然后使用数据生成器模型在超大规模文本上生成声学表征-文本数据对训练语言模型；训练完成后将声学模型和语言模型级联实现从语音到文本的转换过程。根据模型的输入输出关系，所述3个模型在实施的某些阶段可以部分联合或者整体联合训练。由于数据生成器模型理论上无限增大了声学表征-文本对数据的规模，使得在不需要预先获得某领域的语音数据情况下也能构建出在该领域下具有较高准确性的大词汇量连续语音识别系统；如果在足够的文本规模上进行数据生成并训练语言模型，则可构建在所有领域下均具备较高准确率的系统。

附图说明

图1是本申请实施例提供的一种语音识别方法的流程图；

图2是本申请实施例提供的一种可实现的声学模型的结构图；

图3是本申请实施例提供的一种可实现的数据生成器模型的结构图；

图4是本申请实施例提供的GANNet的框架示意图；

图5是本申请实施例提供的一种语音识别方法步骤S102的流程图；

图6是本申请实施例提供的一种语音识别方法步骤S103的流程图；

图7是本申请实施例提供的一种可实现的语言模型的结构图；

图8是本申请实施例提供的一种语音识别系统的框架图；

图9是本申请实施例提供的一种语音识别装置的结构图。

具体实施方式

目前最先进的语音识别系统，通常采用声学模型和语言模型完全分离的方法进行训练，并以一种松耦合的方式进行语音识别应用，声学模型中仅蕴含最基础的语言模型信息，而语言模型仅蕴含了语言相关的信息却与声学数据无关，即语言模型仅仅表征了文本层面的文字搭配关系。例如，在传统的管道(pipeline)方案的语音识别系统中，通常包含一个声学模型AM，一个语言模型LM和一个发音模型PM。其中，声学模型AM用于表征从声学特征到发音单元之间的关系，声学模型AM一般以从音频数据中提取的声学特征作为输入，输出通常就是各个声学特征对应的发音单元序列，其中，声学模型可以将用于表征声音单元序列的带有后验概率PDF的因素序列网格或者矩阵等作为中间输出的声学表征。语言模型LM用于表征发音单元序列到最终识别的文本序列的映射关系，语言模型可以以声学模型中间输出的的声学表征作为输入，以文本序列作为输出。发音模型PM则用于将文本序列输出为声音。基于管道(pipeline)方案，传统的语音识别通过以下方式实现：首先，声学模型AM提取声学特征，并预测一组子词单元(subword unit)，通常是与上下文相关的或与上下文无关的音素序列；然后，通过一个手动设计的词典将声学模型生成的音素序列映射到单词序列；最后，语言模型LM将概率分配给单词序列，进而寻求整体联合概率最大的单词序列作为识别结果。上述三个模型可以通过传统的隐马尔可夫模型(hidden markov model，HMM)、N元语法N-Gram等方法构造，也可以是通过深度神经网络等方法构造，也有将上述模型中的两个进行合并从而对外界开来只有两个模型(发音模型AM和语言模型LM)的方案。但是，无论基于管道(pipeline)方案如何变化，都没有脱离发音模型AM和语言模型LM分离而相互独立的技术构思。这种方案的缺陷在于：声学模型和语言模型是单独训练并且独立优化的，因此无法对管道方案进行端到端的整体优化，也就无法得出全局最优识别结果，因此管道方案的语音识别准确性难以提升。

为了克服管道方案的缺陷，现有技术还通过了一种将语音识别系统的所有组件作为单一的端到端网络模型的方案。与传统的管道方案将发音模型AM和语言模型LM作为单独的模块进行训练的方案不同，端到端方案将所有组件作为单一的端到端神经网络进行联合训练，这使得训练更简单，并且很好地进行了声学表征和语言表征(语言模型LM的特征)融合，具备获得最优识别结果的理论支持。此外，由于端到端模型完全是神经网络，所以不需要外部的、手工设计的组件，例如有限状态转换器，词典或文本标准化模块。最后，与传统模型不同的是，训练端到端模型不需要从一个单独的系统中生成的决策树或时间校准引导，并且可以在给定的文本和相应的声学特征对下训练。然而，这种端到端模型在生成环境的数据上评估时，表现却不够好，因为该模型是在上万个音频-文本的样本对上学习的，这些样本虽然能够满足声学模型AM的训练要求，但是其数据规模无法与传统的语言模型训练所需要的文本内容或者语音内容的规模相应或相当。这就导致该模型无法应用于大词汇量连续语音识别系统，仅能用于特定用途的小型语音识别系统中，其通用语音识别能力和应用场合远低于传统的管道方案。

为了解决端到端模型方案的训练数据规模不足的问题，本申请实施例提供了一种语音识别方法，该方法如图1所示，包括以下步骤：

步骤S101，使用声学模型生成第一语音数据对应的第一声学表征。

可选的，声学模型例如可以由神经网络模型结合隐马尔可夫模型NN-HMM构成，其中，声学模型的神经网络部分可以是长短期记忆网络(long short-term memory，LSTM)，循环神经网络(recurrent neural network，RNN)、门控循环单元(gate recurrent unit，GRU)、卷积神经网络(convolutional neural networks，CNN)等，本申请实施例不做限定。另一方面，声学模型也可以是高斯混合模型结合隐马尔可夫模型GMM-HMM。本申请对于采用哪种形式的声学模型不做具体限定。

为了获取到声学特征，本申请实施例可以引入由语音数据及其对应的文本数据组成的第一训练数据集，记作(a1，T1)，其中，a1表示第一语音数据，T1表示第一语音数据对应的第一文本数据。第一训练数据集可以采用业内常见的数据集，也可以是自行收集创建，本申请实施例对此不做限定，一般来说，第一训练数据集的数据规模可以在几千小时到几十万小时不等，在业内目前训练一个语音识别的语音-文本对数据中规模较大的约在10万小时级，对应的文本数据一般小于200MB字节，虽然能够满足声学模型的训练规模，但是远达不到语言模型的训练规模。

具体实现中，当声学模型由神经网络模型结合隐马尔可夫模型NN-HMM构成时，声学表征可以包括所述神经网络模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率(probability densityfunction，PDF)的发音单元序列网格。当声学模型是高斯混合模型结合隐马尔可夫模型GMM-HMM时，声学表征可以包括所述GMM-HMM输出的所有HMM状态下的输出概率。

示例地，以声学模型是长短期记忆网络结合隐马尔可夫模型HMM为例，声学表征可以是长短期记忆网络LSTM模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率PDF的发音单元序列网格。

图2示出了一种可实现的声学模型结构图。如图2所示，该声学模型包括特征帧层AM Ferture Frames、前置网络层AMPreNet、编码器层AMEncoder、后处理层AMPostNet。其中，特征帧层AM Ferture Frame用于对输入的语音的波形数据进行频谱转换，得到语音的频域特征，该频域特征即为声学模型和语音识别模型的实际输入数据，频域特征例如可以是梅尔倒频谱系数(mel-frequency cepstral coefficients，MFCC)、梅尔倒频谱(mel-frequency cepstrum，MFC)或者线性谱等，本申请实施例不做限定。前置网络层AMPreNet用于对语音的频域特征进行前置处理，例如转换成高维的输入向量，以便于计算处理。编码器层AMEncoder可以是长短期记忆网络LSTM、循环神经网络RNN、门控循环单元GRU、卷积神经网络CNN等，本申请实施例不做限定，用于将语音的输入向量映射到一种特征表示。后处理层AMPostNet可以是多层的卷积神经网络CNN，用于对编码器层的输出进行卷积以实现降维处理，得到输入的语音帧对应的后验概率PDF的发音单元序列网格。另外，该声学模型以在训练过程中以发音符号序列Pronunciation Token Sequence为目标，使用连接时序模型CTC计算损失Loss，以监督PDF的发音单元序列网格的输出方向。其中，发音符号是指用于表征文本发音情况的信息，例如国际音标、汉语拼音等，其单位可以是音素、音节、词，也可以是汉字，只要能够表征文本发音情况的信息均可以作为发音符号，本申请实施例对此不做限定。

在声学模型训练完成之后，将第一语音数据a1输入至声学模型，即可得到其对应的第一声学表征A1。

步骤S102，使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，以使数据生成器模型用于根据任意文本数据生成对应的声学表征。

第一声学表征A1和第一文本数据T1构成了训练生成器模型所使用的第二训练数据集。

本申请实施例中，数据生成器模型用于根据更多的文本数据生成更大规模的声学表征，从而达到训练语言模型所需要的声学表征的数量集需求。通常来说，由于文本数据的数据规模是无限制的，因此，只要得到数据生成器模型，就可以无限制地产生声学表征，足够用于训练语言模型。

在一种实现方式中，数据生成器模型可采用生成对抗网络(generativeadversarial networks，GANNet)来搭建。例如，数据生成器模型如图3所示可以是发音单元后验概率生成模型Text2Pdf GenModel，该模型包括：字符嵌入层Char Embedding、GANNet层、GAN后处理层GenPostNet。其中，字符嵌入层Char Embedding用于对超大规模的文本数据对应的超大规模文本符号进行性词嵌入编码，得到编辑计算的向量形式。GANNet层用于将文本数据生成一种声学特征的表示，GANNet层可以由深度神经网络或者其他生成函数和判别函数构成。GAN后处理层GenPostNet用于对GANNet层进行卷积以实现降维处理，得到最终的超大规模文本数据对应的超大规模的声学表征PDF By GenNet。并且，在训练过程中，可以构造声学模型输出的PDF至声学表征PDF By GenNet之间的交叉熵损失函数CrossEntropyLoss，或者其他的损失函数，以互相监督训练方向。

图4是本申请实施例提供的GANNet的框架示意图。如图4所示，GANNet可以由生成模型Generative Model和判别模型Discriminative Model组成，生成模型和判别模型可以在相互博弈学习中使GANNet产生良好的输出，生成模型和判别模型可以是神经网络也可以是其他能够拟合相应生成和判别的函数。在本申请中，发音单元后验概率生成模型Text2Pdf GenModel在使用阶段(其中包括联合对语言模型LM进行训练的训练阶段)仅需要使用生成模型Generative Model部分。其中，生成模型和判别模型可以是长短期记忆网络LSTM、循环神经网络RNN、门控循环单元GRU、卷积神经网络CNN和Transformer等模型中的任意一种或者多种的组合。

在一种实现方式中，基于上述数据生成器模型，步骤S102如图5所示，具体可以通过以下方式实现：

步骤S201，生成第一文本数据对应的第一发音符号序列。

步骤S201优选可以应用于中文等象形语言以及第一文本数据规模较小的场景中。例如，当第一文本数据是中文字符串时，第一发音符号序列可以是中文字符串对应的拼音串。

步骤S202，以第一发音符号序列作为数据生成器模型的输入，以第一声学表征A1作为数据生成器模型的输出，并且使用声学模型的输出作为数据生成器模型的监督信号，训练数据生成器模型。

如前文所示，声学模型的输出PDF与数据生成器模型的输出PDF By GenNet之间可以构造交叉熵损失函数CrossEntropyLoss，或者其他的损失函数，以互相监督训练方向，提升模型质量。

可以理解的是，在数据生成器模型训练完成之后，即具备了输入任意的文本数据，输出其对应的声学表征的能力，由于文本数据规模理论上不受限制，因此可以生成大规模的声学特征。

步骤S103，使用数据生成器模型生成第二文本数据对应的第二声学表征，第二文本数据的规模大于第一文本数据。

具体实现中，步骤S103如图6所示，具体可以通过以下步骤实现：

步骤S301，生成第二文本数据对应的第二发音符号序列。

步骤S301优选可以应用于中文等象形语言的场景中。例如，当第二文本数据T2是中文字符串时，第二发音符号序列可以是中文字符串对应的拼音串。为了得到足够的满足语言模型训练需求的第二声学表征，第二文本数据的规模可以远大于第一文本数据的规模。

步骤S302，将第二发音符号序列输入到数据生成器模型，以生成第二声学表征。

其中，第二声学特征A2和第二文本数据T2可以构成用于训练语言模型的训练数据集。

步骤S104，使用第二文本数据和第二声学表征训练语言模型，以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。

图7是本申请实施例提供的语言模型LM的结构示意图。如图7所示，该语言模型LM包括前置网络层LMPreNet、编解码层LMNet、SoftMax层。其中，前置网络层LMPreNet用于对输入的声学表征进行前置处理，例如转换成利于计算的向量形式。编解码层LMNet可以采用基于注意力机制的序列到序列的编码器-解码器的深度神经网络算法构建，其中，编码器一般可以采用长短期记忆网络LSTM、循环神经网络RNN、门控循环单元GRU、卷积神经网络CNN等构建，解码器一般可以采用循环神经网络RNN搭建，注意力机制可以是位置敏感的注意力机制。SoftMax层用于对编解码层LMNet输出的数据计算归一化概率，以根据归一化概率确定概率最大结果作为最终输出的文本序列Final Token Sequence。其中，在最终输出的文本序列Final Token Sequence和SoftMax层之间可以构造交叉熵损失函数Cross EntropyLoss，以监督文本序列Final Token Sequence的生成方向。

可选的，可以以第二声学表征为语言模型的输入，以第二文本数据为语言模型的输出，训练语言模型。或者，可以以第一声学表征和第二声学表征为语言模型的输入，以第一文本数据和第二文本数据为语言模型的输出，训练语言模型，从而提升语言模型的训练数据的规模，提升模型质量。

基于以上技术方案，本申请实施例的图8示出了语音识别系统的结构示意图。该语音识别系统包括：声音模型AM、语言模型LM和发音单元后验概率生成模型Text2PdfGenModel。其中，语言模型LM以声音模型AM输出的声学表征PDF和发音单元后验概率生成模型输出的声学表征PDF By GenNet作为输入，输出作为最终结果的文本序列。

本申请实施例的技术方案，基于声音模型AM、语言模型LM和数据生成器模型之间的输入输出关系，一般地，先使用语音-文本对数据训练得到声学模型，再使用声学模型以语音-文本对数据上的声学表征输出作为目标、文本作为输入，训练数据生成器模型从而实现从任意的文本生成对应的声学表征，然后使用数据生成器模型在超大规模文本上生成声学表征-文本数据对训练语言模型；训练完成后将声学模型和语言模型级联实现从语音到文本的转换过程。根据模型的输入输出关系，所述3个模型在实施的某些阶段可以部分联合或者整体联合训练。由于数据生成器模型理论上无限增大了声学表征-文本对数据的规模，使得在不需要预先获得某领域的语音数据情况下也能构建出在该领域下具有较高准确性的大词汇量连续语音识别系统；如果在足够的文本规模上进行数据生成并训练语言模型，则可构建在所有领域下均具备较高准确率的系统。

本申请实施例还提供了一种语音识别装置，该语音识别装置如图9所示可以包括：

第一训练单元401，用于使用声学模型生成第一语音数据对应的第一声学表征；

第二训练单元402，用于使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，以使数据生成器模型用于根据任意文本数据生成对应的声学表征；

第一生成单元403，用于使用数据生成器模型生成第二文本数据对应的第二声学表征，第二文本数据的规模大于第一文本数据；

第三训练单元404，用于使用第二文本数据和第二声学表征训练语言模型，以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。

在一个实施例中，第二训练单元402具体用于生成第一文本数据对应的第一发音符号序列；以及，以第一发音符号序列作为数据生成器模型的输入，以第一声学表征作为数据生成器模型的输出，并且使用声学模型的输出作为数据生成器模型的监督信号，训练数据生成器模型。

在一个实施例中，第一生成单元403具体用于生成第二文本数据对应的第二发音符号序列；以及将第二发音符号序列输入到数据生成器模型，以生成第二声学表征。

在一个实施例中，第三训练单元404具体用于以第二声学表征为语言模型的输入，以第二文本数据为语言模型的输出，训练语言模型。

在一个实施例中，第三训练单元404具体用于以第一声学表征和第二声学表征为语言模型的输入，以第一文本数据和第二文本数据为语言模型的输出，训练语言模型。

本申请实施例的技术方案，基于声音模型AM、语言模型LM和发音单元后验概率生成模型Text2Pdf GenModel之间的输入输出关系，这三个模型在实施的某些阶段可以联合训练，并且，由于发音单元后验概率生成模型Text2Pdf GenModel增大了声学表征的规模，使得训练得到的语音识别系统可以应用于大词汇量连续语音识别的场景中，并且具有较高的准确性。

本申请实施例还提供了一种电子设备，该电子设备例如可以包括手机、平板电脑、个人电脑、服务器、工作站设备、大屏设备(例如：智慧屏、智能电视等)、智能音箱、掌上游戏机、家用游戏机、虚拟现实设备、增强现实设备、混合现实设备等、车载智能终端、自动驾驶汽车、用户驻地设备(customer-premises equipment，CPE)等，本申请实施例对此不做限定。

该电子设备可以包括：处理器501和存储器502，存储器502存储有计算机程序指令，当计算机程序指令被处理器501执行时，使得处理器501执行以下程序步骤：使用声学模型生成第一语音数据对应的第一声学表征；使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型，以使数据生成器模型用于根据任意文本数据生成对应的声学表征；使用数据生成器模型生成第二文本数据对应的第二声学表征，第二文本数据的规模大于第一文本数据；使用第二文本数据和第二声学表征训练语言模型，以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。

本申请实施例的技术方案，基于声音模型AM、语言模型LM和发音单元后验概率生成模型Text2Pdf GenModel之间的输入输出关系，这三个模型在实施的某些阶段可以联合训练，并且，由于发音单元后验概率生成模型Text2Pdf GenModel增大了声学表征的规模，使得终端设备具备在大词汇量连续语音识别的场景中进行语音识别的能力，并且具有较高的准确性。

Claims

1.一种语音识别方法，其特征在于，包括：

使用声学模型生成第一语音数据对应的第一声学表征；

生成第一文本数据对应的第一发音符号序列；

以所述第一发音符号序列作为数据生成器模型的输入，以所述第一声学表征作为所述数据生成器模型的输出，训练所述数据生成器模型，以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征；

使用所述数据生成器模型生成第二文本数据对应的第二声学表征，所述第二文本数据的规模大于所述第一文本数据；

使用所述第二文本数据和所述第二声学表征训练语言模型，以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。

2.根据权利要求1所述的方法，其特征在于，所述使用所述数据生成器模型生成第二文本数据对应的第二声学表征，包括：

生成所述第二文本数据对应的第二发音符号序列；

将所述第二发音符号序列输入到所述数据生成器模型，以生成所述第二声学表征。

3.根据权利要求1或2所述的方法，其特征在于，

所述声学模型包括高斯混合模型结合隐马尔可夫模型GMM-HMM，或者神经网络模型结合隐马尔可夫模型NN-HMM；所述神经网络模型包括长短期记忆网络模型LSTM；

所述声学表征包括所述GMM-HMM输出的所有HMM状态下的输出概率；

或者，所述声学表征包括所述神经网络模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率PDF的发音单元序列网格。

4.根据权利要求1或2所述的方法，其特征在于，所述数据生成器模型包括生成对抗网络GANNet。

5.根据权利要求1所述的方法，其特征在于，所述使用所述第二文本数据和所述第二声学表征训练语言模型，包括：以所述第二声学表征为所述语言模型的输入，以所述第二文本数据为所述语言模型的输出，训练所述语言模型。

6.根据权利要求1所述的方法，其特征在于，所述使用所述第二文本数据和所述第二声学表征训练语言模型，包括：以所述第一声学表征和所述第二声学表征为所述语言模型的输入，以所述第一文本数据和所述第二文本数据为所述语言模型的输出，训练所述语言模型。

7.根据权利要求1、5、6任一项所述的方法，所述语言模型包括基于注意力机制的序列到序列的编码器和解码器；所述编码器包括循环神经网络结构或者卷积神经网络结构；所述解码器包括循环神经网络结构。

8.一种语音识别装置，其特征在于，包括：

第一训练单元，用于使用声学模型生成第一语音数据对应的第一声学表征；

第二训练单元，用于生成第一文本数据对应的第一发音符号序列，以所述第一发音符号序列作为数据生成器模型的输入，以所述第一声学表征作为所述数据生成器模型的输出，训练所述数据生成器模型，以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征；

第一生成单元，用于使用所述数据生成器模型生成第二文本数据对应的第二声学表征，所述第二文本数据的规模大于所述第一文本数据；

第二生成单元，用于使用所述第二文本数据和所述第二声学表征训练语言模型，以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时，使得所述处理器执行以下程序步骤：

使用声学模型生成第一语音数据对应的第一声学表征；

生成第一文本数据对应的第一发音符号序列；