CN112420050A - 一种语音识别方法、装置和电子设备 - Google Patents

一种语音识别方法、装置和电子设备 Download PDF

Info

Publication number
CN112420050A
CN112420050A CN202011294806.8A CN202011294806A CN112420050A CN 112420050 A CN112420050 A CN 112420050A CN 202011294806 A CN202011294806 A CN 202011294806A CN 112420050 A CN112420050 A CN 112420050A
Authority
CN
China
Prior art keywords
model
acoustic
data
text data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011294806.8A
Other languages
English (en)
Other versions
CN112420050B (zh
Inventor
易中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dipai Intelligent Technology Co ltd
Original Assignee
Beijing Dipai Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dipai Intelligent Technology Co ltd filed Critical Beijing Dipai Intelligent Technology Co ltd
Priority to CN202011294806.8A priority Critical patent/CN112420050B/zh
Publication of CN112420050A publication Critical patent/CN112420050A/zh
Application granted granted Critical
Publication of CN112420050B publication Critical patent/CN112420050B/zh
Priority to PCT/CN2021/122961 priority patent/WO2022105472A1/zh
Priority to JP2021577529A priority patent/JP7335569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种语音识别方法、装置和电子设备,能够使用声学模型生成第一语音数据对应的第一声学表征;使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。本申请实施例的技术方案,通过数据生成器模型增大了声学表征的规模,使得训练得到的语音识别系统可以应用于大词汇量连续语音识别的场景中,并且具有较高的准确性。

Description

一种语音识别方法、装置和电子设备
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语音识别方法、装置和电子设备。
背景技术
语音识别技术(speech recognition),也被称为自动语音识别(automaticspeech recognition,ASR)、电脑语音识别(computer speech recognition)或是语音转文本识别(speech to text,STT),其目标是计算机自动将人类的语音内容转换为相应的文字。语音识别技术可以应用在包括语音拨号、语音导航、室内设备控制、语音文档检索、听写数据录入等众多领域。如果将语音识别技术与其他自然语言处理技术(如机器翻译及语音合成技术)相结合,则可以构建出更加复杂的应用,例如语音到语音的翻译等。
目前的语音识别系统,通常采用声学模型和语言模型完全分离的方法进行训练,并以一种松耦合的方式进行语音识别应用,声学模型中仅蕴含最基础的语言模型信息,而语言模型仅蕴含了语言相关的信息却与声学数据无关,即语言模型仅仅表征了文本层面的文字搭配关系。这种方案的缺陷在于:声学模型和语言模型是单独训练并且独立优化的,因此无法对管道方案进行端到端的整体优化,也就无法得出全局最优识别结果,因此管道方案的语音识别准确性难以提升。
为克服上述缺陷,现有技术还通过了一种将语音识别系统的所有组件作为单一的端到端网络模型的方案。然而,这种端到端网络模型的方案采用音频-文本的样本训练,而目前音频-文本的样本的数量规模通常只能满足声学模型的训练要求,无法满足语言模型的训练要求,这就导致该模型无法在大词汇量连续语音识别应用中有广泛适用性,仅能用于特定用途的小型语音识别系统中,并且准确率和扩展性不如传统管道方案如声学模型加N-Gram语言模型。
发明内容
本申请实施例提供了一种语音识别方法、装置和电子设备,以解决提高语音识别系统的识别准确率。
第一方面,本申请实施例提供了一种语音识别方法,该方法包括:使用声学模型生成第一语音数据对应的第一声学表征;使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。
在一种可选择的实现方式中,使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,包括:生成第一文本数据对应的第一发音符号序列;以第一发音符号序列作为数据生成器模型的输入,以第一声学表征作为数据生成器模型的输出,并且使用声学模型的输出作为数据生成器模型的监督信号,训练数据生成器模型。
在一种可选择的实现方式中,使用数据生成器模型生成第二文本数据对应的第二声学表征,包括:生成第二文本数据对应的第二发音符号序列;将第二发音符号序列输入到数据生成器模型,以生成第二声学表征。
在一种可选择的实现方式中,声学模型包括高斯混合模型结合隐马尔可夫模型GMM-HMM,或者神经网络模型结合隐马尔可夫模型NN-HMM;神经网络模型包括长短期记忆网络模型LSTM;声学表征包括GMM-HMM输出的所有HMM状态下的输出概率;或者,声学表征包括神经网络模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率PDF的发音单元序列网格。所述发音单元可以是状态、因素、声韵母、音节、字或者词,本实施例对此不做限定。
在一种可选择的实现方式中,数据生成器模型包括生成对抗网络GANNet。
在一种可选择的实现方式中,使用第二文本数据和第二声学表征训练语言模型,包括:以第二声学表征为语言模型的输入,以第二文本数据为语言模型的输出,训练语言模型。
在一种可选择的实现方式中,使用第二文本数据和第二声学表征训练语言模型,包括:以第一声学表征和第二声学表征为语言模型的输入,以第一文本数据和第二文本数据为语言模型的输出,训练语言模型。
在一种可选择的实现方式中,语言模型包括基于注意力机制的序列到序列的编码器和解码器;编码器包括循环神经网络结构或者卷积神经网络结构;解码器包括循环神经网络结构。
第二方面,本申请实施例提供了一种语音识别装置,该装置包括:第一训练单元,用于使用声学模型生成第一语音数据对应的第一声学表征;第二训练单元,用于使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;第一生成单元,用于使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;第二生成单元,用于使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器,存储器存储有计算机程序指令,当计算机程序指令被处理器执行时,使得处理器执行以下程序步骤:使用声学模型生成第一语音数据对应的第一声学表征;使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。
本申请实施例的技术方案,基于声音模型AM、语言模型LM和数据生成器模型之间的输入输出关系,一般地,先使用语音-文本对数据训练得到声学模型,再使用声学模型以语音-文本对数据上的声学表征输出作为目标、文本作为输入训练数据生成器模型,从而实现从任意的文本生成对应的声学表征,然后使用数据生成器模型在超大规模文本上生成声学表征-文本数据对训练语言模型;训练完成后将声学模型和语言模型级联实现从语音到文本的转换过程。根据模型的输入输出关系,所述3个模型在实施的某些阶段可以部分联合或者整体联合训练。由于数据生成器模型理论上无限增大了声学表征-文本对数据的规模,使得在不需要预先获得某领域的语音数据情况下也能构建出在该领域下具有较高准确性的大词汇量连续语音识别系统;如果在足够的文本规模上进行数据生成并训练语言模型,则可构建在所有领域下均具备较高准确率的系统。
附图说明
图1是本申请实施例提供的一种语音识别方法的流程图;
图2是本申请实施例提供的一种可实现的声学模型的结构图;
图3是本申请实施例提供的一种可实现的数据生成器模型的结构图;
图4是本申请实施例提供的GANNet的框架示意图;
图5是本申请实施例提供的一种语音识别方法步骤S102的流程图;
图6是本申请实施例提供的一种语音识别方法步骤S103的流程图;
图7是本申请实施例提供的一种可实现的语言模型的结构图;
图8是本申请实施例提供的一种语音识别系统的框架图;
图9是本申请实施例提供的一种语音识别装置的结构图。
具体实施方式
语音识别技术(speech recognition),也被称为自动语音识别(automaticspeech recognition,ASR)、电脑语音识别(computer speech recognition)或是语音转文本识别(speech to text,STT),其目标是计算机自动将人类的语音内容转换为相应的文字。语音识别技术可以应用在包括语音拨号、语音导航、室内设备控制、语音文档检索、听写数据录入等众多领域。如果将语音识别技术与其他自然语言处理技术(如机器翻译及语音合成技术)相结合,则可以构建出更加复杂的应用,例如语音到语音的翻译等。
目前最先进的语音识别系统,通常采用声学模型和语言模型完全分离的方法进行训练,并以一种松耦合的方式进行语音识别应用,声学模型中仅蕴含最基础的语言模型信息,而语言模型仅蕴含了语言相关的信息却与声学数据无关,即语言模型仅仅表征了文本层面的文字搭配关系。例如,在传统的管道(pipeline)方案的语音识别系统中,通常包含一个声学模型AM,一个语言模型LM和一个发音模型PM。其中,声学模型AM用于表征从声学特征到发音单元之间的关系,声学模型AM一般以从音频数据中提取的声学特征作为输入,输出通常就是各个声学特征对应的发音单元序列,其中,声学模型可以将用于表征声音单元序列的带有后验概率PDF的因素序列网格或者矩阵等作为中间输出的声学表征。语言模型LM用于表征发音单元序列到最终识别的文本序列的映射关系,语言模型可以以声学模型中间输出的的声学表征作为输入,以文本序列作为输出。发音模型PM则用于将文本序列输出为声音。基于管道(pipeline)方案,传统的语音识别通过以下方式实现:首先,声学模型AM提取声学特征,并预测一组子词单元(subword unit),通常是与上下文相关的或与上下文无关的音素序列;然后,通过一个手动设计的词典将声学模型生成的音素序列映射到单词序列;最后,语言模型LM将概率分配给单词序列,进而寻求整体联合概率最大的单词序列作为识别结果。上述三个模型可以通过传统的隐马尔可夫模型(hidden markov model,HMM)、N元语法N-Gram等方法构造,也可以是通过深度神经网络等方法构造,也有将上述模型中的两个进行合并从而对外界开来只有两个模型(发音模型AM和语言模型LM)的方案。但是,无论基于管道(pipeline)方案如何变化,都没有脱离发音模型AM和语言模型LM分离而相互独立的技术构思。这种方案的缺陷在于:声学模型和语言模型是单独训练并且独立优化的,因此无法对管道方案进行端到端的整体优化,也就无法得出全局最优识别结果,因此管道方案的语音识别准确性难以提升。
为了克服管道方案的缺陷,现有技术还通过了一种将语音识别系统的所有组件作为单一的端到端网络模型的方案。与传统的管道方案将发音模型AM和语言模型LM作为单独的模块进行训练的方案不同,端到端方案将所有组件作为单一的端到端神经网络进行联合训练,这使得训练更简单,并且很好地进行了声学表征和语言表征(语言模型LM的特征)融合,具备获得最优识别结果的理论支持。此外,由于端到端模型完全是神经网络,所以不需要外部的、手工设计的组件,例如有限状态转换器,词典或文本标准化模块。最后,与传统模型不同的是,训练端到端模型不需要从一个单独的系统中生成的决策树或时间校准引导,并且可以在给定的文本和相应的声学特征对下训练。然而,这种端到端模型在生成环境的数据上评估时,表现却不够好,因为该模型是在上万个音频-文本的样本对上学习的,这些样本虽然能够满足声学模型AM的训练要求,但是其数据规模无法与传统的语言模型训练所需要的文本内容或者语音内容的规模相应或相当。这就导致该模型无法应用于大词汇量连续语音识别系统,仅能用于特定用途的小型语音识别系统中,其通用语音识别能力和应用场合远低于传统的管道方案。
为了解决端到端模型方案的训练数据规模不足的问题,本申请实施例提供了一种语音识别方法,该方法如图1所示,包括以下步骤:
步骤S101,使用声学模型生成第一语音数据对应的第一声学表征。
可选的,声学模型例如可以由神经网络模型结合隐马尔可夫模型NN-HMM构成,其中,声学模型的神经网络部分可以是长短期记忆网络(long short-term memory,LSTM),循环神经网络(recurrent neural network,RNN)、门控循环单元(gate recurrent unit,GRU)、卷积神经网络(convolutional neural networks,CNN)等,本申请实施例不做限定。另一方面,声学模型也可以是高斯混合模型结合隐马尔可夫模型GMM-HMM。本申请对于采用哪种形式的声学模型不做具体限定。
为了获取到声学特征,本申请实施例可以引入由语音数据及其对应的文本数据组成的第一训练数据集,记作(a1,T1),其中,a1表示第一语音数据,T1表示第一语音数据对应的第一文本数据。第一训练数据集可以采用业内常见的数据集,也可以是自行收集创建,本申请实施例对此不做限定,一般来说,第一训练数据集的数据规模可以在几千小时到几十万小时不等,在业内目前训练一个语音识别的语音-文本对数据中规模较大的约在10万小时级,对应的文本数据一般小于200MB字节,虽然能够满足声学模型的训练规模,但是远达不到语言模型的训练规模。
具体实现中,当声学模型由神经网络模型结合隐马尔可夫模型NN-HMM构成时,声学表征可以包括所述神经网络模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率(probability densityfunction,PDF)的发音单元序列网格。当声学模型是高斯混合模型结合隐马尔可夫模型GMM-HMM时,声学表征可以包括所述GMM-HMM输出的所有HMM状态下的输出概率。
示例地,以声学模型是长短期记忆网络结合隐马尔可夫模型HMM为例,声学表征可以是长短期记忆网络LSTM模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率PDF的发音单元序列网格。
图2示出了一种可实现的声学模型结构图。如图2所示,该声学模型包括特征帧层AM Ferture Frames、前置网络层AMPreNet、编码器层AMEncoder、后处理层AMPostNet。其中,特征帧层AM Ferture Frame用于对输入的语音的波形数据进行频谱转换,得到语音的频域特征,该频域特征即为声学模型和语音识别模型的实际输入数据,频域特征例如可以是梅尔倒频谱系数(mel-frequency cepstral coefficients,MFCC)、梅尔倒频谱(mel-frequency cepstrum,MFC)或者线性谱等,本申请实施例不做限定。前置网络层AMPreNet用于对语音的频域特征进行前置处理,例如转换成高维的输入向量,以便于计算处理。编码器层AMEncoder可以是长短期记忆网络LSTM、循环神经网络RNN、门控循环单元GRU、卷积神经网络CNN等,本申请实施例不做限定,用于将语音的输入向量映射到一种特征表示。后处理层AMPostNet可以是多层的卷积神经网络CNN,用于对编码器层的输出进行卷积以实现降维处理,得到输入的语音帧对应的后验概率PDF的发音单元序列网格。另外,该声学模型以在训练过程中以发音符号序列Pronunciation Token Sequence为目标,使用连接时序模型CTC计算损失Loss,以监督PDF的发音单元序列网格的输出方向。其中,发音符号是指用于表征文本发音情况的信息,例如国际音标、汉语拼音等,其单位可以是音素、音节、词,也可以是汉字,只要能够表征文本发音情况的信息均可以作为发音符号,本申请实施例对此不做限定。
在声学模型训练完成之后,将第一语音数据a1输入至声学模型,即可得到其对应的第一声学表征A1。
步骤S102,使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征。
第一声学表征A1和第一文本数据T1构成了训练生成器模型所使用的第二训练数据集。
本申请实施例中,数据生成器模型用于根据更多的文本数据生成更大规模的声学表征,从而达到训练语言模型所需要的声学表征的数量集需求。通常来说,由于文本数据的数据规模是无限制的,因此,只要得到数据生成器模型,就可以无限制地产生声学表征,足够用于训练语言模型。
在一种实现方式中,数据生成器模型可采用生成对抗网络(generativeadversarial networks,GANNet)来搭建。例如,数据生成器模型如图3所示可以是发音单元后验概率生成模型Text2Pdf GenModel,该模型包括:字符嵌入层Char Embedding、GANNet层、GAN后处理层GenPostNet。其中,字符嵌入层Char Embedding用于对超大规模的文本数据对应的超大规模文本符号进行性词嵌入编码,得到编辑计算的向量形式。GANNet层用于将文本数据生成一种声学特征的表示,GANNet层可以由深度神经网络或者其他生成函数和判别函数构成。GAN后处理层GenPostNet用于对GANNet层进行卷积以实现降维处理,得到最终的超大规模文本数据对应的超大规模的声学表征PDF By GenNet。并且,在训练过程中,可以构造声学模型输出的PDF至声学表征PDF By GenNet之间的交叉熵损失函数CrossEntropyLoss,或者其他的损失函数,以互相监督训练方向。
图4是本申请实施例提供的GANNet的框架示意图。如图4所示,GANNet可以由生成模型Generative Model和判别模型Discriminative Model组成,生成模型和判别模型可以在相互博弈学习中使GANNet产生良好的输出,生成模型和判别模型可以是神经网络也可以是其他能够拟合相应生成和判别的函数。在本申请中,发音单元后验概率生成模型Text2Pdf GenModel在使用阶段(其中包括联合对语言模型LM进行训练的训练阶段)仅需要使用生成模型Generative Model部分。其中,生成模型和判别模型可以是长短期记忆网络LSTM、循环神经网络RNN、门控循环单元GRU、卷积神经网络CNN和Transformer等模型中的任意一种或者多种的组合。
在一种实现方式中,基于上述数据生成器模型,步骤S102如图5所示,具体可以通过以下方式实现:
步骤S201,生成第一文本数据对应的第一发音符号序列。
步骤S201优选可以应用于中文等象形语言以及第一文本数据规模较小的场景中。例如,当第一文本数据是中文字符串时,第一发音符号序列可以是中文字符串对应的拼音串。
步骤S202,以第一发音符号序列作为数据生成器模型的输入,以第一声学表征A1作为数据生成器模型的输出,并且使用声学模型的输出作为数据生成器模型的监督信号,训练数据生成器模型。
如前文所示,声学模型的输出PDF与数据生成器模型的输出PDF By GenNet之间可以构造交叉熵损失函数CrossEntropyLoss,或者其他的损失函数,以互相监督训练方向,提升模型质量。
可以理解的是,在数据生成器模型训练完成之后,即具备了输入任意的文本数据,输出其对应的声学表征的能力,由于文本数据规模理论上不受限制,因此可以生成大规模的声学特征。
步骤S103,使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据。
具体实现中,步骤S103如图6所示,具体可以通过以下步骤实现:
步骤S301,生成第二文本数据对应的第二发音符号序列。
步骤S301优选可以应用于中文等象形语言的场景中。例如,当第二文本数据T2是中文字符串时,第二发音符号序列可以是中文字符串对应的拼音串。为了得到足够的满足语言模型训练需求的第二声学表征,第二文本数据的规模可以远大于第一文本数据的规模。
步骤S302,将第二发音符号序列输入到数据生成器模型,以生成第二声学表征。
其中,第二声学特征A2和第二文本数据T2可以构成用于训练语言模型的训练数据集。
步骤S104,使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。
图7是本申请实施例提供的语言模型LM的结构示意图。如图7所示,该语言模型LM包括前置网络层LMPreNet、编解码层LMNet、SoftMax层。其中,前置网络层LMPreNet用于对输入的声学表征进行前置处理,例如转换成利于计算的向量形式。编解码层LMNet可以采用基于注意力机制的序列到序列的编码器-解码器的深度神经网络算法构建,其中,编码器一般可以采用长短期记忆网络LSTM、循环神经网络RNN、门控循环单元GRU、卷积神经网络CNN等构建,解码器一般可以采用循环神经网络RNN搭建,注意力机制可以是位置敏感的注意力机制。SoftMax层用于对编解码层LMNet输出的数据计算归一化概率,以根据归一化概率确定概率最大结果作为最终输出的文本序列Final Token Sequence。其中,在最终输出的文本序列Final Token Sequence和SoftMax层之间可以构造交叉熵损失函数Cross EntropyLoss,以监督文本序列Final Token Sequence的生成方向。
可选的,可以以第二声学表征为语言模型的输入,以第二文本数据为语言模型的输出,训练语言模型。或者,可以以第一声学表征和第二声学表征为语言模型的输入,以第一文本数据和第二文本数据为语言模型的输出,训练语言模型,从而提升语言模型的训练数据的规模,提升模型质量。
基于以上技术方案,本申请实施例的图8示出了语音识别系统的结构示意图。该语音识别系统包括:声音模型AM、语言模型LM和发音单元后验概率生成模型Text2PdfGenModel。其中,语言模型LM以声音模型AM输出的声学表征PDF和发音单元后验概率生成模型输出的声学表征PDF By GenNet作为输入,输出作为最终结果的文本序列。
本申请实施例的技术方案,基于声音模型AM、语言模型LM和数据生成器模型之间的输入输出关系,一般地,先使用语音-文本对数据训练得到声学模型,再使用声学模型以语音-文本对数据上的声学表征输出作为目标、文本作为输入,训练数据生成器模型从而实现从任意的文本生成对应的声学表征,然后使用数据生成器模型在超大规模文本上生成声学表征-文本数据对训练语言模型;训练完成后将声学模型和语言模型级联实现从语音到文本的转换过程。根据模型的输入输出关系,所述3个模型在实施的某些阶段可以部分联合或者整体联合训练。由于数据生成器模型理论上无限增大了声学表征-文本对数据的规模,使得在不需要预先获得某领域的语音数据情况下也能构建出在该领域下具有较高准确性的大词汇量连续语音识别系统;如果在足够的文本规模上进行数据生成并训练语言模型,则可构建在所有领域下均具备较高准确率的系统。
本申请实施例还提供了一种语音识别装置,该语音识别装置如图9所示可以包括:
第一训练单元401,用于使用声学模型生成第一语音数据对应的第一声学表征;
第二训练单元402,用于使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;
第一生成单元403,用于使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;
第三训练单元404,用于使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。
在一个实施例中,第二训练单元402具体用于生成第一文本数据对应的第一发音符号序列;以及,以第一发音符号序列作为数据生成器模型的输入,以第一声学表征作为数据生成器模型的输出,并且使用声学模型的输出作为数据生成器模型的监督信号,训练数据生成器模型。
在一个实施例中,第一生成单元403具体用于生成第二文本数据对应的第二发音符号序列;以及将第二发音符号序列输入到数据生成器模型,以生成第二声学表征。
在一个实施例中,第三训练单元404具体用于以第二声学表征为语言模型的输入,以第二文本数据为语言模型的输出,训练语言模型。
在一个实施例中,第三训练单元404具体用于以第一声学表征和第二声学表征为语言模型的输入,以第一文本数据和第二文本数据为语言模型的输出,训练语言模型。
本申请实施例的技术方案,基于声音模型AM、语言模型LM和发音单元后验概率生成模型Text2Pdf GenModel之间的输入输出关系,这三个模型在实施的某些阶段可以联合训练,并且,由于发音单元后验概率生成模型Text2Pdf GenModel增大了声学表征的规模,使得训练得到的语音识别系统可以应用于大词汇量连续语音识别的场景中,并且具有较高的准确性。
本申请实施例还提供了一种电子设备,该电子设备例如可以包括手机、平板电脑、个人电脑、服务器、工作站设备、大屏设备(例如:智慧屏、智能电视等)、智能音箱、掌上游戏机、家用游戏机、虚拟现实设备、增强现实设备、混合现实设备等、车载智能终端、自动驾驶汽车、用户驻地设备(customer-premises equipment,CPE)等,本申请实施例对此不做限定。
该电子设备可以包括:处理器501和存储器502,存储器502存储有计算机程序指令,当计算机程序指令被处理器501执行时,使得处理器501执行以下程序步骤:使用声学模型生成第一语音数据对应的第一声学表征;使用第一语音数据对应的第一文本数据和第一声学表征训练数据生成器模型,以使数据生成器模型用于根据任意文本数据生成对应的声学表征;使用数据生成器模型生成第二文本数据对应的第二声学表征,第二文本数据的规模大于第一文本数据;使用第二文本数据和第二声学表征训练语言模型,以使语言模型用于根据声学模型输出的声学表征生成对应的文本序列。
本申请实施例的技术方案,基于声音模型AM、语言模型LM和发音单元后验概率生成模型Text2Pdf GenModel之间的输入输出关系,这三个模型在实施的某些阶段可以联合训练,并且,由于发音单元后验概率生成模型Text2Pdf GenModel增大了声学表征的规模,使得终端设备具备在大词汇量连续语音识别的场景中进行语音识别的能力,并且具有较高的准确性。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
使用声学模型生成第一语音数据对应的第一声学表征;
使用所述第一语音数据对应的第一文本数据和所述第一声学表征训练数据生成器模型,以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征;
使用所述数据生成器模型生成第二文本数据对应的第二声学表征,所述第二文本数据的规模大于所述第一文本数据;
使用所述第二文本数据和所述第二声学表征训练语言模型,以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。
2.根据权利要求1所述的方法,其特征在于,所述使用所述第一语音数据对应的第一文本数据和所述第一声学表征训练数据生成器模型,包括:
生成所述第一文本数据对应的第一发音符号序列;
以所述第一发音符号序列作为所述数据生成器模型的输入,以所述第一声学表征作为所述数据生成器模型的输出,并且使用所述声学模型的输出作为所述数据生成器模型的监督信号,训练所述数据生成器模型。
3.根据权利要求2所述的方法,其特征在于,所述使用所述数据生成器模型生成第二文本数据对应的第二声学表征,包括:
生成所述第二文本数据对应的第二发音符号序列;
将所述第二发音符号序列输入到所述数据生成器模型,以生成所述第二声学表征。
4.根据权利要求1-3任一项所述的方法,其特征在于,
所述声学模型包括高斯混合模型结合隐马尔可夫模型GMM-HMM,或者神经网络模型结合隐马尔可夫模型NN-HMM;所述神经网络模型包括长短期记忆网络模型LSTM;
所述声学表征包括所述GMM-HMM输出的所有HMM状态下的输出概率;
或者,所述声学表征包括所述神经网络模型经由softmax层输出的所有HMM状态下的归一化概率经由连接时序模型CTC或者维特比算法viterbi输出的带有后验概率PDF的发音单元序列网格。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述数据生成器模型包括生成对抗网络GANNet。
6.根据权利要求1所述的方法,其特征在于,所述使用所述第二文本数据和所述第二声学表征训练语言模型,包括:以所述第二声学表征为所述语言模型的输入,以所述第二文本数据为所述语言模型的输出,训练所述语言模型。
7.根据权利要求1所述的方法,其特征在于,所述使用所述第二文本数据和所述第二声学表征训练语言模型,包括:以所述第一声学表征和所述第二声学表征为所述语言模型的输入,以所述第一文本数据和所述第二文本数据为所述语言模型的输出,训练所述语言模型。
8.根据权利要求1、6、7任一项所述的方法,所述语言模型包括基于注意力机制的序列到序列的编码器和解码器;所述编码器包括循环神经网络结构或者卷积神经网络结构;所述解码器包括循环神经网络结构。
9.一种语音识别装置,其特征在于,包括:
第一训练单元,用于使用声学模型生成第一语音数据对应的第一声学表征;
第二训练单元,用于使用所述第一语音数据对应的第一文本数据和所述第一声学表征训练数据生成器模型,以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征;
第一生成单元,用于使用所述数据生成器模型生成第二文本数据对应的第二声学表征,所述第二文本数据的规模大于所述第一文本数据;
第二生成单元,用于使用所述第二文本数据和所述第二声学表征训练语言模型,以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时,使得所述处理器执行以下程序步骤:
使用声学模型生成第一语音数据对应的第一声学表征;
使用所述第一语音数据对应的第一文本数据和所述第一声学表征训练数据生成器模型,以使所述数据生成器模型用于根据任意文本数据生成对应的声学表征;
使用所述数据生成器模型生成第二文本数据对应的第二声学表征,所述第二文本数据的规模大于所述第一文本数据;
使用所述第二文本数据和所述第二声学表征训练语言模型,以使所述语言模型用于根据所述声学模型输出的所述声学表征生成对应的文本序列。
CN202011294806.8A 2020-11-18 2020-11-18 一种语音识别方法、装置和电子设备 Active CN112420050B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011294806.8A CN112420050B (zh) 2020-11-18 2020-11-18 一种语音识别方法、装置和电子设备
PCT/CN2021/122961 WO2022105472A1 (zh) 2020-11-18 2021-10-11 一种语音识别方法、装置和电子设备
JP2021577529A JP7335569B2 (ja) 2020-11-18 2021-10-11 音声認識方法、装置及び電子機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294806.8A CN112420050B (zh) 2020-11-18 2020-11-18 一种语音识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112420050A true CN112420050A (zh) 2021-02-26
CN112420050B CN112420050B (zh) 2021-06-18

Family

ID=74774269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294806.8A Active CN112420050B (zh) 2020-11-18 2020-11-18 一种语音识别方法、装置和电子设备

Country Status (3)

Country Link
JP (1) JP7335569B2 (zh)
CN (1) CN112420050B (zh)
WO (1) WO2022105472A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643694A (zh) * 2021-08-17 2021-11-12 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
WO2022105472A1 (zh) * 2020-11-18 2022-05-27 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN116013256A (zh) * 2022-12-19 2023-04-25 镁佳(北京)科技有限公司 一种语音识别模型构建及语音识别方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017037830A1 (ja) * 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法
CN106560891A (zh) * 2015-10-06 2017-04-12 三星电子株式会社 使用声学建模的语音识别设备和方法
CN108630197A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于语音识别的训练方法和设备
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109117484A (zh) * 2018-08-13 2019-01-01 北京帝派智能科技有限公司 一种语音翻译方法和语音翻译设备
CN110085215A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN111095397A (zh) * 2017-10-04 2020-05-01 福特全球技术公司 自然言语数据生成系统和方法
WO2020123315A1 (en) * 2018-12-10 2020-06-18 Apprente Llc Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3813491B2 (ja) * 2001-10-30 2006-08-23 日本放送協会 連続音声認識装置およびそのプログラム
KR20160098910A (ko) * 2015-02-11 2016-08-19 한국전자통신연구원 음성 인식 데이터 베이스 확장 방법 및 장치
US11417322B2 (en) * 2018-12-12 2022-08-16 Google Llc Transliteration for speech recognition training and scoring
CN109739370B (zh) * 2019-01-10 2019-09-03 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置
CN111179917B (zh) * 2020-01-17 2023-01-03 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017037830A1 (ja) * 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法
CN106560891A (zh) * 2015-10-06 2017-04-12 三星电子株式会社 使用声学建模的语音识别设备和方法
CN108630197A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于语音识别的训练方法和设备
CN111095397A (zh) * 2017-10-04 2020-05-01 福特全球技术公司 自然言语数据生成系统和方法
CN110085215A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109117484A (zh) * 2018-08-13 2019-01-01 北京帝派智能科技有限公司 一种语音翻译方法和语音翻译设备
WO2020123315A1 (en) * 2018-12-10 2020-06-18 Apprente Llc Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRIS DONAHUE ET AL: "EXPLORING SPEECH ENHANCEMENT WITH GENERATIVE ADVERSARIAL NETWORKS FOR ROBUST SPEECH RECOGNITION", 《ICASSP 2018》 *
张文瑞: "基于生成对抗网络的语音增强方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
赵鹏飞: "基于生成对抗网络的中文语言模型数据增强技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105472A1 (zh) * 2020-11-18 2022-05-27 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN113643694A (zh) * 2021-08-17 2021-11-12 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN116013256A (zh) * 2022-12-19 2023-04-25 镁佳(北京)科技有限公司 一种语音识别模型构建及语音识别方法、装置及存储介质
CN116013256B (zh) * 2022-12-19 2024-01-30 镁佳(北京)科技有限公司 一种语音识别模型构建及语音识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN112420050B (zh) 2021-06-18
WO2022105472A1 (zh) 2022-05-27
JP2022551678A (ja) 2022-12-13
JP7335569B2 (ja) 2023-08-30

Similar Documents

Publication Publication Date Title
CN111429889B (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
JP7436760B1 (ja) サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
CN113439301A (zh) 使用序列到序列映射在模拟数据与语音识别输出之间进行协调
CN112420050B (zh) 一种语音识别方法、装置和电子设备
US20160147740A1 (en) Adapting machine translation data using damaging channel model
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
US20220122622A1 (en) Cascaded Encoders for Simplified Streaming and Non-Streaming ASR
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
JPWO2007108500A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
US12014729B2 (en) Mixture model attention for flexible streaming and non-streaming automatic speech recognition
WO2022203698A1 (en) Efficient streaming non-recurrent on-device end-to-end model
Garg et al. Streaming On-Device End-to-End ASR System for Privacy-Sensitive Voice-Typing.
KR20240070689A (ko) 콘포머에 대한 추론 성능의 최적화
US20240203409A1 (en) Multilingual Re-Scoring Models for Automatic Speech Recognition
WO2024129789A1 (en) Semi-supervised training scheme for speech recognition
CN114512121A (zh) 语音合成方法、模型训练方法及装置
CN113505612B (zh) 多人对话语音实时翻译方法、装置、设备及存储介质
Kim et al. Comparative Analysis of Speech Recognition Open API Error Rate
Deng et al. Recent Progress of Mandrain Spontaneous Speech Recognition on Mandrain Conversation Dialogue Corpus
Effendi et al. Weakly-Supervised Speech-to-Text Mapping with Visually Connected Non-Parallel Speech-Text Data Using Cyclic Partially-Aligned Transformer.
CN118262724A (zh) 多模态语音模型的拒识训练方法、系统、设备及存储介质
CN118339608A (zh) 实施为rnn-t的自动语音识别系统中的声学表示和文本表示的融合
KR20240068755A (ko) 비-자기회귀 디코딩에 의한 스트리밍 rnn-변환기의 심의

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant