CN113160801B - 语音识别方法、装置以及计算机可读存储介质 - Google Patents

语音识别方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN113160801B
CN113160801B CN202110262297.9A CN202110262297A CN113160801B CN 113160801 B CN113160801 B CN 113160801B CN 202110262297 A CN202110262297 A CN 202110262297A CN 113160801 B CN113160801 B CN 113160801B
Authority
CN
China
Prior art keywords
voice
voice sample
initial
speech
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110262297.9A
Other languages
English (en)
Other versions
CN113160801A (zh
Inventor
王金超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuncong Technology Group Co Ltd
Original Assignee
Yuncong Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuncong Technology Group Co Ltd filed Critical Yuncong Technology Group Co Ltd
Priority to CN202110262297.9A priority Critical patent/CN113160801B/zh
Publication of CN113160801A publication Critical patent/CN113160801A/zh
Application granted granted Critical
Publication of CN113160801B publication Critical patent/CN113160801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音处理技术领域,具体提供了一种语音识别方法、装置以及计算机可读存储介质,旨在解决如何准确与高效地进行语音识别的技术问题。为此目的,根据本发明实施例的方法,可以采用知识蒸馏算法使训练好的多个第一语音识别模型指导第二语音识别模型进行模型训练,使训练好的第二语音识别模型无论是对输入语音的音素识别能力还是解码能力都接近于多个第一语音识别模型的音素识别与解码能力,从而只需在计算机设备上运行一个第二语音识别模型就可以达到并行运行多个第一语音识别模型的语音识别效果,因而显著提高了语音识别的效率与准确性。

Description

语音识别方法、装置以及计算机可读存储介质
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音识别方法、装置以及计算机可读存储介质。
背景技术
语音识别指的是对语音信号进行语义分析,以获取语音信号中包含的文本信息,例如将语音信号转换为中文文本信息。目前常规的语音识别方法主要是采用训练样本对语音识别模型进行训练,以使训练好的语音识别模型具备语音识别的能力,进而可以利用训练好的语音识别模型对待识别语音进行语音识别。目前除了可以采用单一的语音识别模型进行语音识别,也可以同时采用多个语音识别模型分别进行语音识别,再根据每个语音识别结果进行综合分析确定最终的识别结果,以提高语音识别的准确性。然而,在实际应用中,由于设备配置与成本的限制,搭载语音识别模型的计算机设备往往无法并行运行多个语音识别模型。如果采用串行处理的方式依次运行每个语音识别模型,再根据每个语音识别结果进行综合分析确定最终的识别结果,将会极大影响语音识别的速度。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何准确与高效地进行语音识别的技术问题的语音识别方法、装置以及计算机可读存储介质。
第一方面,提供一种语音识别方法,所述方法包括:
使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个所述初始的语音识别模型分别得到的每个所述语音样本的初始HCLG解码图;
针对每个所述语音样本,对每个所述语音样本对应的多个所述初始HCLG解码图进行融合,以获取每个所述语音样本各自对应的融合后的HCLG解码图;
采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的HCLG解码图指导第二语音识别模型使用所述语音样本进行模型训练,得到最终的语音识别模型;
采用所述最终的语音识别模型对待识别语音信号进行语音识别。
在上述语音识别方法的一个技术方案中,“采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的HCLG解码图指导第二语音识别模型使用所述语音样本进行模型训练”的步骤具体包括:
采用知识蒸馏算法并且按照下式所示的知识蒸馏目标函数L对所述第二语音识别模型进行模型训练:
L=λ×L1+(1-λ)×L2
其中,所述L1表示利用所述融合后的HCLG解码图对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第一知识蒸馏函数,所述L2表示利用所述音素识别结果对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第二知识蒸馏函数;所述λ表示预设的函数权重。
在上述语音识别方法的一个技术方案中,所述第一知识蒸馏函数L1如下式所示:
其中,所述X表示语音样本,所述W是所述语音样本X的样本标签中的信息,所述W表示语音样本X对应的正确的单词序列,所述P(X|W)表示在所述单词序列W下出现所述语音样本X的概率,所述P(W)表示所述单词序列W出现的概率;
所述W′i表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的第i个单词序列,i=1…n,所述n表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的单词序列的总数;所述P(X|W′i)表示在所述单词序列W′i下出现所述语音样本X的概率,所述P(W′i)表示所述单词序列W′i出现的概率;
并且/或者,所述第二知识蒸馏函数L2如下式所示:
其中,所述Xi表示第j个语音样本,所述N表示语音样本的总数,所述表示对利用每个所述初始的语音识别模型得到的语音样本Xi的音素识别结果进行加权计算得到的音素加权结果,所述/>表示所述第二语音识别模型对所述语音样本Xi进行训练时得到的所述语音样本Xi的音素识别结果。
在上述语音识别方法的一个技术方案中,“获取每个所述语音样本各自对应的融合后的HCLG解码图”的步骤具体包括:
获取当前语音样本对应的每个初始HCLG解码图;
对所述当前语音样本的初始HCLG解码图进行合并和/或组合和/或确定化操作,以获取所述当前语音样本对应的融合后的HCLG解码图;
或者,“获取每个所述语音样本各自对应的融合后的HCLG解码图”的步骤具体包括:
获取当前语音样本对应的每个初始HCLG解码图;
采用最小贝叶斯风险解码方法,从所述当前语音样本的初始HCLG解码图中获取一个或多个最优单词序列的解码路径;
根据所述最优单词序列的解码路径构建所述当前语音样本对应的融合后的HCLG解码图。
在上述语音识别方法的一个技术方案中,所述方法还包括通过下列步骤获取语音样本:
获取初始的语音样本;
对所述初始的语音样本进行数据增强处理,以获取最终的语音样本;
其中,所述数据增强处理包括在所述初始的语音样本上加入对所述初始的语音样本进行去噪后得到的音频数据。
第二方面,提供一种语音识别装置,所述装置包括:
第一模型训练模块,其被配置成使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个所述初始的语音识别模型分别得到的每个所述语音样本的初始HCLG解码图;
数据获取模块,其被配置成针对每个所述语音样本,对每个所述语音样本对应的多个所述初始HCLG解码图进行融合,以获取每个所述语音样本各自对应的融合后的HCLG解码图;
第二模型训练模块,其被配置成采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的HCLG解码图指导第二语音识别模型使用所述语音样本进行模型训练,得到最终的语音识别模型;
语音识别模块,其被配置成采用所述最终的语音识别模型对待识别语音信号进行语音识别。
在上述语音识别装置的一个技术方案中,所述第二模型训练模块被进一步配置成采用知识蒸馏算法并且按照下式所示的知识蒸馏目标函数L对所述第二语音识别模型进行模型训练:
L=λ×L1+(1-λ)×L2
其中,所述L1表示利用所述融合后的HCLG解码图对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第一知识蒸馏函数,所述L2表示利用所述音素识别结果对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第二知识蒸馏函数;所述λ表示预设的函数权重。
在上述语音识别装置的一个技术方案中,所述第一知识蒸馏函数L1如下式所示:
其中,所述X表示语音样本,所述W是所述语音样本X的样本标签中的信息,所述W表示语音样本X对应的正确的单词序列,所述P(X|W)表示在所述单词序列W下出现所述语音样本X的概率,所述P(W)表示所述单词序列W出现的概率;
所述W′i表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的第i个单词序列,i=1…n,所述n表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的单词序列的总数;所述P(X|W′i)表示在所述单词序列W′i下出现所述语音样本X的概率,所述P(W′i)表示所述单词序列W′i出现的概率;
并且/或者,所述第二知识蒸馏函数L2如下式所示:
其中,所述Xi表示第j个语音样本,所述N表示语音样本的总数,所述表示对利用每个所述初始的语音识别模型得到的语音样本Xi的音素识别结果进行加权计算得到的音素加权结果,所述/>表示所述第二语音识别模型对所述语音样本Xi进行训练时得到的所述语音样本Xi的音素识别结果。
在上述语音识别装置的一个技术方案中,所述数据获取模块包括第一数据获取单元和/或第二数据获取单元;
所述第一数据获取单元被配置成执行下列操作:
获取当前语音样本对应的每个初始HCLG解码图;
对所述当前语音样本的初始HCLG解码图进行合并和/或组合和/或确定化操作,以获取所述当前语音样本对应的融合后的HCLG解码图;
所述第二数据获取单元被配置成执行下列操作:
获取当前语音样本对应的每个初始HCLG解码图;
采用最小贝叶斯风险解码方法,从所述当前语音样本的初始HCLG解码图中获取一个或多个最优单词序列的解码路径;
根据所述最优单词序列的解码路径构建所述当前语音样本对应的融合后的HCLG解码图。
在上述语音识别装置的一个技术方案中,所述装置还包括语音样本获取模块,所述语音样本获取模块被配置成执行下列操作:
获取初始的语音样本;
对所述初始的语音样本进行数据增强处理,以获取最终的语音样本;
其中,所述数据增强处理包括在所述初始的语音样本上加入对所述初始的语音样本进行去噪后得到的音频数据。
第三方面,提供一种语音识别装置,该语音识别装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述语音识别方法的技术方案中任一项技术方案所述的语音识别方法。
第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述语音识别方法的技术方案中任一项技术方案所述的语音识别方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的技术方案中,可以先训练多个第一语音识别模型,再采用知识蒸馏算法使这几个第一语音识别模型指导第二语音识别模型进行模型训练,实现了从第一语音识别模型到第二语音识别模型的知识迁移,使第二语音识别模型同时具备这几个第一语音识别模型的语音识别能力,从而只需在计算机设备上运行第二语音识别模型就可以达到并行运行多个第一语音识别模型的语音识别效果,极大地提高了语音识别的效率与准确性。
进一步,在实施本发明的技术方案中,通过使用每个初始的语音识别模型(训练好的第一语音识别模型)获取到的语音样本的音素识别结果指导第二语音识别模型使用语音样本进行模型训练,可以使第二语音识别模型对输入语音识别到的音素结果更加接近于初始的语音识别模型得到的音素识别结果,换言之,使第二语音识别模型的音素识别能力接近于初始的语音识别模型的音素识别能力。此外,可以获取经每个初始的语音识别模型分别得到的每个语音样本的初始HCLG解码图,并且针对每个语音样本,对每个语音样本对应的多个初始HCLG解码图进行融合,以获取每个语音样本各自对应的融合后的HCLG解码图,然后使用融合后的HCLG解码图指导第二语音识别模型使用语音样本进行模型训练,从而可以使第二语音识别模型对输入语音解码得到解码图更加接近于初始的语音识别模型得到的解码图,换言之,使第二语音识别模型的解码能力接近于初始的语音识别模型的解码能力。
附图说明
下面参照附图来描述本发明的具体实施方式,附图中:
图1是根据本发明的一个实施例的语音识别方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的HCLG解码图融合方法的主要步骤流程示意图;
图3是根据本发明的一个实施例的语音识别装置的主要结构框图。
附图标记列表:
11:第一模型训练模块;12:数据获取模块;13:第二模型训练模块;14:语音识别模块。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
这里先解释本发明涉及到的一些术语。
HCLG解码图指的是利用加权有限状态转换器WFST(Weighted Finite-StateTransducer)表征实现的一种语音识别解码图。HCLG解码图中的H表示基于HMM(HiddenMarkov Model,隐马尔可夫模型)构建的声学模型中HMM层级的FST,HCLG解码图中的C表示Context层级的FST,HCLG解码图中的L表示Lexicon层级的FST,HCLG解码图中的G表示Grammar层级的FST。H的输入是HMM状态(state),H的输出为三音素(triphone),H的权重为HMM的转移概率。C的输入为三音素,C的输出为单音素。L的输入为音素,L的输出为单词,L的权重为发音概率。G的输入为单词,G的输出为单词,G的权重为语音模型输出的单词序列出现的概率。HCLG解码图的输入为HMM状态,HCLG解码图的输出为单词序列。
在利用语音识别模型对输入语音进行识别时,针对每个语音都可以生成一个相应的HCLG解码图,HCLG解码图至少包含一个解码路径,每个解码路径分别对应一个单词序列。当HCLG解码图包含多个解码路径时,可以计算对解码路径中每个节点的概率权重进行加权计算,得到每个解码路径的加权值,然后选取加权值最大的解码路径作为最终的解码路径,该最终的解码路径所对应的单词序列就是输入语音对应的文本信息。需要说明的是,HCLG解码图的生成方法和解码方法均是语音识别(Automatic Speech Recognition,ASR)技术领域中的常规手段,为了描述简洁,在此不再对HCLG解码图的生成和解码方法进行赘述。
知识蒸馏算法(Knowledge distillation algorithm)是机器学习技术领域中一种常规的机器学习算法,该算法通过构建教师模型-学生模型框架,由教师模型指导学生模型的训练,将模型结构复杂、参数量大的教师模型所学到的关于特征表示的“知识”蒸馏出来,将这些“知识”迁移到模型结构简单、参数量少,学习能力弱的学生模型中。
参阅附图1,图1是根据本发明的一个实施例的语音识别方法的主要步骤流程示意图。如图1所示,本发明实施例中的语音识别方法主要包括下列步骤S101-步骤S104。
步骤S101:使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个初始的语音识别模型分别得到的每个语音样本的初始HCLG解码图。
第一语音识别模型指的是基于神经网络技术领域中常规的神经网络结构构建的用于识别语音信息的模型,在本实施例中每个第一语音识别模型采用的神经网络结构并不相同,但是每个第一语音识别模型均包括声学模型(Acoustic Model,AM)、发音词典、语言模型(Language Model,LM)和解码器这几个常规的语音识别模型的建模结构。其中,声学模型能够根据输入语音的声学特征,获取输入语音的音素。发音词典能够给出每个单词序列对应的音素序列。语言模型能够得到一个单词序列出现的概率。一个例子:如果单词序列a是“今天天气不错”,单词序列b是“错不天天今气”,那么单词序列a出现的概率必然是大于单词序列b出现的概率,而每个单词序列出现的概率都可以由语言模型得到。解码器能够根据声学模型、发音词典和语言模型输出的信息构建HCLG解码图并通过对HCLG解码图解码得到输入语音对应的单词序列,即获取到输入语音的语义文本。
语音样本指的是用于对语音识别模型进行网络训练所使用的语音信息,语音样本的样本标签可以包括语音样本对应的正确的单词序列。通过使用语音样本及其样本标签对第一语音识别模型进行模型训练,可以使第一语音识别模型学习到对语音进行语义识别并将识别结果转换成文本信息的能力。在训练完成后,可以将一段待识别的语音信号输入到已经训练好的第一语音识别模型,该模型可以准确识别这段语音信号所表达的含义(语义)并将识别结果通过文本的形式输出。例如:将用户录入的语义为“今天天气不错”的音频输入到第一语音识别模型,第一语音识别模型可以准确输出“今天天气不错”的中文文本信息。
在本发明实施例的一个实施方式中,可以通过下列步骤11-步骤12获取语音样本。步骤11:获取初始的语音样本。步骤12:对初始的语音样本进行数据增强处理,以获取最终的语音样本。在本实施方式中数据增强处理包括但不限于:在初始的语音样本上加入不同信噪比的噪声信号,在初始的语音样本上加入混响,调整初始的语音样本的音频频率,在初始的语音样本上加入对初始的语音样本进行去噪后得到的音频数据。通过对初始的语音样本进行上述数据增强处理,可以提高语音识别模型对输入语音进行识别时抗干扰能力。例如:如果对输入语音进行去噪后再进行语音识别,由于去噪可能会损坏输入语音的音频数据,进而导致后续得到的语音识别结果的准确性降低。对此,在进行模型训练时,就可以在初始的语音样本(未去噪)上加入对初始的语音样本进行去噪后得到的音频数据,利用这个音频数据模拟去噪带来的损害,进而提高语音识别模型对去噪后的输入语音的语音识别准确性。
需要说明的是,在本实施例中可以采用机器学习技术领域中常规的模型训练方法分别对每个第一语音识别模型进行模型训练。为了描述简洁,在此不再对模型训练方法的具体过程进行赘述。
初始HCLG解码图指的是,利用初始的语音识别模型对语音样本进行解码得到的HCLG解码图,其中,HCLG解码图的具体含义可参见前述术语解释。一个例子:假设有2个初始的语音识别模型A和B以及5个语音样本,那么每个语音样本的初始HCLG解码图可以如下表1所示。其中,“初始HCLG解码图1A”表示利用初始的语音识别模型A对语音样本1进行解码得到的初始HCLG解码图,“初始HCLG解码图1B”表示利用初始的语音识别模型B对语音样本1进行解码得到的初始HCLG解码图,其他解码图含义与此类似,不再赘述。
表1
步骤S102:针对每个语音样本,对每个语音样本对应的多个初始HCLG解码图进行融合,以获取每个语音样本各自对应的融合后的HCLG解码图。
根据前述描述可知,初始HCLG解码图都可以包含一个或多个解码路径,那么将针对同一个语音样本得到的不同的初始HCLG解码图进行融合,可以使这个融合后的HCLG解码图中包含每个初始HCLG解码图中的解码路径。具体而言,在本发明实施例的一个实施方式中,可以通过下列步骤21-步骤22获取每个语音样本各自对应的融合后的HCLG解码图:步骤21:获取当前语音样本对应的每个初始HCLG解码图。步骤22:对当前语音样本的初始HCLG解码图进行合并和/或组合和/或确定化操作,以获取当前语音样本对应的融合后的HCLG解码图。需要说明的是,上述合并、组合(Composition)和确定化(Determinization)操作均是HCLG解码图的生成方法中的常规操作,本实施方式复用HCLG解码图的生成方法中的这些操作,将不同的HCLG解码图融合为一个HCLG解码图。
进一步,本领域技术人员能够理解的是,虽然HCLG解码图可以包含多个解码路径,但并不表示每个解码路径都是正确的解码路径,即每个解码路径得到的单词序列与输入语音的真实语义不一定相同。因此,如果每个初始HCLG解码图都包括多个解码路径,那么采用合并和/或组合和/或确定化操作等对初始HCLG解码图进行融合,会导致融合后的HCLG解码图中包含数量更多的解码路径,这将为寻找正确的解码路径带来大量干扰。对此,为了降低非正确解码路径带来的干扰,可以从这些初始HCLG解码图获取一个或多个最优解码路径,利用这些最优解码路径重新构建HCLG解码图,该重新构建的HCLG解码图可以作为融合后的HCLG解码图。具体而言,参阅附图2,在本发明实施例的另一个实施方式中,可以通过下列步骤S201-步骤S203获取每个语音样本各自对应的融合后的HCLG解码图:步骤S201:获取当前语音样本对应的每个初始HCLG解码图。步骤S202:采用最小贝叶斯风险解码方法,从当前语音样本的初始HCLG解码图中获取一个或多个最优单词序列的解码路径。本实施方式可以采用学术期刊“Computer Speech&Language”的第2011期记载的文献“Minimum Bayes RiskDecoding and System Combination Based on a Recursion for Edit Distance”公开的最小贝叶斯风险解码方法针对每个语音样本,分别从每个语音样本的初始HCLG解码图中获取一个或多个最优单词序列的解码路径。为了描述简洁,在此不再对上述最小贝叶斯风险解码方法的具体解码过程进行赘述。步骤S203:根据最优单词序列的解码路径构建当前语音样本对应的融合后的HCLG解码图。在本实施方式中同样可以对最优单词序列的解码路径进行合并和/或组合和/或确定化操作,以构建融合后的HCLG解码图。
步骤S103:采用知识蒸馏算法,同时使用每个初始的语音识别模型获取到的语音样本的音素识别结果以及融合后的HCLG解码图指导第二语音识别模型使用语音样本进行模型训练,得到最终的语音识别模型。
第二语音识别模型指的是基于神经网络技术领域中常规的神经网络结构如轻量级神经网络结构构建的用于识别语音信息的模型,与第一语音识别模型类似的是,第二语音识别模型也包括声学模型(Acoustic Model,AM)、发音词典、语言模型(Language Model,LM)和解码器这几个常规的语音识别模型的建模结构,这几个建模结构的含义与步骤S101中描述的含义类似,为了描述简洁,在此不再赘述。
在本发明实施例中,通过使用每个初始的语音识别模型获取到的语音样本的音素识别结果指导第二语音识别模型使用语音样本进行模型训练,可以使第二语音识别模型对输入语音识别到的音素结果更加接近于初始的语音识别模型得到的音素识别结果,也即使第二语音识别模型的音素识别能力接近于初始的语音识别模型的音素识别能力。通过使用融合后的HCLG解码图指导第二语音识别模型使用语音样本进行模型训练,可以使第二语音识别模型对输入语音解码得到解码图更加接近于初始的语音识别模型得到的解码图,也即使第二语音识别模型的解码能力接近于初始的语音识别模型的解码能力。具体而言,在本发明实施例中可以采用知识蒸馏算法并且按照下式(1)所示的知识蒸馏目标函数L对第二语音识别模型进行模型训练:
L=λ×L1+(1-λ)×L2 (1)
公式(1)中各参数含义如下:
L1表示利用融合后的HCLG解码图对第二语音识别模型使用语音样本进行训练指导学习时确定的第一知识蒸馏函数,L2表示利用音素识别结果对第二语音识别模型使用语音样本进行训练指导学习时确定的第二知识蒸馏函数;λ表示预设的函数权重。需要说明的是,本领域技术人员可以根据实际需求灵活设置函数权重λ的具体数值。例如,如果侧重于训练第二语音识别模型的解码能力,可以将函数权重λ设置为一个较大的值,例如将函数权重λ设置为大于0.5的数值。如果需要使第二语音识别模型同时具备较好的解码能力和音素识别能力,可以将函数权重λ设置为0.5。
1、第一知识蒸馏函数L1
第一知识蒸馏函数L1如下式(2)所示:
公式(2)中各参数含义如下:
X表示语音样本,W是语音样本X的样本标签中的信息,W表示语音样本X对应的正确的单词序列;P(X|W)表示在单词序列W下出现语音样本X的概率,P(W)表示单词序列W出现的概率。W′i表示利用语音样本X对应的融合后的HCLG解码图中解码得到的第i个单词序列,i=1…n,n表示利用语音样本X对应的融合后的HCLG解码图中解码得到的单词序列的总数;P(X|W′i)表示在单词序列W′i下出现语音样本X的概率,P(W′i)表示单词序列W′i出现的概率。
需要说明的是,P(X|W)和P(X|W′i)均是第二语音识别模型中声学模型输出的结果,P(W)和P(W′i)是第二语音识别模型中语言模型输出的结果。
2、第二知识蒸馏函数L2
第二知识蒸馏函数L2可以采用机器学习技术领域中常规的交叉熵函数。一个实施方式中,第二知识蒸馏函数L2的解析形式可以如下式(3)所示:
公式(3)中各参数含义如下:
N表示语音样本X的总数,y表示对利用每个初始的语音识别模型得到的语音样本X的音素识别结果进行加权计算得到的音素加权结果,a表示第二语音识别模型对语音样本X进行训练时得到的语音样本X的音素识别结果。在本实施方式中将音素加权结果作为软标签,通过减小第二语音识别模型输出的音素识别结果与软标签的偏差,使得第二语音识别模型的音素识别结果更加接近于初始的语音识别模型得到音素识别结果,即提高第二语音识别模型的音素识别能力。为了进一步清晰地表达第二知识蒸馏函数L2的计算原理,可以将公式(3)变形为下式(4)所示的解析形式。
公式(4)中各参数含义如下:
Xi表示第j个语音样本,N表示语音样本的总数,表示对利用每个初始的语音识别模型得到的语音样本Xi的音素识别结果进行加权计算得到的音素加权结果,/>表示第二语音识别模型对语音样本Xi进行训练时得到的语音样本Xi的音素识别结果。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
进一步,本发明还提供了一种语音识别装置。
参阅附图3,图3是根据本发明的一个实施例的语音识别装置的主要结构框图。如图3所示,本发明实施例中的语音识别装置主要包括第一模型训练模块、数据获取模块、第二模型训练模块和语音识别模块。在一些实施例中,第一模型训练模块、数据获取模块、第二模型训练模块和语音识别模块中的一个或多个可以合并在一起成为一个模块。在一些实施例中,第一模型训练模块可以被配置成使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个初始的语音识别模型分别得到的每个语音样本的初始HCLG解码图。数据获取模块可以被配置成针对每个语音样本,对每个语音样本对应的多个初始HCLG解码图进行融合,以获取每个语音样本各自对应的融合后的HCLG解码图。第二模型训练模块可以被配置成采用知识蒸馏算法,同时使用每个初始的语音识别模型获取到的语音样本的音素识别结果以及融合后的HCLG解码图指导第二语音识别模型使用语音样本进行模型训练,得到最终的语音识别模型。语音识别模块可以被配置成采用最终的语音识别模型对待识别语音信号进行语音识别。一个实施方式中,具体实现功能的描述可以参见步骤S101-步骤S104所述。
在一个实施方式中,第二模型训练模块可以被进一步配置成采用知识蒸馏算法并且按照公式(1)所示的知识蒸馏目标函数L对第二语音识别模型进行模型训练。一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
在一个实施方式中,数据获取模块可以包括第一数据获取单元和/或第二数据获取单元。在本实施方式中,第一数据获取单元可以被配置成执行下列操作:获取当前语音样本对应的每个初始HCLG解码图;对当前语音样本的初始HCLG解码图进行合并和/或组合和/或确定化操作,以获取当前语音样本对应的融合后的HCLG解码图。第二数据获取单元可以被配置成执行下列操作:获取当前语音样本对应的每个初始HCLG解码图;采用最小贝叶斯风险解码方法,从当前语音样本的初始HCLG解码图中获取一个或多个最优单词序列的解码路径;根据最优单词序列的解码路径构建当前语音样本对应的融合后的HCLG解码图。一个实施方式中,具体实现功能的描述可以参见步骤S102所述。
在一个实施方式中,语音识别装置还可以包括语音样本获取模块。在本实施方式中,语音样本获取模块可以被配置成执行下列操作:获取初始的语音样本;对初始的语音样本进行数据增强处理,以获取最终的语音样本;其中,数据增强处理可以包括在初始的语音样本上加入对初始的语音样本进行去噪后得到的音频数据。一个实施方式中,具体实现功能的描述可以参见步骤S101所述。
上述语音识别装置以用于执行图1-2所示的语音识别方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,语音识别装置的具体工作过程及有关说明,可以参考语音识别方法的实施例所描述的内容,此处不再赘述。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种语音识别装置。在根据本发明的一个语音识别装置实施例中,语音识别装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的语音识别方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的语音识别方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该语音识别装置可以是包括各种电子设备形成的控制装置设备。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的语音识别方法的程序,该程序可以由处理器加载并运行以实现上述语音识别方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种语音识别方法,其特征在于,所述方法包括:
使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个所述初始的语音识别模型分别得到的每个所述语音样本的初始HCLG解码图;
针对每个所述语音样本,对每个所述语音样本对应的多个所述初始HCLG解码图进行融合,以获取每个所述语音样本各自对应的融合后的HCLG解码图;
采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的HCLG解码图指导第二语音识别模型使用所述语音样本进行模型训练,得到最终的语音识别模型;
采用所述最终的语音识别模型对待识别语音信号进行语音识别;
其中,
所述采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的HCLG解码图指导第二语音识别模型使用所述语音样本进行模型训练,包括:
采用知识蒸馏算法并且按照下式所示的知识蒸馏目标函数L对所述第二语音识别模型进行模型训练:L=λ×L1+(1-λ)×L2,所述L1表示利用所述融合后的HCLG解码图对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第一知识蒸馏函数,所述L2表示利用所述音素识别结果对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第二知识蒸馏函数;所述λ表示预设的函数权重;
所述第一知识蒸馏函数L1如下式所示:
所述X表示语音样本,所述W表示语音样本X对应的正确的单词序列,所述P(X|W)表示在所述单词序列W下出现所述语音样本X的概率,所述P(W)表示所述单词序列W出现的概率;所述Wi′表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的第i个单词序列,i=1…n,所述n表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的单词序列的总数;所述P(X|Wi′)表示在所述单词序列Wi′下出现所述语音样本X的概率,所述P(Wi′)表示所述单词序列Wi′出现的概率;
所述第二知识蒸馏函数L2如下式所示:
所述Xi表示第j个语音样本,所述N表示语音样本的总数,所述表示对利用每个所述初始的语音识别模型得到的语音样本Xi的音素识别结果进行加权计算得到的音素加权结果,所述/>表示所述第二语音识别模型对所述语音样本Xi进行训练时得到的所述语音样本Xi的音素识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,获取每个所述语音样本各自对应的融合后的HCLG解码图的步骤具体包括:
获取当前语音样本对应的每个初始HCLG解码图;
对所述当前语音样本的初始HCLG解码图进行合并和/或组合和/或确定化操作,以获取所述当前语音样本对应的融合后的HCLG解码图;
或者,
获取每个所述语音样本各自对应的融合后的HCLG解码图的步骤具体包括:
获取当前语音样本对应的每个初始HCLG解码图;
采用最小贝叶斯风险解码方法,从所述当前语音样本的初始HCLG解码图中获取一个或多个最优单词序列的解码路径;
根据所述最优单词序列的解码路径构建所述当前语音样本对应的融合后的HCLG解码图。
3.根据权利要求1至2中任一项所述的语音识别方法,其特征在于,所述方法还包括通过下列步骤获取语音样本:
获取初始的语音样本;
对所述初始的语音样本进行数据增强处理,以获取最终的语音样本;
其中,所述数据增强处理包括在所述初始的语音样本上加入对所述初始的语音样本进行去噪后得到的音频数据。
4.一种语音识别装置,其特征在于,所述装置包括:
第一模型训练模块,其被配置成使用语音样本分别对多个第一语音识别模型进行模型训练,以获取多个初始的语音识别模型以及获取经每个所述初始的语音识别模型分别得到的每个所述语音样本的初始HCLG解码图;
数据获取模块,其被配置成针对每个所述语音样本,对每个所述语音样本对应的多个所述初始HCLG解码图进行融合,以获取每个所述语音样本各自对应的融合后的HCLG解码图;
第二模型训练模块,其被配置成采用知识蒸馏算法,同时使用每个所述初始的语音识别模型获取到的语音样本的音素识别结果以及所述融合后的HCLG解码图指导第二语音识别模型使用所述语音样本进行模型训练,得到最终的语音识别模型;
语音识别模块,其被配置成采用所述最终的语音识别模型对待识别语音信号进行语音识别;
其中,
所述第二模型训练模块被进一步配置成采用知识蒸馏算法并且按照下式所示的知识蒸馏目标函数L对所述第二语音识别模型进行模型训练:L=λ×L1+(1-λ)×L2,所述L1表示利用所述融合后的HCLG解码图对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第一知识蒸馏函数,所述L2表示利用所述音素识别结果对所述第二语音识别模型使用所述语音样本进行训练指导学习时确定的第二知识蒸馏函数;所述λ表示预设的函数权重;
所述第一知识蒸馏函数L1如下式所示:
所述X表示语音样本,所述W表示语音样本X对应的正确的单词序列,所述P(X|W)表示在所述单词序列W下出现所述语音样本X的概率,所述P(W)表示所述单词序列W出现的概率;所述Wi′表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的第i个单词序列,i=1…n,所述n表示利用所述语音样本X对应的融合后的HCLG解码图中解码得到的单词序列的总数;所述P(X|Wi′)表示在所述单词序列Wi′下出现所述语音样本X的概率,所述P(W′i)表示所述单词序列W′i出现的概率;
所述第二知识蒸馏函数L2如下式所示:
所述Xi表示第j个语音样本,所述N表示语音样本的总数,所述表示对利用每个所述初始的语音识别模型得到的语音样本Xi的音素识别结果进行加权计算得到的音素加权结果,所述/>表示所述第二语音识别模型对所述语音样本Xi进行训练时得到的所述语音样本Xi的音素识别结果。
5.根据权利要求4所述的语音识别装置,其特征在于,所述数据获取模块包括第一数据获取单元和/或第二数据获取单元;
所述第一数据获取单元被配置成执行下列操作:
获取当前语音样本对应的每个初始HCLG解码图;
对所述当前语音样本的初始HCLG解码图进行合并和/或组合和/或确定化操作,以获取所述当前语音样本对应的融合后的HCLG解码图;
所述第二数据获取单元被配置成执行下列操作:
获取当前语音样本对应的每个初始HCLG解码图;
采用最小贝叶斯风险解码方法,从所述当前语音样本的初始HCLG解码图中获取一个或多个最优单词序列的解码路径;
根据所述最优单词序列的解码路径构建所述当前语音样本对应的融合后的HCLG解码图。
6.根据权利要求4至5中任一项所述的语音识别装置,其特征在于,所述装置还包括语音样本获取模块,所述语音样本获取模块被配置成执行下列操作:
获取初始的语音样本;
对所述初始的语音样本进行数据增强处理,以获取最终的语音样本;
其中,所述数据增强处理包括在所述初始的语音样本上加入对所述初始的语音样本进行去噪后得到的音频数据。
7.一种语音识别装置,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至3中任一项所述的语音识别方法。
8.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至3中任一项所述的语音识别方法。
CN202110262297.9A 2021-03-10 2021-03-10 语音识别方法、装置以及计算机可读存储介质 Active CN113160801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110262297.9A CN113160801B (zh) 2021-03-10 2021-03-10 语音识别方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110262297.9A CN113160801B (zh) 2021-03-10 2021-03-10 语音识别方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113160801A CN113160801A (zh) 2021-07-23
CN113160801B true CN113160801B (zh) 2024-04-12

Family

ID=76886700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110262297.9A Active CN113160801B (zh) 2021-03-10 2021-03-10 语音识别方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113160801B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611296A (zh) * 2021-08-20 2021-11-05 天津讯飞极智科技有限公司 语音识别装置和拾音设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
JP2020038343A (ja) * 2018-08-30 2020-03-12 国立研究開発法人情報通信研究機構 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
CN111640425A (zh) * 2020-05-22 2020-09-08 北京百度网讯科技有限公司 一种模型训练和意图识别方法、装置、设备及存储介质
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统
CN112002308A (zh) * 2020-10-30 2020-11-27 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112466293A (zh) * 2020-11-13 2021-03-09 广州视源电子科技股份有限公司 解码图优化方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699697B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
JP2020038343A (ja) * 2018-08-30 2020-03-12 国立研究開発法人情報通信研究機構 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
CN111640425A (zh) * 2020-05-22 2020-09-08 北京百度网讯科技有限公司 一种模型训练和意图识别方法、装置、设备及存储介质
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统
CN112002308A (zh) * 2020-10-30 2020-11-27 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112466293A (zh) * 2020-11-13 2021-03-09 广州视源电子科技股份有限公司 解码图优化方法、装置及存储介质

Also Published As

Publication number Publication date
CN113160801A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN106683677B (zh) 语音识别方法及装置
CN110110062B (zh) 机器智能问答方法、装置与电子设备
US20180277099A1 (en) Method and device for processing speech based on artificial intelligence
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN107844481B (zh) 识别文本检错方法及装置
CN110689879A (zh) 端到端语音转写模型的训练方法、系统、装置
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及系统
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
CN110706692A (zh) 儿童语音识别模型的训练方法及系统
CN111798840B (zh) 语音关键词识别方法和装置
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN113781995A (zh) 语音合成方法、装置、电子设备及可读存储介质
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
JP2020042257A (ja) 音声認識方法及び装置
CN113782030B (zh) 基于多模态语音识别结果纠错方法及相关设备
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
Wu et al. Dual-mode nam: Effective top-k context injection for end-to-end asr
CN112530401B (zh) 一种语音合成方法、系统及装置
CN111462734B (zh) 语义槽填充模型训练方法及系统
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
CN113160855A (zh) 在线语音活性检测系统改进方法和装置
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant