CN107154260A - 一种领域自适应语音识别方法和装置 - Google Patents

一种领域自适应语音识别方法和装置 Download PDF

Info

Publication number
CN107154260A
CN107154260A CN201710232856.5A CN201710232856A CN107154260A CN 107154260 A CN107154260 A CN 107154260A CN 201710232856 A CN201710232856 A CN 201710232856A CN 107154260 A CN107154260 A CN 107154260A
Authority
CN
China
Prior art keywords
model
language
acoustic model
cluster
industry field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710232856.5A
Other languages
English (en)
Other versions
CN107154260B (zh
Inventor
郭祥
郭瑞
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rubu Technology Co.,Ltd.
Original Assignee
Beijing Intelligent Housekeeper Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Intelligent Housekeeper Technology Co Ltd filed Critical Beijing Intelligent Housekeeper Technology Co Ltd
Priority to CN201710232856.5A priority Critical patent/CN107154260B/zh
Publication of CN107154260A publication Critical patent/CN107154260A/zh
Application granted granted Critical
Publication of CN107154260B publication Critical patent/CN107154260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

一种领域自适应语音识别方法和装置,该方法包括:基于初始音频语料进行训练,建立初始声学模型,以及基于初始文本语料进行训练,建立初始语言模型;进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型;基于初始语言模型和行业领域语言模型进行适配计算,建立混合语言模型;基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型;对初始声学模型和聚类声学模型进行融合,建立融合声学模型;接收输入的语音信号,基于融合声学模型和混合语言模型确定语音信号对应的词语序列。

Description

一种领域自适应语音识别方法和装置
技术领域
本公开涉及语音识别领域,特别涉及一种领域自适应语音识别方法和装置。
背景技术
语音识别是实现人工智能的基础,很多机器人、物联网、移动设备都采用语音作为交互入口。由于行业的多样化以及口语的多样化,语音识别需要的行业录音和标注数据相对较为缺乏,导致语音识别系统在应用于不同领域时识别准确率很低。现有的语音识别系统通常仅适用于某个特定领域或应用场景,例如仅适用于娱乐领域,或者仅适用于一般闲聊场景。当更换领域或应用场景时,需要重新选择音频数据,并基于重新选择的音频数据重新训练语音识别模型。这样的语音识别系统通常具有以下缺点:(1)效率低下,录制音频数据所需要的时间可达到几百至上千小时,效果迭代需要时间较长;(2)成本较高,录制的音频数据需要进行人工标注,人工标注消耗资金,且工时越长成本越高;(3)效果较差,重新录制的音频数据不一定完整覆盖全部音节,导致语音识别模型的识别效果较差。
发明内容
本发明的目的是提供一种领域自适应语音识别方法,该方法能够克服现有语音识别方法应用于不同领域时效率和准确率较低的问题。
相应的,本发明实施例还提供一种领域自适应语音识别装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种领域自适应语音识别方法,包括:
基于初始音频语料进行训练,建立初始声学模型,以及基于初始文本语料进行训练,建立初始语言模型;
进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型;
基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型;
基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型;
对所述初始声学模型和所述聚类声学模型进行融合,建立融合声学模型;
接收输入的语音信号,基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列。
优选地,所述初始语言模型是二元n-gram语言模型。
优选地,所述进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型包括:
搜集与所述行业领域相关的语料,从所述语料中提取句子文本和专有名词;
对所述专有名词进行分类整理,建立专有名词词表;
基于所述专有名词词表对所述句子文本进行专有名词标注和替换,得到包含专有名词词表标记词的句子文本;
以所述包含专有名词词表标记词的句子文本作为训练语料进行训练,建立行业领域语言模型。
优选地,所述基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型包括:
对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型。
优选地,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料和行业领域语料中都包含词语组合wi-1wi时,或者当初始文本语料中包含词语组合wi-1wi且行业领域语料中不包含词语组合wi-1wi时,按照以下公式(1)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)={XM*old_count(wi-1,wi)+YM*new_count(wi-1,wi)}/{XM*old_count(wi-1)+YM*new_count(wi-1)} (1)
其中,
XM=old_total_count/(old_total_count+new_total_count),
YM=new_total_count/(old_total_count+new_total_count),
其中,P_mix(wi|wi-1)表示所述混合语言模型对应的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,XM、YM分别表示针对所述初始语言模型和所述行业领域语言模型设置的加权系数,old_count(wi-1,wi)表示在所述初始文本语料中词语组合wi-1wi出现的次数,old_cout(wi-1)表示在所述初始文本语料中词语wi-1出现的次数,new_count(wi-1,wi)表示在所述行业领域语料中词语组合wi-1wi出现的次数,new_cout(wi-1)表示在所述行业领域语料中词语wi-1出现的次数,old_total_count表示所述初始文本语料中的总词数,new_total_count表示所述行业领域语料中的总词数。
优选地,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料中不包含词语组合wi-1wi且行业领域语料中包含词语组合wi-1wi时,按照以下公式(2)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)=P_new(wi|wi-1) (2)
其中,P_mix(wi|wi-1)表示所述混合语言模型对应的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,P_new(wi|wi-1)表示所述行业领域语言模型对应的条件概率。
优选地,所述基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型包括:
将所述专有名词词表中的专有名词的发音添加到所述专有名词词表中;
对所述专有名词的发音进行音素扩展;
针对音素扩展结果进行音素聚类;
基于音素聚类结果进行训练,建立聚类声学模型。
优选地,所述对所述初始声学模型和聚类声学模型进行融合,建立融合声学模型包括:
对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型。
优选地,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型和聚类声学模型中都包含状态转移A->B时,或者所述初始声学模型包含且所述聚类声学模型中不包含状态转移A->B时,按照以下公式(4)计算所述融合声学模型对应的转移概率:
P_ron(A->B)={XR*old_countR(A->B)+YR*new_countR(A->B)}/{XR*old_countR(A)+YR*new_countR(A)} (4)
其中,
XR=old_total_countR/(old_total_countR+new_total_countR),
YR=new_total_countR/(old_total_count R+new_total_countR),
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,XR、YR分别表示针对初始声学模型和聚类声学模型设置的加权系数,old_countR(A->B)表示在初始声学模型中A->B的转移频次,new_countR(A->B)表示在聚类声学模型中A->B的转移频次,old_countR(A)表示在所述初始音频语料中状态A出现的频次,new_countR(A)表示在所述音素聚类结果中状态A出现的频次,old_total_countR表示所述初始音频语料中的总状态数,new_total_countR表示所述音素聚类结果中的总状态数。
优选地,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型不包含且所述聚类声学模型中包含状态转移A->B时,按照以下公式(5)计算所述融合声学模型对应的转移概率:
P_ron(A->B)=P_newR(A->B) (5)
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,P_newR(A->B)表示所述聚类声学模型对应的转移概率。
优选地,所述基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列包括:
求取概率P(W|X)最高时的词语序列W;
其中:
P(W|X)=argmax_W P(X|W)*P(W)
其中,X表示所述语音信号,W表示所述词语序列,P(X|W)表示所述融合声学模型对应的条件概率,P(W)表示所述混合语言模型对应的概率。
本发明实施例还提供一种领域自适应语音识别装置,包括:
初始建模模块,用于基于初始音频语料进行训练,建立初始声学模型,以及用于基于初始文本语料进行训练,建立初始语言模型;
行业领域语言模型建模模块,用于进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型;
混合语言模型建模模块,用于基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型;
聚类声学模型建模模块,用于基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型;
融合声学模型建模模块,用于对所述初始声学模型和聚类声学模型进行融合,建立融合声学模型;
解码模块,用于接收输入的语音信号,基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列。
优选地,所述初始语言模型是二元n-gram语言模型。
优选地,所述进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型包括:
搜集与所述行业领域相关的语料,从所述语料中提取句子文本和专有名词;
对所述专有名词进行分类整理,建立专有名词词表;
基于所述专有名词词表对所述句子文本进行专有名词标注和替换,得到包含专有名词词表标记词的句子文本;
以所述包含专有名词词表标记词的句子文本作为训练语料进行训练,建立行业领域语言模型。
优选地,所述基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型包括:
对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型。
优选地,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料和行业领域语料中都包含词语组合wi-1wi时,或者当初始文本语料中包含词语组合wi-1wi且行业领域语料中不包含词语组合wi-1wi时,按照以下公式(1)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)={XM*old_count(wi-1,wi)+YM*new_count(wi-1,wi)}/{XM*old_count(wi-1)+YM*new_count(wi-1)} (1)
其中,
XM=old_total_count/(old_total_count+new_total_count),
YM=new_total_count/(old_total_count+new_total_count),
其中,P_mix(wi|wi-1)表示所述混合语言模型对应的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,XM、YM分别表示针对所述初始语言模型和所述行业领域语言模型设置的加权系数,old_count(wi-1,wi)表示在所述初始文本语料中词语组合wi-1wi出现的次数,old_cout(wi-1)表示在所述初始文本语料中词语wi-1出现的次数,new_count(wi-1,wi)表示在所述行业领域语料中词语组合wi-1wi出现的次数,new_cout(wi-1)表示在所述行业领域语料中词语wi-1出现的次数,old_total_count表示所述初始文本语料中的总词数,new_total_count表示所述行业领域语料中的总词数。
优选地,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料中不包含词语组合wi-1wi且行业领域语料中包含词语组合wi-1wi时,按照以下公式(2)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)=P_new(wi|wi-1) (2)
其中,P_mix(wi|wi-1)表示所述混合语言模型对应的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,P_new(wi|wi-1)表示所述行业领域语言模型对应的条件概率。
优选地,所述基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型包括:
将所述专有名词词表中的专有名词的发音添加到所述专有名词词表中;
对所述专有名词的发音进行音素扩展;
针对音素扩展结果进行音素聚类;
基于音素聚类结果进行训练,建立聚类声学模型。
优选地,所述对所述初始声学模型和聚类声学模型进行融合,建立融合声学模型包括:
对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型。
优选地,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型和聚类声学模型中都包含状态转移A->B时,或者所述初始声学模型包含且所述聚类声学模型中不包含状态转移A->B时,按照以下公式(4)计算所述融合声学模型对应的转移概率:
P_ron(A->B)={XR*old_countR(A->B)+YR*new_countR(A->B)}/{XR*old_countR(A)+YR*new_countR(A)} (4)
其中,
XR=old_total_countR/(old_total_countR+new_total_countR),
YR=new_total_countR/(old_total_count R+new_total_countR),
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,XR、YR分别表示针对初始声学模型和聚类声学模型设置的加权系数,old_countR(A->B)表示在初始声学模型中A->B的转移频次,new_countR(A->B)表示在聚类声学模型中A->B的转移频次,old_countR(A)表示在所述初始音频语料中状态A出现的频次,new_countR(A)表示在所述音素聚类结果中状态A出现的频次,old_total_countR表示所述初始音频语料中的总状态数,new_total_countR表示所述音素聚类结果中的总状态数。
优选地,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型不包含且所述聚类声学模型中包含状态转移A->B时,按照以下公式(5)计算所述融合声学模型对应的转移概率:
P_ron(A->B)=P_newR(A->B) (5)
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,P_newR(A->B)表示所述聚类声学模型对应的转移概率。
优选地,所述基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列包括:
求取概率P(W|X)最高时的词语序列W;
其中:
P(W|X)=argmax_W P(X|W)*P(W)
其中,X表示所述语音信号,W表示所述词语序列,P(X|W)表示所述融合声学模型对应的条件概率,P(W)表示所述混合语言模型对应的概率。
与现有技术相比,本发明实施例具有以下优点:
通过来自通用领域的初始语料和来自于特定行业领域的行业领域语料进行训练,分别建立适应于通用领域和行业领域的声学模型和语言模型,并对适应于不同领域的模型进行融合,从而实现能够适应于不同行业领域的语音识别方法。
使用少量行业领域数据,即可实现这些行业领域中的自适应语音识别,提高了语音识别方法在行业领域切换时的适应性和准确性,并能够达到实用标准。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1显示根据本发明实施例的领域自适应语音识别方法的流程图;
图2显示根据本发明实施例的音素聚类中选用的决策树模型的示意图;
图3显示根据本发明实施例的领域自适应语音识别装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1显示根据本发明实施例的领域自适应语音识别方法的流程图,如图1所示,该方法具体包括以下步骤:
步骤1:基于初始音频语料进行训练,建立初始声学模型,以及基于初始文本语料进行训练,建立初始语言模型
在执行实施例的领域自适应语音识别方法时,首先选择音频语料(也称初始音频语料),然后基于选择的音频语料进行训练,以建立初始声学模型。初始音频语料选自通用领域,通用领域指一般性的应用领域(例如日常生活领域),其是相对于专业的行业领域(例如化工行业、电子行业、金融行业等)而言。音频语料是音频数据文件,其包括音频信号。以下给出几个音频数据文件的示例:
声学模型是音频信号到文本形式的音素或音节的条件概率P(X|W),即给定文本形式的音素或音节W的条件下,发出音频信号X的概率。
在实施例中,选择训练语料之后,使用声学模型开源工具基于选择的训练语料进行训练,建立相应的声学模型。目前常用的声学模型开源工具包括htk、CMUsphinx、kaldi等。以kaldi为例,将音频数据文件(wav)、标注文件(data.map.txt)、音素词典(lexicon.txt)存储于指定位置,然后运行训练命令run.sh,即可得到二进制的声学模型文件final.mdl。
基于训练语料通过声学模型开源工具建立声学模型是本领域的现有技术,在此不再对其细节进行展开解释。
在步骤1中,还基于初始文本语料进行训练,建立初始语言模型。在此,语言模型指由多个词语组合而成的句子能够语言成句的概率。
句子(即词语序列)W可以表示为n个词语w1、w2…wn的组合,即:
W=w1w2…wn,其中w1-wn分别表示一个词语。
则句子W的语言成句概率P(W)可以表示为:
P(W)=P(w1w2...wn)
根据n-gram语言模型或者DNN(Deep Neural Network)模型,可以计算句子W的语言成句概率P(W)。在常用的n-gram模型中,认为第n个词的概率只依赖于前面n-1个词,而与其他任何词不相关。那么以n-gram模型的二元概率模型为例:
P(w1...wn)=P(w1)*P(w2|w1)*...*P(wn|wn-1)
其中,先验概率P(w1)可以通过以下公式计算得到:
P(w1)=conut(w1)/total_count
其中,conut(w1)表示词语w1在训练语料中出现的次数,total_count表示训练语料中的总词数。
条件概率P(wn|wn-1)可以通过以下公式计算得到:
P(wn|wn-1)=count(wn-1,wn)/count(wn-1)
其中,count(wn-1,wn)表示词语组合wn-1wn在训练语料中出现的次数,count(wn-1)表示词语wn-1在训练语料中出现的次数。
例如,选择的初始文本语料包括以下3个句子:
“把 声音 开 大 一点”
“声音 大 点”
“今天 几号 了”
则总词数total_conut为11
所计算的先验概率如下:
p(“把”)=count(“把”)/total_count=1/11
p(“声音”)=count(“声音”)/total_count=2/11
...
所计算的二元条件概率如下:
p(声音|把)=count(把声音)/count(把)=1/1=1
p(开|声音)=count(声音开)/count(声音)=1/2=0.5
...
步骤2:进行行业领域语料搜集和处理,并基于处理后的行业领域语料进行训练,得到行业领域语言模型
在实施例中,为使语音识别方法能够适应于特定的行业领域,通过以下步骤进行行业领域语料搜集和处理,并基于处理后的语料进行训练,得到行业领域语言模型:
步骤2.1搜集与行业领域相关的语料,从语料中提取句子文本和专有名词;
步骤2.2对专有名词进行分类整理,建立专有名词词表;
对提取的专有名词进行分类整理,从而建立专有名词词表。例如,可以通过人工方式对提取的专有名词进行分类整理,从而建立娱乐领域的人名词表,医疗领域的疾病名称词表等。
步骤2.3基于专有名词词表对句子文本进行专有名词标注和替换,以得到包含专有名词词表标记词的句子文本
基于获得的专有名词词表,使用模板匹配或序列标注算法,对提取的句子文本进行专有名词标注和替换,以得到包含专有名词词表标记词的句子文本。
对句子文本进行专有名词标注是指将句子文本中属于某个专有名词词表的词语用指示该专有名词词表的标记词进行标注。以模板匹配算法为例,使用模板“[人物]说相声”对于以下句子文本进行专有名词标注:
岳云鹏 说 相声
我 喜欢 听 相声
郭德纲 说 相声
标注结果为:
[岳云鹏/N_PER] 说 相声
[郭德纲/N_PER] 说 相声
其中,“岳云鹏”、“郭德纲”是关于娱乐领域人名的专有名词词表中列举的专有名词,“N_PER”是指示该专有名词词表的标记词。
然后,用上述标记词替换句子文本中被标注的专有名词,得到包含专有名词词表标记词的句子文本(也称为混合句子文本)。
例如,经过替换后,上述句子文本转换为:
N_PER 说 相声
我 喜欢 听 相声
N_PER 说 相声
步骤2.4以包含专有名词词表标记词的句子文本作为训练语料进行训练,建立行业领域语言模型
以步骤2.3获得的包含专有名词词表标记的句子文本作为训练语料进行训练,训练后得到行业领域语言模型,行业领域语言模型特别适用于该行业领域。例如,可以基于步骤2.3获得的混合句子文本,计算先验概率p(N_PER)、p(说),并计算条件概率p(说|N_NER)、p(相声|说)。
步骤3:基于初始语言模型和行业领域语言模型进行适配计算,建立混合语言模型
本步骤的目的是得到既能适用于通用领域、又能适用于特定行业领域的混合语言模型。
建立混合语言模型的方法有两种:第一种方法是数据混合方法,即将步骤1中的初始文本语料和步骤2中的混合句子文本混合起来作为训练语料,统一进行语言模型训练,从而得到混合语言模型。由于这样的训练语料既包括初始文本语料,又包括行业领域语料,因此经过训练之后的混合语言模型既能适用于通用领域、又能适用于行业领域。这种方法较容易理解,但并不是本发明的重点。
另一种方法是模型融合方法,即对步骤1的初始语言模型和步骤2的行业领域语言模型进行适配计算,从而建立混合语言模型。由于混合语言模型通过初始语言模型和行业领域语言模型的适配计算而获得,因此其既能适用于通用领域、又能适用于行业领域。
以下以n-gram语言模型为例,详细描述通过模型融合方法建立混合语言模型的过程,其是通过对初始语言模型和行业领域语言模型进行概率加权计算实现的。根据词语组合在不同语料中出现的情况,分别采用不同的概率加权算法计算混合语言模型对应的概率值,如下详述。
在步骤1中提到,对于n-gram模型,句子W的语言成句概率P(W)=P(w1)*P(w2|w1)*...*P(wn|wn-1)。对于其中的条件概率P(wi|wi-1),1<i≤n,在初始语言模型中,将其表示为:
P_old(wi|wi-1)=old_count(wi-1,wi)/old_cout(wi-1)
其中,P_old(wi|wi-1)表示初始语言模型中的条件概率,old_count(wi-1,wi)表示在初始文本语料中词语组合wi-1wi出现的次数,old_cout(wi-1)表示在初始文本语料中词语wi-1出现的次数。
在行业领域语言模型中,条件概率P(wi|wi-1)表示为:
P_new(wi|wi-1)=new_count(wi-1,wi)/new_count(wi-1)
其中,P_new(wi|wi-1)表示行业领域语言模型中的条件概率,new_count(wi-1,wi)表示在行业领域语料中词语组合wi-1wi出现的次数,new_cout(wi-1)表示在行业领域训练语料中词语wi-1出现的次数。
a.当初始文本语料和行业领域语料中都包含词语组合wi-1wi时,按照以下公式(1)进行初始语言模型和行业领域语言模型的概率加权计算,获得混合语言模型对应的条件概率:
P_mix(wi|wi-1)={XM*old_count(wi-1,wi)+YM*new_count(wi-1,wi)}/{XM*old_count(wi-1)+YM*new_count(wi-1)} (1)
其中,P_mix(wi|wi-1)表示混合语言模型对应的条件概率,XM、YM分别表示针对初始语言模型和行业领域语言模型设置的加权系数。
其中:
XM=old_total_count/(old_total_count+new_total_count),
YM=new_total_count/(old_total_count+new_total_count),
其中,old_total_count表示初始文本语料中的总词数,new_total_count表示行业领域语料中的总词数。
b.当初始文本语料不包含词语组合wi-1wi且行业领域语料包含词语组合wi-1wi时,按照以下公式(2)计算混合语言模型对应的条件概率:
P_mix(wi|wi-1)=P_new(wi|wi-1) (2)。
c.或者当初始文本语料中包含词语组合wi-1wi且行业领域语料中不包含词语组合wi-1wi时,按照以下公式(3)进行初始语言模型和行业领域语言模型的概率加权计算,获得混合语言模型对应的条件概率:
P_mix(wi|wi-1)={XM*old_count(wi-1,wi)+YM*new_count(wi-1,wi)}/{XM*old_count(wi-1)+YM*new_count(wi-1)} (3)
公式(3)的形式与公式(1)相同,在实际应用时也可以将这两种情况进行合并处理。
例如,如步骤1所述,初始文本语料包括以下3个句子:
“把 声音 开 大 一点”
“声音 大 点”
“今天 几号 了”
假设在步骤2中搜集的行业领域语料中包括以下3个句子:
“扁桃体 发炎 吃 什么 药”
“眼睛 睁 大 一点”
“肚子 不 舒服”
那么按照以下方法计算混合语言模型对应的条件概率:
a.对于初始文本语料和行业领域语料中都包含的词语组合“大一点”,通过统计可知:
old_count(大一点)=1,
new_count(大一点)=1,
old_count(大)=2,
new_count(大)=1,
old_total_count=11,
new_total_count=12,
XM=11/(11+12)=0.48,YM=12/(11+12)=0.52
则对于混合语言模型,按照公式(1)计算条件概率如下:
P_mix(一点|大)=(0.48*1+0.52*1)/(0.48*2+0.52*1)=0.68
b.对于初始文本语料中不包含且行业领域语料中包含的词语组合“扁桃体发炎”,对于混合语言模型,按照公式(2)计算条件概率如下:
p(发炎|扁桃体)=count(扁桃体发炎)/count(扁桃体)=1/1=1
c.对于初始文本语料中包含且行业领域语料中不包含的词语组合“大点”,对于混合语言模型,按照公式(3)计算条件概率如下:
p(点|大)=(XM*old_count(大点)+YM*new_count(大点))/(XM*old_count(大)+YM*new_count(大))=(0.48*1+0.52*0)/(0.48*2+0.52*1)=0.32
步骤4:基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型
步骤4具体包括以下步骤:
步骤4.1将专有名词词表中的专有名词的发音添加到该专有名词词表中。
在步骤2中,已经从行业领域语料中提取专有名词并建立专有名词词表。在本步骤中,将专有名词词表中的专有名词的发音添加到对应的词表中,以进行声学词汇扩展,其中专有名词的发音包括其音节和声调。例如,将疾病名称对应的专有名词词表中的专有名词的发音添加到该专有名词词表中:
扁桃体 bian3tao2ti3
发炎 fa1yan2
步骤4.2对专有名词的发音进行音素扩展。
将专有名词的发音进行音素扩展,以获得该发音所对应的音素。操作过程中,通常进行单音素和三音素的音素扩展,例如在步骤4.1的示例中,经过音素扩展后可以得到:
单音素有:b、ian3、t、ao2等等;
三音素有:b-ian3-t、ian3-t-ao2、ao2-t-i3等等。
如果使用声学模型开源工具进行声学模型的训练,可以将音素扩展所获得的音素添加到音素词典中,以在后续训练中使用。
步骤4.3针对音素扩展结果进行音素聚类。
对步骤4.2获得的音素扩展结果进行音素聚类,进行音素聚类的方法很多,例如可用决策树的方法对其进行聚类,即针对专有名词词表中的专有名词的发音对应音素的所有状态都建立一个决策树模型。如果之前建立了多个专有名词词表,那么分别针对所建立的每个专有名词词表,对其中的专有名词的发音对应的音素进行音素聚类。
图2显示了针对步骤4.1和4.2中的示例建立的决策树模型。对于三音素ian3-t-ao2和ao2-t-i3,根据决策树模型按照以下过程进行音素聚类:
-目标音素:t
-判断,左边是否韵母。
-是,走左支路。
-判断,右边是否韵母。
-是,走左支路。
得到结果簇A,即ian3-t-ao2和ao2-t-i3均可归为一个状态。
进行音素聚类的作用在于通过将同类音素归为一类,可以避免模型参数过多的问题,提高模型的训练效率。
目前还有其他进行音素聚类的方法,其属于现有技术,在此不再赘述。
步骤4.4基于音素聚类结果进行训练,建立聚类声学模型。
根据上步结果,将多个音素聚类为一个状态。基于音素聚类结果,应用步骤1的方法进行训练,可以建立聚类声学模型。
步骤5:对初始声学模型和聚类声学模型进行融合,建立融合声学模型。
与步骤3的过程类似,对初始声学模型和聚类声学模型进行融合,调整状态间的转移概率,得到融合声学模型。
在步骤1中提到,声学模型是音频信号到文本形式的音素或音节的条件概率P(X|W),即给定文本形式的音素或音节W的条件下,发出音频信号X的概率。一般可基于现有模型(例如隐马尔科夫模型),利用现有的声学模型开源工具训练获得声学模型。在常用的现有模型中,条件概率P(X|W)是通过发射概率和转移概率获得的。在本步骤中,通过对初始声学模型和聚类声学模型进行融合,调整状态间的转移概率,来获得融合声学模型输出的条件概率P(X|W)。在本方法中,并不对发射概率进行调整。这里所说的“状态”对应于一个音素或者步骤4中的多个音素的聚类。
具体来说,对于融合声学模型,按照以下方法计算状态间的转移概率:
a.对于初始声学模型和聚类声学模型中都包含的状态转移A->B(状态A转移到状态B),按照以下公式(4)计算状态间的转移概率:
P_ron(A->B)={XR*old_countR(A->B)+YR*new_countR(A->B)}/{XR*old_countR(A)+YR*new_countR(A)} (4)
其中,P_ron(A->B)表示融合声学模型对应的转移概率,XR、YR分别表示针对初始声学模型和聚类声学模型设置的加权系数,old_countR(A->B)表示在初始声学模型中A->B的转移频次,new_countR(A->B)表示在聚类声学模型中A->B的转移频次,old_countR(A)表示在初始音频语料中状态A出现的频次,new_countR(A)表示在音素聚类结果中状态A出现的频次。
在公式(4)中:
XR=old_total_countR/(old_total_countR+new_total_countR),
YR=new_total_countR/(old_total_count R+new_total_countR),
其中,old_total_countR表示初始音频语料中的总状态数,new_total_countR表示音素聚类结果中的总状态数。
b.对于初始声学模型不包含且聚类声学模型中包含的状态转移A->B(状态A转移到状态B),按照以下公式(5)计算状态间的转移概率:
P_ron(A->B)=P_newR(A->B) (5)
其中,P_newR(A->B)表示聚类声学模型中状态转移A->B所对应的转移概率。
c.对于初始声学模型包含且聚类声学模型中不包含的状态转移A->B(状态A转移到状态B),按照以下公式(6)计算融合声学模型对应的转移概率:
P_ron(A->B)={XR*old_countR(A->B)+YR*new_countR(A->B)}/{XR*old_countR(A)+YR*new_countR(A)} (6)
示例:
初始声学模型的状态间的转移频次如下:
聚类声学模型的状态间的转移频次如下
a.对于聚类声学模型和初始声学模型都包含的状态转移“1->A”,通过统计可知:
old_countR(1->A)=6,
new_countR(1->A)=1,
old_countR(1)=10,
new_countR(1)=3,
old_total_countR=11,
new_total_countR=5,
XR=11/(11+5)=0.69,YR=5/(11+5)=0.31
则计算融合声学模型所对应的转移概率如下:
P_newR(1->A)=(0.69*6+0.31*1)/(0.69*10+0.31*5)=0.53
b.对于初始声学模型中不包含但聚类声学模型中包含的状态转移“2->1”,计算融合声学模型对应的转移概率如下:
P_newR(2->1)=count_newR(2->1)/count_newR(2)=1/1=1
c.对于聚类声学模型中不包含但初始声学模型中包含的状态转移“1->B”,计算融合声学模型对应的转移概率如下:
P_newR(1->B)=XR*count_newR(1->B)/(XR*count_oldR(1)+YR*count_newR(1))=0.69*2/(0.69*10+0.31*3)=0.18
获得融合声学模型对应的转移概率之后,即可根据转移概率计算条件概率P(X|W),这是本领域的现有技术,在此不再赘述。
步骤6:接收输入的语音信号,基于融合声学模型和混合语言模型确定语音信号对应的词语序列
当接收到输入的语音信号X时,基于融合声学模型和混合语言模型进行求解,即求取概率P(W|X)最高时的词语序列W,该词语序列W就是语音信号X对应的词语序列,其中:
P(W|X)=argmax_W P(X|W)*P(W)
其中,P(X|W)表示融合声学模型对应的条件概率,在常用的语音识别模型(例如隐含马尔科夫模型)中对应解码算法中的发射概率,P(W)表示混合语言模型对应的概率,对应语音识别模型解码算法中的转移概率。使用现有的解码算法,例如维特比解码算法,即可求出概率P(W|X)最高时的词语序列W,即输入的语音信号X对应的词语序列。
本发明实施例还提供一种领域自适应语音识别装置,如图3所示,包括:
初始建模模块301,用于基于初始音频语料进行训练,建立初始声学模型,以及用于基于初始文本语料进行训练,建立初始语言模型;
行业领域语言模型建模模块302,用于进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型;
混合语言模型建模模块303,用于基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型;
聚类声学模型建模模块304,用于基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型;
融合声学模型建模模块305,用于对所述初始声学模型和聚类声学模型进行融合,建立融合声学模型;
解码模块306,用于接收输入的语音信号,基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列。
优选地,所述初始语言模型是二元n-gram语言模型。
优选地,所述进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型包括:
搜集与所述行业领域相关的语料,从所述语料中提取句子文本和专有名词;
对所述专有名词进行分类整理,建立专有名词词表;
基于所述专有名词词表对所述句子文本进行专有名词标注和替换,得到包含专有名词词表标记词的句子文本;
以所述包含专有名词词表标记词的句子文本作为训练语料进行训练,建立行业领域语言模型。
优选地,所述基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型包括:
对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型。
优选地,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料和行业领域语料中都包含词语组合wi-1wi时,或者当初始文本语料中包含词语组合wi-1wi且行业领域语料中不包含词语组合wi-1wi时,按照以下公式(1)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)={XM*old_count(wi-1,wi)+YM*new_count(wi-1,wi)}/{XM*old_count(wi-1)+YM*new_count(wi-1)} (1)
其中,
XM=old_total_count/(old_total_count+new_total_count),
YM=new_total_count/(old_total_count+new_total_count),
其中,P_mix(wi|wi-1)表示所述混合语言模型对应的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,XM、YM分别表示针对所述初始语言模型和所述行业领域语言模型设置的加权系数,old_count(wi-1,wi)表示在所述初始文本语料中词语组合wi-1wi出现的次数,old_cout(wi-1)表示在所述初始文本语料中词语wi-1出现的次数,new_count(wi-1,wi)表示在所述行业领域语料中词语组合wi-1wi出现的次数,new_cout(wi-1)表示在所述行业领域语料中词语wi-1出现的次数,old_total_count表示所述初始文本语料中的总词数,new_total_count表示所述行业领域语料中的总词数。
优选地,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料中不包含词语组合wi-1wi且行业领域语料中包含词语组合wi-1wi时,按照以下公式(2)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)=P_new(wi|wi-1) (2)
其中,P_mix(wi|wi-1)表示所述混合语言模型中的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,P_new(wi|wi-1)表示所述行业领域语言模型中的条件概率。
优选地,所述基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型包括:
将所述专有名词词表中的专有名词的发音添加到所述专有名词词表中;
对所述专有名词的发音进行音素扩展;
针对音素扩展结果进行音素聚类;
基于音素聚类结果进行训练,建立聚类声学模型。
优选地,所述对所述初始声学模型和聚类声学模型进行融合,建立融合声学模型包括:
对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型。
优选地,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型和聚类声学模型中都包含状态转移A->B时,或者所述初始声学模型包含且所述聚类声学模型中不包含状态转移A->B时,按照以下公式(4)计算所述融合声学模型对应的转移概率:
P_ron(A->B)={XR*old_countR(A->B)+YR*new_countR(A->B)}/{XR*old_countR(A)+YR*new_countR(A)} (4)
其中,
XR=old_total_countR/(old_total_countR+new_total_countR),
YR=new_total_countR/(old_total_count R+new_total_countR),
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,XR、YR分别表示针对初始声学模型和聚类声学模型设置的加权系数,old_countR(A->B)表示在初始声学模型中A->B的转移频次,new_countR(A->B)表示在聚类声学模型中A->B的转移频次,old_countR(A)表示在所述初始音频语料中状态A出现的频次,new_countR(A)表示在所述音素聚类结果中状态A出现的频次,old_total_countR表示所述初始音频语料中的总状态数,new_total_countR表示所述音素聚类结果中的总状态数。
优选地,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型不包含且所述聚类声学模型中包含状态转移A->B时,按照以下公式(5)计算所述融合声学模型对应的转移概率:
P_ron(A->B)=P_newR(A->B) (5)
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,P_newR(A->B)表示所述聚类声学模型对应的转移概率。
优选地,基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列包括:
求取概率P(W|X)最高时的词语序列W;
其中:
P(W|X)=argmax_W P(X|W)*P(W)
其中,X表示所述语音信号,W表示所述词语序列,P(X|W)表示所述融合声学模型对应的条件概率,P(W)表示所述混合语言模型对应的概率。
以上对本发明所提供的方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种领域自适应语音识别方法,其特征在于,包括:
基于初始音频语料进行训练,建立初始声学模型,以及基于初始文本语料进行训练,建立初始语言模型;
进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型;
基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型;
基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型;
对所述初始声学模型和所述聚类声学模型进行融合,建立融合声学模型;
接收输入的语音信号,基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列。
2.根据权利要求1所述的领域自适应语音识别方法,其特征在于,所述初始语言模型是二元n-gram语言模型。
3.根据权利要求1所述的领域自适应语音识别方法,其特征在于,所述进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型包括:
搜集与所述行业领域相关的语料,从所述语料中提取句子文本和专有名词;
对所述专有名词进行分类整理,建立专有名词词表;
基于所述专有名词词表对所述句子文本进行专有名词标注和替换,得到包含专有名词词表标记词的句子文本;
以所述包含专有名词词表标记词的句子文本作为训练语料进行训练,建立行业领域语言模型。
4.根据权利要求1所述的领域自适应语音识别方法,其特征在于,所述基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型包括:
对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型。
5.根据权利要求4所述的领域自适应语音识别方法,其特征在于,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料和行业领域语料中都包含词语组合wi-1wi时,或者当初始文本语料中包含词语组合wi-1wi且行业领域语料中不包含词语组合wi-1wi时,按照以下公式(1)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)={XM*old_count(wi-1,wi)+YM*new_count(wi-1,wi)}/{XM*old_count(wi-1)+YM*new_count(wi-1)} (1)
其中,
XM=old_total_count/(old_total_count+new_total_count),
YM=new_total_count/(old_total_count+new_total_count),
其中,P_mix(wi|wi-1)表示所述混合语言模型对应的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,XM、YM分别表示针对所述初始语言模型和所述行业领域语言模型设置的加权系数,old_count(wi-1,wi)表示在所述初始文本语料中词语组合wi-1wi出现的次数,old_cout(wi-1)表示在所述初始文本语料中词语wi-1出现的次数,new_count(wi-1,wi)表示在所述行业领域语料中词语组合wi-1wi出现的次数,new_cout(wi-1)表示在所述行业领域语料中词语wi-1出现的次数,old_total_count表示所述初始文本语料中的总词数,new_total_count表示所述行业领域语料中的总词数。
6.根据权利要求4所述的领域自适应语音识别方法,其特征在于,对所述初始语言模型和所述行业领域语言模型进行概率加权计算,建立混合语言模型包括:
当初始文本语料中不包含词语组合wi-1wi且行业领域语料中包含词语组合wi-1wi时,按照以下公式(2)计算所述混合语言模型对应的条件概率:
P_mix(wi|wi-1)=P_new(wi|wi-1) (2)
其中,P_mix(wi|wi-1)表示所述混合语言模型对应的条件概率,wi-1和wi表示词语序列W中的两个相邻词语,W=w1w2…wn,1<i≤n,P_new(wi|wi-1)表示所述行业领域语言模型对应的条件概率。
7.根据权利要求3所述的领域自适应语音识别方法,其特征在于,所述基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型包括:
将所述专有名词词表中的专有名词的发音添加到所述专有名词词表中;
对所述专有名词的发音进行音素扩展;
针对音素扩展结果进行音素聚类;
基于音素聚类结果进行训练,建立聚类声学模型。
8.根据权利要求1所述的领域自适应语音识别方法,其特征在于,所述对所述初始声学模型和聚类声学模型进行融合,建立融合声学模型包括:
对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型。
9.根据权利要求8所述的领域自适应语音识别方法,其特征在于,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型和聚类声学模型中都包含状态转移A->B时,或者所述初始声学模型包含且所述聚类声学模型中不包含状态转移A->B时,按照以下公式(4)计算所述融合声学模型对应的转移概率:
P_ron(A->B)={XR*old_countR(A->B)+YR*new_countR(A->B)}/{XR*old_countR(A)+YR*new_countR(A)} (4)
其中,
XR=old_total_countR/(old_total_countR+new_total_countR),
YR=new_total_countR/(old_total_count R+new_total_countR),
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,XR、YR分别表示针对初始声学模型和聚类声学模型设置的加权系数,old_countR(A->B)表示在初始声学模型中A->B的转移频次,new_countR(A->B)表示在聚类声学模型中A->B的转移频次,old_countR(A)表示在所述初始音频语料中状态A出现的频次,new_countR(A)表示在所述音素聚类结果中状态A出现的频次,old_total_countR表示所述初始音频语料中的总状态数,new_total_countR表示所述音素聚类结果中的总状态数。
10.根据权利要求8所述的领域自适应语音识别方法,其特征在于,对所述初始声学模型和聚类声学模型进行转移概率的加权计算,建立融合声学模型包括:
当所述初始声学模型不包含且所述聚类声学模型中包含状态转移A->B时,按照以下公式(5)计算所述融合声学模型对应的转移概率:
P_ron(A->B)=P_newR(A->B) (5)
其中,P_ron(A->B)表示所述融合声学模型对应的转移概率,A->B表示状态A转移到状态B,状态是指一个音素或者多个音素的聚类,P_newR(A->B)表示所述聚类声学模型对应的转移概率。
11.根据权利要求1所述的领域自适应语音识别方法,其特征在于,所述基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列包括:
求取概率P(W|X)最高时的词语序列W;
其中:
P(W|X)=argmax_W P(X|W)*P(W)
其中,X表示所述语音信号,W表示所述词语序列,P(X|W)表示所述融合声学模型对应的条件概率,P(W)表示所述混合语言模型对应的概率。
12.一种领域自适应语音识别装置,其特征在于,包括:
初始建模模块,用于基于初始音频语料进行训练,建立初始声学模型,以及用于基于初始文本语料进行训练,建立初始语言模型;
行业领域语言模型建模模块,用于进行行业领域语料搜集和处理,基于处理后的行业领域语料进行训练,建立行业领域语言模型;
混合语言模型建模模块,用于基于所述初始语言模型和所述行业领域语言模型进行适配计算,建立混合语言模型;
聚类声学模型建模模块,用于基于处理后的行业领域语料进行音素聚类,根据音素聚类结果进行训练,建立聚类声学模型;
融合声学模型建模模块,用于对所述初始声学模型和聚类声学模型进行融合,建立融合声学模型;
解码模块,用于接收输入的语音信号,基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列。
CN201710232856.5A 2017-04-11 2017-04-11 一种领域自适应语音识别方法和装置 Active CN107154260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710232856.5A CN107154260B (zh) 2017-04-11 2017-04-11 一种领域自适应语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710232856.5A CN107154260B (zh) 2017-04-11 2017-04-11 一种领域自适应语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN107154260A true CN107154260A (zh) 2017-09-12
CN107154260B CN107154260B (zh) 2020-06-16

Family

ID=59793566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710232856.5A Active CN107154260B (zh) 2017-04-11 2017-04-11 一种领域自适应语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN107154260B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945792A (zh) * 2017-11-06 2018-04-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN107978315A (zh) * 2017-11-20 2018-05-01 徐榭 基于语音识别的对话式放射治疗计划系统及制定方法
CN108831442A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 兴趣点识别方法、装置、终端设备及存储介质
CN109377985A (zh) * 2018-11-27 2019-02-22 北京分音塔科技有限公司 一种领域词的语音识别增强方法和装置
CN110111780A (zh) * 2018-01-31 2019-08-09 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110349568A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 语音检索方法、装置、计算机设备及存储介质
CN110379415A (zh) * 2019-07-24 2019-10-25 出门问问(苏州)信息科技有限公司 领域自适应声学模型的训练方法
CN110930993A (zh) * 2018-09-20 2020-03-27 蔚来汽车有限公司 特定领域语言模型生成方法及语音数据标注系统
CN111063338A (zh) * 2018-09-29 2020-04-24 阿里巴巴集团控股有限公司 音频信号识别方法、装置、设备、系统和存储介质
CN111143518A (zh) * 2019-12-30 2020-05-12 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
CN111383641A (zh) * 2018-12-29 2020-07-07 华为技术有限公司 语音识别方法、装置和控制器
CN111540343A (zh) * 2020-03-17 2020-08-14 北京捷通华声科技股份有限公司 一种语料识别方法和装置
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN111816171A (zh) * 2020-08-31 2020-10-23 北京世纪好未来教育科技有限公司 语音识别模型的训练方法、语音识别方法及装置
CN111951785A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN112133290A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的基于迁移学习的语音识别方法
CN112151021A (zh) * 2020-09-27 2020-12-29 北京达佳互联信息技术有限公司 语言模型的训练方法、语音识别方法、装置及电子设备
CN113408274A (zh) * 2021-07-13 2021-09-17 北京百度网讯科技有限公司 训练语言模型的方法和标签设置方法
CN113449512A (zh) * 2020-03-25 2021-09-28 中国电信股份有限公司 信息处理方法、装置和计算机可读存储介质
WO2021238700A1 (zh) * 2020-05-28 2021-12-02 升智信息科技(南京)有限公司 一种利用话术语句提升语音识别准确率的识别方法
CN114078469A (zh) * 2022-01-19 2022-02-22 广州小鹏汽车科技有限公司 语音识别方法、装置、终端和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254529B2 (en) * 2000-10-13 2007-08-07 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
CN101763855A (zh) * 2009-11-20 2010-06-30 安徽科大讯飞信息科技股份有限公司 语音识别的置信度判决方法及装置
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
CN105489221A (zh) * 2015-12-02 2016-04-13 北京云知声信息技术有限公司 一种语音识别方法及装置
CN105869629A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 语音识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254529B2 (en) * 2000-10-13 2007-08-07 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
CN101763855A (zh) * 2009-11-20 2010-06-30 安徽科大讯飞信息科技股份有限公司 语音识别的置信度判决方法及装置
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
CN105489221A (zh) * 2015-12-02 2016-04-13 北京云知声信息技术有限公司 一种语音识别方法及装置
CN105869629A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 语音识别方法及装置

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945792B (zh) * 2017-11-06 2021-05-28 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN107945792A (zh) * 2017-11-06 2018-04-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN107978315A (zh) * 2017-11-20 2018-05-01 徐榭 基于语音识别的对话式放射治疗计划系统及制定方法
CN107978315B (zh) * 2017-11-20 2021-08-10 徐榭 基于语音识别的对话式放射治疗计划系统及制定方法
CN110111780A (zh) * 2018-01-31 2019-08-09 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN108831442A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 兴趣点识别方法、装置、终端设备及存储介质
CN110930993B (zh) * 2018-09-20 2023-07-25 蔚来(安徽)控股有限公司 特定领域语言模型生成方法及语音数据标注系统
CN110930993A (zh) * 2018-09-20 2020-03-27 蔚来汽车有限公司 特定领域语言模型生成方法及语音数据标注系统
CN111063338A (zh) * 2018-09-29 2020-04-24 阿里巴巴集团控股有限公司 音频信号识别方法、装置、设备、系统和存储介质
CN111063338B (zh) * 2018-09-29 2023-09-19 阿里巴巴集团控股有限公司 音频信号识别方法、装置、设备、系统和存储介质
CN109377985A (zh) * 2018-11-27 2019-02-22 北京分音塔科技有限公司 一种领域词的语音识别增强方法和装置
CN109377985B (zh) * 2018-11-27 2022-03-18 北京分音塔科技有限公司 一种领域词的语音识别增强方法和装置
CN111383641A (zh) * 2018-12-29 2020-07-07 华为技术有限公司 语音识别方法、装置和控制器
CN111383641B (zh) * 2018-12-29 2022-10-18 华为技术有限公司 语音识别方法、装置和控制器
CN111951785A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN111951785B (zh) * 2019-05-16 2024-03-15 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
US11482208B2 (en) 2019-06-03 2022-10-25 Beijing Dajia Internet Information Technology Co., Ltd. Method, device and storage medium for speech recognition
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
WO2020244150A1 (zh) * 2019-06-06 2020-12-10 平安科技(深圳)有限公司 语音检索方法、装置、计算机设备及存储介质
CN110349568A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 语音检索方法、装置、计算机设备及存储介质
CN112133290A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的基于迁移学习的语音识别方法
CN110379415A (zh) * 2019-07-24 2019-10-25 出门问问(苏州)信息科技有限公司 领域自适应声学模型的训练方法
CN110379415B (zh) * 2019-07-24 2022-02-18 出门问问(苏州)信息科技有限公司 领域自适应声学模型的训练方法
CN111143518A (zh) * 2019-12-30 2020-05-12 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
CN111540343B (zh) * 2020-03-17 2021-02-05 北京捷通华声科技股份有限公司 一种语料识别方法和装置
CN111540343A (zh) * 2020-03-17 2020-08-14 北京捷通华声科技股份有限公司 一种语料识别方法和装置
CN113449512A (zh) * 2020-03-25 2021-09-28 中国电信股份有限公司 信息处理方法、装置和计算机可读存储介质
WO2021238700A1 (zh) * 2020-05-28 2021-12-02 升智信息科技(南京)有限公司 一种利用话术语句提升语音识别准确率的识别方法
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN111816171B (zh) * 2020-08-31 2020-12-11 北京世纪好未来教育科技有限公司 语音识别模型的训练方法、语音识别方法及装置
CN111816171A (zh) * 2020-08-31 2020-10-23 北京世纪好未来教育科技有限公司 语音识别模型的训练方法、语音识别方法及装置
CN112151021A (zh) * 2020-09-27 2020-12-29 北京达佳互联信息技术有限公司 语言模型的训练方法、语音识别方法、装置及电子设备
CN113408274B (zh) * 2021-07-13 2022-06-24 北京百度网讯科技有限公司 训练语言模型的方法和标签设置方法
CN113408274A (zh) * 2021-07-13 2021-09-17 北京百度网讯科技有限公司 训练语言模型的方法和标签设置方法
CN114078469B (zh) * 2022-01-19 2022-05-10 广州小鹏汽车科技有限公司 语音识别方法、装置、终端和存储介质
CN114078469A (zh) * 2022-01-19 2022-02-22 广州小鹏汽车科技有限公司 语音识别方法、装置、终端和存储介质

Also Published As

Publication number Publication date
CN107154260B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN107154260A (zh) 一种领域自适应语音识别方法和装置
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN107221318B (zh) 英语口语发音评分方法和系统
CN103761975B (zh) 一种口语评测方法及装置
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN108447486A (zh) 一种语音翻译方法及装置
CN105261246B (zh) 一种基于大数据挖掘技术的英语口语纠错系统
CN106782603B (zh) 智能语音评测方法及系统
CN107103900A (zh) 一种跨语言情感语音合成方法及系统
CN102651217A (zh) 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN101551947A (zh) 辅助口语语言学习的计算机系统
CN102354495A (zh) 半开放式口语试题的测试方法及系统
CN106803422A (zh) 一种基于长短时记忆网络的语言模型重估方法
CN109508402A (zh) 违规用语检测方法及装置
CN108877769A (zh) 识别方言种类的方法和装置
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
Székely et al. Evaluating expressive speech synthesis from audiobooks in conversational phrases
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
EP1398758A2 (en) Method and apparatus for generating decision tree questions for speech processing
Van Bael et al. Automatic phonetic transcription of large speech corpora
CN112233655A (zh) 一种提高语音命令词识别性能的神经网络训练方法
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
Luef Growth algorithms in the phonological networks of second language learners: A replication of Siew and Vitevitch (2020a).
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models
Johnson et al. Comparison of algorithms to divide noisy phone sequences into syllables for automatic unconstrained English speaking proficiency scoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 508 room 101500, government building, West Tian Zhen Town, 8 West Road, Miyun Economic Development Zone, Beijing, -598

Applicant after: BEIJING ROOBO TECHNOLOGY Co.,Ltd.

Address before: 508 room 101500, government building, West Tian Zhen Town, 8 West Road, Miyun Economic Development Zone, Beijing, -598

Applicant before: BEIJING INTELLIGENT STEWARD Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210824

Address after: 301-112, floor 3, building 2, No. 18, YANGFANGDIAN Road, Haidian District, Beijing 100038

Patentee after: Beijing Rubu Technology Co.,Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun District Economic Development Zone, Beijing 101500

Patentee before: BEIJING ROOBO TECHNOLOGY Co.,Ltd.