CN103871402A - 语言模型训练系统、语音识别系统及相应方法 - Google Patents

语言模型训练系统、语音识别系统及相应方法 Download PDF

Info

Publication number
CN103871402A
CN103871402A CN201210533887.1A CN201210533887A CN103871402A CN 103871402 A CN103871402 A CN 103871402A CN 201210533887 A CN201210533887 A CN 201210533887A CN 103871402 A CN103871402 A CN 103871402A
Authority
CN
China
Prior art keywords
language model
word
annotation results
retrieve log
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210533887.1A
Other languages
English (en)
Other versions
CN103871402B (zh
Inventor
曹立新
万广鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210533887.1A priority Critical patent/CN103871402B/zh
Publication of CN103871402A publication Critical patent/CN103871402A/zh
Application granted granted Critical
Publication of CN103871402B publication Critical patent/CN103871402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了语言模型训练系统、语音识别系统及相应方法,涉及语音识别领域,用以解决现有语言模型训练技术及语音识别技术的识别准确率不够高的问题。语言模型训练系统包括:第一收集单元用于收集语音搜索的标注结果日志;第一训练单元用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库用于存储所述标注结果语言模型;第二收集单元用于收集文本搜索的检索日志;第二训练单元用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库用于存储所述检索日志语言模型;结合单元用于通过插值法,将标注结果语言模型以及检索日志语言模型相结合;第三语言模型库用于存储结合后得到的语言模型。

Description

语言模型训练系统、语音识别系统及相应方法
【技术领域】
本发明涉及语音识别领域,特别是涉及一种语言模型训练系统及方法,以及一种语音识别系统及方法。
【背景技术】
语言模型建模是语音识别技术中的组成部分,主要是通过统计文本语料中的文法分布,获得对于语言的统计模型,用于描述一个文本串成为自然语言的概率。语言模型建模的关键在于,用于训练的文本语料和需要识别的语音分布相近,基于此,训练得到的语言模型才能更好地描述用户语音输入,进而实现语音搜索等实际操作。
但是,现有的语言模型训练技术基于文本检索日志,但文本检索与语音检索在表达上毕竟存在一定差异,在此基础上进行的语音识别技术的识别准确率不够高,存在一定的失配情况。
【发明内容】
本发明提供了一种语言模型训练系统及方法,以及一种语音识别系统及方法,用以解决基于现有语言模型训练技术的语音识别技术的识别准确率不够高,存在一定失配情况的问题。
具体技术方案如下:
一种语言模型训练系统,包括:第一收集单元,用于收集语音搜索的标注结果日志;第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库,用于存储所述标注结果语言模型;第二收集单元,用于收集文本搜索的检索日志;第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库,用于存储所述检索日志语言模型;结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;第三语言模型库,用于存储结合后得到的语言模型。
根据本发明一优选实施例,还包括:第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练。
根据本发明一优选实施例,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
根据本发明一优选实施例,所述第三语言模型库存储的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
根据本发明一优选实施例,所述λ2大于所述λ1
一种语言模型训练方法,包括下列步骤:S1、收集语音搜索的标注结果日志,对标注结果日志进行训练,生成并存储标注结果语言模型;以及,收集文本搜索的检索日志,对检索日志进行训练,生成并存储检索日志语言模型;S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合,存储结合后得到的语言模型。
根据本发明一优选实施例,还包括:步骤S1中,收集语音搜索的标注结果日志之后,对标注结果日志进行训练之前,预处理所述收集的标注结果日志;以及训练所述预处理后的标注结果日志;步骤S1中,收集文本搜索的检索日志之后,对检索日志进行训练之前,预处理所述的检索日志;以及训练所述预处理后的检索日志。
根据本发明一优选实施例,所述的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:
Figure BDA00002567561600031
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
Figure BDA00002567561600032
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
根据本发明一优选实施例,步骤S2中所述的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
根据本发明一优选实施例,所述λ2大于所述λ1
一种语音识别系统,包括:客户端和服务器;所述客户端,用于接收用户发起的语音请求,将该语音请求发送给所述服务器;所述服务器,用于利用语言模型对所述语音请求进行识别,并向客户端反馈识别结果;其中,所述语言模型为上述语言模型训练系统训练出的所述结合后得到的语言模型。
一种语音识别方法,包括下列步骤:接收用户发起的语音请求;根据语言模型对所述语音请求进行识别,得出识别结果;根据所述识别结果执行相应的操作;其中,所述语言模型为上述语言模型训练系统训练出的所述结合后得到的语言模型。
由以上技术方案可以看出,本发明依据真实语音搜索行为,即收集语音搜索的标注结果日志作为文本语料,并对标注结果日志进行训练,进而生成标注结果语言模型,并将该标注结果语言模型采用与检索日志语言模型进行插值的方式融入最终的语言模型中。基于此进行的语音识别会获得较高的识别准确率,可见本发明通过较低的代价较好地解决了语言模型建模与用户语音输入存在不匹配的问题。
【附图说明】
图1为本发明实施例一的系统结构示意图;
图2为本发明实施例二的方法步骤流程图;
图3为本发明实施例三的系统结构示意图;
图4为本发明实施例四的方法步骤流程图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
发明人通过研究发现,每天都有大量的工作人员或/和计算机自动对用户语音搜索输入的语音进行标注。标注保存的文本,即标注结果日志,无疑是最真实,最能准确描述用户语音搜索行为的资源。如果将其加入语言模型训练,则可将识别准确率提升。
实施例一、本实施例提供了一种语言模型训练系统,参见图1所示,包括:第一收集单元10、第一训练单元11和第一语言模型库12、第一日志预处理单元13、第二收集单元14、第二训练单元15、第二语言模型库16、结合单元17、第三语言模型库18,以及第二日志预处理单元19。
具体地,用户可通过语音搜索引擎发起语音搜索请求,即对语音搜索引擎输入语音。第一收集单元10将用户的该语音收集后,由人工或计算机自动进行语音标注,并形成标注结果日志。第一收集单元10收集各种标注结果日志后,由第一日志预处理单元13对收集的标注结果日志进行预处理,例如合并相同标注结果,剔除敏感词汇等。第一训练单元11对预处理后的标注结果日志进行训练,并生成标注结果语言模型。第一语言模型库12将生成的标注结果语言模型保存。
标注结果语言模型中具体包括:各词语在标注结果文本中的文法概率关系,文法概率关系可以通过下述公式得出:
P a ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) ∑ w C ( w 1 . . . w n - 1 w ) ;
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;分子C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;分母∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
另一方面,本实施例中用户可采用键盘等输入设备,通过网页搜索引擎(搜索框)发起文本的搜索请求。第二收集单元14将用户的检索日志收集后,由第二日志预处理单元19对收集的检索日志进行预处理,例如合并相同词汇,剔除敏感词汇等。第二训练单元15对行预处理后的检索日志进行训练,并生成检索日志语言模型。第二语言模型库16将生成的检索日志语言模型保存。
检索日志语言模型中具体包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
P b ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) ∑ w C ( w 1 . . . w n - 1 w ) ;
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;分子C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;分母∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
为了更加准确的描述语音搜索行为,发明人经研究发现如果以标注结果语言模型对检索日志语言模型进行自适应,即令检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率,可达到更优的效果。因此,本实施例中结合单元17通过但不限于插值法,将第一语言模型库12中存储的标注结果语言模型以及第二语言模型库16中存储的检索日志语言模型相结合,形成最终的语言模型,并存储于第三语言模型库18中,以备后续调用。
最终的语言模型(即结合后得到的语言模型)中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数,用于调节标注结果语言模型和检索日志语言模型在Pc(wn|w1w2...wn-1)中的权重。
在具体实现中λ2大于λ1,即可以给标注结果语言模型较小的插值系数,给检索日志语言模型较大的插值系数,使得检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率。
可见,本实施例中参考了真实语音搜索行为,收集语音搜索的标注结果日志作为文本语料,并对标注结果日志进行训练,生成标注结果语言模型。进一步,还通过插值法将标注结果语言模型与检索日志语言模型相结合,插值的来源包括标注语言模型,所以和用户的真实语音搜索概率较为匹配,同时包含了检索日志语言模型,所以覆盖面较全,规避了标注语言模型覆盖面较小的问题,使得最终的语言模型更加完备。基于此进行的语音搜索可获得较高的识别准确率,并且以此循环操作,不断优化最终的语言模型库,可产生自适应的效果。
实施例二、本实施例提供了一种语言模型训练方法,参见图2所示,包括下列步骤:
S20、收集语音搜索的标注结果日志。
本步骤中,用户可通过语音搜索引擎发起语音搜索请求,即对语音搜索引擎输入语音,将用户的该语音收集后,由人工或计算机自动进行语音标注,并形成标注结果日志。之后,将各种标注结果日志收集起来。
S21、预处理收集的标注结果日志。
本步骤中,对收集的标注结果日志进行预处理,例如合并相同标注结果,剔除敏感词汇等。
S22、对预处理后的标注结果日志进行训练,并生成标注结果语言模型。
本步骤中,标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:
P a ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) ∑ w C ( w 1 . . . w n - 1 w ) ;
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
S23、存储标注结果语言模型,并跳转至步骤S28。
S24、收集文本搜索的检索日志。
S25、预处理收集的检索日志。
本步骤中,对收集的检索日志进行预处理,例如合并相同词汇,剔除敏感词汇等。
S26、对预处理后的检索日志进行训练,并生成检索日志语言模型。
本步骤中,所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
P b ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) ∑ w C ( w 1 . . . w n - 1 w ) ;
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
S27、存储检索日志语言模型。
S28、通过但不限于插值法,将存储的所述标注结果语言模型以及所述检索日志语言模型相结合。
发明人经研究发现如果以标注结果语言模型对检索日志语言模型进行自适应,即令检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率,可达到更优的效果。因此,本步骤中通过但不限于插值法将标注结果语言模型以及检索日志语言模型结合成最终的语言模型。
最终的语言模型(即结合后得到的语言模型)中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数,用于调节标注结果语言模型和检索日志语言模型在Pc(wn|w1w2...wn-1)中的权重。
在具体实现中λ2大于λ1,即可以给标注结果语言模型较小的插值系数,给检索日志语言模型较大的插值系数,使得检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率。
S29、存储结合后得到的语言模型。
可见,本实施例中参考了真实语音搜索行为,收集语音搜索的标注结果日志作为文本语料,并对标注结果日志进行训练,生成标注结果语言模型。进一步,还通过插值法将标注结果语言模型与检索日志语言模型相结合,插值的来源包括标注语言模型,所以和用户的真实语音搜索概率较为匹配,同时包含了检索日志语言模型,所以覆盖面较全,规避了标注语言模型覆盖面较小的问题,使得最终的语言模型更加完备。基于此进行的语音搜索可获得较高的识别准确率,并且以此循环操作,不断优化最终的语言模型库,可产生自适应的效果。
实施例三、本实施例提供了一种语音识别系统,以语音搜索请求中的语言作为识别对象为例,采用实施例一中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型。参见图3所示,包括:客户端31和服务器32。
用户发起语音搜索请求后,由客户端31接收该语音搜索请求。通过网络将该语音搜索请求传送给服务器32,其间可以由人工或计算机自动进行语音标注。服务器32收到该语音搜索请求后,利用实施例一或实施例二最终得到的语言模型对语音搜索请求进行识别,得到识别结果,即将其中的语音与最终得到的语言模型进行匹配,得到与该语音相匹配的文本。
更进一步地,服务器32能够利用识别结果进行搜索,例如网页搜索、应用搜索等,并将搜索结果返回给客户端31。当然,服务器32也可以利用识别结果进行其他进一步处理。
可见,采用实施例一中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型,即参考了真实语音搜索行为,使得后续的匹配更准确,识别率更高。另一方面,在通过网络将语音搜索请求传送给服务器的过程中还可由人工或计算机自动进行语音标注,并作为实施例一中的训练语料,不断使标注结果语言模型、结合后最终得到的语言模型与真实语音分布相接近,可产生自适应的效果。
实施例四、本实施例提供了一种语音识别方法,以语音搜索请求中的语言作为识别对象为例,采用实施例二中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型。参见图4所示,包括下列步骤:
S41、接收用户发起的语音搜索请求。
S42、根据语言模型对语音搜索请求进行识别,得到识别结果。
本步骤实际上讲语音搜索请求中的语音与实施例一或二最终得到的语言模型进行匹配,得到与该语音相匹配的文本。
S43、根据识别结果进行搜索,并返回搜索结果。
上述的搜索包括但不限于:网页搜索、应用搜索等,当然也可以利用识别结果进行其他进一步处理。
可见,采用实施例二中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型,即参考了真实语音搜索行为,使得后续的匹配更准确,识别率更高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种语言模型训练系统,其特征在于,包括:
第一收集单元,用于收集语音搜索的标注结果日志;
第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;
第一语言模型库,用于存储所述标注结果语言模型;
第二收集单元,用于收集文本搜索的检索日志;
第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;
第二语言模型库,用于存储所述检索日志语言模型;
结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;
第三语言模型库,用于存储结合后得到的语言模型。
2.根据权利要求1所述的系统,其特征在于,还包括:
第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;
第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练。
3.根据权利要求1所述的系统,其特征在于,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出: P a ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) ∑ w C ( w 1 . . . w n - 1 w ) ;
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;
所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出: P b ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) ∑ w C ( w 1 . . . w n - 1 w ) ;
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
4.根据权利要求3所述的系统,其特征在于,所述第三语言模型库存储的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
5.根据权利要求4所述的系统,其特征在于,所述λ2大于所述λ1
6.一种语言模型训练方法,其特征在于,包括下列步骤:
S1、收集语音搜索的标注结果日志,对标注结果日志进行训练,生成并存储标注结果语言模型;以及,收集文本搜索的检索日志,对检索日志进行训练,生成并存储检索日志语言模型;
S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合,存储结合后得到的语言模型。
7.根据权利要求6所述的方法,其特征在于,还包括:
步骤S1中,收集语音搜索的标注结果日志之后,对标注结果日志进行训练之前,预处理所述收集的标注结果日志;以及训练所述预处理后的标注结果日志;
步骤S1中,收集文本搜索的检索日志之后,对检索日志进行训练之前,预处理所述的检索日志;以及训练所述预处理后的检索日志。
8.根据权利要求6所述的方法,其特征在于,所述的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出: P a ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) ∑ w C ( w 1 . . . w n - 1 w ) ;
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;
所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
Figure FDA00002567561500032
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
9.根据权利要求8所述的方法,其特征在于,步骤S2中所述的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
10.根据权利要求9所述的方法,其特征在于,所述λ2大于所述λ1
11.一种语音识别系统,其特征在于,包括:客户端和服务器;
所述客户端,用于接收用户发起的语音请求,将该语音请求发送给所述服务器;
所述服务器,用于利用语言模型对所述语音请求进行识别,得到语音识别结果;
其中,所述语言模型为权利要求1至5任一项训练出的所述结合后得到的语言模型。
12.一种语音识别方法,其特征在于,包括下列步骤:
接收用户发起的语音请求;根据语言模型对所述语音请求进行识别,得出识别结果;
其中,所述语言模型为权利要求6至10任一项训练出的所述结合后得到的语言模型。
CN201210533887.1A 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法 Active CN103871402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210533887.1A CN103871402B (zh) 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210533887.1A CN103871402B (zh) 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法

Publications (2)

Publication Number Publication Date
CN103871402A true CN103871402A (zh) 2014-06-18
CN103871402B CN103871402B (zh) 2017-10-10

Family

ID=50909867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210533887.1A Active CN103871402B (zh) 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法

Country Status (1)

Country Link
CN (1) CN103871402B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410532A (zh) * 2014-12-12 2015-03-11 携程计算机技术(上海)有限公司 服务器及其日志过滤方法
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN106951468A (zh) * 2017-03-02 2017-07-14 腾讯科技(深圳)有限公司 对话生成方法及装置
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN109599095A (zh) * 2018-11-21 2019-04-09 百度在线网络技术(北京)有限公司 一种语音数据的标注方法、装置、设备和计算机存储介质
CN109949797A (zh) * 2019-03-11 2019-06-28 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
TWI673705B (zh) * 2018-02-05 2019-10-01 威盛電子股份有限公司 自然語言理解系統以及語意分析方法
CN111696531A (zh) * 2020-05-28 2020-09-22 升智信息科技(南京)有限公司 一种利用话术语句提升语音识别准确率的识别方法
CN112216284A (zh) * 2020-10-09 2021-01-12 携程计算机技术(上海)有限公司 训练数据更新方法及系统、语音识别方法及系统、设备
CN112562640A (zh) * 2020-12-01 2021-03-26 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040099A1 (en) * 2006-03-10 2008-02-14 Nec (China) Co., Ltd. Device and method for language model switching and adaption
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040099A1 (en) * 2006-03-10 2008-02-14 Nec (China) Co., Ltd. Device and method for language model switching and adaption
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410532A (zh) * 2014-12-12 2015-03-11 携程计算机技术(上海)有限公司 服务器及其日志过滤方法
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
WO2017071226A1 (zh) * 2015-10-29 2017-05-04 乐视控股(北京)有限公司 一种语言模型的训练方法及装置、设备
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
CN106951468A (zh) * 2017-03-02 2017-07-14 腾讯科技(深圳)有限公司 对话生成方法及装置
CN106951468B (zh) * 2017-03-02 2018-12-28 腾讯科技(深圳)有限公司 对话生成方法及装置
TWI673705B (zh) * 2018-02-05 2019-10-01 威盛電子股份有限公司 自然語言理解系統以及語意分析方法
CN109599095B (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 一种语音数据的标注方法、装置、设备和计算机存储介质
CN109599095A (zh) * 2018-11-21 2019-04-09 百度在线网络技术(北京)有限公司 一种语音数据的标注方法、装置、设备和计算机存储介质
CN109949797A (zh) * 2019-03-11 2019-06-28 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
US11348571B2 (en) 2019-03-11 2022-05-31 Beijing Baidu Netcom Science And Technology Co., Ltd. Methods, computing devices, and storage media for generating training corpus
CN111696531A (zh) * 2020-05-28 2020-09-22 升智信息科技(南京)有限公司 一种利用话术语句提升语音识别准确率的识别方法
WO2021238700A1 (zh) * 2020-05-28 2021-12-02 升智信息科技(南京)有限公司 一种利用话术语句提升语音识别准确率的识别方法
CN112216284A (zh) * 2020-10-09 2021-01-12 携程计算机技术(上海)有限公司 训练数据更新方法及系统、语音识别方法及系统、设备
CN112216284B (zh) * 2020-10-09 2024-02-06 携程计算机技术(上海)有限公司 训练数据更新方法及系统、语音识别方法及系统、设备
CN112562640A (zh) * 2020-12-01 2021-03-26 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质
CN112562640B (zh) * 2020-12-01 2024-04-12 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN103871402B (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN103871402A (zh) 语言模型训练系统、语音识别系统及相应方法
CN105653840A (zh) 基于词句分布表示的相似病例推荐系统及相应的方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN106446148A (zh) 一种基于聚类的文本查重方法
CN104915340A (zh) 自然语言问答方法及装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN106934068A (zh) 机器人基于环境上下文的语义理解的方法
CN102254038A (zh) 一种分析网络评论相关度的系统及其分析方法
CN102110140A (zh) 基于网络离散文本的舆情信息分析方法
CN103235812B (zh) 查询多意图识别方法和系统
CN102207946B (zh) 一种知识网络的半自动生成方法
CN102880723A (zh) 一种识别用户检索意图的搜索方法和系统
US10924551B2 (en) IRC-Infoid data standardization for use in a plurality of mobile applications
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
CN102236639A (zh) 更新语言模型的系统和方法
CN106205608A (zh) 利用知识图的用于语音识别的语言建模
CN104679738A (zh) 互联网热词挖掘方法及装置
CN105893389A (zh) 一种语音信息搜索方法、装置及服务器
CN103218373A (zh) 一种相关搜索系统、方法及装置
CN103049474A (zh) 搜索查询和文档相关数据翻译
CN109918627A (zh) 文本生成方法、装置、电子设备及存储介质
CN103412903B (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
CN110413759A (zh) 一种用于自媒体的多平台用户互动数据分析方法及系统
CN110909126A (zh) 一种信息查询方法及装置
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant