CN103871402B - 语言模型训练系统、语音识别系统及相应方法 - Google Patents

语言模型训练系统、语音识别系统及相应方法 Download PDF

Info

Publication number
CN103871402B
CN103871402B CN201210533887.1A CN201210533887A CN103871402B CN 103871402 B CN103871402 B CN 103871402B CN 201210533887 A CN201210533887 A CN 201210533887A CN 103871402 B CN103871402 B CN 103871402B
Authority
CN
China
Prior art keywords
language model
word
daily record
annotation results
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210533887.1A
Other languages
English (en)
Other versions
CN103871402A (zh
Inventor
曹立新
万广鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210533887.1A priority Critical patent/CN103871402B/zh
Publication of CN103871402A publication Critical patent/CN103871402A/zh
Application granted granted Critical
Publication of CN103871402B publication Critical patent/CN103871402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了语言模型训练系统、语音识别系统及相应方法,涉及语音识别领域,用以解决现有语言模型训练技术及语音识别技术的识别准确率不够高的问题。语言模型训练系统包括:第一收集单元用于收集语音搜索的标注结果日志;第一训练单元用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库用于存储所述标注结果语言模型;第二收集单元用于收集文本搜索的检索日志;第二训练单元用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库用于存储所述检索日志语言模型;结合单元用于通过插值法,将标注结果语言模型以及检索日志语言模型相结合;第三语言模型库用于存储结合后得到的语言模型。

Description

语言模型训练系统、语音识别系统及相应方法
【技术领域】
本发明涉及语音识别领域,特别是涉及一种语言模型训练系统及方法,以及一种语音识别系统及方法。
【背景技术】
语言模型建模是语音识别技术中的组成部分,主要是通过统计文本语料中的文法分布,获得对于语言的统计模型,用于描述一个文本串成为自然语言的概率。语言模型建模的关键在于,用于训练的文本语料和需要识别的语音分布相近,基于此,训练得到的语言模型才能更好地描述用户语音输入,进而实现语音搜索等实际操作。
但是,现有的语言模型训练技术基于文本检索日志,但文本检索与语音检索在表达上毕竟存在一定差异,在此基础上进行的语音识别技术的识别准确率不够高,存在一定的失配情况。
【发明内容】
本发明提供了一种语言模型训练系统及方法,以及一种语音识别系统及方法,用以解决基于现有语言模型训练技术的语音识别技术的识别准确率不够高,存在一定失配情况的问题。
具体技术方案如下:
一种语言模型训练系统,包括:第一收集单元,用于收集语音搜索的标注结果日志;第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库,用于存储所述标注结果语言模型;第二收集单元,用于收集文本搜索的检索日志;第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库,用于存储所述检索日志语言模型;结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;第三语言模型库,用于存储结合后得到的语言模型。
根据本发明一优选实施例,还包括:第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练。
根据本发明一优选实施例,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
根据本发明一优选实施例,所述第三语言模型库存储的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
根据本发明一优选实施例,所述λ2大于所述λ1
一种语言模型训练方法,包括下列步骤:S1、收集语音搜索的标注结果日志,对标注结果日志进行训练,生成并存储标注结果语言模型;以及,收集文本搜索的检索日志,对检索日志进行训练,生成并存储检索日志语言模型;S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合,存储结合后得到的语言模型。
根据本发明一优选实施例,还包括:步骤S1中,收集语音搜索的标注结果日志之后,对标注结果日志进行训练之前,预处理所述收集的标注结果日志;以及训练所述预处理后的标注结果日志;步骤S1中,收集文本搜索的检索日志之后,对检索日志进行训练之前,预处理所述的检索日志;以及训练所述预处理后的检索日志。
根据本发明一优选实施例,所述的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
根据本发明一优选实施例,步骤S2中所述的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
根据本发明一优选实施例,所述λ2大于所述λ1
一种语音识别系统,包括:客户端和服务器;所述客户端,用于接收用户发起的语音请求,将该语音请求发送给所述服务器;所述服务器,用于利用语言模型对所述语音请求进行识别,并向客户端反馈识别结果;其中,所述语言模型为上述语言模型训练系统训练出的所述结合后得到的语言模型。
一种语音识别方法,包括下列步骤:接收用户发起的语音请求;根据语言模型对所述语音请求进行识别,得出识别结果;根据所述识别结果执行相应的操作;其中,所述语言模型为上述语言模型训练系统训练出的所述结合后得到的语言模型。
由以上技术方案可以看出,本发明依据真实语音搜索行为,即收集语音搜索的标注结果日志作为文本语料,并对标注结果日志进行训练,进而生成标注结果语言模型,并将该标注结果语言模型采用与检索日志语言模型进行插值的方式融入最终的语言模型中。基于此进行的语音识别会获得较高的识别准确率,可见本发明通过较低的代价较好地解决了语言模型建模与用户语音输入存在不匹配的问题。
【附图说明】
图1为本发明实施例一的系统结构示意图;
图2为本发明实施例二的方法步骤流程图;
图3为本发明实施例三的系统结构示意图;
图4为本发明实施例四的方法步骤流程图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
发明人通过研究发现,每天都有大量的工作人员或/和计算机自动对用户语音搜索输入的语音进行标注。标注保存的文本,即标注结果日志,无疑是最真实,最能准确描述用户语音搜索行为的资源。如果将其加入语言模型训练,则可将识别准确率提升。
实施例一、本实施例提供了一种语言模型训练系统,参见图1所示,包括:第一收集单元10、第一训练单元11和第一语言模型库12、第一日志预处理单元13、第二收集单元14、第二训练单元15、第二语言模型库16、结合单元17、第三语言模型库18,以及第二日志预处理单元19。
具体地,用户可通过语音搜索引擎发起语音搜索请求,即对语音搜索引擎输入语音。第一收集单元10将用户的该语音收集后,由人工或计算机自动进行语音标注,并形成标注结果日志。第一收集单元10收集各种标注结果日志后,由第一日志预处理单元13对收集的标注结果日志进行预处理,例如合并相同标注结果,剔除敏感词汇等。第一训练单元11对预处理后的标注结果日志进行训练,并生成标注结果语言模型。第一语言模型库12将生成的标注结果语言模型保存。
标注结果语言模型中具体包括:各词语在标注结果文本中的文法概率关系,文法概率关系可以通过下述公式得出:
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;分子C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;分母∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
另一方面,本实施例中用户可采用键盘等输入设备,通过网页搜索引擎(搜索框)发起文本的搜索请求。第二收集单元14将用户的检索日志收集后,由第二日志预处理单元19对收集的检索日志进行预处理,例如合并相同词汇,剔除敏感词汇等。第二训练单元15对行预处理后的检索日志进行训练,并生成检索日志语言模型。第二语言模型库16将生成的检索日志语言模型保存。
检索日志语言模型中具体包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;分子C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;分母∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
为了更加准确的描述语音搜索行为,发明人经研究发现如果以标注结果语言模型对检索日志语言模型进行自适应,即令检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率,可达到更优的效果。因此,本实施例中结合单元17通过但不限于插值法,将第一语言模型库12中存储的标注结果语言模型以及第二语言模型库16中存储的检索日志语言模型相结合,形成最终的语言模型,并存储于第三语言模型库18中,以备后续调用。
最终的语言模型(即结合后得到的语言模型)中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数,用于调节标注结果语言模型和检索日志语言模型在Pc(wn|w1w2...wn-1)中的权重。
在具体实现中λ2大于λ1,即可以给标注结果语言模型较小的插值系数,给检索日志语言模型较大的插值系数,使得检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率。
可见,本实施例中参考了真实语音搜索行为,收集语音搜索的标注结果日志作为文本语料,并对标注结果日志进行训练,生成标注结果语言模型。进一步,还通过插值法将标注结果语言模型与检索日志语言模型相结合,插值的来源包括标注语言模型,所以和用户的真实语音搜索概率较为匹配,同时包含了检索日志语言模型,所以覆盖面较全,规避了标注语言模型覆盖面较小的问题,使得最终的语言模型更加完备。基于此进行的语音搜索可获得较高的识别准确率,并且以此循环操作,不断优化最终的语言模型库,可产生自适应的效果。
实施例二、本实施例提供了一种语言模型训练方法,参见图2所示,包括下列步骤:
S20、收集语音搜索的标注结果日志。
本步骤中,用户可通过语音搜索引擎发起语音搜索请求,即对语音搜索引擎输入语音,将用户的该语音收集后,由人工或计算机自动进行语音标注,并形成标注结果日志。之后,将各种标注结果日志收集起来。
S21、预处理收集的标注结果日志。
本步骤中,对收集的标注结果日志进行预处理,例如合并相同标注结果,剔除敏感词汇等。
S22、对预处理后的标注结果日志进行训练,并生成标注结果语言模型。
本步骤中,标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
S23、存储标注结果语言模型,并跳转至步骤S28。
S24、收集文本搜索的检索日志。
S25、预处理收集的检索日志。
本步骤中,对收集的检索日志进行预处理,例如合并相同词汇,剔除敏感词汇等。
S26、对预处理后的检索日志进行训练,并生成检索日志语言模型。
本步骤中,所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
S27、存储检索日志语言模型。
S28、通过但不限于插值法,将存储的所述标注结果语言模型以及所述检索日志语言模型相结合。
发明人经研究发现如果以标注结果语言模型对检索日志语言模型进行自适应,即令检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率,可达到更优的效果。因此,本步骤中通过但不限于插值法将标注结果语言模型以及检索日志语言模型结合成最终的语言模型。
最终的语言模型(即结合后得到的语言模型)中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数,用于调节标注结果语言模型和检索日志语言模型在Pc(wn|w1w2...wn-1)中的权重。
在具体实现中λ2大于λ1,即可以给标注结果语言模型较小的插值系数,给检索日志语言模型较大的插值系数,使得检索日志语言模型一定程度上偏向用户的真实语音搜索的语言概率。
S29、存储结合后得到的语言模型。
可见,本实施例中参考了真实语音搜索行为,收集语音搜索的标注结果日志作为文本语料,并对标注结果日志进行训练,生成标注结果语言模型。进一步,还通过插值法将标注结果语言模型与检索日志语言模型相结合,插值的来源包括标注语言模型,所以和用户的真实语音搜索概率较为匹配,同时包含了检索日志语言模型,所以覆盖面较全,规避了标注语言模型覆盖面较小的问题,使得最终的语言模型更加完备。基于此进行的语音搜索可获得较高的识别准确率,并且以此循环操作,不断优化最终的语言模型库,可产生自适应的效果。
实施例三、本实施例提供了一种语音识别系统,以语音搜索请求中的语言作为识别对象为例,采用实施例一中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型。参见图3所示,包括:客户端31和服务器32。
用户发起语音搜索请求后,由客户端31接收该语音搜索请求。通过网络将该语音搜索请求传送给服务器32,其间可以由人工或计算机自动进行语音标注。服务器32收到该语音搜索请求后,利用实施例一或实施例二最终得到的语言模型对语音搜索请求进行识别,得到识别结果,即将其中的语音与最终得到的语言模型进行匹配,得到与该语音相匹配的文本。
更进一步地,服务器32能够利用识别结果进行搜索,例如网页搜索、应用搜索等,并将搜索结果返回给客户端31。当然,服务器32也可以利用识别结果进行其他进一步处理。
可见,采用实施例一中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型,即参考了真实语音搜索行为,使得后续的匹配更准确,识别率更高。另一方面,在通过网络将语音搜索请求传送给服务器的过程中还可由人工或计算机自动进行语音标注,并作为实施例一中的训练语料,不断使标注结果语言模型、结合后最终得到的语言模型与真实语音分布相接近,可产生自适应的效果。
实施例四、本实施例提供了一种语音识别方法,以语音搜索请求中的语言作为识别对象为例,采用实施例二中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型。参见图4所示,包括下列步骤:
S41、接收用户发起的语音搜索请求。
S42、根据语言模型对语音搜索请求进行识别,得到识别结果。
本步骤实际上讲语音搜索请求中的语音与实施例一或二最终得到的语言模型进行匹配,得到与该语音相匹配的文本。
S43、根据识别结果进行搜索,并返回搜索结果。
上述的搜索包括但不限于:网页搜索、应用搜索等,当然也可以利用识别结果进行其他进一步处理。
可见,采用实施例二中所述的经结合后最终得到的语言模型作为本实施例中应用的语言模型,即参考了真实语音搜索行为,使得后续的匹配更准确,识别率更高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种语言模型训练系统,其特征在于,包括:
第一收集单元,用于收集语音搜索的标注结果日志;
第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;
第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;
第一语言模型库,用于存储所述标注结果语言模型;
第二收集单元,用于收集文本搜索的检索日志;
第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练;
第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;
第二语言模型库,用于存储所述检索日志语言模型;
结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;
第三语言模型库,用于存储结合后得到的语言模型。
2.根据权利要求1所述的系统,其特征在于,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;
所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
3.根据权利要求2所述的系统,其特征在于,所述第三语言模型库存储的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
4.根据权利要求3所述的系统,其特征在于,所述λ2大于所述λ1
5.一种语言模型训练方法,其特征在于,包括下列步骤:
S1、收集语音搜索的标注结果日志,预处理收集的标注结果日志,对标注结果日志进行训练,生成并存储标注结果语言模型;以及,收集文本搜索的检索日志,预处理所述的检索日志,对检索日志进行训练,生成并存储检索日志语言模型;
S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合,存储结合后得到的语言模型。
6.根据权利要求5所述的方法,其特征在于,所述的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;
所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
7.根据权利要求6所述的方法,其特征在于,步骤S2中所述的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
8.根据权利要求7所述的方法,其特征在于,所述λ2大于所述λ1
9.一种语音识别系统,其特征在于,包括:客户端和服务器;
所述客户端,用于接收用户发起的语音请求,将该语音请求发送给所述服务器;
所述服务器,用于利用语言模型对所述语音请求进行识别,得到语音识别结果;
其中,所述语言模型为权利要求1至4任一项训练出的所述结合后得到的语言模型。
10.一种语音识别方法,其特征在于,包括下列步骤:
接收用户发起的语音请求;
根据语言模型对所述语音请求进行识别,得出识别结果;
其中,所述语言模型为权利要求5至8任一项训练出的所述结合后得到的语言模型。
CN201210533887.1A 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法 Active CN103871402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210533887.1A CN103871402B (zh) 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210533887.1A CN103871402B (zh) 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法

Publications (2)

Publication Number Publication Date
CN103871402A CN103871402A (zh) 2014-06-18
CN103871402B true CN103871402B (zh) 2017-10-10

Family

ID=50909867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210533887.1A Active CN103871402B (zh) 2012-12-11 2012-12-11 语言模型训练系统、语音识别系统及相应方法

Country Status (1)

Country Link
CN (1) CN103871402B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410532A (zh) * 2014-12-12 2015-03-11 携程计算机技术(上海)有限公司 服务器及其日志过滤方法
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
CN106951468B (zh) * 2017-03-02 2018-12-28 腾讯科技(深圳)有限公司 对话生成方法及装置
CN108021559B (zh) * 2018-02-05 2022-05-03 威盛电子股份有限公司 自然语言理解系统以及语意分析方法
CN109599095B (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 一种语音数据的标注方法、装置、设备和计算机存储介质
CN109949797B (zh) * 2019-03-11 2021-11-12 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
CN111696531A (zh) * 2020-05-28 2020-09-22 升智信息科技(南京)有限公司 一种利用话术语句提升语音识别准确率的识别方法
CN112216284B (zh) * 2020-10-09 2024-02-06 携程计算机技术(上海)有限公司 训练数据更新方法及系统、语音识别方法及系统、设备
CN112562640B (zh) * 2020-12-01 2024-04-12 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236639A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 更新语言模型的系统和方法
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置

Also Published As

Publication number Publication date
CN103871402A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN103871402B (zh) 语言模型训练系统、语音识别系统及相应方法
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
Cai et al. Audio‐Textual Emotion Recognition Based on Improved Neural Networks
WO2023273170A1 (zh) 一种迎宾机器人对话方法
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
US12093648B2 (en) Systems and methods for producing a semantic representation of a document
CN107220386A (zh) 信息推送方法和装置
CN110928994A (zh) 相似案例检索方法、相似案例检索装置和电子设备
CN111694940B (zh) 一种用户报告的生成方法及终端设备
CN104008132B (zh) 语音地图搜索方法及系统
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
CN106960030A (zh) 基于人工智能的推送信息方法及装置
CN105893389A (zh) 一种语音信息搜索方法、装置及服务器
Kaushik et al. Automatic sentiment extraction from YouTube videos
Zhu et al. Catslu: The 1st chinese audio-textual spoken language understanding challenge
González et al. Siamese hierarchical attention networks for extractive summarization
Su et al. Improving spoken question answering using contextualized word representation
US20090182759A1 (en) Extracting entities from a web page
CN116561271A (zh) 问答处理方法及装置
CN112528679A (zh) 一种意图理解模型训练方法及装置、意图理解方法及装置
Chen et al. Sentimental analysis of Chinese new social media for stock market information
CN102750278B (zh) 信息的获取方法和装置
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
Sandoval What if We Use Fewer Data to Classify Tourist Opinions in Spanish?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant