CN105159473B - 一种语言模型计算处理方法及系统 - Google Patents

一种语言模型计算处理方法及系统 Download PDF

Info

Publication number
CN105159473B
CN105159473B CN201510504959.3A CN201510504959A CN105159473B CN 105159473 B CN105159473 B CN 105159473B CN 201510504959 A CN201510504959 A CN 201510504959A CN 105159473 B CN105159473 B CN 105159473B
Authority
CN
China
Prior art keywords
entry
models
cost values
npos
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510504959.3A
Other languages
English (en)
Other versions
CN105159473A (zh
Inventor
肖日新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510504959.3A priority Critical patent/CN105159473B/zh
Publication of CN105159473A publication Critical patent/CN105159473A/zh
Application granted granted Critical
Publication of CN105159473B publication Critical patent/CN105159473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种语言模型计算处理方法及系统,所述方法包括:根据输入发音,对训练语料数据进行查询,得到所述发音对应的词条;通过ngram模型结合npos模型来计算所述词条的cost值;以及选取所述计算出的cost值最小词条作为候选结果。通过采用本发明可使传统ngram模型具有npos模型的拓展性,有效其改善对于新词、热词的整句变换能力。

Description

一种语言模型计算处理方法及系统
技术领域
本发明涉及语言建模技术领域,更为具体而言,涉及一种语言模型计算处理方法及系统。
背景技术
随着信息智能技术的普遍应用,各类语言输入法不断更新。然而,在传统输入法中常用的模型为npos模型和ngram模型,ngram模型对于变换结果比较好,npos模型对于词条拓展比较方便.两者各具优势。传统的ngram模型对于新词热词不具备整句变换能力。因此,急需一种能够使npos模型和ngram模型融合的语言模型计算处理及系统。
发明内容
为了解决传统的ngram模型对于新词热词不具备整句变换能力的问题,本发明实施方式提供了一种语言模型计算处理方法及系统。
一方面,本发明实施方式提供了一种语言模型计算处理方法,所述方法包括:
根据输入发音,对训练语料数据进行查询,得到所述发音对应的词条;
通过ngram模型结合npos模型来计算所述词条的cost值;以及
选取所述计算出的cost值最小词条作为候选结果。
相应的,本发明实施方式还提供了一种语言模型计算处理系统,所述系统包括:
查询模块,用于根据输入发音,对训练语料数据进行查询,得到所述发音对应的词条;
计算模块,用于通过ngram模型结合npos模型来计算所述词条的cost值;
选取模块,用于选取所述计算出的cost值最小词条作为候选结果。
实施本发明的各种实施方式可使传统ngram模型具有npos模型的拓展性,有效其改善对于新词、热词的整句变换能力。
附图说明
图1是根据本发明实施方式的一种语言模型计算处理方法的流程图;
图2是根据本发明实施方式的一种语言模型计算处理系统的架构图;
图3示出了图2所示的查询模块100的框图;
图4示出了图2所示的选取模块300的框图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
图1是根据本发明实施方式的一种语言模型计算处理方法的流程图,参见图1,所述方法包括如下步骤:
步骤S1,根据输入发音,对训练语料数据进行查询,得到所述发音对应的词条;其中,具体包括:对所述发音进行逐字符组合(例如,输入发音为ABC,按字节切分后可能的组合为:A+B+C,AB+C,A+BC,ABC),获取所有可能的发音片段,并根据所述发音片段查询对应的词条。例如:当输入发音xian(拼音字符),进行逐字符组合,即可出现两种发音片段:xi’an和xian,获取这两种发音片段,并查询到对应的词条“西安”和“先”等多个同音词条。
步骤S2,通过ngram模型结合npos模型来计算所述词条的cost值,其中,当第N+1个词条与前N个词条不存在共现信息时,则通过所述npos模型计算所述词条的cost值,其中,N为不小于1的整数,具体而言,计算cost值包括:计算所述前N个词条的词性共现频次以及各个词性到词的cost值。其中,传统的ngram模型计算cost值c的方法是:
c=cost(word1,word2,word3,…,wordn)
本发明中,结合npos模型计算cost值c的方法是:
c=trans_cost(class1,class2,class3,…,classn)+cost(class1,word1)+gen_cost(class2,word2)+gen_cost(class3,word3)+…+gen_cost(classn,wordn)
其中,trans_cost是由语料中各词条的词性的共现频次来计算的,gen_cost是由语料中各词性包含各词条的频次来计算的.具体计算公式为:
trans_cost=-1000*log(freq(class1,class2,class3,…,classn)/freq(class1,class2,class3,…,classn-1))
gen_cost=-1000*log(freq(word,class)/freq(class))
式中freq表示频次,可通过统计语料获得.语料来源为网络文本信息。
步骤S3,选取所述计算出的cost值最小词条作为候选结果,其中,可包括:按照所述cost值由小至大排列所述词条,选取前K个词条作为候选结果,可根据需要自行设置选取个数K,例如:cost值最小的一个词条,或排为cost值最小的前三名词条。
通过采用上述方法,可使传统ngram模型具有npos模型的拓展性,有效其改善对于新词、热词的整句变换能力。
图2是根据本发明实施方式的一种语言模型计算处理系统的架构图,参见图2,所述装置包括:
查询模块100,用于根据输入发音,对训练语料数据进行查询,得到所述发音对应的词条;
计算模块200,用于通过ngram模型结合npos模型来计算所述词条的cost值,其中,当第N+1个词条与前N个词条不存在共现信息时,则通过所述npos模型计算所述词条的cost值,其中,N为不小于1的整数,具体而言,计算cost值包括:计算所述前N个词条的词性共现频次以及各个词性到词的cost值。其中,传统的ngram模型计算cost值c的方法是:
c=cost(word1,word2,word3,…,wordn)
本发明中,结合npos模型计算cost值c的方法是:
c=trans_cost(class1,class2,class3,…,classn)+cost(class1,word1)+gen_cost(class2,word2)+gen_cost(class3,word3)+…+gen_cost(classn,wordn)
其中,trans_cost是由语料中各词条的词性的共现频次来计算的,gen_cost是由语料中各词性包含各词条的频次来计算的.具体计算公式为:
trans_cost=-1000*log(freq(class1,class2,class3,…,classn)/freq(class1,class2,class3,…,classn-1))
gen_cost=-1000*log(freq(word,class)/freq(class))
式中freq表示频次,可通过统计语料获得.语料来源为网络文本信息;
选取模块300,用于选取所述计算出的cost值最小词条作为候选结果。
通过采用上述系统,可使传统ngram模型具有npos模型的拓展性,有效其改善对于新词、热词的整句变换能力。
图3示出了图2所示的查询模块100的框图;参见图3,所述查询模块100包括:
字符组合单元110,用于对所述发音进行逐字符组合,例如,输入发音为ABC,按字节切分后可能的组合为:A+B+C,AB+C,A+BC,ABC);
获取单元120,用于获取所有可能的发音片段以及
查询单元130,用于根据所述发音片段查询对应的词条。
例如:当输入发音xian(拼音字符),进行逐字符组合,即可出现两种发音片段:xi’an和xian,获取这两种发音片段,并查询到对应的词条“西安”和“先”等多个同音词条。
图4示出了图2所示的选取模块300的框图,参见图4,所述选取模块300包括:
排列单元310,用于按照所述cost值由小至大排列所述词条;以及
选取单元320,用于选取前K个词条作为候选结果,可根据需要自行设置选取个数K,例如:cost值最小的一个词条,或排为cost值最小的前三名词条。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (8)

1.一种语言模型计算处理方法,其特征在于,所述方法包括:
根据输入发音,对训练语料数据进行查询,得到所述发音对应的词条;
通过n元语法ngram模型结合npos模型来计算所述词条的转移概率cost值;以及
选取所述计算出的cost值最小词条作为候选结果;
其中,所述通过ngram模型结合npos模型来计算所述词条的cost值包括:
当第N+1个所述词条与前N个词条不存在共现信息时,则通过所述npos模型计算所述词条的cost值,其中,N为不小于1的整数。
2.如权利要求1所述的方法,其特征在于,所述对训练语料数据进行查询,得到所述发音对应的词条包括:
对所述发音进行逐字符组合,获取所有可能的发音片段,并根据所述发音片段查询对应的词条。
3.如权利要求2所述的方法,其特征在于,所述通过所述npos模型计算所述词条的cost值包括:
计算所述前N个词条的词性共现频次以及各个词性到词的cost值。
4.如权利要求1所述的方法,其特征在于,所述选取所述计算出的cost值最小词条作为候选结果包括:
按照所述cost值由小至大排列所述词条,选取一个或多个所述最小词条作为候选结果。
5.一种语言模型计算处理系统,其特征在于,所述系统包括:
查询模块,用于根据输入发音,对训练语料数据进行查询,得到所述发音对应的词条;
计算模块,用于通过ngram模型结合npos模型来计算所述词条的cost值;
选取模块,用于选取所述计算出的cost值最小词条作为候选结果;
其中,所述通过ngram模型结合npos模型来计算所述词条的cost值包括:
当第N+1个所述词条与前N个词条不存在共现信息时,则通过所述npos模型计算所述词条的cost值,其中,N不小于1的整数。
6.如权利要求5所述的系统,其特征在于,所述查询模块包括:
字符组合单元,用于对所述发音进行逐字符组合;
获取单元,用于获取所有可能的发音片段以及
查询单元,用于根据所述发音片段查询对应的词条。
7.如权利要求5所述的系统,其特征在于,
所述通过所述npos模型计算所述词条的cost值包括:
计算前N个词条的词性共现频次以及各个词性到词的cost值。
8.如权利要求5所述的系统,其特征在于,所述选取模块包括:
排列单元,用于按照所述cost值由小至大排列所述词条;以及
选取单元,用于选取一个或多个所述最小词条作为候选结果。
CN201510504959.3A 2015-08-17 2015-08-17 一种语言模型计算处理方法及系统 Active CN105159473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510504959.3A CN105159473B (zh) 2015-08-17 2015-08-17 一种语言模型计算处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510504959.3A CN105159473B (zh) 2015-08-17 2015-08-17 一种语言模型计算处理方法及系统

Publications (2)

Publication Number Publication Date
CN105159473A CN105159473A (zh) 2015-12-16
CN105159473B true CN105159473B (zh) 2018-02-13

Family

ID=54800353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510504959.3A Active CN105159473B (zh) 2015-08-17 2015-08-17 一种语言模型计算处理方法及系统

Country Status (1)

Country Link
CN (1) CN105159473B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673836B (zh) * 2019-08-22 2023-05-23 创新先进技术有限公司 一种代码补全方法、装置、计算设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300050A (zh) * 1999-12-13 2001-06-20 索尼国际(欧洲)股份有限公司 语音识别方法
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN103076893A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN103325370A (zh) * 2013-07-01 2013-09-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009040790A2 (en) * 2007-09-24 2009-04-02 Robert Iakobashvili Method and system for spell checking

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300050A (zh) * 1999-12-13 2001-06-20 索尼国际(欧洲)股份有限公司 语音识别方法
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN103076893A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN103325370A (zh) * 2013-07-01 2013-09-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于统计的计算语言模型;关毅 等;《计算机应用研究》;19991231(第6期);第26-28页 *
面向日文输入法的混合语言模型的改进与实现;陈龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140415(第4期);第7-18页 *

Also Published As

Publication number Publication date
CN105159473A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
US11551007B2 (en) Determining intent from a historical vector of a to-be-analyzed statement
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN107491547A (zh) 基于人工智能的搜索方法和装置
JP5998194B2 (ja) 対話型検索方法および装置
CN108563636A (zh) 提取文本关键词的方法、装置、设备及存储介质
CN108717410B (zh) 命名实体识别方法及系统
US10824816B2 (en) Semantic parsing method and apparatus
CN104657346A (zh) 智能交互系统中的问题匹配方法和系统
US10199036B2 (en) Method and device for implementing voice input
JP6849723B2 (ja) 情報を生成するための方法及び装置
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
US20160275083A1 (en) Method and generating apparatus latent keyword
JP2017204018A (ja) 検索処理方法、検索処理プログラムおよび情報処理装置
EP3832475A1 (en) Sentence processing method and system and electronic device
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
CN105159473B (zh) 一种语言模型计算处理方法及系统
KR101955920B1 (ko) 속성 언어를 이용한 검색 방법 및 장치
CN104077320B (zh) 一种用于生成待发布信息的方法和装置
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
EP2778971A1 (en) Rule triggering for search rule engine
JP2013225200A (ja) 意味的対応付け装置及びその処理方法とプログラム
CN110609995B (zh) 构建藏语问答语料库的方法及装置
CN112988993A (zh) 一种问答方法和计算设备
JP2011243166A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant