CN102890723B - 一种例句检索的方法及系统 - Google Patents

一种例句检索的方法及系统 Download PDF

Info

Publication number
CN102890723B
CN102890723B CN201210413295.6A CN201210413295A CN102890723B CN 102890723 B CN102890723 B CN 102890723B CN 201210413295 A CN201210413295 A CN 201210413295A CN 102890723 B CN102890723 B CN 102890723B
Authority
CN
China
Prior art keywords
example sentence
query
sentence
phrase
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210413295.6A
Other languages
English (en)
Other versions
CN102890723A (zh
Inventor
杨振东
石志伟
周步恋
车天文
王更生
王喜民
何宏靖
徐忆苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen easou world Polytron Technologies Inc
Original Assignee
Shenzhen Yisou Science & Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yisou Science & Technology Development Co Ltd filed Critical Shenzhen Yisou Science & Technology Development Co Ltd
Priority to CN201210413295.6A priority Critical patent/CN102890723B/zh
Publication of CN102890723A publication Critical patent/CN102890723A/zh
Application granted granted Critical
Publication of CN102890723B publication Critical patent/CN102890723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,提供了一种通过查询词进行例句检索的方法,包括,获取用户输入的查询词;对用户输入的query进行处理;在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;输出例句并展示例句中的短语。本发明还提供了一种通过查询词进行例句检索的系统。采用本发明提供的方案,在进行query与例句相关性计算时综合考虑了各种因素:例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算,比起其它相关性计算方法显示了优势。

Description

一种例句检索的方法及系统
技术领域
本发明涉及自然语言处理领域,特别地涉及一种例句检索的方法及系统。
背景技术
随着互联网技术的深入发展,使得人们在写作或语言学习中获得所需的信息更加便利。例句检索辅助用户获取与输入匹配的(双语)例句,从而满足用户了解词的用法或翻译的需求。另外,在机器翻译中,也会用到例句检索从而使得翻译更加精准。
截至目前为止,有关例句检索中query(即查询词)与例句相关性计算方法主要有以下几种:一是根据例句中匹配的query个数或长度计算;二是根据例句长度及匹配query字符串长度计算;三是根据query与例句的编辑距离计算。如CN 102346777公开了一种对例句检索结果进行排序的方法和装置,其中使用搭配来体现query的用法,但没有综合考虑例句中query的有关句法特征、例句本身的特征等因素,并且搭配概率的计算公式没有考虑query在搭配中所起的作用或所做的成分,搭配概率计算中笼统的采用了统一的计算公式。CN 1471030公开了一种基于加权编辑距离的自动例句检索的系统和方法,其中,通过编辑距离来进行检索,但依然侧重于query的字符串匹配。
这几种方法都侧重于词层次的字符串匹配,基于字符串匹配的相关性计算方法只侧重给出包含query的例句,没有涉及到给出的例句中是否体现了query用法的多样性及翻译的多样性,这样排序靠前的例句很可能满足不了用户的意图。
用户使用例句检索最主要是为了解query的相关用法或者翻译,而现有的 例句与query的相关性计算大多只考虑了字符串层次的匹配,无法满足用户的需求,具体输出的例句检索结果存在以下问题:
1.例句仅注重词层次的匹配,未必体现query的常用(或某种)用法或翻译的多样性;
2.可能输出具有歧义的结果;
如输入query:有道
输出:他右边太阳穴上有道伤痕(只列出单语部分)。
而用户意图为输出含“经营有道”、“取之有道”之类的例句,这样的结果与用户意图相左。
3.输出结构不完整的例句;
4.输出例句过长或过短;
5.输出例句所含信息不丰富;
如输入query:清明节
输出:清明节是什么?
发明内容
本发明解决的技术问题在于提供了一种例句检索的方法,以更好地满足用户的需求;本发明还提供了一种例句检索的系统。
本发明实施例提供了一种例句检索的方法,包括,获取用户输入的查询词;对用户输入的query进行处理;在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;输出例句并展示例句中的短语。
本发明实施例还提供了一种例句检索的系统,包括,
查询词获取模块,用于获取用户输入的查询词;
查询词处理模块,用于对用户输入的query进行处理;
相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
例句输出模块,用于输出例句并展示例句中的短语。
采用本发明实施例提供的方案,在进行query与例句相关性计算时综合考虑了各种因素::例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算,引入query相关短语反映query用法,引入句法信息使得含有query句法意义的例句具有优势,引入例句结构完整性信息使得输出例句更加规整,并结合例句句长、所含数字标点的噪音特征共同进行相关性计算,比起其它相关性计算方法显示了优势。
对某天的query log进行采样,分别抽取80个中文query与英文query,比较本方法的输出与传统基于字符串匹配方法的例句输出的效果,效果变好的占53%,效果相当的占47%,可见本发明所提方案非常有效。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明第一实施例流程图;
图2是query翻译多样性检索结果展现示意图;
图3是query用法多样性检索结果展现示意图;
图4是query用法多样性同种短语例句展现示意图;
图5是本发明第二实施例系统结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明第一实施例流程图,提供了一种进行例句检索的方法,具体包括,
步骤S101,获取用户输入的查询词query;
具体地,用户输入的query中单个的词占的比例较大,此处仅考虑单个词的query。
步骤S102,对用户输入的query进行处理;
对用户的query进行处理,是指用户输入时可能会输入多余的空格、标点、数字或乱码,甚至会出现用户输错某个字或词,在这种情况要进行处理,要进行纠错处理。
步骤S103,在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
具体地,根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。输出双语例句时,最终概率为中英双语例句相关性概率的算术平均值。具体地,计算方法如下:
1.query在例句中的与其它词构成短语的短语概率pphr
用户输入query极有可能是想了解query的用法,这种用法在例句中由query与其它词构成的常用短语来体现,在这些短语中,query有可能是短语的核心词,也可能不是,这两种情况区别计算短语概率,如conflict(冲突)在短语“conflict with”(与......冲突)中是一个核心词,在“resolve conflict”中为 一个非核心词,采用如下短语概率计算公式:
p p h r ( p h r ( w q , w ) ) = δ ( w q , w q k ) f ( p h r ( w q k , w ) ) max i ( f ( p h r ( w q k , w i ) ) ) + δ ( w q , w q n k ) f ( p h r ( w q n k , w ) ) max i ( f ( p h r ( w q n k , w i ) ) )
其中,wq表示用户输入query,w为例句中的词,phr(wq,w)表示wq与w构成短语,δ(wq,wqk)表示构成的短语中wq为核心词,δ(wq,wqnk)表示构成的短语中wq为非核心词,且有:
若wq为核心词,则δ(wq,wqk)=1,δ(wq,wqnk)=0。
若wq为非核心词,则δ(wq,wqnk)=1,δ(wq,wqk)=0。
f表示短语出现频率max表示取最大值,表示当有多个词与query构成短语(wq为核心词或非核心词)时,取频率最大值进行归一。
对于短语中的核心词,可根据语言学知识判断。当例句中与query构成的短语有多个时,选取概率最大的短语作为短语概率。在例句检索中短语概率存储于短语模型中。
2.query在例句中相关句法结点概率psyn
p s y n ( T ( s y n ( w 1 ... w q ... w n ) , N ) ) = f ( T ( s y n ( w 1 ... w q ... w n ) , N ) ) Σ i f ( T ( s y n ( w 1 ...... w n ) , N i ) )
f为出现频率,wq为用户输入query,syn(w1...wq...wn)表示(w1...wq...wn)构成一个句法结点,T(syn(w1...wq...wn),N)表示句法结点的句法标识符为N(如NP,VP等),句法标识概率基于语料库统计计算得出。对于未构成句法结点情况,规定句法概率为一个很小的数值η。在例句检索中,句法结点概率存储于句法模型中。
3.句子结构完整性概率Pcom
以句法分析是否归结到S来反映句子结构是否完整,由于在例句库中绝大多数例句均归结到S,所以对于未归结到S的情况给予很重惩罚。
若句法解析归结到S,Pcom=0.99,否则Pcom=10-7
4.句长概率PLen
句子长短适中的句子更能满足用户需求,并且直观感觉较好,因此句长概率按如下公式计算:
p l e n = e - ( L - u ) σ
L为句子长度,u为句长均值,且:
若8=<L<=22,u=L;
若L<8,u=8,σ=8;
若L>25,u=15,σ=8;
5.例句中所含标点、数字等的噪音概率Ppun
此概率主要用来惩罚标点、数字、例句结尾与开头等出现特殊情形的问题,根据例句长度与所含标点、数字数目及例句结尾与开头词的特征等给予不同的概率,从而使得不规范的例句排序靠后。
相关性概率计算综合考虑以上因素,公式如下:
Prel=λ1logPphr2logPsyn3logPcom4logPlen5logPpun
各个概率前面的加权系数可通过开发集训练或者根据实际情况调整。
步骤S104,根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
若以上步骤中得到的相关性概率不进行调整,很可能造成含有某种短语 的所有例句均排在靠前的位置,不能体现query用法的多样性。为了突出例句中所包含的query翻译的多样性与用法的多样性,对例句相关性概率进行调整:
1.Query用法多样性优先原则:
若根据相关性概率已有包含同一短语的n条例句排在前面,则当前例句相关性概率按照如下公式调整:
p rel _ ad = p rel n + 1
2.Query翻译多样性原则:
用户有可能想了解输入query的多种翻译与query多样性类似,对相关性进行调整,如已有m条相同翻译的例句排在前面,则当前例句相关性概率如下调整:
p rel _ ad = p rel m + 1
根据调整后的例句相关性概率对例句进行排序。
步骤S105,输出例句并展示例句中的短语。
具体地,在输出例句时,query及其翻译在双语中进行颜色标示,且含有短语的例句在例句右下角进行短语标示,双语右方设置按钮,按任一单语端按钮都可展现或关闭同种搭配的k条例句。
输出时,有两种展现方式:
翻译多样性展现;
用户输入query有可能想了解其多种翻译,按照翻译概率循环输出例句,即先输出第一种翻译(按照翻译概率大小排列)的相关性最高的例句,再输出第二种翻译的相关性最高的例句……,输出第n种翻译的相关性最高例句,再输出第一种翻译的相关性次高的例句……。
如图2所示,是query翻译多样性检索结果展现示意图;对于“succeed”, 可翻译成“成功”、“继承”、“接替”等,可根据翻译概率循环输出例句。
query用法的多样性展现。
以query与例句中词组成的短语来体现query用法的多样性,即先输出第一种query常用短语(按照短语概率大小排列)的相关性最高的例句,再输出第二种短语的相关性最高的例句……,输出第n种短语的相关性最高例句,再输出第一种短语的相关性次高的例句……。
如图3所示,是query用法多样性检索结果展现示意图;对于“protect”,常用短语有“protect......from”,“protect......against”,“protect environment”等等,可根据短语概率循环输出。
如图4所示,是query用法多样性展现时,同种短语的例句展现示意图;当前例句中含有query相关短语,则在双语例句右下方标示短语(双语),且短语右方设置展示按钮,当点击按钮时,含有相同短语的k条例句会显示出,再次点击隐藏相应例句。如图4点击短语“protect...from...”按钮,会显示出k条含“protect...from...”的例句。
如图5所示,是本发明第二实施例系统结构图,提供了一种例句检索的系统,具体包括,
查询词获取模块,用于获取用户输入的查询词;
相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
例句输出模块,用于输出例句并展示例句中的短语。
上述系统中,还包括,
查询词处理模块,用于对用户输入的query进行处理;
上述系统中,其中,所述相关性计算模块具体用于根据例句中query与其 它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种例句检索的方法,其特征在于,包括,
获取用户输入的单个查询词query;
在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
输出例句并展示例句中的短语;
根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序具体包括,
根据Query用法多样性优先原则:若根据相关性概率已有包含同一短语的n条例句排在前面,则当前例句相关性概率按照如下公式调整:
根据Query翻译多样性原则:如已有m条相同翻译的例句排在前面,则当前例句相关性概率如下调整:
根据调整后的例句相关性概率对例句进行排序;
Prel为所述query与例句的相关性概率。
2.根据权利要求1所述的方法,其特征在于,在获取用户输入的查询词后,还包括,
对用户输入的query进行处理。
3.根据权利要求1或2所述的方法,其特征在于,所述在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算具体包括,
根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。
4.根据权利要求3所述的方法,其特征在于,
query在例句中的与其它词构成短语的短语概率pphr
其中,wq表示用户输入query,w为例句中的词,phr(wq,w)表示wq与w构成短语,δ(wq,wqk)表示构成的短语中wq为核心词,δ(wq,wqnk)表示构成的短语中wq为非核心词,且有:
若wq为核心词,则δ(wq,wqk)=1,δ(wq,wqnk)=0;
若wq为非核心词,则δ(wq,wqnk)=1,δ(wq,wqk)=0;
f表示短语出现频率,max表示取最大值,表示当有多个词与query构成短语,wq为核心词或非核心词时,取频率最大值进行归一;
query在例句中相关句法结点概率psyn
f为出现频率,wq为用户输入query,syn(w1...wq...wn)表示(w1...wq...wn)构成一个句法结点,T(syn(w1...wq...wn),N)表示句法结点的句法标识符为N,句法标识概率基于语料库统计计算得出;
句子完整性概率Pcom
以句法分析是否归结到S来反映句子结构是否完整,
若句法解析归结到S,Pcom=0.99,否则Pcom=10-7
句长概率为:
L为句子长度,u为句长均值,
例句中所含标点、数字的噪音概率Ppun,根据例句长度与所含标点、数字数目及例句结尾与开头词的特征给予不同的概率,从而使得不规范的例句排序靠后。
5.根据权利要求4所述的方法,其特征在于,相关性概率计算公式如下:
Prel=λ1logPphr2logPsyn3logPcom4logPlen5logPpun
各个概率前面的加权系数λ1、λ2、λ3、λ4、λ5通过开发集训练或者根据实际情况调整。
6.根据权利要求1或2所述的方法,其特征在于,所述输出例句并展示例句中的短语具体为,
在输出例句时,query及其翻译在双语中进行颜色标示,且含有短语的例句在例句右下角进行短语标示,双语右方设置按钮,按任一单语端按钮进行展现或关闭同种搭配的k条例句。
7.根据权利要求6所述的方法,其特征在于,所述展现的方式包括,
按照翻译概率循环输出例句,即先输出第一种翻译的相关性最高的例句,再输出第二种翻译的相关性最高的例句,直至输出第n种翻译的相关性最高例句,再输出第一种翻译的相关性次高的例句;或者
以query与例句中词组成的短语来体现query用法的多样性,即先输出第一种query常用短语的相关性最高的例句,再输出第二种短语的相关性最 高的例句,直至输出第n种短语的相关性最高例句,再输出第一种短语的相关性次高的例句。
8.一种例句检索的系统,其特征在于,包括,
查询词获取模块,用于获取用户输入的单个查询词query;
相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
例句输出模块,用于输出例句并展示例句中的短语;
所述相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序具体包括,
根据Query用法多样性优先原则:若根据相关性概率已有包含同一短语的n条例句排在前面,则当前例句相关性概率按照如下公式调整:
根据Query翻译多样性原则:如已有m条相同翻译的例句排在前面,则当前例句相关性概率如下调整:
根据调整后的例句相关性概率对例句进行排序;
Prel为所述query与例句的相关性概率。
9.根据权利要求8所述的系统,其特征在于,还包括,
查询词处理模块,用于对用户输入的query进行处理。
10.根据权利要求8或9所述的系统,其特征在于,所述相关性计算模块具体用于根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性 计算。
CN201210413295.6A 2012-10-25 2012-10-25 一种例句检索的方法及系统 Active CN102890723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210413295.6A CN102890723B (zh) 2012-10-25 2012-10-25 一种例句检索的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210413295.6A CN102890723B (zh) 2012-10-25 2012-10-25 一种例句检索的方法及系统

Publications (2)

Publication Number Publication Date
CN102890723A CN102890723A (zh) 2013-01-23
CN102890723B true CN102890723B (zh) 2016-08-31

Family

ID=47534225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210413295.6A Active CN102890723B (zh) 2012-10-25 2012-10-25 一种例句检索的方法及系统

Country Status (1)

Country Link
CN (1) CN102890723B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077158A (zh) * 2013-02-19 2013-05-01 吴志超 基于语料库的计算机辅助写作系统
CN105468609A (zh) * 2014-08-27 2016-04-06 中兴通讯股份有限公司 一种获取复述短语的方法及装置、问题改写方法及装置
CN107305575B (zh) 2016-04-25 2021-01-26 北京京东尚科信息技术有限公司 人机智能问答系统的断句识别方法和装置
US11704497B2 (en) 2020-09-09 2023-07-18 International Business Machines Corporation Generating and using a sentence model for answer generation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471030A (zh) * 2002-06-28 2004-01-28 基于加权编辑距离的自动例句检索的系统和方法
CN102346777A (zh) * 2011-10-09 2012-02-08 北京百度网讯科技有限公司 一种对例句检索结果进行排序的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471030A (zh) * 2002-06-28 2004-01-28 基于加权编辑距离的自动例句检索的系统和方法
CN102346777A (zh) * 2011-10-09 2012-02-08 北京百度网讯科技有限公司 一种对例句检索结果进行排序的方法和装置

Also Published As

Publication number Publication date
CN102890723A (zh) 2013-01-23

Similar Documents

Publication Publication Date Title
WO2021008180A1 (zh) 面向软件缺陷知识的知识搜索方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
US9697199B2 (en) Ideographical member identification and extraction method and machine-translation and manual-correction interactive translation method based on ideographical members
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
US8762358B2 (en) Query language determination using query terms and interface language
CN100565500C (zh) 获悉词组之间的转换关系的统计方法和装置
CN104182535B (zh) 一种人物关系抽取方法和装置
Cussens Part-of-speech tagging using Progol
CN109062892A (zh) 一种基于Word2Vec的中文语句相似度计算方法
CN102591857B (zh) 一种平行语料资源获取方法及系统
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及系统
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN105068997B (zh) 平行语料的构建方法及装置
JP2008152760A (ja) マシンアシスト翻訳ツール
CN106055623A (zh) 一种跨语言推荐方法和系统
CN102890723B (zh) 一种例句检索的方法及系统
Krstev et al. Using textual and lexical resources in developing serbian wordnet
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
Nguyen et al. Korean-vietnamese neural machine translation system with Korean morphological analysis and word sense disambiguation
Loginova et al. Reference lists for the evaluation of term extraction tools
Tachicart et al. Lexical differences and similarities between Moroccan dialect and Arabic
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
Kang Spoken language to sign language translation system based on HamNoSys
CN106021532A (zh) 关键词的显示方法和装置
Sun [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518057 C Building 5, Nanshan District software industry base, Shenzhen, Guangdong 403-409, China

Patentee after: Shenzhen easou world Polytron Technologies Inc

Address before: 518026 Guangdong city of Shenzhen province Futian District Binhe Road and CaiTian Road Interchange Union Square Tower A, A5501-A

Patentee before: Shenzhen Yisou Science & Technology Development Co., Ltd.