CN102890723B - 一种例句检索的方法及系统 - Google Patents
一种例句检索的方法及系统 Download PDFInfo
- Publication number
- CN102890723B CN102890723B CN201210413295.6A CN201210413295A CN102890723B CN 102890723 B CN102890723 B CN 102890723B CN 201210413295 A CN201210413295 A CN 201210413295A CN 102890723 B CN102890723 B CN 102890723B
- Authority
- CN
- China
- Prior art keywords
- example sentence
- query
- sentence
- phrase
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,提供了一种通过查询词进行例句检索的方法,包括,获取用户输入的查询词;对用户输入的query进行处理;在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;输出例句并展示例句中的短语。本发明还提供了一种通过查询词进行例句检索的系统。采用本发明提供的方案,在进行query与例句相关性计算时综合考虑了各种因素:例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算,比起其它相关性计算方法显示了优势。
Description
技术领域
本发明涉及自然语言处理领域,特别地涉及一种例句检索的方法及系统。
背景技术
随着互联网技术的深入发展,使得人们在写作或语言学习中获得所需的信息更加便利。例句检索辅助用户获取与输入匹配的(双语)例句,从而满足用户了解词的用法或翻译的需求。另外,在机器翻译中,也会用到例句检索从而使得翻译更加精准。
截至目前为止,有关例句检索中query(即查询词)与例句相关性计算方法主要有以下几种:一是根据例句中匹配的query个数或长度计算;二是根据例句长度及匹配query字符串长度计算;三是根据query与例句的编辑距离计算。如CN 102346777公开了一种对例句检索结果进行排序的方法和装置,其中使用搭配来体现query的用法,但没有综合考虑例句中query的有关句法特征、例句本身的特征等因素,并且搭配概率的计算公式没有考虑query在搭配中所起的作用或所做的成分,搭配概率计算中笼统的采用了统一的计算公式。CN 1471030公开了一种基于加权编辑距离的自动例句检索的系统和方法,其中,通过编辑距离来进行检索,但依然侧重于query的字符串匹配。
这几种方法都侧重于词层次的字符串匹配,基于字符串匹配的相关性计算方法只侧重给出包含query的例句,没有涉及到给出的例句中是否体现了query用法的多样性及翻译的多样性,这样排序靠前的例句很可能满足不了用户的意图。
用户使用例句检索最主要是为了解query的相关用法或者翻译,而现有的 例句与query的相关性计算大多只考虑了字符串层次的匹配,无法满足用户的需求,具体输出的例句检索结果存在以下问题:
1.例句仅注重词层次的匹配,未必体现query的常用(或某种)用法或翻译的多样性;
2.可能输出具有歧义的结果;
如输入query:有道
输出:他右边太阳穴上有道伤痕(只列出单语部分)。
而用户意图为输出含“经营有道”、“取之有道”之类的例句,这样的结果与用户意图相左。
3.输出结构不完整的例句;
4.输出例句过长或过短;
5.输出例句所含信息不丰富;
如输入query:清明节
输出:清明节是什么?
发明内容
本发明解决的技术问题在于提供了一种例句检索的方法,以更好地满足用户的需求;本发明还提供了一种例句检索的系统。
本发明实施例提供了一种例句检索的方法,包括,获取用户输入的查询词;对用户输入的query进行处理;在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;输出例句并展示例句中的短语。
本发明实施例还提供了一种例句检索的系统,包括,
查询词获取模块,用于获取用户输入的查询词;
查询词处理模块,用于对用户输入的query进行处理;
相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
例句输出模块,用于输出例句并展示例句中的短语。
采用本发明实施例提供的方案,在进行query与例句相关性计算时综合考虑了各种因素::例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算,引入query相关短语反映query用法,引入句法信息使得含有query句法意义的例句具有优势,引入例句结构完整性信息使得输出例句更加规整,并结合例句句长、所含数字标点的噪音特征共同进行相关性计算,比起其它相关性计算方法显示了优势。
对某天的query log进行采样,分别抽取80个中文query与英文query,比较本方法的输出与传统基于字符串匹配方法的例句输出的效果,效果变好的占53%,效果相当的占47%,可见本发明所提方案非常有效。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明第一实施例流程图;
图2是query翻译多样性检索结果展现示意图;
图3是query用法多样性检索结果展现示意图;
图4是query用法多样性同种短语例句展现示意图;
图5是本发明第二实施例系统结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明第一实施例流程图,提供了一种进行例句检索的方法,具体包括,
步骤S101,获取用户输入的查询词query;
具体地,用户输入的query中单个的词占的比例较大,此处仅考虑单个词的query。
步骤S102,对用户输入的query进行处理;
对用户的query进行处理,是指用户输入时可能会输入多余的空格、标点、数字或乱码,甚至会出现用户输错某个字或词,在这种情况要进行处理,要进行纠错处理。
步骤S103,在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
具体地,根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。输出双语例句时,最终概率为中英双语例句相关性概率的算术平均值。具体地,计算方法如下:
1.query在例句中的与其它词构成短语的短语概率pphr
用户输入query极有可能是想了解query的用法,这种用法在例句中由query与其它词构成的常用短语来体现,在这些短语中,query有可能是短语的核心词,也可能不是,这两种情况区别计算短语概率,如conflict(冲突)在短语“conflict with”(与......冲突)中是一个核心词,在“resolve conflict”中为 一个非核心词,采用如下短语概率计算公式:
其中,wq表示用户输入query,w为例句中的词,phr(wq,w)表示wq与w构成短语,δ(wq,wqk)表示构成的短语中wq为核心词,δ(wq,wqnk)表示构成的短语中wq为非核心词,且有:
若wq为核心词,则δ(wq,wqk)=1,δ(wq,wqnk)=0。
若wq为非核心词,则δ(wq,wqnk)=1,δ(wq,wqk)=0。
f表示短语出现频率max表示取最大值,或 表示当有多个词与query构成短语(wq为核心词或非核心词)时,取频率最大值进行归一。
对于短语中的核心词,可根据语言学知识判断。当例句中与query构成的短语有多个时,选取概率最大的短语作为短语概率。在例句检索中短语概率存储于短语模型中。
2.query在例句中相关句法结点概率psyn
f为出现频率,wq为用户输入query,syn(w1...wq...wn)表示(w1...wq...wn)构成一个句法结点,T(syn(w1...wq...wn),N)表示句法结点的句法标识符为N(如NP,VP等),句法标识概率基于语料库统计计算得出。对于未构成句法结点情况,规定句法概率为一个很小的数值η。在例句检索中,句法结点概率存储于句法模型中。
3.句子结构完整性概率Pcom;
以句法分析是否归结到S来反映句子结构是否完整,由于在例句库中绝大多数例句均归结到S,所以对于未归结到S的情况给予很重惩罚。
若句法解析归结到S,Pcom=0.99,否则Pcom=10-7。
4.句长概率PLen;
句子长短适中的句子更能满足用户需求,并且直观感觉较好,因此句长概率按如下公式计算:
L为句子长度,u为句长均值,且:
若8=<L<=22,u=L;
若L<8,u=8,σ=8;
若L>25,u=15,σ=8;
5.例句中所含标点、数字等的噪音概率Ppun。
此概率主要用来惩罚标点、数字、例句结尾与开头等出现特殊情形的问题,根据例句长度与所含标点、数字数目及例句结尾与开头词的特征等给予不同的概率,从而使得不规范的例句排序靠后。
相关性概率计算综合考虑以上因素,公式如下:
Prel=λ1logPphr+λ2logPsyn+λ3logPcom+λ4logPlen+λ5logPpun
各个概率前面的加权系数可通过开发集训练或者根据实际情况调整。
步骤S104,根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
若以上步骤中得到的相关性概率不进行调整,很可能造成含有某种短语 的所有例句均排在靠前的位置,不能体现query用法的多样性。为了突出例句中所包含的query翻译的多样性与用法的多样性,对例句相关性概率进行调整:
1.Query用法多样性优先原则:
若根据相关性概率已有包含同一短语的n条例句排在前面,则当前例句相关性概率按照如下公式调整:
2.Query翻译多样性原则:
用户有可能想了解输入query的多种翻译与query多样性类似,对相关性进行调整,如已有m条相同翻译的例句排在前面,则当前例句相关性概率如下调整:
根据调整后的例句相关性概率对例句进行排序。
步骤S105,输出例句并展示例句中的短语。
具体地,在输出例句时,query及其翻译在双语中进行颜色标示,且含有短语的例句在例句右下角进行短语标示,双语右方设置按钮,按任一单语端按钮都可展现或关闭同种搭配的k条例句。
输出时,有两种展现方式:
翻译多样性展现;
用户输入query有可能想了解其多种翻译,按照翻译概率循环输出例句,即先输出第一种翻译(按照翻译概率大小排列)的相关性最高的例句,再输出第二种翻译的相关性最高的例句……,输出第n种翻译的相关性最高例句,再输出第一种翻译的相关性次高的例句……。
如图2所示,是query翻译多样性检索结果展现示意图;对于“succeed”, 可翻译成“成功”、“继承”、“接替”等,可根据翻译概率循环输出例句。
query用法的多样性展现。
以query与例句中词组成的短语来体现query用法的多样性,即先输出第一种query常用短语(按照短语概率大小排列)的相关性最高的例句,再输出第二种短语的相关性最高的例句……,输出第n种短语的相关性最高例句,再输出第一种短语的相关性次高的例句……。
如图3所示,是query用法多样性检索结果展现示意图;对于“protect”,常用短语有“protect......from”,“protect......against”,“protect environment”等等,可根据短语概率循环输出。
如图4所示,是query用法多样性展现时,同种短语的例句展现示意图;当前例句中含有query相关短语,则在双语例句右下方标示短语(双语),且短语右方设置展示按钮,当点击按钮时,含有相同短语的k条例句会显示出,再次点击隐藏相应例句。如图4点击短语“protect...from...”按钮,会显示出k条含“protect...from...”的例句。
如图5所示,是本发明第二实施例系统结构图,提供了一种例句检索的系统,具体包括,
查询词获取模块,用于获取用户输入的查询词;
相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
例句输出模块,用于输出例句并展示例句中的短语。
上述系统中,还包括,
查询词处理模块,用于对用户输入的query进行处理;
上述系统中,其中,所述相关性计算模块具体用于根据例句中query与其 它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种例句检索的方法,其特征在于,包括,
获取用户输入的单个查询词query;
在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
输出例句并展示例句中的短语;
根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序具体包括,
根据Query用法多样性优先原则:若根据相关性概率已有包含同一短语的n条例句排在前面,则当前例句相关性概率按照如下公式调整:
根据Query翻译多样性原则:如已有m条相同翻译的例句排在前面,则当前例句相关性概率如下调整:
根据调整后的例句相关性概率对例句进行排序;
Prel为所述query与例句的相关性概率。
2.根据权利要求1所述的方法,其特征在于,在获取用户输入的查询词后,还包括,
对用户输入的query进行处理。
3.根据权利要求1或2所述的方法,其特征在于,所述在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算具体包括,
根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。
4.根据权利要求3所述的方法,其特征在于,
query在例句中的与其它词构成短语的短语概率pphr
其中,wq表示用户输入query,w为例句中的词,phr(wq,w)表示wq与w构成短语,δ(wq,wqk)表示构成的短语中wq为核心词,δ(wq,wqnk)表示构成的短语中wq为非核心词,且有:
若wq为核心词,则δ(wq,wqk)=1,δ(wq,wqnk)=0;
若wq为非核心词,则δ(wq,wqnk)=1,δ(wq,wqk)=0;
f表示短语出现频率,max表示取最大值,或 表示当有多个词与query构成短语,wq为核心词或非核心词时,取频率最大值进行归一;
query在例句中相关句法结点概率psyn
f为出现频率,wq为用户输入query,syn(w1...wq...wn)表示(w1...wq...wn)构成一个句法结点,T(syn(w1...wq...wn),N)表示句法结点的句法标识符为N,句法标识概率基于语料库统计计算得出;
句子完整性概率Pcom;
以句法分析是否归结到S来反映句子结构是否完整,
若句法解析归结到S,Pcom=0.99,否则Pcom=10-7;
句长概率为:
L为句子长度,u为句长均值,
例句中所含标点、数字的噪音概率Ppun,根据例句长度与所含标点、数字数目及例句结尾与开头词的特征给予不同的概率,从而使得不规范的例句排序靠后。
5.根据权利要求4所述的方法,其特征在于,相关性概率计算公式如下:
Prel=λ1logPphr+λ2logPsyn+λ3logPcom+λ4logPlen+λ5logPpun
各个概率前面的加权系数λ1、λ2、λ3、λ4、λ5通过开发集训练或者根据实际情况调整。
6.根据权利要求1或2所述的方法,其特征在于,所述输出例句并展示例句中的短语具体为,
在输出例句时,query及其翻译在双语中进行颜色标示,且含有短语的例句在例句右下角进行短语标示,双语右方设置按钮,按任一单语端按钮进行展现或关闭同种搭配的k条例句。
7.根据权利要求6所述的方法,其特征在于,所述展现的方式包括,
按照翻译概率循环输出例句,即先输出第一种翻译的相关性最高的例句,再输出第二种翻译的相关性最高的例句,直至输出第n种翻译的相关性最高例句,再输出第一种翻译的相关性次高的例句;或者
以query与例句中词组成的短语来体现query用法的多样性,即先输出第一种query常用短语的相关性最高的例句,再输出第二种短语的相关性最 高的例句,直至输出第n种短语的相关性最高例句,再输出第一种短语的相关性次高的例句。
8.一种例句检索的系统,其特征在于,包括,
查询词获取模块,用于获取用户输入的单个查询词query;
相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;
相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;
例句输出模块,用于输出例句并展示例句中的短语;
所述相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序具体包括,
根据Query用法多样性优先原则:若根据相关性概率已有包含同一短语的n条例句排在前面,则当前例句相关性概率按照如下公式调整:
根据Query翻译多样性原则:如已有m条相同翻译的例句排在前面,则当前例句相关性概率如下调整:
根据调整后的例句相关性概率对例句进行排序;
Prel为所述query与例句的相关性概率。
9.根据权利要求8所述的系统,其特征在于,还包括,
查询词处理模块,用于对用户输入的query进行处理。
10.根据权利要求8或9所述的系统,其特征在于,所述相关性计算模块具体用于根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性 计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210413295.6A CN102890723B (zh) | 2012-10-25 | 2012-10-25 | 一种例句检索的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210413295.6A CN102890723B (zh) | 2012-10-25 | 2012-10-25 | 一种例句检索的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102890723A CN102890723A (zh) | 2013-01-23 |
CN102890723B true CN102890723B (zh) | 2016-08-31 |
Family
ID=47534225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210413295.6A Active CN102890723B (zh) | 2012-10-25 | 2012-10-25 | 一种例句检索的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102890723B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077158A (zh) * | 2013-02-19 | 2013-05-01 | 吴志超 | 基于语料库的计算机辅助写作系统 |
CN105468609A (zh) * | 2014-08-27 | 2016-04-06 | 中兴通讯股份有限公司 | 一种获取复述短语的方法及装置、问题改写方法及装置 |
CN107305575B (zh) | 2016-04-25 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 人机智能问答系统的断句识别方法和装置 |
US11704497B2 (en) | 2020-09-09 | 2023-07-18 | International Business Machines Corporation | Generating and using a sentence model for answer generation |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1471030A (zh) * | 2002-06-28 | 2004-01-28 | 基于加权编辑距离的自动例句检索的系统和方法 | |
CN102346777A (zh) * | 2011-10-09 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种对例句检索结果进行排序的方法和装置 |
-
2012
- 2012-10-25 CN CN201210413295.6A patent/CN102890723B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1471030A (zh) * | 2002-06-28 | 2004-01-28 | 基于加权编辑距离的自动例句检索的系统和方法 | |
CN102346777A (zh) * | 2011-10-09 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种对例句检索结果进行排序的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102890723A (zh) | 2013-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021008180A1 (zh) | 面向软件缺陷知识的知识搜索方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
US9697199B2 (en) | Ideographical member identification and extraction method and machine-translation and manual-correction interactive translation method based on ideographical members | |
CN102708100B (zh) | 挖掘相关实体词的关系关键词的方法和装置及其应用 | |
US8762358B2 (en) | Query language determination using query terms and interface language | |
CN100565500C (zh) | 获悉词组之间的转换关系的统计方法和装置 | |
CN104182535B (zh) | 一种人物关系抽取方法和装置 | |
Cussens | Part-of-speech tagging using Progol | |
CN109062892A (zh) | 一种基于Word2Vec的中文语句相似度计算方法 | |
CN102591857B (zh) | 一种平行语料资源获取方法及系统 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN106537370A (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
JP2008152760A (ja) | マシンアシスト翻訳ツール | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
CN102890723B (zh) | 一种例句检索的方法及系统 | |
Krstev et al. | Using textual and lexical resources in developing serbian wordnet | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
Nguyen et al. | Korean-vietnamese neural machine translation system with Korean morphological analysis and word sense disambiguation | |
Loginova et al. | Reference lists for the evaluation of term extraction tools | |
Tachicart et al. | Lexical differences and similarities between Moroccan dialect and Arabic | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
CN106021532A (zh) | 关键词的显示方法和装置 | |
Sun | [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 518057 C Building 5, Nanshan District software industry base, Shenzhen, Guangdong 403-409, China Patentee after: Shenzhen easou world Polytron Technologies Inc Address before: 518026 Guangdong city of Shenzhen province Futian District Binhe Road and CaiTian Road Interchange Union Square Tower A, A5501-A Patentee before: Shenzhen Yisou Science & Technology Development Co., Ltd. |