CN102890723B

CN102890723B - 一种例句检索的方法及系统

Info

Publication number: CN102890723B
Application number: CN201210413295.6A
Authority: CN
Inventors: 杨振东; 石志伟; 周步恋; 车天文; 王更生; 王喜民; 何宏靖; 徐忆苏
Original assignee: Shenzhen Yisou Science & Technology Development Co Ltd
Current assignee: Shenzhen easou world Polytron Technologies Inc
Priority date: 2012-10-25
Filing date: 2012-10-25
Publication date: 2016-08-31
Anticipated expiration: 2032-10-25
Also published as: CN102890723A

Abstract

本发明涉及自然语言处理领域，提供了一种通过查询词进行例句检索的方法，包括，获取用户输入的查询词；对用户输入的query进行处理；在例句库中检索匹配query的例句，并进行所述query与例句的相关性计算；根据用法多样性或翻译多样性原则，进行例句相关性打分调整，进行例句排序；输出例句并展示例句中的短语。本发明还提供了一种通过查询词进行例句检索的系统。采用本发明提供的方案，在进行query与例句相关性计算时综合考虑了各种因素：例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算，比起其它相关性计算方法显示了优势。

Description

一种例句检索的方法及系统

技术领域

本发明涉及自然语言处理领域，特别地涉及一种例句检索的方法及系统。

背景技术

随着互联网技术的深入发展，使得人们在写作或语言学习中获得所需的信息更加便利。例句检索辅助用户获取与输入匹配的(双语)例句，从而满足用户了解词的用法或翻译的需求。另外，在机器翻译中，也会用到例句检索从而使得翻译更加精准。

截至目前为止，有关例句检索中query(即查询词)与例句相关性计算方法主要有以下几种：一是根据例句中匹配的query个数或长度计算；二是根据例句长度及匹配query字符串长度计算；三是根据query与例句的编辑距离计算。如CN 102346777公开了一种对例句检索结果进行排序的方法和装置，其中使用搭配来体现query的用法，但没有综合考虑例句中query的有关句法特征、例句本身的特征等因素，并且搭配概率的计算公式没有考虑query在搭配中所起的作用或所做的成分，搭配概率计算中笼统的采用了统一的计算公式。CN 1471030公开了一种基于加权编辑距离的自动例句检索的系统和方法，其中，通过编辑距离来进行检索，但依然侧重于query的字符串匹配。

这几种方法都侧重于词层次的字符串匹配，基于字符串匹配的相关性计算方法只侧重给出包含query的例句，没有涉及到给出的例句中是否体现了query用法的多样性及翻译的多样性，这样排序靠前的例句很可能满足不了用户的意图。

用户使用例句检索最主要是为了解query的相关用法或者翻译，而现有的例句与query的相关性计算大多只考虑了字符串层次的匹配，无法满足用户的需求，具体输出的例句检索结果存在以下问题：

1.例句仅注重词层次的匹配，未必体现query的常用(或某种)用法或翻译的多样性；

2.可能输出具有歧义的结果；

如输入query：有道

输出：他右边太阳穴上有道伤痕(只列出单语部分)。

而用户意图为输出含“经营有道”、“取之有道”之类的例句，这样的结果与用户意图相左。

3.输出结构不完整的例句；

4.输出例句过长或过短；

5.输出例句所含信息不丰富；

如输入query：清明节

输出：清明节是什么？

发明内容

本发明解决的技术问题在于提供了一种例句检索的方法，以更好地满足用户的需求；本发明还提供了一种例句检索的系统。

本发明实施例提供了一种例句检索的方法，包括，获取用户输入的查询词；对用户输入的query进行处理；在例句库中检索匹配query的例句，并进行所述query与例句的相关性计算；根据用法多样性或翻译多样性原则，进行例句相关性打分调整，进行例句排序；输出例句并展示例句中的短语。

本发明实施例还提供了一种例句检索的系统，包括，

查询词获取模块，用于获取用户输入的查询词；

查询词处理模块，用于对用户输入的query进行处理；

相关性计算模块，用于在例句库中检索匹配query的例句，并进行所述query与例句的相关性计算；

相关性调整模块，用于根据用法多样性或翻译多样性原则，进行例句相关性打分调整，进行例句排序；

例句输出模块，用于输出例句并展示例句中的短语。

采用本发明实施例提供的方案，在进行query与例句相关性计算时综合考虑了各种因素：：例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算，引入query相关短语反映query用法，引入句法信息使得含有query句法意义的例句具有优势，引入例句结构完整性信息使得输出例句更加规整，并结合例句句长、所含数字标点的噪音特征共同进行相关性计算，比起其它相关性计算方法显示了优势。

对某天的query log进行采样，分别抽取80个中文query与英文query，比较本方法的输出与传统基于字符串匹配方法的例句输出的效果，效果变好的占53%，效果相当的占47%，可见本发明所提方案非常有效。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明第一实施例流程图；

图2是query翻译多样性检索结果展现示意图；

图3是query用法多样性检索结果展现示意图；

图4是query用法多样性同种短语例句展现示意图；

图5是本发明第二实施例系统结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明第一实施例流程图，提供了一种进行例句检索的方法，具体包括，

步骤S101，获取用户输入的查询词query；

具体地，用户输入的query中单个的词占的比例较大，此处仅考虑单个词的query。

步骤S102，对用户输入的query进行处理；

对用户的query进行处理，是指用户输入时可能会输入多余的空格、标点、数字或乱码，甚至会出现用户输错某个字或词，在这种情况要进行处理，要进行纠错处理。

步骤S103，在例句库中检索匹配query的例句，并进行所述query与例句的相关性计算；

具体地，根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。输出双语例句时，最终概率为中英双语例句相关性概率的算术平均值。具体地，计算方法如下：

1.query在例句中的与其它词构成短语的短语概率p_phr

用户输入query极有可能是想了解query的用法，这种用法在例句中由query与其它词构成的常用短语来体现，在这些短语中，query有可能是短语的核心词，也可能不是，这两种情况区别计算短语概率，如conflict(冲突)在短语“conflict with”(与......冲突)中是一个核心词，在“resolve conflict”中为一个非核心词，采用如下短语概率计算公式：

p_{p h r} (p h r (w_{q}, w)) = δ (w_{q}, w_{q k}) \frac{f (p h r (w_{q k}, w))}{\max_{i} (f (p h r (w_{q k}, w_{i})))} + δ (w_{q}, w_{q n k}) \frac{f (p h r (w_{q n k}, w))}{\max_{i} (f (p h r (w_{q n k}, w_{i})))}

其中，w_q表示用户输入query,w为例句中的词，phr(w_q,w)表示w_q与w构成短语，δ(w_q,w_qk)表示构成的短语中w_q为核心词，δ(w_q,w_qnk)表示构成的短语中w_q为非核心词，且有：

若w_q为核心词，则δ(w_q,w_qk)＝1，δ(w_q,w_qnk)＝0。

若w_q为非核心词，则δ(w_q,w_qnk)＝1，δ(w_q,w_qk)＝0。

f表示短语出现频率max表示取最大值，或表示当有多个词与query构成短语(w_q为核心词或非核心词)时，取频率最大值进行归一。

对于短语中的核心词，可根据语言学知识判断。当例句中与query构成的短语有多个时，选取概率最大的短语作为短语概率。在例句检索中短语概率存储于短语模型中。

2.query在例句中相关句法结点概率p_syn

p_{s y n} (T (s y n (w_{1} ... w_{q} ... w_{n}), N)) = \frac{f (T (s y n (w_{1} ... w_{q} ... w_{n}), N))}{\underset{i}{Σ} f (T (s y n (w_{1} ...... w_{n}), N_{i}))}

f为出现频率，w_q为用户输入query,syn(w₁...w_q...w_n)表示(w₁...w_q...w_n)构成一个句法结点，T(syn(w₁...w_q...w_n),N)表示句法结点的句法标识符为N(如NP，VP等)，句法标识概率基于语料库统计计算得出。对于未构成句法结点情况，规定句法概率为一个很小的数值η。在例句检索中，句法结点概率存储于句法模型中。

3.句子结构完整性概率P_com；

以句法分析是否归结到S来反映句子结构是否完整，由于在例句库中绝大多数例句均归结到S，所以对于未归结到S的情况给予很重惩罚。

若句法解析归结到S，P_com＝0.99，否则P_com＝10^-7。

4.句长概率P_Len；

句子长短适中的句子更能满足用户需求，并且直观感觉较好，因此句长概率按如下公式计算：

p_{l e n} = e^{- \frac{(L - u)}{σ}}

L为句子长度，u为句长均值，且：

若8＝<L<＝22,u＝L；

若L<8，u＝8，σ＝8；

若L>25,u＝15，σ＝8；

5.例句中所含标点、数字等的噪音概率P_pun。

此概率主要用来惩罚标点、数字、例句结尾与开头等出现特殊情形的问题，根据例句长度与所含标点、数字数目及例句结尾与开头词的特征等给予不同的概率，从而使得不规范的例句排序靠后。

相关性概率计算综合考虑以上因素，公式如下：

P_rel＝λ₁logP_phr+λ₂logP_syn+λ₃logP_com+λ₄logP_len+λ₅logP_pun

各个概率前面的加权系数可通过开发集训练或者根据实际情况调整。

步骤S104，根据用法多样性或翻译多样性原则，进行例句相关性打分调整，进行例句排序；

若以上步骤中得到的相关性概率不进行调整，很可能造成含有某种短语的所有例句均排在靠前的位置，不能体现query用法的多样性。为了突出例句中所包含的query翻译的多样性与用法的多样性，对例句相关性概率进行调整：

1.Query用法多样性优先原则：

若根据相关性概率已有包含同一短语的n条例句排在前面，则当前例句相关性概率按照如下公式调整：

p_{rel_ad} = \frac{p_{rel}}{n + 1}

2.Query翻译多样性原则：

用户有可能想了解输入query的多种翻译与query多样性类似，对相关性进行调整，如已有m条相同翻译的例句排在前面，则当前例句相关性概率如下调整：

p_{rel_ad} = \frac{p_{rel}}{m + 1}

根据调整后的例句相关性概率对例句进行排序。

步骤S105，输出例句并展示例句中的短语。

具体地，在输出例句时，query及其翻译在双语中进行颜色标示，且含有短语的例句在例句右下角进行短语标示，双语右方设置按钮，按任一单语端按钮都可展现或关闭同种搭配的k条例句。

输出时，有两种展现方式：

翻译多样性展现；

用户输入query有可能想了解其多种翻译，按照翻译概率循环输出例句，即先输出第一种翻译(按照翻译概率大小排列)的相关性最高的例句，再输出第二种翻译的相关性最高的例句……，输出第n种翻译的相关性最高例句，再输出第一种翻译的相关性次高的例句……。

如图2所示，是query翻译多样性检索结果展现示意图；对于“succeed”, 可翻译成“成功”、“继承”、“接替”等，可根据翻译概率循环输出例句。

query用法的多样性展现。

以query与例句中词组成的短语来体现query用法的多样性，即先输出第一种query常用短语(按照短语概率大小排列)的相关性最高的例句，再输出第二种短语的相关性最高的例句……，输出第n种短语的相关性最高例句，再输出第一种短语的相关性次高的例句……。

如图3所示，是query用法多样性检索结果展现示意图；对于“protect”,常用短语有“protect......from”,“protect......against”,“protect environment”等等，可根据短语概率循环输出。

如图4所示，是query用法多样性展现时，同种短语的例句展现示意图；当前例句中含有query相关短语，则在双语例句右下方标示短语(双语)，且短语右方设置展示按钮，当点击按钮时，含有相同短语的k条例句会显示出，再次点击隐藏相应例句。如图4点击短语“protect...from...”按钮，会显示出k条含“protect...from...”的例句。

如图5所示，是本发明第二实施例系统结构图，提供了一种例句检索的系统，具体包括，

查询词获取模块，用于获取用户输入的查询词；

例句输出模块，用于输出例句并展示例句中的短语。

上述系统中，还包括，

查询词处理模块，用于对用户输入的query进行处理；

上述系统中，其中，所述相关性计算模块具体用于根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种例句检索的方法，其特征在于，包括，

获取用户输入的单个查询词query；

在例句库中检索匹配query的例句，并进行所述query与例句的相关性计算；

根据用法多样性或翻译多样性原则，进行例句相关性打分调整，进行例句排序；

输出例句并展示例句中的短语；

根据用法多样性或翻译多样性原则，进行例句相关性打分调整，进行例句排序具体包括，

根据Query用法多样性优先原则：若根据相关性概率已有包含同一短语的n条例句排在前面，则当前例句相关性概率按照如下公式调整：

根据Query翻译多样性原则：如已有m条相同翻译的例句排在前面，则当前例句相关性概率如下调整：

根据调整后的例句相关性概率对例句进行排序；

P_rel为所述query与例句的相关性概率。

2.根据权利要求1所述的方法，其特征在于，在获取用户输入的查询词后，还包括，

对用户输入的query进行处理。

3.根据权利要求1或2所述的方法，其特征在于，所述在例句库中检索匹配query的例句，并进行所述query与例句的相关性计算具体包括，

根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。

4.根据权利要求3所述的方法，其特征在于，

query在例句中的与其它词构成短语的短语概率p_phr

若w_q为核心词，则δ(w_q,w_qk)＝1，δ(w_q,w_qnk)＝0；

若w_q为非核心词，则δ(w_q,w_qnk)＝1，δ(w_q,w_qk)＝0；

f表示短语出现频率，max表示取最大值，或表示当有多个词与query构成短语，w_q为核心词或非核心词时，取频率最大值进行归一；

query在例句中相关句法结点概率p_syn

f为出现频率，w_q为用户输入query,syn(w₁...w_q...w_n)表示(w₁...w_q...w_n)构成一个句法结点，T(syn(w₁...w_q...w_n),N)表示句法结点的句法标识符为N，句法标识概率基于语料库统计计算得出；

句子完整性概率P_com；

以句法分析是否归结到S来反映句子结构是否完整，

若句法解析归结到S，P_com＝0.99，否则P_com＝10^-7；

句长概率为：

L为句子长度，u为句长均值，

例句中所含标点、数字的噪音概率P_pun，根据例句长度与所含标点、数字数目及例句结尾与开头词的特征给予不同的概率，从而使得不规范的例句排序靠后。

5.根据权利要求4所述的方法，其特征在于，相关性概率计算公式如下：

P_rel＝λ₁logP_phr+λ₂logP_syn+λ₃logP_com+λ₄logP_len+λ₅logP_pun

各个概率前面的加权系数λ₁、λ₂、λ₃、λ₄、λ₅通过开发集训练或者根据实际情况调整。

6.根据权利要求1或2所述的方法，其特征在于，所述输出例句并展示例句中的短语具体为，

在输出例句时，query及其翻译在双语中进行颜色标示，且含有短语的例句在例句右下角进行短语标示，双语右方设置按钮，按任一单语端按钮进行展现或关闭同种搭配的k条例句。

7.根据权利要求6所述的方法，其特征在于，所述展现的方式包括，

按照翻译概率循环输出例句，即先输出第一种翻译的相关性最高的例句，再输出第二种翻译的相关性最高的例句，直至输出第n种翻译的相关性最高例句，再输出第一种翻译的相关性次高的例句；或者

以query与例句中词组成的短语来体现query用法的多样性，即先输出第一种query常用短语的相关性最高的例句，再输出第二种短语的相关性最高的例句，直至输出第n种短语的相关性最高例句，再输出第一种短语的相关性次高的例句。

8.一种例句检索的系统，其特征在于，包括，

查询词获取模块，用于获取用户输入的单个查询词query；

例句输出模块，用于输出例句并展示例句中的短语；

所述相关性调整模块，用于根据用法多样性或翻译多样性原则，进行例句相关性打分调整，进行例句排序具体包括，

根据调整后的例句相关性概率对例句进行排序；

P_rel为所述query与例句的相关性概率。

9.根据权利要求8所述的系统，其特征在于，还包括，

查询词处理模块，用于对用户输入的query进行处理。

10.根据权利要求8或9所述的系统，其特征在于，所述相关性计算模块具体用于根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。