CN102890674B

CN102890674B - 一种查询词的处理方法和装置

Info

Publication number: CN102890674B
Application number: CN201110201103.0A
Authority: CN
Inventors: 赵京雷; 孙丽; 杨旭; 林锋; 冯炯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-07-18
Filing date: 2011-07-18
Publication date: 2015-12-02
Anticipated expiration: 2031-07-18
Also published as: CN102890674A; HK1176143A1

Abstract

本申请提供了一种查询词的处理方法和装置，其中的方法具体包括：接收用户输入的查询词，所述查询词包括若干个词项；识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词。本申请能够提高查询词处理的精度、准确度和速度，并且能够在保留原查询词信息焦点的基础之上，使得处理后的查询词能够最大程度地保留用户的信息需求。

Description

一种查询词的处理方法和装置

技术领域

本申请涉及互联网信息搜索技术领域，特别是涉及一种查询词的处理方法和装置。

背景技术

随着互联网上信息的飞速增长，网络上充斥了越来越多的冗余信息，而对于在网络上搜寻自己所需要信息的互联网用户而言，面对这些漫无边际的信息无疑像大海捞针。针对某个信息需求，通常搜索引擎提供一个网页界面，让用户在客户端通过浏览器软件提交查询词，然后很快返回一个可能和用户输入的查询词相关的信息列表。

然而，在很多情况下，用户输入的查询词并不能很好的反映用户的信息需求，从而不能准确匹配到想要的信息。对用户输入的查询词进行处理和变换，可以使得处理后的查询词能够更准确的反映用户需求，帮助用户快速找到目标信息，提高用户的搜索使用体验。

针对某个信息需求，用户可能某些时候使用非常详细的语言形式对相应查询词进行表述。然而现有的搜索引擎大都基于词袋(bag-of-word)模型构建，其假设词项相互之间没有关联。在这种情况下，过于详尽和冗长的查询词表述反而会对查询准确率和召回率产生副作用。例如，对于电子商务搜索而言，由于默认多词情况下词项之间是“AND”关系，因此，长的查询词往往导致很多零结果或少结果的情况，使得召回率比较低。并且，现有技术中搜索引擎进行信息查询时需要先对用户输入的查询词进行分词，对分词后得到的词项逐一与待查询信息进行匹配。对于过于详尽和冗长的查询词分词后将会得到较多的词项，对于数量较多的词项与待查询信息进行匹配时将会导致查询速度较慢，增加搜索引擎的工作压力。

查询缩写(QueryAbbreviation)是对过于冗长或详细描述的查询词的一种处理方法，其通过有选择地筛选查询词中的词，保留那些能够反映用户需求的词，去掉噪音词，最终生成贴近用户查询意图的新查询词。在原查询是零结果或少结果时，采用查询缩写技术推荐若干与原查询词意图相近的新查询词，将其搜索结果展示给用户，能够提高用户的搜索体验，同时也在一定程度提高了电子商务网站上产品的曝光率和点击率，具有较大的商业价值。并且由于缩写后的词项较少，将数量较少的词项与待查询词进行匹配时将会加快查询的速度，减少搜索引擎的工作压力。

现有一种对用户冗长查询进行缩写的方法具体可以包括：

A、给定一个用户输入的长查询，包括若干个词项；

B、从中生成词项的可能候选子集集合；

C、使用互信息方法对子集集合进行评估；

D、挑选出满足最大生成树条件的子集作为缩写查询的结果；

E、使用缩写查询的结果替换原始长查询进行检索。

上述方法具有如下缺点：

以词项为单位进行过滤，很可能会把原本应该一起的多词单元拆开，对于搜索引擎而言，一方面，容易使得缩写查询的结果与原始长查询大相径庭，严重影响查询词处理的精度和准确度；另一方面，以词项为单位增加了处理步骤，导致花费了过多的处理时间，从而影响查询词处理的速度。对于用户而言，缩写查询的结果与原始长查询大相径庭，很有可能使得处理后的查询词抛弃了用户的信息需求，从而返回给用户的搜索结果也不能准确反映用户的信息需求，从而影响用户的搜索使用体验。并且，以词项为单位进行待查询信息匹配时，需要对多个词项与待查询信息进行多次匹配，将会减缓查询的匹配速度，增加服务器的工作压力。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提高查询词处理的精度、准确度和速度，并且能够使得处理后的查询词能够最大程度地保留用户的信息需求。

发明内容

本申请所要解决的技术问题是提供一种查询词的处理方法和装置，能够提高查询词处理的精度、准确度和速度，并且能够在保留原查询词信息焦点的基础之上，使得处理后的查询词能够最大程度地保留用户的信息需求。

为了解决上述问题，本申请公开了一种查询词的处理方法，包括：

接收用户输入的查询词，所述查询词包括若干个词项；

识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；

以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

优选的，通过以下步骤识别所述查询词中的多词单元：

将所述查询词划分为多个浅层语段，所述浅层语段为多个词项构成的短语层次结构：

依次处理各浅层语段，从前往后取得相应的多词单元。

优选的，所述处理各浅层语段的步骤，包括：

步骤1：读取一个浅层语段，并以该浅层语段的起始位置作为当前多词单元的起始位置；

步骤2：从当前多词单元的起始位置开始，在这个浅层语段中读取当前词项和下一个词项；

步骤3：根据所述当前词项和下一个词项的特征，判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元，若是，则执行步骤4，否则，执行步骤5；

步骤4：保存该多词单元，以下一个词项所在位置作为当前多词单元的起始位置，并返回步骤2；

步骤5：判断下一个词项所在位置是否为该浅层语段的结束位置，若是，则结束所述处理过程，否则，执行步骤6；

步骤6：从下一个词项所在位置开始，在这个浅层语段中读取当前词项和下一个词项，并返回步骤3。

优选的，所述当前词项和下一个词项的特征包括语义特征；

所述判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元的步骤，包括：

判断当前词项的语义特征和下一词项的语义特征是否均为特定的语义特征，若否，则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单元。

优选的，所述当前词项和下一个词项的特征包括统计特征；

判断所述当前词项和下一个词项的特征的连续出现频率是否大于第一阈值，若是，则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单元。

优选的，所述方法还包括：

分别对所述查询词中的各多词单元和除多词单元外的各词项进行重要性评估，得到相应的重要性评估结果；

所述对所述查询词进行丢词处理的步骤，包括：

将所述查询词中所有处理单位的重要性评估结果，从小到大进行排序；

基于优先丢掉排在前面的处理单位的原理，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

优选的，所述对查询词进行丢词处理的步骤，包括：

获取所述查询词的长度；

根据所述查询词的长度，选择丢词算法对所述查询词进行丢词处理，其中，不同查询词的长度对应不同的丢词算法。

优选的，通过如下步骤对多词单元进行重要性评估：

依据该多词单元中各词项的重要性、各词项间关系和该多词单元在所述查询词中的位置，对该多词单元进行重要性评估。

优选的，通过如下步骤对词项进行重要性评估：

依据统计特征、词级特征、语法特征和语义特征中的一种或多种，评估词项的重要性。

优选的，在识别所述查询词中的多词单元前，所述方法还包括：

对所述查询词进行预处理操作，所述预处理操作包括：大小写转换，标点符号过滤，词性标注，浅层语段划分，中心词抽取，词项特殊语义标记中的一种或多种。

另一方面，本申请还公开了一种查询词的处理装置，包括：

接口模块，用于接收用户输入的查询词，所述查询词包括若干个词项；

识别模块，用于识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；及

丢词处理模块，用于以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

优选的，所述识别模块包括：

划分子模块，用于将所述查询词划分为多个浅层语段，所述浅层语段为多个词项构成的短语层次结构：及

处理子模块，用于依次处理各浅层语段，从前往后取得相应的多词单元。

优选的，所述处理子模块包括：

语段读取单元，用于读取一个浅层语段，并以该浅层语段的起始位置作为当前多词单元的起始位置；

词项读取单元，用于从当前多词单元的起始位置开始，在这个浅层语段中读取当前词项和下一个词项；

多词判断单元，用于根据所述当前词项和下一个词项的特征，判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元，若是，则触发，否则，执行步骤5；

过渡单元，用于保存该多词单元，以下一个词项所在位置作为当前多词单元的起始位置，并触发词项读取单元；

结束判断单元，用于判断下一个词项所在位置是否为该浅层语段的结束位置，若是，则结束所述处理过程，否则，触发读取位置更新单元；

读取位置更新单元，用于从下一个词项所在位置开始，在这个浅层语段中读取当前词项和下一个词项，并触发多词判断单元。

优选的，所述当前词项和下一个词项的特征包括语义特征；

所述多词判断单元包括：

语法语义判断子单元，用于判断当前词项的语义特征和下一词项的语义特征是否均为特定的语义特征，若否，则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单元。

优选的，所述当前词项和下一个词项的特征包括统计特征；

所述多词判断单元包括：

统计判断子单元，用于判断所述当前词项和下一个词项的特征的连续出现频率是否大于第一阈值，若是，则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单元。

优选的，所述装置还包括：

评估模块，用于分别对所述查询词中的各多词单元和除多词单元外的各词项进行重要性评估，得到相应的重要性评估结果；

所述丢词处理模块包括：

排序子模块，用于将所述查询词中所有处理单位的重要性评估结果，从小到大进行排序；及

第一丢词子模块，用于基于优先丢掉排在前面的处理单位的原理，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

优选的，所述丢词处理模块包括：

长度获取子模块，用于获取所述查询词的长度；及

第二丢词子模块，用于根据所述查询词的长度，选择丢词算法对所述查询词进行丢词处理，其中，不同查询词的长度对应不同的丢词算法。

优选的，所述评估模块包括：

多词评估子模块，用于依据该多词单元中各词项的重要性、各词项间关系和该多词单元在所述查询词中的位置，对该多词单元进行重要性评估。

优选的，所述评估模块包括：

词项评估子模块，用于依据统计特征、词级特征、语法特征和语义特征中的一种或多种，评估词项的重要性。

优选的，所述装置还包括：

预处理模块，用于在识别所述查询词中的多词单元前，对所述查询词进行预处理操作，所述预处理操作包括：大小写转换，标点符号过滤，词性标注，浅层语段划分，中心词抽取，词项特殊语义标记中的一种或多种

与现有技术相比，本申请具有以下优点：

本申请在处理查询词的过程中，引入多词单元作为处理单位，这样，在进行丢词处理时就能够避免将原本应该在一起的词项拆开，相对于现有技术，能够减小丢词处理后的新查询词对原始查询词的损失，从而能够提高查询词处理的精度和准确度；另一方面，由于多词单元为多个词项构成的语法结构，故相对于以词项为处理单位，能够减少丢词处理的步骤，减少处理时间，从而能够提高查询词处理的速度。并且在进行查询信息匹配时，由于可以将丢词处理后的多词单元作为一个整体与待查询信息进行匹配，而不会将多词单元分割成多个词项，无需对多个词项进行多次查询匹配，相应的提高了查询匹配的速度，进一步也会减轻搜索引擎服务器的工作压力。

另外，本申请在词性和语法中心词等语法信息的基础上，扩充利用的词法语法语义特征，并且加入丰富的统计特征，来对词项以及多词单元进行多层次重要性评分，作为识别焦点信息以及丢词处理的依据；由于丢词时有比较可靠的依据，保留重要性得分最大的多词单元，其余多词单元按照重要性从小到大丢弃，能够在保留用户的原始查询焦点的基础之上，尽可能的贴近用户原始搜索意图，使得处理后的查询词能够最大程度地保留用户的信息需求。

再者，本申请能够根据所述查询词的长度的不同分别设计丢词算法，具体而言，对于短的查询词来说，尽量以小的多词单元为单位来进行丢词处理，例如单个词项或者较短的多词单元。以减少对用户查询意图的改变和损失；对于长的查询词来说，尽量以较大的多词单元为单位来进行丢词处理，在原查询结果为零结果或少结果时，可以提高丢词处理之后的新查询词有查询结果的可能性。并且，由于根据查询词的长度的不同进行不同的丢词处理，具体来说，如果无论针对长查询词还是短查询词都采用较小的多词单元为单位来进行丢词处理，则会降低查询词的丢词处理速度，而如果针对长查询词，采用较大的多词单元进行丢词处理，将会加快查询词的丢词处理速度。

附图说明

图1是本申请一种查询词的处理方法实施例的流程图；

图2是本申请一种查询词的处理装置实施例1的结构图；

图3是本申请一种查询词的处理装置实施例2的结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例的核心构思之一在于，在处理查询词的过程中，引入多词单元作为处理单位，这样，在进行丢词处理时就能够避免将原本应该作为一个整体的词项拆开，相对于现有技术，能够减小丢词处理后的新查询词对原始查询词的损失，从而能够提高查询词处理的精度和准确度；另一方面，由于多词单元为多个词项构成的语法结构，故相对于以词项为处理单位，能够减少丢词处理的步骤，减少处理时间，从而能够提高查询词处理的速度。

对于用户而言，由于能够减小丢词处理后的新查询词对原始查询词的损失，因此，能够在保留原查询词信息焦点的基础之上，使得处理后的查询词够最大程度地保留用户的信息需求，从而返回给用户的搜索结果也能够准确反映用户的信息需求，能够提高用户的搜索使用体验。

参照图1，示出了本申请一种查询词的处理方法实施例的流程图，具体可以包括：

步骤101、接收用户输入的查询词，所述查询词可以包括若干个词项；

在实际应用中，当用户存在某个信息需求时，可以首先在搜索引擎的查询词输入页面上输入查询词，此时，搜索引擎可以接收所述查询词。

本申请可以适用于英文、法文、西班牙文等西方语言，并且，对于中文、日文、韩文等亚洲语言，也同样适用。例如，英文中词项(Word)主要指英文单词，中文中词项主要指中文词，等等。下面主要以英文为例进行说明，其它语言的查询词处理请相互参照即可。

步骤102、识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；

多词单元(MWU，Multi-WordUnit)是在语法上合理，具有一定语义，搭配较为紧密，由多个词语构成的语法结构，其可以包括多词短语、多词固定搭配、多词习语和多词术语等。例如，对于英文自然文本来说，多词单元是由多个词项(Word)构成的，词项间联系紧密，作为整体表达某个意义的一个语言单位。

由于多词单元能够整体性地标识一个实体、属性或者动作，因而在稍后的丢词处理时需要将其作为一个整体进行处理。例如：“permanentmakeupmachinethelux”中的“permanentmakeup”即是多词单元。

浅层语段为多个词项构成的短语层次结构，其通常为按照一定的语法规则将一个自然语言文本划分而成的名词短语，其能够反映词汇之间在短语层次上的一种整体关系。而作为一个整体的实体、属性或者动作，多词单元通常不会跨语段，因此，对多词单元的识别应该在一个浅层语段内进行。

综上，在本申请的一种优选实施例中，可以通过以下步骤识别所述查询词中的多词单元：

步骤A1、将所述查询词划分为多个浅层语段，所述浅层语段为多个词项构成的短语层次结构：

步骤A2、依次处理各浅层语段，从前往后取得相应的多词单元。

更为优选的，所述处理各浅层语段的步骤，可以进一步包括：

从统计的角度讲，可简单的认为在用户查询中连续出现频率大于一定值的几个词项组成一个多词单元；因此，在具体实现中，统计特征可以作为对多词单元的识别的一个依据。

另外，由于多词单元中包括的单词数目往往大于等于2，因此，为了识别所有的多词单元，需要统计2个词连续出现的频率，3个词连续出现的频率，4个词连续出现的频等等，即要统计所有大于等于2元的ngram信息(这里ngram是大词汇连续语音识别中常用的一种语言模型)，这样将导致计算量的爆炸增长，语言处理中一般不适合采用。为此，本申请采取一种简单的模式，认为多个词项间的联系紧密程度取决于两两词项之间的紧密程度，并且不考虑非毗邻的词项。

因此，在本申请的一种优选实施例中，所述当前词项和下一个词项的特征可以包括统计特征；

所述判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元的步骤，可以包括：

例如，本申请可以定义满足如下条件的词项组成一个多词单元：

原查询词：q＝w₁w₂...w_n，w_i表示查询中的一个词项

多词单元：s＝w_iw_i+1...w_i+m

s需要满足下列条件：

①f(w_j，w_j+1)＞＝C，其中，i≤j＜i+m，f(w_j，w_j+1)为w_j，w_j+1两个词项的连续出现频率，C为一常数阈值。

②i≥c_s，i+m≤c_e，c_s为某一浅层语段的起始位置，c_e为某一浅层语段结束位置。

此外，在电子商务查询中品牌词+产品词这样的组合经常出现在用户查询中，因此这样的组合的统计频率一般会比较高，且这样的组合一般会被划分在一个浅层语段中，但是由于这样的组合中包含两个单独的意义，并不满足多词单元的概念，需要被分开。

由于品牌词+产品词为语义特征，因此，在本申请的另一种优选实施例中，可以在语义的层次又对多词单元的识别作出限制，以进一步提高多词单元识别的准确率。

所述当前词项和下一个词项的特征可以包括语义特征；

所述判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元的步骤，可以进一步包括：

假设特定的语义特征为品牌，则所述判断可以为，如果当前词项的语义标示为品牌，且下一词项的语义标示不是品牌，则可以确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单元。

以上对两种当前词项和下一个词项的特征(统计特征和语义特征)进行了详细介绍，可以理解，本领域技术人员可以根据需要联合使用所述两种当前词项和下一个词项的特征，或者，使用其中任一种，本申请对此不加以限制。另外，本申请还可以使用其它当前词项和下一个词项的特征，例如，对多词单元的识别还可以加入词项之间的互信息，比如两个词项的连续出现频率分别占两个词项单独出现的频率的比例，该比例越大，则两个词项属于一个多词单元的概率也就越大。

步骤103、以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

在步骤102识别出了所述查询词中的多词单元后，本申请中丢词处理的处理单位既包括识别出来的多词单元，又包括没有被识别进任何一个多词单元的单个词项。

由于引入多词单元作为处理单位，这样，在进行丢词处理时就能够避免将原本应该在一起的词项拆开，相对于现有技术，能够减小丢词处理后的新查询词对原始查询词的损失，从而能够提高查询词处理的精度和准确度；另一方面，由于多词单元为多个词项构成的语法结构，故相对于以词项为处理单位，能够减少丢词处理的步骤，减少处理时间，从而能够提高查询词处理的速度。并且在进行查询信息匹配时，可以将丢词处理后剩余的多词单元作为一个整体与待查询信息进行匹配，而不会将多词单元分割成多个词项，无需对多个词项进行多次查询匹配，相应的提高了查询匹配的速度，进一步也会减轻搜索引擎服务器的工作压力。

为了进一步保证丢词处理后的新查询词能够尽量的保留用户的原始搜索意图，需要对每一个处理单位相对于查询整体的重要性进行一个评估。

而多词单元的重要性依赖于组成这个多词单元的各个词的重要性，因此先以词项的级别对每一个词项进行重要性打分，之后再对各个多词单元进行重要性打分。

词项重要性(TermRank)，一般指一段自然语言文本中，某个词项在表示文本所指内容上的重要性衡量。

在本申请的一种优选实施例中，可以通过如下步骤对词项进行重要性评估：

(1)统计特征：

其具体可以包括单个词项的频率信息，词项作为独立查询出现的频率信息，词项作为中心词的频率信息，词项作为修饰词的频率信息等。

(2)词级特征，具体可以包括：

词项长度：过短或过长的词项预示某种词项主题重要性的区别；

词项是否由纯数字构成：由纯数字组成的词项与其他词项相比可能具有不同的主题重要性；

词项的后缀：词项的后缀在一定程度上表明了词项的类别信息，如“er”、“or”等。

(3)语法特征，具体可以包括：

词性：词性能够在一定程度上反映词项的重要程度，比如形容词，副词反映信息焦点的可能性比较小，更多反映的是对信息焦点的属性以及类别修饰关系，而名词性词汇则对信息主题的贡献相对较大；

浅层语段(Chunk)：语段信息能够反映词汇之间在语法层次上的一种整体关系，可以作为由统计信息获取的词间关系在具体查询处理应用的一个有效补充；

语法中心词：根据语法和模板信息所识别的中心词在很大程度上能够帮助对信息主题焦点进行识别；

语段中的出现位置：语段中的出现位置可以反映词项距离语法中心词的远近程度，从而间接反映词项对信息焦点的修饰紧密程度和信息量。

(4)语义特征

词项所对应的语义标签被抽取为语义的特征，所采用的语义标签具体可以包括：

产品名：标示词项为某一产品词或产品词的一部分。

品牌名：标示词项为某一品牌词或品牌词的一部分。

型号名：标示词项为某一型号词或型号词的一部分。

地名：标示词项为一个地域名称或地域名称的一部分。

在具体应用中，可分别根据上述特征对词项的重要性的影响设置相应的值，各个值相乘即得到最后的词项的重要性。

现有技术往往单纯基于词性和语法中心词等语法信息，来计算词项重要性，识别信息焦点，单纯把名词和中心词认为是重要的词，利用的信息不够充分，对词项重要性的刻画以及信息焦点的识别不够准确，基于这样的重要性刻画来进行丢词，可能把更重要的词丢掉，导致推荐的处理结果与用户的原始意图相差较大。比如：“millequipment”，mill为动词，equipment为名词，而且equipment是中心词，按照这样重要性是equipment大于mill，但若把mill丢掉，保留一个宽泛的equipment的话，用户的意图就看不出来了。实际上，对于这个查询来说，丢掉equipment保留mill，跟用户的查询意图更接近。

而本申请在词性和语法中心词等语法信息的基础上，扩充利用的词法语法语义特征，并且加入丰富的统计特征，来对词项以及多词单元进行多层次重要性评分，作为识别焦点信息以及丢词处理的依据。能够使得对词项重要性的刻画以及信息焦点的识别更加准确，基于这样的重要性刻画来进行丢词处理，能够在保留原查询词信息焦点的基础之上，使得处理后的查询词能够最大程度地保留用户的信息需求。

在本申请的另一种优选实施例中，可以通过如下步骤对多词单元进行重要性评估：

在具体实现中，可以首先选择该多词单元中得分最大的词项的分数作为该多词单元的基本分数，然后结合若干语法规则对此进行修正。例如，介词往往对查询意图主体具有某种指示作用，据此，利用“in”、“for”、“with”这样的介词相对于多词单元的位置对对多词单元的重要性分值做一个调整。

如果该多词单元的前面有“in”、“for”、“with”等介词，对该多词单元的重要性分值乘以一个小于1的小数，如果该多词单元的后面有“in”、“for”、“with”，对该多词单元的重要性分值乘以一个大于1的整数。

因此，在本申请的一种优选实施例中，所述方法还可以包括：

相应地，所述对所述查询词进行丢词处理的步骤，具体可以包括：

例如，在对包含2个处理单位的查询词进行丢词处理时，可以首先按照重要性评估结果，优先丢掉重要性较低的处理单位。

现有技术在进行丢词处理时，往往对所有长度的查询词一视同仁，采用同样的词项过滤规则，并没有考虑短查询和长查询不同的丢词需求。

实际上，对于短的查询词来说，丢掉一个处理单位对用户查询意图的改变较大，所以在丢词时要尽量以小的单位丢，例如单个词项或者较短的多词单元。对于长的查询词来说，丢掉一个处理单位对用户的查询意图改变较小，但在原查询是零结果或少结果的情况下，丢掉一个处理单位后的查询又可能还是零结果或少结果，对改善用户的搜索体验没有太大的作用；而如果以较大的多词单元为单位来进行丢词处理的话，可以提高丢词处理之后的新查询词有查询结果的可能性。并且，由于根据查询词的长度的不同进行不同的丢词处理，具体来说，如果无论针对长查询词还是短查询词都采用较小的多词单元为单位来进行丢词处理，则会降低查询词的丢词处理速度，而如果针对长查询词，采用较大的多词单元进行丢词处理，将会加快查询词的丢词处理速度。

因此，在本申请的一种优选实施例中，提出了一种根据所述查询词的长度的不同分别设计丢词算法的思路。此时，所述对查询词进行丢词处理的步骤，具体可以包括：

获取所述查询词的长度；

本申请主要针对2词查询、3词查询、4词及以上查询设计了不同的丢词算法。

(1)2词查询丢词算法：

整体丢词优先级如下：宽泛词＞冗余词、数字＞地名、停用词＞普通词，在上述优先级基础之上，按照前面词项重要性得分优先级从小到大丢。单个的宽泛词、冗余词、数字、地名以及停用词不作为缩写推荐结果。

(2)3词查询丢词算法：

若3个词都是独立的处理单位，且不包含品牌、地名、停用词、冗余词的时候，按照与中心词的的bigram(二元语法)频率从小到大丢，若两个词与中心词的bigram频率都比较小，且中心词的重要性得分是其他两个词的重要性得分之和的5倍以上的时候，中心词也可以作为单独的缩写推荐结果推出。

另外，在包含2个处理单位时，可以首先按照重要性评估结果，优先丢掉重要性较低的处理单位；在仅包含一个处理单位的时候，可以按照词项重要性，丢掉其中的地名、数字、冗余词，剩余部分作为处理结果输出。

(3)4词以及4词以上查询丢词算法：

在本申请的一种应用示例中，4词以及4词以上查询丢词算法对于需要用到重要性评估结果，具体可以包括：

①丢掉查询中的地名、停用词以及数字词项，剩余部分作为一个缩写推荐结果，并作为下面②、③丢词操作的输入。

②如果查询中包含连词，去掉连词及其前面的部分，剩余部分作为一个处理结果，连词及其后面的部分去掉，剩余部分作为一个推荐结果。

③将各个处理单位按照重要性评估结果从小到大排序，按照得分从小到大一次处理每个处理单位，对于当前处理单位，将其丢掉产生一个处理结果；如果该查询包含品牌词，且品牌词所在的处理单位已经被丢弃，则可以将品牌词所在处理单位恢复，与当前处理结果合并作为一个处理结果推出。

在实际中，可针对每个处理结果按照其剩余词项的得分占原查询的比例设定一个排序分值。处理完所有的丢词单位后，将处理结果进行排序，取排名在前的几个作为丢词处理的最后结果。

需要说明的是，在具体实现中，对词项重要性的计算，可以用机器学习排序的方法，例如采用rankSVM(支持向量机，supportvectormachine)排序学习模型，获取合适的训练标注样本，将本申请中利用的各项特征表示为一个特征向量，进行机器学习训练，进而用训练出来的模型对新查询的词项重要性进行评分。

其次，本申请在计算词项重要性时，用到了很多特征规则，在不同的情况下可以选择其中的一部份规则(子集)来进行计算，也可再加上别的规则(超集)来进行计算；本申请对这些特征规则的具体应用方式不加以限制。

再者，多词单元的重要性评估可以由词项重要性的不同组合手段表示，例如词项重要性的加权平均等。此外，多词单元的重要性可以结合更多的语法和语义信息进行计算。

另外，本申请在执行丢词算法时，用到了很多特征规则，在不同的情况下可以选择其中的一部份规则(子集)来进行计算，也可再加上别的规则(超集)来进行计算；本申请对这些特征规则的具体应用方式不加以限制。

在本申请的一种优选实施例中，在识别所述查询词中的多词单元前，所述方法还可以包括：

对所述查询词进行预处理操作，所述预处理操作具体可以包括：大小写转换，标点符号过滤，词性标注，浅层语段划分，中心词抽取，词项特殊语义标记中的一种或多种。

上面对一种查询词的在线处理过程进行了详细说明，需要说明的是，可以离线统计多词单元识别以及对多词单元和词项重要性评估所用到的统计特征。

所述离线统计的来源可以包括以下几个方面，一个是查询日志，另一个语义词表资源，如产品名称表等。对不同来源的数据按照线性差值进行计算。

统计的特征主要可以包括：

(1)ngram词项频率信息

主要可以包括unigram信息即单个词项x的出现频率f(x)以及bigram信息即双词词项出现频率f(x，y)，其中x，y表示两个相邻的词项。.

unigram统计信息在对词项进行重要性评估的时候可以作为一个特征。

bigram统计信息对于多词单元的识别有重要的意义，也可以作为特征来进行词项重要性的评估。

(2)词项独立性

单个词项和双词词项在查询日志中的独立出现程度在很大程度上表征了词项的信息量.单独出现过的词项表示特定信息主题的权重比较高.

词项独立性的实现可定义如下：

Ind(t)＝log(find(t)+c)

其中，find(t)为词项在查询点击日志中独立作为查询出现的次数，c为一平滑常数。

该信息将作为词项重要性评估时的一个重要特征。

(3)词项作为中心词(head)和修饰词(modifier)的概率.

h (x) = \frac{f (x_{h})}{f (x)}

m (x) = \frac{f (x_{m})}{f (x)}

其中，f(x_h)表示词项在中心词位置上出现的频率，f(x_m)表示词项在修饰词位置上的出现频率。参数统计中，将单个NP(名词短语，NounPhrase)中最右端词项作为中心词出现位置，其他作为修饰词出现位置。

为使本领域技术人员更好地理解本申请，以下通过一个具体的示例说明本申请对用户输入的查询词进行处理的过程；假设用户输入的查询词为“ladiesblackflowerflatshoeinaustralia”，则所述处理过程具体可以包括：

步骤S1、预处理；

首先对该查询词进行词性标注、语段划分(ladies，blackflowerflatshoe，inaustrilia)和中心词抽取(shoe)等等。

步骤S2、进行多词单元识别；

第一个浅层语段只有一个词ladies，故ladies单独成一个词项；假设第二个浅层语段blackflower的连续出现频率大于阈值C，flowerflat的连续出现频率小于阈值C，flatshoe的连续出现频率大于C，，所以，将blackflower确定为一个多词单元，将flatshoe确定为一个多词单元；inaustrilia是一个浅层语段。

步骤S3、分别对所述查询词中的各多词单元和除多词单元外的各词项的重要性进行打分：

首先对每一个词项进行打分，最后得分分别为0.73，0.08，1.26，0.58，4.24，0.31，0.21，0.01；

然后对多词单元进行打分，blackflower为1.26，flatshoe为4.24，inaustrilia为0.01，然后因为有介词in的存在，对flatshoe和inaustrilia分数做调整，分别为8.28和0.005.

步骤S4、所述对所述查询词进行丢词处理；

所含单词个数＞4，故依据相应的算法进行丢词处理。首先丢掉地名和支前的介词，变成ladiesblackflowerflatshoe；然后按照多词单元得分从小到大丢，首先丢掉ladies，blackflowerflatshoe作为一个推荐词，丢掉blackflower变成ladiesflatshoe作为一个推荐词，丢掉ladies和blackflower，flatshoe作为一个推荐词，每个推荐词剩余词项的得分之和与原查询各词项得分总和之比作为该推荐词的分数进行排序，得到最后的推荐词集合。

上面以英文查询词为例描述了查询词处理的过程，本申请还给出了一个中文查询词的处理示例。

假设用户输入查询词“面包形状钥匙扣”，则可以识别出其中的多词单元：“面包”、“形状”和“钥匙扣”三个单位；由于“钥匙扣”是中心词，按照一定的规则打分后，得分由小到大排列为：“形状”、“面包”、“钥匙扣”；按照得分由小到大丢词，第一个缩写结果为“面包钥匙扣”、第二个缩写结果为“钥匙扣”，也即最后得到的推荐词集合包括：“面包钥匙扣”和“钥匙扣”。

本申请可以应用于各种搜索引擎中，用于在搜索出现零结果或少结果时的搜索体验上。例如：当搜索出现零结果时，可以通过本申请将原查询词改写成几个新的查询词，将改写后的查询词以及相应的查询结果展示给用户，以提高用户的搜索体验。

与前述方法实施例相应，本申请还公开了一种查询词的处理装置实施例1，参照图2，具体可以包括：

接口模块201，用于接收用户输入的查询词，所述查询词包括若干个词项；

识别模块202，用于识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；及

丢词处理模块203，用于以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

在本申请实施例中，优选的是，所述识别模块202可以进一步包括：

在本申请的一种优选实施例中，所述处理子模块可以进一步包括：

在本申请实施例中，优选的是，所述当前词项和下一个词项的特征可以包括语义特征；

相应地，所述多词判断单元可以进一步包括：

在本申请实施例中，优选的是，所述当前词项和下一个词项的特征可以包括统计特征；

相应地，所述多词判断单元可以进一步包括：

在本申请的再一种优选实施例中，所述丢词处理模块可以进一步包括：

长度获取子模块，用于获取所述查询词的长度；及

在本申请实施例中，优选的是，所述装置还可以包括：

预处理模块，用于在识别所述查询词中的多词单元前，对所述查询词进行预处理操作，所述预处理操作包括：大小写转换，标点符号过滤，词性标注，浅层语段划分，中心词抽取，词项特殊语义标记中的一种或多种。

参照图3，示出了本申请一种查询词的处理装置实施例2的结构图，具体可以包括：

接口模块301，用于接收用户输入的查询词，所述查询词包括若干个词项；

识别模块302，用于识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；

评估模块303，用于分别对所述查询词中的各多词单元和除多词单元外的各词项进行重要性评估，得到相应的重要性评估结果；及

丢词处理模块304，用于以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词；

所述丢词处理模块304可以进一步包括：

排序子模块341，用于将所述查询词中所有处理单位的重要性评估结果，从小到大进行排序；及

第一丢词子模块342，用于基于优先丢掉排在前面的处理单位的原理，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

在本申请实施例中，优选的是，所述评估模块可以进一步包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种查询词的处理方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种查询词的处理方法，其特征在于，包括：

接收用户输入的查询词，所述查询词包括若干个词项；

以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词；

其中，通过以下步骤识别所述查询词中的多词单元：

依次处理各浅层语段，从前往后取得相应的多词单元。

2.如权利要求1所述的方法，其特征在于，所述处理各浅层语段的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述当前词项和下一个词项的特征包括语义特征；

4.如权利要求2所述的方法，其特征在于，所述当前词项和下一个词项的特征包括统计特征；

5.如权利要求1所述的方法，其特征在于，还包括：

所述对所述查询词进行丢词处理的步骤，包括：

6.如权利要求1所述的方法，其特征在于，所述对所述查询词进行丢词处理的步骤，包括：

获取所述查询词的长度；

7.如权利要求5所述的方法，其特征在于，通过如下步骤对多词单元进行重要性评估：

8.如权利要求5或7所述的方法，其特征在于，通过如下步骤对词项进行重要性评估：

9.如权利要求1所述的方法，其特征在于，在识别所述查询词中的多词单元前，所述方法还包括：

10.一种查询词的处理装置，其特征在于，包括：

丢词处理模块，用于以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词；

其中，所述识别模块包括：

11.如权利要求10所述的装置，其特征在于，所述处理子模块包括：

12.如权利要求11所述的装置，其特征在于，所述当前词项和下一个词项的特征包括语义特征；

所述多词判断单元包括：

13.如权利要求11所述的装置，其特征在于，所述当前词项和下一个词项的特征包括统计特征；

所述多词判断单元包括：

14.如权利要求10所述的装置，其特征在于，还包括：

所述丢词处理模块包括：

15.如权利要求10所述的装置，其特征在于，所述丢词处理模块包括：

长度获取子模块，用于获取所述查询词的长度；及

16.如权利要求14所述的装置，其特征在于，所述评估模块包括：

17.如权利要求14或16所述的装置，其特征在于，所述评估模块包括：

18.如权利要求10所述的装置，其特征在于，还包括：