CN103106287A

CN103106287A - 一种用户检索语句的处理方法及系统

Info

Publication number: CN103106287A
Application number: CN2013100712139A
Authority: CN
Inventors: 车天文; 雷大伟; 石志伟; 周步恋; 杨振东; 王更生; 王喜民; 何宏靖; 徐忆苏
Original assignee: Shenzhen Yisou Science & Technology Development Co Ltd
Current assignee: Shenzhen easou world Polytron Technologies Inc
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2013-05-15
Anticipated expiration: 2033-03-06
Also published as: CN103106287B

Abstract

本发明涉及信息检索领域，提供了一种用户检索语句的处理方法，包括，建立与用户检索词汇相关的样本库，以及建立与所述用户检索词汇相关的资源库；对所述用户检索词汇进行特征提取；利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权；对基本赋权后的用户检索词汇进行实体调权；输出用户检索词汇的权重。本发明还提供了一种用户检索语句的处理系统。采用本发明的技术方案，保障实体提取的准确率，获取动态权重，避免了仅仅依靠查询线下统计的词汇的权重而导致权重固定和不合理问题。最终又借助从属关系识别进一步优化用户检索词汇的权重，突出用户检索的核心词汇的权重，为搜索引擎提供更实际、更合理的信息支持。

Description

一种用户检索语句的处理方法及系统

技术领域

本发明涉及信息检索领域，特别地涉及一种用户检索语句的处理方法及系统。

背景技术

检索语句分析是搜索引擎的基础。搜索引擎根据用户的检索语句进行搜索，但经常会出现返回的搜索结果相关性比较差，只命中了用户检索语句中的部分词汇。主要原因是对用户检索语句中的词汇没有合理的赋权，使得检索中没有提出核心的、相对重要的词汇。

在广告检索中，同样会根据用户的检索语句，在某个位置给出相关的广告推荐信息。但是经常会发现这么一种情况，检索系统打出的广告与用户输入的信息相关性很差，甚至风马牛不相及，广告词仅仅命中了用户检索语句中的部分词汇，还不是很重要的词汇，这同样是因为对用户检索的语句中的词汇赋权不恰当导致的。

通过检索语句分析可以充分挖掘用户检索的信息，进而对检索的词汇进行赋权。每个检索的词汇都有相应的权重，权重越高，表示该词汇相对更重要，在检索中发挥的作用也就越大。

截止目前为止，有关用户检索词汇赋权方面的专利较少，基本是基于词典查询的一种静态权重赋权方法。

例如，中国专利CN102103604A（检索词核心权重确定方法和装置）公开了一种基于线下核心计算生成的词典查找检索词权重的方法。该检索词核心词权重确定方法包括：在线下核心计算生成的第一词典文件中查找检索词；

如果在第一词典文件中查找到所述检索词，则输出第一词典文件对应的检索词权重；如果在第一词典文件中未查找到检索词，则对检索词进行处理，并在第一词典文件中查找处理后的检索词，如果查找到处理后的检索词，则输出第一词典文件对应的处理后的检索词的权重；如果在第一词典文件中未查找到处理后的检索词，则对处理后的检索词进行切词计算，获得处理后的检索词的权重。该方法的优点是简单易实现，但不足是这样得到的权重大多是一种静态权重，主要是查询事先线下统计的词典信息。同一个词汇得到的权重也大多是相同的，但在实际检索环境下，用户的需求不同，表述不同，导致相同的词汇在不同的检索语句中可能代表的意义不同，重要程度不同，故而权重理应不同。

基于线下词典查询检索词权重的方法，主要是线下对用户检索行为统计，生成每个检索词的一种权重，如词汇的逆向文档频率idf值。在用户输入检索语句后，通过分词得到的一系列词汇，再查找词典，找到对应的权重，查不到则赋予一个默认值。

此方法将导致不同的检索语句中的同一个词的权重必定相同，没有考虑每个用户输入检索语句的特殊性和独立性。事实上，同一个词汇，可能会因为在不同的检索语句中，其重要性，起的作用是不尽相同的，权重当然也不会相同。

发明内容

本发明解决的技术问题在于提供了一种用户检索语句的处理方法及系

统，以解决目前无法对用户检索词汇动态赋权的问题。

为解决上述问题，本发明实施例提供了一种用户检索语句的处理方法，包括，

建立与用户检索词汇相关的样本库，以及建立与所述用户检索词汇相关的资源库；

对所述用户检索词汇进行特征提取；

利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权；

将基本赋权后的词汇进行实体调权；

输出用户检索词汇的权重。

上述的方法，其中，在建立与用户检索词汇相关的样本库之前，还包括，对用户检索语句进行分词处理，得到一系列的用户检索词汇。

上述的方法，其中，所述建立与用户检索词汇相关的样本库包括，

从检索日志中选取一定数量的用户检索语句，进行分词处理，得到一系列的用户检索词汇，人工标注所述一系列的用户检索词汇是核心词或非核心词，得到的样本标注集即为样本库。

上述的方法，其中，所述资源库包括，词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。

上述的方法，其中，所述对所述用户检索词汇进行特征提取包括，

利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表，提取用户检索词汇的特征，包括词汇的词性，前一个词汇的词性，词汇在用户检索语句中的位置，词汇的逆向文档频率idf值，词汇是否是百科词条，词汇是否是单检索词。

上述的方法，其中，所述利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权包括，

对样本库中的用户检索词汇进行特征提取，结合样本库中的用户检索词汇的人工标注，对分类器进行训练；

将用户检索词汇的特征向量送入分类器，利用分类器对所述用户检索词汇进行分类，并得到所述用户检索词汇为核心词的概率p，将p作为所述用户检索词汇的基本权重；

其中所述用户检索词汇的特征向量是由所述用户检索词汇的特征组成的一个特征向量。

上述的方法，其中，所述对基本赋权后的用户检索词汇进行实体调权包括，

根据实体资源词典，利用实体提取方法得到所述检索语句中的一系列实体词entityList；若某个词汇（term）是实体且基本赋权小于0.2，则调整为0.2：

weight [i] = \{\begin{matrix} 0.2 & weight [i] < 0.2 & term [i] &Element; entityList \\ weight [i] & other \end{matrix}, i = 1,2 . . . n

其中term[i]表示第i个term，weight[i]为对应的权重，entityList为提取的实体集。

上述的方法，其中，所述根据实体资源词典，利用实体提取方法得到所述检索语句中的一系列实体词entityList包括，

考虑用户检索分类相关，在实体的类别与分类信息有关联时则进行实体词提取；或者，

利用语句规则进行实体词提取。

上述的方法，进一步地，在输出用户检索词汇的权重之前还包括，

对用户检索词汇进行从属关系调权。

本发明实施例还提供了一种用户检索语句的处理系统，包括，

样本库建立模块，用于建立与用户检索词汇相关的样本库；

资源库建立模块，用于建立与所述用户检索词汇相关的资源库；

特征提取模块，用于对所述用户检索词汇进行特征提取；

分类模块，用于利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权；

实体调权模块，用于对基本赋权后的用户检索词汇进行实体调权；

输出模块，用于输出用户检索词汇的权重。

上述的系统，其中，所述样本库建立模块，用于建立与用户检索词汇相关的样本库包括，从检索日志中选取一定数量的用户检索语句，进行分词处理，得到一系列的用户检索词汇，人工标注所述一系列的用户检索词汇是核心词或非核心词，得到的样本标注集即为样本库。

上述的系统，其中，所述特征提取模块，用于对所述用户检索词汇进行特征提取包括，

利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表，提取所述用户检索词汇的特征，包括词汇的词性，前一个词汇的词性，词汇在用户检索语句中的位置，词汇的逆向文档频率idf值，词汇是否是百科词条，词汇是否是单检索词。

上述的系统，进一步地，还包括，

分词模块，用于对用户检索语句进行分词处理，得到一系列的用户检索词汇；

从属关系调权模块，用于对所述用户检索词汇进行从属关系调权。

采用本发明的技术方案，既考虑到用户检索词汇的特征，又考虑到实体词的特殊作用，通过引进实体进行实体消歧操作，保障实体提取的准确率，获取动态权重，避免了仅仅依靠查询线下统计的词汇的权重而导致权重固定和不合理问题。最终又借助从属关系识别进一步优化用户检索词汇的权重，突出用户检索语句的核心词汇的权重，为搜索引擎提供更实际、更合理的信息支持。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明第一实施例流程图；

图2是本发明第二实施例结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在检索时，用户会根据需要输入检索语句，一般来说，检索语句是由若干个检索词汇构成的。鉴于中文语言的丰富性、复杂性，用户检索输入的语句是多种多样的，为了详细说明自己的需求，不惜用词。但事实上很多词汇都是可以当作辅助分析的词语，让表达的意思更加明确，对于检索的实际意义却不大。在本发明的实施例中，将对用户检索语句中的每个词汇赋予一个权重。检索可以对权重不同的词汇采取不同的检索策略。如权重高的词汇，就被认为相对更重要，搜索结果中必须含有。

如图1所示，是本发明第一实施例流程图，提供了一种用户检索语句的处理方法，具体包括，

步骤S101，对用户检索语句进行分词处理，得到一系列的用户检索词汇；

步骤S102，建立与用户检索词汇相关的样本库，以及建立与所述用户检索词汇相关的资源库；

作为一个实施例，样本库是与用户检索词汇相关的样本标注集，具体包括，从检索日志中选取一定数量的用户检索语句，进行分词处理，得到一系列的用户检索词汇，人工标注所述一系列的用户检索词汇是核心词或非核心词，得到的样本标注集即为样本库。

作为一个实施例，资源库是与用户检索词汇的特征相关的一系列资源，包括词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。

词汇的逆向文档频率idf词表是线下统计的用户检索语句中每个词汇的逆向文档频率idf值，词汇的逆向文档频率idf值是通常意义上的一个词汇的常用的一个统计值，与这个词汇在多少个检索语句中出现过有关。词汇的逆向文档频率idf值计算公式：

idf(term)＝log(N+1/(N_term))

N代表统计的搜索语句数目，N_term表示含该词汇的检索语句数目。如果该词汇在绝大多数的检索语句中出现，则认为该词汇不具有区分性、代表性，逆向文档频率idf值会较小；

百科词表是挖掘的一些出现在百科中的词汇，这类词汇既然有百科，就说明是常用词汇；

检索单词汇表是线下统计的用户检索语句是单个词汇的检索词汇，代表这个词汇可以单独使用的能力。如果这类词汇常被用户单独拿来做检索，说明该词汇比较重要，可以不依赖其他词汇且能表达清楚用户需求。如用户搜索“百度”，“宜搜”，“qq浏览器”等词，说明这类词简短明了，直接就是一种核心需求；

实体资源词典是提取实体需要的，包含当前各类资源名称，如小说名、软件名、电影名等频道资源，以及其对应类别，这可以从检索日志中挖掘或从各垂直网站抓取、提取所需信息，尽可能保证资源库的资源信息完备。

步骤S103，对所述用户检索词汇进行特征提取；

特征提取是将要处理的检索词汇进行量化，便于计算机处理，用检索词汇的一些重要特征来表示该词汇。

利用资源库的词汇的逆向文档idf词表、百科词表、检索单词汇表，提取用户检索词汇的特征，包括词汇的词性，前一个词汇的词性，词汇在用户检索语句中的位置，词汇的逆向文档频率idf值，词汇是否是百科词条，词汇是否是单检索词。

词汇的词性是检索词汇的一种基本特征，在对检索语句进行分词后，可以得到每个词汇的词性；

前一个词汇的词性，前后词语可以表示一种依赖关系，故提取前一个词汇的词性，若没有前一个词汇，取默认词性即可；

词汇在用户检索语句中的位置，一般而言，检索语句中的重要词汇，是与其所在的位置有关的，一般检索语句的靠前位置的词汇会显得更重要些，故将词汇在用户检索语句中的位置作为词汇的一种特征；

其他特征，诸如词汇的逆向文档频率idf值，词汇是否是百科词条，词汇是否是单检索词，可以利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表查询获取，更倾向于一种统计特征。

步骤S104，利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权；

其中所述用户检索词汇的特征向量是由所述用户检索词汇的特征组成的一个特征向量；

步骤S105，对基本赋权后的用户检索词汇进行实体调权；

用户输入的检索语句中含有的词汇的重要度、等级是不同的，如何区分更重要的、有代表意义的词汇，相对而言，实体词更为重要，一般更能显示用户的本意需求。如果检索语句中含有实体词，则要突出实体词的作用。

实体调权主要是进一步提高实体的权重，尤其是分类器给出的基本权重较低的情况下提升权重。

鉴于实体的重要性且复杂性，需要结合用户本身的输入来判断是否为实体。比如“为什么”是一个最为普通的词，但也可能存在于实体资源词典中，类别为歌曲。如何区分这类词，尤其是歧义的实体词，则是步骤最重要的一步，可称之为实体消歧。

考虑两种方法来提取实体，其中第一种方法考虑用户检索分类相关，在实体的类别与分类信息有关联则进行提取，否则不用。第二种方法利用语句规则提取：如（人名|需求词)+词T，（人名）词T+（需求词），若T出现在实体资源词典则提取。如用户检索“蔡卓妍歌曲为什么”，“歌曲为什么”，此时“为什么”可认为是实体。

具体地，第一种方法就是利用外部信息，如Query分类（用户检索语句的分类），这在搜索引擎中比较普遍。如用户搜索“五月天歌曲为什么试听”，Query类别为歌曲类；“为什么手机连接不上电脑”，Query类别为问答类。

提取用户检索语句的实体就是利用这些类别信息。如“为什么”属于非核心词，在此通过实体资源词典，作为候选实体出现，实体为歌曲类（有首歌的名字叫“为什么”），Query类别（歌曲类）与实体类别（歌曲）有关联，则认为是实体。而在“为什么手机连接不上电脑”中，即便“为什么”作为候选实体出现，但是Query类别（问答类）与实体类别（歌曲）不关联，则不认为是实体。

这种关联可人工灵活的配一张关联表，表示每个Query类别可能与哪些实体类别有关联，如“下载类：歌曲、电影、电视剧、游戏、软件”；“歌曲类：歌曲”；“视频类：电影，电视剧，动漫”等。

当然，实际情况是，并非每个Query都有类别。如果用户检索语句没有类别怎么办？按经验来说，如果Query中含有明显的实体词，Query基本都是可以分出类别的，如果真的没有分出类别，那可以直接根据候选实体的长度、切成词汇的个数来择优，保障准确率。

实体调权主要意义在于“捞”核心词。在分类器赋权后，根据用户检索词汇特征，每个词汇都有个基本权重，但是一般的普通的用户检索词汇可能会有较低的权重，而这类检索词汇在仔细分析后可能会发现其实是相当重要的实体词，于是需要提升这类检索词汇的权重。如“因为爱情”，分词为“因为爱情”，“因为”太普通了，在基本赋权后可能权重较低。但是它是实体(歌曲“因为爱情”)的一部分，在该步会把其赋予较高的权重。如上述，实体调权最主要的工作是实体消歧，即如何提取真正有用的实体，且更少的引入噪音，保障召回率和准确率，该步想到了上述两种方法。

当然第一种方法是依赖外部的Query分类，准确率比较高。

具体地，第二种方法就直接从一些规则着手，比如实体词一般会和人名、需求词语（歌曲、电影等）一起出现，尤其是针对普通意义的实体词。如上述“歌曲为什么”，此处的“为什么”就是实体，“为什么手机连接不上电脑”此处的“为什么”不是实体，该方法实现简易。

根据实体资源词典，利用实体提取方法得到所述检索语句中的一系列实体词entityList。若某个词汇（term）是实体且基本赋权小于0.2，则调整为0.2。

weight [i] = \{\begin{matrix} 0.2 & weight [i] < 0.2 & term [i] &Element; entityList \\ weight [i] & other \end{matrix}, i = 1,2 . . . n

该步骤旨在将用户检索语句中包含的实体的词汇（基本分层可能赋予了较低的权重），提高该词汇的权重，凸显用户的意图。

步骤S107，输出用户检索词汇的权重。

针对每个用户检索语句，借助以上步骤，最终获得了该语句包含的每个用户检索词汇对应的权重，从权重的高低就可看到该用户检索词汇的重要程度。

上述步骤基本完成了用户输入检索语句的识别，但如果要达到更好的效果，本发明实施例还可以包括步骤S106：

步骤S106，对用户检索词汇进行从属关系调权；

作为一个实施例，本发明实施例将从属关系分为两类：区域从属和领域从属。

区域从属即地理位置从属，当两个地名是从属关系，上下级关系时，将上级地址的权重调低，以突出核心地名的权重。如“北京海淀”，海淀属于北京，则“海淀”理应比“北京”有更高的权重。可考虑利用地名编码来识别区域从属关系。

领域从属即实体名所属的类别领域，如电视剧类，电影类，歌曲类等，信息来源于上述实体资源词典。在上述S105实体调权后，根据实体类别，若实体前后出现其类别需求词，这类词的权重降低。本质来说，需求词是表明用户检索事物的一种属性，所以是修饰具体的实体、本体相关的词语，一般会伴随实体出现。故在识别出实体后，进行从属关系判定，如果是需求词就降权。如“刘德华的歌曲忘情水”，“忘情水”为实体，类别为歌曲，故词汇“歌曲”在此就为需求词，权重要调低，突出核心词“刘德华”和“忘情水”，以便进行搜索排序优化。再如用户输入“刘德华的电影”，此处“电影”则非需求词，不会被降权，否则检索结果就可能与电影无关。

如图2所示，是本发明第二实施例结构图，提供了一种用户检索语句的处理系统，包括，

样本库建立模块201，用于建立与用户检索词汇相关的样本库；

资源库建立模块202，用于建立与所述用户检索词汇相关的资源库；

特征提取模块203，用于对所述用户检索词汇进行特征提取；

分类模块204，用于利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权；

实体调权模块205，用于对基本赋权后的用户检索词汇进行实体调权；

输出模块206，用于输出用户检索词汇的权重。

进一步地，所述样本库建立模块，用于建立与用户检索词汇相关的样本库包括，用于从检索日志中选取一定数量的用户检索语句，进行分词处理，得到一系列的用户检索词汇，人工标注所述一系列的用户检索词汇是核心词或非核心词，得到的样本标注集即为样本库。

进一步地，所述资源库包括，词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。

进一步地，所述特征提取模块，用于对所述用户检索词汇进行特征提取包括，

用于利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表，提取所述用户检索词汇的特征，包括词汇的词性，前一个词汇的词性，词汇在用户检索语句中的位置，词汇的逆向文档频率idf值，词汇是否是百科词条，词汇是否是单检索词。

进一步地，所述分类模块，用于利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权包括，

用于对样本库中的用户检索词汇进行特征提取，结合样本库中的用户检索词汇的人工标注，对分类器进行训练；以及，

进一步地，所述系统还包括，

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种用户检索语句的处理方法，其特征在于，包括，

对所述用户检索词汇进行特征提取；

对基本赋权后的用户检索词汇进行实体调权；

输出用户检索词汇的权重。

2.根据权利要求1所述的方法，其特征在于，在建立与用户检索词汇相关的样本库之前，还包括，

对用户检索语句进行分词处理，得到一系列的用户检索词汇。

3.根据权利要求2所述的方法，其特征在于，所述建立与用户检索词汇相关的样本库包括，

4.根据权利要求3所述的方法，其特征在于，所述资源库包括，词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。

5.根据权利要求4所述的方法，其特征在于，所述对所述用户检索词汇进行特征提取包括，

6.根据权利要求5所述的方法，其特征在于，所述利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权包括，

7.根据权利要求6所述的方法，其特征在于，所述对基本赋权后的用户检索词汇进行实体调权包括，

weight [i] = \{\begin{matrix} 0.2 & weight [i] < 0.2 & term [i] &Element; entityList \\ weight [i] & other \end{matrix}, i = 1,2 . . . n

8.根据权利要求7所述的方法，其特征在于，所述根据实体资源词典，利用实体提取方法得到所述检索语句中的一系列实体词entityList包括，

利用语句规则进行实体词提取。

9.根据权利要求1至8任一所述的方法，其特征在于，在输出用户检索词汇的权重之前还包括，

对所述用户检索词汇进行从属关系调权。

10.一种用户检索语句的处理系统，其特征在于，包括，

样本库建立模块，用于建立与用户检索词汇相关的样本库；

特征提取模块，用于对所述用户检索词汇进行特征提取；

输出模块，用于输出用户检索词汇的权重。

11.根据权利要求10所述的系统，其特征在于，所述样本库建立模块，用于建立与用户检索词汇相关的样本库包括，

用于从检索日志中选取一定数量的用户检索语句，进行分词处理，得到一系列的用户检索词汇，人工标注所述一系列的用户检索词汇是核心词或非核心词，得到的样本标注集即为样本库。

12.根据权利要求11所述的系统，其特征在于，所述特征提取模块，用于对所述用户检索词汇进行特征提取包括，

用于利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表，提取用户检索词汇的特征，包括词汇的词性，前一个词汇的词性，词汇在用户检索语句中的位置，词汇的逆向文档频率idf值，词汇是否是百科词条，词汇是否是单检索词。

13.根据权利要求12所述的系统，其特征在于，所述分类模块，用于利用分类器对所述用户检索词汇进行分类，并对所述用户检索词汇进行基本赋权包括，

用于对样本库中的用户检索词汇进行特征提取，结合所述样本库中的用户检索词汇的人工标注，对分类器进行训练；以及，

14.根据权利要求13所述的系统，其特征在于，还包括，