CN103377226B

CN103377226B - 一种智能检索方法及其系统

Info

Publication number: CN103377226B
Application number: CN201210124028.7A
Authority: CN
Inventors: 张斌
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2016-08-03
Anticipated expiration: 2032-04-25
Also published as: CN103377226A

Abstract

本发明公开了一种智能检索方法及其系统，该方法包括：接收信息检索请求，提取其中携带的关键词；将所述关键词作为原始关键词，对所述关键词进行扩展；根据设定的组合级数N，通过对所述原始关键词和扩展得到的关键词进行排列组合，得到包含一元词组到N元词组的关键词集合；其中，N≥2；根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本与所述关键词集合的相似度；根据各被检索文本与所述关键词集合的相似度，得到作为检索结果的被检索文本并返回检索结果。本发明可应用于对短文本的检索，可提高信息检索的准确性和有效性。

Description

一种智能检索方法及其系统

技术领域

本发明涉及通信领域的信息检索技术，尤其涉及一种智能检索方法及其系统。

背景技术

信息检索是指是指从信息集合中找出用户所需要的有关信息的过程。传统的全文检索技术基于关键词匹配进行检索，往往存在查不全、查不准、检索质量不高的现象，特别是在网络信息时代，利用关键词匹配很难满足人们检索的要求。

目前常用的信息检索方法是基于关键词匹配，即，先为要检索的内容设置关键词，然后通过关键词匹配来衡量是否为检索目标，一般认为匹配的关键词越多则越相近。

传统的基于关键词匹配的检索方法对基于句子且文本内容较少(比如微博)的检索不是很有效，这是由于文本内容较少，与关键词匹配的几率较小，因此检索到用户所需要的信息的几率就小，存在检索结果不全面(即查不全)的问题。

发明内容

本发明实施例提供了一种智能检索方法及其系统，用以解决现有信息检索技术检索结果不全面的问题。

本发明实施例提供的智能检索方法，包括：接收信息检索请求，提取其中携带的关键词；将所述关键词作为原始关键词，对所述关键词进行扩展；根据设定的组合级数N，通过对所述原始关键词和扩展得到的关键词进行排列组合，得到包含一元词组到N元词组的关键词集合；其中，N≥2；根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本与所述关键词集合的相似度；根据各被检索文本与所述关键词集合的相似度，得到作为检索结果的被检索文本并返回检索结果。

本发明实施例提供的智能检索系统，包括：接收单元，用于接收信息检索请求，并提取所述信息检索请求中携带的关键词；关键词扩展单元，用于将所述关键词作为原始关键词，对所述关键词进行扩展；词组划分单元，用于根据设定的组合级数N，通过对所述原始关键词和扩展得到的关键词进行排列组合，得到包含一元词组到N元词组的关键词集合；其中，N≥2；相似度确定单元，用于根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本与所述关键词集合的相似度；检索结果确定单元，用于根据各被检索文本与所述关键词集合的相似度，得到作为检索结果的被检索文本；发送单元，用于返回检索结果。

本发明的上述实施例，考虑到二元词组表达的信息比一元词组准确，三元词组表达的信息比二元词组准确，以此类推，通过引入二元词组、三元词组以致多元词组，提高了检索结果的有效性和准确性。

附图说明

图1为本发明实施例提供的智能检索流程示意图；

图2为本发明实施例中最多扩展到三元词组时的智能检索流程示意图；

图3为本发明实施例提供的智能检索系统结构示意图。

具体实施方式

本发明实施例提供的智能检索方法在传统的基于关键词匹配的检索方法基础上，引入了关键词扩展，且将扩展得到的关键词组成关键词集合，其中按照一元词组以及多元词组(包括二元词组，三元词组......N元词组，N≥1)进行区分，并赋予不同的权重，然后通过语义计算得到被检测文本与关键词集合的匹配程度，进而根据被检测文本与关键词集合的匹配程度得到检索结果。本发明实施例适合于对句子进行检索，或者适合于对较短的文字片段的检索，比如对微博进行检索。

本发明实施例中，一元词组指不可拆分的词语，词语中不存在修饰关系，比如，北京，中国；N元词组指该词组由N个一元词组构成。

下面结合附图对本发明实施例进行详细描述。

本发明实施例可应用于C/S(客户端/服务器)或B/S(浏览器/服务器)系统架构，其中，客户端用于发起信息检索请求以及接收信息检索结果，服务器端设置有智能检索系统，可为用户提供智能检索服务。

参见图1，为本发明实施例提供的智能检索流程示意图，该流程可由智能检索系统实现，该流程可包括：

步骤101，客户端向智能检索系统提交信息检索请求，其中携带有关键词。

具体实现时，用户可通过智能检索系统提供的检索界面输入关键词，并提交检索请求，其中携带有该关键词。

步骤102，智能检索系统接收该信息检索请求后，提取其中携带的关键词，并以该关键词为基础进行扩展(为描述方便，以下将该关键词称为原始关键词)。

具体实施时，可采用PMI(PointwiseMutualInformation)算法对关键词进行扩展。比如，可通过同义词库、近义词库、关联词库等，查询与用户提交的关键词语义相近或有关联的词。扩展词的数量根据组合级数N来确定，比如，若组合级数设定为5，即经过对扩展得到的关键词进行排列组合后最多得到五元词组，则扩展词的数量不低于4。

步骤103，智能检索系统根据组合级数N，将原始关键词和扩展得到的关键词进行划分，得到包含一元词组到N元词组的关键词集合。

具体实施时，智能检索系可根据组合级数N，将原始关键词和扩展得到的关键词进行排列组合，从而得到包含一元词组到N元词组的关键词集合。在基于原始关键词和扩展得到的关键词进行排列组合时，可以得到一元、二元......N-1元、N元词组，比如，用户输入的关键词是一个一元词组，可以以该一元词组为基础扩展得到M(M≥N)个一元词组(包括原始关键词)，然后，通过排列组合得到个二元词组、个三元词组......个N元词组。

步骤104，智能检索系统根据语义计算算法，得到被检索文本与关键词集合的相似度。

具体实施时，智能检索系统计算原始关键词与被检索文本的相似度，计算所有包含原始关键词的二元词组与被检索文本的相似度，以此类推，直到计算包含原始关键词的N元词组与被检索文本的相似度，然后根据一元词组、二元词组到N元词组各自对应的权重值，对计算出的各元词组与被检索文本的相似度值进行加权求和，得到所有包含原始关键词的词组与检索文本的相似度，并将该相似度值与第一系数相乘。同理，智能检索系统根据一元到N元词组各自对应的权重值，计算除原始关键词以外的一元词组与被检索文本的相似度，计算所有不包含原始关键词的二元词组与被检索文本的相似度，以此类推，直到所有不包含原始关键词的N元词组与被检索文本的相似度的权重累加和，得到所有不包含原始关键词的词组与检索文本的相似度，并将该相似度与第二系数相乘。然后，将与第一系数相乘后的数值和与第二系数相乘后的数值相加，得到被检索文本与关键词集合的相似度。其中，第一系数大于第二系数。

具体的，可采用以下公式(1)计算被检索文本与关键词集合的相似度，该公式代表关键词与被检索句子的语义相似度，相似度越大说明越相关：

\log P (Q | S)

= λ {α_{1} Σ_{i = 1}^{K} \log P_{1} (t_{i} | S) + α_{2} Σ_{j = 1}^{m} \log P_{2} (t_{j} | S) + . . . + α_{N} Σ_{k = 1}^{n} \log P_{N} (t_{k} | S)}

+ (1 - λ) {α_{1} Σ_{i = 1}^{K^{'}} \log P_{1} (t_{i}^{'} | S) + α_{2} Σ_{j = 1}^{m^{'}} \log P_{2} (t_{j}^{'} | S) + . . . + α_{N} Σ_{k = 1}^{n^{'}} \log P_{N} (t_{k}^{'} | S)}

其中，α₁，α₂，...α_N分别为一元词组、二元词组直到N元词组各自对应的权重值，α₁+α₂+...+α_N＝1。一般一元词组、二元词组在短文中出现的概率远大于三元词组，所以一元、二元词组的权重要大于三元词组，如可将一元词组、二元词组......N元词组的权重值依次降低。

λ是关键词权重系数，用来衡量原始关键字和扩展后的关键字的权重，一般认为原始关键词更能表达用户的检索目标，所以λ取值要大于1-λ，如设置为：0.5＜λ＜1。

P(t|S)表示关键词t与被检索文本S的相似度，其中，表示原始关键词与被检索文本相似度对数值的累加和，表示包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和，表示包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和，表示除所述原始关键词以外的一元词组与被检索文本相似度对数值的累加和，表示不包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和，表示不包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和。

步骤105，智能检索系统根据各被检索文本与关键词集合的相似度，得到作为检索结果的被检索文本。

具体实施时，确定被检索文本与关键词集合的相似度之前可首先对被检索文本进行预处理，以提取被检索文本主干。预处理过程可包括：通过对被检索文本进行分词，标注词性，去掉被检索文本中的副词、介词、连词等虚词，得到被检索文本主干。各被检索文本与关键词集合的相似度是指各被检索文本主干与关键词集合的相似度。

步骤106，智能检索系统返回检索结果给发起信息检索请求的客户端。

具体实施时，由于相似度越大则相关性越大，因此可将最后的输出结果按相似度进行排序。

通过以上描述可以看出，考虑到二元词组表达的信息比一元词组准确，三元词组表达的信息比二元词组准确，以此类推，所以引入二元词组、三元词组以致多元词组，可以提高检索结果的有效性和准确性。

考虑到对于多元词组，其检索到匹配文本的概率会比较小，为了降低处理开销，因此本发明实施例优选采用最多扩展至三元词组。

下面以一具体实例，并采用最多扩展到三元词组为例，对本发明实施例进行详细描述。如图2所示，用户提交的关键词为“奥运”，其为一元词组，经智能检索系统扩展后得到(包括原始关键词“奥运”)：奥运、北京、圣火，经排列组合后得到的关键词集合中的一元词组包括：奥运、北京、圣火；二元词组包括：奥运/北京，奥运/圣火，北京/圣火；三元词组包括：北京/奥运/圣火。然后分别根据一元词组、二元词组和三元词组，采用前述公式计算该关键词集合与被检测文本的相似度，并最终得到检索结果进行输出。

例如，从网上抓取“北京奥运”相关的新闻40篇，选取其中的30篇(共596个句子)来训练算法中的参数设置，另外10篇(共204个句子)进行测试，测试(以句子为单位进行测试)结果可如表1所示：

表1

其中，P10表示前10个检索结果中正确的概率。

通过对表1的对比分析可以看出，采用本发明实施例进行信息检索，其准确性明显高于采用传统检索方式。

本发明实施例可以应用在微博搜索方面。假设用户想搜索包含“北京奥运”内容的短信，该方案会将“北京奥运”进行扩展，可能包括“2008、祥云”这样的扩展关键词，然后将扩展词输入到语义算法进行计算，然后按照结果进行排序，返回给用户，用户便可以看到跟“北京奥运”相关的微博。

本发明实施例还可以应用在移动梦网搜索、WAP10086帮助用户准确的搜索自己感兴趣的内容。根据用户输入的内容，假设用户输入“北京奥运”，则该搜索先通过扩展算法将“北京奥运”进行扩展，扩展后的关键字与原始输入关键字构成关键字集合，然后与被检索的句子计算语义距离，在计算之前先将被检索句子用句子主干代替，然后按照返回的值倒序排列，值越大则表示越相关，最后按相关性截取部分句子作为结果返回给用户。

基于相同的技术构思，本发明实施例还提供了一种应用于上述流程的智能搜索系统。

参见图3，为本发明实施例提供的智能搜索系统的结构示意图。如图所示，该系统可包括：

接收单元301，用于接收信息检索请求，并提取所述信息检索请求中携带的关键词；

关键词扩展单元302，用于将所述关键词作为原始关键词，对所述关键词进行扩展；

词组划分单元303，用于根据设定的组合级数N，通过对所述原始关键词和扩展得到的关键词进行排列组合，得到包含一元词组到N元词组的关键词集合；其中，N≥2；

相似度确定单元304，用于根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本与所述关键词集合的相似度；

检索结果确定单元305，用于根据各被检索文本与所述关键词集合的相似度，得到作为检索结果的被检索文本；

发送单元306，用于返回检索结果。

具体的，相似度确定单元304对于每个被检测文本，根据一元词组到N元词组各自对应的权重值，在确定该被检索文本与所述关键词集合的相似度时：根据一元词组到N元词组各自对应的权重值，计算所述原始关键词与被检索文本的相似度、所有包含所述原始关键词的二元词组与被检索文本的相似度，直到包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和，并将该权重累加和与第一系数相乘；根据一元词组到N元词组各自对应的权重值，计算除所述原始关键词以外的一元词组与被检索文本的相似度、所有不包含所述原始关键词的二元词组与被检索文本的相似度，直到所有不包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和，并将该权重累加和与第二系数相乘；将与第一系数相乘后的数值和与第二系数相乘后的数值相加，得到所述被检索文本与所述关键词集合的相似度；其中，第一系数大于第二系数。

具体的，相似度确定单元304对于每个被检测文本，根据一元词组到N元词组各自对应的权重值，确定该被检索文本与所述关键词集合的相似度时，采用前述公式(1)，其中参数的设置和含义如前所述。优选的，N＝3，即最多扩展到三元词组。

具体的，按照从一元词组、二元词组直到N元词组的顺序，其权重值依次递减。

进一步的，该系统还可包括预处理单元307，用于在确定被检索文本与所述关键词集合的相似度之前，通过对被检索文本进行分词，提取被检索文本主干。相应的，相似度确定单元304根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本的文本主干与所述关键词集合的相似度。

综上所述，本发明实施例更适用于句子或者较短的文字片段检索，传统的关键字匹配检索算法依赖于关键词匹配，而句子或文字片段较难匹配关键词，导致检索结果不全。另外，传统的关键词匹配检索经常包含一些不准确的结果，这些结果是用户不想要的，对用户造成了干扰，本发明实施例在传统的关键词匹配基础上增加了语义计算，可以提高检索结果的准确性。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种智能检索方法，其特征在于，包括：

接收信息检索请求，提取其中携带的关键词；

将所述关键词作为原始关键词，对所述关键词进行扩展；

根据设定的组合级数N，通过对所述原始关键词和扩展得到的关键词进行排列组合，得到包含一元词组到N元词组的关键词集合；其中，N≥2；

根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本与所述关键词集合的相似度；

根据各被检索文本与所述关键词集合的相似度，得到作为检索结果的被检索文本并返回检索结果。

2.如权利要求1所述的方法，其特征在于，对于每个被检测文本，根据一元词组到N元词组各自对应的权重值，确定该被检索文本与所述关键词集合的相似度，具体为：

根据一元词组到N元词组各自对应的权重值，计算所述原始关键词与被检索文本的相似度、所有包含所述原始关键词的二元词组与被检索文本的相似度，直到包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和，并将该权重累加和与第一系数相乘；

根据一元词组到N元词组各自对应的权重值，计算除所述原始关键词以外的一元词组与被检索文本的相似度、所有不包含所述原始关键词的二元词组与被检索文本的相似度，直到所有不包含所述原始关键词的N元词组与被检索文本的相似度的权重累加和，并将该权重累加和与第二系数相乘；

将与第一系数相乘后的数值和与第二系数相乘后的数值相加，得到所述被检索文本与所述关键词集合的相似度；其中，第一系数大于第二系数。

3.如权利要求2所述的方法，其特征在于，对于每个被检测文本，根据一元词组到N元词组各自对应的权重值，确定该被检索文本与所述关键词集合的相似度时，采用以下公式：

\log P (Q | S)

= λ {α_{1} Σ_{i = 1}^{K} \log P_{1} (t_{i} | S) + α_{2} Σ_{j = 1}^{m} \log P_{2} (t_{j} | S) + . . . + α_{N} Σ_{k = 1}^{n} \log P_{N} (t_{k} | S)}

+ (1 - λ) {α_{1} Σ_{i = 1}^{K^{'}} \log P_{1} (t_{i}^{'} | S) + α_{2} Σ_{j = 1}^{m^{'}} \log P_{2} (t_{j}^{'} | S) + . . . + α_{N} Σ_{k = 1}^{n^{'}} \log P_{N} (t_{k}^{'} | S)}

其中，α₁，α₂，...α_N分别为一元词组、二元词组直到N元词组各自对应的权重值，α₁+α₂+...+α_N＝1；0.5＜λ＜1；

P(t|S)表示关键词t与被检索文本S的相似度，其中，表示所述原始关键词与被检索文本相似度对数值的累加和，表示包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和，表示包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和，表示除所述原始关键词以外的一元词组与被检索文本相似度对数值的累加和，表示不包含有所述原始关键词的二元词组与被检索文本相似度对数值的累加和，表示不包含所述原始关键词的N元词组与被检索文本相似度对数值的累加和。

4.如权利要求3所述的方法，其特征在于，N＝3。

5.如权利要求1-4之一所述的方法，其特征在于，按照从一元词组、二元词组直到N元词组的顺序，其权重值依次递减。

6.如权利要求1所述的方法，其特征在于，确定被检索文本与所述关键词集合的相似度之前还包括：通过对被检索文本进行分词，提取被检索文本主干；

所述各被检索文本与所述关键词集合的相似度是指各被检索文本主干与所述关键词集合的相似度。

7.一种智能检索系统，其特征在于，包括：

接收单元，用于接收信息检索请求，并提取所述信息检索请求中携带的关键词；

关键词扩展单元，用于将所述关键词作为原始关键词，对所述关键词进行扩展；

词组划分单元，用于根据设定的组合级数N，通过对所述原始关键词和扩展得到的关键词进行排列组合，得到包含一元词组到N元词组的关键词集合；其中，N≥2；

相似度确定单元，用于根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本与所述关键词集合的相似度；

检索结果确定单元，用于根据各被检索文本与所述关键词集合的相似度，得到作为检索结果的被检索文本；

发送单元，用于返回检索结果。

8.如权利要求7所述的系统，其特征在于，所述相似度确定单元具体用于，对于每个被检测文本，根据一元词组到N元词组各自对应的权重值，在确定该被检索文本与所述关键词集合的相似度时：

9.如权利要求8所述的系统，其特征在于，所述相似度确定单元具体用于，对于每个被检测文本，根据一元词组到N元词组各自对应的权重值，确定该被检索文本与所述关键词集合的相似度时，采用以下公式：

\log P (Q | S)

= λ {α_{1} Σ_{i = 1}^{K} \log P_{1} (t_{i} | S) + α_{2} Σ_{j = 1}^{m} \log P_{2} (t_{j} | S) + . . . + α_{N} Σ_{k = 1}^{n} \log P_{N} (t_{k} | S)}

+ (1 - λ) {α_{1} Σ_{i = 1}^{K^{'}} \log P_{1} (t_{i}^{'} | S) + α_{2} Σ_{j = 1}^{m^{'}} \log P_{2} (t_{j}^{'} | S) + . . . + α_{N} Σ_{k = 1}^{n^{'}} \log P_{N} (t_{k}^{'} | S)}

10.如权利要求9所述的系统，其特征在于，N＝3。

11.如权利要求7-10之一所述的系统，其特征在于，按照从一元词组、二元词组直到N元词组的顺序，其权重值依次递减。

12.如权利要求7所述的系统，其特征在于，还包括预处理单元，用于在确定被检索文本与所述关键词集合的相似度之前，通过对被检索文本进行分词，提取被检索文本主干；

所述相似度确定单元具体用于，根据一元词组到N元词组各自对应的权重值，分别确定各被检索文本的文本主干与所述关键词集合的相似度。