CN103150409A

CN103150409A - 一种用户检索词推荐的方法及系统

Info

Publication number: CN103150409A
Application number: CN2013101196679A
Authority: CN
Inventors: 车天文; 雷大伟; 石志伟; 周步恋; 杨振东; 王更生; 王喜民; 徐忆苏
Original assignee: Shenzhen Yisou Science & Technology Development Co Ltd
Current assignee: Shenzhen easou world Polytron Technologies Inc
Priority date: 2013-04-08
Filing date: 2013-04-08
Publication date: 2013-06-12
Anticipated expiration: 2033-04-08
Also published as: CN103150409B

Abstract

本发明涉及信息检索领域，提供了一种用户检索词推荐的方法，包括，获取检索日志数据；在获取检索日志数据后，提取核心串频；将所述提取的串频建立存储资源词典；建立多方位查询接口为用户进行检索词推荐。本发明还提供了一种用户检索词推荐的系统。采用本发明的技术方案，简单易行，效率高，可快速更新，且可根据用户的输入关键词特征，灵活使用推荐查询接口，为用户提供丰富、有效的推荐引导。

Description

一种用户检索词推荐的方法及系统

技术领域

本发明涉及信息检索领域，特别地，涉及一种用户检索词推荐的方法及系统。

背景技术

随着信息技术的发展，互联网信息越来越丰富，已经渗透到人们生活的方方面面。尤其是搜索引擎的出现，让用户可以从海量数据中快速的查找信息。早期的搜索引擎是以用户输入为主，当用户在搜索框中输入关键词查询后，搜索引擎经过分析处理，将与之有关的网页信息展现在用户面前。用户根据自身需求对信息再作进一步的筛选。

随着信息技术的进一步发展，与人们生活节奏的加快，传统的检索方式已经无法满足人们的需求。人们用搜索引擎的方式不外乎两种：其一是人主动检索，遇到问题寻求答案，是一种带有目的性的检索，如下载一份资料，调研一项工作等；其二是一种无目的性的检索，主要是想了解、关注身边发生的事情，如今天有什么热点新闻，今天天气状况如何，这类其实不需要输入什么信息，而是由搜索引擎主动的推送，进而方便人们进一步去查看。主动推送这种方式可以认为是搜索引擎的一种引导方式，由被动的接受查询反馈结果，到能够主动的展现人们需求内容。

搜索引擎发展到今天，已经发生了巨大的变化。早期搜索引擎以满足用户的需求为目的，大家共用一个搜索引擎，满足大部分人的需求就可以。如果用户去搜索的结果无法满足其需求，那搜索引擎无疑是失败的。但如今的搜索引擎不仅要做到满足用户需求，还要做到能够引导用户，通过分析用户的搜索行为，挖掘用户的搜索意图，对用户实时的引导，让用户更方便、快捷、愉悦的获取信息。甚至对不同的用户做不同的分析处理，来可以达到每个用户用各自的搜索引擎的用途。

检索词推荐是搜索引擎的一种典型的用户引导的功能。搜索引擎通过对以往用户的搜索行为分析，在用户输入部分关键字时，搜索引擎会细化、扩充其需求，方便、快捷的引导用户来检索。但目前来看，搜索引擎的检索词推荐，最主要的问题有以下几点：

第一，检索词推荐更新较慢；一个热点事件基本都是在成为热点或形成一种趋势，被大家众所皆知后才形成推荐，已经丧失了时效性。所以无法做到即使暂时只有少数人检索，也能挖掘出来推荐引导下一刻的用户。

第二，检索词推荐覆盖少；几乎所有的推荐词都是正向推荐，即只向原关键词的右边扩展推荐，使得推荐覆盖少，结果单一、不丰富。

发明内容

本发明解决的技术问题在于提供了一种用户检索词推荐的方法及系统，以解决现有技术中存在的检索词推荐慢、覆盖少的问题。

为解决上述问题，本发明提供了一种用户检索词推荐的方法，包括，

获取检索日志数据；

在获取检索日志数据后，提取核心串频；

将所述提取的串频建立存储资源词典；

建立多方位查询接口为用户进行检索词推荐。

进一步地，上述的方法，还包括，对所述提取的核心串频进行去噪处理。

上述的方法，其中，所述获取检索日志数据包括，将检索日志中有成功检索的检索词作为要处理的数据。所谓有成功检索的检索词是指用户输入该检索词后，的确是有点击的检索词。

上述的方法，其中，所述提取核心串频包括，

建立检索词的连续Term串表TL表，所述TL表是检索词分词的所有Term的从前往后的组合；

对排序后的TL表TLS进行统计处理，得到TS表，所述TS表中TS[i]为TLS表中TLS[i]与前面TLS[i-1]具有相同Term数的个数；

运用进栈出栈提取串频。

上述的方法，其中，所述运用进栈出栈提取串频包括，

遍历TS表：

1）若第i个元素TS[i]=0,将栈内的所有元素都输出，可以得到串，Term组合数，频次；

2）若第i个元素TS[i]>0,将TS[i]与TS[i-1]比较：

2.1）TS[i-1]=0时，提取的串，即TLS[i]中提取前TS[i]个的Term，该串的频次为第i个元素对应的频次与第i-1个元素对应的频次的和；存储入栈；

2.2）TS[i-1]!=0时，

2.2.1）TS[i]>TS[i-1]，同2.1）操作，且栈内的其它元素的频次都增加第i个元素对应的频次；

2.2.2）TS[i]=TS[i-1],栈内的其它元素的频次都增加第i个元素对应的频次；

2.2.3）TS[i]<TS[i-1],栈内的元素依次出栈，直到TS[i]>=TS[i’],其中(i’=i-1,i-2,…),并记录出栈的串的频次Sfre[i’];此时情况类似于2.2.1）、2.2.2）

若TS[i]>TS[i’]，提取串，即TLS[i]中提取前TS[i]个的Term，该串的频次为第i个元素对应的频次与Sfre[i’]的和；存储入栈；且栈内的其它元素的频次都增加第i个元素对应的频次；

若TS[i]=TS[i’]，栈内的其它元素的频次都增加第i个元素对应的频次；

最终遍历完毕，栈内若含有元素，栈内所有元素出栈；

出栈的串即是核心串，包含核心串中Term的组合，频次信息。

上述的方法，其中，所述建立存储资源词典包括，

采用Trie树结构存储所述提取的核心串频，建成结构化的资源词典。

上述的方法，其中，所述建立多方位查询接口包括，左查询，右查询，中间查询，综合查询接口，其中左查询指当输入关键词时，查询左边是关键词的串频；右查询指查询右边是关键词的串频；中间查询指查询中间是关键词的串频；综合查询指综合以上三种查询的串频。

本发明还提供了一种用户检索词推荐的系统，包括，

数据获取模块，用于获取检索日志数据；

串频提取模块，用于在获取检索日志数据后，提取核心串频；

资源存储模块，用于将所述提取的串频建立存储资源词典；

查询建立模块，用于建立多方位查询接口为用户进行检索词推荐。

进一步地，上述的系统，还包括，

去噪模块，用于对所述提取的核心串频进行去噪处理。

上述的系统，其中，所述串频提取模块包括，

词语串表建立单元，用于建立检索词的连续Term串表TL表，所述TL表是检索词分词的所有Term的从前往后的组合；

TS表获取单元，对排序后的TL表TLS进行统计处理，得到TS表，所述TS表中TS[i]为TLS表中TLS[i]与前面TLS[i-1]具有相同Term数的个数；

串频提取单元，用于运用进栈出栈提取串频。

采用本发明的技术方案，基于串频统计思想，选取具有成功检索的检索词作为检索推荐的数据来源，对其采用改进的Nagao串频方法，快速挖掘出高质量、合理的N元检索串。通过建立一定的存储结构，并提供多方位查询接口来对用户的检索词实施推荐。该方法简单易行，效率高，可快速更新，且可根据用户的输入关键词特征，灵活使用推荐查询接口，为用户提供丰富、有效的推荐引导。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明第一实施例流程图；

图2是串频算法流程图；

图3是Trie树结构图；

图4是本发明第二实施例结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明第一实施例流程图，提供了一种用户检索词推荐的方法，包括，

步骤S101，获取检索日志数据；

搜索引擎都拥有自己的检索日志，详细记录了用户输入的检索词，以及点击的内容等详细信息。对用户进行推荐引导，就要将高质量的信息内容，呈现给用户面前。当用户选择了推荐内容点击查看，检索结果也是很好的满足了用户的需求，这才是成功的推荐。

作为一个实施例，将检索日志中有成功检索的检索词作为要处理的数据。所谓有成功检索的检索词是指用户输入该检索词后，的确是有点击的检索词，已经与搜索引擎有了一种对话交互。最初选取的数据量可以使用一天的检索日志，后期可以周期性更新。

步骤S102，在获取检索日志数据后，提取核心串频；

在具有了成功的检索日志数据后，需要从中提取核心串频。核心串即检索词中更为重要的部分，即为高频串。用户采取不同的检索词，可能核心串是一样的。如“电视剧笑傲江湖”，“新版笑傲江湖”，最终提取出“笑傲江湖”即为核心串。在本发明中，串频不是以字为基本单位，而是以词为基本单位。

作为一个实施例，在提取核心串频前，需要将检索词进行分词，得到一系列的词语（Term）。提取核心串频即获取检索词词语的组合串，并统计得到频率。

串频计算中有经典的Nagao算法。Ngao算法提供了一种提取N元串的方法。如检索词“abcdcabcd”，代表了含有一系列Term的检索词。提取长度N(如N=2)的串频有：ab：2，bc：2，cd：2，ca：1，dc：1；但不足之处在于：当欲提取N=3串频时，要重复该过程。而且如果N=2时得到了串频X，依然不确定X是否合理可用。类似于提取了二元串“李宇”，而且出现频率比较高，但在知道三元串“李宇春”同样出现频率较高时，才会知道该三元串可能比二元串更合理。但当N=2时，并不知道N=3时是什么情况。这就导致所得到的N元串统计，不知道是否合理，不知道是否还要继续获取N+1，N+2元串，只有把所有的N元处理完才可能判断出。故在下文的串频统计中，采用改进的Nagao串频算法来处理，如图2所示，具体包括，

S1021，建立检索词的连续Term串表TL表（TermList）；

所述TL表是检索词分词的所有Term的从前往后的组合。一个检索词有N个Term，就对应TL的N个元素。TL表中TL[i]为检索词中Term[i]到检索词结尾所组成的串，如上述检索词“abcdcabcd”，TL[0]即“abcdcabcd”，TL[1]即为“bcdcabcd”，TL[2]即为“cdcabcd”……

步骤S1022，对排序后的TL表TLS（TermListSort）统计处理，得到TS表（TermStattitic）；

所述排序后的TL表TLS是指TL[0],TL[1],TL[2]…按字母顺序（中文就按拼音）排列得到。TLS与TL大小相同，只是顺序排列。

所述进行统计处理为统计与前面相同的Term的数目，以通过这些数值的比较，来决定哪些串需要提取。

TS表中TS[i]为TLS表中TLS[i]与前面TLS[i-1]具有相同Term数的个数，如TS[0]为0，TS[1]为“abcdcabcd”与“abcd”共同含有的Term数4……详见下表：

TLS	Term数	TS	频率
				abcd	4	0	1
abcdcabcd	9	4	1
				bcd	3	0	1
bcdcabcd	8	3	1
				cabcd	5	0	1
cd	2	1	1
				cdcabcd	7	2	1
dcabcd	6	0	1

步骤S1023，运用进栈出栈提取串频。

所述栈作为数据的一种存储形式，是一种后进先出的存储。存储的内容就是串频信息。

每个串进栈时，都会含有频次。TLS的每个串有自身的频次，如TLS[0]是“abcd”，频次为1，TS[0]为0，第一个都不做任何处理；TLS[1]是“abcdcabc，频次为1，且与TLS[0]有4个Term相同,TS[1]为4，此时“abcd”需要进栈，频次已经为2（即1+1）；

TS[1]=4，TS[0]=0， “abcd”进栈，Sfre（abcd）=1+1=2；

TS[2]=0，出栈： “abcd”，fre(abcd)=2；

TS[3]=3，TS[2]=0， “bcd”进栈，Sfre（bcd）=1+1=2；

TS[4]=0，出栈： “bcd”：fre(bcd)=2

TS[5]=1，TS[4]=0， “c”进栈，Sfre（c）=1+1=2;

TS[6]=2>TS[5]， “cd”进栈，Sfre（cd）=1+1=2，此时栈内的Sfre（c）=2+1=3.

TS[7]=0，出栈， “cd“，fre=2， “c”，fre=3

如此一次便提取出了高频的串：“c”：3，“abcd”：2，“bcd”：2，“cd”：2，还根据输出串的长度、频率做限制。

在该实施例中，一个串进栈后，该串的栈内频次为Sfre，且会随着新串的增加而更新。该串出栈时有频次fre。

结合栈的思想，描述改进串频统计方法如下

For i=1to m in TS m是TS的大小，即串的数目

1.TS[i]=0,栈内依次出栈；

2.TS[i]>0,

2.1)TS[i-1]=0,入栈Sfre[i]=Fre[i]+Fre[i-1]；

2.2)TS[i-1]!=0

2.2.1)TS[i]>TS[i-1],入栈，Sfre[i]=Fre[i]+Fre[i-1]，栈内其它元素+=Fre[i]；

2.2.2)TS[i]=TS[i-1],栈内元素+=Fre[i]；

2.2.1)TS[i]<TS[i-1],栈依次出栈，并记录Sfre[i’],直到TS[i’]<=TS[i],其中(i’=i-1,i-2,…);

若TS[i’]=TS[i]，栈内元素+=Fre[i]；

若TS[i’]<TS[i]，入栈，Sfre[i]=Fre[i]+Sfre[i’]，栈内其它元素+=Fre[i]；

If((i==m)&&!IsEmpty(Stack))栈内所有元素出栈。

其中，Sfre表示栈内元素对应的频率，Fre代表TS中元素对应的频率。中间过程满足条件随时输出串频，最终结束后输出栈内剩余的串频。

TLS表含有的是排序了的各式的串，还包含Term数目，频次（对应来自检索词的检索数目，默认为1）等信息。

TS表是基于TLS表统计的数值。TS[i]表示TLS表中TLS[i]与前面TLS[i-1]具有相同Term数的个数，值都会是大于等于0的。

基于TS提取串,如TS[i]满足条件，提取的是TLS[i]的前TS[i]个Term。

提取的串存储在栈中，栈是一种计算机的数据结构，是一种后进先出的存储结构

对于上述串频统计方法，具体做法描述如下：遍历TS表：

2）若第i个元素TS[i]>0,将TS[i]与TS[i-1]比较：

2.2）TS[i-1]!=0时，

最终遍历完毕，栈内若含有元素，也会输出。

出栈的串即是本发明提取的串，包含串中Term的组合，频次等信息。

本步骤完成推荐引导最核心的步骤，挖掘出了高频的检索串，附带有频次信息，N元Term等信息。且一次过程便获取了各N元合理的串频。

经过该步骤可以从检索日志中挖出一些列的串频，且可通过自定义串频的长度，频次，Term组合数等设置阈值来限制。如设置2-5个Term组合的串频,以含“刘德华”的串频为例，频次最高的有如下:刘德华送女豪宅、刘德华的歌、刘德华老婆朱丽倩、刘德华演唱会视频、刘德华的歌曲、刘德华与梁朝伟、刘德华与朱丽倩、刘德华电影全集、刘德华的电影、刘德华一起走过的日子等等。

步骤S103，对所述提取的核心串频进行去噪处理；

所谓去噪处理，即将机器统计出的串频，通过一定的规则，去除一些噪音，尽可能完善串频数据。因为搜索引擎无法保证用户输入的关键词都是规范的，有些关键词本身带有空格，标点符号等，使得最后统计的串频也会带有噪音。可以通过人工发现、积累的规则来解决这类明显不好的串频。如通过步骤S102从检索日志中挖掘出“的****”，“****的”，“****在”等这类不符合用户习惯的串频，可以通过该步骤有效的解决。

该步骤为优选步骤，可以更好地提升本发明实施例的效果。

步骤S104，将所述提取的串频建立存储资源词典；

将以上提取的串频，建成一种结构化的资源词典，该方式只能读取，方便的快速查询。在此可采用Trie树结构存储，也可以仅仅保存在此表里。第一层即是汉字编码，每个节点的子节点即表示串频的一个字，且该节点在同一层的子节点按顺序排列。如此根节点以上的即表示一个串。并带有频次信息。

Trie树结构见图3所示，第一层即是常见汉字，为0-65535。每个节点的子节点往下表示串的字符。如存储“中华”，“中国”，“中国人”，“中国人民”，“中国龙”等串，都以“中”为根节点往下排。节点在同一层的子节点是按字符编码从小到大顺序排列的，如“华”排在“国”左边，“人”排在“龙”左边。每个节点含信息：节点的编码，最左边子节点在下一层的位置，含有子节点的数目等。

采用该存储结构，当对一个检索词查询时，从上一层到下一层的检索，可以使用二分查找，实现快速查找。查寻某个词时候，可以根据上一节点，得知其所有子节点的范围，且所有的子节点在所在层次上是从左到右递增的，就可依据二分查找快速找出是否含有该串。

步骤S105，建立多方位查询接口为用户进行检索词推荐。

将串频保存为资源词典，为的是查询方便快捷。在此对外提供查询接口，当输入关键词时，不同的查询接口可进行不同方位的查询。

本发明实施例提供多方位查询接口，包括4种：左查询，右查询，中间查询，综合查询接口。所谓查询接口就是查询函数，给使用方提供资源词典，并有调用的程序。左查询是指当输入关键词时，查询左边是关键词的串频；右查询是指查询右边是关键词的串频；中间查询是指查询中间是关键词的串频；综合查询是指综合以上三种查询的串频。如检索“刘德华”，左查询是“刘德华***”格式的串频，右查询是“***刘德华”格式的串频，中间查询是“***刘德华***”格式的串频。

该实施例中提供的多方位的查询接口，是为了能够针对不同的检索词做灵活查询使用。如检索词是人名类时，可进行左查询，因为一般的语法是人名开头，之后是某某事件，如查询“赵本山”，推荐引导的结果一般会是“赵本山女儿近照”，“赵本山小品全集”，“赵本山小品下载”等类型；若关键词是地名时，可采用左查询、中间查询，因为一般的语法是某某地点发生什么事件，如查询“上海”，推荐引导的结果一般会是“上海大众点评网”，“上海14级台风”，“北京到上海的火车”等类型；若关键词是动词，可采用右查询、中间查询，因为一般的语法是动词会位于句子的右后方，如“订票”，推荐引导的结果一般是“火车票网上订票”，“12306网上订票”，“网上订票官网”，“电话订票号码”等类型。而对于一般的没有明显特性的检索词，可进行综合查询，如查询“春晚”，推荐引导的结果一般是“2013春晚节目单”，“2013春晚歌曲”，“赵本山退出春晚”等类型。推荐引导的结果基本符合用户的搜索习惯，以及结合了时下相关的信息资源，丰富了推荐信息。

以上推荐引导的串，均是采用本发明中描述的提取串频方法，结合查询策略来推荐的实际例子。该方法高效，上千万的日志1分钟之内可以完成整个流程。使得可以及时的挖掘出新的串频，当用户输入的是查询热点词时，也能够提供及时的相关推荐内容。

采用多方位查询可以考虑关键词的特征，灵活选择，避免了当前推荐引导只有左查询的单一推荐结果和易产生“偏见”的问题。

如图4所示，是本发明第二实施例结构图，还提供了一种用户检索词推荐的系统，包括，

数据获取模块401，用于获取检索日志数据；

串频提取模块402，用于在获取检索日志数据后，提取核心串频；

资源存储模块403，用于将所述提取的串频建立存储资源词典；

查询建立模块404，用于建立多方位查询接口为用户进行检索词推荐。

上述的系统，还包括，

去噪模块，用于对所述提取的核心串频进行去噪处理。

上述系统中，所述串频提取模块包括，

串频提取单元，用于运用进栈出栈提取串频。

上述说明示出并描述了本发明的优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种用户检索词推荐的方法，其特征在于，包括，

获取检索日志数据；

在获取检索日志数据后，提取核心串频；

将所述提取的串频建立存储资源词典；

建立多方位查询接口为用户进行检索词推荐。

2.根据权利要求1所述的方法，其特征在于，还包括，对所述提取的核心串频进行去噪处理。

3.根据权利要求1或2所述的方法，其特征在于，所述获取检索日志数据包括，将检索日志中有成功检索的检索词作为要处理的数据。所谓有成功检索的检索词是指用户输入该检索词后，的确是有点击的检索词。

4.根据权利要求1或2所述的方法，其特征在于，所述提取核心串频包括，

运用进栈出栈提取串频。

5.根据权利要求4所述的方法，其特征在于，所述运用进栈出栈提取串频包括，

遍历TS表：

2）若第i个元素TS[i]>0,将TS[i]与TS[i-1]比较：

2.2）TS[i-1]!=0时，

最终遍历完毕，栈内若含有元素，栈内所有元素出栈；

出栈的串即是核心串，包含核心串中Term的组合，频次信息。

6.根据权利要求1或2所述的方法，其特征在于，所述建立存储资源词典包括，

7.根据权利要求1或2所述的方法，其特征在于，所述建立多方位查询接口包括，左查询，右查询，中间查询，综合查询接口，其中左查询指当输入关键词时，查询左边是关键词的串频；右查询指查询右边是关键词的串频；中间查询指查询中间是关键词的串频；综合查询指综合以上三种查询的串频。

8.一种用户检索词推荐的系统，其特征在于，包括，

数据获取模块，用于获取检索日志数据；

资源存储模块，用于将所述提取的串频建立存储资源词典；

9.根据权利要求9所述的系统，其特征在于，还包括，

去噪模块，用于对所述提取的核心串频进行去噪处理。

10.根据权利要求8或9所述的系统，其特征在于，所述串频提取模块包括，

串频提取单元，用于运用进栈出栈提取串频。