CN102693304A

CN102693304A - 一种搜索引擎的反馈信息处理方法及搜索引擎

Info

Publication number: CN102693304A
Application number: CN2012101607351A
Authority: CN
Inventors: 谭咏梅; 李超
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-05-22
Filing date: 2012-05-22
Publication date: 2012-09-26
Anticipated expiration: 2032-05-22
Also published as: CN102693304B

Abstract

本发明提供一种搜索引擎的反馈信息处理方法及搜索引擎，其中方法包括：抓取网页，将所述网页和从所述网页中提取的关键词保存到数据库；使用搜索引擎对所述数据库中的网页记录做索引，生成一索引文件；根据输入的查询关键词，从所述索引文件中获得搜索引擎反馈的包括所述查询关键词的所有网页；根据所有网页的关键词，对网页进行相似度计算；将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中。本发明的方案可以使搜索引擎能够对所有的搜索结果进行聚类。

Description

一种搜索引擎的反馈信息处理方法及搜索引擎

技术领域

本发明涉及互联网信息处理技术领域，特别是指一种搜索引擎的反馈信息处理方法及搜索引擎。

背景技术

现有技术中，搜索引擎包括如Google（谷歌），Slor等；在这些搜索引擎中输入关键字进行检索时，如输入关键词“时间”，Google返回的检索结果如图1所示，其中“显示更多来自time.ac.cn的搜索结果”，仅在检索结果的第1页中出现，“显示更多来自time.ac.cn的搜索结果”根据相同URL网址合并了来自同一个网站“time.ac.cn”的网页结果。

Solr的搜索内容使用Carrot2实时文档聚类引擎对检索结果进行聚类，以文档的标题，内容和url字段的内容作为参数值，使用短语（单词的序列）生成聚具有意义的类标签。为取得较好的结果，title字段必须是简洁的，包含没有噪声的内容；输入关键词“时间”，Solr的搜索结果如图2所示。

从图1和图2中可以看出，上述搜索引擎返回的结果存在如下的问题：

（1）仅对固定数目的搜索结果进行聚类，对第1个页面以外的其余页面的搜索结果不进行聚类，对聚类的类别数目不能控制。

（2）容错性较差，受到噪声的干扰聚类结果不正确，例如：“国内成品油调价窗口逼近调价时间可能押后”和“国内成品油调价窗口逼近调价时间有可能押后”，聚类结果分别为两个类别，但是实际上应该同属于一个类别。

发明内容

本发明要解决的技术问题是提供一种搜索引擎的反馈信息处理方法及搜索引擎，使得搜索引擎能够对所有的搜索结果进行聚类，支持所有页面的搜索结果聚类，对聚类的类别数目能进行控制，对噪声干扰有很好的容错性。

为解决上述技术问题，本发明的实施例提供一种搜索引擎的反馈信息处理方法，包括：

抓取网页，将所述网页和从所述网页中提取的关键词保存到数据库；

使用搜索引擎对所述数据库中的网页记录做索引，生成一索引文件；

根据输入的查询关键词，从所述索引文件中获得搜索引擎反馈的包括所述查询关键词的所有网页；

根据所有网页的关键词，对网页进行相似度计算；

将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中。

其中，所述根据所有网页的关键词，对网页进行相似度计算的步骤包括：

在所有网页中，根据所有网页的关键词，针对任意两个网页进行相似度计算。

其中，相似度=(相同关键词个数-|第一反馈网页的关键词个数–当前第二反馈网页的关键词个数|)÷第一反馈网页的关键词个数；其中，所述相同关键词个数为所述第一反馈网页与所述第二反馈网页的相同的关键词个数。

其中，将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中的步骤包括：

若所述相似度大于第一阈值，则将当前第二反馈网页与第一反馈网页合并在一类中；或者

若所述相似度大于第二阈值且小于或者等于所述第一阈值，并且所述第二反馈网页与所述第一反馈网页的标题相同，则当前第二反馈网页与第一反馈网页合并在一类中；

若所述相似度大于第二阈值且小于或者等于所述第一阈值，并且所述第二反馈网页与所述第一反馈网页的标题不相同，则不合并当前第二反馈网页与第一反馈网页；或者

若所述相似度小于或者等于所述第二阈值，则不合并当前第二反馈网页与第一反馈网页。

其中，基于词的网页相似度通过以下步骤得到：

对两个网页串R和T的三个归一化最长的非连续的公共子串的值S1，S2和S3进行加权求和，得到两个反馈网页的相似度S：

其中，S=S1*W_S1+S2*W_S2+S3*W_S3；

S1：综合考虑了网页串R和网页串T的长度，对两个串的最长的非连续的公共子串进行了归一化；S1=|R和T的最长的非连续的公共子串|/|R||T|，|R和T的最长的非连续的公共子串|表示R和T的最长的非连续的公共子串的长度，|R|和|T|分别表示网页串R的长度和网页串T的长度；

S2：从两个串的第一个字符开始计算最长的非连续的公共子串，用两个串的长度进行归一化；S2=|R和T从第一个字符开始匹配的最长的非连续公共子串|_/|R||T|，|R和T从第一个字符开始匹配的最长的非连续的公共子串|表示R和T从第一个字符开始匹配的最长的非连续的公共子串的长度，|R|和|T|分别表示网页串R的长度和网页串T的长度；

S3：与长串非连续匹配的短串或者短串的最长的非连续部分，用两个串的长度进行归一化；S3=|R和T从任意字符开始匹配的最长的非连续公共子串|/|R||T|，|R和T从任意字符开始匹配的最长的非连续的公共子串|表示R和T从任意字符开始匹配的最长的非连续的公共子串的长度，|R|和|T|分别表示网页串R的长度和网页串T的长度；

W_S1,W_S2和W_S3的取值范围为0~1；

将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中的步骤包括：

若所述相似度S大于或者等于某一阈值，则合并当前第二反馈网页与第一反馈网页；或者

若所述相似度小于某一阈值，则不合并当前第二反馈网页与第一反馈网页。

其中，基于共同词序的网页相似度通过以下步骤得到两个反馈网页的相似度S：

两个网页串R和T，统计它们的公共字符集合C；

从网页串R和T中分别提取出公共字符集合C的字符，按照其在原网页串中的顺序构成两个新网页串向量R`和T`；

将网页串向量R`和T`的每个字符用一个唯一的数字表示；

计算网页串R和T的相似度：

如果公共字符集合C中元素的个数是奇数，并且为1，则网页串R和T的相似度为1；

如果公共字符集合C中元素的个数是奇数，不为1，则网页串R和T的相似度为1-2*（网页串向量R`和T`的对应分量之差的绝对值之和）/(|C|*|C|-1)，|C|为公共字符集合C中元素的个数；

如果公共字符集合C中元素的个数是偶数，则网页串R和T的相似度为1-2*（网页串向量R`和T`的对应分量之差的绝对值之和）/|C|*|C|)，|C|为公共字符集合C中元素的个数；

其中，所述抓取网页的过程包括：

根据所要抓取的web网页的html标签定制模式集；

根据所述模式集提取出网页上的标题链接；

根据标题链接获得网页内容；

根据所述模式集对所述网页内容中的新闻标题和/或正文进行关键词抽取，获得所述网页的关键词。

其中，根据所述模式集对所述网页内容中的新闻标题和/或正文进行关键词抽取，获得所述网页的关键词的步骤包括：

对所述新闻标题和/或正文进行分词和词性标注，去除部分词性的词语；

计算剩余词语的权重；

根据所述剩余词语的权重，选出权重最大的前预设数量个关键词，作为所述网页的关键词。

其中，所述相似网页以“相似网页”链接的方式控制展现全部的相似网页，从第二个结果开始与第一个结果相比前面有缩进；或者

所述相似网页以“相似网页”链接的方式控制展现相似网页的第一个结果。

本发明的实施例还提供一种搜索引擎，包括：

抓取单元，用于抓取网页，将所述网页和从所述网页中提取的关键词保存到数据库；

生成单元，用于使用搜索引擎对所述数据库中的网页记录做索引，生成一索引文件；

获得单元，用于根据输入的查询关键词，从所述索引文件中获得搜索引擎反馈的包括所述查询关键词的所有网页；

计算单元，用于根据所有网页的关键词，对网页进行相似度计算；

合并单元，用于将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中。

本发明的上述技术方案的有益效果如下：

上述方案中，通过将搜索引擎反馈的所有网页中，包括相同或者相似关键字的相似网页进行归并到一个聚类（或者一组）中，从而使搜索引擎能够对反馈的所有网页进行聚类，支持所有页面的搜索结果的聚类，从而能够对聚类的类别数目进行控制，对噪声干扰具有很好的容错性。

附图说明

图1为现有的Google搜索结果示意图；

图2为现有的Slor搜索结果示意图；

图3为本发明的搜索引擎的反馈信息处理方法的流程示意图；

图4为图3所示方法的一具体实现流程示意图；

图5为基于图3所示方法的搜索引擎的相似网页归为一类的示意图；

图6为基于图5所示的反馈网页中的相似网页展开示意图；

图7为基于图3所示方法的搜索引擎的相似网页归为一类的另一示意图；

图8查询词为“乙醇”的反馈信息处理结果示意图；

图9为基于图3所示方法的搜索引擎的反馈网页的第10页的相似网页也归为一类的示意图；

图10为本发明的实施例搜索引擎的一结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图3所示，本发明的实施例提供一种搜索引擎的反馈信息处理方法，包括：

步骤31，抓取网页，将所述网页和从所述网页中提取的关键词保存到数据库；

步骤32，使用搜索引擎对所述数据库中的网页记录做索引，生成一索引文件；

步骤33，根据输入的查询关键词，从所述索引文件中获得搜索引擎反馈的包括所述查询关键词的所有网页；

步骤34，根据所有网页的关键词，对网页进行相似度计算；

步骤35，将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中。

本发明的该实施例通过将搜索引擎反馈的所有网页中，包括相同或者相似关键字的相似网页进行归并到一个聚类（或者一组）中，从而使搜索引擎能够对反馈的所有网页进行聚类，支持所有页面的搜索结果的聚类，从而能够对聚类的类别数目进行控制，对噪声干扰具有很好的容错性。

其中，上述方法中，步骤34包括：

在反馈的所有网页中，根据所有网页的关键词，针对任意两个网页进行相似度计算。

其中，相似度=(相同关键词个数-|第一反馈网页的关键词个数-当前第二反馈网页的关键词个数|)÷第一反馈网页的关键词个数；其中，相同关键词个数为第一反馈网页与所述第二反馈网页的相同的关键词个数。

其中，上述方法中，步骤35包括：

其中，所述第一阈值的取值范围为0~1；所述第二阈值的取值范围为0~1。

在本发明的另一实施例中，上述方法中，步骤34还可以包括：

基于词的网页相似度通过以下步骤得到：

对两个网页串R和T的三个归一化最长的非连续的公共子串的值S 1，S2和S3进行加权求和，得到两个反馈网页的相似度S：

其中，S=S1*W_S1+S2*W_S2+S3*W_S3

W_S1,W_S2和W_S3的取值范围为0~1；

基于共同词序的网页相似度通过以下步骤得到两个反馈网页的相似度S：

两个网页串R和T，统计它们的公共字符集合C；

将网页串向量R`和T`的每个字符用一个唯一的数字表示；

计算网页串R和T的相似度：

其中，所述数据库使用关系型数据库管理系统mysql存储所述网页的站点信息、标题和网页正文的关键词。关系型数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。

其中，所述索引文件与所述数据库具有相同的内容且具有不同的存储结构，所述索引文件为倒排索引的结构。该索引文件是使用搜索引擎对所述数据库中的网页记录作索引生成的，包括对标题、正文、关键词作索引，该索引文件用于返回搜索结果。

其中，所述步骤11中，抓取网页的过程包括：

111，根据所要抓取的web网页的html标签定制模式集；

112，根据所述模式集提取出网页上的标题链接；

113，根据标题链接获得网页内容；

114，根据所述模式集对所述网页内容中的新闻标题和/或正文进行关键词抽取，获得所述网页的关键词。

这种网页抓取和信息抽取的方法是基于模式匹配的（正则表达式的），优点是精确度很高。

进一步地，步骤114包括：

计算剩余词语的权重；

具体地，如一篇新闻的关键词是根据新闻标题和正文内容抽取获得，首先对标题和正文进行分词和词性标注，去除部分词性的词语（包括副词、介词、连词、助词、量词、代词、数词等），经过上述处理后计算剩余词语的权重，权重是根据词语的tf-idf的值乘以相应的系数r计算得到，系数r默认为1。在计算权重时，为提高某些词语的权重，方法如下：第一是名词等词性的词语，将其系数设为1.2；第二是标题中的词语，因为这些词语一般具有概括性，所以在计算标题中词语的权重时，提高其tf-idf值，规则是标题词的tf-idf值等于其出现的次数乘以3，以此达到提高权重的目的。最后根据词语的权重，选出权重最大的前32个。

如图4所示，为上述图3所示方法的一具体应用实例，包括：

1）在搜索引擎中输入查询关键词，如输入的查询关键词为“时间”，则搜索引擎根据输入的“时间”反馈多个网页，如图5所示，反馈的多个网页中都包括有“时间”二字；

2）在反馈的多个网页序列中，以第1个反馈网页为标准，计算网页之间的相似度；

在反馈的多个网页序列中，从反馈网页的第2个反馈网页开始，逐个与第1个反馈网页进行基于关键词的相似度计算，使用公式如下：

相似度=(相同关键词个数-|第1个反馈网页的关键词个数–当前第i个反馈网页的关键词个数|)÷第1个反馈网页的关键词个数；其中，i为正整数，如1，2，3，……；其中，相同关键词个数是第1个反馈网页与当前第i个反馈网页的相同的关键词的个数；

如果相似度＞第一阈值，则当前第i个反馈网页与第1个反馈网页合并为一类，如图5中的“化肥关税未统一明年旺季出口关税时间延长”下方的链接“相似网页（2）”，以将当前第5个反馈网页与第4个反馈网页合并为一类；

如果第二阈值＜相似度＜＝第一阈值，并且标题不相同，则不合并；

如果相似度＜＝第二阈值，则把当前第i个反馈网页作为第2个搜索结果，即不合并。

从第3个反馈网页开始，使用关键词逐个与第2个反馈网页计算相似度，其中，这里的第2个反馈网页可能是归类后的第2个反馈网页，也就是说，如果在上述第1个反馈网页的归类中，若有第2个反馈网页与第1个反馈相似，并归为一类后，那第2个反馈网页和第1个反馈网页归类后作为新的第1个反馈网页，原始反馈网页序列中的第3个反馈网页作为该第2个反馈网页；计算公式：

相似度=(相同关键词个数-|第2个反馈网页的关键词个数-当前第i个反馈网页的关键词个数|)÷第2反馈网页的关键词个数；

如果相似度＞第一阈值，则当前第i个反馈网页与第2个反馈网页合并为1类；

如果相似度＜＝第二阈值，则把当前第i个反馈网页作为第3个反馈网页，即不合并；

以此类推……；

当搜索引擎反馈的所有网页都进行相似度计算，并归类后，也就是所有反馈网页进行两两相似度计算后，进行归类。

3）归类时，将相似度计算结果大于某一阈值的网页合并在一起。

优选的，如上述的阈值的设定范围可以是：-1~1之间，其中，第一阈值的设定范围可以是0~1；第二阈值的设定范围可以是0~1；1表示相似度最高，小于或者等于0表示不相似。

在利用本发明的上述实施例所述方法后，在搜索引擎的反馈网页，如图5所示，当反馈网页之间的相似度大于某个阈值，就将这些网页聚到同一个类别，作为一条搜索结果返回，并用“相似网页（n）”（其中n为聚到这个类别的网页个数）标识出来。即所述“相似网页”以按钮的方式控制展现全部的相似网页，从第二个结果开始与第一个结果相比前面有缩进；或者所述“相似网页”以按钮的方式控制展现相似网页的第一个结果。当然还可以包括其它的展现方式。

其中，如图6所示，为点击“相似网页”链接得到所有的相似网页；如图7所示，把“时间有可能”和“时间可能”聚到同一个类别，而现有技术中，这两个网页不会在一个归类中，甚至包括这两个关键词的反馈网页标题在反馈网页序列中，相隔的比较远。

如图8所示，查询词为“乙醇”的反馈信息处理结果示意图；利用本发明的上述实施例的方法，在搜索引擎的反馈网页的第10屏也进行了相似网页的聚类，如图9所示，当然其它屏的网页也会进行相似网页的聚类。

本发明的上述实施例所述的方法，使得搜索系统能够对所有的搜索结果进行聚类，支持所有页面的搜索结果聚类，对聚类的类别数目能进行控制，对噪声干扰有很好的容错性。

如图10所示，本发明的实施例还提供一种搜索引擎，包括：

抓取单元91，用于抓取网页，将所述网页和从所述网页中提取的关键词保存到数据库；

生成单元92，用于使用搜索引擎对所述数据库中的网页记录做索引，生成一索引文件；

获得单元93，用于根据输入的查询关键词，从所述索引文件中获得搜索引擎反馈的包括所述查询关键词的所有网页；

计算单元94，用于根据所有网页的关键词，对网页进行相似度计算；

合并单元95，用于将相似度计算结果符合一预设阈值范围的相似网页合并一个聚类中。

其中，相似度=(相同关键词个数-|第一反馈网页的关键词个数–当前第二反馈网页的关键词个数|)÷第一反馈网页的关键词个数；其中，相同关键词个数为第一反馈网页与所述第二反馈网页相同的关键词个数。

其中，合并单元95包括：

第一合并子单元，用于判断若所述相似度大于第一阈值，则将当前第二反馈网页与第一反馈网页合并在一类中；或者

第二合并子单元，用于判断若所述相似度大于第二阈值且小于或者等于所述第一阈值，并且所述第二反馈网页与所述第一反馈网页的标题不相同，或者所述相似度小于或者等于所述第二阈值，则不合并。

上述搜索引擎的一具体应用实例，包括：

1）在搜索引擎中输入查询关键词，如输入的查询关键词为“时间”，获得搜索引擎根据输入的“时间”反馈的多个网页，如图5所示，反馈的多个网页中都包括有“时间”二字；

2）计算单元94在反馈的多个网页序列中，以第1个反馈网页为标准，计算网页之间的相似度；

相似度=(相同关键词个数-|第1个反馈网页的关键词个数-当前第i个反馈网页的关键词个数|)÷第1个反馈网页的关键词个数；其中，i为1，2，3，……；其中，相同关键词个数是第1个反馈网页与当前第i个反馈网页的相同的关键词的个数；

相似度=(相同关键词个数-|第2个反馈网页的关键词个数–当前第i个反馈网页的关键词个数|)÷第2反馈网页的关键词个数；

以此类推……；

3）合并单元95归类时，将相似度计算结果大于某一阈值的网页合并在一起。

在利用本发明的上述实施例所述搜索引擎后，使得搜索系统能够对所有的搜索结果进行聚类，支持所有页面的搜索结果聚类，对聚类的类别数目能进行控制，对噪声干扰有很好的容错性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种搜索引擎的反馈信息处理方法，其特征在于，包括：

根据所有网页的关键词，对网页进行相似度计算；

2.根据权利要求1所述的搜索引擎的反馈信息处理方法，其特征在于，所述根据所有网页的关键词，对网页进行相似度计算的步骤包括：

3.根据权利要求2所述的搜索引擎的反馈信息处理方法，其特征在于，

相似度=(相同关键词个数-|第一反馈网页的关键词个数–当前第二反馈网页的关键词个数|)÷第一反馈网页的关键词个数；其中，所述相同关键词个数为所述第一反馈网页与所述第二反馈网页的相同的关键词个数。

4.根据权利要求3所述的搜索引擎的反馈信息处理方法，其特征在于，将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中的步骤包括：

5.根据权利要求2所述的搜索引擎的反馈信息处理方法，其特征在于，

基于词的网页相似度通过以下步骤得到：

其中，S=S1*W_S1+S2*W_S2+S3*W_S3；

S 1：综合考虑了网页串R和网页串T的长度，对两个串的最长的非连续的公共子串进行了归一化；S1=|R和T的最长的非连续的公共子串|/|R||T|，|R和T的最长的非连续的公共子串|表示R和T的最长的非连续的公共子串的长度，|R|和|T|分别表示网页串R的长度和网页串T的长度；

W_S1,W_S2和W_S3的取值范围为0~1；

6.权利要求2所述的搜索引擎的反馈信息处理方法，其特征在于，

两个网页串R和T，统计它们的公共字符集合C；

将网页串向量R`和T`的每个字符用一个唯一的数字表示；

计算网页串R和T的相似度：

7.根据权利要求1所述的搜索引擎的反馈信息处理方法，其特征在于，所述抓取网页的过程包括：

根据所要抓取的web网页的html标签定制模式集；

根据所述模式集提取出网页上的标题链接；

根据标题链接获得网页内容；

8.根据权利要求7所述的搜索引擎的反馈信息处理方法，其特征在于，根据所述模式集对所述网页内容中的新闻标题和/或正文进行关键词抽取，获得所述网页的关键词的步骤包括：

计算剩余词语的权重；

9.根据权利要求1所述的搜索引擎的反馈信息处理方法，其特征在于，所述相似网页以“相似网页”链接的方式控制展现全部的相似网页，从第二个结果开始与第一个结果相比前面有缩进；或者

10.一种搜索引擎，其特征在于，包括：

计算单元，用于根据所有网页的关键词，对网页进行相似度计算；合并单元，用于将相似度计算结果符合一预设阈值范围的相似网页合并到一个聚类中。