CN101840420B

CN101840420B - 搜索辅助系统与搜索辅助方法

Info

Publication number: CN101840420B
Application number: CN2010101404470A
Authority: CN
Inventors: 李春平; 王益斌; 阿部昌平
Original assignee: Tsinghua University; Nomura Research Institute Ltd
Current assignee: Tsinghua University; Nomura Research Institute Ltd
Priority date: 2010-04-02
Filing date: 2010-04-02
Publication date: 2011-12-28
Anticipated expiration: 2030-04-02
Also published as: CN101840420A; JP5427127B2; JP2011221979A

Abstract

本发明所记载的搜索辅助系统与搜索辅助方法，可高效提供符合用户搜索意图的网页的技术实现.搜索辅助系统10，具有：将客户端发来的搜索关键词发送至搜索服务器28、提交搜索请求的技术手段；将返回的搜索结果列表发送至客户端24、促使其进行基准网页选择的技术手段；将基准网页的文本分解为语素单位，并提取特定词性相关的关键词的技术手段；将以AND条件连接各被提取关键词与搜索关键词的搜索公式发送至搜索服务器28、提交搜索请求的技术手段；可计算各搜索公式相关的相似候选网页间相似度的技术手段；将相似度最高的20个搜索公式相关的被提取关键词认定为重要词语的技术手段；将相似网页列表画面40发送至客户端24的技术手段。

Description

搜索辅助系统与搜索辅助方法

技术领域

本发明涉及一种搜索辅助系统与搜索辅助方法，特别适用于有效地提取符合用户意图网页的技术。

背景技术

如今，通过向Google(注册商标)或Yahoo！(注册商标)等因特网上的搜索网站发送搜索关键词，任何人都可以轻松地获得各种信息。

比如，正在考虑买入某股票品种的的普通投资者，只要在搜索网站的搜索栏里输入该品种的企业名称，提交搜索请求，关于该企业的网页列表就会作为搜索结果返回，显示在Web浏览器上。

投资者由此对新闻报道、消息发布、博客文章等逐个阅览，以确认该企业的最新动向。

而如果发现新产品信息或丑闻等可能对股价造成影响的报道，则可通过将该报道中使用的合适关键词添加到企业名后，继续进行进一步搜索，从而得以集中收集到所需信息。

【非专利文献1】Google

网络URL：http://www.google.co.jp/

搜索日期：2010年1月16日

【非专利文献2】Yahoo！JAPAN

网络URL：http://www.yahoo.co.jp/

搜索日期：2010年1月16日

发明内容

传统的利用搜索网站的搜索方式，需要用户自己选定追加的关键词并将其再次输入搜索网站，在得到所期望的搜索结果前需要不断重复操作，非常麻烦。

本发明意在解决传统方法中的该问题，以实现能高效率地提交符合用户搜索意图网页的技术为目的。

为了达到上述目的，本发明所记载的搜索辅助系统具备以下特征，即包含了：

将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的装置；

将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择的装置；

在收到来自客户端的基准网页选择信息时，将该基准网页的文本分解为语素单位，并提取特定词性相关的关键词的装置；

对每一个被提取关键词生成以与(AND)条件将其与上述搜索关键词相连的搜索公式，并将各搜索公式发送至搜索服务器、提交搜索请求的装置；

在搜索服务器返回的各搜索公式相关的搜索结果列表中，按各页排序自上而下提取出所定数目的网页作为相似候选网页的装置；

可计算各搜索公式相关的相似候选网页间相似度的计算装置；

将相似度高的指定数目的搜索公式相关关键词认定为重要词语的装置；

在上述所有的相似候选网页中，将包含多于指定数目的上述重要词语的网页认定为相似网页的装置；

生成含有该相似网页列表的页面并将其发送至客户端的装置。

本发明所记载的搜索辅助系统，其中所述页面间相似度计算装置进行以下处理：将各搜索公式相关的相似候选网页中的某一相似候选网页设定为比较对象网页，并分别计算该比较对象网页与其余相似候选网页间的相似度，在所有计算结果中按序抽出指定数目的结果，计算出这些相似度结果的平均值作为临界值；重复以上所有处理直至该搜索公式相关的所有相似候选网页都被设定为比较对象网页后，将得到的所有临界值中的具有最大值的临界值设定为该搜索公式相关的页面间相似度。

本发明所记载的搜索辅助系统，其中分别计算进行比较的对象网页与其余相似候选网页间的相似度进一步包括：将上述比较对象网页与其他相似候选网页分解为语素单位，从各网页提取出与指定词性相关的语素，计算被提取的各语素的TF-IDF值，并根据各语素的该TF-IDF值将各网页进行矢量化处理，计算比较对象网页矢量与其他相似候选网页矢量的标量积(dot product)，作为两个网页之间的相似度。

本发明所记载的搜索辅助方法，其特征由以下步骤组成：

将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求；

将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择；

在收到来自客户端的基准网页选择信息时，将该基准网页的文本分解为语素单位，并提取特定词性相关的关键词；

对每一个被提取关键词生成以AND条件将其与上述搜索关键词相连的搜索公式，并将各搜索公式发送至上述搜索服务器、提交搜索请求；

在搜索服务器返回的各搜索公式相关的搜索结果列表中，按各页排序自上而下提取出所定数目的网页作为相似候选网页；

可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算；

将相似度高的指定数目的搜索公式相关关键词认定为重要词语；

在上述所有的相似候选网页中，将包含多于指定数目的上述重要词语的网页认定为相似网页；

生成记有该相似网页列表的页面并将其发送至上述客户端。

附图说明

【图1】显示本发明相关的搜索辅助系统的功能构成的区块图

【图2】显示本搜索辅助系统的整体性处理程序的流程图

【图3】搜索结果列表画面展示图

【图4】显示相似网页提取相关程序的概念图

【图5】相似网页列表画面展示图

【图6】显示页面间相似度的计算程序的流程图

【图7】显示页面间相似度的计算程序的概念图

【图8】显示使用TF-IDF及矢量空间法的相似度具体计算程序的流程图

【图9】显示使用TF-IDF及矢量空间法的相似度具体计算程序的说明图

【图10】显示使用TF-IDF及矢量空间法的相似度具体计算程序的说明图

符号的说明

10 搜索辅助系统

12 搜索中继处理部

14 关键词提取处理部

16 页面间相似度计算处理部

18 推荐网页选择处理部

19 搜索辅助服务器

20 网络服务器

22 因特网

24 客户端

26 因特网

28 搜索服务器

30 搜索结果列表画面

32 复选框

34 “查看相似网页”按钮

40 相似网页列表画面

50 DF辞典(页面文档频率索引表)

具体实施方式

图1是表示本发明相关的搜索辅助系统10的功能结构图，由具备搜索中继处理部12、关键词提取处理部14、页面间相似度计算处理部16和推荐网页选择处理部18的搜索辅助服务器19、以及网络服务器20组成。

上述搜索中继处理部12、关键词提取处理部14、页面间相似度计算处理部16和推荐网页选择处理部18，是通过搜索辅助服务器19的CPU根据OS以及应用程序进行必要处理而得以实现的。

搜索中继处理部12及推荐网页选择处理部18，通过网络服务器20及因特网22，与用户进行操作的客户端24相连接。

另外，搜索中继处理部12通过因特网26，与Goo9le(注册商标)和Yahoo！(注册商标)等搜索网站28相连接。搜索网站28载有搜索引擎，具有在参照索引信息提取包括用户输入的搜索关键词在内的网页的同时，按照指定算法将被提取网页进行排序的功能。

接下来，按照图2的流程图，对本搜索辅助系统10中整体性的处理顺序进行说明。

首先，普通用户在客户端24上进行操作，访问网络服务器20中的搜索辅助网站，在网络浏览器中显示的搜索栏内输入搜索关键词，点击搜索按钮，搜素关键词即被从客户端24发送至网络服务器20。

经由网络服务器20收到该搜索关键词的搜索中继处理部12(S12)将其发给搜索服务器28，提交搜索请求(S12)。

其后，一旦收到搜索服务器28返回的搜索结果列表，搜索中继处理部12(S14)便将该搜索结果列表发送至网络服务器20。

网络服务器20生成记有该搜索结果列表的页面(Html文件)，发送至客户端24(S16)。

其结果，如图3所示，搜索结果列表画面30将显示在客户端24的网络浏览器上。

在图3上，对于“野村综合研究所”这一搜索关键词的投入，有“野村综合研究所(NRI)”、“招聘信息”、“NRI-Wikipedia”等标题和各自的概要信息作为搜索结果列表被列举出来。

对此，用户点击各标题，使其对应的网页显示在浏览器中，进行个别的内容确认。

而如果发现了含有应注意内容的网页，则回到上述的搜索结果画面30，在该网页标题旁边的复选框32中选中后，点击“查看相似网页”按钮34.

其结果，带有基准网页选择信息的相似网页搜索请求将从客户端24发送至网络服务器20。

从网络服务器20接收到这一基准网页选择信息的搜索中继处理部12(S18)访问基准网页的URL，提取该网页(S19)，并交给关键词提取处理部14。

关键词提取处理部对随即对包含在该基准网页中的文本进行语素分析处理(S20)。

此处的“语素分析处理”，指的是将用自然语言记述的文章分解成具有意义的最小语言单位，即语素，并规定各种词性的处理过程。

接下来关键词提取处理部14从各语素中，提取与指定词性相关的语素(S22)。在此，设定提取出名词语素90个，以作进一步说明。

随后，从关键词提取处理部接收了被提取关键词的搜索中继处理部12，生成将用户最初输入的搜索关键词与各被提取关键词以AND条件相连的90个搜索公式，并将各搜索公式发送给搜索服务器28，提出搜索请求(S24)。

图4展示了这个过程的具体实例，显示出对于最初的搜索关键词“野村综合研究所”，“今天”、“新服务”、“发布”等被提取关键词以空间中被AND条件连结的状态，被输入到搜索服务器28的情况。

其后，搜索中继处理部一旦从搜索服务器28接收到“搜索关键词&被提取关键词”单位的搜索结果(S26)，即提取网页排序前20位以内的网页为相似候选网页(S28)，交给页面间相似度计算处理部16.

图4中显示的例子，即对于90组搜索公式(搜索关键词&被提取关键词)分别提取20个网页，从而得到20(个)×90(组)＝1,800(个)的相似候选网页群。

上述网页排序，是搜索服务器28基于搜索结果中各网页的被链接数和链接源页面的网页排序，按照固定算法赋予的，可视为体现各网页有用性的指标。

为此，在这个系统10中，通过提取网页排序前20位作为相似候选网页，排除了有用性较低的网页。不过，此处的提取数目“20个”只是一个例子，当然也可能使用其他阈值(个数)。另外，也可将指定网页排序以上的网页全部提取为相似候选网页，而非选取固定的数目。

从搜索中继处理部12接收到相似候选网页群的页面间相似度计算处理部16，按照不同搜索公式(搜索关键词&被提取关键词)，分别计算前20位的相似候选网页间的相似度(S30)。关于该页面间相似度的具体计算方法，将在后文详述。

从页面间相似度计算处理部16接收到共计90组的页面间相似度计算结果的推荐网页选择处理部18，将各个页面间相似度的数值按照高低顺序排列，将与排在前20位的搜索公式相关的被提取关键词认定为“重要词语”(S32)。图4中显示的例子，即从90组搜索公式中提取出“新服务”、“美国企业”、“削减成本”等重要词语。

另外，此处的“前20组”也只是一例，也可以提取其他数目的被提取关键词作为重要词语。

接下来，推荐网页选择处理部18从多达1800页的相似候选网页群中，将包含有上述20个重要词语中3种以上的页面选定为相似网页，生成相似网页列表(S34)。

各重要词语在与最初的搜索关键词(野村综合研究所)的组合中，可被认为是描述基准网页内容特征的名副其实的具有重要意义的词语，因此含有较多种类的重要词语的网页，可被视为与基准网页的相似度也相应较高。

不过，“3种以上”这一阈值只是一例，也可以设其它数值为阈值。另外，由于必须包含多个种类的重要词语，即使网页中有某一种重要词语(比如“削减成本”)出现100次，也不会被认定为相似网页。

网络服务器20从推荐网页选择处理部18接收该相似网页列表，生成含有该相似网页列表的页面(Html文件)，发送给客户端24(S36)。

其结果如图5所示，在客户端24的网络浏览器上显示相似网页列表画面40.

用户点击该相似页面列表中的标题，即显示出具有与用户最初选择的基准网页具有相似内容的网页。

比如，就发明人进行的实证试验结果而言，精确度(precision，与基准网页有关系的网页所占比例)平均为86％，召回率(recall，包含重要网页的比例)平均为60％，可以确认有很高的精度。

在上述描述中，展示了将一个网页选为基准网页的例子。用户也可在图3的搜索结果列表画面30中选定2个以上的复选框32，从而选择多个基准网页。

此时，关键词提取处理部14将各个基准网页分解为语素，从各基准网页上提取出指定词性(例如名词)相关的关键词后，将它们作为统一的被提取关键词群。

随后，由搜索中继处理部12等按顺序进行图2的S24以下的处理，生成相似网页列表画面40并发到客户端24.

接下来按照图6的流程图及图7的说明图，对页面间相似度计算处理部16所进行的页面间相似度的计算程序进行说明。

首先，页面间相似度计算处理部16从20个相似候选网页中，设定其中一个为比较对象网页(S30-01)。在图7(a)中，显示了网页A被设定为最初的比较对象网页的例子。

其次，页面间相似度计算处理部16运用TF-IDF及矢量空间法，分别计算出其余19个网页(网页B～网页T)与网页A之间的相似度(S30-02)。关于使用该TF-IDF及矢量空间法的相似度具体计算程序，将在后面详述。

然后，页面间相似度计算处理部16将算出的共19个相似度值按高低顺序排列，并计算前15位相似度的平均值作为临界值(S30-03)。在图7(a)中，将网页A作为比较对象时，可以得出临界值为“0.21”。

然后，如图7(b)所示，页面间相似度计算处理部16将下一个网页B设定为比较对象后(S30-04/N、S30-01)，按照相同程序求得临界值(S30-02、S30-03)。

于是，如图7(b)所示，在将最后的网页T设定为比较对象，按照上述同样的程序求得临界值后(S30-04/Y)，页面间相似度计算处理部16将所有20个临界值中的最大值，认定为该搜索公式相关网页间的相似度(S30-05)。

在图7中，显示了求得“0.32”作为某搜索公式相关的网页间相似度的例子。

接下来按照图8的流程图及图9、图10的说明图，对运用TF-IDF及矢量空间法的相似度的具体计算程序进行说明。

首先，页面间相似度计算处理部16对各个相似候选网页进行语素分析，只提取特定词性(例如名词)的用语(S30-02-0t)。

在图9的示例中，分别从网页α的“今天是截止日。今天也要熬夜了吧。”中抽取出“今天/截止日/今天/熬夜”等用语，从网页β的“今天也是小鱼干。腻死了。”中抽取出“今天/小鱼干”等用语，从网页γ的“今天天气不错。打棒球去吧。”中抽取出“今天/天气/棒球”等用语，从网页δ的“天气不错。踢足球去吧。”中抽取出“天气/足球”等用语。另外，在图9与图10中，为了简化说明，只展示了根据网页α～网页δ的4个相似候选网页计算页面间相似度的示例。如果相似候选网页数目增加，其基本思路相同。

在这之后，页面间相似度计算处理部16计算出各网页中各个用语的词频(TF/Term Frequency)(S 30-02-02)。例如，网页α中“今天”的频率即为“2”。

随后，页面间相似度计算处理部16对每个用语计算出包含该用语的网页数(DF/Document Frequency)(S 30-02-03)，收入DF辞典50中(S 30-02-04)。例如，在网页α～δ中包含“今天”的网页有3个，则“今天”一词的DF为“3”。

其后，页面间相似度计算处理部16基于该DF辞典50，将各网页矢量化。

例如网页α，由于包含有DF辞典收录的用语中的“今天”“截止日”“熬夜”三种用语，页面间相似度计算处理部16根据这些用语的DF，计算IDF(InverseDocument Frequency)以及TF-IDF。

首先，页面间相似度计算处理部16按照如下方法计算各用语的IDF(S30-02-05)。

IDF(今天)＝log(网页数/DF)

＝log(4/3)

然后页面间相似度计算处理部16按照如下方法计算各用语的TF-IDF(S30-02-06)。

TF-IDF(今天)＝TF(今天)×IDF(今天)

＝2×log(4/3)＝0.25

通过同样的处理，页面间相似度计算处理部16计算出“截止日”的TF-IDF＝0.60，“熬夜”的TF-IDF＝0.60.

在此，由于网页α所含的“今天”“截止日”“熬夜”三种用语在DF辞典50中的登录排序为1～3号，所以如图10所示，在1～3行分别代入0.25、0.60、0.60三个数值作为矢量元素，与其他用语的登载顺序相应的行代入0.00，该矢量在页面间相似度计算处理部16中生成，作为网页α的矢量(S30-02-07)。

由于网页α的矢量长度为0.89，页面间相似度计算处理部16对各数值进行规则化处理，使矢量长统一为1(S30-02-08)，最终得到填充数值为0.28、0.68、0.68、0.00、0.00、0.00、0.00的矢量。

网页β则含有DF辞典50所收录用语中的“今天”“小鱼干”2种。这些用语在DF辞典50中的登载顺序是1号和4号，所以在第1行与第4行分别代入0.12和0.60的数值作为矢量元素，而与其他用语相对应的行则代入0.00，生成矢量(S30-02-07)，然后通过上述同样的规则化处理(S30-02-08)，最终得到填充数值为0.20、0.00、0.00、0.98、0.00、0.00、0.00的矢量。

另外，文本γ含有DF辞典50所收录用语中的“今天”“天气”“棒球”三种。这些用语在DF辞典50中的登载顺序是1号、5号和6号，所以在第1行、第5行与第6行分别代入0.12、0.60、0.30的数值作为矢量元素，而与其他用语相对应的行则代入0.00，生成矢量(S30-02-07)，然后通过上述同样的规则化处理(S30-02-08)，最终得到填充数值为0.18、0.00、0.00、0.00、0.88、0.44、0.00的矢量。

另外，网页δ含有DF辞典50所收录用语中的“天气”“足球”二种。这些用语在DF辞典50中的登载顺序是6号和7号，所以在第6行与第7行分别代入0.30、0.60的数值作为矢量元素，而与其他用语相对应的行则代入0.00，生成矢量(S30-02-07)，然后通过上述同样的规则化处理(S30-02-08)，最终得到填充数值为0.00、0.00、0.00、0.00、0.00、0.45、0.89的矢量。

接下来页面间相似度计算处理部16计算出网页α的矢量与网页β的矢量之间的标量积(距离)(S30-02-09)。该标量积值将成为两个网页之间的相似度。

此后，页面间相似度计算处理部16按照同样的程序，计算出网页α与网页γ间的相似度以及网页α与网页δ间的相似度。

发明的效果

根据本发明记载的搜索辅助系统和搜索辅助方法，用户只需从搜索结果列表中选择最接近自己搜索目的的一个网页作为基准网页，由于可获取与该网页相似的网页列表，用户得以从关键词选定和发出再搜索请求的繁琐操作中解放出来。

本发明记载的搜索辅助系统，在计算以搜索关键词和各被提取关键词的组合为单位的页面间相似度时，首先会为一对对相似候选网页逐个计算相似度，在其过程中排除极端低值，然后再求平均值，并采用各平均值的最大值作为页面间相似度，通过这样的方式避免了内容空泛的干扰网页的影响，可以得到信赖度较高的页面间相似度。

本发明记载的搜索辅助系统，由于采用了可基于两个网页包含的措辞结构及出现频率计算具体相似度的机制，得以将基于记述内容的相似性正确反映在计算结果之中。

Claims

1.一种搜索辅助系统，其特征在于具有：

将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的装置，

将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择的装置，

在收到来自客户端的基准网页选择信息时，将该基准网页的文本分解为语素单位，并提取特定词性相关的关键词的装置，

对每一个被提取关键词生成以AND条件将其与上述搜索关键词相连的搜索公式，并将各搜索公式发送至搜索服务器、提交搜索请求的装置，

在搜索服务器返回的各搜索公式相关的搜索结果列表中，按各页排序自上而下提取出所定数目的网页作为相似候选网页的装置，

可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算装置，

将相似度高的指定数目的搜索公式相关关键词认定为重要词语的装置，

在上述所有的相似候选网页中，将包含多于指定数目的上述重要词语的网页认定为相似网页的装置，

生成记有该相似网页列表的页面并将其发送至上述客户端的装置。

2.如权利要求项1中所述的搜索辅助系统，其中所述页面间相似度计算装置进行以下处理：

将各搜索公式相关的相似候选网页中的某一相似候选网页设定为比较对象网页，并分别计算进行比较的对象网页与其余相似候选网页间的相似度，在所有计算结果中按序抽出指定数目的结果，计算出这些相似度结果的平均值作为临界值；重复以上所有处理直至该搜索公式相关的所有相似候选网页都被设定为比较对象网页后，将得到的所有临界值中的具有最大值的临界值设定为该搜索公式相关的页面间相似度。

3.如权利要求项2中所述的搜索辅助系统，其中分别计算进行比较的对象网页与其余相似候选网页间的相似度进一步包括：

将上述比较对象网页与其他相似候选网页分解为语素单位，从各网页提取出与指定词性相关的语素，计算被提取的各语素的TF-IDF值，并根据各语素的TF-IDF值将各网页进行矢量化处理，计算比较对象网页矢量与其他相似候选网页矢量的标量积(dot product)，并以此作为两个网页之间的相似度。

4.一种搜索辅助方法，其特征在于由以下步骤组成：

将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的步骤，

将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择的步骤，

在收到来自客户端的基准网页选择信息时，将该基准网页的文本分解为语素单位，并提取特定词性相关的关键词的步骤，

对每一个被提取关键词生成以与(AND)条件将其与搜索关键词相连的搜索公式，并将各搜索公式发送至搜索服务器、提交搜索请求的步骤，

在搜索服务器返回的各搜索公式相关的搜索结果列表中，按各页排序自上而下提取出所定数目的网页作为相似候选网页的步骤，

可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算步骤，

将相似度高的指定数目的搜索公式相关关键词认定为重要词语的步骤，

在上述所有的相似候选网页中，将包含多于指定数目的上述重要词语的网页认定为相似网页的步骤，

生成记有该相似网页列表的页面并将其发送至上述客户端的步骤。