CN103186574A

CN103186574A - 一种搜索结果的生成方法和装置

Info

Publication number: CN103186574A
Application number: CN201110450293XA
Authority: CN
Inventors: 李战胜; 许恬菁; 林涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2013-07-03
Anticipated expiration: 2031-12-29
Also published as: CN103186574B

Abstract

本发明提供了一种搜索结果的生成方法和装置，该方法包括：S1、预先利用网页的锚文本或用户的点击文本，得到各站点的词项及各词项的权值，建立各站点的站点模型；S2、获取用户的搜索词，通过检索得到与所述搜索词相匹配的各匹配网页；S3、利用所述搜索词与步骤S1建立的站点模型，通过相关性计算，得到所述搜索词与各匹配网页对应的站点的领域相关度；S4、根据所述搜索词与各匹配网页对应的站点的领域相关度，对所述各匹配网页进行排序，生成搜索结果。相较于现有技术，本发明能够改善搜索结果的领域相关性排序，方便用户迅速找到搜索结果，同时提高了用户和系统的效率，减少交互次数，减轻服务器的压力。

Description

一种搜索结果的生成方法和装置

【技术领域】

本发明涉及互联网应用技术领域，特别涉及一种搜索结果的生成方法和装置。

【背景技术】

随着信息和网络技术的不断发展，搜索引擎已经成为人们获取信息的重要途径。用户通过在搜索引擎中输入搜索词(query)，获取搜索引擎针对该搜索词返回的搜索结果。搜索结果通常是根据一系列的评分策略和排序算法而得到的。其中，影响搜索结果排名除了关键词因素以外，主要还有站点(网站)的权威性这个因素。

现有的权威性主要考虑网页的超链接关系、互联网用户的访问程度、站点本身的权威性等级等客观因素。这种采用超链接等关系来衡量网站/网址权威性的方式通常体现的是知名度，一般只能反映网页在整个互联网上的流行程度，但对于一些非互联网主流或者传统行业来说，其互联网化程度并不高，例如石油站点、专业舞蹈、诗歌站点等只在专业领域上小众流行的站点，这些网站在同一领域内的权威程度实际上应该是很高，但现有的方法并不能真实地反应其权威程度。这将导致一些全局范围内权威度高的网页排序过于靠前，而本领域内的知名网页会受到挤压。比如，搜索“小学语文第一课时”，教育类站点应该排名比较靠前，但是按照现有的方法，经常会出现文档类、视频类、博客类站点结果靠前的情况；因而，目前的权威性主要采用超链接关系等从知名度来衡量权威性；而缺乏从领域专业度来衡量站点的权威性，导致搜索结果相关性差，使用户较难找到想要的结果，尤其是小众流行的专业站点，这样必然增加了用户与系统的交互次数，对服务器造成较大压力。

【发明内容】

本发明提供了一种搜索结果的生成方法和装置，能够反映网站在所处领域的权威程度，提升搜索结果中领域相关性排序，方便用户迅速找到相关领域感兴趣的搜索结果，更符合用户需求，同时提高了用户和系统的效率，减少交互次数，减轻服务器的压力。

具体技术方案如下：

一种搜索结果的生成方法，该方法包括：

S1、预先利用网页的锚文本或用户的点击文本，得到各站点的词项及各词项的权值，建立各站点的站点模型；

S2、获取用户的搜索词，通过检索得到与所述搜索词相匹配的各匹配网页；

S3、利用所述搜索词与步骤S1建立的站点模型，通过相关性计算，得到所述搜索词与各匹配网页对应的站点的领域相关度；

S4、根据所述搜索词与各匹配网页对应的站点的领域相关度，对所述各匹配网页进行排序，生成搜索结果。

根据本发明一优选实施例，所述步骤S1具体包括以下步骤：

步骤S1_1、从网页的锚文本数据中提取锚文本及对应的url，或从用户点击数据中提取点击文本及对应的url；

步骤S1_2、对获取到的url进行分类，将指向同一站点的url及对应的锚文本或点击文本归于同一站点下；

步骤S1_3、分别对同一站点下的锚文本或点击文本进行分词，得到对应各站点的词项；

步骤S1_4、分别对各个站点基于词频-倒文档率计算其中各个词项的权值，得到各站点的站点模型。

根据本发明一优选实施例，还包括：对所述步骤S1_4计算得到的各个词项的权值进行归一化处理，得到各个词项的锚文本得分或点击文本得分。

根据本发明一优选实施例，在进行所述归一化处理之后，还包括：将同一站点的同一词项的所述锚文本得分和所述点击文本得分进行线性加权，对各词项的权值进行调整。

根据本发明一优选实施例，还包括对所述站点模型中的各个词项进行同义词扩展，并计算扩展得到的同义词的权值。

根据本发明一优选实施例，所述同义词的权值Ws＝W×Ratio，其中，W是站点中词项的权值，Ratio是所述同义词根据同义词级别确定的系数。

根据本发明一优选实施例，所述步骤S2中在获取用户的搜索词之后，还包括：对获取的搜索词进行分词得到搜索词的词项，计算各个词项的权值，得到搜索词向量；

所述步骤S3中利用所述搜索词向量与步骤S1建立的站点模型进行所述相关性计算。

根据本发明一优选实施例，所述步骤S2中基于词项的倒文档率计算各个词项的权值。

根据本发明一优选实施例，还包括：对所述步骤S2获取的搜索词进行扩展，并计算扩展得到的词项的权值，将扩展得到的词项也用于所述步骤S3进行相关性计算，扩展的方法采用以下所列的至少一种：

根据用户的历史行为，对搜索词进行搜索词变换；

采用预设的需求词列表，对搜索词进行需求词的扩展。

根据本发明一优选实施例，所述步骤S4具体包括：

将所述搜索词与各匹配网页对应的站点的领域相关度加权到各站点原有的权威值上，得到各站点的修正权威值；

根据各站点的修正权威值对所述各匹配网页进行排序，将满足预设要求的匹配网页生成搜索结果显示给用户。

根据本发明一优选实施例，所述满足预设要求包括：

站点的修正权威值排在前N个，N为预设正整数；

或者，站点的修正权威值大于预设权威值阈值。

一种搜索结果的生成装置，该装置包括：

站点模型建立模块，用于预先利用网页的锚文本或用户的点击文本，得到各站点的词项及各词项的权值，建立各站点的站点模型；

搜索词获取模块，用于获取用户的搜索词，通过检索得到与所述搜索词相匹配的各匹配网页；

相关度计算模块，用于计算所述搜索词与所述站点模型建立模块建立的站点模型，通过相关性计算，得到所述搜索词与各匹配网页对应的站点的领域相关度；

搜索结果生成模块，用于根据所述搜索词与各匹配网页对应的站点的领域相关度，对所述各匹配网页进行排序，生成搜索结果。

根据本发明一优选实施例，所述站点模型建立模块具体包括：

文本获取单元，用于从网页的锚文本数据中提取锚文本及对应的url，或从用户点击数据中提取点击文本及对应的url；

分类单元，用于对获取到的url进行分类，将指向同一站点的url及对应的锚文本或点击文本归于同一站点下；

分词单元，用于分别对同一站点下的锚文本或点击文本进行分词，得到对应各站点的词项；

赋值单元，用于分别对各个站点基于词频-倒文档率计算其中各个词项的权值，得到各站点的站点模型。

根据本发明一优选实施例，所述站点模型建立模块还包括归一化单元，用于对所述赋值单元计算得到的各个词项的权值进行归一化处理，得到各个词项的锚文本得分或点击文本得分。

根据本发明一优选实施例，所述站点模型建立模块还包括合并单元，用于将所述归一化单元得到的同一站点的同一词项的所述锚文本得分和所述点击文本得分进行线性加权，对各词项的权值进行调整。

根据本发明一优选实施例，所述站点模型建立模块还包括同义词扩展单元，用于对所述站点模型中的各个词项进行同义词扩展，并计算扩展得到的同义词的权值。

根据本发明一优选实施例，所述搜索词获取模块包括搜索词分词单元和搜索词赋值单元，

所述搜索词分词单元，用于对获取的搜索词进行分词得到搜索词的词项；

所述搜索词赋值单元，用于计算所述搜索词分词单元得到的各个词项的权值，得到搜索词向量，供给所述相关度计算模块进行所述相关性计算。

根据本发明一优选实施例，所述搜索词获取模块基于词项的倒文档率计算各个词项的权值。

根据本发明一优选实施例，所述搜索词获取模块还包括搜索词扩展单元，用于对获取的搜索词进行扩展，并计算扩展得到的词项的权值，供给所述相关度计算模块进行相关性计算，扩展的方法采用以下所列的至少一种：

根据用户的历史行为，对搜索词进行搜索词变换；

采用预设的需求词列表，对搜索词进行需求词的扩展。

根据本发明一优选实施例，所述搜索结果生成模块包括权威值确定模块和搜索结果排序模块，

所述权威值确定模块，用于将所述搜索词与各匹配网页对应的站点的领域相关度加权到各站点原有的权威值上，得到各站点的修正权威值；

所述搜索结果排序模块，用于根据所述权威值确定模块得到的各匹配网页对应的站点的修正权威值对所述各匹配网页进行排序，将满足预设要求的匹配网页生成搜索结果显示给用户。

根据本发明一优选实施例，所述满足预设要求包括：

站点的修正权威值排在前N个，N为预设正整数；

或者，站点的修正权威值大于预设权威值阈值。

由以上技术方案可以看出，本发明提供的搜索结果的生成方法和装置，利用锚文本和用户点击文本建立站点模型，用以结合搜索词计算与站点的领域相关度，能够反映网站在所处领域的权威程度，提升搜索结果中领域相关性排序，方便搜索用户迅速找到相关领域感兴趣的搜索结果，更符合用户需求，同时提高了用户和系统的效率，减少交互次数，减轻服务器的压力。

【附图说明】

图1为本发明实施例一提供的搜索结果的生成方法流程图；

图2为本发明实施例一提供的建立站点模型的方法流程图；

图3为本发明实施例二提供的搜索结果的生成装置结构图；

图4为本发明实施例二提供的站点模型建立模块的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1是本实施例提供的搜索结果的生成方法流程图，如图1所示，该方法包括：

步骤S101、预先利用网页的锚文本或用户的点击文本，得到各站点的词项及各词项的权值，建立各站点的站点模型。

一个站点通常包括多个网页，一个网页内包括多个锚文本。所述锚文本(超链接文本，anchor text)，用以指引注释其对应的超链接(url，统一资源定位符)。从抓取到的网络资源中，获取各网页内的锚文本及其对应的url，作为锚文本数据。

统计用户的历史行为，得到用户点击(click)数据。比如，用户在搜索引擎上输入搜索词(query)“汕头电信”，从搜索结果中点击了文本标题为“中国电信网上营业厅·广东|为您提供电信业务办理、充值缴费、费用查询等全方位电子自助服务”的网页，其对应的url为“http://gd.ct10000.com/”。记录用户的这些点击数据，并根据这些数据，可以获取到用户点击的url及其对应的点击文本作为用户点击数据。

利用这些锚文本数据或用户点击数据建立各站点模型。下面结合图2对站点模型的建立做进一步详细说明。

图2是本实施例提供的建立站点模型的方法流程图，如图2所示，包括以下步骤：

步骤S201_1、从网页的锚文本数据中提取锚文本及对应的url。

利用搜索引擎抓取整个网络资源上的锚文本数据，包括各个站点内的锚文本及其对应的url。从该些锚文本数据中提取锚文本及对应的url。

例如，以获取网页“gd.ct10000.com”站点首页为例，得到的锚文本如表1所示(未全部列出)：

表1

步骤S202_1、对获取到的url进行分类，将指向同一站点的url及对应的锚文本归于同一站点下。

在判断url是否指向同一个站点时，可以但不限于以“/”作为分隔符，以模板“http://....../”进行判断，即将网络协议“http://”后至第一个“/”之前内容一样的url作为同一个站点的url。

例如，url1为“http://www.xxx.com”，其对应锚文本1。url2为“http://www.xxx.com/1.htm”，其对应锚文本2。由于url1和url2中“http://....../”之间的内容相同，因而，url1和url2都是属于“www.xxx.com”这个站点下面的url，其对应的锚文本1和锚文本2是“www.xxx.com”这个站点的锚文本。

同理，对“gd.ct10000.com”站点的锚文本和url进行归类，得到的结果如表2所示：

表2

步骤S203_1、分别对同一站点下的锚文本进行分词，得到对应各站点的词项。

采用现有的分词方法，例如可以采用正向最大匹配法进行大粒度分词，同时采用正向最小匹配法进行小粒度分词，得到词项。以“宽带与互联网应用”为例，分词结果得到词项，包括：“宽带”、“与”、“互联网应用”、“互联网”和“应用”。采用现有过滤方法，过滤掉标点符号及停用词，得到词项“宽带”、“互联网应用”、“互联网”和“应用”。

对属于站点“gd.ct10000.com”下的各个锚文本进行分词，得到该站点“gd.ct10000.com”的词项。同理，分别对属于站点“m.gd.ct10000.com”和站点“gd.189.cn”下的各个锚文本进行分词，分别得到站点“m.gd.ct10000.com”和站点“gd.189.cn”的词项。

步骤S204_1、分别对各个站点基于词频-倒文档率计算其中各个词项的权值。

统计各个词项在同一站点的锚文本中的出现次数(TF)，并与各个词项的倒文档率(IDF)计算各个词项的权值Wt，即Wt＝TF*IDF。

其中，词项的倒文档率为固定的值，可以通过现有的词典获得，表示词项的表意能力，IDF值越大，表意能力越强。

例如，统计词项“宽带”在站点“gd.ct10000.com”的锚文本中出现次数为1000，“宽带”的IDF值假设为0.02，则词项“宽带”的权值是20。

步骤S205_1、对步骤S204_1计算得到的各个词项的权值进行归一化处理，得到各个词项的锚文本得分。

各个站点所获得的锚文本数量各异，经过分词得到的词项数量或多或少。如果一个词项在两个不同站点的锚文本中出现次数相同，那么根据步骤S204_1计算得到的该词项的权值也就相同，然而该词项对于两个不同站点而言，其重要程度可能是不相同的。为了使各个站点中词项的权值可以体现词项对于站点的重要程度，有必要对词项的权值进行归一化至[0，1]，采用统一的形式表示。

在本步骤中，采用归一化公式：Score_Anchor＝Wt/Wt_max (1)

其中，Wt是计算得到的词项的权值，Wt_max是针对同一站点中的各词项计算出的Wt的最大值。

值得一提的是，Wt_max也可以是一个固定的预估值，根据经验能够预估到各词项的权值不会超过某个数值，可以将该数值作为Wt_max。

经过归一化处理，得到各个词项在[0，1]内的锚文本得分Score_Anchor。

步骤S201_2、从用户点击数据中提取点击文本及对应的url。

利用搜索引擎统计的用户历史行为得到的用户点击数据，来获取各个点击文本及其对应的url。

例如，用户在某次搜索行为中，点击的网页标题(即点击文本)及其对应的url如表3所示：

表3

在获取点击数据时，还可以先对点击数据进行过滤操作，将点击次数小于预设值的点击数据过滤掉，使得点击数据更加准确。

步骤S202_2、对获取到的url进行分类，将指向同一站点的url及对应的点击文本归于同一站点下。

本步骤与步骤S202_1相类似，在判断url是否指向同一个站点时，可以但不限于以“/”作为分隔符，以模板“http://....../”进行判断，即将网络协议“http://”后至第一个“/”之前内容一样的url作为同一个站点的url。

对表3的内容进行分类，得到结果如表4：

表4

步骤S203_2、分别对同一站点下的点击文本进行分词，得到对应各站点的词项。

与步骤S203_1类似，采用现有的分词方法，例如可以采用正向最大匹配法进行大粒度分词，同时采用正向最小匹配法进行小粒度分词，得到词项。以“中国电信营业厅·广东”为例，分词结果得到词项，包括：“中国电信”、“营业厅”、“·”、“广东”和“中国”。采用现有过滤方法，过滤掉标点符号及停用词，得到词项“中国电信”、“营业厅”、“广东”和“中国”。

步骤S204_2、分别对各个站点基于词频-倒文档率(TF-IDF)计算其中各个词项的权值。

与步骤S204_1相类似，统计各个词项在指向同一站点的点击文本中的出现次数(TF)，并与各个词项的倒文档率(IDF)计算各个词项的权值Wt，即Wt＝TF*IDF。

步骤S205_2、对步骤S204_2计算得到的各个词项的权值进行归一化处理，得到各个词项的点击文本得分。

与步骤S205_1相类似，采用归一化公式：Score_Click＝Wt/Wt_max (2)

同样地，Wt_max也可以是一个固定的预估值，根据经验能够预估到各词项的权值不会超过某个数值，可以将该数值作为Wt_max。

经过归一化处理，得到各个词项在[0，1]内的点击文本得分Score_Click。

步骤S206、将同一站点的同一词项的锚文本得分和点击文本得分进行线性加权，对各词项的权值进行调整。

采用的线性加权公式为：

W＝Score_Anchor×a+Score_Click×(1-a)(3)

其中，W是站点中词项的权值，a是预设的加权因子，0＜a＜1。

根据实际应用场景的不同，可设置不同的a，分配词项的锚文本得分Score_Anchor和点击文本得分Score_Click的比例，对词项的权值进行调整。

由于本发明可以使用锚文本或点击文本的其中一种数据来建立站点模型，因而，当仅使用一种数据建立站点模型时，可以不必进行本步骤的线性加权操作。

步骤S207、对各站点的各个词项进行同义词扩展，并计算扩展得到的同义词的权值。

利用同义词词表，对各个词项进行同义词扩展。例如，针对“中国电信”可以通过同义词词表扩展得到“中华人民共和国电信”，“宽带”可以扩展得到“ADSL”，“费用查询”可以扩展得到“话费查询”等等。

利用站点中各个词项的权值以及通过该些词项扩展得到的同义词所在的同义词级别，来计算同义词的权值Ws，其计算公式为：

Ws＝W×Ratio (4)

其中，W是站点中词项的权值，Ratio是所述同义词根据同义词级别确定的系数，其值大小处于[0，1]之间。

根据同义词级别确定的系数Ratio可以采用词项与扩展的同义词之间的相关性来确定，从而计算得到同义词的权值。例如，某站点的词项包括词A，扩展的同义词包括词B，则计算词B的权值可以但不限于采用以下计算公式：

W_B＝W_A×R_AB (5)

其中，W_B为词B的权值，W_A为词A的权值，R_AB为词A和词B的相关性。例如，针对站点“gd.ct10000.com”，经过步骤S206计算得到“中国电信”的权值为0.4394，“中国电信”和“中华人民共和国电信”之间的相关性为0.8，则可以得到“中华人民共和国电信”的权值为0.3515。

计算词A与词B之间的相关性R_AB的具体过程包括如下：

分别针对词A和词B确定特征向量，该特征向量的确定过程为：先将单个词(如，词A)作为搜索词到搜索引擎中进行搜索，得到搜索结果，选取前X个页面的搜索结果，并对每个页面的内容进行分词并计算分词的TF-IDF作为各个分词的权值，再选取权重值排在前Y个的分词作为词A的特征向量。然后，计算词A的特征向量和词B的特征向量之间的相似度作为词A和词B的相关性，两个特征向量之间的相似度可以采用余弦相似度或者内积而得到。

经过本步骤对各站点的词项进行扩展后，将扩展得到的同义词也作为各个站点的词项，使得站点模型中的词项更加全面、准确。当然，本步骤并不是必须的操作。

针对站点“gd.ct10000.com”经过上述步骤S203_1至步骤S207处理后，建立的站点模型如表5所示(未全部示出)。

表5

词项	权值
		gd.ct10000.com	0.4690
中国电信	0.4394
		营业厅	0.4338
电信	0.3969
		广东	0.3545
中华人民共和国电信	0.3515
		广东电信	0.3353
宽带	0.2711
		深圳	0.2658
天翼	0.2106
		汕头	0.1981
费用查询	0.1818
		话费	0.1627
手机	0.1590
		费用	0.1490
广州	0.1472
		套餐	0.1437
......	......

在站点模型中除了站点中的词项及其权值、扩展得到的同义词及其权值外，还可以包括站点名称以及词项总数量等信息。例如，站点“gd.ct10000.com”包括90个词项等等信息。

值得一提的是，经过步骤S204_1或步骤S204_2计算得到各词项的权值后即可得到站点模型，站点模型包括站点的词项以及各词项的权值。后续的步骤S205_1、步骤S205_2、步骤S206以及步骤S207是对各词项的权值进行调整及优化处理，使得建立的站点模型更加准确。

继续参见图1，步骤S102、获取用户的搜索词，通过检索得到与所述搜索词相匹配的各匹配网页。

所述获取用户的搜索词具体包括以下步骤：

步骤S301、对搜索词进行分词得到搜索词的词项。

采用现有的分词方法，对扩展后的搜索词进行大粒度和小粒度分词。

例如，采用正向最大匹配法进行大粒度分词，将搜索词“广东电信营业厅”分词为“广东电信”和“营业厅”。采用正向最小匹配法进行小粒度分词，将搜索词“广东电信营业厅”分词为“广东”、“电信”和“营业厅”。

步骤S302、计算步骤S301得到的各词项的权值，构成搜索词向量。

词项的权值计算方法可以但不限于采用基于词项的倒文档率(IDF)来计算搜索词各个词项的权值。IDF值是词项的表意能力，用以体现词项的重要性，IDF值越大，词项的权值越大。

对于扩展的词项的权值可以利用扩展前的原有搜索词的词项的权值乘以扩展得到的搜索词与原有搜索词的相关度来计算，与上述计算公式(5)类似。

在计算出各词项的权值后，利用搜索词的词项及各词项的权值构成搜索词向量。

步骤S303、对获取的搜索词进行扩展，并计算扩展得到的词项的权值，将扩展得到的词项也用于后续进行相关性计算。

所述对获取的搜索词进行扩展可以直接对经过步骤S301分词得到的词项进行扩展，同时利用步骤S302的计算结果进行权值的计算。或者，也可以对进行分词之前的搜索词进行扩展。

扩展的方法可以采用以下所列中的至少一种：

第一，根据用户的历史行为，对搜索词进行搜索词变换(query变换)。

根据用户的历史行为来进行变换，通过统计用户的历史搜索数据，得到包括搜索词的其他搜索词，并统计该些搜索词被用户使用的次数，将使用次数满足预设要求的其他搜索词作为该搜索词的搜索词变换。

例如，对于搜索词“刘德华”，从用户历史行为中统计得到“刘德华演唱会”、“刘德华电影”等搜索词也被用户使用过，而且使用次数满足预设要求，则将“刘德华演唱会”、“刘德华电影”作为搜索词“刘德华”经过搜索词变换而得到的搜索词。

第二，采用预设的需求词列表，对搜索词进行需求词的扩展。

经过统计发现，搜索词通常会有潜在的需求词，例如，对于搜索词“电信”，会有“营业厅”、“资费”等需求词，搜索词“手机”会有“价格”、“市场”等需求词，搜索词“粤菜”会有“菜谱”、“做法”等需求词。

采用预设的需求词列表进行扩展，将满足预设要求的需求词作为扩展的搜索词。

预先根据用户的搜索历史行为，统计以搜索词为中心词与需求词在搜索历史中搭配出现的次数，将出现次数满足要求的需求词添加到该中心词的需求词列表中，形成所述预设的需求词列表。

扩展后的搜索词包括搜索词以及经过搜索词变换和需求词扩展而得到的词，可以使得搜索结果更加全面、准确。当然，本步骤不是必须的操作。

举个例子，对于搜索词“汕头电信”，经过分词等处理后，可以得到搜索词向量[汕头，0.5电信，0.9营业厅，0.6]。其中，“营业厅”是扩展得到的词项。

步骤S103、利用所述搜索词与步骤S101建立的站点模型，通过相关性计算，得到所述搜索词与各匹配网页对应的站点的领域相关度。

通过将搜索词向量和各站点模型做相似度计算，可以但不限于采用内积或余弦定理来计算相似度，得到搜索词与各站点的领域相关度，该领域相关度取值范围是[0，1]。

例如，计算搜索词“汕头电信”与站点“gd.ct10000.com”的相关性，则将搜索词向量[汕头，0.5电信，0.9营业厅，0.6]与“gd.ct10000.com”的站点模型(如表5所示)进行内积计算，得到该搜索词“汕头电信”与站点“gd.ct10000.com”的领域相关度＝0.5×0.1981+0.9×0.3969+0.6×0.4338＝0.71654。

步骤S104、根据所述搜索词与各匹配网页对应的站点的领域相关度，对所述各匹配网页进行排序，生成搜索结果。

优选地，可以将步骤S103计算得到的搜索词与各匹配网页对应的站点的领域相关度加权到各站点原有的权威值上，得到各站点的修正权威值。

其中，加权公式可以采用：

V＝S×(1+f)(6)

其中，V是站点的修正权威值，S是站点原有的权威值，f是经过步骤S103计算得到的搜索词与站点的领域相关度。

例如，假设站点“gd.ct10000.com”原有的权威值＝103，则经过加权后，得到的修正权威值＝103×(1+0.71654)＝176。

根据各匹配网页对应的站点的修正权威值对所述各匹配网页进行排序，将满足预设要求的匹配网页生成搜索结果显示给用户。

所述满足预设要求包括：站点的修正权威值V排在前N个，N为预设正整数；或者，站点的修正权威值V大于预设权威值阈值。

另外，当仅采用由步骤S103计算得到搜索词与各匹配网页对应的站点的领域相关度对各匹配网页进行排序时，可以直接利用该领域相关度进行排序，将领域相关度排在前N个或者大于预设阈值的匹配网页生成搜索结果；或者，也可以将领域相关度转换成站点权威值进行排序，具体地，将站点原有的权威值S统一取为100，利用公式(6)计算得到站点的修正权威值V，再根据计算得到的权威值对搜索结果进行排序。

本发明提供的搜索结果的生成方法，可以提升搜索结果在领域相关性的排序，反映网站在所处领域的权威程度，便于用户迅速找到相关领域感兴趣的搜索结果，提高了效率，更符合用户需求。

举个例子，在搜索引擎中输入搜索词“小学语文第一课时”，在原来的搜索结果中大多以优酷视频、百度文库、土豆视频、博客等位列搜索结果前面，而兴庆教育信息网、海西教育网等相关的网页“反思：小学语文第一课时怎样上？-兴庆教育信息网”和“【小学语文(a)】浅谈提高语文阅读课第一课时的有效性”分别排列在第8位和第12位，搜索结果在专业领域的相关性差。由于教育类站点网页内的锚文本和相关的点击文本多数与“小学”“语文”“课时”等有关的词项，这样这些词项在这些教育类站点中具有较为重要的意义，其得到的权值较大，从而计算得到的相关性也越大。因此本发明可以增加专业领域相关的站点的权威性，将相关专业的站点，诸如“www.xqqedu.com”和“www.fjedu.net.cn”等教育类网站的搜索结果，在原有的搜索结果中提前，便于用户找到相关专业领域的搜索结果。

以上是对本发明所提供的方法进行的详细描述，下面对本发明提供的搜索结果的生成装置进行详细描述。

实施例二、

图3是本实施例提供的搜索结果的生成装置结构图，如图3所示，该装置包括：

站点模型建立模块10，用于预先利用网页的锚文本或用户的点击文本，得到各站点的词项及各词项的权值，建立各站点的站点模型。

所述站点模型至少包括站点的词项以及各词项的权值。

一个站点通常包括多个网页，一个网页内包括多个锚文本。所述锚文本用以指引注释其对应的url。从抓取到的网络资源中，获取各网页内的锚文本及其对应的url，作为锚文本数据。

统计用户的历史行为，得到用户点击数据。比如，用户在搜索引擎上输入搜索词“汕头电信”，从搜索结果中点击了文本标题为“中国电信网上营业厅·广东|为您提供电信业务办理、充值缴费、费用查询等全方位电子自助服务”的网页，其对应的url为“http://gd.ct10000.com/”。记录用户的这些点击数据，并根据这些数据，可以获取到用户点击的url及其对应的点击文本作为用户点击数据。

站点模型建立模块10利用这些锚文本数据或用户点击数据建立各站点模型，具体包括：

文本获取单元101，用于从网页的锚文本数据中提取锚文本及对应的url，或从用户点击数据中提取点击文本及对应的url。

文本获取单元101利用搜索引擎抓取整个网络资源上的锚文本数据，包括各个站点内的锚文本及其对应的url。或者，利用搜索引擎统计的用户历史行为得到的用户点击数据，来获取各个点击文本及其对应的url。

分类单元102，用于对获取到的url进行分类，将指向同一站点的url及对应的锚文本或点击文本归于同一站点下。

分类单元102在判断url是否指向同一个站点时，可以但不限于以“/”作为分隔符，以模板“http://....../”进行判断，即将网络协议“http://”后至第一个“/”之前内容一样的url作为同一个站点的url。

分词单元103，用于分别对同一站点下的锚文本或点击文本进行分词，得到对应各站点的词项。

赋值单元104，用于分别对各个站点基于词频-倒文档率计算其中各个词项的权值，得到各站点的站点模型。

统计各个词项在同一站点的锚文本或点击文本中的出现次数(TF)，并与各个词项的倒文档率(IDF)计算各个词项的权值Wt，即Wt＝TF*IDF。

归一化单元105，用于对赋值单元104计算得到的各个词项的权值进行归一化处理，得到各个词项的锚文本得分或点击文本得分。

各个站点所获得的锚文本或点击文本数量各异，经过分词得到的词项数量或多或少。如果一个词项在两个不同站点的锚文本或点击文本中出现次数相同，那么利用赋值单元104计算得到的该词项的权值也就相同，然而该词项对于两个不同站点而言，其重要程度可能是不相同的。为了使各个站点中词项的权值可以体现词项对于站点的重要程度，有必要对词项的权值进行归一化至[0，1]，采用统一的形式表示。

归一化单元105采用公式(1)得到各个词项的锚文本得分Score_Anchor和点击文本得分Score_Click。

为了更清楚阐述站点模型建立模块10，下面结合图4作进一步详细说明。

图4为本实施例提供的站点模型建立模块10的结构图，如图4所示，站点模型建立模块10包括：

锚文本获取单元1011，用于从网页的锚文本数据中提取网页内的锚文本及对应的url。

锚文本获取单元1011利用搜索引擎抓取整个网络资源上的锚文本数据，包括各个站点内的锚文本及其对应的url。从该些锚文本数据中提取锚文本及对应的url。例如，以获取网页“gd.ct10000.com”站点首页为例，得到的锚文本如表1所示。

第一分类单元1021，用于对锚文本获取单元1011获取到的url进行分类，将指向同一站点的url及对应的锚文本归于同一站点下。

第一分类单元1021在判断url是否指向同一个站点时，可以但不限于以“/”作为分隔符，以模板“http://....../”进行判断，即将网络协议“http://”后至第一个“/”之前内容一样的url作为同一个站点的url。

例如，对表1中“gd.ct10000.com”站点的锚文本和url进行归类，得到的结果如表2所示。

第一分词单元1031，用于分别对同一站点下的锚文本进行分词，得到对应各站点的词项。

例如，对属于站点“gd.ct10000.com”下的各个锚文本进行分词，得到该站点“gd.ct10000.com”的词项。同理，分别对属于站点“m.gd.ct10000.com”和站点“gd.189.cn”下的各个锚文本进行分词，分别得到站点“m.gd.ct10000.com”和站点“gd.189.cn”的词项。

第一赋值单元1041，用于分别对各个站点基于词频-倒文档率计算其中各个词项的权值。

第一归一化单元1051，用于对第一赋值单元1041计算得到的各个词项的权值进行归一化处理，得到各个词项的锚文本得分Score_Anchor。

采用归一化公式：Score_Anchor＝Wt/Wt_max

点击文本获取单元1012，用于从用户点击数据中提取点击文本及对应的url。

点击文本获取单元1012利用搜索引擎统计的用户历史行为得到的用户点击数据，来获取各个点击文本及其对应的url。例如，用户在某次搜索行为中，点击的网页标题(即点击文本)及其对应的url如表3所示。

第二分类单元1022，用于对点击文本获取单元1012获取到的url进行分类，将指向同一站点的url及对应的点击文本归于同一站点下。

第二分类单元1022在判断url是否指向同一个站点时，可以但不限于以“/”作为分隔符，以模板“http://....../”进行判断，即将网络协议“http://”后至第一个“/”之前内容一样的url作为同一个站点的url。例如，对表3的内容进行分类，得到结果如表4。

第二分词单元1032，用于分别对同一站点下的点击文本进行分词，得到对应各站点的词项。

第二赋值单元1042，用于分别对各个站点基于词频-倒文档率(TF-IDF)计算其中各个词项的权值。

第二归一化单元1052，用于对第二赋值单元1042计算得到的各个词项的权值进行归一化处理，得到各个词项的点击文本得分Score_Click。

采用归一化公式：Score_Click＝Wt/Wt_max

合并单元106，用于将第一归一化单元1051和第二归一化单元1052得到的同一站点的同一词项的所述锚文本得分和所述点击文本得分进行线性加权，对各词项的权值进行调整。

采用的线性加权公式为公式(3)，根据实际应用场景的不同，可设置不同的a，分配词项的锚文本得分Score_Anchor和点击文本得分Score_Click的比例，加权得到词项的权值W。

同义词扩展单元107，用于对所述站点模型中的各个词项进行同义词扩展，并计算扩展得到的同义词的权值。

同义词扩展单元107利用同义词词表，对各个词项进行同义词扩展。例如，针对“中国电信”可以通过同义词词表扩展得到“中华人民共和国电信”，“宽带”可以扩展得到“ADSL”，“费用查询”可以扩展得到“话费查询”等等。

Ws＝W×Ratio

W_B＝W_A×R_AB

其中，W_B为词B的权值，W_A为词A的权值，R_AB为词A和词B的相关性。例如，针对站点“gd.ct10000.com”，经过合并单元106计算得到“中国电信”的权值为0.4394，“中国电信”和“中华人民共和国电信”之间的相关性为0.8，则可以得到“中华人民共和国电信”的权值为0.3515。

计算词A与词B之间的相关性R_AB的具体过程包括如下：

利用站点模型建立模块20建立站点“gd.ct10000.com”的站点模型如表5所示。

继续参见图3，搜索词获取模块20，用于获取用户的搜索词，通过检索得到与所述搜索词相匹配的各匹配网页。

搜索词获取模块20具体包括：

搜索分词单元201，用于对搜索词进行分词得到搜索词的词项。

搜索词赋值单元202，用于计算搜索词分词单元201得到的各词项的权值，构成搜索词向量，供给所述相关度计算模块进行所述相关性计算。

对于扩展的词项的权值，利用扩展前的原有搜索词的词项的权值乘以扩展得到的搜索词与原有搜索词的相关度来计算，与上述计算公式(5)类似。

搜索词赋值单元202在计算出各词项的权值后，利用搜索词的词项及各词项的权值构成搜索词向量。

搜索词扩展单元203，用于对获取的搜索词进行扩展，并计算扩展得到的词项的权值，将扩展得到的词项及其权值也添加至所述搜索词向量中，供给相关度计算模块30进行相关性计算。

所述对获取的搜索词进行扩展可以直接对搜索词分词单元201分词得到的词项进行扩展，同时利用搜索赋值单元202计算结果进行权值的计算。或者，也可以对进行分词之前的搜索词进行扩展。

扩展的方法可以采用以下所列的至少一种：

扩展后的搜索词包括搜索词以及经过搜索词变换和需求词扩展而得到的词，可以使得搜索结果更加全面、准确。

举个例子，对于搜索词“汕头电信”，经过分词等处理后，可以得到搜索词向量[汕头，0.5电信，0.9营业厅，0.6]。其中，“营业厅”为扩展得到的词项。

相关度计算模块30，用于计算所述搜索词与站点模型建立模块10建立的站点模型，通过相关性计算，得到所述搜索词与各匹配网页对应的站点的领域相关度。

搜索结果生成模块40，用于根据所述搜索词与各匹配网页对应的站点的领域相关度，对所述各匹配网页进行排序，生成搜索结果。

搜索结果生成模块40包括权威值确定模块401和搜索结果排序模块402。权威值确定模块401，用于将所述搜索词与各匹配网页对应的站点的领域相关度加权到各站点原有的权威值上，得到各站点的修正权威值。

其中，加权公式可以采用公式(6)进行计算得到修正权威值。

例如，假设站点“gd.ct10000.com”原有的权威值＝103，则经过加权后，得到修正权威值＝103×(1+0.71654)＝176。

搜索结果排序模块402，用于根据权威值确定模块401得到的各匹配网页对应的站点的修正权威值对所述各匹配网页进行排序，将满足预设要求的匹配网页生成搜索结果显示给用户。

当然，搜索结果排序模块402也可以配置为用于根据相关度计算模块30计算得到的搜索词与各匹配网页对应的站点的领域相关度进行排序，将领域相关度排在前N个或者大于预设阈值的匹配网页生成搜索结果。

本发明提供的搜索结果的生成方法和装置，利用锚文本数据和用户点击数据建立站点模型，能够反映站点在所处领域的权威程度，在计算网站修正权威值时，结合搜索词与站点的领域相关度，可以提升搜索结果在领域相关性的排序，便于用户迅速找到相关领域感兴趣的搜索结果，更符合用户需求，同时提高了用户和系统的效率，减少交互次数，减轻服务器的压力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种搜索结果生成方法，其特征在于，包括：

S3、利用所述搜索词与步骤S 1建立的站点模型，通过相关性计算，得到所述搜索词与各匹配网页对应的站点的领域相关度；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，还包括：对所述步骤S1_4计算得到的各个词项的权值进行归一化处理，得到各个词项的锚文本得分或点击文本得分。

4.根据权利要求3所述的方法，其特征在于，在进行所述归一化处理之后，还包括：将同一站点的同一词项的所述锚文本得分和所述点击文本得分进行线性加权，对各词项的权值进行调整。

5.根据权利要求2所述的方法，其特征在于，还包括对所述站点模型中的各个词项进行同义词扩展，并计算扩展得到的同义词的权值。

6.根据权利要求5所述的方法，其特征在于，所述同义词的权值Ws＝W×Ratio，其中，W是站点中词项的权值，Ratio是所述同义词根据同义词级别确定的系数。

7.根据权利要求1所述的方法，其特征在于，所述步骤S2中在获取用户的搜索词之后，还包括：对获取的搜索词进行分词得到搜索词的词项，计算各个词项的权值，得到搜索词向量；

8.根据权利要求7所述的方法，其特征在于，所述步骤S2中基于词项的倒文档率计算各个词项的权值。

9.根据权利要求1所述的方法，其特征在于，还包括：对所述步骤S2获取的搜索词进行扩展，并计算扩展得到的词项的权值，将扩展得到的词项也用于所述步骤S3进行相关性计算，扩展的方法采用以下所列的至少一种：

根据用户的历史行为，对搜索词进行搜索词变换；

采用预设的需求词列表，对搜索词进行需求词的扩展。

10.根据权利要求1所述的方法，其特征在于，所述步骤S4具体包括：

11.根据权利要求10所述的方法，其特征在于，所述满足预设要求包括：

站点的修正权威值排在前N个，N为预设正整数；

或者，站点的修正权威值大于预设权威值阈值。

12.一种搜索结果的生成装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述站点模型建立模块具体包括：

14.根据权利要求13所述的装置，其特征在于，所述站点模型建立模块还包括归一化单元，用于对所述赋值单元计算得到的各个词项的权值进行归一化处理，得到各个词项的锚文本得分或点击文本得分。

15.根据权利要求14所述的装置，其特征在于，所述站点模型建立模块还包括合并单元，用于将所述归一化单元得到的同一站点的同一词项的所述锚文本得分和所述点击文本得分进行线性加权，对各词项的权值进行调整。

16.根据权利要求13所述的装置，其特征在于，所述站点模型建立模块还包括同义词扩展单元，用于对所述站点模型中的各个词项进行同义词扩展，并计算扩展得到的同义词的权值。

17.根据权利要求16所述的装置，其特征在于，所述同义词的权值Ws＝W×Ratio，其中，W是站点中词项的权值，Ratio是所述同义词根据同义词级别确定的系数。

18.根据权利要求12所述的装置，其特征在于，所述搜索词获取模块包括搜索词分词单元和搜索词赋值单元，

19.根据权利要求18所述的装置，其特征在于，所述搜索词获取模块基于词项的倒文档率计算各个词项的权值。

20.根据权利要求12所述的装置，其特征在于，所述搜索词获取模块还包括搜索词扩展单元，用于对获取的搜索词进行扩展，并计算扩展得到的词项的权值，供给所述相关度计算模块进行相关性计算，扩展的方法采用以下所列的至少一种：

根据用户的历史行为，对搜索词进行搜索词变换；

采用预设的需求词列表，对搜索词进行需求词的扩展。

21.根据权利要求12所述的装置，其特征在于，所述搜索结果生成模块包括权威值确定模块和搜索结果排序模块，

22.根据权利要求20所述的装置，其特征在于，所述满足预设要求包括：

站点的修正权威值排在前N个，N为预设正整数；

或者，站点的修正权威值大于预设权威值阈值。