CN103257975A

CN103257975A - 一种搜索方法、装置及系统

Info

Publication number: CN103257975A
Application number: CN 201210039526
Authority: CN
Inventors: 高得恩; 高一波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2012-02-21
Filing date: 2012-02-21
Publication date: 2013-08-21

Abstract

本发明适用于网络搜索领域，提供了一种搜索方法、装置及系统，所述方法包括：在预设类型的网站中获取特定信息类别的网页数据，并将所述网页数据转化为结构化数据后保存；根据用户提供的搜索条件，展示与所述搜索条件匹配的结构化数据。本发明通过在预设类型的网站中获取特定信息类别的网页数据，并将获取到的网页数据结构化并以索引形式存储，从而在用户进行搜索的时候，能够根据用户提供的搜索条件直接展示与该搜索条件相匹配的、特定信息类别的结构化数据，直观、有序且有针对性地为用户提供特定信息搜索服务。

Description

一种搜索方法、装置及系统

技术领域

本发明属于网络搜索领域，尤其涉及一种搜索方法、装置及系统。

背景技术

现有的搜索引擎大多是通用的搜索引擎，其抓取所有领域类别的网页，因此在用户给出搜索条件之后，其相应的搜索结果涉及范围较广，且大多直接以网页链接的形式提供给用户。

而在实际的搜索行为中，用户往往有一些特定信息的搜索需求，例如，对于准备攻读研究生的学生而言，在其准备过程中，需要大量查阅相关研究领域的教授的个人信息，以确定报考对象；对于科研人员来说，需要经常查找与其研究方向相符的科研人才信息，以便进行学术交流。仅以搜索科研人才信息为例，假如在现有的搜索引擎中搜索“信号处理”，试图查找到信号处理领域的专业科研人才，然而，现有的搜索引擎给出的结果大多为有关“信号处理”的名词解释、专业书籍等，有关该领域的科研人才信息却很难在排序靠前的搜索结果中进行显示，即使给出了相符的搜索结果，也需要用户自己打开网页进一步定位所需要的信息，搜索结果无针对性且不直观。

发明内容

本发明实施例的目的在于提供一种搜索方法，旨在解决现有的搜索引擎当遇到用户的特定信息搜索需求时，搜索结果无针对性且不直观的问题。

本发明实施例是这样实现的，一种搜索方法，所述方法包括：

在预设类型的网站中获取特定信息类别的网页数据，并将所述网页数据转化为结构化数据后保存；

根据用户提供的搜索条件，展示与所述搜索条件匹配的结构化数据。

本发明实施例的另一目的在于提供一种搜索装置，所述装置包括：

搜索数据库，用于在预设类型的网站中获取特定信息类别的网页数据，并将所述网页数据转化为结构化数据后保存；

展示模块，用于根据用户提供的搜索条件，展示与所述搜索条件匹配的结构化数据。

本发明实施例的另一目的在于提供一种搜索系统，所述系统包括如上所述的搜索装置。

本发明实施例通过在预设类型的网站中获取特定信息类别的网页数据，并将获取到的网页数据结构化并以索引形式存储，从而在用户进行搜索的时候，能够根据用户提供的搜索条件直接展示与该搜索条件相匹配的、特定信息类别的结构化数据，直观、有序且有针对性地为用户提供特定信息搜索服务。

附图说明

图1是本发明第一实施例提供的搜索方法的实现流程图；

图2是本发明第二实施例提供的获取特定信息类别网页数据的实现流程图；

图3是本发明第三实施例提供的获取特定信息类别网页数据的较佳实施方式的实现流程图；

图4是本发明第三实施例提供的DOM-tree示例图；

图5是本发明第四实施例提供的搜索装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在以下所述的本发明实施例中，为了便于说明，均以科研人才信息的搜索需求为例进行说明，但本发明实施例的应用范围包括但不限于科研人才信息搜索，也可以是招聘信息搜索、商品信息搜索等，在此不作限定。

图1示出了本发明第一实施例提供的搜索方法的实现流程，详述如下：

在步骤S101中，在预设类型的网站中获取特定信息类别的网页数据，并将所述网页数据转化为结构化数据后保存。

在本发明实施例中，由于针对的是用户有关特定信息类别的搜索需求，对于搜索结果与用户搜索意向的贴合度要求较高，因此，针对某一特定信息类别建立用于匹配搜索结果的结构化数据索引，首先要将进行网页抓取的网站范围进行限定。例如，针对科研人才信息，预设类型的网站为各高校及各科研机构网站，且特定信息类别的网页数据自然为此类网站中的教职员或者研究人员个人信息。

在预设类型的网站中获取特定信息类别的网页数据的具体实现过程将在后述实施例中详细说明，再此不赘述。

当获取到需要的网页数据之后，通过将获取到的网页数据结构化并以索引方式存入相应的数据库，即完成了对该搜索引擎索引系统的构建。

所述结构化的数据优选是对所述的网页数据的按照基本类目进行信息分类整理得出信息列表或表格。

例如，针对获取到的科研人才信息的网页数据，结构化后的数据可以以如下二维表的形式进行存储：

表1

在步骤S102中，根据用户提供的搜索条件，展示与所述搜索条件匹配的结构化数据。

在本实施例中，根据用户提供的搜索条件，在索引系统中将结构化数据与该搜索条件进行匹配，并读取出匹配的结构化数据进行展示，使得用户能够直观地查看到搜索结果。

优选地，在对匹配的结构化数据进行展示时，可以将需要展示的结构化数据按某个索引关键字进行排序。例如，针对科研人才信息的搜索结构，可以按关键字“地域”进行排序，也可以按搜索出的人才信息的姓名的首字母进行排序，在此不作限定。

在本实施例中，针对特定信息类别的搜索需求，通过限定进行网页抓取的网站类型并将抓取到的相关网页数据结构化，使得有特定信息类别搜索需求的用户在进行搜索时能够直观地查看到有针对性的搜索结果，大大提高了用户体验。

图2示出了本发明第二实施例提供的搜索方法的实现流程，本实施例是对本发明第一实施例步骤S101的详细说明：

在步骤S201中，以预设网站的根统一资源定位符(uniform resourcelocation，URL)为起点，爬取并过滤出目标页面，所述目标页面为包含特定信息类别的网页数据的网页。

在本实施例中，通过预设基于内容的过滤规则来确定目标页面，而过滤规则包括：

(1)检测页面主体内容是否包含特定的关键词，而特定的关键词可以为通过预先学习标注过的目标页面集合而得到的共同出现的高频词，比如researchinterests，research area，publications都是学术人物个人页面所特有的关键词；

(2)检测页面title的属性是否包含领域词。比如，一般页面title的属性为人名则更可能被认为是个人页面，该过滤规则的生成需要结合领域特定词表的帮助，比如人名词表；

(3)检测URL的字符串是否包含领域词。比如，一般页面URL字符串包含人名则更可能被认为是个人页面，该过滤规则需要结合领域特定词表的帮助，比如人名词表。

经过过滤规则对网站页面进行过滤，赋予得分，得到过滤权重，若大于一定阀值则认为是目标页面。

例如针对科研人才信息在各高校及科研机构的网站中进行爬取，所过滤出的目标页面即为上述网站中的教职员或者研究人员的个人页面，这些个人页面中显然包含了有关科研人才信息的网页数据。

在步骤S202中，在所述目标页面中检测并抽取特定信息类别的网页数据。

在本实施例中，通过过滤出目标页面并进一步抽取出特定信息类别的网页数据，使得用于提供搜索结果的网页数据能够更加贴合用户的搜索意向，使得搜索结果更具备针对性。

为了更加简化本发明第二实施例提供的数据抽取流程，对于目标页面中特定信息的抽取基于网页结构的聚合相似性，即对相同网站下网页结构相似的网页集合采用相同的抽取规则，抽取规则通过预先学习不同网站的网页集生成。图3示出了本发明第三实施例提供的搜索方法的实现流程，其是步骤S202的较佳实施方式，具体实现流程详述如下：

在步骤S301中，分别获取所述目标页面的URL和文档对象化模型树(document object model-tree，DOM-tree)。

在本实施例中，通过解析目标页面，能够得到如图4所示的DOM-tree，其清楚、直观地描述了目标页面的树状结构。

在步骤S302中，对于URL及DOM-tree均相互匹配的目标页面，在第一目标页面中检测并抽取特定信息类别的网页数据，并保存所述网页数据在该DOM-tree中的位置，同时根据保存的位置抽取与该URL和DOM-tree均相互匹配的其他目标页面的网页数据，重复本步骤直至抽取完所有目标页面的网页数据。

在本实施例中，对于每个目标页面所获取到的URL和DOM-tree，会出现若干个目标页面的URL以及DOM-tree均相互匹配的情况，例如，在同一个高校网站下，其教师个人主页的URL及网页结构基本是相同的，因此这些个人主页的DOM-tree也是相互匹配的，对于这些URL及DOM-tree均相互匹配的目标页面，通常来说，特定信息类别的网页数据在其页面中出现的位置也是固定的，因此，能够通过URL与DOM-tree的匹配性来直接抽取出的网页数据在目标页面中的位置。

具体地，在考察目标页面的URL以及DOM-tree是否均相互匹配时，可以将目标页面的URL和DOM-tree同其他目标页面的URL和DOM-tree作比较，并计算URL的相似度与DOM-tree的编辑距离(即计算两个DOM-tree字符串之间的相似程度)的值，计算结果在一定阈值内的目标页面被认为是与其比较的目标页面相匹配，即可以使用与其比较的目标页面的信息抽取规则进行信息抽取，否则进行新的信息抽取规则学习。

当需要对新规则进行学习时，首先对网页进行去噪处理，剩下网页的主题内容。对主题内容进行自然语言处理，包括分词，词义标注，命名实体识别和目标实体抽取，同时，记录目标实体所在Dom-tree的最小节点的位置信息。生成键值对形式的抽取规则，例如<目标实体名，Dom-tree节点信息>的规则。如<“research interests”，root/div[3]/p/textNode>规则表明research interests在网页结构Dom-tree的位置信息是root/div[3]/p/textNode。

而当检测到网页在规则库拥有相应的抽取规则时，利用抽取规则的目标实体位置信息定位抽取位置，再对抽取位置进行自然语言处理，包括分词，词性标注，目标实体识别提取。这种利用网页结构特点的方式适应网页结构的变化特点，利用结构特点做信息抽取的定位作用，在局部的文本中使用自然语言处理技术，不必每次采用低效自然语言技术对整个网页大量文本处理，只需要在局部小文本中进行，提高了信息抽取的效率和精度。

作为本发明的一个优选实施例，在步骤S301中，可以基于关键字来确定目标页面的最小DOM-tree，以更加精确地对相似页面进行匹配，提高特定信息类别的网页数据的抽取效率。基于关键字确定目标最小Dom-tree的原理是迭代查找Dom-tree中包含目标命名实体的最小子树。最小子树定位了目标信息的位置和范围，作为信息抽取的定位分隔参考。

图5示出了本发明第四实施例提供的搜索装置的结构，为了便于说明，仅示出了与本实施例相关的部分。

如图5所示，该搜索装置可以运行于例如网页搜索、人才信息搜索等搜索系统中，包括：

搜索数据库51，在预设类型的网站中获取特定信息类别的网页数据，并将所述网页数据转化为结构化数据后保存。

展示模块52，根据用户提供的搜索条件，展示与所述搜索条件匹配的结构化数据。

其中，搜索数据库51包括：

目标页面过滤模块511，以预设类型的网站的根统一资源定位符URL为起点，爬取并过滤出目标页面，所述目标页面为包含特定信息类别的网页数据的网页。

数据抽取模块512，在所述目标页面中检测并抽取特定信息类别的网页数据。

而具体地，数据抽取模块512包括：

URL及DOM-tree获取子模块5121，分别获取所述目标页面的URL和文档对象化模型树DOM-tree。

抽取子模块5122，对于URL和DOM-tree均相互匹配的目标页面，在第一目标页面中检测并抽取特定信息类别的网页数据，并保存所述网页数据在该DOM-tree中的位置，同时根据保存的位置抽取与该DOM-tree相互匹配的其他目标页面的网页数据，重复本步骤直至抽取完所有目标页面的网页数据。

还包括：

匹配子模块5123，计算两个目标页面之间的URL相似度及DOM-tree的编辑距离值，若计算结果在一定阈值内，则所述两个目标页面匹配。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种搜索方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述在预设类型的网站中获取特定信息类别的网页数据的步骤具体包括：

以预设类型的网站的根统一资源定位符URL为起点，爬取并过滤出目标页面，所述目标页面为包含特定信息类别的网页数据的网页；

在所述目标页面中检测并抽取特定信息类别的网页数据。

3.如权利要求2所述的方法，其特征在于，所述在目标页面中检测并抽取特定信息类别的网页数据的步骤具体包括：

分别获取所述目标页面的URL和文档对象化模型树DOM-tree；

对于URL和DOM-tree均相互匹配的目标页面，在第一目标页面中检测并抽取特定信息类别的网页数据，并保存所述网页数据在该DOM-tree中的位置，同时根据保存的位置抽取与该DOM-tree相互匹配的其他目标页面的网页数据，重复本步骤直至抽取完所有目标页面的网页数据。

4.如权利要求3所述的方法，其特征在于，在所述分别获取所述目标页面的URL和DOM-tree的步骤之后，所述方法还包括：

计算两个目标页面之间的URL相似度及DOM-tree的编辑距离值，若计算结果在一定阈值内，则所述两个目标页面匹配。

5.一种搜索引擎，其特征在于，所述引擎采取权利要求1-4任一项所述的方法进行搜索。

6.一种搜索装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述搜索数据库包括：

目标页面过滤模块，用于以预设类型的网站的根统一资源定位符URL为起点，爬取并过滤出目标页面，所述目标页面为包含特定信息类别的网页数据的网页；

数据抽取模块，用于在所述目标页面中检测并抽取特定信息类别的网页数据。

8.如权利要求7所述的方法，其特征在于，所述数据抽取模块包括：

URL及DOM-tree获取子模块，用于分别获取所述目标页面的URL和文档对象化模型树DOM-tree；

抽取子模块，用于对于URL和DOM-tree均相互匹配的目标页面，在第一目标页面中检测并抽取特定信息类别的网页数据，并保存所述网页数据在该DOM-tree中的位置，同时根据保存的位置抽取与该DOM-tree相互匹配的其他目标页面的网页数据，重复本步骤直至抽取完所有目标页面的网页数据。

9.如权利要求8所述的方法，其特征在于，所述数据抽取模块还包括：

匹配子模块，用于计算两个目标页面之间的URL相似度及DOM-tree的编辑距离值，若计算结果在一定阈值内，则所述两个目标页面匹配。

10.一种搜索系统，其特征在于，所述系统包括如权利要求6-9任一项所述的搜索装置。