CN100470549C

CN100470549C - 一种表格定位的数据挖掘方法

Info

Publication number: CN100470549C
Application number: CNB2007100261463A
Authority: CN
Inventors: 丁铖; 肖波
Original assignee: BEIJING XINKAITUO NETWORK TECHNOLOGIES Co Ltd
Current assignee: BEIJING XINKAITUO NETWORK TECHNOLOGIES Co Ltd
Priority date: 2007-08-21
Filing date: 2007-08-21
Publication date: 2009-03-18
Anticipated expiration: 2027-08-21
Also published as: CN101105797A

Abstract

本发明公开了一种表格定位的数据挖掘方法，属计算机科学技术领域。该方法的步骤是：首先为数据源建立格式化模型，再根据数据源格式化模型定位数据表格，最后根据数据表格单元的内容提取数据。搜索引擎可以运用该技术对网页信息进行深入的分析与处理，将其中有用的格式化信息提取出来，并整理到关系数据库表或结构化数据结构中，从而可以引导用户直接获取自己需要的数据，而不需要通过相关查询间接获取数据，极大地减少了用户搜索的时间，提高了数据的利用价值。利用本发明的搜索引擎能够精确提取用户所关心的数据，从而在很大的程度上提升了搜索引擎的用户体验度。

Description

一种表格定位的数据挖掘方法

一、技术领域

本发明属于计算机科学技术领域，具体涉及一种表格定位的数据挖掘方法，其特别适用于搜索引擎中对网页信息进行深入的分析与处理。

二、背景技术

作为一种传统的计算机科学技术，数据挖掘方法广泛运用在计算机互联网，商业金融等社会的方方面面。近年来，以互联网数据挖掘为代表的搜索技术发展迅速，由于需求广泛，商业模式丰富，逐渐形成了影响深远的搜索经济。

在这样的背景下，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的搜索引擎查找资料；作为学者，会把有代表性的搜索引擎作为研究对象。

目前搜索技术最关注的重要性能之一是查准率。顾名思义，查准率表述的是搜索的准确性，即搜索出来的结果与用户所需要的信息是否吻合。

现有主流的搜索引擎都是运用关键字匹配的全文索引技术。在此技术中，搜索引擎将整个网页的内容视为一个字符集合。当用户需要检索信息的时候，用户输入和信息相关的关键字，搜索引擎查找在网页字符集合中是否含有此关键字，如果有，则将整个网页的内容返回给用户。

这种方法的缺点是：在关键字匹配的全文索引技术中，用户只能通过关键字来检索所需信息，由于关键字的信息量有限，搜索引擎本身无法准确地知道用户的搜索需求，从而无法准确返回用户需要的信息。另一方面由于全文索引技术的局限，搜索引擎无法通过搜索到的全文信息提炼出文中真正有价值的关键数据，也无法知道这些数据的实际含义。

目前以全文索引技术为基础的搜索引擎以增加相关的方式来提高用户搜索的准确性需求，用户通过搜索关键字相关的关键字和网页信息来一步步缩小自己的搜索范围，从而最终找到自己需要的数据。然而这种方式往往需要用户具备相当的行业知识和鉴别能力，从而严重影响了搜索引擎的用户体验度。

三、发明内容

本发明的目的是为了克服现有搜索技术查准率较低的现状，通过表格定位的方式将用户真正关心和需要的数据提取出来并加以整理，从而最大程度的提升搜索引擎的用户体验度。

本发明所属的一种表格定位的数据挖掘方法，其特征是：该方法包括以下步骤：

1)为数据源建立格式化模型；

2)根据数据源格式化模型定位数据表格；

3)根据数据表格单元的内容提取数据。

在上述步骤1)中为数据源建立格式化模型，包括以下步骤：

11)将数据源定义为一系列具有编号的数据表格；

12)数据表格编号对应表格在数据源中的位置；

13)将数据表格分解为一系列由表格单元含义到表格单元值的映射。

在步骤13)中映射的形式是行列表或是<含义，值>的组合。

在上述步骤2)中定位数据表格包括根据数据表格编号匹配待挖掘表格。

在上述步骤3中)中提取数据的步骤包括：

31)根据表格单元具体含义和位置匹配待挖掘数据；

32)将匹配到的数据值存放到事先定义好的数据库表格或结构化数据结构中。

本发明提出一种新颖的基于表格定位的数据挖掘方法。和传统的全文索引技术有本质的不同，本发明的核心思想是为数据源(如互联网页)建立格式化模型，即将数据源视为由一系列表格构成，表格之间可以相互嵌套或并列存在。在进行数据挖掘的过程中，首先根据数据源格式化模型定位到用户关心的数据表格，然后根据表格单元的具体含义和位置将其对应的值提取出来，最后将提取出来的数据存放到相应的关系数据库表中以便用户查询。与传统的全文索引技术不同，上述的数据挖掘技术依托数据源格式化模型，精确的提取了用户所关心的数据，没有全文索引过程所带来的检索误差和信息冗余，从而可以引导用户直接获取自己需要的数据。

四、附图说明

图1是数据源格式化的模型；

图2是数据表格的位置(编号)关系示意图；

图3是表格单元的含义和位置(行列号)对应关系表；其中图3—1是传统的行列表，图3—2是<含义，值>的组合对应关系表。

图4是基于表格定位的网络搜索引擎工作流程图；

图5是网页数据流结构示意图。

五、具体实施方式

如图1所示，本发明的第一步为数据源格式化模型的建立。由于数据通常是以异构形式存在的，即相同含义的数据在不同的数据源中通常以不同的形式表现出来。在数据源格式化模型的建立过程中，模型配置人员针对数据源的特点，如数据表格的具体位置，表格单元的具体含义和位置进行人工指定并输入到数据源格式化模型中。

如图2所示，本发明的第二步为根据数据源格式化模型定位数据表格。一旦确立了数据源格式化模型，就可以根据数据源格式化模型中的数据源配置来定位数据表格的具体位置了。数据源格式化模型产生的数据源配置将数据源视为由一系列数据表格构成，数据表格之间可以相互嵌套或并列存在(图2)。在定位过程中，只要得到数据表格的编号，就可以确定数据表格的具体位置了。举个例子，编号为1的数据表格为该数据源的第一张数据表格，编号为1.1的数据表格为该数据源的第一张数据表格内的第一张数据表格，以此类推。

如图3所示，本发明的第三步为根据表格单元含义和位置提取数据。一旦确定了数据表格的位置，就可以根据数据源配置中相应数据表格的表格单元含义和位置来提取具体数据了。数据源配置将数据表格分解为一系列的由表格单元含义到表格单元值的映射，映射的形式可以是传统的行列表(图3—1)，也可以是<含义，值>的组合(图3—2)。在数据提取过程中，只要得到表格单元的含义和位置，就可以将其对应的值存放到事先定义好的关系数据库表格或结构化数据结构中了。举个例子，第一行第一列的单元含义为公司雇员姓名，那么，对应传统行列表方式(图3—1)，第一列从第二行开始为具体的公司雇员的姓名值；对应<含义，值>的组合方式(图3—2)，第一行第二列为具体的公司雇员的姓名值。

图4所示的流程图中，以网络搜索引擎为例说明了根据数据源配置进行表格定位和数据提取的步骤。搜索引擎首先得到数据源位置信息比如网站URL(401)；检查当前网页参数看搜索引擎是否能够处理此网页(402)；如果能够处理，搜索引擎就获取当前网页的数据流(403)；如果不能处理或者该网站的所有网页都已经处理完毕，搜索引擎就更换到下一数据源(413)；在获取网页数据流之后，首先检查当前数据表格配置是否有效比如编号不能越界等等(404)；如果当前数据表格配置无效或者该网页的所有数据表格配置都已经处理完毕，搜索引擎就更换到下一网页(412)；如果当前数据表格配置有效，搜索引擎就开始进一步做数据挖掘，如图5所示，首先将网页数据流中的当前表格号递加(根据HTML编码，网页表格以<table>开始，以</table>结束，在一对<table></table>中的内容视为拥有同一表格号)(405)；将得到的表格号和数据源配置中的数据表格号比较(406)；如果不符合，搜索引擎就继续对网页数据流中的当前表格号递加(405)；如果符合，搜索引擎就继续进一步做数据挖掘，如图5所示，首先将表格中的当前行列号递加(根据HTML编码，网页行以<tr>开始，以</tr>结束，在一对<tr></tr>中的内容视为拥有同一行号，网页列以<td>开始，以</td>结束，在一对<td></td>中的内容视为拥有同一列号)(407)；将得到的行列号和数据源配置中的表格单元位置比较(408)；如果不符合，搜索引擎就继续对表格中的当前行列号递加(407)；如果符合，搜索引擎就做数据提取，即将行列号所对应的表格单元含义以及值存放到事先定义好的关系数据库表格或结构化数据结构中(409)；在传统的行列表模式中，有时还要对行列号进行(临时)步进，以得到后继表格单元值(410)；搜索引擎接下来判断表格是否结束(411)；如果没有结束，搜索引擎就继续对表格中的当前行列号递加(407)；如果结束，搜索引擎就更换到下一数据表格配置(414)。

搜索引擎可以运用该技术对网页信息进行深入的分析与处理，将其中有用的格式化信息提取出来，并整理到关系数据库表或结构化数据结构中。搜索引擎对于这些数据的实际含义非常清楚，从而可以引导用户直接获取自己需要的数据，而不需要通过相关查询间接获取数据，极大地减少了用户搜索的时间，提高了数据的利用价值。利用本发明的搜索引擎能够精确提取用户所关心的数据，从而在很大的程度上提升了搜索引擎的用户体验度。

Claims

1、一种表格定位的数据挖掘方法，其特征是：该方法包括以下步骤：

1)为数据源建立格式化模型，包括

11)将数据源定义为一系列具有编号的数据表格；

12)数据表格编号对应表格在数据源中的位置；

13)将数据表格分解为一系列由表格单元含义到表格单元值的映射；

2)根据数据源格式化模型定位数据表格，包括根据所述模型中的数据源配置中的数据表格编号匹配数据源，具体是：首先将网页数据流中的当前表格号递加；将得到的表格号和数据源配置中的数据表格号比较；如果不符合，搜索引擎就继续对网页数据流中的当前表格号递加；如果符合，搜索引擎就继续进一步做数据挖掘，首先将网页数据流中的当前表格中的当前行列号递加，将得到的行列号和数据源配置中的表格单元位置比较；如果不符合，搜索引擎就继续对网页数据流中的当前表格中的当前行列号递加；如果符合，搜索引擎就做数据提取；

3)根据网页数据流中的表格单元的内容提取数据。

2、权利要求1所述的表格定位的数据挖掘方法，其特征是：步骤13)中映射的形式是行列表或是<含义，值>的组合。