CN101231661B

CN101231661B - 对象级知识挖掘的方法和系统

Info

Publication number: CN101231661B
Application number: CN2008100336873A
Authority: CN
Inventors: 张效海; 虞继恩
Original assignee: SHANGHAI GUJIA NETWORK SCI-TECH Co Ltd
Current assignee: SHANGHAI GUJIA NETWORK SCI-TECH Co Ltd
Priority date: 2008-02-19
Filing date: 2008-02-19
Publication date: 2010-06-23
Anticipated expiration: 2028-02-19
Also published as: CN101231661A

Abstract

本发明公开了一种对象级知识挖掘系统，包括：数据采集模块，用于采集数据，包括一个WEB抓取器；数据清洗模块，用于对结构化数据进行处理，包括一个数据验证模块以及一个去重处理模块；内容预处理模块，用于对非结构化数据进行预处理，包括一个元数据管理模块以及一个内容解析器；对象相关搜索模块，用于分析该内容预处理模块处理后的内容的相关度，包括一个相关度分析器。以及一种对象级知识挖掘方法，包括：从网页采集信息；对于采集到的结构化数据，执行数据清洗处理；对于采集到的非结构化数据，执行内容预处理操作；预处理后得到的内容，再执行对象相关搜索操作。

Description

对象级知识挖掘的方法和系统

技术领域

本发明涉及计算机网络技术，特别是一种基于互联网信息的对象级知识挖掘的方法和系统。

背景技术

随着互联网的发展，各种信息以爆炸式地增加，如果通过人为的方式来获取有用的信息将非常困难，因此如何从这些海量的信息中获取所需要的内容并能够把这些内容以有用的知识呈现将会成为一种很重要的关键点，这样就能避免淹没在信息爆炸中。

当前搜索引擎所做的只是全文搜索，它仅仅提供了一大堆的信息，但没有形成一种有用的知识，因此用户需要在搜索结果中根据自己的知识背景来查找出哪些信息是有用的。为了更加深入的了解某个信息的相关性，也需要用户自己来进行分析。比如用户为了获取万邦都市花园的信息，他在搜索引擎中获得的结果有很多，而且大部分都是类似的信息，他真正想要的关于这个小区的某些对象级别的详细信息(比如这个小区建立时间，位置，目前房源数)以及这个小区内有什么特殊性、有什么动迁之类的此对象的相关信息，他不能直接从这个搜索结果中获得。

发明内容

本发明的第一个目的就在于提供一种对象级知识挖掘系统，以帮助用户在海量信息中找到其所要查找的对象的各种详细信息并整理出此对象的有用的相关信息。

本发明的第二个目的就在于提供一种对象级知识挖掘方法。

本发明的对象级知识挖掘系统，包括：

数据采集模块，用于采集数据，包括一个WEB抓取器，用于抓取web网页；

数据清洗模块，用于对结构化数据进行处理，包括一个数据验证模块，用于验证数据的正确性，以及一个去重处理模块，用于去除重复的数据；

内容预处理模块，用于对非结构化数据进行预处理，包括一个元数据管理模块，设有至少一个预先设定的元数据信息，以及一个内容解析器，用于解析出相关内容；

对象相关搜索模块，用于分析该内容预处理模块处理后的内容的相关度，包括一个相关度分析器。

本发明的对象级知识挖掘方法，包括：

从网页采集信息；

对于采集到的结构化数据，执行数据清洗处理；

对于采集到的非结构化数据，执行内容预处理操作；

预处理后得到的内容，再执行对象相关搜索操作。

本发明的积极进步效果在于：能够快速地处理互联网上已经存在的海量信息，然后从中建立相关的对象模型，并可以灵活地以不同方式来对这些对象进行挖掘，以建立出对用户有用的知识，实现从信息到知识的转变。

附图说明

图1为本发明中系统的框图。

图2为本发明中方法的高层流程图。

具体实施方式

如图1所示，一种对象级知识挖掘系统，包括数据采集模块100，用于从互联网上收集信息，其包括：WEB抓取器110，数据适配器120和数据转换器130。

其中，所述WEB抓取器110从预定义的URL列表中获取需要的网页，然后从所获取的网页中获取相关信息组成对象。

通常，在一般网页抓取器中只能定义一下要抓取的列表，然后根据这些列表直接就把这些网页列表中的内容以源代码方式抓取下来，因此普通的网页抓取器存在如下两个问题：1.用户需要的信息可能位于多个相关网页中；2.无法从网页中获取相关信息组成用户需要的对象内容，去除无关的信息。

而根据本发明的WEB抓取器110根据预先定义的网页分类规则对网页进行分类。作为示例，网页可分为连接页和内容页，如可以把类似如下的URLhttp://ershoufang.goojia.com/search/-------------------------house.html设定为链接页，而把类似http://ershoufang.goojia.com/ershoufang-xinxi-2598812的网页设定为内容页。一般说来，链接页一般是包含了用户需要抓取网页的链接，为了便于理解，可以把链接页看成是到达内容页的一个导航页，而内容页则指明了在该页面中含有用户需要的信息。

如果是链接页，则取出所有符合要求的链接，然后再根据这些链接去获得相关网页内容；如果是内容页，则直接取得网页内容。

在取得网页的内容之后，由于用户需要的信息以非结构化的文本内容显示在网页上，而对于后期的数据处理和分析则需要从这些网页中抽取出相关的内容并组成一个对象来进行后期数据处理。

由于每个网页的格式千变万化，用一般的字符串匹配方式很难有通用性，也不能从中获得所有用户想要的内容，为了把网页上的内容结构化，在本公开中提供了这4种结构化规则，具体使用方式依赖于不同的网页和想要获得的内容，对于本领域的一般技术人员是显而易见的。

所述的规则包括：

1、正则表达式

正则表达式是软件开发中的一个规范技术术语，我们可以使用它来定义我们的规则，它主要是定义的匹配规则。

例如；比如我们要抽取房源地址，HTML源码为

<td class＝″fytblt″>地址：</td><td class＝″fytblb″>报春路862弄</td>，

那么映射为：

ADDRESS＝{$1}地址：</td>\s*<[^>]*>([^<]*)</td>，就是取出“报春路862弄”这一信息。

在本发明的实现中，包括至少一个正则表达式。正则表达式具体的数量和匹配定义依赖于具体的应用环境和本发明的具体实现，但是本领域的技术人员依照本说明书的教导结合现有技术，根据具体应用可建立一个或者一组正则表达式。

对于大部分网页，这个规则都能适用，但如果某些对象属性的获取需要根据不同的判断条件以及循环条件等复杂的逻辑判断才能得出的匹配规则的话，则正则表达式就不适用，需要“动态Java脚本”来实现。

2、动态Java脚本

当使用正则表达式无法取出数据的时候，我们会把当前页面的源代码交给动态java脚本去解析，以编程的方式来获得网页上的内容。

动态Java脚本本身就是一段类似JAVA语言的代码，可以在里面实现比较复杂的判断、循环等操作，其实现手段是JAVA代码。其中关于JAVA语言和JAVA编程技术为公知技术。对于处理源代码的方法，本领域的技术人员可依照现有技术的教导，根据本发明的具体应用环境编写出相应的JAVA脚本。

作为示例，比如可以配置如下的脚本从原始页面中获取www.51ditu.com网站的标点的详细页面地址：

import org.apache.commons.lang.StringUtils；

import java.util.regex.Matcher；

import java.util.regex.Pattern；

String name ＝STEP.getThreadAttribute( ″DISTRICT_NAME″，String.class)；

String compareName ＝StringUtils.substringBetween(PAGE_SOURCE，″href＝\

″javascript:void(0)；\″>″，″</a></b>″)；

if(name.equals(compareName)){

String regex＝″\\d*∧\d*/(\\d*)″；

Pattern p＝Pattern.compile(regex)；

Matcher m＝p.matcher(PAGE_SOURCE)；

m.find()；

return ″http://www.51ditu.com/p？id＝″+m.group(1)；

}

else

return ″″；

3、如果当前页面是由父页面生成出来的时候，父页面如果已经有解析出来的信息单元的时候，子页面就可以通过表达式：${父页面信息单元名}取出数据，即父子页面继承。作为说明性的例子，比如我们想要获得某个房源的联系电话，但在打开的房源页面中里面没有具体的中介联系电话，要获得这个房子的联系电话，用户需要在这个房源页面中再次点击联系电话这个链接才能获得这个房子的联系电话，在这里房源页面就是“父页面”，而“子页面”就是那个联系电话的页面。

4、可将关于网页的并且与网页内容无关的信息设置为常量，常量是根据需要具体设定的，比如我们可能需要保存这个对象是什么时候创建的，因此可以定义$now这个常量，这样每次当生成这个对象时就会把当前时间存放进这个对象的属性中。

在具体执行抓取时，由于单机抓取速度无法提升，可以采用分布式抓取。使用一个服务器(未示)来定义结构化规则，和网站入口地址(Root URL)。服务器把入口URL和URL对应的结构化规则，发送给多个客户端，客户端开启抓取流程。当其中一个客户端抓取完毕的时发送已空闲命令，服务器又会把其他网站的抓取信息发送给客户端。当服务器未接受到空闲命令的时候，将一直等待。在这里，服务器负责所有的抓取调度，当某个客户端空闲时，服务器就把相关的要抓取的URL发给客户端去执行抓取。

比如我们要抓取http://www.google.cn上的ICP号，对应正则就是(ICP[^<]*)。

比如要抓取一个网站的房源数据，那房源列表页面的URL就是抓取入口URL。

比如有些页面是分页的，有第一页，第二页等，则遍历这些页码，将其设为链接类型，把这些相关的页码的链接放入抓取队列中，然后由服务器把这些链接分配到各个客户端上而抓取。

服务器把结构规则，网站入口URL和信息单元集合存放方式一并发送给抓取客户端，客户端就会完成抓取，并且保存数据到指定地方。所述“信息单元集合存放方式”是通知抓取客户端把抓取下来的内容存储在何种数据库，比如存放到access数据库或者sqlserver数据库。

为了获取更多的数据，提供一个数据适配器120和一个数据转换器130。数据适配器120用于将来自不同系统的数据导入本发明的系统中。而数据转换器130用于将不同的数据格式转换为根据本发明的系统使用的格式。在具体的应用中，本领域的一般技术人员依照现有技术的教导可容易地实现数据适配器120和数据转换器130。

经过上述采集过程，所获得数据中包括结构化数据和非结构化数据，其中结构化数据发送给数据清洗模块200处理，非结构化数据发送给内容预处理模块300处理。

所述的结构化数据是指在获取的网页信息中包含的可以归于某一类的数据，如名称，地址等。

所述非结构化数据是指在获取的网页信息中包含的内容无法具体分类的数据，如用户评论，相关新闻等。

由于从互联网上收集到的数据信息各种各样，有些数据可能会由于某些信息提供者的笔误提供了错误的数据，或者某些信息会在很多网站上重复出现同样的信息，对于结构化数据，在数据清洗模块200验证数据的正确性并对重复的数据做去除处理，其包括数据验证模块210，用于验证数据的准确性，以及去重处理模块220，用于去除重复的数据。

根据现有技术的教导，本领域的技术人员可以得到该数据清洗模块200，以及验证数据准确性和去处重复数据的方法。

对于非结构数据，比如用户的评论信息，某些相关新闻信息等。这些信息可能是一些对用户所关注的内容相关度很高的信息。因此在内容预处理模块300中包含元数据管理模块310，其中定义至少一个元数据信息，然后通过内容解析器320从非结构数据中，抽取出相关的内容。

其中所述的元数据信息是预先设定的与抓取的内容相关的信息，比如新闻信息中可能有新闻来源，新闻日期，新闻分类等。为了便于理解，可以将这些元数据信息看成多个关于某个内容的关键字。如果抓取的内容中包括这些关键字或者与关键字有关的内容，则认为是相关的内容。这些元数据信息是根据具体的应用而设定的。

其中，内容解析器320可由本领域的一般技术人员依照现有技术的教导和具体应用而得到。作为例子，目前对于新闻类内容通过分析大段文字特殊性来进行的，比如如果抓取到的网页中有很多标点符号，而且这些标点符号出现的频率很高，则可以认为这个网页中存在大段的文字信息，然后根据标点符号出现的频率最高的地方把这些文字抽取出来就成为新闻内容。

在获得了原始的内容之后，需要对这些内容从来源、重要性分类、词间据等方式进行评级并进行匹配，以选择出同用户搜索最相关的内容。

如图1所示，经过预处理模块300处理后得到的有效内容作为对象相关搜索模块400的输入，在该对象相关搜索模块400包含一个相关度分析器410，其中含有至少一个关键字信息，并且该关键字信息具有对应的分值，根据具体应用环境，所述分值可以为负值。计算每个关键字出现次数，累计分值，然后将所有出现的关键字的分值累加则得到内容的相关度分值。设定一个门限值，将相关度分值与该门限值进行对比，如果该相关度分值大于门限值，则将该内容作为与目标相关的内容，用于其他的处理。例如，作为在本发明之外的分析模型的输入。

如图2所示，一种对象级知识挖掘方法500，首先根据需要的内容从网页采集信息(步骤510)，其中将网页分类抓取其中的内容，并且通过4种结构化规则将获取内容对象。其中抓取的方式可以采用分布式方式进行，即如前所述利用至少一台服务器和至少一个客户端分别执行抓取过程的不同阶段。对于采集到的结构化数据，执行数据清洗处理(步骤540)，包括验证数据正确性和去除其中重复的数据。

对于采集到的非结构化数据，执行内容预处理操作(步骤520)，利用如前所述的预设的至少一个元数据信息判断内容是否相关，并解析出相关内容。

预处理后得到的内容，再执行对象相关搜索操作，使用如上所述的预设的关键字与待处理内容对比，根据关键字以及出现的频次计算该内容的相关度分值，并与所述的预设的门限值比较。如果该相关度分值大于门限值，则将该内容作为与目标相关的内容，用于其他的处理。

作为例子，以小区新闻作为对象执行上面的操作。应当注意的是，这个例子仅仅是说明性的，并不是为了限制，凡是非结构化的内容，都可以用这种方式进行，比如论坛中用户发表的言论。

过程如下：

一、拿到百度和谷歌的新闻搜索入口地址

i、百度新闻入口地址：

http://news.baidu.com/ns？word＝％CC％C0％B3％BC％D2％B

B％C6％B7&tn＝news&from＝news&ie＝gb2312&bs＝％CC％C0

％B3％BC％BA％C0％D4％B0&sr＝0&cl＝2&rn＝20&ct＝0

那word＝％CC％C0％B3％BC％D2％BB％C6％B7和

bs＝％CC％C0％B3％BC％BA％C0％D4％B0

中的word和bs就是我们需要填入的关键字，而这个关键字需要经过URL编码(GBK)。

ii、谷歌新闻入口地址：

http://news.google.cn/news？hl＝zh-CN&ned＝ccn&q＝％E6％B

1％A4％E8％87％A3％E4％B8％80％E5％93％81&btnG＝％E6％9

0％9C％E7％B4％A2％E8％B5％84％E8％AE％AF

那

q＝％E6％B1％A4％E8％87％A3％E4％B8％80％E5％93％81中的q就是我们需要填入的搜索关键字。

二、小区搜索关键字库的准备

i、由于小区的特殊原因，其中小区名就是小区的搜索关键字。

三、把小区搜索关键字和新闻搜索入口地址组合，获取新闻信息。

i、也就是把小区搜索关键字按照搜索引擎的编码要求，填入到搜索入口地址关键字。

ii、最后通过爬虫，去爬取搜索结果列表。抓取新闻的标题，新闻发布时间，新闻来源，新闻摘要，新闻正文地址。

iii、通过新闻正文地址，再抓取新闻正文。

四、正文抽取

i、出于新闻有其特有的属性，比如汉字表较集中，这样就会出来标点的密集度。

ii、因为在网页显示页面，其它地方不会出现比正文还多的标点符号，即使有也是少数。(在这里所说的标点是：[，。！；，]5个标点)。

iii、抓取到显示新闻网页的源代码，去除源代码中如下内容：

1、<！--.*？-->去除所有HTML注释；

2、<script[^>]*>.*？</script>去除所有JavaScript脚本；

3、<style[^>]*>.*？</style>去除所有CSS样式代码；

4、<a[^>]*>(.*？)</a>去除超链接，留下超链接中的内容；

(&[a-zA-Z]{2，}；去除HTML实体；

iiii、通过频繁的标点符号的之间的字符间距阀值测试，设定成200为最优的阀值。

比如两个句子，两句子结束标点的之间包含的字符数量就叫做阀值。

五、新闻相关度得分关键字库

i、由于小区的新闻有他的特殊的关键字，我们把关键字分为2类：

1、公共关键字

就是地区，小区公有的关键字。

比如抓的是上海的小区新闻，那么上海就是公有关键字，比如业主。这样的关键字是被计入加分关键字的。

那么相反的，其他城市或者省份也会加入关键字，但是他的分值是负分。且扣分不计次数，出现一次扣一次。

2、特有关键字

特有关键字：小区名，这个必须包含。如果不包含，这个新闻直接计算成负分。

小区所在的区域，板块，这些都会被计入加分。

外省小区的同名，但是特有关键字为该省或城市的特有街道，公路啊，直接计为负分。

3、段落得分

比如小区名出现在新闻正文的第一段或尾段，我们会给予更多的分，比如分值乘以2。段落分值可以任意定义。

六、计算新闻相关度得分

先把文章进行分段。接着把所有关键所在的段落和出现位置全部记录下来。新闻总分为＝关键字段落得分+关键字出现次数得分。

七、新闻分类关键字库和新闻分类得分同新闻相关度得分

分类得分计算必须计算每个分类所在的关键字和段落所在的总得分。

八、新闻分类

给新闻的分类设定一个阀值，如果大于等于该阀值，那这个新闻就被归属到该类的新闻。

九、设定新闻发布的阀值为大于等于0分，就是新闻得分大于0的都会发布到网站上去。

虽然上面描述了本发明的具体例子，但是根据本发明的教导可以有多种修改很变化，均在本发明的范围之内。上面描述的许多具体细节仅仅作为例子，而不是对本发明的限制。

Claims

1.一种对象级知识挖掘方法，包括：

从网页采集信息，包括将网页分类抓取其中的内容，其中网页分为链接页和内容页；使用四种结构化规则获取内容，包括正则表达式、动态Java脚本、父子页面继承和常量；

对于采集到的结构化数据，执行数据清洗处理：

对于采集到的非结构化数据，执行内容预处理操作；

预处理后得到的内容，再执行对象相关搜索操作；

其中抓取的方式采用分布式方式进行，利用至少一台服务器和至少一个客户端分别执行抓取过程的不同阶段，服务器把入口URL和URL对应的结构化规则，发送给多个客户端，客户端开启抓取流程，当其中一个客户端抓取完毕时发送已空闲命令，服务器又会把其他网站的抓取信息发送给客户端，当服务器未接受到空闲命令的时候，将一直等待。

2.根据权利要求1所述的方法，其特征是所述数据清洗处理，包括验证数据的正确性以及去除重复的数据。

3.根据权利要求2所述的方法，其特征是所述内容预处理操作利用预设的至少一个元数据信息判断内容是否相关，并解析出相关内容。

4.根据权利要求3所述的方法，其特征是所述元数据信息是预先设定的与抓取的内容相关的信息。

5.根据权利要求4所述的方法，其特征是所述对象相关搜索处理使用预设的关键字与待处理内容对比，根据关键字以及出现的频次计算该内容的相关度分值，并与预设的门限值比较。