CN102890704A

CN102890704A - 一种在线更新兴趣信息的采集方法

Info

Publication number: CN102890704A
Application number: CN 201210266647
Authority: CN
Inventors: 万金朋
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-07-31
Filing date: 2012-07-31
Publication date: 2013-01-23

Abstract

本发明涉及一种在线更新兴趣信息的采集方法，主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成；兴趣点挖掘中采用字符串对比算法，将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比，获取到网页更新的内容。本发明使订阅者在不进行海量网址搜索的情况下，实时掌握感兴趣的WEB信息，减少投标企业进行招投标进行信息搜索时的工作量，使更多的优秀供应商参与到招投标工作中来，使招投标工作更加公正、公开、透明。

Description

一种在线更新兴趣信息的采集方法

技术领域

本发明涉及一种在线信息实时获取技术，具体地说是一种对在线更新兴趣信息的采集方法。

背景技术

随着信息化技术的发展，Web正在改变着各种业务领域，它涉及新闻、广告、消费、金融管理、教育、政府、电子商务及其它信息服务。Web包含了丰富和动态的超链接信息以及Web页面的访问和使用信息，为广大使用者提供了丰富的资源。如何提取关注的、感兴趣的信息，成为各行各业关注的热点，同时有效地信息采集以及发布方式，成为助推web信息挖掘的关键。比如，在各行业工程建设或采购中，招投标工作十分重要，然而招投标信息分散在各个单位的门户网站上或各地方政府的网站上，使得招投标工作在获取实时信息时复杂而繁琐。

发明内容

本发明的目的在于，提供一种能有效帮助企业和个人实时准确的获取到招投标信息的在线内容更新的采集方法，提高工作效率。

本发明是这样实现的：

本发明所提供的采集方法，主要包括三大步骤：

步骤1，建立兴趣信息(招标信息)网址库；

采集行业领域的感兴趣web网址，形成网址库。

步骤2，兴趣点挖掘；

通过网页源码分析，对网址库中的各类网址进行动态检测，获取其更新信息。其步骤是：

1)判断网址的编码方式，若为GBK格式的网址，利用网址重定向技术将GBK编码的网址转化为Punycode编码；

2)判断网页的编码方式从而获取相应网址的网页源代码；

3)过滤掉与更新内容无关的信息，如格式控制符等；

4)判断是否为第一次获取该网页的源代码：若是第一次获取，将过滤过的网页信息直接保存到数据库；若不是第一次获取网页，利用字符串对比算法，将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比，获取到网页更新的内容；

5)在更新的内容中搜索兴趣点。

步骤3，信息发布

将更新的兴趣点信息重新编辑后，通过短信、邮件等方式实时地分发给订阅者。

上述步骤2之兴趣点挖掘中的字符串对比算法，此算法将最新时刻的网页内容与上一时刻的网页做对比，从而获取网页一处或多处更新的内容，而忽略上一时刻的网页比最新时刻的网页多出的内容。在这个算法中，可以人工设定m为获取更新字符串的最短长度(精度)，而在网页更新内容有多处的情况下，人工设定m1为两更新内容之间允许的最长的与上一时刻相同的字符串。

本发明的有益效果是：使订阅者在不进行海量网址搜索的情况下实时掌握感兴趣的WEB信息，如，若应用到招投标信息采集系统中，可提高招投标工作的效率，减少投标企业进行招投标进行信息搜索时的工作量，使更多的优秀供应商参与到招投标工作中来，使招投标工作更加公正、公开、透明。

附图说明

图1为本发明网页更新内容采集的方法的总流程示意图；

图2为本发明网页更新内容采集的方法之兴趣点挖掘的流程图；

图3为网页更新内容的字符串对比算法示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以招标信息为例，下面结合附图和实施例对本发明作进一步的描述。

图1显示了本实施例采集的方法的流程：本实施例提供了一种由于在线内容更新而触发的二次发布方法，包括建立兴趣信息网址库、兴趣点挖掘、信息发布。在定时获取网址库中的所有网址的网页内容后，与存储在数据库中的网页内容对比，获取到更新的网页内容S9，在更新的内容中挖掘兴趣点信息，如果有兴趣信息，则二次发布给订阅者。具体步骤如下所述：

(一)建立兴趣信息网址库

采集行业领域的感兴趣web网址，一般是信息列表页的网址，存储在数据库中。

(二)兴趣点挖掘

(三)信息发布

若在上述步骤中搜索到客户感兴趣招标信息，则将招标信息重新编辑，然后通过短信、邮件、WEB发布等方式将编辑好的招标信息实时分发给订阅者。

图2显示了本实施例之兴趣点挖掘流程

1)中文网址的处理S3

利用网址重定向技术将含有GBK编码文字的网址S2的页面嵌套到Punycode编码的网址的页面中或将英文网址(Punycode编码)1的网址跳转到需采集的含有GBK编码文字的网址。

2)获取网页的编码方式S4

逐行读取Punycode编码的英文网址S1，使用webclient或HttpWebRequest获取网址页面的编码方式。

3)通过网页内容的编码分类处理获取网页源代码S5

网页内容有UTF8、GB2312等多种编码，判断网页的编码方式后获取网页源代码

4)网页源代码的过滤S6

过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。

5)新旧网页字符串的对比S8

判断是否为第一次获取网页源代码S7：若不是第一次获取，利用字符串对比算法(如图2所示)将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比，内容相同的忽略，内容不同的记录下来；当新网页的内容比旧网页内容多出m个字符时保存更新内容S9；若是第一次获取网页源代码，则网页的全部汉字内容S10。

6)在新增内容中查找客户感兴趣的关键词S11(如床上用品、服装等)。

图3显示本实施例之网页更新内容的字符串对比算法，此算法将最新时刻的网页内容与上一时刻的网页做对比，从而获取网页一处或多处更新的内容，而忽略上一时刻的网页比最新时刻的网页多出的内容。在这个算法中，可以人工设定m为获取更新字符串的最短长度(精度)，而在网页更新内容有多处的情况下，m1为两更新内容之间允许的最长的与上一时刻相同的字符串。其具体步骤如下所述：

S21：定义网页的最新时刻的内容为字符串a[]，上一时刻的内容为字符串b[]，变量s为存储字符串a[]中字符a[i]的位置，变量s1为存储字符串b[]中字符b[j]的位置；

S22：判断字符a[i]与字符b[j]是否相等，若相等跳到步骤S23，若不相等跳到步骤S25；

S23：判断i+1、j+1是否小于字符串a[]、b[]的长度，若小于跳到步骤S24，若大于则跳到步骤S37；

S24：字符串a[]、b[]的下标i、j自加1；

S25：将字符串a[]的下标保存进变量s中；

S26：判断字符a[i]与字符b[j]是否不相等，若不相等跳到步骤S27，若相等跳到步骤S31；

S27：判断i+1是否小于字符串a[]的长度，若小于跳到步骤S28，若大于则跳到步骤S29；

S28：字符串a[]的下标i自加1；

S29：字符串b[]的下标j自加1，并将变量s的值赋给i；

S30：判断j+1是否小于字符串b[]的长度，若小于跳到步骤S26，若大于则结束；

S31：判断字符串a[i]的下标i与变量s是否相等，若相等跳到步骤S22，若不相等跳到步骤S32；

S32：将字符串b[]的下标保存进变量s1中；

S33：判断i-s是否小于m，若小于跳到步骤S34，若大于则跳到步骤S38；

S34：判断字符a[i]与字符b[j]是否相等，若相等跳到步骤S35，若不相等跳到步骤S39；

S35：判断i+1、j+1是否小于字符串a[]、b[]的长度，若小于跳到步骤S36，若大于则跳到步骤S37；

S36：字符串a[]、b[]的下标i、j自加1；

S37：判断i+1是否等于字符串a[]的长度，若不等于则跳到步骤S38，，保存新增字符串，若等于则结束；

S38：将更新的内容添加至更新字符串中；

S39：判断j-s1是否小于m1，若小于跳到步骤S40，若大于则跳到步骤S26；

S40：判断i-s是否小于m，若小于跳到步骤S26，若大于则跳到步骤S41，并将更新的内容添加至更新字符串中；

S41：将变量s1的值赋给j；

S42：结束。

Claims

1.一种在线更新兴趣信息的采集方法，其特征在于，包括三个方法步骤：

步骤1，建立兴趣信息网址库；

步骤2，兴趣点挖掘：

通过网页源码分析，对网址库中的各类网址进行动态检测，获取其更新信息，其步骤是：

1)中文网址的处理(S3)

利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址；

2)获取网页的编码方式(S4)

逐行读取Punycode编码的英文网址(S1)，使用webclient或HttpWebRequest获取网址页面的编码方式；

3)通过网页内容的编码分类处理获取网页源代码(S5)

4)网页源代码的过滤(S6)

5)新旧网页字符串的对比(S8)

判断是否为第一次获取网页源代码(S7)：若不是第一次获取，利用字符串对比算法将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比，内容相同的忽略，内容不同的记录下来；当新网页的内容比旧网页内容多出m个字符时保存更新内容(S9)；若是第一次获取网页源代码，则网页的全部汉字内容(S10)。

6)在新增内容中查找客户感兴趣的关键词(S11)；

步骤3，信息发布：

2.根据权利要求1所述在线更新兴趣信息的采集方法，其特征在于：所述步骤2之4)字符串对比算法，该算法将最新时刻的网页内容与上一时刻的网页做对比，从而获取网页一处或多处更新的内容，而忽略上一时刻的网页比最新时刻的网页多出的内容；在这个算法中，人工设定m为获取更新字符串的最短长度，而在网页更新内容有多处的情况下，m1为两更新内容之间允许的最长的与上一时刻相同的字符串，其方法步骤如下所述：

(S21)：定义网页的最新时刻的内容为字符串a[]，上一时刻的内容为字符串b[]，变量s为存储字符串a[]中字符a[i]的位置，变量s1为存储字符串b[]中字符b[j]的位置；

(S22)：判断字符a[i]与字符b[j]是否相等，若相等跳到步骤(S23)，若不相等跳到步骤(S25)；

(S23)：判断i+1、j+1是否小于字符串a[]、b[]的长度，若小于跳到步骤(S24)，若大于则跳到步骤(S37)；

(S24)：字符串a[]、b[]下标i、j自加1；

(S25)：将字符串a[]的下标保存进变量s中；

(S26)：判断字符a[i]与字符b[j]是否不相等，若不相等跳到步骤(S27)，若相等跳到步骤(S31)；

(S27)：判断i+1是否小于字符串a[]的长度，若小于跳到步骤(S28)，若大于则跳到步骤(S29)；

(S28)：字符串a[]的下标i自加1；

(S29)：字符串b[]的下标j自加1，并将变量s的值赋给i；

(S30)：判断j+1是否小于字符串b[]的长度，若小于跳到步骤(S26)，若大于则结束；

(S31)：判断字符串a[i]的下标i与变量s是否相等，若相等跳到步骤(S22)，若不相等跳到步骤(S32)；

(S32)：将字符串b[]的下标保存进变量s1中；

(S33)：判断i-s是否小于m，若小于跳到步骤(S34)，若大于则跳到步骤(S38)；

(S34)：判断字符a[i]与字符b[j]是否相等，若相等跳到步骤(S35)，若不相等跳到步骤(S39)；

(S35)：判断i+1、j+1是否小于字符串a[]、b[]的长度，若小于跳到步骤(S36)，若大于则跳到步骤(S37)；

(S36)：字符串a[]、b[]的下标i、j自加1；

(S37)：判断i+1是否等于字符串a[]的长度，若不等于则跳到步骤(S38)，，保存新增字符串，若等于则结束；

(S38)：将更新的内容添加至更新字符串中；

(S39)：判断j-s1是否小于m1：若小于跳到步骤(S40)，若大于则跳到步骤(S26)；

(S40)：判断i-s是否小于m：若小于跳到步骤(S26)，若大于则跳到步骤(S41)，并将更新的内容添加至更新字符串中；

(S41)：将变量s1的值赋给j；

(S42)：结束。