CN102890704A - 一种在线更新兴趣信息的采集方法 - Google Patents

一种在线更新兴趣信息的采集方法 Download PDF

Info

Publication number
CN102890704A
CN102890704A CN 201210266647 CN201210266647A CN102890704A CN 102890704 A CN102890704 A CN 102890704A CN 201210266647 CN201210266647 CN 201210266647 CN 201210266647 A CN201210266647 A CN 201210266647A CN 102890704 A CN102890704 A CN 102890704A
Authority
CN
China
Prior art keywords
character string
character
webpage
content
jumping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201210266647
Other languages
English (en)
Inventor
万金朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 201210266647 priority Critical patent/CN102890704A/zh
Publication of CN102890704A publication Critical patent/CN102890704A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种在线更新兴趣信息的采集方法,主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成;兴趣点挖掘中采用字符串对比算法,将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,获取到网页更新的内容。本发明使订阅者在不进行海量网址搜索的情况下,实时掌握感兴趣的WEB信息,减少投标企业进行招投标进行信息搜索时的工作量,使更多的优秀供应商参与到招投标工作中来,使招投标工作更加公正、公开、透明。

Description

一种在线更新兴趣信息的采集方法
技术领域
本发明涉及一种在线信息实时获取技术,具体地说是一种对在线更新兴趣信息的采集方法。
背景技术
随着信息化技术的发展,Web正在改变着各种业务领域,它涉及新闻、广告、消费、金融管理、教育、政府、电子商务及其它信息服务。Web包含了丰富和动态的超链接信息以及Web页面的访问和使用信息,为广大使用者提供了丰富的资源。如何提取关注的、感兴趣的信息,成为各行各业关注的热点,同时有效地信息采集以及发布方式,成为助推web信息挖掘的关键。比如,在各行业工程建设或采购中,招投标工作十分重要,然而招投标信息分散在各个单位的门户网站上或各地方政府的网站上,使得招投标工作在获取实时信息时复杂而繁琐。
发明内容
本发明的目的在于,提供一种能有效帮助企业和个人实时准确的获取到招投标信息的在线内容更新的采集方法,提高工作效率。
本发明是这样实现的:
本发明所提供的采集方法,主要包括三大步骤:
步骤1,建立兴趣信息(招标信息)网址库;
采集行业领域的感兴趣web网址,形成网址库。
步骤2,兴趣点挖掘;
通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息。其步骤是:
1)判断网址的编码方式,若为GBK格式的网址,利用网址重定向技术将GBK编码的网址转化为Punycode编码;
2)判断网页的编码方式从而获取相应网址的网页源代码;
3)过滤掉与更新内容无关的信息,如格式控制符等;
4)判断是否为第一次获取该网页的源代码:若是第一次获取,将过滤过的网页信息直接保存到数据库;若不是第一次获取网页,利用字符串对比算法,将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,获取到网页更新的内容;
5)在更新的内容中搜索兴趣点。
步骤3,信息发布
将更新的兴趣点信息重新编辑后,通过短信、邮件等方式实时地分发给订阅者。
上述步骤2之兴趣点挖掘中的字符串对比算法,此算法将最新时刻的网页内容与上一时刻的网页做对比,从而获取网页一处或多处更新的内容,而忽略上一时刻的网页比最新时刻的网页多出的内容。在这个算法中,可以人工设定m为获取更新字符串的最短长度(精度),而在网页更新内容有多处的情况下,人工设定m1为两更新内容之间允许的最长的与上一时刻相同的字符串。
本发明的有益效果是:使订阅者在不进行海量网址搜索的情况下实时掌握感兴趣的WEB信息,如,若应用到招投标信息采集系统中,可提高招投标工作的效率,减少投标企业进行招投标进行信息搜索时的工作量,使更多的优秀供应商参与到招投标工作中来,使招投标工作更加公正、公开、透明。
附图说明
图1为本发明网页更新内容采集的方法的总流程示意图;
图2为本发明网页更新内容采集的方法之兴趣点挖掘的流程图;
图3为网页更新内容的字符串对比算法示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以招标信息为例,下面结合附图和实施例对本发明作进一步的描述。
图1显示了本实施例采集的方法的流程:本实施例提供了一种由于在线内容更新而触发的二次发布方法,包括建立兴趣信息网址库、兴趣点挖掘、信息发布。在定时获取网址库中的所有网址的网页内容后,与存储在数据库中的网页内容对比,获取到更新的网页内容S9,在更新的内容中挖掘兴趣点信息,如果有兴趣信息,则二次发布给订阅者。具体步骤如下所述:
(一)建立兴趣信息网址库
采集行业领域的感兴趣web网址,一般是信息列表页的网址,存储在数据库中。
(二)兴趣点挖掘
(三)信息发布
若在上述步骤中搜索到客户感兴趣招标信息,则将招标信息重新编辑,然后通过短信、邮件、WEB发布等方式将编辑好的招标信息实时分发给订阅者。
图2显示了本实施例之兴趣点挖掘流程
1)中文网址的处理S3
利用网址重定向技术将含有GBK编码文字的网址S2的页面嵌套到Punycode编码的网址的页面中或将英文网址(Punycode编码)1的网址跳转到需采集的含有GBK编码文字的网址。
2)获取网页的编码方式S4
逐行读取Punycode编码的英文网址S1,使用webclient或HttpWebRequest获取网址页面的编码方式。
3)通过网页内容的编码分类处理获取网页源代码S5
网页内容有UTF8、GB2312等多种编码,判断网页的编码方式后获取网页源代码
4)网页源代码的过滤S6
过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。
5)新旧网页字符串的对比S8
判断是否为第一次获取网页源代码S7:若不是第一次获取,利用字符串对比算法(如图2所示)将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,内容相同的忽略,内容不同的记录下来;当新网页的内容比旧网页内容多出m个字符时保存更新内容S9;若是第一次获取网页源代码,则网页的全部汉字内容S10。
6)在新增内容中查找客户感兴趣的关键词S11(如床上用品、服装等)。
图3显示本实施例之网页更新内容的字符串对比算法,此算法将最新时刻的网页内容与上一时刻的网页做对比,从而获取网页一处或多处更新的内容,而忽略上一时刻的网页比最新时刻的网页多出的内容。在这个算法中,可以人工设定m为获取更新字符串的最短长度(精度),而在网页更新内容有多处的情况下,m1为两更新内容之间允许的最长的与上一时刻相同的字符串。其具体步骤如下所述:
S21:定义网页的最新时刻的内容为字符串a[],上一时刻的内容为字符串b[],变量s为存储字符串a[]中字符a[i]的位置,变量s1为存储字符串b[]中字符b[j]的位置;
S22:判断字符a[i]与字符b[j]是否相等,若相等跳到步骤S23,若不相等跳到步骤S25;
S23:判断i+1、j+1是否小于字符串a[]、b[]的长度,若小于跳到步骤S24,若大于则跳到步骤S37;
S24:字符串a[]、b[]的下标i、j自加1;
S25:将字符串a[]的下标保存进变量s中;
S26:判断字符a[i]与字符b[j]是否不相等,若不相等跳到步骤S27,若相等跳到步骤S31;
S27:判断i+1是否小于字符串a[]的长度,若小于跳到步骤S28,若大于则跳到步骤S29;
S28:字符串a[]的下标i自加1;
S29:字符串b[]的下标j自加1,并将变量s的值赋给i;
S30:判断j+1是否小于字符串b[]的长度,若小于跳到步骤S26,若大于则结束;
S31:判断字符串a[i]的下标i与变量s是否相等,若相等跳到步骤S22,若不相等跳到步骤S32;
S32:将字符串b[]的下标保存进变量s1中;
S33:判断i-s是否小于m,若小于跳到步骤S34,若大于则跳到步骤S38;
S34:判断字符a[i]与字符b[j]是否相等,若相等跳到步骤S35,若不相等跳到步骤S39;
S35:判断i+1、j+1是否小于字符串a[]、b[]的长度,若小于跳到步骤S36,若大于则跳到步骤S37;
S36:字符串a[]、b[]的下标i、j自加1;
S37:判断i+1是否等于字符串a[]的长度,若不等于则跳到步骤S38,,保存新增字符串,若等于则结束;
S38:将更新的内容添加至更新字符串中;
S39:判断j-s1是否小于m1,若小于跳到步骤S40,若大于则跳到步骤S26;
S40:判断i-s是否小于m,若小于跳到步骤S26,若大于则跳到步骤S41,并将更新的内容添加至更新字符串中;
S41:将变量s1的值赋给j;
S42:结束。

Claims (2)

1.一种在线更新兴趣信息的采集方法,其特征在于,包括三个方法步骤:
步骤1,建立兴趣信息网址库;
步骤2,兴趣点挖掘:
通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息,其步骤是:
1)中文网址的处理(S3)
利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址;
2)获取网页的编码方式(S4)
逐行读取Punycode编码的英文网址(S1),使用webclient或HttpWebRequest获取网址页面的编码方式;
3)通过网页内容的编码分类处理获取网页源代码(S5)
网页内容有UTF8、GB2312等多种编码,判断网页的编码方式后获取网页源代码
4)网页源代码的过滤(S6)
过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。
5)新旧网页字符串的对比(S8)
判断是否为第一次获取网页源代码(S7):若不是第一次获取,利用字符串对比算法将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,内容相同的忽略,内容不同的记录下来;当新网页的内容比旧网页内容多出m个字符时保存更新内容(S9);若是第一次获取网页源代码,则网页的全部汉字内容(S10)。
6)在新增内容中查找客户感兴趣的关键词(S11);
步骤3,信息发布:
将更新的兴趣点信息重新编辑后,通过短信、邮件等方式实时地分发给订阅者。
2.根据权利要求1所述在线更新兴趣信息的采集方法,其特征在于:所述步骤2之4)字符串对比算法,该算法将最新时刻的网页内容与上一时刻的网页做对比,从而获取网页一处或多处更新的内容,而忽略上一时刻的网页比最新时刻的网页多出的内容;在这个算法中,人工设定m为获取更新字符串的最短长度,而在网页更新内容有多处的情况下,m1为两更新内容之间允许的最长的与上一时刻相同的字符串,其方法步骤如下所述:
(S21):定义网页的最新时刻的内容为字符串a[],上一时刻的内容为字符串b[],变量s为存储字符串a[]中字符a[i]的位置,变量s1为存储字符串b[]中字符b[j]的位置;
(S22):判断字符a[i]与字符b[j]是否相等,若相等跳到步骤(S23),若不相等跳到步骤(S25);
(S23):判断i+1、j+1是否小于字符串a[]、b[]的长度,若小于跳到步骤(S24),若大于则跳到步骤(S37);
(S24):字符串a[]、b[]下标i、j自加1;
(S25):将字符串a[]的下标保存进变量s中;
(S26):判断字符a[i]与字符b[j]是否不相等,若不相等跳到步骤(S27),若相等跳到步骤(S31);
(S27):判断i+1是否小于字符串a[]的长度,若小于跳到步骤(S28),若大于则跳到步骤(S29);
(S28):字符串a[]的下标i自加1;
(S29):字符串b[]的下标j自加1,并将变量s的值赋给i;
(S30):判断j+1是否小于字符串b[]的长度,若小于跳到步骤(S26),若大于则结束;
(S31):判断字符串a[i]的下标i与变量s是否相等,若相等跳到步骤(S22),若不相等跳到步骤(S32);
(S32):将字符串b[]的下标保存进变量s1中;
(S33):判断i-s是否小于m,若小于跳到步骤(S34),若大于则跳到步骤(S38);
(S34):判断字符a[i]与字符b[j]是否相等,若相等跳到步骤(S35),若不相等跳到步骤(S39);
(S35):判断i+1、j+1是否小于字符串a[]、b[]的长度,若小于跳到步骤(S36),若大于则跳到步骤(S37);
(S36):字符串a[]、b[]的下标i、j自加1;
(S37):判断i+1是否等于字符串a[]的长度,若不等于则跳到步骤(S38),,保存新增字符串,若等于则结束;
(S38):将更新的内容添加至更新字符串中;
(S39):判断j-s1是否小于m1:若小于跳到步骤(S40),若大于则跳到步骤(S26);
(S40):判断i-s是否小于m:若小于跳到步骤(S26),若大于则跳到步骤(S41),并将更新的内容添加至更新字符串中;
(S41):将变量s1的值赋给j;
(S42):结束。
CN 201210266647 2012-07-31 2012-07-31 一种在线更新兴趣信息的采集方法 Pending CN102890704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210266647 CN102890704A (zh) 2012-07-31 2012-07-31 一种在线更新兴趣信息的采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210266647 CN102890704A (zh) 2012-07-31 2012-07-31 一种在线更新兴趣信息的采集方法

Publications (1)

Publication Number Publication Date
CN102890704A true CN102890704A (zh) 2013-01-23

Family

ID=47534206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210266647 Pending CN102890704A (zh) 2012-07-31 2012-07-31 一种在线更新兴趣信息的采集方法

Country Status (1)

Country Link
CN (1) CN102890704A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074172A (zh) * 2018-01-09 2018-05-25 北京值得买科技股份有限公司 电商商品信息发布方法和系统
CN109284431A (zh) * 2018-08-09 2019-01-29 国家计算机网络与信息安全管理中心 一种从微信中发现特定领域微信公众号的方法
CN109299411A (zh) * 2018-09-26 2019-02-01 湖北函数科技有限公司 一种网络信息感知方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074172A (zh) * 2018-01-09 2018-05-25 北京值得买科技股份有限公司 电商商品信息发布方法和系统
CN109284431A (zh) * 2018-08-09 2019-01-29 国家计算机网络与信息安全管理中心 一种从微信中发现特定领域微信公众号的方法
CN109299411A (zh) * 2018-09-26 2019-02-01 湖北函数科技有限公司 一种网络信息感知方法

Similar Documents

Publication Publication Date Title
CN103186524B (zh) 一种地名识别方法和装置
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN102270331B (zh) 基于可视化搜索的网络购物导航方法
CN103699689A (zh) 事件知识库的构建方法及装置
CN101192234A (zh) 一种基于网页抽取的搜索系统及搜索方法
CN102509233A (zh) 一种基于用户网上动作信息的推荐方法
CN110909170A (zh) 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN102722498A (zh) 搜索引擎及其实现方法
CN102662966A (zh) 一种面向主题的获取动态页面内容的方法及系统
CN103092943A (zh) 一种广告调度的方法和广告调度服务器
CN103345532A (zh) 一种网页信息抽取方法及装置
CN102737021A (zh) 搜索引擎及其实现方法
CN103390044A (zh) 一种连锁类兴趣点数据识别方法及装置
CN102841886A (zh) 拆分文档的方法和装置
CN106302849A (zh) 一种通过运营商数据进行移固融合的方法
CN105808076A (zh) 一种浏览器书签的设置方法、装置及终端
CN104484379A (zh) 确定音乐实体关系的方法和装置及查询处理方法和装置
CN102890704A (zh) 一种在线更新兴趣信息的采集方法
CN102156749B (zh) 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统
CN115168401A (zh) 数据分级处理方法及装置、电子设备及计算机可读介质
CN103218452A (zh) 一种识别Hub页中有效链接的方法和装置
CN105354344A (zh) 搜索引擎优化系统及方法
CN106547774B (zh) 网站内容的检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130123