CN105930369A - 一种快速分析Web信息的方法 - Google Patents

一种快速分析Web信息的方法 Download PDF

Info

Publication number
CN105930369A
CN105930369A CN201610227277.7A CN201610227277A CN105930369A CN 105930369 A CN105930369 A CN 105930369A CN 201610227277 A CN201610227277 A CN 201610227277A CN 105930369 A CN105930369 A CN 105930369A
Authority
CN
China
Prior art keywords
link
information
keyword
sample
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610227277.7A
Other languages
English (en)
Inventor
张毅
梁超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING XINYULI CULTURE SPREAD CO Ltd
Original Assignee
NANJING XINYULI CULTURE SPREAD CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING XINYULI CULTURE SPREAD CO Ltd filed Critical NANJING XINYULI CULTURE SPREAD CO Ltd
Priority to CN201610227277.7A priority Critical patent/CN105930369A/zh
Publication of CN105930369A publication Critical patent/CN105930369A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种快速分析Web信息的方法,包括以下步骤:步骤1:链接提取,将Web网页进行分类,抽取链接,每一个链接信息内容包括:URL地址、锚文本、标题文本和文件名信息;步骤2:链接排序和归类;步骤3:链接样本的采样;步骤4:标签样本的采样;通过使用本发明的技术方案,可以在海量的Web信息中快速准确找到目标信息,减少获取成本,并可以产生对Web信息的链接抽取进行自动划分比例,对关键词标签进行自动打分排序,通过针对关键词的分值实时调整链接顺序等有益技术效果。

Description

一种快速分析Web信息的方法
技术领域
本发明涉及一种快速分析Web信息的方法,尤其是处理大数据下进行的快速分析Web信息的方法。
背景技术
随着互联网技术的发展,万维网产生了海量Web信息,使当今互联网的规模已达到数百亿的Web页面,这还不包括通过动态刷新产生出来的无数页面。互联网已经渗透到人们生活的各个方面,也改变了很多传统的商业模式,特别是对网络广告这一商业领域,需要从海量Web信息中挖掘出有价值的信息。
现有技术的缺点主要存在三方面的问题:
1)当需要快速获取海量网站信息时,获取成本非常大,从时间上看千万的网站会产生成千上百亿的链接,每个链接页面都要光顾一次,对于几台服务器组成的小规模集群通过分布式爬虫去网上搜索需要1个月左右时间;
2)时间周期长导致数据更新频率非常低,实时性不高;
3)全网爬取没有针对性的分析数据使得准确度不高;
因此,如何使用户方便快捷地从海量的Web信息中,分析到有效信息,是迫切需要解决的课题。
发明内容
本发明所有解决的技术问题,是提供了一种快速分析Web信息的方法。
为了解决现有技术的问题,本发明提供了一种快速分析Web信息的方法,包括以下步骤:
步骤1:链接提取
将Web网页进行分类,抽取链接, 每一个链接信息内容包括:URL地址、锚文本、标题文本和文件名信息;
步骤2:链接排序和归类;
步骤3:链接样本的采样;
步骤4:标签样本的采样。
进一步地,步骤1所述的链接提取,包括四个步骤:
第一步:计算网页顶部和底部所占百分比并抽取所有链接;
第二步:过滤无效的链接;
第三步:如果Web网页没有链接,迭代第一步和第二步;
第四步:经过步骤3,仍然没有获取任何链接,标记为特殊域名。
进一步地,步骤2所述的链接排序,具体内容有:
1) 从收集到的样本文件的关键词中,提取权值高的样本,创建成一个新的样本文件;
2)每一个样本文件的每个关键词都有一个分值,按公式I = A / S * M计
算得出;其中,A为关键词出现的次数;S为从多少个正常信息的网站中扫描出来这个关键词;M为根据产品的需要进行计算并且放大后的一个绝对值;I表示关键词的分值;
3)根据步骤2的关键词的分值,对链接信息进行有序排列;如果一批链接信息没有匹配到样本文件中的关键词,将链接信息追加到匹配的链接信息之后。
进一步地,步骤3所述的链接样本的采样,具体有:
对于一个链接,如果结尾部分是文件名,移除掉后缀仅保存另一部分来作为filenametext关键词;
对于一个链接,如果结尾部分是一个目录,只保持最后的这个目录名字作为filenametext关键词;每一个样本关键词的长度小于30个字符。
进一步地,步骤4所述的标签样本的采样,标签的长度应该小于35个字符串。
经过大量的测试发现,利用本发明的技术方案,可以在海量的Web信息中
快速准确找到目标信息。
由上述技术方案可以看出,与现有技术相比,本申请的优点在于:
1)当需要快速获取海量网站信息时,减少获取成本;
2)对Web信息的链接抽取进行自动划分比例;
3)对关键词标签进行自动打分排序;
4)通过针对关键词的分值实时调整链接顺序。
附图说明
无。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
一种快速分析Web信息的方法,包括以下步骤:
步骤1:链接提取;将Web网页进行分类,针对可能抽取的链接, 每一个链接信息内容包括:URL地址、锚文本、标题文本和文件名信息;
步骤2:链接排序;
步骤3:链接样本的采样;
步骤4:标签样本的采样;
进一步地,步骤1所述的链接提取,包括四个步骤:
第一步:计算网页顶部和底部所占百分比并抽取所有链接;
大多数联系信息页面的链接主要位于网站的顶部或底部,或两者都有;在源代码中一般以相对路径的链接出现。
第二步:过滤无效的链接,具体内容有:
1)一个链接的文件名包括任何后缀应该被抛弃,它们应该在项目中进行配置:如后缀名:JPG、PNG、ICO、MOV、BMP、JS、SWF等;
2)如果链接的锚文本为空,或者为Null,这个链接应标记为垃圾链接;
3)有4个以上的子目录的链接可以抛弃或根据需要进行配置;
第三步:如果没有链接,迭代第一步和第二步;
具体内容:如果第一步没有任何链接或者第二步标识出的所有链接是无效的,提取器应该能自动的调整百分比,然后重复第一步和第二步直到获取的多个链接为止。
第四步:标记为特殊域名,没有任何链接;
如果经过第三步以后没有获得任何链接,这个域名应该标记为没有任何可能存在的链接,要告知链接提取器这个域名应该以另一种方式去捕获联系信息,而不是网页内容。
进一步地,步骤2所述的链接排序,具体内容有:
1)从收集到的样本文件的关键词中,提取权值较高的样本,创建成一个新的样本文件;
收集到的anchor_text,filename_text,title_text样本文件的关键词
中,提取权值较高的样本创建成一个新的样本文件en_priority.sample,
2)每一个样本文件的每个关键词都有一个分值,按公式I = A / S * M计
算得出;其中,A为关键词出现的次数;S为从多少个正常信息的网站中扫描出来这个关键词;M为根据产品的需要进行计算并且放大后的一个绝对值;I表示关键词的分值。
3)如果一批链接信息没有匹配到样本文件中的关键词,则不需要对这些链接信息的分数进行打分排序,将他们追加到匹配的链接信息之后。
所有链接在经过上一步骤以后都已经按照权值打分进行了一个有序排列,项目在测试环节或样本收集环节中,可以对每一个链接都进行访问,并采集样本数据生成样本文件。在生产环境中,当一个链接获取到合法的联系信息后,可以跳过剩余的所有链接。当然,也可以全部获取,这个选择要求是可配置的选项。
进一步地,步骤3所述的链接样本的采样,具体有:
对于一个链接,如果结尾部分是文件名,移除掉后缀仅保存另一部分来作为filenametext关键词;
对于一个链接,如果结尾部分是一个目录,只保持最后的这个目录名字作为filenametext关键词;每一个样本关键词的长度小于30个字符。
进一步地,步骤4所述的标签样本的采样,标签的长度应该小于35个字符串。

Claims (5)

1.一种快速分析Web信息的方法,其特征在于:包括以下步骤:
步骤1:链接提取,将Web网页进行分类,抽取链接, 每一个链接信息内容包括:URL地址、锚文本、标题文本和文件名信息;
步骤2:链接排序和归类;
步骤3:链接样本的采样;
步骤4:标签样本的采样。
2.根据权利要求1的一种快速分析Web信息的方法,其特征在于:步骤1所述的链接提取,包括四个步骤:
第一步:计算网页顶部和底部所占百分比并抽取所有链接;
第二步:过滤无效的链接;
第三步:如果Web网页没有链接,迭代第一步和第二步;
第四步:经过步骤3,没有获取任何链接,标记为特殊域名。
3.根据权利要求1的一种快速分析Web信息的方法,其特征在于:步骤2所述的链接排序,具体内容有:
1) 从收集到的样本文件的关键词中,提取权值高的样本,创建成一个新的样本文件;
2)每一个样本文件的每个关键词都有一个分值,按公式I = A / S * M计
算出; A为关键词出现的次数;S为从多个正常信息的网站中扫描出来的关键词;M为根据产品的需要进行计算并且放大后的一个绝对值;I表示关键词的分值;
3)根据步骤2的关键词的分值,对链接信息进行有序排列;如果一批链接信息没有匹配到样本文件中的关键词,将链接信息追加到匹配的链接信息之后。
4.根据权利要求1的一种快速分析Web信息的方法,其特征在于:步骤3所述的链接样本的采样,具体有:
对于一个链接,如果结尾部分是文件名,移除掉后缀仅保存另一部分作为filenametext关键词;
对于一个链接,如果结尾部分是一个目录,只保持最后的这个目录名字作为filenametext关键词;每一个样本关键词的长度小于30个字符。
5.根据权利要求1的一种快速分析Web信息的方法,其特征在于:步骤4所述的标签样本的采样,标签的长度应该小于35个字符串。
CN201610227277.7A 2016-04-13 2016-04-13 一种快速分析Web信息的方法 Pending CN105930369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610227277.7A CN105930369A (zh) 2016-04-13 2016-04-13 一种快速分析Web信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610227277.7A CN105930369A (zh) 2016-04-13 2016-04-13 一种快速分析Web信息的方法

Publications (1)

Publication Number Publication Date
CN105930369A true CN105930369A (zh) 2016-09-07

Family

ID=56839038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610227277.7A Pending CN105930369A (zh) 2016-04-13 2016-04-13 一种快速分析Web信息的方法

Country Status (1)

Country Link
CN (1) CN105930369A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777937A (zh) * 2016-12-05 2017-05-31 深圳大图科创技术开发有限公司 一种智能医疗综合检测系统
CN108073588A (zh) * 2016-11-09 2018-05-25 北京国双科技有限公司 栏目信息提取方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN104021231A (zh) * 2014-06-26 2014-09-03 北京奇虎科技有限公司 浏览器中显示网页的方法和装置
CN105138558A (zh) * 2015-07-22 2015-12-09 山东大学 基于用户访问内容的实时个性化信息采集方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN104021231A (zh) * 2014-06-26 2014-09-03 北京奇虎科技有限公司 浏览器中显示网页的方法和装置
CN105138558A (zh) * 2015-07-22 2015-12-09 山东大学 基于用户访问内容的实时个性化信息采集方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073588A (zh) * 2016-11-09 2018-05-25 北京国双科技有限公司 栏目信息提取方法和装置
CN108073588B (zh) * 2016-11-09 2021-07-30 北京国双科技有限公司 栏目信息提取方法和装置
CN106777937A (zh) * 2016-12-05 2017-05-31 深圳大图科创技术开发有限公司 一种智能医疗综合检测系统

Similar Documents

Publication Publication Date Title
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN102982153B (zh) 一种信息检索方法及其装置
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN105574047A (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN102841920A (zh) 一种页面信息提取方法及装置
CN103514234A (zh) 一种页面信息提取方法和装置
CN105117436B (zh) 网站频道自动挖掘方法
CN102930031A (zh) 由网页中提取双语平行正文的方法和系统
CN110555154B (zh) 一种面向主题的信息检索方法
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN105930369A (zh) 一种快速分析Web信息的方法
CN102004805B (zh) 基于最大相似性匹配的网页去噪系统及其去噪方法
Fiol-Roig et al. Data mining techniques for web page classification
CN105022728A (zh) 汉老双语平行语料自动采集的系统及实现方法
CN109658164B (zh) 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法
Karsvall et al. SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps.
CN104933192A (zh) 汉菲双语平行语料自动采集的系统及实现方法
CN115410158B (zh) 一种基于监控摄像头的地标提取方法
Tsikrika et al. Focussed crawling of environmental web resources: A pilot study on the combination of multimedia evidence.
CN106227858B (zh) 一种移动互联网网页或媒体平台文章内容的准确提取方法
Bhatia Word segmentation and detection for Gujarati handwritten documents
Kim et al. Technology roadmap using patent keyword

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160907

WD01 Invention patent application deemed withdrawn after publication