CN105930369A

CN105930369A - 一种快速分析Web信息的方法

Info

Publication number: CN105930369A
Application number: CN201610227277.7A
Authority: CN
Inventors: 张毅; 梁超
Original assignee: NANJING XINYULI CULTURE SPREAD CO Ltd
Current assignee: NANJING XINYULI CULTURE SPREAD CO Ltd
Priority date: 2016-04-13
Filing date: 2016-04-13
Publication date: 2016-09-07

Abstract

本发明公开了一种快速分析Web信息的方法，包括以下步骤：步骤1：链接提取，将Web网页进行分类，抽取链接,每一个链接信息内容包括：URL地址、锚文本、标题文本和文件名信息；步骤2：链接排序和归类；步骤3：链接样本的采样；步骤4：标签样本的采样；通过使用本发明的技术方案，可以在海量的Web信息中快速准确找到目标信息，减少获取成本，并可以产生对Web信息的链接抽取进行自动划分比例，对关键词标签进行自动打分排序，通过针对关键词的分值实时调整链接顺序等有益技术效果。

Description

一种快速分析Web信息的方法

技术领域

本发明涉及一种快速分析Web信息的方法，尤其是处理大数据下进行的快速分析Web信息的方法。

背景技术

随着互联网技术的发展，万维网产生了海量Web信息，使当今互联网的规模已达到数百亿的Web页面，这还不包括通过动态刷新产生出来的无数页面。互联网已经渗透到人们生活的各个方面，也改变了很多传统的商业模式，特别是对网络广告这一商业领域，需要从海量Web信息中挖掘出有价值的信息。

现有技术的缺点主要存在三方面的问题：

1）当需要快速获取海量网站信息时，获取成本非常大，从时间上看千万的网站会产生成千上百亿的链接，每个链接页面都要光顾一次，对于几台服务器组成的小规模集群通过分布式爬虫去网上搜索需要1个月左右时间；

2）时间周期长导致数据更新频率非常低，实时性不高；

3）全网爬取没有针对性的分析数据使得准确度不高；

因此，如何使用户方便快捷地从海量的Web信息中，分析到有效信息，是迫切需要解决的课题。

发明内容

本发明所有解决的技术问题，是提供了一种快速分析Web信息的方法。

为了解决现有技术的问题，本发明提供了一种快速分析Web信息的方法，包括以下步骤：

步骤1：链接提取

将Web网页进行分类，抽取链接, 每一个链接信息内容包括：URL地址、锚文本、标题文本和文件名信息；

步骤2：链接排序和归类；

步骤3：链接样本的采样；

步骤4：标签样本的采样。

进一步地，步骤1所述的链接提取，包括四个步骤：

第一步：计算网页顶部和底部所占百分比并抽取所有链接；

第二步：过滤无效的链接；

第三步：如果Web网页没有链接，迭代第一步和第二步；

第四步：经过步骤3,仍然没有获取任何链接，标记为特殊域名。

进一步地，步骤2所述的链接排序，具体内容有：

1) 从收集到的样本文件的关键词中，提取权值高的样本，创建成一个新的样本文件；

2）每一个样本文件的每个关键词都有一个分值，按公式I = A / S * M计

算得出；其中，A为关键词出现的次数；S为从多少个正常信息的网站中扫描出来这个关键词；M为根据产品的需要进行计算并且放大后的一个绝对值；I表示关键词的分值；

3）根据步骤2的关键词的分值，对链接信息进行有序排列；如果一批链接信息没有匹配到样本文件中的关键词，将链接信息追加到匹配的链接信息之后。

进一步地，步骤3所述的链接样本的采样，具体有:

对于一个链接，如果结尾部分是文件名，移除掉后缀仅保存另一部分来作为filenametext关键词；

对于一个链接，如果结尾部分是一个目录，只保持最后的这个目录名字作为filenametext关键词；每一个样本关键词的长度小于30个字符。

进一步地，步骤4所述的标签样本的采样，标签的长度应该小于35个字符串。

经过大量的测试发现，利用本发明的技术方案，可以在海量的Web信息中

快速准确找到目标信息。

由上述技术方案可以看出，与现有技术相比，本申请的优点在于：

1）当需要快速获取海量网站信息时，减少获取成本；

2）对Web信息的链接抽取进行自动划分比例；

3）对关键词标签进行自动打分排序；

4）通过针对关键词的分值实时调整链接顺序。

附图说明

无。

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

一种快速分析Web信息的方法，包括以下步骤：

步骤1：链接提取；将Web网页进行分类，针对可能抽取的链接, 每一个链接信息内容包括：URL地址、锚文本、标题文本和文件名信息；

步骤2：链接排序；

步骤3：链接样本的采样；

步骤4：标签样本的采样；

进一步地，步骤1所述的链接提取，包括四个步骤：

第一步：计算网页顶部和底部所占百分比并抽取所有链接；

大多数联系信息页面的链接主要位于网站的顶部或底部，或两者都有；在源代码中一般以相对路径的链接出现。

第二步：过滤无效的链接，具体内容有：

1）一个链接的文件名包括任何后缀应该被抛弃，它们应该在项目中进行配置：如后缀名：JPG、PNG、ICO、MOV、BMP、JS、SWF等；

2）如果链接的锚文本为空,或者为Null,这个链接应标记为垃圾链接；

3）有4个以上的子目录的链接可以抛弃或根据需要进行配置；

第三步：如果没有链接，迭代第一步和第二步；

具体内容：如果第一步没有任何链接或者第二步标识出的所有链接是无效的，提取器应该能自动的调整百分比，然后重复第一步和第二步直到获取的多个链接为止。

第四步：标记为特殊域名，没有任何链接；

如果经过第三步以后没有获得任何链接，这个域名应该标记为没有任何可能存在的链接，要告知链接提取器这个域名应该以另一种方式去捕获联系信息，而不是网页内容。

进一步地，步骤2所述的链接排序，具体内容有：

1）从收集到的样本文件的关键词中，提取权值较高的样本，创建成一个新的样本文件；

收集到的anchor_text，filename_text，title_text样本文件的关键词

中，提取权值较高的样本创建成一个新的样本文件en_priority.sample，

算得出；其中，A为关键词出现的次数；S为从多少个正常信息的网站中扫描出来这个关键词；M为根据产品的需要进行计算并且放大后的一个绝对值；I表示关键词的分值。

3）如果一批链接信息没有匹配到样本文件中的关键词，则不需要对这些链接信息的分数进行打分排序，将他们追加到匹配的链接信息之后。

所有链接在经过上一步骤以后都已经按照权值打分进行了一个有序排列，项目在测试环节或样本收集环节中，可以对每一个链接都进行访问，并采集样本数据生成样本文件。在生产环境中，当一个链接获取到合法的联系信息后，可以跳过剩余的所有链接。当然，也可以全部获取，这个选择要求是可配置的选项。

进一步地，步骤3所述的链接样本的采样，具体有:

。

Claims

1.一种快速分析Web信息的方法，其特征在于：包括以下步骤：

步骤1：链接提取，将Web网页进行分类，抽取链接, 每一个链接信息内容包括：URL地址、锚文本、标题文本和文件名信息；

步骤2：链接排序和归类；

步骤3：链接样本的采样；

步骤4：标签样本的采样。

2.根据权利要求1的一种快速分析Web信息的方法，其特征在于：步骤1所述的链接提取，包括四个步骤：

第一步：计算网页顶部和底部所占百分比并抽取所有链接；

第二步：过滤无效的链接；

第三步：如果Web网页没有链接，迭代第一步和第二步；

第四步：经过步骤3,没有获取任何链接，标记为特殊域名。

3.根据权利要求1的一种快速分析Web信息的方法，其特征在于：步骤2所述的链接排序，具体内容有：

算出； A为关键词出现的次数；S为从多个正常信息的网站中扫描出来的关键词；M为根据产品的需要进行计算并且放大后的一个绝对值；I表示关键词的分值；

4.根据权利要求1的一种快速分析Web信息的方法，其特征在于：步骤3所述的链接样本的采样，具体有:

对于一个链接，如果结尾部分是文件名，移除掉后缀仅保存另一部分作为filenametext关键词；

5.根据权利要求1的一种快速分析Web信息的方法，其特征在于：步骤4所述的标签样本的采样，标签的长度应该小于35个字符串。