CN106227858B

CN106227858B - 一种移动互联网网页或媒体平台文章内容的准确提取方法

Info

Publication number: CN106227858B
Application number: CN201610608825.0A
Authority: CN
Inventors: 汪子涵; 陈新; 丛军伟; 汤怀; 张伟峰; 杜义明
Original assignee: Beijing Orange Culture Medium Co Ltd
Current assignee: Beijing Orange Culture Medium Co Ltd
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2019-06-25
Anticipated expiration: 2036-07-28
Also published as: CN106227858A

Abstract

本发明公开了一种移动互联网网页或媒体平台文章内容的准确提取方法，步骤分为获取同一移动端网站或媒体平台w下的threshold1个网页文本内容，标记获取的网页为a_i；将网页a_i内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取；针对threshold1个网页内容的所有段落信息中的每一个段落a_ij计算得到其广告置信度a_ijScore＝sum(a_ijSimilarK)/threshold1；判断段落a_ij是否为广告段落；组合所有被提取出的文章段落c_j”，按照其原有顺序排列，最终显示为网页文章内容。本发明能够有效地去除移动端网页中的广告等无用信息，极大的提升当前网络爬虫技术的易用性。

Description

一种移动互联网网页或媒体平台文章内容的准确提取方法

技术领域

本发明涉及一种提取方法，尤其涉及一种移动互联网网页或媒体平台文章内容的准确提取方法。

背景技术

网络爬虫是一个自动提取网页内容的程序，它为搜索引擎从移动互联网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列，然后再根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。

目前的网络爬虫技术能够完整的抓取移动端网页中的所有内容，但是存在提取的网页内容包含了如广告文字、图片、链接等相关无效信息，无法准确的定位其中有效的内容信息的问题。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种移动互联网网页或媒体平台文章内容的准确提取方法。

为了解决以上技术问题，本发明采用的技术方案是：一种移动互联网网页或媒体平台文章内容的准确提取方法，该方法的具体步骤如下：

一、获取同一移动端网站或媒体平台w下的threshold1个网页文本内容，使用已有的普适网络爬虫技术获取某一网站中网页的全部内容，针对一个网站获取5<＝threshold1<＝50个网页内容，标记获取的网页为a_i，

其中，1<＝i<＝threshold1；i为平台w中网页的编号；所述threshold1为针对平台w下的最少网页数量；

二、提取网页内容中的文字段落、图片、视频资源链接，然后将获取到的threshold1个网页内容，针对其中每一网页a_i中的内容进行如下操作：

将网页a_i内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取，每一种标签中的内容为一个段落；将提取的段落按其在网页中的位置顺序标记为a_ij，1<＝j<＝a_in；其中a_in代表针对网页a_i提取到的段落数量；

三、针对threshold1个网页内容的所有段落信息中的每一个段落a_ij，1<＝i<＝threshold1，1<＝j<＝a_in；计算得到其广告置信度a_ijScore算法步骤如下：

A：计算a_ij针对每一个网页的相似度，遍历threshold1个网页内容，对网页a_k，1<＝k<＝threshold1；计算相似度a_ijSimilarK如下：

B：网页a_k中的所有段落都和a_ij段落计算相似度，初始化a_ijSimilarK＝0，遍历网页a_k中的所有段落a_kj，1<＝j<＝a_kn；其中a_kn代表针对网页a_k提取到的段落数量，进行如下计算：

b1：对段落a_ij，使用，。！：“”将其进行分割，记录分割后的每一句为s_ijp，其中i为第i网页，j为第j个段落，p为第p个句子，1<＝p<＝a_ijm，其中a_ijm代表针对网页a_i中第j个段落分割后的句子数量；

b2：对段落a_kj，使用，。！：“”将其进行分割，记录分割后的每一句为s_kjp，其中k为第k网页，j为第j个段落，p为第p个句子，1<＝p<＝a_kjm，其中a_kjm代表针对网页a_k中第j个段落分割后的句子数量；

b3：初始化Samelength＝0,tmpSimilar＝0

b4：遍历s_ijp 1<＝p<＝a_ijm、遍历s_kjp 1<＝p<＝a_kjm；

如果s_ijp与s_kjp完全相同，则Samelength＝Samelength+length(s_ijp)，其中length(s_ijp)代表句子s_ijp的字符长度；

b5：如果a_in-j大于等于j，tmpSimilar＝[Samelength*2/(length(a_ij)+length(a_kj))]*(a_in-j)/a_in

如果a_in-j小于j，tmpSimilar＝[Samelength*2/(length(a_ij)+length(a_kj))]*j/a_in

b6：如果tmpSimilar大于等于a_ijSimilarK，a_ijSimilarK＝tmpSimilar

C：最终得到广告置信度a_ijScore＝sum(a_ijSimilarK)/threshold1；

四、判断段落a_ij是否为广告段落

遍历threshold1个网页的所有段落a_ij，比较其广告置信度a_ijScore与threshold2/threshold1，如果a_ijScore大于等于threshold2/threshold1，则是重复出现在该网页中的内容，判定为广告，进行标记为AD_ij；如果a_ijScore小于threshold2/threshold1，则是一个正文段落将不进行标记；最后得到针对网站w的广告段落合集SetADw；

其中，threshold1代表步骤一中选取的平台w下的网页数量，threshold2代表判定广告段落的最小比例阈值；threshold2的取值范围在2～threshold1之间；

通过以上一～四步骤，能够自动计算出针对移动端网站或媒体平台w的广告段落信息，为提取移动端网站或媒体平台w内其他网页中的有效文章内容提供判断段落内容是否有效的判断条件。

五、针对移动端网站或媒体平台w的其他网页b，提取其中内容步骤如下：

A：将网页b内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取，每一种标签中的内容为一个段落，然后将提取的段落按其在网页中的位置顺序标记为b_j'，1<＝j'<＝bn；其中bn代表针对网页b提取到的段落数量；

B：遍历网页b的所有段落b_j'，1<＝j'<＝bn；遍历步骤四得出网站w的广告段落集合SetADw；

如果b_j'∈SetADw，则b_j'是广告，不应当被提取；如果则b_j'是有效的文章段落，应当被提取，标记为c_j”；

C：组合所有被提取出的文章段落c_j”，按照其原有顺序排列，最终结果则显示为网页文章内容。

步骤三中广告置信度a_ijScore的算法步骤如下：

B：网页a_k中的所有段落都和a_ij段落计算相似度，初始化a_ijSimilarK＝0，遍历网页a_k中的所有段落a_kj”'，1<＝j”'<＝a_kn；其中a_kn代表针对网页a_k提取到的段落数量，进行如下计算：

b2：对段落a_kj”'，使用，。！：“”将其进行分割，记录分割后的每一句为s_kj”'p'，其中k为第k网页，j”'为第j”'个段落，p'为第p'个句子，1<＝p'<＝a_kj”'m，其中a_kj”'m代表针对网页a_k中第j”'个段落分割后的句子数量；

b3：初始化Samelength＝0,tmpSimilar＝0

b4：遍历s_ijp，1<＝p<＝a_ijm；遍历s_kj”'p'，1<＝p'<＝a_kj”'m；

如果s_ijp与s_kj”'p'完全相同，则Samelength＝Samelength+length(s_ijp)，其中length(s_ijp)代表句子s_ijp的字符长度；

b5：如果a_in-j大于等于j，tmpSimilar＝[Samelength*2/(length(a_ij)+length(a_kj”'))]*(a_in-j)/a_in；

如果a_in-j小于j，tmpSimilar＝[Samelength*2/(length(a_ij)+length(a_kj”'))]*j/a_in；

b6：如果tmpSimilar大于等于a_ijSimilarK，a_ijSimilarK＝tmpSimilar；

C：最终得到广告置信度a_ijScore＝sum(a_ijSimilarK)/threshold1。

步骤四中threshold2的取值为threshold1的1/3。

本发明能够准确地提取移动互联网网页或媒体平台内容中的文章信息，有效地去除移动端网页中的广告等无用信息，达到90％的正确率，因此使网页中或媒体平台的有效内容的抓取更加高效和准确，极大的提升当前网络爬虫技术的易用性。

附图说明

图1是本发明移动端网站或媒体平台内容提取整体取流程图。

图2是本发明检测移动端网站或媒体平台广告信息流程图。

图3是本发明段落内容广告置信度计算流程图。

图4是本发明去除广告的移动端网页内容提取流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-图4所示，本发明方法的具体步骤如下：

其中，1<＝i<＝threshold1；i为平台w中网页的编号；threshold1为针对平台w下的最少网页数量；

其中，<img></img>、<iframe></iframe>符号是网页内容中一种标记内容类型的标准符号，分别代指网页中的文字段落、图片段落、视屏段落的开始和结束，详细可以参照HTML国际标准。

b3：初始化Samelength＝0,tmpSimilar＝0

b4：遍历s_ijp 1<＝p<＝a_ijm、遍历s_kjp 1<＝p<＝a_kjm；

b5：如果a_in-j大于等于j，tmpSimilar＝[Samelength*2/(length(a_ij)+length(a_kj))]*(a_in-j)/a_in；

如果a_in-j小于j，tmpSimilar＝[Samelength*2/(length(a_ij)+length(a_kj))]*j/a_in；

b6：如果tmpSimilar大于等于a_ijSimilarK，a_ijSimilarK＝tmpSimilar；

C：最终得到广告置信度a_ijScore＝sum(a_ijSimilarK)/threshold1；

四、判断段落a_ij是否为广告段落

其中，threshold1代表步骤一中选取的平台w下的网页数量，threshold2代表判定广告段落的最小比例阈值；threshold2的取值范围在2～threshold1之间；threshold2为经验参数，通过不同取值下实际效果最好情况设置的，本实施例threshold2的取值为threshold1的1/3时效果较好。

步骤三中广告置信度a_ijScore的算法步骤如下：

b3：初始化Samelength＝0,tmpSimilar＝0

b4：遍历s_ijp，1<＝p<＝a_ijm；遍历s_kj”'p'，1<＝p'<＝a_kj”'m；

b6：如果tmpSimilar大于等于a_ijSimilarK，a_ijSimilarK＝tmpSimilar；

C：最终得到广告置信度a_ijScore＝sum(a_ijSimilarK)/threshold1。

步骤四中threshold2的取值为threshold1的1/3。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种移动互联网网页或媒体平台文章内容的准确提取方法，其特征在于，该方法的具体步骤如下：

一、获取同一移动端网站或媒体平台w下的threshold1个网页文本内容，使用已有的普适网络爬虫技术获取某一网站中网页的全部内容，针对一个网站获取5<＝threshold1<＝50个网页内容，标记获取的网页为a_i；

三、针对threshold1个网页内容的所有段落信息中的每一个段落a_ij，1<＝i<＝threshold1，1<＝j<＝a_in；

计算得到其广告置信度a_ijScore＝sum(a_ijSimilarK)/threshold1；

其中a_ijSimilarK代表a_ij针对网页a_k的相似度，1<＝k<＝threshold1；

四、判断段落a_ij是否为广告段落

所述threshold1代表步骤一中选取的平台w下的网页数量，threshold2代表判定广告段落的最小比例阈值；所述threshold2的取值范围在2～threshold1之间；

通过一～四步骤，能够自动计算出针对移动端网站或媒体平台w的广告段落信息；

2.根据权利要求1所述的移动互联网网页或媒体平台文章内容的准确提取方法，其特征在于：所述步骤三中广告置信度a_ijScore的算法步骤如下：

b3：初始化Samelength＝0,tmpSimilar＝0

b4：遍历s_ijp，1<＝p<＝a_ijm；遍历s_kj”'p'，1<＝p'<＝a_kj”'m；

b6：如果tmpSimilar大于等于a_ijSimilarK，a_ijSimilarK＝tmpSimilar；

C：最终得到广告置信度a_ijScore＝sum(a_ijSimilarK)/threshold1。

3.根据权利要求1所述的移动互联网网页或媒体平台文章内容的准确提取方法，其特征在于：所述步骤四中threshold2的取值为threshold1的1/3。