CN106227858B - 一种移动互联网网页或媒体平台文章内容的准确提取方法 - Google Patents

一种移动互联网网页或媒体平台文章内容的准确提取方法 Download PDF

Info

Publication number
CN106227858B
CN106227858B CN201610608825.0A CN201610608825A CN106227858B CN 106227858 B CN106227858 B CN 106227858B CN 201610608825 A CN201610608825 A CN 201610608825A CN 106227858 B CN106227858 B CN 106227858B
Authority
CN
China
Prior art keywords
paragraph
webpage
threshold1
content
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610608825.0A
Other languages
English (en)
Other versions
CN106227858A (zh
Inventor
汪子涵
陈新
丛军伟
汤怀
张伟峰
杜义明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orange Culture Medium Co Ltd
Original Assignee
Beijing Orange Culture Medium Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orange Culture Medium Co Ltd filed Critical Beijing Orange Culture Medium Co Ltd
Priority to CN201610608825.0A priority Critical patent/CN106227858B/zh
Publication of CN106227858A publication Critical patent/CN106227858A/zh
Application granted granted Critical
Publication of CN106227858B publication Critical patent/CN106227858B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种移动互联网网页或媒体平台文章内容的准确提取方法,步骤分为获取同一移动端网站或媒体平台w下的threshold1个网页文本内容,标记获取的网页为ai;将网页ai内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取;针对threshold1个网页内容的所有段落信息中的每一个段落aij计算得到其广告置信度aijScore=sum(aijSimilarK)/threshold1;判断段落aij是否为广告段落;组合所有被提取出的文章段落cj”,按照其原有顺序排列,最终显示为网页文章内容。本发明能够有效地去除移动端网页中的广告等无用信息,极大的提升当前网络爬虫技术的易用性。

Description

一种移动互联网网页或媒体平台文章内容的准确提取方法
技术领域
本发明涉及一种提取方法,尤其涉及一种移动互联网网页或媒体平台文章内容的准确提取方法。
背景技术
网络爬虫是一个自动提取网页内容的程序,它为搜索引擎从移动互联网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,然后再根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。
目前的网络爬虫技术能够完整的抓取移动端网页中的所有内容,但是存在提取的网页内容包含了如广告文字、图片、链接等相关无效信息,无法准确的定位其中有效的内容信息的问题。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种移动互联网网页或媒体平台文章内容的准确提取方法。
为了解决以上技术问题,本发明采用的技术方案是:一种移动互联网网页或媒体平台文章内容的准确提取方法,该方法的具体步骤如下:
一、获取同一移动端网站或媒体平台w下的threshold1个网页文本内容,使用已有的普适网络爬虫技术获取某一网站中网页的全部内容,针对一个网站获取5<=threshold1<=50个网页内容,标记获取的网页为ai
其中,1<=i<=threshold1;i为平台w中网页的编号;所述threshold1为针对平台w下的最少网页数量;
二、提取网页内容中的文字段落、图片、视频资源链接,然后将获取到的threshold1个网页内容,针对其中每一网页ai中的内容进行如下操作:
将网页ai内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落;将提取的段落按其在网页中的位置顺序标记为aij,1<=j<=ain;其中ain代表针对网页ai提取到的段落数量;
三、针对threshold1个网页内容的所有段落信息中的每一个段落aij,1<=i<=threshold1,1<=j<=ain;计算得到其广告置信度aijScore算法步骤如下:
A:计算aij针对每一个网页的相似度,遍历threshold1个网页内容,对网页ak,1<=k<=threshold1;计算相似度aijSimilarK如下:
B:网页ak中的所有段落都和aij段落计算相似度,初始化aijSimilarK=0,遍历网页ak中的所有段落akj,1<=j<=akn;其中akn代表针对网页ak提取到的段落数量,进行如下计算:
b1:对段落aij,使用,。!:“”将其进行分割,记录分割后的每一句为sijp,其中i为第i网页,j为第j个段落,p为第p个句子,1<=p<=aijm,其中aijm代表针对网页ai中第j个段落分割后的句子数量;
b2:对段落akj,使用,。!:“”将其进行分割,记录分割后的每一句为skjp,其中k为第k网页,j为第j个段落,p为第p个句子,1<=p<=akjm,其中akjm代表针对网页ak中第j个段落分割后的句子数量;
b3:初始化Samelength=0,tmpSimilar=0
b4:遍历sijp 1<=p<=aijm、遍历skjp 1<=p<=akjm
如果sijp与skjp完全相同,则Samelength=Samelength+length(sijp),其中length(sijp)代表句子sijp的字符长度;
b5:如果ain-j大于等于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj))]*(ain-j)/ain
如果ain-j小于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj))]*j/ain
b6:如果tmpSimilar大于等于aijSimilarK,aijSimilarK=tmpSimilar
C:最终得到广告置信度aijScore=sum(aijSimilarK)/threshold1;
四、判断段落aij是否为广告段落
遍历threshold1个网页的所有段落aij,比较其广告置信度aijScore与threshold2/threshold1,如果aijScore大于等于threshold2/threshold1,则是重复出现在该网页中的内容,判定为广告,进行标记为ADij;如果aijScore小于threshold2/threshold1,则是一个正文段落将不进行标记;最后得到针对网站w的广告段落合集SetADw;
其中,threshold1代表步骤一中选取的平台w下的网页数量,threshold2代表判定广告段落的最小比例阈值;threshold2的取值范围在2~threshold1之间;
通过以上一~四步骤,能够自动计算出针对移动端网站或媒体平台w的广告段落信息,为提取移动端网站或媒体平台w内其他网页中的有效文章内容提供判断段落内容是否有效的判断条件。
五、针对移动端网站或媒体平台w的其他网页b,提取其中内容步骤如下:
A:将网页b内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落,然后将提取的段落按其在网页中的位置顺序标记为bj',1<=j'<=bn;其中bn代表针对网页b提取到的段落数量;
B:遍历网页b的所有段落bj',1<=j'<=bn;遍历步骤四得出网站w的广告段落集合SetADw;
如果bj'∈SetADw,则bj'是广告,不应当被提取;如果则bj'是有效的文章段落,应当被提取,标记为cj”
C:组合所有被提取出的文章段落cj”,按照其原有顺序排列,最终结果则显示为网页文章内容。
步骤三中广告置信度aijScore的算法步骤如下:
A:计算aij针对每一个网页的相似度,遍历threshold1个网页内容,对网页ak,1<=k<=threshold1;计算相似度aijSimilarK如下:
B:网页ak中的所有段落都和aij段落计算相似度,初始化aijSimilarK=0,遍历网页ak中的所有段落akj”',1<=j”'<=akn;其中akn代表针对网页ak提取到的段落数量,进行如下计算:
b1:对段落aij,使用,。!:“”将其进行分割,记录分割后的每一句为sijp,其中i为第i网页,j为第j个段落,p为第p个句子,1<=p<=aijm,其中aijm代表针对网页ai中第j个段落分割后的句子数量;
b2:对段落akj”',使用,。!:“”将其进行分割,记录分割后的每一句为skj”'p',其中k为第k网页,j”'为第j”'个段落,p'为第p'个句子,1<=p'<=akj”'m,其中akj”'m代表针对网页ak中第j”'个段落分割后的句子数量;
b3:初始化Samelength=0,tmpSimilar=0
b4:遍历sijp,1<=p<=aijm;遍历skj”'p',1<=p'<=akj”'m
如果sijp与skj”'p'完全相同,则Samelength=Samelength+length(sijp),其中length(sijp)代表句子sijp的字符长度;
b5:如果ain-j大于等于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj”'))]*(ain-j)/ain
如果ain-j小于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj”'))]*j/ain
b6:如果tmpSimilar大于等于aijSimilarK,aijSimilarK=tmpSimilar;
C:最终得到广告置信度aijScore=sum(aijSimilarK)/threshold1。
步骤四中threshold2的取值为threshold1的1/3。
本发明能够准确地提取移动互联网网页或媒体平台内容中的文章信息,有效地去除移动端网页中的广告等无用信息,达到90%的正确率,因此使网页中或媒体平台的有效内容的抓取更加高效和准确,极大的提升当前网络爬虫技术的易用性。
附图说明
图1是本发明移动端网站或媒体平台内容提取整体取流程图。
图2是本发明检测移动端网站或媒体平台广告信息流程图。
图3是本发明段落内容广告置信度计算流程图。
图4是本发明去除广告的移动端网页内容提取流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1-图4所示,本发明方法的具体步骤如下:
一、获取同一移动端网站或媒体平台w下的threshold1个网页文本内容,使用已有的普适网络爬虫技术获取某一网站中网页的全部内容,针对一个网站获取5<=threshold1<=50个网页内容,标记获取的网页为ai
其中,1<=i<=threshold1;i为平台w中网页的编号;threshold1为针对平台w下的最少网页数量;
二、提取网页内容中的文字段落、图片、视频资源链接,然后将获取到的threshold1个网页内容,针对其中每一网页ai中的内容进行如下操作:
将网页ai内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落;将提取的段落按其在网页中的位置顺序标记为aij,1<=j<=ain;其中ain代表针对网页ai提取到的段落数量;
其中,<img></img>、<iframe></iframe>符号是网页内容中一种标记内容类型的标准符号,分别代指网页中的文字段落、图片段落、视屏段落的开始和结束,详细可以参照HTML国际标准。
三、针对threshold1个网页内容的所有段落信息中的每一个段落aij,1<=i<=threshold1,1<=j<=ain;计算得到其广告置信度aijScore算法步骤如下:
A:计算aij针对每一个网页的相似度,遍历threshold1个网页内容,对网页ak,1<=k<=threshold1;计算相似度aijSimilarK如下:
B:网页ak中的所有段落都和aij段落计算相似度,初始化aijSimilarK=0,遍历网页ak中的所有段落akj,1<=j<=akn;其中akn代表针对网页ak提取到的段落数量,进行如下计算:
b1:对段落aij,使用,。!:“”将其进行分割,记录分割后的每一句为sijp,其中i为第i网页,j为第j个段落,p为第p个句子,1<=p<=aijm,其中aijm代表针对网页ai中第j个段落分割后的句子数量;
b2:对段落akj,使用,。!:“”将其进行分割,记录分割后的每一句为skjp,其中k为第k网页,j为第j个段落,p为第p个句子,1<=p<=akjm,其中akjm代表针对网页ak中第j个段落分割后的句子数量;
b3:初始化Samelength=0,tmpSimilar=0
b4:遍历sijp 1<=p<=aijm、遍历skjp 1<=p<=akjm
如果sijp与skjp完全相同,则Samelength=Samelength+length(sijp),其中length(sijp)代表句子sijp的字符长度;
b5:如果ain-j大于等于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj))]*(ain-j)/ain
如果ain-j小于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj))]*j/ain
b6:如果tmpSimilar大于等于aijSimilarK,aijSimilarK=tmpSimilar;
C:最终得到广告置信度aijScore=sum(aijSimilarK)/threshold1;
四、判断段落aij是否为广告段落
遍历threshold1个网页的所有段落aij,比较其广告置信度aijScore与threshold2/threshold1,如果aijScore大于等于threshold2/threshold1,则是重复出现在该网页中的内容,判定为广告,进行标记为ADij;如果aijScore小于threshold2/threshold1,则是一个正文段落将不进行标记;最后得到针对网站w的广告段落合集SetADw;
其中,threshold1代表步骤一中选取的平台w下的网页数量,threshold2代表判定广告段落的最小比例阈值;threshold2的取值范围在2~threshold1之间;threshold2为经验参数,通过不同取值下实际效果最好情况设置的,本实施例threshold2的取值为threshold1的1/3时效果较好。
通过以上一~四步骤,能够自动计算出针对移动端网站或媒体平台w的广告段落信息,为提取移动端网站或媒体平台w内其他网页中的有效文章内容提供判断段落内容是否有效的判断条件。
五、针对移动端网站或媒体平台w的其他网页b,提取其中内容步骤如下:
A:将网页b内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落,然后将提取的段落按其在网页中的位置顺序标记为bj',1<=j'<=bn;其中bn代表针对网页b提取到的段落数量;
B:遍历网页b的所有段落bj',1<=j'<=bn;遍历步骤四得出网站w的广告段落集合SetADw;
如果bj'∈SetADw,则bj'是广告,不应当被提取;如果则bj'是有效的文章段落,应当被提取,标记为cj”
C:组合所有被提取出的文章段落cj”,按照其原有顺序排列,最终结果则显示为网页文章内容。
步骤三中广告置信度aijScore的算法步骤如下:
A:计算aij针对每一个网页的相似度,遍历threshold1个网页内容,对网页ak,1<=k<=threshold1;计算相似度aijSimilarK如下:
B:网页ak中的所有段落都和aij段落计算相似度,初始化aijSimilarK=0,遍历网页ak中的所有段落akj”',1<=j”'<=akn;其中akn代表针对网页ak提取到的段落数量,进行如下计算:
b1:对段落aij,使用,。!:“”将其进行分割,记录分割后的每一句为sijp,其中i为第i网页,j为第j个段落,p为第p个句子,1<=p<=aijm,其中aijm代表针对网页ai中第j个段落分割后的句子数量;
b2:对段落akj”',使用,。!:“”将其进行分割,记录分割后的每一句为skj”'p',其中k为第k网页,j”'为第j”'个段落,p'为第p'个句子,1<=p'<=akj”'m,其中akj”'m代表针对网页ak中第j”'个段落分割后的句子数量;
b3:初始化Samelength=0,tmpSimilar=0
b4:遍历sijp,1<=p<=aijm;遍历skj”'p',1<=p'<=akj”'m
如果sijp与skj”'p'完全相同,则Samelength=Samelength+length(sijp),其中length(sijp)代表句子sijp的字符长度;
b5:如果ain-j大于等于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj”'))]*(ain-j)/ain
如果ain-j小于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj”'))]*j/ain
b6:如果tmpSimilar大于等于aijSimilarK,aijSimilarK=tmpSimilar;
C:最终得到广告置信度aijScore=sum(aijSimilarK)/threshold1。
步骤四中threshold2的取值为threshold1的1/3。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (3)

1.一种移动互联网网页或媒体平台文章内容的准确提取方法,其特征在于,该方法的具体步骤如下:
一、获取同一移动端网站或媒体平台w下的threshold1个网页文本内容,使用已有的普适网络爬虫技术获取某一网站中网页的全部内容,针对一个网站获取5<=threshold1<=50个网页内容,标记获取的网页为ai
其中,1<=i<=threshold1;i为平台w中网页的编号;所述threshold1为针对平台w下的最少网页数量;
二、提取网页内容中的文字段落、图片、视频资源链接,然后将获取到的threshold1个网页内容,针对其中每一网页ai中的内容进行如下操作:
将网页ai内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落;将提取的段落按其在网页中的位置顺序标记为aij,1<=j<=ain;其中ain代表针对网页ai提取到的段落数量;
三、针对threshold1个网页内容的所有段落信息中的每一个段落aij,1<=i<=threshold1,1<=j<=ain
计算得到其广告置信度aijScore=sum(aijSimilarK)/threshold1;
其中aijSimilarK代表aij针对网页ak的相似度,1<=k<=threshold1;
四、判断段落aij是否为广告段落
遍历threshold1个网页的所有段落aij,比较其广告置信度aijScore与threshold2/threshold1,如果aijScore大于等于threshold2/threshold1,则是重复出现在该网页中的内容,判定为广告,进行标记为ADij;如果aijScore小于threshold2/threshold1,则是一个正文段落将不进行标记;最后得到针对网站w的广告段落合集SetADw;
所述threshold1代表步骤一中选取的平台w下的网页数量,threshold2代表判定广告段落的最小比例阈值;所述threshold2的取值范围在2~threshold1之间;
通过一~四步骤,能够自动计算出针对移动端网站或媒体平台w的广告段落信息;
五、针对移动端网站或媒体平台w的其他网页b,提取其中内容步骤如下:
A:将网页b内容按照html标准进行<p>与</p>之间文字段落、<img>标签中图片链接、<iframe>标签中视频链接等内容的提取,每一种标签中的内容为一个段落,然后将提取的段落按其在网页中的位置顺序标记为bj',1<=j'<=bn;其中bn代表针对网页b提取到的段落数量;
B:遍历网页b的所有段落bj',1<=j'<=bn;遍历步骤四得出网站w的广告段落集合SetADw;
如果bj'∈SetADw,则bj'是广告,不应当被提取;如果则bj'是有效的文章段落,应当被提取,标记为cj”
C:组合所有被提取出的文章段落cj”,按照其原有顺序排列,最终结果则显示为网页文章内容。
2.根据权利要求1所述的移动互联网网页或媒体平台文章内容的准确提取方法,其特征在于:所述步骤三中广告置信度aijScore的算法步骤如下:
A:计算aij针对每一个网页的相似度,遍历threshold1个网页内容,对网页ak,1<=k<=threshold1;计算相似度aijSimilarK如下:
B:网页ak中的所有段落都和aij段落计算相似度,初始化aijSimilarK=0,遍历网页ak中的所有段落akj”',1<=j”'<=akn;其中akn代表针对网页ak提取到的段落数量,进行如下计算:
b1:对段落aij,使用,。!:“”将其进行分割,记录分割后的每一句为sijp,其中i为第i网页,j为第j个段落,p为第p个句子,1<=p<=aijm,其中aijm代表针对网页ai中第j个段落分割后的句子数量;
b2:对段落akj”',使用,。!:“”将其进行分割,记录分割后的每一句为skj”'p',其中k为第k网页,j”'为第j”'个段落,p'为第p'个句子,1<=p'<=akj”'m,其中akj”'m代表针对网页ak中第j”'个段落分割后的句子数量;
b3:初始化Samelength=0,tmpSimilar=0
b4:遍历sijp,1<=p<=aijm;遍历skj”'p',1<=p'<=akj”'m
如果sijp与skj”'p'完全相同,则Samelength=Samelength+length(sijp),其中length(sijp)代表句子sijp的字符长度;
b5:如果ain-j大于等于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj”'))]*(ain-j)/ain
如果ain-j小于j,tmpSimilar=[Samelength*2/(length(aij)+length(akj”'))]*j/ain
b6:如果tmpSimilar大于等于aijSimilarK,aijSimilarK=tmpSimilar;
C:最终得到广告置信度aijScore=sum(aijSimilarK)/threshold1。
3.根据权利要求1所述的移动互联网网页或媒体平台文章内容的准确提取方法,其特征在于:所述步骤四中threshold2的取值为threshold1的1/3。
CN201610608825.0A 2016-07-28 2016-07-28 一种移动互联网网页或媒体平台文章内容的准确提取方法 Expired - Fee Related CN106227858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610608825.0A CN106227858B (zh) 2016-07-28 2016-07-28 一种移动互联网网页或媒体平台文章内容的准确提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610608825.0A CN106227858B (zh) 2016-07-28 2016-07-28 一种移动互联网网页或媒体平台文章内容的准确提取方法

Publications (2)

Publication Number Publication Date
CN106227858A CN106227858A (zh) 2016-12-14
CN106227858B true CN106227858B (zh) 2019-06-25

Family

ID=57536530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610608825.0A Expired - Fee Related CN106227858B (zh) 2016-07-28 2016-07-28 一种移动互联网网页或媒体平台文章内容的准确提取方法

Country Status (1)

Country Link
CN (1) CN106227858B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870064A (zh) * 2020-06-30 2021-12-31 北京奇虎科技有限公司 智能终端的广告取证方法、系统、存储介质及其计算机设备
CN117708434B (zh) * 2024-01-09 2024-06-28 青岛睿哲信息技术有限公司 一种基于关键词的用户推荐浏览内容生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508859A (zh) * 2011-09-29 2012-06-20 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN102541874A (zh) * 2010-12-16 2012-07-04 中国移动通信集团公司 网页正文内容提取方法及装置
CN102945244A (zh) * 2012-09-24 2013-02-27 南京大学 基于句号特征字串的中文网页重复文档检测和过滤方法
CN103699591A (zh) * 2013-12-11 2014-04-02 湖南大学 一种基于示例页面的网页正文提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886636B2 (en) * 2008-12-23 2014-11-11 Yahoo! Inc. Context transfer in search advertising

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541874A (zh) * 2010-12-16 2012-07-04 中国移动通信集团公司 网页正文内容提取方法及装置
CN102508859A (zh) * 2011-09-29 2012-06-20 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN102945244A (zh) * 2012-09-24 2013-02-27 南京大学 基于句号特征字串的中文网页重复文档检测和过滤方法
CN103699591A (zh) * 2013-12-11 2014-04-02 湖南大学 一种基于示例页面的网页正文提取方法

Also Published As

Publication number Publication date
CN106227858A (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
CN103793697B (zh) 一种人脸图像的身份标注方法及人脸身份识别方法
CN104035997B (zh) 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法
CN103824053B (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
US9436682B2 (en) Techniques for machine language translation of text from an image based on non-textual context information from the image
Chen et al. Shadow information recovery in urban areas from very high resolution satellite imagery
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN105045847B (zh) 一种从文本信息中提取中文机构单位名称的方法
DE202011110876U1 (de) Identifizieren von Betrieben in Bildern
CN106055667A (zh) 一种基于文本‑标签密度的网页核心内容提取方法
CN104615701B (zh) 基于视频云平台的智慧城市嵌入式大数据可视化引擎集群
CN103745454A (zh) 一种基于排序学习的图像处理算法或系统的评价方法
CN104484347B (zh) 一种基于地理信息的层次化视觉特征提取方法
CN108829661A (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN106227858B (zh) 一种移动互联网网页或媒体平台文章内容的准确提取方法
CN103942211A (zh) 一种正文页的识别方法及装置
Xu et al. Pixel-level pavement crack detection using enhanced high-resolution semantic network
CN102073678A (zh) 一种网站信息分析系统及其方法
CN106326451A (zh) 一种基于视觉特征提取的网页传感信息块判决方法
CN108920955B (zh) 一种网页后门检测方法、装置、设备及存储介质
CN104504104B (zh) 用于搜索引擎的图片物料处理方法、装置和搜索引擎
CN104615728B (zh) 一种网页正文提取方法及装置
Hua Challenges and practices of large scale visual intelligence in the real-world
CN103942224B (zh) 一种获取网页分块的标注规则的方法及装置
CN105187415A (zh) 钓鱼网页检测方法
CN113766308A (zh) 视频封面推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190625

Termination date: 20200728

CF01 Termination of patent right due to non-payment of annual fee