CN110309392A - 一种获取网页正文内容的方法和相关装置 - Google Patents

一种获取网页正文内容的方法和相关装置 Download PDF

Info

Publication number
CN110309392A
CN110309392A CN201910218401.7A CN201910218401A CN110309392A CN 110309392 A CN110309392 A CN 110309392A CN 201910218401 A CN201910218401 A CN 201910218401A CN 110309392 A CN110309392 A CN 110309392A
Authority
CN
China
Prior art keywords
region
image
web page
page text
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910218401.7A
Other languages
English (en)
Inventor
王泽龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou National Acoustic Intelligent Technology Co Ltd
Original Assignee
Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou National Acoustic Intelligent Technology Co Ltd filed Critical Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority to CN201910218401.7A priority Critical patent/CN110309392A/zh
Publication of CN110309392A publication Critical patent/CN110309392A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种获取网页正文内容的方法和相关装置,包括:获取目标网页的网页截图;根据预置的边缘检测算法确定组成所述网页截图的各个图像区域的轮廓;根据所述轮廓从所述各个图像区域中确定网页正文图像区域;将所述网页正文图像区域转换为文本形式的网页正文内容。本申请实施例能够对网页正文内容进行获取,并适用于不同的网站,解决了现有的方法需要根据不同网站设置相应的采集器造成的实用性低的技术问题。

Description

一种获取网页正文内容的方法和相关装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种获取网页正文内容的方法和相关装置。
背景技术
随着网络的迅速发展,互联网成为大量信息的载体。同时,随着个人博客、微博以及自媒体的发展,以及互联网媒体的快速发展,互联网页的数量现以几何级速的增长。因此,网页中的信息量和信息的更新速度都远胜于传统纸质媒介。
为了快速及时获取网页中的内容,目前的方法是针对不同的网站专门设计一套采集器,对网页中的内容进行提取,但网站的设计每变通依次,就需要重新修改依次采集器,所以这种方法不够灵活,实用性不够高。
发明内容
本申请实施例提供了一种获取网页正文内容的方法和相关装置,能够对网页正文内容进行获取,并适用于不同的网站,解决了现有的方法需要根据不同网站设置相应的采集器造成的实用性低的技术问题。
有鉴于此,本申请第一方面提供了一种获取网页正文内容的方法,包括:
获取目标网页的网页截图;
根据预置的边缘检测算法确定组成所述网页截图的各个图像区域的轮廓;
根据所述轮廓从所述各个图像区域中确定网页正文图像区域;
将所述网页正文图像区域转换为文本形式的网页正文内容。
优选地,
获取目标网页的网页截图包括:
根据预置的所述目标网页的统一资源定位符爬取目标网页的相关参数,所述相关参数包括源码和样式;
根据所述相关参数生成所述目标网页的模拟网页;
截取所述模拟网页的图像作为所述目标网页的网页截图。
优选地,
根据所述轮廓从所述各个图像区域中确定网页正文图像区域包括:
根据所述轮廓确定各个图像区域在所述网页截图中的位置;
判断各个图像区域的位置是否在预置的目标位置范围内;
将位置在所述目标位置范围内的图像区域确定为网页正文图像区域。
优选地,
根据所述轮廓从所述各个图像区域中确定网页正文图像区域包括:
根据所述轮廓确定各个图像区域的面积;
将面积最大的图像区域确定为网页正文图像区域。
优选地,
将所述网页正文图像区域转换为文本形式的网页正文内容包括:
通过图像识别技术对所述网页正文图像区域进行处理,并确定组成所述网页正文图像区域的各个图像子区域;
将各个图像子区域域转换为文本形式的内容。
优选地,
所述边缘检测算法为灰度梯度算法。
本申请第二方面提供了一种获取网页正文内容的装置,包括:
获取单元,用于获取目标网页的网页截图;
轮廓确定单元,用于根据预置的边缘检测算法确定组成所述网页截图的各个图像区域的轮廓;
网页正文图像区域确定单元,用于根据所述轮廓从所述各个图像区域中确定网页正文图像区域;
转换单元,用于将所述网页正文图像区域转换为文本形式的网页正文内容。
优选地,
所述获取单元包括:
爬取子单元,用于根据预置的所述目标网页的统一资源定位符爬取目标网页的相关参数,所述相关参数包括源码和样式;
模拟子单元,用于根据所述相关参数生成所述目标网页的模拟网页;
截取子单元,用于截取所述模拟网页的图像作为所述目标网页的网页截图。
本申请第三方面提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行本申请第一方面任一项所述的方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行本申请第一方面任一项所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种获取网页正文内容的方法,包括:获取目标网页的网页截图;根据预置的边缘检测算法确定组成网页截图的各个图像区域的轮廓;根据轮廓从各个图像区域中确定网页正文图像区域;将网页正文图像区域转换为文本形式的网页正文内容;获取网页正文内容的整个过程都是基于图像处理实现的,适用于所有网站,即使网站设计发生变化,本申请实施例提供的方法也同样适用,所以泛化性和实用性就好。
附图说明
图1为本申请实施例中一种获取网页正文内容的方法的第一实施例的流程示意图;
图2为本申请实施例中一种获取网页正文内容的方法的第二实施例的流程示意图;
图3为本申请实施例中一种获取网页正文内容的装置的结构示意图;
图4为本申请实施例中网页截图的一个实施例的示意图;
图5为本申请实施例中网页正文图像区域的一个实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例中一种获取网页正文内容的方法的第一实施例的流程示意图。
本申请第一实施例提供了一种获取网页正文内容的方法,包括:
步骤101,获取目标网页的网页截图。
需要说明的是,获取网页截图的方法有多种,本申请实施例对此不做限定,如图4所示,本申请实施例中网页截图的一个实施例的示意图。
步骤102,根据预置的边缘检测算法确定组成网页截图的各个图像区域的轮廓。
需要说明的是,边缘检测算法可以检测出一个图像中各个图像区域的轮廓,因边缘检测算法属于较成熟的现有技术,故此处不做详述。
当采用不同的边缘检测算法时,精度可能不同,检测出的轮廓可能不同;例如,在本申请实施例中,检测出的各个图像区域的轮廓可以如图4所示,在图4中用矩形粗实线表示轮廓;从轮廓划分可以看出,该网页截图主要包括位于最上方的广告区域部分、位于中间的正文区域部分和位于右侧的广告区域部分。
步骤103,根据轮廓从各个图像区域中确定网页正文图像区域。
可以理解的是,通过边缘检测算法确定了各个图像区域的轮廓,即将网页截图划分成多个图像区域,然后根据这些图像区域的轮廓确定网页正文图像区域;而确定方法有多种,本申请实施例在此不做限定。
步骤104,将网页正文图像区域转换为文本形式的网页正文内容。
需要说明的是,将图像区域转换成文本是较成熟的现有技术,故在此不做详述。
请参阅图2,本申请实施例中一种获取网页正文内容的方法的第二实施例的流程示意图。
本申请第二实施例提供了一种获取网页正文内容的方法,包括:
步骤201,根据预置的目标网页的统一资源定位符爬取目标网页的相关参数,相关参数包括源码和样式。
步骤202,根据相关参数生成目标网页的模拟网页。
步骤203,截取模拟网页的图像作为目标网页的网页截图。
可以理解的是,本申请实施例爬取目标网页的相关参数,并根据相关参数生成目标网页的模拟网页,然后再截取得到目标网页的网页截图。
步骤204,根据预置的灰度梯度算法确定组成网页截图的各个图像区域的轮廓。
在本申请实施例中,采用灰度梯度算法作为边缘检测算法,通过灰度计算得到各个图像区域的轮廓。
可以理解的是,文字区域和图像区域灰度不同,所以通过灰度梯度计算可以对文字区域和图像区域进行很好的区分。
步骤205,根据轮廓从各个图像区域中确定网页正文图像区域。
在本申请实施中,步骤205可以包括:
根据轮廓确定各个图像区域在网页截图中的位置;
判断各个图像区域的位置是否在预置的目标位置范围内;
将位置在目标位置范围内的图像区域确定为网页正文图像区域。
可以理解的是,网页正文一般位于网页中的特定区域,所以可以预先设定目标位置范围,将位于目标位置范围内的图像区域作为网页正文图像区域;例如,一般情况下,网页中央多数为网页正文,而网页两侧及上方或下方多数为广告区域,所以可以将网页截图中间的区域作为目标位置范围。
另外,目标位置范围可以根据实际需要进行设定。
步骤205还可以包括:
根据轮廓从各个图像区域中确定网页正文图像区域包括:
根据轮廓确定各个图像区域的面积;
将面积最大的图像区域确定为网页正文图像区域。
可以理解的是,网页中面积最大的区域一般为网页正文图像区域,如图4所示,图4中面积最大的区域为网页正文图像区域。
另外,需要说明的是,还可以采用面积最大与预设目标位置范围结合的方法,确定网页正文图像区域;如图4所示的网页截图,采用上述两种方法确定的网页正文图像区域如图5所示。
步骤206,通过图像识别技术对网页正文图像区域进行处理,并确定组成网页正文图像区域的各个图像子区域。
如图5所示,在网页正文图像区域中,具体包括了标题部分、正文部分以及正文插图部分等三个部分,所以可以采用图像识别技术进一步将网页正文图像区域划分成各个图像子区域。
步骤207,将各个图像子区域域转换为文本形式的内容。
可以理解的是,网页正文图像区域中的正文插图部分不能转换为文本形式的内容,因此本申请实施例仅对标题部分和正文部分进行转换。
请参阅图3,本申请实施例中一种获取网页正文内容的装置的结构示意图。
本申请实施例还提供了一种获取网页正文内容的装置的一个实施例,包括:
获取单元301,用于获取目标网页的网页截图;
轮廓确定单元302,用于根据预置的边缘检测算法确定组成网页截图的各个图像区域的轮廓;
网页正文图像区域确定单元303,用于根据轮廓从各个图像区域中确定网页正文图像区域;
转换单元304,用于将网页正文图像区域转换为文本形式的网页正文内容。
进一步地,获取单元301可以包括:
爬取子单元,用于根据预置的目标网页的统一资源定位符爬取目标网页的相关参数,相关参数包括源码和样式;
模拟子单元,用于根据相关参数生成目标网页的模拟网页;
截取子单元,用于截取模拟网页的图像作为目标网页的网页截图。
本申请实施例还提供了一种设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行本申请实施例所述的任一项的方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本申请实施例所述的任一项的方法。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种获取网页正文内容的方法,其特征在于,包括:
获取目标网页的网页截图;
根据预置的边缘检测算法确定所述网页截图中的各个区域的轮廓;
根据所述各个区域的轮廓确定网页正文区域;
将所述网页正文区域转换为文本形式的网页正文内容。
2.根据权利要求1所述的方法,其特征在于,获取目标网页的网页截图包括:
根据预置的所述目标网页的统一资源定位符爬取目标网页的相关参数,所述相关参数包括源码和样式;
根据所述相关参数生成所述目标网页的模拟网页;
截取所述模拟网页的图像作为所述目标网页的网页截图。
3.根据权利要求1所述的方法,其特征在于,根据所述各个区域的轮廓确定网页正文区域包括:
根据所述轮廓确定各个图像区域在所述网页截图中的位置;
判断各个图像区域的位置是否在预置的目标位置范围内;
将位置在所述目标位置范围内的图像区域确定为网页正文图像区域。
4.根据权利要求1所述的方法,其特征在于,根据所述轮廓从所述各个图像区域中确定网页正文图像区域包括:
根据所述轮廓确定各个图像区域的面积;
将面积最大的图像区域确定为网页正文图像区域。
5.根据权利要求1所述的方法,其特征在于,将所述网页正文图像区域转换为文本形式的网页正文内容包括:
通过图像识别技术对所述网页正文图像区域进行处理,并确定组成所述网页正文图像区域的各个图像子区域;
将各个图像子区域域转换为文本形式的内容。
6.根据权利要求1所述的方法,其特征在于,所述边缘检测算法为灰度梯度算法。
7.一种获取网页正文内容的装置,其特征在于,包括:
获取单元,用于获取目标网页的网页截图;
轮廓确定单元,用于根据预置的边缘检测算法确定组成所述网页截图的各个图像区域的轮廓;
网页正文图像区域确定单元,用于根据所述轮廓从所述各个图像区域中确定网页正文图像区域;
转换单元,用于将所述网页正文图像区域转换为文本形式的网页正文内容。
8.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
爬取子单元,用于根据预置的所述目标网页的统一资源定位符爬取目标网页的相关参数,所述相关参数包括源码和样式;
模拟子单元,用于根据所述相关参数生成所述目标网页的模拟网页;
截取子单元,用于截取所述模拟网页的图像作为所述目标网页的网页截图。
9.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-6任一项所述的方法。
CN201910218401.7A 2019-03-21 2019-03-21 一种获取网页正文内容的方法和相关装置 Pending CN110309392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910218401.7A CN110309392A (zh) 2019-03-21 2019-03-21 一种获取网页正文内容的方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910218401.7A CN110309392A (zh) 2019-03-21 2019-03-21 一种获取网页正文内容的方法和相关装置

Publications (1)

Publication Number Publication Date
CN110309392A true CN110309392A (zh) 2019-10-08

Family

ID=68075139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910218401.7A Pending CN110309392A (zh) 2019-03-21 2019-03-21 一种获取网页正文内容的方法和相关装置

Country Status (1)

Country Link
CN (1) CN110309392A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060000740A (ko) * 2004-06-29 2006-01-06 김명혜 인터넷을 이용한 광고 방법 및 시스템
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
WO2016032288A1 (en) * 2014-08-29 2016-03-03 Samsung Electronics Co., Ltd. Scrapped information providing method and apparatus
CN106446139A (zh) * 2016-09-20 2017-02-22 微梦创科网络科技(中国)有限公司 一种提取网页内容的方法及装置
CN105022803B (zh) * 2015-07-01 2018-05-15 广州市万隆证券咨询顾问有限公司 一种提取网页正文内容的方法及系统
CN109086327A (zh) * 2018-07-03 2018-12-25 中国科学院信息工程研究所 一种快速生成网页视觉结构图形的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060000740A (ko) * 2004-06-29 2006-01-06 김명혜 인터넷을 이용한 광고 방법 및 시스템
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
WO2016032288A1 (en) * 2014-08-29 2016-03-03 Samsung Electronics Co., Ltd. Scrapped information providing method and apparatus
CN105022803B (zh) * 2015-07-01 2018-05-15 广州市万隆证券咨询顾问有限公司 一种提取网页正文内容的方法及系统
CN106446139A (zh) * 2016-09-20 2017-02-22 微梦创科网络科技(中国)有限公司 一种提取网页内容的方法及装置
CN109086327A (zh) * 2018-07-03 2018-12-25 中国科学院信息工程研究所 一种快速生成网页视觉结构图形的方法及装置

Similar Documents

Publication Publication Date Title
CN103095681B (zh) 一种检测漏洞的方法及装置
KR100723867B1 (ko) 피싱웹페이지 차단 장치 및 방법
CN109685055A (zh) 一种图像中文本区域的检测方法及装置
JP6827116B2 (ja) ウェブページのクラスタリング方法及び装置
CN104750754A (zh) 网站所属行业的分类方法和服务器
KR102111192B1 (ko) 신분 정보 검증을 위한 방법 및 장치
CN109977337A (zh) 一种网页设计对比方法、装置、设备及可读存储介质
CN104133870B (zh) 一种网页相似度计算方法及装置
CN107294918B (zh) 一种钓鱼网页检测方法及装置
CN105991554A (zh) 漏洞检测方法和设备
CN104899219A (zh) 伪静态url的筛除方法、系统及网页爬取方法、系统
CN108664471A (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN106033450A (zh) 一种广告拦截的方法、装置和浏览器
CN111768405B (zh) 处理标注图像的方法、装置、设备和存储介质
CN107577944A (zh) 基于代码语法分析器的网站恶意代码检测方法及装置
CN107015986B (zh) 一种爬虫爬取网页的方法及装置
CN106878452A (zh) 一种文件上传方法、装置和系统
CN109547294A (zh) 一种基于固件分析的联网设备型号探测方法、装置
CN103136251A (zh) 识别网页的方法和装置
CN107992402A (zh) 日志管理方法及日志管理装置
CN103617262A (zh) 图片内容属性识别方法和系统
CN108363711B (zh) 一种网页中的暗链的检测方法和装置
CN111125704B (zh) 一种网页挂马识别方法及系统
CN103617261A (zh) 图片内容属性识别方法和系统
CN110309392A (zh) 一种获取网页正文内容的方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191008

RJ01 Rejection of invention patent application after publication