CN111046302A - 一种网页内容提取的方法及装置 - Google Patents

一种网页内容提取的方法及装置 Download PDF

Info

Publication number
CN111046302A
CN111046302A CN201911388946.9A CN201911388946A CN111046302A CN 111046302 A CN111046302 A CN 111046302A CN 201911388946 A CN201911388946 A CN 201911388946A CN 111046302 A CN111046302 A CN 111046302A
Authority
CN
China
Prior art keywords
content
text
webpage
extracting
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911388946.9A
Other languages
English (en)
Inventor
孙瑞娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Seal Interest Technology Co Ltd
Original Assignee
Zhuhai Seal Interest Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Seal Interest Technology Co Ltd filed Critical Zhuhai Seal Interest Technology Co Ltd
Priority to CN201911388946.9A priority Critical patent/CN111046302A/zh
Publication of CN111046302A publication Critical patent/CN111046302A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页内容提取的方法及装置,涉及网页内容提取技术领域,尤其涉及网页内容提取的方法及装置,包括如下步骤,获取网页HTML源代码;将HTML源代码进行过滤;对过滤后的内容进行重构;生成正文,完成网页内容的提取。优选地,所述对过滤后的内容进行重构之后,还包括:聚类正文内容。通过本发明,对于简单网页,能够快速提取网页相关内容,增加效率。对于复杂网页,能够提高网页内容提取准确性,从而达到高效,准确地提取网页内容。

Description

一种网页内容提取的方法及装置
技术领域
本发明涉及网页内容提取技术领域,尤其涉及网页内容提取的方法及装置。
背景技术
随着互联网的普及,越来越多的用户选择电脑、手机、平板等介质获取信息,但是由于网页的多样性,用户在查看相关信息的同时,网页会自动带出很多无关的内容,其中还充斥着很多恶意弹窗以及病毒,大大地减弱了用户的体验度以及使用方便度,如何使用户聚焦于其关心的内容上,将核心内容抓取出来进行显示,成为了本发明研究的关键问题。
目前,网页内容提取的方法有基于规则算法进行网页内容提取,通过规则算法,匹配对应内容进行提取,由于每个网站的结构、内容都不相同,所以规则算法的设计也较为复杂,同时降低了使用效率,在复杂的网页中也容易产生提取错误的情况。
因此,需要一种通用的、简单的网页内容提取方法。
发明内容
本发明的目的在于提供一种网页内容提取的方法及装置,以解决现有技术中存在的前述问题。本发明的目的由以下技术方案实现:
一种网页内容提取方法,方法包括如下步骤,
获取网页HTML源代码;
将HTML源代码进行过滤;
对过滤后的内容进行重构;
生成正文,完成网页内容的提取。
其中,所述将HTML源代码进行过滤,具体为:提取HTML代码中<body>标签内容;解析提取后的内容,在内容中查找非文本标签并输出为标签列表,遍历标签列表,针对标签执行删除操作,删除标签。
其中,所述非文本标签为<img>标签。
优选地,所述对过滤后的内容进行重构之后,还包括:聚类正文内容。
其中,所述聚类正文内容,具体为:利用HTML语言中常用<div>、<form>等标签对网页的各个板块进行分隔,将文本划分成若干个段落集合,对所述段落集合进行聚类分析,将段落中文字最多的段落当做聚类中心,获取该所述聚类中心的标签以及标签的属性作为段落的特征,根据所述特征,分别向所述聚类中心的前后聚类含有所述特征的段落,形成正文内容,提取所述正文内容。
一种包含网页内容提取方法的装置,包括存储器、控制中心、网络模块,所述存储器存储权利要求上述的一种网页内容提取方法的指令,所述控制中心调取所述存储器内指令执行。
通过本发明,对于简单网页,能够快速提取网页相关内容,增加效率。对于复杂网页,能够提高网页内容提取准确性,从而达到高效,准确地提取网页内容。
附图说明
图1为本发明一种网页内容提取的方法的流程图。
图2为本发明一种实施例中将HTML源代码进行过滤的流程图。
图3为本发明一种实施例中对过滤后的内容进行重构的流程图。
图4为本发明一种实施例中聚类正文内容的流程图。
图5为本发明一种包含网页内容提取方法的装置的结构示意图。
具体实施方式
下面结合附图对本发明进行详细阐述。
参考图1,本发明提供了一种网页内容提取的方法,包括以下步骤:
S1、获取网页HTML源代码;
浏览网页的时候,由浏览器向后台服务器发出请求,服务器接收请求后,将页面内容进行处理后返回至浏览器,浏览器将返回的内容进行显示,而浏览器进行显示的内容的编码方式为HTML代码方式,在本实施例中,通过程序语言获取服务器所返回的HTML代码,如何通过程序语言获取HTML代码,对于本领域技术人员是公知的。
S2、将HTML源代码进行过滤;
对上述的HTML代码进行解析,过滤插件及图片、按钮等与内容无关的标签控件。
参考图2,网页HTML源代码初始状态如图2中的第一个框图,将HTML源代码进行过滤的具体步骤为:
S201、提取HTML代码中<body>标签的内容;
网页分为三个部分,分别使用<header>标签、<body>标签以及<footer>标签进行区分,网页主体内容设置于<body>标签中,内容以<body>开头,以</body>结尾,寻找<body>位置设定为起始位置,在紧靠着起始位置寻找</body>设定为结束为止,提取开始位置和结束位置之间的内容,视为<body>标签的内容,提取后的内容如图2中的第二个框图,接下来的步骤只对提取后的内容进行操作。
S202、解析提取后的内容,在内容中查找非文本标签并输出为标签列表,在本实施例中,非文本标签为<img>。根据网页的开发规范,<img>标签用于定义网页的图片,不属于用于文字显示的标签。遍历标签列表,针对标签执行删除操作,删除标签。通过遍历删除非文本标签,留下文本标签内容即为所要提取的网页内容,如图2中的第三个框图。
S3、对过滤后的内容进行重构;
参考图3,由于上一步骤对部分标签进行了删除,可能存在删除后存在标签内容为空的情况,解析过滤后的内容,获取网页标签并输出为标签列表,遍历标签列表,判断标签内是否存在内容,若存在内容,则保留,若不存在内容,则将标签删除,如<div></div>视为不存在内容,则执行方法将此<div>标签进行删除。关于获取标签并输出为标签列表、遍历标签、删除标签,对于本领域技术人员是公知的。
S4、聚类正文内容;
在本实施例中,广告信息、菜单、网友评论等不属于正文内容的文本,都可以定义为噪声,需要进行去除。
首先,利用HTML语言中常用标签对网页的各个板块进行分隔,在本实施例中,使用<div>、<form>标签对网页的各个板块进行分割,将文本划分成若干个段落集合,对段落集合进行聚类分析,将段落中文字最多的段落当做聚类中心,获取该聚类中心的标签以及标签的属性作为段落的特征。
例如,中心段落的标签为<div>和属性为<divclass=”content”style=”float:left”>,那么,根据该特征,分别向聚类中心的前后聚类含有该特征的段落,形成正文内容,提取该正文内容,如图4所示。
S5、生成正文,完成网页内容的提取;
通过本实施例的方法,针对简单网页,通过过滤的方式,将非文本标签,例如<img>等与内容无关的标签进行删除,能够迅速定位网页主要内容。针对复杂网页,在聚类文本之前先对HTML源代码进行过滤,简化HTML源代码的代码结构,能够使聚类方法更加高效,准确。
本发明还提出一种包含网页内容提取方法的装置。
作为本发明优选的实施方式,参考图5,一种包含网页内容提取方法的装置100,包括存储器101、控制中心102、网络模块103。
存储器存储指令,在本实施例中,存储器存储以下指令:
S1、获取网页HTML源代码;
S2、将HTML源代码进行过滤;
S3、对过滤后的内容进行重构;
S4、聚类正文内容;
S5、生成正文,完成网页内容的提取;
网络模块与控制中心相连,控制中心与存储器相连。控制中心调取存储器内指令执行,其中获取网页HTML源代码为通过网络模块对网络服务器进行请求获取。
在本实施例中,控制中心由相同功能或不同功能封装的集成电路所组成,包含至少一个中央处理器,显示装置及各种控制芯片的组合等。
以上实施例仅为本发明较佳实施例而已,不能以此来限定本发明的权利范围,凡是依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (6)

1.一种网页内容提取方法,其特征在于,所述方法包括如下步骤,
获取网页HTML源代码;
将HTML源代码进行过滤;
对过滤后的内容进行重构;
生成正文,完成网页内容的提取。
2.如权利要求1所述的一种网页内容提取方法,其特征在于,所述将HTML源代码进行过滤,具体为:提取HTML代码中<body>标签内容;解析提取后的内容,在内容中查找非文本标签并输出为标签列表,遍历标签列表,针对标签执行删除操作,删除标签。
3.如权利要求2所述的一种网页内容提取方法,其特征在于,所述非文本标签为<img>标签。
4.如权利要求1所述的一种网页内容提取方法,其特征在于,所述对过滤后的内容进行重构之后,还包括:
聚类正文内容。
5.如权利要求4所述的一种网页内容提取方法,其特征在于,所述聚类正文内容,具体为:
利用HTML语言中的常用标签对网页的各个板块进行分隔,将文本划分成若干个段落集合,对所述段落集合进行聚类分析,将段落中文字最多的段落当做聚类中心,获取该所述聚类中心的标签以及标签的属性作为段落的特征,根据所述特征,分别向所述聚类中心的前后聚类含有所述特征的段落,形成正文内容,提取所述正文内容。
6.一种包含网页内容提取方法的装置,其特征在于,包括存储器、控制中心、网络模块,所述存储器存储权利要求1到5中任一项所述的一种网页内容提取方法的指令,所述控制中心调取所述存储器内指令执行。
CN201911388946.9A 2019-12-30 2019-12-30 一种网页内容提取的方法及装置 Pending CN111046302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911388946.9A CN111046302A (zh) 2019-12-30 2019-12-30 一种网页内容提取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911388946.9A CN111046302A (zh) 2019-12-30 2019-12-30 一种网页内容提取的方法及装置

Publications (1)

Publication Number Publication Date
CN111046302A true CN111046302A (zh) 2020-04-21

Family

ID=70241323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911388946.9A Pending CN111046302A (zh) 2019-12-30 2019-12-30 一种网页内容提取的方法及装置

Country Status (1)

Country Link
CN (1) CN111046302A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530429A (zh) * 2013-11-04 2014-01-22 北京中搜网络技术股份有限公司 一种网页正文抽取的方法
WO2017008448A1 (zh) * 2015-07-14 2017-01-19 中国互联网络信息中心 一种网页核心内容提取方法
CN109271598A (zh) * 2018-08-01 2019-01-25 数据地平线(广州)科技有限公司 一种抽取新闻网页内容的方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530429A (zh) * 2013-11-04 2014-01-22 北京中搜网络技术股份有限公司 一种网页正文抽取的方法
WO2017008448A1 (zh) * 2015-07-14 2017-01-19 中国互联网络信息中心 一种网页核心内容提取方法
CN109271598A (zh) * 2018-08-01 2019-01-25 数据地平线(广州)科技有限公司 一种抽取新闻网页内容的方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵文等: "基于统计的中文网页正文抽取的研究", 《电脑知识与技术》 *

Similar Documents

Publication Publication Date Title
US20150067476A1 (en) Title and body extraction from web page
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
KR101393794B1 (ko) 입력기의 종류를 결정하는 단말기 및 방법
US20130339840A1 (en) System and method for logical chunking and restructuring websites
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
EP2162833A1 (en) A method, system and computer program for intelligent text annotation
CN109271598B (zh) 一种抽取新闻网页内容的方法、装置及存储介质
CN111625748A (zh) 网站的导航栏信息提取方法、装置、电子设备及存储介质
CN113050808A (zh) 在输入框中突出显示目标文本的方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN113419721B (zh) 基于web的表达式编辑方法、装置、设备和存储介质
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN113901169A (zh) 信息处理方法、装置、电子设备及存储介质
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN107783983B (zh) 信息展示方法及装置
JP2008077634A (ja) モバイル機器におけるフォーム自動記入方法および装置
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
CN112380337A (zh) 基于富文本的高亮方法及装置
US20120150899A1 (en) System and method for selectively generating tabular data from semi-structured content
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN110489528B (zh) 基于电子书内容的电子词典重构方法及计算设备
CN111046302A (zh) 一种网页内容提取的方法及装置
CN111259259B (zh) 大学生新闻推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421

RJ01 Rejection of invention patent application after publication