CN101819584B - 轻量级智能网页内容解析方法 - Google Patents

轻量级智能网页内容解析方法 Download PDF

Info

Publication number
CN101819584B
CN101819584B CN201010126329.4A CN201010126329A CN101819584B CN 101819584 B CN101819584 B CN 101819584B CN 201010126329 A CN201010126329 A CN 201010126329A CN 101819584 B CN101819584 B CN 101819584B
Authority
CN
China
Prior art keywords
webpage
content
data
analysis
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010126329.4A
Other languages
English (en)
Other versions
CN101819584A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU YINPAO NETWORK TECHNOLOGY CO.,LTD.
Original Assignee
SHANGHAI INTPLE TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI INTPLE TECHNOLOGY CO LTD filed Critical SHANGHAI INTPLE TECHNOLOGY CO LTD
Priority to CN201010126329.4A priority Critical patent/CN101819584B/zh
Publication of CN101819584A publication Critical patent/CN101819584A/zh
Application granted granted Critical
Publication of CN101819584B publication Critical patent/CN101819584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明为网页内容解析提供了一种通用的轻量级智能解析方法,可以对文章类(如新闻、博客、论坛等)网页进行有效的内容解析。步骤如下:首先,下载网页HTML源码并将其转换成结构化数据模型;其次,分析结构化数据模型,收集用于定位主体内容的数据;再次,利用收集的数据,对数据模型进行进一步分析,定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置;最终,分析获取的主体内容模型,去除无用信息,得到主体内容。此外,通过交互式界面,用户可对解析结果进行合并、编辑、保存、索引,相当于为用户建立了网页内容资料库,供后期的检索使用。这种方式,有效的将分析技术、存在特性、人工干预加以结合,提供更加贴近用户的功能。

Description

轻量级智能网页内容解析方法
技术领域
本发明涉及网页内容解析领域。 
背景技术
在网页内容解析系统中,需要对网页的内容进行过滤,仅保留有用的主体内容,并去除无用的信息,如广告、菜单、导航等。然而传统的解决方式是根据某网页中的HTML源码的结构,通过分析并确认主体内容的位置来进行解析。其前提是,知道某网页的源码特点和主体内容的确定位置。但是,不同的网页具有不同的源码结构和特点,这种解析方式仅能对已知的具体网页进行解析,应用范围有限。而且,网页结构一旦调整,该功能也将失效。 
发明内容
本发明的目的是提供一种通用的针对文章类网页(新闻、博客、论坛等带有明显主体内容的网页)进行内容解析方法,通过分析该类网页所具有的共性和在创建时所必然具有的某些特征,结合HTML源码的结构特点来定位主体内容的位置,并获取其内容。从而为一般用户提供一快速、有效的轻量级的网页内容解析工具。 
为了达到上述目的,本发明设定了一种主体内容定位算法。首先,下载并将网页HTML源码转换成结构化数据模型;其次,分析数据模型,收集用于主体内容定位的数据;再次,利用收集的数据,对数据模型进行分析,定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置;最终,分析所确定的主体内容模型,去除无用信息,获取有关的主体内容。此外,通过交互 式界面作为补充,用户可对已解析成功的结果进行进一步的合并、编辑、保存、索引。相当于为用户提供了一网页内容资料库,供后期的检索使用。这种方式,有效的将分析技术、存在特性、人工干预加以结合,提供更加贴近用户的功能。 
附图说明
图1为本发明的工作流程示意图。 
具体实施方式
下面结合附图1对本发明所述的技术方案做进一步详细描述。 
图1为智能网页内容解析所涉及的各个模块的方框图,其包括客户端和服务器端两部分,支持多个客户端连接服务器端。客户端包括网页选取和内容编辑两个部分。其中网页选取主要用于触发网页内容解析任务,内容编辑主要用于成功解析网页后,对多个网页解析的结果,进行合并、编辑、保存。服务器端主要包括任务调度系统、网页内容下载/解析、内容中心模块。 
这个网页内容解析过程主要步骤如下: 
1)用户选择网页并生成任务; 
2)任务调度系统处理任务: 
a.下载网页的HTML源码; 
b.构建数据模型; 
由于HTML适用广泛而且语法不是非常严格,因此构建模型需要以下几个步骤: 
i.获取编码类型并进行相应的转换; 
ii.对HTML源码进行补全,方便构建对象; 
iii.过滤某些不规则字符,避免解析过程中出现异常; 
iv.解析源码,构建对象; 
c.进行内容解析,获取主体内容; 
i.遍历节点,进行数据数据信息、文本信息、非文本信息、超链信息所占比例统计; 
ii.对所有节点的统计信息,根据相互父子、兄弟关系,比较纯文本信息量、所占比例等统计数据,确认最可能的文章标题、主要内容的父节点; 
iii.将获取的父节点所包含文字数据提出,并保存如自定义格式中。 

Claims (1)

1.一种轻量级智能网页内容解析方法,其特征在于:
1)从因特网获取网页的HTML源码,但并不获取网页中引用的图片、脚本资源,其目的是获取网页的文本数据;
2)利用HTML源码的结构化、层次化特性,构建数据对象,同时对不完整的HTML源码进行补充,确保每个标签都是完整闭合,便于后续对标签所包含数据的分析;
3)遵循网页构建时候的基本特征和开发者的常规习惯,利用新闻、博客、论坛等文章类型网页的基本特征,系统自动从根节点开始递归,自上而下对每个HTML标签所包含的数据信息、文本信息、非文本信息、超链信息所占比例进行统计、比较,以纯文本信息量及相关比例为依据,确认最可能的文章标题、主体内容的父节点;
4)对于获取到的父节点,整理其所包含的文字信息,去除菜单、导航等和文章内容无关的数据,最终获取当前网页的有效文字信息,即主要内容和标题,并以自定义格式保存;
5)所有网页都采取同样的解析方式,并且保存为自定义格式时,均不包含原有网页的HTML结构和排版信息,整个解析过程自动完成,不需要人工干预;
6)保存的网页主体内容,作为文字数据材料,可供用户处理,进行查看、编辑、合并、索引、格式转换,乃至编辑成册;
7)通过任务调度功能,可以定制任务,定时更新结果。
CN201010126329.4A 2010-03-18 2010-03-18 轻量级智能网页内容解析方法 Active CN101819584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010126329.4A CN101819584B (zh) 2010-03-18 2010-03-18 轻量级智能网页内容解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010126329.4A CN101819584B (zh) 2010-03-18 2010-03-18 轻量级智能网页内容解析方法

Publications (2)

Publication Number Publication Date
CN101819584A CN101819584A (zh) 2010-09-01
CN101819584B true CN101819584B (zh) 2011-11-09

Family

ID=42654686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010126329.4A Active CN101819584B (zh) 2010-03-18 2010-03-18 轻量级智能网页内容解析方法

Country Status (1)

Country Link
CN (1) CN101819584B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254027B (zh) * 2011-07-29 2013-05-08 四川长虹电器股份有限公司 批量获取网页内容的方法
CN102298637B (zh) * 2011-08-31 2015-04-15 北京中搜网络技术股份有限公司 用于内容发布的方法和系统
CN102314502B (zh) * 2011-09-01 2017-03-01 百度在线网络技术(北京)有限公司 一种用于在移动终端上显示网页主体内容的方法和设备
CN102831212B (zh) * 2012-08-14 2015-08-26 优视科技有限公司 页面显示的排版方法及装置
AU2015258733B2 (en) * 2014-05-14 2020-03-12 Pagecloud Inc. Methods and systems for web content generation
CN106202348A (zh) * 2016-07-04 2016-12-07 中山大学 一种网页表格信息抽取方法
CN108762732B (zh) * 2018-05-30 2019-06-11 南京焦点领动云计算技术有限公司 一种HTML内联CSS和内联JavaScript合并方法
CN112528205B (zh) * 2020-12-22 2021-10-29 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959679A (zh) * 2006-09-25 2007-05-09 北京爱笛星科技有限公司 网页微内容提取、聚合和自动更新系统的方法
CN101202748A (zh) * 2007-11-27 2008-06-18 优视动景(北京)技术服务有限公司 一种微浏览器浏览网页的方法及微浏览器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959679A (zh) * 2006-09-25 2007-05-09 北京爱笛星科技有限公司 网页微内容提取、聚合和自动更新系统的方法
CN101202748A (zh) * 2007-11-27 2008-06-18 优视动景(北京)技术服务有限公司 一种微浏览器浏览网页的方法及微浏览器

Also Published As

Publication number Publication date
CN101819584A (zh) 2010-09-01

Similar Documents

Publication Publication Date Title
CN101819584B (zh) 轻量级智能网页内容解析方法
CN103631882B (zh) 基于图挖掘技术的语义化业务生成系统和方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN104881488A (zh) 基于关系表的可配置信息抽取方法
CN102567494B (zh) 网站分类方法及装置
CN102163213B (zh) 一种语音浏览方法及浏览器
CN102063488A (zh) 一种基于语义的代码搜索方法
CN102193798B (zh) 基于Internet的OpenAPI自动获取方法
CN102521232B (zh) 一种互联网元数据的分布式采集处理系统及方法
CN106293675A (zh) 系统静态资源加载方法及装置
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN101872350A (zh) 网页正文抽取方法和装置
KR101801257B1 (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
CN103559234A (zh) RESTful Web服务的自动化语义标注系统和方法
CN106844782B (zh) 一种面向网络的多通道大数据采集系统及方法
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN112287114A (zh) 一种知识图谱服务处理方法和装置
CN105956932A (zh) 配用电数据融合方法和系统
CN101763432A (zh) 一种轻量级网页动态视图快速构建方法
CN102156749B (zh) 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统
CN103853770A (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN102831175A (zh) 一种基于云平台的水利业务Web服务库的构建方法
CN102486792A (zh) 一种将通用论坛页面重新组织和显示的方法及系统
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: 201203 Shanghai Zhangjiang hi tech park, 1623 No. 2 Cailun Road, building two storey

Patentee after: Shanghai Intple Information Technology Co.,Ltd.

Address before: 201203 Shanghai city Pudong New Area Cailun Road No. 1690 Building No. 2 Room 303

Patentee before: Shanghai Intple Information Technology Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Light weight intelligent webpage content analysis method

Effective date of registration: 20120815

Granted publication date: 20111109

Pledgee: Bank of Communications Ltd. Shanghai New District Branch

Pledgor: Shanghai Intple Information Technology Co.,Ltd.

Registration number: 2012990000446

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20131119

Granted publication date: 20111109

Pledgee: Bank of Communications Ltd. Shanghai New District Branch

Pledgor: Shanghai Intple Information Technology Co.,Ltd.

Registration number: 2012990000446

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
CP02 Change in the address of a patent holder

Address after: Room 701, building 2, No. 525, Xizang North Road, Jing'an District, Shanghai 200070

Patentee after: SHANGHAI INTPLE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 201203 floor 2, building 2, No. 1623, Cailun Road, Zhangjiang High Tech Park, Shanghai

Patentee before: SHANGHAI INTPLE INFORMATION TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20240531

Address after: Building 1, 3rd Floor, No. 37 Jiangjun Avenue, Jiangning District, Nanjing City, Jiangsu Province, 211106

Patentee after: JIANGSU YINPAO NETWORK TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: Room 701, building 2, No. 525, Xizang North Road, Jing'an District, Shanghai 200070

Patentee before: Shanghai Intple Information Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right