CN101819584A - 轻量级智能网页内容解析方法 - Google Patents

轻量级智能网页内容解析方法 Download PDF

Info

Publication number
CN101819584A
CN101819584A CN 201010126329 CN201010126329A CN101819584A CN 101819584 A CN101819584 A CN 101819584A CN 201010126329 CN201010126329 CN 201010126329 CN 201010126329 A CN201010126329 A CN 201010126329A CN 101819584 A CN101819584 A CN 101819584A
Authority
CN
China
Prior art keywords
webpage
light weight
content analysis
weight intelligent
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010126329
Other languages
English (en)
Other versions
CN101819584B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU YINPAO NETWORK TECHNOLOGY CO.,LTD.
Original Assignee
SHANGHAI INTPLE TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI INTPLE TECHNOLOGY CO LTD filed Critical SHANGHAI INTPLE TECHNOLOGY CO LTD
Priority to CN201010126329.4A priority Critical patent/CN101819584B/zh
Publication of CN101819584A publication Critical patent/CN101819584A/zh
Application granted granted Critical
Publication of CN101819584B publication Critical patent/CN101819584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明为网页内容解析提供了一种通用的轻量级智能解析方法,可以对文章类(如新闻、博客、论坛等)网页进行有效的内容解析。步骤如下:首先,下载网页HTML源码并将其转换成结构化数据模型;其次,分析结构化数据模型,收集用于定位主体内容的数据;再次,利用收集的数据,对数据模型进行进一步分析,定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置;最终,分析获取的主体内容模型,去除无用信息,得到主体内容。此外,通过交互式界面,用户可对解析结果进行合并、编辑、保存、索引,相当于为用户建立了网页内容资料库,供后期的检索使用。这种方式,有效的将分析技术、存在特性、人工干预加以结合,提供更加贴近用户的功能。

Description

轻量级智能网页内容解析方法
技术领域
本发明涉及网页内容解析领域。
背景技术
在网页内容解析系统中,需要对网页的内容进行过滤,仅保留有用的主体内容,并去除无用的信息,如广告、菜单、导航等。然而传统的解决方式是根据某网页中的HTML源码的结构,通过分析并确认主体内容的位置来进行解析。其前提是,知道某网页的源码特点和主体内容的确定位置。但是,不同的网页具有不同的源码结构和特点,这种解析方式仅能对已知的具体网页进行解析,应用范围有限。而且,网页结构一旦调整,该功能也将失效。
发明内容
本发明的目的是提供一种通用的针对文章类网页(新闻、博客、论坛等带有明显主体内容的网页)进行内容解析方法,通过分析该类网页所具有的共性和在创建时所必然具有的某些特征,结合HTML源码的结构特点来定位主体内容的位置,并获取其内容。从而为一般用户提供一快速、有效的轻量级的网页内容解析工具。
为了达到上述目的,本发明设定了一种主体内容定位算法。首先,下载并将网页HTML源码转换成结构化数据模型;其次,分析数据模型,收集用于主体内容定位的数据;再次,利用收集的数据,对数据模型进行分析,定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置;最终,分析所确定的主体内容模型,去除无用信息,获取有关的主体内容。此外,通过交互式界面作为补充,用户可对已解析成功的结果进行进一步的合并、编辑、保存、索引。相当于为用户提供了一网页内容资料库,供后期的检索使用。这种方式,有效的将分析技术、存在特性、人工干预加以结合,提供更加贴近用户的功能。
附图说明
图1为本发明的工作流程示意图。
具体实施方式
下面结合附图1对本发明所述的技术方案做进一步详细描述。
图1为智能网页内容解析所涉及的各个模块的方框图,其包括客户端和服务器端两部分,支持多个客户端连接服务器端。客户端包括网页选取和内容编辑两个部分。其中网页选取主要用于触发网页内容解析任务,内容编辑主要用于成功解析网页后,对多个网页解析的结果,进行合并、编辑、保存。服务器端主要包括任务调度系统、网页内容下载/解析、内容中心模块。
这个网页内容解析过程主要步骤如下:
1)用户选择网页并生成任务。
2)任务调度系统处理任务:
a.下载网页的HTML源码。
b.构建数据模型。
由于HTML适用广泛而且语法不是非常严格,因此构建模型需要以下几个步骤。
i.获取编码类型并进行相应的转换。
ii.对HTML源码进行补全,方便构建对象。
iii.过滤某些不规则字符,避免解析过程中出现异常。
iv.解析源码,构建对象。
c.进行内容解析,获取主体内容。
3)用户对多个网页的解析结果进行合并、编辑、保存,进而构建成文章。网页的解析结果为该网页的主体内容(如新闻网页中的新闻内容,博客网页中发表的文章、论坛网页中的内容和回复等),不需要太多的编辑。用户可根据需要进行必要的调整(如样式、排版等),并最终进行保存。保存的结果将被索引供后期的检索使用。

Claims (8)

1.一种轻量级智能网页内容解析方法,其特征在于:
1)从因特网获取网页的HTML源码。
2)利用HTML源码的结构化、层次化特性,构建数据对象。同时对不完整的HTML源码进行补充。
3)遵循网页构建时候的基本特征和开发者的常规习惯,利用文章类(如新闻、博客、论坛等)网页的基本特征,对网页的主体内容进行定位和解析。
4)获取的网页主体内容,可通过浏览器查看、编辑、保存、索引。
5)可以定制任务,定时更新结果。
2.如权利1所述的轻量级智能网页内容解析方法,其特征在于:不仅仅针对特定的网页进行解析,具有一定的通用性。
3.如权利1所述的轻量级智能网页内容解析方法,其特征在于:除了利用HTML代码的特性,还结合网页在被构建时的基本特征和该类型网页的通用特性。
4.如权利1所述的轻量级智能网页内容解析方法,其特征在于:可以将从多个网页中解析出来的内容进行合并、编辑、保存、索引,以人工干预作为必要的补充。
5.如权利2所述的轻量级智能网页内容解析方法的通用性,其特征在于:适用于新闻、博客、论坛等具有主要内容的网页,不适用于类似首页的综合网页,不适用于内容主要包含在脚本、控件中的网页。
6.如权利2所述的轻量级智能网页内容解析方法的通用性,其特征在于:主要解析的是网页中的主要文本信息,暂不包括多媒体信息。
7.如权利3所述的轻量级智能网页内容解析方法中的分析方法,其特征在于:分析新闻、博客、论坛等具有主要内容的网页的特征并在收集中针对这些特征收集必要的数据。
8.如权利4所述的轻量级智能网页内容解析方法中的人工干预方式,其特征在于:解析所得的主要内容结果一般情况下已满足需要,但用户可以对多个网页的结果进行合并、根据实际情况进行必要的定制,从而得到满足个人需要的结果,并进一步保存、索引。最终,这些数据成为入库信息,供用户使用。
CN201010126329.4A 2010-03-18 2010-03-18 轻量级智能网页内容解析方法 Active CN101819584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010126329.4A CN101819584B (zh) 2010-03-18 2010-03-18 轻量级智能网页内容解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010126329.4A CN101819584B (zh) 2010-03-18 2010-03-18 轻量级智能网页内容解析方法

Publications (2)

Publication Number Publication Date
CN101819584A true CN101819584A (zh) 2010-09-01
CN101819584B CN101819584B (zh) 2011-11-09

Family

ID=42654686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010126329.4A Active CN101819584B (zh) 2010-03-18 2010-03-18 轻量级智能网页内容解析方法

Country Status (1)

Country Link
CN (1) CN101819584B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254027A (zh) * 2011-07-29 2011-11-23 四川长虹电器股份有限公司 批量获取网页内容的方法
CN102298637A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 用于内容发布的方法和系统
CN102314502A (zh) * 2011-09-01 2012-01-11 百度在线网络技术(北京)有限公司 一种用于在移动终端上显示网页主体内容的方法和设备
WO2014026509A1 (zh) * 2012-08-14 2014-02-20 优视科技有限公司 页面显示的排版方法及装置
CN106202348A (zh) * 2016-07-04 2016-12-07 中山大学 一种网页表格信息抽取方法
CN106462555A (zh) * 2014-05-14 2017-02-22 网页云股份有限公司 用于web内容生成的方法和系统
CN108762732A (zh) * 2018-05-30 2018-11-06 南京焦点领动云计算技术有限公司 一种HTML内联CSS和内联JavaScript合并方法
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959679A (zh) * 2006-09-25 2007-05-09 北京爱笛星科技有限公司 网页微内容提取、聚合和自动更新系统的方法
CN101202748A (zh) * 2007-11-27 2008-06-18 优视动景(北京)技术服务有限公司 一种微浏览器浏览网页的方法及微浏览器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959679A (zh) * 2006-09-25 2007-05-09 北京爱笛星科技有限公司 网页微内容提取、聚合和自动更新系统的方法
CN101202748A (zh) * 2007-11-27 2008-06-18 优视动景(北京)技术服务有限公司 一种微浏览器浏览网页的方法及微浏览器

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254027A (zh) * 2011-07-29 2011-11-23 四川长虹电器股份有限公司 批量获取网页内容的方法
CN102254027B (zh) * 2011-07-29 2013-05-08 四川长虹电器股份有限公司 批量获取网页内容的方法
CN102298637A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 用于内容发布的方法和系统
CN102298637B (zh) * 2011-08-31 2015-04-15 北京中搜网络技术股份有限公司 用于内容发布的方法和系统
CN102314502A (zh) * 2011-09-01 2012-01-11 百度在线网络技术(北京)有限公司 一种用于在移动终端上显示网页主体内容的方法和设备
WO2014026509A1 (zh) * 2012-08-14 2014-02-20 优视科技有限公司 页面显示的排版方法及装置
CN106462555A (zh) * 2014-05-14 2017-02-22 网页云股份有限公司 用于web内容生成的方法和系统
CN106462555B (zh) * 2014-05-14 2020-03-31 网页云股份有限公司 用于web内容生成的方法和系统
CN106202348A (zh) * 2016-07-04 2016-12-07 中山大学 一种网页表格信息抽取方法
CN108762732A (zh) * 2018-05-30 2018-11-06 南京焦点领动云计算技术有限公司 一种HTML内联CSS和内联JavaScript合并方法
CN108762732B (zh) * 2018-05-30 2019-06-11 南京焦点领动云计算技术有限公司 一种HTML内联CSS和内联JavaScript合并方法
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质

Also Published As

Publication number Publication date
CN101819584B (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN101819584A (zh) 轻量级智能网页内容解析方法
CN109543086B (zh) 一种面向多数据源的网络数据采集与展示方法
CN102184184B (zh) 一种网页动态信息获取方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN101609399B (zh) 基于建模的智能化网站开发系统及方法
CN101976188B (zh) 面向AJAX协议的开放Api数据自动加载系统
CN1959679A (zh) 网页微内容提取、聚合和自动更新系统的方法
CN104636393A (zh) 基于用户自定义行为分析的自适应报表的构建方法
CN101561802A (zh) 网页结构化数据提取方法与系统
CN104915398A (zh) 一种网页埋点的方法及装置
CN101968817A (zh) 网页模板配置方法
CN105404693B (zh) 一种基于需求语义的服务聚类方法
CA2517189A1 (en) Web content adaption process and system
CN102065114A (zh) 一种移动终端访问网页的方法及装置
CN101872350A (zh) 网页正文抽取方法和装置
JP2006351002A5 (zh)
CN106293675A (zh) 系统静态资源加载方法及装置
CN106844782B (zh) 一种面向网络的多通道大数据采集系统及方法
CN103345532A (zh) 一种网页信息抽取方法及装置
Sharma et al. Data preprocessing algorithm for web structure mining
CN1790343A (zh) 产生接口代码以使用企业信息系统的服务的方法和系统
CN102117331A (zh) 视频搜索方法及系统
CN103544036A (zh) 页面加载方法、终端及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: 201203 Shanghai Zhangjiang hi tech park, 1623 No. 2 Cailun Road, building two storey

Patentee after: Shanghai Intple Information Technology Co.,Ltd.

Address before: 201203 Shanghai city Pudong New Area Cailun Road No. 1690 Building No. 2 Room 303

Patentee before: Shanghai Intple Information Technology Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Light weight intelligent webpage content analysis method

Effective date of registration: 20120815

Granted publication date: 20111109

Pledgee: Bank of Communications Ltd. Shanghai New District Branch

Pledgor: Shanghai Intple Information Technology Co.,Ltd.

Registration number: 2012990000446

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20131119

Granted publication date: 20111109

Pledgee: Bank of Communications Ltd. Shanghai New District Branch

Pledgor: Shanghai Intple Information Technology Co.,Ltd.

Registration number: 2012990000446

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 701, building 2, No. 525, Xizang North Road, Jing'an District, Shanghai 200070

Patentee after: SHANGHAI INTPLE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 201203 floor 2, building 2, No. 1623, Cailun Road, Zhangjiang High Tech Park, Shanghai

Patentee before: SHANGHAI INTPLE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20240531

Address after: Building 1, 3rd Floor, No. 37 Jiangjun Avenue, Jiangning District, Nanjing City, Jiangsu Province, 211106

Patentee after: JIANGSU YINPAO NETWORK TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: Room 701, building 2, No. 525, Xizang North Road, Jing'an District, Shanghai 200070

Patentee before: Shanghai Intple Information Technology Co.,Ltd.

Country or region before: China