CN103389972A - 一种基于简易信息聚合获取正文的方法及装置 - Google Patents
一种基于简易信息聚合获取正文的方法及装置 Download PDFInfo
- Publication number
- CN103389972A CN103389972A CN2013103202161A CN201310320216A CN103389972A CN 103389972 A CN103389972 A CN 103389972A CN 2013103202161 A CN2013103202161 A CN 2013103202161A CN 201310320216 A CN201310320216 A CN 201310320216A CN 103389972 A CN103389972 A CN 103389972A
- Authority
- CN
- China
- Prior art keywords
- text
- div label
- eigenwert
- webpage
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明适用于互联网信息技术领域,提供了一种基于简易信息聚合RSS获取正文的方法,包括:通过RSS的feed中统一资源定位符URL抓取网页的源代码;根据所述网页的源代码生成文件对象模型DOM,确定所述DOM中的DIV标签;根据第一预设规则统计每个所述DIV标签的特征值;将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。本发明抓取feed中URL的网页代码,根据网页的源代码生成DOM,然后统计DOM中所有DIV标签的特征值,提取特征值最大的DIV标签中的文本节点作为正文,获取正文时不需要打开正文所在页面,也不需要针对其做适配,提高了基于RSS获取正文的效率。
Description
技术领域
本发明属于互联网信息技术领域,尤其涉及一种基于简易信息聚合获取正文的方法及装置。
背景技术
简易信息聚合(Really Simple Syndication,RSS),也称为聚合内容,是一种描述和同步网站内容的形式,目前广泛应用于网上新闻频道和博客等。其应用形式如:新闻网站作为发布源将时效性较强的新闻内容以RSS的标准信息出口feed的形式推送给订阅者,而在订阅者一端,通过RSS订阅器将新闻内容以摘要的形式显示出来,若订阅者在阅读完摘要后希望阅读更为详细的新闻内容,则点击该摘要对应的链接即可查看详细的新闻内容,当新闻网站的内容更新时,RSS订阅器的相应摘要也会同步更新。上述RSS技术有利于用户有针对性地简单快捷地获取网站的内容,并且可以应用在各种终端设备中。
目前,在RSS订阅系统上只能看到网站的内容摘要,如果希望查看摘要对应的全文则必须点击该摘要的链接,进入对应的统一资源定位符(UniformResource Locator,URL)页面中查看,在终端设备上即是需要依赖浏览器等技术来显示全文。通过浏览器显示的页面中除了用户需要的全文之外,还有许多冗余的信息,如图片、广告等,而且该页面的内容样式也不一定适合该终端设备,因此大大地限制了RSS技术的广泛应用。
针对上述情况,现有的基于RSS获取全文的方法专门针对URL做适配,但是,若URL更新了其内容样式、文件对象模型(Document Object Model,DOM)层次或者布局等,则RSS订阅系统将无法正常运行。RSS订阅系统与URL的内容样式、DOM层次和布局耦合性太强,限制了可适配的URL数量。
发明内容
本发明的目的在于提供一种基于简易信息聚合获取正文的方法,旨在提高基于RSS获取正文的效率。
本发明是这样实现的,一种基于简易信息聚合获取正文的方法,包括:
通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码;
根据所述网页的源代码生成文件对象模型DOM,确定所述DOM中的DIV标签;
根据第一预设规则统计每个所述DIV标签的特征值;
将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。
本发明的另一目的在于提供一种基于简易信息聚合获取正文的装置,包括:
抓取单元,用于通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码;
生成及确定单元,用于根据所述网页的源代码生成文件对象模型DOM,确定所述DOM中的DIV标签;
统计单元,用于根据第一预设规则统计每个所述DIV标签的特征值;
提取单元,用于将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。
在本发明中,抓取feed中URL的网页代码,根据网页的源代码生成DOM,然后统计DOM中所有DIV标签的特征值,提取特征值最大的DIV标签中的文本节点作为正文,获取正文时不需要打开正文所在页面,也不需要针对其做适配,提高了基于RSS获取正文的效率。
附图说明
图1是本发明实施例提供的基于简易信息聚合获取正文的方法的实现流程图;
图2是本发明实施例提供的基于简易信息聚合获取正文的方法中通过feed中的URL抓取网页源代码的实现流程;
图3是本发明实施例提供的基于简易信息聚合获取正文的方法中的特征值计算规则库示意图;
图4是本发明实施例提供的基于简易信息聚合获取正文的方法中智能分词的实现流程;
图5本发明实施例提供的基于简易信息聚合获取正文的方法步骤S104的具体实现流程;
图6是本发明实施例提供的基于简易信息聚合获取正文的装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
RSS是一种描述和同步网站内容的形式,能够集合多个网站的内容,将网站的每一条内容以其标准信息出口feed(以下简称为feed)的形式推送给订阅者。feed中的信息包含该条内容的主题、URL、摘要、语言、授权信息、发布时间、更新时间、作者等,用户通过feed可以查看到摘要,并且当网站内容更新时,RSS能够以一定周期及时更新相应feed中的信息。
在本发明实施例中,抓取RSS的feed中URL的网页代码,根据网页的源代码生成DOM,然后统计DOM中所有DIV标签的特征值,提取特征值最大的DIV标签中的文本节点作为正文,获取正文时不需要打开正文所在页面,也不需要针对其做适配,提高了基于RSS获取正文的效率。
需要说明的是,在本发明实施例中,以新闻网站为例阐述上述基于RSS获取正文的方法,所述方法也可以应用于新闻门户网站、招聘网站、音乐网站、读书网站和游戏网站等,在此不做一一限定。
图1示出了本发明实施例提供的一种基于简易信息聚合RSS获取正文的方法的实现流程,详述如下:
在步骤S101中,通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码。
在本发明实施例中,通过RSS订阅新闻网站的新闻,以feed的形式向用户推送。通过feed中的URL抓取网页源代码的过程如图2所示,提取feed中的链接,即新闻内容所在网页的URL,通过超文本传输协议(Hypertext transferprotocol,HTTP)请求该URL,获取到该网页的HTTP应答报文后,通过合适的编码方式,如8比特统一字符编码标准(8-bit Unicode Transformation Format,UTF-8)解码该HTTP应答报文,抓取到该网页的源代码,代码使用的语言包括但不限于超文本标记语言(Hypertext Markup Language,HTML)、可扩展超文本标记语言(Extensible Hypertext Markup Language,XHTML)和(ExtensibleMarkup Language,XML)等。为了提高请求URL的成功率,在HTTP请求过程可以采用异常重试机制。
RSS的一大特点是能够在网页内容更新的同时更新相应的feed,使用户接收到最新的资讯。在本发明实施例中,启动RSS定时服务,以固定周期来更新RSS订阅的新闻内容,如每隔10分钟对feed进行一次更新,对feed更新后,重新抓取feed中URL对应的网页源代码。
在步骤S102中,根据所述网页的源代码生成文件对象模型DOM,确定所述DOM中的DIV标签。
DOM是一种面向对象方式描述的文档模型,能够以独立于平台和语言的方式访问和修改一个网页文档的内容和结构,例如能够重构HTML文档、XHTML文档和XML文档等,可以添加、移除、改变或者重排页面上的内容。
DIV标签能够为网页文档中大块的内容提供结构和背景元素,把网页文档分割为不同的部分。通常,新闻网页包含新闻的正文、其他新闻简介及链接、广告等区域,DIV标签能够根据各区域的差异,以划分网页的源代码的形式将网页的不同区域划分出来。
将DOM和DIV标签运用于RSS中获取正文,可以克服需要针对每个网站的内容样式和布局做适配的缺陷,并且能够将网页的不同区域有效地划分出来。
在本发明实施例中,将抓取到的网页源代码生成DOM,并在DOM中以DIV标签划分出上述新闻网页的几个区域,DIV标签中包含文本的节点称为文本节点。为了进一步统一不同网站的内容样式和布局,可以以一定的规则对上述DOM进行预处理,预处理规则可扩展:
根据第二预设规则将每个所述DIV标签中的内容处理为统一的段落格式。
每个网站采用的语言和编程风格不尽相同,例如有的网站以\n表示换行,而有的网站以\s表示换行,为了后续步骤能更高效地执行,对抓取到的网页源代码进行必要的预处理。在本发明实施例中,将<br/>、\n、\s等表示换行的标签替换为<p>和</p>表示的段落节点,使每个DIV标签中的内容变换为统一的段落格式,然后提取<title>节点的内容作为正文的标题。
在步骤S103中,根据第一预设规则统计每个所述DIV标签的特征值。
通过计算每个DIV标签的特征值,辨别出最有可能包含正文的DIV标签。这里需要定义一个计算特征值的规则库,计算DIV标签特征值的规则主要是依据新闻正文在该网页上的特点来制定。通常,新闻网站中,新闻正文的文本较长,出现非连续逗号较多,而广告则是对应一些链接和嵌入的标签,同一网页上其他的新闻虽然也有文本,但是都比较简洁,通常是一句话,出现非连续逗号较少。在本发明实施例中,特征值计算规则库如图3所示,根据DIV标签的类名classname/id和其中的文本节点统计每一个DIV标签的特征值。
根据DIV标签的classname/id计算特征值的规则可以为:如果DIV标签的classname/id为comment、meta、footer和footnote等非内容类型,特征值减50分,如果classname/id为URL指定的内容类型,特征值加25分。当然还可以根据情况调整计算特征值的规则。
根据DIV标签的文本节点计算特征值的规则可以为:根据所述DIV标签中的文本节点的长度,给所述DIV标签的特征值增加相应的预设分值;根据所述DIV标签中的文本节点包含的不连续逗号个数,给所述DIV标签的特征值增加相应的预设分值。例如,文本节点中的文本长度大于10时加1分;文本节点中出现了非连续逗号,按非连续逗号的个数加分。
作为本发明的另一实施例,由于在feed中已有该新闻正文的主题和摘要等信息,因此可以提取其中的关键词,与文本节点中的文本进行对比,按照其中包含的关键词个数进行加分。
在所述根据第一预设规则统计每个所述DIV标签的特征值之前,对feed中的所述网页的摘要进行智能分词,获取所述摘要中的关键词。
如图4所示,从feed中提取关键词的具体过程可以为:提取feed的主题和摘要,根据预设的中英文分词库对feed主题和摘要进行智能分词,过滤常用的人称、时态等词,最后得到多个关键词。该中英文分词库可扩展,也可以加入个性化的词库,使得关键词的提取更准确。计算文本节点中出现的关键词个数,关键词出现得越多,表明该文本节点为正文的概率越大,按照其中包含的关键词增加该DIV标签的特征值。
减少特征值分值的规则可以为:文本节点中的内容是链接或者嵌入的标签时减1分。
计算DIV标签特征值的规则可以是上述规则的任意组合,也可以加入其他规则,在此不作一一限定。
在步骤S104中,将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。
统计每个DIV标签的特征值后,对其进行对比和排序,判定特征值最大的DIV标签中包含了正文。作为本发明的一个实施例,如图5所示,步骤S104具体为:
在S501中,过滤所述特征值最大的所述DIV标签中的预设类型节点,提取出所述DIV标签中的文本节点。
特征值最大的DIV标签中,除了新闻正文外,还包含有非文本类型的节点,需要进行必要的后处理。在本发明实施例中,提取出特征值最大的DIV标签中的文本节点,清除其中所有节点的style属性,过滤<form>、<object>、<table>、<iframe>、<script>、<h1>等节点,过滤可能为广告区的节点<img>、<a>、<li>、<embed>,过滤与显示样式相关的节点<font>、<b>、<h1>、<h2>等,将多个换行符、空格符替换为一个换行符。
在S502中,将提取到的所述DIV标签中的文本节点确定为所述网页的正文。
在本发明实施例中,将提取出的文本节点作为新闻正文放入数据库,并与相应的feed关联,供用户需要时调用。当用户阅读完feed的摘要后希望阅读更为详细的内容时,可以点击查看正文的按钮,得到该条新闻的正文。
在本发明实施例中,抓取feed中URL的网页代码,根据网页的源代码生成DOM,然后统计DOM中所有DIV标签的特征值,提取特征值最大的DIV标签中的文本节点作为正文,获取正文时不需要打开正文所在页面,也不需要针对其做适配,提高了基于RSS获取正文的效率。
图6示出了本发明实施例提供的基于简易信息聚合获取正文的装置的结构框图,该装置可以位于RSS服务器,随着硬件性能的提升,也可以位于电视、手机、平板电脑和台式电脑等终端设备的RSS客户端中,用于执行本发明实施例图1至图5所述的基于简易信息聚合获取正文的方法。为了便于说明,仅示出了与本实施例相关的部分。如图6所示,该装置包括:
抓取单元61,通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码。
生成及确定单元62,根据所述网页的源代码生成文件对象模型DOM,确定所述DOM中的DIV标签。
统计单元63,根据第一预设规则统计每个所述DIV标签的特征值。
提取单元64,将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。
可选地,所述第一预设规则包括:
根据所述DIV标签中的文本节点的长度,给所述DIV标签的特征值增加相应的预设分值。
可选地,所述第一预设规则包括:
根据所述DIV标签中的文本节点包含的不连续逗号个数,给所述DIV标签的特征值增加相应的预设分值。
优选地,所述装置还包括:
智能分词单元,对feed中的所述网页的摘要进行智能分词,获取所述摘要中的关键词,则所述第一预设规则包括:对feed的主题和概述进行智能分词,得到多个关键词,根据文本节点中关键词出现的次数给该DIV标签的特征值增加相应的分值。
可选地,所述提取单元64包括:
过滤子单元,过滤所述特征值最大的所述DIV标签中的预设类型节点,提取出所述DIV标签中的文本节点。
提取子单元,将提取到的所述DIV标签中的文本节点确定为所述网页的正文。
在本发明实施例中,抓取feed中URL的网页代码,根据网页的源代码生成DOM,然后统计DOM中所有DIV标签的特征值,提取特征值最大的DIV标签中的文本节点作为正文,获取正文时不需要打开正文所在页面,也不需要针对其做适配,提高了基于RSS获取正文的效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种基于简易信息聚合获取正文的方法,其特征在于,包括:
通过基于简易信息聚合RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码;
根据所述网页的源代码生成文件对象模型DOM,确定所述DOM中的DIV标签;
根据第一预设规则统计每个所述DIV标签的特征值;
将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。
2.如权利要求1所述的方法,其特征在于,所述第一预设规则包括:
根据所述DIV标签中的文本节点的长度,给所述DIV标签的特征值增加相应的预设分值。
3.如权利要求1所述的方法,其特征在于,所述第一预设规则包括:
根据所述DIV标签中的文本节点包含的不连续逗号个数,给所述DIV标签的特征值增加相应的预设分值。
4.如权利要求1所述的方法,其特征在于,在所述根据第一预设规则统计每个所述DIV标签的特征值之前,所述方法还包括:
对feed中的所述网页的摘要进行智能分词,获取所述摘要中的关键词;
所述第一预设规则包括:
根据所述DIV标签中的文本节点包含的所述关键词个数,给所述DIV标签的特征值增加相应的预设分值。
5.如权利要求1~4任一项所述的方法,其特征在于,在所述确定所述DOM中的DIV标签之后,所述根据第一预设规则统计每个所述DIV标签的特征值之前,所述方法还包括:
根据第二预设规则将每个所述DIV标签中的内容处理为统一的段落格式。
6.如权利要求1所述的方法,其特征在于,所述将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文包括:
过滤所述特征值最大的所述DIV标签中的预设类型节点,提取出所述DIV标签中的文本节点;
将提取到的所述DIV标签中的文本节点确定为所述网页的正文。
7.一种基于简易信息聚合获取正文的装置,其特征在于,所述装置包括:
抓取单元,用于通过RSS的标准信息出口feed中的统一资源定位符URL抓取网页的源代码;
生成及确定单元,用于根据所述网页的源代码生成文件对象模型DOM,确定所述DOM中的DIV标签;
统计单元,用于根据第一预设规则统计每个所述DIV标签的特征值;
提取单元,用于将所述特征值最大的所述DIV标签中的文本节点提取为所述网页的正文。
8.如权利要求7所述的装置,其特征在于,所述第一预设规则包括:
根据所述DIV标签中的文本节点的长度,给所述DIV标签的特征值增加相应的预设分值。
9.如权利要求7所述的装置,其特征在于,所述第一预设规则包括:
根据所述DIV标签中的文本节点包含的不连续逗号个数,给所述DIV标签的特征值增加相应的预设分值。
10.如权利要求7所述的装置,其特征在于,所述装置还包括:
智能分词单元,用于对feed中的所述网页的摘要进行智能分词,获取所述摘要中的关键词;
所述第一预设规则包括:
根据所述DIV标签中的文本节点包含的所述关键词个数,给所述DIV标签的特征值增加相应的预设分值。
11.如权利要求7~10任一项所述的装置,其特征在于,所述装置还包括:
段落格式处理单元,用于根据第二预设规则将每个所述DIV标签中的内容处理为统一的段落格式。
12.如权利要求7所述的装置,其特征在于,所述提取单元包括:
过滤子单元,用于过滤所述特征值最大的所述DIV标签中的预设类型节点,提取出所述DIV标签中的文本节点;
提取子单元,用于将提取到的所述DIV标签中的文本节点确定为所述网页的正文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310320216.1A CN103389972B (zh) | 2013-07-26 | 2013-07-26 | 一种基于简易信息聚合获取正文的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310320216.1A CN103389972B (zh) | 2013-07-26 | 2013-07-26 | 一种基于简易信息聚合获取正文的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103389972A true CN103389972A (zh) | 2013-11-13 |
CN103389972B CN103389972B (zh) | 2017-12-26 |
Family
ID=49534248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310320216.1A Expired - Fee Related CN103389972B (zh) | 2013-07-26 | 2013-07-26 | 一种基于简易信息聚合获取正文的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103389972B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838880A (zh) * | 2014-03-28 | 2014-06-04 | 北京金山网络科技有限公司 | 一种网页广告过滤方法及装置 |
CN106209992A (zh) * | 2016-06-30 | 2016-12-07 | 上海斐讯数据通信技术有限公司 | 一种路由器支持rss订阅任务下载的方法及路由器 |
CN106776561A (zh) * | 2016-12-20 | 2017-05-31 | 四川长虹电器股份有限公司 | 车联网系统新闻正文提取方法 |
CN107403002A (zh) * | 2017-07-21 | 2017-11-28 | 山东师范大学 | 一种基于词汇关键度的网络论坛正文提取方法、装置 |
CN107766477A (zh) * | 2017-09-30 | 2018-03-06 | 武汉汉思信息技术有限责任公司 | 页面结构化数据提取方法、终端设备及存储介质 |
CN108205545A (zh) * | 2016-12-16 | 2018-06-26 | 百度在线网络技术(北京)有限公司 | 一种为用户提供推荐信息的方法与设备 |
CN108874934A (zh) * | 2018-06-01 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 页面正文提取方法和装置 |
CN110489543A (zh) * | 2019-08-14 | 2019-11-22 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN110516174A (zh) * | 2019-08-29 | 2019-11-29 | 百度在线网络技术(北京)有限公司 | 基于简易信息聚合获取正文的方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539923A (zh) * | 2008-03-18 | 2009-09-23 | 北京搜狗科技发展有限公司 | 从文档中提取正文片段的方法及装置 |
CN101894138A (zh) * | 2010-06-25 | 2010-11-24 | 优视科技有限公司 | 可视化页面内容订阅处理方法及系统 |
US20110125759A1 (en) * | 2009-11-17 | 2011-05-26 | Yoono, Inc | Method and system to contextualize information being displayed to a user |
CN102193944A (zh) * | 2010-03-12 | 2011-09-21 | 三星电子(中国)研发中心 | 网页主题内容抽取方法 |
CN102567530A (zh) * | 2011-12-31 | 2012-07-11 | 凤凰在线(北京)信息技术有限公司 | 一种文章类型网页智能抽取系统及其方法 |
CN102750392A (zh) * | 2012-07-09 | 2012-10-24 | 浙江省公众信息产业有限公司 | Web主题信息提取方法及系统 |
-
2013
- 2013-07-26 CN CN201310320216.1A patent/CN103389972B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539923A (zh) * | 2008-03-18 | 2009-09-23 | 北京搜狗科技发展有限公司 | 从文档中提取正文片段的方法及装置 |
US20110125759A1 (en) * | 2009-11-17 | 2011-05-26 | Yoono, Inc | Method and system to contextualize information being displayed to a user |
CN102193944A (zh) * | 2010-03-12 | 2011-09-21 | 三星电子(中国)研发中心 | 网页主题内容抽取方法 |
CN101894138A (zh) * | 2010-06-25 | 2010-11-24 | 优视科技有限公司 | 可视化页面内容订阅处理方法及系统 |
CN102567530A (zh) * | 2011-12-31 | 2012-07-11 | 凤凰在线(北京)信息技术有限公司 | 一种文章类型网页智能抽取系统及其方法 |
CN102750392A (zh) * | 2012-07-09 | 2012-10-24 | 浙江省公众信息产业有限公司 | Web主题信息提取方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838880B (zh) * | 2014-03-28 | 2017-05-24 | 北京猎豹网络科技有限公司 | 一种网页广告过滤方法及装置 |
CN103838880A (zh) * | 2014-03-28 | 2014-06-04 | 北京金山网络科技有限公司 | 一种网页广告过滤方法及装置 |
CN106209992A (zh) * | 2016-06-30 | 2016-12-07 | 上海斐讯数据通信技术有限公司 | 一种路由器支持rss订阅任务下载的方法及路由器 |
CN108205545A (zh) * | 2016-12-16 | 2018-06-26 | 百度在线网络技术(北京)有限公司 | 一种为用户提供推荐信息的方法与设备 |
CN108205545B (zh) * | 2016-12-16 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 一种为用户提供推荐信息的方法与设备 |
CN106776561A (zh) * | 2016-12-20 | 2017-05-31 | 四川长虹电器股份有限公司 | 车联网系统新闻正文提取方法 |
CN107403002B (zh) * | 2017-07-21 | 2020-01-31 | 山东师范大学 | 一种基于词汇关键度的网络论坛正文提取方法、装置 |
CN107403002A (zh) * | 2017-07-21 | 2017-11-28 | 山东师范大学 | 一种基于词汇关键度的网络论坛正文提取方法、装置 |
CN107766477A (zh) * | 2017-09-30 | 2018-03-06 | 武汉汉思信息技术有限责任公司 | 页面结构化数据提取方法、终端设备及存储介质 |
CN108874934A (zh) * | 2018-06-01 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 页面正文提取方法和装置 |
CN108874934B (zh) * | 2018-06-01 | 2021-11-30 | 百度在线网络技术(北京)有限公司 | 页面正文提取方法和装置 |
CN110489543A (zh) * | 2019-08-14 | 2019-11-22 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN110489543B (zh) * | 2019-08-14 | 2020-09-15 | 北京金堤科技有限公司 | 一种新闻摘要的提取方法及装置 |
CN110516174A (zh) * | 2019-08-29 | 2019-11-29 | 百度在线网络技术(北京)有限公司 | 基于简易信息聚合获取正文的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103389972B (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103389972A (zh) | 一种基于简易信息聚合获取正文的方法及装置 | |
EP3491544B1 (en) | Web page display systems and methods | |
US7853871B2 (en) | System and method for identifying segments in a web resource | |
CN103577466B (zh) | 一种在浏览器中显示网页内容的方法和装置 | |
US10515142B2 (en) | Method and apparatus for extracting webpage information | |
CN104185845B (zh) | 用于提供网页的二进制表示的系统和方法 | |
US8756313B2 (en) | Method and system for notifying network resource updates | |
CN103873918B (zh) | 图片处理方法、装置及终端 | |
JP6488508B2 (ja) | ウェブページのアクセス方法、装置、デバイス及びプログラム | |
US8762556B2 (en) | Displaying content on a mobile device | |
CN102779167B (zh) | 在移动终端中显示网页的方法及系统 | |
WO2015196907A1 (zh) | 一种挖掘用户需求的搜索推送方法和装置 | |
EP2687997A1 (en) | Method for rearranging web page | |
US11677809B2 (en) | Methods for transforming a server side template into a client side template and devices thereof | |
CN101764767A (zh) | 网络互联的方法、网关设备及系统 | |
CN105528369B (zh) | 网页转码方法、装置以及服务器 | |
CN103902571A (zh) | 保存网页完整内容的方法、系统及相应的客户端和服务器 | |
CN109240664A (zh) | 一种采集用户行为信息的方法及终端 | |
CN100419758C (zh) | 一种嵌入式浏览装置及方法 | |
US20010056497A1 (en) | Apparatus and method of providing instant information service for various devices | |
CN117111909A (zh) | 代码自动化生成方法、系统、计算机设备及存储介质 | |
KR100577084B1 (ko) | 단말기의 웹 페이지 표시 방법 및 장치 | |
TWI610190B (zh) | 具標籤減量化之網頁處理方法及其生成方法 | |
Li et al. | Extracting main content of webpage to enhance adaptively rendering for small screen size terminals | |
CN106372066A (zh) | 一种Web应用移动化解决方案 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171226 |