CN100512181C - 一种互联网内容信息的提取方法和提取系统 - Google Patents

一种互联网内容信息的提取方法和提取系统 Download PDF

Info

Publication number
CN100512181C
CN100512181C CNB2006100904105A CN200610090410A CN100512181C CN 100512181 C CN100512181 C CN 100512181C CN B2006100904105 A CNB2006100904105 A CN B2006100904105A CN 200610090410 A CN200610090410 A CN 200610090410A CN 100512181 C CN100512181 C CN 100512181C
Authority
CN
China
Prior art keywords
source code
address
extraction
web page
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100904105A
Other languages
English (en)
Other versions
CN101094135A (zh
Inventor
郭欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB2006100904105A priority Critical patent/CN100512181C/zh
Publication of CN101094135A publication Critical patent/CN101094135A/zh
Application granted granted Critical
Publication of CN100512181C publication Critical patent/CN100512181C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种互联网内容信息的提取方法,包括:A、获取目标网页的源代码;B、在目标网页的源代码中提取与预定提取条件所匹配的地址链接;C、根据步骤B提取成功的地址链接获取其对应的正文网页源代码;D、在步骤C获取的正文网页源代码中提取符合预定提取条件的内容信息;当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。本发明还同时公开了一种互联网内容信息的提取系统。本发明可以使用户能够根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容。

Description

一种互联网内容信息的提取方法和提取系统
技术领域
本发明涉及计算机、互联网技术领域,尤其涉及一种互联网内容信息的提取方法和提取系统。
背景技术
互联网发展到如今,其包含的资讯内容已经达到了海量的地步,但是这些咨询内容分散在互联网中的成千上万个站点上,给人们的浏览带来了极大的不便。在这样的情况下,互联网内容提取技术越来越受到重视,它能够主动提取资讯内容,为内容聚合、内容挖掘、内容发布等业务提供原始数据。
互联网资讯内容的提取和搜索引擎是不同的概念。搜索引擎是通过用户输入的关键字,查找与关键字存在某种关系的网页,并将这些符合要求的网页地址罗列显示给用户。
互联网资讯内容的提取是通过用户输入的策略要求,对指定站点进行分析,找到符合要求的资讯内容,并且分别提取资讯内容的标题、作者、来源、发布时间、正文、图片等信息,然后通过一定的接口将这些提取的信息交付给其它应用程序,比如发布系统等。
目前存在一种基于可扩展标记语言(XML)的资讯内容提取技术,简称为“RSS”,是一种内容发布和展现格式,只包含数据,采用XML组织而成。图1为RSS的原理示意图。参见图1,在RSS方式下,资讯内容网站首先必须发布自己的RSS,即提供一个XML页面,该页面展示一定数量的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等。随后,用户通过一定的方式找到自己感兴趣的RSS,进行订阅。以后每隔一段时间刷新这个RSS,得到所订阅的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等,通过点击浏览正文地址链接,用户可以跳转到发布该RSS的咨询内容站点上浏览内容原文。
为了使用户方便订阅RSS,目前还出现了很多RSS阅读工具,包括桌面工具和Web工具,它们可以保存用户订阅的RSS,根据用户设置的时间间隔,定期的获取最新资讯内容,提醒用户浏览。
但是,上述现有技术存在以下的技术问题:
1)并非所有的资讯内容站点都提供RSS。根据图1所示,可以清晰地看到,采用上述现有技术的先决条件是,资讯内容站点必须首先发布RSS,用户才有可能进行订阅。但是对于互联网海量的资讯而言,发布RSS的站点只占很少一部分,而大部分的资讯站点仍然采用传统的网页浏览方式。
2)RSS内容依赖于资讯内容站点提供方。目前,许多资讯内容站点提供的RSS并没有覆盖该站点内所有的资讯,而只是提供了一小部分内容,对于RSS没有提供的内容,通过现有技术的方式就无法获得,这就用户限制了提取信息的主动性。
3)通过RSS无法获取并保存正文内容。目前的RSS只提供正文地址链接,而不提供正文的内容,用户必须访问正文地址链接所指向的网址,才能浏览正文,因此降低了用户的浏览速度。
发明内容
有鉴于此,本发明的主要目的在于提供一种互联网内容信息的提取方法,使用户可以根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容,而不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。
本发明的又一目的在于提供一种互联网内容信息的提取系统,使用户可以根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容,而不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。
为了实现上述发明目的,本发明的主要技术方案为:
一种互联网内容信息的提取方法,该方法包括:
A、获取目标网页的源代码;
B、在目标网页的源代码中提取与预定提取条件所匹配的地址链接;
C、根据步骤B提取成功的地址链接获取其对应的正文网页源代码;
D、在步骤C获取的正文网页源代码中提取符合预定提取条件的内容信息;当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
优选地,针对某一目标网页,循环执行所述步骤A到步骤D,且步骤B中进一步包括:过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
优选地,步骤D所述的预定提取条件中包括匹配条件和过滤条件;步骤D具体包括:先从所述正文网页源代码中提取与匹配条件匹配的内容信息,再根据过滤条件过滤匹配后的内容信息。
优选地,步骤B所述的匹配方式为正则表达式匹配;步骤D所述的匹配方式为:正则表达式匹配、或上下文匹配、或正则表达式匹配和上下文匹配。
优选地,在匹配过程中,当匹配到一个以上相同内容信息时,则只从中提取第一次匹配到的内容信息。
优选地,所述过滤条件包括:需过滤的字符串、以及用于标明是否过滤掉超文本标记语言标签的标记。
优选地,步骤D的预定提取条件中包括用来标明过滤JS代码和或广告代码的标记,且步骤D进一步包括:先判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再进行所述的匹配和过滤,如果没有则直接进行所述的匹配和过滤。
优选地,步骤D中进一步包括:当正文网页源代码中含有分页标签时,获得所有分页内容的地址链接,对所有非本页的分页地址链接重新执行步骤C和步骤D。
一种互联网内容信息的提取系统,该系统包括:
设置单元:用于为用户提供目标网页和预定提取条件的设置接口,并保存所设置的内容;
第一获取单元,用于获取设置单元中所设置的目标网页源代码;
第一提取单元,用于在第一获取单元获取的目标网页源代码中提取与所述设置单元中所设预定提取条件所匹配的地址链接;
第二获取单元,用于根据第一提取单元提取成功的地址链接获取其对应的正文网页源代码;
第二提取单元,用于在第二获取单元获取的正文网页源代码中提取符合设置单元所设预定提取条件的内容信息;当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
优选的,所述提取系统针对某一目标网页进行循环处理;所述第一提取单元中进一步包括过滤单元,用于过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
优选的,所述预定提取条件中包括匹配条件和过滤条件;所述第二提取单元进一步包括:匹配单元,用于从所述正文网页源代码中提取与匹配条件匹配的内容信息;过滤单元,用于根据过滤条件过滤所述匹配单元匹配后的内容信息。
优选的,所述第二提取单元进一步包括:扩展过滤单元,用于判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再将过滤后的源代码发给所述匹配单元进行处理,如果没有则直接将源代码发给所述匹配单元进行处理。
优选的,所述第二提取单元进一步包括:图片处理单元,用于判断正文网页源代码是否含有图片标签,如果有则获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
优选的,所述第二提取单元进一步包括:分页处理单元,用于判断正文网页源代码中是否含有分页标签,如果有则获得所有分页内容的地址链接,将所有非本页的分页地址链接发给第二获取单元处理。
由于本发明采用主动的方式获取目标网页的源代码,提取其中的地址链接,再主动地获取该链接的源代码,从中获取所需的内容信息,所以说本发明相对于现有技术采用了主动获取的技术,而且可以为用户提供设置接口,由用户根据需要主动设置所述的预定条件,因此本发明使用户可以根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容,而不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。
本发明还提供了互联网内容信息的自动增量式提取技术,可以减少客户端处理资源的重复浪费,提高提取效率。
本发明还可以获取资讯网站各条资讯链接的内容,从而可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。
本发明在提取信息的过程中可以过滤掉JS代码和广告代码等干扰信息,克服了直接从资讯网站获取资讯内容时必须被迫接收其中过多干扰信息的缺点。
本发明还提供了有效的图片的本地化技术,有助于加快图片的浏览显示速度;而且,本发明还提供了多页内容的提取技术,可以实现对相关联的多个网页内容信息的提取。
附图说明
图1为RSS的原理示意图;
图2为本发明所述互联网内容信息的提取系统的结构示意图;
图3为本发明所述互联网内容信息的提取方法的流程图;
图4为根据地址链接获取其对应的正文网页源代码并从中提取符合预定提取条件的内容信息的具体流程图。
具体实施方式
下面通过具体实施例和附图对本发明做进一步详细说明。
本发明的核心思想为:采用主动的方式获取目标网页的源代码,提取其中的地址链接,再主动地获取该链接的源代码,从中获取所需的内容信息。
图2为本发明所述互联网内容信息的提取系统的结构示意图。参见图2,所述互联网内容信息的提取系统21包括:
设置单元201:用于为用户提供目标网页和预定提取条件的设置接口,并保存所设置的内容;用户可以通过设置接口定制所需访问的目标资讯内容站点的目标网页(该目标网页一般为一索引网页)和定制针对该网页及其索引地址对应网页的预定提取条件。
第一获取单元202,与设置单元201连接,用于从目标资讯内容站点上获取设置单元中所设置的目标网页源代码。
第一提取单元203,与设置单元201和第一获取单元202连接,用于在第一获取单元202获取的目标网页源代码中提取与所述设置单元201中所设预定提取条件所匹配的地址链接。
第二获取单元204,与第一提取单元203连接,用于根据第一提取单元203提取成功的地址链接从目标资讯内容站点上获取所述地址链接对应的正文网页源代码;
第二提取单元205,与设置单元201和第二获取单元204连接,用于在第二获取单元204获取的正文网页源代码中提取符合设置单元201所设预定提取条件的内容信息。
本发明所述的提取系统21可以设置在独立的服务器上,独立于资讯内容站点,因此可以采用主动的方式提取用户所需的资讯内容。
图3为本发明所述互联网内容信息的提取方法的流程图。参见图3,该流程包括:
步骤301、获取目标网页(一般为索引网页)的源代码。所述源代码为超文本标记语言(Html)源代码,由于Web页面的Html源代码是开放的,所以任何对于网页的请求都可以获得Html源代码,通过超文本传输协议(HTTP)协议,可以得到目标页面的Html源代码。
步骤302、在目标网页的源代码中提取与预定提取条件所匹配的地址链接。这里的提取条件为正则表达式,比如“http://www\.xinahuanet\.com/news/[0-9]{8}_content\.htm”,在目标页面Html源代码中获得该正则表达式匹配的地址链接列表,这里得到的列表包括了该目标网页中所有的资讯内容地址链接,也包括已经提取过的地址链接。
步骤303、根据步骤302提取成功的地址链接获取其对应的正文网页源代码;
步骤304、在步骤303获取的正文网页源代码中提取符合预定提取条件的内容信息。
本发明采用主动提取方式,并且可以由用户预定一套固定格式的提取条件,用户对各个资讯内容站点按照格式定制相应的提取条件,通过这些,后台程序将循环增量式提取这些站点的最新资讯内容,包括标题、作者、来源、发布时间、正文、图片等。所述增量式提取是指只提取新增的内容,对于已经提取过的内容不再提取。
所述预定提取条件中包括以下内容:
1)目标网页的索引地址,比如某资讯内容站点频道的首页地址。步骤301中就是根据这些目标网页的地址通过HTTP协议获取目标网页的源代码。
2)能够匹配所述目标页面上资讯内容地址链接的正则表达式。步骤302中所述的提取条件就是该正则表达式。
3)用于提取各个正文网页内容的提取条件,即步骤304中所述的预定提取条件。
以下用一个具体的示例说明该用于提取各个正文网页内容的提取条件的内容。表1为用于提取各个正文网页内容的提取条件的一个内容示例表。参见表1,该提取条件为提取内容的各部分定义了匹配条件和过滤条件,例如匹配条件可以为匹配字符串和匹配模式等信息,过滤条件可以为过滤字符串、和表明是否过滤Html标签的标记等信息。其中匹配条件和过滤条件的具体内容可以由用户根据需要进行设置。
 
标题匹配字符串 class=′txt18′height=′50′>|</td>
标题过滤字符串
标题匹配模式 上下文标签
标题是否过滤Html
来源匹配字符串 来源:|</td>
来源过滤字符串
来源匹配模式 上下文标签
来源是否过滤Html
时间匹配字符串 [0-9]{4}-[0-9]{2}-[0-9]{2}.*[0-9]{2}:[0-9]{2}|[0-9]{4}年[0-9]{2}月[0-9]{2}日.*[0-9]{2}:[0-9]{2}
时间过滤字符串
时间匹配模式 正则表达式
时间是否过滤Html
分类匹配字符串 首页.*</a>
分类过滤字符串 首页
分类匹配模式 正则表达式
分类是否过滤Html
正文匹配字符串 <td class="p1">|<table width="
正文过滤字符串
正文匹配模式 上下文标签
正文是否过滤Html
广告开始标签 <!--NEWSZW_HZH_BEGIN-->
广告结束标签 <!--NEWSZW_HZH_END-->
汉字编码 Gb2312
分页正则表达式 target=_blank>[0-9]+</a>
表1
针对每个目标网页,所述的提取系统都对应设置有这样类似的一份提取条件,保存在本提取系统的数据库中。且针对每个目标网页,提取系统的后台程序取得所述提取条件后,根据该提取条件的描述,进行所述的提取处理,即执行上述步骤301至步骤304。
由于资讯内容站点的内容会处于随时的更新中,因此针对某一目标网页,可按照预定的周期循环执行所述步骤301到步骤304;且步骤302中进一步过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。具体的为:对于提取成功的与预定提取条件所匹配的地址链接,判断该地址链接是否在之前的循环处理中已经被提取成功过,是则将该地址链接过滤掉,否则将该地址链接交由步骤303处理;对于提取失败的与预定提取条件所匹配的地址链接,判断是否超过预定的提取次数,如果是则将该地址链接过滤掉,否则递增其实际的提取次数,待下次循环处理时再提取。
图4为根据地址链接获取其对应的正文网页源代码并从中提取符合预定提取条件的内容信息的具体流程图。参见图4,该流程为上述步骤303和步骤304的一个具体实施例,具体包括:
步骤401、根据步骤302提取成功的资讯内容地址链接获取其对应的正文网页源代码,即资讯内容的Html源代码。
步骤402、本步骤为一个可选步骤,由于正文中有时可能包含JS(即Javascript,是一种脚本语言)代码和或广告代码以及其它干扰代码,则需首先要过滤它们,防止它们对匹配正文内容的干扰,因此可以在所述的预定提取条件(可以参见表1)中设置用来标明过滤JS代码和或广告代码的标记和或其他过滤条件,并需执行本步骤402,具体为:
先判断所述正文网页源代码中是否含有JS代码和或广告代码和或其他需过滤的信息,如果有则先将JS代码和或广告代码和或所述其他信息过滤掉,再执行步骤403,如果没有则直接执行步骤403。
所述过滤JS代码的方法可以是在Html源代码中寻找JS闭合标签“<script”和“</script>”,并将其包含的内容删除。
所述过滤广告代码需要根据具体网页所定制的代码分析规则来进行,所述代码分析规则中指定了广告开始标签和结束标签,通过这些标签可以找到广告代码片断,从而删除。
步骤403、从所述正文网页源代码中提取与所述匹配条件(可以参见表1)匹配的内容信息。所述所匹配的内容信息类别为:标题、作者、来源、时间、正文、图片中的任一种或任意种组合。
此处的匹配方式可以是正则表达式匹配、或上下文匹配、或正则表达式匹配和上下文匹配。其中,正则表达式匹配是指:通过在匹配条件中指定一个正则表达式,来匹配相应的内容,比如,某资讯发布日期的正则表达式为“[0-9]{4}-[0-9]{2}-[0-9]{2}”,该正则表达式可以匹配到“2006-05-30”这样的日期;上下文匹配是指:通过在匹配条件中指定要提取内容的上下文标签,可以提取上下文标签中间的内容,比如,某资讯标题的上下文标签为“<h1>|</h1>”,其中用“|”表示上下文标签的分隔符。
在匹配过程中,当匹配到一个以上相同内容信息时,则只从中提取第一次匹配到的内容信息。
步骤404、根据所述过滤条件过滤匹配后的内容信息。可以通过提取条件的设置,例如表1的设置,对于某项内容是否需过滤且过滤什么内容等,所述过滤条件包括:需过滤的字符串、以及用于标明是否过滤掉超文本标记语言Html标签的标记,对于步骤403匹配后的各个内容信息可以根据所述过滤条件进行过滤,例如过滤掉某些字符串和或过滤掉Html标签。
步骤405、对过滤后的正文网页源代码进行后期处理,其中包括:
1)当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。当所述图片地址为相对地址时,则通过资讯内容页面的地址进行组合,获得图片的绝对地址,通过请求该绝对地址将图片保存至本地。这样可以将图片保存到本地,有助于加快图片的浏览显示速度。
2)当正文网页源代码中含有分页标签时,获得所有分页内容的地址链接,对所有非本页的分页地址链接,重新执行步骤303和步骤304,并且与第一页进行链接。
3)按照预定的正文格式对经过上述提取处理的符合预定提取条件的内容信息进行格式处理。例如排版操作等,以利于用户浏览查看。
一般的,步骤302提取成功的资讯内容地址链接的数目有一个以上,因此对于每个地址链接都需要执行图4所述的处理流程。
通过上述流程的处理,就可以输出用户需要的文章内容和图片,从而使用户从所述目标网页获取需要的资讯内容信息。
需要说明的是:所述过滤JS代码和或广告代码和或其它干扰代码的操作,处理图片的操作和处理分页的操作没有严格的先后顺序,也可以并行处理。
与上述方法对应,本发明所述的提取系统针对某一目标网页可进行循环处理;所述第一提取单元203中进一步包括过滤单元,用于过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
本发明所述提取系统中的第二提取单元205中可以包括:
匹配单元,用于从所述正文网页源代码中提取与预定提取条件中包括的匹配条件匹配的内容信息;过滤单元,用于根据预定提取条件中包括的过滤条件过滤所述匹配单元匹配后的内容信息。
扩展过滤单元,用于判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再将过滤后的源代码发给所述匹配单元进行处理,如果没有则直接将源代码发给所述匹配单元进行处理。
图片处理单元,用于判断正文网页源代码是否含有图片标签,如果有则获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
分页处理单元,用于判断正文网页源代码中是否含有分页标签,如果有则获得所有分页内容的地址链接,将所有非本页的分页地址链接发给第二获取单元204处理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (14)

1、一种互联网内容信息的提取方法,其特征在于,该方法包括:
A、获取目标网页的源代码;
B、在目标网页的源代码中提取与预定提取条件所匹配的地址链接;
C、根据步骤B提取成功的地址链接获取其对应的正文网页源代码;
D、在步骤C获取的正文网页源代码中提取符合预定提取条件的内容信息;当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
2、根据权利要求1所述的方法,其特征在于,针对某一目标网页,循环执行所述步骤A到步骤D,且步骤B中进一步包括:过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
3、根据权利要求1或2所述的方法,其特征在于,步骤D所述的预定提取条件中包括匹配条件和过滤条件;步骤D具体包括:先从所述正文网页源代码中提取与匹配条件匹配的内容信息,再根据过滤条件过滤匹配后的内容信息。
4、根据权利要求3所述的方法,其特征在于,步骤B所述的匹配方式为正则表达式匹配;步骤D所述的匹配方式为:正则表达式匹配、或上下文匹配、或正则表达式匹配和上下文匹配。
5、根据权利要求3所述的方法,其特征在于,在匹配过程中,当匹配到一个以上相同内容信息时,则只从中提取第一次匹配到的内容信息。
6、根据权利要求3所述的方法,其特征在于,所述过滤条件包括:需过滤的字符串、以及用于标明是否过滤掉超文本标记语言标签的标记。
7、根据权利要求3所述的方法,其特征在于,步骤D的预定提取条件中包括用来标明过滤JS代码和或广告代码的标记,且步骤D进一步包括:先判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再进行所述的匹配和过滤,如果没有则直接进行所述的匹配和过滤。
8、根据权利要求1所述的方法,其特征在于,步骤D中进一步包括:当正文网页源代码中含有分页标签时,获得所有分页内容的地址链接,对所有非本页的分页地址链接重新执行步骤C和步骤D。
9、一种互联网内容信息的提取系统,其特征在于,该系统包括:
设置单元:用于为用户提供目标网页和预定提取条件的设置接口,并保存所设置的内容;
第一获取单元,用于获取设置单元中所设置的目标网页源代码;
第一提取单元,用于在第一获取单元获取的目标网页源代码中提取与所述设置单元中所设预定提取条件所匹配的地址链接;
第二获取单元,用于根据第一提取单元提取成功的地址链接获取其对应的正文网页源代码;
第二提取单元,用于在第二获取单元获取的正文网页源代码中提取符合设置单元所设预定提取条件的内容信息;当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
10、根据权利要求9所述的提取系统,其特征在于,所述提取系统针对某一目标网页进行循环处理;所述第一提取单元中进一步包括过滤单元,用于过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
11、根据权利要求9所述的提取系统,其特征在于,所述预定提取条件中包括匹配条件和过滤条件;所述第二提取单元进一步包括:匹配单元,用于从所述正文网页源代码中提取与匹配条件匹配的内容信息;过滤单元,用于根据过滤条件过滤所述匹配单元匹配后的内容信息。
12、根据权利要求11所述的提取系统,其特征在于,所述第二提取单元进一步包括:扩展过滤单元,用于判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再将过滤后的源代码发给所述匹配单元进行处理,如果没有则直接将源代码发给所述匹配单元进行处理。
13、根据权利要求10所述的提取系统,其特征在于,所述第二提取单元进一步包括:图片处理单元,用于判断正文网页源代码是否含有图片标签,如果有则获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
14、根据权利要求9所述的提取系统,其特征在于,所述第二提取单元进一步包括:分页处理单元,用于判断正文网页源代码中是否含有分页标签,如果有则获得所有分页内容的地址链接,将所有非本页的分页地址链接发给第二获取单元处理。
CNB2006100904105A 2006-06-23 2006-06-23 一种互联网内容信息的提取方法和提取系统 Active CN100512181C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100904105A CN100512181C (zh) 2006-06-23 2006-06-23 一种互联网内容信息的提取方法和提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100904105A CN100512181C (zh) 2006-06-23 2006-06-23 一种互联网内容信息的提取方法和提取系统

Publications (2)

Publication Number Publication Date
CN101094135A CN101094135A (zh) 2007-12-26
CN100512181C true CN100512181C (zh) 2009-07-08

Family

ID=38992180

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100904105A Active CN100512181C (zh) 2006-06-23 2006-06-23 一种互联网内容信息的提取方法和提取系统

Country Status (1)

Country Link
CN (1) CN100512181C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170784A (zh) * 2017-12-26 2018-06-15 佛山市道静科技有限公司 一种提取互联网上内容信息的方法及系统

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261643B (zh) * 2008-05-04 2012-01-11 腾讯科技(深圳)有限公司 网站页面信息统计方法及装置
CN101639772A (zh) * 2008-07-31 2010-02-03 国际商业机器公司 生成视窗标题的方法和装置
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN102023998B (zh) * 2009-09-21 2015-05-20 创新科技有限公司 用于处理网页以便在手持设备上显示的方法和装置
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN102375857B (zh) * 2010-08-24 2014-08-13 腾讯科技(深圳)有限公司 一种搜索方法和装置
CN101937469B (zh) * 2010-09-15 2012-09-05 任子行网络技术股份有限公司 视频网站的信息抓取方法
CN101997915B (zh) * 2010-10-29 2014-01-08 中国电信股份有限公司 深度包检测装置、网页数据处理方法、采集方法及系统
CN102073678B (zh) * 2010-12-03 2013-02-27 厦门市美亚柏科信息股份有限公司 一种网站信息分析系统及其方法
CN102043862B (zh) * 2010-12-29 2012-10-17 重庆新媒农信科技有限公司 网页数据定向抓取方法
CN103164435B (zh) * 2011-12-13 2016-03-09 北大方正集团有限公司 一种网络数据的采集方法和系统
CN102567521B (zh) * 2011-12-29 2013-08-07 维构(上海)文化传媒有限公司 网页数据抓取过滤方法
CN102722563B (zh) * 2012-05-31 2014-12-03 优视科技有限公司 页面显示方法及装置
CN102722580A (zh) * 2012-06-07 2012-10-10 杭州电子科技大学 一种下载视频网站动态生成视频评论的方法
CN102750392B (zh) * 2012-07-09 2014-07-16 浙江省公众信息产业有限公司 Web主题信息提取方法及系统
CN102819613B (zh) * 2012-08-28 2015-11-25 北京奇虎科技有限公司 Rss信息分页抓取系统及方法
CN102929596B (zh) * 2012-09-21 2016-01-06 华为技术有限公司 代码排查方法和相关装置
CN102929992A (zh) * 2012-10-22 2013-02-13 卢屹韦 网上新闻信息定期自动抓取方法
CN103838728B (zh) * 2012-11-21 2018-01-09 腾讯科技(深圳)有限公司 网页信息的处理方法及浏览器
CN103020263A (zh) * 2012-12-24 2013-04-03 北京小米科技有限责任公司 一种网页信息的保存方法、装置及终端
CN103064943B (zh) * 2012-12-25 2016-11-23 北京奇虎科技有限公司 一种客户端设备
CN103902578B (zh) * 2012-12-27 2017-05-31 中国移动通信集团四川有限公司 一种网页信息抽取方法和装置
CN103150389B (zh) * 2013-03-21 2017-05-10 北京奇虎科技有限公司 对网页文本内容匹配设置进行处理的方法和装置
CN104090933A (zh) * 2014-06-25 2014-10-08 武汉传神信息技术有限公司 一种网络信息窗口显示的方法
CN104360882B (zh) * 2014-11-07 2018-07-27 北京奇虎科技有限公司 一种浏览器中对网页中图片进行显示方法和装置
CN104572901B (zh) * 2014-12-25 2018-12-18 小米科技有限责任公司 网页数据的下载方法及装置
CN104537128A (zh) * 2015-01-30 2015-04-22 广联达软件股份有限公司 一种网页信息提取方法及装置
CN104915415A (zh) * 2015-06-08 2015-09-16 浪潮集团有限公司 一种分布式互联网数据采集解析系统
CN105468730A (zh) * 2015-11-20 2016-04-06 广州华多网络科技有限公司 一种网页信息提取方法及其设备
CN105550165A (zh) * 2015-12-23 2016-05-04 深圳市八零年代网络科技有限公司 可将网页文章导入网页文本编辑器的插件及方法
CN105930346A (zh) * 2016-04-06 2016-09-07 清华大学 互联网案例信息提取方法及装置
CN105938496A (zh) * 2016-05-27 2016-09-14 深圳市永兴元科技有限公司 网页内容提取方法及装置
CN107623624B (zh) * 2016-07-15 2021-03-16 阿里巴巴集团控股有限公司 提供通知消息的方法及装置
CN107766384A (zh) * 2016-08-22 2018-03-06 北京国双科技有限公司 一种确定页面发布时间的方法和装置
CN107168948A (zh) * 2017-04-19 2017-09-15 广州视源电子科技股份有限公司 一种语句识别方法与系统
CN109522282B (zh) * 2018-09-29 2024-02-02 中国平安人寿保险股份有限公司 图片管理方法、装置、计算机装置及存储介质
CN109558123B (zh) * 2018-12-03 2022-09-16 掌阅科技股份有限公司 网页转化电子书的方法、电子设备、存储介质
CN110175288B (zh) * 2019-05-23 2020-05-19 中国搜索信息科技股份有限公司 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN111026984A (zh) * 2019-11-07 2020-04-17 国家计算机网络与信息安全管理中心 互联网金融公司的经营状态检测方法及装置
CN113886661A (zh) * 2021-12-06 2022-01-04 北京并行科技股份有限公司 一种信息获取方法、装置及计算设备
CN114201971B (zh) * 2021-12-13 2023-06-13 海南港航控股有限公司 一种从网页中提取人物属性的方法及系统
CN114417216B (zh) * 2022-01-04 2022-11-29 马上消费金融股份有限公司 数据采集方法、装置、电子设备及可读存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
基于网页内容的网站地理位置信息提取. 高朝华等.全国搜索引擎与网上信息挖掘学术研讨会. 2003
基于网页内容的网站地理位置信息提取. 高朝华等.全国搜索引擎与网上信息挖掘学术研讨会. 2003 *
对因特网上自动信息提取的研究. 吕津等.数据通信,第1期. 2000
对因特网上自动信息提取的研究. 吕津等.数据通信,第1期. 2000 *
虚拟数据库技术在产品质量评价中的应用. 翟敬梅等.现代制造工程,第4期. 2004
虚拟数据库技术在产品质量评价中的应用. 翟敬梅等.现代制造工程,第4期. 2004 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170784A (zh) * 2017-12-26 2018-06-15 佛山市道静科技有限公司 一种提取互联网上内容信息的方法及系统

Also Published As

Publication number Publication date
CN101094135A (zh) 2007-12-26

Similar Documents

Publication Publication Date Title
CN100512181C (zh) 一种互联网内容信息的提取方法和提取系统
CN100444174C (zh) 网页微内容提取、聚合和自动更新系统的方法
CN101427229B (zh) 用于修改向计算机系统的终端用户显示的信息表示的技术
US6675350B1 (en) System for collecting and displaying summary information from disparate sources
US20100030752A1 (en) System, methods and applications for structured document indexing
KR100377515B1 (ko) 인터넷광고 관리방법 및 이를 위한 시스템
WO2007064874A3 (en) Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
CN101231641A (zh) 一种自动分析互联网上热点主题传播过程的方法及系统
JP2006309515A (ja) 情報配信方法および情報配信サーバ
CN102831252A (zh) 一种用于更新索引数据库的方法及装置、搜索方法和系统
Sundaramoorthy et al. Newsone—an aggregation system for news using web scraping method
CN103207874A (zh) 一种网页更新内容的提示方法及系统
JP2007279901A (ja) ドキュメントに関連するデータを送信する方法
CN103235800A (zh) 一种搜索结果的预览方法及系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN102314494A (zh) 一种用于处理网页内容的方法和设备
JP2003519844A (ja) スタイルシートに基づいて構造化されたドキュメントのインデックスを作成する方法および装置
CN102023998A (zh) 用于处理网页以便在手持设备上显示的方法和装置
JP2006277281A (ja) 広告管理方法、Webページ表示装置、およびコンピュータプログラム
CN105204806A (zh) 移动终端网页个性化显示方法及装置
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
US20050131859A1 (en) Method and system for standard bookmark classification of web sites
CN101556592A (zh) 一种智能解析互联网内容的方法
CN103246680A (zh) 一种在浏览器中将网页内容聚合展现的方法及装置
JP5089091B2 (ja) コンテンツ収集システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant