CN102902792B - 列表页识别系统及方法 - Google Patents

列表页识别系统及方法 Download PDF

Info

Publication number
CN102902792B
CN102902792B CN201210376384.8A CN201210376384A CN102902792B CN 102902792 B CN102902792 B CN 102902792B CN 201210376384 A CN201210376384 A CN 201210376384A CN 102902792 B CN102902792 B CN 102902792B
Authority
CN
China
Prior art keywords
page
framework
list
webpage
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210376384.8A
Other languages
English (en)
Other versions
CN102902792A (zh
Inventor
卢宏林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210376384.8A priority Critical patent/CN102902792B/zh
Priority to CN201510559948.5A priority patent/CN105183843B/zh
Publication of CN102902792A publication Critical patent/CN102902792A/zh
Application granted granted Critical
Publication of CN102902792B publication Critical patent/CN102902792B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种列表页识别系统,涉及互联网技术领域,该系统包括:页面框架ID计算模块,适于抽取预先获取的网页的页面框架,计算页面框架ID;模式累计模块,适于累计相同ID的页面框架数量达到阈值时,计算页面框架模式;列表页识别模块,适于按所述页面框架模式与事先建立的产品知识库中列表页的页面框架模式比对,以识别出列表页;页面框架ID计算模块进一步包括页面框架抽取模块。本发明还公开了一种列表页识别方法。本发明的列表页识别系统及方法通过计算网页的页面框架模式并按模式在产品知识库比对,以识别出列表页,由此解决了列表页很难搜集全的问题,取得了全面搜集列表页,搜索的准确度高的有益效果。

Description

列表页识别系统及方法
技术领域
本发明涉及互联网技术领域,具体涉及一种列表页识别系统及方法。
背景技术
在搜索技术中,基本上分为两大类。一类是以整个互联网为对象,抓取全部网页(目前在一个站点内会限制抓取深度,且一般不处理js(java script),而且只是处理部分动态页面),并对网页进行处理和分析的网页搜索,即全网搜索。另一类是只针对某类页面进行抓取和分析处理的垂直搜索,如:图片搜索、视频搜索、博客搜索、论坛搜索、新闻搜索等。对于大部分垂直搜索来说,目前都是基于种子(也称作列表页)进行处理。垂直搜索的处理可分为两个部分:其一是找种子;其二是从种子页面上发现具体产品页面,即不同类别(图片、视频、新闻等)的页面,然后对这些产品页面进行处理。
基于列表页进行垂直搜索。先以人工或以某些预先指定的规则发现种子,然后对列表页进行变频抓取,从列表页面上发现垂直搜索产品的具体产品页面,对这些产品页面进行下载、分析处理,最终形成垂直搜索系统需要的数据。
传统的以人工方式或已知的一些规则收集列表页,很难把所有的列表页面收集全。而且网站改版后,旧的列表页会失效,而新的列表页又可能会漏掉。所以,在传统的垂直搜索引擎内,总有很多内容搜索不到,导致搜索的准确度不高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的列表页识别系统及方法。
依据本发明的一个方面,提供了一种列表页识别系统,包括:
页面框架ID计算模块,适于抽取预先获取的网页的页面框架,计算页面框架ID;
模式累计模块,适于累计相同ID的页面框架数量达到阈值时,计算页面框架模式;
列表页识别模块,适于按所述页面框架模式与事先建立的产品知识库中列表页的页面框架模式比对,以识别出列表页。
可选地,页面框架ID计算模块进一步包括:页面框架抽取模块,适于根据网页源代码中的html语言标签抽取所述网页的页面框架。
可选地,页面框架ID计算模块进一步包括:页面框架抽取模块,适于按标点识别出网页正文,去除正文以得到所述网页的页面框架。
可选地,所述模式累计模块进一步包括:阈值调节模块,适于判断在预定时间内对应同一ID的页面框架数量是否累计达到所述阈值,若没有,则将该ID对应的阈值以一定的步长递减。
可选地,所述模式累计模块进一步包括:
待定列表页识别模块,适于判断是否有位于页面内固定位置块内且稳定存在一定时间的链接,若有,则设定该网页为待定列表页;
列表页框架模式确定模块,适于每隔一段时间内调度一次所述待定列表页,如果所述链接不断更新为新链接,就将所述网页的页面框架模式设为列表页框架模式。
可选地,所述产品知识库存储有已知类别页面框架模式及该模式下各网页特征的权重,所述列表页识别模块进一步包括:
特征匹配模块,适于将所述页面框架模式的各网页特征与知识库中已知类别的页面框架模式的各网页特征进行匹配;
特征评分模块,适于对匹配上的网页特征按不同的类别为所述页面框架模式增加相应的权重;
权重累计模块,适于按类别累计所述页面框架模式在该类别下所得的权重,若对应列表页类别所得的权重最高,则所述页面为列表页。
可选地,所述系统还包括:列表页处理模块,适于若识别出网页为列表页,则提取所述列表页的内容,进一步获取所述列表页中列出的信息对应的网页。
可选地,所述系统还包括:网页获取模块,适于通过全网搜索获取网页,并以站点为单位获取网页,同一站点下不同域名的对应的网页存储在相同的根目录下。
根据本发明的另一方面,提供了一种列表页识别方法,包括以下步骤:
抽取预先获取的网页的页面框架,并计算页面框架ID;
累计相同ID的页面框架数量达到阈值时,计算页面框架模式;
按所述页面框架模式与事先建立的产品知识库中列表页的页面框架模式比对,以识别出列表页。
可选地,抽取所述网页的页面框架的方式为:根据网页源代码中的html语言标签抽取所述网页的页面框架。
可选地,抽取所述网页的页面框架的方式为:按标点识别出网页正文,去除正文以得到所述网页的页面框架。
可选地,判断在预定时间内对应同一ID的页面框架数量是否累计达到所述阈值,若没有,则将该ID对应的阈值以一定的步长递减。
可选地,所述列表页框架模式的计算方式为:
判断是否有位于页面内固定位置块内且稳定存在一定时间的链接,若有,则设定该网页为待定列表页;
每隔一段时间内调度一次所述待定列表页,如果所述链接不断更新为新链接,就将所述网页的页面框架模式设为列表页框架模式。
可选地,所述产品知识库存储有已知类别页面框架模式及该模式下各网页特征的权重,将所述页面框架模式与事先建立的产品知识库中已知类别的页面框架模式比对的方式为:
将所述页面框架模式的各网页特征与知识库中已知类别的页面框架模式的各网页特征进行匹配;
对匹配上的网页特征按不同的类别为所述页面框架模式增加相应的权重;
按类别累计所述页面框架模式在该类别下所得的权重,若对应列表页类别所得的权重最高,则所述页面为列表页。
可选地,若识别出网页为列表页,则提取所述列表页的内容,进一步获取所述列表页中列出的信息对应的网页。
可选地,通过全网搜索获取网页,并以站点为单位获取网页,同一站点下不同域名的对应的网页存储在相同的根目录下。
根据本发明的列表页识别系统及方法通过计算网页的页面框架模式并按模式在产品知识库比对,以识别出列表页,由此解决了列表页很难搜集全的问题,取得了全面搜集列表页,搜索的准确度高的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的列表页识别方法流程图;
图2示出了图1中步骤S130的具体流程图;
图3示出了根据本发明一个实施例的列表页识别系统结构示意图;
图4示出了图3中列表页识别模块的具体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本实施例的列表页识别方法流程如图1所示,包括:
步骤S110,抽取预先获取的网页的页面框架,并计算页面框架ID。预先获取的网页可以是全网搜索抓取的网页。抽取所述网页的页面框架的方式为:根据网页源代码中的html语言标签抽取所述网页的页面框架,抽取时只保留html语言标签中框架类的标记,如:frame、table等,同时保留id、name、class属性,去掉其余属性。还可以按标点识别出网页正文,去除正文以得到网页的页面框架。抽取页面框架后将页面内属性根据哈希算法计算页面框架的hash值,即为页面框架ID,例如:抽取页面框架后利用MD5或FNV等哈希技术方法计算页面框架的hash值,即将框架类的标记,如:frame、table及其id、name、class属性等按哈希算法进行计算,所得结果值即为页面框架ID。由于采用相同的哈希函数,相同的页面框架计算出的页面框架ID也相同。
步骤S120,累计相同ID的页面框架数量达到阈值时,计算页面框架模式。计算时分标题、时间、正文等分别计算,计算方法可以采用机器自动学习机制,如采用支持向量机(support vector machine,SVM)计算页面框架模式。学习时将网页转换成基于Html语言的源代码,并抽取html语言标签关键标记,得到页面框架,这一步在步骤S110中已经实现。将页面框架输入SVM进行学习,即对页面框架进行html语言标签关键标记的匹配,若干相同ID的页面框架中的html语言标签关键标记能够完全匹配,因此,对于相同ID的页面框架学习到上述阈值的数量后,SVM便输出相应页面框架的页面框架模式。在学习之前对于页面框架还需要做如下操作:将标题与title或anchor(锚点)里的可变内容匹配;时间要按照时间的格式计算;正文有可变比率及长度要求,这样可以剔除广告等垃圾内容。
为了防止某些网页长时间得不到处理,判断在预定时间内对应同一ID的页面框架数量是否累计达到该阈值,若没有,则将该ID对应的阈值以一定的步长递减。其中该阈值优选为23。
步骤S130,将页面框架模式与事先建立的产品知识库中已知类别的页面框架模式比对,以识别出列表页。其中产品知识库存储有已知类别(列表页为其中一种网页类别)页面框架模式及该模式下各网页特征的权重,网页类别与其对应的页面框架模式下的网页特征及权重可以以映射表的形式记录在产品知识库中,如下表1所示:
表1网页类别与其对应的页面框架模式下的网页特征及权重映射表
例如:列表页的页面框架模式,其中的两个网页特征:(1)url里包含“更多”关键字,(2)页面框架模式中有导航栏,(3)网页为一级域名。其权重分别为30、50和60。页面模式中有标题、时间、正文也可以是bbs(论坛)或新闻网页的页面框架模式的网页特征,其权重为20和30。
将页面框架模式与事先建立的产品知识库中已知类别的页面框架模式比对的步骤如图2所示,包括:
步骤S210,将页面框架模式的各特征与知识库中已知类别的页面框架模式的各特征进行匹配。
步骤S220,对匹配上的特征按不同的类别为页面框架模式增加相应的权重,即按权重进行打分。
步骤S230,按类别累计页面框架模式在该类别下所得的权重,即将每个类别下的各网页特征所得的权重累加,若对应列表页类别所得的权重最高,则该页面为列表页。
不同的类别的网页依据其自身的特征从产品知识库中得到相应的权重。例如,如果url中含有“更多”关键字,就为列表页加30分,有导航栏模式,就为列表页加50分。该产品知识库也可用于识别其它类别的网页,例如:如果url中含有bbs或forum,那么就为bbs加50分,如果url里有news,就为新闻加50分。如果在页面模式中有标题、时间、正文,就为新闻加30分,也可以为bbs加20分。如果有楼层、回复数等信息,就各自为bbs加一些分数。如此等等。若页面框架模式的所有特征匹配后按新闻类权重所得的分数最高,那么将该页面框架模式归为新闻类别。
对于列表页,可以按照上述步骤S110~S130的过程进行识别,列表页的特征包括:网页对应的域名为一级域名;导航栏模式;包括“更多”关键字等。但列表页可以不按网页类别进行划分,因此,也可以在步骤S120中按下述方式直接识别列表页:
判断网页对应的域名是否为一级域名,若是,则设置该网页为列表页。若网页对应的域名不为一级域名,则按以下方式识别列表页:判断是否有位于页面内固定位置块内且稳定存在一定时间的链接,若有,则设定该网页为待定列表页;每隔一段时间内调度一次所述待定列表页,如果所述链接不断更新为新链接,就将该网页的页面框架模式设为列表页框架模式,即该网页为列表页。例如:网页最顶端的导航栏,及网页框架中包括“更多”字样的部分通常都是位于页面中固定块内的链接,即包含导航栏和“更多”字样的网页均为列表页。
对于基于列表页的垂直搜索引,在步骤S130中,若识别出网页框架模式为列表页,则提取该列表页的内容,进一步获取列表页中列出的信息对应的网页。
若将毫不相干的站点页面放在一起进行模式识别,干扰因素太多,结果很难预料,因此,进一步地,本实施例中,通过全网搜索获取网页时以站点为单位获取网页,同一站点下不同域名的对应的网页存储在相同的根目录下。
本实施例的列表页识别方法可以识别出所有列表页,由此解决了列表页很难搜集全的问题,取得了全面搜集列表页,搜索的准确度高的有益效果。
本发明还提供了一种列表页识别系统3,其结构示意图如图3所示,包括:页面框架ID计算模块310、模式累计模块320和列表页识别模块330。
页面框架ID计算模块310适于抽取预先获取的网页的页面框架,计算页面框架ID。页面框架ID计算模块310进一步包括:页面框架抽取模块,适于根据网页源代码中的html语言标签抽取网页的页面框架。页面框架抽取模块还适于按标点识别出网页正文,去除正文以得到网页的页面框架。
模式累计模块320适于累计相同ID的页面框架数量达到阈值时,计算页面框架模式。模式累计模块320进一步包括:阈值调节模块,适于判断在预定时间内对应同一ID的页面框架数量是否累计达到阈值,若没有,则将该ID对应的阈值以一定的步长递减。
模式累计模块320进一步包括:域名识别模块,适于判断网页对应的域名是否为一级域名,若是,则设置该网页为列表页。模式累计模块320还进一步包括:待定列表页识别模块,适于判断是否有位于页面内固定位置块内且稳定存在一定时间的链接,若有,则设定该网页为待定列表页;列表页框架模式确定模块,适于每隔一段时间内调度一次所述待定列表页,如果所述链接不断更新为新链接,就将所述网页的页面框架模式设为列表页框架模式。
网页类别识别模块330适于将页面框架模式与事先建立的产品知识库中已知类别的页面框架模式比对,以识别出列表页。网页类别识别模块330具体结构如图4所示,进一步包括:
特征匹配模块410,适于将页面框架模式的各特征与知识库中已知类别的页面框架模式的各特征进行匹配;
特征评分模块420,适于对匹配上的特征按不同的类别为页面框架模式增加相应的权重;
权重累计模块430,适于按类别累计所述页面框架模式在该类别下所得的权重,若对应列表页类别所得的权重最高,则所述页面为列表页。
本实施例的列表页识别系统还包括:列表页处理模块,适于若识别出网页为列表页,则提取列表页的内容,进一步获取列表页中列出的信息对应的网页。
本实施例的列表页识别系统还包括:网页获取模块,适于通过全网搜索获取网页,并以站点为单位获取网页,同一站点下不同域名的对应的网页存储在相同的根目录下。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的列表页识别系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种列表页识别系统,包括:
页面框架ID计算模块,适于抽取预先获取的网页的页面框架,计算页面框架ID;
模式累计模块,适于累计相同ID的页面框架数量达到阈值时,计算页面框架模式;
列表页识别模块,适于按所述页面框架模式与事先建立的产品知识库中列表页的页面框架模式比对,以识别出列表页;
其中,页面框架ID计算模块进一步包括:页面框架抽取模块,适于根据网页源代码中的html语言标签抽取所述网页的页面框架;
其中,所述产品知识库存储有已知类别页面框架模式及该模式下各网页特征的权重,所述列表页识别模块进一步包括:
特征匹配模块,适于将所述页面框架模式的各网页特征与知识库中已知类别的页面框架模式的各网页特征进行匹配;
特征评分模块,适于对匹配上的网页特征按不同的类别为所述页面框架模式增加相应的权重;
权重累计模块,适于按类别累计所述页面框架模式在该类别下所得的权重,若对应列表页类别所得的权重最高,则所述页面为列表页。
2.如权利要求1所述的列表页识别系统,其特征在于,页面框架ID计算模块进一步包括:页面框架抽取模块,适于按标点识别出网页正文,去除正文以得到所述网页的页面框架。
3.如权利要求1~2中任一项所述的列表页识别系统,其特征在于,所述模式累计模块进一步包括:阈值调节模块,适于判断在预定时间内对应同一ID的页面框架数量是否累计达到所述阈值,若没有,则将该ID对应的阈值以一定的步长递减。
4.如权利要求1~2中任一项所述的列表页识别系统,其特征在于,所述模式累计模块进一步包括:
待定列表页识别模块,适于判断是否有位于页面内固定位置块内且稳定存在一定时间的链接,若有,则设定该网页为待定列表页;
列表页框架模式确定模块,适于每隔一段时间内调度一次所述待定列表页,如果所述链接不断更新为新链接,就将所述网页的页面框架模式设为列表页框架模式。
5.如权利要求1~2中任一项所述的列表页识别系统,其特征在于,所述系统还包括:列表页处理模块,适于若识别出网页为列表页,则提取所述列表页的内容,进一步获取所述列表页中列出的信息对应的网页。
6.如权利要求1~2中任一项所述的列表页识别系统,其特征在于,所述系统还包括:网页获取模块,适于通过全网搜索获取网页,并以站点为单位获取网页,同一站点下不同域名的对应的网页存储在相同的根目录下。
7.一种列表页识别方法,包括以下步骤:
抽取预先获取的网页的页面框架,并计算页面框架ID;
累计相同ID的页面框架数量达到阈值时,计算页面框架模式;
按所述页面框架模式与事先建立的产品知识库中列表页的页面框架模式比对,以识别出列表页;
其中,抽取所述网页的页面框架的方式为:根据网页源代码中的html语言标签抽取所述网页的页面框架;
其中,所述产品知识库存储有已知类别页面框架模式及该模式下各网页特征的权重,将所述页面框架模式与事先建立的产品知识库中已知类别的页面框架模式比对的方式为:
将所述页面框架模式的各网页特征与知识库中已知类别的页面框架模式的各网页特征进行匹配;
对匹配上的网页特征按不同的类别为所述页面框架模式增加相应的权重;
按类别累计所述页面框架模式在该类别下所得的权重,若对应列表页类别所得的权重最高,则所述页面为列表页。
8.如权利要求7所述的列表页识别方法,其特征在于,抽取所述网页的页面框架的方式为:按标点识别出网页正文,去除正文以得到所述网页的页面框架。
9.如权利要求7~8中任一项所述的列表页识别方法,其特征在于,判断在预定时间内对应同一ID的页面框架数量是否累计达到所述阈值,若没有,则将该ID对应的阈值以一定的步长递减。
10.如权利要求7~8中任一项所述的列表页识别方法,其特征在于,所述列表页框架模式的计算方式为:
判断是否有位于页面内固定位置块内且稳定存在一定时间的链接,若有,则设定该网页为待定列表页;
每隔一段时间内调度一次所述待定列表页,如果所述链接不断更新为新链接,就将所述网页的页面框架模式设为列表页框架模式。
11.如权利要求7~8中任一项所述的列表页识别方法,其特征在于,若识别出网页为列表页,则提取所述列表页的内容,进一步获取所述列表页中列出的信息对应的网页。
12.如权利要求7~8中任一项所述的列表页识别方法,其特征在于,通过全网搜索获取网页,并以站点为单位获取网页,同一站点下不同域名的对应的网页存储在相同的根目录下。
CN201210376384.8A 2012-09-29 2012-09-29 列表页识别系统及方法 Expired - Fee Related CN102902792B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210376384.8A CN102902792B (zh) 2012-09-29 2012-09-29 列表页识别系统及方法
CN201510559948.5A CN105183843B (zh) 2012-09-29 2012-09-29 列表页识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210376384.8A CN102902792B (zh) 2012-09-29 2012-09-29 列表页识别系统及方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201510559948.5A Division CN105183843B (zh) 2012-09-29 2012-09-29 列表页识别系统及方法

Publications (2)

Publication Number Publication Date
CN102902792A CN102902792A (zh) 2013-01-30
CN102902792B true CN102902792B (zh) 2015-10-21

Family

ID=47575024

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510559948.5A Active CN105183843B (zh) 2012-09-29 2012-09-29 列表页识别系统及方法
CN201210376384.8A Expired - Fee Related CN102902792B (zh) 2012-09-29 2012-09-29 列表页识别系统及方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201510559948.5A Active CN105183843B (zh) 2012-09-29 2012-09-29 列表页识别系统及方法

Country Status (1)

Country Link
CN (2) CN105183843B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183843A (zh) * 2012-09-29 2015-12-23 北京奇虎科技有限公司 列表页识别系统及方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902794B (zh) * 2012-09-29 2016-08-03 北京奇虎科技有限公司 网页分类系统及方法
CN102929948B (zh) * 2012-09-29 2017-03-08 北京奇虎科技有限公司 列表页识别系统及方法
CN105354302B (zh) * 2015-11-04 2019-03-22 国云科技股份有限公司 一种从Web上自动获取列表数据的方法
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN102163203A (zh) * 2010-02-24 2011-08-24 富士通株式会社 网页下载的方法和装置
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870474B2 (en) * 2007-05-04 2011-01-11 Yahoo! Inc. System and method for smoothing hierarchical data using isotonic regression
CN101534306B (zh) * 2009-04-14 2012-01-11 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN105183843B (zh) * 2012-09-29 2018-09-14 北京奇虎科技有限公司 列表页识别系统及方法
CN102929948B (zh) * 2012-09-29 2017-03-08 北京奇虎科技有限公司 列表页识别系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN102163203A (zh) * 2010-02-24 2011-08-24 富士通株式会社 网页下载的方法和装置
CN102411587A (zh) * 2010-09-21 2012-04-11 腾讯科技(深圳)有限公司 一种网页分类方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183843A (zh) * 2012-09-29 2015-12-23 北京奇虎科技有限公司 列表页识别系统及方法
CN105183843B (zh) * 2012-09-29 2018-09-14 北京奇虎科技有限公司 列表页识别系统及方法

Also Published As

Publication number Publication date
CN102902792A (zh) 2013-01-30
CN105183843B (zh) 2018-09-14
CN105183843A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
CN102902792B (zh) 列表页识别系统及方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN102750352A (zh) 浏览器中分类收藏历史访问记录的方法及装置
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
CN102681994A (zh) 一种网页信息抽取方法及系统
CN102902794B (zh) 网页分类系统及方法
CN102902790A (zh) 网页分类系统及方法
CN103399872A (zh) 对网页抓取进行优化的方法和装置
CN102982117A (zh) 信息搜索方法和装置
WO2014029318A1 (en) Method and apparatus for identifying webpage type
CN102902784B (zh) 网页分类存储系统及方法
CN102982118A (zh) 一种基于收藏夹的搜索方法和装置
CN102833233A (zh) 一种识别网站页面的方法和装置
CN105117434A (zh) 一种网页分类方法和系统
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN102929948B (zh) 列表页识别系统及方法
CN103530389A (zh) 一种提高停用词搜索有效性的方法和装置
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN103617225A (zh) 一种关联网页搜索方法和系统
CN104965902A (zh) 一种富集化url的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151021

Termination date: 20210929

CF01 Termination of patent right due to non-payment of annual fee