CN102779172A - 一种网页中非正文文本的识别系统及方法 - Google Patents

一种网页中非正文文本的识别系统及方法 Download PDF

Info

Publication number
CN102779172A
CN102779172A CN2012102143852A CN201210214385A CN102779172A CN 102779172 A CN102779172 A CN 102779172A CN 2012102143852 A CN2012102143852 A CN 2012102143852A CN 201210214385 A CN201210214385 A CN 201210214385A CN 102779172 A CN102779172 A CN 102779172A
Authority
CN
China
Prior art keywords
node
unit
text
dom tree
text chunk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102143852A
Other languages
English (en)
Other versions
CN102779172B (zh
Inventor
王志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210214385.2A priority Critical patent/CN102779172B/zh
Publication of CN102779172A publication Critical patent/CN102779172A/zh
Priority to PCT/CN2013/077102 priority patent/WO2014000571A1/zh
Priority to US14/411,013 priority patent/US10042827B2/en
Application granted granted Critical
Publication of CN102779172B publication Critical patent/CN102779172B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页中非正文文本的识别系统及方法,涉及正文抽取领域。所述系统包括:网页抓取器适于抓取目标网站的所有网页的数据;DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;DOM树分析单元,适于根据DOM树找出网页中的单元文本段;文本统计单元,适于统计单元文本段在目标网站的所有网页中的出现次数;文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。所述系统及方法,克服了现有方法对于非正文文本识别的滞后问题,并且具有较高的识别准确度。

Description

一种网页中非正文文本的识别系统及方法
技术领域
本发明涉及正文抽取技术领域,特别涉及一种网页中非正文文本的识别系统及方法。
背景技术
正文抽取在搜索引擎、移动阅读等领域有着越来越重要的作用。正文抽取常用的技术有基于规则、基于DOM(Document ObjectModel,文档对象模型)树、基于标记窗、基于最大文本块等。这些方法都需要对网站中的非正文文本,比如广告、网站声明等,进行排除。如图1a所示是一段网站声明的代码段示意图,图1b是图1a中代码段在网页中的实际展示效果图,这种网站声明在网页中非常常见,对于用户阅读价值不大,都需要在正文抽取时进行排除。然而,如何有效地识别这些非正文文本,是一个难题。
现有技术中主要采用垃圾关键词密度的方法进行非正文文本识别。在基于垃圾关键词识别非正文文本时,需要有垃圾关键词构成的词典,并且不断对词典进行更新。对于词典的更新,只有在发现问题后才能加入新的垃圾关键词。因此,这种方法对于问题的解决具有严重的滞后性,而且当面对全互联网的海量数据时,这种滞后性显的更加突出。
发明内容
本发明要解决的技术问题是:如何提供一种网页中非正文文本的识别系统及方法,以克服现有方法对于非正文文本识别的滞后问题。
为解决上述技术问题,本发明提供一种网页中非正文文本的识别系统,所述系统包括:网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元;
所述网页抓取器适于抓取目标网站的所有网页的数据;
所述DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;
所述DOM树分析单元,适于根据所述DOM树找出所述网页中的单元文本段;
所述文本统计单元,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数;
所述文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。
其中,所述DOM树构建单元采用网页语言对应的解析器。
其中,所述DOM树分析单元包括:节点访问模块和文本段划分模块;
所述节点访问模块,适于从所述DOM树的根节点开始,依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块;以及适于判断所述DOM树中是否还有需要访问的节点,如果是,将相应的节点作为新的当前节点发送给所述文本段划分模块;
所述文本段划分模块,适于判断当前节点对应的文本段是否满足单元文本段的条件,并且在满足条件时,将所述当前节点对应的文本段作为单元文本段,并且通知所述节点访问模块停止对所述当前节点的后代节点的访问。
其中,所述节点访问模块,适于从所述DOM树的根节点开始,按照广度优先算法依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块;以及适于判断所述DOM树中是否还有需要访问的当前节点的同层节点或者下层节点,如果是,将相应的同层节点或者下层节点作为新的当前节点发送给所述文本段划分模块。
其中,当所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点时,认为所述当前节点对应的文本段满足单元文本段的条件。
其中,所述复杂节点包括:标签table、tr、td、ul、ol、frame、select、input、marquee和/或map对应的节点。
其中,所述文本统计单元包括:哈希运算模块和统计模块;
所述哈希运算模块,适于对所述单元文本段进行哈希运算,得到结果键值;
所述统计模块,适于根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。
其中,所述文本识别单元,还适于在所述出现次数小于等于所述预定阈值时,将所述单元文本段识别为正文文本。
本发明还提供一种网页中非正文文本的识别方法,其包括步骤:
A:使用网页抓取器抓取目标网站的所有网页的数据;
B:构建目标网站的每个网页对应的DOM树;
C:根据所述DOM树找出所述网页中的单元文本段;
D:统计所述单元文本段在所述目标网站的所有网页中的出现次数;
E:根据所述出现次数,判断所述单元文本段是否是非正文文本。
其中,所述步骤B中,采用网页语言对应的解析器构建目标网站的每个网页对应的DOM树。
其中,所述步骤C中具体包括步骤:
C1:从所述DOM树的根节点开始,依次访问所述DOM树中的节点;
C2:判断当前节点对应的文本段是否满足单元文本段的条件,如果是,停止对所述当前节点的后代节点的访问,将所述当前节点对应的文本段作为单元文本段,执行步骤C3;否则,直接执行步骤C3;
C3:判断所述DOM树中是否还有需要访问的节点,如果是,将相应的节点作为新的当前节点,执行步骤C2;否则,执行所述步骤D。
其中,所述步骤C2具体包括步骤:
C21:判断当前节点是否满足以下条件:所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点;如果是,执行步骤C22;否则,执行步骤C3;
C22:停止对所述当前节点的后代节点的访问,将所述当前节点对应的文本段作为单元文本段,执行步骤C3。
其中,所述复杂节点包括:标签table、tr、td、ul、ol、frame、select、input、marquee和/或map对应的节点。
其中,所述步骤C1中,按照广度优先算法依次访问所述DOM树中的节点;
所述步骤C3具体包括步骤:
C31:判断所述DOM树中是否还有未访问的所述当前节点的同层节点,如果是,将所述同层节点作为新的当前节点,执行步骤C2;否则,执行步骤C32;
C32:判断所述DOM树中是否还有需要访问的所述当前节点的下层节点,如果是,将所述下层节点作为新的当前节点,执行步骤C2;否则,执行所述步骤D。
其中,所述步骤D具体包括步骤:
D1:对所述单元文本段进行哈希运算,得到结果键值;
D2:根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。
其中,所述步骤E具体包括步骤:判断所述出现次数是否大于预定阈值,如果是,将所述单元文本段识别为非正文文本;否则,将所述单元文本段识别为正文文本。
本发明的网页中非正文文本的识别系统及方法,采用DOM树获取每个网页的单元文本段,进而对单元文本段在目标网站中出现的次数进行统计,并将其出现次数与预定阈值进行比较,从而识别出网站上的非正文文本,克服了现有方法对于非正文文本识别的滞后问题,并且具有较高的识别准确度,在搜索引擎中具有广泛的应用前景。
附图说明
图1a是一段网站声明的代码段示意图;
图1b是图1a中代码段在网页中的实际展示效果图;
图2是本发明实施例所述网页中非正文文本的识别系统的模块结构图;
图3是所述DOM树分析单元的内部模块结构图;
图4是所述文本统计单元的内部模块结构图;
图5是本发明实施例的网页中非正文文本的识别方法的流程图;
图6是HTML网页对应的DOM树示意图;
图7是所述步骤C的流程图;
图8是所述步骤D的流程图;
图9是单元文本段统计原理示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图2是本发明实施例所述网页中非正文文本的识别系统的模块结构图,如图2所示,所述系统包括:网页抓取器100、DOM树构建单元200、DOM树分析单元300、文本统计单元400和文本识别单元500。
所述网页抓取器100适于抓取目标网站的所有网页的数据,其一般可以采用网络蜘蛛、网页爬虫、搜索机器人或网络抓取脚本程序。
所述DOM树构建单元200,适于构建所述目标网站的每个网页对应的DOM树。所述DOM树构建单元采用网页语言对应的解析器,并且对于HTML网页,采用HTML解析器。
所述DOM树分析单元300,适于根据所述DOM树找出所述网页中的单元文本段。
图3是所述DOM树分析单元的内部模块结构图,如图3所示,所述DOM树分析单元300包括:节点访问模块301和文本段划分模块302。
所述节点访问模块301,适于从所述DOM树的根节点开始,依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块302;以及适于判断所述DOM树中是否还有需要访问的节点,如果是,将相应的节点作为新的当前节点发送给所述文本段划分模块302。
其中,所述节点访问模块301可以按照广度优先算法、深度优先算法或者其他搜索算法访问所述DOM树中的节点。由于所述DOM树分析单元300在判定当前节点对应的文本段为单元文本段时,将停止对当前节点的后代节点的访问,因此,所述节点访问模块301,优选适于按照广度优先算法依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块302;以及适于判断所述DOM树中是否还有需要访问的当前节点的同层节点或者下层节点,如果是,将相应的同层节点或者下层节点作为新的当前节点发送给所述文本段划分模块302。其中,广度优先算法又称作宽度优先搜索,或横向优先搜索,是一种从根节点开始,自上层至下层,沿着树的宽度遍历树的节点的算法。
所述文本段划分模块302,适于判断当前节点对应的文本段是否满足单元文本段的条件,并且在满足条件时,将所述当前节点对应的文本段作为单元文本段,并且通知所述节点访问模块301停止对所述当前节点的后代节点的访问。其中,当所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点时,认为所述当前节点对应的文本段满足单元文本段的条件。所述复杂节点包括:标签table、tr、td、ul、ol、frame、select、input、marquee和/或map对应的节点。
所述文本统计单元400,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数。
图4是所述文本统计单元的内部模块结构图,如图4所示,所述文本统计单元400进一步包括:哈希运算模块401和统计模块402。
所述哈希运算模块401,适于对所述单元文本段进行哈希运算,得到结果键值。
所述统计模块402,适于根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。
所述文本识别单元500,适于判断所述出现次数是否大于预定阈值,如果是,将所述单元文本段识别为非正文文本;否则,将所述单元文本段识别为正文文本。
图5是本发明实施例的网页中非正文文本的识别方法的流程图,如图5所示,对应所述系统,所述方法包括步骤:
A:使用网页抓取器抓取目标网站的所有网页的数据。所述网页抓取器一般可以是网络蜘蛛、网页爬虫、搜索机器人或网络抓取脚本程序。所述网页可以采用HTML(Hypertext Markup Language,超文本标记语言)、XML(extensible markup language,可扩展标记语言)、XHTML(extensible Hypertext Markup Language,可扩展超文本标记语言)等标记语言,为简单起见,后续均以HTML网页为例说明。这里的所有网页包括所述目标网站的主网页和子网页。
B:构建目标网站的每个网页对应的DOM树。本实施例中采用HTML解析器构建目标网站的每个网页对应的DOM树,本领域技术人员容易想到,当所述网页采用其他标记语言时,可以采用相应的解析器,比如采用XML解析器构建XML网页对应的DOM树。图6是HTML网页对应的DOM树示意图,如图6所示,DOM树中的节点对应于HTML代码中的标签或者文本。
C:根据所述DOM树找出所述网页中的单元文本段。
图7是所述步骤C的流程图,如图7所示,所述步骤C中具体包括步骤:
C1:从所述DOM树的根节点开始,依次访问所述DOM树中的节点。
C2:判断当前节点对应的文本段是否满足单元文本段的条件,如果是,停止对所述当前节点的后代节点的访问,将所述当前节点对应的文本段作为单元文本段,执行步骤C3;否则,直接执行步骤C3。
所述步骤C2具体包括步骤:
C21:判断当前节点是否满足以下条件:所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点;如果是,执行步骤C22;否则,执行步骤C3。本步骤的含义是,当所述当前节点同时满足,所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点时,将所述当前节点对应的文本段作为单元文本段。
仍以图6为例,图6中左侧div节点与其最远的后代节点的距离为3,小于预定距离4,同时,其后代节点中不含所述复杂节点,因此,图6中左侧div节点对应的文本段被识别为单元文本段。需要说明的是,对所述单元文本段的识别与所述当前节点的标签名称无关。
所述后代节点包括所述当前节点的各子孙节点,即在所述当前节点所在分支上并且位于所述当前节点下层的所有节点。对于所述预定长度的设定以及所述复杂节点所包括节点的范围可以根据实际使用情况适时调整。比如,所述预定长度可以设置为3或者4或者5,本实施例中,所述预定长度优选为4。仍以图6中的DOM树为例,对于图6中左侧的div节点,当其作为当前节点时,其对应的分支为div->p->a->text2,该div节点距离其最远的后代节点text2的距离为3,小于预定长度4。本实施例中,所述复杂节点包括:标签table、tr、td、ul、ol、frame、select、input、marquee和/或map对应的节点。
C22:停止对所述当前节点的后代节点的访问,将所述当前节点对应的文本段作为单元文本段,执行步骤C3。
C3:判断所述DOM树中是否还有需要访问的节点,如果是,将相应的节点作为新的当前节点,执行步骤C2;否则,执行所述步骤D。
所述步骤C1中,可以采用广度优先算法、深度优先算法或者其他搜索算法访问所述DOM树中的节点。由于本发明实施例所述方法在判定当前节点对应的文本段为单元文本段时,将停止对当前节点的后代节点的访问,因此,所述步骤C1中优选采用广度优先算法。
当所述步骤C1中,按照广度优先算法依次访问所述DOM树中的节点时,所述步骤C3具体包括步骤:
C31:判断所述DOM树中是否还有未访问的所述当前节点的同层节点,如果是,将所述同层节点作为新的当前节点,执行步骤C2;否则,执行步骤C32。所述同层节点是指与所述当前节点处于同一层的节点,其可以是所述当前节点的兄弟节点,也可以是所述当前节点的非兄弟节点(如图6中的text2节点与text3节点是同层节点但不是兄弟节点)。
C32:判断所述DOM树中是否还有需要访问的所述当前节点的下层节点,如果是,将所述下层节点作为新的当前节点,执行步骤C2;否则,执行所述步骤D。需要说明的是,当所述当前节点对应的文本段被识别为单元文本段时,所述当前节点的后代节点无需再被访问。
D:统计所述单元文本段在所述目标网站的所有网页中的出现次数。
图8是所述步骤D的流程图,如图8所示,所述步骤D具体包括步骤:
D1:对所述单元文本段进行哈希运算,得到结果键值。本实施例中,采用MD5(Message DigestAlgorithm 5,消息摘要算法第五版)算法对所述单元文本段进行哈希运算,当然本领域技术人员容易想到还可以利用其他类似算法进行哈希运算。本实施例中,在对所述出现次数进行统计时,建立了以所述结果键值为key,以所述出现次数为value的key-value表格,进而根据所述key-value表格判断每个key值对应的value值是否大于所述预定阈值,以识别出每个key值对应的单元文本段是否是非正文文本。
D2:根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。
E:根据所述出现次数,判断所述单元文本段是否是非正文文本。所述步骤E具体包括步骤:判断所述出现次数是否大于预定阈值,如果是,将所述单元文本段识别为非正文文本;否则,将所述单元文本段识别为正文文本。图9是单元文本段统计原理示意图,如图9所示,各所述单元文本段出现次数的统计范围为所述目标网站的所有网页。其中,所述预定阈值可以根据实际使用情况进行调整,比如预定阈值可以优选为100,或者90、150等等。
本发明实施例所述网页中非正文文本的识别系统及方法,采用DOM树获取每个网页的单元文本段,进而对单元文本段在目标网站中出现的次数进行统计,并将其出现次数与预定阈值进行比较,从而识别出网站上的非正文文本,克服了现有方法对于非正文文本识别的滞后问题,并且具有较高的识别准确度,在搜索引擎中具有广泛的应用前景。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (16)

1.一种网页中非正文文本的识别系统,其特征在于,所述系统包括:网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元;
所述网页抓取器适于抓取目标网站的所有网页的数据;
所述DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;
所述DOM树分析单元,适于根据所述DOM树找出所述网页中的单元文本段;
所述文本统计单元,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数;
所述文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。
2.如权利要求1所述的系统,其特征在于,所述DOM树构建单元采用网页语言对应的解析器。
3.如权利要求1所述的系统,其特征在于,所述DOM树分析单元包括:节点访问模块和文本段划分模块;
所述节点访问模块,适于从所述DOM树的根节点开始,依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块;以及适于判断所述DOM树中是否还有需要访问的节点,如果是,将相应的节点作为新的当前节点发送给所述文本段划分模块;
所述文本段划分模块,适于判断当前节点对应的文本段是否满足单元文本段的条件,并且在满足条件时,将所述当前节点对应的文本段作为单元文本段,并且通知所述节点访问模块停止对所述当前节点的后代节点的访问。
4.如权利要求3所述的系统,其特征在于,所述节点访问模块,适于从所述DOM树的根节点开始,按照广度优先算法依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块;以及适于判断所述DOM树中是否还有需要访问的当前节点的同层节点或者下层节点,如果是,将相应的同层节点或者下层节点作为新的当前节点发送给所述文本段划分模块。
5.如权利要求3所述的系统,其特征在于,当所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点时,认为所述当前节点对应的文本段满足单元文本段的条件。
6.如权利要求5所述的系统,其特征在于,所述复杂节点包括:标签table、tr、td、ul、ol、frame、select、input、marquee和/或map对应的节点。
7.如权利要求1所述的系统,其特征在于,所述文本统计单元包括:哈希运算模块和统计模块;
所述哈希运算模块,适于对所述单元文本段进行哈希运算,得到结果键值;
所述统计模块,适于根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。
8.如权利要求1所述的系统,其特征在于,所述文本识别单元,还适于在所述出现次数小于等于所述预定阈值时,将所述单元文本段识别为正文文本。
9.一种网页中非正文文本的识别方法,其特征在于,包括步骤:
A:使用网页抓取器抓取目标网站的所有网页的数据;
B:构建目标网站的每个网页对应的DOM树;
C:根据所述DOM树找出所述网页中的单元文本段;
D:统计所述单元文本段在所述目标网站的所有网页中的出现次数;
E:根据所述出现次数,判断所述单元文本段是否是非正文文本。
10.如权利要求9所述的方法,其特征在于,所述步骤B中,采用网页语言对应的解析器构建目标网站的每个网页对应的DOM树。
11.如权利要求9所述的方法,其特征在于,所述步骤C中具体包括步骤:
C1:从所述DOM树的根节点开始,依次访问所述DOM树中的节点;
C2:判断当前节点对应的文本段是否满足单元文本段的条件,如果是,停止对所述当前节点的后代节点的访问,将所述当前节点对应的文本段作为单元文本段,执行步骤C3;否则,直接执行步骤C3;
C3:判断所述DOM树中是否还有需要访问的节点,如果是,将相应的节点作为新的当前节点,执行步骤C2;否则,执行所述步骤D。
12.如权利要求11所述的方法,其特征在于,所述步骤C2具体包括步骤:
C21:判断当前节点是否满足以下条件:所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点;如果是,执行步骤C22;否则,执行步骤C3;
C22:停止对所述当前节点的后代节点的访问,将所述当前节点对应的文本段作为单元文本段,执行步骤C3。
13.如权利要求12所述的方法,其特征在于,所述复杂节点包括:标签table、tr、td、ul、ol、frame、select、input、marquee和/或map对应的节点。
14.如权利要求11所述的方法,其特征在于,所述步骤C1中,按照广度优先算法依次访问所述DOM树中的节点;
所述步骤C3具体包括步骤:
C31:判断所述DOM树中是否还有未访问的所述当前节点的同层节点,如果是,将所述同层节点作为新的当前节点,执行步骤C2;否则,执行步骤C32;
C32:判断所述DOM树中是否还有需要访问的所述当前节点的下层节点,如果是,将所述下层节点作为新的当前节点,执行步骤C2;否则,执行所述步骤D。
15.如权利要求9所述的方法,其特征在于,所述步骤D具体包括步骤:
D1:对所述单元文本段进行哈希运算,得到结果键值;
D2:根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。
16.如权利要求9所述的方法,其特征在于,所述步骤E具体包括步骤:判断所述出现次数是否大于预定阈值,如果是,将所述单元文本段识别为非正文文本;否则,将所述单元文本段识别为正文文本。
CN201210214385.2A 2012-06-25 2012-06-25 一种网页中非正文文本的识别系统及方法 Expired - Fee Related CN102779172B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210214385.2A CN102779172B (zh) 2012-06-25 2012-06-25 一种网页中非正文文本的识别系统及方法
PCT/CN2013/077102 WO2014000571A1 (zh) 2012-06-25 2013-06-09 一种网页中非正文文本的识别系统及方法
US14/411,013 US10042827B2 (en) 2012-06-25 2013-06-09 System and method for recognizing non-body text in webpage

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210214385.2A CN102779172B (zh) 2012-06-25 2012-06-25 一种网页中非正文文本的识别系统及方法

Publications (2)

Publication Number Publication Date
CN102779172A true CN102779172A (zh) 2012-11-14
CN102779172B CN102779172B (zh) 2016-06-01

Family

ID=47124084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210214385.2A Expired - Fee Related CN102779172B (zh) 2012-06-25 2012-06-25 一种网页中非正文文本的识别系统及方法

Country Status (3)

Country Link
US (1) US10042827B2 (zh)
CN (1) CN102779172B (zh)
WO (1) WO2014000571A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014000571A1 (zh) * 2012-06-25 2014-01-03 北京奇虎科技有限公司 一种网页中非正文文本的识别系统及方法
CN103678510A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 对网页提供可视化标注的方法及装置
CN107861868A (zh) * 2017-10-31 2018-03-30 郑州云海信息技术有限公司 一种提取自动化测试对象的方法及系统
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740355B (zh) * 2016-01-26 2019-03-26 中国人民解放军国防科学技术大学 基于聚集文本密度的网页正文提取方法及装置
CN109948089A (zh) * 2019-02-21 2019-06-28 中国海洋大学 一种提取网页正文的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063500A1 (en) * 2007-08-31 2009-03-05 Microsoft Corporation Extracting data content items using template matching
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6635089B1 (en) * 1999-01-13 2003-10-21 International Business Machines Corporation Method for producing composite XML document object model trees using dynamic data retrievals
JP4248411B2 (ja) * 2002-04-15 2009-04-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書を表示するための方法、システム、コンピュータプログラムおよび記憶装置
US7698317B2 (en) * 2007-04-20 2010-04-13 Yahoo! Inc. Techniques for detecting duplicate web pages
CN101251855B (zh) * 2008-03-27 2010-12-22 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
US8751953B2 (en) * 2010-06-04 2014-06-10 Apple Inc Progress indicators for loading content
CN102779172B (zh) * 2012-06-25 2016-06-01 北京奇虎科技有限公司 一种网页中非正文文本的识别系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063500A1 (en) * 2007-08-31 2009-03-05 Microsoft Corporation Extracting data content items using template matching
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟军等: "节点频度和语义距离相结合的网页正文信息抽取", 《计算机工程与应用》, no. 01, 31 December 2009 (2009-12-31), pages 140 - 143 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014000571A1 (zh) * 2012-06-25 2014-01-03 北京奇虎科技有限公司 一种网页中非正文文本的识别系统及方法
CN103678510A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 对网页提供可视化标注的方法及装置
CN107861868A (zh) * 2017-10-31 2018-03-30 郑州云海信息技术有限公司 一种提取自动化测试对象的方法及系统
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置

Also Published As

Publication number Publication date
WO2014000571A1 (zh) 2014-01-03
US20150205769A1 (en) 2015-07-23
CN102779172B (zh) 2016-06-01
US10042827B2 (en) 2018-08-07

Similar Documents

Publication Publication Date Title
CN102779172A (zh) 一种网页中非正文文本的识别系统及方法
Sun et al. Dom based content extraction via text density
CN104598577B (zh) 一种网页正文的提取方法
CN104572977B (zh) 一种农产品质量安全事件在线检测方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103853760A (zh) 一种网页正文内容提取方法和装置
CN103559235A (zh) 一种在线社交网络恶意网页检测识别方法
CN102591965B (zh) 一种黑链检测的方法及装置
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
CN104933168B (zh) 一种网页内容自动采集方法
CN101650715A (zh) 一种筛选网页上链接的方法和装置
CN102436563A (zh) 一种检测页面篡改的方法及装置
CN106951784B (zh) 一种面向XSS漏洞检测的Web应用逆向分析方法
CN106708952A (zh) 一种网页聚类方法及装置
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
CN101895517A (zh) 一种脚本语义提取方法和提取装置
CN107526833B (zh) 一种url管理方法、系统
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN108694192B (zh) 网页类型的判断方法及装置
EP2506157A1 (en) Textual analysis system
CN112925968A (zh) 基于爬虫的数据抓取方法、装置、计算机设备及存储介质
Wang et al. A novel web page text information extraction method
CN104361121B (zh) 一种web报表系统公式的批量解析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160601

Termination date: 20210625