CN110390037A - 基于dom树的信息分类方法、装置、设备及存储介质 - Google Patents

基于dom树的信息分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110390037A
CN110390037A CN201910675657.0A CN201910675657A CN110390037A CN 110390037 A CN110390037 A CN 110390037A CN 201910675657 A CN201910675657 A CN 201910675657A CN 110390037 A CN110390037 A CN 110390037A
Authority
CN
China
Prior art keywords
density
node
information
block
dom tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910675657.0A
Other languages
English (en)
Other versions
CN110390037B (zh
Inventor
莫海芳
江如茜
李子茂
尹帆
郑禄
吴经龙
聂梦妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN201910675657.0A priority Critical patent/CN110390037B/zh
Publication of CN110390037A publication Critical patent/CN110390037A/zh
Application granted granted Critical
Publication of CN110390037B publication Critical patent/CN110390037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于DOM树的信息分类方法、装置、设备及存储介质,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

Description

基于DOM树的信息分类方法、装置、设备及存储介质
技术领域
本发明涉及网页信息处理领域,尤其涉及一种基于DOM树的信息分类方法、装置、设备及存储介质。
背景技术
随着计算机在世界范围内的爆发式增长和普及,网络上产生了大量的数据信息,但是由于网络信息来源的异构性,想要浏览和搜索这些庞大的数据集就变得很困难;例如通过现有的搜索引擎存在以下问题:使用关键词检索出来的结果庞杂,包含关键词的网页的链接,需要单独浏览才能判断其是否满足需求;搜索时,只要包含关键词的都会检索出来,降低了信息的有效率,影响用户的获取;在检索关键词的同时,网页上伴随着大量的无用信息,如无关新闻、广告,影响用户的观感体验。
现有的解决方法是通过web信息抽取从大量的大型半结构化网页信息中抽取用户所需的信息,并将其转换为结构化形式以存储在硬盘或数据库中;但是由于大多数基于统计原理的现有方案在阈值选取上没有一个特定的标准,在主题衡量标准上还不够准确,并且缺少信息块内部的去噪操作,所以信息抽取的查全率和查准率较低;而基于语义信息的现有方案对标签的语义信息分析不够准确,由于超文本标记语言(Hyper Text MarkupLanguage,HTML)标签的复杂化,使得对标签划分的难度增加,容易漏掉重要的标签节点,导致网页信息分类出现误差,从而无法准确抽取用户所需的信息。
发明内容
本发明的主要目的在于提供一种基于DOM树的信息分类方法、装置、设备及存储介质,旨在解决现有技术中网页信息抽取的查全率和查准率较低,信息分类不准确的技术问题。
为实现上述目的,本发明提供一种基于DOM树的信息分类方法,所述基于DOM树的信息分类方法包括以下步骤:
获取待分析页面对应的DOM树;
根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;
将所述页面内容综合密度与预设密度阈值比较,生成比较结果;
根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
优选地,所述根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度,具体包括:
根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;
对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。
优选地,所述对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度,具体包括:
对各节点路径进行分析,生成分析结果;
根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;
根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。
优选地,所述根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度,具体包括:
从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;
根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;
从所述分析结果中获得各节点路径中各节点对应的标点符号长度;
根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;
从所述分析结果中获得各节点路径中各节点对应的链接文本长度;
根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。
优选地,所述根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度,具体包括:
根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:
ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)
其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中,PunctuaDensity为所述标点符号密度,其中,LinkDensity为所述链接密度,其中,Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。
优选地,所述将所述页面内容综合密度与预设密度阈值比较,生成比较结果之前,所述基于DOM树的信息分类方法还包括:
从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;
根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;
通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:
其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度,为各节点页面内容综合密度的平均值,n为节点个数。
优选地,所述根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,具体包括:
在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;
获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;
根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;
将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;
在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;
在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;
在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。
此外,为实现上述目的,本发明还提出一种基于DOM树的信息分类设备,所述基于DOM树的信息分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于DOM树的信息分类程序,所述基于DOM树的信息分类程序配置为实现如上文所述的基于DOM树的信息分类方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于DOM树的信息分类程序,所述基于DOM树的信息分类程序被处理器执行时实现如上文所述的基于DOM树的信息分类方法的步骤。
此外,为实现上述目的,本发明还提供一种基于DOM树的信息分类装置,所述基于DOM树的信息分类装置包括:
DOM树获取模块,用于获取待分析页面对应的DOM树;
密度获取模块,用于根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;
比较模块,用于将所述页面内容综合密度与预设密度阈值比较,生成比较结果;
分类模块,用于根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
本发明提出的基于DOM树的信息分类方法,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的基于DOM树的信息分类设备结构示意图;
图2为本发明基于DOM树的信息分类方法第一实施例的流程示意图;
图3为本发明基于DOM树的信息分类方法第二实施例的流程示意图;
图4为本发明基于DOM树的信息分类方法第三实施例的流程示意图;
图5为本发明基于DOM树的信息分类装置第一实施例的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:本发明通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验,解决了现有技术中网页信息抽取的查全率和查准率较低,信息分类不准确的技术问题。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于DOM树的信息分类设备结构示意图。
如图1所示,该基于DOM树的信息分类设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(Wireless-Fidelity,Wi-Fi)。存储器1005可以是高速的随机存取存储器(Random AccessMemory,RAM)存储器,也可以是稳定的存储器(Non-volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的基于DOM树的信息分类设备结构并不构成对该基于DOM树的信息分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户端接口模块以及基于DOM树的信息分类程序。
本发明基于DOM树的信息分类设备通过处理器1001调用存储器1005中存储的基于DOM树的信息分类程序,并执行以下操作:
获取待分析页面对应的DOM树;
根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;
将所述页面内容综合密度与预设密度阈值比较,生成比较结果;
根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:
根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;
对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。
进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:
对各节点路径进行分析,生成分析结果;
根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;
根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。
进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:
从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;
根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;
从所述分析结果中获得各节点路径中各节点对应的标点符号长度;
根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;
从所述分析结果中获得各节点路径中各节点对应的链接文本长度;
根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。
进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:
根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:
ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)
其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中,PunctuaDensity为所述标点符号密度,其中,LinkDensity为所述链接密度,其中,Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。
进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:
从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;
根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;
通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:
其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度,为各节点页面内容综合密度的平均值,n为节点个数。
进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:
在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;
获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;
根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;
将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;
在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;
在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;
在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。
本实施例通过上述方案,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。
基于上述硬件结构,提出本发明基于DOM树的信息分类方法实施例。
参照图2,图2为本发明基于DOM树的信息分类方法第一实施例的流程示意图。
在第一实施例中,所述基于DOM树的信息分类方法包括以下步骤:
步骤S10、获取待分析页面对应的DOM树。
需要说明的是,所述待分析页面为需要进行网页正文分析操作的网页,网页分析的目的是方便提取用户所需的信息,所述待分类页面中会存在不重要的信息,例如导航栏、广告以及版权信息等,这些信息即为噪音信息,这些噪音信息会给基于网页内容的研究工作带来困难,一般是通过对所述待分块网页进行去噪处理,可以将这些噪音信息进行去除,根据去噪后的网页生成DOM树,文档对象模型(Document Object Model,DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口;在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM;通过DOM树能够了解各个节点之间的层级关系。
步骤S20、根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度。
可以理解的是,所述待分析页面中会被初步划分为不同大小的页面信息块,通过所述DOM树可以获得各页面信息块的页面内容综合密度,所述页面内容综合密度为用于表示不同页面信息块的内容密集程度,为后续页面分类做准备。
步骤S30、将所述页面内容综合密度与预设密度阈值比较,生成比较结果。
应当理解的是,所述预设密度阈值为预先设置的用于与各页面信息块的页面内容综合密度进行比较的密度阈值,所述预设密度阈值可以是通过大量实验数据训练获得,也可以是通过技术人员的日常操作经验确定的阈值,当然还可以是通过其他方式确定的阈值,本实施例对此不加以限制。
进一步地,所述步骤S30之前,所述基于DOM树的信息分类方法还包括以下步骤:
从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;
根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;
通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:
其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度,为各节点页面内容综合密度的平均值,n为节点个数。
应当理解的是,所述节点页面内容综合密度和所述节点页面内容综合密度平均值可以反映所述节点页面内容综合密度对应的离散程度,通过所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值,能够提高信息抽取的准确性,
步骤S40、根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
可以理解的是,通过页面内容综合密度与预设密度阈值的比较结果,即以页面内容综合密度与预设密度阈值的大小关系为依据,确定可以将所述待分析页面的页面信息块进行分类,一般是分为两类,即正文信息块和噪音信息块,当然还可以是分为其他几类,本实施例对此不加以限制。
本实施例通过上述方案,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。
进一步地,图3为本发明基于DOM树的信息分类方法第二实施例的流程示意图,如图3所示,基于第一实施例提出本发明基于DOM树的信息分类方法第二实施例,在本实施例中,所述步骤S20,具体包括以下步骤:
步骤S21、根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径。
可以理解的是,所述节点路径为某一节点到根节点的路径,根据所述DOM树可以确定所述待分析页面中各页面信息块对应的多条节点路径,即所述待分析页面中的各页面信息块在所述DOM树上有对应的节点路径。
步骤S22、对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。
需要说明的是,通过对各节点路径进行分析,即通过各节点路径反馈出的信息进行分析,可以根据分析结果可以推算出各页面信息块对应的页面内容综合密度。
进一步地,所述步骤S22具体包括以下步骤:
对各节点路径进行分析,生成分析结果;
根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;
根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。
可以理解的是,通过所述分析结果可以获得各页面信息块对应的文本密度,标点符号密度以及链接密度,所述文本密度为各页面信息块中文本的分布密度,所述标点符号密度为各页面信息块中标点符号对应的分布密度,所述链接密度为各页面信息块中超链接对应的分布密度,通过所述文本密度、所述标点符号密度和所述链接密度可以确定各页面信息块对应的页面内容综合密度。
进一步地,所述步骤根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度,具体包括以下步骤:
从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;
根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;
从所述分析结果中获得各节点路径中各节点对应的标点符号长度;
根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;
从所述分析结果中获得各节点路径中各节点对应的链接文本长度;
根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。
需要说明的是,所述文本密度是指一条节点路径上文本节点所对应的文本长度之和的平均数,较高的文本密度意味着这条节点路径上的节点的文本更可能是正文文本,相反则代表着更可能是噪音信息;所述标点符号密度为一条节点路径上节点所包含标点符号的平均数,所述标点符号密度越高,则代表更有可能是正文信息,反之则为噪音信息;所述链接密度为一条节点路径上的链接文本与总文本长度的比值,链接密度越小则代表节点是正文信息的可能越大,反之则为噪音信息的可能越大。
进一步地,所述步骤根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度,具体包括以下步骤:
根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:
ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)
其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中,PunctuaDensity为所述标点符号密度,其中,LinkDensity为所述链接密度,其中,Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。
可以理解的是,所述页面内容综合密度为所述文本密度、所述标点符号密度和所述链接密度的融合,这样能够扩大每一项单独的影响值,提高了信息抽取的查全率和查准率。
本实施例通过上述方案,通过根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。
进一步地,图4为本发明基于DOM树的信息分类方法第三实施例的流程示意图,如图4所示,基于第二实施例提出本发明基于DOM树的信息分类方法第三实施例,在本实施例中,所述步骤S40具体包括以下步骤:
步骤S41、在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块。
可以理解的是,在所述当前页面信息块的页面内容综合密度大于所述预设密度阈值时,即此时可以初步判定为正文信息块,即当前页面信息块有较大可能是初始正文信息块。
步骤S42、获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系。
需要说明的是,根据预设节点重要度查询表可以查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系,所述节点类型为对应HTML标签的节点类型,所述节点类型包括但不限于块级节点、内嵌节点、视觉节点和其他节点;其中,所述块级节点为HTML标签中块级元素对应的节点,所述块级元素是指本身属性为“display:block;”的元素,常用的有<div>、<p>、<ol>、<ul>、<dl>、<table>、<address>、<blockquote>和<form>等元素,由于这些元素可以将页面分成若干个块,块内承载着页面的主题信息,是承载正文的重要元素,所以一般可以将所述块级节点对应的节点重要度设置为10,当然也可以设置为其他数值,本实施例对此不加以限制;所述内嵌节点为HTML标签中内元素对应的节点,内元素是指本身属性为“display:inline;”的元素,常用的有<span>、<br>、<i>、<em>、<label>、<q>、<var>、<cite>和<code>等元素,由于这些元素可以用来进行文字、小图标或小结构的搭建,这些元素虽然承载的主题信息不多,但也可承载一些文本信息,所以一般可以将所述内嵌节点对应的节点重要度设置为8,当然也可以设置为其他数值,本实施例对此不加以限制;所述视觉节点为HTML标签中视觉元素对应的节点,所述视觉元素是指对其所含文本信息的一种修饰作用,起强调突出的作用的元素,常用的有<B>、<strong>和<h1>-<h6>等元素,这些元素通常不能承载主题信息和文本信息,但往往是页面着重想表现的内容,所以一般可以将所述视觉节点对应的节点重要度设置为6,当然也可以设置为其他数值,本实施例对此不加以限制;其他节点则为其他HTML标签对应的节点,其他节点对应的标签大多数不能承载主体和文本信息,因此,可以将其他元素对应的其他节点对应的节点重要度设置为2,当然也可以设置为其他数值,本实施例对此不加以限制。
步骤S43、根据各节点重要度确定所述初始正文信息块对应的节点路径重要度。
可以理解的是,通过各节点重要度可以确定所述初始正文信息块对应的多个节点的节点重要度,而将多个节点的节点重要度进行整合可以确定所述初始正文信息块对应的节点路径的节点路径重要度。
步骤S44、将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果。
应当理解的是,所述预设重要度阈值为预先设置的用于与所述节点路径重要度进行比较的阈值,所述预设重要度阈值可以是通过大量实验数据训练获得的阈值,也可以是技术人员根据日常操作经验确定的阈值,当然还可以是通过其他方式确定的阈值,本实施例对此不加以限制。
步骤S45、在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块。
可以理解的是,在所述节点路径重要度大于所述预设重要度阈值时,即此时节点路径为比较重要的节点路径,进而可以判定所述初始正文信息块为正文信息块。
步骤S46、在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块。
应当理解的是,在所述节点路径重要度不大于所述预设重要度阈值时,即此时节点路径为不重要的节点路径,进而可以判定所述初始正文信息块为噪音信息块。
步骤S47、在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。
可以理解的是,在当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,即此时当前页面信息块对应的页面内容的密度较为稀疏或没有文本密集排布,则此时判定所述当前页面信息块为噪音信息块。
本实施例通过上述方案,通过在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判断所述当前页面信息块为初始正文信息块;获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块,进一步提高了信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。
基于上述基于DOM树的信息分类方法的实施例,本发明进一步提供一种基于DOM树的信息分类装置。
参照图5,图5为本发明基于DOM树的信息分类装置第一实施例的功能模块图。
本发明基于DOM树的信息分类装置第一实施例中,该基于DOM树的信息分类装置包括:
DOM树获取模块10,用于获取待分析页面对应的DOM树。
需要说明的是,所述待分析页面为需要进行网页正文分析操作的网页,网页分析的目的是方便提取用户所需的信息,所述待分类页面中会存在不重要的信息,例如导航栏、广告以及版权信息等,这些信息即为噪音信息,这些噪音信息会给基于网页内容的研究工作带来困难,一般是通过对所述待分块网页进行去噪处理,可以将这些噪音信息进行去除,根据去噪后的网页生成DOM树,文档对象模型(Document Object Model,DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口;在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM;通过DOM树能够了解各个节点之间的层级关系,节点的类型包括文档节点、元素节点、文本节点和属性节点等,当然还可以包括其他类型的节点,本实施例对此不加以限制。
密度获取模块20,用于根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度。
可以理解的是,所述待分析页面中会被初步划分为不同大小的页面信息块,通过所述DOM树可以获得各页面信息块的页面内容综合密度,所述页面内容综合密度为用于表示不同页面信息块的内容密集程度,为后续页面分类做准备。
比较模块30,用于将所述页面内容综合密度与预设密度阈值比较,生成比较结果。
应当理解的是,所述预设密度阈值为预先设置的用于与各页面信息块的页面内容综合密度进行比较的密度阈值,所述预设密度阈值可以是通过大量实验数据训练获得,也可以是通过技术人员的日常操作经验确定的阈值,当然还可以是通过其他方式确定的阈值,本实施例对此不加以限制。
分类模块40,用于根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
可以理解的是,通过页面内容综合密度与预设密度阈值的比较结果,即以页面内容综合密度与预设密度阈值的大小关系为依据,确定可以将所述待分析页面的页面信息块进行分类,一般是分为两类,即正文信息块和噪音信息块,当然还可以是分为其他几类,本实施例对此不加以限制。
其中,基于DOM树的信息分类装置的各个功能模块实现的步骤可参照本发明基于DOM树的信息分类方法的各个实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于DOM树的信息分类程序,所述基于DOM树的信息分类程序被处理器执行时实现如下操作:
获取待分析页面对应的DOM树;
根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;
将所述页面内容综合密度与预设密度阈值比较,生成比较结果;
根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:
根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;
对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。
进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:
对各节点路径进行分析,生成分析结果;
根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;
根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。
进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:
从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;
根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;
从所述分析结果中获得各节点路径中各节点对应的标点符号长度;
根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;
从所述分析结果中获得各节点路径中各节点对应的链接文本长度;
根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。
进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:
根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:
ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)
其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中,PunctuaDensity为所述标点符号密度,其中,LinkDensity为所述链接密度,其中,Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。
进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:
从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;
根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;
通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:
其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度,为各节点页面内容综合密度的平均值,n为节点个数。
进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:
在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;
获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;
根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;
将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;
在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;
在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;
在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。
本实施例通过上述方案,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于DOM树的信息分类方法,其特征在于,所述基于DOM树的信息分类方法包括:
获取待分析页面对应的DOM树;
根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;
将所述页面内容综合密度与预设密度阈值比较,生成比较结果;
根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
2.如权利要求1所述的基于DOM树的信息分类方法,其特征在于,所述根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度,具体包括:
根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;
对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。
3.如权利要求2所述的基于DOM树的信息分类方法,其特征在于,所述对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度,具体包括:
对各节点路径进行分析,生成分析结果;
根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;
根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。
4.如权利要求3所述的基于DOM树的信息分类方法,其特征在于,所述根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度,具体包括:
从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;
根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;
从所述分析结果中获得各节点路径中各节点对应的标点符号长度;
根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;
从所述分析结果中获得各节点路径中各节点对应的链接文本长度;
根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。
5.如权利要求4所述的基于DOM树的信息分类方法,其特征在于,所述根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度,具体包括:
根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:
ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)
其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中,PunctuaDensity为所述标点符号密度,其中,LinkDensity为所述链接密度,其中,Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。
6.如权利要求1-5中任一项所述的基于DOM树的信息分类方法,其特征在于,所述将所述页面内容综合密度与预设密度阈值比较,生成比较结果之前,所述基于DOM树的信息分类方法还包括:
从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;
根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;
通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:
其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度,为各节点页面内容综合密度的平均值,n为节点个数。
7.如权利要求1-5中任一项所述的基于DOM树的信息分类方法,其特征在于,所述根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,具体包括:
在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;
获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;
根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;
将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;
在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;
在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;
在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。
8.一种基于DOM树的信息分类装置,其特征在于,所述装置包括:
DOM树获取模块,用于获取待分析页面对应的DOM树;
密度获取模块,用于根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;
比较模块,用于将所述页面内容综合密度与预设密度阈值比较,生成比较结果;
分类模块,用于根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。
9.一种基于DOM树的信息分类设备,其特征在于,所述基于DOM树的信息分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于DOM树的信息分类程序,所述基于DOM树的信息分类程序配置为实现如权利要求1至7中任一项所述的基于DOM树的信息分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于DOM树的信息分类程序,所述基于DOM树的信息分类程序被处理器执行时实现如权利要求1至7中任一项所述的基于DOM树的信息分类方法的步骤。
CN201910675657.0A 2019-07-25 2019-07-25 基于dom树的信息分类方法、装置、设备及存储介质 Active CN110390037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910675657.0A CN110390037B (zh) 2019-07-25 2019-07-25 基于dom树的信息分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910675657.0A CN110390037B (zh) 2019-07-25 2019-07-25 基于dom树的信息分类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110390037A true CN110390037A (zh) 2019-10-29
CN110390037B CN110390037B (zh) 2021-12-03

Family

ID=68287289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910675657.0A Active CN110390037B (zh) 2019-07-25 2019-07-25 基于dom树的信息分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110390037B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837614A (zh) * 2019-11-05 2020-02-25 上海嘉道信息技术有限公司 一种高效地生成网页信息抽取规则的方法及系统
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243793A1 (en) * 2007-03-21 2008-10-02 Paul Hallett Contact Information Capture and Link Redirection
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
US20130073514A1 (en) * 2011-09-20 2013-03-21 Microsoft Corporation Flexible and scalable structured web data extraction
CN103714176A (zh) * 2014-01-08 2014-04-09 同济大学 基于最大文本密度的网页正文抽取方法
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN106055667A (zh) * 2016-06-06 2016-10-26 北京林业大学 一种基于文本‑标签密度的网页核心内容提取方法
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243793A1 (en) * 2007-03-21 2008-10-02 Paul Hallett Contact Information Capture and Link Redirection
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
US20130073514A1 (en) * 2011-09-20 2013-03-21 Microsoft Corporation Flexible and scalable structured web data extraction
CN103714176A (zh) * 2014-01-08 2014-04-09 同济大学 基于最大文本密度的网页正文抽取方法
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN106055667A (zh) * 2016-06-06 2016-10-26 北京林业大学 一种基于文本‑标签密度的网页核心内容提取方法
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BHAVDEEP MEHTA,MEERA NARVEKAR: "DOM Tree Based Approach for Web Content Extraction", 《2015 INTERNATIONAL CONFERENCE ON COMMUNICATION, INFORMATION & COMPUTING TECHNOLOGY 》 *
MANJUSHA ANNAM: "Entropy based Informative Content Density Approach for Efficient Web Content Extraction", 《2016 INTERNATIONAL CONFERENCE ON ADVANCES IN COMPUTING, COMMUNICATIONS AND INFORMATICS (ICACCI)》 *
王超,徐杰锋: "基于CURE 算法的网页分块及正文块提取研究", 《软件天地》 *
苏小鲁: "基于DOM的HTML网页正文信息抽取模块的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837614A (zh) * 2019-11-05 2020-02-25 上海嘉道信息技术有限公司 一种高效地生成网页信息抽取规则的方法及系统
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN111651694B (zh) * 2020-05-21 2023-09-29 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法

Also Published As

Publication number Publication date
CN110390037B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN105069102B (zh) 信息推送方法和装置
JP5160601B2 (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
Sun et al. Dom based content extraction via text density
US8606778B1 (en) Document ranking based on semantic distance between terms in a document
US7386438B1 (en) Identifying language attributes through probabilistic analysis
EP1591924B1 (en) Method and system for classifying display pages using summaries
US20110282879A1 (en) Method and subsystem for information acquisition and aggregation to facilitate ontology and language model generation within a content-search-service system
CN107590219A (zh) 网页人物主题相关信息提取方法
EP1962208A2 (en) System and method for searching annotated document collections
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
US20200004792A1 (en) Automated website data collection method
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN107357777B (zh) 提取标签信息的方法和装置
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN103310014B (zh) 一种提高检索结果准确率的方法
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN110377796A (zh) 基于dom树的正文抽取方法、装置、设备及存储介质
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN110390037A (zh) 基于dom树的信息分类方法、装置、设备及存储介质
Papadakos et al. On exploiting static and dynamically mined metadata for exploratory web searching
Yu et al. Web content information extraction based on DOM tree and statistical information
EP3528144A1 (en) Device and method for keyword extraction from a text stream
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN107766419A (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
EP1962202A2 (en) System and method for annotating documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant