CN114528811A - 文章内容抽取方法、装置、设备及存储介质 - Google Patents

文章内容抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114528811A
CN114528811A CN202210072667.7A CN202210072667A CN114528811A CN 114528811 A CN114528811 A CN 114528811A CN 202210072667 A CN202210072667 A CN 202210072667A CN 114528811 A CN114528811 A CN 114528811A
Authority
CN
China
Prior art keywords
tags
candidate
label
score
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210072667.7A
Other languages
English (en)
Other versions
CN114528811B (zh
Inventor
田振
李赟辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Maxtech Co ltd
Original Assignee
Beijing Maxtech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Maxtech Co ltd filed Critical Beijing Maxtech Co ltd
Priority to CN202210072667.7A priority Critical patent/CN114528811B/zh
Publication of CN114528811A publication Critical patent/CN114528811A/zh
Application granted granted Critical
Publication of CN114528811B publication Critical patent/CN114528811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种文章内容抽取方法、装置、设备及存储介质。该方法包括首先获取目标网页的源码,对目标网页的源码进行DOM树构建;对构建的DOM树进行信息重构后遍历DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,标签中包括该标签对应的位置信息;对预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;对候选标签集合进行多维度特征采集得到各个维度的分值,进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容。可以看出,本申请中通过从不同维度特征进行判定,最终计算出目标文章内容在网页中的位置,可以有效的进行数据抽取。

Description

文章内容抽取方法、装置、设备及存储介质
技术领域
本发明涉及文本提取领域,特别涉及一种文章内容抽取方法、装置、设备及存储介质。
背景技术
当下很多网站中包含的信息丰富而复杂,对于推荐内容的干扰项也比较多,可以包括有导航、标题、正文、时间、甚至广告等内容,甚至有些网站的文字高聚集并非出现在文章部分,而是出现在推荐内容部分,或者广告信息部分,这样对于基于文字聚集程度识别出来的文章内容,则准确性则会大打折扣,从而影响数据分析,识别的效果。
在现有技术中,对网页内容抽取的方法主要是通过标签进行提取,比如常见的抽取页面所有的带有content的特征标签,但此方法对于部分网站适用,部分网站不适用,若网站将标签的特征换位text的话,在批量提取文章内容的时候,就会产生很多噪点数据,甚至提取不到想要的数据,从而影响数据分析的结果。
发明内容
基于此,本申请实施例提供了一种文章内容抽取方法、装置、设备及存储介质,可以能够准确抽取网页内的文章内容并提高文章内容识别的精准度。
第一方面,提供了一种文章内容抽取方法,该方法包括:
获取目标网页的源码,对所述目标网页的源码进行DOM树构建;
对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,所述自定义属性至少包括位置信息属性、父子标签属性;
遍历所述带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,所述标签中包括该标签对应的位置信息;
对所述预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,所述第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合;
对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,所述第二公式具体包括:
Figure BDA0003482688150000021
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有
Figure BDA0003482688150000022
δ表示分值标准差,并有
Figure BDA0003482688150000023
υ表示维度分值,n表示候选标签数量。
可选地,对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,包括:
对所述候选标签集合中的每个候选标签进行内容文字占比评分、位置全页占比评分、父子标签特征评分以及文本内容特征评分。
可选地,所述对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到目标标签,包括:
根据归一化的分值与各个维度权重比做乘积得到标签得分集合。
可选地,对所述目标网页源码进行DOM树构建,包括:
对所述目标网页源码中所有标签及标签对应的位置信息进行DOM树构建。
可选地,对所述DOM树中各个节点中的标签进行特征提取得到预选标签集合,包括:
提取所述DOM树中各个节点中的标签中至少包含Text、Article、Post、Conter、List以及Content特征的标签作为预选标签。
可选地,所述标签对应的位置信息包括标签的行位置以及总标签位置。
可选地,在对所述预选标签集合根据预设的噪音集合进行初步去噪得到候选标签集合之前,还包括:
设置噪音文本集合,所述噪音文本集合中的噪音文本至少包括广告、推荐以及海购。
第二方面,提供了一种文章内容抽取装置,该装置包括:
构建模块,用于获取目标网页的源码,对所述目标网页的源码进行DOM树构建;
重构模块,用于对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,所述自定义属性至少包括位置信息属性、父子标签属性;
提取模块,用于遍历所述带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,所述标签中包括该标签对应的位置信息;
去噪模块,用于对所述预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,所述第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合;
分析模块,用于对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,所述第二公式具体包括:
Figure BDA0003482688150000041
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有
Figure BDA0003482688150000042
δ表示分值标准差,并有
Figure BDA0003482688150000043
υ表示维度分值,n表示候选标签数量。
第三方面,提供了一种设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的文章内容抽取方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的文章内容抽取方法。
本申请实施例提供的技术方案中,首先获取目标网页的源码,对目标网页的源码进行DOM树构建;对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,自定义属性至少包括位置信息属性、父子标签属性;遍历带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,标签中包括该标签对应的位置信息;对预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;对候选标签集合进行多维度特征采集得到各个维度的分值,进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容。可以看出,本申请中通过从不同维度特征进行判定,最终计算出目标文章内容在网页中的位置,可以有效的进行数据抽取。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种文章内容抽取方法的步骤流程图;
图2为本申请实施例提供的目标网页的示意图;
图3为本申请实施例提供的候选标签集合的示意图;
图4为本申请实施例提供的多维度特征采集的示意图;
图5为本申请实施例最终得到的目标网页内容示意图;
图6为本申请实施例提供的一种文章内容抽取方法流程图;
图7为本申请实施例提供的一种文章内容抽取装置的框图;
图8为本申请实施例提供的一种设备的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有对网页文章提取的方法主要有标签提取,适用范围局限性较大,不能将大量的网站聚合到一起,比如常见的抽取页面所有的带有content的特征标签,部分网站适用,部分网站不适用,若网站将标签的特征换位text的话,在批量提取文章内容的时候,就会产生很多噪点数据,甚至提取不到想要的数据,从而影响数据分析的结果。
相比较文字聚合程度提取文章内容的方法,当下很多网站对于推荐内容的干扰项也比较多,甚至有些网站的文字高聚集并非出现在文章部分,而是出现在推荐内容部分,或者广告信息部分,这样对于基于文字聚集程度识别出来的文章内容,则准确性则会大打折扣,从而影响数据分析,识别的效果。
而对于位置识别的效果则更差,一般认为一个网页的主题部分应该在全页的中间偏下部分,但是随着五花八门的网站,海量数据的产生,越来越多的网页进行个性化设置,有些将文章部分嵌入到了一些样式框中,有些将文章折叠起来,更有直接将网页一分为二,左边是广告推荐,右边是文章内容,中间夹杂各种噪音信息等,这样对于位置识别的难度和效果都大打折扣。
本方法基于此在整合上述三种识别方法的基础上进行扩展识别,从不同维度,各个指标进行判定,最终计算出文章的内容位置,进行数据抽取。
请参考图1,其示出了本申请实施例提供的一种文章内容抽取方法的流程图,该方法可以包括以下步骤:
步骤101,获取目标网页的源码,对目标网页的源码进行DOM树构建。
在本申请实施例中,目标网页的示意图如图2所示,其中包括了标题、正文、时间以及广告等内容。
获取目标网页的源码,将网页的所有标签和位置相关信息进行一个树状结构构建,具体的,首先获取目标web网页的HTML源代码,再通过DOM(Document ObjectModel,文档对象化模型)将HTML源代码进行解析,生成的HTML tree树状结构和对应访问方法,即得出DOM树;
DOM树中的每一节点单元对应HTML网页脚本里的一个元素单元,即标签(tag),可通过这棵DOM树访问所有节点,可以对DOM树进行节点的遍历、插入、删除等操作,也可以创建新的节点元素。DOM树展示了节点的集合,以及它们之间的联系。DOM树中的节点彼此之间都有等级关系,通常通过父、子和同级节点来描述这种关系。父节点拥有子节点,位于相同层级上的子节点称为同级节点(兄弟或姐妹)。
其中,DOM树中的每一节点单元中的标签包括有标签对应的位置信息包括标签的行位置以及总标签位置,一个是行位置,意为在本网页源码的哪一行,一个是总标签位置,意为从网页源码的第一个标签算起的第N个标签,这样一个带有位置信息的DOM树状结构的对象创建好之后,接下来就是对特征的提取。
步骤102,对构建的DOM树进行信息重构,得到带有自定义属性的DOM树。
其中,自定义属性至少包括位置信息属性、父子标签属性;
步骤103,遍历带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合。
其中,标签中包括该标签对应的位置信息,根据大量的数据观察,发现一般内容的标签特征里面会带有content的特征,如id=content或class=text等等,因此我们首先对标签进行特征提取,提取DOM树对象的所有有关于content,text,article,post,conter,list以及某一个元素下面有大量p标签的标签两个和某一个元素下面有大量a标签的标签两个(简称疑似内容标签),构成一个具有文章内容备选的合集,这里对于大量聚集疑似文章内容的标签限制其位置位于全文的1/4~3/4之间,接下来为其每一个标签赋值一个初始化的分数,其中前六个赋值可以为1分,后面的疑似标签可以为0.8分,因为疑似标签在位置上比较上面有内容标签特征的标签有位置上的优势,在位置运算的时候分数可能会相对较高,因此这里只给0.8分。
例如,如图2所示的目标网页在特征提取后得到的标签统计结果如表1:
表1标签统计结果
Figure BDA0003482688150000081
步骤103,对预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合。
在本申请实施例中,首先设置噪音文本集合,噪音文本集合中的明显的噪音为:广告,推荐,海购等噪音文本特征,对于标签属性的明显噪音特征则为author,title等,对于文本中有明显噪音的匹配项可以直接进行过滤,但是对于标签属性明显的噪音特征的标签,这里需要结合位置信息,进行减分,因为后续需要针对标题位置对文章位置进行分数评定,其中得到的候选标签集合如图3所示。
在本申请实施例中,对预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合。
步骤104,对候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容。
其中,如图4在匹配预选标签以及去除明显噪音之后的多维度特征采集具体包括了对候选标签集合中的每个候选标签进行内容文字占比评分、位置全页占比评分、父子标签特征评分以及文本内容特征评分。
对文本内容占比进行比较评分(内容文字占比评分),具体方法为首先提取出全页面的文本信息,然后提取出备选标签的文本信息,用每一个备选标签的文本信息和整个页面的文本信息做一个商,得出一个数值,赋值给其备选标签。
对标签位置信息进行比较评分(位置全页占比评分),拿出其所有备选标签的位置,再拿出整篇网页源码的标签位置总数做商,得出的数值即看做当前标签在页面所有标签的顺序位置信息,我们以0.5为一个参照点,向两边扩散,类如正态分布,越靠近峰值,分数相对较高,越靠近两侧,分数相对较低,同时我们要对整个网页进行划分,通过title标签大致便能找到正文内对应的title标签,对于位置在title以上的候选标签分数直接置为0,因为一般正常情况下文章的内容不太可能超过标题,但对于左右结构的不影响其评分效果。
对当前标签的父子标签特征进行评分(父子标签特征评分),首先拿出当前候选标签的父标签,查看其标签特征里面是否带有content,text等特征,每有一个,为其候选标签加1分,看其所有的子标签,拿出整个网页对象的所有a标签和p标签的总数,再拿出候选标签的所有a子标签和p子标签,分别对应全页的a标签和p标签做商,得出其a标签和p标签的占比,这三项分数分别赋值给候选标签的相应得分。
对文章内容进行评分(文本内容特征评分),拿出候选标签的所有文本信息,去匹配收集好的噪音数据特征,如:推荐XX,点击链接XXX,免责声明XXX等,每匹配出一个扣一分,如:内容XXX,报道XXX,责任编辑XXX等相关字样出现,每一个加一分,算出相对应的分数赋值给候选标签的相应分数下面。
在本申请实施例中,对候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,第二公式具体包括:
Figure BDA0003482688150000101
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有
Figure BDA0003482688150000102
δ表示分值标准差,并有
Figure BDA0003482688150000103
υ表示维度分值,n表示候选标签数量。
在本申请一个可选的实施例中,对每个候选标签在各个维度的评分进行归一化处理,使其每一项的得分都在0至1之间,这样做的目的是使所有的项目得分都能够平等的对内容进行打分,不会因为某一项分数够高而使用其它分值的权重减弱,再根据大量的数据验证,得出的权重进行相应项的权重赋值,这样一来,每一个特征的原始权重相同,同时每一个特征的特征点权重又有所区别,以免在多个特征分数大体相同的时候不能区分哪一个特征相对重要的情况。
实际应用中需要用已有的样本集进行测试,做一个k值调整。由于对出现明显的噪音特征的文本内容进行了过滤,部分明显的广告信息和推荐内容,如羊驼租货这样的进行了过滤,所以使用了默认的权重配比,即各个指标的权重配比均为1。对每一个标签及结构按照上述进行相对应的得分计算,同时去掉元素内没有文字的标签,去掉文字内有噪音特征的标签,去掉标题以上的标签,其父标签有内容特征的,子标签有内容特征的,内容文本里面有内容特征的分别按照相应规则进行加分,对于位置去除项,文本里面有噪音的去除项进行相应的去除,得到的目标网页内容如图5所示。
如图6,给出了利用本方法的一种流程示意图,通过本方法从不同维度,各个指标进行判定,最终计算出文章的内容位置,进行数据抽取,可以可以提高文章内容识别的精准度。
请参考图7,其示出了本申请实施例提供的一种文章内容抽取装置200的框图。如图7所示,该装置200可以包括:构建模块201、重构模块202、提取模块203、去噪模块204以及分析模块205。
构建模块201,用于获取目标网页的源码,对目标网页的源码进行DOM树构建;
重构模块202,用于对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,自定义属性至少包括位置信息属性、父子标签属性;
提取模块203,用于遍历带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,标签中包括该标签对应的位置信息;
去噪模块204,用于对预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合;
分析模块205,用于对候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,第二公式具体包括:
Figure BDA0003482688150000111
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有
Figure BDA0003482688150000112
δ表示分值标准差,并有
Figure BDA0003482688150000113
υ表示维度分值,n表示候选标签数量。
关于文章内容抽取装置的具体限定可以参见上文中对于文章内容抽取方法的限定,在此不再赘述。上述文章内容抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种设备,该电子设备可以是计算机,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于文章内容抽取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文章内容抽取方法。
本领域技术人员可以理解,如图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文章内容抽取方法的步骤。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以M种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文章内容抽取方法,其特征在于,所述方法包括:
获取目标网页的源码,对所述目标网页的源码进行DOM树构建;
对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,所述自定义属性至少包括位置信息属性、父子标签属性;
遍历所述带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,所述标签中包括该标签对应的位置信息;
对所述预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,所述第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合;
对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,所述第二公式具体包括:
Figure FDA0003482688140000011
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有
Figure FDA0003482688140000012
δ表示分值标准差,并有
Figure FDA0003482688140000013
υ表示维度分值,n表示候选标签数量。
2.根据权利要求1所述的方法,其特征在于,对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,包括:
对所述候选标签集合中的每个候选标签进行内容文字占比评分、位置全页占比评分、父子标签特征评分以及文本内容特征评分。
3.根据权利要求1所述的方法,其特征在于,所述对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到目标标签,包括:
根据归一化的分值与各个维度权重比做乘积得到标签得分集合。
4.根据权利要求1所述的方法,其特征在于,对所述目标网页源码进行DOM树构建,包括:
对所述目标网页源码中所有标签及标签对应的位置信息进行DOM树构建。
5.根据权利要求1所述的方法,其特征在于,对所述DOM树中各个节点中的标签进行特征提取得到预选标签集合,包括:
提取所述DOM树中各个节点中的标签中至少包含Text、Article、Post、Conter、List以及Content特征的标签作为预选标签。
6.根据权利要求1所述的方法,其特征在于,所述标签对应的位置信息包括标签的行位置以及总标签位置。
7.根据权利要求1所述的方法,其特征在于,在对所述预选标签集合根据预设的噪音集合进行初步去噪得到候选标签集合之前,还包括:
设置噪音文本集合,所述噪音文本集合中的噪音文本至少包括广告、推荐以及海购。
8.一种文章内容抽取装置,其特征在于,所述装置包括:
构建模块,用于获取目标网页的源码,对所述目标网页的源码进行DOM树构建;
重构模块,用于对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,所述自定义属性至少包括位置信息属性、父子标签属性;
提取模块,用于遍历所述带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,所述标签中包括该标签对应的位置信息;
去噪模块,用于对所述预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,所述第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合;
分析模块,用于对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,所述第二公式具体包括:
Figure FDA0003482688140000031
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有
Figure FDA0003482688140000032
δ表示分值标准差,并有
Figure FDA0003482688140000033
υ表示维度分值,n表示候选标签数量。
9.一种设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的文章内容抽取方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的文章内容抽取方法。
CN202210072667.7A 2022-01-21 2022-01-21 文章内容抽取方法、装置、设备及存储介质 Active CN114528811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210072667.7A CN114528811B (zh) 2022-01-21 2022-01-21 文章内容抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210072667.7A CN114528811B (zh) 2022-01-21 2022-01-21 文章内容抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114528811A true CN114528811A (zh) 2022-05-24
CN114528811B CN114528811B (zh) 2022-09-02

Family

ID=81620349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210072667.7A Active CN114528811B (zh) 2022-01-21 2022-01-21 文章内容抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114528811B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665480A (zh) * 2022-10-25 2023-01-31 广州至真信息科技有限公司 一种数据渲染方法、装置、计算机设备和存储介质
CN116629209A (zh) * 2023-07-25 2023-08-22 苏州浪潮智能科技有限公司 一种数据处理的方法、装置、系统、设备及可读存储介质
CN115665480B (zh) * 2022-10-25 2024-06-07 广州至真信息科技有限公司 一种数据渲染方法、装置、计算机设备和存储介质

Citations (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
US20120124077A1 (en) * 2010-11-12 2012-05-17 Microsoft Corporation Domain Constraint Based Data Record Extraction
CN103064966A (zh) * 2012-12-31 2013-04-24 中国科学院计算技术研究所 一种从单记录网页中抽取规律噪音的方法
CN103345532A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种网页信息抽取方法及装置
CN103853760A (zh) * 2012-12-03 2014-06-11 中国移动通信集团公司 一种网页正文内容提取方法和装置
CN103902258A (zh) * 2012-12-25 2014-07-02 腾讯科技(深圳)有限公司 一种在网页中实现自定义菜单显示的方法及装置
CN104346405A (zh) * 2013-08-08 2015-02-11 阿里巴巴集团控股有限公司 一种从网页中抽取信息的方法及装置
US20160110455A1 (en) * 2013-05-28 2016-04-21 International Business Machines Corporation Identifying client states
CN105653668A (zh) * 2015-12-29 2016-06-08 武汉理工大学 云环境中基于DOMTree的网页内容分析提取优化方法
CN106033468A (zh) * 2015-03-20 2016-10-19 腾讯科技(深圳)有限公司 网页内容抽取方法、装置及系统
CN106339455A (zh) * 2016-08-26 2017-01-18 电子科技大学 基于文本标签特征挖掘的网页正文提取方法
CN106528068A (zh) * 2015-09-15 2017-03-22 中国电信股份有限公司 一种网页内容重构方法和系统
CN106610998A (zh) * 2015-10-26 2017-05-03 烽火通信科技股份有限公司 一种新型的网页数据基于地区噪音过滤方法
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN107423391A (zh) * 2017-07-24 2017-12-01 福州大学 网页结构化数据的信息提取方法
CN107544906A (zh) * 2017-09-07 2018-01-05 杨瑞 一种基于内容非敏感性DOM骨架等价判定的Web自动化测试方法
CN107894974A (zh) * 2017-11-02 2018-04-10 华南农业大学 基于标签路径和文本标点比特征融合的网页正文提取方法
CN107943929A (zh) * 2017-11-22 2018-04-20 福州大学 基于dom树抽象的包装器自动生成方法
US20180113583A1 (en) * 2016-10-20 2018-04-26 Samsung Electronics Co., Ltd. Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN108153886A (zh) * 2017-12-28 2018-06-12 北京恒泰实达科技股份有限公司 实时数据在web应用中的自定义可视化展示方法
CN108268433A (zh) * 2018-02-26 2018-07-10 杭州数梦工场科技有限公司 基于网页文章的标题抽取方法及装置
CN108334508A (zh) * 2017-01-19 2018-07-27 阿里巴巴集团控股有限公司 网页信息的提取方法和装置
CN108563729A (zh) * 2018-04-04 2018-09-21 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108804458A (zh) * 2017-05-02 2018-11-13 阿里巴巴集团控股有限公司 一种爬虫网页采集方法和装置
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN109344346A (zh) * 2018-08-14 2019-02-15 广州神马移动信息科技有限公司 网页信息提取方法和装置
CN110083754A (zh) * 2019-04-23 2019-08-02 重庆紫光华山智安科技有限公司 结构变化网页的自适应数据抽取方法

Patent Citations (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124077A1 (en) * 2010-11-12 2012-05-17 Microsoft Corporation Domain Constraint Based Data Record Extraction
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN103853760A (zh) * 2012-12-03 2014-06-11 中国移动通信集团公司 一种网页正文内容提取方法和装置
CN103902258A (zh) * 2012-12-25 2014-07-02 腾讯科技(深圳)有限公司 一种在网页中实现自定义菜单显示的方法及装置
CN103064966A (zh) * 2012-12-31 2013-04-24 中国科学院计算技术研究所 一种从单记录网页中抽取规律噪音的方法
US20160110455A1 (en) * 2013-05-28 2016-04-21 International Business Machines Corporation Identifying client states
CN103345532A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种网页信息抽取方法及装置
CN104346405A (zh) * 2013-08-08 2015-02-11 阿里巴巴集团控股有限公司 一种从网页中抽取信息的方法及装置
CN106033468A (zh) * 2015-03-20 2016-10-19 腾讯科技(深圳)有限公司 网页内容抽取方法、装置及系统
CN106528068A (zh) * 2015-09-15 2017-03-22 中国电信股份有限公司 一种网页内容重构方法和系统
CN106610998A (zh) * 2015-10-26 2017-05-03 烽火通信科技股份有限公司 一种新型的网页数据基于地区噪音过滤方法
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN105653668A (zh) * 2015-12-29 2016-06-08 武汉理工大学 云环境中基于DOMTree的网页内容分析提取优化方法
CN106339455A (zh) * 2016-08-26 2017-01-18 电子科技大学 基于文本标签特征挖掘的网页正文提取方法
US20180113583A1 (en) * 2016-10-20 2018-04-26 Samsung Electronics Co., Ltd. Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108334508A (zh) * 2017-01-19 2018-07-27 阿里巴巴集团控股有限公司 网页信息的提取方法和装置
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN108804458A (zh) * 2017-05-02 2018-11-13 阿里巴巴集团控股有限公司 一种爬虫网页采集方法和装置
CN107423391A (zh) * 2017-07-24 2017-12-01 福州大学 网页结构化数据的信息提取方法
CN107544906A (zh) * 2017-09-07 2018-01-05 杨瑞 一种基于内容非敏感性DOM骨架等价判定的Web自动化测试方法
CN107894974A (zh) * 2017-11-02 2018-04-10 华南农业大学 基于标签路径和文本标点比特征融合的网页正文提取方法
CN107943929A (zh) * 2017-11-22 2018-04-20 福州大学 基于dom树抽象的包装器自动生成方法
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN108153886A (zh) * 2017-12-28 2018-06-12 北京恒泰实达科技股份有限公司 实时数据在web应用中的自定义可视化展示方法
CN108268433A (zh) * 2018-02-26 2018-07-10 杭州数梦工场科技有限公司 基于网页文章的标题抽取方法及装置
CN108563729A (zh) * 2018-04-04 2018-09-21 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN109344346A (zh) * 2018-08-14 2019-02-15 广州神马移动信息科技有限公司 网页信息提取方法和装置
CN110083754A (zh) * 2019-04-23 2019-08-02 重庆紫光华山智安科技有限公司 结构变化网页的自适应数据抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭晓宇 等: ""基于Web页面结构的网页数据提取技术探究"", 《产业与科技论坛》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665480A (zh) * 2022-10-25 2023-01-31 广州至真信息科技有限公司 一种数据渲染方法、装置、计算机设备和存储介质
CN115665480B (zh) * 2022-10-25 2024-06-07 广州至真信息科技有限公司 一种数据渲染方法、装置、计算机设备和存储介质
CN116629209A (zh) * 2023-07-25 2023-08-22 苏州浪潮智能科技有限公司 一种数据处理的方法、装置、系统、设备及可读存储介质
CN116629209B (zh) * 2023-07-25 2023-11-03 苏州浪潮智能科技有限公司 一种数据处理的方法、装置、系统、设备及可读存储介质

Also Published As

Publication number Publication date
CN114528811B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
US8560940B2 (en) Detecting repeat patterns on a web page using signals
CN106021383A (zh) 网页相似度计算方法及装置
JP4226261B2 (ja) 構造化文書種別判定システム及び構造化文書種別判定方法
US20200004792A1 (en) Automated website data collection method
CN113254751B (zh) 一种复杂网页结构化信息精确提取方法、设备及存储介质
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
EP3289487B1 (en) Computer-implemented methods of website analysis
CN113282955A (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN109271598B (zh) 一种抽取新闻网页内容的方法、装置及存储介质
CN114528811B (zh) 文章内容抽取方法、装置、设备及存储介质
CN106446123A (zh) 一种网页中验证码元素识别方法
CN106202349B (zh) 网页分类字典生成方法及装置
CN111339457B (zh) 用于从网页抽取信息的方法和设备及存储介质
CN112269906B (zh) 网页正文的自动抽取方法及装置
CN106095674A (zh) 一种网站自动化测试方法和装置
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
CN112115266A (zh) 恶意网址的分类方法、装置、计算机设备和可读存储介质
CN108694192A (zh) 网页类型的判断方法及装置
CN112470154B (zh) 检测web网页安全性的方法和装置
CN112668316A (zh) word文档关键信息抽取方法
CN115391711B (zh) 网页正文信息提取方法、装置、设备及介质
CN114579834B (zh) 网页登录实体识别方法、装置、电子设备及存储介质
CN113806667B (zh) 一种支持网页分类的方法和系统
CN115640439A (zh) 一种网络舆情监控的方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant