CN108520007A - 万维网网页信息提取方法、存储介质及计算机设备 - Google Patents
万维网网页信息提取方法、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN108520007A CN108520007A CN201810214406.8A CN201810214406A CN108520007A CN 108520007 A CN108520007 A CN 108520007A CN 201810214406 A CN201810214406 A CN 201810214406A CN 108520007 A CN108520007 A CN 108520007A
- Authority
- CN
- China
- Prior art keywords
- title
- html document
- text node
- text
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 30
- 230000014509 gene expression Effects 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000012546 transfer Methods 0.000 claims abstract description 8
- 239000006185 dispersion Substances 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种万维网网页信息提取方法、存储介质及计算机设备,该方法包括:通过互联网超文本传输协议获取万维网网页的HTML文档;从所述HTML文档提取网页信息,包括:从所述HTML文档提取关键字;将所述HTML文档分割为正文部分和标题部分;根据词频匹配度从所述标题部分提取标题;通过匹配日期表达式从所述HTML文档提取发布时间;通过底部特征信息分析从所述正文部分提取正文内容;从所述正文内容提取摘要;其中,所述网页信息包含所述标题、所述发布时间、所述摘要、所述关键字及所述正文内容中的一个或多个。本发明能够从万维网网页中提取真实信息。
Description
技术领域
本发明涉及信息收集处理技术领域,尤其涉及一种万维网网页信息提取方法、存储介质及计算机设备。
背景技术
在万维网文字信息收集过程中,通常取html(Hyper Text Markup Language,超文本标记语言)文档title标签内容作为标题,把整个html文档文字内容保存为资源内容,取文档内容的前一段作为摘要。这种方法通常存在以下问题:
1.很多万维网资源html文档title标签内容是一些网站名称、网站介绍,不能真正代表的文档核心内容。
2.整个HTML文档中夹杂广告等无用信息,保存整个HTML文档会占用大量存储空间,易对信息的检索造成干扰,不能准确表达HTML文档真实含义。
3.由HTTP协议(Hyper Text Transfer Protocol,超文本传输协议)请求的头中Last-Modified,往往得到的是文档静态界面的生成时间或web服务端设置的时间,不能代表文档真实的发布时间。
4.现有方法无法识别网页是否为真实内容页面或者列表链接页面,例如,万维网上的列表页面通常可占据全部页面的40%,这部分HTML文档资源只是起到链接的作用,不能代表文档的具体内容信息。保存这部分数据会占据大量的运算和存储资源。
发明内容
本发明提供一种万维网网页信息提取方法、存储介质及计算机设备,以提取万维网网页的真实信息。
本发明实施例提供一种万维网网页信息提取方法,包括:通过互联网超文本传输协议获取万维网网页的HTML文档;从所述HTML文档提取网页信息,包括:从所述HTML文档提取关键字;将所述HTML文档分割为正文部分和标题部分;根据词频匹配度从所述标题部分提取标题;通过匹配日期表达式从所述HTML文档提取发布时间;通过底部特征信息分析从所述正文部分提取正文内容;从所述正文内容提取摘要;其中,所述网页信息包含所述标题、所述发布时间、所述摘要、所述关键字及所述正文内容中的一个或多个。
一个实施例中,将所述HTML文档分割为正文部分和标题部分,包括:获取所述HTML文档的文本节点集合;计算所述文本节点集合中各文本节点的离散度,得到离散度集合;计算所述离散度集合中各离散度的期望值;根据所述期望值确定正文节点筛选条件,并根据所述正文节点筛选条件从所述文本节点集合提取文本节点形成正文节点集合,作为所述正文部分;根据有序的所述文本节点集合中第一个文本节点和有序的所述正文节点集合中的第一个文本节点,从所述文本节点集合提取文本节点形成标题节点集合,作为所述标题部分。
一个实施例中,根据词频匹配度从所述标题部分提取标题,包括:计算所述关键字在所述标题部分的标题节点集合中的文本节点的第一权重和/或设定重点词在所述标题部分的标题节点集合中的文本节点的第二权重;根据所述第一权重和/或所述第二权重从所述标题部分的标题节点集合中筛选出文本节点并将其文本内容作为所述标题。
一个实施例中,通过匹配日期表达式从所述HTML文档提取发布时间,包括:利用所述HTML文档的文本节点集合中各文本节点的文本内容匹配日期表达式,得到不超过当前日期的时间和相应的文本节点XPath;查找距离所述标题的文本节点最近的所述文本节点XPath并将其对应的时间作为所述发布时间。
一个实施例中,通过底部特征信息分析从所述正文部分提取正文内容,包括:根据所述正文部分的正文节点集合中的文本节点得到初始正文内容;根据设定底部特征信息在所述初始正文内容中出现的频度,筛选所述初始正文内容得到所述正文内容。
一个实施例中,从所述正文内容提取摘要,包括:将所述初始正文内容或所述正文内容拆分为句子集合;计算所述关键字存在于所述句子集合中的各句子的权重;根据所述各句子的权重从所述句子集合中筛选句子生成所述摘要。
一个实施例中,从所述HTML文档提取网页信息之前,还包括:删除所述HTML文档中的设定标签部分。
一个实施例中,从所述HTML文档提取网页信息之前,还包括:根据所述HTML文档判断所述万维网网页的类型,若判断结果为设定舍弃网页类型,则过滤掉所述万维网网页。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述方法的步骤。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例所述方法的步骤。
本发明实施例的万维网网页信息提取方法、存储介质及计算机设备,通过将HTML文档分割为正文部分和标题部分,并根据词频匹配度从该标题部分提取标题,通过匹配日期表达式从该HTML文档提取发布时间,通过底部特征信息分析从该正文部分提取正文内容,并从该正文内容提取摘要,能够从万维网网页中提取真实的标题、发布时间、正文内容、摘要等网页信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的万维网网页信息提取方法的流程示意图。
图2是本发明一实施例中从HTML文档提取关键字的方法流程示意图。
图3是本发明一实施例中将HTML文档分割为正文部分和标题部分的方法流程示意图。
图4是本发明一实施例中根据词频匹配度从标题部分提取标题的方法流程示意图。
图5是本发明一实施例中通过匹配日期表达式从HTML文档提取发布时间的方法流程示意图。
图6是本发明一实施例中通过底部特征信息分析从正文部分提取正文内容的方法流程示意图。
图7是本发明一实施例中从正文内容提取摘要的方法流程示意图。
图8是本发明另一实施例的万维网网页信息提取方法流程示意图。
图9是本发明又一实施例的万维网网页信息提取方法的流程示意图。
图10是本发明一实施例的计算机及设施结构示意图。
图11是本发明一实施例的万维网网页提取流程示意图。
图12是本发明一实施例的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明一实施例的万维网网页信息提取方法的流程示意图。如图1所示,本实施例的万维网网页信息提取方法,可包括:
步骤S100:通过互联网超文本传输协议获取万维网网页的HTML文档;
步骤S200:从所述HTML文档提取网页信息,可包括:
步骤S210:从所述HTML文档提取关键字;
步骤S220:将所述HTML文档分割为正文部分和标题部分;
步骤S230:根据词频匹配度从所述标题部分提取标题;
步骤S240:通过匹配日期表达式从所述HTML文档提取发布时间;
步骤S250:通过底部特征信息分析从所述正文部分提取正文内容;
步骤S260:从所述正文内容提取摘要;
其中,所述网页信息包含所述标题、所述发布时间、所述摘要、所述关键字及所述正文内容中的一个或多个。
在上述步骤S100中,以万维网上通过超文本传输协议共享的非结构化的文本资源为数据源,进行资源核心信息提取。
在上述步骤S200中,根据所提取网页信息的具体内容不同,具体地,可以选择步骤S210~步骤S260中的部分或全部步骤实施。例如,提取关键字时可仅包含步骤步骤S210;提取标题时可仅包含步骤S220~步骤S230,或者仅包含步骤S210~步骤S230(基于关键字从所述标题部分提取标题);提取发布时间时可仅包含步骤S240(从HTML文档的文本节点提取发布时间),或者仅包含步骤S220和步骤S240(从所述HTML文档的所述正文部分提取发布时间);提取正文内容时可仅包含步骤S220和步骤S250;提取摘要时可仅包含步骤S220、步骤S250及步骤S260,或者仅包含步骤S210、步骤S220、步骤S250及步骤S260(基于关键字从所述正文内容提取摘要)。
步骤S210~步骤S260,根据实际情况需要,可以调整步骤实施顺序。在上述步骤S200中,标题、发布时间、摘要、关键字及正文内容可指针对万维网网页信息或万维网网页的HTML文档而言。
本实施例中,通过将HTML文档分割为正文部分和标题部分,并根据词频匹配度从该标题部分提取标题,通过匹配日期表达式从该HTML文档提取发布时间,通过底部特征信息分析从该正文部分提取正文内容,并从该正文内容提取摘要,能够从万维网网页中提取真实的标题、发布时间、正文内容、摘要等网页信息。
图2是本发明一实施例中从HTML文档提取关键字的方法流程示意图。如图2所示,在上述步骤S210中,从所述HTML文档提取关键字的方法,可包括:
步骤S211:对所述HTML文档的文本内容进行分词;
步骤S212:计算分词结果中各单词的词频值;
步骤S213:根据所述词频值从所述分词结果提取所述关键字。
在上述步骤S212中,单词的词频值例如可以是单词在样本空间文档中的TF-IDF权重值。在上述步骤S213中,可以对各单词的词频值从大到小排序,可取前N个词频值所对应的单词作为关键字。
图3是本发明一实施例中将HTML文档分割为正文部分和标题部分的方法流程示意图。如图3所示,在上述步骤S220中,将所述HTML文档分割为正文部分和标题部分的方法,可包括:
步骤S221:获取所述HTML文档的文本节点集合;
步骤S222:计算所述文本节点集合中各文本节点的离散度,得到离散度集合;
步骤S223:计算所述离散度集合中各离散度的期望值;
步骤S224:根据所述期望值确定正文节点筛选条件,并根据所述正文节点筛选条件从所述文本节点集合提取文本节点形成正文节点集合,作为所述正文部分;
步骤S225:根据有序的所述文本节点集合中第一个文本节点和有序的所述正文节点集合中的第一个文本节点,从所述文本节点集合提取文本节点形成标题节点集合,作为所述标题部分。
在上述步骤S222中,离散度越大,文本节点的文本内容分布越密集。分布密集的部分可为正文部分。离散度可以采用多种不同的能够反映分布密集情况的方法计算得到。
在上述步骤S224中,正文节点筛选条件例如可为σi>E(σ)*m,其中m为设定常数,例如可在0.8~1.5范围内,根据该正文节点筛选条件可以确定文本节点的序号i,σi表示文本节点i的离散度,E(σ)表示离散度集合中各离散度的期望值。以此,可以筛选出文本节点。正文部分可以由正文节点集合中的文本节点构成。
在上述步骤S225中,文本节点集合中的文本节点一般可以按文本节点在网页中的位置进行排列,所以文本节点集合可以是一个有序集合。类似地,正文节点集合也可以是一个有序集合。
本实施例中,通过上述步骤S221~步骤S225可以准确找到正文部分(正文内容所在区域)和标题部分(标题所在区域),而不是像现有技术中那样仅仅将title标签作为标题,将其余部分作为正文。
一些实施例中,在上述步骤S222中,文本节点的离散度可以为:
其中,i、n表示文本节点的序号,σ表示文本节点n的离散度,l表示文本节点的单词长度,p表示邻近文本节点n的文本节点的个数。
一些实施例中,在上述步骤S223中,各离散度的期望值可以为:
其中,E(σ)表示离散度集合中各离散度的期望值,σ表示离散度,i和j表示离散度的序号,与文本节点的序号相对应,n表示离散度集合中离散度总数,i和j的取值为1到n。ln-p,ln-p+1,...,ln,ln+1,...,ln+p表示TEXT节点n-p,n-p+1,…,n,n+1,…,n+p的单词长度。
图4是本发明一实施例中根据词频匹配度从标题部分提取标题的方法流程示意图。如图4所示,在上述步骤S230中,根据词频匹配度从所述标题部分提取标题的方法,可包括:
步骤S231:计算所述关键字在所述标题部分的标题节点集合中的文本节点的第一权重和/或设定重点词在所述标题部分的标题节点集合中的文本节点的第二权重;
步骤S232:根据所述第一权重和/或所述第二权重从所述标题部分的标题节点集合中筛选出文本节点并将其文本内容作为所述标题。
在上述步骤S230中,根据词频匹配度从所述标题部分提取标题的方法的具体实施方式可以是,基于关键字根据词频匹配度从所述标题部分提取标题。再具体地,例如,可以包括上述步骤S231和步骤S232。
在上述步骤S231中,该第一权重和该第二权重例如可以是TF-IDF权重值,具体计算方法可以根据现有的TF-IDF计算方法得到。其他实施例中,例如可以根据实际情况对该第一权重和该第二权重进行设定。该设定重点词例如可以为重点词集合F={(公告,1),(报告,1),(说明,1),(公示,1),(决议,1),(汇报,1)}中的重点词。
在上述步骤S232中,可以根据该第一权重或该第二权重其中一者筛选文本节点。或者可以根据该第一权重和该第二权重二者(例如该二者的和)筛选文本节点。
图5是本发明一实施例中通过匹配日期表达式从HTML文档提取发布时间的方法流程示意图。如图5所示,在上述步骤S240中,通过匹配日期表达式从所述HTML文档提取发布时间的方法,可包括:
步骤S241:利用所述HTML文档的文本节点集合中各文本节点的文本内容匹配日期表达式,得到不超过当前日期的时间和相应的文本节点XPath;
步骤S242:查找距离所述标题的文本节点最近的所述文本节点XPath并将其对应的时间作为所述发布时间。
在上述步骤S241,本领域技术人员知道该日期表达式可以根据设定规则得到。文本节点的文本内容一般包含时间信息,利用该日期表达式进行匹配,可以找到文本节点的文本内容中记载的日期。本领域技术人员知道XPath可以标明文本节点的路径等信息。
在上述步骤S242,在现有的万维网网页中,开发人员常将真实的时间信息放入距离标题最近的文本节点中,所以通过找距离所述标题的文本节点最近的所述文本节点XPath并将其对应的时间,可以得到真实的发布时间。
图6是本发明一实施例中通过底部特征信息分析从正文部分提取正文内容的方法流程示意图。如图6所示,在上述步骤S250中,通过底部特征信息分析从所述正文部分提取正文内容的方法,可包括:
步骤S251:根据所述正文部分的正文节点集合中的文本节点得到初始正文内容;
步骤S252:根据设定底部特征信息在所述初始正文内容中出现的频度,筛选所述初始正文内容得到所述正文内容。
在上述步骤S251中,例如可以将正文节点集合中的文本节点按位置顺序组合起来得到上述初始正文内容。
在上述步骤S251中,例如,设底部特征信息集合 设定底部特征信息在所述初始正文内容中出现的频度例如可以是:其中,Pf表示频度,Lc表示初始正文内容额单词长度,m表示初始正文内容包含设定底部特征信息中元素的个数。进一步,例如,若Pf<g,视此HTML文档为非内容页,若Pf>g,记为HTML文档正文内容。g例如可以取20~50内的值,例如取30。
图7是本发明一实施例中从正文内容提取摘要的方法流程示意图。如图7所示,在上述步骤S260中,从所述正文内容提取摘要的方法,可包括:
步骤S261:将所述初始正文内容或所述正文内容拆分为句子集合;
步骤S262:计算所述关键字存在于所述句子集合中的各句子的权重;
步骤S263:根据所述各句子的权重从所述句子集合中筛选句子生成所述摘要。
在上述步骤S262中,该权重例如可以是TF-IDF权重。
本实施例中,根据各句子的权重从句子集合中筛选句子能够生成真实的摘要信息。可以克服现有技术中仅仅取文档前一段内容作为摘要而不能反映真实信息的问题。
图8是本发明另一实施例的万维网网页信息提取方法流程示意图。如图8所示,图1所示的万维网网页信息提取方法,在步骤S200之前,即,从所述HTML文档提取网页信息之前,还可包括:
步骤S300:删除所述HTML文档中的设定标签部分。
在上述步骤S300中,删除设定标签部分后的HTML文档用于提取网页信息。设定标签部分一般可指非文本部分,例如可以是<head>标签部分、<script>标签部分、<style>标签部分、<head>标签部分、<form>标签部分、隐藏域部分等。通过删除HTML文档中的设定标签部分,可以对HTML文档进行清洗,仅保留提取网页信息所需的部分。以此可以减少无用信息,节省存储空间。
图9是本发明又一实施例的万维网网页信息提取方法的流程示意图。如图9所示,图1所示的万维网网页信息提取方法,在步骤S200之前,即,从所述HTML文档提取包含网页信息之前,还可包括:
步骤S400:根据所述HTML文档判断所述万维网网页的类型,若判断结果为设定舍弃网页类型,则过滤掉所述万维网网页。
在上述步骤S400中,该设定舍弃网页类型例如可以是列表页面等。当判断万维网网页为设定舍弃网页类型是,可以放弃对该网页的HTML文档进行信息提取,从而过滤掉该万维网网页,以此可以节省计算资源。未被过滤掉的万维网网页用于继续执行步骤S200。
一些实施例中,根据所述HTML文档判断所述万维网网页的类型的具体实施方式可以是:通过判断所述HTML文档的可见单词数量是否等于所述HTML文档中<a>标签所包含文本单词数量,若是,则所述万维网网页的类型为列表页面。
图10是本发明一实施例的计算机及设施结构示意图。如图10所示,万维网网页资源主要内容提取方法所用装置,可包括互联网接入、html文档数据采集服务器、HTML文档内容处理服务器、存储服务器。可在HTML文档内容处理服务器上部署上述各实施例的流程和方法的计算机程序。
图11是本发明一实施例的万维网网页提取流程示意图。如图11所示,万维网网页资源主要内容提取流程及方法,可由HTML文档内容处理服务器接收html文档数据采集服务器传入的html文档文本数据,作为输入。
可利用本发明实施例的方法进行万维网文字信息收集处理,筛选万维网上URL对应的文本HTML内容是否为具体内容页面,提取网页信息标题、发布时间、正文内容信息、摘要、关键词等信息。可用于搜索引擎网页内容信息采集、万维网舆情搜集分析、万维网自然语言语料库搜集等方面。
一些实施例中,可通过HTML文档清洗计算模块对HTML文档的<head>标签元素、<script>标签元素、<style>标签元素、<head>标签元素、<form>标签元素、<iframe>标签元素、<select>标签元素、<input>标签元素、<input>标签元素做删除操作。
一些实施例中,可通过网页类型过滤计算模块对网页类型是否为内容页面做判断,若判断结果为否的,中断操作,若为真,则进行后续处理。
一些实施例中,可通过关键词提取计算模块获取HTML文档文字内容的词频集合,并对此集合进行排序,取词频值大的部分字词作为HTML文档的关键词。
一些实施例中,可通过HTML元素拆分计算模块计算HTML节点元素的离散效果,计算总体节点离散期望,通过总体离散期望值把HTML元素分割为分布密集部分即正文部分,正文之前的部分可作为标题所在集合。
一些实施例中,可通过标题提取计算模块进行对标题所在集合进行遍历,计算关键词词频匹配度,匹配度高的做为文档标题。
一些实施例中,可通过发布时间提取计算模块提取文档内容中的时间表达式,取表达式所在节点XPath和标题所在节点XPath最进匹配切时间不大于当前日期的时间表达式做为文档发布日期。
一些实施例中,可通过正文内容提取计算模块对正文节点元素内容进行底部特征信息分析,对非正常结果进行舍弃。可将排除结果作为正文内容存储。
一些实施例中,可通过摘要提取计算模块对正文内容进行关键性分析,按句子拆分,对句子集合元素按关键匹配原则算权重,取权重值高的做为文档摘要信息。
一些实施例中,上述步骤S200实现过程是:根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,通过管道运算模型,通过HTML文档清洗计算模块、网页类型过滤计算模块、关键词提取计算模块、HTML文档元素拆分计算模块,标题提取计算模块、发布时间提取计算模块、正文内容提取计算模块、摘要提取计算模块的管道流处理后得到萃取结果。
一些实施例中,提供万维网网页主要内容提取流程及方法,用于解决收集万维网网页信息时如何筛选内容页面,如何过滤内容页广告内容等无效信息,如何提取正确含义标题和摘要、以及如何提取文档发布时间等问题。为了达到上述目的,本实施例所采用的实现方案可包括:
实施例中,可通过互联网http超文本传输协议,获取万维网上公开的HTML文档信息。对HTML文档进行以下步骤的运算处理:
(1)对HTML文档清洗,具体步骤可如下:
①删除HTML文档<head>标签部分;
②删除HTML文档<script>标签部分;
③删除HTML文档<style>标签部分;
④删除HTML文档<head>标签部分;
⑤删除HTML文档<form>标签部分;
⑥删除HTML文档<iframe>标签部分;
⑦删除HTML文档<select>标签部分;
⑧删除HTML文档<input>标签部分;
⑨删除HTML文档<input>标签部分;
⑩删除HTML文档[style~=(?i).*display*:*none]隐藏域部分。
(2)网页类型过滤,具体步骤可如下:
统计HTML文档D中<a>标签在文档中出现的次数n;
统计HTML文档D中可见单词数量c;
统计HTML文档D中<a>标签所包含文本单词数量和为d;
记文档可见单词和<a>标签数量比:
记文档可见单词和<a>标签所包含文本单词数量比:
若fb==1则记此HTML页面类型为列表页面,进行舍弃。
(3)关键词提取,具体步骤可如下:
对文档进行分词;
定义HTML文档文本内容分词结果字词集合为W={w1,w2,...,wn};
取例如1000个万维网网页为样本空间文档,计算样本空间文档TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆向文件频率),并基于该样本空间文档,计算本HTML文档文本内容分词结果中每个词语的TF-IDF;
记单词x的TF-IDF权重值为y=tfidf(x);
按权重值tfidf(x)值排序,取tfidf(x)从大到小排序的前N个词语作为本文档的关键词及词权重值。
记文档文本内容分词结果权重值集合为:K={(x,y)|y=tfidf(x)}。
(4)HTML文档元素拆分,具体步骤可如下:
计算每个TEXT节点和相邻p个TEXT节点的单词长度离散程度:
设TEXT节点n的单词长度为ln;
TEXT节点n离散度为σ:
计算平均期望E(σ):
其中,E(σ)表示离散度集合中各离散度的期望值,σ表示离散度,i和j表示离散度的序号,与文本节点的序号相对应,n表示离散度集合中离散度总数,i和j的取值为1到n。ln-p,ln-p+1,...,ln,ln+1,...,ln+p表示TEXT节点n-p,n-p+1,…,n,n+1,…,n+p的单词长度。
设HTML文档的TEXT节点集合为S={s1,s2,...,sn};
设HTML文档的TEXT节点对应的离散度集合为K={σ1,σ2,...,σn};
HTML文档正文节点集合为:A={x|x=si,si∈S,i∈σi>E(σ)*1.2};
HTML文档标题节点集合为:B={y|集合S的子集,从s1到集合A的第一个子集(元素)a1}
(5)标题提取,具体步骤如下:
例如,设重点词集合F={(公告,1),(报告,1),(说明,1),(公示,1),(决议,1),(汇报,1)}
取步骤(4)中产生结果HTML文档标题节点集合B,进行遍历,记B的元素bi的权值:
di=∑第(3)步集合K中元素关键字xi在标题节点集合的元素bi中存在的权重值yi
+∑重点词集合F中元素fi在标题节点集合的元素bi中存在的权重值zi
集合B中权值b最大的节点文本内容即为标题。记标题节点(标题的文本节点)XPath为Xt。
(6)发布时间提取,具体步骤可如下:
遍历HTML文档各文本节点,用各节点文本内容匹配日期表达式,记匹配结果集合为:D={(XPath,Date)|Date<=当前日期},XPath为被遍历文本节点的XPath,Date为相应的日期;
遍历集合D,查找集合D中元素XPath和步骤(5)中结果Xt,从前向后做字符匹配,匹配最长的一个记作文档发布日期。
(7)正文内容提取,具体步骤如下:
对步骤(4)的结果集合A的元素进行遍历:
记初始正文内容C=a1+a2+a3+...+an;
例如,设底部特征信息集合
记初始正文内容C包含F元素的个数为m,C的单词长度为Lc;
则记集合F中元素在初始正文内容C中出现的频度为:
例如,若Pf<30,视此HTML文档为非内容页;
若Pf>30,记此HTML文档的正文内容为C’。
(8)摘要提取,具体步骤可如下:
对步骤(7)的结果正文内容C’进行按标点符号{。?!}拆分为句子集合V={v1,v2,...,vn};
第三步结果集合K中元素xj在vi中存在的yj
按vi对应的ei对集合V进行倒序(降序)排列;
取V前d个元素为v1+v2+...+vd作为此HTML文档的摘要。
本实施例流程和方法处理后可得到,万维网公开URL所定位的HTML文档的标题,发布时间、摘要、关键字、正文内容;把处理后的内容归类存储可以做为舆情分析、自然语言语料库的基础数据。比直接保存html内容节约70%的存储空间,垃圾数据清洗工作量减少90%。本发明实施例的方法能有效的提取万维网上公开的网页信息标题、发布时间、正文内容信息,准确率可达90%以上。本发明各实施例的方法可用于搜索引擎网页内容信息采集、万维网舆情搜集分析、万维网自然语言语料库搜集等方面。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述方法的步骤。
本发明实施例还提供一种计算机设备,如图12所示,计算机设备500可包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例所述方法的步骤。
综上所述,本发明实施例的万维网网页信息提取方法、存储介质及计算机设备,通过将HTML文档分割为正文部分和标题部分,并根据词频匹配度从该标题部分提取标题,通过匹配日期表达式从该HTML文档提取发布时间,通过底部特征信息分析从该正文部分提取正文内容,并从该正文内容提取摘要,能够从万维网网页中提取真实的标题、发布时间、正文内容、摘要等网页信息。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种万维网网页信息提取方法,其特征在于,包括:
通过互联网超文本传输协议获取万维网网页的HTML文档;
从所述HTML文档提取网页信息,包括:
从所述HTML文档提取关键字;
将所述HTML文档分割为正文部分和标题部分;
根据词频匹配度从所述标题部分提取标题;
通过匹配日期表达式从所述HTML文档提取发布时间;
通过底部特征信息分析从所述正文部分提取正文内容;
从所述正文内容提取摘要;
其中,所述网页信息包含所述标题、所述发布时间、所述摘要、所述关键字及所述正文内容中的一个或多个。
2.如权利要求1所述的万维网网页信息提取方法,其特征在于,将所述HTML文档分割为正文部分和标题部分,包括:
获取所述HTML文档的文本节点集合;
计算所述文本节点集合中各文本节点的离散度,得到离散度集合;
计算所述离散度集合中各离散度的期望值;
根据所述期望值确定正文节点筛选条件,并根据所述正文节点筛选条件从所述文本节点集合提取文本节点形成正文节点集合,作为所述正文部分;
根据有序的所述文本节点集合中第一个文本节点和有序的所述正文节点集合中的第一个文本节点,从所述文本节点集合提取文本节点形成标题节点集合,作为所述标题部分。
3.如权利要求1所述的万维网网页信息提取方法,其特征在于,根据词频匹配度从所述标题部分提取标题,包括:
计算所述关键字在所述标题部分的标题节点集合中的文本节点的第一权重和/或设定重点词在所述标题部分的标题节点集合中的文本节点的第二权重;
根据所述第一权重和/或所述第二权重从所述标题部分的标题节点集合中筛选出文本节点并将其文本内容作为所述标题。
4.如权利要求1所述的万维网网页信息提取方法,其特征在于,通过匹配日期表达式从所述HTML文档提取发布时间,包括:
利用所述HTML文档的文本节点集合中各文本节点的文本内容匹配日期表达式,得到不超过当前日期的时间和相应的文本节点XPath;
查找距离所述标题的文本节点最近的所述文本节点XPath并将其对应的时间作为所述发布时间。
5.如权利要求1所述的万维网网页信息提取方法,其特征在于,通过底部特征信息分析从所述正文部分提取正文内容,包括:
根据所述正文部分的正文节点集合中的文本节点得到初始正文内容;
根据设定底部特征信息在所述初始正文内容中出现的频度,筛选所述初始正文内容得到所述正文内容。
6.如权利要求5所述的万维网网页信息提取方法,其特征在于,从所述正文内容提取摘要,包括:
将所述初始正文内容或所述正文内容拆分为句子集合;
计算所述关键字存在于所述句子集合中的各句子的权重;
根据所述各句子的权重从所述句子集合中筛选句子生成所述摘要。
7.如权利要求1至6任一项所述的万维网网页信息提取方法,其特征在于,从所述HTML文档提取网页信息之前,还包括:
删除所述HTML文档中的设定标签部分。
8.如权利要求1至6任一项所述的万维网网页信息提取方法,其特征在于,从所述HTML文档提取网页信息之前,还包括:
根据所述HTML文档判断所述万维网网页的类型,若判断结果为设定舍弃网页类型,则过滤掉所述万维网网页。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810214406.8A CN108520007B (zh) | 2018-03-15 | 2018-03-15 | 万维网网页信息提取方法、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810214406.8A CN108520007B (zh) | 2018-03-15 | 2018-03-15 | 万维网网页信息提取方法、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108520007A true CN108520007A (zh) | 2018-09-11 |
CN108520007B CN108520007B (zh) | 2021-09-28 |
Family
ID=63433796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810214406.8A Active CN108520007B (zh) | 2018-03-15 | 2018-03-15 | 万维网网页信息提取方法、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108520007B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119484A (zh) * | 2019-03-27 | 2019-08-13 | 湖南星汉数智科技有限公司 | 网页发布时间抽取方法、装置、计算机装置及计算机可读存储介质 |
CN111966881A (zh) * | 2020-10-14 | 2020-11-20 | 成都数联铭品科技有限公司 | 一种网页信息提取方法及系统、电子设备 |
CN112232020A (zh) * | 2020-12-14 | 2021-01-15 | 北京智慧星光信息技术有限公司 | 文章发布时间通用识别方法、系统、电子设备及存储介质 |
CN112287254A (zh) * | 2020-11-23 | 2021-01-29 | 武汉虹旭信息技术有限责任公司 | 网页结构化信息提取方法、装置、电子设备及存储介质 |
CN113392354A (zh) * | 2021-06-28 | 2021-09-14 | 山东亿云信息技术有限公司 | 一种网页正文解析方法、系统、介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064845A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 网页信息处理装置和网页信息处理方法 |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN106557565A (zh) * | 2016-11-22 | 2017-04-05 | 福州大学 | 一种基于网页聚类的正文信息提取方法 |
CN107590219A (zh) * | 2017-09-04 | 2018-01-16 | 电子科技大学 | 网页人物主题相关信息提取方法 |
-
2018
- 2018-03-15 CN CN201810214406.8A patent/CN108520007B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064845A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 网页信息处理装置和网页信息处理方法 |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN106557565A (zh) * | 2016-11-22 | 2017-04-05 | 福州大学 | 一种基于网页聚类的正文信息提取方法 |
CN107590219A (zh) * | 2017-09-04 | 2018-01-16 | 电子科技大学 | 网页人物主题相关信息提取方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119484A (zh) * | 2019-03-27 | 2019-08-13 | 湖南星汉数智科技有限公司 | 网页发布时间抽取方法、装置、计算机装置及计算机可读存储介质 |
CN111966881A (zh) * | 2020-10-14 | 2020-11-20 | 成都数联铭品科技有限公司 | 一种网页信息提取方法及系统、电子设备 |
CN112287254A (zh) * | 2020-11-23 | 2021-01-29 | 武汉虹旭信息技术有限责任公司 | 网页结构化信息提取方法、装置、电子设备及存储介质 |
CN112287254B (zh) * | 2020-11-23 | 2023-10-27 | 武汉虹旭信息技术有限责任公司 | 网页结构化信息提取方法、装置、电子设备及存储介质 |
CN112232020A (zh) * | 2020-12-14 | 2021-01-15 | 北京智慧星光信息技术有限公司 | 文章发布时间通用识别方法、系统、电子设备及存储介质 |
CN113392354A (zh) * | 2021-06-28 | 2021-09-14 | 山东亿云信息技术有限公司 | 一种网页正文解析方法、系统、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108520007B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Noekhah et al. | Opinion spam detection: Using multi-iterative graph-based model | |
JP4489994B2 (ja) | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 | |
Zhang et al. | Improving short text classification by learning vector representations of both words and hidden topics | |
KR101203345B1 (ko) | 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템 | |
Hotho et al. | Trend detection in folksonomies | |
CN108520007A (zh) | 万维网网页信息提取方法、存储介质及计算机设备 | |
AU2006277608B2 (en) | Method and system for extracting web data | |
CN104573054A (zh) | 一种信息推送方法和设备 | |
CN102262647A (zh) | 信息处理装置、信息处理方法和程序 | |
US20140059089A1 (en) | Method and apparatus for structuring a network | |
CN111259220B (zh) | 一种基于大数据的数据采集方法和系统 | |
CN111932308A (zh) | 数据推荐方法、装置和设备 | |
Ma et al. | Stream-based live public opinion monitoring approach with adaptive probabilistic topic model | |
Zhang et al. | An approach of service discovery based on service goal clustering | |
Li et al. | Words analysis of online Chinese news headlines about trending events: a complex network perspective | |
WO2010087882A1 (en) | Personalization engine for building a user profile | |
Cho et al. | Topic category analysis on twitter via cross-media strategy | |
Luo et al. | Towards combining web classification and web information extraction: a case study | |
Xu et al. | Research on Tibetan hot words, sensitive words tracking and public opinion classification | |
Zhang et al. | DGWC: Distributed and generic web crawler for online information extraction | |
US20200226159A1 (en) | System and method of generating reading lists | |
Martinčić-Ipšić et al. | Text type differentiation based on the structural properties of language networks | |
Zhang et al. | Graph convolutional network-strengthened topic modeling for scientific papers | |
Akalya et al. | NARS: News Aggregation and Recommendation System. | |
Afolabi et al. | Topic Modelling for Research Perception: Techniques, Processes and a Case Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 100097 room 10e, unit 2 (block B), 9 / F, building 2, yard 2, lantianchang East Road, Haidian District, Beijing (Building 2, Jinyuan times business center) Patentee after: Kunyu (Beijing) Technology Co.,Ltd. Address before: A646, 7th Floor, 7th Floor, No. 28 Xinxin Road, Haidian District, Beijing, 100085 Patentee before: RICHWAY (BEIJING) TECHNOLOGY Co.,Ltd. |