CN107145591B

CN107145591B - 一种基于标题的网页有效元数据内容提取方法

Info

Publication number: CN107145591B
Application number: CN201710349934.XA
Authority: CN
Inventors: 陈桂清
Original assignee: Guangzhou Sunshot Information Technology Co ltd
Current assignee: Guangzhou Sunshot Information Technology Co ltd
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2020-10-16
Anticipated expiration: 2037-05-17
Also published as: CN107145591A

Abstract

本发明公开了一种基于标题的网页有效元数据内容提取方法，通过基于链接标题或网页标题来定义网页的主体内容所在的位置，可以无需对网页的HTML进行人工分析设定抽取规则，只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息，本发明易维护，无需配置抽取规则，自动适应各种网站的网页风格，大大减轻了维护成本；速度快，无需学习模式，只要有标题经过简单过滤后识别即可以快速锁定文章的主体信息，在大规模识别网页内容时具备有速度快的特点；精准性高，易读性强，可以较好地保留原文的风格，如加粗、字体大小等风格。

Description

一种基于标题的网页有效元数据内容提取方法

技术领域

本发明涉及，具体涉及一种基于标题的网页有效元数据内容提取方法。

背景技术

随着互联网络在全球范围内的飞速发展，网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。网络技术推陈出新，网络新闻、论坛、博客、聚合新闻等层出不穷，且具有范围广、交互性强、更新速度快的特点，可以说任何人都可以在 BBS 论坛，留言版或者自建站点上发布言论和观点，而且，随着Web2.0的发展与广泛应用，互联网上的舆论信息迅速传遍。从对社会影响方面看，网络舆论成为社会舆论的一种重要表现形式。由于原始的网页信息中包含有大量的导航信息与广告信息等，对识别有效的舆论信息带来极大的干扰。那么如何从不同的网页中自动抽取出有效的正文内容、发表时间、原始来源、原始作者、相关的图片、表格、文档等元数据就变得尤为重要。

对于提取网页中的元数据内容传统的方法是对每个不同的网站配置不同的抽取模板，即根据所要监测网站的文章内容网页的展现形式通过正则表达式、前后字符或网页元素的XPATH路径等预先定义好抽取规则后分别提取相关的元数据。中国专利“CN201611027102.8一种基于网页聚类的正文信息提取方法” 提供了一种网页正文信息提取方法。此专利在基于相似的网站链接地址情况下，自动根据多个相似的网页的特征生成正文信息的抽取规则。

传统的根据不同的网站配置不同的网页内容抽取规则，需要投入较多人力来根据不同的网站配置不同的抽取模板。一旦目标网站的网页改版了，或者有稍微细小的调整都可能导致原来的抽取模板规则失效，需要重新根据新的版面配置新的抽取规则。这种形式维护工作量较大，不宜对数万乃至数十万上百万个网站的网页内容抽取。中国专利“CN201611027102.8一种基于网页聚类的正文信息提取方法”需要通过对目标网站上的大量相似的网页进行学习后提取特征自动生成规则，也会存在目标网站的网页改版后，需要重新学习抽取规则特征的情况。

发明内容

本发明的目的是提取出一种无需根据每个网站的展现形式制定抽取规则，根据网页的标题信息自动识别网页中有效元数据的方法。

本发明的目的是通过以下技术方案实现的：

一种基于标题的网页有效元数据内容提取方法，提取方法基于链接标题或网页标题来确定网页的主体内容所在的位置，无需对网页的HTML进行人工分析设定抽取规则，只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息。

具体步骤如下：

（1）通过爬虫系统读取每个网站的链接、链接标题和网页内容后；

（2）将网页内容送入内容识别算法，识别算法先判断输入的内容中是否有链接标题，没有链接标题的自动提取网页中的<title>到</title>中的内容作为信息标题；

（3）剔除网页源代码中的script、iframe、noscript、textarea、select、注释等信息，以加快有效内容的识别；

（4）将网页的HTML源代码转换成树状结构，在转换中同时记录每个树结点的中的句子数量、链接数量等以作为识别的辅助信息；

（5）逐个读取HTML树结点的元素中的文本内容，判断该文本内容是否是句子或段落，判断是否是句子或段落的依据是该文本内容中的逗号数量是否超过2个，而且含有中英文常用的句子结束符号（句号、省略号、感叹号等），如果不是句子的，判断文本内容的长度是否大于3个汉字或6个字符，小于3个汉字的可以认为是噪声信息不作后续的处理，继续读取下一个HTML树结点；大于3汉字的，通过公式计算该字符串与输入的标题的相似度；相似度计算公式为：（A∩B/A∪B）*100=相似度，即A为链接标题中的所有字符（英文以单词），B为当前文本的所有字符，A与B中共同出现的字符数量除与A与B中所有不重复的单词数量乘于100即为两个文本的相似度；

（6）当发现文本内容与标题的相似度超过20%时，先记录当前文本内容的位置，继续扫描其它的HTML树结点，当发现剩余文本相似度超过原先搜索到的文本的相似度时，即可以替换原来的结点信息，逐步替换直到找到首个句子或段落出现时即结束标题信息的搜索；

（7）当发现标题后到搜索到第一个句子或段落信息后，需要求出标题与首个句子的共同的首个父结点，并以此结点作为搜索起始通过深度扫描判断每个结点的句子数量是否发生变化，当数量的变化不超过1/2时将继续往下搜索，直到搜索出包含有最多句子和段落的HTML元素结点；至此，即可锁定网页的正文主体内容，通过HTML树结点上的标签信息如img可以获得文中的图片信息，通过table标签可以获得文中的表格信息，通过a标签与href属性判断是否是文中的文档信息；

（8）除了识别正文与正文中的元数据外，还需要抽取正文相关的作者、来源、发表时间等信息，这个可以通过对正文标题到首个句子或段落间的文本内容进行扫描，并通过正则表达式来判断是否是作者信息、来源信息或时间信息等属性；

（9）根据以上的信息，即可以将网页内容识别出相关的属性元数据信息。

本发明具有如下有益的效果：

本发明由于不需要对网页的内容进行人工分析，只需要输入链接的网页内容和链接标题即可完成文章元数据内容的抽取。据统计网页上80%以上的链接都有相应的标题信息，即便没有标题信息，我们也可以从网页的自身标题上获取该网页的大致内容，以此作为基础搜索正文主体所在信息，并抽取出相关的属性信息。通过该方法至少可以达到：①易维护，无需配置抽取规则，自动适应各种网站的网页风格，大大减轻了维护成本；②速度快，无需学习模式，只要有标题经过简单过滤后识别即可以快速锁定文章的主体信息，在大规模识别网页内容时具备有速度快的特点；③精准性，由于基于链接标题作为线索，即网页中必须要出现与链接标题大体相似的信息，并以此作为中心点探测网页的主体内容结点，所以获得的主体内容必是与标题相关的结点，就该结点中输出的内容就是网页的内容；④易读性，由于采用了HTML结构树的模式，可以在锁定主体内容结点后，可以以该结点为起始输入递归输出包含有HTML属性的文本内容，可以较好地保留原文的风格，如加粗、字体大小等风格。

附图说明

图1为本发明的流程图；

图2为本发明的HTML转换成结构树的效果图；

图3为本发明的扫描标题与首个句子后的效果图；

图4为本发明的识别到标题与句子段落的情况图；

图5为本发明的识别到网页中的元数据效果图。

具体实施方式

下面结合附图对本发明作进一步的说明：

如图1所示，一种基于标题的网页有效元数据内容提取方法，提取方法基于链接标题或网页标题来定义网页的主体内容所在的位置，无需对网页的HTML进行人工分析设定抽取规则，只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息。

具体步骤如下：

（4）如图2所示，将网页的HTML源代码转换成树状结构，在转换中同时记录每个树结点的中的句子数量、链接数量等以作为识别的辅助信息；

（5）逐个读取HTML树结点的元素中的文本内容，判断该文本内容是否是句子或段落，判断是否是句子或段落的依据是该段文本内容中的逗号数量是否超过2个，而且含有中英文常用的句子结束符号（句号、省略号、感叹号等），如果不是句子的，判断文本内容的长度是否大于3个汉字，6个字符，小于3个汉字的可以认为是噪声信息不作后续的处理，继续读取下一个HTML树结点；大于3汉字的，通过公式计算该字符串与输入的标题的相似度；相似度计算公式为：（A∩B/A∪B）*100=相似度，即A为链接标题中的所有字符（英文以单词），B为当前文本内容的所有字符，A与B中共同出现的字符数量除与A与B中所有不重复的单词数量乘于100即为两个文本的相似度；

（6）如图3所示，当发现文本内容与标题的相似度超过20%时，先记录当前文本内容的位置，继续扫描其它的HTML树结点，当发现剩余文本相似度超过原先搜索到的文本的相似度时，即可以替换原来的结点信息，逐步替换直到找到首个句子或段落出现时即结束标题信息的搜索；

（7）如图4所示，当发现标题后到搜索到第一个句子或段落信息后，需要求出标题与首个句子的共同的首个父结点，并以此结点作为搜索起始通过深度扫描判断每个结点的句子数量是否发生变化，当数量的变化不超过1/2时将继续往下搜索，直到搜索出包含有最多句子和段落的HTML元素结点；至此，即可锁定网页的正文主体内容，通过HTML树结点上的标签信息如img可以获得文中的图片信息，通过table标签可以获得文中的表格信息，通过a标签与href属性判断是否是文中的文档信息；

（9）如图5所示，根据以上的信息，即可以将网页内容识别出相关的属性元数据信息。

具体实施例如下：

通过爬虫系统读取每个网站的链接、链接标题和网页内容后；读取到腾讯网有“德国联邦情报局再曝丑闻，监控国际刑警组织多年”的标题，通过内容识别算法识别出该标题为链接标题，进入标题的链接网页，剔除网页源代码中的注释等信息，将网页的HTML源代码转换成树状结构，对该网页进行逐句的文本读取，判断句子和段落文字长度，进而搜索相似标题、内容、作者、发表时间，搜索到中国日报和《明镜周刊》均有类似报道，进而读取到所需要的信息。

本发明通过基于链接标题或网页标题来定义网页的主体内容所在的位置，可以无需对网页的HTML进行人工分析设定抽取规则。只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息，关键电涉及到将HTML源码转换为HTML结构树，要求HTML源码在转换为结构树能较好的地满足HTML规范，并具有一定的容错能力，如只有<p>的标签，没有</p>标签时可以自动结束一个HTML结点，同时还需要快速的文本相似度计算公式与句子段落判定公式，通过以上几项技术的，结合本发明算法即可以实现快速的对各种网页内容抽取文章的元数据信息。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施过程的限制，上述实施过程和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求护范围由所附的权利要求书及其效果界定。

Claims

1.一种基于标题的网页有效元数据内容提取方法，其特征在于：所述的提取方法具体步骤如下：

（3）剔除网页源代码中的script、iframe、noscript、textarea、select以及注释信息；

（4）将网页的HTML源代码转换成树状结构，在转换中同时记录每个树结点的中的句子数量、链接数量以作为识别的辅助信息；

（5）逐个读取HTML树结点的元素中的文本内容，判断该文本内容是否是句子或段落，判断是否是句子或段落的依据是该文本内容中的逗号数量是否超过2个，而且含有中英文常用的句子结束符号，如果不是句子的，判断文本内容的长度是否大于3个汉字或6个字符，小于3个汉字的认为是噪声信息不作后续的处理，继续读取下一个HTML树结点；大于3个汉字的，通过公式计算该文本内容与输入的标题的相似度；

（6）当发现文本内容与标题的相似度超过20%时，先记录当前文本内容的位置，继续扫描其它的HTML树结点，当发现剩余文本相似度超过原先搜索到的文本的相似度时，即替换原来的结点信息，逐步替换直到找到首个句子或段落出现时即结束标题信息的搜索；

（7）当发现标题搜索到第一个句子或段落信息后，求出标题与首个句子的共同的首个父结点，并以此结点作为搜索起始通过深度扫描判断每个结点的句子数量是否发生变化，当数量的变化不超过1/2时将继续往下搜索，直到搜索出包含有最多句子和段落的HTML元素结点；至此，即锁定网页的正文主体内容，通过HTML树结点上的标签信息获得文中的图片信息，通过table标签获得文中的表格信息，通过a标签与href属性判断是否是文中的文档信息；

（8）除了识别正文与正文中的元数据外，还需要抽取正文相关的作者、来源、发表时间信息，这个通过对正文标题到首个句子或段落间的文本信息进行扫描，并通过正则表达式来判断是否是作者信息、来源信息或时间信息属性；即将网页内容识别出相关的属性元数据信息。

2.根据权利要求1所述的一种基于标题的网页有效元数据内容提取方法，其特征在于：步骤（5）中相似度计算公式为：（A∩B/A∪B）*100=相似度，即A为链接标题中的所有字符，B为当前文本的所有字符，A与B中共同出现的字符数量除与A与B中所有不重复的单词数量乘于100即为两个文本的相似度。