CN105868363B

CN105868363B - 一种基于模糊逻辑的网页页面正文抽取方法及系统

Info

Publication number: CN105868363B
Application number: CN201610189222.1A
Authority: CN
Inventors: 赵维平; 钟新斌; 张勇; 曹震; 王鑫毅
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2018-12-14
Anticipated expiration: 2036-03-29
Also published as: CN105868363A

Abstract

本发明公开了一种基于模糊逻辑的网页页面正文抽取方法，包括：读取网页页面的内容；统计网页页面中的行块字符数；统计网页页面中的行块超链接数；基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值；判断所述行块正文概率值是否大于预设正文概率阈值，若是，则：输出行块正文概率值大于预设正文概率阈值所在的行块的内容。本发明无需针对特定的网页页面配置模板等监督规则，即可以准确识别网页页面中的正文内容，实现高效、通用的网页页面正文抽取。本发明还公开了一种基于模糊逻辑的网页页面正文抽取系统。

Description

一种基于模糊逻辑的网页页面正文抽取方法及系统

技术领域

本发明涉及网页页面处理技术领域，尤其涉及一种基于模糊逻辑的网页页面正文抽取方法及系统。

背景技术

随着互联网金融的发展，金融企业不再满足于单纯依靠内部的交易型结构化数据来进行价值发现，而越来越重视利用互联网上海量的非结化数据，用于行情研究、网络征信、品牌价值推广等。当前，个人、机构和企业在网络上发布的信息通常以网页形式存在，而这些互联网网页页面异构性大，且通常用包含大量的HMTL标签、JS脚本和广告推广等噪声信息所包围，给数据整合和分析工作带来了巨大的困扰。

网页信息的抽取目标是将网页页面中的信息抽取出来并标示为结构化、自描述的数据结构。当前在这一领域主要的技术方案有以下几点：

一是基于简单语言标记的去除，通常利用网页形式的页面标签包括“<”和“>”的特点，通过简单的程序遍历和赋值，将所要抽取的信息抽取出来。二是采用正则表达式进行文本匹配，提取内嵌的正文信息。三是采用Dom(Document Object Mode，文档对象模型)树的方式进行内容提取，通过将HTML等网页页面构建Dom树，再结合定制的模板文件，从相关叶子节点中提取相关信息。上述技术方案，通常是一种“监督”形式的网页信息抽取方案，需要对网页页面的结构具有精准的了解，通过制定精确的模板文件或匹配规则进行内容的抽取。由于网页的正文部分的每一行通常包括较高的文本长度，因此，有的技术方案也利用统计每行文本长度的分布特征，通过设定相关阈值来抽取通常分布在“波峰”范围内的行标号，最终完成网页页面正文内容抽取。

但是，上述的技术方法存在对页面的要求高，装置人工成本高。由于网页页面的结构千差万别，不管是简单语言标记去除、正则表达式信息抽取还是基于Dom树的网页抽取，都必须对待抽取目标的页面结构非常了解，需要构建大量的解析模板来匹配相应位置的内容，人力成本惊人。且由于页面异构性大，方案和装置通用性差。在网络上，网页页面的更新周期往往非常短，当页面结构发生变化时，需要修改装置的解析模板进行适配，大大降低了装置的稳定性和鲁棒性。同时，人工干预强，解析抽取的自动化程度受限。当前的网页抽取方案，往往需要较多的人工干预，需要阅读网页页面结构，或主观设立一些精准的参数，主观因素强，装置抽取的自动化程度受限。

发明内容

本发明提供了一种基于模糊逻辑的网页页面正文抽取方法，无需针对特定的网页页面配置模板等监督规则，即可以准确识别网页页面中的正文内容，实现高效、通用的网页页面正文抽取。

本发明提供了一种基于模糊逻辑的网页页面正文抽取方法，包括：

读取网页页面的内容；

统计网页页面中的行块字符数；

统计网页页面中的行块超链接数；

基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值；

判断所述行块正文概率值是否大于预设正文概率阈值，若是，则：

输出行块正文概率值大于预设正文概率阈值所在的行块的内容。

优选地，所述统计网页页面中的行块字符数具体为：

过滤网页页面的HTML标签和JS脚本，得到网页纯文本；

依据字符数隶属度函数统计每个行块所包含的文本数；其中：SC表示少字符数、MC表示中字符数、LC表示多字符数。

优选地，所述统计网页页面中的行块超链接数具体为：

依据超链接数隶属度函数统计网页页面对应行块的超级链接数目；其中：SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。

优选地，所述基于模糊逻辑推理进行参数模糊化和规则推理具体为：

依据预设的规则库，根据所述行块字符数和行块超链接数输出正文概率。

优选地，所述通过解模糊算法输出行块正文概率值具体为：

依据公式μ_C'(z)的加权平均值为z的清晰值，输出行块正文概率值。

一种基于模糊逻辑的网页页面正文抽取系统，包括：

读取单元，用于读取网页页面的内容；

行块字符数统计单元，用于统计网页页面中的行块字符数；

行块超链接数统计单元，用于统计网页页面中的行块超链接数；

模糊推理单元，用于基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值；

判断单元，用于判断所述行块正文概率值是否大于预设正文概率阈值；

输出单元，用于当所述判断单元判断所述行块正文概率值大于预设正文概率阈值时，输出行块正文概率值大于预设正文概率阈值所在的行块的内容。

优选地，所述行块字符数统计单元具体用于：

过滤网页页面的HTML标签和JS脚本，得到网页纯文本；

优选地，所述行块超链接数统计单元具体用于：

优选地，所述模糊推理单元具体用于：

优选地，所述模糊推理单元具体还用于：

由上述方案可知，本发明提供的一种基于模糊逻辑的网页页面正文抽取方法，通过读取网页页面的内容，并统计网页页面中的行块字符数以及行块超链接数，然后基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值；最后判断输出的行块正文概率值是否大于预设正文概率阈值，若是则输出行块正文概率值大于预设正文概率阈值所在的行块的内容，该方案无需针对特定的网页页面配置模板等监督规则，即可以准确识别网页页面中的正文内容，实现高效、通用的网页页面正文抽取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取方法的流程图；

图2为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取方法，包括：

S101、读取网页页面的内容；

通过分析互联网上网页的结构发现，网页页面每一行都表示一个完整的语义，正文内容代码在物理位置上会靠的很近，正文内容的一行中大都是文字，广告推广等噪声部分通常包括大量的推广链接。基于此，在对网页页面正文抽取时，首先读取网页页面的内容。其中，网页页面的内容可以是本地、HDFS分布式文件系统的网页文件或通过URL链接的某个远端网页页面。

S102、统计网页页面中的行块字符数；

然后对网页页面中的行块字符数进行统计，其中，行块是指网页页面中每行和它周围几行共同构成的部分。行块字符数是指网页页面中该行与周围行组成行块的字符数字的多少。将行块字符数定义为输入量x，其模糊语言集合可表示为：字符数＝{SC(少字符数)，MC(中字符数)，LC(多字符数)}。

S103、统计网页页面中的行块超链接数；

然后对网页页面中的行块超链接数进行统计，其中，行块超链接数是指网页页面代码中某行所在行块的超链接数的多少。将行块超链接数定义为输入量y，其模糊集合表示为：正文概率＝{VS(很小)，S(小)，M(中)，L(大)，很大(VL)}。

S104、基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值；

将正文的概率定义为输出量z，其中模糊集合可表示为：正文概率＝{VS(很小)，S(小)，M(中)，L(大)，很大(VL)}。

S105、判断所述行块正文概率值是否大于预设正文概率阈值，若是，则进入S106：

对输出的正文概率值进行判断，判断输出的正文概率值是否大于预设的正文概率阈值，其中，正文概率阈值是根据网页页面正文抽取的需求预先设定的，例如，可将正文概率阈值设定为0.58，判断输出的正文概率值是否大于0.58.

S106、输出行块正文概率值大于预设正文概率阈值所在的行块的内容。

当判断输出的正文概率值大于预设的正文概率阈值时，拼接正文概率值大于预设的正文概率阈值所在的所有行块内容为正文内容输出，即抽取出的网页页面正文。

综上所述，在上述实施例中，通过读取网页页面的内容，并统计网页页面中的行块字符数以及行块超链接数，然后基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值；最后判断输出的行块正文概率值是否大于预设正文概率阈值，若是则输出行块正文概率值大于预设正文概率阈值所在的行块的内容，该方案无需针对特定的网页页面配置模板等监督规则，即可以准确识别网页页面中的正文内容，实现高效、通用的网页页面正文抽取。

具体的，在上述实施例中，统计网页页面中的行块字符数具体可以为：过滤网页页面的HTML标签和JS脚本，得到网页纯文本，依据字符数隶属度函数统计每个行块所包含的文本数；其中：SC表示少字符数、MC表示中字符数、LC表示多字符数。

具体的，在上述实施例中，统计网页页面中的行块超链接数具体可以为：依据超链接数隶属度函数统计网页页面对应行块的超级链接数目；其中：SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。

具体的上述实施例中，基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值具体可以为：依据正文概率隶属度函数其中，VS表示很小、S表示小、M表示中、L表示大、VL表示很大。以及如表1所示的FLC规则库输出正文概率，并依据公式μ_C'(z)的加权平均值为z的清晰值，输出行块正文概率值。

表1 FLC规则库

综上所述，本发明以模糊逻辑规则推理为基础进行网页正文抽取，无需制定繁多的解析模板，可以大大降低人工成本。采用通用的方式进行网页信息抽取工作，无需考虑页面的异构特征，使装置的可靠性和通用性大大增强。只需确立最终的正文概率阈值，无需过多的指导参数，人工干预小。

如图2所示，为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取系统，包括：

读取单元201，用于读取网页页面的内容；

行块字符数统计单元202，用于统计网页页面中的行块字符数；

行块超链接数统计单元203，用于统计网页页面中的行块超链接数；

模糊推理单元204，用于基于模糊逻辑推理进行参数模糊化和规则推理，并通过解模糊算法输出行块正文概率值；

判断单元205，用于判断所述行块正文概率值是否大于预设正文概率阈值；

对输出的正文概率值进行判断，判断输出的正文概率值是否大于预设的正文概率阈值，其中，正文概率阈值是根据网页页面正文抽取的需求预先设定的，例如，可将正文概率阈值设定为0.58，判断输出的正文概率值是否大于0.58。

输出单元206，用于当所述判断单元判断所述行块正文概率值大于预设正文概率阈值时，输出行块正文概率值大于预设正文概率阈值所在的行块的内容。

表1 FLC规则库

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于模糊逻辑的网页页面正文抽取方法，其特征在于，包括：

读取网页页面的内容；

统计网页页面中的行块字符数；

统计网页页面中的行块超链接数；

输出行块正文概率值大于预设正文概率阈值所在的行块的内容；

其中，所述统计网页页面中的行块字符数具体为：

过滤网页页面的HTML标签和JS脚本，得到网页纯文本；

依据字符数隶属度函数统计每个行块所包含的文本数；其中：SC表示少字符数、MC表示中字符数、LC表示多字符数；

所述统计网页页面中的行块超链接数具体为：

2.根据权利要求1所述的方法，其特征在于，所述基于模糊逻辑推理进行参数模糊化和规则推理具体为：

3.根据权利要求2所述的方法，其特征在于，所述通过解模糊算法输出行块正文概率值具体为：

4.一种基于模糊逻辑的网页页面正文抽取系统，其特征在于，包括：

读取单元，用于读取网页页面的内容；

行块字符数统计单元，用于统计网页页面中的行块字符数；

输出单元，用于当所述判断单元判断所述行块正文概率值大于预设正文概率阈值时，输出行块正文概率值大于预设正文概率阈值所在的行块的内容；

其中，所述行块字符数统计单元具体用于：

过滤网页页面的HTML标签和JS脚本，得到网页纯文本；

所述行块超链接数统计单元具体用于：

5.根据权利要求4所述的系统，其特征在于，所述模糊推理单元具体用于：

6.根据权利要求5所述的系统，其特征在于，所述模糊推理单元具体还用于：