CN113569119A

CN113569119A - 一种基于多模态机器学习的新闻网页正文抽取系统及方法

Info

Publication number: CN113569119A
Application number: CN202110753762.9A
Authority: CN
Inventors: 王磊; 李欣杰
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-29

Abstract

本发明属于新闻网页处理技术领域，公开了一种基于多模态机器学习的新闻网页正文抽取系统及方法，基于多模态机器学习的新闻网页正文抽取方法包括：进行不同类型特征的提取；多模态融合，进行特征的联合表示；进行网页正文分类模型训练。本发明使用多模态机器学习技术，融合网页的视觉特征、内容特征、标签分布特征等，通过特征之间的互补，消除歧义和不确定性，进行新闻类正文抽取，得到更加准确的网页正文判断结果，除了提高文本抽取准确率外，还可以准确抽取图片、视频、pdf文档，并能够大幅降低人工编辑模板的成本，通过对国际主流的1000个新闻网站进行正文抽取测试，对比目前方法，正文抽取准确率提高5％‑10％。

Description

一种基于多模态机器学习的新闻网页正文抽取系统及方法

技术领域

本发明属于新闻网页处理技术领域，尤其涉及一种基于多模态机器学习的新闻网页正文抽取系统及方法。

背景技术

目前，对于一个单独的网页，往往最有价值的部分是网页的正文。然而就现在的大多数的网站的网页而言，不仅仅包含正文，网页标签等，其他的如广告，网页链接，插件等占据了网页相当一部分的内容。

现实的系统中，一般需要对网页进行检索、分类、观点抽取等挖掘处理。这需要对网页的内容进行分析，从而提取有价值的信息。而网页上诸如广告等信息，则是需要剔除的。一个网页的内容基本包含在正文中，对于新闻类网页更为突出。将网页正文之外其他的内容剔除从而降低分析的难度是一种基本的思路。同时正文内容提取的好坏直接影响到接下来分析工作的质量。如何使用最快捷的方法来获取网页的正文，同时又保证提取的内容的准确性，这就是本发明需要解决的问题。

现在的网站正文提取技术，最常用的算法仍然是基于网页标签分析的，这种算法需要对网站HTML建立DOM树，然后对之进行遍历递归，去除相应的噪音信息之后再从剩余的节点中进行选择。由于要建立DOM树，算法的时间/空间复杂度均较高。此外，由于互联网网页基本都采用了ajax等异步技术，各种框架也各式各样，所有这类算法的准确性和通用性都很难保证。

此外还有各类基于不同网页特征的机器学习算法，如基于内容的分析方法，典型的如基于行块分布函数的方法，基于视觉的方法，基于网页分块特征的分类方法等。

当前方法的主要问题，就是单一算法只对某一类的网页效果较好。再者，目前大部分算法都侧重于文本内容的提取，而且当前对网页内部的图片，视频等多多媒体信息提取的需求也越来越多，这些都是目前算法很难有效处理的。而且，由于机器学习算法的准确率难以保证，就需要大量的人工模板编辑工作，耗时耗力。因此，亟需一种新的新闻网页正文抽取系统。

通过上述分析，现有技术存在的问题及缺陷为：

(1)目前网页正文抽取的准确率低。

(2)由于要建立DOM树，算法的时间/空间复杂度均较高。此外，由于互联网网页基本都采用了ajax等异步技术，各种框架也各式各样，所有现有算法的准确性和通用性都很难保证。

目前大部分算法都侧重于文本内容的提取，而且当前对网页内部的图片，视频等多媒体信息提取的需求也越来越多，而目前算法很难有效处理。

(3)由于机器学习算法的准确率难以保证，就需要大量的人工模板编辑工作，耗时耗力。

解决以上问题及缺陷的难度为：

需要将完全不同类型的特征进行融合，而且要处理特征之间可能的关联关系。

解决以上问题及缺陷的意义为：

增加了利用机器抽取网页正文的准确率，降低人工的工作量。

发明内容

针对现有技术存在的问题，本发明提供了一种基于多模态机器学习的新闻网页正文抽取系统及方法，旨在解决新闻类网页的正文提取准确率问题。

本发明是这样实现的，一种基于多模态机器学习的新闻网页正文抽取方法，包括以下步骤：

步骤一，进行新闻网页正文不同类型特征的提取；

步骤二，多模态融合，将步骤一提取的信息特征进行联合表示；

步骤三，将步骤二联合表示的信息进行网页正文分类模型训练。

进一步，步骤一中，所述不同类型特征的提取包括：

融合当前争取抽取的常用算法，并使用所述常用算法进行特征的抽取。抽取的方法是基于现有方法的改进和融合。目前的方法，一般只使用一种策略，而本发明的方法是融合了多种策略。

进一步，所述常用算法包括：

网页标签特征抽取算法，抽取网页标签的树形结构特征；

内容特征抽取算法，抽取以文字密度为主的特征；

视觉类特征抽取算法，抽取包括背景颜色，字体颜色和大小，边框，逻辑块和逻辑块之间的间距等视觉图像类特征。

进一步，步骤二中，所述多模态融合，将步骤一提取的信息特征进行联合表示，包括：利用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法进行联合融合。

本发明主要以上述3为基础进行融合。特征融合可采用行业公开的方法。

并利用多个常用算法将步骤一提取的信息特征，一起映射到一个统一的多模态向量空间。

进一步，步骤三中，所述网页正文分类模型训练，包括：

使用一定数量的网页作为训练集，通过训练得到网页正文的多模特特征；将所述特征作为网页片段是否符合网页正文的判断依据，训练结果为网页正文分类器；对一个新的网页，使用该分类器，即可得到正文抽取结果。

本发明的另一目的在于提供一种应用所述的基于多模态机器学习的新闻网页正文抽取方法的基于多模态机器学习的新闻网页正文抽取系统，所述基于多模态机器学习的新闻网页正文抽取系统包括：

特征提取模块，用于进行新闻网页不同类型特征的提取；

特征表示模块，用于多模态融合，进行特征的联合表示；

模型训练模块，用于进行网页正文分类模型训练。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

(1)进行不同类型特征的提取；

(2)多模态融合，进行特征的联合表示；

(3)进行网页正文分类模型训练。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

(1)进行不同类型特征的提取；

(2)多模态融合，进行特征的联合表示；

(3)进行网页正文分类模型训练。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的基于多模态机器学习的新闻网页正文抽取系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于多模态机器学习的新闻网页正文抽取方法，基于多模态机器学习的方法，进行新闻类正文抽取，除了提高文本抽取准确率外，还可以准确抽取图片、视频、pdf文档，并能够大幅降低人工编辑模板的成本，显著提高网页正文抽取的准确率。

本发明使用多模态机器学习技术，融合网页的视觉特征、内容特征、标签分布特征等，通过特征之间的互补，消除歧义和不确定性，得到更加准确的网页正文判断结果。本发明旨在新闻类网页结构形式越来越复杂，多媒体内容比例越来越高的情况下，提高网页正文抽取的准确率，并支持图片、视频、文档的定向抽取。

相比于现有技术，本发明的优点进一步包括：

本发明提供了正文抽取的准确率(accuracy)。正文抽取准确率定义为行业公开定义。其定义是:对于给定的测试数据集，抽取正确分类的样本数与总样本数之比。一般以网页中的段落为基本统计单元。

本发明提供的网页正文抽取，是数据挖掘的基础技术，本发明提升后续数据挖掘、数据分析等应用的准确率。

本发明引入了多模态深度学习技术，将之前分离的方法，通过深度学习技术，进行了特征融合，更充分的利用了网页呈现的信息，这样能进一步提高网页正文抽取的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法流程图。

图2是本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法原理图。

图3是本发明实施例提供的基于多模态机器学习的新闻网页正文抽取系统结构框图；

图中：1、特征提取模块；2、特征表示模块；3、模型训练模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于多模态机器学习的新闻网页正文抽取系统及方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法包括以下步骤：

S101，进行新闻网页正文不同类型特征的提取；

S102，多模态融合，将步骤S101提取的信息特征进行联合表示；

S103，将步骤S102联合表示的信息进行网页正文分类模型训练。

本发明实施例提供的基于多模态机器学习的新闻网页正文抽取方法原理图如图2所示。

如图3所示，本发明实施例提供的基于多模态机器学习的新闻网页正文抽取系统包括：

特征提取模块1，用于进行新闻网页不同类型特征的提取；

特征表示模块2，用于通过多模态融合，进行特征的联合表示；

模型训练模块3，用于进行网页正文分类模型训练。

下面结合实施例对本发明的技术方案作进一步描述。

本发明使用多模态机器学习技术，融合网页的视觉特征、内容特征、标签分布特征等，通过特征之间的互补，消除歧义和不确定性，得到更加准确的网页正文判断结果。

本发明基于多模态机器学习的方法，进行新闻类正文抽取，除了提高文本抽取准确率外，还可以准确抽取图片、视频、pdf文档，大幅降低人工编辑模板的成本，显著提高网页正文抽取的准确率。

本发明旨在解决，新闻类网页结构形式越来越复杂，多媒体内容比例越来越高的情况下，提高网页正文抽取的准确率，并支持图片、视频、文档的定向抽取。处理步骤如下：

1.不同类型特征的提取。此步骤主要融合当前争取抽取的常用算法，使用其抽取的特征。主要使用的算法有a.网页标签特征抽取算法，抽取标签的树形结构特征。b.内容特征抽取算法，抽取以文字密度为主的特征。c.视觉类特征抽取算法，抽取包括背景颜色，字体颜色和大小，边框，逻辑块和逻辑块之间的间距等视觉图像类特征。

2.多模态融合，进行特征的联合表示。本发明中，主要使用特征级融合(featurelevel)，就是利用多个算法提取的信息特征，一起映射到一个统一的多模态向量空间。

3.网页正文分类模型训练。使用一定数量的网页作为训练集，通过训练得到网页正文的多模特特征，然后将这些特征作为网页片段是否符合网页正文的判断依据，训练结果为网页正文分类器。对一个新的网页，使用该分类器，就可以得到正文抽取结果。

本发明可以有效的提高新闻类网页文本正文提取的准确率，降低人工编辑模板的需求量，可以根据需求，提取新闻类网页的图片、视频、文档信息；基于多模态机器学习技术提高网页正文抽取的准确率。

通过对国际主流的1000个新闻网站进行正文抽取测试，对比目前方法，正文抽取准确率提高5％-10％。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多模态机器学习的新闻网页正文抽取方法，其特征在于，所述基于多模态机器学习的新闻网页正文抽取方法包括以下步骤：

步骤一，进行新闻网页正文不同类型特征的提取；

2.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，步骤一中，所述不同类型特征的提取包括：

融合当前争取抽取的常用算法，并使用所述常用算法进行特征的抽取。

3.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，所述常用算法包括：

网页标签特征抽取算法，抽取网页标签的树形结构特征；

内容特征抽取算法，抽取以文字密度为主的特征；

视觉类特征抽取算法，抽取包括背景颜色，字体颜色和大小，边框，逻辑块和逻辑块之间的间距。

4.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，步骤二中，所述多模态融合，将步骤一提取的信息特征进行联合表示，包括：

利用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法进行联合融合；

5.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法，其特征在于，步骤三中，所述网页正文分类模型训练，包括：

使用一定数量的网页作为训练集，通过训练得到网页正文的多模特特征；将所述特征作为网页片段是否符合网页正文的判断依据，训练结果为网页正文分类器；对一个新的网页，使用该分类器，得到正文抽取结果。

6.一种应用如权利要求1～5任意一项所述的基于多模态机器学习的新闻网页正文抽取方法的基于多模态机器学习的新闻网页正文抽取系统，其特征在于，所述基于多模态机器学习的新闻网页正文抽取系统包括：

特征提取模块，用于进行新闻网页不同类型特征的提取；

特征表示模块，用于多模态融合，进行特征的联合表示；

模型训练模块，用于进行网页正文分类模型训练。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

(1)进行不同类型特征的提取；

(2)多模态融合，进行特征的联合表示；

(3)进行网页正文分类模型训练。

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

(1)进行不同类型特征的提取；

(2)多模态融合，进行特征的联合表示；

(3)进行网页正文分类模型训练。

9.一种信息数据处理终端，其特征在于，所述信息数据处理终端搭载如权利要求6所述的基于多模态机器学习的新闻网页正文抽取系统。