CN111460818A

CN111460818A - 一种基于增强胶囊网络的网页文本分类方法及存储介质

Info

Publication number: CN111460818A
Application number: CN202010243260.7A
Authority: CN
Inventors: 石丽红; 朱鹏; 赵习枝; 张福浩; 仇阿根
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111460818B

Abstract

一种基于增强胶囊网络的网页文本分类方法及其存储介质，该方法为爬取特定领域的网页文本数据，对获取的文本数据进行清洗和数据结构化处理，最终得到实验语料；设定增强胶囊网络的体系结构，依次包括密集卷积网络、主胶囊层和数字胶囊层；将训练集中的训练数据作为增强胶囊网络的输入，对增强胶囊网络进行训练，得到分类器，然后用测试集的测试数据对分类器准确率进行验证。本发明引入了密集卷积网络来提取特征信息，从而使特征更具判断力，提高了模型在数据集上的学习能力。主胶囊层采用动态路由机制对其进一步编码，使获得的特征更具方向性，使得胶囊网络更具有鲁棒性。

Description

一种基于增强胶囊网络的网页文本分类方法及存储介质

技术领域

本发明设计自然语言处理技术领域，具体的，涉及一种基于增强胶囊网络的网页文本分类方法及存储介质，该方法特别适用于社会公共安全事件等相关领域。

背景技术

随着互联网技术的发展，互联网中涉及社会公共安全事件数据量爆炸式增长。公共安全事件是危及到大多数(非全体人民，也非个人)的生命、健康、财产，并可能引起以一系列的公共性问题，进而导致价值系统崩溃、社会秩序紊乱的事件。公共安全事件通常分为自然灾害、事故灾难、公共卫生、社会安全。从互联网上采集大量社会公共安全事件数据的相关网页和信息，并从中自动抽取出风险数据，对社会公共安全监测和预警具有重要意义，但海量数据的复杂性和非结构性给公共安全事件信息的处理带来了巨大的挑战。如何对复杂的网页文本数据中所提取到的社会公共安全事件文本信息进行自动分类是公共安全网络信息分析的重点、难点问题。

文本分类技术是对文本的合理建模，提取到文本的特征表示，使数据集中的待分类文本的内容划分到正确的类别中去。目前，实现文本分类的主流方法是深度学习方法，主要利用卷积神经网络的卷积核提取文本词向量特征，其深浅两层隐藏层属于静态连接。利用池化层对卷积层做二次提取，之后经过全连接层得到分类关系。其中池化层在选择最显著的特征中会丢失许多底层信息，并且需要一定时间训练模型中大量的参数，导致模型训练效率低。

胶囊网络作为一种全新的神经网络提出之后受到广泛关注，胶囊网络用矢量胶囊代替标量神经元，对于特征向量具有良好的方向表示，并改进了传统卷积网络的最大池化操作。但传统胶囊网络仅采用一层卷积进行空间特征提取，未能很好的提取深层特征，使得模型整体精准度不高，并且在特征提取过程中会丢失大量重要的信息。

因此，如何克服上述不足，快速而高效的管理和利用网页文本资源成为亟需解决的技术问题。

发明内容

为了克服现有技术存在的整体精准度不高、特征提取过程中丢失大量重要信息等问题，本发明提出一种基于增强胶囊网络的社会公共安全事件网页文本分类方法。与现有的传统胶囊网络分类方法相比，本发明引入了密集卷积网络来提取特征信息，从而使特征更具判断力，提高了模型在数据集上的学习能力。主胶囊层采用动态路由机制对其进一步编码，使获得的特征更具方向性，使得胶囊网络更具有鲁棒性。

为达此目的，本发明采用以下技术方案：

一种基于增强胶囊网络的网页文本分类方法，包括如下步骤：

数据获取与处理步骤S110:

爬取特定领域的网页文本数据，对获取的文本数据进行清洗和数据结构化处理，最终得到实验语料，将清洗后的纯净数据分为训练集和测试集，选取方式均为随机选取，对网页文本数据进行向量化获取对应词向量；

构建增强胶囊网络体系结构步骤S120：

设定增强胶囊网络的体系结构，该体系结构为三层，依次包括密集卷积网络(DenseNet)、主胶囊层(PrimaryCaps)和数字胶囊层(DigitCaps)，所述密集聚集网络包括多个密集卷积模块，所述主胶囊层采用动态路由算法对其进一步编码，数字胶囊层含有多个胶囊；

训练增强胶囊网络对文本分类步骤S130：

将训练集中的训练数据作为增强胶囊网络的输入，对增强胶囊网络进行训练，得到分类器，然后用测试集的测试数据对分类器准确率进行验证。

可选的，所述对获取的文本数据进行清洗和数据结构化处理具体包括：在实验语料中引入社会公共安全事件领域词典，对实验语料作分词处理；引入停用词表，去掉分词后的文本数据中对应的停用词。

可选的，所述将清洗后的纯净数据分为训练集和测试集，选取方式均为随机选取，对网页文本数据进行向量化获取对应词向量，具体为：

将清洗后的纯净数据分为80％训练集和20％测试集，选取方式均为随机选取，对网页文本数据采用Word2vec模型进行向量化获取对应词向量。

可选的，所述密集卷积网络结构组成依次为输入层，1*1卷积层，密集卷积模块，1*1卷积层，2*2平均池化层，密集卷积模块，1*1卷积层，2*2平均池化层，密集卷积模块和2*2平均池化层。

可选的，所述密集卷积模块包括4个卷积层C，每个卷积层C包含6个1*1卷积与6个3*3卷积，卷积层与卷积层之间通过非线性转换函数连接；

所述非线性转换函数包含：批量规范化模块，修正线性单元和3*3卷积。

可选的，所述主胶囊层的动态路由算法具体为：

下层胶囊由上层胶囊计算得出，每个上层胶囊i连接到下层胶囊j的概率为：

其中，c_ij为耦合系数，是下层胶囊i激活上层胶囊j的概率；b_ij是胶囊i连接到胶囊j的先验概率，初始值设置为0；

据耦合系数c_ij计算加权求和得输入向量s_j，

其中：u_i为上层胶囊的输出，

为上层胶囊预测向量，W_ij为相邻两层的权值转化矩阵，s_j为输入向量。使用判别式学习实现非线性压缩，并通过其实现胶囊层级的激活功能；

输出向量v_j可表示为：

其中：v_j为输出向量，s_j为输入向量；

接下来为路由更新，通过输出向量v_j与上层胶囊预测向量

相乘进行更新b_ij，b_ij的更新计算公式如下：

可选的，所述数字胶囊层中含有10个胶囊，通过每个胶囊活动向量的长度预测其属于某个类别的概率。

可选的，在所述增强胶囊网络中，将密集卷积网络获得7*7*512的特征向量送入主胶囊层；

主胶囊层有32个步长为1，卷积核大小为2×2的核，获得6*6*32*8的特征映射,8为输出向量维度；主胶囊层通过32个卷积核进行特征提取，单个卷积核进行普通卷积操作后进行封装，纵向延展为8，共得到32个8维主胶囊；

数字胶囊层中含有10个胶囊，通过每个胶囊活动向量的长度预测其属于某个类别的概率。

一种存储介质，用于存储计算机可执行指令，其特征在于：

所述计算机可执行指令在被处理器执行时执行上述的基于增强胶囊网络的网页文本分类方法。

本发明提供的基于增强胶囊网络的网页文本分类方法，与现有技术相比，具有如下优势：

1)由于本发明利用密集卷积网络改进后作为一个特征提取器，它密集卷积的设计能够在很深的层次上很好地探索全局和局部特征并且消除梯度消失问题，结合胶囊网络的优点，采用矢量神经元即胶囊代替标量神经元，使得提取特征更具有泛化性，有助于快速收敛和提高模型的精准度。

2)由于本发明在胶囊网络使用动态路由算法，减少了卷积神经网络中数据在反向传播过程中可能给文本分类器模型带来的一些弊端，提高了胶囊网络模型的鲁棒性，使得胶囊网络能够更好地学习文本特征。

附图说明

图1是本发明基于增强胶囊网络的网页文本分类方法的流程图；

图2是本发明增强胶囊网络中密集卷积层的结构示意图；

图3是本发明密集卷积网络中密集卷积模块的结构示意图；

图4是本发明基于增强胶囊网络的网页文本分类方法的具体信息流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

具体的，参见图1，示出了本发明的基于增强胶囊网络的网页文本分类方法的基础流程图，包括如下步骤：

数据获取与处理步骤S110:

从新浪新闻、网易新闻、新浪微博等国内主流媒体网站爬取社会公共安全事件网页文本数据，对获取的文本数据进行清洗和数据结构化处理，最终得到实验语料，将清洗后的纯净数据分为训练集和测试集，选取方式均为随机选取，对网页文本数据进行向量化获取对应词向量。

进一步的，所述对获取的文本数据进行清洗和数据结构化处理具体包括：在实验语料中引入社会公共安全事件领域词典，对实验语料作分词处理；引入停用词表，去掉分词后的文本数据中对应的停用词。

更进一步的，将清洗后的纯净数据分为80％训练集和20％测试集，选取方式均为随机选取；对网页文本数据采用Word2vec模型进行向量化获取对应词向量。

在本发明中，相关领域采用了社会公共安全事件，因此，获取了社会公共安全事件网页文本数据，词典采用了社会公共安全事件领域词典。但本发明不以此为限，只要是相关领域的网页文本数据和相关领域的词典都可以实现本发明的效果。

构建增强胶囊网络体系结构步骤S120：

设定增强胶囊网络的体系结构，依次包括密集卷积网络(DenseNet)、主胶囊层(PrimaryCaps)和数字胶囊层(Digi tCaps)，所述主胶囊层采用动态路由算法对其进一步编码，数字胶囊层含有多个胶囊。

其中密集卷积模型用于改进胶囊网络结构中的特征提取部分；主胶囊层实现标量神经元到向量神经元的转换，并且采用动态路由算法对其进一步编码，提高模型识别效率，使模型能够快速平稳的收敛；数字胶囊层中含有10个胶囊，通过每个胶囊活动向量的长度预测其属于某个类别的概率。

具体的，所述密集卷积网络通过前后特征的重复利用，获得文本的高级抽象特征，参见图2。密集卷积网络结构组成依次为输入层，1*1卷积层，密集卷积模块(Dense Block)，1*1卷积层，2*2平均池化层，密集卷积模块，1*1卷积层，2*2平均池化层，密集卷积模块和2*2平均池化层。

所述密集卷积模块参见图3，包括4个卷积层C，每个卷积层C包含6个1*1卷积与6个3*3卷积，卷积层与卷积层之间通过非线性转换函数连接，所述非线性转换函数包含三个操作：批量规范化模块(Batch Normalization，BN)，修正线性单元(Rectified Linear Unit,ReLU)和3*3卷积(Convolution,Conv)。密集卷积模块的主要特点是保证层与层之间获得最大程度信息的传输。因此，虽然文本向量信息在深层网络中传递容易导致信息流变弱而出现梯度消失问题，而密集卷积模块通过前后特征的重复利用，减轻了梯度消失现象。

所述主胶囊层采用动态路由算法，计算深浅两层隐藏层中每个胶囊之间的关系。其预测向量由胶囊网络的输出向量与权重矩阵相乘获得。比较预测向量与父节点输出，若为较小的量值，则升高其他父节点的耦合系数，降低该父节点的耦合系数；若为较大的量值，则降低其他父节点的耦合系数，升高该父节点的耦合系数，也即胶囊增加了对该父节点的贡献，通过深浅两层动态连接，模型可以自动地筛选更有效的胶囊，使得网络能够更好地收敛，提高了整个网络的鲁棒性。

具体的，所述动态路由中，下层胶囊由上层胶囊计算得出，每个上层胶囊i连接到下层胶囊j的概率为：

其中，c_ij为耦合系数，是下层胶囊i激活上层胶囊j的概率；b_ij是胶囊i连接到胶囊j的先验概率，初始值设置为0。

据耦合系数c_ij计算加权求和得输入向量s_j。

其中：u_i为上层胶囊的输出，

为上层胶囊预测向量，W_ij为相邻两层的权值转化矩阵，s_j为输入向量。使用判别式学习实现非线性压缩，并通过其实现胶囊层级的激活功能。输出向量v_j可表示为：

其中：v_j为输出向量，s_j为输入向量。

胶囊的输出向量的长度表征实体出现的概率，所以使用非线性压缩“squashing”函数将向量的模长限定在0到1之间。非线性压缩“squashing”函数，可确保短向量的长度能够缩短到几乎为0，而长向量的长度压缩到1的左领域内，输出向量越长，代表文本属于该类概率越大。

接下来进入路由更新环节，通过输出向量v_j与上层胶囊预测向量

相乘进行更新b_ij，b_ij的更新计算公式如下：

所述数字胶囊层中含有10个胶囊，通过每个胶囊活动向量的长度预测其属于某个类别的概率。

因此，在所述增强胶囊网络中，将密集卷积网络(DenseNet)获得7*7*512的特征向量送入主胶囊(PrimaryCaps)层；主胶囊(PrimaryCaps)层有32个步长为1，卷积核大小为2×2的核；获得6*6*32*8的特征映射,8为输出向量维度；主胶囊层通过32个卷积核进行特征提取，单个卷积核进行普通卷积操作后进行封装，纵向延展为8，也可看作是8个卷积单元，共得到32个8维主胶囊；数字胶囊层中含有10个胶囊，通过每个胶囊活动向量的长度预测其属于某个类别的概率。

训练增强胶囊网络对文本分类步骤S130：将训练集中的训练数据作为增强胶囊网络的输入，对增强胶囊网络进行训练，得到分类器，然后用测试集的测试数据对分类器准确率进行验证。

具体的，参见图4，示出了本发明基于增强胶囊网络的网页文本分类方法的具体信息流程示意图。本发明实施例通过提供了一种基于增强胶囊网络的网页文本分类方法，可以针对社会公共安全事件等系列领域，包括：爬取网页文本数据进行清洗后，将样本数据分成训练集和测试集。采用Word2vec模型获取词向量，将80％训练数据作为增强胶囊网络的输入，对增强胶囊网络进行训练，得到分类器，最后用20％测试数据验证分类器准确率。

进一步的，本发明还公开了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于增强胶囊网络的网页文本分类方法。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。