CN111428026A

CN111428026A - 一种多标签文本分类处理方法及系统、信息数据处理终端

Info

Publication number: CN111428026A
Application number: CN202010106132.8A
Authority: CN
Inventors: 裴庆祺; 王玉燕; 马立川; 肖阳
Original assignee: Xi'an Xidian Lianrong Technology Co ltd; Xidian University
Current assignee: Xi'an Xidian Lianrong Technology Co ltd; Xidian University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-07-17

Abstract

本发明属于自然语言处理技术领域，公开了一种多标签文本分类处理方法及系统、信息数据处理终端。步骤包括：获取数据集；对数据集进行预处理并划分为训练集和测试集；通过BERT预训练模型微调提取文本序列中单词的全局特征向量，采用卷积神经网络对全局特征向量进行聚合，得到文本序列中单词的语义向量；构建注意力权重系数矩阵，分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量加权，得到标签的注意力向量；对标签的注意力向量进行归一化处理，得到每个标签的概率，选取概率最大的几个标签做为文本的类别。本发明提取了文本序列的全局和局部特征，考虑了文本中关键词对标签类别的影响，提高了分类准确性。

Description

一种多标签文本分类处理方法及系统、信息数据处理终端

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种多标签文本分类处理方法及系统、信息数据处理终端。

背景技术

文本分类，是按照一定的分类体系或标准，将文本归于预先给定的某一类或某几类的过程，在自然语言处理和文本挖掘领域具有非常重要的意义。目前，文本分类在信息检索、Web文档自动分类、自动文摘、文本过滤等多个领域已经得到了广泛的应用。多标签文本分类，不同于传统的二分类或多分类，要处理的是现实生活中文本具有多个类别的任务，属于自然语言处理中既复杂又具有挑战性的任务。

目前，多标签文本分类算法可以分为两大类：一是基于问题转化的方法，将多标签分类任务转化成多个二分类或多分类问题，使其适用于现有算法，如：Native Bayes、SVM、DT等。二是基于算法适用的方法，指针对某一特定的算法进行扩展，从而能够处理多标签数据。如：ML-KNN、Rank-SVM等。发明人在研发过程中发现。现有方法存在以下技术问题：(1)提取文本语义信息时，表示文本序列中单词的语义时，不能根据句子长短灵活调整上下文文本长度，文本中即使考虑了上下文，也很少有考虑语序的；(2)模型训练时，标签和文本序列中的部分关键词的相关性往往起到很重要的作用，现有模型大多忽视了这一关系；(3)在预测标签时，通常假设所有标签都与文本有关，使得文本无关或相关性较低的标签，也计算出了概率，增加了训练误差，降低了模型性能和分类的准确性。

解决以上问题及缺陷的难度为：一方面在于从文本信息到文本中每个单词语义信息更精准表达，另一方面在于现有多标签分类算法，对于标签与文本序列中关键词之间的关系的忽略，在分类时，不能依据句子中最重要的词来判断类别。

解决以上问题及缺陷的意义为：通过研究出更精准的词向量表达和根据标签与文本相关性提高文本关键单词在分类模型所占的重要性，提高现有多标签文本分类信息处理系统的性能，为相关部门挖掘出有效的信息以辅助决策。

发明内容

针对现有技术存在的问题，本发明提供了一种多标签文本分类处理方法及系统、信息数据处理终端。

本发明是这样实现的，一种多标签文本分类处理方法，所述多标签文本分类处理方法包括：

第一步，获取包含文本序列和标签空间的数据集；

第二步，对数据进行预处理，去除没有意义的词，繁体字转换为简体字等，将数据集划分为训练集和测试集；

第三步，通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量，保存最佳语义向量模型；

第四步，分别计算每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，调整得到最优权重系数矩阵，分别将每个单词的语义向量与最优权重系数矩阵进行加权，得到标签的注意力向量；

第五步，对所有标签的注意力向量进行归一化处理，得到每个标签的概率，选取概率最大的几个标签作为文本的类别。

进一步，所述文本序列包含若干个字，每条文本对应的标签空间包含多个标签。

进一步，所述多标签文本分类处理方法通过BERT预训练模型微调的方式提取文本序列中所有单词的全局特征向量的步骤包括：加载Google官方的BERT中文预训练模型；读取自己的文本数据集；调整模型参数，得到每个单词的全局特征向量并保存。

进一步，所述通过卷积神经网络对所得全局特征向量进行聚合的步骤为：通过训练学习获得卷积神经网络的最优权值参数和偏置参数；利用训练后的卷积神经网络对全局特征向量进行聚合，得到文本序列中所有单词的语义向量。

进一步，所述注意力权重系数矩阵的构建步骤为：计算标签空间中每个标签与文本序列中每个单词的相似度向量，并构建相似度矩阵；利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量，得到注意力权重系数矩阵。

进一步，所述对注意力权重系数矩阵进行处理的步骤为：对注意力权重系数矩阵进行动态最大池化处理；对处理后的权重矩阵向量进行归一化处理，获得最优权重系数矩阵。

进一步，得到标签的注意力向量后，利用全线性连接层对标签的注意力向量进行线性处理。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

第一步，获取包含文本序列和标签空间的数据集；

第四步，分别计算每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，调整得到最优权重系数矩阵，分别将文本序列中的每个单词的语义向量与最优权重系数矩阵进行加权，得到标签的注意力向量；

本发明的另一目的在于提供一种实施所述多标签文本分类处理方法的多标签文本分类处理系统，所述多标签文本分类处理系统包括：

获取数据集模块，用于获取包含文本序列和标签空间的数据集；

文本预处理模块，用于对数据进行预处理，去除没有意义的单词，繁体字转换为简体字等，将数据集划分为训练集和测试集；

语义向量表示模块，用于通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量，保存最佳语义向量模型；

标签注意力向量构建模块，用于分别计算每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，调整得到最优权重系数矩阵，分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权，得到标签的注意力向量；

分类模块，用于对所有标签的注意力向量进行归一化处理，得到每个标签的概率，选取概率最大的几个标签作为文本的类别。

本发明的另一目的在于提供一种搭载所述多标签文本分类处理系统的信息数据处理终端。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明的语义向量表示模块使用了基于BERT预训练模型微调的方式，BERT内部词向量训练模型基于Transformer的编码模块，将句子以字为单位输入，且加入了位置信息编码和句向量编码模块，在计算上下文关系的时计算了每个单词与句子中所有单词的相关关系，不再受原始句子长短的影响，能抽取出句子序列全局上下文信息的语义向量；在其后接入CNN聚合句子中单词周围邻域的局部信息。将全局信息和局部信息进行融合，能获得更准确表达句子的语义向量。本发明引入注意力机制，计算标签和文本之间的相关性，在预测标签时，使用动态最大池化，计算出与文本相关性较大的几个标签的概率，避免了不必要的误差，提高了分类的准确性。

附图说明

图1是本发明实施例提供的多标签文本分类处理方法流程图。

图2是本发明实施例提供的多标签文本分类处理系统的结构示意图；

图中：1、获取数据集模块；2、文本预处理模块；3、语义向量表示模块；4、标签注意力向量构建模块；5、分类模块。

图3是本发明实施例提供的多标签文本分类处理方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种多标签文本分类处理方法及系统、信息数据处理终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的多标签文本分类处理方法包括以下步骤：

S101：获取包含文本序列和标签空间的数据集；

S102：对数据进行预处理，去除没有意义的词，繁体字转换为简体字等，将数据集划分为训练集和测试集；

S103：通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量，保存最佳语义向量模型；

S104：分别计算每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，调整得到最优权重系数矩阵，分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权，得到标签的注意力向量；

S105：对所有标签的注意力向量进行归一化处理，得到每个标签的概率，选取概率最大的几个标签作为文本的类别。

如图2所示，本发明实施例提供的多标签文本分类处理系统包括：

获取数据集模块1，用于获取包含文本序列和标签空间的数据集。

文本预处理模块2，用于对数据进行预处理，去除没有意义的词，繁体字转换为简体字等，将数据集划分为训练集和测试集。

语义向量表示模块3，用于通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量，保存最佳语义向量模型。

标签注意力向量构建模块4，用于分别计算每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，调整得到最优权重系数矩阵，分别将每个单词的语义向量与最优权重系数矩阵进行加权，得到标签的注意力向量。

分类模块5，用于对所有标签的注意力向量进行归一化处理，得到每个标签的概率，选取概率最大的几个标签作为文本的类别。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示，本发明实施例提供的多标签文本分类处理方法包括以下步骤：

第一步，获取数据集模块：获取包含文本序列和标签空间的数据集；

第二步，文本预处理模块：对数据进行预处理，去除没有意义的词，繁体字转换为简体字等，将数据集划分为训练集和测试集；

第三步，语义向量表示模块：通过BERT预训练模型微调提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量，保存最佳语义向量模型；

第四步，标签注意力向量构建模块：分别计算每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，调整得到最优权重系数矩阵，分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权，得到标签的注意力向量；

第五步，分类模块：对所有标签的注意力向量进行归一化处理，得到每个标签的概率，选取概率最大的几个标签作为文本的类别。

在本发明的优选实施例中，第一步数据集中文本序列包含若干个单词，每条文本标签空间包含多个标签。

在本发明的优选实施例中，第二步中文本预处理包括以下步骤：对数据进行预处理，去除没有意义的词，繁体字转换为简体字等，将数据分为训练集和测试集。

在本发明的优选实施例中，第三步提取全局特征向量包括以下步骤：通过BERT预训练模型微调的方式提取文本序列中所有单词的全局特征向量的步骤包括：加载Google官方的BERT中文预训练模型；读取自己的文本数据集；调整模型参数，得到每个单词的全局特征向量并保存。

在本发明的优选实施例中，第三步特征聚合包括以下步骤：用卷积神经网络对所得全局特征向量进行聚合的步骤为：通过训练学习获得卷积神经网络的最优权值参数和偏置参数；利用训练后的卷积神经网络对全局特征向量进行聚合，得到文本序列中所有单词的语义向量。

在本发明的优选实施例中，注意力权重系数矩阵的构建步骤为：计算标签空间中每个标签与文本序列中每个单词的相似度向量，并构建相似度矩阵；利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量，得到注意力权重系数矩阵。

在本发明的优选实施例中，对注意力权重系数矩阵进行处理的步骤为：对注意力权重系数矩阵进行动态最大池化处理；对处理后的权重系数矩阵中的权重矩阵向量进行归一化处理，获得最优权重系数矩阵。

在本发明的优选实施例中，得到标签的注意力向量后，利用全线性连接层对标签的注意力向量进行线性处理。

下面结合实验对本发明的技术效果作详细的描述。

数据集：本实施例使用今日头条的多标签文本分类数据集，截取其中的50万条数据作为本实施例的训练数据，其样本总标签数为1070，每条样本最大标签数为5。

参数设置：BERT中文预训练模型使用谷歌官方公布的：BERT-Base,Chinese:Chinese Simplified and Traditional,12-layer,768-hidden,12-heads,110Mparameters；最大句子长度设置为128；微调的训练轮数为4，词向量维度256，卷积神经网络的卷积核大小为3。

性能评价指标：本实施例使用精确率(precision)、召回率(recall)和汉明损失(Hamming loss)作为多标签文本分类方法性能的评价标准。

精确率：是指预测为正确出来的某类样本中，预测正确的数据所占的比例，精确率的值越高，模型性能表现越好。

召回率：是指实际样本中，被正确预测出来的样本所占的比例，召回率值越高，模型性能表现越好。

Hamming loss(汉明损失)：衡量预测所得标签与样本实际标签之间的不一致程度，即样本具有标签但未被识别出或不具有标签却被误判的可能性。所以该值越小则网络的分类能力越强。计算公式如下：

N是样本的数量，L是标签的个数，Y_i,j是第i个预测结果中第j个分量的真实值，P_i,j是第i个预测结果中第j个分量的预测值。

实验结果，分别采用Word2Vec+CNN、BERT+CNN以及本实施例提出的多标签文本分类方法的实验结果如表1所示：

表1实验结果

由表1可以看出，使用Word2Vec+CNN，精确率为73.2％，召回率为69.1％，相应的汉明损失为0.112。而使用BERT+CNN,精确率提升了约4.3％，召回率达到了72.1％；汉明损失也降低了约1.3％。所以BERT预训练模型微调的方式提取词向量性能优于word2vec。本文方案在使用BERT+CNN基础上，引入了注意力机制，精确率和召回率较基线提升了近2.0％和3.1％，汉明损失降低了约0.8％。说明本发明加入注意力机制提升了性能，综上所述，本发明方案具有较好的性能。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种多标签文本分类处理方法，其特征在于，所述多标签文本分类处理方法包括：

第一步，获取包含文本序列和标签空间的数据集；

第二步，对数据进行预处理，去除没有意义的单词，繁体字转换为简体字等，将数据集划分为训练集和测试集；

2.如权利要求1所述的多标签文本分类处理方法，其特征在于，所述文本序列包含若干个单词，每条文本对应的标签空间包含多个标签。

3.如权利要求1所述的多标签文本分类处理方法，其特征在于，所述多标签文本分类处理方法通过BERT预训练模型微调的方式提取文本序列中所有单词的全局特征向量的步骤包括：加载Google官方的BERT中文预训练模型；读取自己的文本数据集；调整模型参数，得到每个单词的全局特征向量并保存。

4.如权利要求1所述的多标签文本分类处理方法，其特征在于，所述用卷积神经网络对所得全局特征向量进行聚合的步骤为：通过训练学习获得卷积神经网络的最优权值参数和偏置参数；利用训练后的卷积神经网络对全局特征向量进行聚合，得到文本序列中所有单词的语义向量。

5.如权利要求1所述的多标签文本分类处理方法，其特征在于，所述注意力权重系数矩阵的构建步骤为：计算标签空间中每个标签与文本序列中每个词的相似度向量，并构建相似度矩阵；利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量，得到注意力权重系数矩阵。

6.如权利要求1所述的多标签文本分类处理方法，其特征在于，所述对注意力权重系数矩阵进行处理的步骤为：对注意力权重系数矩阵进行动态最大池化处理；对处理后的权重系数矩阵中的权重矩阵向量进行归一化处理，获得最优权重系数矩阵。

7.如权利要求1所述的多标签文本分类处理方法，其特征在于，得到标签的注意力向量后，利用全线性连接层对标签的注意力向量进行线性归一化处理，选取概率最大的几个为文本的类别。

8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

第一步，获取包含文本序列和标签空间的数据集；

第四步，分别计算每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，调整得到最优权重系数矩阵，分别将文本序列中每个单词的语义向量与最优权重系数矩阵进行加权，得到标签的注意力向量；

第五步，对标签注意力向量进行归一化处理，得到每个标签的概率，选取概率最大的几个作为文本的类别。

9.一种实施权利要求1～7任意一项所述多标签文本分类处理方法的多标签文本分类处理系统，其特征在于，所述多标签文本分类处理系统包括：

文本预处理模块，用于对数据进行预处理，去除没有意义的词，繁体字转换为简体字等，将数据集划分为训练集和测试集；

10.一种搭载权利要求9所述多标签文本分类处理系统的信息数据处理终端。