CN110968692B

CN110968692B - 一种文本分类方法及系统

Info

Publication number: CN110968692B
Application number: CN201911010301.1A
Authority: CN
Inventors: 张强; 邓君华; 赵鲸朋; 柴博; 马应龙; 宋博川; 贾全烨
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-04-07
Anticipated expiration: 2039-10-23
Also published as: CN110968692A

Abstract

本发明公开了一种文本分类方法及系统，方法包括：获取待分类文本的父标签并转化为父标签词索引向量；将父标签词索引向量与文本词索引向量进行父标签嵌入操作得到文本词索引表征，然后进行转化生成待分类文本的语义向量；利用神经元有序的循环神经网络学习语义向量的层次结构，对层次结构的各层参数进行训练输出文本表征；利用多层感知器对文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布；根据文本最后一层标签的概率分布获取文本分类结果。本发明将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务，涉及的参数少收敛速度快，通过对文本进行逐层的方式，与现有的平面分类器相比，大大提高了分类性能。

Description

一种文本分类方法及系统

技术领域

本发明涉及机器学习领域，具体涉及一种文本分类方法及系统。

背景技术

文本分类主要采用基于知识工程的人工分类方法，该方法不仅费时费力，而且分类精度不高，此外，人工主观干预对分类精度影响很大。随后学者们提出了一系列基于机器学习的文本分类方法，如朴素贝叶斯、决策树、K近邻、支持向量机等。基于机器学习的文本分类方法在一定程度上优于专家人工分类的结果，而且文本分类方法在学习过程中不需要或很少需要人工知识的干预，因此可以应用到许多领域。

随着信息技术的发展，类别标签的划分粒度越来越细，标签的规模越来越大，标签的结构也越来越复杂。以一篇新闻文章为例，它可能涉及“体育”，“篮球”和“NBA”三大类别。可以发现，这三个类别从左到右存在一个大小包含关系即类别标签具有层次结构，而且在层次结构中，叶子节点的规模往往很大。由于语料库规模的不断扩大以及标签的粒度不断细化，目前的文本分类方法的分类难度也越来越大。Kowsari等人提出了一种层次化深度学习的文本分类方法(HDLTex)，该方法以自顶向下的方式将深层神经网络连接起来，在每个父标签节点上建立一个单独的神经网络(CNN或RNN)来对其子标签节点进行分类，该方法在层次分类法中取得了最好的表现，但存在参数爆炸，训练时间长的弊端。Koustuv等人提出了基于深度学习的全局的层次化文本分类算法HATC，该模型基于注意力机制变体的动态文本表示，依次预测下一个级别的类别标签，解决了参数爆炸问题，但其精度略低于HDLTex模型。

发明内容

因此，本发明提供文本分类方法及系统，克服了现有技术中的文本分类算法训练时间长，精度低的缺陷。

第一方面，本发明实施例提供一种文本分类方法，包括：获取待分类文本的父标签，将所述父标签转化为父标签词索引向量；将父标签词索引向量与文本词索引向量进行父标签嵌入操作，获取文本词索引表征；将所述文本词索引表征进行转化生成待分类文本的语义向量；利用神经元有序的循环神经网络学习所述语义向量的层次结构，并对层次结构的各层参数进行训练，输出文本表征；利用至少一层多层感知器对所述文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布；根据文本最后一层标签的概率分布，获取文本分类结果

在一实施例中，所述将父标签词索引向量与文本词索引向量进行父标签嵌入操作，获取文本词索引表征的步骤，通过以下公式进行：

其中，z_i，j表示在第j级标签的第i个文本的文本词索引表征，w_i表示第i个文本词索引向量，

表示向量拼接操作，c_i，j-1表示第i个文本的第j-1级标签词索引向量。

在一实施例中，所述利用神经元有序的循环神经网络学习所述语义向量的层次结构，并对层次结构的各层参数进行训练的步骤，包括：利用神经元有序的循环神经网络根据待分类文本中的语法信息，学习待分类文本语义向量的层次结构；将前一层级标签训练的网络的权重参数迁移到当前层级标签作为其初始化参数进行训练，对层次结构的各层参数进行训练。

在一实施例中，输出的文本表征通过以下公式表示：

其中，h_t ^j表示输入序列在t时刻的隐藏层状态向量，

表示对j-1级标签进行分类时网络最终的权重参数，x_t ^j表示t时刻第j级标签的待分类文本的语义向量集合。

在一实施例中，所述利用至少一层多层感知器对所述文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布的步骤，包括：

利用tanh非线性层和softmax非线性层两层全连接层做非线性变换操作，预测第j级标签上的概率分布：

d_j＝tanh(W₁h_T ^j+b₁)

y_j＝softmax(W₂d_j+b₂)，

其中，d_j为tanh非线性层的非线性变换操作输出，W₁和b₁分别表示为tanh非线性层的权值矩阵和偏置，y_j为softmax非线性层的非线性变换操作输出，W₂和b₂分别表示softmax非线性层的权值矩阵和偏置。

在一实施例中，以最小化预测分布与真实分布的交叉熵作为为损失函数训练网络，所述损失函数为：

其中，C^j表示第j级标签种类数，N表示训练的样本数，

表示预测标签，y表示真实标签，

表示第n个文本的第c个位置的真实标签，

表示第n个文本的第c个位置的预测标签。

第二方面，本发明实施例提供一种文本分类系统，包括：父标签词索引向量获取模块，用于获取待分类文本的父标签，将所述父标签转化为父标签词索引向量；父标签嵌入操作模块，用于将父标签词索引向量与文本词索引向量进行父标签嵌入操作，获取文本词索引表征；语义向量生成模块，用于将所述文本词索引表征进行转化生成待分类文本的语义向量；文本表征获取模块，用于利用神经元有序的循环神经网络学习所述语义向量的层次结构，并对层次结构的各层参数进行训练，输出文本表征；非线性操作模块，用于利用至少一层多层感知器对所述文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布；文本分类结果获取模块，用于根据文本最后一层标签的概率分布，获取文本分类结果。

第三方面，本发明实施例提供一种终端，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明实施例第一方面所述的文本分类方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的文本分类方法。

本发明技术方案，具有如下优点：

本发明提供的文本分类方法及系统，获取待分类文本的父标签并转化为父标签词索引向量；将父标签词索引向量与文本词索引向量进行父标签嵌入操作得到文本词索引表征，然后进行转化生成待分类文本的语义向量；利用神经元有序的循环神经网络学习语义向量的层次结构，对层次结构的各层参数进行训练输出文本表征；利用多层感知器对文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布；根据文本最后一层标签的概率分布获取文本分类结果。本发明将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务，涉及的参数少收敛速度快，通过对文本进行逐层的方式，与现有的平面分类器相比，大大提高了分类性能。

2、本发明提供的文本分类方法及系统，在训练过程中将父标签训练模型的参数作为子标签训练模型的初始化参数，不仅可以获取先验知识，而且可以加速收敛，使在子标签分类过程中会产生约束效应，可以大大提高分类精度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本分类方法的一个示例的流程图；

图2为本发明实施例提供的在训练是进行参数迁移的示意图；

图3为本发明实施例提供的文本分类系统的模块组成图；

图4为本发明实施例提供的终端的模块组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种文本分类方法，可以适用于标签规模大及标结构的文本进行分类的应用。如图1所示，该文本分类包括：

步骤S1：获取待分类文本的父标签，将所述父标签转化为父标签词索引向量。

在本发明实施例中，父标签包含一个或多个子标签，父标签限制约束其所有子标签。具体来说，在文本预处理阶段，我们首先提取每个文本对应的父标签，将父标签的词映射到索引空间后，将其转换为固定维数的向量，即转化为父标签词索引向量。

步骤S2：将父标签词索引向量与文本词索引向量进行父标签嵌入操作，获取文本词索引表征。

在本发明实施例中，将待分类文本的文本内容词映射到索引空间后，转换为文本词索引向量，将父标签嵌入到文本中，即，将父标签词索引向量与文本词索引向量进行拼接操作，获取文本词索引表征，可以使在子标签分类过程中会产生约束效应，可以大大提高分类精度。

在一实施例中，给予一个包含n个文本的集合T和与这n个文本相对应的标签集的集合C。把T和C这两个集合分别转换为词索引表征集合T′＝(w₁，w₂，...，w_n)和C′＝((c₁₁，c₁₂，...，c_1k)，(c₂₁，c₂₂，...，c_2k)，...(c_n1，c_n2，...，c_nk))，其中w_n表示第n个文本，c_nk表示第n个文本的第k级标签，具体来说第n个文本w_n的第一层标签到第k层标签依次为(c_n1，c_n2，...，c_nk)，然后通过父标签嵌入操作得到表征z。公式(1)中表示的是父标签嵌入方式获取文本词索引表征：

步骤S3：将文本词索引表征进行转化生成待分类文本的语义向量。

在本发明实施例中，在获取文本词索引表征z_i，j后，在通过如图2所示的词嵌入层转换为语义向量x。

步骤S4：利用神经元有序的循环神经网络学习所述语义向量的层次结构，并对层次结构的各层参数进行训练，输出文本表征。

在本发明实施例中，利用神经元有序的循环神经网络(ON-LSTM)根据待分类文本中的语法信息，学习待分类文本语义向量的层次结构；在训练过程中，如图2所示，将前一层级标签训练的网络的权重参数迁移到当前层级标签作为其初始化参数进行训练，对层次结构的各层参数进行训练。

在本发明实施例中，输出的文本表征通过以下公式表示：

其中，h_t ^j表示输入序列在t时刻的隐藏层状态向量，

步骤S5：利用至少一层多层感知器对文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布。

在本发明实施例中，利用tanh非线性层和softmax非线性层两层全连接层做非线性变换操作，预测第j级标签上的概率分布：

d_j＝tanh(W₁h_T ^j+b₁) (3)

y_j＝softmax(W₂d_j+b₂)， (4)

采用多层感知器进行非线性变换操作，用于增强神经网络的表达能力，本发明实施采用两层的多层感知器，进行操作既可以满足增强神经网络的表达能力的作用，又使得涉及的参数不会太多，但仅以此举例，不以此为限，在其他实施例中可以采用其他类型的函数作为多层感知器，或者根据实际需要设置一层或者其他层数的多层感知器进行非线性变换操作。

本发明实施例，以最小化预测分布与真实分布的交叉熵作为为损失函数训练网络，该损失函数为：

其中，C^j表示第j级标签种类数，N表示训练的样本数，

表示预测标签，y表示真实标签，

表示第n个文本的第c个位置的真实标签，

表示第n个文本的第c个位置的预测标签。

以上损失函数仅以此举例，不以此为限，在其他实施例中也可以采用其他其他损失函数作为收敛目标。

步骤S6：根据文本最后一层标签的概率分布，获取文本分类结果。

在一实施例中，例如最后的一层的标签为y1＝[′biochemistry′，′civil′，′computer science′，′electrical′，′mechanical′，′medical′，′psychology′]，最终多层感知器softmax的输出为【0.99，0，0，0.01，0，0，0】时，则文本分类结果即为该文本属于′biochemistry′类。

本实施例利用Web of Science(WOS)数据集和DBpedia数据集对本发明的文本分类方法进行评估。如表1所示的为具体的数据集构成，WOS数据集包含46985个文本，其中有两层标签，第一层有7个类别标签，第二层有134个类别标签。相比WOS数据集，DBpedia不仅数据量大，而且标签层级也深，其包含381025个文本，第一层有9个类别标签，第二层有70个类别标签，第三层有219个类别标签。

表1

	WOS	DBpedia
			第一层标签类别数	7	9
第二层标签类别数	134	70
			第三层标签类别数	无	219
文本数量	46985	381025

本发明实施例提供的表2和表3分别展示了模型分类表现的对比以及模型参数量的对比。从表2和表3可以看出，除了每个数据集的第一级标签外，本发明实施例提供的文本分类方法在这两个数据集上都实现了最佳性能。不仅比目前最先进的层次分类器性能更好，而且还比目前最先进的层次分类器的参数少。由于第一层标签数量少没有父标签，模型不能采用父标签嵌入和层次微调的方法。而且，目前的方法对于处理少量标签的文本分类问题已经相当理想，因此我们的模型在第一层标签中的效果不如其他模型，但最差也排在第二位而且相差不大。在表2中，可以看到当分类标签的数量逐步增加时，本发明实施例提供的模型比其他模型具有更多的优势，证明了本发明实施例提供模型适用于大规模的标签文本分类。

表2

表3

模型	参数数量/百万
		HDLTex	5000
HATC	34
		本实施例提供的方法	28

本发明实施例提供的文本分类方法，将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务，涉及的参数少收敛速度快，在训练过程中将父标签训练模型的参数作为子标签训练模型的初始化参数，不仅可以获取先验知识，而且可以加速收敛，使在子标签分类过程中会产生约束效应，可以大大提高分类精度，通过对文本进行逐层的方式，与现有的平面分类器相比，大大提高了分类性能。

实施例2

本发明实施例提供一种文本分类系统，如图3所示，该系统包括：

父标签词索引向量获取模块1，用于获取待分类文本的父标签，将所述父标签转化为父标签词索引向量。此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

父标签嵌入操作模块2，用于将父标签词索引向量与文本词索引向量进行父标签嵌入操作，获取文本词索引表征；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

语义向量生成模块3，用于将所述文本词索引表征进行转化生成待分类文本的语义向量；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

文本表征获取模块4，用于利用神经元有序的循环神经网络学习所述语义向量的层次结构，并对层次结构的各层参数进行训练，输出文本表征。此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述。

非线性操作模块5，用于利用至少一层多层感知器对所述文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布。此模块执行实施例1中的步骤S5所描述的方法，在此不再赘述。

文本分类结果获取模块6，用于根据文本最后一层标签的概率分布，获取文本分类结果。此模块执行实施例1中的步骤S6所描述的方法，在此不再赘述。

本发明实施例提供的文本分类系统，将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务，涉及的参数少收敛速度快，在训练过程中将父标签训练模型的参数作为子标签训练模型的初始化参数，不仅可以获取先验知识，而且可以加速收敛，使在子标签分类过程中会产生约束效应，可以大大提高分类精度，通过对文本进行逐层的方式，与现有的平面分类器相比，大大提高了分类性能。

实施例3

本发明实施例提供一种终端，如图4所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的文本分类方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1中的文本分类方法。其中，通信总线402可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic，缩写：GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1中的文本分类方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1中的文本分类方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固降硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。