CN107463658B

CN107463658B - 文本分类方法及装置

Info

Publication number: CN107463658B
Application number: CN201710639782.7A
Authority: CN
Inventors: 彭浩; 李建欣; 何雨; 刘垚鹏; 包梦蛟; 宋阳秋; 杨强
Original assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Current assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2020-03-31
Anticipated expiration: 2037-07-31
Also published as: CN107463658A

Abstract

本发明实施例公开了一种文本分类方法及装置，其中，所述方法包括步骤：接收输入的待分类文本，将所述文本进行预处理后，构造所述待分类文本的图结构，根据所述待分类文本的图结构构造若干个子图，将每一所述子图进行归一化处理；其中，所述待分类文本的图结构中，节点与所述待分类文本中的单词一一对应；以每一所述子图中的词向量表示作为已训练的神经网络的输入，根据所述神经网络的输出待分类文本的类别，本方案中各个子图具有非连续性、长距离的语义信息，通过神经网络可对各个子图的特征进行提取和融合，从而得到准确的文本分类结果。

Description

文本分类方法及装置

技术领域

本发明涉及机器学习领域，尤其涉及一种文本分类方法及装置。

背景技术

随着电子计算机应用技术的日益成熟和互联网的迅速发展，人类社会进入了一个信息爆炸的时代。在这个信息爆炸的时代，知识合理分类的期望与需求愈发迫切。如何在海量信息中快速有效地找到用户所需要的信息，是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息杂乱现象的问题，方便用户准确地定位所需的信息和分流信息，其作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础，有着广泛的应用前景。

文本分类是指依据文本的内容，由计算机根据某种自动分类算法，把文本盘分为预先定义好的类别。从数学的角度来说，文本分类是一个映射过程，它将未标明类别的文本映射到已经建立好的类别体系中。该映射可以是一对一映射，也可以是一对多映射。

为了对文本进行分类，传统方法为基于知识工程的分类方法，即由专业人员手工编写分类规则来指导分类，存在准确率低、耗时耗力的缺点

发明内容

本发明实施例的目的是提供一种文本分类方法及装置，能有效解决现有技术存在准确率低、耗时耗力的缺点，准确性高。

为实现上述目的，本发明实施例提供了一种文本分类方法，包括步骤:

接收输入的待分类文本，将所述文本进行预处理后，构造所述待分类文本的图结构，根据所述待分类文本的图结构构造若干个子图，将每一所述子图进行归一化处理；其中，所述待分类文本的图结构中，节点与所述待分类文本中的单词一一对应；

以每一所述子图中的词向量表示作为已训练的神经网络的输入，根据所述神经网络的输出得到待分类文本的类别。

与现有技术相比，本发明实施例公开了一种文本分类方法，通过先基于待分类文本构造所述待分类文本的图结构，根据所述待分类文本的图结构，构造若干个子图，将每一子图进行归一化处理，以每一所述子图中的词向量表示作为已训练的神经网络的输入，根据所述神经网络的输出得到待分类文本的类别，本方案中各个子图具有非连续性、长距离的语义信息，通过神经网络可对各个子图的特征进行提取和融合，从而得到准确的文本分类结果。

作为上述方案的改进，所述将所述文本进行预处理具体为：

对所述待分类文本进行分词处理后，去除所述待分类文本的噪点和停用词，并提取所述待分类文本中每一单词的词干；其中，所述噪点包括标点符号和数字，所述停用词包括代词、连词、介词、冠词。

作为上述方案的改进，构造所述待分类文本的图结构具体为：

采用词的共现关系构造所述待分类文本的图结构，具体为：

通过预设大小的滑动窗口对所述待分类文本进行遍历,当任意两个单词同时处在所述滑动窗口内时，在所述两个单词间构造边，所述边由前一个单词指向后一个单词。

作为上述方案的改进，每一所述子图中的词向量采用word2vec模型或glove模型表示。

作为上述方案的改进，根据所述文本的图结构构造若干个子图具体为：

提取所述文本的图结构的节点，将所述节点依照贡献值的大小进行排序；其中；所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共线率依次决定。

选取所述节点中排序前N的节点作为特征项，以每一所述特征项作为根节点，通过广度优先搜索算法构造子图；其中，所述子图包括至少k个节点；其中，N>0，k>0。

作为上述方案的改进，以每一所述特征项作为根节点，通过广度优先搜索算法构造子图具体为：

获取所述根节点的邻接节点，若所述根节点的邻接节点的个数大于k-1,则以所述根节点、所述根节点的邻接节点和所述根节点和所述邻接节点的边构造子图；

若所述根节点的邻接节点的个数小于k-1，则逐级获取所述根节点的次级邻接节点，直到获取到的邻接节点和次级邻接节点的总个数大于或等于k或无法继续获取到所述次级邻接节点时停止，根据所述根节点、所述根节点的邻接节点和次级邻接节点、所述根节点和所述邻接节点的边、所述根节点的邻接节点和次级邻接节点的边以及所述次级邻接节点之间的边构造子图；其中，所述次级邻接节点为与所述根节点间接连接的节点。

作为上述方案的改进，将每一子图进行归一化处理具体为：

根据所述子图构建生成树，利用广度优先算法对所述生成树的节点由浅层到深层进行排序；

在同一层中，根据所述贡献值的大小对所述根节点的邻接节点进行排序；

当所述子图中的节点大于k时，保留所述生成树中排序前k的节点，从而完成所述子图的归一化过程；

当所述子图中的节点小于k时，在所述子图中增加若干个哑元节点，以使得所述子图中的节点个数等于k，从而完成所述子图的归一化过程；其中，所述哑元节点和原始的所述子图中的任一节点均不连接。

作为上述方案的改进，将每一子图进行归一化处理前还包括步骤：

根据以下公式对所述子图进行标记：

其中，G为预设标记为s的子图，A^S(G)为子图G的邻接矩阵，D_A(.,.)为两个矩阵的距离测度，D_G(.,.)为两个子图的距离测度，s*为子图G'的标记结果。

作为上述方案的改进，所述神经网络为卷积神经网络，包括输入层、卷积层、池化层、全连接层和类别输出层。

本发明实施例还提供了一种文本分类装置，包括：

子图构造模块，用于接收输入的文本，将所述文本进行预处理后，构造所述文本的图结构，根据所述文本的图结构构造若干个子图，将每一子图进行归一化处理；所述文本的图结构中，节点与所述文本中的单词相对应；

类别预测模块，用于以每一所述子图作为神经网络的输入，根据所述神经网络的输出预测文本的类别。

与现有技术相比，本发明实施例公开了一种文本分类的装置，通过子图构造模块先基于待分类文本构造所述待分类文本的图结构，根据所述待分类文本的图结构，构造若干个子图，将每一子图进行归一化处理，然后通过类别预测模块以每一所述子图中的词向量表示作为已训练的神经网络的输入，根据所述神经网络的输出得到待分类文本的类别，本方案中各个子图具有非连续性、长距离的语义信息，通过神经网络可对各个子图的特征进行提取和融合，从而得到准确的文本分类结果。

附图说明

图1是本发明实施例1提供的一种文本分类方法的流程示意图。

图2是本发明根据原始文本构造的图结构的示意图。

图3是本发明实施例2提供的一种文本分类方法的流程示意图。

图4是本发明子图的构造和归一化的过程示意图。

图5是本发明实施例3提供的一种文本分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例1提供的一种文本分类方法的流程示意图,包括步骤：

S1、接收输入的待分类文本，将所述待分类文本进行预处理后，构造所述待分类文本的图结构，根据所述待分类文本的图结构构造若干个子图，将每一子图进行归一化处理；所述待分类文本的图结构中，节点与所述待分类文本中的单词一一对应；

其中，将所述文本进行预处理具体为：对所述文本进行分词处理后，去除所述文本的噪点和停用词，并提取所述文本中每一单词的词干；其中，所述噪点包括标点符号和数字，所述停用词包括代词、连词、介词、冠词。具体的，由于噪点和停用词自身并无实际意义，几乎不携带任何信息，除了对语言模型和感情分析有作用外，对文本的区分能力很弱，因此，在文本分类中需要将这些噪点和词去除。在实际应用中，通常预先建立一个停用词表，然后对分词得到的词语停用词表进行匹配，如果词存在于表中，则表明该词为停用词，则删除；若不在表中，则保留。此外，在文本中除了存在一些停用词外，还存在大量语义不明确的副词、数词和方位词等，如“在”、“一”和“很”等，这些词对文本的内容贡献不大，因此也需要去掉语义不强的非实际意义的词，对于突出文本的主题，准确分类是很有必要的。

在该步骤中，构造文本的图结构，从而可结合现有的图的神经网络的分类方法对文本进行分类，准确性高，且易于训练模型的参数。其中，图是由顶点的有穷非空集合和顶点之间的边构成的一种数据结构，通常表示为G＝(V,E,W)，G表示一个图，V是图G中顶点的集合，E是图G中边的集合，W顶点和边的权重集合。也就是，一个图结构是由节点，连接节点的有向边，以及表示节点和边的重要程度的权重组成的结构。

需要说明的是，基于待分类文本的图结构构建若干个子图，所述子图可认为是远距离的N元模型(N-gram),即非连续性的语义特征。

S2、以每一所述子图中的词向量表示作为已训练的神经网络的输入，根据所述神经网络的输出得到待分类文本的类别。

在该步骤中，通过向已训练的神经网络输入子图的词向量，可融合子图的语义特征，先提取所述待分类文本的低级特征，再进一步提取所述待分类文本的高级特征，从而根据分类器获取所述待分类文本的类别。

需要说明的是，所述待分类文本的图结构的构建包括三种方法，分别为基于共现关系、基于句法关系和基于语义关系。其中，基于共现关系是最普遍也是最简单的构建方法，如果两个词都出现在同一个文本窗口中，则在两者之间建立一条边；基于句法的构建方法是通过此在句子中的语法作用以及相应的语法关系来建立边的连接；基于语义的关系是根据词之间的语义关系建立边，这种语义关系主要包括同义、近义等。优选地，本实施例中采用词的共现关系构造所述文本，具体为：

通过预设大小的滑动窗口对所述文本进行遍历,当任意两个单词同时处在所述滑动窗口内时，在所述两个单词间构造边，所述边由前一个单词指向后一个单词。如图2所示，滑动窗口的大小为3，每共线一次就构建一条边。当然，可将每两个单词之间的边减少为一条，所述边的权重与所述边对应的两个单词的共线率呈正比关系或所述边的权重和所述边连接的两个词的相似度呈正比关系。

基于上述方案，先基于待分类文本构造所述待分类文本的图结构，根据所述待分类文本的图结构，构造若干个子图，将每一子图进行归一化处理，以每一所述子图中的词向量表示作为已训练的神经网络的输入，根据所述神经网络的输出得到待分类文本的类别，本方案中，各个子图具有非连续性、长距离的语义信息，通过神经网络可对各个子图的特征进行提取和融合，从而得到准确的文本分类结果。

参见图3，为本发明实施例2提供的一种文本分类方法的流程示意图，其在实施例1的基础上，步骤S1具体为：

S11、接收输入的待分类文本，将所述文本进行预处理后，构造所述待分类文本的图结构；其中，所述待分类文本的图结构中，节点与所述待分类文本中的单词一一对应；

S12、提取所述文本的图结构的节点，将所述节点依照贡献值的大小进行排序；其中；所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共线率依次决定；

S13、选取所述节点中排序前N的节点作为关键节点，以每一所述关键节点作为根结点，通过广度优先搜索算法构造子图，将每一所述子图进行归一化处理；其中，所述子图包括至少k个节点；其中，N>0，k>0。

在该步骤中，通过获取关键节点可快速对文本进行分类，减小计算机的计算量。进一步地，通过广度优先搜索策略构造子图，提高分类的准确度的同时降低了时间复杂度。

其中，步骤S13中以每一所述关键节点作为根节点，通过广度优先搜索算法构造子图具体为：

在将每个子图作为神经网络的输入时，需要获取每个词的向量表示，即所谓的词向量，word embedding，就是讲自然语言中的词数字符号化，用一串连续的数字向量进行单词表示。一种最简单的词向量表示方式为one-hot词向量表示，向量的长度为词典的大小，向量的位数中只有一位为1,1所在的位置为该词在词典中的位置。另一种词向量的表示方法为分布式词向量表示(Distribution Representation)，其是通过模型训练得到的关于单词语义的表示。优选地，本方案可采用word2vec模型或glove模型表示词向量。其中，word2vec包括CBOW(continuous Bag-of-Words)和Skip-gram两种模型，所述CBOW是一种前向神经类似的模型，其是给定上下文预测目标词的概率分布，Skip-gram模型是给定目标词预测上下文的概率值，两者都是设定一个目标函数，随后采用优化方法找到模型的最佳参数解，从而获得词向量表示。所述word2vec模型可简化词的向量表示，其向量空间上的距离可以用来表示文本语义的相似度，而且考虑了词序和上下文语义信息。

进一步地，为了后续作为神经网络的输入，需要对每一所述子图进行归一化处理，所述归一化处理具体为：

如图4所示，为子图构造和归一化的具体示意图，根据贡献值获得的关键节点分别为“goalscor”、“england”“club”“fit”“high”“great”“unit”“true”，则分别以上述关键节点作为根结点进行广度优先搜索策略进行遍历获得若干个具有不同语义的子图，对各个子图进行归一化处理即可作为神经网络的输入进行各个子图的特征提取和融合。

此外，对未进行归一化的子图，需要对子图中的各个节点进行排序以利于后续的神经网络的处理过程，则需对子图的各个节点进行标记，具体地，根据以下公式对所述子图进行标记：

优选地，所述神经网络为卷积神经网络，包括输入层、卷积层、池化层、全连接层和类别输出层。卷积神经网络作为一种深度学习最常用的模型，是从人的视觉系统结构启发而来的结构模型，能够自动学习特征，具有分类准确率高的特点。对于现有通过卷积神经网络进行图像分类的过程中，图像的空间相关性也与距离有关，距离近的像素之间相关性大，距离远的像素之间相关性很小。因而，局部特征显得极为重要，只需进行更加简便地局部感知就可以了。这是因为，全局特征是通过综合底层局部特征得到的，所以神经元也不需要全局感知了，所以只采用局部连接的方式既符合视觉神经学理论又能有效地简化网络的复杂度。同样地，本方案通过对文本的图结构进行子图的构造，可充分利用神经网络中的局部特征提取功能，先提取低级特征再提取高级特征，从具体到抽象，从而获得准确的分类结果。

参见图5，是本发明实施例3提供的一种文本分类装置的结构示意图，包括：

子图构造模块101，用于接收输入的待分类文本，将所述待分类文本进行预处理后，构造所述待分类文本的图结构，根据所述待分类文本的图结构构造若干个子图，将每一所述子图进行归一化处理；所述待分类文本的图结构中，节点与所述待分类文本中的单词相对应；

类别预测模块102，用于以每一所述子图作为神经网络的输入，根据所述神经网络的输出得到所述待分类文本的类别。

优选地，所述将所述文本进行预处理具体为：

优选地，构造所述待分类文本的图结构具体为：

采用词的共现关系构造所述待分类文本的图结构，具体为：

优选地，每一所述子图中的词向量采用word2vec模型或glove模型表示。

优选地，所述子图构造模块101根据所述待分类文本的图结构构造若干个子图具体为：

提取所述待分类文本的图结构的节点，将所述节点依照贡献值的大小进行排序；其中；所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共线率依次决定；

选取所述节点中排序前N的节点作为关键节点，以每一所述关键节点作为根结点，通过广度优先搜索算法构造子图；其中，所述子图包括至少k个节点；其中，N>0，k>0。

其中，所述以每一所述关键节点作为根节点，通过广度优先搜索算法构造子图具体为：

优选地，所述子图构造模块101将每一所述子图进行归一化处理具体为：

其中，将每一子图进行归一化处理前还包括步骤：

根据以下公式对所述子图进行标记：

优选地，所述神经网络为卷积神经网络，包括输入层、卷积层、池化层、全连接层和类别输出层。

本实施例提供的文本分类装置的实施过程和工作原理可参考上述对文本分类方法的具体描述，在此不再赘述。

综上，本发明实施例公开了一种文本分类方法及装置，先基于待分类文本构造所述待分类文本的图结构，根据所述待分类文本的图结构，构造若干个子图，将每一子图进行归一化处理，以每一所述子图中的词向量表示作为已训练的神经网络的输入，根据所述神经网络的输出得到待分类文本的类别，本方案中各个子图具有非连续性、长距离的语义信息，通过神经网络可对各个子图的特征进行提取和融合，从而得到准确的文本分类结果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括步骤：

2.如权利要求1所述的文本分类方法，其特征在于，所述将所述文本进行预处理具体为：

3.如权利要求1所述的文本分类方法，其特征在于，构造所述待分类文本的图结构具体为：

采用词的共现关系构造所述待分类文本的图结构，具体为：

4.如权利要求1所述的文本分类方法，其特征在于，每一所述子图中的词向量采用word2vec模型或glove模型表示。

5.如权利要求1所述的文本分类方法，其特征在于，根据所述待分类文本的图结构构造若干个子图具体为：

6.如权利要求5所述的文本分类方法，其特征在于，所述以每一所述关键节点作为根节点，通过广度优先搜索算法构造子图具体为：

7.如权利要求6所述的文本分类方法，其特征在于，将每一所述子图进行归一化处理具体为：

8.如权利要求7所述的文本分类方法，其特征在于，将每一子图进行归一化处理前还包括步骤：

根据以下公式对所述子图进行标记：

9.如权利要求1所述的文本分类方法，其特征在于，所述神经网络为卷积神经网络，包括输入层、卷积层、池化层、全连接层和类别输出层。

10.一种文本分类装置，其特征在于，包括：

子图构造模块，用于接收输入的待分类文本，将所述待分类文本进行预处理后，构造所述待分类文本的图结构，根据所述待分类文本的图结构构造若干个子图，将每一所述子图进行归一化处理；所述待分类文本的图结构中，节点与所述待分类文本中的单词相对应；

类别预测模块，用于以每一所述子图作为神经网络的输入，根据所述神经网络的输出得到所述待分类文本的类别。