CN112015863A

CN112015863A - 一种基于图神经网络的多元特征融合中文文本分类方法

Info

Publication number: CN112015863A
Application number: CN202010868076.1A
Authority: CN
Inventors: 范梦真; 严一博; 程大伟; 罗轶凤; 钱卫宁; 周傲英
Original assignee: Shanghai Guandian Technology Co ltd; East China Normal University
Current assignee: Shanghai Guandian Technology Co ltd; East China Normal University
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-01
Anticipated expiration: 2040-08-26
Also published as: CN112015863B

Abstract

本发明公开了一种基于图神经网络的多元特征融合中文文本分类方法，属于自然语言处理领域。其特点是融合全局图卷积特征和局部序列特征进行文本分类，通过构建文本与命名实体的异构图并利用异构图进行全局图卷积特征提取，基于GRU的序列编码器进行局部序列特征提取，最后融合两部分特征输入分类器，特别地，在异构图特征提取阶段和特征融合阶段使用attention机制来提高重要信息的权重。本发明在某领域的文本分类任务上，相比于现有的分类模型，本发明提出的模型的中文文本分类准确率明显提高，能更好地应用于对分类精度要求高的某领域文本分类任务上。

Description

一种基于图神经网络的多元特征融合中文文本分类方法

技术领域

本发明涉及自然语言处理领域，尤其涉及基于图神经网络的多元特征融合中文文本分类方法。

背景技术

互联网时代文本信息大量产生，例如每天的行业新闻中蕴含大量有效信息，获取并为这些高效准确地为文本打上标签，是自然语言处理复杂任务的基础。类别化后的新闻也有利于研究员针对性地分析和预测行业行情变化。文本分类是自然语言处理中的一项基础任务，是指根据预先定义好的类别体系将文本打上相应一个或多个标签的过程。传统的机器学习文本分类方法，通常包括两个部分：特征表示和分类模型。传统文本特征表示方式主要有Bow(词袋)、Tf-idf(词频-逆文档频率)等，在将文档向量化后，使用诸如逻辑回归、SVM、朴素贝叶斯、决策树等方法分类。传统的语言表示模型特征稀疏且无法表征相似度。随着深度学习技术的发展，文本表示模型可以使用word2vec、glove等分布式表示的语言模型，并使用神经网络进行信息提取和分类。近年来，图卷积神经网络的提出和在文本分类上的使用，提升了文本分类的效果，能够做到半监督的文本分类，减轻人工标注数据的压力。现有文本分类方法针对文本分类仍然有以下不足。

1)序列模型需要大量的标注数据

现有的文本分类模型大部分基于类别较少，粒度较粗的场景，一般是几类到几十类，使用循环神经网络(RNN)和长短期记忆神经网络(LSTM)进行特征提取。这类序列模型参数量较大，需要大量的标注数据来训练，而实际的应用中，大量的标注往往耗费巨大的标注成本，且质量难以监控。

2)没有结合具体领域的知识进行分类

文本中出现的上市公司、非上市公司、人名、地点、时间、金钱和产品等命名实体对文本分类有重要的作用，有相同命名实体的文本在类别上往往有相似性。尤其在细粒度的文本分类中，区分表述相似实际意义不同的命名实体对分类准确率十分重要。例如，“近年来某地果农收益是往年十余倍，得益于在某互联网平台的曝光”这类新闻属于农业而与互联网行业的相关性不大。所以，识别出文本中的命名实体能够避免歧义，提高文本分类方法的准确率。

综上所述，对于领域内实体信息敏感的细粒度分类技术尚未出现。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于图神经网络的多元特征融合中文文本分类方法，该方法基于图卷积神经网络，构建文本-命名实体的异构图，通过异构图上的图卷积获得全局信息，并结合文本分类领域常用的文本编码方式GRU，对文本信息进行编码，提升文本表征的信息量，得到一个融合了全局信息和局部语义信息的表征用于文本分类。

实现本发明目的的具体技术方案是：

一种基于图神经网络的多元特征融合中文文本分类方法，该方法包括以下具体步骤：步骤1：文本收集与处理

收集文本，对收集到的文本进行文本预处理，并划分出训练集、验证集和测试集；其中，文本预处理包括分词及去除停用词；

步骤2：词向量模型训练

使用步骤1中处理后的全部文本训练word2vec词向量模型，保存训练好的word2vec词向量模型；

步骤3:文本-命名实体异构图构建

步骤1处理后的文本构成文本集合，使用命名实体识别模型识别文本集合中的文本，得到其中所有的实体，这些实体构成实体集合；将文本和实体视为两种类型的图节点，若文本中包含某个实体，则文本节点与实体节点之间建立一条边，两种类型的节点及节点之间的边构成异构图；

步骤4：构建多元特征融合的神经网络模型

基于图卷积神经网络和GRU序列编码模型构建多元特征融合的神经网络模型；

步骤5：训练与保存

将异构图每个节点的表征和文本的表征输入步骤4构建的图神经网络模型，得到神经网络模型的输出向量，将得到的向量输入一层的全连接神经网络作为分类器，输出为文本属于各个类别的概率，在训练集上使用交叉熵损失函数衡量预测概率与文本真实类别的差距，通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值，重复上述过程直到验证集上损失函数不再下降，保存此时神经网络模型的参数；

步骤6：文本类型预测

将需分类的文本输入训练好的模型中，得到文本属于各个类别的概率，取概率最大的类别为预测类别。

步骤1所述收集文本为收集来自各大新闻门户网站和公众号；所述分词使用中文分词方法Jieba分词；所述停用词由公开的中文停用词表以及文本中词频-逆文档频率Tf-idf值低的词人工筛选后合并构成；所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。

步骤2所述训练word2vec词向量模型使用skip-gram方法训练。

步骤3中所述的命名实体识别模型为Bi-LSTM+CRF；所述实体类型包括文本中的上市公司、非上市公司、人名、地点、时间、金钱和产品。

步骤4所述构建多元特征融合的神经网络模型，具体过程如下：

所述的神经网络模型包括全局信息编码器、局部文本信息编码器和一个softAttention信息整合单元；

所述全局信息编码器包括图卷积模块和Attention模块；

图卷积模块：设置异构图共有n个节点，每个节点用d_e维的向量表示，那么图上所有节点的向量表示为矩阵

异构图中的节点之间的连接关系用邻接矩阵A表示,节点i和j相连时邻接矩阵A中第i行第j列的元素A_ij为1，节点i和j不相连时A_ij为0；异构图的度矩阵用D表示,度矩阵对角线元素为D_ii＝∑_jA_ij，对角线元素以外元素为0；标准化后邻接矩阵A用

表示,标准化过程如下：

图卷积的计算过程如下：

其中，j表示第j层全局信息编码器，σ表示softmax激活函数，L^(j+1)表示第(j+1)层全局信息编码器的输出，H^(j)表示第j层Attention模块的输出，W^(j)表示第j层的权重矩阵，定义H⁽⁰⁾＝X；

Attention模块：对于异构图中的一个节点υ，其邻居节点集合为N_υ，将与节点υ相连的节点的向量的加权求和作为Attention模块的输出，计算如下：

e_vv′＝σ(μ^T·[h_v||h_v′])

其中，μ^T表示Attention权重向量的转置，σ表示softmax激活函数，e_vv′表示Attention计算的中间值，h_v,h_v′分别表示节点υ和邻居节点的向量表示，α_vv′表示Attention权重，h′_v表示节点vAttention模块的输出，第j层Attention模块所有节点的输出向量组成矩阵H^(j)；

节点υ经过全局信息编码器后得到表示记为o₁；

所述局部文本信息编码器使用GRU；分词后的文本序列经过word2vec词向量模型后得到的向量序列是[x₁,x₂,…,x_T]，使用GRU编码文本序列，计算如下：

z_t＝σ_g(W_zx_t+U_zh_t-1+b_z)

r_t＝σ_g(W_rx_r+U_rh_t-1+b_r)

h_t＝z_t·h_t-1+(1-z_t)·φ_h(W_hx_t+U_hh_t-1+b_h)

其中，x_t表示t时刻的输入，h_t-1表示t-1时刻序列编码器输出，W_z,U_z,W_r,U_r,W_h,U_h表示权重矩，b_z,b_r,b_h表示偏移量，σ_g表示sigmoid激活函数，φ_h表示tanh激活函数；使用GRU编码正向文本序列[x₁,x₂,…,x_T]得到最后一层的输出为

使用GRU编码反向文本序列[x_T,x_T-1,…,x₁]，得到最后一层的输出为

拼接h_T和h₁作为局部文本信息编码器的输出

Soft Attention信息整合单元，用于求得全局信息编码器的输出o₁和局部文本信息编码器的输出o₂的权重，计算如下：

u_i＝tanh(W_oo₁+b_o)(i＝1,2)

其中，W_o，b_o为权重矩阵和偏移项，tanh为激活函数，o₁,o₂分别表示全局信息编码器和局部文本信息编码器的输出，u_i为Soft Attention权重向量,β_i为o_i(i＝1,2)的权重，z表示神经网络模型的输出。

步骤5所述异构图每个节点的表征为文本节点的表征和命名实体节点的表征，文本节点的表征是分词后每个词词向量的平均值，命名实体节点的表征是命名实体的词向量；分类器输出前要使用softmax激活函数，分类器输出为c维向量，其中c为文本总类别数,输入向量p的计算如下：

p＝softmax(W_cz+b_c)

其中，W_c为全连接层权重，b_c为偏移项；p∈R^c为输出的向量，表示文本属于各个类别的概率,z为上述神经网络模型的输出。

步骤5所述的交叉熵损失函数，具体计算如下：

其中y_i(i＝1,2,…,c)等于1时表示文本属于第i类,

为分类器预测文本属于第i类的概率。

本发明通过异构图上的图卷积获得全局信息，并结合文本分类领域常用的文本编码方式GRU，提升了文本表征的信息量，得到一个融合了全局信息和局部语义信息的表征用于文本分类，提高了分类的准确率，本发明相比于现有的分类模型，能够更好地识别细粒度的语义信息。

附图说明

图1为本发明神经网络模型示意图；

图2为本发明流程图。

具体实施方式

本发明使用Jieba分词对所有文本语料进行分词，并使用全量分词后的语料训练word2vec词向量模型，用训练好的词向量模型得到文本语料的词向量序列，然后基于图卷积神经网络，构建文本-命名实体的异构图，通过异构图上的图卷积获得全局信息，并结合文本分类领域常用的文本编码方式GRU，对文本信息进行编码，提升文本表征的信息量，最后将合并后的两部分表征输入分类器进行分类，得到最终的结果。

通过以下具体实施例对本发明作进一步的详细说明。

实施例1

参阅图2，按下述步骤进行基于图神经网络的多元特征融合中文文本分类模型训练：Step1：收集目标网站和公众号的文本，对收集到的文本进行文本预处理，并划分出训练集、验证集和测试集；其中，文本预处理包括分词及去除停用词，例如：

原始文本：

平安基金张某：坚持新股常态化发行，有利于发行生态法治化、市场化12月1日消息，据悉，证监会将按照发展股权融资、优化上市公司质量、服务实体经济的整体需求，坚持新股常态化发行；

预处理后文本序列：

['某基金','张某','坚持','新股','常态化','发行','有利于','发行','生态','法治化','市场化','12月1日','消息','据悉','证监会','将','按照','发展','股权','融资','优化','上市公司','质量','服务','实体','经济','的','整体','需求','坚持','新股','常态化','发行']

Step2：使用S1中处理后的文本训练word2vec词向量模型,这里指使用收集到的全部文本，保存训练好的word2vec词向量模型；word2vec词向量模型使用skip-gram方法训练。

Step3：文本-命名实体异构图构建。使用Bi-LSTM+CRF的命名实体识别模型识别所有分词后的文本语料，构造实体集合，使用列表来存储，例如[某基金,证监会,……]；文档-实体异构图使用列表来表示，[文本1，文本2，……，某基金，证监会，实体3，……]；异构图的邻接矩阵可以表示为：

Step4:构建多元特征融合的神经网络模型。构建过程如下：

神经网络模型包括全局信息编码器、局部文本信息编码器和一个soft Attention信息整合单元。

所述全局信息编码器包括图卷积模块和Attention模块；

图卷积模块：假设异构图共有n个节点，每个节点用d_e维的向量表示，那么图上所有节点的向量可以表示为矩阵

异构图中的节点之间的连接关系用邻接矩阵A表示(若节点i和j相连，那么邻接矩阵A中第i行第j列的元素A_ij为1，否则为0)；异构图的度矩阵用D表示,其中度矩阵对角线元素为D_ii＝∑_jA_ij(D_ii和A_ij下标分别表示行和列),其他元素为0。标准化后邻接矩阵A用

表示,标准化过程如下：

图卷积的计算过程如下：

其中，j表示第j层全局信息编码器，σ表示softmax激活函数，L^(j+1)表示第(j+1)层全局信息编码器的输出，H^(j)表示第j层Attention模块的输出，W^(j)表示第j层的权重矩阵，定义H⁽⁰⁾＝X。

Attention模块：对于异构图中的每个节点v，它的邻居节点集合为N_v，将与它相连的节点的向量的加权求和作为Attention模块的输出，计算如下：

e_vv′＝σ(μ^T·[h_v||h_v′])

其中，μ^T表示Attention权重向量的转置，σ表示softmax激活函数，e_vv′表示Attention计算的中间值，h_v,h_v′分别表示节点υ和它邻居节点的向量表示，α_vv′表示Attention权重，h′_v表示节点vAttention模块的输出，第j层Attention模块所有节点的输出向量组成矩阵H^(j)。

文本节点υ经过全局信息编码器后得到表示记为o₁。

所述局部文本信息编码器使用GRU。假设分词后的文本序列[x₁,x₂,…,x_T]，使用GRU编码文本序列，计算如下：

z_t＝σ_g(W_zx_t+U_zh_t-1+b_z)

r_t＝σ_g(W_rx_r+U_rh_t-1+b_r)

h_t＝z_t·h_t-1+(1-z_t)·φ_h(W_hx_t+U_hh_t-1+b_h)

其中，x_t表示t时刻的输入，h_t-1表示t-1时刻序列编码器输出，W_z,U_z,W_r,U_r,W_h,U_h表示权重矩，b_z,b_r,b_h表示偏移量，σ_g表示sigmoid激活函数，φ_h表示tanh激活函数。

使用上述序列GRU编码正向文本序列[x₁,x₂,…,x_T]得到最后一层的输出为

使用上述序列GRU编码反向文本序列[x_T,x_T-1,…,x₁]，得到最后一层的输出为

拼接h_T和h₁作为局部文本信息编码器的输出

Soft Attention信息整合单元，用于求得上述全局信息编码器的输出o₁和局部文本信息编码器的输出o₂，计算如下：

u_i＝tanh(W_oo₁+b_o)(i＝1,2)

Step5:模型训练与保存。将图节点表征输入全局信息编码器，将文本分词后的词序列表征输入局部文本信息编码器，得到的输出向量z，输入一层的全连接神经网络作为分类器，使用交叉熵损失函数衡量预测概率与文本真实类别的差距，并通过Adam优化器反向传播更新参数，每次更新参数后计算验证集上损失函数的值。分类器中计算如下：

p＝softmax(W_cz+b_c)

其中，W_c为全连接层权重，b_c为偏移项；p∈R^c为输出的向量，表示文本属于各个类别的概率,z为上述神经网络模型的输出；

那么，交叉熵损失函数计算如下：

其中y_i等于1时表示文本属于第i类,

为分类器预测文本属于第i类的概率；通过Adam优化器反向传播更新参数，每次更新参数后计算验证集上损失函数的值，需要更新的参数包括层级神经网络和分类器中的参数，重复上述过程直到验证集上损失函数不再下降，保存此时层级神经网络、命名实体识别模型和分类器组成的整体模型(如图1所示)；

Step6：将实施例的文本输入上述保存的整体模型中，得到预测数的概率，本实施例中的类别c为20，输出概率p＝[0.08050156,0.02728766,0.03207764,0.06168538,0.05952194,0.03316066,0.07006078,0.05632877,0.04960008,0.05180365,0.03285286,0.02650431,0.01506351,0.07907253,0.00450123,0.03119562,0.05675745,0.104023,0.03745773,0.09054364],其中概率最大的为第18类，

在本实施例代表“行业监管”类别，所以，预测类别为“行业监管”。

综上所述，本发明采用构建文本-命名实体的异构图，通过异构图上的图卷积获得全局信息，并结合文本分类领域常用的文本编码方式GRU，对文本信息进行编码，提升文本表征的信息量，得到一个融合了全局信息和局部语义信息的表征用于文本分类的方法，提升了细粒度文本分类的精度。

以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进，应视为本发明的保护范围。

Claims

1.一种基于图神经网络的多元特征融合中文文本分类方法，其特征在于，该方法包括以下具体步骤：

步骤1：文本收集与处理

步骤2：词向量模型训练

步骤3:文本-命名实体异构图构建

步骤4：构建多元特征融合的神经网络模型

步骤5：训练与保存

步骤6：文本类型预测

2.根据权利要求1所述的多元特征融合中文文本分类方法，其特征在于，步骤1所述收集文本为收集来自各大新闻门户网站和公众号；所述分词使用中文分词方法Jieba分词；所述停用词由公开的中文停用词表以及文本中词频-逆文档频率Tf-idf值低的词人工筛选后合并构成；所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。

3.根据权利要求1所述的多元特征融合中文文本分类方法，其特征在于，步骤2所述训练word2vec词向量模型使用skip-gram方法训练。

4.根据权利要求1所述的多元特征融合中文文本分类方法，其特征在于，步骤3中所述的命名实体识别模型为Bi-LSTM+CRF；所述实体类型包括文本中的上市公司、非上市公司、人名、地点、时间、金钱和产品。

5.根据权利要求1所述的多元特征融合中文文本分类方法，其特征在于，步骤4所述构建多元特征融合的神经网络模型，具体过程如下：

所述全局信息编码器包括图卷积模块和Attention模块；

表示,标准化过程如下：

图卷积的计算过程如下：

e_vv，＝σ(μ^T·[h_v||h_v′])

其中，μ^T表示Attention权重向量的转置，σ表示softmax激活函数，e_vv′表示Attention计算的中间值，h_v,h_v′分别表示节点υ和邻居节点的向量表示，α_vv′表示Attention权重，h′_v表示节点υAttention模块的输出，第j层Attention模块所有节点的输出向量组成矩阵H^(j)；节点υ经过全局信息编码器后得到表示记为o₁；

z_t＝σ_g(W_zx_t+U_zh_t-1+b_z)

r_t＝σ_g(W_rx_r+U_rh_t-1+b_r)

h_t＝z_t·h_t-1+(1-z_t)·φ_h(W_hx_t+U_hh_t-1+b_h)

其中，x_t表示t时刻的输入，h_t-1表示t-1时刻序列编码器输出，W_z,U_z,W_r,U_r,W_h,U_h表示权重矩，b_z,b_r,b_h表示偏移量，σ_g表示sigmoid激活函数，φ_h表示tanh激活函数；

使用GRU编码正向文本序列[x₁,x₂,…,x_T]得到最后一层的输出为

拼接h_T和h₁作为局部文本信息编码器的输出

u_i＝tanh(W_oo₁+b_o) (i＝1,2)

6.根据权利要求1所述的多元特征融合中文文本分类方法，其特征在于，步骤5所述异构图每个节点的表征为文本节点的表征和命名实体节点的表征，文本节点的表征是分词后每个词词向量的平均值，命名实体节点的表征是命名实体的词向量；分类器输出前要使用softmax激活函数，分类器输出为c维向量，其中c为文本总类别数,输入向量p的计算如下：

p＝softmax(W_cz+b_c)

7.根据权利要求1所述的多元特征融合中文文本分类方法，其特征在于，步骤5所述的交叉熵损失函数，具体计算如下：

其中y_i(i＝1,2,…,c)等于1时表示文本属于第i类,

为分类器预测文本属于第i类的概率。