CN113434668A

CN113434668A - 一种基于模型融合的深度学习文本分类方法及系统

Info

Publication number: CN113434668A
Application number: CN202110539393.3A
Authority: CN
Inventors: 程戈; 侯壹凡; 张冬良
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-09-24
Anticipated expiration: 2041-05-18
Also published as: CN113434668B

Abstract

本发明公开了一种基于模型融合的深度学习文本分类方法及系统，包括：获取训练文本集，构建以单词节点为基础的文本训练集的图结构；利用获取的文本训练集的图结构，将训练文本集中的文本生成文本的图结构；构建图神经网络模型，将获取的文本的图结构输入图神经网络得到图神经网络输出；构建基于循环神经网络的文本分类模型，将图神经网络的输出输入到文本分类模型进行分类预测，获得文本分类结果。本发明以提升基于文本分类任务的应用场景的分类准确度。

Description

一种基于模型融合的深度学习文本分类方法及系统

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于模型融合的深度学习文本分类方法及系统。

背景技术

文本分类是自然语言处理(NLP)中的一个基本问题，在现实生活中有着许多实际的应用场景，例如新闻过滤，垃圾邮件检测等。

文本分类的主要流程包括：获取训练集，文本预处理，文本特征的表示，训练分类器，预测结果并分析，传统的机器学习文本分类方法主要聚焦于文本特征的表示和分类模型，常见的机器学习分类方法有支持向量机(SVM)、朴素贝叶斯、决策树、K最近邻(KNN)等，这些方法通常采用例如TF-IDF、Bow等文本特征表示方法，这些文本特征表示方法其特征表达能力弱，在处理海量语料库时会有更多的资源消耗，并且无法涵盖词语间的关联关系，同时也忽略了词序。

随着深度学习技术的发展，从大量文本语料中以无监督方式学习语义知识的模型，被广泛地应用于自然语言处理中，例如word2vec、glove等语言模型。然后使用神经网络进行信息提取和分类，例如卷积神经网络(CNN)和递归神经网络(RNN)等，由于CNN和RNN可以考虑文本语料中单词位置和顺序等信息，这些深度学习模型可以很好地捕获文本序列中连续单词的语义和句法等信息，从而提升分类精度，但是，这些深度学习模型集中在文本单词的局部信息交互上，缺乏长距离和非连续的单词交互。

最近，由于图神经网络(GNN)在文本处理中获取文本全局信息方面表现出色，因此研究探索了融合基于图神经网络和循环神经网络的文本分类方法。

发明内容

有鉴于此，本发明提出一种基于模型融合的深度学习文本分类方法及系统。

一种基于模型融合的深度学习文本分类方法，包括以下步骤：

S1、获取训练文本集，构建以单词节点为基础的文本训练集的图结构；

S2、利用S1中获取的文本训练集的图结构，将训练文本集中的文本生成文本的图结构；

S3、构建图神经网络模型，将S2中获取的文本的图结构输入图神经网络得到图神经网络输出；

S4、构建基于循环神经网络的文本分类模型，将S3得到的图神经网络输出输入到所述文本分类模型进行分类预测，获得文本分类结果。

进一步地，所述S1中文本训练集的图结构包括文本训练集的图结构的节点集和文本训练集的图结构的边集，该文本训练集的图结构的生成过程为：

S11、将所述训练文本集中出现次数大于阈值k的词加入集合V_ALL，将所述训练文本集中出现次数小于阈值k的词统一映射为集合V_ALL中特定节点UNK，V_ALL即为文本训练集的图结构的节点集；节点集合V_ALL中的节点嵌入表示v通过预训练模型获得；

S12、将所述训练文本集中，语句中词间距小于p的邻居节点之间的关系权重设置为随机权重e，利用节点间关系权重构建矩阵E_ALL，E_ALL即为文本训练集的图结构的边集；其中，E在训练过程中更新。

进一步地，所述S2中文本的图结构包括文本的图结构的节点集和文本的图结构的边集，该文本的图结构的生成过程为：

N＝{r_i|i∈[1,l]},

E＝{e_ij|i∈[1,l]；j∈[i-p,i+p]}

其中，N和E是文本图的节点集和边集，而N中的单词表示r_i取自文本训练集的图结构的节点集V_ALL，E中的边权重e_ij取自文本训练集的图结构的边集E_ALL，l表示一条文本单词的个数，p为超参数，表示词间距。

进一步地，所述的文本的图结构的节点集为所述文本训练集的图结构的节点集的子集，所述文本的图结构的边集为所述文本训练集的图结构的边集的子集。

进一步地，所述S3基于图神经网络的模型运算过程为：

r′_n＝(1-η_n)m_n+η_nr_n

其中，m_n是文本图中节点n从其p个邻居节点收到的消息；max是归约函数，它将邻居节点表示的每个维度上的最大值组合起来以形成新的向量表示作为输出；

表示代表原始文本中节点n的词间距小于p的邻居节点；e_an∈R¹是从节点a到节点n的边缘权重，在训练过程中进行更新；r_n为节点n的前一个表示，r′_n为节点n更新后的表示，η_n是节点n的可训练变量，指示应保留r_n的信息量。

进一步地，所述S4构建基于循环神经网络的文本分类模型包括Bi-LSTM层、注意力层、全连接层和输出层；其中，Bi-LSTM层的输出传递至注意力层，注意力层的输出传递全连接层，全连接层的输出通过使用Softmax函数获取文本的分类结果。

一种基于模型融合的深度学习文本分类系统，应用于任一项所述的一种基于模型融合的深度学习文本分类方法，包括：

文本训练集图生成模块：获取训练文本集，构建以单词节点为基础的文本训练集的图结构；

文本图生成模块：利用文本训练集图生成模块中获取的所述文本训练集的图结构，将所述训练文本集中的文本生成文本的图结构；

图神经网络模块：构建图神经网络模型，将文本图生成模块中获取的所述文本的图结构输入图神经网络得到图神经网络输出；

分类预测模块：构建基于循环神经网络的文本分类模型，将图神经网络模块所述图神经网络输出输入所述文本分类模型进行分类预测，获得文本分类结果。

附图说明

图1为本发明一种基于模型融合的深度学习文本分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明实施例公开了一种基于模型融合的深度学习文本分类方法，本发明中的文本为自然语言文本，例如新闻文本的类别，体育、财经、教育科技等文本，并且文本不限语种。其基本思想是，利用图神经网络捕捉全局文本共现能力，以及循环神经网络提取文本序列特征的能力，融合二者优势，提升文本分类准确率，主要包括以下步骤：

步骤1、获取训练文本集，构建以单词节点为基础的文本训练集的图结构；

步骤1中训练文本集需要经过初步的文本预处理，预处理为比较成熟的现有技术，主要包括分词、去停用词等操作，不同语言的文本特点不同，处理方式可能会有区别，可以将文本分解为具有单独意义标识，如：英语中的单词、汉语中的词；在本实施例中，通过分词工具将训练集文本分词，然后将分词后的所有词语处理成词汇表，根据词汇表，每个单词对应不同的id表示，将单词通过预训练语言模型进一步生成词嵌入表示，根据单词id以及相应的词嵌入表示生成文本训练集的图结构；其中，词汇表是自然语言处理中基础的操作，即将单词与索引id一一对应，形成key-value的词汇表形式，具体的，词汇表是指单词的索引表，将单词转化为int型数据表示，每个单词都有一个整数索引号，预训练语言模型是指模型参数是预先训练好的，可以直接根据索引将对应的词汇表中的单词转化为相应单词嵌入表示。

对于步骤1中所述文本训练集的图结构，包括文本训练集的图结构的节点集V和文本训练集的图结构的边集E，其中，文本训练集的图结构的节点集包括在训练文本集中出现次数大于阈值k的词节点和UNK节点，具体的，UMK节点表示在训练文本集中出现次数小于阈值k的词，k为超参数，可以根据实验需要进行调整，UNK节点为了将频率过低的单词过滤掉，通过统一映射以充分训练模型；在所述训练文本集中的每条训练文本中，将词间距小于p的两两节点之间构成互为邻居节点，邻居节点之间的关系权重设置为随机权重e，利用节点间关系权重构建矩阵E_ALL；其中E_ALL为n*n的矩阵，表示任一单词与其他所有单词间的关系权重信息。具体按照上述过程，生成文本训练集的图结构，训练文本集中所有单词都映射为文本训练集的图结构的节点集，节点间的关系权重构成文本训练集的图结构的边集。

步骤2、利用步骤1中获取的文本训练集的图结构，将训练文本集中的文本生成文本的图结构。

基于文本训练集的图结构，获取每条训练文本中单词在文本训练集的图结构中的节点表示构成节点集N＝{r_i|i∈[1,l]}，其中l表示当前文本的节点个数，即当前文本的总单词数，节点间的权重关系构成边集E＝{e_ij|i∈[1,l]；j∈[i-p,i+p]}，其中，N和E构成所述文本的图结构的节点集和边集，p为词间距，N为文本训练集的图结构的节点集V_ALL的子集，E为文本训练集的图结构的边集E_ALL的子集，具体的，根据单词的id获取训练文本在V_ALL中的节点表示V，以及每个单词在本条训练文本中的邻居节点间的关系权重E，E通过id在E_ALL中获取，E和V构成文本的图结构，用作图神经网络的输入。

步骤3、构建图神经网络模型，将步骤2中获取的文本的图结构输入图神经网络得到图神经网络输出；

本方法中的图神经网络采用一种非频谱的方法进行节点间的消息传递，通过公式

计算出文本的图结构中节点n的邻居节点的信息向量n∈[1,l]，其中，然后通过公式r′_n＝(1-η_n)m_n+η_nr_n计算出节点n融合邻居节点后的嵌入表示，其中，e_an在训练过程中进行更新，m_n是文本图中每个节点n从其p间距内的邻居节点收到的消息，通过max归约函数，将邻居节点的嵌入表示的每个维度上的最大值组合起来以形成新的向量表示m_n；

表示代表原始文本中节点n的p个间距内的邻居节点；e_an是从其邻居节点a到节点n的关系权重，具体的，e_an为每个邻居节点与当前节点n的关系权重；r_n为节点n的进行消息传递前的嵌入表示，r′_n为节点n进行消息传递后的嵌入表示。η_n是节点n的可训练变量，指示应保留r_n的信息量，最终，所有一条文本的图结构所有节点完成消息传递后获得文本的经过图神经网络的表示R＝[r′₁,r′₂,…r′_l]。

步骤4、构建基于循环神经网络的文本分类模型，将步骤3图神经网络输出输入文本分类模型进行分类预测，获得文本分类结果。

步骤4中所构建的基于循环神经网络的文本分类模型，包括Bi-LSTM层、注意力层、全连接层和分类层，具体的，将步骤3所获得的文本图的表示R＝[r′₁,r′₂,…r′_l]，然后通过Bi-LSTM得到文本表示

注意力层计算出文本向量中的对句子的意义很重要的单词，在本实施例中，首先对Bi-LSTM得到的文本表示h_i进行变换，即u_i＝tanh(W_wh_i+b_w)，其中W_w为参数矩阵，b_w为偏置项然后计算注意力，注意力的计算公式为

a_i为每个文本单词表示的注意力权重，然后通过公式

得到注意力层文本的嵌入表示S；将注意力层得到的文本表示S输入全连接层将其特征重新拟合，使用Dropout防止过拟合，提高模型的泛化能力。最后，使用Softmax函数输出类别的概率分布。

一种基于基于模型融合的深度学习文本分类系统，应用于任一项所述的一种基于模型融合的深度学习文本分类方法，包括：

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于模型融合的深度学习文本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于模型融合的深度学习文本分类方法，其特征在于，所述S1中文本训练集的图结构包括文本训练集的图结构的节点集和文本训练集的图结构的边集，该文本训练集的图结构的生成过程为：

3.根据权利要求1所述的一种基于模型融合的深度学习文本分类方法，其特征在于，所述S2中文本的图结构包括文本的图结构的节点集和文本的图结构的边集，该文本的图结构的生成过程为：

N＝{r_i|i∈[1,l]},

E＝{e_ij|i∈[1,l]；j∈[i-p,i+p]}

4.根据权利要求2或3任一项所述的一种基于模型融合的深度学习文本分类方法，其特征在于，所述的文本的图结构的节点集为所述文本训练集的图结构的节点集的子集，所述文本的图结构的边集为所述文本训练集的图结构的边集的子集。

5.根据权利要求1所述的一种基于模型融合的深度学习文本分类方法，其特征在于，所述S3基于图神经网络的模型运算过程为：

r′_n＝(1-η_n)m_n+η_nr_n

6.根据权利要求1所述的一种基于模型融合的深度学习文本分类方法，其特征在于，所述S4构建基于循环神经网络的文本分类模型包括Bi-LSTM层、注意力层、全连接层和输出层；其中，Bi-LSTM层的输出传递至注意力层，注意力层的输出传递全连接层，全连接层的输出通过使用Softmax函数获取文本的分类结果。

7.一种基于模型融合的深度学习文本分类系统，应用于如权利要求1-6任一项所述的一种基于模型融合的深度学习文本分类方法，其特征在于，包括：