CN112699222A

CN112699222A - 基于量子启发式神经网络的文本分类方法及邮件分类方法

Info

Publication number: CN112699222A
Application number: CN202110019433.1A
Authority: CN
Inventors: 石金晶; 黎振焕; 赖蔚; 王雯萱; 唐涌泽; 黄端; 施荣华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-23
Anticipated expiration: 2041-01-07
Also published as: CN112699222B

Abstract

本发明公开了一种基于量子启发式神经网络的文本分类方法，包括训练数据；构建初级文本分类模型；采用训练数据对初级文本分类模型进行训练得到文本分类最终模型；采用文本分类最终模型对实际文本进行分类。本发明还公开了一种包括所述基于量子启发式神经网络的文本分类方法的邮件分类方法。本发明采用量子力学中的密度矩阵表示句子级别的文本，使用投影测量确定文本极性；采用GRU提取文本语义特征，丰富词向量的语义信息，提升模型在文本分类任务中的效果；在GRU层，添加自注意力层，使模型能够关注到句子中的重要单词，降低影响分类结果的单词的权重，进一步提升模型的分类效果；因此本发明方法可靠性高、实用性好且精确度较高。

Description

基于量子启发式神经网络的文本分类方法及邮件分类方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于量子启发式神经网络的文本分类方法及邮件分类方法。

背景技术

随着经济技术的发展和人们生活水平的提高，自然语言处理技术已经广泛应用于人们的生产和生活当中，给人们的生产和生活带来了无尽的便利。

在自然语言处理(以下简称NLP)领域当中，采用深度学习的方法来完成包括文本分类在内的任务时，首先要考虑的是如何将文本中的单词转换为计算机可以识别的形式。经过深度学习技术的长久发展，distributed representation形式的词向量(用来表示单词的向量，简称词向量)被提出用来代替文本单词，并作为输入投到神经网络当中，使网络通过反向传播算法得以训练进而完成各种NLP下游任务，包括文本分类、问题答案匹配以及机器翻译等等。文本分类是NLP的一个基本任务，根据分类标签的数量又进一步分为文本二分类以及文本多分类。

但是，现有常用的文本分类方法，往往存在着文本分类精确度较差，分类效果较差的问题，从而严重影响了文本分类方法的使用和推广。

发明内容

本发明的目的之一在于提供一种可靠性高、实用性好且精确度较高的基于量子启发式神经网络的文本分类方法。

本发明的目的之二在于提供一种包括了所述基于量子启发式神经网络的文本分类方法的邮件分类方法。

本发明提供的这种基于量子启发式神经网络的文本分类方法，包括如下步骤：

S1.获取基础的训练文本，并对训练文本的分类结果进行标记，从而得到文本分类训练数据；

S2.基于量子启发式复数词向量和深度学习算法，构建初级文本分类模型；

S3.采用步骤S1得到的文本分类训练数据，对步骤S2构建的初级文本分类模型进行训练，从而得到文本分类最终模型；

S4.采用步骤S3得到的文本分类最终模型对实际文本进行分类。

步骤S2所述的基于量子启发式复数词向量和深度学习算法，构建初级文本分类模型，具体为采用如下步骤构建初级文本分类模型：

A.采用分词技术，将获取的训练文本进行分词；

B.将步骤A得到的每一个单词输入到幅度词向量层，得到幅度词向量；

C.将步骤A得到的每一个单词输入到相位词向量层，得到相位词向量；

D.将步骤B得到的幅度词向量输入到GRU层进行语义特征提取，从而得到新词向量；

E.将步骤D得到的新词向量通过自注意力机制层进行计算；

F.根据步骤C得到的相位词向量和步骤E得到的计算结果，构建密度矩阵；

G.对步骤F构建的密度矩阵进行投影测量，从而得到文本分类的概率；

H.根据步骤G得到的文本分类的概率，对文本进行分类。

步骤B所述的幅度词向量层，具体为采用Glove预训练词向量，并作为幅度词向量层。

步骤D所述的GRU层，具体为采用如下公式进行GRU层内部的计算：

h′_t-1＝h_t-1⊙r

h_t＝(1-z)⊙h_t-1+z⊙h′

式中r为重置向量的门控；σ为sigmoid函数，且为激活函数；W_r为GRU中的第一权重矩阵；x_t和h_t-1为GRU的输入词向量，且x_t包含当前单词t的信息，h_t-1包含单词t之前的文本信息；z为更新向量的门控；W_z为GRU中的第二权重矩阵；h′_t-1为h_t-1经过重置门r后的重置向量；⊙为哈达玛积；h′为x_t和h′_t-1拼接后且经过激活函数的向量；tanh为激活函数；W为GRU中的第三权重矩阵；h_t为由h_t-1和x_t共同生成单词t的新词向量。

步骤E所述的自注意力机制层，具体为采用如下算式进行自注意力机制层内的计算：

式中Attention(Q,K,V)为经过激活函数softmax后的结果矩阵；Q为查询矩阵；K为键矩阵；V为值矩阵；d_k为词向量的维度。

步骤F所述的构建密度矩阵，具体为采用如下算式计算密度矩阵D：

式中p_i为单词的权重；|φ_i>代表右矢和列向量，具体为

<φ_i|代表左矢和行向量，具体为|φ_i>的转置向量，m为句子的长度。

步骤G所述的对步骤F构建的密度矩阵进行投影测量，从而得到文本分类的概率，具体为采用如下算式计算文本分类的概率P：

P＝tr(DM)

式中D为步骤F得到的密度矩阵；M为投影矩阵，且M由一个正交向量基e1,e2,...,ei,...,en中的某个向量ei外积得到；tr为求迹运算。

步骤S3所述的训练，具体为训练时，优化器采用Adam进行参数更新；损失函数采用二元交叉熵损失函数。

本发明还提供了一种包括了所述基于量子启发式神经网络的文本分类方法的邮件分类方法，具体包括如下步骤：

(1)将邮件内容作为目标文本，将目标文本的分类结果定义为垃圾邮件和非垃圾邮件；

(2)采用上述的基于量子启发式神经网络的文本分类方法对目标文本进行分类；

(3)根据步骤(2)得到的分类结果，将邮件分类为垃圾邮件或非垃圾邮件。

本发明提供的这种基于量子启发式神经网络的文本分类方法及邮件分类方法，首先，采用量子力学中的密度矩阵表示句子级别的文本，使用投影测量确定文本极性；其次，在将单词映射成词向量后，采用GRU提取文本语义特征，丰富词向量的语义信息，提升量子力学理论生成的模型在文本分类任务中的效果；最后，在GRU层，添加自注意力层，使模型能够关注到句子中的重要单词，提升这些单词在句子中的权重，降低影响分类结果的单词的权重，进一步提升模型的分类效果；因此本发明方法的可靠性高、实用性好且精确度较高。

附图说明

图1为本发明的文本分类方法的方法流程示意图。

图2为本发明的文本分类方法中文本分类模型的结构示意图。

图3为本发明的文本分类方法中由单词映射得到词向量的示例示意图。

图4为本发明的邮件分类方法的方法流程示意图。

具体实施方式

如图1所示为本发明的文本分类方法的方法流程示意图：本发明提供的这种基于量子启发式神经网络的文本分类方法，包括如下步骤：

具体实施时，获取训练文本，对文本进行分类(比如分类为积极和消极，分类为暴力和非暴力等)，并对分类结果进行标记；

S2.基于量子启发式复数词向量和深度学习算法，构建初级文本分类模型；具体为采用如下步骤构建初级文本分类模型，具体构建的模型如图2所示，图中句子的每一行都是一个One-hot编码的向量(向量的某一位为1，其余为0)，代表一个单词，每个One-hot编码的词向量通过词向量层映射成Distributed representation形式的词向量：

A.采用分词技术，将获取的训练文本进行分词；

比如，对于句子“The movie is so good”这个句子，可以按照语句中的空格，将语句分成“The”,“movie”,“is”,“so”,“good”等5个单词；

具体实施时，可以采用Glove预训练词向量，并作为幅度词向量层；

步骤B和步骤C的意义为：

将单词分词后，得到“The”,“movie”,“is”,“so”,“good”等5个单词；

每个单词都会有对应的下标或者One-hot编码的向量(这种向量只有1位是1，其余位置都是0)，表示单词的下标或者one-hot向量又会经过一个二维数组或者矩阵；其中，矩阵的每一行都是一个向量；通过这个矩阵，单词会被映射成一个个向量。整个过程如图3所示；

而在一般的NLP任务当中，每个单词只经过一个Embedding layer(也就是上面说的矩阵)即可；但是在量子力学中，为了真实模拟量子微粒的量子态，根据公式

|φ>代表微粒量子态，是量子态的另外一种表示形式，同时也是一个复数词向量；还有一种量子态表示形式为|φ>＝α|0>+β|1>；每个单词需要经过两个Embedding layer来分别生成微粒的幅度r_j以及相位

((微粒和单词可以认为是一一对应的)；同时，根据欧拉公式

从而得到

总而言之，为了模拟量子态

模型需要使用复数词向量；

D.将步骤B得到的幅度词向量输入到GRU层进行语义特征提取，从而得到新词向量，用于构建密度矩阵；具体为采用如下公式进行GRU层内部的计算：

h′_t-1＝h_t-1⊙r

h_t＝(1-z)⊙h_t-1+z⊙h′

式中r为重置向量的门控；σ为sigmoid函数，且为激活函数；W_r为GRU中的第一权重矩阵；x_t和h_t-1为GRU的输入词向量，且x_t包含当前单词t的信息，h_t-1包含单词t之前的文本信息；z为更新向量的门控；W_z为GRU中的第二权重矩阵；h′_t-1为h_t-1经过重置门r后的重置向量；⊙为哈达玛积；h′为x_t和h′_t-1拼接后且经过激活函数的向量；tanh为激活函数；W为GRU中的第三权重矩阵；h_t为由h_t-1和x_t共同生成单词t的新词向量；

通过将GRU层应用到产生幅度向量的Embedding layer之后，以提取更多的语义特征；

E.将步骤D得到的新词向量通过自注意力机制层进行计算；具体为采用如下算式进行自注意力机制层内的计算：

式中Attention(Q,K,V)为经过激活函数softmax后的结果矩阵；Q为查询矩阵；K为键矩阵；V为值矩阵；d_k为词向量的维度；

以一个句子为例，经过Attention层时，表示一个句子的矩阵先被映射成3个矩阵Q,K,V；Q，K，V分别代表句子的query矩阵，key矩阵以及value矩阵，每个单词也就被映射成3个词向量了；接着表示某个句子的三个矩阵Q,K,V经过上式的运算后会得到一个新的矩阵，用这个新矩阵来表示句子输入Attention层后得到的输出；

F.根据步骤C得到的相位词向量和步骤E得到的计算结果，构建密度矩阵；具体为采用如下算式计算密度矩阵D：

式中p_i为单词的权重；|φ_i>代表右矢和列向量，具体为

<φ_i|代表左矢和行向量，具体为|φ_i>的转置向量，m为句子的长度；

G.对步骤F构建的密度矩阵进行投影测量，从而得到文本分类的概率；具体为采用如下算式计算文本分类的概率P：

P＝tr(DM)

式中D为步骤F得到的密度矩阵；M为投影矩阵，且M由一个正交向量基e1,e2,...,ei,...,en中的某个向量ei外积得到；tr为求迹运算；

根据量子力学理论，一个处于叠加态的量子微粒或者混合态的物理系统在被观察或者测量后会发生塌缩，进而得到确定的状态；同时，根据Gleason理论可以得到，对密度矩阵进行投影测量可以得到一个概率，模型可以根据此概率来推断文本的极性；

H.根据步骤G得到的文本分类的概率，对文本进行分类；

具体实施时，可以根据步骤G得到的概率，进行文本分类，比如若分类结果为积极和消极，则可认定：若概率在0.5～1之间，则认定为积极；概率为0～0.5之间，则认定为消极；

训练时，优化器采用Adam进行参数更新；损失函数采用二元交叉熵损失函数；

如图4所示为本发明的邮件分类方法的方法流程示意图：本发明提供的这种包括了所述基于量子启发式神经网络的文本分类方法的邮件分类方法，具体包括如下步骤：

(2)采用上述的基于量子启发式复数词向量和深度学习的文本分类方法对目标文本进行分类；

Claims

1.一种基于量子启发式神经网络的文本分类方法，包括如下步骤：

2.根据权利要求1所述的基于量子启发式神经网络的文本分类方法，其特征在于步骤S2所述的基于量子启发式复数词向量和深度学习算法，构建初级文本分类模型，具体为采用如下步骤构建初级文本分类模型：

A.采用分词技术，将获取的训练文本进行分词；

E.将步骤D得到的新词向量通过自注意力机制层进行计算；

H.根据步骤G得到的文本分类的概率，对文本进行分类。

3.根据权利要求2所述的基于量子启发式神经网络的文本分类方法，其特征在于步骤B所述的幅度词向量层，具体为采用Glove预训练词向量，并作为幅度词向量层。

4.根据权利要求3所述的基于量子启发式神经网络的文本分类方法，其特征在于步骤D所述的GRU层，具体为采用如下公式进行GRU层内部的计算：

h′_t-1＝h_t-1⊙r

h_t＝(1-z)⊙h_t-1+z⊙h'

式中r为重置向量的门控；σ为sigmoid函数，且为激活函数；W_r为GRU中的第一权重矩阵；x_t和h_t-1为GRU的输入词向量，且x_t包含当前单词t的信息，h_t-1包含单词t之前的文本信息；z为更新向量的门控；W_z为GRU中的第二权重矩阵；h′_t-1为h_t-1经过重置门r后的重置向量；⊙为哈达玛积；h'为x_t和h′_t-1拼接后且经过激活函数的向量；tanh为激活函数；W为GRU中的第三权重矩阵；h_t为由h_t-1和x_t共同生成单词t的新词向量。

5.根据权利要求4所述的基于量子启发式神经网络的文本分类方法，其特征在于步骤E所述的自注意力机制层，具体为采用如下算式进行自注意力机制层内的计算：

6.根据权利要求5所述的基于量子启发式神经网络的文本分类方法，其特征在于步骤F所述的构建密度矩阵，具体为采用如下算式计算密度矩阵D：

式中p_i为单词的权重；|φ_i>代表右矢和列向量，具体为

7.根据权利要求6所述的基于量子启发式神经网络的文本分类方法，其特征在于步骤G所述的对步骤F构建的密度矩阵进行投影测量，从而得到文本分类的概率，具体为采用如下算式计算文本分类的概率P：

P＝tr(DM)

8.根据权利要求7所述的基于量子启发式神经网络的文本分类方法，其特征在于步骤S3所述的训练，具体为训练时，优化器采用Adam进行参数更新；损失函数采用二元交叉熵损失函数。

9.一种包括了权利要求1～8之一所述的基于量子启发式神经网络的文本分类方法的邮件分类方法，具体包括如下步骤：

(2)采用权利要求1～8之一所述的基于量子启发式神经网络的文本分类方法，对目标文本进行分类；