CN113536804B

CN113536804B - 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法

Info

Publication number: CN113536804B
Application number: CN202110724504.8A
Authority: CN
Inventors: 郭树理; 杨文涛; 韩丽娜; 宋晓伟; 王国威
Original assignee: Hainan College Of Software Technology; Beijing Institute of Technology BIT; Second Medical Center of PLA General Hospital
Current assignee: Hainan College Of Software Technology; Beijing Institute of Technology BIT; Second Medical Center of PLA General Hospital
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-05-03
Anticipated expiration: 2041-06-29
Also published as: CN113536804A

Abstract

本发明涉及一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法，属于自然语言处理生成领域。本发明使用对GRU进行改进的神经网络，通过抽取的关键词增强了模型获取文本的重要信息的能力；采用两个GRU神经单元分别把序列信息和关键词信息作为输入；采用融合单元将序列信息和主题信息进行融合；编码器采用改进的GRU组成的神经网络作为词汇编码器，与语句编码器构成分层编码器，并构建分别作用于两个编码器的注意力机制，以此改善上下文信息不一致的问题。引入Kronecker乘积模块，对文本进行词汇关联的语义特征提取，通过Kronecker模块得到的词汇关联特征增强模型语义控制能力。本发明适用于文档摘要，文本复述、机器人客服、会议或诊断报告生成等自然语言生成的应用。

Description

一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法

技术领域

本发明涉及一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法，属于自然语言处理领域。

背景技术

对于自然语言生成，主要应用在人机对话以及摘要、图片视频描述等，是自动写新闻或标题、机器人客服、会议或诊断报告生成等应用的核心技术。而其中语义的正确性是生成语言的重要问题。

目前自然语言生成多采用编码到解码的序列转换形式，将一序列信息转换成另一对应的序列文本，层级编码的过程分为句子语义编码、篇章信息编码、解码、句子概率计算4个步骤。文本生成步骤中句子语义编码是底层基础的步骤，其目的为得到句子的特征向量。句子语义编码的语义获取能力和保证语义正确性对自然语言生成有着重要作用。现有的句子或篇章的生成的编码部分缺少利用特征提取得到语言特性，忽略了篇章中的词汇的关系特征，导致句子篇章编码缺少对于语义的捕获，上下文信息不一致，因此在生成文本时的解码阶段得到的文本存在语义错误，上下文不流畅情况。同时，在生成大型文本时，上下文的关联遭到破坏，语义分散，偏离主题信息，因此当前迫切需要使语义得到高度概括，保存语义完整性的技术，帮助文本的生成。本发明的思想就是利用主题词、关键词和语言特征增强来改善文本生成。

在文本生成中，语义的正确性和流畅性是评价文本的质量的重要指标。自然语言中最重要的信息是语义信息，语义包含着近义词，同义词，句子的结构主题等信息。语义的正确性决定着自然语言处理效果的好坏。目前随着计算机技术发展以及语言数据库的完善，利用机器学习和神经网络可以生成语义较为准确的自然语言。但是由于训练神经网络的资源贫乏和训练学习机制不够完善，以上生成的自然语言在语义上仍存在错误和语义上的偏差，而且存在十分依赖其他文本信息的缺点，例如知识图谱、词典、资源库等。由于目前文本生成技术存在以上提到的的问题，因此文本生成需要利用主题信息和捕获词汇关联信息加强文本生成的语义表现能力。

发明内容

本发明针对现有技术的上述不足，提出一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法，加强了文本生成的语义表现能力。

为达到以上的目的，本发明采用以下技术方案。

一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法，包括：

①将待生成摘要或对话的文本通过主题生成模型为所述文本生成多个主题词，再将所述文本和主题词中的每个词通过采用字符嵌入和词汇嵌入结合的嵌入方式转化为词嵌入向量，用于自然语言特征提取的神经网络的输入；

②所述神经网络由依次连接的词汇编码器、词汇注意力机制、句子编码器、句子注意力机制和Kronecker乘积模块构成，其中：

所述词汇编码器是以T-GRU作为神经单元，按照BiGRU的双层结构组建成的双层双向的神经网络，将该神经网络作为词汇级别的编码器；所述T-GRU神经元由两个GRU神经元和一个融合单元构成，所述融合单元将所述两个GRU神经元的输出作为输入，对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码；

所述词汇注意力机制用于将组成句子的词汇信息进行加权融合以得到句子的向量表示，即句向量；

所述句子编码器使用递归神经网对所述句向量进行处理以得到每个句子的句编码，所述句编码为融合了历史句向量语义的当前句向量的编码表示；

所述句子注意力机制对组成所述文本的每个句子的句编码进行加权融合得到所述文本的语义向量。

Kronecker乘积模块对所述文本的语义向量进行历史语义存储、语义解释处理，使其当前语义和历史语义进行关联，获取语义关联矩阵。

语义关联矩阵作为所述文本的特征用于生成自然语言文本。

作为优选，所述主题生成模型为LDA模型。

作为优选，所述多个主题词利用K-means聚类进行分类，分类后按照类及所述主题词的信息熵权重对所述多个主题词进行排序。

作为优选，所述词转化为词嵌入向量通过采用字符嵌入和词汇嵌入结合的嵌入方式进行转化。

作为优选，所述融合单元通过下式将所述文本的词的GRU神经元的输出

和所述主题词的GRU神经元的输出

进行融合得到融合后的输出

其中i表示所述文本的第j个句子的词的序号，j表示所述文本的句子的序号，W_k、W₁、W₂为待训练参数，

为T-GRU中两个输入分别为文本序列信息和文本主题信息的GRU神经单元的输出，

为所述文本的第j句第i个词和主题词输入T-GRU后的输出，即所述融合单元的输出，δ、tanh分别为sigmoid激活函数和双曲正切激活函数。

作为优选，所述词汇注意力机制通过下述过程实现：

(1)通过下式计算第j个词汇编码器的对应第i个词的输出h_i,j的权重值α_i,j：

其中，i表示词的序号，j表示所述文本的句子的序号，α_i,j表示输入的文本中第j个句子的第i个词的权重值，L表示第j个词汇编码器的词的个数；e_i,j为注意力分数，η为每个具有tanh作为激活函数的多层感知机，c_j-1为前一个句子的句子编码器的输出，s_i-1为前一个词的解码器的隐藏状态；

(2)将

α_i,j通过下式进行线性组合以得到词汇注意力向量m_j：

作为优选，所述句子编码器将每个词汇注意力向量m_j作为输入计算句子级别编码器的隐藏状态c_j，c_j可以捕获到在解码器的隐藏状态s_i-1中可能会丢失的重要信息，包括了所有直到位置i已处理的过去信息，其c_j计算公式为：

其中，c_j-1为前一位置的句子级别编码器的隐藏状态，W_c、U_c为待训练参数。

作为优选，所述句子注意力机制通过下述过程实现：

(1)通过下式计算第j个句子的权重值：

e'_j＝η(s_i-1,c_j-1)；

其中，Q为所述文本中句子的数量；

(2)通过下式计算所述文本的语义向量，即最终语义词向量o：

作为优选，所述Kronecker乘积模块包括语义存储模块、语义选择模块和语义解释模块；

所述语义存储模块通过下式计算语义信息关系M1：

p＝softmax(W^To+b)；

其中，

表示克罗内克乘积，softmax表示Softmax函数，p为所述o对应的概率，W^T为线性层的参数，b为线性层的偏置参数，Ω_j(i)为所述文本的第j个句子第i个单词的重要性的权重，通过下式计算：

其中，λ、ε分别为衰减系数和限制常数，n′为所述神经网络模型训练时的迭代次数，||·||_F表示Frobenius范数，W_h为GRU的记忆门的待训练的参数，

为每次训练迭代中GRU的记忆门的待训练的参数W_h的平均矩阵；

所述语义选择模块通过下式计算t(s)：

其中，p(s)是所述o对应的内部表示，W_c为GRU中重置门的训练参数权重，H_j为第j个句子中T-GRU的输出

的和

||·||表示1范数，Ω为所述文本的单词的重要性的权重Ω_j(i)之和，即

s表示迭代的次数，设为固定值或者t(s)迭代到无明显变化时停止迭代，t(0)通过下式计算：

其中，similarity(m₁,m₂)表示所述文本的第一、二个词汇注意力向量m₁、m₂的相似性函数；

所述语义解释模块对t(s)通过下式对t(s)进行语义的加强得到M2：

其中，h为所有T-GRU的输出

之和，即

N_T为所述文本的词总数；p_i为单词i的概率，由位于词汇编码器上层的全连接层和分类层得到；

基于所述M2，通过下式计算词汇关联矩阵M_k第k行第l列的元素值：

其中，k＝i*j，p_l是所述文本中第l个单词对应的概率，且l≠i*j，由位于词汇编码器上层的全连接层和分类层得到；

最终得到所述文本的词汇关联矩阵M_k：

其中||·||₂为矩阵2范数。

有益效果：

相比于现有技术，本方法有如下有益效果：

1.对GRU进行改进使其能对抽取的关键词处理，增强了模型获取文本的重要信息的能力；采用两个GRU神经单元分别把序列信息和关键词信息作为输入；采用融合单元将两个GRU得到的隐藏状态进行融合，从而使序列信息和主题信息共同指导解码器中文本的生成；通过主题词的信息提升所生成文本的连贯性和信息丰富性，同时缓解生成文本主题偏离的问题，生成文本更加简洁。

2.对于编码器，除了采用由改进的GRU组成的神经网络作为词汇编码器，还建立了语句编码器从而与词汇编码器构成分层编码器，同时构建了分别作用于两个编码器的注意力机制，以此改善上下文信息不一致的问题。

3.引入Kronecker乘积模块，对文本进行词汇关联的语义特征提取，将Kronecker模块得到的词汇关联矩阵输入到解码器进行解码完成自然语言的生成，以此增强模型语义控制能力，提高了语句信息的完整程度，进而提高了语句的流畅度。

附图说明

图1为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例的总体流程示意图。

图2为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例的抽取系主题词和文本向量化的步骤。

图3为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例中的T-GRU神经单元的结构。

图4为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例中的编码器-解码器的示意图。

图5为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例中的Kronecker获取关联矩阵的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例当中的技术方案进行清楚、完整地描述，需要说明的是，本说明书所附图中示意的公式等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，任何公式的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

下面根据附图和实例对本发明进行详细说明，但本发明的具体实施方式不仅于此。

本发明的原理如下：

一种基于GRU神经网络以及Kronecker乘积的自然语言特征提取方法，如图1所示，包括：

一：将待生成摘要或对话的文本通过主题生成模型为所述文本生成多个主题词，再将所述文本和主题词中的每个词通过采用字符嵌入和词汇嵌入结合的嵌入方式转化为词嵌入向量，用于自然语言特征提取的神经网络的输入；

通过中文分词工具对输入文本进行分词得到词汇集合，对于文本主题的获取，采用预先训练的主题生成模型LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)对输入文本的词汇集合进行主题提取得到文本主题序列，为了向神经网络中注入与生成文本(例如对话回答、文本摘要)相关的主题信息，以此利用主题信息来增强本发明的神经网络模型。在LDA得到文本主题序列之后，求取文本主题序列的各个主题词在原文本中的信息熵，并按信息熵计算信息熵权重，再将信息熵权重与主题词相乘，并利用K-means聚类进行分类，按照分类的信息熵权重进行重新排序。信息熵权重计算为式(1)，K-means聚类分析为式(2)。

A＝Kmeans((ω_ix_i),N) (2)

p_i为主题词x_i在文本中的出现频率，n表示所述主题序列中的主题词的个数，N表示Kmeans分类个数，Kmeans为聚类分析分类方法，A为Kmeans的分类结果，按分类结果将A中的主题词重新排序，得到经排序的主题词序列A。

对输入文本中的词和主题词进行向量化。所述向量化可采用目前存在的嵌入技术，例如skip-gram、CBOW等词嵌入技术，将词转化为向量。本发明中，所述词嵌入技术采取字符嵌入、词汇嵌入相结合的方式。用c_i代表词中的字，seg(c)表示词，词包括多个字符，例如seg(c)＝“北京”，则c₁＝“北”，c₂＝“京”。将字嵌入和词汇嵌入结合作为词汇的最终嵌入向量表达，如式(3)所示，该表达作为本发明神经网络的输入。

x_seg(c)＝[e^c(c_i)；e^b(seg(c))] (3)

c_i代表字符，seg(c)表示由多个字符组成的词汇，e^c(c_i)、e^b(seg(c))表示通过词嵌入技术得到字符、词汇的嵌入向量，[e^c(c_i)；e^b(seg(c))]表示对e^c(c_i)、e^b(seg(c))进行向量拼接。

上述过程如图2所示。

二：以T-GRU作为神经单元，按照BiGRU的双层结构组建成的双层双向的神经网络，将该神经网络作为词汇级别的编码器；所述T-GRU神经元由两个GRU神经元和一个融合单元构成，所述融合单元将所述两个GRU神经元的输出作为输入，对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码：

经过第一部分得到嵌入表达之后，搭建T-GRU的神经单元，T-GRU与传统的GRU的不同之处在于利用一个融合单元将两个GRU单元组合在一起构成新的神经单元，两个GRU神经单元分别将文本序列和主题序列A作为输入，再通过融合单元将两个GRU隐藏层输出结合构成新的神经单元。

融合单元是将两个GRU神经单元的输出进行融合，即输入文本的词的GRU输出

和输入主题词的GRU的输出

通过式(4)得到融合后的输出

当然，本领域技术人员知道，上述融合单元计算公式仅是优选实施方式，还可以采用其它融合方式，如拼接、加权和等。通过公式(4)融合可以根据主题信息和文本信息动态调整主题信息和文本的信息进行融合，其中，主题词序列A中的词与所述文本中的词一一对应输入所述T-GRU，当A的长度低于所述文本序列的长度时，循环复制A序列内容使其长度与所述文本长度一致。

至此T-GRU神经单元搭建完成，T-GRU结构如图3，将其按照BiGRU的双层结构将T-GRU神经单元组建成双层神经网络，并将其作为词汇编码器。

最后，在词汇编码器的上层建立全连接层和分类层用以获取单词i对应的概率。

三：建立注意力机制，对词汇和句子级别建立注意力机制，包括用于词汇编码器的词汇注意力机制和用于句子级别编码器的句子注意力机制。各层注意力机制和编码器示意图如图4。

首先建立词汇注意力机制，计算第j个词汇编码器的对应第i个词的输出h_i,j的权重值α_i,j,其关系式如式(5)(6)。

i表示词的序号，j表示所述文本的句子的序号，α_i,j表示输入的文本中第j个句子的第i个词的权重值。e_i,j为注意力分数，由式(6)得到，η为每个具有tanh作为激活函数的多层感知机。e_i,j是根据解码器的隐藏状态和句子级别编码器的输出由式(6)得到，相对于传统注意力的区别在于考虑了句子级别编码器的隐藏状态c_j-1。式(6)中c_j-1为前一个句子的句子编码器的输出，

为由式(4)得到，s_i-1为前一个词的解码器的隐藏状态。L表示第j个词汇编码器的词的个数。

再将

α_i,j进行线性组合以得到词汇注意力向量m_j。

句子级别编码器将每个词汇注意力向量m_j作为输入计算句子级别编码器的隐藏状态c_j，c_j可以捕获到在解码器的隐藏状态s_i-1中可能会丢失的重要信息，包括了所有直到位置i已处理的过去信息，其c_j计算公式为式(8)

c_j-1为前一位置的句子级别编码器的隐藏状态，W_c、U_c为待训练参数。

句子注意力机制是作用在句子级别编码器，从而使生成对话在局部保持一致性，句子注意力机制的权重计算关系式为式(9)，注意力分数函数为式(10)：

e'_j＝η(s_i-1,c_j-1) (10)

Q为所述文本中句子的数量。

上下文级别编码器的顶部，即句子级别编码器之后添加了句子级别注意机制以关注对话历史中的重要讲话，或截至当前句子的所述文本的重要内容。将经历上述计算后得到的注意力权重β_j与编码后得到的语义向量c_j相乘得到最终语义词向量o，加权公式为(11)：

Q表示所述文本句子的个数。

四：Kronecker乘积模块对所述文本的语义词向量进行历史语义存储、语义解释处理，使其当前语义和历史语义进行关联，获取语义关联矩阵。

语义关联矩阵作为所述文本的特征用于生成自然语言文本。

所述Kronecker乘积模块包括语义存储模块、语义选择模块和语义解释模块。对语义选择单元的输出t(0)进行初始化：由于在步骤6中，生成矩阵向量乘积的输出需要通过前一个线性组合输出t(s-1)，t(s)的迭代需要从t(0)开始，但t(0)不存在，因此需要初始化t(0)，以此避免当开始将第一个词向量输入时，线性输出是不存在的，因此需要对线性输出初始化进行选取，从而使步骤6不断进行运算对词向量进行处理并快速收敛。

为了后续利用式(14)对t(0)的初始化，需定义两个函数：

首先定义所述文本的第一、二个词汇注意力向量m₁、m₂的相似性函数similarity(m₁,m₂)，计算公式为

其中||·||_∞表示向量的无穷范数，·表示向量数量积；

其次定义衡量所述文本的第j个句子第i个单词的重要性的权重函数Ω_j(i)，其计算公式为

λ、ε分别为衰减系数和限制常数，自行拟定，建议取0.001和0.5，n′是模型训练时的迭代次数，||·||_F表示Frobenius范数，W_h为GRU的记忆门的待训练的参数，

为每次训练迭代中GRU的记忆门的待训练的参数W_h的平均矩阵。

在得到词汇注意力向量的余弦相似性函数和衡量单词i的重要性的权重函数Ω_j(i)后，利用计算得到词汇注意力向量的余弦相似性和衡量单词i的重要性的权重Ω_j(i)根据初始化计算公式(14)得到t(0)，利用词汇注意力向量的权重使t(0)更靠近t(s)的最终值，加快t(s)的迭代。

L为所述文本的词汇个数，至此得到t(s)的初始化t(0)。

在通过上一个步骤得到t(0)作为t(s)初始化后，就可以依次进行Kronecker乘积模块的语义存储模块、语义选择模块、语义解释模块的工作。

基于所述语义存储模块利用最终语义词向量和衡量单词i的重要性的权重，通过语义存储模块计算语义信息关系M1。语义存储模块计算公式为(16)：

p＝softmax(W^To+b)(15)

式(17)中

为克罗内克乘积；softmax表示Softmax函数，对向量中的所有元素进行Softmax函数计算。W^To+b本质上为一个线性层神经网络，W^T为线性层的参数，b为线性层的偏置参数，最终线性层的输出为与o相同尺寸的向量，而softmax(W^To+b)就表示全连接层和分类层，后续的全连接层和分类层也不再赘述，也为此意。M1是语义存储模块的输出，p为最终语义词向量对应的概率。

基于所述语义存储模块的输出，通过矩阵向量乘积来得到语义选择模块的输出t(s)。语义选择模块基于整体语义信息的语义存储模块的输出M1进行整合，引入语义的内部表示信息；p(s)是生成t(s)时语义词向量o对应的内部表示，表示语义的内部表示信息。p(s)、t(s)计算公式为(17)(18)。

H_j为第j个句子中T-GRU的输出

的和

W_c为GRU中重置门的训练参数权重，||·||表示1范数，M₁为语义存储模块的输出，t(s-1)为前一次迭代得到语义选择单元输出，p(s)是生成t(s)时语义词向量o对应的内部表示；Ω为所述文本的单词的重要性的权重Ω_j(i)之和，即

s表示迭代的次数，设为固定值或者t(s)迭代到无明显变化时停止迭代。

基于语义选择模块迭代后的输出t(s)进行语义的加强得到语义解释模块的输出M2，计算公式为式(19)。

t(s)为语义选择模块的输出，p_i为单词i的概率，由位于词汇编码器上层的全连接层和分类层得到；h为所有T-GRU的输出

之和，即

c_j为第j个句子级别编码器的隐藏状态，N_T为所述文本的词总数。

基于语义解释模块输出M2，通过下式计算词汇关联矩阵M_k第k行第l列的元素值：

最终得到所述文本的词汇关联矩阵M_k形如公式(21)，其中||·||₂为矩阵2范数。

经过上述过程后，得到所述文本的词汇关联矩阵。

实施例1

本实施例阐述了将本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”应用于自然语言生成处理场景下的流程。

图1为本方法的流程图及本实施例的流程图，从图中可以看出，本方法包含如下步骤：

对于选择数据集，本发明实例从https://github.com/Toyhom/Chinese-medical-dialogue-data下载Chinese medical dialogue data中文医疗对话数据集。并对数据进行分割，将数据中的80％作为训练数据，20％作为测试数据用以评估模型性能。

步骤1：通过skip-gram、CBOW等词嵌入技术将词语和主题词转化为向量输入到T-GRU神经网络中，对神经网络进行训练，在词嵌入方面采取字符嵌入、词汇嵌入相结合的方式。图2为抽取主题词和文本向量化的流程图。

由于词嵌入是由字嵌入和词汇嵌入组合使用，因此在将词转化为向量时需要进行中文分词，需使用分词工具，本实施例选择使用支持医学的PKUSEG、PKUSEG分词工具进行分词，再利用CBOW词嵌入技术进行向量化，本领域技术人员可以根据应用场景需要选择其他分词和词嵌入工具。

词嵌入技术采取字符嵌入、词汇嵌入相结合的方式。用c_i代表词中的字，seg(c)表示词，词包括多个字符，例如seg(c)＝“北京”，则c₁＝“北”，c₂＝“京”。将字嵌入和词汇嵌入结合作为词汇的最终嵌入向量表达，如式(3)所示，该表达作为本发明神经网络的输入。

x_seg(c)＝[e^c(c_i)；e^b(seg(c))] (3)

c_i代表字符，c表示词汇，seg(c)表示由多个字符组成的词汇，e^c(c_i)、e^b(seg(c))表示通过词嵌入技术得到字符、词汇的嵌入向量，[e^c(c_i)；e^b(seg(c))]表示对e^c(c_i)、e^b(seg(c))进行向量拼接。

对于seg(c)＝“北京”，则x_seg(c)为将“北”和“京”的字嵌入以及“北京”的词汇嵌入拼接后的向量。字符嵌入、词汇嵌入相结合的嵌入方式可以尽可能保留字符信息和词汇信息，更适合中文信息的特点。

得到的词汇表和词嵌入表后，设置固定句长250，词嵌入长度为300，固定句长表示一个句子的固定输入神经网络的长度，句子长度不足时，使用特殊词汇PAD补足至最大词汇数量，句子长度过大，对句子的词汇列表进行截取。

对于文本主题的获取，采用LDA对文本进行主题提取得到文本主题序列，为了向模型中注入与生成文本(例如对话回答、文本摘要)相关的主题信息，以此利用主题信息来增强模型，即使用预先训练的LDA模型将对话指定多个主题。

在LDA得到文本主题序列之后，求取文本主题序列的各个主题词在原文本中的信息熵，并按信息熵计算信息熵权重，再将信息熵权重与主题词相乘，并利用K-means聚类进行分类，按照分类重新排序。以此识别文本中新出现的名词，例如“核酸检测、居家隔离”等词汇。

本例从丁香医生抓取了10万个帖子，以训练LDA模型。将主题数T设置为100，并将LDA的超参数设置为α＝1/T，β＝0.01，γ＝0.01。对于K-means聚类，本实例将拟分类的数目设置为3(即分为3类)，在按照类别进行排序。例如LDA得到的关键词序列为“‘发烧’、‘口罩’、‘吸氧’、‘呼吸’、‘CT’、‘炎症’、‘核酸检测’、‘隔离’、‘插管’”，由K-means分为三类：“‘核酸检测’、‘隔离’、‘口罩’”；“‘发烧’、‘吸氧’、‘炎症’”；“‘呼吸’、‘CT’、‘插管’”三类。对于排列，首先按类进行排序，将一类的信息熵权重之和按由大到小进行排序，再对每一类的词按照每个词的信息熵权重进行排列，如下表。

由于对话是一个简短的文本的回合，为了获取更多的主题词，可以将多回合对话作为一个整体，再对该整体文本进行主题提取多个关键词。对于每个主题，选择排名在前25的词作为主题词。同时使用5万个帖子，统计词汇在5万个帖子中的出现次数从而计算词频，并从主题词中删除了频率最高的200个词从而除掉通用词。

步骤2：搭建BiGRU神经网络，将有两个GRU数据单元和融合单元构成的T-GRU数据单元组建成双层双向的神经网络作为词汇级别的编码器。

以T-GRU作为神经单元，按照BiGRU的双层结构组建成的双层双向的神经网络，将该神经网络作为词汇级别的编码器；所述T-GRU神经元由两个GRU神经元和一个融合单元构成，所述融合单元将所述两个GRU神经元的输出作为输入，对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码：

经过步骤1得到嵌入表达之后，搭建T-GRU的神经单元，T-GRU与传统的GRU的不同之处在于利用一个融合单元将两个GRU单元组合在一起构成新的神经单元，两个GRU神经单元分别将文本序列和主题序列作为输入，再通过融合单元将两个GRU隐藏层输出结合构成新的神经单元。

和输入主题词的GRU的输出

通过式(4)得到融合后的输出

在把文本和主题词输入到神经网络模型时，若句子或主题词序列长度不一致时，可添加空格(例如pad)或是重复某个主题词使其长度一制。

至此T-GRU神经单元搭建完成，所述T-GRU结构如图3，将其按照BiGRU的双层结构将T-GRU神经单元组建成双层神经网络，并将其作为词汇编码器。

在利用python实现以上神经网络模型时，利用torch的工具包并采用面向对象的编程方法；首先建立GRU的对象，命名为GRU_Cell，并在GRU_Cell对象中建立forword子函数从而实现公式(2)。再建立Fusion_Cell，同样利用建立forword函数实现式(3)。最后建立T-GRU对象，在该对象中的forword中调用GRU_Cell和Fusion_Cell从而建立其神经网络模型。

至此T-GRU神经单元搭建完成，如图3，将其按照BiGRU的双层结构将T-GRU神经单元组建成双层神经网络，并将其作为词汇编码器。

步骤3：建立注意力机制，为了将主题信息和先前的文本信息纳入文本生成信息中，对词汇和句子级别分别建立编码器和注意力机制，包括用于词汇编码器的词汇注意力机制和用于句子级别编码器的句子注意力机制。图4为此部分中的编码器-解码器及其各层注意力的结构图。

首先建立词汇注意力机制，计算第j个词汇编码器的对应第i个词的输出h_i,j的权重值α_i,j,其关系式如式(5)(6)。相对于传统注意力的区别在于考虑了句子级别编码器的隐藏状态。

再将

α_i,j进行线性组合以得到词汇注意力向量m_j。

句子级别编码器将每个词汇注意力向量m_j作为输入计算句子级别编码器的隐藏状态c_j，c_j可以捕获到在解码器的隐藏状态s_i-1中可能会丢失的重要信息，包括了所有直到位置i已处理的过去信息，其c_j计算公式为式(8)。句子级别编码器可以使用现有的神经网络，如RNN、LSTM、GRU等。

句子注意力机制是作用在句子级别编码器，从而使生成对话在局部保持一致性，句子注意力机制的权重计算关系式为式(9)，注意力分数函数为式(10)。

上下文级别编码器的顶部，即句子级别编码器之后添加了句子级别注意机制以关注对话历史中的重要讲话，或截至当前句子的所述文本的重要内容。将经历上述计算后得到的注意力权重β_j与编码后得到的语义向量c_j相乘得到最终语义词向量o，加权公式为(11)。

网络结构中的注意力机制负责自动学习注意力权重，可以自动捕获编码器隐藏状态和解码器隐藏状态之间的相关性。然后，得到的注意力权重用于构建内容向量，该向量作为输入传递给解码器。在每个解码位置内容向量是编码器所有隐藏状态及其相应注意权重的加权和。

在构建词汇编码器时，采取面向对象的编程方法。将编码器作为一个对象，命名为Word_Encoder，Word_Encoder对象中建立attention_net，并在forward调用T-GRU和attention_net实现神经网络和注意力机制的结合。

词汇编码器具有500个隐藏单元，句子编码器为257个隐藏单元，单词嵌入维数是128。其中利用线性层对维数进行控制，后续的张量的乘法和加法，可利用线性层和python中的reshape进行维度的控制，使其能够进行乘法和加法。

Kronecker乘积模块对所述文本的语义词向量进行历史语义存储、语义解释处理，使其当前语义和历史语义进行关联，获取语义关联矩阵。图5为Kronecker乘积模块的流程图。

所述Kronecker乘积模块包括语义存储模块、语义选择模块和语义解释模块。对语义选择单元的输出t(0)进行初始化：由于在步骤6中，生成矩阵向量乘积的输出需要通过前一个线性组合输出t(s-1)，t(s)的迭代需要从t(0)开始，但t(0)不存在，因此需要初始化t(0)，以此避免当开始将第一个词向量输入时，线性输出是不存在的，因此需要对线性输出初始化进行选取，从而使步骤6不断进行运算对词向量进行处理并快速收敛。对于后续的矩阵乘法，可利用补零或python语言中reshape命令使其符合矩阵乘法要求。

为了后续利用式(14)对t(0)的初始化，需定义两个函数：

首先定义所述文本的第一、二个词汇注意力向量m₁、m₂的相似性函数similarity(m₁,m₂)，计算公式为(12)。

其次定义衡量所述文本的第j个句子第i个单词的重要性的权重函数Ω_j(i)，其计算公式为(13)。

在得到词汇注意力向量的余弦相似性函数和衡量单词i的重要性的权重函数Ω_j(i)后，利用计算得到词汇注意力向量的余弦相似性和衡量单词i的重要性的权重Ω_j(i)根据初始化计算公式(14)得到t(0)。至此得到t(s)的初始化t(0)。

基于所述语义存储模块利用最终语义词向量和衡量单词i的重要性的权重，通过语义存储模块计算语义信息关系M1。其中最终语义词向量对应的概率p的计算式为式(15)，为语义存储引入文本语义的概率信息。语义存储模块计算公式为(16)。

基于所述语义存储模块的输出，通过矩阵向量乘积来得到语义选择模块的输出t(s)。语义选择模块基于整体语义信息的语义存储模块的输出M1进行整合，引入语义的内部表示信息，同时利用前一次迭代中语义选择单元输出t(s-1)，使其包含上下文语义信息；p(s)是生成t(s)时语义词向量o对应的内部表示，表示语义的内部表示信息。p(s)、t(s)计算公式为(17)(18)。迭代的次数s设置为1000，也可以设置t(s)迭代到无明显变化时停止迭代，即设置一个较小值ε，当t(s+1)-t(s)＜ε时停止迭代。

基于语义解释模块输出M2，通过式(20)计算词汇关联矩阵M_k第i行第l列的元素值。最终得到所述文本的词汇关联矩阵M_k形如公式(21)

经过上述过程后，得到所述文本的词汇关联矩阵。

基本本发明获得的词汇关联矩阵，本领域技术人员根据如图4所示结构，选择解码器搭建即可获得生成文本，该文本具有较高的语句信息完整度和语句流畅度，并且生成的文本不脱离主题、简洁，连贯性好、信息含量丰富。

综上，针对现有技术中存在的语义控制能力差、长距离依存、上下文信息不一致等问题，本发明使用的神经网络对GRU进行改进使其能对抽取的关键词处理，增强了模型获取文本的重要信息的能力；采用两个GRU神经单元分别把输入的文本序列信息和关键词信息作为输入；采用融合单元将两个GRU得到的隐藏状态进行融合，从而使序列信息和主题信息共同指导解码器中文本的生成；对于编码器，除了采用由改进的GRU组成的神经网络作为词汇编码器，还建立了语句编码器从而与词汇编码器构成分层编码器，同时构建了分别作用于两个编码器的注意力机制，以此改善上下文信息不一致的问题。引入Kronecker乘积模块，对文本进行词汇关联的语义特征提取，将Kronecker模块得到的词汇关联特征输入到解码器进行解码，以此完成自然语言的生成，以此增强模型语义控制能力。本发明适用于文档摘要，文本复述、机器人客服、会议或诊断报告生成等自然语言生成的应用。

以上步骤不存在严格的顺序执行关系，本领域技术人员在不脱离本发明思想的前提下，可以采用其它的顺序实施本发明方法，只要满足一个步骤执行时，其所需要的条件已经准备好即可。

Claims

1.一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法，其特征在于，包括：

①将待生成摘要或对话的文本通过主题生成模型为所述文本生成多个主题词，再将所述文本和主题词中的每个词转化为词嵌入向量，用于自然语言特征提取的神经网络的输入；

所述词汇编码器是以T-GRU作为神经单元，按照BiGRU的双层结构组建成的双层双向的神经网络；所述T-GRU神经元由两个GRU神经元和一个融合单元构成，两个GRU神经元分别将所述文本的词和所述主题词作为输入，所述融合单元将所述两个GRU神经元的输出作为输入，对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码；所述融合单元通过下式将所述文本的词的GRU神经元的输出