CN113051909B

CN113051909B - 一种基于深度学习的文本语义提取方法

Info

Publication number: CN113051909B
Application number: CN202110295550.0A
Authority: CN
Inventors: 钱丽萍; 钱江; 沈铖潇; 王寅生
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2024-05-10
Anticipated expiration: 2041-03-19
Also published as: CN113051909A

Abstract

一种基于深度学习的文本语义提取方法，对于一个较长文本输入，经过系统模型，能够最大程度上还原文本语义。本发明结合了循环神经网络(RNN)以及自我注意力机制(Self‑Attention)优势，极大程度上改善了文本语义提取效果，节省了深度学习模型计算资源总成本，有效地降低了文本语义提取时间，使读者获得更优质的阅读体验。

Description

一种基于深度学习的文本语义提取方法

技术领域

本发明属于人工智能领域，一种基于深度学习的文本语义提取方法。

背景技术

随着近年来移动通信的蓬勃发展，碎片化时代不可避免地到来，生活节奏的加快使得越来越多的人在阅读长篇文章时往往没有时间阅读完整。这就需要文本语义提取工具将长篇文本提取出其中的语义，以最大限度地节省读者的时间，同时读者也能够轻易地领会文章的主旨要义。但是，传统的基于循环神经网络(Recurrent Neural Networks，RNN)或卷积神经网络(Convolutional Neural Networks,CNN)的语义提取模型效果较差，无法达到领会全文主旨的预期效果，近年来有学者提出基于长短期记忆网络模型(Long Short-Term Memory,LSTM)来进行文本语义提取，使得语义还原效果较循环神经网络或卷积神经网络有了一定的提升。

发明内容

为了克服传统语义提取方法模型运算时间长，语义还原效果较差的缺点，旨在以深度学习为基础，本发明提出一种文本语义提取方法。本发明创新性地将RNN以及自我注意力机制(Self-Attention)结合，对传统的单一序列到序列模型做出了改进，能够最大程度上还原语义，在控制以及通信领域能够得到较好的应用。

本发明解决其技术问题所采用的技术方案是：

一种基于深度学习的文本语义提取方法，包括以下步骤：

1)在预处理阶段中的操作如下：将所要传输的句子s标准化为词数个数为n，参数n可以自行设定；然后将所要传输的句子输入jieba中文分词模型，进行分词处理，得到w₁,w₂,w₃,…,w_n，接着将w₁,w₂,w₃,…,w_n输入word2vec中文预训练模型，最后输出每一个单词所对应的词向量，用e₁,e₂,e₃,…,e_n表示，词向量组e₁,e₂,e₃,…,e_n记作E；

2)将词向量e₁,e₂,e₃,…,e_n输入单层循环神经网络，保留最后时刻循环神经网络隐藏层的输出向量，记为t₁；该循环神经网络模型的权重由电影评论数据集训练得到；

3)将词向量组e₁,e₂,e₃,…,e_n输入至编码器，编码器分为相同两层。在编码器第一层中，词向量组首先进入自我注意力机制，计算过程说明如下：

qⁱ＝W^q×E，i∈[1,n] (1)

kⁱ＝W^k×E (2)

vⁱ＝W^v×E (3)

W^q，W^k，W^v：维数为300的方阵，元素由系统模型经过训练得到，

E：词向量组e₁,e₂,e₃,…,e_n；

4)对于每一个qⁱ(i∈[1,n])，都令其与每一个kⁱ(i∈[1，n])进行点乘运算，对于q¹分别得到α_1，1，α_1，2，α_1，3，…，α_1，n，将α_1，1，α_1，2，α_1，3，…，α_1，n经过soft-max层进行归一化操作，得到其中：

再将分别与各自对应的v¹，v²，v³，…，vⁿ相乘，将所得结果累加得到向量b¹；将上述操作进行n次，得到向量b¹，b²，b³，…，bⁿ，公式如下：

至此，完成第一次自我注意力机制操作；将自我注意力机制操作生成的向量称为思想向量，如b¹，b²，b³，…，bⁿ；

5)将思想向量b¹，b²，b³，…，bⁿ分别输入单层前馈神经网络FFNN，分别得到向量f¹，f²，f³，…，fⁿ，维数与b¹，b²，b³，…，bⁿ相同；

6)向量f¹，f²，f³，…，fⁿ进入编码器第二层，重复进行第一层中的自我注意力操作以及经过前馈神经网络，由第二层前馈神经网络输出向量组将向量分别与向量t₁相加，最终得到编码器第二层输出的向量组u¹，u²，u³，…，uⁿ，将u¹，u²，u³，…，uⁿ分别乘以维数为300的方阵/>分别得到向量/>

7)进入解码器部分，解码器同样分为两层，第一层中，首先将由一个维数为300的初始种子词向量<start>输入至解码器开始进行解码操作；

8)由第一个目标单词词向量作为解码器第二次解码的输入，同理将第一个目标单词的词向量乘以维数为300的方阵W^q'，W^k'，W^v'，得到对应向量m^q,m^k,m^v保留以进行后续操作；

9)第二个目标单词作为解码器第三次解码的输入，后续重复上述解码操作步骤，直至输出所有目标单词，从而得到预测句子

10)通过最小化损失函数来训练模型参数，模型参数包括矩阵元素与神经网络权重。

进一步，所述步骤7)中，计算过程说明如下：初始种子词向量<start>将进行自我注意力机制操作，所得思想向量记为m；再进行Decoder-Encoder Attention操作，方法是：将向量m乘以维数为300的方阵得到向量q^m，将向量q^m分别与向量/>进行点乘操作，得到/>公式如下：

向量uⁱ与方阵/>相乘所得向量；

q^m：向量m与方阵相乘所得向量；

将输入soft-max层进行归一化操作得到/>再将/> 分别与各自对应的/>相乘，所得结果相加得到思想向量r¹，向量r¹再经过前馈神经网络FFNN得到向量/>向量/>进入解码器第二层，第二层中重复第一层的操作，最后输出概率向量，概率最大的对应为第一个目标单词。

再进一步，所述步骤8)中，第二次解码操作说明如下：将向量m^q,m^k，m^v与初始种子词向量进行自我注意力机制操作，得到第一个目标单词词向量对应的思想向量h，将h乘以维数为300的方阵得到向量q^h，将向量q^h分别与向量/>进行点乘操作，得到γⁱ(i∈[1，n])，公式如下：

向量uⁱ与方阵/>相乘所得向量；

q^h：思想向量h与方阵相乘所得向量；

再将γⁱ(i∈[1，n])进行soft-max归一化操作得到将/>分别与各自对应的相乘，所得结果相加得到思想向量r²，向量r²在经过前馈神经网络FFNN得到向量/>向量/>进入解码器第二层，第二层中重复第一层的操作，最后输出概率向量，概率最大的对应为第二个目标单词。

更进一步，所述步骤10)中，损失函数定义为：

q(w_l)：第l个单词w_l出现在输入句子s中的真实概率；

p(w_l)：第l个单词w_l在预测句子中出现的预测概率。

本发明的有益效果为：本发明创新性地将循环神经网络与自我注意机制融合，对传统的单一序列到序列模型做出了改进，以达到较好的语义提取效果，使得读者得到良好的阅读体验。

附图说明

图1是基于深度学习的文本语义提取系统模型示意图，主要由编码器(Encoder)以及解码器(Decoder)组成，其中编码器包含以下部分：jieba中文分词模型，word2vec模型，循环神经网络(RNN)，Self-Attention机制，前馈神经网络(FFNN)；解码器包含以下部分：Self-Attention机制，Decoder-Encoder Attention机制，前馈神经网络(FFNN)。

具体实施方式

下面结合附图对于本发明作进一步详细描述。

参照图1，一种基于深度学习的文本语义提取方法，实现该方法能最大程度上还原目标文本的语义，本发明可以应用于控制和通信领域，如图1所示，针对该场景对文本语义的提取方法包括以下步骤：

1)在预处理阶段中的操作如下：将所要传输的句子s标准化为词数个数为n，参数n可以自行设定，然后将所要传输的句子输入jieba中文分词模型，进行分词处理，得到w₁,w₂,w₃,…,w_n，接着将w₁,w₂,w₃,…,w_n输入word2vec中文预训练模型，最后输出每一个单词所对应的词向量，用e₁,e₂,e₃,…,e_n表示，词向量组e₁,e₂,e₃,…,e_n记作E；

2)将词向量e₁,e₂,e₃,…,e_n输入单层循环神经网络，保留最后时刻循环神经网络隐藏层的输出向量，记为t₁。该循环神经网络模型的权重由电影评论数据集训练得到；

3)将词向量组e₁,e₂,e₃,…,e_n输入至编码器，编码器分为相同两层，在编码器第一层中，词向量组首先进入自我注意力机制(Self-Attention)，计算过程说明如下：

qⁱ＝W^q×E，i∈[1,n] (1)

kⁱ＝W^k×E (2)

vⁱ＝W^v×E (3)

W^q，W^k，W^v：维数为300的方阵，元素由系统模型经过训练得到；

E：词向量组e₁,e₂,e₃,…,e_n；

4)对于每一个qⁱ(i∈[1,n])，都令其与每一个kⁱ(i∈[1，n])进行点乘运算，对于q¹，分别得到α_1,1,α_1,2,α_1,3,…,α_1,n，将α_1,1,α_1,2,α_1,3,…,α_1,n经过soft-max层进行归一化操作，得到其中：

再将分别与各自对应的v¹，v²，v³，…，vⁿ相乘，将所得结果累加得到向量b¹。将上述操作进行n次，得到向量b¹，b²，b³，…，bⁿ，公式如下：

至此，完成第一次自我注意力机制操作，将自我注意力机制操作生成的向量称为思想向量，如b¹，b²，b³，…，bⁿ；

7)进入解码器部分，解码器同样分为两层，第一层中，首先将由一个维数为300的初始种子词向量<start>输入至解码器开始进行解码操作，计算过程说明如下：初始种子词向量<start>将进行自我注意力机制操作，同步骤4)中所述，所得思想向量记为m。下面进行Decoder-Encoder Attention操作，方法是：将向量m乘以维数为300的方阵得到向量q^m；将向量q^m分别与向量/>进行点乘操作，得到/>公式如下：

向量uⁱ与方阵/>相乘所得向量；

q^m：向量m与方阵相乘所得向量；

将输入soft-max层进行归一化操作得到/>再将/> 分别与各自对应的/>相乘，所得结果相加得到思想向量r¹，向量r¹再经过前馈神经网络FFNN得到向量/>向量/>进入解码器第二层，第二层中重复第一层的操作，最后输出概率向量，概率最大的对应为第一个目标单词；

8)由第一个目标单词词向量作为解码器第二次解码的输入，同理将第一个目标单词的词向量乘以维数为300的方阵W^q'，W^k',W^v'，得到对应向量m^q,m^k,m^v保留以进行后续操作；第二次解码操作说明如下：将向量m^q,m^k,m^v与初始种子词向量进行自我注意力机制操作，得到第一个目标单词词向量对应的思想向量h，将h乘以维数为300的方阵得到向量q^h，将向量q^h分别与向量/>进行点乘操作，得到γⁱ(i∈[1,n])，公式如下：

向量uⁱ与方阵/>相乘所得向量；

q^h：思想向量h与方阵相乘所得向量；

再将γⁱ(i∈[1，n])进行soft-max归一化操作得到将/>分别与各自对应的相乘，所得结果相加得到思想向量r²，向量r²在经过前馈神经网络FFNN得到向量/>向量/>进入解码器第二层，第二层中重复第一层的操作，最后输出概率向量，概率最大的对应为第二个目标单词；

10)可通过最小化损失函数来训练模型参数，所述模型参数包括矩阵元素与神经网络权重，损失函数定义为：

q(w_l)：第l个单词w_l出现在输入句子s中的真实概率；

p(w_l)：第l个单词w_l在预测句子中出现的预测概率。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于深度学习的文本语义提取方法，其特征在于，所述方法包括以下步骤：

1)在预处理阶段中的操作如下：将所要传输的句子s标准化为词数个数为n，参数n可以自行设定；然后将所要传输的句子输入jieba中文分词模型，进行分词处理，得到w₁,w₂,w₃,···,w_n，接着将w₁,w₂,w₃,···,w_n输入word2vec中文预训练模型，最后输出每一个单词所对应的词向量，用e₁,e₂,e₃,···,e_n表示，词向量组e₁,e₂,e₃,···,e_n记作E；

2)将词向量e₁,e₂,e₃,···,e_n输入单层循环神经网络，保留最后时刻循环神经网络隐藏层的输出向量，记为t₁；该循环神经网络模型的权重由电影评论数据集训练得到；

3)将词向量组e₁,e₂,e₃,···,e_n输入至编码器，编码器分为相同两层，在编码器第一层中，词向量组首先进入自我注意力机制，计算过程说明如下：

qⁱ＝W^q×E，i∈[1,n] (1)

kⁱ＝W^k×E (2)

vⁱ＝W^v×E (3)

W^q,W^k,W^v：维数为300的方阵，元素由系统模型经过训练得到，E：词向量组e₁,e₂,e₃,···,e_n；

4)对于每一个qⁱ，i∈[1,n]，都令其与每一个kⁱ进行点乘运算，i∈[1,n]，对于q¹分别得到α_1,1,α_1,2,α_1,3,···,α_1,n，将α_1,1,α_1,2,α_1,3,···,α_1,n经过soft-max层进行归一化操作，得到其中：

再将分别与各自对应的v¹,v²,v³,···,vⁿ相乘，将所得结果累加得到向量b¹；将上述操作进行n次，得到向量b¹,b²,b³,···,bⁿ，公式如下：

至此，完成第一次自我注意力机制操作；将自我注意力机制操作生成的向量称为思想向量，如b¹,b²,b³,···,bⁿ；

5)将思想向量b¹,b²,b³,···,bⁿ分别输入单层前馈神经网络FFNN，分别得到向量f¹,f²,f³,···,fⁿ，维数与b¹,b²,b³,···,bⁿ相同；

6)向量f¹,f²,f³,···,fⁿ进入编码器第二层，重复进行第一层中的自我注意力操作以及经过前馈神经网络，由第二层前馈神经网络输出向量组将向量分别与向量t₁相加，最终得到编码器第二层输出的向量组u¹,u²,u³,···,uⁿ，将u¹,u²,u³,···,uⁿ分别乘以维数为300的方阵/>分别得到向量/>i∈[1,n]；

8)由第一个目标单词词向量作为解码器第二次解码的输入，同理将第一个目标单词的词向量乘以维数为300的方阵W^q',W^k',W^v'，得到对应向量m^q,m^k,m^v保留以进行后续操作；

10)通过最小化损失函数来训练模型参数，模型参数包括矩阵元素与神经网络权重；

所述步骤7)中，计算过程说明如下：初始种子词向量<start>将进行自我注意力机制操作，所得思想向量记为m；再进行Decoder-Encoder Attention操作，方法是：将向量m乘以维数为300的方阵得到向量q^m，将向量q^m分别与向量/>进行点乘操作，i∈[1,n]，得到/>i∈[1,n]，公式如下：

向量uⁱ与方阵/>相乘所得向量；

q^m：向量m与方阵相乘所得向量；

将输入soft-max层进行归一化操作得到/>i∈[1,n]，再将/>分别与各自对应的/>相乘，i∈[1,n]，所得结果相加得到思想向量r¹，向量r¹再经过前馈神经网络FFNN得到向量向量/>进入解码器第二层，第二层中重复第一层的操作，最后输出概率向量，概率最大的对应为第一个目标单词；

所述步骤8)中，第二次解码操作说明如下：将向量m^q,m^k,m^v与初始种子词向量进行自我注意力机制操作，得到第一个目标单词词向量对应的思想向量h，将h乘以维数为300的方阵得到向量q^h，将向量q^h分别与向量/>进行点乘操作，i∈[1,n]，得到γⁱ，i∈[1,n]，公式如下：

向量uⁱ与方阵/>相乘所得向量；

q^h：思想向量h与方阵相乘所得向量；

再将γⁱ进行soft-max归一化操作得到i∈[1,n]，将/>分别与各自对应的/>相乘，i∈[1,n]，所得结果相加得到思想向量r²，向量r²在经过前馈神经网络FFNN得到向量/>向量/>进入解码器第二层，第二层中重复第一层的操作，最后输出概率向量，概率最大的对应为第二个目标单词。

2.如权利要求1所述的一种基于深度学习的文本语义提取方法，其特征在于，所述步骤10)中，损失函数定义为：

q(w_l)：第l个单词w_l出现在输入句子s中的真实概率；

p(w_l)：第l个单词w_l在预测句子中出现的预测概率。