CN108170736A

CN108170736A - 一种基于循环注意力机制的文档快速扫描定性方法

Info

Publication number: CN108170736A
Application number: CN201711350432.5A
Authority: CN
Inventors: 杨维永; 张宁; 马超; 刘凯乐; 何军; 赖业宁; 季叶飞; 朱进; 从正海; 朱世顺; 郭靓; 林学峰
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Nanjing University of Information Science and Technology; NARI Group Corp
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Nanjing University of Information Science and Technology; NARI Group Corp
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-06-15
Anticipated expiration: 2037-12-15
Also published as: CN108170736B

Abstract

本发明公开了一种基于循环注意力机制的文档快速扫描定性方法，获取训练数据集，在预处理阶段，将整个文档转换为词向量矩阵，词向量矩阵通过含有循环注意力机制的文档检测模型，包括卷积神经网络模块、最大池化模块、循环神经网络模块，利用回报函数得出回报值reward，训练循环神经网络，优化模型参数，测试模型准确率。本发明的方法基于注意力机制，引入了强化学习的训练方法，适应性更强，并且不需要对全文进行检索，而是通过处理文档中的局部信息，智能快速的预测出文档中特定的位置，在有限的次数内，快速扫描探索找出最能够代表文档特征的句子，即分类概率最大的句子，这些句子能够最大化的表示该文档的类型。

Description

一种基于循环注意力机制的文档快速扫描定性方法

技术领域

本发明涉及自然语言处理和文档分类技术领域，特别涉及一种基于循环注意力机制的文档快速扫描定性方法。

背景技术

自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。目前NLP最流行的方法还是机器学习尤其是深度学习，比如Word Embedding(词嵌入)、RNN(循环神经网络)、LSTM(长短期记忆网络)、CNN(卷积神经网络)等主流的深度神经网络在NLP中的应用，这已经是目前主流的研究方向。目前，在文档定性分类方面，最经典的结构就是CNN(卷积神经网络)，它的结构比较简单，使用长度不同的filter(滤波器)对文档矩阵进行卷积，filter的宽度等于词向量的长度，然后使用max-pooling(最大池化)对每一个filter提取的向量进行操作，最后每一个filter对应一个数字，把这些filter拼接起来，就得到了一个表征该句子的向量，最后的预测都是基于该句子的。该模型作为一个经典的模型，是很多其他领域论文里的实验参照。

但是对于文档定性，比如CNN(卷积神经网络)、LSTM(长短期记忆网络)等方法，大多数适用于短文档。但对于长文档，这些方法会导致模型变得非常庞大，并不适用。用关键词方法检索敏感信息，这种方法需要对全文进行检索，准确性不高，效率低下，缺乏了上下文的关联性，并且有些关键词并不主导文档的主要性质。

发明内容

本发明的目的在于，提出一种基于循环注意力机制的文档快速扫描定性方法，通过若干次探索找出最能够代表文档特征的句子，即分类概率最大的句子，在给定的步数里面，最快的扫描检测出含有标签的那些句子，从而对文档作定性分析。

本发明采用如下技术方案，一种基于循环注意力机制的文档快速扫描定性方法，该方法首先需要训练一个由卷积神经网络、循环神经网络以及强化学习结合起来的端到端的模型，所使用的训练数据是大量的文档及其标签(该标签即为文档的类别)，训练目标是通过几次对文档的句子做探索，可以最大化的输出最能够代表该文档特征的若干句子，这些句子能够最大化的表示该文档的性质类型，其特征在于，具体步骤如下：

(1)获取训练数据集，拟定数据集中的文档的标签；

(2)在预处理阶段，将文档分成句子，再对句子进行分词，然后对每一个词使用word2vec词向量训练模型将其转化为词向量，由此将句子转化成一个由词向量组成的矩阵，从而将整个文档转换为词向量矩阵；

(3)词向量矩阵通过含有循环注意力机制的文档检测模型，包括卷积神经网络模块、最大池化模块、循环神经网络模块，具体步骤为：

31)随机选取一个位置t，利用一个一维的卷积神经网络来提取位置t的句子的每个词的语义信息特征，再经过最大池化降维，输出每个句子的特征向量；

32)将每个句子的特征向量和上个时间步骤输出的隐含状态h_t-1一起输入到循环神经网络中进行编码，然后输出当前时间的隐含状态h_t；

33)将循环神经网络输出的隐含状态h_t输入到一个强化学习模块，输出对下一个位置的索引预测L_t+1；

34)找到下一个位置t+1，将位置t+1的句子输入一个一维的卷积神经网络，提取每个词的特征，随后经过最大池化降维得到特征向量，然后，再将上一步输出的位置索引预测L_t+1与特征向量通过一个RELU修正线性单元模块进行线性加和，再输入到循环神经网络之中；

35)循环神经网络运行到最后一步时，输出的隐含状态通过一个分类器，输出整篇文档的标签分布概率P；

(4)利用回报函数得出回报值reward；

(5)训练循环神经网络，优化文档检测模型参数；

(6)获取测试数据集，拟定测试数据集中的文档的标签，测试文档检测模型准确率。

优选地，步骤(3)中卷积神经网络的卷积核个数为256。

优选地，在步骤(4)中，回报函数的流程为：

a)步骤(3)中输出的P为一组和为1的数组，数组中较大的概率所对应的下标即为预测的文档标签,同时输出含有预测的文档标签的句子，作为代表文档特征的句子；

b)将步骤a)中得到的预测的文档标签与步骤(1)中的文档的标签作比对，如果相同则回报值reward的值为1，不同则回报值reward的值为0。

优选地，步骤(5)中的训练优化的目标是最优化目标函数，最小化代价函数，代价函数包括分类的代价函数和强化学习的代价函数，具体步骤为：

1)分类的代价函数为交叉熵函数：利用一组已知标签的样本调整分类器的参数，使代价函数即交叉熵函数最小，利用预测的文档标签和步骤(1)中文档的标签，计算出交叉熵C，其中，x表示样本，n表示样本的总数，，y为期望的输出，即文档的标签值(0或者1)，a为神经元实际输出，即预测的文档标签值(拟定文档为某一类时标签为1，否则为0)，训练时将交叉熵对权重的偏导数反向传播，更新文档检测模型参数；

2)强化学习的代价函数为L(θ)＝logπ(a|s,θ)·(R-b),其中π(a|s)为神经网络拟合的策略，θ为参数；logπ(a|s,θ)是在状态s下输出动作a的概率的对数似然，用以表示智能体的策略，b为基线baseline，R为回报值reward；再利用自适应矩估计Adam优化器反向更新文档检测模型参数，优化强化学习的代价函数，使代价函数最小化，回报值reward最大化。

优选地，训练文档检测模型时，设置步数step为100000步，样本总数为1000，每一个分批处理mini_batch的样本数量为10，训练开始时的学习率learning rate为10^-3，设置衰减因子λ，在每一次训练完全部样本之后，学习率learning rate按照衰减因子λ衰减，随着训练进行，最后学习率learning rate变为10^-4。

优选地，步骤(6)中，将得出的预测的文档标签与测试数据集中的文档的标签对比，如果相同则回报值reward为1，测试文档之后得出一系列的回报值reward的加和，再除以文档数量，得到整个测试文档的分类准确率。

发明所达到的有益效果：本发明是一种基于循环注意力机制的文档快速扫描定性方法，能够解决长文档检测定性困难的问题，快速扫描定位文档中敏感信息。与目前流行的基于CNN或者RNN的文档定性分类方法不同，本发明的方法基于注意力机制，引入了强化学习的训练方法，适应性更强，并且不需要对全文进行检索，而是通过处理文档中的局部信息，智能快速的预测出文档中特定的位置，在有限的次数内，快速扫描探索找出最能够代表文档特征的句子，即分类概率最大的句子，这些句子能够最大化的表示该文档的类型。

附图说明

图1是本发明的预处理阶段流程图；

图2是本发明的含有循环注意力机制的文档检测模型的流程图；

图3是本发明的回报函数计算图；

图4是本发明的测试过程流程图。

具体实施方式

下面根据附图并结合实施例对本发明的技术方案作进一步阐述。

一种基于循环注意力机制的文档快速扫描定性方法，具体步骤如下：

步骤一：获取训练数据集。数据集由若干类型的若干个文档组成，并且已知每类文档所对应的标签值。

步骤二：图1是本发明的预处理阶段流程图。在预处理阶段，首先将文档Doc分成N个句子，每一个句子由40个词组成，不足40个词的随机填充，超多40个词的截取前40个词。再对句子进行分词，然后使用word2vec将每一个词转化为词向量，其中每一个词向量的维度都为300。最后就将句子转成一个由若干词向量组成的矩阵，从而将整个文档转换为词向量矩阵的形式。

步骤三：图2是本发明的含有循环注意力机制的文档检测模型的流程图。此时文档Doc已经转成由N个句子的词向量矩阵的形式。随机选取一个位置t，将位置t的句子S，通过一个一维的卷积神经网络，提取每个词的特征，随后经过最大池化降维，最后输出每个句子的特征向量。

步骤四：将每个句子的特征向量和上个时间步骤的输出状态h_t-1一起输入到循环神经网络中进行编码，然后输出当前时间的状态h_t。

步骤五：将循环神经网络的输出通过一个强化学习模块，输出对下一个位置的预测L_t+1。

步骤六:找到下一个位置t+1，将该位置的句子同样通过一个一维的卷积神经网络，提取每个词的特征，随后经过最大池化降维，然后，再将第一步输出的L_t+1与降维之后的特征向量进行一个RELU修正线性单元模块的线性加和，再输入到循环神经网络之中。

步骤七：循环神经网络运行到第T步时，输出的隐含状态要通过一个分类器，输出整篇文档的标签分布概率P。

步骤八：图3是本发明的回报函数计算图。给出一篇文档，将其经过预处理以后得到其词向量矩阵，再经过文档检测模型，检测了有限步数中的有限数量的句子，从而得到整篇文档的标签分布概率P，P为一组和为1的数组，如(0.9，0.1)，再看其中比较大的概率所对应的下标，下标即为预测的文档标签。同时输出这个几个最能够代表文档特征的句子。将预测的文档标签与训练数据集中文档的标签作比对。如果相同则回报值reward的值为1，不同则为0。

步骤九：优化。通过公式L(θ)＝logπ(a|s,θ)·(R-b)计算代价函数loss值，再用Adam优化器反向更新文档检测模型参数。

步骤十：图4是本发明的测试过程流程图。计算文档检测模型准确率。当预测的文档标签与测试数据集中文档的标签相同时，回报值reward为1，否则为0。检测若干文档之后，得到一系列回报值reward的加和，再除以文档数量，得到文档检测模型的准确率百分数。

需要说明的是，以上说明仅是本发明的优选实施方式，应当理解，对于本领域技术人员来说，在不脱离本发明技术构思的前提下还可以做出若干改变和改进，这些都包括在本发明的保护范围内。

Claims

1.一种基于循环注意力机制的文档快速扫描定性方法，其特征在于，包括以下步骤：

(1)获取训练数据集，拟定训练数据集中的文档的标签；

(2)在预处理阶段，将文档分成句子，再对句子进行分词，然后对每一个词使用word2vec词向量训练模型转化为词向量，由此将句子转化成一个由词向量组成的矩阵，从而将整个文档转换为词向量矩阵；

(3)将词向量矩阵输入文档检测模型，所述文档检测模型包括卷积神经网络模块、最大池化模块和循环神经网络模块，具体步骤为：

31)随机选取一个位置t，利用一个一维的卷积神经网络提取位置t的句子的每个词的语义信息特征，再经过最大池化降维，输出每个句子的特征向量；

34)找到下一个位置t+1，将位置t+1的句子输入到一个一维的卷积神经网络，提取每个词的特征，随后经过最大池化降维得到特征向量，然后，再将上一步输出的位置索引预测L_t+1与特征向量通过一个RELU修正线性单元模块进行线性加和，再输入到循环神经网络之中；

35)循环神经网络运行到最后一步时，输出的隐含状态输入到一个分类器，输出整篇文档的标签分布概率P；

(4)利用回报函数得出回报值reward；

(5)训练循环神经网络，优化文档检测模型参数；

2.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法，其特征在于，步骤(3)中卷积神经网络的卷积核个数为256。

3.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法，其特征在于，在步骤(4)中，回报函数的数据处理流程为：

a)步骤(3)中输出的标签分布概率P为一组和为1的数组，数组中较大的概率值所对应的下标即为预测的文档标签,同时输出含有预测的文档标签的句子，作为代表文档特征的句子；

4.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法，其特征在于，步骤(5)中的训练优化的目标是最优化目标函数，最小化代价函数，代价函数包括分类的代价函数和强化学习的代价函数，具体步骤为：

(41)分类的代价函数为交叉熵函数：利用一组已知标签的样本调整分类器的参数，使代价函数即交叉熵函数最小，利用预测的文档的标签和步骤(1)中文档的标签，计算出交叉熵C，其中，x表示样本，n表示样本的总数，y为期望的输出，即文档的标签值，a为神经元实际输出，即预测的文档标签值，训练时将交叉熵对权重的偏导数反向传播，更新文档检测模型参数；

(42)强化学习的代价函数为L(θ)＝logπ(a|s,θ)·(R-b),其中π(a|s)为神经网络拟合的策略，θ为参数；logπ(a|s,θ)是在状态s下输出动作a的概率的对数似然，用以表示智能体的策略，b为基线baseline，R为回报值reward；再利用自适应矩估计Adam优化器反向更新文档检测模型参数，优化强化学习的代价函数，使代价函数最小化，回报值reward最大化。

5.根据权利要求4所述的基于循环注意力机制的文档快速扫描定性方法，其特征在于，训练文档检测模型时，设置步数step为100000步，样本总数为1000，每一个分批处理mini_batch的样本数量为10，训练开始时的学习率learning rate为10^-3，设置衰减因子λ，在每一次训练完全部样本之后，学习率learning rate按照衰减因子λ衰减，随着训练进行，最后学习率learning rate变为10^-4。

6.根据权利要求1所述的基于循环注意力机制的文档快速扫描定性方法，其特征在于，步骤(6)中，将得出的预测的文档标签与测试数据集中的文档的标签对比，如果相同则回报值reward为1，测试一系列文档之后得出回报值reward的加和，再除以文档数量，得到整个测试文档的分类准确率。