CN115098673A

CN115098673A - 基于变体注意力及层次结构的业务文书信息抽取方法

Info

Publication number: CN115098673A
Application number: CN202210566712.4A
Authority: CN
Inventors: 陈炫言; 白雄文; 王红艳; 周益周; 郭旭东
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-09-23

Abstract

本发明涉及一种基于变体注意力及层次结构的业务文书信息抽取方法，属于自然语言处理领域。本发明首先对文书首先进行分类处理，将数据处理为模型所需的监督训练数据，输入到基于变体注意力及层次结构网络模型中进行训练，利用层次网络结构分别对词级、句级、段落级文书信息进行特征提取；将所需抽取信息的文书及所需抽取文书内容的标签作为输入，喂入已训练好的层次变体注意力网络模型中进行信息抽取；统计，最后对抽取的信息进行统计分析。本发明实现业务文书信息精确抽取技术，最终通过该技术抽取出文书信息后再对文书信息进行统计分析，实现专项业务相关信息抽取。

Description

基于变体注意力及层次结构的业务文书信息抽取方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于变体注意力及层次结构的业务文书信息抽取方法。

背景技术

如何从纷繁冗余的非结构化数据中抽取提炼出关键信息，是信息抽取的核心所在。且当前文书的信息抽取采用的为模板匹配的方式，需要首先制定相关模板，然后根据模板对文书内容进行匹配，这样做需要大量的人力来手动定制模板，效率较为低下。

本发明采用神经网络的方式进行文书的信息抽取。对于神经网络方式而言，目前的抽取技术主流分为：抽取式摘要，生成式摘要。信息抽取技术存在着：1. 冗余性-提取的句子不够精炼，关键词性重复出现，无法判定其在上下文的重要性；2.不必要性，存在不足以表达核心内容的语句；3.生硬性，抽取出来的核心信息直接生硬拼接，虽然每个词都是核心重点词汇，但是组合到一起却毫无意义，没有可读性。为了解决该弊端，提出层级模式的语义信息特征抽取结构，通过词级关联，句级关联，以及段落关联，让神经网络进行计算，找到文书中每个token之间的关联权重；并且引入Attention的变体AdaptiveAttention结构，在保持计算资源不增加的前提下，扩大token的上下文关联距离，从而实现精确的业务文书信息抽取。本发明所涉及的已知技术内容包括如下所示：

a)层级结构：首先在词层级提取每个token的特征，然后组合在一起，构成句层级特征，将句层级特征再组合成为段落级特征，这样构建出来的层次结构通过神经网络分别计算每个token，sentence，segment之间的关联权重，从而使得能够更加精准地抽取出文书中的相关信息。

b)Attention(注意力机制)：传统的神经网络框架为Encoder-语义编码 -Decoder，如图1所示，将文本信息通过Encoder映射到高维空间，提取特征，将提取到的特征保存于语义信息，然后再通过Decoder解码得到对应的信息，对于较短的文本可以使用，但缺陷在于，中间的语义编码向量长度是固定的，一旦语句过长，那么就会造成一部分的信息丢失，从而无法关注全文的语义信息。Attention机制的原理在于存在多个语义信息，如图2所示，每进行一次Encoder，就讲信息保存于语义信息中，给与每一次的编码信息分配不同的权重，从而使得可以处理更长文本的语句，tokens之间的关联距离更长。

c)Multi-HeadAttention(多头注意力机制)：Multi-HeadAttention的核心思想在于使用多个Attention，每个Attention的权重系数不同，所以对于同一语句的关注点也不同，将多个Attention关联起来，就能实现关注范围更广的功能。

d)AdaptiveAttention(自适应注意力机制)：AdaptiveAttention的目的是为了获取更远距离的关联权重，对于Attention而言，确实提升了关联距离，但是这个距离一般也就在2000tokens，更远的距离就无法获取了。AdaptiveAttention通过Transformer中multi-Head(多头机制)的思想观察到，每一个注意力机制起始并不是关注点都一样，例如HeadA关注点在于最近的几十个tokens，再往前的权重就很低；而HeadB则关注到全部的tokens，所以AdaptiveAttention借助Mask函数，如公式(1)所示，在计算Attention权重时，使用文本和当前位置的距离作为输入，并利用可学习参数Z，对每个Attention分配权重，如公式(2)所示，从而实现关注到每个Attention所关注到的，即权重更大的，这样就可以避免关注权重小的值，而分配计算资源，从而实现计算资源不变，扩增上下文关联度距离。

Mask函数：将context同token距离映射到[0,1]

Z：需要学习的参数，对于每个head而言，Z都是不同的 R：超参数，可手动设置，用于平滑

X：文本context同当前token的距离

Attention函数：计算Attention权重时，使用context和当前位置的距离作为Mask函数的输入，在计算过程中，z是需要学习的参数，对于每个head，z都是不同的。

t：当前token位置

t-r：相对位置

S：注意力广度

q＝t-S：不同注意力广度下，距离当前token的位置。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种基于变体注意力及层次结构的业务文书信息抽取方法，以解决当前文书的信息抽取采用的为模板匹配的方式，需要首先制定相关模板，然后根据模板对文书内容进行匹配，这样做需要大量的人力来手动定制模板，效率较为低下的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种基于变体注意力及层次结构的业务文书信息抽取方法，该方法包括如下步骤：

步骤一：训练，首先对大批量文书进行分类处理，将分类好的文书处理为监督训练格式，将处理好的数据输入到层级式变体注意力神经网络模型中进行训练，分别对词级、句级、段落级的文本进行特征提取；

步骤二：预测，将需要提取的文书作为输入数据喂入训练完成的层级式变体注意力神经网络模型中，同时将需要抽取的信息标签作为输入，让训练好的模型进行信息抽取，在文书中找到最相关的词、句或段落；

步骤三：统计，对抽取出来的信息进行统计分析。

进一步地，所述步骤一中的对大批量文书进行分类处理，将分类好的文书处理为监督训练格式具体包括：接收文书训练数据，该数据为大量文书数据，首先将接收到的数据进行分类处理，通过文书名，将输入的大批量文本数据分类；随后将待提取关键词的文书进行预处理，得到待提取关键词的文本对应的候选词，将待提取关键词的文书和各候选词分别输入到神经网络中以供训练。

进一步地，所述步骤一中的层级式变体注意力神经网络模型包括词级模块、句级模块、段落级模块以及softmax层模块。

进一步地，所述词级模块包括：

Embedding：文本数据通过Embedding层，将中文字符转化成词向量Vector；

Word Encoder：编码层接收到Embedding层传来的词向量，通过双向的LSTM 对词向量进行编码，获取到每个词的的双向语义特征作为特征向量；

Word Adaptive Attention：将特征向量输入变体注意力模型，通过变体注意力机制，对一个词的上下文关系进行连接，并且通过Adaptive Attention能够增加关联词之间的距离，计算出每个词的词间关系权重。

进一步地，所述句级模块包括：

Sentence Encoder：通过词级Embedding、Word Encoder和Word Adapt iveAttention获取到了每个词的特征向量，将每句话中每个词的特征向量进行矩阵相加的方式进行连接，从而将每句话中词级的特征构建成为句级特征S1、S2、…、 Sn，n是文档中的句子数目；并且同样通过双向LSTM网络的模型进行编码来获取每个句子的语义信息，即通过词向量拼接得到句级别特征向量；

Sentence Adaptive Attention：通过注意力机制，对一句话的上下文关系进行连接，并且同样通过Adaptive Attention注意力机制，获取句级别特征向量之间的联系，计算每句话的关系权重。

进一步地，所述段落级模块包括：

Segment Encoder：通过Sentence Encoder及Sentence Adaptive Attention 构建句级关系得到句级别特征向量，将每段中的每句话的句级别特征向量同样通过矩阵拼接的方式得到每个段落的段级特征P1、P2、…、Pm，m为段落数量；再次使用双向LSTM对段级特征进行编码来获取每个段落的语义信息作为段级别特征向量；

Segment Adaptive Attention：通过Adaptive Attention注意力机制，获取段级别特征向量之间的联系，计算每段话的关系权重。

进一步地，所述softmax层模块用于将词、句、段之间的关系权重，通过 softmax层进行分类，首先找到概率最高的段落，在该段落中找到概率最高的句子，在该句子中找到概率最大的词；该语句通过从词级计算，句级计算，段级计算，再通过softmax进行归一化进行概率计算，通过上述计算，可以匹配到全文相关的段落，在该段落中查找到概率最高的句子，最后计算出最相关的 token即最相关联的词。

进一步地，所述softmax层模块还通过条件随机场CRF添加约束性规则，输入为每个词预测对应每个标签的概率，输出为每个可能的标注序列，并选择得分最高的序列作为最终结果。

进一步地，条件随机场CRF处理过程中，要去除B-per后再接B-per的错误标签组合，去除无效的预测序列。

进一步地，所述步骤二具体包括：接收单篇或多篇需进行信息处理的文书，对抽取结果进行预测，并输出抽取结果；首先输入需要提取信息的文书，然后输入需要提取的关键字标签，标签格式化形成json模板，即对所有的文书都提取同样的标签，即按照专项业务要求格式输出抽取的信息。

(三)有益效果

本发明提出一种基于变体注意力及层次结构的业务文书信息抽取方法，本发明提供一种能够保持性能不变的前提下扩增上下文关联度的信息抽取技术，该技术应用于文书的信息抽取，替代低效率人工审核，精确识别出文书中所需要提取的关键信息。相较于现有技术，该技术的改进在于分别从三个层次进行了上下文关联：词级、句级、段落级。并且加入了Adapt ive-Attention结构，使得上下文的关联距离大大增加的前提下，不影响模型性能。该技术具有高精确度、高可用度、高速，提升设备多场景适用的特点。

附图说明

图1为基础网络框架；

图2为Attention机制；

图3为层级式变体Attention神经网络模块架构；

图4为本发明的系统流程图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明要解决的技术问题是：以神经网络框架为基础，优化网络结构，替代原始使用模板进行匹配的文书信息抽取技术，如图3所示。

本发明通过从words层级提取特征，组合成sentences层级，继续从 sentence层级提取特征得到最终的segments层级特征，并且在层级之间添加 Adaptive-Attention使得上下文关联度距离扩增的情况下保持性能不变，最后使用softmax层进行归一化，输出概率最大的段落。通过该方法能够最大限度地关联上下文，在不影响模型性能前提下抽取出业务文书中的关键信息。

本发明涉及一种基于变体注意力及层次结构的业务文书信息抽取方法，包括以下步骤：一、训练，首先对文书首先进行分类处理，将数据处理为模型所需的监督训练数据，输入到基于变体注意力及层次结构网络模型中进行训练，利用层次网络结构分别对词级、句级、段落级文书信息进行特征提取；二、预测，将所需抽取信息的文书及所需抽取文书内容的标签作为输入，喂入已训练好的层次变体注意力网络模型中进行信息抽取；三、统计，最后对抽取的信息进行统计分析。模型的最终输出层为SoftMax层，该层输出的为该语句为预测语句的概率值，所以获取到最高概率值的语句，作为模型的输出，从而实现业务文书信息精确抽取技术，最终通过该技术抽取出文书信息后再对文书信息进行统计分析，实现专项业务相关信息抽取。

本发明的技术方案为：一种基于变体注意力及层次结构的业务文书信息抽取方法，所述方法包括如下步骤：

所述步骤一：训练，首先对大批量文书进行分类处理，将文书类型分为业务需要的类别。将分类好的文书处理为监督训练格式，将数据输入到层级式变体注意力神经网络模型中进行训练，如图3所示。分别对词级、句级、段落级的文本进行特征提取。

所述步骤二：预测，将需要提取的文书作为输入数据喂入训练完成的层级式变体注意力神经网络模型中，同时将需要抽取的信息标签作为输入；让训练好的模型进行信息抽取。

所述步骤三：统计，对抽取出来的信息进行统计分析。

本发明设计模块及实施步骤如下：

本发明分为三个流程，分别为：1.训练；2.预测，3.统计。

1训练

训练流程利用层级式变体注意力神经网络模型对文书数据进行训练，该流程中包含的模块为：

1.1训练输入模块

接收文书训练数据，该数据为大量文书数据，目的是首先将接收到的数据进行分类处理，通过文书名，将输入的大批量文本数据分类。随后将待提取关键词的文书进行预处理，得到待提取关键词的文本对应的候选词，将待提取关键词的文书和各候选词分别输入到神经网络中以供训练。

1.2层级式变体注意力网络训练模块

接收预处理后的文书数据，使用本文提出的层级式变体注意力神经网络模型对数据进行训练，学习各token之间隐藏向量，进行关键词的特征提取，实现快速核心信息的识别和抽取。

1.2.1词级模块：

(1)Embedding：首先文本数据通过Embedding层，将中文字符转化成词向量Vector.

(2)Word Encoder：编码层接收到Embedding层传来的词向量，通过双向的LSTM对词向量进行编码，获取到每个词的的双向语义特征作为特征向量。

(1.3)WordAdaptiveAttention：将特征向量输入变体注意力模型，通过变体注意力机制，对一个词的上下文关系进行连接，并且通过AdaptiveAttention 能够增加关联词之间的距离，计算出每个词的词间关系权重，即使超过8000词 (正常的Attention机制上下文的关联距离在512个token左右，超过这个距离，就很难进行token之间的关联)，也能够在不消耗计算能力的前提下对词之间的关系进行连接。

1.2.2句级模块：

(1)Sentence Encoder：通过词级Embedding、Word Encoder和WordAdaptiveAttention获取到了每个词的特征向量，将每句话中每个词的特征向量进行矩阵相加的方式进行连接，从而将每句话中词级的特征构建成为句级特征S1、S2、…、 Sn，n是文档中的句子数目。并且同样通过双向LSTM网络的模型进行编码来获取每个句子的语义信息，即通过词向量拼接得到句级别特征向量。

(2)SentenceAdaptiveAttention：通过注意力机制，对一句话的上下文关系进行连接，并且同样通过AdaptiveAttention注意力机制，获取句级别特征向量之间的联系，计算每句话的关系权重。

1.2.3段落级模块：

(1)Segment Encoder：通过Sentence Encoder及SentenceAdaptiveAttention 构建句级关系得到句级别特征向量，将每段中的每句话的句级别特征向量同样通过矩阵拼接的方式得到每个段落的段级特征P1、P2、…、Pm，m为段落数量。再次使用双向LSTM对段级特征进行编码来获取每个段落的语义信息作为段级别特征向量。

(2)SegmentAdaptiveAttention：同样通过AdaptiveAttention注意力机制，获取段级别特征向量之间的联系，计算每段话的关系权重。

至此，通过词级、句级、段级的三层编码拼接，同时通过三层变体注意力机制的关注(Word Adaptive Attention、Sentence Adaptive Attention、SegmentAdaptiveAttention)，可以有效地学得每个词与其他词之间、每句话与其他句之间、每个段落与其他段落之间的关系，词与句与段落之间的关系，该关系通过权重进行表示，权重高的表示关系更紧密，在进行信息抽取时，对于输入的关键字，会首先从权重更高的段落选择句子，从权重更高的句子选择词。从而实现更精准的信息抽取。为了结果更直观，所以需要将权重转化为概率。

(3.1)softmax层模块：通过上文的计算，可以得出词、句、段之间的关系权重，通过softmax层进行分类，首先找到概率最高的段落，在该段落中找到概率最高的句子，在该句子中找到概率最大的词。该语句通过从词级计算，句级计算，段级计算，再通过softmax进行归一化进行概率计算，如需要查找“某信息”，通过上述计算，可以匹配到全文相关“某信息”的段落，在该段落中查找到与“某信息”关联性即概率最高的句子，最后计算出与“某信息”最相关的token 即最相关联的词。最后通过CRF(条件随机场)添加约束性规则，输入为每个词预测对应每个标签的概率，输出为每个可能的标注序列，并选择得分最高的序列作为最终结果，去除B-per后再接B-per等明显错误标签组合问题，去除无效的预测序列。

2预测

预测流程利用训练好的层级式变体注意力神经网络模型对所需处理文书进行信息抽取。

2.1预测输入模块

接收单篇或多篇需进行信息处理的文书，对抽取结果进行预测，区别于训练输入模块需要大量数据，预测输入模块无需大批量数据。

2.2预测输出模块

对接收到的文书处理后进行抽取结果输出。首先输入需要提取信息的文书，然后输入需要提取的关键字标签，这里的标签也可以格式化形成json模板，即对所有的文书都提取同样的标签，即按照专项业务要求格式输出抽取的信息，这样可以避免每次提取信息都需要手动输入。

3统计

最后对抽取出来的信息进行统计分析。

本发明提供一种能够保持性能不变的前提下扩增上下文关联度的信息抽取技术，该技术应用于文书的信息抽取，替代低效率人工审核，精确识别出文书中所需要提取的关键信息。相较于现有技术，该技术的改进在于分别从三个层次进行了上下文关联：词级、句级、段落级。并且加入了Adapt ive-Attention 结构，使得上下文的关联距离大大增加的前提下，不影响模型性能。该技术具有高精确度、高可用度、高速，提升设备多场景适用的特点。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，该方法包括如下步骤：

步骤三：统计，对抽取出来的信息进行统计分析。

2.如权利要求1所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述步骤一中的对大批量文书进行分类处理，将分类好的文书处理为监督训练格式具体包括：接收文书训练数据，该数据为大量文书数据，首先将接收到的数据进行分类处理，通过文书名，将输入的大批量文本数据分类；随后将待提取关键词的文书进行预处理，得到待提取关键词的文本对应的候选词，将待提取关键词的文书和各候选词分别输入到神经网络中以供训练。

3.如权利要求2所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述步骤一中的层级式变体注意力神经网络模型包括词级模块、句级模块、段落级模块以及softmax层模块。

4.如权利要求2所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述词级模块包括：

Word Encoder：编码层接收到Embedding层传来的词向量，通过双向的LSTM对词向量进行编码，获取到每个词的的双向语义特征作为特征向量；

WordAdaptiveAttention：将特征向量输入变体注意力模型，通过变体注意力机制，对一个词的上下文关系进行连接，并且通过AdaptiveAttention能够增加关联词之间的距离，计算出每个词的词间关系权重。

5.如权利要求4所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述句级模块包括：

Sentence Encoder：通过词级Embedding、Word Encoder和Word Adaptive Attention获取到了每个词的特征向量，将每句话中每个词的特征向量进行矩阵相加的方式进行连接，从而将每句话中词级的特征构建成为句级特征S1、S2、…、Sn，n是文档中的句子数目；并且同样通过双向LSTM网络的模型进行编码来获取每个句子的语义信息，即通过词向量拼接得到句级别特征向量；

SentenceAdaptiveAttention：通过注意力机制，对一句话的上下文关系进行连接，并且同样通过AdaptiveAttention注意力机制，获取句级别特征向量之间的联系，计算每句话的关系权重。

6.如权利要求5所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述段落级模块包括：

Segment Encoder：通过Sentence Encoder及SentenceAdaptiveAttention构建句级关系得到句级别特征向量，将每段中的每句话的句级别特征向量同样通过矩阵拼接的方式得到每个段落的段级特征P1、P2、…、Pm，m为段落数量；再次使用双向LSTM对段级特征进行编码来获取每个段落的语义信息作为段级别特征向量；

SegmentAdaptiveAttention：通过AdaptiveAttention注意力机制，获取段级别特征向量之间的联系，计算每段话的关系权重。

7.如权利要求6所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述softmax层模块用于将词、句、段之间的关系权重，通过softmax层进行分类，首先找到概率最高的段落，在该段落中找到概率最高的句子，在该句子中找到概率最大的词；该语句通过从词级计算，句级计算，段级计算，再通过softmax进行归一化进行概率计算，通过上述计算，可以匹配到全文相关的段落，在该段落中查找到概率最高的句子，最后计算出最相关的token即最相关联的词。

8.如权利要求6所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述softmax层模块还通过条件随机场CRF添加约束性规则，输入为每个词预测对应每个标签的概率，输出为每个可能的标注序列，并选择得分最高的序列作为最终结果。

9.如权利要求8所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，条件随机场CRF处理过程中，要去除B-per后再接B-per的错误标签组合，去除无效的预测序列。

10.如权利要求1-9任一项所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述步骤二具体包括：接收单篇或多篇需进行信息处理的文书，对抽取结果进行预测，并输出抽取结果；首先输入需要提取信息的文书，然后输入需要提取的关键字标签，标签格式化形成json模板，即对所有的文书都提取同样的标签，即按照专项业务要求格式输出抽取的信息。