CN110956044A

CN110956044A - 一种基于注意力机制的司法场景用文案输入识别分类方法

Info

Publication number: CN110956044A
Application number: CN201911214543.2A
Authority: CN
Inventors: 袁馨; 谢文锐
Original assignee: Beiming Software Co ltd
Current assignee: Beiming Software Co ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-03

Abstract

本发明公布了文案输入识别分类技术领域的一种基于注意力机制的司法场景用文案输入识别分类方法，具体步骤为：首先获取文本数据集，并对其构建语义扩展矩阵，对预处理后的文本进行特征选择，组成文本数据集的特征空间，将嵌入式矩阵中的数据导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中，将不同维度的数据进行拼接融合，处理后的数据导入Softmax分类器进行归一化处理，使用全局长期依赖关注局部语义特征，可以去除冗余或者不相关特征，提高文本分类效率，将提取的特征进行融合，能够丰富、细致地提取文本语料中的深度语义特征，提高了模型对司法短文本特征的识别能力，提高对司法文案文本的识别分类效率。

Description

一种基于注意力机制的司法场景用文案输入识别分类方法

技术领域

本发明涉及文案输入识别分类技术领域，具体为一种基于注意力机制的司法场景用文案输入识别分类方法。

背景技术

搜索引擎技术是近些年来互联网发展中出现的一项新技术，其应用的目的是帮助互联网用户在浩如烟海的信息中快速地找到并显示其所需信息，法律搜索引擎可以帮助用户在海量司法库中快速地找到并显示其所需信息，司法文本类型细分种类繁多，说白了，搜索引擎就是一种分类手段，文本分类技术可以识别出用户想要查询的司法文本类型，再通过搜索引擎中的倒排索引等排序技术返回用户想要的结果，在此过程中，用户输入文本存在模糊性、多意图性和不规范性等特点，所以输入文本不规范、用户输入不规范等输入方式多样化使文本中出现不规则特征词和分词词典无法识别的未登录词，传统的文本分类理解不了用户查询意图的主次，增加了分类的难度，并且在一定程度上导致无法准确的获取短文本的特征表示，分类的效率不高，因此，我们提出一种基于注意力机制的司法场景用文案输入识别分类方法。

发明内容

本发明的目的在于提供一种基于注意力机制的司法场景用文案输入识别分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于注意力机制的司法场景用文案输入识别分类方法，其具体步骤为：

A：获取文本数据集，对收集得到的司法文本数据进行数据预处理，将每一个词进行向量化并表示并组成映射矩阵，然后利用利用映射矩阵和权值为1的核矩阵进行一维卷积运算，检测出短文本中潜在的多尺度候选语义单元；

B：构建语义扩展矩阵，作为短文本的扩展信息，同时获取短文本中文本序列的语义特征，将短文本的语义特征向量赋予分类器，对短文本的类别进行预测；

C：对预处理后的文本进行特征选择，组成文本数据集的特征空间，对特征空间中的数据进行整理构建得到词汇表，并进行数据向量化形成嵌入式矩阵，并利用自身注意力机制进行自我学习，得到自我关注向量；

D：将嵌入式矩阵中的数据导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中，将不同维度的数据进行拼接融合；

E：集成融合后的数据导入到全连接层中进行处理，处理后的数据导入Softmax分类器进行归一化处理，输出样本属于各个类别的概率，以最大值对应的类别，作为文本类别识别的结果，即可通过文本分类模型实现司法文本的快速分类。

步骤B中使用双向长短期记忆网络来捕获文本序列的全局长期依赖，同时，使用多尺度卷积神经网络提取文本序列的局部语义特征。

步骤C中自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量，且利用co-attention协同注意力机制明确问题的意图，其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量。

步骤D中的注意力机制权重模型将提取的全局长期依赖和每个位置的局部语义特征作为输入，用局部语义特征关注全局长期依赖产生局部指导的全局注意力权重，进行加权得到加权全局特征，用全局长期依赖关注局部语义特征产生全局指导的局部注意力权重，进行加权得到加权局部特征。

步骤D中的LSTM由于自身以阵列的形式形成神经网络层，十分适合处理文本向量这种一维的序列化数据，双层的LSTM可以比较充分地挖掘出文本的序列化特征，CNN比较适合用来提取文本不同卷积核尺寸下的文本粒度特征。

双层的LSTM所提取的特征对注意力算法模块提取的特征信息进行强化，将双层LSTM提取出的特征与注意力机制提取的特征进行融合，可以增强注意力机制所提文本特征包含文本语义特征信息的丰富程度，LSTM与注意力机制的输出融合结果与CNN的提取特征进行融合可以进一步强化其特征信息丰富度与全面性，能够丰富、细致地提取文本语料中的深度语义特征。

与现有技术相比，本发明的有益效果是：

1、该发明保留了词的特征信息，取文本序列的局部信息和全局信息来建模文本表示，获得较为全面的文本特征，用双向长短期记忆网络提取全局特征，用卷积神经网络提取局部特征，并显式地学习这两种特征之间的交互，从而得到更好的文本全局和局部特征表示，同时，使用局部语义特征关注全局长期依赖，可以建模文本序列的组合语义，得到丰富的复杂语义特征，另外，使用全局长期依赖关注局部语义特征，可以去除冗余或者不相关特征，便于提高文本分类的精度；

2、采用自身注意力机制和协同注意力机制的协同配合提供了不同的视角去审视用户的输入文本，能够消除词级上存在的一词多义问题，用以学习高质量的向量表示，便于更快的除去冗杂的文本语义信息，提高文本分类效率；

3、LSTM由于自身以阵列的形式形成神经网络层，十分适合处理文本向量这种一维的序列化数据，双层的LSTM可以比较充分地挖掘出文本的序列化特征，CNN比较适合用来提取文本不同卷积核尺寸下的文本粒度特征，双层的LSTM所提取的特征对注意力算法模块提取的特征信息进行强化，将双层LSTM提取出的特征与注意力机制提取的特征进行融合，可以增强注意力机制所提文本特征包含文本语义特征信息的丰富程度，LSTM与注意力机制的输出融合结果与CNN的提取特征进行融合可以进一步强化其特征信息丰富度与全面性，能够丰富、细致地提取文本语料中的深度语义特征，从而提高了模型对司法短文本特征的识别能力。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

一种基于注意力机制的司法场景用文案输入识别分类方法，其具体步骤为：

其中，步骤B中使用双向长短期记忆网络来捕获文本序列的全局长期依赖，同时，使用多尺度卷积神经网络提取文本序列的局部语义特征，取文本序列的局部信息和全局信息来建模文本表示，获得较为全面的文本特征，用双向长短期记忆网络提取全局特征，用卷积神经网络提取局部特征，并显式地学习这两种特征之间的交互，从而得到更好的文本全局和局部特征表示，同时，使用局部语义特征关注全局长期依赖，可以建模文本序列的组合语义，得到丰富的复杂语义特征，另外，使用全局长期依赖关注局部语义特征，可以去除冗余或者不相关特征，便于提高文本分类的精度；

步骤C中自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量，且利用co-attention协同注意力机制明确问题的意图，其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量，采用自身注意力机制和协同注意力机制的协同配合提供了不同的视角去审视用户的输入文本，能够消除词级上存在的一词多义问题，用以学习高质量的向量表示，便于更快的除去冗杂的文本语义信息，提高文本分类效率；

步骤D中的注意力机制权重模型将提取的全局长期依赖和每个位置的局部语义特征作为输入，用局部语义特征关注全局长期依赖产生局部指导的全局注意力权重，进行加权得到加权全局特征，用全局长期依赖关注局部语义特征产生全局指导的局部注意力权重，进行加权得到加权局部特征；

步骤D中的LSTM由于自身以阵列的形式形成神经网络层，十分适合处理文本向量这种一维的序列化数据，双层的LSTM可以比较充分地挖掘出文本的序列化特征，CNN比较适合用来提取文本不同卷积核尺寸下的文本粒度特征；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：其具体步骤为：

2.根据权利要求1所述的一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：步骤B中使用双向长短期记忆网络来捕获文本序列的全局长期依赖，同时，使用多尺度卷积神经网络提取文本序列的局部语义特征。

3.根据权利要求1所述的一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：步骤C中自我关注向量包括问题文本的自我关注向量和答案文本的自我关注向量，且利用co-attention协同注意力机制明确问题的意图，其中包括获取问题—答案视图、从不同的视角理解问题及输出问题向量。

4.根据权利要求1所述的一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：步骤D中的注意力机制权重模型将提取的全局长期依赖和每个位置的局部语义特征作为输入，用局部语义特征关注全局长期依赖产生局部指导的全局注意力权重，进行加权得到加权全局特征，用全局长期依赖关注局部语义特征产生全局指导的局部注意力权重，进行加权得到加权局部特征。

5.根据权利要求4所述的一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：步骤D中的LSTM由于自身以阵列的形式形成神经网络层，十分适合处理文本向量这种一维的序列化数据，双层的LSTM可以比较充分地挖掘出文本的序列化特征，CNN比较适合用来提取文本不同卷积核尺寸下的文本粒度特征。

6.根据权利要求5所述的一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：双层的LSTM所提取的特征对注意力算法模块提取的特征信息进行强化，将双层LSTM提取出的特征与注意力机制提取的特征进行融合，可以增强注意力机制所提文本特征包含文本语义特征信息的丰富程度，LSTM与注意力机制的输出融合结果与CNN的提取特征进行融合可以进一步强化其特征信息丰富度与全面性，能够丰富、细致地提取文本语料中的深度语义特征。