CN111709231B

CN111709231B - 一种基于自注意变分自编码的类案推荐方法

Info

Publication number: CN111709231B
Application number: CN202010366669.8A
Authority: CN
Inventors: 余正涛; 宋燃; 高盛祥; 郭军军; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2022-11-18
Anticipated expiration: 2040-04-30
Also published as: CN111709231A

Abstract

本发明涉及一种基于自注意变分自编码的类案推荐方法，属于自然语言处理技术领域。本发明包括步骤：对案件文本进行分词、构建词表和隐去案件类型的预处理；获取案件文本的词频统计特征；使用自注意力机制得到案件文本的上下文特征；构建基于自注意机制的变分自编码模型，融合文本的词频统计特征和上下文特征，得到案件的融合特征向量；使用融合特征向量的期望作为案件文本的表征向量，再使用这个向量计算与其他向量的相似性从而实现类案推荐。本发明利用变分自编码融合统计特征和特征信息，挖掘文本的潜在特征，很好表征了案件文本，从而实现类案推荐。

Description

一种基于自注意变分自编码的类案推荐方法

技术领域

本发明涉及一种基于自注意变分自编码的类案推荐方法，属于自然语言处理技术领域。

背景技术

随着技术的发展和科技的进步，司法领域的智能化成为热点研究方向。智能类案推荐在司法智能化中扮演者重要角色，类案推荐是针对一个目标案件推荐与其相似的案件，其对案件检索、案件比对和案件相关性分析等都有很大的帮助，方便的法律工作者快速的查找出案件类似案件。类案推荐实现可转化文文本的相似度计算问题，其关键在于如何更有效的提取案件文本的特征。对于案件文本来说，案件文本通常是描述相关内容，其描述通常具有一定的特性，主要表现为结构固定、用语固定，文本长短差异大等特点。其一，案件文本中对罪名的陈述部分都要遵循固定的格式，其结构相对固定；其二，对案件文本中的事件描述具有一定的规范性，具有固定用词方式，案件文本需要做到表意精确，解释单一，因此案件文本中的叙事部分用词普遍单一，用词重复多。其三，由于各个案件的叙事过程和证据掌握程度都不同，各个案件文本的篇幅长短也有很大的差别。为解决以上问题本方法考虑融合文本的统计特征和上下文特征，借助了变分自编码挖掘隐含特征，并使用每个文档的变分向量计算出案件文本间的距离，选出与目标文本的变分向量距离最近的向量以实现类案推荐。

发明内容

为了解决上述存在的问题，本发明提供了一种基于自注意变分自编码的类案推荐方法，实现了司法领域的类案推荐，本发明在类案推荐任务上取得了较好的效果。

本发明的技术方案是：一种基于自注意变分自编码的类案推荐方法，所述方法的具体步骤如下：

Step1、对案件文本进行分词、构建词表和隐去案件类型的预处理；

其中，可以从裁判文书网获取法律文书当作案件文本，选取10类案件作为类案推荐数据集，对案件文本进行分词、构建词表、隐去案件文本中的罪名和适用法律条文等与案件类别有直接关系的信息；

Step2、获取案件文本的词频统计特征：首先使用词袋模型将文本进行编码得到案件文本的词频信息，然后使用MLP网络提取出词频信息中的词频统计特征h_i。其过程可描述为：

c_i＝f_bow(X_i)

h_i＝MLP(c_i)

其中f_bow(·)为词袋模型，h_i为包含统计特征的向量，X_i表示案件文本。

Step3、使用自注意力机制得到案件文本的上下文特征：首先获取案件文本的词嵌入特征和位置信息，再利用自注意机制从词嵌入特征和位置信息中提取出案件文本的上下文特征

其过程可描述为：

X_iW_em＝E_i

Q,K,V＝MLP_q(E_i),MLP_k(E_i),MLP_v(E_i)

其中W_em为嵌入矩阵，

为K向量的维度，

为包含内容特征的向量。

Step4、构建基于自注意机制的变分自编码模型，融合文本的词频统计特征和上下文特征，得到案件的融合特征向量；

Step5、使用融合特征向量的期望作为案件文本的表征向量，再使用这个向量计算与其他向量的相似性从而实现类案推荐。可描述为：

μ_i＝MLP_μ([H])

score＝f_cross(μ_t,μ_i)

其中μ_t为其他案件的向量，f_cross为余弦距离，分数越高则两个案件越相似。

进一步地，所述步骤Step4中，使用统计特征和上下文特征共同表征案件文本，将统计特征和上下文特征融合

使用MLP网络拟合出融合特征的期望和方差，最后使用重参数技巧使特征向量z服从正态分布z＝MLP_μ(H)+MLP_σ(H)*ε其中ε～N(0,I)。

进一步地，所述步骤Step4中，变分自编码模型的编码器输入为文本的词频统计特征和上下文特征，解码器输出的重构特征为文本的词频特征。

进一步地，所述步骤Step4构建基于自注意机制的变分自编码模型的具体步骤如下：

Step4.1、使用词袋模型和MLP网络获取文本词频特征h_i：h_i＝bow(X_i)，其中h_i为包含统计特征的向量，X_i表示案件文本，bow统计特征获取模型；

Step4.2、使用自注意机制获取上下文特征

其中

为

包含上下文特征的向量，X_i表示案件文本，selfattention为自注意力机制；

Step4.3、根据变分自编码的特点构建变分自编码模型，模型编码器为：

μ_i＝MLPμ(H_i)

σ_i＝MLP_σ(H_i)

z_i＝μ_i+σ_i∈_i

其中MLP_μ为均值提取层，MLP_σ为方差提取层，μ_i为H_i的均值向量，σ_i为H_i的方差向量，z_i为隐含向量，∈_i为一个采样自正太分布的向量；

模型解码器为：

β_i＝softmax(z_i)

其中MLP_d为解码层，

为重构向量，β_i变分向量的分布；

损失函数定义为：

其中c_i为文本的词频统计特征，

为重构损失，

为KL散度损失，

为总损失,d维向量的维度，μ_ij为向量μ_i中的元素，σ_ij为向量σ_i中的元素。

本发明的有益效果是：

1、本发明针对案件文本结构相似用词重复的特点，使用自注意机制获取文本的上下特征；

2、本发明针对案件文本长短不一的特点，上下文特征不能很好的覆盖整篇文本，使用词袋模型获取文本的统计特征，解决了上下文特征表征不全的问题；

3、本发明利用变分自编码融合统计特征和特征信息，挖掘文本的潜在特征，很好表征了案件文本，从而实现类案推荐。

附图说明

图1为本发明中的流程图；

图2为本发明提出的基于自注意变分自编码的类案推荐模型。

具体实施方式

实施例1：如图1-2所示，一种基于自注意变分自编码的类案推荐方法，所述方法的具体步骤如下：

a1、案件文本的收集：对案件文本进行分词、构建词表和隐去案件类型的预处理；

其中，本发明构建了20126个案件文本，数据来源于裁判文书网，将案件文本中的罪名条目去除，共10类型的刑事案件包括故意杀人、非法经营等。每个案件文本都对应一个案件类型，少数案件文本对应多个案件条目，从中选一个作为改案件文本的案件条目，案件文本中罪名和适用法律条例已被隐去；

a2、案件文本预处理：本文从20126个案件文本数据集上选取词频大于3的词去除停用词构建了35281词表；

a3、获取案件文本的词频统计特征：首先使用词袋模型将文本进行编码得到案件文本的词频信息，然后使用MLP网络提取出词频信息中的词频统计特征h_i，隐藏层维度为256维，激活函数使用Relu；其过程可描述为：

c_i＝f_bow(X_i)

h_i＝MLP(c_i)

a4、使用自注意力机制得到案件文本的上下文特征：首先使用词嵌入将案件文本嵌入向量，嵌入向量的维度为256维，获取案件文本的词嵌入特征和位置信息，再利用自注意机制从词嵌入特征和位置信息中提取出案件文本的上下文特征

隐藏层维度为256，注意力头个数为8，激活函数使用Relu；

其过程可描述为：

X_iW_em＝E_i

Q,K,V＝MLP_q(E_i),MLP_k(E_i),MLP_v(E_i)

其中W_em为嵌入矩阵，

为K向量的维度，

为包含内容特征的向量。

a5、构建基于自注意机制的变分自编码模型，融合文本的词频统计特征和上下文特征，得到案件的融合特征向量；

进一步地，所述步骤a5中，使用统计特征和上下文特征共同表征案件文本，将统计特征和上下文特征融合

进一步地，所述步骤a5中，变分自编码模型的编码器输入为文本的词频统计特征和上下文特征，解码器输出的重构特征为文本的词频特征。

进一步地，所述步骤a5构建基于自注意机制的变分自编码模型的具体步骤如下：

Step5.1、使用词袋模型和MLP网络获取文本词频特征h_i：h_i＝bow(X_i)，其中h_i为包含统计特征的向量，X_i表示案件文本，bow统计特征获取模型；

Step5.2、使用自注意机制获取上下文特征

其中

为

Step5.3、根据变分自编码的特点构建变分自编码模型，模型编码器为：

μ_i＝MLP_μ(H_i)

σ_i＝MLP_σ(H_i)

z_i＝μ_i+σ_i∈_i

模型解码器为：

β_i＝softmax(z_i)

其中MLP_d为解码层，

为重构向量，β_i变分向量的分布；

损失函数定义为：

其中c_i为文本的词频统计特征，

为重构损失，

为KL散度损失，

a6、使用融合特征向量的期望作为案件文本的表征向量，再使用这个向量计算与其他向量的相似性从而实现类案推荐。可描述为：

μ_i＝MLP_μ([H])

score＝f_cross(μ_t,μ_i)

类案推荐的评价标准：对于A类的每个案件文本都将其编码为向量z，A类案件共有N个，计算这个案件的编码向量与其他所有的编码向量的余弦相似度，选出K个与这个案件最相似的案件。其中M表示这K个案件中属于A类的案件，于是对于所有的A类的案件则有：

S^A就是A类案件的同类准确率。K取不同值可检测不同的区间精确度。

为了验证案件文本表征向量在嵌入空间中表征质量，本文进行了案件表征的准确率实验，表1分别使用一系列模型将案件文本编码为嵌入向量，然后使用上文所提出的评测方法得出每类案件的准确度K取各类案件的总数，保证覆盖所有的案例；其中，BOW为使用词袋模型对案件文本进行表征，TF-IDF为使用词频逆文档频率对案件文本进行编码,BERT(DIRECTLY)是直接使用BERT对案件文本进行编码，BERT+MLM为使用BERT在案件文本上进行MLM任务微调后再对案件文本进行编码，VAE+BOW为使用变分自编码对案件文本的词频统计特征进行编码，VAE+BOW+ATT为本发明方法。

表1类案推荐准确率表

分析表1可知，从实验可以看出无论是单从统计信息或是单从内容信息都无法完整的表征案件文本的信息。本文提出的方法同时考虑了案件文本的统计特征和内容特征，在大多数案件上都获得了较好的效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。