CN111859936A

CN111859936A - 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法

Info

Publication number: CN111859936A
Application number: CN202010654090.1A
Authority: CN
Inventors: 陈志奎; 李超杰; 钟芳明
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-30
Anticipated expiration: 2040-07-09
Also published as: CN111859936B

Abstract

一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法，属于深度学习技术领域，步骤为：1)文本数据向量化处理得到文本对应的向量矩阵；2)通过TextCNN模块提取文本数据的空间结构特征；3)通过TextRNN模块提取文本数据的序列信息特征；4)利用张量将文本数据的空间结构特征和序列信息特征构造为表征能力更强的高阶数据块；5)在soft‑max层以高阶数据块作为输入进行分类，得到案件的专业管辖权结果。本发明针对跨域立案中的文本起诉材料设深度混合计算网络，有效融合TextCNN和TextRNN，联合学习文本数据的空间结构特征和序列信息特征，并为此采用张量外积的方式将两种特征提取结果构造成具有丰富语义的高阶数据块，完成分类任务，识别出案件的专业管辖权结果。

Description

一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法

技术领域

本发明属于深度学习技术领域，涉及一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法。

背景技术

随着经济社会的发展，人民群众的司法需求与日俱增，司法为民的广度和深度急需全面拓展。与此同时，“互联网+”、大数据、云计算等科技不断取得迅猛的发展，通过利用互联网技术的红利，提供更加便民利民能真正让当事人享受到便捷优质的诉讼服务，契合了时代发展的要求，符合人民群众对司法领域新的需求。跨域立案正是这一背景下司法为民便民的当代实践。通过跨域立案，当事人可以就近选择收件法院，通过法院间的文件转换系统向具有管辖权的法院提交诉讼材料，实现远程立案，避免长途奔波。不可忽视的是，便利的起诉条件也容易增加当事人将案件起诉到法院以解决纠纷的动力，致使法院案件增多，加剧法院案多人少的矛盾等。为了避免跨域立案推广所带来的进一步潜在负担，提高立案的效率势在必行。

由于跨域立案中的诉讼材料大部分为文本形式，因此有许多研究者将基于机器学习的文本分类算法应用于诉讼材料。其中，最具影响力的机器学习方法包括贝叶斯网络，决策树，支持向量机和人工神经网络。贝叶斯网络关注文档属于特定类别的概率。决策树侧重于数据空间的层次分解。支持向量机通过构造分类超平面来最大化分类间隔。人工神经网络通过浅层前馈网络实现文本分类。但是，这些方法都是浅层的机器学习模型，限制了它们表达复杂函数的能力，进而导致对复杂语义的理解不准确。深度学习凭借其复杂的网络结构有效地解决了上述问题。在文本分类领域，使用最广泛的深度学习方法为基于卷积神经网络的文本分类模型(TextCNN)和基于递归神经网络的文本分类模型(TextRNN)。凭借其独特的卷积运算，TextCNN可有效捕获文本数据在空间结构上的局部相关性。但是，TextCNN却无法有效地对文本数据中的序列信息进行建模，这一缺点限制了TextCNN的功能。TextRNN利用其特定的有向递归结构可以有效解决输入文本之间的上下文依赖问题。但是，TextRNN提取文本特征的能力却不如TextCNN强大。

因此，本发明针对跨域立案过程中案件的专业管辖权识别问题，主要考虑有效融合TextCNN和TextRNN的优势，提出了一种基于深度混合网络(Hybrid)的面向跨域立案的法律文书专业管辖权识别方法。

发明内容

本发明提出一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法。该方法采取并行组合的方式，在互不干扰的前提下，使用TextCNN和TextRNN分别提取文本数据的空间特征和序列特征，以此解决特征提取和序列信息建模的问题；此外，为了更有效利用特征提取结果，本发明对于提取的空间特征和序列信息结果不做简单拼接处理，选择使用张量外积的方法构造一个高阶数据块以融合它们，使其包含更丰富的信息并具有强大的表示能力，最终提高案件专业管辖权识别的精度，召回率，F1分数值和准确率。

为了达到上述目的，本发明采用的技术方案为：

一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法，包括以下步骤：

步骤1、文本数据的向量化处理，得到文本对应的向量矩阵；

步骤2、通过TextCNN模块提取文本数据的空间结构特征；

步骤3、通过TextRNN模块提取文本数据的序列信息特征；

步骤4、利用张量将文本数据的空间结构特征和序列信息特征构造为表征能力更强的高阶数据块；

步骤5、在soft-max层，以这个高阶数据块作为输入，进行分类，得到案件的专业管辖权结果；

本发明的有益效果为：本发明针对跨域立案中的文本起诉材料设计了一种深度混合计算网络，主要考虑有效融合TextCNN和TextRNN的优势，联合学习文本数据的空间结构特征和序列信息特征，并为此采用张量外积的方式将两种特征提取结果构造成具有丰富语义的高阶数据块，进而完成分类任务，识别出案件的专业管辖权结果。实验表明，本发明在文本分类方法常用的评价指标Precision，Recall，F1 Score和Accuracy上，有效提高了分类性能。

附图说明

图1基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法框架图；

图2本发明提出方法的流程图；

具体实施方式

下面结合附图对本发明的实施方式做进一步说明。

图1为基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法框架图。首先采用对文本数据进行分词处理，统计出其中的Top5000高频词汇，使用Word2Vec对单词进行预训练，并将文本填充为统一的长度得到固定大小的向量化结果。其次，通过TextCNN和TextRNN模块分别提取文本数据的空间结构特征和序列信息特征。然后，使用张量外积的方式将捕获的特征结果构造成表征能力更强的高阶数据块，其中低阶主要表达文本数据的空间特征，而高阶主要表达序列信息。最后，使用soft-max分类器对特征融合结果进行分类，得到案件应属的专业管辖权识别结果。具体步骤如下：

步骤1、文本的向量化表示；

在自然语言处理领域中，首要解决的问题就是如何使计算机能够有效识别人类语言。计算机无法直接处理自然语言，想要完成文本数据分析和分类任务，最直接的想法是将文本编码成计算机能够直接处理的数字信息。本发明中首先采用结巴分词模块对文本数据进行分词处理；为了使语义更加明确，选择删除在文本中没有实际意义的停用词，这里采用的是百度停用词列表；然后统计文本中单词出现的频率，选出Top5000的高频词汇作为词汇表；进而利用Word2Vec完成预训练，将单词转化为词嵌入向量；最后利用预训练得到的词向量替换文本数据中的单词，并将文本数据填充为统一的长度，如此将可变长度的文本数据转换为固定大小的l*k维矩阵的输入文本，其中l表示文档中单词的数量，k表示预训练单词转化为向量后的维度。

步骤2、TextCNN模块提取文本数据的空间结构特征；

卷积神经网络(CNN)的局部感知野用作网络结构的输入，每一层通过卷积核得到输入数据的显著特征。其权值共享结构不仅可以减少权值的总数，而且可以降低模型的复杂性，避免过拟合。本发明中使用交替连接的卷积层和池化层对原始特征进行特征提取和数据降维，得到初始文本数据经过处理的特征图，即数据的空间结构特征提取结果。对于输入文本经过向量化处理之后得到的嵌入层E₁，将数据表示为X∈R^l×k，其中l表示文档中单词的数量，k表示预训练单词转化为向量后的维度。卷积核的大小为w∈R^d×k，其中d代表该卷积核可以提取到的单词个数。每次操作都是对E₁中的d个单词进行卷积运算，通过公式(1)得到对应的特征提取结果q_j。

q_j＝f(w·x_j:j+d+b) (1)

其中b代表偏置项，j代表卷积运算在数据X中的起始位置，f代表ReLU激活函数。本发明中共选择使用n个卷积核完成特征提取的任务，得到的特征提取结果如公式(2)所示。

Q＝[q₁,q₂,...,q_n] (2)

这里q_i对应着第i个卷积核捕获的特征提取结果。在本发明中，将n个卷积核设置为相同大小，以学习互补性的特征。在每次卷积运算之后，使用最大池化运算来获得特征提取结果中的最大值，如此可以获得其中的显著特征，同时有效降低该模块的复杂度。

步骤3、TextRNN模块提取文本数据的序列信息特征；

循环神经网络(RNN)具有独特的方向环结构，使得它可以记住句子中的长距离依赖关系，进而使网络具有保留文本中主要语义信息的能力。LSTM是循环神经网络的一种变体，通过在RNN中添加门控单元用以控制数据的传输，LSTM能够有效解决RNN存在的长期依赖以及梯度消失或爆炸的问题。故本发明中在TextRNN模块中选择使用LSTM完成对文本数据序列信息特征的提取任务。在每个时刻t,LSTM通过吸收前一时刻的隐藏状态h_t-1和单元状态c_t-1以及当前时刻的输入x_t，生成当前时刻的隐藏状态h_t和单元状态c_t。c_t的计算过程如下:

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (3)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (4)

h_t的计算过程如下：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (7)

其中σ代表Sigmoid函数，·代表矩阵乘法，

代表逐元素乘法。f_t，i_t和o_t分别代表遗忘门，输入门和输出门的输出结果。W_f，W_i和W_o分别代表遗忘门，输入门和输出门的权重，b_f，b_i和b_o分别代表遗忘门，输入门和输出门的偏差。W_c和b_c分别代表更新单元状态的权重和偏差。

代表当前时刻单元状态的更新值。输出门的最后隐藏状态h_{t_last}用作该模块的输出，作为文本数据的序列信息特征捕获结果。

步骤4、基于张量(Tensor)的特征融合；

对于TextCNN和TextRNN模块提取的特征结果，本发明中使用了张量外积方法进行融合，而不是以往大多数工作中的直接拼接的方式。通过张量外积的运算，构造出表征能力更强的高阶数据块，其中低阶主要表达文本数据的空间特征，而高阶主要表达序列信息。张量是矢量在高维空间中的扩展，N阶张量表示为

其中N是张量的阶数，I_n是张量在第n阶的维数。对于一个N阶张量

和一个M阶张量

它们的外积产生一个(M+N)阶张量

其中的元素

定义为:

其中a和b分别是张量A和B中的元素。通过这种方式，本发明将TextCNN模块和TextRNN模块分别提取到的文本数据的空间结构特征Q和序列信息特征h_{t_last}构造成高阶的数据块X^s作为文本数据的特征融合结果，并将其作为下一阶段soft-max分类函数的输入。

步骤5、soft-max分类，得到案件的专业管辖权结果；

本发明的最后一部分是完成对案件专业管辖权的识别，即对输入的文本数据进行分类，得到其应属的专业管辖权类别。本发明中将文本数据的特征融合结果X^s作为soft-max分类器层的输入，并输出一个r维的类别向量y,其中r和专业管辖权类别的数量相等，且y中每一个元素的数值范围为0-1。soft-max使用归一化指数函数估计类概率，计算过程如下式：

其中u代表专业管辖权所属的类别；K代表专业管辖权所属的类别集合；W_p和b_p分别代表soft-max分类器层的权重和偏差。最终选择概率最大的类别标签作为该案件专业管辖权的识别结果。在模型的训练过程中，通过最小化正确标签的负似然对数，生成有关权重和偏置的最大似然。本发明使用反向传播算法进行训练，使用了TensorFlow中的梯度下降优化器。

验证结果：

本发明中使用的法律文本数据集由2068个案例材料组成，收集于裁判文书网。其中包括三种类型的专业管辖法院和普通法院，案件根据它们所属的专业法院进行分类。具体地，知识产权法院520件，互联网法院511件，铁路运输法院504件，普通法院533件。在实验中，随机选择80％的数据用于模型训练，另外20％的数据用于测试。数据集的详细信息如表1所示。

表1 数据集的基本信息

类别	样本数量	训练集数量	测试集数量
				知识产权法院	520	416	104
互联网法院	511	408	103
				铁路运输法院	504	403	101
普通法院	533	426	107

本发明的评价标准为精度(Precision)，召回率(Recall)，F1分数值(F1 score)和准确率(Accuracy)。

为了验证本发明的性能，选择业界流行的两个典型文本分类方法进行对比：基于卷积神经网络的文本分类方法(TextCNN)，基于循环神经网络的文本分类方法(TextRNN)。此外，为了验证张量融合(Tensor)方法的有效性，增加对比实验，实验设置为在本发明的深度混合网络(Hybrid)保持不变的基础上对特征提取结果使用直接拼接(Stitching)的方式进行融合。

表2和表3分别显示了TextCNN方法和TextRNN方法在法律文本测试数据集上分类结果的混淆矩阵。表4显示了选择直接拼接方式对TextCNN和TextRNN模块捕获的特征进行融合的实验结果。表5显示了本发明方法的实验结果。表6显示了本发明方法和几种基准方法在每种评估指标上的平均结果。

表2 TextCNN方法在测试集上分类结果的混淆矩阵

表3 TextRNN方法在测试集上分类结果的混淆矩阵

表4 Hybrid+Stitching方法在测试集上分类结果的混淆矩阵

从实验结果可以看出，与典型方法TextCNN和TextRNN相比，本发明的深度混合网络(Hybrid)的性能在各种评估指标中均达到了最佳结果。这说明本发明设计的深度混合网络对于提取文本特征以提高分类效果更有效。在保持深度混合网络不变的情况下，本发明中还使用对特征提取结果进行以直接拼接的方式进行融合作为比较的基线。结果表明本发明采用的张量融合方法结果明显优于传统的拼接方法，说明本发明中构造的高阶数据块包含更多的信息，具有更强的特征表示能力。

表5 Hybrid+Tensor方法在测试集上分类结果的混淆矩阵

表6 基于不同方法的分类平均结果比较

方法	Precision	Recall	F1 Score	Accuracy
					TextCNN	93.41	91.50	91.51	91.50
TextRNN	92.48	91.84	91.79	91.84
					Hybrid+Stitching	93.44	92.52	92.52	92.52
Hybrid+Tensor	97.13	97.11	97.0	97.11

以上所述实施例仅表达本发明的实施方式，但并不能因此而理解为对本发明专利的范围的限制，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法，其特征在于，包括以下步骤：

步骤1、文本的向量化表示；

采用结巴分词模块对文本数据进行分词处理，采用百度停用词列表删除在文本中没有实际意义的停用词，再统计文本中单词出现的频率，选出Top5000的高频词汇作为词汇表；利用Word2Vec完成预训练，将单词转化为词嵌入向量，利用预训练得到的词向量替换文本数据中的单词，并将文本数据填充为统一的长度，将可变长度的文本数据转换为固定大小的l*k维矩阵的输入文本，其中l表示文档中单词的数量，k表示预训练单词转化为向量后的维度；

步骤2、TextCNN模块提取文本数据的空间结构特征；

对于输入文本经过向量化处理之后得到的嵌入层E₁，将数据表示为X∈R^l×k，其中l表示文档中单词的数量，k表示预训练单词转化为向量后的维度；卷积核的大小为w∈R^d×k，其中d代表该卷积核提取到的单词个数；每次操作都是对嵌入层E₁中的d个单词进行卷积运算，通过公式(1)得到对应的特征提取结果q_j；

q_j＝f(w·x_j:j+d+b) (1)

其中，b代表偏置项，j代表卷积运算在数据X中的起始位置，f代表ReLU激活函数；共选择使用n个卷积核完成特征提取的任务，得到的特征提取结果如公式(2)所示；

Q＝[q₁,q₂,...,q_n] (2)

其中，q_i对应着第i个卷积核捕获的特征提取结果；将n个卷积核设置为相同大小，学习互补性的特征；在每次卷积运算之后，使用最大池化运算获得特征提取结果中的最大值，获得其中的显著特征，降低该模块的复杂度；

步骤3、TextRNN模块提取文本数据的序列信息特征；

在每个时刻t，LSTM通过吸收前一时刻的隐藏状态h_t-1和单元状态c_t-1以及当前时刻的输入x_t，生成当前时刻的隐藏状态h_t和单元状态c_t；c_t的计算过程如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (3)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (4)