一种基于犯罪行为链的裁判文书分析方法
技术领域
本发明涉及信息抽取、文本处理领域,特别涉及到一种基于犯罪行为链的裁判文书分析方法。属于自然语言处理和机器学习技术领域。
背景技术
大数据和人工智能的信息科技迅速发展,为司法数据信息化建设提供了强有力的支撑。近些年来,“智慧法院”也成为了引人关注的重点计划。然而,面对海量的司法文本数据,如何高速有效利用信息抽取技术,从而准确抽取出文本中的犯罪行为,并将其构建为完整的犯罪行为链,有效地提高司法质效,仍是一个亟待解决的问题。
现有的中文法律文本挖掘,主要涉及的是案件文本的分类和案件信息的抽取,大多更关注于对裁判文书进行关键词(主题词)的抽取,进而对裁判文书进行分类,其更多地属于针对文本的浅层分析和应用,未能充分考虑案件文本中以“犯罪行为”为核心的案情特征要素,并不能有效支撑法条推荐、类案推送、辅助量刑等辅助审判工作。
发明内容
本发明针对“智慧法院”建设过程中面临的辅助审判问题,面向司法审判中的裁判文书,研究基于犯罪“行为链”的裁判文书分析与应用方法,重点解决基于犯罪“行为链”的辅助办案方法。在具体的司法实践中,有效支撑法条推荐、类案推送、辅助量刑等辅助审判工作。根据司法审判中的裁判文书的特点,提出基于CNN和Bi-LSTM拼接的神经网络模型的方法进行分析。其模型框架如附图1 所示。
本发明的技术方案是:一种基于犯罪行为链的裁判文书分析方法,所述方法包括以下步骤:步骤一:从案情的事实描述中抽取信息,声明犯罪行为链的概念及构建规则,以此构建犯罪行为链;步骤二:使用TextCNN从案情的事实描述中获取语义信息;步骤三:基于犯罪行为链,使用Bi-LSTM方法将其进行向量表示,进行文本分类;步骤四:提出将TextCNN方法的结果与Bi-LSTM方法的结果拼接输出的神经网络结构的裁判文书分析方法,其识别结果可以用来支撑多种辅助审判应用。
所述步骤一中,本步骤主要声明犯罪行为链的概念及构建规则,以此构建犯罪行为链。“犯罪行为链”以“行为词”为中心,围绕“行为词”提取给定案件中的关键案情要素特征,通过“犯罪行为链”构建行为词与其它以“行为”为中心的特征词之间的关联关系,例如时序关系和因果关系。进而构建“犯罪行为链”。
所述步骤二中,TextCNN可以有效捕捉局部特征信息,使用句子和短文本级别的文本任务。本文将使用TextCNN用于案情事实描述的特征抽取。
所述步骤三中,使用BiLSTM模型进行建模,针对已构建完善的犯罪行为链,将其转换为向量表示作为输入。本步骤的预期结果是获得精准的犯罪行为分类结果,实现基于犯罪行为链特征的获取。
所述步骤四中,提出基于犯罪行为链的裁判文书分析方法。将步骤二的 TextCNN方法与BiLSTM方法的结果进行拼接,最后通过全连接层和softmax函数得到裁判文书分析结果。犯罪行为是句子中心,其识别存在高阶依赖,需要综合句子的整体结构和语义特征进行判断,还需要对输出标注路径的结构进行规划。犯罪行为链的构建过程复杂。本发明拟采用神经网络技术抽取句子的抽象语义特征和结构特征,并加入全局约束条件,优化训练过程。其模型框架如附图1所示。
针对现有法律裁判文书分析不足的问题,本发明基于深度神经网络技术的最新进展,提出一种以“裁判文书”和“犯罪行为链”为基础的裁判文书分析方法。在本发明中,在“裁判文书”的案情事实陈述中采用CNN方法,使用句子和短文本级别的文本任务,在已构建的犯罪行为链上采用Bi-LSTM方法,再将两个模型进行拼接,最后通过全连接层和softmax函数得到裁判文书分析结果。
而从识别技术来说,目前的知识抽取和知识表示中被广泛运用的深度学习方法已取得了较为优良的性能。目前大多知识表示任务都取得了重大的进展,可以将实体语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及之间的复杂语义关联,对知识库的构建、推理、融合以及应用具有重要意义。知识表示主要有代表模型、复杂关系翻译模型、多源异质信息融合模型等类别模型的研究。如,距离模型、单层神经网络模型、神经张量模型等等。
而深度学习方法与传统机器学习算法相比,深度网络使用更多的数据可以更好地扩展。经典的机器学习算法通常需要复杂的特征工程。首先在数据集上执行深度探索性数据分析,然后做一个简单的降低维数的处理。最后,必须仔细选择最佳功能以传递给机器学习算法。当使用深度网络时,不需要这样做,因为只需将数据直接传递到网络,通常就可以实现良好的性能。这完全消除了整个过程的大型和具有挑战性的特征工程阶段。
本发明,重点在于利用犯罪行为链来对裁判文书进行分析,提出搭建CNN 和Bi-LSTM拼接的神经网络模型的方法对法律裁判文书进行分析,从而为法律条文预测、自动量刑、类案推送等辅助审判应用提供技术支撑。
本发明的有益效果是:本发明针对司法领域,主要是使用案情描述和犯罪行为链对相关法条进行预测,而案情描述中真正对判案有帮助的文本信息较短,调研了相关的内容提出了基于犯罪行为序列的法律条文预测方法,有效地缓解了案情描述信息较短这一数据稀疏问题,很好地扩充了裁判文书中案情描述的信息并提出了犯罪行为链对于判案的重要性。犯罪行为链可以贯穿案件的发展态势,把握句子之间的犯罪行为可以帮助理解案情事件的轮廓及全局。通过分析犯罪行为的关系有助于揭示犯罪行为链的内在关系。利用裁判文书中的案情描述和事实部分,分析推荐案件涉及的相关法条、罪名、类案等信息,有效服务于司法辅助审判工作,是当前司法实践中需要解决的关键技术问题,有着重要的研究与应用价值。
本发明针对案件裁判文书数据中文本结构规则性较强、专业术语多、关键词专业性强、主题词较为明确、逻辑关系严谨、人员间关联程度高、犯罪行为词时序关系明显等特点,致力于解决针对裁判文书的犯罪行为链构建,实现对案情信息的有效描述。以实现对于案情语义的深层分析,助力法院审判流程的信息化、智能化和服务化,继而提供更加优质的诉讼服务,提高审判工作的效率和严谨性。审判人员期望能够通过这些问题的解决,推动法院的智能化应用,提升司法辅助工作的智能化水平,继而推进案件审判工作的公平性和严谨性。
附图说明
图1为本发明所述模型;
图2为本发明的犯罪行为链构建的模型。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
实施例1:如附图1所示。一种基于犯罪行为链的裁判文书分析方法,所述方法包括以下步骤:步骤一:从案情的事实描述中抽取信息,声明犯罪行为链的概念及构建规则,以此构建犯罪行为链;步骤二:使用TextCNN从案情的事实描述中获取语义信息;步骤三:基于犯罪行为链,使用Bi-LSTM方法将其进行向量表示,进行文本分类;步骤四:提出将TextCNN方法的结果与Bi-LSTM方法的结果拼接输出的神经网络结构的裁判文书分析方法,其识别结果可以用来支撑多种辅助审判应用。
步骤一中,本步骤基于前人提出的犯罪行为链构建方法。在步骤一中,首次进行犯罪行为识别,主要是从案件文档的句子中判断某个犯罪行为是否出现;其次进行犯罪要素识别,犯罪要素是指与犯罪行为相关的其它要素,如犯罪主体、犯罪客体、犯罪工具、犯罪时间、犯罪地点;然后,在句子中进行犯罪关系识别。所定义的犯罪关系包含:犯罪行为之间的时序关系或者犯罪行为与犯罪要素之间的主动关系或被动关系;最后,进行犯罪行为链的构建:将犯罪行为链看作一个图,把上述三步中的识别结果整合在一起,形成一条完整的犯罪行为链。
下面将结合附图2和实施例对本发明做进一步描述。
第一步,犯罪行为识别的主要目的是从案件文档的句子中判断某个犯罪行为是否出现,犯罪行为和一般行为的区别在于其关联到具体的犯罪主体或犯罪案件。在本发明中,利用哈工大的NLP系统识别出案件文档中识别出所有的行为词,用集合M={m1,m2,...,mn}表示,作为犯罪行为词的候选集,行为词与犯罪行为词之间存在区别,在后续步骤中,根据行为词与犯罪主体之间的关系,判断该行为词是否属于犯罪行为词。
第二步,犯罪要素识别,犯罪要素是指与犯罪行为相关的其它要素,如犯罪主体,犯罪客体、犯罪工具、犯罪时间、犯罪地点等。在本发明中,利用哈工大的NLP系统识别出案件文档中的所有犯罪要素,C={c1,c2,...,cn}表示。系统识别的结果还需要经过筛选,删除一些冗余数据。在本发明中,采用TextRNN深度神经网络对哈工大NLP的识别结果进行数据后处理。
第三步,犯罪关系识别,犯罪关系包含:犯罪行为之间的时序(因果)关系或者犯罪行为与犯罪要素之间的关系(如:主动关系、被动关系等)。本发明中,将案件文档的数据以句子为单位输入深度神经网络模型中,原始句子经过 embedding层向量化表示后,进入TextCNN-BiLSTM-CRF模型中,从文本中识别出犯罪行为与犯罪主体之间的关系。
第四步,犯罪行为链的构建,以犯罪行为词为中心,将其他要素融入一个犯罪行为链中,将所有信息整合后的犯罪行为链看作一个图,我们用 G={V,R|V=C∪M,vi∈V,vj∈V,R=(vi,vj)}表示,其中,V表示图G的顶点集合,R表示顶点之间边的集合)。在模型中,将前三步的输入作一个拼接,然后再经过一个softmax函数将信息整合,形成一条完整的犯罪行为链。
步骤二中,TextCNN可以有效捕捉局部特征信息,使用句子和短文本级别的文本任务。本文将使用TextCNN用于案情事实描述的特征抽取。
在该步骤中,TextCNN方法使用word2evc将文本转换成一个固定维度的特征向量,然后在基于抽取的特征训练一个分类器。本方法的TextCNN通过多维卷积来获取案情文本的n-gram的特征表示,其对文本浅层特征的抽取能力很强。第一层为嵌入层,textCNN使用预先训练好的词向量作为嵌入层,对于数据集里的所有词,因为每个词都可以表征成一个向量,因此我们可以得到一个嵌入矩阵,矩阵里的每一行都是词向量。这个矩阵为非静态,即可以根据反向传播更新。第二层为卷积层,输入一个句子,首先对该句进行分词。对于每个词,根据前一层中生成的嵌入矩阵,可得到词向量一共有d维。那么对于该句,便可以得到s行 d列的矩阵A。因此本步骤中即可使用卷积神经网络去提取特征。由于句子中相邻的单词关联性总是很高的,因此可以使用一维卷积,在文本序列的一个方向(垂直)做卷积,卷积核的宽度固定为词向量的维度d。高度是超参数,可以设置。对句子单词每个可能的窗口做卷积操作得到特征图(feature map)c=[c_1,c_2,…, c_s-h+1]。如先设置一个卷积核,为宽度为d,高度为h的矩阵w,那么w有h*d 个参数需要被更新。对于一个句子,经过嵌入层之后可以得到矩阵A Rs×d。 A[i:j]表示A的第i行到第j行,那么卷积操作可以用如下公式表示:Oi= W.A[i:i+h-1],i=1,2,…s-h+1,叠加上偏置b,在使用激活函数f激活,得到所需的特征。可用公式表示:Ci=f(Oi+b)。对一个卷积核,可以得到特征 c Rs-h+1,总共s-h+1个特征。我们可以使用更多高度h不同的卷积核,得到更丰富的特征表达。第三层为池化层,在此采用最大池化,能够保证输入向量特征的位置不变和旋转不变性。再此可以充分提取句子中的重要信息。
步骤三中,基于犯罪行为链,使用Bi-LSTM方法将其进行向量表示,进行文本分类。本发明针对犯罪行为链使用BiLSTM模型进行建模,输入层为转换为向量表示的犯罪行为链。双向LSTM的优势在于利用两个隐藏层在不同的方向上进行数据处理,解决了长文本信息丢失的情况,有效地获取句子内部的依赖关系。
步骤四中,将TextCNN方法的结果与Bi-LSTM方法的结果拼接输出的神经网络结构的裁判文书分析方法,再将两个方法的结果进行拼接,最后通过全连接层和softmax函数得到裁判文书分析结果。其识别结果可以用来支撑多种辅助审判应用。
TextCNN模型可以获得句子的局部信息,但是不能较好地获取句子中长距离单词之间的语义依赖关系。因此使用TextCNN用来捕捉裁判文书中案情描述部分的信息并进行处理。Bi-LSTM模型虽然可以获得句子内一定距离之间单词的依赖关系,但是它捕捉的是句子内前后单词之间的序列语义关系,所以使用 Bi-LSTM处理从犯罪行为序列。考虑到两个不同的深度学习文本分类模型在处理不同数据方面的优势,因此这里考虑将这两个模型进行结合,最后通过全连接层和softmax函数得到预测结果,从而为多种审判辅助提供支撑。
本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。