CN111260114B - 融入案件辅助句的低频和易混淆罪名预测方法 - Google Patents

融入案件辅助句的低频和易混淆罪名预测方法 Download PDF

Info

Publication number
CN111260114B
CN111260114B CN202010017893.6A CN202010017893A CN111260114B CN 111260114 B CN111260114 B CN 111260114B CN 202010017893 A CN202010017893 A CN 202010017893A CN 111260114 B CN111260114 B CN 111260114B
Authority
CN
China
Prior art keywords
case
description
sentence
auxiliary
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010017893.6A
Other languages
English (en)
Other versions
CN111260114A (zh
Inventor
余正涛
刘真丞
郭军军
黄于欣
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010017893.6A priority Critical patent/CN111260114B/zh
Publication of CN111260114A publication Critical patent/CN111260114A/zh
Application granted granted Critical
Publication of CN111260114B publication Critical patent/CN111260114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及融入案件辅助句的低频和易混淆罪名预测方法,属于自然语言处理技术领域。本发明包括步骤:首先基于司法领域构建案件辅助句,将案件辅助句拟定为外部知识,作为案情描述和罪名之间的映射。同时基于词级和字符级计算案情描述与案件辅助句多粒度特征,并借助案件辅助句与案情描述构建双向互注意力,强化案情描述和案件辅助句之间的信息交互,提取具有案件辅助句指导的案情描述多粒度倾向性特征,依此来提升低频和易混淆罪名预测准确率。本发明的F1值最大提升13.2%,准确率最大提升4.5%,低频罪名预测F1值提升4.3%,易混淆罪名预测F1值提升8.2%。

Description

融入案件辅助句的低频和易混淆罪名预测方法
技术领域
本发明涉及融入案件辅助句的低频和易混淆罪名预测方法,属于自然语言处理技术领域。
背景技术
罪名预测任务是法律判决任务中一个重要的子任务,在法律领域中发挥着至关重要的作用。现今常见罪名预测准确率比较高,但低频和易混淆罪名的预测准确率却不尽人意,主要是因为低频罪名数据少和易混淆罪名案情描述相似等原因。据统计,截止目前为止我国刑法罪名共有469类,罪名的分布成典型的长尾分布(幂律分布的一种形式)。在我国几千万的裁判文书数据中,我们统计大量真实案件数据后发现,比较常见的罪名(如盗窃罪、抢劫罪等)占了大约78%;比较低频的几十类罪名(如倒卖文物罪、高利转贷罪等)只占了不到0.5%,此类低频罪名中大部分案例数据只有十多条,同时有很大一部分罪名及其案情描述不易区分。因此,提高低频和易混淆罪名的预测准确率是罪名预测任务的难点和关键技术之一。
对于罪名预测任务而言,早在20世纪60年代,Kort等人采用定量方法,通过计算事实元素的数值来预测判断,Nagel等人利用相关分析对重新分配的案例进行预测。随着神经网络模型能提取自然语言更深层次的语义特征,Zhong等人基于神经网络模型结合多个子任务间的拓扑结构信息提出联合模型同时完成法律判决预测的多个子任务。Luo等人基于注意力机制的神经网络模型在罪名预测任务中融入法条信息。此类方法在常见罪名预测取得较好的准确率,但对于低频和易混淆罪名而言预测准确率较低,因此刘宗林等人提出了融入罪名关键词的法律判决预测多任务学习模型,判决结果包括法条推荐和罪名预,Hu等人提出融入罪名区分属性预测低频和易混淆罪名的方法,这些方法都是罪名预测研究的典型代表。
发明内容
本发明提供了融入案件辅助句的低频和易混淆罪名预测方法,旨在融入案件辅助句提高低频和易混淆罪名的预测准确率,改善低频和易混淆罪名预测准确率低这一技术难点。
本发明的技术方案是:融入案件辅助句的低频和易混淆罪名预测方法,所述融入案件辅助句的低频和易混淆罪名预测方法的具体步骤如下:
Step1、基于司法领域分析刑事案件数据,构建案件辅助句;
进一步地,所述步骤Step1中基于刑事案件公共数据集构建案件辅助句,该类案件辅助句具有案件的核心语义信息。
为了改进低频罪名数据量小和易混淆罪名案情描述相似导致其预测准确率低这一问题,基于司法领域构建案件辅助句。借助于案件辅助句扩充低频罪名的构成元素和易混罪名的有效区分因素。
表1案件辅助句
Figure BDA0002359604990000021
采用图1所示的方式分析中国刑事案件数据,以抢劫罪和抢夺罪为例,首先由这两类罪名的案件性质可知,这两类罪名均有“故意犯罪行为”和“以非法占有为目的”,以此可区别于其他部分案件(如过失致人死亡罪等);其次通过案情描述对比分析,可知“抢劫罪”抢劫罪的案情描述中包含了“强行推倒”、“刺伤”和“威胁”等暴力手段,与之相反“抢夺罪”的案情描述更倾向于“趁其不备”,未使用暴力手段。因此我们可定义抢劫罪和抢夺罪的有效区分因素为该案件是否“以暴力为手段”。依此共定义了9类具有案件核心语义信息的案件辅助句,案件辅助句的详细介绍如表1所示。值得一提的是,我们定义案件辅助句时均遵循法律规定和案件判决的客观事实。
Step2、在Step1的基础上,对于案件辅助句和案情描述,分别使用Skip-Gram模型和Chars-CNN获取案件辅助句和案情描述的词级和字符级多粒度特征,再引入HighwayNetwork(高速网络)平衡词向量和字符向量的相对贡献比,同时利用单层的Bi-GRU(双向门控循环神经网络)作为理解上下文信息的嵌入机制,模拟单词之间的特征交互,分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量。
Step3、在Step2的基础上,计算具有上下文语义特征信息的案件辅助句和案情描述双向互注意力向量,其结果再结合具有上下文语义特征信息的案情描述表征向量得到案件描述表征,用于把具有上下文语义特征信息的案件辅助句信息和案情描述信息进行耦合,强化案情描述和案件辅助句之间的信息交互;捕捉更多案件关键信息,且每个时刻的注意力向量与之前的嵌入层相关联,且都流向之后的网络层,目的是缓解过早归纳总结而导致的信息丢失;
所述步骤Step3计算具有上下文语义特征信息的案情描述表征向量K和案件辅助句表征向量L的双向互注意力向量;计算方法如下:
Step3.1、首先计算案情描述与案件辅助句相似矩阵:
Stj=α(K:t,L:j)∈RT×J (1)
其中,Stj表示第t个案情描述词和第j个案件辅助句词之间的相似性,K:t表示K的第t列向量,L:j表示L的第j列向量,α表示计算K与L之间相似度的可训练函数,如公式(2):
Figure BDA0002359604990000031
其中,
Figure BDA0002359604990000032
是待训练的权重向量,o表示元素依次相乘,(;)表示向量在行上的拼接,k表示K中某一列向量,l表示L中某一列向量;
Step3.2、由相似矩阵计算案情描述到案件辅助句的注意力向量:对St:中列进行softmax归一化得at,再将at与L中的每一列加权求和得
Figure BDA0002359604990000033
表示案情描述与案件辅助句之间的注意力向量矩阵,如公式(3)、(4)所示:
at=softmax(St:)∈RJ (3)
Figure BDA0002359604990000034
其中St:表示第t个案情描述词与案件辅助句词的相似度,at表示第t个案情描述词对案件辅助句词的注意力权重;atj表示第t个案情描述词对第j个案件辅助句词的注意力权重;
Step3.3、然后再计算案件辅助句到案情描述的注意力向量:
取相似矩阵Stj中每列的最大值e,再经softmax归一化后得p,利用p计算案情描述中与案件辅助句比较相关词的加权求和得
Figure BDA0002359604990000041
然后
Figure BDA0002359604990000042
沿着列方向平铺T次得到案件辅助句到案情描述的注意力向量矩阵
Figure BDA0002359604990000043
如公式(5):
Figure BDA0002359604990000044
其中,maxcol表示取Stj中每列的最大值,TiledT表示
Figure BDA0002359604990000045
沿着列方向平铺T次;
Step3.4、上述得到案情描述和案件辅助句的双向互注意力向量
Figure BDA0002359604990000046
Figure BDA0002359604990000047
通过Cat函数把案情描述表征向量K、案情描述到案件辅助句的注意力向量
Figure BDA0002359604990000048
和案件辅助句到案情描述的注意力向量
Figure BDA0002359604990000049
拼接后得矩阵M,M中每个列向量表示可以视为案件辅助句感知的案情描述词表征,如公式(6):
Figure BDA00023596049900000410
Figure BDA00023596049900000411
dM=8d (6)
其中M:t表示第t个列向量,与第t个案情描述词相对应,
Figure BDA00023596049900000412
表示案件辅助句中某一个词与案情描述的注意力向量,
Figure BDA00023596049900000413
表示案情描述中某一个词与案件辅助句的注意力向量,其中;表示拼接,
Figure BDA00023596049900000414
表示矩阵相乘,d表示循环神经网络的输出维度。
Step4、把步骤Step2、Step3的输出进行拼接,并采用双层的Bi-GRU提取案情描述在时序上的依赖关系。
网络层采用两层的Bi-GRU作为嵌入机制,主要是为了获取具有案件辅助句感知的案情描述向量表征M在时序上的上下文依赖关系。这与之前的上下文嵌入网络层不同,前者获取具有案件辅助句感知的案情描述上下文语义依赖特征,后者独立获取案情描述和案件辅助句上下文语义特征。我们把Bi-GRU两个方向的输出进行拼接,得到矩阵N,N中每列向量表示具有案件辅助句感知的案情描述上下文依赖特征表征。如公式(7):
N=BiGRU(M)∈R2d×T (7)
Step5、把步骤Step3、Step4的输出进行拼接,并采用最大池化提取案件的关键特征,再通过softmax函数以获取预测结果的概率分布,用于预测罪名。
此部分主要借鉴残差网络的思想把具有案件辅助句感知的案情描述特征表征M与案情描述上下文依赖特征表征N进行拼接后得G,然后采用池化操作提取G中的关键特征H,如公式(8):
G=(M;N)∈R10d×T
H=pooling(G)∈R10d (8)
其中(;)表示向量在行上的拼接,pooling采用最大池化。
网络层是根据犯罪事实预测出某一个案件的最终罪名。主要是把前网络层提取的显著特征H通过softmax函数,以获取预测结果的概率分布,如公式(9):
P=softmax(W(P)H) (9)
其中P表示罪名预测结果的概率分布,W(P)是可训练的权重向量。
基于神经网络建模的分类方法,通常提取文本的深层次语义特征。本发明方法主要融入具有案件核心语义信息的案件辅助句,借助于案件辅助句构建双向互注意力,强化两者的交互信息,提取更为关键的罪名预测有效特征。此外,分别计算案情描述和案件辅助句的多粒度特征,获取其更全面的语义特征。实验结果表明,该发明方法在低频和易混淆罪名预测任务取得了较好的效果,宏观F1值最大提升13.2%,准确率最大提升4.5%,低频罪名预测F1值提升4.3%,易混淆罪名预测F1值提升8.2%。
本发明的有益效果是:
(1)本发明的核心工作是提高低频和易混淆罪名的预测准确率.为此首次引入案件辅助句这一概念,改善其预测性能.
(2)本发明采用一种融入案件辅助句构建双向互注意力的学习框架来改进低频和易混淆罪名预测性能,获取具有案件辅助句指导的案情描述多粒度倾向性特征表征.
(3)基于三个不同规模的中国刑事案件公共数据集进行实验,本发明的实验结果比其他基线取得更显著的效果。
附图说明
图1为抢劫罪与抢夺罪案例对比分析图;
图2为本发明中总的模型结构图;
图3为双向互注意力计算图。
具体实施方式
实施例1:如图1-3所示,融入案件辅助句的低频和易混淆罪名预测方法,所述融入案件辅助句的低频和易混淆罪名预测方法的具体步骤如下:
Step1、基于刑事案件公共数据集分析刑事案件数据,构建案件辅助句;采用类似于图1的方法,分析大量案例数据,构建了表1所示的案件辅助句。然后结合中国刑事案件公共数据集构建训练集、测试集、验证集;
Step2、在Step1的基础上,分别使用Skip-Gram模型和Chars-CNN获取案件辅助句和案情描述的词级和字符级多粒度特征,再引入高速网络平衡词向量和字符向量的相对贡献比,同时利用单层的Bi-GRU分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量;
Step3、在Step2的基础上,计算具有上下文语义特征信息的案件辅助句和案情描述双向互注意力向量,其结果再结合具有上下文语义特征信息的案情描述表征向量得到案件描述表征,用于把具有上下文语义特征信息的案件辅助句信息和案情描述信息进行耦合,强化案情描述和案件辅助句之间的信息交互;
进一步地,所述步骤Step3计算具有上下文语义特征信息的案情描述表征向量K和案件辅助句表征向量L的双向互注意力向量;计算方法如下:
Step3.1、首先计算案情描述与案件辅助句相似矩阵:
Stj=α(K:t,L:j)∈RT×J (1)
其中,Stj表示第t个案情描述词和第j个案件辅助句词之间的相似性,K:t表示K的第t列向量,L:j表示L的第j列向量,α表示计算K与L之间相似度的可训练函数,如公式(2):
Figure BDA0002359604990000061
其中,
Figure BDA0002359604990000062
是待训练的权重向量,○表示元素依次相乘,(;)表示向量在行上的拼接,k表示K中某一列向量,l表示L中某一列向量;
Step3.2、由相似矩阵计算案情描述到案件辅助句的注意力向量:对St:中列进行softmax归一化得at,再将at与L中的每一列加权求和得
Figure BDA0002359604990000063
表示案情描述与案件辅助句之间的注意力向量矩阵,如公式(3)、(4)所示:
at=softmax(St:)∈RJ (3)
Figure BDA0002359604990000071
其中St:表示第t个案情描述词与案件辅助句词的相似度,at表示第t个案情描述词对案件辅助句词的注意力权重;atj表示第t个案情描述词对第j个案件辅助句词的注意力权重;
Step3.3、然后再计算案件辅助句到案情描述的注意力向量:
取相似矩阵Stj中每列的最大值e,再经softmax归一化后得p,利用p计算案情描述中与案件辅助句比较相关词的加权求和得
Figure BDA0002359604990000072
然后
Figure BDA0002359604990000073
沿着列方向平铺T次得到案件辅助句到案情描述的注意力向量矩阵
Figure BDA0002359604990000074
如公式(5):
Figure BDA0002359604990000075
其中,maxcol表示取Stj中每列的最大值,TiledT表示
Figure BDA0002359604990000076
沿着列方向平铺T次;
Step3.4、上述得到案情描述和案件辅助句的双向互注意力向量
Figure BDA0002359604990000077
Figure BDA0002359604990000078
通过Cat函数把案情描述表征向量K、案情描述到案件辅助句的注意力向量
Figure BDA0002359604990000079
和案件辅助句到案情描述的注意力向量
Figure BDA00023596049900000710
拼接后得矩阵M,M中每个列向量表示可以视为案件辅助句感知的案情描述词表征,如公式(6):
Figure BDA00023596049900000711
Figure BDA00023596049900000712
dM=8d (6)
其中M:t表示第t个列向量,与第t个案情描述词相对应,
Figure BDA00023596049900000713
表示案件辅助句中某一个词与案情描述的注意力向量,
Figure BDA00023596049900000714
表示案情描述中某一个词与案件辅助句的注意力向量,其中;表示拼接,
Figure BDA00023596049900000715
表示矩阵相乘,d表示循环神经网络的输出维度。
Step4、把步骤Step2、Step3的输出进行拼接,并采用双层的Bi-GRU提取案情描述在时序上的依赖关系。
Step5、借鉴鉴残差的思想,把步骤Step3、Step4的输出进行拼接,并采用最大池化提取案件的关键特征,再通过softmax函数以获取预测结果的概率分布,用于预测罪名。
为了说明本发明的效果,实验采用以上融入案件辅助句构建双向互注意力的方案,对低频和易混淆罪名预测准确率提升有很大帮助,主要包括以下几部分:1、采用多粒度思想分别计算案件辅助句和案情描述更细化的特征;2、我们提出的案件辅助句这一概念,可在一定层度扩充低频罪名的构成元素和易混淆罪名的有效区分因素;3、借助于案件辅助句,构建其与案情描述的双向互注意力,强化两者间的信息交互,提取更多的案件关键特征。
本发明主要选用LSTM、CNN、TFIDF+SVM等典型的分类方法和Fact-Law Attention、Few-Shot Attributes等比较新颖的罪名预测方法作为基线对比,实验结果如表2所示:
表2本发明与基线方法实验结果对比
Figure BDA0002359604990000081
由表3可知本发明的Acc.、MP、MR和F1值均超过所有基线模型,F1值最大提升为32.5%。这可以证明基线方法在低频和易混淆罪名预测效果略有不足,反之本发明对低频和易混淆罪名预测性能实现了有效的改进。与当前Few-Shot Attri.方法(低频和易混淆预测当前最优方案)对比,本发明在三个数据集上F1值分别提升7.6%、13.2%和12.5%,准确率最大提升4.5%。验证了此发明的鲁棒性和有效性,也证明本发明可以有效提升低频和易混淆罪名预测准确率。
此外还分别验证本发明在低频和易混淆罪名预测性能的提升,选取比较经典的分类方法LSTM和目前低频和易混淆罪名预测效果最好的Few-Shot Attri.方法当做基线方案,如表3所示:
表3低频和易混淆罪名预测验证结果
Figure BDA0002359604990000091
(a)不同频率罪名实验结果
Figure BDA0002359604990000092
(b)易混淆罪名实验结果
由表3(a)中实验结果可知,与LSTM-200和Few-Shot Attri.方法相比,对于案例数据小于10的低频罪名预测,本发明的宏观F1值分别提升20.2%和4.3%。由此可证明我们的发明对低频罪名预测性能提升是有效的,同时也可证明融入案件辅助句可以在一定层度改善案例数据极度不均衡这一问题。
从表3(b)中实验结果可知,对于易混淆罪名区分预测,本文模型比LSTM-200模型和Few-Shot Attri.模型的宏观F1值分别提升16.6%和8.2%。由此可证明本文模型能更好的捕捉易混淆案例的区分特征,进一步提高易混淆罪名预测的准确性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.融入案件辅助句的低频和易混淆罪名预测方法,其特征在于:所述融入案件辅助句的低频和易混淆罪名预测方法的具体步骤如下:
Step1、基于司法领域分析刑事案件数据,构建案件辅助句;
Step2、在Step1的基础上,提取案件辅助句与案情描述的词级和字符级多粒度特征,并利用单层的Bi-GRU分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量;
Step3、在Step2的基础上,计算具有上下文语义特征信息的案件辅助句和案情描述双向互注意力向量,其结果再结合具有上下文语义特征信息的案情描述表征向量得到案件描述表征,用于把具有上下文语义特征信息的案件辅助句信息和案情描述信息进行耦合,强化案情描述和案件辅助句之间的信息交互;
Step4、把步骤Step2、Step3的输出进行拼接,并采用双层的Bi-GRU提取案情描述在时序上的依赖关系;
Step5、把步骤Step3、Step4的输出进行拼接,并采用最大池化提取案件的关键特征,再通过softmax函数以获取预测结果的概率分布,用于预测罪名;
所述步骤Step3计算具有上下文语义特征信息的案情描述表征向量K和案件辅助句表征向量L的双向互注意力向量;计算方法如下:
Step3.1、首先计算案情描述与案件辅助句相似矩阵:
Stj=α(K:t,L:j)∈RT×J (1)
其中,Stj表示第t个案情描述词和第j个案件辅助句词之间的相似性,K:t表示K的第t列向量,L:j表示L的第j列向量,α表示计算K与L之间相似度的可训练函数,如公式(2):
Figure FDA0003526030300000011
其中,
Figure FDA0003526030300000012
是待训练的权重向量,
Figure FDA0003526030300000013
表示元素依次相乘,(;)表示向量在行上的拼接,k表示K中某一列向量,l表示L中某一列向量;
Step3.2、由相似矩阵计算案情描述到案件辅助句的注意力向量:对St:中列进行softmax归一化得at,再将at与L中的每一列加权求和得
Figure FDA0003526030300000014
Figure FDA0003526030300000015
表示案情描述与案件辅助句之间的注意力向量矩阵,如公式(3)、(4)所示:
at=softmax(St:)∈RJ (3)
Figure FDA0003526030300000021
其中St:表示第t个案情描述词与案件辅助句词的相似度,at表示第t个案情描述词对案件辅助句词的注意力权重;atj表示第t个案情描述词对第j个案件辅助句词的注意力权重;
Step3.3、然后再计算案件辅助句到案情描述的注意力向量:
取相似矩阵Stj中每列的最大值e,再经softmax归一化后得p,利用p计算案情描述中与案件辅助句比较相关词的加权求和得
Figure FDA0003526030300000022
然后
Figure FDA0003526030300000023
沿着列方向平铺T次得到案件辅助句到案情描述的注意力向量矩阵
Figure FDA0003526030300000024
如公式(5):
Figure FDA0003526030300000025
其中,maxcol表示取Stj中每列的最大值,TiledT表示
Figure FDA0003526030300000026
沿着列方向平铺T次;
Step3.4、得到案情描述和案件辅助句的双向互注意力向量
Figure FDA0003526030300000027
Figure FDA0003526030300000028
通过Cat函数把案情描述表征向量K、案情描述到案件辅助句的注意力向量
Figure FDA0003526030300000029
和案件辅助句到案情描述的注意力向量
Figure FDA00035260303000000210
拼接后得矩阵M,M中每个列向量表示可以视为案件辅助句感知的案情描述词表征,如公式(6):
Figure FDA00035260303000000211
Figure FDA00035260303000000212
dM=8d (6)
其中M:t表示第t个列向量,与第t个案情描述词相对应,
Figure FDA00035260303000000213
表示案件辅助句中某一个词与案情描述的注意力向量,
Figure FDA00035260303000000214
表示案情描述中某一个词与案件辅助句的注意力向量,其中;表示拼接,
Figure FDA00035260303000000215
表示矩阵相乘,d表示循环神经网络的输出维度。
2.根据权利要求1所述的融入案件辅助句的低频和易混淆罪名预测方法,其特征在于:所述步骤Step1中基于刑事案件公共数据集构建案件辅助句,该案件辅助句具有案件的核心语义信息。
3.根据权利要求1所述的融入案件辅助句的低频和易混淆罪名预测方法,其特征在于:所述步骤Step2中,分别使用Skip-Gram模型和Chars-CNN获取案件辅助句和案情描述的词级和字符级多粒度特征,再引入高速网络平衡词向量和字符向量的相对贡献比,同时利用单层的Bi-GRU分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量。
CN202010017893.6A 2020-01-08 2020-01-08 融入案件辅助句的低频和易混淆罪名预测方法 Active CN111260114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010017893.6A CN111260114B (zh) 2020-01-08 2020-01-08 融入案件辅助句的低频和易混淆罪名预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010017893.6A CN111260114B (zh) 2020-01-08 2020-01-08 融入案件辅助句的低频和易混淆罪名预测方法

Publications (2)

Publication Number Publication Date
CN111260114A CN111260114A (zh) 2020-06-09
CN111260114B true CN111260114B (zh) 2022-06-17

Family

ID=70946825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010017893.6A Active CN111260114B (zh) 2020-01-08 2020-01-08 融入案件辅助句的低频和易混淆罪名预测方法

Country Status (1)

Country Link
CN (1) CN111260114B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985680B (zh) * 2020-07-10 2022-06-14 昆明理工大学 基于胶囊网络与时序的刑事多罪名预测方法
CN112307726B (zh) * 2020-11-09 2023-08-04 浙江大学 因果去偏差模型指导的法院观点自动生成方法
CN113761943A (zh) * 2021-09-23 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 司法对话的生成方法和模型训练方法、装置以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2312524A1 (en) * 2008-07-28 2011-04-20 University of Tsukuba Built-in control system
CN109376964A (zh) * 2018-12-10 2019-02-22 杭州世平信息科技有限公司 一种基于记忆神经网络的刑事案件罪名预测方法
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN110119449A (zh) * 2019-05-14 2019-08-13 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN110188192A (zh) * 2019-04-16 2019-08-30 西安电子科技大学 一种多任务网络构建与多尺度的罪名法条联合预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2312524A1 (en) * 2008-07-28 2011-04-20 University of Tsukuba Built-in control system
CN109376964A (zh) * 2018-12-10 2019-02-22 杭州世平信息科技有限公司 一种基于记忆神经网络的刑事案件罪名预测方法
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN110188192A (zh) * 2019-04-16 2019-08-30 西安电子科技大学 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN110119449A (zh) * 2019-05-14 2019-08-13 湖南大学 一种基于序列增强胶囊网络的刑事案件罪名预测方法

Also Published As

Publication number Publication date
CN111260114A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN107562812B (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN111260114B (zh) 融入案件辅助句的低频和易混淆罪名预测方法
Dauphin et al. Zero-shot learning for semantic utterance classification
Huang et al. Speech emotion recognition from variable-length inputs with triplet loss function.
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110717431A (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN106557462A (zh) 命名实体识别方法和系统
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
Naderi et al. Classifying frames at the sentence level in news articles
CN110276068A (zh) 法律案情分析方法及装置
CN109977258A (zh) 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN110134954A (zh) 一种基于Attention机制的命名实体识别方法
CN110717324A (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN110119449A (zh) 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN106529525A (zh) 一种中日文手写字符的识别方法
Yang et al. Meta captioning: A meta learning based remote sensing image captioning framework
CN109726745A (zh) 一种融入描述知识的基于目标的情感分类方法
Yan et al. Multimodal sentiment analysis using multi-tensor fusion network with cross-modal modeling
CN109670050A (zh) 一种实体关系预测方法及装置
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
Malherbe et al. Bringing order to the job market: Efficient job offer categorization in e-recruitment
Zhang et al. A cross-modality context fusion and semantic refinement network for emotion recognition in conversation
Rintyarna et al. Automatic ranking system of university based on technology readiness level using LDA-Adaboost. MH

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant