CN109614479A - 一种基于距离向量的裁判文书推荐方法 - Google Patents

一种基于距离向量的裁判文书推荐方法 Download PDF

Info

Publication number
CN109614479A
CN109614479A CN201811441648.7A CN201811441648A CN109614479A CN 109614479 A CN109614479 A CN 109614479A CN 201811441648 A CN201811441648 A CN 201811441648A CN 109614479 A CN109614479 A CN 109614479A
Authority
CN
China
Prior art keywords
formula
lstm
vector
charge
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811441648.7A
Other languages
English (en)
Inventor
李玉军
靳丽
冀先朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Publication of CN109614479A publication Critical patent/CN109614479A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于距离向量的裁判文书推荐方法,包括:(1)数据预处理;(2)训练词向量;(3)针对具体任务建模:利用双向LSTM得到每个文书的特征向量,同时在做罪名分类的过程中将各个文书罪名的罪名号和对应该罪名的预测值以文档形式输出做保存,并与本发明中采用的测试数据集做索引关联,通过计算各个罪名映射到空间中的高维向量之间的余弦相似度,并以第一个犯罪事实描述作为基准,推荐出n个相同罪名下,犯罪情节相同或者相似的n个犯罪事实描述,用来协助法官在查找、处理相似案件时的判定罪名及刑期等工作,效果显著。

Description

一种基于距离向量的裁判文书推荐方法
技术领域
本发明涉及一种基于距离向量的裁判文书推荐方法,属于长文本分析的技术领域。
背景技术
随着人工智能技术的发展与信息时代的到来,人们每天接触的消息量越来越大,逐渐从信息匮乏的时代走向了信息过载的时代,如何从中得到有效的信息显得尤为重要。由于目前对大数据的处理方法向着智能化、自动化的方向发展,各种工作也逐渐由智能机器所代替,人类社会与智能机器的交叉越来越多,在这样的时代背景下,智能、方便的人机交互变得越来越重要。在上述所讲到的消息中,不少都是以文本的形式存在的,比如监狱服刑人员的短信,法院裁判文书等等,促进了文本的产生与发展。
文本分析技术旨在通过计算机技术对无结构的文本字符串中包含的词、语法、语义等信息进行表示、理解和抽取,挖掘和分析出其中存在的事实以及隐含的立场、观点和价值,进而推断出文本生成者的意图和目的。文本分析是典型的自然语言处理工作,是文本挖掘、信息检索领域的一个基本研究问题。
在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。
在神经网络学习中,通过将word映射成连续(高维)向量,这样通过训练,就可以把长文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本上的相似度。
目前的文本分析技术多为短文本分析技术,面对多为长文本的裁判文书,语法不规则,繁冗复杂,罪名众多,且罪名由多种因素决定的情况下,现有技术难以有效解决目前面临的问题。如何在海量的数据中,找到有效的与当前处理案件罪名相同且情节相同或者相似的案件描述是本发明要处理的问题。
发明内容
针对现有技术的不足,本发明提供了一种基于距离向量的裁判文书推荐方法。
发明概述:
本发明解决的问题主要是长文本的多分类以及推荐问题。将依据法院文书犯罪事实描述,将罪名的分类以及推荐任务转换为根据语义相似度的长文本匹配问题以及各文本在空间中的距离向量问题,同时在判定罪名时对其进行推荐。在神经网络学习中,通过将word映射成连续(高维)向量,这样通过训练,就可以把长文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本上的相似度。
术语解释:
1、CBOW神经网络模型,word2vec中的CBOW神经网络模型,输入层是由one-hot编码的输入上下文{x1x1,…,xCxC}组成,其中窗口大小为C,词汇表大小为V。隐藏层是N维的向量。最后输出层是也被one-hot编码的输出单词yy。被one-hot编码的输入向量通过一个V×NV×N维的权重矩阵WW连接到隐藏层;隐藏层通过一个N×VN×V的权重矩阵W′W′连接到输出层。
2、余弦相似度:余弦相似度用空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似;如果a和b向量夹角较大,或者反方向,可以说两个向量有很低的相似性,或者两个向量代表的文本基本不相似。
本发明的技术方案为:
一种基于距离向量的裁判文书推荐的方法,包括步骤如下:
(1)数据预处理:本发明申请采用公开的法院文书数据集进行结果评测,由于公开的数据集是原始数据集,不符合模型的输入要求,需对数据进行预处理。对原始数据进行筛选,原始数据为裁判文书,将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来,做中文分词处理,得到文书的全部数据集;将文书的全部数据集打乱后,分成若干份,设定为N,其中N-1份做训练数据集,剩下1份做测试数据集;
(2)训练词向量,获取语义信息:将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练,得到训练集中每一个词相应的词向量,构成词向量表;
进一步优选的,CBOW神经网络模型中,训练窗口大小为8(即考虑一个词的前八个和后八个),每个单词的向量维度可以自行指定,本模型使用的是200,迭代次数是15次。CBOW神经网络模型中使用的参数大小可根据具体模型的需要自行指定。
(3)针对具体任务建立双向LSTM模型,利用双向LSTM(双向循环神经网络)编码每个长文本的语义信息:单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,通过双向LSTM获取每个长文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;上下文信息是由整个句子提供的,自然包含比较抽象的语义信息(句子的意思),这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势。
进一步优选的,罪名作为远程标签,并附上10个属性,包括Profit Purpose(以营利为目的)、Buying and Selling(买卖关系)、Death(死亡)、Violence(暴力行为)、StateOrgan(国家机关)、Public Place(公共场所)、Illegal Possession(非法占有)、PhysicalInjury(人身伤害)、Intentional Crime(故意犯罪)和Production(涉及生产过程);远程标签及每个属性标签的取值为0、1或者2,0表示文本中不具备该标签特征,1表示文本中具备该标签特征,2表示文本中该特征不可用;将每个文本所对应的罪名及10个属性与上述全部数据集做连接,得到符合双向LSTM模型输入的数据集;
(4)训练模型,通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量,送入softmax分类器,对罪名进行分类;
所述步骤(3)中,双向LSTM模型通过构造两个循环神经网络实现以两个不同的方向获取文本信息,同时这两层都连接相同的输入层。这个结构能够提供给上一层中每个单元结构完整的上下文信息,其中一层在同一时刻向前传递,更新所有隐藏层的信息;另一层信息的传播与上一层相反,通过先计算输出层然后得到不同方向的隐藏层值;由双层双向LSTM模型训练得到的输出作为罪名分类的特征向量,在双向LSTM之后,经过两层全连接层,激活函数为RELU,将第二层全连接层的输出作为第三层全连接层的输入,该激活函数为softmax函数,对罪名进行分类。
根据本发明优选的,在做罪名分类的过程中,将各项罪名以及其对应的属性预测值以文档的形式做输出保存,属性预测值是指属性标签的取值,并与本发明中采用的测试数据集做索引关联,通过计算各个罪名映射到空间中的高维向量之间的余弦相似度,并以第一个犯罪事实描述作为基准犯罪事实描述,通过将两两向量之间的余弦相似度从大到小进行排序,推荐出在相同罪名下,犯罪情节相同或者相似的前n个犯罪事实描述,n的取值范围为15-20。用来协助法官在查找、处理相似案件时的判定罪名及刑期等工作。
进一步优选的,假设文本X和文本Y对应的向量分别为x和y,则余弦相似度的计算公式如式(Ⅰ)所示:
根据本发明优选的,所述步骤(2),通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;包括步骤如下:
A、求取t时刻LSTM单元中的输入门的值it,LSTM单元指的是细胞状态,由于LSTM拥有三个门,每个门由一个sigmoid神经网络层和一个元素级相乘操作组成,sigmoid层输出0-1之间的值,每个值表示对应的部分信息是否应该通过。0值表示不允许信息通过,1值表示允许所有信息通过。这种结构使得LSTM有能力对细胞状态添加或者删除信息,来保护和控制细胞状态,如式(Ⅱ)所示:
it=σ(Wihht-1+Wixxt+bi) (Ⅱ)
式(Ⅱ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
B、求取t时刻LSTM单元中的遗忘门的值ft,如式(Ⅲ)所示:
ft=σ(Wfhht-1+Wfxxt+bf) (Ⅲ)
式(Ⅲ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅳ)所示:
ot=σ(Wohht-1+Woxxt+bo) (Ⅳ)
式(Ⅳ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
D、求取t时刻LSTM单元的输入状态gt,如式(Ⅴ)所示:
gt=tanh(Wghht-1+Wgxxt+bg) (Ⅴ)
式(Ⅴ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的LSTM单元的细胞状态ct,如式(Ⅵ)所示:
ct=it⊙gt+ft⊙ct-1 (Ⅵ)
式(Ⅵ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻LSTM单元的隐藏层状态ht,如式(Ⅶ)所示:
ht=ot⊙tanh(ct) (Ⅶ)
式(Ⅶ)中,tanh表示双曲正切函数用作激活函数;ot代表当前时刻的输出,ct代表当前时刻的细胞状态。
由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免无关紧要的内容进入记忆。因此文本数据经过LSTM单元之后,在各种门结构的控制作用下,输出的特征表示既包含有丰富的语义特征,又含有丰富的时序特征。
本发明的有益效果为:
1、本发明所述基于距离向量的裁判文书推荐方法,利用双向LSTM模型结构简单,同时兼顾了裁判文书的上下文语义信息,易于数据的训练。
2、本发明所述基于距离向量的裁判文书推荐方法,提出了利用罪名作为罪名分类以及推荐的远程标签,想法新颖,在罪名作为远程标签的基础上,利用10个附加属性作为辅助罪名分类的标签。
3、本发明所述基于距离向量的裁判文书推荐方法,针对性强,通过计算各个文书在空间中的距离向量的远近,进而推荐出数个在相同罪名下,犯罪情节相同或者相似的裁判文书,此举在法官查找、处理类似案件时对罪名以及的刑期的判定时提供了有力帮助,极大的减少了法官等工作人员的工作量,效果显著。
附图说明
图1为本发明CBOW神经网络模型的结构框图;
图2为本发明基于距离向量的裁判文书推荐方法流程框图。
图3为本发明基于距离向量的裁判文书推荐方法之罪名分类流程框图。
图4为本发明基于距离向量的裁判文书推荐方法之余弦相似度计算过程示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于距离向量的裁判文书推荐的方法,如图2所示,包括步骤如下:
(1)数据预处理:本发明申请采用公开的法院文书数据集进行结果评测,由于公开的数据集是原始数据集,不符合模型的输入要求,需对数据进行预处理。对原始数据进行筛选,原始数据为裁判文书,将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来,做中文分词处理,得到文书的全部数据集;将文书的全部数据集打乱后,分成若干份,设定为N,其中N-1份做训练数据集,剩下1份做测试数据集;
(2)训练词向量,获取语义信息:将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练,CBOW神经网络模型的结构框图如图1所示,得到训练集中每一个词相应的词向量,构成词向量表;
(3)针对具体任务建立双向LSTM模型,利用双向LSTM(双向循环神经网络)编码每个长文本的语义信息:单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,通过双向LSTM获取每个长文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;上下文信息是由整个句子提供的,自然包含比较抽象的语义信息(句子的意思),这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势。
(4)训练模型,通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量,送入softmax分类器,对罪名进行分类。
实施例2
根据实施例1所述的一种基于距离向量的裁判文书推荐的方法,其区别在于,
CBOW神经网络模型中,训练窗口大小为8(即考虑一个词的前八个和后八个),每个单词的向量维度可以自行指定,本模型使用的是200,迭代次数是15次。CBOW神经网络模型中使用的参数大小可根据具体模型的需要自行指定。
罪名作为远程标签,并附上10个属性,包括Profit Purpose(以营利为目的)、Buying and Selling(买卖关系)、Death(死亡)、Violence(暴力行为)、State Organ(国家机关)、Public Place(公共场所)、Illegal Possession(非法占有)、Physical Injury(人身伤害)、Intentional Crime(故意犯罪)和Production(涉及生产过程);远程标签及每个属性标签的取值为0、1或者2,0表示文本中不具备该标签特征,1表示文本中具备该标签特征,2表示文本中该特征不可用;将每个文本所对应的罪名及10个属性与上述全部数据集做连接,得到符合双向LSTM模型输入的数据集;
步骤(3)中,双向LSTM模型通过构造两个循环神经网络实现以两个不同的方向获取文本信息,同时这两层都连接相同的输入层。这个结构能够提供给上一层中每个单元结构完整的上下文信息,其中一层在同一时刻向前传递,更新所有隐藏层的信息;另一层信息的传播与上一层相反,通过先计算输出层然后得到不同方向的隐藏层值;由双层双向LSTM模型训练得到的输出作为罪名分类的特征向量,在双向LSTM之后,经过两层全连接层,激活函数为RELU,将第二层全连接层的输出作为第三层全连接层的输入,该激活函数为softmax函数,对罪名进行分类。
在做罪名分类的过程中,如图3所示,将各项罪名以及其对应的属性预测值以文档的形式做输出保存,属性预测值是指属性标签的取值,并与本发明中采用的测试数据集做索引关联,通过计算各个罪名映射到空间中的高维向量之间的余弦相似度,并以第一个犯罪事实描述作为基准犯罪事实描述,通过将两两向量之间的余弦相似度从大到小进行排序,推荐出在相同罪名下,犯罪情节相同或者相似的前n个犯罪事实描述,n的取值范围为15-20。用来协助法官在查找、处理相似案件时的判定罪名及刑期等工作。
假设文本X和文本Y对应的向量分别为x和y,则余弦相似度的计算公式如式(Ⅰ)所示,如图4所示:
所述步骤(2),通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;包括步骤如下:
A、求取t时刻LSTM单元中的输入门的值it,LSTM单元指的是细胞状态,由于LSTM拥有三个门,每个门由一个sigmoid神经网络层和一个元素级相乘操作组成,sigmoid层输出0-1之间的值,每个值表示对应的部分信息是否应该通过。0值表示不允许信息通过,1值表示允许所有信息通过。这种结构使得LSTM有能力对细胞状态添加或者删除信息,来保护和控制细胞状态,如式(Ⅱ)所示:
it=σ(Wihht-1+Wixxt+bi) (Ⅱ)
式(Ⅱ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
B、求取t时刻LSTM单元中的遗忘门的值ft,如式(Ⅲ)所示:
ft=σ(Wfhht-1+Wfxxt+bf) (Ⅲ)
式(Ⅲ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅳ)所示:
ot=σ(Wohht-1+Woxxt+bo) (Ⅳ)
式(Ⅳ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
D、求取t时刻LSTM单元的输入状态gt,如式(Ⅴ)所示:
gt=tanh(Wghht-1+Wgxxt+bg) (Ⅴ)
式(Ⅴ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的LSTM单元的细胞状态ct,如式(Ⅵ)所示:
ct=it⊙gt+ft⊙ct-1 (Ⅵ)
式(Ⅵ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻LSTM单元的隐藏层状态ht,如式(Ⅶ)所示:
ht=ot⊙tanh(ct) (Ⅶ)
式(Ⅶ)中,tanh表示双曲正切函数用作激活函数;ot代表当前时刻的输出,ct代表当前时刻的细胞状态。
由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免无关紧要的内容进入记忆。因此文本数据经过LSTM单元之后,在各种门结构的控制作用下,输出的特征表示既包含有丰富的语义特征,又含有丰富的时序特征。

Claims (6)

1.一种基于距离向量的裁判文书推荐的方法,其特征在于,包括步骤如下:
(1)数据预处理:对原始数据进行筛选,原始数据为裁判文书,将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来,做中文分词处理,得到文书的全部数据集;将文书的全部数据集打乱后,分成若干份,设定为N,其中N-1份做训练数据集,剩下1份做测试数据集;
(2)训练词向量,获取语义信息:将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练,得到训练集中每一个词相应的词向量,构成词向量表;
(3)针对具体任务建立双向LSTM模型,利用双向LSTM编码每个长文本的语义信息:通过双向LSTM获取每个长文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;
(4)训练模型,通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量,送入softmax分类器,对罪名进行分类。
2.根据权利要求1所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,CBOW神经网络模型中,训练窗口大小为8,每个单词的向量维度是200,迭代次数是15次。
3.根据权利要求1所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,罪名作为远程标签,并附上10个属性,包括Profit Purpose、Buying and Selling、Death、Violence、State Organ、Public Place、Illegal Possession、Physical Injury、Intentional Crime和Production;远程标签及每个属性标签的取值为0、1或者2,0表示文本中不具备该标签特征,1表示文本中具备该标签特征,2表示文本中该特征不可用;将每个文本所对应的罪名及10个属性与上述全部数据集做连接,得到符合双向LSTM模型输入的数据集。
4.根据权利要求3所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,所述步骤(4)中,在做罪名分类的过程中,将各项罪名以及其对应的属性预测值以文档的形式做输出保存,属性预测值是指属性标签的取值,并与测试数据集做索引关联,通过计算各个罪名映射到空间中的高维向量之间的余弦相似度,并以第一个犯罪事实描述作为基准犯罪事实描述,通过将两两向量之间的余弦相似度从大到小进行排序,推荐出在相同罪名下,犯罪情节相同或者相似的前n个犯罪事实描述,n的取值范围为15-20。
5.根据权利要求4所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,假设文本X和文本Y对应的向量分别为x和y,则余弦相似度的计算公式如式(Ⅰ)所示:
6.根据权利要求1-5任一所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,所述步骤(2),通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;包括步骤如下:
A、求取t时刻LSTM单元中的输入门的值it,如式(Ⅱ)所示:
it=σ(Wihht-1+Wixxt+bi) (Ⅱ)
式(Ⅱ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
B、求取t时刻LSTM单元中的遗忘门的值ft,如式(Ⅲ)所示:
ft=σ(Wfhht-1+Wfxxt+bf) (Ⅲ)
式(Ⅲ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅳ)所示:
ot=σ(Wohht-1+Woxxt+bo) (Ⅳ)
式(Ⅳ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
D、求取t时刻LSTM单元的输入状态gt,如式(Ⅴ)所示:
gt=tanh(Wghht-1+Wgxxt+bg) (Ⅴ)
式(Ⅴ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的LSTM单元的细胞状态ct,如式(Ⅵ)所示:
ct=it⊙gt+ft⊙ct-1 (Ⅵ)
式(Ⅵ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻LSTM单元的隐藏层状态ht,如式(Ⅶ)所示:
ht=ot⊙tanh(ct) (Ⅶ)
式(Ⅶ)中,tanh表示双曲正切函数用作激活函数;ot代表当前时刻的输出,ct代表当前时刻的细胞状态。
CN201811441648.7A 2018-10-29 2018-11-29 一种基于距离向量的裁判文书推荐方法 Pending CN109614479A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811268457 2018-10-29
CN2018112684575 2018-10-29

Publications (1)

Publication Number Publication Date
CN109614479A true CN109614479A (zh) 2019-04-12

Family

ID=66006321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811441648.7A Pending CN109614479A (zh) 2018-10-29 2018-11-29 一种基于距离向量的裁判文书推荐方法

Country Status (1)

Country Link
CN (1) CN109614479A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287287A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 案由的预测方法、装置及服务器
CN110362592A (zh) * 2019-06-17 2019-10-22 平安科技(深圳)有限公司 裁决指引信息推送方法、装置、计算机设备和存储介质
CN110457479A (zh) * 2019-08-12 2019-11-15 贵州大学 一种基于犯罪行为链的裁判文书分析方法
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110852063A (zh) * 2019-10-30 2020-02-28 语联网(武汉)信息技术有限公司 基于双向lstm神经网络的词向量生成方法及装置
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111680504A (zh) * 2020-08-11 2020-09-18 四川大学 法律信息抽取模型及方法及系统及装置及辅助系统
CN112732865A (zh) * 2020-12-29 2021-04-30 长春市把手科技有限公司 一种刑事案件情节对刑期影响比例的测算方法及装置
CN112989830A (zh) * 2021-03-08 2021-06-18 武汉大学 一种基于多元特征和机器学习的命名实体识别方法
CN113033174A (zh) * 2021-03-23 2021-06-25 哈尔滨工业大学 一种基于输出型相似门的案件罪名判定方法、装置及存储介质
CN113536780A (zh) * 2021-06-29 2021-10-22 华东师范大学 一种基于自然语言处理的企业破产案件智能辅助判案方法
CN113688635A (zh) * 2021-09-01 2021-11-23 中国矿业大学(北京) 一种基于语义相似度的类案推荐方法
CN113743081A (zh) * 2021-09-03 2021-12-03 西安邮电大学 技术服务信息的推荐方法
CN113901781A (zh) * 2021-09-15 2022-01-07 昆明理工大学 融合分段编码与仿射机制的相似案例匹配方法
CN117708616A (zh) * 2024-02-05 2024-03-15 四川大学华西医院 人员相似度计算方法、装置、电子设备和计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868317A (zh) * 2016-03-25 2016-08-17 华中师范大学 一种数字教育资源推荐方法及系统
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868317A (zh) * 2016-03-25 2016-08-17 华中师范大学 一种数字教育资源推荐方法及系统
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362592A (zh) * 2019-06-17 2019-10-22 平安科技(深圳)有限公司 裁决指引信息推送方法、装置、计算机设备和存储介质
CN110362592B (zh) * 2019-06-17 2023-06-23 平安科技(深圳)有限公司 裁决指引信息推送方法、装置、计算机设备和存储介质
CN110287287B (zh) * 2019-06-18 2021-11-23 北京百度网讯科技有限公司 案由的预测方法、装置及服务器
CN110287287A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 案由的预测方法、装置及服务器
CN110457479A (zh) * 2019-08-12 2019-11-15 贵州大学 一种基于犯罪行为链的裁判文书分析方法
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110516040B (zh) * 2019-08-14 2022-08-05 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110852063A (zh) * 2019-10-30 2020-02-28 语联网(武汉)信息技术有限公司 基于双向lstm神经网络的词向量生成方法及装置
CN110852063B (zh) * 2019-10-30 2023-05-05 语联网(武汉)信息技术有限公司 基于双向lstm神经网络的词向量生成方法及装置
CN111026869B (zh) * 2019-12-10 2020-08-18 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111680504A (zh) * 2020-08-11 2020-09-18 四川大学 法律信息抽取模型及方法及系统及装置及辅助系统
CN112732865A (zh) * 2020-12-29 2021-04-30 长春市把手科技有限公司 一种刑事案件情节对刑期影响比例的测算方法及装置
CN112732865B (zh) * 2020-12-29 2022-11-29 长春市把手科技有限公司 一种刑事案件情节对刑期影响比例的测算方法及装置
CN112989830B (zh) * 2021-03-08 2023-08-18 武汉大学 一种基于多元特征和机器学习的命名实体识别方法
CN112989830A (zh) * 2021-03-08 2021-06-18 武汉大学 一种基于多元特征和机器学习的命名实体识别方法
CN113033174A (zh) * 2021-03-23 2021-06-25 哈尔滨工业大学 一种基于输出型相似门的案件罪名判定方法、装置及存储介质
CN113536780A (zh) * 2021-06-29 2021-10-22 华东师范大学 一种基于自然语言处理的企业破产案件智能辅助判案方法
CN113688635A (zh) * 2021-09-01 2021-11-23 中国矿业大学(北京) 一种基于语义相似度的类案推荐方法
CN113688635B (zh) * 2021-09-01 2023-05-30 中国矿业大学(北京) 一种基于语义相似度的类案推荐方法
CN113743081A (zh) * 2021-09-03 2021-12-03 西安邮电大学 技术服务信息的推荐方法
CN113743081B (zh) * 2021-09-03 2023-08-01 西安邮电大学 技术服务信息的推荐方法
CN113901781A (zh) * 2021-09-15 2022-01-07 昆明理工大学 融合分段编码与仿射机制的相似案例匹配方法
CN113901781B (zh) * 2021-09-15 2024-04-26 昆明理工大学 融合分段编码与仿射机制的相似案例匹配方法
CN117708616A (zh) * 2024-02-05 2024-03-15 四川大学华西医院 人员相似度计算方法、装置、电子设备和计算机存储介质
CN117708616B (zh) * 2024-02-05 2024-05-24 四川大学华西医院 人员相似度计算方法、装置、电子设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN109614479A (zh) 一种基于距离向量的裁判文书推荐方法
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
Gong et al. Hierarchical graph transformer-based deep learning model for large-scale multi-label text classification
CN110457479A (zh) 一种基于犯罪行为链的裁判文书分析方法
CN114064918A (zh) 一种多模态事件知识图谱构建方法
CN109614487A (zh) 一种基于张量融合方式的情感分类的方法
Man et al. Sentiment analysis algorithm based on bert and convolutional neural network
CN112148832A (zh) 一种基于标签感知的双重自注意力网络的事件检测方法
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
Fan et al. Quantitative characterization of semantic gaps for learning complexity estimation and inference model selection
CN109871449A (zh) 一种基于语义描述的端到端的零样本学习方法
Zhu et al. Relationship extraction method for urban rail transit operation emergencies records
Li et al. Combining local and global features into a Siamese network for sentence similarity
Li et al. LSTM and multiple CNNs based event image classification
Nam et al. A survey on multimodal bidirectional machine learning translation of image and natural language processing
Yu et al. The Related Techniques of content-based image retrieval
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN110688483B (zh) 文景转换中基于词典的名词可视性标注方法、介质及系统
Huang et al. Named Entity Recognition in Chinese Judicial Domain Based on Self-attention mechanism and IDCNN
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Du et al. Research on event extraction method based on a lite bert and conditional random field model
Zhang et al. Research on sentiment analysis and entity recognition of covid-19 based on multi-task sentiment analysis model in artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190412