CN112925877A - 一种基于深度度量学习的一人多案关联识别方法及系统 - Google Patents

一种基于深度度量学习的一人多案关联识别方法及系统 Download PDF

Info

Publication number
CN112925877A
CN112925877A CN201911241577.0A CN201911241577A CN112925877A CN 112925877 A CN112925877 A CN 112925877A CN 201911241577 A CN201911241577 A CN 201911241577A CN 112925877 A CN112925877 A CN 112925877A
Authority
CN
China
Prior art keywords
case
cases
person
legal
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911241577.0A
Other languages
English (en)
Other versions
CN112925877B (zh
Inventor
马志柔
马新宇
刘杰
王帅
叶丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201911241577.0A priority Critical patent/CN112925877B/zh
Publication of CN112925877A publication Critical patent/CN112925877A/zh
Application granted granted Critical
Publication of CN112925877B publication Critical patent/CN112925877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度度量学习的一人多案关联识别方法及系统。该方法获取待进行一人多案关联识别的起诉状,利用预先训练完成的案件要素识别模型得到案件要素信息;将案件要素信息输入预先训练完成的案件相似度量模型,利用深度学习和度量学习技术计算案件要素信息与候选案件集合中的案件的文本语义相似度,进而判断是否存在一人多案的情况,并按人建立案件关联。该系统包括案件要素识别模块、案件相似度量模块、案件关联识别模块。本发明利用深度度量学习与法律业务规则相结合的方法,实现法院立案‑审判‑执行全流程阶段的一人多案的关联识别,为跨区域跨层级的司法资源统筹提供技术支持,为法院公正、高效地审理和执行案件提供保障。

Description

一种基于深度度量学习的一人多案关联识别方法及系统
技术领域
本发明涉及一种基于深度度量学习的一人多案关联识别方法及系统,属于计算机人工智能软件技术领域。
背景技术
随着知识经济的迅猛发展和民主、法制建设的不断完善,人民法院维护社会稳定的职能和任务不断增大和加重。一方面,我国现阶段的司法能力与广大人民群众日益增长的司法需求还不相适应,而另一方面,广大人民群众开始习惯从不同的角度去审视法院的审判结果,社会各方面越来越关注法院的裁判工作,各级法院在完成繁重审判任务的同时,必须更好地解决审判质量问题。在法院立案-审判-执行全流程阶段,多起案件中存在的当事人或者案件事实相同的情况,即“一人多案”的处理情况,造成了司法资源浪费与不合理使用。在《人民法院信息化建设五年发展规划(2016-2020)》中,明确提出建设“全面覆盖、移动互联、跨界融合、深度应用、透明便民、安全可控”的人民法院信息化3.0版的目标,要借助信息化实现审判执行流程再造,实现全程留痕、实时监督,实现对审判执行活动的动态监控。可以认为“一人多案”的关联识别与协同处置技术在提高审判效率、规范司法行为、促进司法公正、加强法院管理、践行司法为民等方面足以充分发挥信息化的重要作用。
“一人多案”关联识别技术的采用有助于提升司法机关的工作效率,优化社会资源的配置,最大程度上减少司法资源的无端消耗。具体来说,“一人多案”诸技术的采用将相同主体的不同案件类型在处置上合而为一,从而起到案件处理上的“势如破竹”之效,这是因为同一当事主体所涉及的不同案件往往具有类型上的趋同性,将其合并处理不仅能够有效提升其处理效率,同时在面临问题时可以从相同的案件类型中获取一个可靠的参照。在“一人多案”的案件处理模式中,其通常所包含的案件类型为公民基本生活需求与个人利益相关案件,对此进行合并处理有利于此类案件的快速解决,不仅加快司法机关的处置效率,同样也有利于当事人相关问题的解决,从社会与公民个人两个层面实现经济利益的最大化。
在一人多案的关联识别时,如何度量案件之间的相似度尤为重要,目前还没有专门针对案件文本的相似度度量的研究。但在自然语言处理方面,经常会涉及到如何度量两个文本的相似度问题,度量文本相似度常用的方法包括如下三种:一是基于关键词匹配的传统方法,如N-gram相似度。二是将文本映射到向量空间,采用的是基于TF-IDF的向量空间模型相似度计算方法,以关键词在文本中出现的频率及文本集中出现该词的反文档频率来表征词权重,通过计算向量之间的余弦相似度方法来计算文本的相似度。三是将文本通过哈希编码转换进行相似度计算。但是,由于以下原因:对于司法文书数据集而言,词项的数目和文书数目都很大,采用词频向量模型,必须将文书表示为词项数目和文书数目的矩阵,具有非常高的特征维度。特征矩阵极度稀疏,计算效率较低。在相似度的计算过程中,无关词项参与相似度模型的计算,造成干扰导致匹配效果差。
传统度量学习是将向量通过线性变换映射到另一空间上,在新空间上通过欧式距离、马氏距离进行度量计算,当数据内在相关性较强、维度较高的复杂特征,单纯的线性变换不能达到良好的区分效果而无法从语义上对文本相似度进行刻画。由于近几年深度学习在众多领域获得了突破性的成果,度量学习领域也开始利用深度学习在本领域展开新的探索,从而衍生出深度度量学习,并且在许多数据集上得到了先进的结果,深度度量学习是通过神经网络将向量进行非线性变换,从而得到基于深度学习的Embedding空间,变换后的特征成为Embedding特征,基于向量的新特征可以更加准确的刻画原始向量间的相似性。传统度量学习虽然具有可解释性,但是它缺乏领域相关的知识,无法在某个领域内从语义层面上对样本的相似性进行度量,深度度量学习算法的提出弥补了原有算法的不足。深度学习的方法,如基于用户点击数据的深度学习语义匹配模型DSSM,基于卷积神经网络的ConvNet,以及目前的Siamese network等方法。但在对法律案件文本相似度量与关联识别方面还没有好的深度学习模型。
针对一人多案的数据处理系统还停留在人工审查这一阶段,数据的智能分析仅是刚刚起步,而法院对于司法诉讼过程的实时分析的需求越来越高,研究基于深度度量学习的一人多案关联识别系统及方法,如何从庞大芜杂的数据中提取出有价值的信息,是一个具有重要应用价值,而且很有挑战性的研究目标。
发明内容
本发明的目的在于:针对在审判执行与诉讼服务中存在多起案件中当事人或者案件事实相同的情况,提供一种基于深度度量学习的一人多案关联识别方法及系统,利用深度度量学习与法律业务规则相结合的方法,解决当前信息化系统无法有效分辨“一人多案”的技术难题,实现法院立案-审判-执行全流程阶段的“一人多案”的关联识别,为跨区域跨层级的司法资源统筹提供技术支持,为法院公正、高效地审理和执行案件提供保障。
本发明采用的技术方案如下:
一种基于深度度量学习的一人多案关联识别方法,包括以下步骤:
获取待进行一人多案关联识别的起诉状,将其输入预先训练完成的案件要素识别模型,得到案件要素信息;
将得到的案件要素信息输入预先训练完成的案件相似度量模型,所述案件相似度量模型利用深度学习和度量学习技术计算案件要素信息与候选案件集合中的案件的文本语义相似度;
根据相似度的计算结果判断是否存在一人多案的情况,并按人建立案件关联。
一种基于深度度量学习的一人多案关联识别系统,包括:案件要素识别模块、案件相似度量模块、案件关联识别模块,其中:
案件要素识别模块,完成法律文书案件要素识别任务:以起诉状文本语义理解为核心,利用自然语言处理技术与机器学习方法实现对起诉状中的当事人、案由、诉讼请求等关键信息进行智能识别。该模块被案件相似度量模块调用,其输入参数为起诉状文本,输出参数为案件要素信息。为案件相似度量模块、案件关联识别模块提供支持。
案件相似度量模块,完成法律文书间相似性的度量工作:将从案件要素识别模块得到的案件要素文本,利用深度学习和度量学习技术,从语义上判断案件文本中的诉讼请求、事实与理由是否相似,为案件关联识别模块提供支持。
案件关联识别模块,完成案件之间的自动关联识别工作:根据案件要素识别模块得到的案件要素信息,调用案件相似度量模块分别对各个要素进行相似性建模,并计算得到各个要素对应的相似度,综合案件各个要素的相似性,判断是否存在一人多案的情况,并按人建立案件关联。
进一步地,所述案件要素信息分为实体类要素和关系类要素;所述案件要素识别模型包含法律实体要素识别模型和法律关系要素判别模型。
(1)实体类要素识别:所述法律实体要素识别模型采用序列标注的方式:包括案件各时间点、当事人、被执行物品等关键信息;通过基于Bi-LSTM+CRF的命名实体识别技术实现案件要素的自动识别提取。其中Bi-LSTM为双向长短时记忆网络,CRF为条件随机场。所述法律实体要素识别模型包含:
1)编码层:用word2vec模型训练获取“字”向量;
2)表征层:利用Bi-LSTM神经网络充分考虑上下文信息,获取当前字的上下文表征向量;
3)输出层:通过CRF过程求解,依照上下文表征向量序列得到标注序列。
(2)关系类要素识别:所述法律关系要素判别模型采用文本分类的方式;包括法律关系、诉讼请求等关键信息;判别法律主体之间的权利义务关系,常见的有合同关系、侵权关系、婚姻关系等;通过基于CNN(卷积神经网络)的文本分类技术实现法律关系的自动判别。所述法律关系要素判别模型包含:
1)编码层:利用词向量word2vec和位置信息进行句子向量化表示;
2)卷积层:法律文本中的句子长度是不同的,利用CNN进行数据的归一化处理;
3)输出层:利用Softmax Loss函数对整个网络优化求解,最终实现分类目的。
进一步地,所述案件相似度量模块具体实现过程,即所述案件相似度量模型的训练过程如下:
(1)构造训练数据集,其中每份数据由三篇法律文书组成,以三元组集合形式存储;对于每份数据,用(d0,d1,d2)来代表该组数据,约定文书d0和d1的相似度比文书d0和d2的相似度高,即sim(d0,d1)>sim(d0,d2)。
(2)案件表示初始化,通过词向量word2vec拼接位置信息构成案件的特征向量的初始化值。
(3)通过分布式表达和神经网络结构相结合的深度度量学习方式,采用多种注意力机制与Transformer网络结构学习法律文本表示,利用Triplet Loss损失函数优化基准示例与正示例的距离小于基准示例与负示例的距离,实现案件文本的相似性计算。
进一步地,所述案件关联识别模块具体实现过程如下:
(1)提取案件要素信息,调用法律实体要素识别模型对用户输入的新起诉状进行要素识别,提取当事人、企业名称等案件要素信息,调用法律关系要素判别模型得到案由、法律关系、诉讼请求等案件要素信息。
(2)获取候选案件集合,调用待关联的法律业务系统API,比如法院立案系统、执行办案系统等,执行由时间段、当事人、企业名称等组成查询条件,查询得到包含当事人、案由、诉讼请求等候选案件文本信息,形成候选案件集合。
(3)判断是否一人多案,对于步骤(1)中用户输入的新起诉状,系统能够返回该案件是否存在一人多案。
进一步地,判断是否一人多案的具体流程如下:
1)判断当事人是否相同:如果存在身份证号,则可以直接判断是否同一人;如果没有身份证号,则根据姓名、性别、年龄、住址等信息进行判断是否是同一个人。
2)判断案由是否相同:调用法律关系要素判别模型确定新起诉状的案由,再和候选案件集合中的案件案由对比,判断是否有相同案由的案件。
3)判断诉求请求是否相同:调用案件相似度量模块判断新起诉状与候选案件集合中的案件的诉讼请求描述是否相似,并设定阈值筛选出相似案件。
4)建立一人多案关联:利用法律业务规则从候选案件集合中判定是否同一当事人认定、是否同一案由认定、是否同一诉讼请求认定,建立案件之间的关联。
本发明与现有技术相比的优点在于:
(1)本发明的方法解决了法律案件的长文本特征化表示问题,采用多种注意力机制与Transformer网络结构学习法律文本表示,以更大限度的在法律领域发挥作用。
(2)本发明的方法解决了法律文书的细粒度相似度量问题,将法律文书分解为各个案件要素信息,通过Triplet Network网络结构共享参数,利用少量标注样本数据构造三元组对进行相似度度量,不仅考虑了能否正确分类,而且考虑类之间的距离。
(3)本发明的系统可以关联法院审判系统,在立案阶段对重复立案进行要素认定和关联度计算,帮助法官识别立案风险,给出风险系数和相应建议。
(4)本发明的系统可以关联执行办案系统,为法官提供有价值的案件关联的线索,帮助法官针对关联案件、当事人人员关系、潜在线索等办案新证难题进行分析,有效辅助化解办案难、信息不全等问题。
附图说明
图1为本发明的一人多案关联方法流程示意图;
图2为本发明的一人多案关联系统的模块构成及工作流程示意图;
图3为本发明的案件相似度量模型示意图;
图4为本发明的案件关联识别模型示意图。
具体实施方式
本发明的目的在于提供一种基于深度度量学习的一人多案关联识别方法,通过序列标注和文本分类方法来实现对案件要素信息识别,得出案件中所隐含的当事人、案由、事实、诉求等要素信息,利用深度度量学习技术学习法律文本之间的相似性,按照一定的业务规则进行一人多案的判别,并以当事人为中心建立案件关联关系。
本发明实例以Python语言作为系统的主要开发语言,数据集是来自“中国裁判文书网”公开的法律文书,以民事领域的案件作为本发明系统的应用场景。下面结合附图及实施案例对本发明进行详细说明。
如图1所示,本实施例的一人多案关联方法流程示意图,包括以下步骤:
S1.训练案件要素识别模型,获取案件要素信息;
S2.训练案件相似度量模型,获取案件相似度矩阵;
S3.从多个案件要素角度判别相似性,建立案件的一人多案关联。
如图2所示,本发明基于深度度量学习的一人多案关联识别系统由案件要素识别模块、案件相似度量模块、案件关联识别模块构成,具体实现过程如下:
1、案件要素识别模块
本发明实例中的案件要素识别过程分为两部分,一部分为实体类要素识别,一类是关系类要素识别。一份起诉状主要包括原告、被告、诉讼请求、事实与理由四部分,其中前两项为显式信息,包含当事人的姓名、性别、出生年月(或年龄)、民族、籍贯、职业和住址等信息,可通过序列标注的方法进行实体类要素识别;后两项为隐式信息,包括诉讼请求、事实与理由等信息,描述了案由和法律关系,可通过文本分类的方法进行关系类要素识别。具体步骤如下:
(1)实体类要素识别
1)定义要识别的实体类,本实例主要涉及人名、地名、机构名;
2)对部分数据的实体进行人工标注,包括实体类型、起始位置、结束位置;
3)构造基于Bi-LSTM+CRF的命名实体识别深度学习网络;
4)利用标注数据对实体识别网络进行训练,得到实体识别模型;
5)通过训练好的实体识别模型,对未标注的数据进行实体识别,得到当事人的姓名、籍贯/住址、企业名称。
6)利用规则从原告、被告描述中提取当事人的性别、年龄或出生日期、身份证号。
(2)关系类要素识别
1)定义要识别的关系类,本实例主要涉及合同关系、侵权关系、婚姻关系等;
2)对部分数据的法律关系进行人工标注,通过语义判别法律主体之间的权利义务关系;
3)构造基于CNN的法律文本分类深度学习网络;
4)利用标注数据对文本分类网络进行训练,得到文本分类模型;
5)通过训练好的文本分类模型,对未标注的数据进行类别判别,得到法律主体之间的权利义务关系,即法律关系。
2、案件相似度量模块
本发明中的案件相似度度量不仅要判断一个案件与其他案件是否相似,还要计算一个案件与其他案件的相似度值是多少,能够按照相似度值大小排序,数据模型采用Triplet Network(三元组网络)网络结构模型,具体步骤如下:
(1)构造训练数据集
数据集是来自“中国裁判文书网”公开的法律文书,其中每份数据由三篇法律文书组成,以三元组集合形式存储,数据总共涉及文书1800篇,三元组对5000个。对于每份数据,用(d0,d1,d2)来代表该组数据,约定文书d0和文书d1的相似度比文书d0和文书d2的相似度高,即sim(d0,d1)>sim(d0,d2),不符合的需要调整d1和d2的顺序。
(2)案件表示初始化
将案件文本中的每一个词表示为一个d维的向量,该d维向量由一个词向量与一个位置向量相加得到,通过词向量word2vec拼接位置向量构成案件的特征向量的初始化值。
本实例中的词向量由提前使用Word2vec在中文维基百科语料预训练得到,但训练过程中词向量并不是固定的,会随模型的学习而更新。
本实例中的位置向量是通过公式(1)计算得到,并且在训练过程固定不变化。其中,2i与2i+1分别表示偶数位置和奇数位置,PE2i(p)为句子第p个位置向量的第i维的值,每一维的向量都由三角函数计算,最终拼接得到p位置的d维向量。
Figure BDA0002306396220000071
本实例中选择该公式是因为其可以很容易学习到相对位置,比如给定一个偏移量k,那么p+k的位置向量可以表示为p位置向量的线性变换。通过公式计算可以得到没有学习过的位置向量,而模型可以基于相对位置推断其含义。
本实例中将词向量与位置向量相加,输出案件文本的向量序列,D:[d1,…,ld],其中词向量可得到词汇的语义特征,位置向量可以捕获词在问题中的位置信息与相对距离特征。
(3)案件相似计算
本发明实例中通过分布式表达和神经网络结构相结合的深度度量学习方式,利用Triplet Loss度量损失函数更好地对案件文本细节进行建模,学习两组案件文本之间差异性的度量,实现案件文本的相似性计算,其算法框架由三部分组成,如图3所示。
1)输入层,通过上述的案件表示初始化方法,首先将案件文本分词,然后计算每个词的词向量与位置向量,最后将词向量和位置向量拼接得到案件文本的分布式向量化表示。每次输入一个案件文本三元组,
Figure BDA0002306396220000072
案件文本之间的相似性满足以下公式:
Figure BDA0002306396220000073
本发明实例中负例案件
Figure BDA0002306396220000074
不仅局限于是基准案件Di的反例,而且还可以是比正例案件
Figure BDA0002306396220000075
相似度低的案件。
2)表示层,用于识别及编码案件要素特征,对应案件文本三元组输入设置三个网络,即图3中的Di网络、
Figure BDA0002306396220000081
网络、
Figure BDA0002306396220000082
网络,网络之间共享参数,该层的网络作为非线性变换表示函数将案件的原始特征转换为Embedding(分布式表示)特征,即案件文本的特征抽取器。通过特征抽取器提取句子的特征,包括上下文信息,句子结构,句子语义等。本发明实例中的特征抽取器对案件文本的语义表示建模,其网络的具体结构形式会对算法结果产生影响,是整个模型的基础。该层子网络使用3层的Transformer网络作为特征提取器代替LSTM和CNN的编码方式,既能对句子整体进行编码,提取到语义层面的匹配信息;又能提取语法层面的局部匹配信息。适合对法律案件文本进行语义表示建模。
本发明实例中采用多种注意力机制从不同视角匹配计算案件序列各位置的权重。其中,加法方法(Additive Attention)考虑了位置的匹配程度,乘法方法(MultiplicativeAttention)能够捕捉文本摘要信息,序列注意力方法(Sequential Attention)考虑了位置上下文的信息。
本发明实例中Transformer网络(参考文献:Vaswani A,Shazeer N,Parmar N,etal.Attention is all you need[C].neural information processing systems,2017:6000-6010.)由两个子层组成,第一子层是Multi-Head的自注意力结构,第二子层是Position-Wise的全连接前馈网络。Multi-Head的自注意力结构对文本序列进行多个不同的线性变换,然后通过自注意力机制学习不同子空间下文本的表示,最后将多个文本表示向量拼接起来作为输出。Position-Wise的全连接前馈网络由两个线性变换组成,并且线性变换在不同位置上参数相同,类似于卷积核为1的两层CNN网络。
3)度量层,使用Triplet Loss(参考文献:Schroff F,Kalenichenko D,PhilbinJ,et al.FaceNet:A unified embedding for face recognition and clustering[J].computer vision and pattern recognition,2015:815-823.)作为整体框架的优化目标,最终通过该层得到案件要素特征在Embedding空间上的表示,从而在一人多案判别场景中得到应用。
Figure BDA0002306396220000083
本发明实例中采用上述公式作为Loss损失函数,训练的目标是让相似案件在新的编码空间里的距离尽可能的小,让不相似案件在新的编码空间里的距离尽可能的大,即
Figure BDA0002306396220000084
大于
Figure BDA0002306396220000085
其中d(x,y)表示两个案件之间的距离,margin为阈值。在训练过程中对于某一个案件,将同构邻居拉近,将异构邻居推远,从而学习出一个间隔。
本发明实例中采用曼哈顿距离度量两个案件之间的距离,即在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和,其计算公式如下:
Figure BDA0002306396220000086
其中,x,y表示两个不同案件的文档向量,n表示文档向量的维度,xk、yk表示文档向量的第k个元素。
本发明充分利用了案件相似度的监督信息,通过神经网络来对案件相似度学习过程进行表示,从而得到基于深度学习的Embedding空间,变换后的特征成为Embedding特征,基于向量的新特征可以更加准确的刻画原始向量间的相似性。
3、案件关联识别模块
本发明实例中案件关联识别模块分为线下和线上两部分,如图4所示:
(1)线下部分为模型训练模块,具体步骤如下:
1)调用案件要素提取模块,利用案件文本标注语料分别对相应的法律实体和法律关系进行训练模型,得到法律实体要素识别模型和法律关系要素判别模型。
2)调用案件相似度度量模块,利用标注的案件相似度监督信息分别对诉讼请求和法律事实进行模型训练,得到诉讼请求相似度量模型和法律事实相似度量模型。
(2)线上部分为模型预测模块,具体步骤如下:
本发明实例以立案阶段的一人多案判别为例,用户输入一个新的起诉状,模型能够判断该案件是否属于一人多案,如果是则返回处置建议。如图4所示。
定义以下在立案阶段中一人多案的相关概念及判定规则:
定义一重复立案
立案阶段的一人多案情况主要是重复立案,重复立案与重复起诉有关,重复起诉是指当事人就已经提起诉讼的事项在诉讼过程中或者裁判生效后再次起诉。特别针对相同当事人、同一诉案由、同一法律关系以及主要诉讼请求相同,但在不同法院分别提起诉讼,浪费司法资源的问题。
规则一 重复起诉判定规则
判断要素:当事人相同、案由相同、诉讼请求相同,即同一纠纷判断。
规则二 一人起诉多案或被诉多案判定规则
判断要素:案由相同、原告相同或被告相同,即一方当事人相同纠纷。
规则三 串案判定规则
判断要素:原告相同、被告相同、案由相同或相关,即相同当事人之间的多起纠纷。
本发明实例中的案件关联识别模型流程如下:
1)调用案件要素提取模块对用户输入的新起诉状进行要素识别,通过法律实体要素识别模型得到当事人的姓名、性别、身份证号、出生年月(或年龄)、民族、籍贯、职业和住址等信息,部分项可能在诉讼书中没有提及,比如身份证号、籍贯等,识别不出来不会影响整个模型。通过法律关系要素判别模型得到案由、法律关系、诉讼请求等案件要素信息。
2)调用待关联的法律业务系统API查询构建候选案件集合,本实例中关联的是法院立案系统。查询语句由当事人信息(自然人、法人、其他组织)的姓名、性别、住址以及企业名称等构成,执行查询语句从系统中检索出原告和被告符合当事人信息条件的案件,案件文本包含当事人、案由、事实、诉讼请求等文本信息,形成候选案件集合以待进一步分析。
3)判断是否一人多案,对于步骤1)中用户输入的新起诉状,系统能够返回该案件是否存在一人多案,具体流程如下:
①判断当事人是否相同:如果存在身份证号,则可以直接判断是否同一人;如果没有身份证号,则根据姓名、性别、年龄、住址等信息进行判断是否是同一个人。
②判断案由是否相同:将获取到的新起诉状的案由和和候选案件集合中的案件案由对比,可以通过关键词直接匹配,也可以利用BERT获取关键词的语义向量进行计算,判断是否有相同案由的案件。
③判断诉求请求是否相同:调用案件相似度量模块得到新起诉状与候选案件的诉讼请求的特征向量表示,通过计算曼哈顿距离来判定两者之间是否相似,并设定阈值筛选出相似案件。
④建立一人多案关联:利用立案阶段中重复立案的判定规则从候选案件集合中判定是否同一当事人认定、是否同一案由认定、是否同一诉讼请求认定,以当事人为中心建立案件之间的关联。
为验证本发明系统案件相似度量模块的有效性,利用“中国裁判文书网”公开的法律文书1800篇,对比基于传统方法的度量方法(TF-IDF、LDA)、基于Siamese network孪生网络的度量方法和本发明基于Triplet network三元组架构度量方法的准确度。表1给出了各方法的准确率指标。
表1.案件相似度量模块实验结果
Figure BDA0002306396220000101
从表1中可以看出:(1)深度度量学习的准确率明显高于传统度量学习方法;(2)基于Triplet network三元组架构的模型的结果普遍好于基于Siamese network孪生网络的模型;
(3)基于Triplet network三元组架构还可以通过数据增强的方式进一步提升深度模型准确率。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。

Claims (10)

1.一种基于深度度量学习的一人多案关联识别方法,其特征在于,包括以下步骤:
获取待进行一人多案关联识别的起诉状,将其输入预先训练完成的案件要素识别模型,得到案件要素信息;
将得到的案件要素信息输入预先训练完成的案件相似度量模型,所述案件相似度量模型利用深度学习和度量学习技术计算案件要素信息与候选案件集合中的案件的文本语义相似度;
根据相似度的计算结果判断是否存在一人多案的情况,并按人建立案件关联。
2.根据权利要求1所述的方法,其特征在于,所述案件要素信息分为实体类要素和关系类要素;所述案件要素识别模型包含法律实体要素识别模型和法律关系要素判别模型;
所述法律实体要素识别模型,采用序列标注的方式,通过基于Bi-LSTM+CRF的命名实体识别技术实现实体类要素的自动识别;
所述法律关系要素判别模型,通过基于CNN的文本分类技术实现关系类要素的自动识别。
3.根据权利要求2所述的方法,其特征在于,所述法律实体要素识别模型包含:
编码层,用于采用word2vec模型训练获取字向量;
表征层,用于利用Bi-LSTM神经网络充分考虑上下文信息,获取当前字的上下文表征向量;
输出层,用于通过CRF过程求解,依照上下文表征向量序列得到标注序列。
4.根据权利要求2所述的方法,其特征在于,所述法律关系要素判别模型包含;
编码层,用于利用词向量word2vec和位置信息进行句子向量化表示;
卷积层,用于利用CNN对法律文本中的长度不同的句子进行数据的归一化处理;
输出层,用于利用Softmax Loss函数对整个网络优化求解,最终实现分类目的。
5.根据权利要求1所述的方法,其特征在于,所述案件相似度量模型的训练过程包括:
构造训练数据集,其中每份数据由三篇法律文书组成,以三元组集合形式存储;对于每份数据,用(d0,d1,d2)来代表该组数据,约定文书d0和d1的相似度比文书d0和d2的相似度高;
通过词向量word2vec拼接位置信息构成案件的特征向量的初始化值,实现案件表示初始化;
通过分布式表达和神经网络结构相结合的深度度量学习方式,采用多种注意力机制与Transformer网络结构学习法律文本表示,利用Triplet Loss损失函数进行优化使得基准示例与正示例的距离小于基准示例与负示例的距离,实现案件文本的相似性计算。
6.根据权利要求1所述的方法,其特征在于,通过调用待关联的法律业务系统API,,并执行查询条件,查询得到候选案件文本信息,形成所述候选案件集合。
7.根据权利要求1所述的方法,其特征在于,所述根据相似度的计算结果判断是否存在一人多案的情况,并按人建立案件关联,包括:
判断当事人是否相同:如果存在身份证号,则直接判断是否同一人;如果没有身份证号,则根据姓名、性别、年龄、住址信息判断是否是同一个人;
判断案由是否相同:调用所述案件要素识别模型中的法律关系要素判别模型确定起诉状的案由,再和候选案件集合中的案件案由对比,判断是否有相同案由的案件;
判断诉求请求是否相同:调用所述案件相似度量模型判断起诉状与候选案件集合中的案件的诉讼请求描述是否相似,并设定阈值筛选出相似案件;
建立一人多案关联:利用法律业务规则从候选案件集合中判定是否同一当事人认定、是否同一案由认定、是否同一诉讼请求认定,从而以当事人为中心建立案件之间的关联。
8.根据权利要求7所述的方法,其特征在于,所述法律业务规则包括:重复起诉判定规则、一人起诉多案或被诉多案判定规则、串案判定规则。
9.一种基于深度度量学习的一人多案关联识别系统,其特征在于,包括案件要素识别模块、案件相似度量模块、案件关联识别模块,其中:
案件要素识别模块,负责完成法律文书案件要素识别任务,包括:以起诉状文本语义理解为核心,利用自然语言处理技术与机器学习方法实现对起诉状中的案件要素信息进行智能识别;
案件相似度量模块,负责完成法律文书间相似性的度量工作,包括:将从案件要素识别模块得到的案件要素信息,利用深度学习和度量学习技术,从语义上判断其与候选案件集合中的案件是否相似;
案件关联识别模块,负责完成案件之间的自动关联识别工作,包括:根据案件要素识别模块得到的案件要素信息,调用案件相似度量模块计算得到各个案件要素对应的相似度,综合案件各个案件要素的相似性,判断是否存在一人多案的情况,并按人建立案件关联。
10.一种电子装置,其包括存储器和处理器,其特征在于,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~8中任一权利要求所述方法的指令。
CN201911241577.0A 2019-12-06 2019-12-06 一种基于深度度量学习的一人多案关联识别方法及系统 Active CN112925877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911241577.0A CN112925877B (zh) 2019-12-06 2019-12-06 一种基于深度度量学习的一人多案关联识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911241577.0A CN112925877B (zh) 2019-12-06 2019-12-06 一种基于深度度量学习的一人多案关联识别方法及系统

Publications (2)

Publication Number Publication Date
CN112925877A true CN112925877A (zh) 2021-06-08
CN112925877B CN112925877B (zh) 2023-07-07

Family

ID=76161529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911241577.0A Active CN112925877B (zh) 2019-12-06 2019-12-06 一种基于深度度量学习的一人多案关联识别方法及系统

Country Status (1)

Country Link
CN (1) CN112925877B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297834A (zh) * 2021-06-18 2021-08-24 苏州智汇谷科技服务有限公司 基于警情间语义相似度判断串并案的方法及装置
CN113315789A (zh) * 2021-07-29 2021-08-27 中南大学 一种基于多级联合网络的Web攻击检测方法及系统
CN117577348A (zh) * 2024-01-15 2024-02-20 中国医学科学院医学信息研究所 一种循证医学证据的识别方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN109918674A (zh) * 2019-03-14 2019-06-21 武汉烽火普天信息技术有限公司 一种基于案件要素相似性建模的案件串并方法
CN110147553A (zh) * 2019-05-23 2019-08-20 贵州大学 一种基于案件要素的法律文书分析方法
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN110334217A (zh) * 2019-05-10 2019-10-15 科大讯飞股份有限公司 一种要素抽取方法、装置、设备及存储介质
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN109918674A (zh) * 2019-03-14 2019-06-21 武汉烽火普天信息技术有限公司 一种基于案件要素相似性建模的案件串并方法
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN110334217A (zh) * 2019-05-10 2019-10-15 科大讯飞股份有限公司 一种要素抽取方法、装置、设备及存储介质
CN110147553A (zh) * 2019-05-23 2019-08-20 贵州大学 一种基于案件要素的法律文书分析方法
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIANGYI KANG等: "Creating Auxiliary Representations from Charge Definitions for Criminal Charge Prediction", 《HTTP://ARXIV.ORG/ABS/1911.05202》 *
LIAT EIN DOR等: "Learning Thematic Similarity Metric Using Triplet Networks", 《PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297834A (zh) * 2021-06-18 2021-08-24 苏州智汇谷科技服务有限公司 基于警情间语义相似度判断串并案的方法及装置
CN113315789A (zh) * 2021-07-29 2021-08-27 中南大学 一种基于多级联合网络的Web攻击检测方法及系统
CN113315789B (zh) * 2021-07-29 2021-10-15 中南大学 一种基于多级联合网络的Web攻击检测方法及系统
CN117577348A (zh) * 2024-01-15 2024-02-20 中国医学科学院医学信息研究所 一种循证医学证据的识别方法及相关装置
CN117577348B (zh) * 2024-01-15 2024-03-29 中国医学科学院医学信息研究所 一种循证医学证据的识别方法及相关装置

Also Published As

Publication number Publication date
CN112925877B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
CN109582949B (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN108520343B (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
CN109918511B (zh) 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
CN111767368B (zh) 一种基于实体链接的问答知识图谱构建方法及存储介质
Hammad et al. An approach for detecting spam in Arabic opinion reviews
CN110096570A (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN112925877B (zh) 一种基于深度度量学习的一人多案关联识别方法及系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113934824B (zh) 一种基于多轮智能问答的相似病历匹配系统及方法
US20140379761A1 (en) Method and system for aggregate content modeling
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN116992007B (zh) 基于问题意图理解的限定问答系统
Cao et al. Deep multi-view learning to rank
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN113704434A (zh) 知识库问答方法、电子设备及可读存储介质
CN114637827A (zh) 一种基于图神经网络的碳交易文本事件抽取方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
Li et al. Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS
CN111506595A (zh) 一种数据查询方法、系统及相关设备
Zhao RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation
CN113901228A (zh) 融合领域知识图谱的跨境民族文本分类方法及装置
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN116862318A (zh) 基于文本语义特征提取的新能源项目评价方法和装置
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant