CN115293145A - 用于相似案件检索的方法、系统和存储介质 - Google Patents

用于相似案件检索的方法、系统和存储介质 Download PDF

Info

Publication number
CN115293145A
CN115293145A CN202210749683.5A CN202210749683A CN115293145A CN 115293145 A CN115293145 A CN 115293145A CN 202210749683 A CN202210749683 A CN 202210749683A CN 115293145 A CN115293145 A CN 115293145A
Authority
CN
China
Prior art keywords
feature
case
empirical
features
cases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210749683.5A
Other languages
English (en)
Inventor
魏扬威
都金涛
祝慧佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210749683.5A priority Critical patent/CN115293145A/zh
Publication of CN115293145A publication Critical patent/CN115293145A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书的实施例提供了一种用于相似案件检索的方法,所述方法包括:接收待查询案件的相似案件查询请求;至少部分地基于所述相似案件查询请求,分别提取所述待查询案件和历史判决案例的文本特征和经验特征,以及提取历史判决案例的知识图谱特征;融合文本特征、经验特征、以及知识图谱特征;以及基于所融合的特征而检索并输出历史判决案例中的相似案件。还提供了众多其他方面。

Description

用于相似案件检索的方法、系统和存储介质
技术领域
本说明书涉及自然语言处理领域,并且更具体地涉及用于相似案件检索的方法、系统和存储介质。
背景技术
全国司法案件每天都在发生,司法文书案件库中积累了海量的历史案件,而公检法部门往往需要使用历史案例中的相似案件来辅助当前案件审理。如果不能对历史案 例进行有效检索,相关公检法部门只能依靠自身经验来进行判断,不仅处理难度较高、 费时费力,还可能增大司法事故发生的概率。便捷高效的相似案件检索(也被称为类 案匹配)系统能通过输入嫌疑人的涉案事实描述,通过机器学习的方式,从公开司法 文书库、案例库中检索出相似案件,从而显著提高相关部门办案效率,同时减少司法 事故发生。
通常的文本匹配模型只会基于表面字符信息对检索内容和判决文书计算相似度,缺乏通用知识、法律知识、和判决书关系建模。为了更好地适配司法领域,更好地服 务于监管,本文提供一种融合通用知识、法律知识和历史判决知识的相似案件检索方 法、系统和存储介质。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素 亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个 方面的一些概念以作为稍后给出的更加详细的描述之序。
为了解决上述问题,本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
在一个方面,提供了一种用于相似案件检索的方法,所述方法包括:接收待查询案件的相似案件查询请求;至少部分地基于所述相似案件查询请求,提取所述待查询 案件的第一文本特征和第一经验特征,以及历史判决案例的第二文本特征和第二经验 特征;融合所述第一文本特征、所述第二文本特征、所述第一经验特征、所述第二经 验特征、以及所述历史判决案例的预先提取的知识图谱特征;以及至少部分地基于所 融合的特征而检索并输出所述历史判决案例中的相似案件。
优选地,提取所述第一文本特征和所述第二文本特征包括:使用单塔K-BERT文 本特征提取模型提取所述第一文本特征和所述第二文本特征,并且其中所述单塔 K-BERT文本特征提取模型使用通用知识图谱来预训练。
优选地,提取所述第一文本特征和所述第二文本特征包括:使用双塔K-BERT文 本特征提取模型的User塔提取所述待查询案件的所述第一文本特征;使用双塔 K-BERT文本特征提取模型的Item塔提取所述历史判决案例的所述第二文本特征,并 且其中所述双塔K-BERT模型使用通用知识图谱来预训练。
优选地,提取所述第一经验特征和所述第二经验特征包括:使用经验特征提取模型提取所述第一经验特征和所述第二经验特征,并且其中所述经验特征提取模型至少 部分地基于通过人工经验生成的经验词汇群来预训练。
优选地,提取所述第一经验特征和所述第二经验特征包括:至少部分地基于人工经验来生成经验词汇群;使用TF-IDF提取所述待查询案件的第一浅层词汇特征和所 述历史判决案例的第二浅层词汇特征;使用经验特征提取模型提取所述待查询案件的 对应经验向量,并且将其与所述第一浅层词汇特征拼接以作为所述第一经验特征,其 中所述经验特征提取模型是至少部分地基于通过人工经验生成的经验词汇群来预训 练的;以及使用所述经验特征提取模型提取所述历史判决案例的对应经验向量,并且 将其与所述第一浅层词汇特征拼接以作为所述第二经验特征。
优选地,所述经验词汇群是能被预配置的,并且包括以下一者或多者:是否包含担保人、担保人个数、是否包含抵押物、抵押物个数、原告是否属于公司、原告人数、 被告是否属于公司、被告人数、是否存在借贷关系、是否包含利息、原告被告关系、 死亡情况。
优选地,提取所述历史判决案例的所述知识图谱特征包括:至少部分地基于法条知识来构建法条知识图谱;至少部分地基于所述历史判决案例来构建历史判决关系知 识图谱;以及至少部分地基于所述法条知识图谱和所述历史判决关系知识图谱进行图 谱推理,以将所述历史判决案例的对应节点向量输出为所述知识图谱特征。
优选地,构建所述历史判决关系知识图谱包括:提取所述历史判决案例的指定字段;以及使用所述指定字段构建针对所述历史判决案例之间的关系的历史判决关系图 谱。
优选地,所述融合包括:执行对所述第一文本特征、所述第二文本特征、所述第 一经验特征、所述第二经验特征、以及所述知识图谱特征的特征拼接、信息融合和特 征降维。
优选地,检索并输出所述相似案件包括:将所融合的特征输入分类器以获得所述待查询案件和所述历史判决案例的相似度;以及输出其相似度大于指定阈值的历史判 决案例作为检索到的相似案件。
优选地,检索并输出所述相似案件进一步包括:自动提取一个或多个相似案件的案例判决;或者分组显示具有相同或相似关键信息的一个或多个相似案件。
在另一方面,提供了一种用于相似案件检索的系统,所述系统包括交互模块,其用于接收待查询案件的相似案件查询请求;特征提取模块,其用于至少部分地基于所 述相似案件查询请求,提取所述待查询案件的第一文本特征和第一经验特征,以及历 史判决案例的第二文本特征和第二经验特征;特征融合模块,其用于融合所述第一文 本特征、所述第二文本特征、所述第一经验特征、所述第二经验特征、以及所述历史 判决案例的预先提取的知识图谱特征;以及相似案件输出模块,其用于至少部分地基 于所融合的特征而检索并输出所述历史判决案例中的相似案件。
在又另一方面,提供了一种存储指令的非瞬态计算机可读存储介质,所述指令当被计算机执行时,使所述计算机执行前述方法中任一项的方法。
提供本发明内容是为了以简化的形式来介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要 特征,也不旨在用于限制所要求保护的主题的范围。各实施例的其他方面、特征和/ 或优点将部分地在下面的描述中阐述,并且将部分地从描述中显而易见,或者可以通 过本说明书的实践来学习。
附图说明
为了能详细地理解本说明书的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附 图仅示出了本说明书的某些典型方面,故不应被认为限定其范围,因为该描述可以允 许有其它等同有效的方面。在附图中,类似附图标记始终作类似的标识。要注意,所 描述的附图只是示意性的并且是非限制性的。在附图中,一些部件的尺寸可放大并且 出于解说性的目的不按比例绘制。
图1解说了文本检索模型的示例。
图2解说了根据本说明书实施例的用于实现相似案件检索的模型的示例。
图3A和3B解说了根据本说明书实施例的支持用于实现相似案件检索的文本特 征提取器的模型的示例。
图4解说了根据本说明书实施例的为用于实现相似案件检索的知识图谱特征提取器建立的知识图谱的示例。
图5解说了根据本说明书实施例的支持用于实现相似案件检索的方法的框图。
图6解说了根据本说明书实施例的支持用于实现相似案件检索的系统的框图。
图7解说了根据本说明书实施例的支持用于实现相似案件检索的装置的框图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本说明书进一步详细说明。在以下详细描述中,阐述了许多具体细节以 提供对所描述的示例性实施例的透彻理解。然而,对于本领域技术人员显而易见的是, 可以在没有这些具体细节中的一些或全部的情况下实践所描述的实施例。在其他示例 性实施例中,没有详细描述公知的结构或处理步骤,以避免不必要地模糊本说明书的 概念。
在本说明书中,除非另有说明,否则通过本说明书使用的术语“A或B”指的是“A 和B”和“A或B”,而不是指A和B是排他性的。
图1解说了文本检索模型100的示例。在文本检索算法中,BERT(BidirectionalEncoder Representations from Transformers,基于转换器的双向编码表征)算法和该BERT算法的变种是主要思路。本文中的文本检索模型亦可被称为文本匹配深度学习 模型,其架构主要有两类:Representation-Based(基于表征)模型和Interaction-Based (基于交互)模型。
图1是Representation-Based双塔模型的示意图,其利用双向编码器,诸如DSSM(Deep Structured Semantic Models,深度结构化语义模型)、SNRM等。 Representation-Based双塔模型将Query(查询)和Document(文档)编码映射到相 同的语义向量空间,通过构造匹配函数为Query和Document的匹配程度进行打分。 可以离线计算所有Document的表征向量,在线计算Query的表征向量进行匹配。另 一方面,Interaction-Based单塔模型(未示出)可利用交叉编码器,诸如DSSM、KNRM、 ConvKNRM等;Interaction-Based模型中的全局交互模型可通用利用交叉编码器,诸 如BERT等。在Interaction-Based模型中,Query和Document在编码时会进行交互计 算,能够实现更细粒度的匹配,有效提高匹配效果。此外,还有后期交互模型,诸如 所提议的ColBERT(Contextualized Late Interaction overBERT),可使用BERT对 Query和Document进行独立编码,采用一种成本有效但功能强大的交互步骤对它们 的细粒度相似性进行建模。通过延迟并保留这种细粒度的交互,ColBERT可以利用BERT的表达能力,同时离线获得预先计算文档表示,从而大大加快查询处理。
然而,上述模型(诸如BERT模型)可以处理的最大文本长度阈值为512,基于LeCaRD数据集(A Legal Case Retrieval Dataset for Chinese Law System,中国刑事判决书的类案检索数据集)统计的判决文书平均长度却多达12497字。为了解决这个问 题,常见做法是从判决文书中截取检方起诉被告人行为的部分,丢弃判决文书的其他 部分。这样会带来如下问题:
需要结合法律知识一起理解司法文书内容。比如:
案件1:“The defendant Chen XX had a grudge against the victim WangXX.On DD/MM/YYYY,when Wang XX was on his way home from work,Chen XX togetherwith another defendant Li XX beat Wang XX,causing Wang XX to be second-levelslightly injured....”
其中描述“beat Wang XX”和“second-level slightly injured”为司法关注的因素, 是判决文书中被截取的部分,而其他相关内容没有与上述司法关注因素一起作为相似案件判断的依据,造成信息丢失。
需要判决书之间的关系建模。比如:
指向相同案件的一审、二审、终审等文书关系;相同被告人的多次犯案以及对应的多个文书之间的关系,从而丢失了有用信息。
需要通用知识。比如:
案件2:“被告人M以人民币X元的价格将一包重a克的红色粉末及一包重b 克的白色晶体贩卖给N,经检验,从上述红色粉末及白色晶体中均检出甲基苯丙胺成 分,后,民警至附近的烧烤店抓捕被告人M,被告人M拒不配合,持刀划伤辅警L 后逃跑。”
检方起诉被告人的行为描述中,并不一定会直接出现“违禁药品”之类的字样或大众熟知的药品的常用名,从而无法将上述行为和涉毒案件关联起来。
因此,为了更好地适配司法领域,更好地服务于监管,本文提供一种融合通用知识、法律知识和历史判决知识的相似案件检索方法流程,更快更精准地在案件集中检 索出相似案件,如下文所描述的。
图2解说了根据本说明书实施例的用于实现相似案件检索的模型200的示例。
如图2所示,可以使用文本特征提取器215、经验特征提取器220、知识图谱特 征提取器225来分别从不同角度提取相似案件检索过程中查询205(Query)和历史 判决案例210(Candidate)的特征,再将特征拼接、融合、降维,最后进入分类器输 出预测概率分(例如,相似度),从而检索到相似案件。应理解,其中历史判决案例 210可来自类案检索数据集,知识图谱特征提取器225可表示离线计算模块,而其余 部分可表示线上实时计算模块。应理解,虽然本说明书的实施例使用了三种特征提取 器,但可以仅采取其中一种或两种特征提取器的任何组合来实现相似案件检索而不会 脱离本说明书实施例的范围。
首先,需要向模型200输入待查询案件(例如,已经立案的案件、侦查中的案件 等等)、待查询事例的相关行为描述查询205(Query),并且基于该描述而生成相 似案件查询请求。例如,可以输入表达上述案件2的全部描述或仅输入关键信息。
进一步地,基于所述相似案件查询请求,可以使用输入文本特征提取器215、经 验特征提取器220和知识图谱特征提取器225分别获取查询205和历史判决案例210 的经验特征、文本特征和知识图谱特征。
在本申请说明书的实施例中,可使用输入文本特征提取器215分别提取输入的查询205和历史判决案例210的文本特征。在本申请说明书的实施例中,将知识图谱(KG) 应用在BERT中创建了K-BERT模型,从而替换司法文书场景检索中常用的BERT 模型,以在相似行为判定过程中融合通用知识。关于文本特征提取器215将在以下参 照图3进一步详细地描述。例如,在文本特征提取器215中,可以对查询205的案例 描述和历史判决案例210分别进行特征词向量提取,得到查询205和历史判决案例 210的案例描述中每个词的向量表示,其中,定义每条案例描述所对应词序列是 xinput={x1,x2,...,xn},xn表示第n个词;经过文本特征提取器后其输出的对应词 向量为Aouput=[A1,A2,...,An],A表示每条案例描述的向量表示,An表示案例描述 中第n个词的词向量,n表示案例描述中词的总数目。
在本申请说明书的实施例中,可使用经验特征提取器220提取输入的查询205和历史判决案例210的经验特征。一方面,在本申请说明书的实施例中,可以可任选的 使用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)基于 浅层词汇对查询和历史判决案例提取浅层词汇特征。TF-IDF可以评估一字词对于语 料库中的一份文件的重要程度。字词的重要性随着该字词在文件中出现的次数成正比 增加,但同时会随着它在语料库中出现的频率成反比下降。使用TF-IDF来统计数据 可以获取大量浅层信息。例如,判决案例中的浅层信息无需计算、推理,只要能够根 据判决案例中的每一句话,找出其中的重点字词,比如数字、颜色、关键字等。针对 案例2中的第一句话“被告人M以人民币X元的价格将一包重a克的红色粉末及一 包重b克的白色晶体贩卖给N”,最简单、最容易得到的信息是数字:a克、b克。 需要被重视的关键字是红色粉末、白色晶体、贩卖等。如此,可以获得查询205的浅 层词汇特征和历史判决案例的浅层词汇特征。
另一方面,在本申请说明书的实施例中,基于司法从业人员的人工经验针对查询205和历史判决案例210提取经验特征以吸收司法从业人员的人工经验。需要提取的 经验特征是可配置的,并且其可以是包括以下一者或多者的一群经验特征:是否包含 担保人、担保人个数、是否包含抵押物、抵押物个数、原告是否属于公司、原告人数、 被告是否属于公司、被告人数、是否存在借贷关系、是否包含利息、原告被告关系、 死亡情况。使用经验特征提取器提取待查询案件和历史判决案例的特征向量。例如, 该特征向量的每个维度是一个标量(数值),该数值来自特定业务角度的文本统计结 果。具体地,在输入特征提取器的案例的特征向量是[1,1,0,0,1,2,0,0,0, 0,2,0]的情况下,表示该案例:包含担保人;担保人人数为1;不包含抵押物;抵 押物数量为0;原告属于公司;原告人数为2;被告不属于公司;被告人数为0;不 存在借贷关系;不包含利息;原告和被告朋友关系;无死亡情况。这些经验特征可以 基于上述经验特征群中的词汇统计来得到,并且被用作文本特征提取器和KG特征提 取器所提取特征的补充。在本申请说明书的实施例中,可以将基于经验特征群获得经 验特征向量作为经验特征,也可以将上述两方面结合,使用经验特征向量与浅层词汇特征拼接而获得待查询案例的经验特征和历史判决案例的经验特征。应理解,可采用 与上文不同的方式来获得经验特征,其具体细节在此不再赘述。
在本申请说明书的实施例中,知识图谱特征提取器225可以被离线地预训练,并且被用来提前离线地提取历史判决案例的知识图谱特征。例如,可以使用历史判决案 例及其相关节点构建知识图谱,再训练该知识图谱以获取与历史判决案例节点对应的 向量作为特征向量。关于知识图谱特征提取器225将参照图4在以下进一步详细地描 述。
进一步地,可以融合查询205的文本特征和经验特征,以及历史判决案例210的 文本特征、经验特征以及知识图谱特征。例如,上述特征被输入特征拼接模块230通 过特征向量拼接合并成高维向量。例如,上述特征可被直接向量拼接。进一步地,特 征拼接后的特征被输入深度神经网络(DNN)模块235,完成特征之间的交叉作用, 进行信息融合,随后削减特征维度。特征拼接之后的特征各个部分信息是孤立的且特 征总维度比较高,需要使用DNN模块235进行信息融合和特征降维。例如,信息融 合可以处理不完整、不一致、冲突或未对齐的原始数据以获取可靠、有价值和准确的 信息。而特征降维可保留重要特征,去除冗余特征,从而减少数据特征的维度,其中 特征的重要性取决于该特征能够表达多少数据集的信息。
最后,使用分类器基于所融合的特征输出最后概率得分。例如,可以将DNN模 块235输出的特征输入通过Softmax分类器进行归一化操作,把所有输出值转化为在 概率0~1之间,并且所有概率值加起来等于1,从而把查询205和历史判决案例210 的语义相似性转化为是否相关的后验概率。在本说明书实施例中,可以仅输出和显示 后验概率大于指定阈值的历史判决案例,或者可以仅输出和显示top K(K为阈值案 例数目)个历史判决案例。在本说明书实施例中,可以自动提取一个或多个相似案件 的关键信息输出给用户。例如,可以显示案例名称、被告、原告、案例判决等以供用 户快速浏览。优选地,可以将一个或多个相关联候选(例如,相同被告、相同原告等) 分组在一起进行输出和显示。
图3A和3B分别解说了根据本说明书实施例的支持用于实现相似案件检索的文 本特征提取器305和310的示例。
在本说明书实施例中,文本特征提取器使用具有知识图谱的语言表示模型 (K-BERT)来替换常用的BERT,将司法文书场景的三元组作为领域知识注入文本 中以在相似行为判定过程中融合通用知识。具体地,K-BERT模型主要包括四个模块: 知识层(Knowledgelayer)、嵌入层(Embedding layer)、查看层(Seeing layer)和 掩码转换器编码器(Mask-Transformer Encoder)。对于本申请中使用的K-BERT模 型,知识层首先从知识图谱向输入的案例描述注入相关的三元组,将原始案例的句子 描述转换为知识丰富的句子树,随后将句子树同时馈送到嵌入层和视觉层,随后将其 转换为嵌入表示和可视矩阵。
在本申请说明书的实施例中,通用知识相关的三元组可以是但不限于:
(甲基苯丙胺,成分,违禁药品)
(晶体,外形,违禁药品)
(粉末,外形,违禁药品)
例如,可在K-BERT模型的知识层中用知识图谱来扩充输入句子 xinput={x0,x1,...xi,...,xn}(其中xi为第i个词/字符),并最终得到经知识融入的句子 xknowledeg={x0,x1,…xi{(ri0,xi0),…,(rik,xik)},…,xn},其中xik表示与xi连接的第k个实体(即 知识图谱中与实体xi的节点连接的第k个节点),而rik表示实体xik与实体xi之间的 关系(即知识图谱中节点xi与节点xik之间的边)。例如,通过融合上述通用知识的 三元组,案例2描述“上述红色粉末及白色晶体中均检出甲基苯丙胺成分”被转换为“上 述红色粉末及白色晶体(外形,违禁药品)中均检出甲基苯丙胺成分(成分,违禁药 品)”,并且由K-BERT模型的后续模块处理。由此,描述中的“甲基苯丙胺”、“晶 体”等可被文本特征提取器确定为属于“违禁药品”。应理解,可采用与上文不同的 方式来使用知识图谱扩充句子以得到经知识融入的句子,其具体细节在此不再赘述。
实际使用过程中可以根据响应时间的要求分别采取图3A中的单塔K-BERT文本 特征提取模型305或图3B中的双塔K-BERT文本特征提取模型355。单塔K-BERT 文本特征提取模型305可以在线计算查询310(例如,待查询案件,诸如上述案例2 的描述)和历史判决案例315两者交互后的表征向量,实现更细粒度的匹配,有效提 高匹配效果。例如,可以使用通用知识图谱来预训练单塔K-BERT文本特征提取模型 305,同时向其输入查询案件310和历史判决案例315两者以提取输入查询案件的文 本特征和历史判决案例的文本特征。具体地,就案例2而言,通过提取查询310中特 征“违禁药品”,可以在历史判决案例315中匹配含有特征“违禁药品”的案例。
双塔K-BERT文本特征提取模型355可以离线计算历史判决案例365的表征向量,线上只需要计算查询360(例如,待查询案件)的表征向量,在线计算量更小,并且 运行速率更快。例如,可以使用通用知识图谱来预训练双塔K-BERT文本特征提取模 型355,使用双塔K-BERT文本特征提取模型的User塔提取查询360的第一文本特 征,使用双塔K-BERT文本特征提取模型的Item塔提取历史判决案例的第二文本特 征,并且随后将第一文本特征和第二文本特征进行拼接。具体地,就案例2而言,可 分别提取查询310中的特征“违禁药品”和历史判决案例315中的特征“违禁药品”输出 以供后续模块的处理(例如,分类、打标签等)。应理解,可采用与上文不同的方式 来获得文本特征,其具体细节在此不再赘述。
图4解说了根据本说明书实施例的为用于实现相似案件检索的知识图谱特征提取器建立的知识图谱400的示例。
历史判决案例的司法文书检索重点关注犯罪要素,因此,在本说明书的实施例中,历史案件库中司法文书存在的行为和相关法条被关联起来以融合法律知识来对历史 判决案例的司法文书提取知识图谱特征。例如,为了有针对性提取犯罪要素的内容, 可以融合法条知识,以基于法条知识来构建法条知识图谱。如图4右侧所示,可根据 《中华人民共和国刑法(2020修正版)》构建法条图谱,其中法条图谱的三元组可 以包括但不限于:
(寻衅滋事罪,可能行为,殴打他人)
(寻衅滋事罪,必要行为,破坏公共秩序)
(非法拘禁罪,可能行为,殴打他人)
(非法拘禁罪,必要行为,剥夺他人人身自由)
同时,司法文书之间的关系对于相似案件检索存在着潜在关系,因此,在本说明书的实施例中,可以对历史判决知识(例如,历史判决案例的司法文书)结构化以构 建历史判决知识图谱,进一步挖掘司法文书涉及的历史判决案例之间的关系。例如, 可以提取历史判决案例的指定字段(例如,包括被告人、判决法院、一审、二审等等), 使用这些指定字段来构建历史判决案例之间的关系的历史判决关系图谱。附加地或替 换地,还可以提取司法文书援引的法条数目(以及包含的条款)、涉及判罚(以及罪 由)、涉事公司、辩护律所、犯罪因素、判决法院、被告人、检察官、审判长等构建 历史判决知识图谱。如图4左侧所示,历史判决知识图谱的三元组可以包括但不限于:
(案例1,二审,案例2)
(案例2,终审,案例3)
(案例1,被告人,张三)
(案例4,被告人,张三)
在构建法条知识图谱和历史判决知识图谱之后,可以基于法条知识图谱和历史判决知识图谱使用Trans算法(例如,TransH,TransR,TranD等)进行图谱推理以进 行图谱表征学习,将司法文书的对应节点作为特征输出。
Trans算法将图谱中的实体和关系映射到向量空间,同时捕捉实体和关系之间的隐式关联,在学习向量表示的过程中自动提取推理所需的特征,使得知识图谱的推理 能够通过预设的向量空间的特征表示自动计算。关于知识图谱特征提取器Trans算法 的更多细节可参看Shaoxiong Ji等人所发表的论文《对知识图谱的调查:表征、获取 和应用(ASurvey on Knowledge Graphs:Representation,Acquisition and Application)》。 通过援引将该论文的内容全部纳入于此,且在此不再详细描述知识图谱特征提取器的 更多细节。
具体地,参照图4,针对案例1,可以输出其对应节点(案例1,二审,案例2)、 (案例1,法院,长宁区人民法院)、(案例1,被告人,张3)、(案例1,存在行 为,剥夺他人人身自由)等等作为知识图谱特征。应理解,可提前离线地提取类案检 索数据集中所有历史判决案例的知识图谱特征。应理解,可采用与上文不同的方式来 获得知识图谱特征,其具体细节在此不再赘述。
图5解说了根据本说明书实施例的支持用于实现相似案件检索的方法500的框图。
方法500可包括:在操作510接收待查询案件的相似案件查询请求。该操作可以 类似于如由参见图2和图3中所描述的,首先输入待查询案件的相关行为描述。优选 地,可以输入表达上述案件2的全部描述或仅输入关键信息。优选地,操作510可由 交互模块605来具体实现,如以下更详细描述的。
方法500还可包括:在操作520至少部分地基于所述相似案件查询请求,提取所 述待查询案件的第一文本特征和第一经验特征,以及历史判决案例的第二文本特征和 第二经验特征。该操作可以类似于如由参见图2至图4中所描述的,可以使用通用知 识图谱来预训练的单塔K-BERT文本特征提取模型提取所述第一文本特征和所述第 二文本特征。附加地或替换地,可以使用通用知识图谱来预训练的双塔K-BERT文本 特征提取模型的User塔提取所述待查询案件的所述第一文本特征;以及使用该双塔 K-BERT文本特征提取模型的Item塔提取所述历史判决案例的所述第二文本特征。优 选地,还可以使用通过人工经验生成的经验词汇群来预训练的经验特征提取模型提取 所述第一经验特征和所述第二经验特征。优选地,可以构建法条知识图谱、历史判决 关系知识图谱;以及基于所述法条知识图谱和所述历史判决关系知识图谱进行图谱推 理,以将所述历史判决案例的对应节点向量输出为所述知识图谱特征。优选地,操作 520可由特征提取模块610来具体实现,如以下更详细描述的。
方法500还可包括:在操作530融合所述第一文本特征、所述第二文本特征、所 述第一经验特征、所述第二经验特征、以及所述历史判决案例的预先提取的知识图谱 特征。该操作可以类似于如由参见图2中所描述的,可以是执行对所述第一文本特征、 所述第二文本特征、所述第一经验特征、所述第二经验特征、以及所述知识图谱特征 的特征拼接、信息融合和特征降维。优选地,可以使用DNN将经拼接后的特征集进 行信息融合和特征降维。优选地,操作530可由特征融合模块615来具体实现,如以 下更详细描述的。
方法500还可包括:在操作540至少部分地基于所融合的特征而检索并输出所述历史判决案例中的相似案件。该操作可以类似于如由参见图2中所描述的,可以通过Softmax分类器进行归一化操作来把查询和历史判决案例的语义相似性转化为是否相 关的后验概率,并且仅输出高于阈值的概率。优选地,可以将所融合的特征输入分类 器以获得所述待查询案件和所述历史判决案例的相似度;以及输出其相似度大于指定 阈值的历史判决案例作为检索到的相似案件。优选地,可以进一步自动提取一个或多 个相似案件的案例判决;或者分组显示具有相同或相似关键信息的一个或多个相似案 件。优选地,操作540可由相似案件输出模块620来具体实现,如以下更详细描述的。
图6解说了根据本说明书实施例的支持用于实现相似案件检索的系统600的框图。
如图6所示,系统600可包括:交互模块605,其被配置成接收待查询案件的相 似案件查询请求。交互模块605实现的操作可以类似于如由参见图2所描述的,首先 输入待查询案件的相关行为描述。优选地,可以输入表达上述案件2的全部描述或仅 输入关键信息。
系统500还可包括:特征提取模块610,其被配置成至少部分地基于所述相似案 件查询请求,提取所述待查询案件的第一文本特征和第一经验特征,以及历史判决案 例的第二文本特征和第二经验特征。特征提取模块615所实现的操作可以类似于如由 参见图2至图4中所描述的,可以使用通用知识图谱来预训练的单塔K-BERT文本特 征提取模型提取所述第一文本特征和所述第二文本特征。附加地或替换地,可以使用 通用知识图谱来预训练的双塔K-BERT文本特征提取模型的User塔提取所述待查询 案件的所述第一文本特征;以及使用该双塔K-BERT文本特征提取模型的Item塔提 取所述历史判决案例的所述第二文本特征。优选地,还可以使用通过人工经验生成的 经验词汇群来预训练的经验特征提取模型提取所述第一经验特征和所述第二经验特 征。优选地,可以构建法条知识图谱、历史判决关系知识图谱;以及基于所述法条知 识图谱和所述历史判决关系知识图谱进行图谱推理,以将所述历史判决案例的对应节 点向量输出为所述知识图谱特征。
系统600还可包括:特征融合模块620,其被配置成融合所述第一文本特征、所 述第二文本特征、所述第一经验特征、所述第二经验特征、以及所述历史判决案例的 预先提取的知识图谱特征。特征融合模块620所实现的操作可以类似于如由参见图2 中所描述的,可以进一步执行对所述第一文本特征、所述第二文本特征、所述第一经 验特征、所述第二经验特征、以及所述知识图谱特征的特征拼接、信息融合和特征降 维。
系统600还可包括:相似案件输出模块625,其被配置成至少部分地基于所融合 的特征而检索并输出所述历史判决案例中的相似案件。相似案件输出模块625所实现 的操作可以类似于如由参见图2中所描述的,通过Softmax分类器进行归一化操作来 把查询和历史判决案例的语义相似性转化为是否相关的后验概率,并且仅输出高于阈 值的概率。优选地,可以将所融合的特征输入分类器以获得所述待查询案件和所述历 史判决案例的相似度;以及输出其相似度大于指定阈值的历史判决案例作为检索到的 相似案件。优选地,可以进一步自动提取一个或多个相似案件的案例判决;或者分组 显示具有相同或相似关键信息的一个或多个相似案件。
上述各个模块的操作的具体细节可参考上文的方法的描述。应当领会,其中一些可选操作可由上述模块完成,或者可由附加模块完成。
图7解说了根据本说明书实施例的支持用于实现相似案件检索的装置700的框图。
该装置可包括处理器710以及存储器715,所述处理器被配置成执行如上所述的任何方法,如各附图中所示的方法等等。该存储器可存储例如所获取的文章、与产品 或服务相关联的信息、处理过程中可能产生的数据、以及必要的算法等等。
该装置可包括网络连接元件725,例如可包括通过有线连接或无线连接来连接到其它设备的网络连接设备。该无线连接例如可以为WiFi连接、蓝牙连接、3G/4G/5G 网络连接等。例如,系统可通过网络连接元件来连接到数据库,从而获取历史判决案 例。还可经由网络连接元件接收用户从其它设备所进行的输入或者将数据传送到其它 设备以供显示。
该装置还可选地包括其它外围元件720,例如输入装置(如键盘、鼠标)、输出 装置(如显示器)等。例如,在基于用户输入的方法中,用户可经由输入装置执行输 入操作。还可经由输出装置向用户输出相应的信息。
这些模块中的每一者可彼此直接或间接通信,例如,经由一条或多条总线(例如总线705)。
而且,本说明书的实施例还公开了一种包括存储于其上的计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在被处理器执行时使得所述处理器执行本 文所述的各实施例的方法。
此外,本说明书的实施例还公开了一种装置,该装置包括处理器以及存储有计算机可执行指令的存储器,所述计算机可执行指令在被处理器执行时使得所述处理器执 行本文所述的各实施例的方法。
此外,本说明书的实施例还公开了一种用于相似案件检索系统,该系统包括用于实现本文所述的各实施例的方法的装置。在一方面,该系统包括:用于接收待查询案 件的相似案件查询请求的装置;用于至少部分地基于所述相似案件查询请求,提取所 述待查询案件的第一文本特征和第一经验特征,以及历史判决案例的第二文本特征和 第二经验特征的装置;用于融合所述第一文本特征、所述第二文本特征、所述第一经 验特征、所述第二经验特征、以及所述历史判决案例的预先提取的知识图谱特征的装 置;以及用于至少部分地基于所融合的特征而检索并输出所述历史判决案例中的相似 案件的装置。
以上描述了根据本说明书的实现相似案件检索的方法、系统和存储介质,相对现有技术而言,本说明书的方法至少具有以下优点:对法律条文和判决案例的文书综合 建模,构建法条知识图谱,用于学习法条文书特征,融入法律信息以获得更好的特征 向量表征,提高模型性能;对海量司法文书进行字段提取并基于此建立判决文书间关 系,构建历史判决图谱,并用于学习历史案例文书特征,进一步提升特征向量表征能 力;将K-BERT用于司法场景,结合通用知识图谱,学习Query和Document特征, 解决BERT模型在司法文书场景表现不佳的问题,从而解决异构嵌入空间和引入知识 噪声的问题;基于业务经验和TF-IDF两者挖掘浅层信息,吸收了司法从业人员的人 工经验,结合词法统计数据获取了大量浅层信息,提高了相似案件检索场景的检索效 率和性能。
在整个说明书中已经参照“实施例”,意味着特定描述的特征、结构或特性包括在至少一个实施例中。因此,这些短语的使用可以不仅仅指代一个实施例。此外,所描 述的特征、结构或特性可以在一个或多个实施例中以任何合适的方式组合。
以上描述的方法和装置的各个步骤和模块可以用硬件、软件、或其组合来实现。如果在硬件中实现,结合本说明书描述的各种说明性步骤、模块、以及电路可用通用 处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、 或其他可编程逻辑组件、硬件组件、或其任何组合来实现或执行。通用处理器可以是 处理器、微处理器、控制器、微控制器、或状态机等。如果在软件中实现,则结合本 说明书描述的各种说明性步骤、模块可以作为一条或多条指令或代码存储在计算机可 读介质上或进行传送。实现本说明书的各种操作的软件模块可驻留在存储介质中,如 RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、可移动盘、CD-ROM、云 存储等。存储介质可耦合到处理器以使得该处理器能从/向该存储介质读写信息,并 执行相应的程序模块以实现本说明书的各个步骤。而且,基于软件的实施例可以通过 适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、 万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF 微波和红外通信)、电子通信或者其他这样的通信手段。
可以理解,根据本说明书的一个或多个实施例的方法可以用软件、固件或其组合来实现。
应该理解,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。 尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较 简单,相关之处参考方法实施例的部分说明即可。
应该理解,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施 例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定 要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务 处理和并行处理也是可以的或者可能是有利的。
应该理解,本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外,本文中被描述或示出为分开的模块或元件可被组合为单个 模块或元件,且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。
还应理解,本文采用的术语和表述方式只是用于描述,本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和 描述(或其中部分)的等效特征,应认识到可能存在的各种修改也应包含在权利要求 范围内。其他修改、变化和替换也可能存在。相应的,权利要求应视为覆盖所有这些 等效物。
同样,需要指出的是,虽然已参考当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本说明书的一个或多个实施 例,在没有脱离本说明书实施例精神的情况下还可做出各种等效的变化或替换,因此, 只要在本说明书的实质精神范围内对上述实施例的变化、变型都将落在本说明书的权 利要求书的范围内。

Claims (13)

1.一种用于相似案件检索的方法,所述方法包括:
接收待查询案件的相似案件查询请求;
至少部分地基于所述相似案件查询请求,提取所述待查询案件的第一文本特征和第一经验特征,以及历史判决案例的第二文本特征和第二经验特征;
融合所述第一文本特征、所述第二文本特征、所述第一经验特征、所述第二经验特征、以及所述历史判决案例的预先提取的知识图谱特征;以及
至少部分地基于所融合的特征而检索并输出所述历史判决案例中的相似案件。
2.如权利要求1所述的方法,其中提取所述第一文本特征和所述第二文本特征包括:
使用单塔K-BERT文本特征提取模型提取所述第一文本特征和所述第二文本特征,并且
其中所述单塔K-BERT文本特征提取模型使用通用知识图谱来预训练。
3.如权利要求1所述的方法,其中提取所述第一文本特征和所述第二文本特征包括:
使用双塔K-BERT文本特征提取模型的User塔提取所述待查询案件的所述第一文本特征;
使用双塔K-BERT文本特征提取模型的Item塔提取所述历史判决案例的所述第二文本特征,并且
其中所述双塔K-BERT模型使用通用知识图谱来预训练。
4.如权利要求1所述的方法,其中提取所述第一经验特征和所述第二经验特征包括:
使用经验特征提取模型提取所述第一经验特征和所述第二经验特征,并且
其中所述经验特征提取模型至少部分地基于通过人工经验生成的经验词汇群来预训练。
5.如权利要求1所述的方法,提取所述第一经验特征和所述第二经验特征包括:
至少部分地基于人工经验来生成经验词汇群;
使用TF-IDF提取所述待查询案件的第一浅层词汇特征和所述历史判决案例的第二浅层词汇特征;
使用经验特征提取模型提取所述待查询案件的对应经验向量,并且将其与所述第一浅层词汇特征拼接以作为所述第一经验特征,其中所述经验特征提取模型是至少部分地基于通过人工经验生成的经验词汇群来预训练的;以及
使用所述经验特征提取模型提取所述历史判决案例的对应经验向量,并且将其与所述第一浅层词汇特征拼接以作为所述第二经验特征。
6.如权利要求4或5所述的方法,其中所述经验词汇群是能被预配置的,并且包括以下一者或多者:
是否包含担保人、担保人个数、是否包含抵押物、抵押物个数、原告是否属于公司、原告人数、被告是否属于公司、被告人数、是否存在借贷关系、是否包含利息、原告被告关系、死亡情况。
7.如权利要求1所述的方法,其中提取所述历史判决案例的所述知识图谱特征包括:
至少部分地基于法条知识来构建法条知识图谱;
至少部分地基于所述历史判决案例来构建历史判决关系知识图谱;以及
至少部分地基于所述法条知识图谱和所述历史判决关系知识图谱进行图谱推理,以将所述历史判决案例的对应节点向量输出为所述知识图谱特征。
8.如权利要求7所述的方法,其中构建所述历史判决关系知识图谱包括:
提取所述历史判决案例的指定字段;以及
使用所述指定字段构建针对所述历史判决案例之间的关系的历史判决关系图谱。
9.如权利要求1所述的方法,其中所述融合包括:
执行对所述第一文本特征、所述第二文本特征、所述第一经验特征、所述第二经验特征、以及所述知识图谱特征的特征拼接、信息融合和特征降维。
10.如权利要求1所述的方法,其中检索并输出所述相似案件包括:
将所融合的特征输入分类器以获得所述待查询案件和所述历史判决案例的相似度;以及
输出其相似度大于指定阈值的历史判决案例作为检索到的相似案件。
11.如权利要求10所述的方法,其中检索并输出所述相似案件进一步包括:
自动提取一个或多个相似案件的案例判决;或者
分组显示具有相同或相似关键信息的一个或多个相似案件。
12.一种用于相似案件检索的系统,所述系统包括
交互模块,其被配置成接收待查询案件的相似案件查询请求;
特征提取模块,其被配置成至少部分地基于所述相似案件查询请求,提取所述待查询案件的第一文本特征和第一经验特征,以及历史判决案例的第二文本特征和第二经验特征;
特征融合模块,其被配置成融合所述第一文本特征、所述第二文本特征、所述第一经验特征、所述第二经验特征、以及所述历史判决案例的预先提取的知识图谱特征;以及
相似案件输出模块,其被配置成至少部分地基于所融合的特征而检索并输出所述历史判决案例中的相似案件。
13.一种存储指令的非瞬态计算机可读存储介质,所述指令当被计算机执行时,使所述计算机执行如权利要求1-11中任一项所述的方法。
CN202210749683.5A 2022-06-29 2022-06-29 用于相似案件检索的方法、系统和存储介质 Pending CN115293145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210749683.5A CN115293145A (zh) 2022-06-29 2022-06-29 用于相似案件检索的方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210749683.5A CN115293145A (zh) 2022-06-29 2022-06-29 用于相似案件检索的方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN115293145A true CN115293145A (zh) 2022-11-04

Family

ID=83821036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210749683.5A Pending CN115293145A (zh) 2022-06-29 2022-06-29 用于相似案件检索的方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN115293145A (zh)

Similar Documents

Publication Publication Date Title
KR102055899B1 (ko) 맥락을 이용하여 문서를 검색하는 시스템 및 방법
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
Shen et al. K-lite: Learning transferable visual models with external knowledge
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
Kawade et al. Sentiment analysis: machine learning approach
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
CN104809142A (zh) 商标查询系统和方法
CN103577404B (zh) 一种面向微博的全新突发事件发现方法
Mirani et al. Sentiment analysis of isis related tweets using absolute location
KR20150010740A (ko) 온라인 제품 검색 방법 및 시스템
CN110889786A (zh) 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN104679731B (zh) 提取页面中关键词的方法及装置
CN103678460B (zh) 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN104298732A (zh) 一种面向网络用户的个性化文本排序及推荐方法
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
Maynard et al. Multimodal sentiment analysis of social media
CN107273529A (zh) 基于哈希函数的高效层级索引构建及检索方法
CN112069324A (zh) 一种分类标签添加方法、装置、设备及存储介质
Wu et al. Reducing noisy labels in weakly labeled data for visual sentiment analysis
CN110347805A (zh) 石油行业安全隐患关键要素提取方法、装置、服务器及存储介质
Mazloom et al. Few-example video event retrieval using tag propagation
CN110162790A (zh) 一种基于神经网络的犯罪行为识别方法
CN110851560B (zh) 信息检索方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination