CN112632224B - 基于案例知识图谱的案件推荐方法、装置和电子设备 - Google Patents

基于案例知识图谱的案件推荐方法、装置和电子设备 Download PDF

Info

Publication number
CN112632224B
CN112632224B CN202011592618.3A CN202011592618A CN112632224B CN 112632224 B CN112632224 B CN 112632224B CN 202011592618 A CN202011592618 A CN 202011592618A CN 112632224 B CN112632224 B CN 112632224B
Authority
CN
China
Prior art keywords
case
description
extraction
vector
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011592618.3A
Other languages
English (en)
Other versions
CN112632224A (zh
Inventor
朵思惟
余梓飞
张程华
薛晨云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Huizhi Xingyuan Information Technology Co ltd
Original Assignee
Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Huizhi Xingyuan Information Technology Co ltd filed Critical Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority to CN202011592618.3A priority Critical patent/CN112632224B/zh
Publication of CN112632224A publication Critical patent/CN112632224A/zh
Application granted granted Critical
Publication of CN112632224B publication Critical patent/CN112632224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本说明书一个或多个实施例提供一种基于案例知识图谱的案例推荐方法、装置和电子设备。所述案例推荐方法包括:对用户输入的案件进行特征提取;将提取出的案件特征在所述案例知识图谱中进行语义图搜索,推送相关联案例;对所述相关联案例进行排序,最终进行数据返回。本发明基于案例知识图谱的案例推荐方法采用知识图谱、自然语言处理和深度学习等领域的技术,对用户的提问进行实体提取、关系提取、时间提取、语义分析,并在知识图谱中通过多维匹配算法,最终精确分析当前处理案件,最终推送出相关指导案例。

Description

基于案例知识图谱的案件推荐方法、装置和电子设备
技术领域
本说明书一个或多个实施例涉及知识图谱技术领域,尤其涉及一种基于 案例知识图谱的案件推荐方法、装置和电子设备。
背景技术
对于法官和律师来说,类案推荐是日常工作中的核心内容。然而,类案 推荐是一项复杂、繁琐的工作,要从数以千万计的裁判文书中找到真正想要 了解的内容,需要花费大量的时间成本。传统的案例智能推荐只能是通过简 单的案件类型及关键词过滤,经筛查后依旧有大量的文书,需要占用大量人 工时间审阅。
基于此,需要一种能够自动对案例文书及包含的法律条文进行分类整理 并且根据用户输入可以快速推荐相关案例的智能推荐系统。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于案例知 识图谱的案件推荐方法、装置和电子设备,以解决难以精准推荐案例的问题。
基于上述目的,本说明书一个或多个实施例提供了一种基于案例知识图 谱的案件推荐方法,包括:
响应于接收到用户输入的法律案件和/或问题的描述,从所述描述中提取 多维度特征,所述多维度特征包括实体、关系、事件和主题;
根据所述多维度特征,在预先基于案例相关文件构建的案例知识图谱中 进行语义图搜索,搜索出与所述多维度特征相关联的案例候选推荐数据;
输出所述案例候选推荐数据中的至少一个作为与所述描述相关的案例推 荐数据。
进一步的,从所述描述中提取多维度特征,包括:
对所述描述进行预处理,以去除所述描述中的停用词;
对经过所述预处理的所述描述通过深度语义表示模型进行向量表示,计 算得出相关实体,完成实体识别;
对经过所述实体识别的所述描述采用基于堆叠膨胀门卷积神经网络 DGCNN进行关系抽取;
对经过所述实体识别的所述描述进行事件抽取,所述事件抽取包括触发 词提取和角色提取;
对经过所述实体识别的所述描述采用基于预训练的分类模型进行主题抽 取;
对经过所述实体识别、所述关系抽取、所述事件抽取和所述主题抽取得 到的相应特征进行融合。
进一步的,对经过所述实体识别的所述描述采用DGCNN进行关系抽取, 包括:
通过字词混合向量得到所述描述的字向量序列,所述字向量序列加上位 置向量,得到所述描述的混合编码;
将所述混合编码输入到12层DGCNN中进行编码,得到编码后的序列 H;
将所述序列H输入DGCNN自注意力层后得到序列H的向量表示;
将所述序列H的向量表示传入卷积神经网络CNN的全连接层Dense中, 用sigmoid激活函数预测所述描述的主体的首尾位置;
随机采样一个所述主体,将所述序列H对应所述主体的子序列传入到一 个双向长短期记忆LSTM神经网络中,得到所述主体的编码向量,所述主体 的编码向量加上相对位置向量,得到一个与所述描述等长的向量序列;
将H传入DGCNN的另一层自注意力层后,将输出结果与所述描述等长 的向量序列进行拼接;
将拼接后的结果传入CNN的全连接层Dense中,通过sigmoid激活函数 来预测对应的客体的首、尾位置,同时把关系抽取出来。
进一步的,对经过所述实体识别的所述描述进行事件抽取,包括:
通过预训练的来自变换器的双向编码器表示BERT模型得到所述描述的 词向量表示,基于案件类别对所述描述的每个词进行分类,当某个词超过其 中一个案件类别设定的阈值时,则将该词归为所述案件类别,并作为触发词 提取出来;
根据提取出的所述触发词,提取相关所有可能的角色。
进一步的,在预先基于案例相关文件构建的案例知识图谱中进行语义图 搜索,搜索出与所述多维度特征相关联的案例候选推荐数据,包括:
优先采用子图搜索方式进行搜索,无返回结果时采用所述多维度特征自 由组合的方式进行匹配搜索,直至匹配搜索成功。
进一步的,输出所述案例候选推荐数据中的至少一个作为与所述描述相 关的案例推荐数据,包括:
对所述特征提取方式提取出的所述特征进行加权平均,得出所述案例候 选推荐数据的相关度评分,从所述案例候选推荐数据中选取相关度评分较高 的案例候选推荐数据作为案例候选数据集;
根据预定规则,过滤掉所述案例候选数据集中的异常案例。
基于同一发明构思,本说明书一个或多个实施例提供了一种基于案例知 识图谱的案件推荐装置,包括:
特征提取模块,被配置为响应于接收到用户输入的法律案件和/或问题的 描述,对所述描述进行特征提取;
语义图搜索模块,被配置为根据所述特征提取得到的特征,在预先基于 案例相关文件构建的案例知识图谱中进行语义图搜索,搜索出与所述特征相 关联的案例候选推荐数据;
输出模块,被配置为输出所述案例候选推荐数据中的至少一个作为与所 述描述相关的案例推荐数据。
基于同一发明构思,本说明书一个或多个实施例提供了一种电子设备, 包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机 程序,所述处理器执行所述计算机程序时实现如上任意一项所述的方法。
基于同一发明构思,本说明书一个或多个实施例提供了一种非暂态计算 机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计 算机指令在被计算机执行时,使所述计算机实现如上任意一项所述的方法。
从上面所述可以看出,本说明书一个或多个实施例提供的一种基于案例 知识图谱的案件推荐方法、装置和电子设备,采用知识图谱、自然语言处理 和深度学习等领域的技术,对用户的提问进行实体提取、关系提取、时间提 取、语义分析,并在知识图谱中通过多维匹配算法,精确分析当前处理案件, 推送出相关指导案例。为法官、律师提供依据,保障法律适用的稳定性和可 预期性,达到统一司法裁判尺度。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案, 下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易 见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他的附图。
图1为本说明书一个或多个实施例的案例推荐方法的流程示意图;
图2为本说明书一个或多个实施例的特征提取操作的流程示意图;
图3为本说明书一个或多个实施例的案例推荐装置模块的结构示意图;
图4为本说明书一个或多个实施例的电子设备硬件结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施 例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术 术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通 常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件 涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者 物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接, 而是可以包括电性的连接,不管是直接的还是间接的。
如背景技术部分所述,当前案例推荐系统大多采用传统的数据库存储, 推荐方法多采用关键词推荐的方式,不能准确理解用户真实法律诉求,难以 精准推荐案例。
有鉴于此,本说明书一个或多个实施例提供了一种基于案例知识图谱的 案例推荐方法、装置和电子设备。对用户输入的案件进行特征提取,以用户 处理的当前案件内容作为输入,通过混合特征提取方案,进行案件地点、案 由类型、涉案物品、涉案金额等关键实体、事件、关系的提取,作为图谱搜 索的特征。进一步的,基于当前案件抽取出的特征在知识图谱中进行语义推 荐、推理和多维度分析,输出案例候选推荐数据。根据多维搜索出的数据对 案例候选推荐数据进行相关度排序,输出至少一个案例推荐数据。
可见,本说明书一个或多个实施例的一种基于案例知识图谱的案件推荐 方法采用知识图谱、自然语言处理和深度学习等领域的技术,对用户的提问 进行实体提取、关系提取、时间提取、语义分析,并在知识图谱中通过多维 匹配算法,最终精确分析当前处理案件,推送出相关指导案例。
以下,通过具体的实施例来详细说明本说明书一个或多个实施例的技术 方案。
参考图1,本说明书一个实施例的基于知识图谱的案例推荐方法,包括 以下步骤:
步骤S101、响应于接收到用户输入的法律案件和/或问题的描述,对所述 描述进行特征提取。
参考图2,所述特征提取方式具体包括以下步骤:
步骤S201、案件信息预处理,对于法律案件文本中的数据,只有一部分 是需要的,而对于数据中大量的停用词需要对其预处理进行删去。
步骤S202、实体识别,案件实体识别和扩展,利用迁移学习模型,基于 大量无监督文本进行深度语义训练,然后利用现有案例文书进行微调模型, 构建出基于法律文书相关的深度语义表示模型。利用深度语义表示模型的语 义信息对案件主题进行向量表示计算,计算出相关的实体,对主题进行扩展, 提升知识图谱的泛化性。
具体的,实体识别任务可以被看作一类特殊的单句标注任务,是对句子 中每一个字进行标注。我们将已经定义好的实体标签理解为类别,这样就相 当于对每个字基于实体标签进行分类,这里的标签不仅包括实体类别,还包 括字在实体中的位置。例如,“南京市”会被标记为[B-LOC,I-LOC,I-LOC], 其中‘B’和‘I’分别用来表示该字为其所属实体的“起始”或“非起始” 点,‘LOC’表示“位置”这类实体。我们将非实体标注为“O”。经过实体识 别后,句子被标注为如下形式:
“习某某总书记今天在某某某广场发表讲话。”
[B-PER,I-PER,I-PER,O,O,O,O,O,O,B-LOC,I-LOC,I-LOC,I-LOC,I- LOC,O,O,O,O]
根据标签的标注,我们可以将两个实体“习某某”和“某某某广场”提 取出来。
步骤S203、关系抽取,关系抽取采用基于堆叠膨胀门卷积神经网络 (DGCNN)进行抽取,具体流程如下:
(1)针对用户输入的所述描述,通过字词混合向量(Embedding)得到对应 的字向量序列,然后加上位置向量(Position Embedding),得到一个混合向量 的编码,根据混合编码可以对所述描述抽取局部和整体的语义信息;
(2)将得到的混合编码输入到12层DGCNN中进行编码,得到编码后的 序列H,通过12层的神经网络,充分优化学习参数,DGCNN使用CNN代 替传统的长短期记忆(LSTM)神经网络,并且提取了更丰富的共现特征;
(3)将序列H传入一层自注意力层(Self Attention)后,得到所述序列H 的向量表示;
(4)将所述序列H的向量表示传入卷积神经网络(Convolutional NeuralNetwork,CNN)中的全连接层Dense中,通过sigmoid激活函数预测所述描述 主体的首、尾位置;
(5)训练时随机采样一个标注的主体(通过sigmoid激活函数预测时逐一 遍历所有的主体),然后将序列H对应此主体的子序列传入到一个双向LSTM 神经网络中,得到主体的编码向量,然后加上相对位置向量Position Embedding,得到一个与所述描述等长的向量序列;
(6)将序列H传入另一层自注意力层(Self Attention)后,将输出结果与 第5步输出的向量序列进行拼接;
(7)将拼接后的结果传入CNN中的全连接层Dense中,对于每一种关系, 都通过sigmoid激活函数预测对应的客体的首、尾位置,同时把关系抽取出 来。
基于上述步骤(1)至(7)完成对所述描述的关系抽取。
步骤S204、事件抽取,所述事件抽取包括触发词提取和角色提取,具体 包括以下步骤:
(1)触发词提取,通过预训练的来自变换器的双向编码器表示(BERT) 模型得到所述描述的词向量表示,然后对每个词基于案件类别进行分类。如: “一名青年男子持枪扫射过往的行人而后自杀。”这句话,我们对“持枪扫射” 进行分类,其中案件类别包括“冲突,袭击”,“抢劫”,“盗窃”等等,那么 它将被分类为“冲突,袭击”,“持枪扫射”作为触发词被提取出来。而“男 子”这个词,由于其在每一个类别的得分都低于我们设定的阈值,不被归为 任何一个案件类型,因此不会被作为触发词提取出来。
(2)角色提取,和触发词提取相比,角色提取更为复杂,一方面是由于候 选角色大多由长名词短语构成,另一方面还存在角色重叠等问题。角色提取 是根据提取出的触发词,提取相关所有可能的角色。为了克服上述两个难点, 我们将原有的基于角色类别的分类问题改为了贴标签问题,也就是将每一个 角色类别作为一个标签贴到所有可能的元素上,这样可以解决角色重叠问题。 例如,“一名青年男子持枪扫射过往的行人而后自杀。”中的“男子”同时 扮演了“袭击者”和“受害者”的角色,如果用分类的方式,“男子”只能 被归为“袭击者”或者“受害者”中的一类,但如果用贴标签的方式,则两 个标签“袭击者”和“受害者”都可以被贴在“男子”这个元素上。此外, 我们对每一个角色类别标签,会识别其对应句子中元素的“开始”和“结束” 位置,这样可以很好的解决名词短语的问题,例如上句中的“青”和“男” 都会被贴上[“袭击者”,开始]的标签,“子”会被贴上[“袭击者”,结束]的标签,因此组合起来,“袭击者”会被贴到“青年男子”和“男子”这两个元 素上。对于给定角色r,句子中第i个字是对应元素的“起始”和“结束”位 置的概率计算公式如下:
Figure BDA0002869079990000071
Figure BDA0002869079990000072
其中,上角标‘r’表示角色类别里面的一个给定角色,脚标‘s’和‘e’分 别代表“起始”和“结束”。其中B(i)是对第i个字进行预训练后的向量表 示。
Figure BDA0002869079990000073
是大小为(2×n)权重矩阵,2代表二分类中的两类“是开始位置”或 “不是开始位置”,n代表向量B(i)的长度。最后得到的
Figure BDA0002869079990000074
是一个(2×1)的 向量,例如:(0.9,0.1)T代表“是开始位置”的概率为0.9,而“不是开始位 置”的概率为0.1,因此我们第i个字标记为“开始位置”,并记
Figure BDA0002869079990000081
对于每个给定的角色r,我们可以基于
Figure BDA0002869079990000082
Figure BDA0002869079990000083
的值得到两个列表
Figure BDA0002869079990000084
Figure BDA0002869079990000085
如 果
Figure BDA0002869079990000086
那么第i个字就被标记为“开始”。类似地,如果
Figure BDA0002869079990000087
那么第i个字就被标记为“结束”。最后,我们采用交叉熵损失函数做角色 提取部分模型的微调。
基于上述步骤(1)和(2)完成对所述描述的事件抽取。
步骤S205、主题抽取,主题提取采用基于预训练的BERT分类模型进行 构造,从文本整体语义上进行语义理解,输出整句的语义主题。这里的预训 练BERT模型被当作句子的编码器来使用,对整句话进行编码,生成句子的 向量表示,作为输入向量输入分类器,用softmax进行分类。
步骤S206、特征融合,利用上述实体、关系、事件、主题等多粒度多维 度的信息进行特征融合,作为语义图搜索的输入进行案例知识图谱搜索。
基于步骤S201至S206完成对用户输入的所述描述的特征提取。
步骤S102、根据所述特征提取得到的特征,在预先基于案例相关文件构 建的案例知识图谱中进行语义图搜索,搜索出与所述特征相关联的案例候选 推荐数据。
步骤S103、输出所述法律案例候选推荐数据中的至少一个作为与所述描 述相关的法律案例推荐数据,具体包括:
对所述特征提取方式提取出的所述特征进行加权平均,得出所述案例候 选推荐数据的相关度评分,从所述案例候选推荐数据中选取相关度评分较高 的案例候选推荐数据作为案例候选数据集。根据预定规则,过滤掉所述案例 候选数据集中的异常案例。
当用户输入案例文书时,通过上述步骤S101至S103,为用户输出案例 推荐数据。
可见,在本实施例中,针对用户处理案件过程中的案例推荐的全流程做 出了优化方案,包括但不限于系统中的特征提取、图谱推荐等,解决了传统 技术下案例推荐不够精准的缺陷。基于知识图谱的法律智能推荐系统采用知 识图谱、自然语言处理和深度学习等领域的技术,对用户的提问进行实体提 取、关系提取、时间提取、语义分析,并在知识图谱中通过多维匹配算法, 最终精确分析当前处理案件,推送出相关指导案例。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行, 例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下, 由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的 一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步 骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在 所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步 骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另 外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现 期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可 能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或 多个实施例还提供了一种基于知识图谱的案例推荐装置。
参考图3,所述一种基于知识图谱的案例推荐装置,包括:
特征提取模块301,被配置为响应于接收到用户输入的法律案件和/或问 题的描述,对所述描述进行特征提取;
语义图搜索模块302,被配置为根据所述特征提取得到的特征,在预先 基于案例相关文件构建的案例知识图谱中进行语义图搜索,搜索出与所述特 征相关联的案例候选推荐数据;
输出模块303,被配置为输出所述案例候选推荐数据中的至少一个作为 与所述描述相关的案例推荐数据。
作为一个可选的实施例,所述特征提取模块具体被配置为:
对所述描述进行预处理,以去除所述描述中的停用词;
对经过所述预处理的所述描述通过深度语义表示模型进行向量表示,计 算得出相关实体,完成实体识别;
对经过所述实体识别的所述描述采用DGCNN进行关系抽取;
对经过所述实体识别的所述描述进行事件抽取,所述事件抽取包括触发 词提取和角色提取;
对经过所述实体识别的所述描述采用基于预训练的分类模型进行主题抽 取;
对经过所述关系抽取、所述事件抽取和所述主题抽取得到的特征进行特 征融合。
作为一个可选的实施例,所述关系抽取包括:
通过字词混合向量得到所述描述的字向量序列,所述字向量序列加上位 置向量,得到所述描述的混合编码;
将所述混合编码输入到12层DGCNN中进行编码,得到编码后的序列 H;
将所述序列H输入DGCNN自注意力层后得到序列H的向量表示;
将所述序列H的向量表示传入CNN的全连接层Dense中,用sigmoid 激活函数预测所述描述的主体的首尾位置;
随机采样一个所述主体,将所述序列H对应所述主体的子序列传入到一 个双向LSTM神经网络中,得到所述主体的编码向量,所述主体的编码向量 加上相对位置向量,得到一个与所述描述等长的向量序列;
将H传入DGCNN的另一层自注意力层后,将输出结果与所述描述等长 的向量序列进行拼接;
将拼接后的结果传入CNN的全连接层Dense中,通过sigmoid激活函数 来预测对应的客体的首、尾位置,同时把关系抽取出来。
作为一个可选的实施例,所述语义图搜索模块具体被配置为优先采用子 图搜索方式进行搜索,无返回结果时采用所述特征自由组合的方式进行匹配 搜索,直至匹配搜索成功。
作为一个可选的实施例,所述输出模块具体被配置为对所述特征提取方 式提取出的所述特征进行加权平均,得出所述案例候选推荐数据的相关度评 分,从所述案例候选推荐数据中选取相关度评分较高的案例候选推荐数据作 为案例候选数据集;根据预定规则,过滤掉所述案例候选数据集中的异常案 例。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然, 在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软 件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于知识图谱的案 例推荐方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或 多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上 并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任 意一实施例所述的基于案例知识图谱的案例推荐方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接 口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030 和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理 器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit, ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现 本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM (Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设 备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件 或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存 在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。 输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于 设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、 各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他 设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实 现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器 1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入 /输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该 设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员 可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的 组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于案例知识 图谱的案例推荐方法,并且具有相应的方法实施例的有益效果,在此不再赘 述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或 多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可 读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任 一实施例所述的基于案例知识图谱的案例推荐方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动 媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、 数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限 于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储 器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、 电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只 读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、 磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质, 可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任 一实施例所述的基于知识图谱的案例推荐方法,并且具有相应的方法实施例 的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性 的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公 开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合, 步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的 不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例 难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片 和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以 便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实, 即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个 或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解 范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的 情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。 因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前 面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说 将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可 以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内 的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的 精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在 本公开的保护范围之内。

Claims (8)

1.一种基于案例知识图谱的案例推荐方法,其特征在于,包括:
响应于接收到用户输入的法律案件和/或问题的描述,从所述描述中提取多维度特征,所述多维度特征包括实体、关系、事件和主题,
对所述描述进行预处理,以去除所述描述中的停用词;
对经过所述预处理的所述描述通过深度语义表示模型进行向量表示,计算得出相关实体,完成实体识别;
对经过所述实体识别的所述描述采用基于堆叠膨胀门卷积神经网络DGCNN进行关系抽取;
对经过所述实体识别的所述描述进行事件抽取,所述事件抽取包括触发词提取和角色提取;
对经过所述实体识别的所述描述采用基于预训练的分类模型进行主题抽取;
对经过所述实体识别、所述关系抽取、所述事件抽取和所述主题抽取得到的相应特征进行融合;
根据所述多维度特征,在预先基于案例相关文件构建的案例知识图谱中进行语义图搜索,搜索出与所述多维度特征相关联的案例候选推荐数据;
输出所述案例候选推荐数据中的至少一个作为与所述描述相关的案例推荐数据。
2.根据权利要求1所述的案例推荐方法,其特征在于,对经过所述实体识别的所述描述采用DGCNN进行关系抽取,包括:
通过字词混合向量得到所述描述的字向量序列,所述字向量序列加上位置向量,得到所述描述的混合编码;
将所述混合编码输入到12层DGCNN中进行编码,得到编码后的序列H;
将所述序列H输入DGCNN自注意力层后得到序列H的向量表示;
将所述序列H的向量表示传入卷积神经网络CNN的全连接层Dense中,用sigmoid激活函数预测所述描述的主体的首尾位置;
随机采样一个所述主体,将所述序列H对应所述主体的子序列传入到一个双向长短期记忆LSTM神经网络中,得到所述主体的编码向量,所述主体的编码向量加上相对位置向量,得到一个与所述描述等长的向量序列;
将H传入DGCNN的另一层自注意力层后,将输出结果与所述描述等长的向量序列进行拼接;
将拼接后的结果传入CNN的全连接层Dense中,通过sigmoid激活函数来预测对应的客体的首、尾位置,同时把关系抽取出来。
3.根据权利要求1所述的案例推荐方法,其特征在于,对经过所述实体识别的所述描述进行事件抽取,包括:
通过预训练的来自变换器的双向编码器表示BERT模型得到所述描述的词向量表示,基于案件类别对所述描述的每个词进行分类,当某个词超过其中一个案件类别设定的阈值时,则将该词归为所述案件类别,并作为触发词提取出来;
根据提取出的所述触发词,提取相关所有可能的角色。
4.根据权利要求1至3中任一项所述的案例推荐方法,其特征在于,在预先基于案例相关文件构建的案例知识图谱中进行语义图搜索,搜索出与所述多维度特征相关联的案例候选推荐数据,包括:
优先采用子图搜索方式进行搜索,无返回结果时采用所述多维度特征自由组合的方式进行匹配搜索,直至匹配搜索成功。
5.根据权利要求1至3中任一项所述的案例推荐方法,其特征在于,输出所述案例候选推荐数据中的至少一个作为与所述描述相关的案例推荐数据,包括:
对所述特征提取方式提取出的所述特征进行加权平均,得出所述案例候选推荐数据的相关度评分,从所述案例候选推荐数据中选取相关度评分较高的案例候选推荐数据作为案例候选数据集;
根据预定规则,过滤掉所述案例候选数据集中的异常案例。
6.一种基于案例知识图谱的案例推荐装置,其特征在于,包括:
特征提取模块,被配置为响应于接收到用户输入的法律案件和/或问题的描述,
从所述描述中提取多维度特征,所述多维度特征包括实体、关系、事件和主题,
对所述描述进行预处理,以去除所述描述中的停用词;
对经过所述预处理的所述描述通过深度语义表示模型进行向量表示,计算得出相关实体,完成实体识别;
对经过所述实体识别的所述描述采用基于堆叠膨胀门卷积神经网络DGCNN进行关系抽取;
对经过所述实体识别的所述描述进行事件抽取,所述事件抽取包括触发词提取和角色提取;
对经过所述实体识别的所述描述采用基于预训练的分类模型进行主题抽取;
对经过所述实体识别、所述关系抽取、所述事件抽取和所述主题抽取得到的相应特征进行融合;
语义图搜索模块,被配置为根据所述特征提取得到的特征,在预先基于案例相关文件构建的案例知识图谱中进行语义图搜索,搜索出与所述特征相关联的案例候选推荐数据;
输出模块,被配置为输出所述案例候选推荐数据中的至少一个作为与所述描述相关的案例推荐数据。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现根据权利要求1至5中任意一项所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令在被计算机执行时,使所述计算机实现根据权利要求1至5中任意一项所述的方法。
CN202011592618.3A 2020-12-29 2020-12-29 基于案例知识图谱的案件推荐方法、装置和电子设备 Active CN112632224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011592618.3A CN112632224B (zh) 2020-12-29 2020-12-29 基于案例知识图谱的案件推荐方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011592618.3A CN112632224B (zh) 2020-12-29 2020-12-29 基于案例知识图谱的案件推荐方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112632224A CN112632224A (zh) 2021-04-09
CN112632224B true CN112632224B (zh) 2023-01-24

Family

ID=75286149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011592618.3A Active CN112632224B (zh) 2020-12-29 2020-12-29 基于案例知识图谱的案件推荐方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112632224B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112164A (zh) * 2021-04-19 2021-07-13 特变电工股份有限公司新疆变压器厂 基于知识图谱的变压器故障诊断方法、装置及电子设备
CN113656561A (zh) * 2021-10-20 2021-11-16 腾讯科技(深圳)有限公司 实体词识别方法、装置、设备、存储介质及程序产品
CN117807252B (zh) * 2024-02-29 2024-04-30 创意信息技术股份有限公司 一种基于知识图谱的数据处理方法、装置、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209828A (zh) * 2018-02-12 2019-09-06 北大方正集团有限公司 案件查询方法及案件查询装置、计算机设备和存储介质
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110795566A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 案件推荐方法、装置、设备及计算机可读存储介质
CN110825880A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 案件胜率确定方法、装置、设备及计算机可读存储介质
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN111008262A (zh) * 2019-11-24 2020-04-14 华南理工大学 一种基于知识图谱的律师评估方法和推荐方法
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209828A (zh) * 2018-02-12 2019-09-06 北大方正集团有限公司 案件查询方法及案件查询装置、计算机设备和存储介质
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110795566A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 案件推荐方法、装置、设备及计算机可读存储介质
CN110825880A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 案件胜率确定方法、装置、设备及计算机可读存储介质
CN111008262A (zh) * 2019-11-24 2020-04-14 华南理工大学 一种基于知识图谱的律师评估方法和推荐方法
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN111241241A (zh) * 2020-01-08 2020-06-05 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112632224A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN110851596B (zh) 文本分类方法、装置及计算机可读存储介质
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
Abdullah et al. Fake news classification bimodal using convolutional neural network and long short-term memory
WO2020224097A1 (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN112632225B (zh) 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115273815A (zh) 语音关键词检测的方法、装置、设备及存储介质
CN111143507A (zh) 一种基于复合式问题的阅读理解方法
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant