CN110209828B - 案件查询方法及案件查询装置、计算机设备和存储介质 - Google Patents

案件查询方法及案件查询装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110209828B
CN110209828B CN201810144170.5A CN201810144170A CN110209828B CN 110209828 B CN110209828 B CN 110209828B CN 201810144170 A CN201810144170 A CN 201810144170A CN 110209828 B CN110209828 B CN 110209828B
Authority
CN
China
Prior art keywords
case
stored
atlas
graph
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810144170.5A
Other languages
English (en)
Other versions
CN110209828A (zh
Inventor
辛雨非
陈松
百华睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201810144170.5A priority Critical patent/CN110209828B/zh
Publication of CN110209828A publication Critical patent/CN110209828A/zh
Application granted granted Critical
Publication of CN110209828B publication Critical patent/CN110209828B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提供了一种基于知识图谱的案件查询方法,案件查询装置、计算机设备和计算机可读存储介质,其中,案件查询方法包括:在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息;根据预设的分类模型确定案件信息的案件类型,以确定图数据库中与案件类型对应的预存案件图谱集;对案件信息执行图谱提取操作,以生成待匹配知识图谱;根据预设的图匹配算法,检测预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,以在检测到具有预存图谱时,根据预存图谱确定对应的相似案件信息。通过本发明的技术方案,有效的减少了确定相似案件信息的时间,并提高了确定出的相似案件信息的准确性。

Description

案件查询方法及案件查询装置、计算机设备和存储介质
技术领域
本发明涉及案件查询技术领域,具体而言,涉及基于知识图谱的案件查询方法、基于知识图谱的案件查询装置、计算机设备和计算机可读存储介质。
背景技术
在案件审判中,借鉴以往相似的案件审判经验来对当前案件进行判定是很常见的做法,目前各种案件数据库为案件审判提供了数字化支撑,法律相关人员可以通过传统的数据库检索来获取相对应的案件,但是这种检索在准确性上有很大的问题,基于分类和关键词构建的数据库能够提供更精准的检索结果,但是存在以下缺陷:
本身分类和关键词标引需要耗费大量的人力,另外分类和关键词并不能有效描述案情的复杂程度,同案智推中的同案本质在于两个案件的案情相似,而案情中包含复杂的人物、事件、机构及关系,致使大大的降低了检索结果的准确性。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提出了一种新的基于知识图谱的案件查询方法,通过创建分类模型和图谱提取模型,有效的减少了确定相似案件信息的时间,并且提高了确定出的相似案件信息的准确性,使得用户的工作效率得到了较大提升。
本发明的另一个目的在于对应提出了基于知识图谱的案件查询装置、计算机设备和计算机可读存储介质。
为实现上述至少一个目的,根据本发明的第一方面,提出了一种基于知识图谱的案件查询方法,包括:在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息;根据预设的分类模型确定案件信息的案件类型,以确定图数据库中与案件类型对应的预存案件图谱集;对案件信息执行图谱提取操作,以生成待匹配知识图谱;根据预设的图匹配算法,检测预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,以在检测到具有预存图谱时,根据预存图谱确定对应的相似案件信息。
在该技术方案中,在接收到用户针对指定案件发送的查询指令时,确定出与该查询指令对应的案件信息,为了能够缩小确定的范围,以提高确定出相似案件信息的效率,根据预设的分类模型确定出该案件信息的案件类型,进而根据该案件类型确定出图数据库中与其对应的预存案件图谱集,为了能够使确定出的与该案件信息对应的相似案件信息更加精准,对该案件信息进行图谱提取,并生成待匹配知识图谱,进而根据生成的待匹配知识图谱检测预存案件图谱集中与其匹配的预存图谱,进一步根据预存图谱确定出与案件信息对应的相似案件信息。通过上述方案,有效的减少了确定相似案件信息的时间,并且提高了确定相似案件信息的准确性。
在上述技术方案中,优选地,在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息前,还包括:根据文本特征生成分类体系;根据分类体系对训练案件分别进行分类特征标记,以生成多种类型案例;将分类体系与多种类型案例执行机器学习操作,以生成分类模型。
在该技术方案中,根据案件的文本特征生成分类体系,进而根据生成的分类体系对训练案件分别进行分类特征标记,并根据不同的分类特征标记生成多种类型案例,以保证分类模型的全面性,进而将分类体系与多种类型案例执行机器学习操作生成分类模型。通过分类模型的创建,大大的提升了案件分类的效率和准确性。
在上述任一技术方案中,优选地,在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息前,还包括:根据预设规则针对多种类型案例中的每一类案例提取内容特征以及内容特征之间的抽象关系特征,将内容特征确定为图谱节点;将抽象关系特征确定为图谱边,以根据图谱节点与图谱边生成与每一类案例对应的多个训练知识图谱;对多个训练知识图谱执行机器学习操作,以生成图谱提取模型;根据图谱提取模型和浅层语义分析规则,执行预存案件的图谱提取操作,以生成对应的预存案件图谱集。
在该技术方案中,根据预设规则提取出多种类型案例中每一类案例的内容特征以及内容特征之间的抽象关系特征,为了能够生成每一类案例对应的训练知识图谱,将提取出的内容特征确定为图谱节点,并将提取出的抽象关系特征确定为图普边,进而根据图谱节点与图谱边生成训练知识图谱,为了能够生成图谱提取模型,对每一类案例对应的多个训练知识图谱执行机器学习操作,进而根据图谱提取模型和浅层语义分析规则提取出预存案件的预存案件图谱集,以保证能够根据预存案件图谱集准确地确定出用户需要的相似案件信息。
在上述任一技术方案中,优选地,对案件信息执行图谱提取操作,以生成待匹配知识图谱,具体包括以下步骤:将案件信息输入图谱提取模型,以生成待匹配知识图谱。
在该技术方案中,将案件信息输入到创建的图谱提取模型中,能够快速并且准确地生成待匹配知识图谱,以便根据待匹配知识图谱确定出匹配的预设图谱。
在上述任一技术方案中,优选地,根据预设的图匹配算法,检测预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,具体包括以下步骤:采用子图同构算法,检测预存案件图谱集中是否具有预存图谱。
在该技术方案中,通过采用子图同构算法(VF算法或VF2算法),完成相似案件的搜索过程,通过执行搜索操作和剪枝操作,找到和待匹配知识图谱相似的图谱后,把这些图谱对应的案例推送给用户,实现了同案智推。
另外,还可以采用Ullmann算法完成搜索过程。
在上述任一技术方案中,优选地,根据预设的图匹配算法,检测预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,具体包括以下步骤:根据深度优先搜索算法将待匹配知识图谱转换为搜索前序图;采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱;在检测过程中,根据搜索前序图对预存案件图谱集进行剪枝;在检测到存在具有映射关系的预存图谱时,确定预存图谱对应的相似案件信息;将相似案件信息显示在当前界面上。在该技术方案中,为了能够检测出预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,将待匹配知识图谱根据深度优先搜索算法转换为搜索前序图,而后采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱,以通过简化检测流程达到减少检测时间的目的,为了进一步提高检测的效率,根据搜索前序图对预存案件图谱集进行剪枝,当检测到预存案件图谱集存在与搜索前序图具有映射关系的预存图谱时,说明预存图谱对应的相似案件信息即为用户需要的案件信息,以实现采用VF2的子子图同构算法执行相似案件查找的功能,进而将相似案件信息显示在当前界面,以供用户使用。
其中,通过深度优先搜索算法(Depth-First-Search)形成的搜索前序图为采用递归的检测方式提供了实现前提。
在上述任一技术方案中,优选地,在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息前,还包括:将预存案件图谱集存储至图数据库中。
在该技术方案中,为了能够对预存案件图谱集的存储和查询进行优化,将预存案件图谱集存储至图数据库中,优选的,图数据库为neo4j数据库。
根据本发明的第二方面,提出了一种基于知识图谱的案件查询装置,包括:确定单元,用于在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息;确定单元还用于:根据预设的分类模型确定案件信息的案件类型,以确定图数据库中与案件类型对应的预存案件图谱集;案件查询装置还包括:提取单元,用于对案件信息执行图谱提取操作,以生成待匹配知识图谱;检测单元,用于根据预设的图匹配算法,检测预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,以在检测到具有预存图谱时,根据预存图谱确定对应的相似案件信息。
在该技术方案中,在接收到用户针对指定案件发送的查询指令时,确定出与该查询指令对应的案件信息,为了能够缩小确定的范围,以提高确定出相似案件信息的效率,根据预设的分类模型确定出该案件信息的案件类型,进而根据该案件类型确定出图数据库中与其对应的预存案件图谱集,为了能够使确定出的与该案件信息对应的相似案件信息更加精准,对该案件信息进行图谱提取,并生成待匹配知识图谱,进而根据生成的待匹配知识图谱检测预存案件图谱集中与其匹配的预存图谱,进一步根据预存图谱确定出与案件信息对应的相似案件信息。通过上述方案,有效的减少了确定相似案件信息的时间,并且提高了确定相似案件信息的准确性。
在上述技术方案中,优选地,基于知识图谱的案件查询装置还包括:分类单元,用于根据文本特征生成分类体系;标记单元,用于根据分类体系对训练案件分别进行分类特征标记,以生成多种类型案例;第一训练单元,用于将分类体系与多种类型案例执行机器学习操作,以生成分类模型。
在该技术方案中,根据案件的文本特征生成分类体系,进而根据生成的分类体系对训练案件分别进行分类特征标记,并根据不同的分类特征标记生成多种类型案例,以保证分类模型的全面性,进而将分类体系与多种类型案例执行机器学习操作生成分类模型。通过分类模型的创建,大大的提升了案件分类的效率和准确性。
在上述任一技术方案中,优选地,提取单元还用于:根据预设规则针对多种类型案例中的每一类案例提取内容特征以及内容特征之间的抽象关系特征,确定单元还用于:将内容特征确定为图谱节点;确定单元还用于:将抽象关系特征确定为图谱边,以根据图谱节点与图谱边生成与每一类案例对应的多个训练知识图谱;案件查询装置还包括:第二训练单元,用于对多个训练知识图谱执行机器学习操作,以生成图谱提取模型;图谱集生成单元,用于根据图谱提取模型和浅层语义分析规则,执行预存案件的图谱提取操作,以生成对应的预存案件图谱集。
在该技术方案中,根据预设规则提取出多种类型案例中每一类案例的内容特征以及内容特征之间的抽象关系特征,为了能够生成每一类案例对应的训练知识图谱,将提取出的内容特征确定为图谱节点,并将提取出的抽象关系特征确定为图普边,进而根据图谱节点与图谱边生成训练知识图谱,为了能够生成图谱提取模型,对每一类案例对应的多个训练知识图谱执行机器学习操作,进而根据图谱提取模型和浅层语义分析规则提取出预存案件的预存案件图谱集,以保证能够根据预存案件图谱集准确地确定出用户需要的相似案件信息。
在上述任一技术方案中,优选地,基于知识图谱的案件查询装置还包括:输入单元,用于将案件信息输入图谱提取模型,以生成待匹配知识图谱。
在该技术方案中,将案件信息输入到创建的图谱提取模型中,能够快速并且准确地生成待匹配知识图谱,以便根据待匹配知识图谱确定出匹配的预设图谱。
在上述任一技术方案中,优选地,检测单元还用于:采用子图同构算法,检测预存案件图谱集中是否具有预存图谱。
在该技术方案中,通过采用子图同构算法(VF算法或VF2算法),完成相似案件的搜索过程,通过执行搜索操作和剪枝操作,找到和待匹配知识图谱相似的图谱后,把这些图谱对应的案例推送给用户,实现了同案智推。
另外,还可以采用Ullmann算法完成搜索过程。
在上述任一技术方案中,优选地,基于知识图谱的案件查询装置还包括:转换单元,用于根据深度优先搜索算法将待匹配知识图谱转换为搜索前序图;搜索单元,用于采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱;剪枝单元,用于在检测过程中,根据搜索前序图对预存案件图谱集进行剪枝;确定单元还用于:在检测到存在具有映射关系的预存图谱时,确定预存图谱对应的相似案件信息;案件查询装置还包括:显示单元,用于将相似案件信息显示在当前界面上。
在该技术方案中,为了能够检测出预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,将待匹配知识图谱根据深度优先搜索算法转换为搜索前序图,而后采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱,以通过简化检测流程达到减少检测时间的目的,为了进一步提高检测的效率,根据搜索前序图对预存案件图谱集进行剪枝,当检测到预存案件图谱集存在与搜索前序图具有映射关系的预存图谱时,说明预存图谱对应的相似案件信息即为用户需要的案件信息,以实现采用VF2的子子图同构算法执行相似案件查找的功能,进而将相似案件信息显示在当前界面,以供用户使用。
其中,通过深度优先搜索算法(Depth-First-Search)形成的搜索前序图为采用递归的检测方式提供了实现前提。
在上述任一技术方案中,优选地,基于知识图谱的案件查询装置还包括:存储单元,用于将预存案件图谱集存储至图数据库中。
在该技术方案中,为了能够对预存案件图谱集的存储和查询进行优化,将预存案件图谱集存储至图数据库中,优选的,图数据库为neo4j数据库。
根据本发明的第三方面,提供了一种计算机设备,包括:处理器;用于储存处理器可执行指令的存储器,其中,处理器用于执行存储器中储存的可执行指令时实现如上述第一方面的技术方案中任一项所述的基于知识图谱的案件查询方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面的技术方案中任一项所述的基于知识图谱的案件查询方法的步骤。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明第一实施例的基于知识图谱的案件查询方法的流程示意图;
图2示出了本发明实施例的生成分类模型的方法流程示意图;
图3示出了本发明实施例的生成预存案件图谱集的方法流程示意图;
图4示出了本发明实施例的检测所述预存案件图谱集中是否具有与所述待匹配知识图谱匹配的预存图谱的方法流程示意图;
图5示出了本发明第二实施例的基于知识图谱的案件查询方法的流程示意图;
图6示出了本发明实施例的基于知识图谱的案件查询装置的示意框图;
图7示出了本发明实施例的计算机设备的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图4对本发明实施例的基于知识图谱的案件查询方法进行具体说明。
如图1所示,根据本发明实施例的基于知识图谱的案件查询方法,具体包括以下流程步骤:
步骤102,在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息。
步骤104,根据预设的分类模型确定案件信息的案件类型,以确定图数据库中与案件类型对应的预存案件图谱集。
步骤106,对案件信息执行图谱提取操作,以生成待匹配知识图谱。
步骤108,根据预设的图匹配算法,检测预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,以在检测到具有预存图谱时,根据预存图谱确定对应的相似案件信息。
在该实施例中,在接收到用户针对指定案件发送的查询指令时,确定出与该查询指令对应的案件信息,为了能够缩小确定的范围,以提高确定出相似案件信息的效率,根据预设的分类模型确定出该案件信息的案件类型,进而根据该案件类型确定出图数据库中与其对应的预存案件图谱集,为了能够使确定出的与该案件信息对应的相似案件信息更加精准,对该案件信息进行图谱提取,并生成待匹配知识图谱,进而根据生成的待匹配知识图谱检测预存案件图谱集中与其匹配的预存图谱,进一步根据预存图谱确定出与案件信息对应的相似案件信息。通过上述方案,有效的减少了确定相似案件信息的时间,并且提高了确定相似案件信息的准确性。
进一步地,在上述实施例的步骤102前,如图2所示,基于知识图谱的案件查询方法还包括以下流程步骤:
步骤202,根据文本特征生成分类体系。
步骤204,根据分类体系对训练案件分别进行分类特征标记,以生成多种类型案例。
步骤206,将分类体系与多种类型案例执行机器学习操作,以生成分类模型。
在该实施例中,根据案件的文本特征生成分类体系,进而根据生成的分类体系对训练案件分别进行分类特征标记,并根据不同的分类特征标记生成多种类型案例,以保证分类模型的全面性,进而将分类体系与多种类型案例执行机器学习操作生成分类模型。通过分类模型的创建,大大的提升了案件分类的效率和准确性。
进一步地,在上述实施例的步骤102前,如图3所示,基于知识图谱的案件查询方法还包括以下流程步骤:
步骤302,根据预设规则针对多种类型案例中的每一类案例提取内容特征以及内容特征之间的抽象关系特征。
步骤304,将内容特征确定为图谱节点。
步骤306,将抽象关系特征确定为图谱边,以根据图谱节点与图谱边生成与每一类案例对应的多个训练知识图谱。
步骤308,对多个训练知识图谱执行机器学习操作,以生成图谱提取模型。
步骤310,根据图谱提取模型和浅层语义分析规则,执行预存案件的图谱提取操作,以生成对应的预存案件图谱集。
在该实施例中,根据预设规则提取出多种类型案例中每一类案例的内容特征以及内容特征之间的抽象关系特征,为了能够生成每一类案例对应的训练知识图谱,将提取出的内容特征确定为图谱节点,并将提取出的抽象关系特征确定为图普边,进而根据图谱节点与图谱边生成训练知识图谱,为了能够生成图谱提取模型,对每一类案例对应的多个训练知识图谱执行机器学习操作,进而根据图谱提取模型和浅层语义分析规则提取出预存案件的预存案件图谱集,以保证能够根据预存案件图谱集准确地确定出用户需要的相似案件信息。
进一步地,在上述实施例中,对案件信息执行图谱提取操作,以生成待匹配知识图谱,具体包括:将案件信息输入图谱提取模型,以生成待匹配知识图谱。
在该实施例中,将案件信息输入到创建的图谱提取模型中,能够快速并且准确地生成待匹配知识图谱,以便根据待匹配知识图谱确定出匹配的预设图谱。
进一步地,在上述事实例中,步骤108具体可以执行以下流程,步骤:采用子图同构算法,检测预存案件图谱集中是否具有预存图谱。
在该技术方案中,通过采用子图同构算法(VF算法或VF2算法),完成相似案件的搜索过程,通过执行搜索操作和剪枝操作,找到和待匹配知识图谱相似的图谱后,把这些图谱对应的案例推送给用户,实现了同案智推。
另外,还可以采用Ullmann算法完成搜索过程。
进一步地,在上述事实例中,步骤108具体可以执行如图4所示的流程步骤:
步骤402,根据深度优先搜索算法将待匹配知识图谱转换为搜索前序图。
步骤404,采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱。
步骤406,在检测过程中,根据搜索前序图对预存案件图谱集进行剪枝。
步骤408,在检测到存在具有映射关系的预存图谱时,确定预存图谱对应的相似案件信息。
步骤410,将相似案件信息显示在当前界面上。
在该实施例中,为了能够检测出预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,将待匹配知识图谱根据深度优先搜索算法转换为搜索前序图,而后采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱,以通过简化检测流程达到减少检测时间的目的,为了进一步提高检测的效率,根据搜索前序图对预存案件图谱集进行剪枝,当检测到预存案件图谱集存在与搜索前序图具有映射关系的预存图谱时,说明预存图谱对应的相似案件信息即为用户需要的案件信息,以实现采用VF2的子子图同构算法执行相似案件查找的功能,进而将相似案件信息显示在当前界面,以供用户使用。
其中,通过深度优先搜索算法(Depth-First-Search)形成的搜索前序图为采用递归的检测方式提供了实现前提。
进一步地,在上述实施例的步骤102前,基于知识图谱的案件查询方法还包括:将预存案件图谱集存储至图数据库中。
在该实施例中,为了能够对预存案件图谱集的存储和查询进行优化,将预存案件图谱集存储至图数据库中,优选的,图数据库为neo4j数据库。
下面结合图5对本发明实施例的基于知识图谱的案件查询方法进行具体说明。
如图5所示,根据本发明第一实施例的基于知识图谱的案件查询方法,具体包括:
将部分案例导入系统内,采用自然语言处理中的文本分类技术将部分案例的文本特征生成分类体系,并针对分类体系中的每一个分类都标记一部分符合的案例,然后把分类体系和标记的案例作为分类训练素材输入给机器学习的程序,该程序经过学习会训练出一个能够对案例进行分类的分类模型。
依靠法律专业人士总结出部分案例的特征和抽象关系,然后根据部分案例的特征和抽象关系生成每一类案例对应的图谱,将该图谱作为图谱训练素材输入给机器学习的程序,得出图谱提取模型。
在生成分类模型和图谱提取模型后,将全部案例输入分类模型中,分类模型针对每一案例所归属的分类对全部案例进行具体分类,进而将经过分类模型完成分类的每一类案例输入图谱提取模型,图谱提取模型与浅层语义分析规则配合提取出每一类案例中每一件案例的图谱,进而将所提取出的图谱按照分类体系存储到案例图谱库中,优选的采用neo4j数据库作为案例图谱库。
当接收到用户输入待分析的案例后,分类模型确定出待分析案例的案例类型,并确定出neo4j数据库中与该案例类型对应的图谱集,而后采用图谱提取模型提取出待分析案例的待分析图谱,再提取出待分析图谱后根据深度优先搜索算法检测出与待分析图谱相似的图谱,在检测过程中,对图谱集进行剪枝处理,以便能够更快的检测出结果,按照相似度将图谱对应的案例作为同安案例推送至用户,优选的将相似度最高的5条案例推送至用户。
下面结合图6对本发明实施例的基于知识图谱的案件查询装置进行具体说明。
如图6所示,根据本发明实施例的基于知识图谱的案件查询装置20,包括:确定单元602、提取单元604和检测单元606。
其中,确定单元602用于在接收到针对指定案件的查询指令时,确定查询指令对应的案件信息;确定单元602还用于根据预设的分类模型确定案件信息的案件类型,以确定图数据库中与案件类型对应的预存案件图谱集;案件查询装置还包括:提取单元604用于对案件信息执行图谱提取操作,以生成待匹配知识图谱;检测单元606用于根据预设的图匹配算法,检测预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,以在检测到具有预存图谱时,根据预存图谱确定对应的相似案件信息。
在该实施例中,在接收到用户针对指定案件发送的查询指令时,确定出与该查询指令对应的案件信息,为了能够缩小确定的范围,以提高确定出相似案件信息的效率,根据预设的分类模型确定出该案件信息的案件类型,进而根据该案件类型确定出图数据库中与其对应的预存案件图谱集,为了能够使确定出的与该案件信息对应的相似案件信息更加精准,对该案件信息进行图谱提取,并生成待匹配知识图谱,进而根据生成的待匹配知识图谱检测预存案件图谱集中与其匹配的预存图谱,进一步根据预存图谱确定出与案件信息对应的相似案件信息。通过上述方案,有效的减少了确定相似案件信息的时间,并且提高了确定相似案件信息的准确性。
进一步地,在上述实施例中,基于知识图谱的案件查询装置还包括:分类单元608、标记单元610、和第一训练单元612。
其中,分类单元608用于根据文本特征生成分类体系;标记单元610用于根据所述分类体系对训练案件分别进行分类特征标记,以生成多种类型案例;第一训练单元612用于将所述分类体系与所述多种类型案例执行机器学习操作,以生成所述分类模型。
在该实施例中,根据案件的文本特征生成分类体系,进而根据生成的分类体系对训练案件分别进行分类特征标记,并根据不同的分类特征标记生成多种类型案例,以保证分类模型的全面性,进而将分类体系与多种类型案例执行机器学习操作生成分类模型。通过分类模型的创建,大大的提升了案件分类的效率和准确性。
进一步地,在上述实施例中,基于知识图谱的案件查询装置还包括:第二训练单元614和图谱集生成单元616。
其中,提取单元604还用于根据预设规则针对多种类型案例中的每一类案例提取内容特征以及内容特征之间的抽象关系特征,确定单元602还用于将内容特征确定为图谱节点;确定单元602还用于将抽象关系特征确定为图谱边,以根据图谱节点与图谱边生成与每一类案例对应的多个训练知识图谱;第二训练单元614用于对多个训练知识图谱执行机器学习操作,以生成图谱提取模型;图谱集生成单元616用于根据图谱提取模型和浅层语义分析规则,执行预存案件的图谱提取操作,以生成对应的预存案件图谱集。
在该实施例中,根据预设规则提取出多种类型案例中每一类案例的内容特征以及内容特征之间的抽象关系特征,为了能够生成每一类案例对应的训练知识图谱,将提取出的内容特征确定为图谱节点,并将提取出的抽象关系特征确定为图普边,进而根据图谱节点与图谱边生成训练知识图谱,为了能够生成图谱提取模型,对每一类案例对应的多个训练知识图谱执行机器学习操作,进而根据图谱提取模型和浅层语义分析规则提取出预存案件的预存案件图谱集,以保证能够根据预存案件图谱集准确地确定出用户需要的相似案件信息。
进一步地,在上述实施例中,基于知识图谱的案件查询装置还包括:输入单元618,用于将所述案件信息输入所述图谱提取模型,以生成所述待匹配知识图谱。
在该实施例中,将案件信息输入到创建的图谱提取模型中,能够快速并且准确地生成待匹配知识图谱,以便根据待匹配知识图谱确定出匹配的预设图谱。
进一步地,在上述实施例中,检测单元606还用于:采用子图同构算法,检测预存案件图谱集中是否具有预存图谱。
在该技术方案中,通过采用子图同构算法(VF算法或VF2算法),完成相似案件的搜索过程,通过执行搜索操作和剪枝操作,找到和待匹配知识图谱相似的图谱后,把这些图谱对应的案例推送给用户,实现了同案智推。
另外,还可以采用Ullmann算法完成搜索过程。
进一步地,在上述实施例中,基于知识图谱的案件查询装置还包括:转换单元620、搜索单元622、剪枝单元624和显示单元626。
其中,转换单元620用于根据深度优先搜索算法将待匹配知识图谱转换为搜索前序图;搜索单元622用于采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱;剪枝单元624用于在检测过程中,根据搜索前序图对预存案件图谱集进行剪枝;确定单元602还用于在检测到存在具有映射关系的预存图谱时,确定预存图谱对应的相似案件信息;显示单元626用于将相似案件信息显示在当前界面上。
在该实施例中,为了能够检测出预存案件图谱集中是否具有与待匹配知识图谱匹配的预存图谱,将待匹配知识图谱根据深度优先搜索算法转换为搜索前序图,而后采用递归的方式检测预存案件图谱集中是否存在与搜索前序图具有映射关系的预存图谱,以通过简化检测流程达到减少检测时间的目的,为了进一步提高检测的效率,根据搜索前序图对预存案件图谱集进行剪枝,当检测到预存案件图谱集存在与搜索前序图具有映射关系的预存图谱时,说明预存图谱对应的相似案件信息即为用户需要的案件信息,进而将相似案件信息显示在当前界面,以供用户使用。
进一步地,在上述实施例中,基于知识图谱的案件查询装置还包括:存储单元628,用于将预存案件图谱集存储至图数据库中。
在该实施例中,为了能够对预存案件图谱集的存储和查询进行优化,将预存案件图谱集存储至图数据库中,优选的,图数据库为neo4j数据库。
图7示出了本发明实施例的计算机设备的示意框图。
如图7所示,根据本发明实施例的计算机设备70,包括处理器702和存储器707,其中,存储器707上存储有可在处理器702上运行的计算机程序,其中存储器707和处理器702之间可以通过总线连接,该处理器702用于执行存储器707中存储的计算机程序时实现如上实施例中所述的基于知识图谱的案件查询方法的步骤。
本发明实施例的基于知识图谱的案件查询方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例的基于知识图谱的案件查询装置和计算机设备中的单元可以根据实际需要进行合并、划分和删减。
根据本发明的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上实施例中所述的基于知识图谱的案件查询方法的步骤。
进一步地,可以理解的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等;以及上述提到的计算机设备可以为服务器。
以上结合附图详细说明了本发明的技术方案,通过该技术方案,有效的减少了确定相似案件信息的时间,并且提高了确定出的相似案件信息的准确性,使得用户的工作效率得到了较大提升。
在本发明的实施例中,术语“第一”和“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明实施例中的具体含义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识图谱的案件查询方法,其特征在于,包括:
在接收到针对指定案件的查询指令时,确定所述查询指令对应的案件信息;
根据预设的分类模型确定所述案件信息的案件类型,以确定图数据库中与所述案件类型对应的预存案件图谱集;
对所述案件信息执行图谱提取操作,以生成待匹配知识图谱;
根据预设的图匹配算法,检测所述预存案件图谱集中是否具有与所述待匹配知识图谱匹配的预存图谱,以在检测到具有所述预存图谱时,根据所述预存图谱确定对应的相似案件信息;
所述在接收到针对指定案件的查询指令时,确定所述查询指令对应的案件信息前,还包括:
根据文本特征生成分类体系;
根据所述分类体系对训练案件分别进行分类特征标记,以生成多种类型案例;
将所述分类体系与所述多种类型案例执行机器学习操作,以生成所述分类模型;
所述根据预设的图匹配算法,检测所述预存案件图谱集中是否具有与所述待匹配知识图谱匹配的预存图谱,具体包括以下步骤:
采用子图同构算法,检测所述预存案件图谱集中是否具有所述预存图谱;
所述采用子图同构算法,检测所述预存案件图谱集中是否具有所述预存图谱,具体包括以下步骤:
根据深度优先搜索算法将所述待匹配知识图谱转换为搜索前序图;
采用递归的方式检测所述预存案件图谱集中是否存在与所述搜索前序图具有映射关系的所述预存图谱;
在检测过程中,根据所述搜索前序图对所述预存案件图谱集进行剪枝;
在检测到存在具有所述映射关系的所述预存图谱时,确定所述预存图谱对应的所述相似案件信息;
将所述相似案件信息显示在当前界面上。
2.根据权利要求1所述的基于知识图谱的案件查询方法,其特征在于,所述在接收到针对指定案件的查询指令时,确定所述查询指令对应的案件信息前,还包括:
根据预设规则针对所述多种类型案例中的每一类案例提取内容特征以及所述内容特征之间的抽象关系特征,
将所述内容特征确定为图谱节点;
将所述抽象关系特征确定为图谱边,以根据所述图谱节点与所述图谱边生成与所述每一类案例对应的多个训练知识图谱;
对所述多个训练知识图谱执行机器学习操作,以生成图谱提取模型;
根据所述图谱提取模型和浅层语义分析规则,执行预存案件的图谱提取操作,以生成对应的所述预存案件图谱集。
3.根据权利要求2所述的基于知识图谱的案件查询方法,其特征在于,所述对所述案件信息执行图谱提取操作,以生成待匹配知识图谱,具体包括以下步骤:
将所述案件信息输入所述图谱提取模型,以生成所述待匹配知识图谱。
4.根据权利要求1至3中任一项所述的基于知识图谱的案件查询方法,其特征在于,所述在接收到针对指定案件的查询指令时,确定所述查询指令对应的案件信息前,还包括:
将所述预存案件图谱集存储至所述图数据库中。
5.一种基于知识图谱的案件查询装置,其特征在于,包括:
确定单元,用于在接收到针对指定案件的查询指令时,确定所述查询指令对应的案件信息;
所述确定单元还用于:根据预设的分类模型确定所述案件信息的案件类型,以确定图数据库中与所述案件类型对应的预存案件图谱集;
所述案件查询装置还包括:
提取单元,用于对所述案件信息执行图谱提取操作,以生成待匹配知识图谱;
检测单元,用于根据预设的图匹配算法,检测所述预存案件图谱集中是否具有与所述待匹配知识图谱匹配的预存图谱,以在检测到具有所述预存图谱时,根据所述预存图谱确定对应的相似案件信息;
分类单元,用于根据文本特征生成分类体系;
标记单元,用于根据所述分类体系对训练案件分别进行分类特征标记,以生成多种类型案例;
第一训练单元,用于将所述分类体系与所述多种类型案例执行机器学习操作,以生成所述分类模型;
所述检测单元还用于:采用子图同构算法,检测所述预存案件图谱集中是否具有所述预存图谱;
转换单元,用于根据深度优先搜索算法将所述待匹配知识图谱转换为搜索前序图;
搜索单元,用于采用递归的方式检测所述预存案件图谱集中是否存在与所述搜索前序图具有映射关系的所述预存图谱;
剪枝单元,用于在检测过程中,根据所述搜索前序图对所述预存案件图谱集进行剪枝;
所述确定单元还用于:在检测到存在具有所述映射关系的所述预存图谱时,确定所述预存图谱对应的所述相似案件信息;
所述案件查询装置还包括:
显示单元,用于将所述相似案件信息显示在当前界面上。
6.根据权利要求5所述的基于知识图谱的案件查询装置,其特征在于,
所述提取单元还用于:根据预设规则针对所述多种类型案例中的每一类案例提取内容特征以及所述内容特征之间的抽象关系特征,
所述确定单元还用于:将所述内容特征确定为图谱节点;
所述确定单元还用于:将所述抽象关系特征确定为图谱边,以根据所述图谱节点与所述图谱边生成与所述每一类案例对应的多个训练知识图谱;
所述案件查询装置还包括:
第二训练单元,用于对所述多个训练知识图谱执行机器学习操作,以生成图谱提取模型;
图谱集生成单元,用于根据所述图谱提取模型和浅层语义分析规则,执行预存案件的图谱提取操作,以生成对应的所述预存案件图谱集。
7.根据权利要求6所述的基于知识图谱的案件查询装置,其特征在于,还包括:
输入单元,用于将所述案件信息输入所述图谱提取模型,以生成所述待匹配知识图谱。
8.根据权利要求5至7中任一项所述的基于知识图谱的案件查询装置,其特征在于,还包括:
存储单元,用于将所述预存案件图谱集存储至所述图数据库中。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述方法的步骤。
CN201810144170.5A 2018-02-12 2018-02-12 案件查询方法及案件查询装置、计算机设备和存储介质 Expired - Fee Related CN110209828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810144170.5A CN110209828B (zh) 2018-02-12 2018-02-12 案件查询方法及案件查询装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810144170.5A CN110209828B (zh) 2018-02-12 2018-02-12 案件查询方法及案件查询装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110209828A CN110209828A (zh) 2019-09-06
CN110209828B true CN110209828B (zh) 2021-08-27

Family

ID=67778639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810144170.5A Expired - Fee Related CN110209828B (zh) 2018-02-12 2018-02-12 案件查询方法及案件查询装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110209828B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825880A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 案件胜率确定方法、装置、设备及计算机可读存储介质
CN110795566A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 案件推荐方法、装置、设备及计算机可读存储介质
CN110727804A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 利用知识图谱处理维修案例的方法、装置及电子设备
CN111241274B (zh) * 2019-12-31 2023-11-28 航天信息股份有限公司 刑事法律文书处理方法和装置、存储介质和电子设备
CN111259951A (zh) * 2020-01-13 2020-06-09 北京明略软件系统有限公司 案件检测方法、装置、电子设备及可读存储介质
CN112632224B (zh) * 2020-12-29 2023-01-24 天津汇智星源信息技术有限公司 基于案例知识图谱的案件推荐方法、装置和电子设备
CN112685452B (zh) * 2020-12-31 2021-08-10 特赞(上海)信息科技有限公司 企业案例检索方法、装置、设备和存储介质
CN112784591A (zh) * 2021-02-01 2021-05-11 北京百度网讯科技有限公司 数据的处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649696A (zh) * 2016-12-19 2017-05-10 北京云知声信息技术有限公司 信息分类方法及装置
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106897273A (zh) * 2017-04-12 2017-06-27 福州大学 一种基于知识图谱的网络安全动态预警方法
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474962B2 (en) * 2015-09-04 2019-11-12 Microsoft Technology Licensing, Llc Semantic entity relation detection classifier training

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106649696A (zh) * 2016-12-19 2017-05-10 北京云知声信息技术有限公司 信息分类方法及装置
CN106897273A (zh) * 2017-04-12 2017-06-27 福州大学 一种基于知识图谱的网络安全动态预警方法
CN107341215A (zh) * 2017-06-07 2017-11-10 北京航空航天大学 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法

Also Published As

Publication number Publication date
CN110209828A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110209828B (zh) 案件查询方法及案件查询装置、计算机设备和存储介质
US10860548B2 (en) Generating and reusing transformations for evolving schema mapping
US8122045B2 (en) Method for mapping a data source to a data target
US9141691B2 (en) Method for automatically indexing documents
US7711736B2 (en) Detection of attributes in unstructured data
CN109492081B (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
US7672958B2 (en) Method and system to identify records that relate to a pre-defined context in a data set
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
CN110347701B (zh) 一种面向实体检索查询的目标类型标识方法
CN108062422B (zh) 一种分页查询的排序方法、智能终端、系统及存储介质
CN111767382A (zh) 生成反馈信息的方法、装置及终端设备
KR101253502B1 (ko) 출원문서 표시 시스템
CN113360603A (zh) 一种合同相似性及合规性检测方法及装置
CN101334793B (zh) 一种自动识别需求依赖关系的方法
CN114462383B (zh) 建筑图纸设计说明书获取方法、系统、存储介质及设备
Lecoeuche Finding comparatively important concepts between texts
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN111177301A (zh) 一种关键信息识别提取方法及系统
CN112925874A (zh) 基于案例标记的相似代码搜索方法及系统
US11960549B2 (en) Guided source collection for a machine learning model
CN113806321B (zh) 一种日志处理方法及系统
CN110083679B (zh) 搜索请求的处理方法、装置、电子设备和存储介质
Lods et al. Graph Edit Distance for the analysis of children's on-line handwritten arithmetical operations
CN116542243A (zh) 一种对文档进行自动实体识别的方法、知识库系统
JPH10320402A (ja) 検索式作成方法、検索式作成装置、及び記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230614

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210827