CN106126695A - 一种相似案件检索方法及装置 - Google Patents

一种相似案件检索方法及装置 Download PDF

Info

Publication number
CN106126695A
CN106126695A CN201610501141.0A CN201610501141A CN106126695A CN 106126695 A CN106126695 A CN 106126695A CN 201610501141 A CN201610501141 A CN 201610501141A CN 106126695 A CN106126695 A CN 106126695A
Authority
CN
China
Prior art keywords
case
tree
retrieval
information
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610501141.0A
Other languages
English (en)
Inventor
张春生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610501141.0A priority Critical patent/CN106126695A/zh
Publication of CN106126695A publication Critical patent/CN106126695A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种相似案件检索方法及装置,本发明包括以下步骤,S1:组织裁判文书;S2:构造案件特征树;S3:训练案件特征权重树;S4:输入检索信息;S5:计算案件相似矩阵;S6:展示检索结果。本发明以精心构造的案件特征树为基础,大幅提高检索准确率和覆盖率;以检索信息为纲领,自由组合过滤和查询条件;通过构造案件相似矩阵,实现基于案件的连续检索;对检索结果进行统计分析,直观展示相关信息。

Description

一种相似案件检索方法及装置
技术领域
本发明涉及法院案件检索技术领域,尤其涉及一种相似案件检索方法及装置。
背景技术
在某些疑难案件的审判过程中,审判人员(法官)除依靠自身业务水平和经验以外,经常需要检索已有相似案件,来把握相关情节的处理。现有常用检索技术(途径)包括通用搜索引擎、行业网站、指导性案例;特点如下:
(1)通用搜索引擎:如百度、雅虎等;没有针对司法领域定制,检索准确率和覆盖率低。
(2)行业网站:如裁判文书网、无讼网等;与通用搜索相比,检索准确率和覆盖率有较大提升,并允许多重过滤;但是检索主要基于关键字匹配,过于机械,准确率依然较低;过滤条件预设,不够灵活。
(3)指导性案例:最高院发布,具有权威性,针对性;但是案件数量少,滞后严重,并且彼此孤立,检索覆盖率低;地方适应性也有待考量。
另外,上述检索技术均不支持语义检索,无法自由组合过滤、查询条件,不能基于结果连续检索,没有实现对检索结果的统计和直观展示。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种相似案件检索方法及装置。
一种相似案件检索方法及装置,包括以下步骤:
S1:组织裁判文书:将裁判文书按照案由分层分类组织;
S2:构造案件特征树:对于指定案由,筛选共有特征和私有特征,并按特征间逻辑关系,组织称树形结构,每个案由对应一个特征树,其结构随选取特征的变动而调整,待特征树结构稳定,从裁判文书中抽取对应特征信息,组成特征树集合;
S3:训练案件特征权重树:根据案件特征树数据训练生成特征权重树;
S4:输入检索信息:用户输入检索条件,构造案件相似矩阵;
S5:计算案件相似矩阵:根据过滤条件从特征树集合中筛选有效特征树,根据查询条件,利用权重树,计算有效特征树集合中两两相似度,组成相似矩阵;
S6:展示检索结果:通过既定阈值,从案件相似矩阵中获取相似案件,对相关信息进行统计,并进行可视化展示。
优选的,所述案件特征树与所在案由相对应,并按案由层级关系组织。
优选的,所述抽取的方式为模式匹配和语义分析。
优选的,所述特征权重树采用决策树方法,针对不同目标多次训练计算综合权重,且树中父节点权重为子节点权重和。
优选的,所述检索信息包括过滤条件和查询条件。
优选的,所述相似度的计算方法采用加权曼哈顿距离,并对结果进行归一化。
一种相似案件检索方法及装置,还包括:
录入模块,用于在信息数据库中录入案由详细信息;
分类模块,用于将数据库中的信息按照特征进行逐层、逐条分类,归档;
检索模块,用于输入检索信息,并对检索信息进行拆分,将拆分后的检索信息分别与信息数据库中的信息进行比对、组合,排列成相似矩阵;
展示模块,用于将统计的相关检索信息进行有序展示。
本发明以精心构造的案件特征树为基础,大幅提高检索准确率和覆盖率;以检索信息为纲领,自由组合过滤和查询条件;通过构造案件相似矩阵,实现基于案件的连续检索;对检索结果进行统计分析,直观展示相关信息。
附图说明
图1为本发明提出一种相似案件检索方法及装置的流程示意图。
图中:S10裁判文书、S20特征树、S30权重树、S40检索、S50相似矩阵、S60相似案件。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
本发明提出的一种相似案件检索方法及装置,包括以下步骤:
S1:组织裁判文书S10:将裁判文书S10按照案由分层分类组织;
S2:构造案件特征树S20:对于指定案由,筛选共有特征和私有特征,并按特征间逻辑关系,组织称树形结构,每个案由对应一个特征树S20,其结构随选取特征的变动而调整,待特征树S20结构稳定,从裁判文书S10中抽取对应特征信息,组成特征树S20集合;
S3:训练案件特征权重树S30:根据案件特征树S20数据训练生成特征权重树S30;
S4:输入检索S40信息:用户输入检索S40条件,构造案件相似矩阵S50;
S5:计算案件相似矩阵S50:根据过滤条件从特征树S20集合中筛选有效特征树S20,根据查询条件,利用权重树S30,计算有效特征树S20集合中两两相似度,组成相似矩阵;
S6:展示检索S40结果:通过既定阈值,从案件相似矩阵S50中获取相似案件S60,对相关信息进行统计,并进行可视化展示。
本发明中,所述案件特征树S20与所在案由相对应,并按案由层级关系组织;所述抽取的方式为模式匹配和语义分析;所述特征权重树S30采用决策树方法,针对不同目标多次训练计算综合权重,且树中父节点权重为子节点权重和;所述检索S40信息包括过滤条件和查询条件;所述相似度的计算方法采用加权曼哈顿距离,并对结果进行归一化。
本发明中,所述的案件特征树S20包括公有特征和私有特征,其中公有特征为案件一般属性,例如案件时间、地区与案件实体信息等;私有特征为案件特殊属性,例如离婚纠纷案中离婚原因、子女信息、共同财产等。
本发明中,所述的过滤条件用于限定案件时间、地区等,不参与案件相似度计算;查询条件用于指定检索S40维度,构成案件相似度计算维度。
本发明中,一种相似案件检索方法及装置,还包括:
录入模块,用于在信息数据库中录入案由详细信息;
分类模块,用于将数据库中的信息按照特征进行逐层、逐条分类,归档;
检索模块,用于输入检索信息,并对检索信息进行拆分,将拆分后的检索信息分别与信息数据库中的信息进行比对、组合,排列成相似矩阵;
展示模块,用于将统计的相关检索信息进行有序展示。
本发明以精心构造的案件特征树S20为基础,大幅提高检索S40准确率和覆盖率;以检索S40信息为纲领,自由组合过滤和查询条件;通过构造案件相似矩阵S50,实现基于案件的连续检索S40;对检索S40结果进行统计分析,直观展示相关信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种相似案件检索方法,其特征在于,包括以下步骤:
S1:组织裁判文书:将裁判文书按照案由分层分类组织;
S2:构造案件特征树:对于指定案由,筛选共有特征和私有特征,并按特征间逻辑关系,组织称树形结构,每个案由对应一个特征树,其结构随选取特征的变动而调整,待特征树结构稳定,从裁判文书中抽取对应特征信息,组成特征树集合;
S3:训练案件特征权重树:根据案件特征树数据训练生成特征权重树;
S4:输入检索信息:用户输入检索条件,构造案件相似矩阵;
S5:计算案件相似矩阵:根据过滤条件从特征树集合中筛选有效特征树,根据查询条件,利用权重树,计算有效特征树集合中两两相似度,组成相似矩阵;
S6:展示检索结果:通过既定阈值,从案件相似矩阵中获取相似案件,对相关信息进行统计,并进行可视化展示。
2.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述案件特征树与所在案由相对应,并按案由层级关系组织。
3.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述抽取的方式为模式匹配和语义分析。
4.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述特征权重树采用决策树方法,针对不同目标多次训练计算综合权重,且树中父节点权重为子节点权重和。
5.根据权利要求2所述的一种相似案件检索方法,其特征在于,所述检索信息包括过滤条件和查询条件。
6.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述相似度的计算方法采用加权曼哈顿距离,并对结果进行归一化。
7.一种相似案件检索装置,其特征在于,包括:
录入模块,用于在信息数据库中录入案由详细信息;
分类模块,用于将数据库中的信息按照特征进行逐层、逐条分类,归档;
检索模块,用于输入检索信息,并对检索信息进行拆分,将拆分后的检索信息分别与信息数据库中的信息进行比对、组合,排列成相似矩阵;
展示模块,用于将统计的相关检索信息进行有序展示。
CN201610501141.0A 2016-06-30 2016-06-30 一种相似案件检索方法及装置 Pending CN106126695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610501141.0A CN106126695A (zh) 2016-06-30 2016-06-30 一种相似案件检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610501141.0A CN106126695A (zh) 2016-06-30 2016-06-30 一种相似案件检索方法及装置

Publications (1)

Publication Number Publication Date
CN106126695A true CN106126695A (zh) 2016-11-16

Family

ID=57285058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610501141.0A Pending CN106126695A (zh) 2016-06-30 2016-06-30 一种相似案件检索方法及装置

Country Status (1)

Country Link
CN (1) CN106126695A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649849A (zh) * 2016-12-30 2017-05-10 上海智臻智能网络科技股份有限公司 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107133276A (zh) * 2017-04-12 2017-09-05 安徽富驰信息技术有限公司 一种司法类案检索系统及其检索方法
CN108280149A (zh) * 2018-01-04 2018-07-13 东南大学 一种基于多维度分类标签的医患纠纷类案件推荐方法
CN109739888A (zh) * 2018-12-25 2019-05-10 北京市律典通科技有限公司 同案同判方法和系统
CN109947897A (zh) * 2019-03-15 2019-06-28 南京邮电大学 司法案件事件树构建系统和方法
CN109949185A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于事件树分析的司法案件判别系统和方法
CN110019655A (zh) * 2017-07-21 2019-07-16 北京国双科技有限公司 先例案件获取方法及装置
CN110309168A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种裁判文书搜索方法及装置
CN110309256A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种文本中事件数据的获取方法及装置
CN111309900A (zh) * 2020-01-17 2020-06-19 中国科学技术大学 一种法律类案相似度判别及推送方法
CN111400445A (zh) * 2020-03-10 2020-07-10 中国人民大学 一种基于相似文本的案件繁简分流方法
CN116825304A (zh) * 2023-06-25 2023-09-29 湖南大学 基于深度互联的在线医疗方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379695A1 (en) * 2013-06-19 2014-12-25 Research In Motion Limited Searching data using pre-prepared search data
CN105447198A (zh) * 2015-12-30 2016-03-30 深圳市瑞铭无限科技有限公司 页面脚本便捷导入的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379695A1 (en) * 2013-06-19 2014-12-25 Research In Motion Limited Searching data using pre-prepared search data
CN105447198A (zh) * 2015-12-30 2016-03-30 深圳市瑞铭无限科技有限公司 页面脚本便捷导入的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹灿 等: "基于权重树的领域本体片段相似度算法", 《计算机工程与设计》 *
程日能: "数据挖掘技术在警务综合信息系统的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649849A (zh) * 2016-12-30 2017-05-10 上海智臻智能网络科技股份有限公司 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN107133276A (zh) * 2017-04-12 2017-09-05 安徽富驰信息技术有限公司 一种司法类案检索系统及其检索方法
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN110019655A (zh) * 2017-07-21 2019-07-16 北京国双科技有限公司 先例案件获取方法及装置
CN108280149A (zh) * 2018-01-04 2018-07-13 东南大学 一种基于多维度分类标签的医患纠纷类案件推荐方法
CN110309256A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种文本中事件数据的获取方法及装置
CN110309168A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种裁判文书搜索方法及装置
CN109739888A (zh) * 2018-12-25 2019-05-10 北京市律典通科技有限公司 同案同判方法和系统
CN109949185A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于事件树分析的司法案件判别系统和方法
CN109947897A (zh) * 2019-03-15 2019-06-28 南京邮电大学 司法案件事件树构建系统和方法
CN111309900A (zh) * 2020-01-17 2020-06-19 中国科学技术大学 一种法律类案相似度判别及推送方法
CN111309900B (zh) * 2020-01-17 2022-09-06 中国科学技术大学 一种法律类案相似度判别及推送方法
CN111400445A (zh) * 2020-03-10 2020-07-10 中国人民大学 一种基于相似文本的案件繁简分流方法
CN111400445B (zh) * 2020-03-10 2023-09-19 中国人民大学 一种基于相似文本的案件繁简分流方法
CN116825304A (zh) * 2023-06-25 2023-09-29 湖南大学 基于深度互联的在线医疗方法与系统
CN116825304B (zh) * 2023-06-25 2024-02-23 湖南大学 基于深度互联的在线医疗方法与系统

Similar Documents

Publication Publication Date Title
CN106126695A (zh) 一种相似案件检索方法及装置
US9348934B2 (en) Systems and methods for facilitating open source intelligence gathering
CN103218719B (zh) 一种电子商务网站导航方法及系统
CN104063523B (zh) 一种电子商务搜索评分与排名的方法及系统
CN105893551B (zh) 数据的处理方法及装置、知识图谱
EP2560111A2 (en) Systems and methods for facilitating the gathering of open source intelligence
CN102841946B (zh) 商品数据检索排序及商品推荐方法和系统
CN105930470A (zh) 一种基于特征权重分析技术的文件检索方法
CN109145097A (zh) 一种基于信息提取的裁判文书分类方法
CN106127546A (zh) 一种基于智慧社区大数据的商品推荐方法
CN105843875A (zh) 一种面向智能机器人的问答数据处理方法及装置
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN106598862A (zh) 一种基于sql语义可扩展的性能诊断调优方法
CN107885857B (zh) 一种搜索结果页用户行为模式挖掘方法、装置及系统
CN105095436B (zh) 数据源数据自动建模方法
McClure et al. Contextual determinants of childhood injury: a systematic review of studies with multilevel analytic methods
CN108268886A (zh) 用于识别外挂操作的方法及系统
CN103744887A (zh) 一种用于人物搜索的方法、装置和计算机设备
CN105975477A (zh) 一种基于网络自动构建地名数据集的方法
CN102937985B (zh) 一种基于用户心智模型的网站分类优化分析方法
KR101655948B1 (ko) 관계 써클 프로세싱 방법 및 시스템, 그리고 컴퓨터 저장 매체
CN108009215A (zh) 一种搜索结果页用户行为模式测评方法、装置及系统
CN109325814A (zh) 一种用于发现可疑交易网络的方法
CN104462552B (zh) 问答页面核心词提取方法和装置
CN107609203A (zh) 一种搜索引擎优化效果量化评估的数据分析系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161116

WD01 Invention patent application deemed withdrawn after publication