CN106126695A - 一种相似案件检索方法及装置 - Google Patents
一种相似案件检索方法及装置 Download PDFInfo
- Publication number
- CN106126695A CN106126695A CN201610501141.0A CN201610501141A CN106126695A CN 106126695 A CN106126695 A CN 106126695A CN 201610501141 A CN201610501141 A CN 201610501141A CN 106126695 A CN106126695 A CN 106126695A
- Authority
- CN
- China
- Prior art keywords
- case
- tree
- retrieval
- information
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 239000000203 mixture Substances 0.000 claims description 6
- 238000000205 computational method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 238000007619 statistical method Methods 0.000 abstract description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种相似案件检索方法及装置,本发明包括以下步骤,S1:组织裁判文书;S2:构造案件特征树;S3:训练案件特征权重树;S4:输入检索信息;S5:计算案件相似矩阵;S6:展示检索结果。本发明以精心构造的案件特征树为基础,大幅提高检索准确率和覆盖率;以检索信息为纲领,自由组合过滤和查询条件;通过构造案件相似矩阵,实现基于案件的连续检索;对检索结果进行统计分析,直观展示相关信息。
Description
技术领域
本发明涉及法院案件检索技术领域,尤其涉及一种相似案件检索方法及装置。
背景技术
在某些疑难案件的审判过程中,审判人员(法官)除依靠自身业务水平和经验以外,经常需要检索已有相似案件,来把握相关情节的处理。现有常用检索技术(途径)包括通用搜索引擎、行业网站、指导性案例;特点如下:
(1)通用搜索引擎:如百度、雅虎等;没有针对司法领域定制,检索准确率和覆盖率低。
(2)行业网站:如裁判文书网、无讼网等;与通用搜索相比,检索准确率和覆盖率有较大提升,并允许多重过滤;但是检索主要基于关键字匹配,过于机械,准确率依然较低;过滤条件预设,不够灵活。
(3)指导性案例:最高院发布,具有权威性,针对性;但是案件数量少,滞后严重,并且彼此孤立,检索覆盖率低;地方适应性也有待考量。
另外,上述检索技术均不支持语义检索,无法自由组合过滤、查询条件,不能基于结果连续检索,没有实现对检索结果的统计和直观展示。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种相似案件检索方法及装置。
一种相似案件检索方法及装置,包括以下步骤:
S1:组织裁判文书:将裁判文书按照案由分层分类组织;
S2:构造案件特征树:对于指定案由,筛选共有特征和私有特征,并按特征间逻辑关系,组织称树形结构,每个案由对应一个特征树,其结构随选取特征的变动而调整,待特征树结构稳定,从裁判文书中抽取对应特征信息,组成特征树集合;
S3:训练案件特征权重树:根据案件特征树数据训练生成特征权重树;
S4:输入检索信息:用户输入检索条件,构造案件相似矩阵;
S5:计算案件相似矩阵:根据过滤条件从特征树集合中筛选有效特征树,根据查询条件,利用权重树,计算有效特征树集合中两两相似度,组成相似矩阵;
S6:展示检索结果:通过既定阈值,从案件相似矩阵中获取相似案件,对相关信息进行统计,并进行可视化展示。
优选的,所述案件特征树与所在案由相对应,并按案由层级关系组织。
优选的,所述抽取的方式为模式匹配和语义分析。
优选的,所述特征权重树采用决策树方法,针对不同目标多次训练计算综合权重,且树中父节点权重为子节点权重和。
优选的,所述检索信息包括过滤条件和查询条件。
优选的,所述相似度的计算方法采用加权曼哈顿距离,并对结果进行归一化。
一种相似案件检索方法及装置,还包括:
录入模块,用于在信息数据库中录入案由详细信息;
分类模块,用于将数据库中的信息按照特征进行逐层、逐条分类,归档;
检索模块,用于输入检索信息,并对检索信息进行拆分,将拆分后的检索信息分别与信息数据库中的信息进行比对、组合,排列成相似矩阵;
展示模块,用于将统计的相关检索信息进行有序展示。
本发明以精心构造的案件特征树为基础,大幅提高检索准确率和覆盖率;以检索信息为纲领,自由组合过滤和查询条件;通过构造案件相似矩阵,实现基于案件的连续检索;对检索结果进行统计分析,直观展示相关信息。
附图说明
图1为本发明提出一种相似案件检索方法及装置的流程示意图。
图中:S10裁判文书、S20特征树、S30权重树、S40检索、S50相似矩阵、S60相似案件。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
本发明提出的一种相似案件检索方法及装置,包括以下步骤:
S1:组织裁判文书S10:将裁判文书S10按照案由分层分类组织;
S2:构造案件特征树S20:对于指定案由,筛选共有特征和私有特征,并按特征间逻辑关系,组织称树形结构,每个案由对应一个特征树S20,其结构随选取特征的变动而调整,待特征树S20结构稳定,从裁判文书S10中抽取对应特征信息,组成特征树S20集合;
S3:训练案件特征权重树S30:根据案件特征树S20数据训练生成特征权重树S30;
S4:输入检索S40信息:用户输入检索S40条件,构造案件相似矩阵S50;
S5:计算案件相似矩阵S50:根据过滤条件从特征树S20集合中筛选有效特征树S20,根据查询条件,利用权重树S30,计算有效特征树S20集合中两两相似度,组成相似矩阵;
S6:展示检索S40结果:通过既定阈值,从案件相似矩阵S50中获取相似案件S60,对相关信息进行统计,并进行可视化展示。
本发明中,所述案件特征树S20与所在案由相对应,并按案由层级关系组织;所述抽取的方式为模式匹配和语义分析;所述特征权重树S30采用决策树方法,针对不同目标多次训练计算综合权重,且树中父节点权重为子节点权重和;所述检索S40信息包括过滤条件和查询条件;所述相似度的计算方法采用加权曼哈顿距离,并对结果进行归一化。
本发明中,所述的案件特征树S20包括公有特征和私有特征,其中公有特征为案件一般属性,例如案件时间、地区与案件实体信息等;私有特征为案件特殊属性,例如离婚纠纷案中离婚原因、子女信息、共同财产等。
本发明中,所述的过滤条件用于限定案件时间、地区等,不参与案件相似度计算;查询条件用于指定检索S40维度,构成案件相似度计算维度。
本发明中,一种相似案件检索方法及装置,还包括:
录入模块,用于在信息数据库中录入案由详细信息;
分类模块,用于将数据库中的信息按照特征进行逐层、逐条分类,归档;
检索模块,用于输入检索信息,并对检索信息进行拆分,将拆分后的检索信息分别与信息数据库中的信息进行比对、组合,排列成相似矩阵;
展示模块,用于将统计的相关检索信息进行有序展示。
本发明以精心构造的案件特征树S20为基础,大幅提高检索S40准确率和覆盖率;以检索S40信息为纲领,自由组合过滤和查询条件;通过构造案件相似矩阵S50,实现基于案件的连续检索S40;对检索S40结果进行统计分析,直观展示相关信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种相似案件检索方法,其特征在于,包括以下步骤:
S1:组织裁判文书:将裁判文书按照案由分层分类组织;
S2:构造案件特征树:对于指定案由,筛选共有特征和私有特征,并按特征间逻辑关系,组织称树形结构,每个案由对应一个特征树,其结构随选取特征的变动而调整,待特征树结构稳定,从裁判文书中抽取对应特征信息,组成特征树集合;
S3:训练案件特征权重树:根据案件特征树数据训练生成特征权重树;
S4:输入检索信息:用户输入检索条件,构造案件相似矩阵;
S5:计算案件相似矩阵:根据过滤条件从特征树集合中筛选有效特征树,根据查询条件,利用权重树,计算有效特征树集合中两两相似度,组成相似矩阵;
S6:展示检索结果:通过既定阈值,从案件相似矩阵中获取相似案件,对相关信息进行统计,并进行可视化展示。
2.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述案件特征树与所在案由相对应,并按案由层级关系组织。
3.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述抽取的方式为模式匹配和语义分析。
4.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述特征权重树采用决策树方法,针对不同目标多次训练计算综合权重,且树中父节点权重为子节点权重和。
5.根据权利要求2所述的一种相似案件检索方法,其特征在于,所述检索信息包括过滤条件和查询条件。
6.根据权利要求1所述的一种相似案件检索方法,其特征在于,所述相似度的计算方法采用加权曼哈顿距离,并对结果进行归一化。
7.一种相似案件检索装置,其特征在于,包括:
录入模块,用于在信息数据库中录入案由详细信息;
分类模块,用于将数据库中的信息按照特征进行逐层、逐条分类,归档;
检索模块,用于输入检索信息,并对检索信息进行拆分,将拆分后的检索信息分别与信息数据库中的信息进行比对、组合,排列成相似矩阵;
展示模块,用于将统计的相关检索信息进行有序展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610501141.0A CN106126695A (zh) | 2016-06-30 | 2016-06-30 | 一种相似案件检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610501141.0A CN106126695A (zh) | 2016-06-30 | 2016-06-30 | 一种相似案件检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126695A true CN106126695A (zh) | 2016-11-16 |
Family
ID=57285058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610501141.0A Pending CN106126695A (zh) | 2016-06-30 | 2016-06-30 | 一种相似案件检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126695A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649849A (zh) * | 2016-12-30 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 文本信息库建立方法和装置、以及搜索方法、装置和系统 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN107133276A (zh) * | 2017-04-12 | 2017-09-05 | 安徽富驰信息技术有限公司 | 一种司法类案检索系统及其检索方法 |
CN108280149A (zh) * | 2018-01-04 | 2018-07-13 | 东南大学 | 一种基于多维度分类标签的医患纠纷类案件推荐方法 |
CN109739888A (zh) * | 2018-12-25 | 2019-05-10 | 北京市律典通科技有限公司 | 同案同判方法和系统 |
CN109947897A (zh) * | 2019-03-15 | 2019-06-28 | 南京邮电大学 | 司法案件事件树构建系统和方法 |
CN109949185A (zh) * | 2019-03-15 | 2019-06-28 | 南京邮电大学 | 基于事件树分析的司法案件判别系统和方法 |
CN110019655A (zh) * | 2017-07-21 | 2019-07-16 | 北京国双科技有限公司 | 先例案件获取方法及装置 |
CN110309168A (zh) * | 2018-03-09 | 2019-10-08 | 北京国双科技有限公司 | 一种裁判文书搜索方法及装置 |
CN110309256A (zh) * | 2018-03-09 | 2019-10-08 | 北京国双科技有限公司 | 一种文本中事件数据的获取方法及装置 |
CN111309900A (zh) * | 2020-01-17 | 2020-06-19 | 中国科学技术大学 | 一种法律类案相似度判别及推送方法 |
CN111400445A (zh) * | 2020-03-10 | 2020-07-10 | 中国人民大学 | 一种基于相似文本的案件繁简分流方法 |
CN116825304A (zh) * | 2023-06-25 | 2023-09-29 | 湖南大学 | 基于深度互联的在线医疗方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379695A1 (en) * | 2013-06-19 | 2014-12-25 | Research In Motion Limited | Searching data using pre-prepared search data |
CN105447198A (zh) * | 2015-12-30 | 2016-03-30 | 深圳市瑞铭无限科技有限公司 | 页面脚本便捷导入的方法及装置 |
-
2016
- 2016-06-30 CN CN201610501141.0A patent/CN106126695A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379695A1 (en) * | 2013-06-19 | 2014-12-25 | Research In Motion Limited | Searching data using pre-prepared search data |
CN105447198A (zh) * | 2015-12-30 | 2016-03-30 | 深圳市瑞铭无限科技有限公司 | 页面脚本便捷导入的方法及装置 |
Non-Patent Citations (2)
Title |
---|
曹灿 等: "基于权重树的领域本体片段相似度算法", 《计算机工程与设计》 * |
程日能: "数据挖掘技术在警务综合信息系统的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649849A (zh) * | 2016-12-30 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 文本信息库建立方法和装置、以及搜索方法、装置和系统 |
CN107133276A (zh) * | 2017-04-12 | 2017-09-05 | 安徽富驰信息技术有限公司 | 一种司法类案检索系统及其检索方法 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN110019655A (zh) * | 2017-07-21 | 2019-07-16 | 北京国双科技有限公司 | 先例案件获取方法及装置 |
CN108280149A (zh) * | 2018-01-04 | 2018-07-13 | 东南大学 | 一种基于多维度分类标签的医患纠纷类案件推荐方法 |
CN110309256A (zh) * | 2018-03-09 | 2019-10-08 | 北京国双科技有限公司 | 一种文本中事件数据的获取方法及装置 |
CN110309168A (zh) * | 2018-03-09 | 2019-10-08 | 北京国双科技有限公司 | 一种裁判文书搜索方法及装置 |
CN109739888A (zh) * | 2018-12-25 | 2019-05-10 | 北京市律典通科技有限公司 | 同案同判方法和系统 |
CN109949185A (zh) * | 2019-03-15 | 2019-06-28 | 南京邮电大学 | 基于事件树分析的司法案件判别系统和方法 |
CN109947897A (zh) * | 2019-03-15 | 2019-06-28 | 南京邮电大学 | 司法案件事件树构建系统和方法 |
CN111309900A (zh) * | 2020-01-17 | 2020-06-19 | 中国科学技术大学 | 一种法律类案相似度判别及推送方法 |
CN111309900B (zh) * | 2020-01-17 | 2022-09-06 | 中国科学技术大学 | 一种法律类案相似度判别及推送方法 |
CN111400445A (zh) * | 2020-03-10 | 2020-07-10 | 中国人民大学 | 一种基于相似文本的案件繁简分流方法 |
CN111400445B (zh) * | 2020-03-10 | 2023-09-19 | 中国人民大学 | 一种基于相似文本的案件繁简分流方法 |
CN116825304A (zh) * | 2023-06-25 | 2023-09-29 | 湖南大学 | 基于深度互联的在线医疗方法与系统 |
CN116825304B (zh) * | 2023-06-25 | 2024-02-23 | 湖南大学 | 基于深度互联的在线医疗方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126695A (zh) | 一种相似案件检索方法及装置 | |
US9348934B2 (en) | Systems and methods for facilitating open source intelligence gathering | |
CN103218719B (zh) | 一种电子商务网站导航方法及系统 | |
CN104063523B (zh) | 一种电子商务搜索评分与排名的方法及系统 | |
CN105893551B (zh) | 数据的处理方法及装置、知识图谱 | |
EP2560111A2 (en) | Systems and methods for facilitating the gathering of open source intelligence | |
CN102841946B (zh) | 商品数据检索排序及商品推荐方法和系统 | |
CN105930470A (zh) | 一种基于特征权重分析技术的文件检索方法 | |
CN109145097A (zh) | 一种基于信息提取的裁判文书分类方法 | |
CN106127546A (zh) | 一种基于智慧社区大数据的商品推荐方法 | |
CN105843875A (zh) | 一种面向智能机器人的问答数据处理方法及装置 | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN106598862A (zh) | 一种基于sql语义可扩展的性能诊断调优方法 | |
CN107885857B (zh) | 一种搜索结果页用户行为模式挖掘方法、装置及系统 | |
CN105095436B (zh) | 数据源数据自动建模方法 | |
McClure et al. | Contextual determinants of childhood injury: a systematic review of studies with multilevel analytic methods | |
CN108268886A (zh) | 用于识别外挂操作的方法及系统 | |
CN103744887A (zh) | 一种用于人物搜索的方法、装置和计算机设备 | |
CN105975477A (zh) | 一种基于网络自动构建地名数据集的方法 | |
CN102937985B (zh) | 一种基于用户心智模型的网站分类优化分析方法 | |
KR101655948B1 (ko) | 관계 써클 프로세싱 방법 및 시스템, 그리고 컴퓨터 저장 매체 | |
CN108009215A (zh) | 一种搜索结果页用户行为模式测评方法、装置及系统 | |
CN109325814A (zh) | 一种用于发现可疑交易网络的方法 | |
CN104462552B (zh) | 问答页面核心词提取方法和装置 | |
CN107609203A (zh) | 一种搜索引擎优化效果量化评估的数据分析系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161116 |
|
WD01 | Invention patent application deemed withdrawn after publication |