CN113177106A - 一种基于要素提取的相似判决书检索方法 - Google Patents

一种基于要素提取的相似判决书检索方法 Download PDF

Info

Publication number
CN113177106A
CN113177106A CN202110548072.XA CN202110548072A CN113177106A CN 113177106 A CN113177106 A CN 113177106A CN 202110548072 A CN202110548072 A CN 202110548072A CN 113177106 A CN113177106 A CN 113177106A
Authority
CN
China
Prior art keywords
judgment
decision
criminal
book
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110548072.XA
Other languages
English (en)
Other versions
CN113177106B (zh
Inventor
姜森
谢绍韫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Black Cloud Intelligent Technology Co ltd
Original Assignee
Suzhou Black Cloud Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Black Cloud Intelligent Technology Co ltd filed Critical Suzhou Black Cloud Intelligent Technology Co ltd
Priority to CN202110548072.XA priority Critical patent/CN113177106B/zh
Publication of CN113177106A publication Critical patent/CN113177106A/zh
Application granted granted Critical
Publication of CN113177106B publication Critical patent/CN113177106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于要素提取的相似判决书检索方法,属于人工智能领域。该方法包括以下步骤:获取判决文书,按照罪名进行分类存储,形成基础案例库;法律专家进行评估每种罪名的判决书可能涉及到的案件要素,并分别制定要素提取算法,以正则表达式为主进行提取;基于不同的案件要素,得到不同的关键词列表;构建筛选模块;系统根据用户输入的要素信息进行检索并输出判决书要素列表展示给用户;用户根据自身需要,对检索出的判决书列表进行排序;用户点击需要的判决书要素行,系统将完整的判决书信息展示出来,供用户在线查看和下载。提高法律工作者对判决书的检索效率,为法官提供判决依据。

Description

一种基于要素提取的相似判决书检索方法
技术领域
本发明属于人工智能领域,涉及一种基于要素提取的相似判决书检索方法。
背景技术
在法院案例检索中,“类案不同判”现象近年来受到社会关注,其背后是法律适用标准不统一。为推进“类案同判”,构筑司法公平正义,找到与当前案例相似的判决书,规范判决过程,提高判决依据。
现有的案例检索系统以及现有的判决书数据库,采用的方法主要是,使用案件的关键词和关键词之间的叠加、求交集等,在法律文本中进行检索,或者根据案件中的关键词进行相似度对比,找到相似度最高的一篇案件。当没有准确的输入关键词时,无法得到需要的数据。在多人案件中,无法准确的检索出某一个被告人的犯罪情况。通过相似度对比时,无法指定某一要素查找,也无法根据要素范围查看判决书。
发明内容
有鉴于此,本发明的目的在于提供一种基于要素提取的相似判决书检索方法。本方法对于用户输入需要的判决书类型以及判决书的关键词,或者一些犯罪量刑关键词,在裁判文书库中进行检索,将检索到的类似的案例以列表的形式展示给用户,并且支持多维度的排序操作,例如日期排序、判决时长排序、酒精浓度排序等,根据需要的要素范围对判决书进行搜索。
为达到上述目的,本发明提供如下技术方案:
一种基于要素提取的相似判决书检索方法,该方法包括以下步骤:
S1:获取判决文书,按照罪名进行分类存储,形成基础案例库;
S2:法律专家进行评估每种罪名的判决书可能涉及到的案件要素,按照不同罪名需要提取的不同要素确定通用规则,通过正则表达式进行提取,正则表达式为用来检索和替换符合某个模式和规则的文本;
S3:基于不同的案件要素,得到不同的关键词列表,并且按照关键词出现频率排序,供用户选择;
S4:构建筛选模块,包括判决法院所属省份名、市名、区县名、判决书中的判决时间范围和被告人的判刑时长范围;
S5:根据用户输入的要素信息进行检索并输出判决书要素列表展示给用户;
S6:用户根据自身需要,对检索出的判决书列表进行排序;
S7:用户点击需要的判决书要素行,将完整的判决书信息展示出来,供用户在线查看和下载。
可选的,所述S2中,对每种案件的要素提取不断进行优化,针对不同地区法院的判决书格式进行调整和丰富判决书作案手段、作案类型和缓刑方式的词库,得到要素列表,将要素列表中可以数字化的均数字化处理,将所有要素分类存储至数据库,得到判决书要素库。
可选的,所述判决书中的判决时间范围包括判决最早时间和判决最晚时间,被告人的判刑时长范围包括少刑期和最多刑期。
可选的,所述S6中,对检索出的判决书列表进行排序包括对日期进行排序、对判决时长进行排序、对酒精浓度进行排序。
可选的,所述判决文书是基于危险驾驶罪判决书库建立的:通过中国裁判文书网或其他司法网获取危险驾驶罪的判决书,并按省市分类存储。
可选的,所述案件要素中:针对危险驾驶罪的判决书,从判决书中提取省份、城市、地区、法院名、酒精浓度、减刑情况、判刑类型、判刑时长、缓刑情况、罚金、审判长、判决时间和文件名。
可选的,所述判决书要素列表中,需要去除其中的空格,根据正排策略得到以下信息,其中,正排策略是按照文章段落正常的排列顺序的规则:
第一个含有“人民法院”的段落视为法院名;
第一个含有“市”、“县”、“区”的段落视为判决地点,并且按照市、自治区/县的前后顺序,找到市级区域名和县级区域名;
根据判决书最后的“向某某市中级人民法院提起上诉”确定上一条提取的市是否为真正的市级市;
第一个含有酒精浓度的数字串视为该判决书犯罪人的法律酒精浓度,包括以下情况:
'mg/100mL'、'mg/L00mL'、 '毫克/100毫升'、 'mg/100mL'、 'mg/100mL'、 'mg/100mL'、 'mg/100mL'、 'mg/100mL'、'mg/100mL'、 'mg/100mL'和'毫克/100毫升';
根据倒排策略得到以下信息,其中,倒排策略是按照文章段落从后往前的排列顺序的规则:
含有“审判长”字符的视为审判长所在段落,然后提取审判长,如果没有,则通过段落是否含有“审判员”来判断;
第一个含有“本院认为”或“判决如下”的段落视为法院判决段落,对法院判决段落按照句号分割,然后根据“从轻处罚”、“从宽处罚”、“减轻处罚”和“悔罪表现”的字符判断是否包含以下关键词的缓刑情况;
根据“犯某某罪,判处”字符定位到判刑情况,是否包含关键词判刑类型,并且分别提取关键词相关联的其他信息。
可选的,所述用户能够选择省份、城市、县区、罪名、判决时间范围、审判长、判刑类型、刑期范围和酒精浓度范围,其中省份为必选,其他为非必选,根据用户填写的内容去数据库查询对应的判决书,以判决书要素列表的形式展示给用户,用户还能够对查询出来的判决书要素列表进行排序,包括酒精浓度排序、刑期排序和判决时间排序。
本发明的有益效果在于:提高法律工作者对判决书的检索效率,为法官提供判决依据,为律师提供判决书依据以便对案情的走向有个大致的预判,推进“类案同判”,构筑司法公平正义。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,一种基于要素提取的相似判决书检索方法,包括以下步骤:建立判决书库;建立判决书要素库;制定搜索关键词;检索并输出检索结果。
下面针对具体危险驾驶罪的实施例对本方法进行进一步的说明。
建立危险驾驶罪判决书库:通过中国裁判文书网或其他司法网获取危险驾驶罪的判决书,按省市分类存储。
建立判决书要素库:针对危险驾驶罪的判决书,按照特定的算法逻辑从判决书中提取省份、城市、地区、法院名、酒精浓度、减刑情况、判刑类型、判刑时长、缓刑情况、罚金、审判长、判决时间、文件名。不断调优,使提取的要素尽量准确,然后将要素存入数据库。
整篇文章按段落分割得到一个大列表,并且去除其中的空格,根据正排策略:
第一个含有“人民法院”的段落视为法院名;
第一个含有“市”、“县”、“区”的段落视为判决地点,并且按照市、自治区>县、区的前后顺序,找到市级区域名和县级区域名;
其次根据判决书最后的“向某某市中级人民法院提起上诉”确定上一条提取的市是否为真正的市级市;
第一个含有酒精浓度的数字串视为该判决书犯罪人的法律酒精浓度,主要有以下几种情况:'mg/100mL', 'mg/L00mL', '毫克/100毫升', 'mg/100mL', 'mg/100mL', 'mg/100mL', 'mg/100mL', 'mg/100mL','mg/100mL', 'mg/100mL', '毫克/100毫升';
根据倒排策略得到以下信息:
含有“审判长”相关字符的视为审判长所在段落,然后提取审判长,如果没有,则通过段落是否含有“审判员”来判断;
第一个含有“本院认为”或“判决如下”的段落视为法院判决段落,对法院判决段落按照句号分割,然后根据“从轻处罚”、“从宽处罚”、“减轻处罚”、“悔罪表现”等字符判断是否包含以下关键词的缓刑情况;
根据“犯某某罪,判处”字符定位到判刑情况,是否包含如表1所示的关键词判刑类型,并且分别提取关键词相关联的其他信息。
表1 判刑类型关键词
缓刑情况 判刑类型
认罪 拘役
悔罪 有期
赔偿 无期
自首 死刑
坦白 管制
如实供述 无罪
精神分裂症
从犯
立功
初犯
偶犯
用户可选择省份、城市、县区、罪名、判决时间范围、审判长、判刑类型、刑期范围、酒精浓度范围,其中省份为必选,其他为非必选,系统根据用户填写的内容去数据库查询对应的判决书,以判决书要素列表的形式展示给用户,用户还可以对查询出来的判决书要素列表进行排序,包括酒精浓度排序、刑期排序、判决时间排序。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于要素提取的相似判决书检索方法,其特征在于:该方法包括以下步骤:
S1:获取判决文书,按照罪名进行分类存储,形成基础案例库;
S2:法律专家进行评估每种罪名的判决书可能涉及到的案件要素,按照不同罪名需要提取的不同要素确定通用规则,通过正则表达式进行提取,正则表达式为用来检索和替换符合某个模式和规则的文本;
S3:基于不同的案件要素,得到不同的关键词列表,并且按照关键词出现频率排序,供用户选择;
S4:构建筛选模块,包括判决法院所属省份名、市名、区县名、判决书中的判决时间范围和被告人的判刑时长范围;
S5:根据用户输入的要素信息进行检索并输出判决书要素列表展示给用户;
S6:用户根据自身需要,对检索出的判决书列表进行排序;
S7:用户点击需要的判决书要素行,将完整的判决书信息展示出来,供用户在线查看和下载;
所述S2中,对每种案件的要素提取不断进行优化,针对不同地区法院的判决书格式进行调整和丰富判决书作案手段、作案类型和缓刑方式的词库,得到要素列表,将要素列表中能够数字化的均数字化处理,将所有要素分类存储至数据库,得到判决书要素库;
其中,数字化处理包括获得酒精浓度的数值、毒品重量的数值和盗窃金额的数值;
所述判决书中的判决时间范围包括判决最早时间和判决最晚时间,被告人的判刑时长范围包括少刑期和最多刑期;
所述S6中,对检索出的判决书列表进行排序包括对日期进行排序、对判决时长进行排序和对酒精浓度进行排序;
所述判决文书是基于危险驾驶罪判决书库建立的:通过中国裁判文书网获取危险驾驶罪的判决书,并按省市分类存储。
2.根据权利要求1所述的一种基于要素提取的相似判决书检索方法,其特征在于:所述案件要素中:针对危险驾驶罪的判决书,从判决书中提取省份、城市、地区、法院名、酒精浓度、减刑情况、判刑类型、判刑时长、缓刑情况、罚金、审判长、判决时间和文件名。
3.根据权利要求1所述的一种基于要素提取的相似判决书检索方法,其特征在于:所述判决书要素列表中,去除其中的空格,根据正排策略得到以下信息,其中,正排策略是按照文章段落正常的排列顺序的规则:
第一个含有“人民法院”的段落视为法院名;
第一个含有“市”、“县”、“区”的段落视为判决地点,并且按照市、自治区/县的前后顺序,找到市级区域名和县级区域名;
根据判决书最后的“向某某市中级人民法院提起上诉”确定上一条提取的市是否为真正的市级市;
第一个含有酒精浓度的数字串视为该判决书犯罪人的法律酒精浓度,包括以下情况:
'mg/100mL'、'mg/L00mL'、 '毫克/100毫升'、 'mg/100mL'、 'mg/100mL'、 'mg/100mL'、 'mg/100mL'、 'mg/100mL'、'mg/100mL'、 'mg/100mL'和'毫克/100毫升';
根据倒排策略得到以下信息,其中,倒排策略是按照文章段落从后往前的排列顺序的规则:
含有“审判长”字符的视为审判长所在段落,然后提取审判长,如果没有,则通过段落是否含有“审判员”来判断;
第一个含有“本院认为”或“判决如下”的段落视为法院判决段落,对法院判决段落按照句号分割,然后根据“从轻处罚”、“从宽处罚”、“减轻处罚”和“悔罪表现”的字符判断是否包含以下关键词的缓刑情况;
根据“犯某某罪,判处”字符定位到判刑情况,是否包含关键词判刑类型,并且分别提取关键词相关联的其他信息。
4.根据权利要求3所述的一种基于要素提取的相似判决书检索方法,其特征在于:所述用户根据需要选择省份、城市、县区、罪名、判决时间范围、审判长、判刑类型、刑期范围和酒精浓度范围,其中省份为必选,其他为非必选,根据用户填写的内容去数据库查询对应的判决书,以判决书要素列表的形式展示给用户,用户对查询出来的判决书要素列表进行排序,包括酒精浓度排序、刑期排序和判决时间排序。
CN202110548072.XA 2021-05-19 2021-05-19 一种基于要素提取的相似判决书检索方法 Active CN113177106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548072.XA CN113177106B (zh) 2021-05-19 2021-05-19 一种基于要素提取的相似判决书检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548072.XA CN113177106B (zh) 2021-05-19 2021-05-19 一种基于要素提取的相似判决书检索方法

Publications (2)

Publication Number Publication Date
CN113177106A true CN113177106A (zh) 2021-07-27
CN113177106B CN113177106B (zh) 2024-04-12

Family

ID=76929373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548072.XA Active CN113177106B (zh) 2021-05-19 2021-05-19 一种基于要素提取的相似判决书检索方法

Country Status (1)

Country Link
CN (1) CN113177106B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547245A (zh) * 2022-02-21 2022-05-27 山东大学 一种基于法律要素的类案检索方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335456A (zh) * 2015-09-23 2016-02-17 昆明理工大学 一种用于环境保护法规检索的关联优先排序方法
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108595547A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于语义抽取的相似案件检索方法
CN110717041A (zh) * 2019-09-19 2020-01-21 太极计算机股份有限公司 一种案件检索方法及系统
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN111026836A (zh) * 2018-09-21 2020-04-17 北京国双科技有限公司 一种法律法规检索方法和装置
CN111597803A (zh) * 2020-05-14 2020-08-28 鼎富智能科技有限公司 一种要素提取方法、装置、电子设备及存储介质
CN111625626A (zh) * 2020-07-30 2020-09-04 杭州识度科技有限公司 一种基于多维度语义联合建模的多用户案例检索系统
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335456A (zh) * 2015-09-23 2016-02-17 昆明理工大学 一种用于环境保护法规检索的关联优先排序方法
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108595547A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于语义抽取的相似案件检索方法
CN111026836A (zh) * 2018-09-21 2020-04-17 北京国双科技有限公司 一种法律法规检索方法和装置
CN110717041A (zh) * 2019-09-19 2020-01-21 太极计算机股份有限公司 一种案件检索方法及系统
CN110928994A (zh) * 2019-11-28 2020-03-27 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN111597803A (zh) * 2020-05-14 2020-08-28 鼎富智能科技有限公司 一种要素提取方法、装置、电子设备及存储介质
CN111625626A (zh) * 2020-07-30 2020-09-04 杭州识度科技有限公司 一种基于多维度语义联合建模的多用户案例检索系统
CN112784578A (zh) * 2021-03-16 2021-05-11 北京华宇元典信息服务有限公司 法律要素提取方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PETER JACKSON等: "Information extraction from case law and retrieval of prior cases", 《ARTIFICIAL INTELLIGENCE》, vol. 150, no. 1, 30 November 2003 (2003-11-30), pages 1 - 52 *
朱婷: "法律裁判文书语义检索与分类画像研究", 《中国优秀硕士学位论文全文数据库 (社会科学Ⅰ辑)》, vol. 2020, no. 09, 15 September 2020 (2020-09-15), pages 120 - 49 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547245A (zh) * 2022-02-21 2022-05-27 山东大学 一种基于法律要素的类案检索方法及系统

Also Published As

Publication number Publication date
CN113177106B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
US8306987B2 (en) System and method for matching search requests and relevant data
CN103246670B (zh) 微博排序、搜索、展示方法和系统
KR100816934B1 (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
CN107315738B (zh) 一种文本信息的创新度评估方法
CN107818138A (zh) 一种案件法律条例推荐方法及系统
CN107451710A (zh) 一种信息风险等级五级分类方法及系统
CN110968800B (zh) 一种信息推荐方法、装置、电子设备及可读存储介质
CN103186550A (zh) 一种视频的相关视频列表的生成方法及系统
CN101206121B (zh) 地名检索装置
CN104809142A (zh) 商标查询系统和方法
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
US20150193540A1 (en) Content ranking based on user features in content
CN105930546B (zh) 文件关联显示方法
CN111309936A (zh) 一种电影用户画像的构建方法
KR101377114B1 (ko) 뉴스 요약문 생성 시스템 및 방법
CN106933883B (zh) 基于检索日志的兴趣点常用检索词分类方法、装置
CN106354871A (zh) 一种企业名称的相似性检索方法
CN101169327B (zh) 信息检索装置
WO2016057000A1 (en) Customs tariff code classification
CN109446399A (zh) 一种影视实体搜索方法
CN107423374B (zh) 基于分类标注的法律推荐方法及系统
CN113626700A (zh) 律师推荐方法和系统及设备
CN113177106A (zh) 一种基于要素提取的相似判决书检索方法
CN110781300B (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant