CN111598742A - 一种从判决书获取当事人量刑要素的方法及装置 - Google Patents
一种从判决书获取当事人量刑要素的方法及装置 Download PDFInfo
- Publication number
- CN111598742A CN111598742A CN202010409393.7A CN202010409393A CN111598742A CN 111598742 A CN111598742 A CN 111598742A CN 202010409393 A CN202010409393 A CN 202010409393A CN 111598742 A CN111598742 A CN 111598742A
- Authority
- CN
- China
- Prior art keywords
- sentencing
- criminal
- episode
- information
- adopted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000014509 gene expression Effects 0.000 claims description 74
- 238000000605 extraction Methods 0.000 claims description 50
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 230000010365 information processing Effects 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 7
- 238000003672 processing method Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 10
- 238000012552 review Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 6
- 229910052742 iron Inorganic materials 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000002147 killing effect Effects 0.000 description 4
- 241000219000 Populus Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 208000014674 injury Diseases 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 241000720945 Hosta Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种从判决书获取当事人量刑要素的方法及装置,所述方法包括:确认输入的文书为刑事案件判决书;基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;从所述量刑采纳信息中抽取量刑标签,其中,所述量刑标签与量刑要素对应;建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。通过本申请实施例的处理方法,可以快速准确的从刑事案件判决书中自动抽取出所有被告人的量刑要素,便于刑事案件判决书的量刑采纳信息的结构化处理。
Description
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种从判决书获取当事人量刑要素的方法及装置。
背景技术
文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术,自然语言处理技术是文本挖掘的基础技术。
由于裁判文书本身结构差异性很大,且裁判文本长度从几百字到上万字不等,因此针对通篇裁判文书通过文本挖掘技术抽取想要的信息非常困难。由此可知,如何从这些裁判文书中获取结构化的信息成了亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种从判决书获取当事人量刑要素的方法,通过本申请实施例提供的量刑要素提取方法可以准确快速的从冗长的刑事案件判决书中获取针对一个或者多个被告人的量刑要素。
第一方面,本申请实施例提供一种从判决书获取当事人量刑要素的方法,所述方法包括:确认输入的文书为刑事案件判决书;基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;从所述量刑采纳信息中抽取量刑标签,其中,所述量刑标签与量刑要素对应;建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。
通过本申请实施例的处理方法,可以快速准确的从刑事案件判决书中自动抽取出被告人的量刑要素,便于刑事案件判决书的量刑采纳信息的结构化处理。
在一些实施例中,所述基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息之前,所述方法还包括:预处理所述量刑情节认定文本块,以对所述量刑情节认定文本块中的采纳的量刑情节和不予采纳的量刑情节进行断句;所述基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息,包括:从预处理后的量刑情节认定文本块中获取量刑采纳信息。
本申请实施例通过对量刑情节认定文本块进行预处理操作,一方面可以更好的排除不予采纳的量刑情节,另一方面,也可以提升量刑标签与被告人的对应关系的准确性。
在一些实施例中,所述预处理所述量刑情节认定文本块,包括:根据不予采纳表达式定位所述不予采纳的量刑情节在所述量刑情节认定文本块中的第一位置;根据采纳表达式定位所述采纳的量刑情节在所述量刑情节认定文本块中的第二位置;识别所述第一位置之后和所述第二位置之后的第一个断句符号并将所述断句符号替换为整句符号;所述从预处理后的量刑情节认定文本块中获取量刑采纳信息,包括:对采用所述整句符号替换后的所述量刑情节认定文本块进行分句操作;根据所述不予采纳表达式识别并排除包含所述不予采纳的量刑情节的句子,得到量刑情节采纳句子;所述从所述量刑采纳信息中抽取量刑标签,包括:从所述量刑情节采纳句子中抽取所述量刑标签。
本申请实施例通过对不予采纳的量刑情节和采纳的量刑情节的断句处理操作可以进一步提升抽取的量刑标签的准确性,提高量刑标签与被告人对应的准确性。
在一些实施例中,所述确认输入的文书为刑事案件判决书之后,所述的方法还包括:从所述刑案件判决书中获取被告人名称列表;所述从所述量刑采纳信息中抽取量刑标签之前,所述方法还包括:根据所述被告人名称列表对所述量刑采纳信息中包括的指代形式的表述方式进行指代消解。
本申请实施例通过从判决文书中抽取被告人列表可以提升被告人与量刑情节对应关系的准确性。
在一些实施例中,所述从所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息,包括:根据建立的不予采纳表达式从所述量刑情节认定文本块中排除量刑时不予采纳的量刑情节,得到所述量刑采纳信息。
本申请实施例通过排除不予采纳的量刑情节后,再提取量刑标签提升量刑采纳信息的准确性。
在一些实施例中,所述从所述量刑采纳信息中抽取量刑标签,包括:根据为所述量刑要素建立的规则表达式从所述量刑采纳信息中抽取所述量刑标签。
本申请实施例通过建立量刑要素表达式来提升抽取的量刑标签的准备的完整性和准确性。
第二方面,本申请实施例提供一种从判决书获取当事人量刑要素的装置,所述装置包括:确认模块,被配置为确认输入的文书为刑事案件判决书;量刑采纳信息抽取模块,被配置为基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;量刑标签抽取模块,被配置为从所述量刑采纳信息中抽取量刑标签;映射模块,被配置为建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。
在一些实施例中,所述装置还包括:预处理模块,被配置为预处理所述量刑情节认定文本块,以对所述量刑情节认定文本块中的采纳的量刑情节和不予采纳的量刑情节进行断句。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现上述第一方面所述的方法。
第四方面,本申请实施例提供一种信息处理设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现上述第一方面所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的结构化的量刑信息抽取模型示意图;
图2为本申请实施例提供的从判决书获取当事人量刑要素的方法的流程图;
图3为本申请实施例提供的从刑事案件一审判决书中获取当事人量刑要素的方法的流程图;
图4是本申请实施例提供的从判决书获取当事人量刑要素的装置的组成框图;
图5是本申请实施例提供的信息处理装置的组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了从冗长的刑事案件判决书(例如,刑事案件一审或者二审判决书)中准确快速的抽取量刑情节要素,本申请实施例提供如下技术方案。
下面结合表1和图1简要阐述本申请实施例提供的刑事一审判决书的量刑结构抽取模型及其构建过程。
首先,通过学习刑事一审判决书的量刑情节认定文本块(例如,刑事案件判决书中的“本院认为”或者“法院认为”段落)内容,挖掘并设计提取的量刑要素的体系结构,挖掘设计的被告人和量刑要素的对应布局设计如表1所示。
表1量刑结果提取量刑要素体系结构
其次,请参看图1,图1是根据表1的体系结构示例性构建的结构化的信息抽取模型。具体地,通过学习表1列出的待提取量刑要素信息在刑事一审判决书的本院认为段落内容中的表现特征,构建如图1所述的结构化信息抽取模型。
图1的结构化信息抽取模型包括量刑认定结果的多个节点和从属于多个节点的子节点以及为各个节点(如果有子节点的是为各个子节点)构建抽取表达式。具体地,量刑认定结果的多个节点(或者称为量刑标签)可以包括第一节点:未成年人犯罪,第二节点:主犯、从犯、胁从犯,第三节点:自首,第四节点:一般立功和重大立功,第五节点:坦白,第六节点:自愿认罪,第七节点:积极赔偿,第八节点:取得被害人谅解,第九节点:刑事和解,第十节点:累犯,第十一节点:有前科劣迹,第十二节点:被害人为未成年人老人残疾人,第十三节点:退赃退赔,第十四节点:教唆不满18周岁的人犯罪,第十五节点:犯罪预备,第十六节点:犯罪未遂、犯罪中止,第十七节点:尚未完全丧失辨认或者控制,第十八节点:又聋又哑的人或者盲人犯罪,第十九节点:防卫过当,第二十节点:防卫过当否定,第二十一节点:老年人犯罪,第二十二节点:犯罪数额,第二十三节点:犯罪次数,第二十四节点:犯罪后果,第二十五节点:指代,第二十六节点:不予采纳和第二十七节点:予以采纳;其中,第二节点的主犯、从犯和胁从犯又包括第一子节点从犯、第二子节点主犯、第三子节点胁从犯,第四节点一般立功、重大立功节点又包括第一子节点一般立功和第二子节点重大立功、第十六节点犯罪未遂、犯罪中止又进一步包括第一子节点犯罪未遂和第二子节点犯罪中止,第二十二节点犯罪数额又进一步包括第一子节点数额较大、第二子节点数额巨大、第三子节点数额特别巨大,第二十四节点又进一步包括第一子节点造成财产损失和第二子节点造成他人人身伤害。
对图1的各个节点(如果有子节点的指代子节点)构建的表达式如表2所示,表2中小方框后边紧跟的内容为节点名称,节点名称之后以@开头和结尾的表达式为对应于这个节点的示例性抽取表达式。需要说明的是,表2中各节点或子节点的抽取表达式前和后的@符号的具体含义可以参考下文对不予采纳和采纳表达式中的描述,在此不做过多赘述,对于表2中未列出的节点的抽取表达式可以参考后文描述。
表2部分节点和子节点表达式示例
需要说明的是,本申请实施例构建的结构化信息抽取模型的不予采纳的量刑情节节点和采纳的量刑情节节点的表达式可以参考上文的描述。本领域技术人员可以通过学习刑事一审案件判决书或者刑事案件二审判决书的撰写规律得到提取的量刑要素的体系结构(表1仅为一审刑事要素的体系结构示例),再基于体系结构来构建相应的结构化信息抽取模型,并构建结构化抽取模型中各节点和子节点的抽取表达式,本申请实施例对此不作限定。也就是说,表1仅为量刑要素的体系结构的一个具体示例且图1和表2仅是构建的结构化信息抽取模型的一个具体示例,本领域技术人员可以根据判决书规律适应性建立结构化信息抽取模型并构建相应的抽取表达式。量刑结构抽取模型中与量刑要素(即表1第2列中出被告人名称外其余的内容)相关的图1的各节点和子节点的名称对应于下文的量刑标签。表2未示出的表达式本领域技术人员可以通过阅读大量的判决书找到其中的规律并构建相应的抽取表达式。例如,对于老年人犯罪的量刑要素构建的表达式可以包括犯罪年龄的内容(例如,七十五周岁以上),对于数额的量刑情节可以构建包括数据特别巨大的关键词,对于是否造成财产损失的量刑情节的表达式可以包括侵犯财产等的关键词,犯罪次数的表达式可以包括次数特征。
下面结合图2详细说明本申请实施例提供的从判决书获取当事人量刑要素的方法。
如图2所示,本申请实施例提供一种从判决书获取当事人量刑要素的方法100,所述方法100包括:S101,确认输入的文书为刑事案件判决书;S102,基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;S103,从所述量刑采纳信息中抽取量刑标签,其中,所述量刑标签与量刑要素对应;S104,建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。
作为一个示例,S101可以根据法院文书的头部信息来确定该文书是否属于刑事案件判决书(详细过程可以参考图4记载的内容)。例如,通过要素提取方法获取案件类型,判断案件是否为刑事案件,如果是则继续执行图2的后续步骤,否则退出。假设分析的为刑事一审判决书的量刑要素,具体地S101可以包括如下处理过程,首先,将输入的判决书自动切块,并给每个内容块标记目录标签,这些目录标签可以包括头部、当事人信息、本院认为等;其次,提取“头部”目录内容分析基础要素,假设从该要素结果集中获取了案件类型“刑事”、文书类型“判决书”、审理程序“一审”,则对输入的法院文书执行图2除S101之外的剩余步骤,完成量刑标签抽取。
为了准确的建立量刑标签与被告人的对应关系,作为一个示例,图2的S101之后,所述的方法还包括:从所述刑案件判决书中获取被告人名称列表;S103之前所述方法还可以包括:根据所述被告人名称列表对所述量刑采纳信息中包括的指代形式的表述方式进行指代消解。假设分析的为刑事一审判决书的量刑要素,具体地,首先,将判决书自动切块,并给每个内容块标记目录标签,这些目录标签可以包括头部、当事人信息本院认为;其次,从目录提取结果中获取“当事人信息”目录文本内容,从该文本内容中提取当事人人名列表以及对应的角色类型,用于后续对当事人信息进行指代消解处理,以精准识别与当事人对应的量刑认定结果。
为了从量刑情节认定文本块(例如,从刑事一审判决书切分得到的本院认为文本块)获取量刑采纳信息,作为一个示例,图2的S102可以包括:根据建立的不予采纳表达式从所述量刑情节认定文本块中排除量刑时不予采纳的量刑情节,得到所述量刑采纳信息。
为了抽取量刑要素,作为一个示例,图2的S103可以包括:根据为所述量刑要素建立的规则表达式从所述量刑采纳信息中抽取所述量刑标签。具体地,根据为图1的各节点和子节点建立的规则表达式(例如,表2列举的表达式)从量刑采纳信息中抽取量刑标签(即图1的量刑节点,其中,对于有子节点的节点量刑标签指代量刑子节点),需要说明的是本领域技术人员通过学习刑事案件判决文书中各个节点或子节点的文本的表述特征可以对应构建各个节点的表达式,本申请实施例并不限定各个节点表达式的具体表现形式。例如,对于未成年人犯罪这个节点,规则表达式可以为:
@年龄尚不满十八周岁@
@犯罪时均?不满十六周岁@
@已满十六周岁,?未满十八周岁@
@在案发时均?系未成年@。
由于判决文书标点符号存在诸多不规范的问题,为了降低不规范的断句对提取的量刑标签的准确性的影响,本申请实施例在图2所示的方法在S101和S102之间还可以包括:预处理所述量刑情节认定文本块,以对所述量刑情节认定文本块中的采纳的量刑情节和不予采纳的量刑情节进行断句;相应的S102所述基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息可以包括:从预处理后的量刑情节认定文本块中获取量刑采纳信息。作为一个示例,所述预处理所述量刑情节认定文本块可以包括:根据不予采纳表达式定位所述不予采纳的量刑情节在所述量刑情节认定文本块中的第一位置;根据采纳表达式定位所述采纳的量刑情节在所述量刑情节认定文本块中的第二位置;识别所述第一位置之后和所述第二位置之后的第一个断句符号并将所述断句符号替换为整句符号;相应的S102可以包括:对采用所述整句符号替换后的所述量刑情节认定文本块进行分句操作;根据所述不予采纳表达式识别并排除包含所述不予采纳的量刑情节的句子,得到量刑情节采纳句子;相应的S103可以包括:从所述量刑情节采纳句子中抽取所述量刑标签。
例如,本申请实施例可以实现对“本院认为”的文本预处理模块。具体地,通过学习一定规模“本院认为”中采纳与不予采纳的法院观点特征,针对性设计这两类特征信息的抽取表达式集合(即不予采纳的量刑情节表达式和采纳的量刑情节的表达式),用于自动识别并定位这两类信息在“本院认为”中的位置,根据定位的位置进行断句符号标准化预处理操作。作为一个示例,本申请实施例通过在图1的量刑情节抽取模型中构建“采纳”、“不予采纳”抽取节点,实现不同表现形式采纳、不予采纳类量刑信息的识别和抽取。利用抽取结果定位该类信息,统一将紧邻这类信息的断句符号替换为整句符号“。”,为后续分句进行精准分析提供高质量的数据基础。
作为一个示例,“采纳”抽取节点示例抽取表达式(即采纳的量刑情节对应的采纳表达式)设计如下:
示例表达式1:@应当.{2,5}处罚@
示例表达式2:@[^不]予采纳@
作为一个示例,“不予采纳”抽取节点示例表达式(即不予采纳的量刑情节对应的不予采纳表达式)设计如下:
示例表达式1:@不.{0,2}予.{0,2}认定@
示例表达式2:@不予.{0,2}采纳@
需要说明的是,上述不予采纳的量刑情节表达式和采纳的量刑情节的抽取节点抽取表达式中的前和后的“@”符号具体含义为:第一个@前面支持设定表达式集合,限定抽取信息必须在什么样内容的后面;第二个@后面支持设定表达式集合,限定抽取信息必须在什么样内容的前面,以规避语义存在歧义的问题,提升抽取结果的精确性。
下面以刑事一审判决书为例示例性阐述从判决书获取当事人量刑要素的方法。
S301,目录提取。
目录提取会将输入的判决书自动切块,得到多个文本块320。给每个内容块标记目录标签,目标标签可以包括头部330、当事人信息340、审理查明(图中未示出)、本院认为350、判决结果(图中未示出)等。
本申请实施例为了确认是否属于刑事案件判决书需要从输入的判决书中切分出头部320,为了获取被告人姓名列表需要从刑事案件判决书切分出当事人信息340文本块,为了获取量刑要素信息需要从刑事案件判决书中切分出本院认为340文本块(对应于上文的量刑情节文本块)。
S302,基于头部330所在文本块的基础要素判断输入判决书是否属于刑事案件判决书。
从目录提取得到的头部文本块中提取基础要素,其中,基础要素至少包括案件类型(例如,案件类型包括:民事、刑事或者行政)、文书类型(例如,文书类型包括判决书或者裁定书等)以及审理程序(例如,审理程序包括一审、二审或者再审等)。如果从头部文本块提取的案件类型为“刑事”、文书类型为“判决书”且审理程序为“一审”,则继续对判决书执行图3的剩余步骤,否则退出程序不执行图3剩余的步骤。
S303,筛选判决书数据,即筛选出S202判断为刑事案件判决书的法院文书。
S304,分析当事人信息提取当事人画像
基于目录提取得到的当事人信息340文本块,获取当事人画像(即获取当事人的姓名、性别、籍贯等信息)。例如,通过提取获得杨某和陈某的当事人画像,其中,杨某、性别男、籍贯山东;陈某、性别女、籍贯河北等。需要说明的是,获取当事人画像还包括获取当事人的角色信息,由于本申请实施例目的是获取量刑情节因此本申请实施例关注的是被告人的画像信息。
S305,获取被告人名称列表,具体地根据S304的当事人画像数据获取被告人名称列表。
通过一审判决书当事人画像要素提取方法中获取被告当事人名称列表以及对应角色类型。刑事案件当事人角色类型包括“公检法机关”、“被告人”、“被害人”、“代理人”。本申请实施例关注角色类型为“被告人”。
从目录提取结果中获取“当事人信息”目录文本内容,从中提取当事人人名列表以及对应的角色类型,用于后续对当事人信息进行指代消解处理,以精准识别与当事人对应的量刑认定结果。
S306,预处理本院认为文本块(即预处理刑事一审案件判决书中的量刑情节认定文本块)。
由于判决书文本经常出现标点符号使用不规范的情况,本申请实施例针对性设计实现对“本院认为”的文本预处理。具体地,通过学习一定规模“本院认为”文本块中采纳的量刑情节与不采纳的量刑情节的法院观点特征,针对性设计这两类特征信息的抽取表达式集合(即设计采纳量刑情节的采纳表达式以及设计不予采纳的量刑情节的不予采纳表达式,具体可以参考上文),根据两类表达式结合自动识别并定位这两类信息在“本院认为”中的位置(即定位采纳的量刑情节在本院认为文本块中的位置并定位不予采纳的量刑情节在本院认为文本块中的位置),根据确定的位置进行断句符号标准化预处理操作。
下面结合一个具体示例(即一段具体的量刑情节认定文本块)阐述S306。
针对某一个具体的裁判文书进行目录提取,获取目录标题为“法院认为”的段落文本内容(即获取量刑情节认定文本块)如下:“本院认为,被告人在被害人郭某昌深夜持棒球棍强行进入其家中后持铁棍打击被害人头面部等要害部位,造成被害人重度颅脑损伤而死亡,其行为已构成故意杀人罪。山东省某人民检察院指控的犯罪事实及罪名成立。在案发前后,被告人两次拨打报警电话,并向公安机关如实供述其犯罪事实,其行为构成自首,可以减轻处罚;被害人在明知对方报警后仍持械强行进入被告人家中,威胁被告人及家人生命安全,其本身过错明显,被告人在受到威胁情况下打击被害人,具有防卫情节,但超出必要限度,对其应当减轻处罚;被告人及家人能赔偿被害人亲属损失,并取得了被害人亲属的谅解,可酌情从轻处罚。关于被告人的辩护人提出,被告人系自首,其行为具有防卫情节,属于防卫过当,且赔偿被害人的损失,有悔罪表现,建议对其减轻处罚的辩护意见予以采纳。关于被告人的辩护人提出被告人的行为应定性为故意伤害致人死亡的辩护意见,本院认为,被告人持铁棍打击被害人头部,且在被害人倒地后又连击数下,具有剥夺他人生命的故意,其行为构成故意杀人罪,对辩护人的该辩护意见不予采纳。依照《中华人民共和国刑法》第二百三十二条、第六十七条第一款、第二十条第二款的规定,判决如下:”。
通过在量刑情节抽取模型中构建“采纳”、“不予采纳”抽取节点,实现不同表现形式采纳的量刑情节和不予采纳的量刑情节类信息的识别。
假设,“采纳”抽取节点示例抽取表达式设计如下:示例表达式1:@应当.{2,5}处罚@;示例表达式2:@[^不]予采纳@。
根据采纳表达式从上述“本院认为”文本块中提取的采纳的量刑情节包括“在案发前后,被告人两次拨打报警电话,并向公安机关如实供述其犯罪事实,其行为构成自首,可以减轻处罚;被害人在明知对方报警后仍持械强行进入被告人家中,威胁被告人及家人生命安全,其本身过错明显,被告人在受到威胁情况下打击被害人,具有防卫情节,但超出必要限度,对其应当减轻处罚;被告人及家人能赔偿被害人亲属损失,并取得了被害人亲属的谅解,可酌情从轻处罚。”。
假设,“不予采纳”抽取节点示例表达式设计如下:示例表达式1:@不.{0,2}予.{0,2}认定@;示例表达式2:@不予.{0,2}采纳@。
根据不予采纳表达式从上述“本院认为”文本块中提取的不予采纳的量刑情节包括“关于被告人的辩护人提出被告人的行为应定性为故意伤害致人死亡的辩护意见,本院认为,被告人持铁棍打击被害人头部,且在被害人倒地后又连击数下,具有剥夺他人生命的故意,其行为构成故意杀人罪,对辩护人的该辩护意见不予采纳。”。
利用抽取结果定位该类信息,统一将紧邻的断句符号(例如,上述采纳的量刑情节中的分号)替换为整句符号“。”,为后续分句进行精准分析提供高质量的数据基础。也就是说,本申请实施例通过上述采纳表达式和不予采纳表达式从本院认定文本块中识别“采纳”节点对应的采纳的量刑文本信息和“不予采纳”节点对应的不予采纳的量刑文本信息,并从识别得到的量刑文本信息中找到临近的非整句符号(即这些文本信息之后相邻的非整句符号)等文本的断句符号(如“,、;、换行符号”),统一将这些文本断句符号替换为整句符号“。”
预处理相关的程序如下:
S307,从本院认为文本块分离量刑采纳信息,即从预处理后得到的量刑情节认定文本块(即本院认为文本块)中分离量刑采纳信息(即基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息)。
作为一个示例,S307可以包括如下步骤。
从上述预处理后得到的标准化断句符号的“本院认为”文本块,逐步执行下述步骤。
首先,分句,即利用整句断句符号,对预处理后的新的“本院认为”文本块进行分句。
分句结果示例:
示例1:被告人两次拨打报警电话,并向公安机关如实供述其犯罪事实,其行为构成自首,可以减轻处罚
示例2:关于被告人的辩护人提出被告人的行为应定性为故意伤害致人死亡的辩护意见,本院认为,被告人持铁棍打击被害人头部,且在被害人倒地后又连击数下,具有剥夺他人生命的故意,其行为构成故意杀人罪,对辩护人的该辩护意见不予采纳
其次,排除法院不予采纳的分句,即利用不予采纳表达式集合,识别并排除存包含不予采纳的量刑情节类信息的句子,这样即可以筛选出存在量刑情节类信息的句子(即基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息)。
对上述分句结果示例执行本步骤后筛选出如下内容:示例1:被告人两次拨打报警电话,并向公安机关如实供述其犯罪事实,其行为构成自首,可以减轻处罚。
S308,对筛选出的存在量刑情节类信息的句子进行当事人信息指代消解与合并。
例如,判断筛选出的存在量刑情节类信息的句子中是否存在被告当事人名称。如果存在,则提取当前句子中的被告人名称列表;如果不存在,则识别“被告人/其”指代类信息,将被告人指代类信息,替换为被告人名称列表。将当前句子中识别的量刑情节节点名称,与被告人名称的量刑情节列表进行合并。
通过“指代”抽取节点,设计当事人指代信息示例抽取表达式如下:
@[2-9二三四五六七八九]被告人@
@(各|所有)被告人@
假设存在量刑情节信息的分句信息如下:
“关于被告人的辩护人提出,被告人宫某系自首,其行为具有防卫情节,属于防卫过当,且赔偿被害人的损失,有悔罪表现,建议对其减轻处罚的辩护意见予以采纳。”
指代消解处理结果如下:“关于被告人宫某的辩护人提出,被告人宫某系自首,其行为具有防卫情节,属于防卫过当,且赔偿被害人的损失,有悔罪表现,建议对其减轻处罚的辩护意见予以采纳。”
以下内容为指代消解的部分实现代码。
S309,量刑标签提取,即为从所述量刑采纳信息中抽取量刑标签。
例如,根据图1中的节点和子节点表达式从指代消解后的存在量刑情节类信息的句子中抽取量刑标签,即抽取图1的节点或者子节点。
S310,量刑情节与当事人映射关联,即建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。
S311,输出当前判决书的各当事人量刑情节分析结果,完成刑事一审案件判决书量刑情节结构化处理。
请参考图4,图4示出了本申请实施例提供的从判决书获取当事人量刑要素的装置,应理解,该装置400与上述图2方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置400的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置400包括至少一个能以软件或固件的形式存储于存储器中或固化在装置400的操作系统中的软件功能模块,该从判决书获取当事人量刑要素的装置400,包括:确认模块401,被配置为确认输入的文书为刑事案件判决书;量刑采纳信息抽取模块402,被配置为基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;量刑标签抽取模块403,被配置为从所述量刑采纳信息中抽取量刑标签;映射模块404,被配置为建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。例如,所述装置还包括:预处理模块(图中未示出),被配置为预处理所述量刑情节认定文本块,以对所述量刑情节认定文本块中的采纳的量刑情节和不予采纳的量刑情节进行断句。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置400的具体工作过程,可以参考前述方法100中的对应过程,在此不再过多赘述。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现图2所述的方法。
如图5所示,本申请实施例还提供一种信息处理设备500,包括存储器510、处理器520以及存储在所述存储器510上并可在所述处理器520上运行的计算机程序,其中,所述处理器520通过总线530从所述存储器510读取并执行所述程序时可实现图2所述的方法。
例如,本申请实施例的处理器520执行计算机程序可以实现如下方法:S101,确认输入的文书为刑事案件判决书;S102,基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;S103,从所述量刑采纳信息中抽取量刑标签,其中,所述量刑标签与量刑要素对应;S104,建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。
处理器520可以处理数字信号,可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中,处理器520可以是微处理器。
存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码,用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现图2中所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种从判决书获取当事人量刑要素的方法,其特征在于,所述方法包括:
确认输入的文书为刑事案件判决书;
基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;
从所述量刑采纳信息中抽取量刑标签,其中,所述量刑标签与量刑要素对应;
建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。
2.如权利要求1所述的方法,其特征在于,所述基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息之前,所述方法还包括:
预处理所述量刑情节认定文本块,以对所述量刑情节认定文本块中的采纳的量刑情节和不予采纳的量刑情节进行断句;
所述基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息,包括:从预处理后的量刑情节认定文本块中获取量刑采纳信息。
3.如权利要求2所述的方法,其特征在于,所述预处理所述量刑情节认定文本块,包括:
根据不予采纳表达式定位所述不予采纳的量刑情节在所述量刑情节认定文本块中的第一位置;
根据采纳表达式定位所述采纳的量刑情节在所述量刑情节认定文本块中的第二位置;
识别所述第一位置之后和所述第二位置之后的第一个断句符号并将所述断句符号替换为整句符号;
所述从预处理后的量刑情节认定文本块中获取量刑采纳信息,包括:
对采用所述整句符号替换后的所述量刑情节认定文本块进行分句操作;
根据所述不予采纳表达式识别并排除包含所述不予采纳的量刑情节的句子,得到量刑情节采纳句子;
所述从所述量刑采纳信息中抽取量刑标签,包括:从所述量刑情节采纳句子中抽取所述量刑标签。
4.如权利要求1所述的方法,其特征在于,所述确认输入的文书为刑事案件判决书之后,所述的方法还包括:从所述刑事案件判决书中获取被告人名称列表;
所述从所述量刑采纳信息中抽取量刑标签之前,所述方法还包括:根据所述被告人名称列表对所述量刑采纳信息中包括的指代形式的表述方式进行指代消解。
5.如权利要求1所述的方法,其特征在于,所述从所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息,包括:根据建立的不予采纳表达式从所述量刑情节认定文本块中排除量刑时不予采纳的量刑情节,得到所述量刑采纳信息。
6.如权利要求1所述的方法,其特征在于,所述从所述量刑采纳信息中抽取量刑标签,包括:根据为所述量刑要素建立的规则表达式从所述量刑采纳信息中抽取所述量刑标签。
7.一种从判决书获取当事人量刑要素的装置,其特征在于,所述装置包括:
确认模块,被配置为确认输入的文书为刑事案件判决书;
量刑采纳信息抽取模块,被配置为基于所述刑事案件判决书中的量刑情节认定文本块获取量刑采纳信息;
量刑标签抽取模块,被配置为从所述量刑采纳信息中抽取量刑标签;
映射模块,被配置为建立所述量刑标签与被告人之间的对应关系,得到所述被告人的量刑分析结果。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
预处理模块,被配置为预处理所述量刑情节认定文本块,以对所述量刑情节认定文本块中的包括的采纳的量刑情节和不予采纳的量刑情节进行断句。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时可实现权利要求1-6中任意一条权利要求所述的方法。
10.一种信息处理设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现权利要求1-6中任意一条权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010409393.7A CN111598742A (zh) | 2020-05-14 | 2020-05-14 | 一种从判决书获取当事人量刑要素的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010409393.7A CN111598742A (zh) | 2020-05-14 | 2020-05-14 | 一种从判决书获取当事人量刑要素的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111598742A true CN111598742A (zh) | 2020-08-28 |
Family
ID=72190935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010409393.7A Pending CN111598742A (zh) | 2020-05-14 | 2020-05-14 | 一种从判决书获取当事人量刑要素的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598742A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610005A (zh) * | 2019-09-16 | 2019-12-24 | 哈尔滨工业大学 | 基于深度学习的盗窃罪辅助量刑方法 |
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
-
2020
- 2020-05-14 CN CN202010409393.7A patent/CN111598742A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN110610005A (zh) * | 2019-09-16 | 2019-12-24 | 哈尔滨工业大学 | 基于深度学习的盗窃罪辅助量刑方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197163B (zh) | 一种基于裁判文书的结构化处理方法 | |
Shaalan et al. | Arabic named entity recognition from diverse text types | |
Stubbs | Collocations and semantic profiles: On the cause of the trouble with quantitative studies | |
Shaalan et al. | NERA: Named entity recognition for Arabic | |
Meuschke et al. | State-of-the-art in detecting academic plagiarism | |
Church et al. | Word association norms, mutual information, and lexicography | |
Prentice et al. | The language of Islamic extremism: Towards an automated identification of beliefs, motivations and justifications | |
Potts et al. | Healthcare professionals' online use of violence metaphors for care at the end of life in the US: a corpus-based comparison with the UK | |
CN106598944A (zh) | 一种民航安保舆情情感分析方法 | |
Cotterill | How to use corpus linguistics in forensic linguistics | |
CN106815207B (zh) | 用于法律裁判文书的信息处理方法及装置 | |
CN110610005A (zh) | 基于深度学习的盗窃罪辅助量刑方法 | |
CN104268192B (zh) | 一种网页信息提取方法、装置及终端 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
Risdaneva | A critical discourse analysis of women’s portrayal in news reporting of sexual violence | |
Ashcroft et al. | A Step Towards Detecting Online Grooming--Identifying Adults Pretending to be Children | |
Demus et al. | Detox: A comprehensive dataset for German offensive language and conversation analysis | |
Kanan et al. | Extracting named entities using named entity recognizer for arabic news articles | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
Brodie | Using mixed-method approaches to provide new insights into media coverage of femicide | |
Gopal et al. | Machine learning based classification of online news data for disaster management | |
Xu et al. | Using SVM to extract acronyms from text | |
Elo | A Text Network Analysis of Discursive Changes in German, Austrian and Swiss New Year's Speeches 2000-2021. | |
Leveling et al. | On metonymy recognition for geographic information retrieval | |
CN113312490A (zh) | 一种针对突发事件的事件知识图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |