CN113515631B - 用于预测罪名的方法、装置、终端设备及存储介质 - Google Patents
用于预测罪名的方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN113515631B CN113515631B CN202110680826.7A CN202110680826A CN113515631B CN 113515631 B CN113515631 B CN 113515631B CN 202110680826 A CN202110680826 A CN 202110680826A CN 113515631 B CN113515631 B CN 113515631B
- Authority
- CN
- China
- Prior art keywords
- preset
- crime
- attribute feature
- case
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 140
- 238000012549 training Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 206010063746 Accidental death Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000002637 putamen Anatomy 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了用于预测罪名的方法、装置、终端设备及存储介质方法,适用于自然语言处理技术领域,能够便利地预测刑事罪名,该用于预测罪名的方法包括:获取待预测案件的事实描述文本;确定所述事实描述文本所对应的罪名属性特征向量;针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度;根据所述相似度,从所述至少两个预设罪名中确定目标预设罪名;根据所述目标预设罪名,确定所述待预测案件所对应的罪名。
Description
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种用于预测罪名的方法、装置、终端设备及存储介质。
背景技术
法律罪名是刑法分则所规定的每一种具体犯罪的名称,是对该种具体犯罪行为本质特征的高度概括。法律罪名反映了一种犯罪与另一种犯罪的本质区别,是区分此罪与彼罪的根本界限,在实践中一般也是决定能否按照刑法总则的规定予以数罪并罚的前提和基础。
一般地,在获得一个案件的描述信息之后,会将该描述信息与从海量的判例和法条比对,以便于寻找到对应的罪名,但是该过程相当地消耗时间。因此,亟需提供一种能够便利地预测案件对应的罪名的方法。
发明内容
本申请实施例提供了一种用于预测罪名的方法、装置、终端设备及存储介质,可以较便利地预测刑事罪名。
第一方面,本申请实施例提供了一种用于预测罪名的方法,包括:
获取待预测案件的事实描述文本;
确定所述事实描述文本所对应的罪名属性特征向量;
针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度;
根据所述相似度,从所述至少两个预设罪名中确定目标预设罪名;
根据所述目标预设罪名,确定所述待预测案件所对应的罪名。
本申请实施例提供的用于预测罪名的方法,先获取待预测案件的事实描述文本,以了解待预测案件的情况,接着确定所述事实描述文本所对应的罪名属性特征向量,并针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度,从而了解该待预测案件所可能对应的罪名属性特征向量与各个预设罪名所分别对应的罪名属性特征向量之间可匹配程度,并进一步地根据各个相似度,从所述至少两个预设罪名中确定目标预设罪名,以便于可以快速地确定目标预设罪名为与所述待预测案件所对应的罪名。
第二方面,本申请实施例提供了一种用于预测罪名的装置,包括:
获取模块,用于获取待预测案件的事实描述文本;
第一确定模块,用于确定所述事实描述文本所对应的罪名属性特征向量;
第二确定模块,用于针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度;
第三确定模块,用于根据所述相似度,从所述至少两个预设罪名中确定目标预设罪名;
第四确定模块,用于根据所述目标预设罪名,确定所述待预测案件所对应的罪名。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的用于预测罪名的方法的流程示意图。
图2是本申请一实施例提供的用于预测罪名的方法步骤S102的具体实现流程示意图。
图3是本申请一实施例提供的用于预测罪名的方法步骤S202的具体实现流程示意图。
图4是本申请一实施例提供的用于预测罪名的装置的结构示意图。
图5是本申请另一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
请参阅图1,图1是本申请实施例提供的一种用于预测罪名的方法的实现流程图。本实施例中,用于预测罪名的方法用于在进行纠纷案件处理过程中,辅助进行处理结果的预测,其执行主体为终端设备。可以理解的是,终端设备的类型包括但不限于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等,本申请实施例对终端设备的具体类型不作任何限制。
如图1所示,本申请实施例提供的用于预测罪名的方法包括以下步骤:
S101:获取待预测案件的事实描述文本。
在步骤S101中,待预测案件指的是还未确定处理结果的纠纷案件。例如,还未确定处理结果的抢劫案。
优选地,纠纷案件可以为刑事纠纷案件。
事实描述文本用于描述待预测案件对应的纠纷情况。可以理解的是,事实描述文本可以包括图像文本、文本中的一种或多种。通过事实描述文本,可以了解待预测案件对应的纠纷情况。
例如,事实描述文本描述是抢劫案,包括犯罪人员的身份信息、犯罪过程和主观意图等等内容。
在本实施例中,由于事实描述文本能够描述一个待预测案件的情况,以便于基于该了解到的案件情况,进行案件的针对性处理,所以,在实际应用中,为了能够便利地预测刑事罪名,节省判断待预测案件对应的处理结果所消耗的时间,需先获取待预测案件的事实描述文本。
至于何时获取待预测案件的事实描述文本,可以包括但不仅限于以下两个场景。
场景1:在接收到开始预测案件的罪名的指令时,开始获取待预测案件的事实描述文本。
场景2:在确定待预测案件的数量大于或等于一个参考阈值时,为了能够快速地确定各个待预测案件所对应的罪名,指示开始获取待预测案件的事实描述文本。
在一些实施例中,为了提高案件的处理速率,按待预测案件的发生时间顺序,逐个地获取待预测案件的事实描述文本。
在一些实施例中,为了优先处理的部分刑事案件,会预先地对每个待预测案件按优先级和案件发生的时间顺序进行顺序分类,根据待预测案件所对应的优先级信息和发生的时间顺序,逐一地获取待预测案件的事实描述文本。
在一些实施例中,在接收到对待预测案件进行处理的指令时,检测是否存在已输入完成或正在输入的待预测案件的事实描述文本,若检测到已输入完成或正在输入的待预测案件的事实描述文本,则从存储事实描述文本的存储区中获取待预测案件的事实描述文本。
S102:确定所述事实描述文本所对应的罪名属性特征向量。
在步骤S102中,罪名属性特征向量描述的是待预测案件的属性特征情况。例如,待预测案件的事实描述文本中记录的罪名属性特征包括“故意”、“死亡”和“侵犯人身权利”,对应的该待预测案件的罪名属性特征向量为“20012”。
可以理解的是,事实描述文本中记录有待预测案件的犯罪情况,且通过罪名属性特征进行展示,所以,罪名属性特征向量中包含的属性特征向量与事实描述文本中记录的罪名属性特征存在着一一对应情况。
S103:针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度。
在步骤S103中,预设罪名指的是通过刑事法律中规定的罪名。
相似度用于描述待预测案件所对应的罪名属性特征向量与每个预设罪名对应的预设属性特征向量之间的匹配度情况。例如,一个待预测案件的罪名属性特征向量为10086,而一个抢劫罪对应的预设属性特征向量为10086,该待预测案件的罪名属性特征向量与该抢劫罪对应的预设属性特征向量之间的相似度为100%。
可以理解的是,为了确定待预测案件所对应的罪名,需要确认与预先确定的预设罪名之间是否对应,所以,会确定该待预测案件对应的罪名属性特征向量与每个预设罪名对应对应的预设属性特征向量之间的相似度,以便于了解该待预测案件所可能对应的罪名属性特征向量与各个预设罪名所分别对应的罪名属性特征向量之间匹配程度,从而在该基础上,确定目标预设罪名,再进一步地根据该目标预设罪名对待预测案件对应的罪名进行预测。
可以理解的是,由于每个预设罪名都是指代不同的刑事罪名,且对应的刑事法条都有所不同,所以,每个预设罪名所分别对应的预设属性特征向量之间互不相同。
S104:根据所述相似度,从所述至少两个预设罪名中确定目标预设罪名。
在步骤S104中,目标预设罪名指的是相似度满足预设条件的预设罪名。例如,最大相似度所对应的预设罪名为目标预设罪名。
可以理解的是,由于根据各个预设罪名分别对应的相似度,可以了解待预测案件所可能对应的罪名属性特征向量与各个预设罪名所分别对应的罪名属性特征向量之间匹配程度情况,所以,根据相似度,可以确定与待预测案件的罪名属性特征向量最匹配的目标预设罪名对应的预设属性特征向量,进而地根据该最匹配的预设属性特征向量来确定其对应的预设罪名为目标预设罪名。
例如,待预测案件的罪名属性特征向量分别与预设罪名A对应的预设属性特征向量和预设罪名B对应的预设属性特征向量之间的相似度,分别为100%、90%,则由于待预测案件的罪名属性特征向量与预设罪名A对应的预设属性特征向量之间的相似度高于待预测案件的罪名属性特征向量预设罪名B对应的预设属性特征向量,所以,即可确定预设罪名A为目标预设罪名。
在一些实施例中,对每个预设罪名所对应的相似度进行排序,确定最大的相似度作为目标相似度,并根据该目标相似度,从至少两个预设罪名中确定目标预设罪名。
S105:根据所述目标预设罪名,确定所述待预测案件所对应的罪名。
在步骤S105中,由于目标预设罪名的预设属性特征向量与待预测案件的罪名属性特征向量之间的相似度满足预设条件,所以,即可进一步地根据目标预设罪名,确定待预测案件所对应的罪名,也即预测为待预测案件所对应的罪名为该目标预设罪名。
本申请实施例提供的用于预测罪名的方法,先获取待预测案件的事实描述文本,以了解待预测案件的情况,接着确定所述事实描述文本所对应的罪名属性特征向量,并针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度,从而了解该待预测案件所可能对应的罪名属性特征向量与各个预设罪名所分别对应的罪名属性特征向量之间可匹配程度,并进一步地根据各个相似度,从所述至少两个预设罪名中确定目标预设罪名,以便于可以快速地确定目标预设罪名为与所述待预测案件所对应的罪名。
结合图2,在本申请一实施例中,所述确定所述事实描述文本所对应的罪名属性特征向量,包括:
S201:确定与所述事实描述文本对应的目标属性特征;
S202:根据所述目标属性特征对应的属性特征向量,得到所述罪名属性特征向量。
在本实施例中,目标属性特征为预设罪名的属性特征。例如,抢劫罪的属性特征“非法占有为目的”、“暴力”、“抢走财物”。
可以理解的是,由于事实描述文本用于描述待预测案件,且事实描述文本中记录有待预测案件的各个属性特征,所以,为了确定待预测案件对应的罪名,先将事实描述文本中记录的属性特征与现有的预设罪名的属性特征进行匹配,从而确定匹配成功的属性特征,且将匹配成功的预设罪名的属性特征作为目标属性特征。
在本实施例中,事实描述文本中记录的属性特征可能只与一个预设罪名的属性特征匹配成功,所以,与事实描述文本对应的目标属性特征只是一个预设罪名的属性特征,也即通过一个预设罪名的属性特征,即可确定该待预测案件对应的罪名属性特征向量。或者是,事实描述文本中记录的各个属性特征分别与多个预设罪名的属性特征匹配成功,即表示需要由多个预设罪名的属性特征结合的来确定事实描述文本对应的罪名属性特征向量。
在一些实施例中,为了避免得到的罪名属性特征向量过长,且包含过多无用信息,所以,所述目标属性特征所属的属性类别的数量有至少一种,每个属性类别对应有相应的预设阈值,并且属于任一属性类别的目标属性特征的个数不大于相应的预设阈值。
在本实施例中,目标属性特征所属的类别描述的是预先设定的用于划分各个属性特征的信息。例如,目标属性特征“故意”所属的类别为“意图”属性类别。
其中,预设阈值描述的是预先设定有预设阈值的属性特征分属于一个类别。例如,属性特征“故意”和“过失”分属于“意图”属性类别,即表示“意图”类别对应的预设阈值为2个。
可以理解的是,用于描述一个待预测案件的目标属性特征是唯一的或者重复的,所以,为了避免罪名属性特征向量中记录有过多无用的信息,将各个目标属性特征归类至对应的属性类别,以便于根据属性类别和归类至属性类别的目标属性特征得到罪名属性特征向量,属于任一属性类别的目标属性特征的个数不大于相应的预设阈值。其中,对于属于同一个属性类别中的各个属性特征,若一个属性特征无对应的目标属性特征,则该属性特征对应的属性特征向量不会记录在罪名属性特征向量中。
例如,属于“意图”属性类别的两个属性特征“故意”和“过失”,且在一个待预测案件中只存在属性特征“故意”,即表示该属性特征“故意”为目标属性特征,与“意图”属性类别中的属性特征“故意”对应,则属性特征“故意”对应的属性特征向量会记录在该待预测案件的罪名属性特征向量中,而对于“意图”属性类别中的属性特征“过失”对应的属性特征向量则不会记录在该罪名属性特征向量中。
例如,由于一个待预测案件中,对于能够归属于“意图”属性类别的目标属性特征,不会同时存在相反的两个意图,比如,对于“故意”和“过失”两个相反的意图类属性特征,所以,待预测案件中的意图类属性特征属于“意图”属性类别的属性特征只会是其中的一个,也即属于“意图”属性类别的目标属性特征的个数不大于相应的预设阈值。
在实际应用中,可以理解的是,一个待预测案件所对应的目标属性特征可能为一个或多个,且每个目标属性特征对应着一个属性类别。
在一些实施例中,每个属性类别包含的各个属性特征分别对应的属性特征向量互不相同。例如,“意图”属性类别中包含的属性特征“故意”和“过失”,属性特征“故意”对应的属性特征向量为11,而属性特征“过失”对应的属性特征向量为22。
在一些实施例中,罪名属性特征向量中记录有与每个属性类别对应的信息,且每个属性类别对应的信息之后记录的是与该属性类型对应的目标属性特征所对应的属性特征向量。可以理解的是,当一个属性类别包含的各个属性特征均无对应的目标属性特征时,罪名属性特征向量中不会有与该属性类别相关的信息。
例如,对于归属于“意图”属性类别的属性特征“故意”和“过失”,其中,在罪名属性特征向量中“意图”属性类别用11来表示,属性特征“故意”用2表示,属性特征“过失”用3来表示,对于一个待预测案件,该案件中的意图属性特征为“故意”,则对于该待预测案件中关于意图的属性特征向量,可以在罪名属性特征向量中表示为112。
结合图3,在本申请一实施例中,所述根据所述目标属性特征对应的属性特征向量,得到所述罪名属性特征向量,包括:
S301:若所述目标属性特征的数量为两个以上,则确定每个所述目标属性特征所对应的预设拼接顺序;
S302:根据所述预设拼接顺序,将每个目标属性特征对应的属性特征向量进行拼接,得到所述罪名属性特征向量。
在本实施例中,为了较好地利用罪名属性特征向量来与各个预设罪名对应的预设罪名属性特征向量进行匹配,从而确定相似度,会预先地定义罪名属性特征的顺序,以便于在确定事实描述文本对应的目标属性特征的数量为两个以上时,可以根据每个所述目标属性特征所对应的预设拼接顺序,将每个目标属性特征对应的属性特征向量进行拼接,得到所述罪名属性特征向量。
其中,由于目标属性特征为复杂的语义属性,不利于计算机处理,所以,为了便于计算机处理,是根据预设拼接顺序,将每个目标属性特征对应的属性特征向量进行拼接,得到所述罪名属性特征向量。
示例的,目标属性特征包括“故意”和“死亡”,且该两个目标属性特征的预设拼接顺序为:“故意”先于“死亡”,所以,按照该预设拼接顺序,将“故意”的属性特征向量“1”和“死亡”的属性特征向量“1”进行拼接,得到罪名属性特征向量“11”。
在本申请一实施例中,所述确定所述事实描述文本所对应的罪名属性特征向量,包括:
通过目标预测模型对所述事实描述文本进行处理,得到所述罪名属性特征向量。
在本实施例中,目标预测模型用于确定与事实描述文本的对应的训练样本,从而将该训练样本中的罪名属性特征向量作为该事实描述文本对应的罪名属性特征向量,进而地通过该罪名属性特征向量来表示该事实描述文本。
在一些实施例中,为了更好地基于事实描述文本中记录的属性特征,来的到罪名属性特征向量,目标预测模型为带有自注意力机制的双向长短时记忆循环神经网络模型,以便于通过该模型更好地基于事实描述文本中的上下文之间的紧密联系,从而更好地围绕事实描述文本中记录的属性特征,得到罪名属性特征向量。
可以理解的是,为了使得训练得到的目标预测模型能够更好地关注事实描述文本中的重点词,在训练得到目标预测模型的过程中,会先对每个词创建字典,然后在模型训练过程中让模型自己学习需要对哪些词语进行重点关注,然后得到注意力权重,从而基于注意力权重来更好地关注事实描述文本中的上下文之间的联系,从而更好地确定事实描述文本中记录的属性特征,进而地更好地的到对应的罪名属性特征向量。
在一些实施例中,对事实描述文本进行向量化处理,得到向量化后的事实描述文本,以适应目标预测模型的输入格式要求。接着,通过目标预测模型对向量化后的事实描述文本进行处理,得到罪名属性特征向量,从而完成从事实描述文本到罪名属性特征向量的映射。
示例的,通过预训练的Doc2Vec模型(Document to Vector)将事实描述文转化为低维稠密向量,使其满足神经网络算法的输入格式要求。
在本申请一实施例中,训练得到所述目标预测模型的过程,包括:
基于预设训练数据集,对初始预测模型进行训练,并将训练完成的初始预测模型作为所述目标预测模型,其中,所述预设训练数据集包括至少两个样本,每个样本包括预设罪名、案情事实描述以及预设属性特征向量,每个样本对应一个案件。
在本实施例中,案情事实描述描述的是构成预设罪名时所对应的属性特征。例如,故意杀人罪的案情事实描述包括“故意”、“死亡”和“人身权利”。
为了更好地训练得到能够对待预测案件进行预测的模型,预设训练数据集中包括至少两个样本,且每个样本包括预设罪名、该预设罪名对应的案情事实描述以及预设属性特征向量。
可以理解的是,在训练模型时,可以是直接基于一个预设罪名的样本对模型中的一个判别器进行训练,以便于基于该判别器能够对待预测案件进行罪名的预测。或者是,在训练模型时,可以是基于几个预设罪名的样本对模型中的一个判别器进行训练,以便于使得该判别器能够实现对较少训练样本甚至没有训练样本的罪名预测。
示例的,对于较少训练样本甚至没有训练样本的罪名,为了使得模型能够对该类罪名的案件进行罪名预测,通过对已有的其他罪名训练样本中训练得到其对应的属性特征的模型,从而实现对此类罪名的预测,比如“故意杀人罪”可以通过“过失致人死亡罪”等罪名样本训练特征“死亡”,通过“故意伤害罪”等罪名样本训练特征“故意”,通过“绑架罪”等罪名样本训练特征“侵犯人身权利”等,然后通过将多个属性特征进行拼接,得到用于判断零样本罪名的属性特征向量,达到对零样本罪名进行预测的目的。
在本申请一实施例中,每个样本对应一个判例。
所述基于预设训练数据集,对初始预测模型进行训练,并将训练完成的初始预测模型作为所述目标预测模型之前,构建得到所述预设训练数据集的过程包括:
针对每一个预设罪名,根据所述预设罪名对应的法律信息,获得所述预设罪名对应的预设属性特征向量;
获取所述预设罪名对应的至少一个判例的案情事实描述信息;
根据每个判例的案情事实描述信息以及相应判例对应的预设罪名的预设属性特征向量,获得所述判例对应的样本;
根据各个判例对应的样本,获得所述预设训练数据集。
在本实施例中,法律信息包括针对预设罪名的刑事法律法规条文和法律领域知识中的一种或多种。其中,法律领域知识指的是针对构成预设罪名时,该预设罪名所对应刑事法律法规条文的理解。
判例描述的是法院或仲裁机构做出的判决书、裁定书或决定书等中记载的内容。优选地,判例为刑事判例。
在本实施例中,为了能够对待预测案件进行罪名的预测,在构建得到预设训练数据集中的样本时,先针对每个预设罪名,根据所述预设罪名所对应的法律信息,得到所述预设属性特征向量,并获取至少一个判例,以便于根据所述至少一个判例,得到与所述预设罪名对应的所述案情事实描述信息,其目的是,期望通过该案情事实描述信息与待预测案件的事实描述文本进行对应,以便于进一步地得到该案情事实描述信息对应的预设属性特征向量,即作为待预测案件的罪名属性特征向量。
可以理解的是,在获取与预设罪名对应的案情事实描述时,可能是基于一个判例而得到,也可能是结合多个判例中记载的案情事实描述而得到。
对应于上文实施例所述的用于预测罪名的方法,图4示出了本申请实施例提供的用于预测罪名装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该用于预测罪名的装置100包括:
获取模块101,用于获取待预测案件的事实描述文本;
第一确定模块102,用于确定所述事实描述文本所对应的罪名属性特征向量;
第二确定模块103,用于针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度;
第三确定模块104,用于根据所述相似度,从所述至少两个预设罪名中确定目标预设罪名;
第四确定模块105,用于根据所述目标预设罪名,确定所述待预测案件所对应的罪名。
在一实施例中,第一确定模块102,还用于确定与所述事实描述文本对应的目标属性特征;根据所述目标属性特征对应的属性特征向量,得到所述罪名属性特征向量。
在一实施例中,第一确定模块102,还用于若所述目标属性特征的数量为两个以上,则确定每个所述目标属性特征所对应的预设拼接顺序;根据所述预设拼接顺序,将每个目标属性特征对应的属性特征向量进行拼接,得到所述罪名属性特征向量。
在一实施例中,第一确定模块102,还用于通过目标预测模型对所述事实描述文本进行处理,得到所述罪名属性特征向量。
在一实施例中,用于预测罪名的装置100还包括:训练模块。
所述训练模块,用于基于预设训练数据集,对初始预测模型进行训练,并将训练完成的初始预测模型作为所述目标预测模型,其中,所述预设训练数据集包括至少两个样本,每个样本包括预设罪名、案情事实描述以及预设属性特征向量。
在一实施例中,用于预测罪名的装置100还包括:构建模块。
构建模块,用于针对每一个预设罪名,根据所述预设罪名对应的法律信息,获得所述预设罪名对应的预设属性特征向量;获取所述预设罪名对应的至少一个判例的案情事实描述信息;根据每个判例的案情事实描述信息以及相应判例对应的预设罪名的预设属性特征向量,获得所述判例对应的样本;根据各个判例对应的样本,获得所述预设训练数据集。
本实施例提供的一种用于预测罪名的装置,用于实现方法实施例所述的一种用于预测罪名的方法,其中各个模块的功能可以参考方法实施例中相应的描述,其实现原理和技术效果类似,此处不再赘述。
图5为本申请一实施例提供的终端设备的结构示意图。如图5所示,该实施例的终端设备5包括:至少一个处理器50(图5中仅示出一个处理器)、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个用于预测罪名的方法实施例中的步骤。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的举例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口、装置或单元的间接耦合或通讯连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种用于预测罪名的方法,其特征在于,包括:
获取待预测案件的事实描述文本;
确定所述事实描述文本所对应的罪名属性特征向量,所述罪名属性特征向量描述的是待预测案件的属性特征情况;
针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度;
根据所述相似度,从所述至少两个预设罪名中确定目标预设罪名;
根据所述目标预设罪名,确定所述待预测案件所对应的罪名;
其中,所述确定所述事实描述文本所对应的罪名属性特征向量,包括:
通过目标预测模型对所述事实描述文本进行处理,得到所述罪名属性特征向量;
其中,构建预设训练数据集训练得到目标预测模型,针对每一个预设罪名,根据所述预设罪名对应的法律信息,获得所述预设罪名对应的预设属性特征向量;获取所述预设罪名对应的至少一个判例的案情事实描述信息;根据每个判例的案情事实描述信息以及相应判例对应的预设罪名的预设属性特征向量,获得所述判例对应的样本;根据各个判例对应的样本,获得所述预设训练数据集。
2.如权利要求1所述的方法,其特征在于,所述确定所述事实描述文本所对应的罪名属性特征向量,包括:
确定与所述事实描述文本对应的目标属性特征;
根据所述目标属性特征对应的属性特征向量,得到所述罪名属性特征向量。
3.如权利要求2所述的方法,其特征在于,所述目标属性特征所属的属性类别的数量至少有一个,每个属性类别对应有相应的预设阈值,并且属于任一属性类别的目标属性特征的个数不大于相应的预设阈值。
4.如权利要求2所述的方法,其特征在于,所述根据所述目标属性特征对应的属性特征向量,得到所述罪名属性特征向量,包括:
若所述目标属性特征的数量为两个以上,则确定每个所述目标属性特征所对应的预设拼接顺序;
根据所述预设拼接顺序,将每个目标属性特征对应的属性特征向量进行拼接,得到所述罪名属性特征向量。
5.如权利要求1-4任意一项所述的方法,其特征在于,训练得到所述目标预测模型的过程,包括:
基于预设训练数据集,对初始预测模型进行训练,并将训练完成的初始预测模型作为所述目标预测模型,其中,所述预设训练数据集包括至少两个样本,每个样本包括预设罪名、案情事实描述信息以及预设属性特征向量。
6.如权利要求5所述的方法,其特征在于,每个样本对应一个判例;
所述基于预设训练数据集,对初始预测模型进行训练,并将训练完成的初始预测模型作为所述目标预测模型之前,构建得到所述预设训练数据集。
7.一种用于预测罪名的装置,其特征在于,包括:
获取模块,用于获取待预测案件的事实描述文本;
第一确定模块,用于确定所述事实描述文本所对应的罪名属性特征向量,所述罪名属性特征向量描述的是待预测案件的属性特征情况;
第二确定模块,用于针对至少两个预设罪名中的每一个预设罪名,确定所述罪名属性特征向量与所述预设罪名对应的预设属性特征向量之间的相似度;
第三确定模块,用于根据所述相似度,从所述至少两个预设罪名中确定目标预设罪名;
第四确定模块,用于根据所述目标预设罪名,确定所述待预测案件所对应的罪名;
构建模块,用于针对每一个预设罪名,根据所述预设罪名对应的法律信息, 获得所述预设罪名对应的预设属性特征向量;获取所述预设罪名对应的至少一 个判例的案情事实描述信息;根据每个判例的案情事实描述信息以及相应判例 对应的预设罪名的预设属性特征向量,获得所述判例对应的样本;根据各个判 例对应的样本,获得预设训练数据集;
其中,所述第一确定模块,还用于通过目标预测模型对所述事实描述文本进行处理,得到所述罪名属性特征向量,构建预设训练数据集训练得到目标预测模型。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680826.7A CN113515631B (zh) | 2021-06-18 | 2021-06-18 | 用于预测罪名的方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680826.7A CN113515631B (zh) | 2021-06-18 | 2021-06-18 | 用于预测罪名的方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515631A CN113515631A (zh) | 2021-10-19 |
CN113515631B true CN113515631B (zh) | 2024-05-17 |
Family
ID=78065710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110680826.7A Active CN113515631B (zh) | 2021-06-18 | 2021-06-18 | 用于预测罪名的方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515631B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376964A (zh) * | 2018-12-10 | 2019-02-22 | 杭州世平信息科技有限公司 | 一种基于记忆神经网络的刑事案件罪名预测方法 |
CN110858269A (zh) * | 2018-08-09 | 2020-03-03 | 清华大学 | 刑事罪名预测方法及装置 |
CN110968689A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 |
CN111985680A (zh) * | 2020-07-10 | 2020-11-24 | 昆明理工大学 | 基于胶囊网络与时序的刑事多罪名预测方法 |
CN112232576A (zh) * | 2020-10-22 | 2021-01-15 | 北京明略昭辉科技有限公司 | 判决预测方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-06-18 CN CN202110680826.7A patent/CN113515631B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110858269A (zh) * | 2018-08-09 | 2020-03-03 | 清华大学 | 刑事罪名预测方法及装置 |
CN110968689A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 |
CN109376964A (zh) * | 2018-12-10 | 2019-02-22 | 杭州世平信息科技有限公司 | 一种基于记忆神经网络的刑事案件罪名预测方法 |
CN111985680A (zh) * | 2020-07-10 | 2020-11-24 | 昆明理工大学 | 基于胶囊网络与时序的刑事多罪名预测方法 |
CN112232576A (zh) * | 2020-10-22 | 2021-01-15 | 北京明略昭辉科技有限公司 | 判决预测方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113515631A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110109888B (zh) | 一种文件处理方法及装置 | |
CN109905385B (zh) | 一种webshell检测方法、装置及系统 | |
CN110472011B (zh) | 一种诉讼成本预测方法、装置及终端设备 | |
CN110909531B (zh) | 信息安全的甄别方法、装置、设备及存储介质 | |
CN111079186B (zh) | 数据分析的方法、装置、设备和存储介质 | |
CN112214402B (zh) | 一种代码验证算法的选择方法、装置及存储介质 | |
CN108256044A (zh) | 直播间推荐方法、装置及电子设备 | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN114547315A (zh) | 一种案件分类预测方法、装置、计算机设备及存储介质 | |
CN115840808A (zh) | 科技项目咨询方法、装置、服务器及计算机可读存储介质 | |
CN113515631B (zh) | 用于预测罪名的方法、装置、终端设备及存储介质 | |
CN110019813A (zh) | 寿险案例检索方法、检索装置、服务器及可读存储介质 | |
CN115080709A (zh) | 文本识别方法、装置、非易失性存储介质及计算机设备 | |
CN111275071B (zh) | 预测模型训练、预测方法、装置及电子设备 | |
CN110489434B (zh) | 一种信息处理方法及相关设备 | |
CN112307175A (zh) | 一种文本处理方法、装置、服务器及计算机可读存储介质 | |
CN109446054B (zh) | 基于大数据的越权操作请求的处理方法及终端设备 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
CN113392184A (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN114780724A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN113806737A (zh) | 一种恶意进程风险等级评估方法、终端设备及存储介质 | |
CN112507709A (zh) | 文档匹配方法以及电子设备、存储装置 | |
CN111563276A (zh) | 一种网页篡改检测方法、检测系统及相关设备 | |
US10776587B2 (en) | Claim generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |