CN110175233B

CN110175233B - 目标主体画像分析的方法、装置、计算机装置及存储介质

Info

Publication number: CN110175233B
Application number: CN201910173517.3A
Authority: CN
Inventors: 刘玉强; 方俊波; 鄢真; 杨昊燃; 李雯; 叶素兰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2022-03-11
Anticipated expiration: 2039-03-07
Also published as: CN110175233A

Abstract

一种利用裁判文书进行目标主体画像分析的方法包括：将每一裁判文书划分为多个文书组成部分；确定每一需进行标签标记的文书组成部分所对应的标签集；判断所确定的每一标签集为预定义或是自定义标签集；当为预定义标签集时，从裁判文书中定位所确定的标签集中每一预定义标签的位置，并将预定义标签标记至与所述位置对应的段落；否则，从所述文书组成部分中提取核心关键词，将核心关键词作为自定义标签标记至核心关键词所在的段落，并将核心关键词加入自定义标签集中；结合所有裁判文书的预定义标签及自定义标签对目标主体进行画像分析。本发明还提供一种目标主体画像分析的装置、计算机装置及存储介质，能够通过用户行为画像提供大数据支持。

Description

目标主体画像分析的方法、装置、计算机装置及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种利用裁判文书进行目标主体画像分析的方法、利用裁判文书进行目标主体画像分析的装置、计算机装置及计算机可读存储介质。

背景技术

司法裁判文书记载了人民法院对案件的审理过程和结果。如果能够结合司法判决文书对法官、被告等目标主体进行画像分析，可以在一定程度上提高司法办事效率。然而，目前尚没有根据司法判决文书进行画像分析的手段。

发明内容

鉴于以上内容，有必要提出一种利用裁判文书进行目标主体画像分析的方法及装置、计算机装置和计算机可读存储介质，从而解决以上问题。

本申请的第一方面提供一种应利用裁判文书进行目标主体画像分析的方法，应用于一计算机装置中，所述方法包括：

将每一裁判文书划分为多个预设的文书组成部分；

确定至少一需进行标签标记的文书组成部分，确定每一需进行标签标记的文书组成部分所对应的标签集，其中，所述标签集为预定义标签以及自定义标签中的其中一种，所述预定义标签集包括多个预定义标签；

判断所确定的每一标签集为预定义标签集或是自定义标签集；

当其中一所确定的标签集为预定义标签集时，从所述裁判文书中定位所确定的标签集中每一预定义标签的位置，并将所述预定义标签标记至与所述位置对应的段落；

当其中一所确定的标签集为自定义标签集时，从所述文书组成部分中提取核心关键词，将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落，并将所述核心关键词加入所述自定义标签集中；

结合所有所述裁判文书的预定义标签以及自定义标签对所述目标主体进行画像分析；以及

将所述预定义标签集以及所述自定义标签集合并为新的标签集，使得所述计算机装置可使用所述新的标签集对其它裁判文书进行标记。

本申请的第二方面提供一种利用裁判文书进行目标主体画像分析的装置，所述装置包括：

划分模块，用于将每一裁判文书划分为多个预设的文书组成部分；

确定模块，用于确定至少一需进行标签标记的文书组成部分，确定每一需进行标签标记的文书组成部分所对应的标签集，其中，所述标签集为预定义标签以及自定义标签中的其中一种，所述预定义标签集包括多个预定义标签；

判断模块，用于判断所确定的每一标签集为预定义标签集或是自定义标签集；

定位与标记模块，用于当其中一所确定的标签集为预定义标签集时，从所述裁判文书中定位所确定的标签集中每一预定义标签的位置，并将所述预定义标签标记至与所述位置对应的段落；所述定位与标记模块还用于当其中一所确定的标签集为自定义标签集时，从所述文书组成部分中提取核心关键词，将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落，并将所述核心关键词加入所述自定义标签集中；

画像分析模块，用于结合所有所述裁判文书的预定义标签以及自定义标签对所述目标主体进行画像分析；以及

合并模块，用于将所述预定义标签集以及所述自定义标签集合并为新的标签集，使得所述计算机装置可使用所述新的标签集对其它裁判文书进行标记。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前所述利用裁判文书进行目标主体画像分析的方法。

本申请的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述利用裁判文书进行目标主体画像分析的方法。

本发明实施例通过自动向每一裁判文书标记标签，通过标签中文本内容进行统计，从而向用户提供大数据支持，可利于提高司法办事效率。

附图说明

图1是本发明实施例一提供的利用裁判文书进行目标主体画像分析的方法的流程图。

图2是本发明实施例二提供的利用裁判文书进行目标主体画像分析的装置的结构示意图。

图3是本发明实施例三提供的计算机装置示意图。

符号说明

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

请参阅图1所示，是本发明第一实施例提供的利用裁判文书进行目标主体画像分析的方法的流程图。所述利用裁判文书进行目标主体画像分析的方法应用于一计算机装置中。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S11，将每一裁判文书划分为多个预设的文书组成部分。

其中，所述裁判文书的格式可以为文本格式。在本实施方式中，所述文书组成部分包括标题部分、正文部分以及落款部分。所述标题部分位于所述裁判文书的首部，包括法院名称、文书名称和案号等。所述正文部分包括首部、事实、理由、裁判依据、裁判决定、尾部。首部包括诉讼参加人(包括被告、原告以及辩护律师等)及其基本情况，案件由来和审理经过等；事实包括当事人的诉讼请求、事实和理由，人民法院认定的证据及事实；理由是根据认定的案件事实和法律依据，对当事人的诉讼请求是否成立进行分析评述，阐明理由；裁判依据是人民法院作出裁判所依据的实体法和程序法条文；裁判决定是人民法院对案件实体、程序问题作出的明确、具体、完整的处理决定；尾部包括诉讼费用负担和告知事项等。所述落款部分位于所述裁判文书的尾部，包括审判长、审判员和书记员的署名、日期等。

在本实施方式中，所述计算机装置中预先设置有所述裁判文书需进行标签标记的至少一文书组成部分，所述计算机装置还预先存储有需进行标签标记的的文书组成部分与标签集之间的对应关系。其中，每一文书组成部分对应一标签集。每一标签集为自定义标签集以及预定义标签集中的其中一种，所述自定义标签集的内容为空，而预定义标签集包括多个预定义标签。其中，所述预定义标签集可由专业人员收集，所述预定义标签为所述文书组成部分中通常会出现的关键词。每一文书组成部分的所述标签集包含的预定义标签还可根据所述文书组成部分的重要信息进行设置以及变更。如，设置所述裁判文书需进行标签标记的包括标题部分、正文部分以及落款部分。标题部分对应一预定义标签集，所述标签集可包括法院名称这一预定义标签；正文部分对应另一预定义标签集，所述标签集可包括被告、原告、辩护律师、理由、裁判依据、裁判决定等预定义标签。落款部分对应又一预定义标签集，所述标签集可包括审判长这一预定义标签。

步骤S12，确定至少一需进行标签标记的文书组成部分，确定每一需进行标签标记的文书组成部分所对应的标签集。

其中，所述计算机装置根据所述对应关系确定需进行标签标记的每一需进行标签标记的文书组成部分所对应的标签集。

步骤S13，判断每一需进行标签标记的文书组成部分所对应的标签集是否为预定义标签集，若是，则进行步骤S14；否则，则进行步骤S15。

步骤S14，从所述裁判文书中定位所确定的标签集中每一预定义标签的位置，并将所述预定义标签标记至与所述位置对应的段落。

例如，若所述裁判文书的标题部分对应一预定义标签集且所述预定义标签集所包含的预定义标签包括法院名称时，所述计算机装置识别法院名称这一预定义标签在所述标题部分的位置，并将法院名称作为预定义标签标记至对应的段落位置。若正文部分对应一预定义标签集且所述预定义标签集所包含的预定义标签包括被告、原告、辩护律师、理由、裁判决定时，所述计算机装置分别识别被告、原告、辩护律师、理由、裁判决定这五个预定义标签在所述正文部分的位置，并将被告、原告、辩护律师、理由、裁判决定分别作为预定义标签标记至对应的段落位置。若落款部分对应一预定义标签集且所述预定义标签集所包含的预定义标签包括审判长时，所述计算机装置识别审判长这一预定义标签在所述落款部分的位置，并将审判长作为预定义标签标记至对应的段落位置。

后续，所述将所述预定义标签作为预定义标签标记至所述预定义标签所在的段落之后，所述方法还可进一步包括以下步骤：提取每一预定义标签所在的位置后对应的文本内容，并将所提取的文本内容与所述预定义标签相关联。其中，所提取的文本内容用于体现所述预定义标签的对应的关键信息。如，当标题部分中法院名称为A，则提取的文本内容为A。若正文部分中被告为B，原告为C，辩护律师为D、理由为E、裁判决定为F时，则提取的文本内容分别为B、C、D、E、F。若落款部分中审判长为G时，则提取的文本内容为G。

由于每一预定义标签对应的文本内容通常与所述预定义标签位于同一段落，为保证对应文本内容提取的精确度，在本实施方式中，在从所述裁判文书中定位所确定的标签集中每一预定义标签的位置后，所述计算机装置还识别所述预定义标签之后与所述预定义标签位于同一段落的文书内容，对所述文书内容进行语言逻辑关系分析，从而将所述预定义标签后的文书内容拆分为至少一词语单元，然后将符合所述关键词的语义的词语单元作为所述预定义标签对应的所述文本内容提取出来。

例如，“被告”对应部分的格式通常为：

被告：诺基亚公司

辩护律师：张三，北京罗杰律师事务所

因此，在定位“被告”在所述裁判文书中的位置时，所述计算机装置识别同一段落的文书内容“：诺基亚公司”。然后，根据语言逻辑分析将所述文书内容拆分为“：”以及“诺基亚公司”，由于“诺基亚公司”最符合被告的人名或公司名的语义，所述计算机装置将“诺基亚公司”作为预定义标签“被告”后对应的文本内容。如此，可以提高文本内容提取的精确度。

步骤S15，从所述文书组成部分中提取核心关键词，将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落，并将所述核心关键词加入所述自定义标签集中，从而丰富现有标签集。

在本实施方式中，所述计算机装置过滤所述文书组成部分中包括标点和特殊符号在内的非用词，然后对过滤后的所述文书组成部分进行语言逻辑关系分析，从而将所述文书组成部分拆分为多个词语单元。然后，所述计算机装置将能够体现所述文书组成部分的结论和意义的至少一词语单元作为所述核心关键词。进一步地，在将所述核心关键词加入所述自定义标签集前，所述计算机设备还对所述核心关键词进行同义词扩展，然后才将扩展后的核心关键词加入所述自定义标签集中。

后续，所述将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落之后，所述方法还可进一步包括以下步骤：提取每一核心关键词所在的位置后对应的文本内容，并将所提取的文本内容与所述自定义标签相关联。

步骤S16，结合所有所述裁判文书的标签对目标主体进行画像分析。

其中，所述目标主体可为律师、法院、原告、审判长等。进行画像分析可获得所述目标主体不同维度的属性。在本实施方式中，所述结合所有裁判文书的标签对目标主体进行画像分析包括：

a.根据需进行画像分析的目标主体，筛选出所有所述裁判文书中包含所述目标主体在内的文本内容以及与所述文本内容关联的所有标签(包括预定义标签以及自定义标签)；

b.结合所述裁判文书的其它标签(即，其它预定义标签以及其它自定义标签)所关联的文本内容对所述目标主体进行画像分析，所述其它预定义标签以及其它自定义标签可以根据所述目标主体所需得到的至少一属性进行选择。

例如，若目标主体为张三律师，且所述属性为胜诉率和擅长领域，则可以筛选出包括“张三”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的裁判决定对张三律师的所代理案件进行统计，从而得到张三律师的胜诉率和擅长领域。后续可以依据画像分析结果精确向客户推荐律师人选。

又如，若目标主体为深圳市中级人民法院，且所述属性为案件分布，则可以筛选出包括“深圳市中级人民法院”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的事实和理由对深圳市中级人民法院所代理的案件进行统计，从而得到深圳市中级人民法院的案件分布。

又如，若目标主体为诺基亚公司，且所述属性为胜诉率以及赔偿情况，则可以筛选出包括“诺基亚公司”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的裁判决定对诺基亚公司作为原告或被告时案件的胜诉率以及赔偿情况进行统计。

若目标主体为李四审判长，且所述属性为裁判偏好，则可以筛选出包括 “李四”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的裁判依据和裁判决定对李四审判长的判决偏好进行统计和分析，后续律师可以根据画像分析结果提供应辩方案。

当然，还可以进行同类案件的分析，从而为审判长推送相似的案件，为判决提供大数据支持，提高审判的准确性以及效率。

步骤S17，将所述预定义标签集以及所述自定义标签集合并为新的标签集，使得所述计算机装置可使用所述新的标签集对其它裁判文书进行标记。

通过将所述预定义标签集以及所述自定义标签集进行合并，再将所述新的标签集应用至新的裁判文书中进行自动打标签，从而进一步丰富现有的标签集。

上述图1详细介绍了本发明的利用裁判文书进行目标主体画像分析的方法，下面结合第2-3图，对实现所述利用裁判文书进行目标主体画像分析的方法的软件装置的程序模块以及实现所述利用裁判文书进行目标主体画像分析的方法的硬件装置架构进行介绍。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

实施例二

图2为本发明利用裁判文书进行目标主体画像分析的装置较佳实施例的结构图。

在一些实施例中，所述利用裁判文书进行目标主体画像分析的装置10 运行于计算机装置中。所述利用裁判文书进行目标主体画像分析的装置10 可以包括多个由程序代码段所组成的程序模块。所述利用裁判文书进行目标主体画像分析的装置10中的各个程序段的程序代码可以存储于计算机装置的存储器中，并由所述至少一个处理器所执行，以实现利用裁判文书进行目标主体画像分析的功能。

本实施例中，所述利用裁判文书进行目标主体画像分析的装置10根据其所执行的功能，可以被划分为多个程序模块。参阅图2所示，所述程序模块可以包括：划分模块101、确定模块102、判断模块103、定位与标记模块104、画像分析模块106以及合并模块107。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述划分模块101用于将每一裁判文书划分为多个预设的文书组成部分。

所述确定模块102用于确定至少一需进行标签标记的文书组成部分，确定每一需进行标签标记的文书组成部分所对应的标签集。

其中，所述确定模块102根据所述对应关系确定需进行标签标记的每一需进行标签标记的文书组成部分所对应的标签集。

所述判断模块103用于判断确定每一需进行标签标记的文书组成部分所对应的标签集是否为预定义标签集或自定义标签集。

当其中一需进行标签标记的文书组成部分所对应的标签集为预定义标签集时，所述定位与标记模块104用于从所述裁判文书中定位所确定的标签集中每一预定义标签的位置，并将所述预定义标签标记至与所述位置对应的段落。

例如，若所述裁判文书的标题部分对应一预定义标签集且所述预定义标签集所包含的预定义标签包括法院名称时，所述定位与标记模块104识别法院名称这一预定义标签在所述标题部分的位置，并将法院名称作为预定义标签标记至对应的段落。若正文部分对应一预定义标签集且所述预定义标签集所包含的预定义标签包括被告、原告、辩护律师、理由、裁判决定时，所述定位与标记模块104分别识别被告、原告、辩护律师、理由、裁判决定这五个预定义标签在所述正文部分的位置，并将被告、原告、辩护律师、理由、裁判决定分别作为预定义标签标记至对应的段落。若落款部分对应一预定义标签集且所述预定义标签集所包含的预定义标签包括审判长时，所述定位与标记模块104识别审判长这一预定义标签在所述落款部分的位置，并将审判长作为预定义标签标记至对应的段落。

在本实施方式中，所述利用裁判文书进行目标主体画像分析的装置10 的程序模块还包括一关联模块105。在所述定位与标记模块104将所述预定义标签标记至对应的段落之后，所述关联模块105用于提取每一预定义标签所在的位置后对应的文本内容，并将所提取的文本内容与所述预定义标签相关联。其中，所提取的文本内容用于体现所述预定义标签的对应的关键信息。如，当标题部分中法院名称为A，则所述关联模块105提取的文本内容为A。若正文部分中被告为B，原告为C，辩护律师为D、理由为E、裁判决定为F 时，则所述关联模块105提取的文本内容分别为B、C、D、E、F。若落款部分中审判长为G时，则所述关联模块105提取的文本内容为G。

由于每一预定义标签对应的文本内容通常与所述预定义标签位于同一段落，为保证对应文本内容提取的精确度，在本实施方式中，在定位与标记模块104从所述裁判文书中定位所确定的标签集中每一预定义标签的位置后，所述关联模块105识别所述预定义标签之后与所述预定义标签位于同一段落的文书内容，对所述文书内容进行语言逻辑关系分析，从而将所述预定义标签后的文书内容拆分为至少一词语单元，然后将符合所述关键词的语义的词语单元作为所述预定义标签对应的所述文本内容提取出来。

例如，“被告”对应部分的格式通常为：

被告：诺基亚公司

辩护律师：张三，北京罗杰律师事务所

因此，在定位“被告”在所述裁判文书中的位置时，所述关联模块105识别同一段落的文书内容“：诺基亚公司”。然后，根据语言逻辑分析将所述文书内容拆分为“：”以及“诺基亚公司”，由于“诺基亚公司”最符合被告的人名或公司名的语义，所述关联模块105将“诺基亚公司”作为预定义标签“被告” 后对应的文本内容。如此，可以提高文本内容提取的精确度。

当其中一需进行标签标记的文书组成部分所对应的标签集为自定义标签时，所述定位与标记模块104还用于从所述文书组成部分中提取核心关键词，将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落，并将所述核心关键词加入所述自定义标签集中，从而丰富现有标签集。

在本实施方式中，所述定位与标记模块104过滤所述文书组成部分中包括标点和特殊符号在内的非用词，然后对过滤后的所述文书组成部分进行语言逻辑关系分析，从而将所述文书组成部分拆分为多个词语单元。然后，所述定位与标记模块104将能够体现所述文书组成部分的结论和意义的至少一词语单元作为所述核心关键词。进一步地，在将所述核心关键词加入所述自定义标签集前，所述定位与标记模块104还对所述核心关键词进行同义词扩展，然后才将扩展后的核心关键词加入所述自定义标签集中。

后续，在所述定位与标记模块104将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落之后，所述关联模块105还用于提取每一核心关键词所在的位置后对应的文本内容，并将所提取的文本内容与所述自定义标签相关联。

所述画像分析模块106用于结合所有所述裁判文书的标签对目标主体进行画像分析。

例如，若目标主体为张三律师，且所述属性为胜诉率和擅长领域，则所述画像分析模块106可以筛选出包括“张三”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的裁判决定对张三律师的所代理案件进行统计，从而得到张三律师的胜诉率和擅长领域。后续可以依据画像分析结果精确向客户推荐律师人选。

又如，若目标主体为深圳市中级人民法院，且所述属性为案件分布，则所述画像分析模块106可以筛选出包括“深圳市中级人民法院”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的事实和理由对深圳市中级人民法院所代理的案件进行统计，从而得到深圳市中级人民法院的案件分布。

又如，若目标主体为诺基亚公司，且所述属性为胜诉率以及赔偿情况，则所述画像分析模块106可以筛选出包括“诺基亚公司”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的裁判决定对诺基亚公司作为原告或被告时案件的胜诉率以及赔偿情况进行统计。

若目标主体为李四审判长，且所述属性为裁判偏好，则所述画像分析模块106可以筛选出包括“李四”在内的文本内容以及与所述文本内容关联的标签，根据所述标签中包含的裁判依据和裁判决定对李四审判长的判决偏好进行统计和分析，后续律师可以根据画像分析结果提供应辩方案。

所述合并模块107用于将所述预定义标签集以及所述自定义标签集合并为新的标签集，使得所述利用裁判文书进行目标主体画像分析的装置10可使用所述新的标签集对其它裁判文书进行标记。

如前所述，本发明实施例通过自动向每一裁判文书标记标签，通过标签中文本内容进行统计，从而向用户提供大数据支持，可利于提高司法办事效率。

实施例三

图3为本发明计算机装置较佳实施例的示意图。

所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20 中并可在所述处理器30上运行的计算机程序40，例如利用裁判文书进行目标主体画像分析的程序。所述处理器30执行所述计算机程序40时实现上述利用裁判文书进行目标主体画像分析的方法实施例中的步骤，例如图1所示的步骤S11～S17。或者，所述处理器30执行所述计算机程序40时实现上述利用裁判文书进行目标主体画像分析的装置实施例中各模块/单元的功能，例如图2中的模块101-107。

示例性的，所述计算机程序40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如，所述计算机程序40可以被分割成图2中的划分模块101、确定模块102、判断模块103、定位与标记模块104、关联模块105、画像分析模块106以及合并模块107。各模块具体功能参见实施例二。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图仅仅是计算机装置1 的示例，并不构成对计算机装置1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等，所述处理器30是所述计算机装置1的控制中心，利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的计算机装置和方法，可以通过其它的方式实现。例如，以上所描述的计算机装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件程序模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然 “包括”一词不排除其他单元或步骤，单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种利用裁判文书进行目标主体画像分析的方法，应用于一计算机装置中，其特征在于，所述利用裁判文书进行目标主体画像分析的方法包括：

将每一裁判文书划分为多个预设的文书组成部分；

当其中一所确定的标签集为预定义标签集时，从所述裁判文书中定位所确定的标签集中每一预定义标签的位置，并将所述预定义标签标记至与所述位置对应的段落，提取每一预定义标签所在的位置后对应的文本内容，并将所提取的文本内容与所述预定义标签相关联；所述提取每一预定义标签所在的位置后对应的文本内容包括：识别所述预定义标签之后与所述预定义标签位于同一段落的文书内容，对所述文书内容进行语言逻辑关系分析，从而将所述预定义标签后的文书内容拆分为至少一词语单元，将符合所述关键词的语义的词语单元作为所述预定义标签对应的所述文本内容提取出来；

2.如权利要求1所述的利用裁判文书进行目标主体画像分析的方法，其特征在于，所述从所述文书组成部分中提取核心关键词包括：

过滤所述文书组成部分中包括标点和特殊符号在内的非用词；对过滤后的所述文书组成部分进行语言逻辑关系分析，从而将所述文书组成部分拆分为多个词语单元；以及

将能够体现所述文书组成部分的结论和意义的至少一词语单元作为所述核心关键词。

3.如权利要求1所述的利用裁判文书进行目标主体画像分析的方法，其特征在于，所述结合所有裁判文书的标签对目标主体进行画像分析包括：

筛选出所有所述裁判文书中包含所述目标主体在内的文本内容以及与所述文本内容关联的所有预定义标签以及自定义标签；以及

结合所述裁判文书的其它预定义标签以及其它自定义标签所关联的文本内容对所述目标主体进行画像分析，所述其它预定义标签以及其它自定义标签为根据所述目标主体所需得到的至少一属性进行选择。

4.一种利用裁判文书进行目标主体画像分析的装置，其特征在于，所述装置包括：

关联模块，用于当定位与标记模块将所述预定义标签标记至与所述位置对应的段落之后，提取每一预定义标签所在的位置后对应的文本内容，并将所提取的文本内容与所述预定义标签相关联，所述提取每一预定义标签所在的位置后对应的文本内容包括：识别所述预定义标签之后与所述预定义标签位于同一段落的文书内容，对所述文书内容进行语言逻辑关系分析，从而将所述预定义标签后的文书内容拆分为至少一词语单元，将符合所述关键词的语义的词语单元作为所述预定义标签对应的所述文本内容提取出来；

合并模块，用于将所述预定义标签集以及所述自定义标签集合并为新的标签集，使得计算机装置可使用所述新的标签集对其它裁判文书进行标记。

5.一种计算机装置，其特征在于：所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-3中任一项所述的利用裁判文书进行目标主体画像分析的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的利用裁判文书进行目标主体画像分析的方法。