CN110175233B - 目标主体画像分析的方法、装置、计算机装置及存储介质 - Google Patents

目标主体画像分析的方法、装置、计算机装置及存储介质 Download PDF

Info

Publication number
CN110175233B
CN110175233B CN201910173517.3A CN201910173517A CN110175233B CN 110175233 B CN110175233 B CN 110175233B CN 201910173517 A CN201910173517 A CN 201910173517A CN 110175233 B CN110175233 B CN 110175233B
Authority
CN
China
Prior art keywords
predefined
document
label
tags
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910173517.3A
Other languages
English (en)
Other versions
CN110175233A (zh
Inventor
刘玉强
方俊波
鄢真
杨昊燃
李雯
叶素兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910173517.3A priority Critical patent/CN110175233B/zh
Publication of CN110175233A publication Critical patent/CN110175233A/zh
Application granted granted Critical
Publication of CN110175233B publication Critical patent/CN110175233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种利用裁判文书进行目标主体画像分析的方法包括:将每一裁判文书划分为多个文书组成部分;确定每一需进行标签标记的文书组成部分所对应的标签集;判断所确定的每一标签集为预定义或是自定义标签集;当为预定义标签集时,从裁判文书中定位所确定的标签集中每一预定义标签的位置,并将预定义标签标记至与所述位置对应的段落;否则,从所述文书组成部分中提取核心关键词,将核心关键词作为自定义标签标记至核心关键词所在的段落,并将核心关键词加入自定义标签集中;结合所有裁判文书的预定义标签及自定义标签对目标主体进行画像分析。本发明还提供一种目标主体画像分析的装置、计算机装置及存储介质,能够通过用户行为画像提供大数据支持。

Description

目标主体画像分析的方法、装置、计算机装置及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种利用裁判文书进行目标主体画 像分析的方法、利用裁判文书进行目标主体画像分析的装置、计算机装置及计 算机可读存储介质。
背景技术
司法裁判文书记载了人民法院对案件的审理过程和结果。如果能够结合司 法判决文书对法官、被告等目标主体进行画像分析,可以在一定程度上提高司 法办事效率。然而,目前尚没有根据司法判决文书进行画像分析的手段。
发明内容
鉴于以上内容,有必要提出一种利用裁判文书进行目标主体画像分析的方 法及装置、计算机装置和计算机可读存储介质,从而解决以上问题。
本申请的第一方面提供一种应利用裁判文书进行目标主体画像分析的方 法,应用于一计算机装置中,所述方法包括:
将每一裁判文书划分为多个预设的文书组成部分;
确定至少一需进行标签标记的文书组成部分,确定每一需进行标签标记的 文书组成部分所对应的标签集,其中,所述标签集为预定义标签以及自定义标 签中的其中一种,所述预定义标签集包括多个预定义标签;
判断所确定的每一标签集为预定义标签集或是自定义标签集;
当其中一所确定的标签集为预定义标签集时,从所述裁判文书中定位所确 定的标签集中每一预定义标签的位置,并将所述预定义标签标记至与所述位置 对应的段落;
当其中一所确定的标签集为自定义标签集时,从所述文书组成部分中提取 核心关键词,将所述核心关键词作为自定义标签标记至所述核心关键词所在的 段落,并将所述核心关键词加入所述自定义标签集中;
结合所有所述裁判文书的预定义标签以及自定义标签对所述目标主体进行 画像分析;以及
将所述预定义标签集以及所述自定义标签集合并为新的标签集,使得所述 计算机装置可使用所述新的标签集对其它裁判文书进行标记。
本申请的第二方面提供一种利用裁判文书进行目标主体画像分析的装置, 所述装置包括:
划分模块,用于将每一裁判文书划分为多个预设的文书组成部分;
确定模块,用于确定至少一需进行标签标记的文书组成部分,确定每一需 进行标签标记的文书组成部分所对应的标签集,其中,所述标签集为预定义标 签以及自定义标签中的其中一种,所述预定义标签集包括多个预定义标签;
判断模块,用于判断所确定的每一标签集为预定义标签集或是自定义标签 集;
定位与标记模块,用于当其中一所确定的标签集为预定义标签集时,从所 述裁判文书中定位所确定的标签集中每一预定义标签的位置,并将所述预定义 标签标记至与所述位置对应的段落;所述定位与标记模块还用于当其中一所确 定的标签集为自定义标签集时,从所述文书组成部分中提取核心关键词,将所 述核心关键词作为自定义标签标记至所述核心关键词所在的段落,并将所述核 心关键词加入所述自定义标签集中;
画像分析模块,用于结合所有所述裁判文书的预定义标签以及自定义标签 对所述目标主体进行画像分析;以及
合并模块,用于将所述预定义标签集以及所述自定义标签集合并为新的标 签集,使得所述计算机装置可使用所述新的标签集对其它裁判文书进行标记。
本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所 述处理器用于执行存储器中存储的计算机程序时实现如前所述利用裁判文书进 行目标主体画像分析的方法。
本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序, 所述计算机程序被处理器执行时实现如前所述利用裁判文书进行目标主体画像 分析的方法。
本发明实施例通过自动向每一裁判文书标记标签,通过标签中文本内容 进行统计,从而向用户提供大数据支持,可利于提高司法办事效率。
附图说明
图1是本发明实施例一提供的利用裁判文书进行目标主体画像分析的方 法的流程图。
图2是本发明实施例二提供的利用裁判文书进行目标主体画像分析的装 置的结构示意图。
图3是本发明实施例三提供的计算机装置示意图。
符号说明
Figure BDA0001988790990000031
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图 和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下, 本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的 实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技 术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用 的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
请参阅图1所示,是本发明第一实施例提供的利用裁判文书进行目标主 体画像分析的方法的流程图。所述利用裁判文书进行目标主体画像分析的方 法应用于一计算机装置中。根据不同的需求,该流程图中步骤的顺序可以改 变,某些步骤可以省略。
步骤S11,将每一裁判文书划分为多个预设的文书组成部分。
其中,所述裁判文书的格式可以为文本格式。在本实施方式中,所述文 书组成部分包括标题部分、正文部分以及落款部分。所述标题部分位于所述 裁判文书的首部,包括法院名称、文书名称和案号等。所述正文部分包括首 部、事实、理由、裁判依据、裁判决定、尾部。首部包括诉讼参加人(包括被 告、原告以及辩护律师等)及其基本情况,案件由来和审理经过等;事实包括 当事人的诉讼请求、事实和理由,人民法院认定的证据及事实;理由是根据 认定的案件事实和法律依据,对当事人的诉讼请求是否成立进行分析评述, 阐明理由;裁判依据是人民法院作出裁判所依据的实体法和程序法条文;裁 判决定是人民法院对案件实体、程序问题作出的明确、具体、完整的处理决 定;尾部包括诉讼费用负担和告知事项等。所述落款部分位于所述裁判文书 的尾部,包括审判长、审判员和书记员的署名、日期等。
在本实施方式中,所述计算机装置中预先设置有所述裁判文书需进行标 签标记的至少一文书组成部分,所述计算机装置还预先存储有需进行标签标 记的的文书组成部分与标签集之间的对应关系。其中,每一文书组成部分对 应一标签集。每一标签集为自定义标签集以及预定义标签集中的其中一种, 所述自定义标签集的内容为空,而预定义标签集包括多个预定义标签。其中, 所述预定义标签集可由专业人员收集,所述预定义标签为所述文书组成部分 中通常会出现的关键词。每一文书组成部分的所述标签集包含的预定义标签 还可根据所述文书组成部分的重要信息进行设置以及变更。如,设置所述裁 判文书需进行标签标记的包括标题部分、正文部分以及落款部分。标题部分 对应一预定义标签集,所述标签集可包括法院名称这一预定义标签;正文部 分对应另一预定义标签集,所述标签集可包括被告、原告、辩护律师、理由、 裁判依据、裁判决定等预定义标签。落款部分对应又一预定义标签集,所述 标签集可包括审判长这一预定义标签。
步骤S12,确定至少一需进行标签标记的文书组成部分,确定每一需进 行标签标记的文书组成部分所对应的标签集。
其中,所述计算机装置根据所述对应关系确定需进行标签标记的每一需 进行标签标记的文书组成部分所对应的标签集。
步骤S13,判断每一需进行标签标记的文书组成部分所对应的标签集是 否为预定义标签集,若是,则进行步骤S14;否则,则进行步骤S15。
步骤S14,从所述裁判文书中定位所确定的标签集中每一预定义标签的 位置,并将所述预定义标签标记至与所述位置对应的段落。
例如,若所述裁判文书的标题部分对应一预定义标签集且所述预定义标 签集所包含的预定义标签包括法院名称时,所述计算机装置识别法院名称这 一预定义标签在所述标题部分的位置,并将法院名称作为预定义标签标记至 对应的段落位置。若正文部分对应一预定义标签集且所述预定义标签集所包 含的预定义标签包括被告、原告、辩护律师、理由、裁判决定时,所述计算 机装置分别识别被告、原告、辩护律师、理由、裁判决定这五个预定义标签 在所述正文部分的位置,并将被告、原告、辩护律师、理由、裁判决定分别 作为预定义标签标记至对应的段落位置。若落款部分对应一预定义标签集且 所述预定义标签集所包含的预定义标签包括审判长时,所述计算机装置识别 审判长这一预定义标签在所述落款部分的位置,并将审判长作为预定义标签 标记至对应的段落位置。
后续,所述将所述预定义标签作为预定义标签标记至所述预定义标签所 在的段落之后,所述方法还可进一步包括以下步骤:提取每一预定义标签所 在的位置后对应的文本内容,并将所提取的文本内容与所述预定义标签相关 联。其中,所提取的文本内容用于体现所述预定义标签的对应的关键信息。 如,当标题部分中法院名称为A,则提取的文本内容为A。若正文部分中被 告为B,原告为C,辩护律师为D、理由为E、裁判决定为F时,则提取的文本内容分别为B、C、D、E、F。若落款部分中审判长为G时,则提取的 文本内容为G。
由于每一预定义标签对应的文本内容通常与所述预定义标签位于同一段 落,为保证对应文本内容提取的精确度,在本实施方式中,在从所述裁判文 书中定位所确定的标签集中每一预定义标签的位置后,所述计算机装置还识 别所述预定义标签之后与所述预定义标签位于同一段落的文书内容,对所述 文书内容进行语言逻辑关系分析,从而将所述预定义标签后的文书内容拆分 为至少一词语单元,然后将符合所述关键词的语义的词语单元作为所述预定 义标签对应的所述文本内容提取出来。
例如,“被告”对应部分的格式通常为:
被告:诺基亚公司
辩护律师:张三,北京罗杰律师事务所
因此,在定位“被告”在所述裁判文书中的位置时,所述计算机装置识别 同一段落的文书内容“:诺基亚公司”。然后,根据语言逻辑分析将所述文书 内容拆分为“:”以及“诺基亚公司”,由于“诺基亚公司”最符合被告的人名或 公司名的语义,所述计算机装置将“诺基亚公司”作为预定义标签“被告”后对 应的文本内容。如此,可以提高文本内容提取的精确度。
步骤S15,从所述文书组成部分中提取核心关键词,将所述核心关键词 作为自定义标签标记至所述核心关键词所在的段落,并将所述核心关键词加 入所述自定义标签集中,从而丰富现有标签集。
在本实施方式中,所述计算机装置过滤所述文书组成部分中包括标点和 特殊符号在内的非用词,然后对过滤后的所述文书组成部分进行语言逻辑关 系分析,从而将所述文书组成部分拆分为多个词语单元。然后,所述计算机 装置将能够体现所述文书组成部分的结论和意义的至少一词语单元作为所述 核心关键词。进一步地,在将所述核心关键词加入所述自定义标签集前,所 述计算机设备还对所述核心关键词进行同义词扩展,然后才将扩展后的核心 关键词加入所述自定义标签集中。
后续,所述将所述核心关键词作为自定义标签标记至所述核心关键词所 在的段落之后,所述方法还可进一步包括以下步骤:提取每一核心关键词所 在的位置后对应的文本内容,并将所提取的文本内容与所述自定义标签相关 联。
步骤S16,结合所有所述裁判文书的标签对目标主体进行画像分析。
其中,所述目标主体可为律师、法院、原告、审判长等。进行画像分析 可获得所述目标主体不同维度的属性。在本实施方式中,所述结合所有裁判 文书的标签对目标主体进行画像分析包括:
a.根据需进行画像分析的目标主体,筛选出所有所述裁判文书中包含所 述目标主体在内的文本内容以及与所述文本内容关联的所有标签(包括预定 义标签以及自定义标签);
b.结合所述裁判文书的其它标签(即,其它预定义标签以及其它自定义 标签)所关联的文本内容对所述目标主体进行画像分析,所述其它预定义标签 以及其它自定义标签可以根据所述目标主体所需得到的至少一属性进行选 择。
例如,若目标主体为张三律师,且所述属性为胜诉率和擅长领域,则可 以筛选出包括“张三”在内的文本内容以及与所述文本内容关联的标签,根据 所述标签中包含的裁判决定对张三律师的所代理案件进行统计,从而得到张 三律师的胜诉率和擅长领域。后续可以依据画像分析结果精确向客户推荐律 师人选。
又如,若目标主体为深圳市中级人民法院,且所述属性为案件分布,则 可以筛选出包括“深圳市中级人民法院”在内的文本内容以及与所述文本内容 关联的标签,根据所述标签中包含的事实和理由对深圳市中级人民法院所代 理的案件进行统计,从而得到深圳市中级人民法院的案件分布。
又如,若目标主体为诺基亚公司,且所述属性为胜诉率以及赔偿情况, 则可以筛选出包括“诺基亚公司”在内的文本内容以及与所述文本内容关联的 标签,根据所述标签中包含的裁判决定对诺基亚公司作为原告或被告时案件 的胜诉率以及赔偿情况进行统计。
若目标主体为李四审判长,且所述属性为裁判偏好,则可以筛选出包括 “李四”在内的文本内容以及与所述文本内容关联的标签,根据所述标签中包 含的裁判依据和裁判决定对李四审判长的判决偏好进行统计和分析,后续律 师可以根据画像分析结果提供应辩方案。
当然,还可以进行同类案件的分析,从而为审判长推送相似的案件,为 判决提供大数据支持,提高审判的准确性以及效率。
步骤S17,将所述预定义标签集以及所述自定义标签集合并为新的标签 集,使得所述计算机装置可使用所述新的标签集对其它裁判文书进行标记。
通过将所述预定义标签集以及所述自定义标签集进行合并,再将所述新 的标签集应用至新的裁判文书中进行自动打标签,从而进一步丰富现有的标 签集。
上述图1详细介绍了本发明的利用裁判文书进行目标主体画像分析的方 法,下面结合第2-3图,对实现所述利用裁判文书进行目标主体画像分析的 方法的软件装置的程序模块以及实现所述利用裁判文书进行目标主体画像分 析的方法的硬件装置架构进行介绍。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的 限制。
实施例二
图2为本发明利用裁判文书进行目标主体画像分析的装置较佳实施例的 结构图。
在一些实施例中,所述利用裁判文书进行目标主体画像分析的装置10 运行于计算机装置中。所述利用裁判文书进行目标主体画像分析的装置10 可以包括多个由程序代码段所组成的程序模块。所述利用裁判文书进行目标 主体画像分析的装置10中的各个程序段的程序代码可以存储于计算机装置 的存储器中,并由所述至少一个处理器所执行,以实现利用裁判文书进行目 标主体画像分析的功能。
本实施例中,所述利用裁判文书进行目标主体画像分析的装置10根据其 所执行的功能,可以被划分为多个程序模块。参阅图2所示,所述程序模块 可以包括:划分模块101、确定模块102、判断模块103、定位与标记模块104、 画像分析模块106以及合并模块107。本发明所称的模块是指一种能够被至 少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储 在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述划分模块101用于将每一裁判文书划分为多个预设的文书组成部 分。
其中,所述裁判文书的格式可以为文本格式。在本实施方式中,所述文 书组成部分包括标题部分、正文部分以及落款部分。所述标题部分位于所述 裁判文书的首部,包括法院名称、文书名称和案号等。所述正文部分包括首 部、事实、理由、裁判依据、裁判决定、尾部。首部包括诉讼参加人(包括被 告、原告以及辩护律师等)及其基本情况,案件由来和审理经过等;事实包括 当事人的诉讼请求、事实和理由,人民法院认定的证据及事实;理由是根据 认定的案件事实和法律依据,对当事人的诉讼请求是否成立进行分析评述, 阐明理由;裁判依据是人民法院作出裁判所依据的实体法和程序法条文;裁 判决定是人民法院对案件实体、程序问题作出的明确、具体、完整的处理决 定;尾部包括诉讼费用负担和告知事项等。所述落款部分位于所述裁判文书 的尾部,包括审判长、审判员和书记员的署名、日期等。
在本实施方式中,所述计算机装置中预先设置有所述裁判文书需进行标 签标记的至少一文书组成部分,所述计算机装置还预先存储有需进行标签标 记的的文书组成部分与标签集之间的对应关系。其中,每一文书组成部分对 应一标签集。每一标签集为自定义标签集以及预定义标签集中的其中一种, 所述自定义标签集的内容为空,而预定义标签集包括多个预定义标签。其中, 所述预定义标签集可由专业人员收集,所述预定义标签为所述文书组成部分 中通常会出现的关键词。每一文书组成部分的所述标签集包含的预定义标签 还可根据所述文书组成部分的重要信息进行设置以及变更。如,设置所述裁 判文书需进行标签标记的包括标题部分、正文部分以及落款部分。标题部分 对应一预定义标签集,所述标签集可包括法院名称这一预定义标签;正文部 分对应另一预定义标签集,所述标签集可包括被告、原告、辩护律师、理由、 裁判依据、裁判决定等预定义标签。落款部分对应又一预定义标签集,所述 标签集可包括审判长这一预定义标签。
所述确定模块102用于确定至少一需进行标签标记的文书组成部分,确 定每一需进行标签标记的文书组成部分所对应的标签集。
其中,所述确定模块102根据所述对应关系确定需进行标签标记的每一 需进行标签标记的文书组成部分所对应的标签集。
所述判断模块103用于判断确定每一需进行标签标记的文书组成部分所 对应的标签集是否为预定义标签集或自定义标签集。
当其中一需进行标签标记的文书组成部分所对应的标签集为预定义标签 集时,所述定位与标记模块104用于从所述裁判文书中定位所确定的标签集 中每一预定义标签的位置,并将所述预定义标签标记至与所述位置对应的段 落。
例如,若所述裁判文书的标题部分对应一预定义标签集且所述预定义标 签集所包含的预定义标签包括法院名称时,所述定位与标记模块104识别法 院名称这一预定义标签在所述标题部分的位置,并将法院名称作为预定义标 签标记至对应的段落。若正文部分对应一预定义标签集且所述预定义标签集 所包含的预定义标签包括被告、原告、辩护律师、理由、裁判决定时,所述 定位与标记模块104分别识别被告、原告、辩护律师、理由、裁判决定这五 个预定义标签在所述正文部分的位置,并将被告、原告、辩护律师、理由、 裁判决定分别作为预定义标签标记至对应的段落。若落款部分对应一预定义 标签集且所述预定义标签集所包含的预定义标签包括审判长时,所述定位与 标记模块104识别审判长这一预定义标签在所述落款部分的位置,并将审判 长作为预定义标签标记至对应的段落。
在本实施方式中,所述利用裁判文书进行目标主体画像分析的装置10 的程序模块还包括一关联模块105。在所述定位与标记模块104将所述预定 义标签标记至对应的段落之后,所述关联模块105用于提取每一预定义标签 所在的位置后对应的文本内容,并将所提取的文本内容与所述预定义标签相 关联。其中,所提取的文本内容用于体现所述预定义标签的对应的关键信息。 如,当标题部分中法院名称为A,则所述关联模块105提取的文本内容为A。 若正文部分中被告为B,原告为C,辩护律师为D、理由为E、裁判决定为F 时,则所述关联模块105提取的文本内容分别为B、C、D、E、F。若落款部 分中审判长为G时,则所述关联模块105提取的文本内容为G。
由于每一预定义标签对应的文本内容通常与所述预定义标签位于同一段 落,为保证对应文本内容提取的精确度,在本实施方式中,在定位与标记模 块104从所述裁判文书中定位所确定的标签集中每一预定义标签的位置后, 所述关联模块105识别所述预定义标签之后与所述预定义标签位于同一段落 的文书内容,对所述文书内容进行语言逻辑关系分析,从而将所述预定义标 签后的文书内容拆分为至少一词语单元,然后将符合所述关键词的语义的词 语单元作为所述预定义标签对应的所述文本内容提取出来。
例如,“被告”对应部分的格式通常为:
被告:诺基亚公司
辩护律师:张三,北京罗杰律师事务所
因此,在定位“被告”在所述裁判文书中的位置时,所述关联模块105识 别同一段落的文书内容“:诺基亚公司”。然后,根据语言逻辑分析将所述文 书内容拆分为“:”以及“诺基亚公司”,由于“诺基亚公司”最符合被告的人名 或公司名的语义,所述关联模块105将“诺基亚公司”作为预定义标签“被告” 后对应的文本内容。如此,可以提高文本内容提取的精确度。
当其中一需进行标签标记的文书组成部分所对应的标签集为自定义标签 时,所述定位与标记模块104还用于从所述文书组成部分中提取核心关键词, 将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落,并将 所述核心关键词加入所述自定义标签集中,从而丰富现有标签集。
在本实施方式中,所述定位与标记模块104过滤所述文书组成部分中包 括标点和特殊符号在内的非用词,然后对过滤后的所述文书组成部分进行语 言逻辑关系分析,从而将所述文书组成部分拆分为多个词语单元。然后,所 述定位与标记模块104将能够体现所述文书组成部分的结论和意义的至少一 词语单元作为所述核心关键词。进一步地,在将所述核心关键词加入所述自 定义标签集前,所述定位与标记模块104还对所述核心关键词进行同义词扩 展,然后才将扩展后的核心关键词加入所述自定义标签集中。
后续,在所述定位与标记模块104将所述核心关键词作为自定义标签标 记至所述核心关键词所在的段落之后,所述关联模块105还用于提取每一核 心关键词所在的位置后对应的文本内容,并将所提取的文本内容与所述自定 义标签相关联。
所述画像分析模块106用于结合所有所述裁判文书的标签对目标主体进 行画像分析。
其中,所述目标主体可为律师、法院、原告、审判长等。进行画像分析 可获得所述目标主体不同维度的属性。在本实施方式中,所述结合所有裁判 文书的标签对目标主体进行画像分析包括:
a.根据需进行画像分析的目标主体,筛选出所有所述裁判文书中包含所 述目标主体在内的文本内容以及与所述文本内容关联的所有标签(包括预定 义标签以及自定义标签);
b.结合所述裁判文书的其它标签(即,其它预定义标签以及其它自定义 标签)所关联的文本内容对所述目标主体进行画像分析,所述其它预定义标签 以及其它自定义标签可以根据所述目标主体所需得到的至少一属性进行选 择。
例如,若目标主体为张三律师,且所述属性为胜诉率和擅长领域,则所 述画像分析模块106可以筛选出包括“张三”在内的文本内容以及与所述文本 内容关联的标签,根据所述标签中包含的裁判决定对张三律师的所代理案件 进行统计,从而得到张三律师的胜诉率和擅长领域。后续可以依据画像分析 结果精确向客户推荐律师人选。
又如,若目标主体为深圳市中级人民法院,且所述属性为案件分布,则 所述画像分析模块106可以筛选出包括“深圳市中级人民法院”在内的文本内 容以及与所述文本内容关联的标签,根据所述标签中包含的事实和理由对深 圳市中级人民法院所代理的案件进行统计,从而得到深圳市中级人民法院的 案件分布。
又如,若目标主体为诺基亚公司,且所述属性为胜诉率以及赔偿情况, 则所述画像分析模块106可以筛选出包括“诺基亚公司”在内的文本内容以及 与所述文本内容关联的标签,根据所述标签中包含的裁判决定对诺基亚公司 作为原告或被告时案件的胜诉率以及赔偿情况进行统计。
若目标主体为李四审判长,且所述属性为裁判偏好,则所述画像分析模 块106可以筛选出包括“李四”在内的文本内容以及与所述文本内容关联的 标签,根据所述标签中包含的裁判依据和裁判决定对李四审判长的判决偏好 进行统计和分析,后续律师可以根据画像分析结果提供应辩方案。
当然,还可以进行同类案件的分析,从而为审判长推送相似的案件,为 判决提供大数据支持,提高审判的准确性以及效率。
所述合并模块107用于将所述预定义标签集以及所述自定义标签集合并 为新的标签集,使得所述利用裁判文书进行目标主体画像分析的装置10可使 用所述新的标签集对其它裁判文书进行标记。
通过将所述预定义标签集以及所述自定义标签集进行合并,再将所述新 的标签集应用至新的裁判文书中进行自动打标签,从而进一步丰富现有的标 签集。
如前所述,本发明实施例通过自动向每一裁判文书标记标签,通过标签中 文本内容进行统计,从而向用户提供大数据支持,可利于提高司法办事效率。
实施例三
图3为本发明计算机装置较佳实施例的示意图。
所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20 中并可在所述处理器30上运行的计算机程序40,例如利用裁判文书进行目 标主体画像分析的程序。所述处理器30执行所述计算机程序40时实现上述 利用裁判文书进行目标主体画像分析的方法实施例中的步骤,例如图1所示 的步骤S11~S17。或者,所述处理器30执行所述计算机程序40时实现上述 利用裁判文书进行目标主体画像分析的装置实施例中各模块/单元的功能,例 如图2中的模块101-107。
示例性的,所述计算机程序40可以被分割成一个或多个模块/单元,所 述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器30执 行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一 系列计算机程序指令段,该指令段用于描述所述计算机程序40在所述计算机 装置1中的执行过程。例如,所述计算机程序40可以被分割成图2中的划分 模块101、确定模块102、判断模块103、定位与标记模块104、关联模块105、 画像分析模块106以及合并模块107。各模块具体功能参见实施例二。
所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务 器等计算设备。本领域技术人员可以理解,所述示意图仅仅是计算机装置1 的示例,并不构成对计算机装置1的限定,可以包括比图示更多或更少的部 件,或者组合某些部件,或者不同的部件,例如所述计算机装置1还可以包 括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还 可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、 专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门 阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分 立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或 者该处理器30也可以是任何常规的处理器等,所述处理器30是所述计算机 装置1的控制中心,利用各种接口和线路连接整个计算机装置1的各个部分。
所述存储器20可用于存储所述计算机程序40和/或模块/单元,所述处 理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单 元,以及调用存储在存储器20内的数据,实现所述计算机装置1的各种功能。 所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放 功能等)等;存储数据区可存储根据计算机装置1的使用所创建的数据(比 如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器, 还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、 至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并 作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。 基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以 通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计 算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方 法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机 程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或 装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储 器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所 述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求 进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可 读介质不包括电载波信号和电信信号。
在本发明所提供的几个实施例中,应该理解到,所揭露的计算机装置和 方法,可以通过其它的方式实现。例如,以上所描述的计算机装置实施例仅 仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实 现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件 程序模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实 现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且 是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨 在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。 不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然 “包括”一词不排除其他单元或步骤,单数不排除复数。计算机装置权利要求 中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件 或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的 顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制, 尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当 理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术 方案的精神和范围。

Claims (6)

1.一种利用裁判文书进行目标主体画像分析的方法,应用于一计算机装置中,其特征在于,所述利用裁判文书进行目标主体画像分析的方法包括:
将每一裁判文书划分为多个预设的文书组成部分;
确定至少一需进行标签标记的文书组成部分,确定每一需进行标签标记的文书组成部分所对应的标签集,其中,所述标签集为预定义标签以及自定义标签中的其中一种,所述预定义标签集包括多个预定义标签;
判断所确定的每一标签集为预定义标签集或是自定义标签集;
当其中一所确定的标签集为预定义标签集时,从所述裁判文书中定位所确定的标签集中每一预定义标签的位置,并将所述预定义标签标记至与所述位置对应的段落,提取每一预定义标签所在的位置后对应的文本内容,并将所提取的文本内容与所述预定义标签相关联;所述提取每一预定义标签所在的位置后对应的文本内容包括:识别所述预定义标签之后与所述预定义标签位于同一段落的文书内容,对所述文书内容进行语言逻辑关系分析,从而将所述预定义标签后的文书内容拆分为至少一词语单元,将符合所述关键词的语义的词语单元作为所述预定义标签对应的所述文本内容提取出来;
当其中一所确定的标签集为自定义标签集时,从所述文书组成部分中提取核心关键词,将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落,并将所述核心关键词加入所述自定义标签集中;
结合所有所述裁判文书的预定义标签以及自定义标签对所述目标主体进行画像分析;以及
将所述预定义标签集以及所述自定义标签集合并为新的标签集,使得所述计算机装置可使用所述新的标签集对其它裁判文书进行标记。
2.如权利要求1所述的利用裁判文书进行目标主体画像分析的方法,其特征在于,所述从所述文书组成部分中提取核心关键词包括:
过滤所述文书组成部分中包括标点和特殊符号在内的非用词;对过滤后的所述文书组成部分进行语言逻辑关系分析,从而将所述文书组成部分拆分为多个词语单元;以及
将能够体现所述文书组成部分的结论和意义的至少一词语单元作为所述核心关键词。
3.如权利要求1所述的利用裁判文书进行目标主体画像分析的方法,其特征在于,所述结合所有裁判文书的标签对目标主体进行画像分析包括:
筛选出所有所述裁判文书中包含所述目标主体在内的文本内容以及与所述文本内容关联的所有预定义标签以及自定义标签;以及
结合所述裁判文书的其它预定义标签以及其它自定义标签所关联的文本内容对所述目标主体进行画像分析,所述其它预定义标签以及其它自定义标签为根据所述目标主体所需得到的至少一属性进行选择。
4.一种利用裁判文书进行目标主体画像分析的装置,其特征在于,所述装置包括:
划分模块,用于将每一裁判文书划分为多个预设的文书组成部分;
确定模块,用于确定至少一需进行标签标记的文书组成部分,确定每一需进行标签标记的文书组成部分所对应的标签集,其中,所述标签集为预定义标签以及自定义标签中的其中一种,所述预定义标签集包括多个预定义标签;
判断模块,用于判断所确定的每一标签集为预定义标签集或是自定义标签集;
定位与标记模块,用于当其中一所确定的标签集为预定义标签集时,从所述裁判文书中定位所确定的标签集中每一预定义标签的位置,并将所述预定义标签标记至与所述位置对应的段落;所述定位与标记模块还用于当其中一所确定的标签集为自定义标签集时,从所述文书组成部分中提取核心关键词,将所述核心关键词作为自定义标签标记至所述核心关键词所在的段落,并将所述核心关键词加入所述自定义标签集中;
关联模块,用于当定位与标记模块将所述预定义标签标记至与所述位置对应的段落之后,提取每一预定义标签所在的位置后对应的文本内容,并将所提取的文本内容与所述预定义标签相关联,所述提取每一预定义标签所在的位置后对应的文本内容包括:识别所述预定义标签之后与所述预定义标签位于同一段落的文书内容,对所述文书内容进行语言逻辑关系分析,从而将所述预定义标签后的文书内容拆分为至少一词语单元,将符合所述关键词的语义的词语单元作为所述预定义标签对应的所述文本内容提取出来;
画像分析模块,用于结合所有所述裁判文书的预定义标签以及自定义标签对所述目标主体进行画像分析;以及
合并模块,用于将所述预定义标签集以及所述自定义标签集合并为新的标签集,使得计算机装置可使用所述新的标签集对其它裁判文书进行标记。
5.一种计算机装置,其特征在于:所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-3中任一项所述的利用裁判文书进行目标主体画像分析的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的利用裁判文书进行目标主体画像分析的方法。
CN201910173517.3A 2019-03-07 2019-03-07 目标主体画像分析的方法、装置、计算机装置及存储介质 Active CN110175233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910173517.3A CN110175233B (zh) 2019-03-07 2019-03-07 目标主体画像分析的方法、装置、计算机装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910173517.3A CN110175233B (zh) 2019-03-07 2019-03-07 目标主体画像分析的方法、装置、计算机装置及存储介质

Publications (2)

Publication Number Publication Date
CN110175233A CN110175233A (zh) 2019-08-27
CN110175233B true CN110175233B (zh) 2022-03-11

Family

ID=67689152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910173517.3A Active CN110175233B (zh) 2019-03-07 2019-03-07 目标主体画像分析的方法、装置、计算机装置及存储介质

Country Status (1)

Country Link
CN (1) CN110175233B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581326A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 甄别虚假诉讼的方法、装置、存储介质及设备
CN111310446B (zh) * 2020-01-15 2023-11-24 鼎富智能科技有限公司 裁判文书的信息抽取方法及装置
CN111639480A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 基于人工智能的文本标签化方法、电子装置及存储介质
CN111753537A (zh) * 2020-06-12 2020-10-09 鼎富智能科技有限公司 离婚纠纷裁判文书标签提取方法及装置
CN111858938B (zh) * 2020-07-23 2024-05-24 鼎富智能科技有限公司 一种裁判文书标签的提取方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377200A (zh) * 2012-04-17 2013-10-30 腾讯科技(深圳)有限公司 用户偏好信息采集方法和装置
CN106528506A (zh) * 2016-10-20 2017-03-22 广东小天才科技有限公司 一种基于xml标签的数据处理方法、装置及终端设备
US20180068231A1 (en) * 2016-09-08 2018-03-08 Conduent Business Services, Llc Method and system for training a target domain classifier to label text segments
CN108399227A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 自动打标签的方法、装置、计算机设备及存储介质
US10073909B1 (en) * 2014-12-02 2018-09-11 United Services Automobile Association (Usaa) Extraction of tags from user-entered free text
CN108604228A (zh) * 2016-02-09 2018-09-28 国际商业机器公司 用于多层单词表示的语言特征生成的系统和方法
US20180322341A1 (en) * 2015-12-30 2018-11-08 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting information
CN109242537A (zh) * 2018-08-14 2019-01-18 平安普惠企业管理有限公司 广告投放方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377200A (zh) * 2012-04-17 2013-10-30 腾讯科技(深圳)有限公司 用户偏好信息采集方法和装置
US10073909B1 (en) * 2014-12-02 2018-09-11 United Services Automobile Association (Usaa) Extraction of tags from user-entered free text
US20180322341A1 (en) * 2015-12-30 2018-11-08 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting information
CN108604228A (zh) * 2016-02-09 2018-09-28 国际商业机器公司 用于多层单词表示的语言特征生成的系统和方法
US20180068231A1 (en) * 2016-09-08 2018-03-08 Conduent Business Services, Llc Method and system for training a target domain classifier to label text segments
CN106528506A (zh) * 2016-10-20 2017-03-22 广东小天才科技有限公司 一种基于xml标签的数据处理方法、装置及终端设备
CN108399227A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 自动打标签的方法、装置、计算机设备及存储介质
CN109242537A (zh) * 2018-08-14 2019-01-18 平安普惠企业管理有限公司 广告投放方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
在线社会关系语义化度量的可视化分析;王渊等;《中国科学技术大学学报》;20180415(第04期);314-320 *
基于关联词的主题模型语义标注;周亦鹏等;《智能系统学报》;20120815(第04期);327-332 *

Also Published As

Publication number Publication date
CN110175233A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175233B (zh) 目标主体画像分析的方法、装置、计算机装置及存储介质
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
CN109992752B (zh) 合同文件的标签标记方法、装置、计算机装置及存储介质
CN111310446B (zh) 裁判文书的信息抽取方法及装置
US7606797B2 (en) Reverse value attribute extraction
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US9483740B1 (en) Automated data classification
CN111275037B (zh) 票据识别方法及装置
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN108121715B (zh) 一种文字标签方法及文字标签装置
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
KR100876214B1 (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
CN112307318A (zh) 一种内容发布方法、系统及装置
CN107729486B (zh) 一种视频搜索方法及装置
CN107506407B (zh) 一种文件分类、调用的方法及装置
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN112765965A (zh) 文本多标签分类方法、装置、设备和存储介质
CN111639250A (zh) 企业描述信息获取方法、装置、电子设备及存储介质
CN101295385A (zh) 按关键词和区域发布电子名片的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant