CN111858938B

CN111858938B - 一种裁判文书标签的提取方法及装置

Info

Publication number: CN111858938B
Application number: CN202010716950.XA
Authority: CN
Inventors: 李德彦; 晋耀红; 刘大双; 张志一
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2024-05-24
Anticipated expiration: 2040-07-23
Also published as: CN111858938A

Abstract

本申请提供了一种裁判文书标签的提取方法及装置，首先，从所述裁判文书中提取与第一标签对应的文本要素集合，所述文本要素集合包含至少一个文本要素，所述文本要素包括字段名称和字段值；再从所述文本要素集合中提取与预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值；最后将所述第一标签与所述第二标签进行拼接，得到裁判文书标签。本申请所提供的裁判文书标签的提取方法实现了对裁判文书多层级、多维度的标签提取，为文书内容结构化、文书检索和查询提供便利。

Description

一种裁判文书标签的提取方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种裁判文书标签的提取方法及装置。

背景技术

通常，裁判文书等一类的法律文件的内容较为冗长，而且用词较为晦涩难懂，令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且，用户在浏览裁判文书的过程中，通常会需要浏览一些类案，即与当前裁判文书相类似的案件对应的裁判文书，以帮助理解和类比当前裁判文书。对于用户来说，浏览一篇裁判文书已经比较困难，要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难，不仅会浪费大量时间，而且也未必能够准确找到相似度最高的裁判文书。

具体地，例如用户需要查找原告为孕妇、且准予全部诉讼请求的裁判文书，就需要浏览各份裁判文书关于当事人信息以及判决结果的部分，这样就需要用户浏览大量的文本，才能够确定符合条件的裁判文书。而且，通常为了查找的裁判文书更加贴近用户的需求，用户会给出更多的需求，例如，增加被告是企业、代理费由被告承担等，此时，用户需要浏览的内容就会更多，而且，若要保证同一份裁判文书中同时包含用户的全部需求，难度将会更高。由此可见，阅读者不仅需要耗费大量的时间来阅读判决结果，而且很难准确找到符合需求的裁判文书。

发明内容

本申请提供了一种裁判文书标签的提取方法及装置，以解决如何从裁判文书中提取裁判文书标签的问题。

第一方面，本申请提供了一种裁判文书标签的提取方法，所述方法包括：

从所述裁判文书中提取与第一标签对应的文本要素集合，所述文本要素集合包含至少一个文本要素，所述文本要素包括字段名称和字段值；

从所述文本要素集合中提取与预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值；

拼接所述第一标签与所述第二标签，得到裁判文书标签。

第二方面，本申请提供了一种裁判文书标签的提取装置，所述装置包括：

文本要素集合提取单元，用于从所述裁判文书中提取与第一标签对应的文本要素集合，所述文本要素集合包含至少一个文本要素，所述文本要素包括字段名称和字段值；

第二标签提取单元，用于从所述文本要素集合中提取与预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值；

标签拼接单元，用于拼接所述第一标签与所述第二标签，得到裁判文书标签。

由以上技术方案可知，本申请提供了一种裁判文书标签的提取方法及装置，首先，从所述裁判文书中提取与第一标签对应的文本要素集合，所述文本要素集合包含至少一个文本要素，所述文本要素包括字段名称和字段值；再从所述文本要素集合中提取与所述预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值；最后将所述第一标签与所述第二标签进行拼接，得到裁判文书标签。本申请所提供的裁判文书标签的提取方法实现了对裁判文书多层级、多维度的标签提取，为文书内容结构化、文书检索和查询提供便利。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种裁判文书标签的提取方法的流程图；

图2为本申请实施例提供的一种提取文本要素集合的方法的流程图；

图3为本申请实施例提供的一种裁判文书标签的提取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述问题，本申请提供一种裁判文书标签的提取方法，从而将一份裁判文书的主要内容用多个标签来展示，令用户可以通过简短的标签，即可迅速找到所需要的裁判文书。具体如下：

图1为本申请实施例提供的一种裁判文书标签的提取方法的流程图，如图1所示，所述方法包括：

S1、从所述裁判文书中提取与第一标签对应的文本要素集合，所述文本要素集合包含至少一个文本要素，所述文本要素包括字段名称和字段值。

在提取裁判文书标签时，会根据用户需求，或者通过计算机根据大数据计算得到可以清晰展示裁判文书主要内容的标签类别，即第一标签，例如“当事人-原告”、“案件类型”、“目录标签”、“判决结果-结果分类”、“判决结果-案件费用”、“判决结果-案件费用支付方式”等。这样，可以根据第一标签从裁判文书中提取相对应的文本要素集合，例如与“当事人-原告”对应的文本要素集合包括“原告-女”、“原告-孕妇”、“原告-无业”等文本要素。可见，文本要素以“字段名称-字段值”的数据对形式出现的。

通常，一份裁判文书会包含多个部分的文本，每个部分的文本对应的内容所要传递的信息均不同，因此，如果以整体裁判文书作为一个整体来提取裁判文书标签，则会令标签的提取过程没有针对性，如果从裁判文书中与第一标签不对应的部分提取裁判文书标签，不仅不会提取到正确的标签，而且还会造成提取时间的冗余。因此，在提取与第一标签对应的文本要素集合时，可以采用如下方式对裁判文本进行处理之后，再进行提取。

图2为本申请实施例提供的一种提取文本要素集合的方法的流程图，如图2所示，所述方法包括：

S101、获取目标裁判文书；

S102、利用结构化模型将所述目标裁判文书结构化，得到多个文本块，其中，所述结构化模型包括多个目录标题，每一个所述文本块对应一个所述目录标题；

S103、从所述多个文本块中提取与所述第一标签对应的目标文本块，所述目标文本块的目录标题与所述第一标签相匹配；

S104、利用预设要素抽取模型从所述目标文本块中抽取文本要素，所述预设要素抽取模型包括与所述第一标签对应的字段名称和用于抽取与所述字段名称对应的字段值的抽取规则；

S105、生成文本要素集合，所述文本要素集合包括与同一所述第一标签对应的全部所述文本要素。

将裁判文书录入裁判文书结构化装置中，其中，裁判文书结构化装置可以为服务器、PC(个人电脑)、平板电脑、手机等多种文本处理设备。其中，裁判文书可以为民事案件中的各审判决书等。在本实施例中，目标裁判文书为需要进行裁判文书标签提取的裁判文书，裁判文书结构化装置在接收到目标裁判文书之后，首先确定目标裁判文书对应的类别，例如民事一审判决书，然后根据民事一审判决书选择对应的结构化模型，对目标裁判文书进行结构化。通常，裁判文书包括很多部分的内容，例如头部信息、当事人信息、审理过程、原告方请求、被告方辩解、争议焦点、证据目录、审理查明、法院观点、判决结果和尾部信息等，在对目标裁判文书进行结构化之后，可以将不同部分划分开，得到由一个部分的文本内容构成的文本块，同时，为每一个文本块设定一个目录标题，其中，目录标题可以采用上述给出可以代表文本块内容的关键词等，一个目录标题对应一个文本块。

由上述可知，每一个文本块对应不同的文本内容，而第一标签代表的标签类别可以用于展示裁判文书的主要内容，也就是说，第一标签与文本块之间具有文本内容的对应关系，由于文本块的文本内容可以由目录标题进行概括和代表，也就相当于目录标题与第一标签之间具有一定的对应关系，例如，第一标签“当事人-原告”对应于目录标题“当事人信息”；第一标签“案件类型”对应于目录标题“头部信息”；第一标签“判决结果-结果分类”对应于目录标签“审理查明”等。进一步地，这种对应关系可以直接进行设定并预先存储于数据库中，以供后续标签提取时直接使用。在本申请实施例中，可以根据这种对应关系，直接确定与第一标签相对应的文本块，即目标文本块。

由于每个目标文本块中也可能包含较多的文本内容，对进一步提取标签造成了一定的干扰，为了加快标签提取的过程，以及提高标签提取的准确率，可以首先提取目标文本块中的主要信息，即提取目标文本块的文本要素。以目标文本块“判决结果”为例，判决结果中可能会包括“判定原告支付鉴定费，判定被告支付执行费，判定原告和被告共同支付审理费。”进行文本要素提取之后可以获得“原告-鉴定费，被告-执行费，原告-被告-审理费”，这样，可以非常清晰简练地提取到判决结果中当事人与费用之间的承担关系，从而更加便于后续提取标签。通常，可以使用预设要素抽取模型从目标文本块中抽取文本要素，要素抽取模型包括字段名称和用于抽取该字段名称对应的字段值的抽取规则，其中，字段名称至少要包括与第一标签对应的字段名称，例如，第一标签为“判决结果-费用案件费用支付方式”，那么字段名称可以为“案件费用支付方式”、“案件费用分担方式”等可以表示案件费用由哪一方当事人承担的意义的字段名称，由于文本要素采用数据对象表达方式，因此，字段名称都有其唯一对应的字段值，也可以称为要素值，例如，“案件费用支付方式-原告-鉴定费、案件费用支付方式-被告-执行费等”。因此，当确定了字段名称之后，就可以对应确定字段值，通常，“字段名称-字段值”都具有相应的抽取表达式，例如，“原告-诉讼费”对应的抽取表达式，即由[^，。：；]*？负担(原告已预交，[^，。：；]*？)，这样，可以准确抽取关于诉讼费的承担方为原告，进一步地，可以得到关于目标文本块“判决结果”的文本要素“原告-诉讼费”。优选地，抽取表达式可以由一个或一个以上的如ZL 201410155830.1公开的概念表达式，与一种或者多种语义算子组合构成。由以上可知，可以从同一目标文本块中提取多个文本要素，也就是说同一第一标签可以对应多个文本要素，例如，目标文本块“判决结果”，对应多个文本要素“原告-鉴定费，被告-执行费，原告-被告-审理费”，那么，可以将这些文本要素汇集到一起，形成与第一标签“判决结果-结果分类”对应的文本要素集合。进一步地，可以从第一标签对应的文本要素集合中提取第二标签，从而保证第二标签提取基础的完整性、无遗漏性，进而保证第二标签的提取准确性，同时，在同一个集合中提取有关同一个第一标签的第二标签，可以令提取更具有针对性，避免在提取过程中出现重复等混乱，从而提高第二标签提取的效率。

S2、从所述文本要素集合中提取与所述预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值。

通过上述过程得到第一标签对应的文本要素集合之后，需要进一步从中提取第二标签，其中，第二标签是指能够代表第一标签所对应的某一属性的标签，例如，第一标签“当事人-原告”，第二标签为“女性”，那么，该第二标签即为“当事人-原告”对应的“性别”属性的标签。通常，所要获得的属性与第二标签之间也存在对应关系，例如，属性为“性别”，第二标签“女性”之间具有对应关系，可见，属性与第二标签之间也呈现一种数据对象的表示关系，即“字段名称-字段值”的表示关系，因此，所需要提取的第二标签所对应的属性，可以用预设字段名称来表示，可以根据实际需要进行自定义设定，需要注意的是，预设字段名称所对应的字段值至少要包括文本要素集合中出现的字段名称或者字段值，例如，文本要素集合中“原告-女性”，可见，字段值为“女性”，如果需要提取关于第一标签的性别属性的第二标签，就需要保证文本要素中出现的任何性别都可以被识别并被提取出来，具体地，预设字段名称“性别”对应的字段值至少包括“女性”，这样，至少可以将文本要素集合中的“女性”提取出来，当然，为了保证提取的准确性和不遗漏性，预设字段名称“性别”对应的字段值还可以包括“男性”。这样，可以有效充实预设字段名称对应的字段值，得到预设字段名称-字段值合集的对应关系，从而提高利用预设字段名称-字段值合集，可以从任一裁判文书的文本要素集合中抽取到对应的第二标签。

在一种实现方式中，可以设定预设字段名称对应的字段值为文本要素中的字段值，这样，通过提取所述文本要素集合中各所述文本要素的所述字段值，就可以得到第二标签。

一些第一标签的属性可以直接对应至文本要素中的各个字段值，此时，预设字段名称就相当于文本要素中的各个字段名称，其对应的字段值就相当于文本要素中的各个字段值。

例如，第一标签为“案件类型”，其对应的文本要素为“案件类型-民事”，此时，如果想要提取第一标签的属性“案件类型”，此时，预设字段名称相当于“案件类型”，其对应的字段值，就是字段值“民事”。或者，第一标签为“年份”，其对应的文本要素为“年份-2020年”，如果想要提取第一标签的属性“年份”，此时，预设字段名称相当于“年份”，其对应的字段值，就是字段值“2020年”。通常，针对于对应的目标文本为裁判文书中的头部信息和尾部信息的第一标签，其对应的第二标签，都可以直接通过提取文本要素中的字段值来得到第二标签。

在一种实现方式中，预设字段名称所对应的字段值为上文所述，至少包含文本要素集合中的字段值，可以为一个字段值集合，从所述文本要素集合中提取与所述预设字段名称对应的第二标签的具体过程如下：

S201、获取所述预设字段名称对应的预存对应关系，所述预存对应关系用于表示所述预设字段名称以及与所述预设字段名称对应的预设字段值的对应关系。

预设字段名称存在对应的预设字段值，例如，预设字段名称“性别”，与其对应的预设字段值“男性、女性”，预存对应关系即为

性别-男性

-女性；

可见，通常这一类预设字段名称并不与文本要素中的字段名称直接对应，而是对文本要素中的字段值的概括或者上位，因此，为了保证预设字段名称可以从不同内容的裁判文书中提取到对应的第二标签，需要不断扩充预设字段名称对应的预设字段值。

S202、根据所述预存对应关系，从所述文本要素集合中提取第二标签，所述第二标签为所述文本要素中与所述预设字段值相匹配的字段值。

根据预存对应关系，文本要素为“原告-女性”，那么“女性”即为与预设字段值中“女性”相匹配的字段值，第二标签即为“女性”。

具体地，在裁判文书中，例如，第一标签“当事人-原告”对应的文本要素集合为“原告-女性、原告-孕妇、原告-高中生”，预存对应关系为“性别-女性、男性”、“身份-孕妇、未成年人、初中生、高中生”，那么，第一标签“当事人-原告”对应的第二标签可以为“女性”、“孕妇”、“高中生”；第一标签“当事人-原告代理人”对应的文本要素集合为“原告代理人-律师、原告代理人-委托”，预存对应关系为“代理人-律师、中间人”、“代理性质-未委托、委托、全权代理、部分代理”，那么，第一标签“当事人-原告代理人”对应的第二标签可以为“律师”、“委托”等，也可以根据上述过程对其他第一标签进行对应第二标签的提取，例如对第一标签“当事人-被告”、“当事人-被告代理人”等进行第二标签提取。

可见，在本实现方式中，可以通过将文本要素中的各个字段值与预设字段值相匹配，从而准确确定与第一标签的属性相对应的第二标签。

在一种实现方式中，由上文可知，裁判文书的标签主要就是采用简短的词语、短句等来概括裁判文书的主要内容，从而令用户对裁判文书的内容更加一目了然。对于一些文本要素，其字段值包含很多很具体的细节内容，但是其字段名称可以很好地概括或者代表字段值，那么这一类字段名称更加符合第二标签的标准，可以用于被作为第二标签。对于这一类第一标签对应的文本要素，可以直接将文本要素集合中可能出现的字段名称都设定为预设字段名称，并利用文本要素集合中的字段名称与预设字段名称做比较，将与预设字段名称相匹配的字段名称提取出来，直接作为第二标签。

例如，第一标签为“目录标签”，其对应的文本要素集合为

被告辩解-×××××；

原告举证-1、×××××；2、×××××；

被告举证-1、×××××；2、×××××；

被告质证-1、×××××；2、×××××；

原告质证-1、×××××；2、×××××；

法院认证-×××××；

争议焦点-1、×××××；2、×××××；3、×××××。

如果第一标签其对应的预设字段名称为“被告辩解”、“原告举证”、“被告举证”、“原告质证”、“被告质证”、“法院认证”、“争议焦点”，则可以直接通过匹配文本要素中的字段名称与各个预设字段名称，从而提取出相匹配的字段名称，作为第二标签，例如“被告辩解”、“原告举证”、“被告举证”、“原告质证”、“被告质证”、“法院认证”、“争议焦点”。

在一种实现方式中，第一标签为“通用判决结果-判决结果”，其对应的文本要素集合为

准予诉讼请求-是；

准予部分诉讼请求-否；

驳回诉讼请求-否；

原告胜诉-是；

被告胜诉-否。

通常，这种文本要素集合中的几个文本要素分别表示同一个事情不同方面的结论，例如，“原告胜诉”和“被告胜诉”都是用于表示胜诉方，“准予诉讼请求”和“准予部分诉讼请求”都是用于表示原告诉讼请求的支持结果，“驳回诉讼请求”用于表示原告诉讼请求的驳回结果。而且，对应于同一个事情不同方面的结论的几个文本要素，仅能选择一个作为最终结论，例如，原告胜诉，或者被告胜诉，不存在同时胜诉的结论。通常，每一个文本要素的字段名称就可以很好的代表该文本要素所要传达的内容，而且，可以通过其对应的命中结果来断定该文本要素所对应的最终结论，例如，预设字段名称为“准予诉讼请求”、“准予部分诉讼请求”、“驳回诉讼请求”、“原告胜诉”、“被告胜诉”，则可以继续通过判断各个预设字段名称对应的命中结果，来确定第二标签，例如，本申请实施例中的命中结果是指是或否的结果，并将命中结果为是的字段名称提取出来，作为第二标签，例如“准予诉讼请求”、“原告胜诉”。

在一种实现方式中，文本要素的字段值为包含具体细节的文本内容，而字段名称可以很好的概括、代表对应的字段值，此时，字段名称可以作为第二标签被提取，具体提取步骤如下：

S211、检测所述文本要素集合中各所述文本要素的字段值是否为空；

S212、提取第二标签，所述第二标签为字段值不为空的所述文本要素的字段名称。

如果字段名称对应的字段值为空，则说明裁判文书中并没有关于该字段名称的具体内容，可以认为，裁判文书不包括该字段名称对应的文本内容，那么裁判文书标签中也就不能出现关于该部分的标签，相应的，第二标签只能从字段值不为空的字段名称中进行提取。

例如，第一标签“通用判决结果-案件费用”，其对应的文本要素集合为

案件受理费-200元；

财产保全费-1000元；

邮寄送达费-20元；

鉴定费-；

公告费-50元。

字段名称分别为“案件受理费”、“财产保全费”、“邮寄送达费”、“鉴定费”、“公告费”，那么，其中，由于“鉴定费”对应的字段值为空，因此，不能被提取为第二标签，其余均需要被提取，作为第二标签。

在一种实现方式中，文本要素中涉及的对象可能不只有一个，此时，需要根据对象的数量来进一步生成第二标签，具体步骤如下：

S221、获取所述文本要素集合中各所述文本要素的字段值中预设对象的属性类型。

S222、根据所获取的所述预设对象的属性类型的数量，生成第二标签，其中，如果所述预设对象的属性类型的数量为一种，则生成第一预设标签，如果所述预设对象的属性类型的数量为多种，则生成第二预设标签；

S223、将所述第一预设标签或者所述第二预设标签设定为第二标签。

例如，第一标签“通用判决结果-案件费用支付方式”，其对应的文本要素集合为“审理费-由原告承担50％，由被告承担50％；执行费-由被告承担；鉴定费-由原告承担；物品赔偿费-由原告承担40％，由被告承担40％，由连带责任方承担20％。”其中，如果预设对象为承担方，则预设对象的属性类型分为两类，原告和被告。

如果预设字段名称为“审理费”，则预设对象的属性类型为原告和被告，预设对象的属性类型的种类数量为两种(多种)，因此，需要对应生成第二预设标签，例如“原被告各支付一半”，其中，可以根据文本要素中各属性类型对应的分配比例来生成第二预设标签，例如，采集文本要素的字段值中各属性类型的预设对象对应的分配比例；根据所述分配比例及对应的属性类型生成第二预设标签，例如，本实施例中，原告的分配比例为50％，被告的分配比例为50％，则根据上述分配比例及对应的属性类型可以生成第二预设标签“原被告各支付一半”，或者“原被告各支付50％”，或者“原告承担50％，被告承担50％”等，进一步地，如果文本要素为“物品赔偿费-由原告承担40％，由被告承担40％，由连带责任方承担20％”，则预设对象的属性类型为原告、被告和连带责任方，预设对象的属性类型的种类数量为三种(多种)，因此，需要对应生成第二预设标签，例如，可以根据各个属性类型对应的分配比例，生成第二预设标签为“原告支付40％，被告支付40％，连带责任方支付20％”；如果预设字段名称为“鉴定费”，则预设对象的属性类型为原告，预设对象的属性类型的种类数量为一种，因此，需要对应生成第一预设标签，例如“原告支付”，其中，可以直接将属性类型与执行事项生成对应的第一预设标签，例如，获取所述预设对象的属性类型和所述属性类型对应的执行事项；根据所述属性类型和所述执行事项生成第一预设标签，例如，在本实施例中，针对文本要素“鉴定费-由原告承担”，预设对象的属性类型为原告，原告与鉴定费之间为支付关系，因此，原告对应的执行事项为支付，因此，根据属性类型和执行事项可以生成第一预设标签为“原告支付”。由上述过程生成的第一预设标签或者第二预设标签就是第二标签。

在一种实现方式中，预设字段名称所对应的第二标签需要从各个字段值中进行间接提取，具体步骤如下：

S231、按照预设分类规则获取所述文本要素集合中各所述文本要素的字段值对应的类别；

S232、根据所述字段值对应的类别生成第二标签。

例如，第一标签为“当事人-原告”，其对应的文本要素为“职业-”，首先判断字段值的类别，预设分类规则为字段值为空、字段值不为空，可见，原告职业一项对应的字段值为空，但是，事实上，无职业的情况也是需要展示的，此时，就可以为字段值为空的职业设定一个特定的预设标签，例如“无业”，此时，直接提取“无业”即可作为第二标签。当类别为字段值不为空时，可以直接采用字段值作为第二标签。

又如，第一标签为“当事人-原告”，其对应的文本要素为“年龄-35岁”，首先判断字段值的类别，预设分类规则为年龄数值大于或者等于60岁、年龄值小于18岁、年龄在18-60岁之间。显然，文本要素对应的类别为年龄在18-60岁之间，此时，可以为每个类别设定一个预设标签，例如年龄数值大于或者等于60岁对应的预设标签为老年人，年龄值小于18岁对应的预设标签为未成年人，年龄在18-60岁之间对应的预设标签为青壮年人。此时，就可以根据不同的分类提取对应的预设标签，作为第二标签。例如，本示例中的第二标签即为“青壮年人”。

S3、拼接所述第一标签与所述第二标签，得到裁判文书标签。

在得到第二标签之后，需要将第一标签与第二标签进行拼接，得到最后的裁判文书标签，例如，第一标签“当事人-原告”，第二标签“女性”，则裁判文书标签为“当事人-原告-女性”，那么，用户可以通过浏览裁判文书标签，准确且清晰地查找到原告为女性的裁判文书。

进一步地，在得到裁判文书标签之后包括：

S4、获取所述裁判文书标签对应的定位信息，所述定位信息用于索引所述裁判文书标签对应的文本要素在所述裁判文书中的位置；

S5、保存所述定位信息。

设定裁判文书标签定位信息，该定位信息具有索引功能，用于索引裁判文书标签对应的文本要素在裁判文书中的位置，即在裁判文书中通过高亮、标灰等形式展示裁判文书标签对应的文本要素，以供用户可以通过点击等操作通过选中操作文书进而跳转至裁判文书中的相应位置。

例如，根据length、offset、segment参数来确定某一个裁判文书标签在裁判文书中的位置，生成该裁判文书标签对应的定位信息。

图3为本申请实施例提供的一种裁判文书标签的提取装置的结构示意图，所述装置包括：

文本要素集合提取单元1，用于从所述裁判文书中提取与第一标签对应的文本要素集合，所述文本要素集合包含至少一个文本要素，所述文本要素包括字段名称和字段值；

第二标签提取单元2，用于从所述文本要素集合中提取与预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值；

标签拼接单元3，用于拼接所述第一标签与所述第二标签，得到裁判文书标签。

可选地，所述文本要素集合提取单元1包括：

目标裁判文书获取单元，用于获取目标裁判文书；

结构化单元，用于利用结构化模型将所述目标裁判文书结构化，得到多个文本块，其中，所述结构化模型包括多个目录标题，每一个所述文本块对应一个所述目录标题；

目标文本块提取单元，用于从所述多个文本块中提取与所述第一标签对应的目标文本块，所述目标文本块的目录标题与所述第一标签相匹配；

文本要素抽取单元，用于利用预设要素抽取模型从所述目标文本块中抽取文本要素，所述预设要素抽取模型包括与所述第一标签对应的字段名称和用于抽取与所述字段名称对应的字段值的抽取规则；

文本要素集合生成单元，用于生成文本要素集合，所述文本要素集合包括与同一所述第一标签对应的全部所述文本要素。

可选地，所述第二标签提取单元2包括：

第一提取单元，用于提取所述文本要素集合中各所述文本要素的所述字段值，得到第二标签。

可选地，所述第二标签提取单元2包括：

预存对应关系获取单元，用于获取所述预设字段名称对应的预存对应关系，所述预存对应关系用于表示所述预设字段名称以及与所述预设字段名称对应的预设字段值的对应关系；

第二提取单元，用于根据所述预存对应关系，从所述文本要素集合中提取第二标签，所述第二标签为所述文本要素中与所述预设字段值相匹配的字段值。

可选地，所述第二标签提取单元2包括：

第三提取单元，用于提取所述文本要素集合中各所述文本要素的字段名称，得到第二标签。

可选地，所述第二标签提取单元2包括：

第一检测单元，用于检测所述文本要素集合中各所述文本要素的字段值是否为空；

第四提取单元，用于提取第二标签，所述第二标签为字段值不为空的所述文本要素的字段名称。

可选地，所述第二标签提取单元2包括：

对象属性类型获取单元，用于获取所述文本要素集合中各所述文本要素的字段值中预设对象的属性类型；

预设标签生成单元，用于根据所获取的所述预设对象的属性类型的种类，生成第二标签，其中，如果所述预设对象的属性类型为一种，则生成第一预设标签，如果所述预设对象的属性类型为多种，则生成第二预设标签；

设定单元，用于将所述第一预设标签或者所述第二预设标签设定为第二标签。

可选地，所述第二标签提取单元2包括：

字段值类别获取单元，用于按照预设分类规则获取所述文本要素集合中各所述文本要素的字段值对应的类别；

标签生成单元，用于根据所述字段值对应的类别生成第二标签。

可选地，所述装置还包括：

定位信息获取单元，用于获取所述裁判文书标签对应的定位信息，所述定位信息用于索引所述裁判文书标签对应的文本要素在所述裁判文书中的位置；

保存单元，用于保存所述定位信息。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种裁判文书标签的提取方法，其特征在于，所述方法包括：

获取目标裁判文书；

利用结构化模型将所述目标裁判文书结构化，得到多个文本块，其中，所述结构化模型包括多个目录标题，每一个所述文本块对应一个所述目录标题；

从所述多个文本块中提取与第一标签对应的目标文本块，所述目标文本块的目录标题与所述第一标签相匹配；

利用预设要素抽取模型从所述目标文本块中抽取文本要素，所述预设要素抽取模型包括与所述第一标签对应的字段名称和用于抽取与所述字段名称对应的字段值的抽取规则；

生成文本要素集合，所述文本要素集合包括与同一所述第一标签对应的全部所述文本要素，所述文本要素包括字段名称和字段值，所述第一标签用于指示所述裁判文书的主要内容的标签类别；

从所述文本要素集合中提取与预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值，所述预设字段名称对应的字段值至少包括所述文本要素集合中的字段名称或字段值，所述第二标签用于指示所述第一标签对应的第一属性；

拼接所述第一标签与所述第二标签，得到裁判文书标签。

2.根据权利要求1所述的方法，其特征在于，所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括：

提取所述文本要素集合中各所述文本要素的所述字段值，得到第二标签。

3.根据权利要求1所述的方法，其特征在于，所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括：

获取所述预设字段名称对应的预存对应关系，所述预存对应关系用于表示所述预设字段名称以及与所述预设字段名称对应的预设字段值的对应关系；

根据所述预存对应关系，从所述文本要素集合中提取第二标签，所述第二标签为所述文本要素中与所述预设字段值相匹配的字段值。

4.根据权利要求1所述的方法，其特征在于，所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括：

提取所述文本要素集合中各所述文本要素的字段名称，得到第二标签。

5.根据权利要求1所述的方法，其特征在于，所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括：

检测所述文本要素集合中各所述文本要素的字段值是否为空；

提取第二标签，所述第二标签为字段值不为空的所述文本要素的字段名称。

6.根据权利要求1所述的方法，其特征在于，所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括：

获取所述文本要素集合中各所述文本要素的字段值中预设对象的属性类型；

根据所获取的所述预设对象的属性类型的数量，生成第二标签，其中，如果所述预设对象的属性类型的数量为一种，则生成第一预设标签，如果所述预设对象的属性类型的数量为多种，则生成第二预设标签；

将所述第一预设标签或者所述第二预设标签设定为第二标签。

7.根据权利要求1所述的方法，其特征在于，所述从所述文本要素集合中提取与所述预设字段名称对应的第二标签包括：

按照预设分类规则获取所述文本要素集合中各所述文本要素的字段值对应的类别；

根据所述字段值对应的类别生成第二标签。

8.根据权利要求1所述的方法，其特征在于，所述拼接所述第一标签与所述第二标签，得到裁判文书标签之后包括：

获取所述裁判文书标签对应的定位信息，所述定位信息用于索引所述裁判文书标签对应的文本要素在所述裁判文书中的位置；

保存所述定位信息。

9.一种裁判文书标签的提取装置，其特征在于，所述装置包括：

文本要素集合提取单元，用于获取目标裁判文书；利用结构化模型将所述目标裁判文书结构化，得到多个文本块，其中，所述结构化模型包括多个目录标题，每一个所述文本块对应一个所述目录标题；从所述多个文本块中提取与第一标签对应的目标文本块，所述目标文本块的目录标题与所述第一标签相匹配；利用预设要素抽取模型从所述目标文本块中抽取文本要素，所述预设要素抽取模型包括与所述第一标签对应的字段名称和用于抽取与所述字段名称对应的字段值的抽取规则；生成文本要素集合，所述文本要素集合包括与同一所述第一标签对应的全部所述文本要素，所述文本要素包括字段名称和字段值，所述第一标签用于指示所述裁判文书的主要内容的标签类别；

第二标签提取单元，用于从所述文本要素集合中提取与预设字段名称对应的第二标签，所述第二标签为与所述预设字段名称对应的字段值，所述预设字段名称对应的字段值至少包括所述文本要素集合中的字段名称或字段值，所述第二标签用于指示所述第一标签对应的第一属性；