CN111651271B

CN111651271B - 基于法律数据的多任务学习语义标注方法和装置

Info

Publication number: CN111651271B
Application number: CN202010428279.9A
Authority: CN
Inventors: 王义真; 杜向阳
Original assignee: Nanjing Aegis Information Technology Co ltd
Current assignee: Nanjing Aegis Information Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2021-07-20
Anticipated expiration: 2040-05-19
Also published as: CN111651271A

Abstract

本发明提供一种基于法律数据的多任务学习语义标注方法和装置，该方法包括：获取对法律数据进行标注的预设需求；获取待标注法律数据导入语料库；根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。本发明提供的相关联的多任务学习比单任务学习具有更好的泛化效果，且不需要依赖算法工程师完成选择预训练模型以及调整模型的参数，直接提高数据标注工作的效率和降低数据标注相关人员的学习成本。

Description

基于法律数据的多任务学习语义标注方法和装置

技术领域

本发明涉及数据标记领域，尤其涉及一种基于法律数据的多任务学习语义标注方法和装置。

背景技术

随着国家法治建设的完善，积累了大量的案例、法规、机构、律师、律所、法官及法院信息等法律数据。人工智能在法律活动中具有广阔的应用前景，加速推动国家的法律建设。法律人工智能的落地不仅取决于法律数据的数量，更依赖于法律数据的质量。大规模、高质量的语义标注数据直接影响人工智能的学习效果。现有法律数据是以非结构化、半结构化的数据为主，总体没有高质量的标注数据。而高质量的法律数据不仅需要大量的法律专业人士进行数据标注，还需要在同一份数据上进行多个任务的标注。

目前，对于文本语料的标注方法有很多，但在面向法律数据自动化标注的专利却很少，同时无法保证标注的质量，无法要求标注者的专业性。现有的数据标记方式存在以下缺点：1.多数采用的是众包方式，这种方式对标注者的专业背景知识要求较低。因此，这种标注方式是无法保证标注的质量，如：视网膜眼底照片病变情况的标注需要专业的眼科医生去标注数据，普通标注者基本无法众包。2.数据标记的技术关注的相对单一的标注任务，预训练的标注模型也是针对单一任务来反复迭代训练模型，不考虑标注任务之间的关联性，预训练的标注模型的优化也是针对单一任务。对于有关联性的标记任务，这种分解成相对独立的子问题忽略了不同任务间的关联性。3.现有数据标记用到的预训练模型，是需要专业的机器学习算法工程师完成模型的选择、训练和优化。这样就容易造成维护成本的增加，同时不利于标注人员的自由选择所需要的模型。

发明内容

为了解决目前在面向法律数据自动化标注时无法保证标注的质量，无法要求标注者的专业性，无法在同一份数据上进行多个任务的标注的问题，本发明提供一种基于法律数据的多任务学习语义标注方法和装置。

第一方面，本发明提供一种基于法律数据的多任务学习语义标注方法，该方法包括：

获取对法律数据进行标注的预设需求；

获取待标注法律数据导入语料库；

根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；任务配置包括：任务类型的划分以及模型参数的配置；服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；

根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；

根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

进一步地，根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据包括：

若获取的语义标注后的法律数据与预设需求间的偏差超过阈值，则调整当前多任务学习模型内的模型参数；

根据调整后的模型参数训练当前多任务学习模型，得到新的多任务学习模型；

根据新的多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

进一步地，预设需求包括：标注数据的质量、标注数据的数量、评价指标。

进一步地，根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据之后包括：

对语义标注后的法律数据进行审核和质检，将质检后的数据进行存储。

进一步地，对语义标注后的法律数据进行审核和质检，将质检后的数据进行存储之后包括：

根据评价指标对存储的数据进行复核，判断当前存储的数据是否满足预设需求；

若满足，则将当前存储的数据进行输出；

否则，调整当前多任务学习模型内的模型参数；

根据新的多任务学习模型对待标注法律数据进行标注。

进一步地，多任务学习模型包括:

基于多任务的聚类模型、基于多任务的多分类模型、基于多任务的多标签分类模型。

第二方面，本发明提供一种基于法律数据的多任务学习语义标注装置，该装置包括：

获取预设需求模块，用于获取对法律数据进行标注的预设需求；

导入模块，用于获取待标注法律数据导入语料库；

任务和服务器配置模块，用于根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；任务配置包括：任务类型的划分以及模型参数的配置；服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；

多任务学习模型构建模块，用于根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；

标注处理模块，用于根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

进一步地，标注处理模块包括：

调整参数单元，用于若获取的语义标注后的法律数据与预设需求间的偏差超过阈值，则调整当前多任务学习模型内的模型参数；

训练单元，用于根据调整后的模型参数训练当前多任务学习模型，得到新的多任务学习模型；

语义标注单元，用于根据新的多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面提供的基于法律数据的多任务学习语义标注方法的步骤。

第四方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面提供的基于法律数据的多任务学习语义标注方法的步骤。

本发明通过确定标注需求，对待标注法律数据进行任务类型划分和模型参数的任务配置，同时在标记过程中人工标记一部分数据作为第一数据集，并将第一数据集与当前确定的任务类型以及配置的模型参数构建多任务下的预训练学习模型，再利用预训练模型进行数据标注学习，这种相关联的多任务学习比单任务学习能去的更好的泛化效果，且不需要依赖算法工程师完成选择预训练模型以及调整模型的参数，直接提高数据标注工作的效率和降低数据标注相关人员的学习成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于法律数据的多任务学习语义标注方法流程示意图；

图2为本发明实施例提供的语义标准整体流程示意图；

图3为本发明实施例提供的基于法律数据的多任务学习语义标注装置框图；

图4为本发明实施例提供的电子设备框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

目前，对于文本语料的标注方法有很多，但在面向法律数据自动化标注的专利却很少。在中国专利CN201810496687通过对特征向量处理后的待标注数据进行密度聚类得到多个类簇，然后根据类簇的密度情况选取核心对象进行标注，最后根据标注结果进行自动扩散。在中国专利CN201811359732提出一种基于智能合约的数据众包平台系统及众包数据标注方法，结合区块链的优势保证行为的完整性和不可篡改性，综合多种评价方式确定数据标注质量。将数据众包标注任务和标注结果质量评估任务进行分类通过已训练的模型进行对标注数据进行评估的同时随机选取多个标注数据质检员进行众包评估，综合多种评估质量。在中国专利CN201910063685将与保险业相关的其他行业的文本数据划分为训练集和测试集输入至词嵌入模型进行训练得到测试结果并进行微调，然后将训练好的词嵌入模型迁移至待标注的保险行业的文本数据。在数据标注技术中，目前主流的方法是结合群智计算的方式进行数据标注，在标注过程中针对具体的标注任务利用预训练的模型降低标注的成本。群智计算强调的是跨专业的创新，弱化标注者的专业程度。因此在这种方式下进行数据标注带来的缺陷有：无法保证标注的质量和要求标注者的专业性，即不适合高精度的数据标注工作。标注过程的预训练模型能够有效降低标注的人工成本，但这些预训练模型都是单任务模型。在多任务学习方面，在中国专利CN201810112482利用RNN学习多任务之间的公有特征，并把公有特征输入到单个任务的学习中，实现信息共享。并通过在RNN中引用GRU结构，能有效地解决梯度消失问题。在中国专利CN201811108040认为标签数据包括多个任务中至少一个任务期望从输入数据中得到的真实结果，利用多个样本数据对人工神经网络模型进行训练，得到多任务处理模型。虽然这些多任务学习方式能够一定程度上提高多任务学习的精度，但是这种方式并不适合法律数据的实际标注场景。

法律数据按照数据类型的不同可分为：裁判文书类、法律法规类、咨询问题类等。常见法律数据标记的任务有：案由标注、场景标注、事件识别、实体标注、关系标注、人物法律角色标注、语义角色标注、意图标注、情感标注等标注任务。法律数据标记的场景一般为：同一份数据上做多种任务标记，如：法律智能问答中要同时标记问题语料的意图、实体等关键信息；或者在多份数据做同一种任务标记。

现有的数据标记方式缺点：1.多数采用的是众包方式，这种方式对标注者的专业背景知识要求较低。因此，这种标注方式是无法保证标注的质量，如：视网膜眼底照片病变情况的标注需要专业的眼科医生去标注数据，普通标注者基本无法众包；2.现有数据标记的技术关注的相对单一的标注任务，预训练的标注模型也是针对单一任务来反复迭代训练模型，不考虑标注任务之间的关联性，预训练的标注模型的优化也是针对单一任务。对于有关联性的标记任务，这种分解成相对独立的子问题忽略了不同任务间的关联性；3.现有数据标记用到的预训练模型，是需要专业的机器学习算法工程师完成模型的选择、训练和优化。这样就容易造成维护成本的增加，同时不利于标注人员的自由选择所需要的模型。

为了解决上述问题，本发明实施例提供一种基于法律数据的多任务学习语义标注方法，如图1所示，该方法包括：

步骤S101，获取对法律数据进行标注的预设需求；

步骤S102，获取待标注法律数据导入语料库；

步骤S103，根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；任务配置包括：任务类型的划分以及模型参数的配置；服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；

步骤S104，根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；

步骤S105，根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

具体为，法律数据多数是以半结构的形式存在，具备抽象性、逻辑性、关联性、强规则性等显著性质。所以法律数据的标记就对标注人员的法律专业背景知识有要求。此时，首先确定标注需求，明确法律数据的标注任务的具体需求(即预设需求)，这里的预设需求可以包括：约定标注数据的质量和数量要求、评价指标。本步骤是标注数据前的基础步骤，在标注系统标注工作前与标注需求方的约定。如：法律智能问答标注任务，标注的需求有对问题语料的蕴含的案由标注、法律事件、问答意图和法律实体等。采用的评价指标有：查准率(Precision)、查全率(Recall)、F1值(F1 Score)。

在本发明实施例中法律数据标记的语料来源主要有三种方式：1、数据标记方提供的需要标记的语料；2、通过网络爬虫获取所需要标记的语料；3、标记系统中已经存在的一些对外开放的业务数据语料。通过这三种方式获取待标注法律数据，再导入到语料库中。如果当前系统内存在需求方需要的待标注数据，也可以直接提供给需求方使用。

根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；其中任务配置包括：任务类型的划分以及模型参数的配置；服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置。在这里，当待标注法律数据数量过多时，优先选用GPU服务器来处理。

任务配置包括：任务名称的配置、任务类型的划分以及模型参数的配置。其中，模型参数的选择是根据任务类型进行选择，如：在法律智能问答标注任务中案由标注、法律事件、问答意图可看作任务类型中的文本分类任务，法律实体的标注可以看作是任务类型中的序列化标注任务。无论是文本分类任务还是序列化标注任务，可供标注人员选择的模型有很多，以系统默认的分类算法和序列化算法为例。两者默认的算法分别是卷积神经网络算法(Convolutional Neural Network，CNN)和长短时记忆网络(Long Short Term MemoryNetwork，LSTM)。前者默认的可配置的参数有卷积核的大小、滑动窗口大小、全连接层的层数，后者可配置的参数有隐藏单元的个数、全连接层的层数。

根据人工标注数据的常规方法对待标注的法律数据进行预标注。人工标记的数据质量和数量对后续模型效果有着决定性作用。更具体地，人工标注的人员分别是标注员和质检员。标注员负责标记数据，质检员负责审核被标注数据的质量。同时，管理员负责管理人员、发放任务以及统计绩效。模型学习前一方面要读取任务配置中的模型类型以及模型的参数，另一方面要读取人工标注中的数据，然后进行多任务的联合训练，即构建对应的多任务学习模型。在模型训练时，模型处于训练中可实时查看训练的进度，模型训练完成后可查看模型训练的效果。模型训练完成后用来对待标注的数据进行预标。

根据确定的基于多任务下的各学习模型对待标注法律数据进行标注，进而确定语义标注后的法律数据。

本发明实施例通过确定标注需求，对待标注法律数据进行任务类型划分和模型参数的任务配置，同时在标记过程中人工标记一部分数据作为第一数据集，并将第一数据集与当前确定的任务类型以及配置的模型参数构建多任务下的预训练学习模型，再利用预训练模型进行数据标注学习，这种相关联的多任务学习比单任务学习能去的更好的泛化效果，且不需要依赖算法工程师完成选择预训练模型以及调整模型的参数，直接提高数据标注工作的效率和降低数据标注相关人员的学习成本。

基于上述各实施例的内容，作为一种可选实施例：根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据包括：

具体为，事先设置一阈值，用于评判当前语义标注后的法律数据是否满足预设需求，当获取的语义标注后的法律数据与预设需求间的偏差超过阈值，说明学习的模型参数设置不合理，则重新调整当前多任务学习模型内的模型参数；根据调整后的模型参数训练当前多任务学习模型，得到新的多任务学习模型；根据新的多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

基于上述各实施例的内容，作为一种可选实施例：根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据之后包括：

具体为，在本发明实施例中在人工标注完成数据预标后还需要进行人工复标，即进行数据的审核，审核完成之后交由质检员进行质检。在人工复标阶段仍然采用的是和人工标注阶段类似的程序以确保数据质量。并将质检后的数据进行存储。

基于上述各实施例的内容，作为一种可选实施例：对语义标注后的法律数据进行审核和质检，将质检后的数据进行存储之后包括：

若满足，则将当前存储的数据进行输出；

否则，调整当前多任务学习模型内的模型参数；

根据新的多任务学习模型对待标注法律数据进行标注。

具体为，汇总所有的标记完成的数据数量，复核是否满足标记需求提出的评价指标。结果汇总模块提供多种抽样检测的方法，包括：简单随机抽样、分层抽样、系统抽样、整群抽样等。当选择抽样方式和抽样的数量后，则会从已标记完成的数据中进行抽样供数据标记需求方检验标注效果。当复核后满足标记需求提出的评价指标，则将当前存储的数据进行输出；否则，需要重新迭代当前多任务学习模型，即调整当前多任务学习模型内的模型参数；根据调整后的模型参数训练当前多任务学习模型，得到新的多任务学习模型；根据新的多任务学习模型对待标注法律数据进行标注，将标注后的法律数据再进行人工复标，质检以及复核，直到标注后的法律数据满足复核要求。

基于上述各实施例的内容，作为一种可选实施例：多任务学习模型包括:

具体为，在法律数据任务中，常见的分类任务有：意图识别、事件识别、关系识别等，常见的聚类任务有：相似文本聚类、相近关键词聚类等，常见的多标签任务有：地理层级位置识别、多关系识别等。例如在法律智能问答在同一份数据集上要预测问题蕴含的案由标注、法律事件、问答意图和法律实体等。这样就出现了多个单任务的标注需求组合起来的情景，即变成多任务标注需求。此时需要先判断获取的所有法律数据所属的各任务类型(多分类任务或聚类任务或多标签分类任务)，将各任务类型相应的法律数据放入对应的模型里训练处理，进而完成多任务学习模型的训练。更具体地：

(1)基于多任务的聚类模型：

文本数据的聚类是一种无监督学习，传统的聚类模型是在一个数据集上进行聚类，但是一个数据集中的信息可能不足以挖掘正确的簇中心。多任务聚类是一种无监督的多任务学习方法，通过在相关任务之间迁移知识来提升每个任务的聚类效果。在多任务聚类过程中，由于数据的标签的数量是不确定的，因此需要对多任务数据对划分采用聚类方法。聚类要求在不同簇之间数据特征的有显著差异，相同簇之间的数据特征差异较小。由于法律数据的标记任务一般处理的情况有：相关任务的数据来自于同一份数据集，允许被划分到不同个数的簇或者是具备部分相同的簇标签。因此本发明的多任务的聚类是基于雷格曼(Bregman)散度聚类框架，方便处理相同数据的多任务聚类。

给定T个聚类任务，每个任务t在数据集表示

其中n^(t)是第t个任务中的数据点数。整个数据集表示为：X＝{X⁽¹⁾,X⁽²⁾,…,X^(T),}。每个数据语料库都将划分为C^(t)个群集，其中每个划分代表一个簇。对于每个任务t，需要找到一个划分P(t)＝{M^(t)，h^(t)}，其中该划分由一组质心

和一个映射函数h^(t):X^(t)→{1,…,c^(t)}，

表示为所有划分，

表示所有质心集合。

表示所有映射功能，

表示数据x和y之间的Bregman散度。多任务Bregman聚类可看做是不同任务的质心之间的相关联性和单任务形式的Bregman聚类学习的方式进行聚类，提高每个任务的聚类性能。因此，将多任务聚类的问题转为为：找到一组划分P去最小化损失函数

其中任务t的局部损失采用单任务Bregman目标公式

h^t是第t个任务中数据到簇中心的映射函数，

是第t个任务中数据

所属簇的质心，

是数据

和它所属簇质心之间的Bregman散度，Ω(P)学习不同任务质心间的相关性，λ为正则化参数。

多任务Bregman聚类算法在处理相同的数据集时存在不能处理非线性可分的数据以及当在相同数据集具有部分重合的簇标签时容易产生质心偏移。前者可以通过在迭代过程利用线性规划的方式逐步更新两个任务间的相关系数矩阵通过改变映射关系将非线性可分映射到高维线性可分空间。后者则是通过分别计算单任务的局部损失来替代全局的损失来判断质心偏移问题。

(2)基于多任务的多分类模型：

文本分类是将每个文本划分到预先定义的类别标签上，在法律数据上运用尤为广泛，例如案由分类、事件分类、意图分类、问答情绪分类等。传统的文本分类是基于特征工程的方式来解决，需要依赖领域专家对数据的先验知识来指定分类规则，抽取的特征在不同领域缺乏泛化能力。随着词嵌入(word embedding)技术的成熟和深度学习的发展，节约了传统文本分类需要大量人力物力去制定规则，同时面临这深度学习需要大量的训练样本。为解决这个挑战，本发明利用多任务的深度学习文本分类模型同时训练多个模型充分调整模型中的参数，提高模型的泛化能力。

给定K个文本分类任务X＝{X₁,X₂,…,X_K}，那么多任务学习模型F将多个输入并行地转化为预测分布的组合

其中x^(t)是每个文本分类任务的表示，

是相应的预测的分类标签。多任务学习模型F的总体最小化损失函数

其中N表示样本集合的数量，C_k和λ_k分别表示每个任务x的类别编号和权重的参数。

以长短时记忆神经网络(Long Short Term Memory Network,LSTM)为基础的多任务文本分类算法为例。LSTM当个神经细胞结构如下：

决定从单元状态中丢掉哪些信息。由遗忘门的sigmod层做出这些决定。在单元状态x_t-1上，h_t-1和x_t输出0和1之间的一个数字来决定是否“完全保留”或“完全丢掉”信息。在t-1时刻单元状态的输出为f_t:f_t＝σ(w_f·(h_t-1,x_t)+b_f)

决定在单元状态中储存哪些新的信息。这分为两个部分，首先，被称为输入门的一个sigmoid层决定哪些值会更新。接着，一个tanh层创建新的候选值的向量C_t，它是一个可添加的状态。该状态是由旧的细胞状态C_t-1乘以旧状态f_t(丢弃之前决定遗忘的信息)，与新的候选信息

之和组成。

i_t＝σ(W_i·(h_t-1,x_t)+b_i)

决定需要输出的信息。同样分为两个部分，首先，运行一个sigmoid层决定输出哪些单元状态。接着，使用tanh函数和sigmoid门限的输出相乘得到输出的信息

o_t＝σ(W_o·(h_t-1,x_t)+b_o)，h_t＝o_t·tanh(C_t)，其中x_t是输入的当前步骤，σ定义的logistic sigmoid激活函数。

每个子任务单层的输出表示为：

其中

是x^(k)的预测的类标签的分布。采用共享专用的模型为每个子任务引入两个特征空间，一个用来存储当前任务相关的特征，另一个用来捕获任务不变的特征。因此每个子任务都有一个私有LSTM和一个共享LSTM，形式对于任务k中的文本，可以表示为：

其中LSTM(·,θ)为LSTM所有参数的简写，前者为私有LSTM，后者为共享LSTM。

(3)基于多任务的多标签分类模型：

与在分类任务不同是，实例不止包含一种标签，而且不同类别标签之间也不是互斥关系。这种对一个实例需要识别出多个标签的任务被称为多标签分类。如：在法律数据中一篇裁判文书会引用多个法条信息。在法律实际场景中标签关联性和标签不均衡的问题，即：存在标签之间是相互联系的，不同的标签出现的频次存在差异。

给定实例集X，标签集Y＝{(x₁,Y₁),(x₂,Y₂),…,(x_n,Y_n)}，其中x_i∈X，Y_i∈Y，多标签学习的目标是从训练集中学习多标签分类器：f:x→2^L。基于多任务的多标签分类模型对于分类任务T＝{T_j:j＝1,…,M},其中第j个分类任务T_j具有一组有限的类标签L_j＝{l_jk:k＝1,…,K_j}，因此，多任务多标签分类的目标就是找到x所属的类标签集Y＝{Y₁,…,Y_j…}的集合，

是第j个分类任务的x类标签集。以多层神经网络的多任务多标签学习为例，则目标函数f表示为：

其中g(x)表示激活函数，表示网络层的用{W_i}，其中i＝1,2,...,为网络层数。

基于上述各实施例的内容，作为一种可选实施例：如图2，图2为本发明实施例提供的语义标准整体流程示意图，其详细步骤描述如下：

步骤1：确定标注需求，明确法律数据的标注任务的具体需求，约定标注数据的质量和数量要求、评价指标。

步骤2：语料整理，法律数据标记的语料来源主要有三种方式：1、数据标记方提供的需要标记的内部数据；2、通过网络爬虫获取取所需要标记的数据；3、标记系统中已经存在的一些对外开放的业务数据。

步骤3：任务配置，用来配置标注需求的具体内容，包括：任务名称的配置、任务类型的划分以及模型参数的配置。

步骤4：人工标注，人工标注的人员分别是标注员和质检员。

步骤5：判断是否进行预标模型训练，是，则执行步骤6，否，则执行步骤7。

步骤6：进行多任务模型学习，包括：读取任务配置参数；训练进度通知；训练结果可视化；模型预标。之后执行步骤8。

步骤7：结果汇总，汇总所有的标记完成的数据数量，复核是否满足标记需求提出的评价指标，并进行抽样检测。具体地，结果汇总模块提供多种抽样检测的方法，包括：简单随机抽样、分层抽样、系统抽样、整群抽样等。当选择抽样方式和抽样的数量后，则会从已标记完成的数据中进行抽样，供数据标记需求方检验标注效果。

步骤8：人工复标，标注人员对预标之后的数据进行审核，审核完成之后交由质检员进行质检。

步骤9：如模型需调优或迭代，则再次执行步骤6；不需要模型调优或模型迭代，直接执行步骤7，将步骤6中调整后的参数数据输入步骤8进行人工复标，根据质检结果确定是否继续对模型进行调优。

根据本发明的再一个方面，本发明实施例提供基于法律数据的多任务学习语义标注装置，参见图3，图3为本发明实施例提供的基于法律数据的多任务学习语义标注装置框图。该装置用于在前述各实施例中完成本发明实施例提供的基于法律数据的多任务学习语义标注。因此，在前述各实施例中的本发明实施例提供的基于法律数据的多任务学习语义标注方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

该装置包括：

获取预设需求模块301，用于获取对法律数据进行标注的预设需求；

导入模块302，用于获取待标注法律数据导入语料库；

任务和服务器配置模块303，用于根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；任务配置包括：任务类型的划分以及模型参数的配置；服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；

多任务学习模型构建模块304，用于根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；

标注处理模块305，用于根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

具体的，本实施例的装置中各模块实现其功能的具体过程可参见对应的方法实施例中的相关描述，此处不再赘述。

基于上述各实施例的内容，作为一种可选实施例：

标注处理模块包括：

图4为本发明实施例提供的电子设备框图，如图4所示，该设备包括：处理器401、存储器402和总线403；

其中，处理器401及存储器402分别通过总线403完成相互间的通信；处理器401用于调用存储器402中的程序指令，以执行上述实施例所提供的基于法律数据的多任务学习语义标注方法，例如包括：获取对法律数据进行标注的预设需求；获取待标注法律数据导入语料库；根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；任务配置包括：任务类型的划分以及模型参数的配置；服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现基于法律数据的多任务学习语义标注方法的步骤。例如包括：获取对法律数据进行标注的预设需求；通过语料库获取待标注法律数据；根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；任务配置包括：任务类型的划分以及模型参数的配置；服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后，本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于法律数据的多任务学习语义标注方法，其特征在于，所述方法包括：

获取对法律数据进行标注的预设需求；

获取待标注法律数据导入语料库；

根据标注的预设需求对所述待标注法律数据进行任务配置和服务器硬件配置；所述任务配置包括：任务类型的划分以及模型参数的配置；所述服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；

根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据；

其中，所述预设需求包括：约定标注数据的质量和数量要求、评价指标；

对所述待标注法律数据进行任务类型划分和模型参数配置；在标记过程中人工标记一部分数据作为第一数据集，将所述第一数据集与当前确定的任务类型以及配置的模型参数构建多任务下的预训练学习模型；

利用所述预训练模型进行数据标注学习；

其中，所述多任务学习模型包括：

基于多任务的聚类模型、基于多任务的多分类模型及基于多任务的多标签分类模型；

基于多任务的聚类模型，基于雷格曼散度聚类框架，处理相同数据的多任务聚类，给定T个聚类任务，每个任务t在数据集表示

1≤t≤T,其中n^(t)是第t个任务中的数据点数；整个数据集表示为：X＝{X⁽¹⁾,X⁽²⁾,…,X^(T),}；每个数据语料库都将划分为C^(t)个群集，其中每个划分代表一个簇；对于每个任务t，需要找到一个划分P(t)＝{M^(t)，h^(t)}，其中该划分由一组质心

和一个映射函数

表示为所有划分，

表示所有质心集合；

表示所有映射功能，

表示数据x和y之间的Bregman散度；针对非线性可分的数据，在迭代过程利用线性规划的方式逐步更新两个任务间的相关系数矩阵通过改变映射关系将非线性可分映射到高维线性可分空间；在相同数据集具有部分重合的簇标签时，分别计算单任务的局部损失来替代全局的损失；

基于多任务的多分类模型，给定K个文本分类任务X＝{X₁，X₂，…，X_K}，那么多任务学习模型F将多个输入并行地转化为预测分布的组合

其中x^(t)是每个文本分类任务的表示，

是相应的预测的分类标签；多任务学习模型F的总体最小化损失函数

其中N表示样本集合的数量，C_k和λ_k分别表示每个任务x的类别编号和权重的参数；

基于多任务的多标签分类模型，给定实例集X，标签集Y＝{(x₁，Y₁)，(x₂，Y₂)，…，(x_n，Y_n)}，其中x_i∈X，Y_i∈Y，多标签学习的目标是从训练集中学习多标签分类器：f：x→2^L；基于多任务的多标签分类模型对于分类任务T＝{T_j：j＝1，…，M}，其中第j个分类任务T_j具有一组有限的类标签L_j＝{l_jk：k＝1，…，K_j}，因此，多任务多标签分类的目标就是找到x所属的类标签集Y＝{Y₁，…，Y_j…}的集合，

是第j个分类任务的x类标签集；基于多层神经网络进行多任务多标签学习，目标函数f表示为：

其中g(x)表示激活函数，表示网络层的用{W_i}，其中i＝1，2，...，为网络层数。

2.根据权利要求1所述的方法，其特征在于，所述根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据包括：

3.根据权利要求1所述的方法，其特征在于，所述预设需求包括：标注数据的质量、标注数据的数量、评价指标。

4.根据权利要求3所述的方法，其特征在于，所述根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据之后包括：

5.根据权利要求4所述的方法，其特征在于，所述对语义标注后的法律数据进行审核和质检，将质检后的数据进行存储之后包括：

根据所述评价指标对存储的数据进行复核，判断当前存储的数据是否满足所述预设需求；

若满足，则将当前存储的数据进行输出；

否则，调整当前多任务学习模型内的模型参数；

根据新的多任务学习模型对待标注法律数据进行标注。

6.一种基于法律数据的多任务学习语义标注装置，其特征在于，所述装置包括：

导入模块，用于获取待标注法律数据导入语料库；

任务和服务器配置模块，用于根据标注的预设需求对所述待标注法律数据进行任务配置和服务器硬件配置；所述任务配置包括：任务类型的划分以及模型参数的配置；所述服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；

标注处理模块，用于根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据；

利用所述预训练模型进行数据标注学习；

其中，所述多任务学习模型包括：

1≤t≤T，其中n^(t)是第t个任务中的数据点数；整个数据集表示为：X＝{X⁽¹⁾，X⁽²⁾，…，X^(T)，}；每个数据语料库都将划分为C^(t)个群集，其中每个划分代表一个簇；对于每个任务t，需要找到一个划分P(t)＝{M^(t)，h^(t)}，其中该划分由一组质心

和一个映射函数h^(t)：X^(t)→{1，…，c^(t)}，

表示为所有划分，

表示所有质心集合；

表示所有映射功能，

基于多任务的多分类模型，给定K个文本分类任务X＝{X₁,X₂,…,X_K}，那么多任务学习模型F将多个输入并行地转化为预测分布的组合

其中x^(t)是每个文本分类任务的表示，

基于多任务的多标签分类模型，给定实例集X，标签集Y＝{(x₁,Y₁),(x₂,Y₂),…,(x_n,Y_n)}，其中x_i∈X，Y_i∈Y，多标签学习的目标是从训练集中学习多标签分类器：f:x→2^L；基于多任务的多标签分类模型对于分类任务T＝{T_j:j＝1,…,M},其中第j个分类任务T_j具有一组有限的类标签L_j＝{l_jk:k＝1,…,K_j}，因此，多任务多标签分类的目标就是找到x所属的类标签集Y＝{Y₁,…,Y_j…}的集合，

7.根据权利要求6所述的装置，其特征在于，所述标注处理模块包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于法律数据的多任务学习语义标注方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述基于法律数据的多任务学习语义标注方法的步骤。