CN111737416A

CN111737416A - 案件处理模型的训练方法、案件文本处理方法及相关装置

Info

Publication number: CN111737416A
Application number: CN202010610510.6A
Authority: CN
Inventors: 熊永福
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-02
Anticipated expiration: 2040-06-29
Also published as: CN111737416B

Abstract

本发明实施例提出一种案件处理模型的训练方法、案件文本处理方法及相关装置，涉及自然语言处理领域。该方法通过将案件文本的小类分类和实体抽取两个任务联合训练，实现了共享特征抽取层的结构和权重参数，在增强模型泛化能力的同时减少了模型总参数，达到了仅使用一份训练资源完成文本分类与实体抽取两类任务的目的，相对于将小类分类和实体抽取两个任务独立实施的方式，无论是模型开发效率、资源利用率，还是后期的模型迭代升级、模型维护成本的节约等方面，都有较大幅度的提升。

Description

案件处理模型的训练方法、案件文本处理方法及相关装置

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种案件处理模型的训练方法、案件文本处理方法及相关装置。

背景技术

在公安网的大数据与智能化应用的建设当中，如何从大量的历史案件信息当中挖掘出对当前案件侦破有意义价值的信息是案件快速侦破的关键。

目前，对于公安网的历史案件，除了某些易于采集的字段，如案发时间、案发地点、报案人等是存储的结构化信息以外，大多数存储的仅仅是案情的文本描述信息，难以得到充分利用；在案件的分类处理中，也仅是简单的人工大类划分，不利于实际案件利用过程中，案件合并、案件推荐、智能搜索、案件画像等技术的实现。

发明内容

有鉴于此，本发明的目的在于提供一种案件处理模型的训练方法、案件文本处理方法及相关装置，以实现案件文本的小类划分以及案件实体的抽取。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供一种案件处理模型的训练方法，所述方法包括：

获取训练样本数据；所述训练样本数据包括案件文本和所述案件文本对应的标注结果，所述标注结果包括所述案件文本所属小类的类别标注结果和所述案件文本中的实体对应的实体标注结果；

将所述训练样本数据输入预先建立的案件处理模型，利用所述案件处理模型的特征抽取层输出文本特征向量；所述文本特征向量包括文本整体语义的特征表示；

将所述文本整体语义的特征表示输入所述案件处理模型的分类层，得到所述案件文本所属小类的类别预测结果；

将所述文本特征向量输入所述案件处理模型的实体抽取层，得到所述案件文本中的实体对应的实体预测结果；

依据所述类别标注结果、实体标注结果、类别预测结果和实体预测结果更新所述案件处理模型的参数，以得到训练后的案件处理模型。

在可选的实施方式中，所述文本特征向量还包括所述案件文本中每个文本字符对应的特征表示，所述实体抽取层包括激活层和CRF层，所述将所述文本特征向量输入所述案件处理模型的实体抽取层，得到所述案件文本中的实体对应的实体预测结果的步骤包括：

利用所述激活层对所述案件文本中每个文本字符对应的特征表示进行标签分类，得到分类结果；所述分类结果包括每个文本字符对应的特征表示属于不同类别的标签的概率，所述不同类别的标签包括实体的开始部分、实体的非开始部分和非实体部分；

将所述分类结果输入所述CRF层，利用所述CRF层学习到的转移矩阵获得不同标签之间的关联关系，进而得到所述案件文本中的实体对应的实体预测结果；其中，所述转移矩阵中的每个元素表示一个标签转移到另一个标签的概率。

在可选的实施方式中，所述将所述分类结果输入所述CRF层的步骤之后，所述方法还包括：

对所述CRF层的学习率进行扩张处理。

在可选的实施方式中，所述依据所述类别标注结果、实体标注结果、类别预测结果和实体预测结果更新所述案件处理模型的参数，以得到训练后的案件处理模型的步骤包括：

根据所述类别标注结果和所述类别预测结果计算所述分类层的损失函数；

根据所述实体标注结果和所述实体预测结果计算所述CRF层的损失函数；

将所述分类层的损失函数和所述CRF层的损失函数之和作为所述案件处理模型的损失函数；

根据所述案件处理模型的损失函数更新所述案件处理模型的参数，直到所述案件处理模型收敛；

利用验证样本数据对完成训练的案件处理模型进行测试，选取出具有最优模型参数的案件处理模型，进而得到所述训练后的案件处理模型。

在可选的实施方式中，所述分类层的损失函数采用自适应交叉熵损失函数，所述CRF层的损失函数采用离散交叉熵损失函数。

在可选的实施方式中，所述训练样本数据还包括所述案件文本所属大类的类别信息。

第二方面，本发明实施例提供一种案件文本处理方法，所述方法包括：

获取待处理案件文本；

将所述待处理案件文本输入利用如前述实施方式任一项所述的方法训练得到的所述案件处理模型，得到所述案件文本所属小类的类别信息、所述案件文本中的各类实体所在的位置以及各类实体对应的属性类别。

第三方面，本发明实施例提供一种案件处理模型的训练装置，所述装置包括：

样本获取模块，用于获取训练样本数据；所述训练样本数据包括案件文本和所述案件文本对应的标注结果，所述标注结果包括所述案件文本所属小类的类别标注结果和所述案件文本中的实体对应的实体标注结果；

特征抽取模块，用于将所述训练样本数据输入预先建立的案件处理模型，利用所述案件处理模型的特征抽取层输出文本特征向量；所述文本特征向量包括文本整体语义的特征表示；

分类模块，用于将所述文本整体语义的特征表示输入所述案件处理模型的分类层，得到所述案件文本所属小类的类别预测结果；

实体抽取模块，用于将所述文本特征向量输入所述案件处理模型的实体抽取层，得到所述案件文本中的实体对应的实体预测结果；

参数更新模块，用于依据所述类别标注结果、实体标注结果、类别预测结果和实体预测结果更新所述案件处理模型的参数，以得到训练后的案件处理模型。

第四方面，本发明实施例提供一种案件文本处理装置，所述装置包括：

案件文本获取模块，用于获取待处理案件文本；

处理模块，用于将所述待处理案件文本输入利用如前述实施方式任一项所述的方法训练得到的所述案件处理模型，得到所述案件文本所属小类的类别信息、所述案件文本中的各类实体所在的位置以及各类实体对应的属性类别。

第五方面，本发明实施例提供一种电子设备，包括存储有计算机程序的存储器和处理器，所述计算机程序被所述处理器执行时，实现如前述实施方式中任意一项所述的案件处理模型的训练方法，或者实现如前述实施方式所述的案件文本处理方法。

第六方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前述实施方式中任意一项所述的案件处理模型的训练方法，或者实现如前述实施方式所述的案件文本处理方法。

本发明实施例提供的案件处理模型的训练方法、案件文本处理方法及相关装置中，该案件处理模型的训练方法包括：获取训练样本数据，该训练样本数据包括案件文本和案件文本对应的标注结果，该标注结果包括案件文本所属小类的类别标注结果和案件文本中的实体对应的实体标注结果，将训练样本数据输入预先建立的案件处理模型，利用案件处理模型的特征抽取层输出文本特征向量，该文本特征向量包括文本整体语义的特征表示，将文本整体语义的特征表示输入案件处理模型的分类层，得到案件文本所属小类的类别预测结果，将文本特征向量输入案件处理模型的实体抽取层，得到案件文本中的实体对应的实体预测结果，依据类别标注结果、实体标注结果、类别预测结果和实体预测结果更新案件处理模型的参数，以得到训练后的案件处理模型。当需要进行案件文本的小类分类以及实体抽取时，只需将待处理案件文本输入训练后的案件处理模型，即可得到案件文本所属小类的类别信息、案件文本中的各类实体所在的位置以及各类实体对应的属性类别。可见，本实施例中通过将案件文本的小类分类和实体抽取两个任务联合训练，实现了共享特征抽取层的结构和权重参数，在增强模型泛化能力的同时减少了模型总参数，达到了仅使用一份训练资源完成文本分类与实体抽取两类任务训练的目的；而如果文本分类与实体抽取两个模型是应用于各自的任务中，则两个独立模型没有任何资源共享、参数共享，在硬件资源有限的情况下，往往需要牺牲模型的精度来换取资源空间，且对于两类模型后期的维护与迭代升级也要独立进行，从而增加人工开发成本，故本实施例中将案件文本的小类分类和实体抽取两个任务联合训练的方式，无论是模型开发效率、资源利用率，还是后期的模型迭代升级、模型维护成本的节约等方面，都有较大幅度的提升。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的案件处理模型的训练方法的一种流程示意图；

图2示出了案件文本对应的实体标注结果转换为BIO格式数据的示意图；

图3示出了案件处理模型的模型结构的一种示意图；

图4示出了案件处理模型的模型结构的另一种示意图；

图5示出了图1中步骤S104的子步骤流程示意图；

图6示出了图1中步骤S105的子步骤流程示意图；

图7示出了案件处理模型的输入、输出数据的一种示意图；

图8示出了本发明实施例提供的案件文本处理方法的一种流程示意图；

图9示出了本发明实施例提供的电子设备的方框示意图；

图10示出了本发明实施例提供的一种案件处理模型的训练装置的功能模块图；

图11示出了本发明实施例提供的一种案件文本处理装置的功能模块图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；310-样本获取模块；320-特征抽取模块；330-分类模块；340-实体抽取模块；350-参数更新模块；410-案件文本获取模块；420-处理模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前，在案件的分类处理过程中，常用的文本分类方法包括基于Word2Vector(词向量)的TF(Term Frequency，词频)-IDF(Inverse Document Frequency，逆向文件频率)文本分类方法，基于深度学习方法如CNN(Convolutional Neural Networks，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、Attention(注意力机制)的文本分类方法，基于大规模语料预训练模型的深度学习方法如Bert(Bidirectional EncoderRepresentation from Transformers)、Xlnet等的文本分类方法。通用的案件实体抽取模型包括基于规则的抽取，基于开源工具如Hanlp的抽取，基于深度学习方法如CRF(Conditional random field，条件随机场)、BiLstm(Bi-directional Long Short-TermMemory，双向长短期记忆网络)+CRF等的抽取，基于大规模语料预训练模型的方法Bert+CRF、Bert+Mrc(Machine Reading Comprehension，机器阅读理解)等的抽取。其中，基于预训练模型Bert为主体架构的方法是目前各自任务的主流方法。

在上述两类应用中，文本分类与实体抽取往往都是相互独立的两个实施过程，当两类任务同时存在时，通常的做法是通过训练两个模型应用于各自的任务。由于在利用预训练模型Bert时，模型训练与推理过程中对硬件资源均有较高的要求，在资源有限的情况下，往往会牺牲模型的精度来换取资源空间，且对于两类模型后期的维护与迭代升级也需要独立进行，这无疑会增加人工开发成本，两个独立模型无任何资源共享和参数共享，这无疑是低效的。

为了解决上述问题，本发明实施例提出一种案件处理模型的训练方法，该方法将案件文本的小类分类和实体抽取两个任务联合训练，实现了共享特征抽取层的结构和权重参数，在增强模型泛化能力的同时减少了模型总参数，达到了仅使用一份训练资源完成文本分类与实体抽取两类任务的目的，相对于将小类分类和实体抽取两个任务独立实施的方式，无论是模型开发效率、资源利用率，还是后期的模型迭代升级、模型维护成本的节约等方面，都有较大幅度的提升。下面对案件处理模型的训练过程进行详细说明。

请参照图1，为本发明实施例提供的案件处理模型的训练方法的一种流程示意图。需要说明的是，本发明实施例的案件处理模型的训练方法并不以图1以及以下的具体顺序为限制，应当理解，在其他实施例中，本发明实施例的案件处理模型的训练方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。下面将对图1所示的具体流程进行详细阐述。

步骤S101，获取训练样本数据；训练样本数据包括案件文本和案件文本对应的标注结果，标注结果包括案件文本所属小类的类别标注结果和案件文本中的实体对应的实体标注结果。

在本实施例中，可以预先定义小类类别和实体属性类别，即对于所有的案件文本，根据公安案件小类标准以及实际的数据定义需要进行分类的小类类别，还需要全局定义需要抽取的实体格式及内容，并对各类实体，提前定义该类实体可能存在的属性类别。

针对历史案件文本，可以按照案件所属大类均匀采样案件文本，并根据上述定义的小类类别和实体属性类别分别对案件文本所属小类的类别以及案件文本中的实体进行标注。其中，对于案件文本的实体标注，主要是标注实体的覆盖范围(即实体所在的位置)和各类实体对应的属性类别，即上述的实体标注结果实际上包括实体所在位置的标注结果、实体所属的属性类别的标注结果。

例如，定义公安案件的小类类别可以包括摩托车盗窃案、车内财物盗窃案、网络交易诈骗案、冒充诈骗案等，通过对所有的小类类别进行顺序编码，可以得到：0-摩托车盗窃案；1-车内财物盗窃案；2-网络交易诈骗案等。定义案件实体的属性类别可以包括：作案工具、作案手段、涉案对象、涉案金额、场所类别、案发时间、案发地点等。对历史案件文本根据所属大类按比例选取数据，保证不同类型案件文本的样本均衡，将选取的案件文本进行所属小类的类别标注，以及采用开源工具YEDDA对案件文本中的实体进行标注，从而得到案件文本所属小类的类别标注结果和案件文本中的实体对应的实体标注结果。

在一个示例中，假设案件文本的描述为“2019年10月1日晚上8点，王某回到家中，发现卧室中的500元现金被盗，系技术性开锁进入盗窃”，则经YEDDA打标后的文本结构为“[@2019年10月1日晚上8点#CaseTime*]，王某回到[@家中#PlaceClass*]，发现[@卧室#PlaceClass*]中的[@500元#CaseMoney*][@现金#CaseObject*]被盗，系[@技术性开锁#CaseMethod*]进入盗窃”，其中CaseTime表示案发时间，PlaceClass表示场所类别，CaseMoney表示涉案金额，CaseObject表示涉案对象，CaseMethod表示作案手段。

在对案件文本完成所属小类的类别标注以及实体标注后，可将标注后的案件文本进行数据转换，即转换为符合预先建立的案件处理模型的输入要求的训练样本数据格式，从而得到上述的训练样本数据。

在本实施例中，对于案件文本所属小类的类别标注结果，可以直接使用，对于案件文本中的实体对应的实体标注结果需要转换成BIO形式的数据格式。其中B表示实体的开头部分，I表示实体的非开始部分，O表示非实体部分，则上述中的标注文本“[@2019年10月1日晚上8点#CaseTime*]，王某回到[@家中#PlaceClass*]，发现[@卧室#PlaceClass*]中的[@500元#CaseMoney*][@现金#CaseObject*]被盗，系[@技术性开锁#CaseMethod*]进入盗窃”，在经过数据格式的转换后，将得到图2所示的BIO格式数据。

需要说明的是，在本实施例中，对于每条案件文本的转换后的样本数据，可以根据样本的长度分布设置合理最大长度，如MaxLen＝256，超过MaxLen的样本数据则需要进行截断处理。

步骤S102，将训练样本数据输入预先建立的案件处理模型，利用案件处理模型的特征抽取层输出文本特征向量；文本特征向量包括文本整体语义的特征表示。

在本实施例中，该案件处理模型的模型结构可以参照图3，是一种基于同一特征抽取层的共享模型结构，有两类下游任务输出，即分类层和实体抽取层，分别用于案件文本所属小类的分类和案件文本的实体抽取，两类下游任务在特征抽取层实现了权重共享。输入到案件处理模型中的训练样本数据，在经过特征抽取层的处理后，可以得到该训练样本数据的文本特征向量。在案件处理模型的训练过程中，不同的下游任务关注不同的文本特征表示，通过取出不同的文本特征表示分别用于下游各自的任务当中，可实现案件文本所属小类的分类和案件文本的实体抽取。

在一种可行的实施方式中，上述的特征抽取层可以采用预训练模型Bert，由于预训练模型Bert已经融合了常见的文本语义表示特征，可以看做一个文本特征资源池，通过共享Bert的多层Transfomer结构与文本特征资源，模型训练时不同的下游任务关注不同的文本特征表示，然后各自取出相应任务文本特征表示用于下游各自的任务当中。例如，在案件文本所属小类的分类任务中，对于特征抽取层输出的文本特征向量，可以取出文本整体语义的特征表示，作为分类层的输入；在实体抽取任务中，对于特征抽取层输出的文本特征向量，直接将其作为实体抽取层的输入。

步骤S103，将文本整体语义的特征表示输入案件处理模型的分类层，得到案件文本所属小类的类别预测结果。

在本实施例中，利用分类层(例如Softmax)对输入的文本整体语义的特征表示进行类别预测，可以得到该案件文本所属小类的类别预测结果。

步骤S104，将文本特征向量输入案件处理模型的实体抽取层，得到案件文本中的实体对应的实体预测结果。

在本实施例中，利用实体抽取层对输入的文本特征向量进行实体抽取，可以得到对应的实体预测结果。

步骤S105，依据类别标注结果、实体标注结果、类别预测结果和实体预测结果更新案件处理模型的参数，以得到训练后的案件处理模型。

在本实施例中，可以根据类别标注结果、实体标注结果、类别预测结果和实体预测结果计算出案件处理模型的损失函数，该损失函数可以反映案件处理模型当前的预测值与真实值的不一致程度，基于该损失函数可对案件处理模型的参数进行更新。可以理解，在对案件处理模型训练时，通过迭代计算的方式可以不断获取训练样本数据的类别预测结果和实体预测结果，并根据类别预测结果和实体预测结果、以及各自对应的类别标注结果和实体标注结果进行模型参数的更新，最终得到训练后的案件处理模型。

可见，本发明实施例提供的案件处理模型的训练方法，通过将案件文本的小类分类和实体抽取两个任务联合训练，实现了共享特征抽取层的结构和权重参数，在增强模型泛化能力的同时减少了模型总参数，达到了仅使用一份训练资源完成文本分类与实体抽取两类任务训练的目的，相对于将小类分类和实体抽取两个任务独立实施的方式，无论是模型开发效率、资源利用率，还是后期的模型迭代升级、模型维护成本的节约等方面，都有较大幅度的提升。

可选地，在本实施例中，为了提升案件分类以及案件文本中实体识别的精度，可以在案件处理模型的输入端引入先验信息的外部特征，例如案件文本所属大类、属性字典等。也即是说，该训练样本数据还可以包括案件文本所属大类的类别信息、属性字典等先验特征信息，通过融合案件文本所属大类的先验特征信息，能够有效增加关注度，从而利于案件文本所属小类的分类，以及案件文本中多义实体的识别。如此，实现了在案件处理模型的输入端，在不采用其他语义编码手段的情况下，通过融合案件文本所属大类这一先验特征信息，无论是对于下游任务中案件文本所属小类的细分类，还是对于多义实体的识别，都能在一定程度上提高精度。

可选地，请参照图4，该实体抽取层具体可以包括激活层(Dense层)和CRF层，该文本特征向量还包括该案件文本中每个文本字符对应的特征表示，上述的步骤S104具体包括图5所示的子步骤：

子步骤S1041，利用激活层对案件文本中每个文本字符对应的特征表示进行标签分类，得到分类结果；分类结果包括每个文本字符对应的特征表示属于不同类别的标签的概率，不同类别的标签包括实体的开始部分、实体的非开始部分和非实体部分。

在本实施例中，经过激活层可以得出每个文本字符对应的特征表示属于不同类别的标签的概率，通过比较概率大小虽然可以得出预测结果，但是这种方式并未考虑标签之间的关联关系(也可以称为约束信息)，例如实体的开头开始应该是“B-”，而不是“I-”，导致最终得出的结果可能会不符合自然语言的规则。因此，本实施例需要将激活层得出的分类结果输入CRF层处理，通过CRF层来学习标签之间的关联关系，最终得出更为准确的预测结果。

子步骤S1042，将分类结果输入CRF层，利用CRF层学习到的转移矩阵获得不同标签之间的关联关系，进而得到案件文本中的实体对应的实体预测结果；其中，转移矩阵中的每个元素表示一个标签转移到另一个标签的概率。

在本实施例中，在案件实体抽取阶段，将Bert的输出通过Dense层进行序列标签分类，在将分类结果输入到CRF层之后，还可以对CRF层的学习率进行扩张处理，CRF层通过学习率扩张能有效学习到不同标签之间的转移矩阵，在CRF层的解码阶段，由于实体仅存在于案件文本当中，故可以仅考虑对案件文本进行Viterbi解码，而无须考虑额外的输入特征文本部分，即仅需对案件文本本身进行解码，最终输出各个文本字符对应的标注结果，再对标注结果进行类别映射，最终得到案件文本中的实体对应的实体预测结果。

由于整个案件处理模型是基于Bert的微调模型，一般迭代次数较少且初始学习率较低(10^-5数量级)，对于实体抽取任务，在同样的学习率下，CRF层在较少的迭代次数下不能很好地学习到转移矩阵，故本实施例中单独将CRF层的学习率调大(例如，10^-3数量级)，使其可以在较少的迭代次数下学习到较好的转移矩阵。因此，本实施例中在对学习率进行扩张时，可以将CRF层部分的学习率设置为当前模型学习率的100倍，在CRF层中按扩张学习率进行梯度下降，较大的学习率能加快转移矩阵的学习，当完成CRF层的计算后，可重置CRF层的学习率为扩张前的学习率，继续向后传播。

例如，设置案件处理模型的初始学习率LearningRate＝2e-5，为了让CRF层在较低的迭代次数下学习到较好的转移矩阵，将CRF层的学习率单独设置为LearningRate的100倍，即2e-3，Batch_size(一次使用的训练样本数)根据GPU(Graphics Processing Unit，图形处理器)资源情况设置合适的批次大小。

可见，本实施例在文本分类阶段，是采用标准的Bert+Softmax的结构，在实体抽取阶段，是采用Bert+CRF的模型结构，为保证CRF层中的转移矩阵能够得到充分学习，将CRF层的学习率进行了扩张处理，进而提高了实体识别的精度。

可选地，请参照图6，上述的步骤S105具体可以包括如下子步骤：

子步骤S1051，根据类别标注结果和类别预测结果计算分类层的损失函数。

在本实施例中，该分类层的损失函数可以采用自适应交叉熵损失函数FacolLoss。相对现有技术中比较常使用的交叉熵损失函数，能够有效解决案件小类的不均衡问题，通过对损失函数的优化，有效提高了案件文本所属小类的识别精度。

子步骤S1052，根据实体标注结果和实体预测结果计算CRF层的损失函数。

在本实施例中，该CRF层的损失函数采用离散交叉熵损失函数。

子步骤S1053，将分类层的损失函数和CRF层的损失函数之和作为案件处理模型的损失函数。

子步骤S1054，根据案件处理模型的损失函数更新案件处理模型的参数，直到案件处理模型收敛。

在本实施例中，可以设定模型训练到达设定次数后或者案件处理模型的损失函数小于预设值时，判定案件处理模型收敛，此时训练暂时停止，进入案件处理模型的验证阶段。

子步骤S1055，利用验证样本数据对完成训练的案件处理模型进行测试，选取出具有最优模型参数的案件处理模型，进而得到训练后的案件处理模型。

在本实施例中，在获取案件样本数据阶段，对于所有已对小类类别达标以及转换为BIO格式的样本数据，可以按照一定比例(例如8:2)随机切分成训练集(即训练样本数据)与验证集(验证样本数据)，训练集用于案件处理模型的训练，验证集用于案件处理模型的评估。在整个案件处理模型的训练与验证阶段，可以使用准确率、召回率、F1作为模型监控指标，F1作为最终的评价指标，基于该评价指标最终选出具有最优模型参数的案件处理模型，进而得到训练后的案件处理模型。

下面，以特征抽取层为Bert为例，对本实施例中的案件处理模型的输入、输出数据进行举例说明。请参照图7，在案件处理模型的输入端，可将训练样本数据按照Bert的NSP(Next Sentence Prediction，下一句预测)预训练任务的格式(即token序列)进行输入，即“[cls]案件大类[sep]案件文本[sep]”的格式，本实施例中直接使用Bert内置的序列编码方法即可转换得到，其中包含字编码id-token、片段编码segment-token，再自动叠加通过position embedding得到位置编码序列，得到最终的模型输入，即“[cls]盗窃案[sep]...回到家中,发现二轮摩托车被盗,...[sep]”。在Bert层，输入的编码序列经过Bert层的多层Transformer结构进行处理，预训练的模型参数在两类任务上同时进行参数调整，最终的模型权重参数融合了两类任务的语义表示，最终得到输入文本内容在相应任务上的动态语义表示。在案件所属小类的分类阶段，仅取出表示文本整体语义的特征表示[CLS]，记为sEmbedding，将sEmbedding直接输入到分类层(Softmax)中进行分类，得出类别预测结果为“摩托车盗窃案”，在实体抽取阶段，将Bert层的输出通过Dense层中进行序列标签分类，再将分类结果输入到CRF层当中，CRF层通过学习率扩张能有效学习到序列标签之间的转移矩阵，在CRF层的解码阶段，仅需将案情文本进行解码，并最终输出各个文本字符对应的标注结果，再对标注结果进行类别映射到得到最终的输出结果，即案件文本中包括的实体有“家中”、“二轮摩托车”，实体“家中”对应的属性类别为“场所类别”，实体“二轮摩托车”对应的属性类别为“涉案对象”。

在本实施例中，当得到最终训练好的案件处理模型后，无论是对历史案件文本还是对新的案件文本，当有案件所属小类的分类和案件关键信息的自动结构化提取的需求时，直接利用该训练好的案件处理模型即可快速得到所属小类的分类结果以及案件关键信息。请参照图8，为本发明实施例提供的案件文本处理方法的一种流程示意图。需要说明的是，本发明实施例的案件文本处理方法并不以图8以及以下的具体顺序为限制，应当理解，在其他实施例中，本发明实施例的案件文本处理方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。下面将对图8所示的具体流程进行详细阐述。

步骤S201，获取待处理案件文本。

步骤S202，将待处理案件文本输入利用上述的案件处理模型的训练方法训练得到的案件处理模型，得到案件文本所属小类的类别信息、案件文本中的各类实体所在的位置以及各类实体对应的属性类别。

需要说明的是，在案件处理模型的应用推理阶段，仍然采用与训练阶段一致的输入内容，即输入案件文本内容及对应的案件所属大类，最终输出该案件文本所属小类的类别信息及抽取的各类实体及其对应的实体属性类别及位置信息，也为案件智能串并、案件智能推荐、智能搜索、案件画像等技术实现与应用建设奠定了基础。

请参照图9，为本发明实施例提供的电子设备100的方框示意图。电子设备100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。存储器110可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)等。

处理器120用于读/写存储器110中存储的数据或程序，并执行相应地功能。例如，当存储器110中存储的计算机程序被处理器120执行时，可以实现上述各实施例所揭示的案件处理模型的训练方法，或者案件文本处理方法。

通信模块130用于通过网络建立电子设备100与其它通信终端之间的通信连接，并用于通过网络收发数据。

应当理解的是，图9所示的结构仅为服务器的结构示意图，服务器还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时实现上述各实施例所揭示的案件处理模型的训练方法，或者案件文本处理方法。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种案件处理模型的训练装置的实现方式。请参阅图10，为本发明实施例提供的一种案件处理模型的训练装置的功能模块图。需要说明的是，本实施例所提供的案件处理模型的训练装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该案件处理模型的训练装置包括样本获取模块310、特征抽取模块320、分类模块330、实体抽取模块340和参数更新模块350。

可选地，上述模块可以软件或固件(Firmware)的形式存储于图9所示的存储器110中或固化于该电子设备100的操作系统(Operating System，OS)中，并可由图9中的处理器120执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器110中。

该样本获取模块310用于获取训练样本数据；训练样本数据包括案件文本和案件文本对应的标注结果，标注结果包括案件文本所属小类的类别标注结果和案件文本中的实体对应的实体标注结果。

可选地，该训练样本数据中还可以包括案件文本所属大类的类别信息。

可以理解，该样本获取模块310可以执行上述步骤S101。

该特征抽取模块320用于将训练样本数据输入预先建立的案件处理模型，利用案件处理模型的特征抽取层输出文本特征向量；文本特征向量包括文本整体语义的特征表示。

可以理解，该特征抽取模块320可以执行上述步骤S102。

该分类模块330用于将文本整体语义的特征表示输入案件处理模型的分类层，得到案件文本所属小类的类别预测结果。

可以理解，该分类模块330可以执行上述步骤S103。

该实体抽取模块340用于将文本特征向量输入案件处理模型的实体抽取层，得到案件文本中的实体对应的实体预测结果。

可选地，该文本特征向量还可以包括案件文本中每个文本字符对应的特征表示，该实体抽取层可以包括激活层和CRF层，该实体抽取模块340具体用于利用激活层对案件文本中每个文本字符对应的特征表示进行标签分类，得到分类结果；分类结果包括每个文本字符对应的特征表示属于不同类别的标签的概率，不同类别的标签包括实体的开始部分、实体的非开始部分和非实体部分，将分类结果输入CRF层，利用CRF层学习到的转移矩阵获得不同标签之间的关联关系，进而得到案件文本中的实体对应的实体预测结果；其中，转移矩阵中的每个元素表示一个标签转移到另一个标签的概率。

该实体抽取模块340还可以用于在将分类结果输入CRF层之后，对CRF层的学习率进行扩张处理。

可以理解，该实体抽取模块340可以执行上述步骤S104、S1041、S1042。

该参数更新模块350用于依据类别标注结果、实体标注结果、类别预测结果和实体预测结果更新案件处理模型的参数，以得到训练后的案件处理模型。

可选地，该参数更新模块350具体用于根据类别标注结果和类别预测结果计算分类层的损失函数，根据实体标注结果和实体预测结果计算CRF层的损失函数，将分类层的损失函数和CRF层的损失函数之和作为案件处理模型的损失函数，根据案件处理模型的损失函数更新案件处理模型的参数，直到案件处理模型收敛，利用验证样本数据对完成训练的案件处理模型进行测试，选取出具有最优模型参数的案件处理模型，进而得到训练后的案件处理模型。

可选地，该分类层的损失函数可以采用自适应交叉熵损失函数，该CRF层的损失函数可以采用离散交叉熵损失函数。

可以理解，该参数更新模块350可以执行上述步骤S105。

请参阅图11，为本发明实施例提供的一种案件文本处理装置的功能模块图。需要说明的是，本实施例所提供的案件文本处理装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该案件文本处理装置包括案件文本获取模块410和处理模块420。

该案件文本获取模块410用于获取待处理案件文本。

可以理解，该案件文本获取模块410可以执行上述步骤S201。

该处理模块420用于将待处理案件文本输入利用上述的案件处理模型的训练方法训练得到的案件处理模型，得到案件文本所属小类的类别信息、案件文本中的各类实体所在的位置以及各类实体对应的属性类别。

可以理解，该处理模块420可以执行上述步骤S202。

综上所述，本发明实施例提供的案件处理模型的训练方法、案件文本处理方法及相关装置中，该案件处理模型的训练方法包括：获取训练样本数据，该训练样本数据包括案件文本和案件文本对应的标注结果，该标注结果包括案件文本所属小类的类别标注结果和案件文本中的实体对应的实体标注结果，将训练样本数据输入预先建立的案件处理模型，利用案件处理模型的特征抽取层输出文本特征向量，该文本特征向量包括文本整体语义的特征表示，将文本整体语义的特征表示输入案件处理模型的分类层，得到案件文本所属小类的类别预测结果，将文本特征向量输入案件处理模型的实体抽取层，得到案件文本中的实体对应的实体预测结果，依据类别标注结果、实体标注结果、类别预测结果和实体预测结果更新案件处理模型的参数，以得到训练后的案件处理模型。当需要进行案件文本的小类分类以及实体抽取时，只需将待处理案件文本输入训练后的案件处理模型，即可得到案件文本所属小类的类别信息、案件文本中的各类实体所在的位置以及各类实体对应的属性类别。可见，本实施例中通过将案件文本的小类分类和实体抽取两个任务联合训练，实现了共享特征抽取层的结构和权重参数，在增强模型泛化能力的同时减少了模型总参数，达到了仅使用一份训练资源完成文本分类与实体抽取两类任务训练的目的；而如果文本分类与实体抽取两个模型是应用于各自的任务中，则两个独立模型没有任何资源共享、参数共享，在硬件资源有限的情况下，往往需要牺牲模型的精度来换取资源空间，且对于两类模型后期的维护与迭代升级也要独立进行，从而增加人工开发成本，故本实施例中将案件文本的小类分类和实体抽取两个任务联合训练的方式，无论是模型开发效率、资源利用率，还是后期的模型迭代升级、模型维护成本的节约等方面，都有较大幅度的提升。此外，通过在案件处理模型的输入端引入先验特征信息，以及在CRF层进行学习率的扩张，相较已有的文本分类方法与实体识别方法，从整体上提升了识别精度。针对案件所属小类的类别不均衡问题，还通过对损失函数的优化，提高了识别精度。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种案件处理模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的案件处理模型的训练方法，其特征在于，所述文本特征向量还包括所述案件文本中每个文本字符对应的特征表示，所述实体抽取层包括激活层和条件随机场CRF层，所述将所述文本特征向量输入所述案件处理模型的实体抽取层，得到所述案件文本中的实体对应的实体预测结果的步骤包括：

3.根据权利要求2所述的案件处理模型的训练方法，其特征在于，所述将所述分类结果输入所述CRF层的步骤之后，所述方法还包括：

对所述CRF层的学习率进行扩张处理。

4.根据权利要求2所述的案件处理模型的训练方法，其特征在于，所述依据所述类别标注结果、实体标注结果、类别预测结果和实体预测结果更新所述案件处理模型的参数，以得到训练后的案件处理模型的步骤包括：

5.根据权利要求4所述的案件处理模型的训练方法，其特征在于，所述分类层的损失函数采用自适应交叉熵损失函数，所述CRF层的损失函数采用离散交叉熵损失函数。

6.根据权利要求1-5任一项所述的案件处理模型的训练方法，其特征在于，所述训练样本数据还包括所述案件文本所属大类的类别信息。

7.一种案件文本处理方法，其特征在于，所述方法包括：

获取待处理案件文本；

将所述待处理案件文本输入利用如权利要求1-6任一项所述的方法训练得到的所述案件处理模型，得到所述案件文本所属小类的类别信息、所述案件文本中的各类实体所在的位置以及各类实体对应的属性类别。

8.一种案件处理模型的训练装置，其特征在于，所述装置包括：

9.一种案件文本处理装置，其特征在于，所述装置包括：

案件文本获取模块，用于获取待处理案件文本；

处理模块，用于将所述待处理案件文本输入利用如权利要求1-6任一项所述的方法训练得到的所述案件处理模型，得到所述案件文本所属小类的类别信息、所述案件文本中的各类实体所在的位置以及各类实体对应的属性类别。

10.一种电子设备，其特征在于，包括存储有计算机程序的存储器和处理器，所述计算机程序被所述处理器执行时，实现如权利要求1-6中任意一项所述的案件处理模型的训练方法，或者如权利要求7所述的案件文本处理方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6中任意一项所述的案件处理模型的训练方法，或者如权利要求7所述的案件文本处理方法。