CN113344060B

CN113344060B - 文本分类模型训练方法、诉讼状分类方法及装置

Info

Publication number: CN113344060B
Application number: CN202110600977.7A
Authority: CN
Inventors: 王文博; 刘秉权; 孙承杰; 刘远超; 单丽莉; 林磊
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-07-08
Anticipated expiration: 2041-05-31
Also published as: CN113344060A

Abstract

本发明提供了一种文本分类模型训练方法、诉讼状分类方法及装置，训练方法包括：获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签；将各个所述人物事件关系图输入预先建立的文本分类模型，分别对各个所述人物事件关系图进行编码，获得各个所述人物事件关系图的编码结果；基于注意力机制，分别确定各个所述编码结果的权重值，根据所述权重值对各个所述编码结果进行加权求和，获得文本表征结果；根据所述文本表征结果进行分类预测，获得预测结果；根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。本发明的技术方案能够提高文本分类准确率，获得更好的分类效果。

Description

文本分类模型训练方法、诉讼状分类方法及装置

技术领域

本发明涉及文本分类技术领域，具体而言，涉及一种文本分类模型训练方法、诉讼状分类方法及装置。

背景技术

文本分类是对文本集按照一定的分类规则进行自动分类标记。目前，常用的文本分类方法主要是对文本中涉及到的词语进行嵌入操作，得到各个词语的向量表示，然后按照文本中词语出现的顺序对词语的嵌入向量进行特征学习，得到整个文本的表征结果，最后根据得到的文本的表征结果进行分类。

现有的文本分类方法对简单的文本具有不错的效果，但是在面对包含了大量人物事件关系等词语间联系较复杂文本时，例如诉讼状等文本，诉讼状中包括了大量人物与人物之间关系、人物与事件之间关系和事件与事件之间关系等人物事件关系，由于现有的文本方法仅通过捕获的词语出现的顺序关系特征、词语本身的语义特征和词语出现的频率分布特征等进行分类，进行分类时依据的特征比较单一，无法体现词语间的联系，分类效果较差，分类准确率较低。

发明内容

本发明解决的问题是如何提高文本的分类准确率，获得更好的分类效果。

为解决上述问题，本发明提供一种文本分类模型训练方法、诉讼状分类方法、装置及存储介质。

第一方面，本发明提供了一种文本分类模型训练方法，包括：

获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签；

将各个所述人物事件关系图输入预先建立的文本分类模型，分别对各个所述人物事件关系图进行编码，获得各个所述人物事件关系图的编码结果；

基于注意力机制，分别确定各个所述编码结果的权重值，根据所述权重值对各个所述编码结果进行加权求和，获得文本表征结果；

根据所述文本表征结果进行分类预测，获得预测结果；

根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。

可选地，所述文本分类模型包括解码器，所述根据所述文本表征结果、所述预测结果和所述标签迭代训练所述文本分类模型至收敛包括：

采用所述解码器对所述文本表征结果进行恢复，获得恢复出的邻接矩阵；

根据所述恢复出的邻接矩阵和所述人物事件关系图对应的真实邻接矩阵确定L2范数损失；

根据所述文本表征结果和所述标签确定交叉熵损失，并根据所述L2范数损失和所述交叉熵损失确定联合损失；

根据所述联合损失迭代优化所述文本分类模型至收敛。

可选地，所述人物事件关系图包括人物与人物关系图、人物与事件关系图和事件与事件关系图。

可选地，所述文本分类模型包括图卷积神经网络，所述将各个所述人物事件关系图输入预先建立的文本分类模型，分别对各个所述人物事件关系图进行编码包括：

确定各个所述人物事件关系图对应的真实邻接矩阵，并将各个所述真实邻接矩阵输入所述图卷积神经网络，采用第一公式分别对各个所述人物事件关系图进行编码，所述第一公式包括：

其中，k表示任一所述人物事件关系图，

表示第l层的图卷积神经网络对人物事件关系图k进行编码得到的编码结果，W_k ^(l)表示第l层图卷积神经网络的参数矩阵，

是人物事件关系图k的真实邻接矩阵A_k的伴随矩阵，I_k是单位矩阵，

是矩阵

的度矩阵，函数φ表示非线性激活函数。

可选地，所述文本分类模型包括全连接神经网络，通过所述全连接神经网络采用第二公式分别确定各个所述编码结果的权重值，所述第二公式包括：

其中，α_k表示人物事件关系图k的权重值，参数矩阵

以及

分别为全连接神经网络中的待训练参数，向量

为待训练的共享向量，

表示人物事件关系图k的编码结果Z_k的转置矩阵；

根据所述权重值采用第三公式对各个所述编码结果进行加权求和，所述第三公式包括：

Z＝∑_{k∈{pe，pp，ee}}α_kZ_k，

其中，Z表示所述文本表征结果，k表示任一所述人物事件关系图，pp表示人物与人物关系图，pe表示人物与事件关系图，ee表示事件与事件关系图。

可选地，采用所述解码器根据第四公式对所述文本表征结果进行恢复，所述第四公式包括：

A_pe′＝sigmoid(Z·W_A·Z^T)，

其中，A_pe′表示所述恢复出的邻接矩阵，

为待训练的权重系数，Z表示所述文本表征结果。

可选地，根据所述恢复出的邻接矩阵和所述人物事件关系图对应的真实邻接矩阵采用第五公式确定L2范数损失，所述第五公式包括：

L_r＝||A_pe-A_pe′||₂，

其中，L_r表示所述L2范数损失，A_pe′表示恢复出的邻接矩阵，A_pe表示真实邻接矩阵。

可选地，所述文本分类模型包括分类器，根据所述文本表征结果，所述分类器采用第六公式进行分类预测，所述第六公式包括：

Y′＝softmax(W_C·Z+b_C)，

其中，

表示所述预测结果，参数矩阵

以及

则表示所述分类器的待训练参数，Z表示所述文本表征结果。

可选地，根据所述文本表征结果和所述标签采用第七公式确定交叉熵损失，所述第七公式包括：

L_c＝CrossEntrophy(Y′，y)，

其中，L_c表示所述交叉熵损失，y表示所述文本信息的标签，Y′表示所述预测结果。

根据所述L2范数损失和所述交叉熵损失采用第八公式确定联合损失，所述第八公式包括：

L＝L_r+L_c,

其中，L表示所述联合损失，L_r表示所述L2范数损失。

第二方面，本发明提供了一种诉讼状分类方法，包括：

获取待分类的诉讼状；

提取所述诉讼状中的人物和/或事件，以及关系，以所述人物和/或所述事件为节点，所述关系为边构建人物事件关系图；

将所述人物事件关系图输入训练好的文本分类模型，输出所述诉讼状的分类结果，其中，所述文本分类模型，采用如上所述的文本分类模型训练方法训练得到。

第三方面，本发明提供了一种文本分类模型训练装置，包括：

第一获取模块，用于获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签；

编码模块，用于将各个所述人物事件关系图输入预先建立的文本分类模型，分别对各个所述人物事件关系图进行编码，获得各个所述人物事件关系图的编码结果；

融合模块，用于基于注意力机制，分别确定各个所述编码结果的权重值，根据所述权重值对各个所述编码结果进行加权求和，获得文本表征结果；

分类模块，用于根据所述文本表征结果进行分类预测，获得预测结果；

优化模块，用于根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。

第四方面，本发明提供了一种诉讼状分类装置，包括：

第二获取模块，用于获取待分类的诉讼状；

构建模块，用于提取所述诉讼状中的人物和/或事件，以及关系，以所述人物和/或所述事件为节点，所述关系为边构建人物事件关系图；

预测模块，用于将所述人物事件关系图输入训练好的文本分类模型，输出所述诉讼状的分类结果，其中，所述文本分类模型，采用如上所述的文本分类模型训练方法训练得到。

第五方面，本发明提供了一种电子设备，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如上所述的文本分类模型训练方法或如上所述的诉讼状分类方法。

第六方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的文本分类模型训练方法或如上所述的诉讼状分类方法。

本发明的文本分类模型训练方法、诉讼状分类方法、装置及存储介质的有益效果是：获取预先根据文本信息建立的人物事件关系图，可将原始的文本分类人物转化为图分类人物，通过文本分类模型对各个人物事件关系图进行编码，能得到维度较小的图表征结果，能够降低后续处理的数据维度，提高处理速度。然后对各个编码结果进行融合，能够得到包含了更多特征信息的文本表征结果，结合该文本表征结果和文本信息的标签迭代优化文本分类模型，能够提高训练得到的文本分类模型的分类准确率，获得更好的分类效果。

附图说明

图1为本发明实施例的一种文本分类模型训练方法的流程示意图；

图2为本发明实施例的文本分类模型的结构示意图；

图3为本发明又一实施例的一种诉讼状分类方法的流程示意图；

图4为本发明又一实施例的一种文本分类模型训练装置的结构示意图；

图5为本发明又一实施例的一种诉讼状分类装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

如图1所示，本发明实施例提供的一种文本分类模型训练方法，包括：

步骤S110，获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签。

具体地，获取文本信息后，提取文本信息中人物和人物间关系，以人物为节点，人物之间的关系为边构建人物与人物关系图；提取文本信息中的人物和事件，以及人物与事件之间的关系，以人物和事件为节点，人物和事件之间的关系为边构建人物与事件关系图；提取文本信息中的事件和事件之间的关系，以事件为节点，事件之间的关系为边构建事件与事件关系图。人物事件关系图可通过软件程序进行构建，也可通过人工手动绘制。文本信息的标签就是该文本信息属于的种类。

步骤S120，将各个所述人物事件关系图输入预先建立的文本分类模型，分别对各个所述人物事件关系图进行编码，获得各个所述人物事件关系图的编码结果。

可选地，如图2所示，所述文本分类模型包括编码器，编码器包括图卷积神经网络(GCN)和注意力融合模块，每种人物事件关系图采用一组图卷积神经网络进行编码，所述将各个所述人物事件关系图输入预先建立的文本分类模型，分别对各个所述人物事件关系图进行编码包括：

其中，k表示任一所述人物事件关系图，k∈{pp，pe，ee}，pp表示人物与人物关系图，pe表示人物与事件关系图，ee表示事件与事件关系图，

表示第l层的图卷积神经网络对人物事件关系图k进行编码得到的编码结果，本实施例中图卷积神经网络为两层结构，

表示输入层，

其中N表示人物事件关系图k中包括的节点个数，D表示每个节点的嵌入维度，即X表示人物事件关系图k中各个节点的特征组成的N×D维矩阵，每个节点都有对应的特征，A_k表示人物事件关系图k的真实邻接矩阵，即人物事件关系图k中各个节点之间的关系组成的矩阵，W_k ^(l)表示第l层图卷积神经网络的参数矩阵，

是矩阵

的度矩阵，函数φ表示非线性激活函数。

本可选的实施例中，对根据文本信息构建的人物事件关系图进行编码，获得维度较小的图表征结果，能够降低后续处理的数据维度，提高分类速度。

步骤S130，基于注意力机制，分别确定各个所述编码结果的权重值，根据所述权重值对各个所述编码结果进行加权求和，获得文本表征结果。

其中，α_k表示人物事件关系图k的权重值，参数矩阵

以及

分别为全连接神经网络中的待训练参数，向量

为待训练的共享向量，

表示人物事件关系图k的编码结果Z_k的转置矩阵，softmax表示softmax函数，tanh表示激活函数；

根据所述权重值采用第三公式对各个所述编码结果进行加权求和，具体为基于权重值，通过注意力融合模块采用第三公式对各个编码结果进行融合，所述第三公式包括：

Z＝∑_{k∈{pe，pp，ee}}α_kZ_k，

本可选的实施例中，通过注意力机制对经过图卷积神经网络分别编码后的人物与人物关系图的编码结果、人物与事件关系图的编码结果和事件与事件关系图的编码结果进行融合，得到包含更多特征的文本表征结果，能够提高后续的分类准确率，实现更好的分类效果。

步骤S140，根据所述文本表征结果进行分类预测，获得预测结果。

可选地，如图2所示，所述文本分类模型包括分类器，根据所述文本表征结果，所述分类器采用第六公式进行分类预测，所述第六公式包括：

Y′＝softmax(W_C·Z+b_C)，

其中，

表示所述预测结果，参数矩阵

以及

则表示所述分类器的待训练参数，分类器可由单层全连接网络构成。

具体地，将文本表征结果输入单层全连接网络构成的分类器，通过softmax函数进行分类，确定根据该人物事件关系图预测得到的该文本信息的分类标签。

步骤S150，根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。

可选地，如图2所示，所述文本分类模型还包括解码器，所述根据所述文本表征结果、所述预测结果和所述标签迭代训练所述文本分类模型至收敛包括：

步骤S151，采用所述解码器对所述文本表征结果进行恢复，获得恢复出的邻接矩阵。

A_pe′＝sigmoid(Z·W_A·Z^T)，

其中，A_pe′表示所述恢复出的邻接矩阵，

为待训练的权重系数，Z表示所述文本表征结果。

步骤S152，根据所述恢复出的邻接矩阵和所述人物事件关系图对应的真实邻接矩阵确定L2范数损失。

L_r＝||A_pe-A_pe′||₂，

其中，L_r表示所述L2范数损失，A_pe′表示恢复出的邻接矩阵，A_pe表示真实邻接矩阵，||·||₂表示L2范数的计算公式。

具体地，由于人物与人物关系图只能反应人物之间的结构关系，事件与事件关系图只能反应事件之间的结构关系，均只包括单一种类节点，因此，在解码过程中可根据文本信息对应的文本表征结果选择对包含了更多节点种类，且结构更复杂的人物与事件关系图的邻接矩阵进行恢复，具体为通过一个待训练的参数矩阵，分别左乘文本表征结果，并右乘该文本表征结果，然后通过sigmoid函数进行处理，确定最终的恢复结果。为了保证编码器编码后的结果能够最大程度的包含人物与事件关系图的所有特征，需要使人物与事件关系图对应的恢复出的邻接矩阵最大程度地接近人物与事件关系图对应的真实邻接矩阵。

本可选的实施例中，对经过编码和加权求和后得到的文本表征结果进行恢复，得到恢复出的邻接矩阵，并根据恢复出的邻接矩阵和真实邻接矩阵确定L2范数损失，便于后续根据L2范数损失优化文本分类模型，能够减少编码过程中的特征遗漏，提高文本表征结果包含的特征数量，进而提高文本分类的准确率，获得更好的分类效果。

步骤S153，根据所述文本表征结果和所述标签确定交叉熵损失，并根据所述L2范数损失和所述交叉熵损失确定联合损失。

可选地，采用第七公式根据所述文本表征结果和所述标签确定交叉熵损失，所述第七公式包括：

L_c＝CrossEntrophy(Y′，y)，

其中，L_c表示所述交叉熵损失，y表示所述文本信息的标签，Y′表示所述预测结果，CrossEntrophy(·)表示交叉熵损失函数。

L＝L_r+L_c,

其中，L表示所述联合损失，L_r表示所述L2范数损失。

本可选的实施例中，联合损失包括两部分，一部分是根据图编码结果进行分类预测的预测记过与其对应的标签的交叉熵损失，另一部分是根据图编码结果恢复得到的人物与事件的恢复邻接矩阵与对应的人物与事件的真实邻接矩阵计算的第二范数损失，采用联合损失来优化整个模型，能够提高分类准确率，获得更好的分类效果。

步骤S154，根据所述联合损失迭代优化所述文本分类模型至收敛。

本实施例中，获取预先根据文本信息建立的人物事件关系图，可将原始的文本分类人物转化为图分类人物，通过文本分类模型对各个人物事件关系图进行编码，能得到维度较小的图表征结果，能够降低后续处理的数据维度，提高处理速度。然后对各个编码结果进行融合，能够得到包含了更多特征信息的文本表征结果，结合该文本表征结果和文本信息的标签迭代优化文本分类模型，能够提高训练得到的文本分类模型的分类准确率，获得更好的分类效果。

如图3所示，本发明另一实施例提供的一种诉讼状分类方法，包括：

步骤S210，获取待分类的诉讼状；

步骤S220，提取所述诉讼状中的人物和/或事件，以及关系，以所述人物和/或所述事件为节点，所述关系为边构建人物事件关系图。

具体地，提取诉讼状中的人物和人物间关系，以人物为节点，人物之间的关系为边构建人物与人物关系图；提取诉讼状中的人物和事件，以及人物与事件之间的关系，以人物和事件为节点，人物和事件之间的关系为边构建人物与事件关系图；提取诉讼状中的事件和事件之间的关系，以事件为节点，事件之间的关系为边构建事件与事件关系图。人物事件关系图可通过软件程序进行构建。

步骤S230，将所述人物事件关系图输入训练好的文本分类模型，输出所述诉讼状的分类结果，其中，所述文本分类模型，采用如上所述的文本分类模型训练方法训练得到。

本实施例中，获取包含了大量人物事件关系的诉讼状，提取诉讼状中的各个人物和事件，以及人物与人物之间，人物与事件之间和事件与事件之间的关系，进而构建人物事件关系图，能够将文本分类人物转化为图分类任务，降低分类复杂度，提高分类效果和速度。将构建的任务事件关系图输入到训练好的文本分类模型，通过该文本分类模型能够提高文本分类的准确率，获得更好的分类效果。

如图4所示，本发明又一实施例提供的一种文本分类模型训练装置，包括：

如图5所示，本发明又一实施例提供的一种诉讼状分类装置，包括：

第二获取模块，用于获取待分类的诉讼状；

本发明又一实施例提供的一种电子设备包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如上所述的文本分类模型训练方法或如上所述的诉讼状分类方法。

本发明再一实施例提供的一种计算机可读存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的文本分类模型训练方法或如上所述的诉讼状分类方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。