CN112989830B

CN112989830B - 一种基于多元特征和机器学习的命名实体识别方法

Info

Publication number: CN112989830B
Application number: CN202110251787.9A
Authority: CN
Inventors: 张士伟; 文卫东
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2023-08-18
Anticipated expiration: 2041-03-08
Also published as: CN112989830A

Abstract

本发明提出了一种基于多元特征和机器学习的命名实体识别方法。本发明将多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列，将处理后裁判文书单词序列中每个单词进行人工标注，构建标签对序列；构建裁判文书命名实体识别模型，所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成；将处理后裁判文书单词序列输入裁判文书命名实体识别模型，通过预测得到每个单词对应的命名实体类别标签和位置标签，结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型，通过优化训练得到优化后裁判文书命名实体识别模型。本发明提升了预测精度。

Description

一种基于多元特征和机器学习的命名实体识别方法

技术领域

本发明涉及一种交通肇事案件裁判文书命名实体识别方法，更具体地说，涉及一种基于多元特征和机器学习的命名实体识别方法。

背景技术

最高人民法院公布的数据显示，仅2019年上半年，各省(区、市)法院新收案件数量达到1488.9万件，同比上升14.54％。这些海量的案件涉及到了多种多样、错综复杂的信息，给法官和律师等从业人员分析案情带来了沉重的负担。因此，越来越多的法院开始探索运用大数据、人工智能等新技术构建智慧司法体系，其中，命名实体识别(Name EntityRecognition,NER)就是构建智慧司法的关键环节之一，对于法律领域文本的自动信息抽取有着极其重要的意义。命名实体识别一般指识别文本中具有特定意义的实体，如人名、地名、机构名、专有名词等，具体地说，就是识别自然文本中的实体指称的边界和类别。通过在裁判文书语料库上训练命名实体识别模型，可以自动捕捉到案情中的关键信息，进而为事件抽取、相似案件推送、辅助判决等场景提供基础服务。

目前，针对通用领域的命名实体识别已经取得了一些进展，对常见的人名、地名、机构名等实体的识别效果较为理想。但是针对司法领域的命名实体识别研究还处在探索阶段，尤其是对于犯罪后果、责任承担、到案情况、赔偿情况等难度较高的实体识别尚无成熟的方案。

发明内容

本发明针对现有技术的不足，提供一种基于多元特征和机器学习的交通肇事案件裁判文书命名实体识别方法。该方法借助自然语言处理中的预训练语言模型和人工构建的领域词典、双向长短期记忆神经网络和条件随机场模型，对交通肇事案件裁判文书中涉及的命名实体进行识别。

为了实现上述发明目的，解决已有技术中存在的问题，本发明采取的技术方案是：一种基于多元特征和机器学习的命名实体识别方法，包括以下步骤：

步骤1：多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列，将处理后裁判文书单词序列中每个单词进行人工标注，得到每个单词的命名实体类别以及每个单词的位置，进一步构建标签对序列；

步骤2：构建裁判文书命名实体识别模型，所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成；将处理后裁判文书单词序列输入裁判文书命名实体识别模型，通过预测得到每个单词对应的命名实体类别标签和位置标签，进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型，通过优化训练得到优化后裁判文书命名实体识别模型。

作为优选，步骤1所述处理后裁判文书单词序列为：

paper_i＝{w_i,1,w_i,2,…,w_i,n}，i∈[1，K]

其中，paper_i表示第i个处理后裁判文书单词序列，w_i,j表示第i个处理后裁判文书单词序列中第j个单词，n为每个处理后裁判文书单词序列中单词的数量，K表示处理后裁判文书的数量。

步骤1所述构建标签对序列为：

Item_i＝{(type_i,1,pos_i,1),(type_i,2,pos_i,2),…,(type_i,n,pos_i,n)}

type_i,j∈{D₁,D₂,…,D_M}

pos_i,j∈{B,I,E,S,O}

其中，type_i,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别，pos_i,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置，D₁,D₂,…,D_M代表M种命名实体类别，pos_i,j∈{B,I,E,S,O}代表M种命名实体位置，

其中，B表示该单词处于type_i,j实体的开头，I表示该单词处于type_i,j实体的内部，E表示该单词处于type_i,j实体的末尾，S表示该单词自身构成了完整的type_i,j实体，O表示该单词不在任何实体的范围内。

作为优选，步骤2所述多元特征提取层，提取处理后裁判文书单词序列的词向量和领域词典相似度特征；

在提取词向量特征时，使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式。不同于word2vec等词向量生成方法，BERT借助self-attention机制能够更有效地捕捉单词之间的上下文关系，获得更合语境的词向量表示。

对于第i个处理后裁判文书单词序列即paper_i＝{w_i,1,w_i,2,…,w_i,n}，通过BERT模型获得每个单词w_i,j的单词向量其中d表示词向量的维度；

进一步构建第i个处理后裁判文书单词词向量向量表示：V_i＝{V_i,1,V_i,2,…,V_i,n}。

在提取领域词典相似度特征时，本专利在大量裁判文书的基础上构建了L个领域词典Dict＝{dict₁，dict₂,…,dict_L}，每个词典dict_k包含c_k个单词

对于输入文书paper_i中的每个单词w_i,j，分别计算该单词与词典dict_k中所有单词对应词向量的余弦相似度CosSim，并取平均值作为w_i,j与dict_k的相似度，相似度计算公式所下所示：

通过这种方式，每个单词w_i,j都会得到一个领域词典相似度向量S_i,j中的每个元素代表单词w_i,j与各领域词典的相似度。

由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成，所以这样可以将人工总结的先验知识引入到模型中，从而提高模型的效果。

对于paper_i中的每个单词w_i,j，将对应的词向量V_i,j和领域词典相似度向量S_i,j连接在一起，即可获得该单词的特征向量

通过多元特征提取层的处理，对于第i个处理后裁判文书单词序列即paper_i，输出第i个处理后裁判文书单词序列的特征矩阵f_i＝{f_i,1,f_i,2,…,f_i,n}；

步骤2所述双向长短期记忆神经网络层用于进一步提取文本语义特征；

步骤2所述双向长短期记忆神经网络层由n个LSTM单元组成，每个LSTM单元对应一个细胞状态C和一个隐层状态h；

对于t时刻的LSTM单元，接收来自上一个单元的细胞状态C_t-1和隐层状态h_t-1，通过内部的遗忘门f_t、记忆门i_t和输出门o_t计算出新的细胞状态C_t和隐层状态h_t，其中，细胞状态C_t就包含了t时刻之前的所有有用信息，三个门的计算公式如下：

f_t＝sigmoid(W_f[h_t-1,x_t]+b_f)

i_t＝sigmoid(W_i[h_t-1,x_t]+b_i)

o_t＝sigmoid(W_o[h_t-1,x_t]+b_o)

其中，W和b分别表示权重矩阵和偏置矩阵，x_t是第t个单词对应的词向量，sigmoid是一种非线性激活函数，可将自变量映射到0到1之间的值。

细胞状态C_t和隐层状态h_t的计算公式如下：

其中，

h_t＝o_t·tanh(C_t)

对于paper_i中的第t个单词w_it，将其前向和后向分别计算出的隐层状态和/>组合起来，即可获得新的隐层状态/>

经过双向长短期记忆神经网络层层的处理，对于上一层输入的f_i＝{f_i,1,f_i,2,…,f_i,n}，输出新的特征矩阵h_i＝{h_i,1,h_i,2,…,h_i,n}。

随后，将h_i输入到softmax分类器中，即可计算出初步的命名实体预测结果z_i＝{z_i,1,z_i,2,…,z_i,n}，其中z_i,j表示单词w_i,j对应各命名实体类别的概率，即z_i,j＝{z_i,j,1,z_ij，1，…，z_i，j，M}，z_i，j，k表示单词w_i，j属于第k类命名实体的概率，选择概率最大的类别即可作为预测出的类别；

所述条件随机场层用于优化命名实体识别结果；

从而对上一层输出的概率分布z_ij＝{z_ij，1，z_ij，1，…，z_ij，M}进行修正，输出最终的预测结果p_i＝{p_i1，p_i2，…，p_in}，其中，p_ij＝{p_ij，1，p_ij，1，…，p_ij，M}；

步骤2所述构建损失函数模型为：

在搭建好上述模型后，即可将训练集输入到模型中进行迭代训练。由于命名实体识别本质上类似于多分类问题，因此使用交叉熵的方式来定义模型的损失函数，如下所示。

其中，若单词w_i，j的真实标签type_i，j＝D_m，则y_ij，m＝1，否则y_ij，m＝0；p_ij，m表示模型预测出的w_i，j属于第m类命名实体的概率。K表示裁判文书的数量，n表示每篇裁判文书的单词数量，M表示命名实体类别的数量；

在定义裁判文书命名实体识别模型的损失函数后，使用Adam算法对模型不断更新和优化。

本发明将神经网络模型和经典的统计机器学习方法结合起来，并融入了包括词向量和领域词典相似度在内的多元特征，在大量的交通肇事案件裁判文书上进行了训练，得到了可用于提取文书中各种命名实体的模型，相对于面向通用领域的命名实体识别方法，提升了精度。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的模型架构图。

图3是本发明实施例使用到的长短期记忆神经网络的结构图。

具体实施方式

本发明提供的方法能够用计算机软件技术实现流程。下面结合图1至图3介绍本发明的具体实施例。

参见图1，第一实施例为一种基于多元特征和机器学习的命名实体识别方法，包括以下步骤：

步骤1所述处理后裁判文书单词序列为：

paper_i＝{w_i，1，w_i，2，…，w_i，n}，i∈[1，K]

其中，paper_i表示第i个处理后裁判文书单词序列，w_i，j表示第i个处理后裁判文书单词序列中第j个单词，K＝1000表示处理后裁判文书的数量，n＝300表示每个处理后裁判文书单词序列中单词的数量。

步骤1所述构建标签对序列为：

Item_i＝{(type_i，1，pos_i，1)，(type_i，2，pos_i，2)，…，(type_i，n，pos_i，m)}

type_i，j∈{D₁，D₂，…，D_M}

pos_i，j∈{B，I，E，S，O}

其中，type_i，j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别，pos_i，j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置，M＝12表示命名实体类别的数量，D₁，D₂，…，D_M代表M种命名实体类别，pos_i，j∈{B，I，E，S，O}代表单词在命名实体中的位置。

其中，B表示该单词处于type_i，j实体的开头，I表示该单词处于type_i，j实体的内部，E表示该单词处于type_i，j实体的末尾，S表示该单词自身构成了完整的type_i，j实体，O表示该单词不在任何实体的范围内。

步骤2、构建裁判文书命名实体识别模型，所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成；将处理后裁判文书单词序列输入裁判文书命名实体识别模型，通过预测得到每个单词对应的命名实体类别标签和位置标签，进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型，通过优化训练得到优化后裁判文书命名实体识别模型；

步骤2所述多元特征提取层，提取处理后裁判文书单词序列的词向量和领域词典相似度特征；

对于第i个处理后裁判文书单词序列即paper_o＝{w_i，1，w_i，2，…，w_i，n}，通过BERT模型获得每个单词w_i，j的单词向量其中d表示词向量的维度；

进一步构建第i个处理后裁判文书单词词向量向量表示：V_i＝{V_i，1，V_i，2，…，V_i，n}。

在提取领域词典相似度特征时，本专利在大量裁判文书的基础上构建了L＝10个领域词典Dict＝{dict₁，dict₂，…，dict_L}，每个词典dict_k包含c_k个单词

对于输入文书paper_i中的每个单词w_i，j，分别计算该单词与词典dict_k中所有单词对应词向量的余弦相似度CosSim，并取平均值作为w_i，j与dict_k的相似度，相似度计算公式所下所示：

通过这种方式，每个单词w_i，j都会得到一个领域词典相似度向量S_i,j中的每个元素代表单词w_i，j与各领域词典的相似度。

对于paper_i中的每个单词w_i，j，将对应的词向量V_i，j和领域词典相似度向量S_i，j连接在一起，即可获得该单词的特征向量

通过多元特征提取层的处理，对于第i个处理后裁判文书单词序列即paper_i，输出第i个处理后裁判文书单词序列的特征矩阵f_i＝{f_i，1，f_i，2，…，f_i，n}；

f_t＝sigmoid(W_f[h_t-1，x_t]+b_f)

i_t＝sigmoid(W_i[h_t-1，x_t]+b_i)

o_t＝sigmoid(W_o[h_t-1，x_t]+b_o)

细胞状态C_t和隐层状态h_t的计算公式如下：

其中，

h_t＝o_t·tanh(C_t)

所述条件随机场层用于优化命名实体识别结果；

步骤2所述构建损失函数模型为：

第二实施例为以交通肇事案件裁判文书为例对本发明的流程进行一个具体的阐述，如下：

步骤1、定义交通肇事案件裁判文书中的命名实体、标注格式，具体包括以下子步骤：

(a)命名实体的定义。根据《中华人民共和国道路交通安全法》、《中华人民共和国道路交通安全法实施条例》、最高人民法院《关于审理交通肇事刑事案件具体应用法律若干问题的解释》等法律法规，以及近5年来各省市交通肇事案件的统计分析结果，将交通肇事案件裁判文书中涉及的命名实体定义为12类，如表1所示。

表1交通肇事案件裁判文书涉及的命名实体

(b)命名实体的标注格式。本发明以BIOES格式标注数据中的命名实体，具体地说，B-begin表示某实体的开头单词，I-inside表示某实体的中间单词，E-end表示某实体的末尾单词，S-single表示某单词本身就是一个完整的实体，O-outside表示某单词不属于任何实体。例如，“认定被告人张三负主要责任”经过分词后可以标注成以下格式：

表2命名实体标注格式示例

(c)标注数据并检验数据可靠性。根据BIOES格式，使用人工与自动化工具相结合的方法，标注出所有数据中的命名实体。然后采用人工抽样的方式对标注结果进行检验，以保证数据标注的可靠性。抽样比例为10％，所使用的检验指标是准确率precision、召回率recall和两者的调和平均数F1-score，计算方法如式(8)(9)(10)所示。在本发明中，F1-score达到95％以上认为数据是可靠的，可以用于实验。

步骤2、对数据进行预处理，具体包括以下子步骤：

(a)分词和词性标注。基于经典的条件随机场模型，在大量的司法语料上训练了专门的分词模型和词性标注模型，并辅以司法领域词典，以提高分词和词性标注的准确率。其中，词典一部分来源于互联网上公开的词典库，一部分来源于人工总结。

(b)去除停用词。本发明所使用的停用词库一部分来源于互联网上公开的停用词库，其中收录了大量无意义的功能词，如“的”、“了”、“此外”等；停用词库另一部分来源于借助TF-IDF方法生成的不重要单词列表，其中大部分是司法领域的无意义的单词，如“依法”、“意见”等。

(c)划分数据集。在获取到完整的交通肇事案件裁判文书后，抽取其犯罪事实和判决结果部分组成数据集，获得2700篇数据，经过上述预处理后进行标注。打乱分布后，将数据按照80％：10％：10％的比例划分为训练集、验证集、测试集。

上述预处理步骤的示例如下：

步骤3、搭建裁判文书命名实体识别模型，模型主要由多元特征提取层、Bi-LSTM层、CRF层组成，具体包括以下子步骤：

(a)定义多元特征提取层，用于提取裁判文书的词向量和领域词典相似度两种特征。

在提取词向量特征时，使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式，以便于后续处理。不同于word2vec等词向量生成方法，BERT借助self-attention机制能够更有效地捕捉单词之间的上下文关系，获得更合语境的词向量表示。对于输入的由N个单词组成的裁判文书paper_i＝{w_i，1，w_i，2，…，w_i，N}，通过BERT模型获得每个单词w_i，j的向量表示然后输入到后面的网络中，其中d＝300，也即每个单词可由300维的向量表示。

在提取领域词典相似度特征时，本专利在大量裁判文书的基础上人工定义了10类领域词典Dict＝{dict₁，dict₂，…，dict₁₀}，其中，dict₁表示人名类词典，dict₂表示地名类词典，dict₃表示时间类词典，dict₄表示汽车类词典，dict₅表示医学类词典，dict₆表示交通类词典，dict₇表示经济类词典，dict₈表示保险类词典，dict₉表示生活类词典，dict₁₀表示司法类词典。

对于输入文书paper_i中的每个单词w_i，j，分别计算该单词与词典dict_k(k＝1，2，…，10)中所有单词对应词向量的余弦相似度，并取平均值作为w_i，j与dict_k的相似度，如式(1)所示。通过这种方式，每个单词w_i，j都会得到一个维度为10的向量，向量中的每个元素代表该单词与对应领域词典的相似度，由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成，所以这样可以将人工总结的先验知识引入到模型中，从而提高模型的效果。

通过多元特征提取层的处理，对于输入的由N个单词组成的裁判文书paper_i＝{w_i，1，w_i，2，…，w_i，N}，可输出一个维度为N×310的特征矩阵。

(b)定义Bi-LSTM即双向长短期记忆神经网络层，提取文本特征。Bi-LSTM是循环神经网络的一种，可以有效提取自然语言等序列化数据中的关键信息。对于t时刻的LSTM单元，它接收来自上一个单元的细胞状态C_t-1和隐层状态h_t-1，通过遗忘门f_t、记忆门i_t和输出门o_t产生新的细胞状态C_t和隐层状态h_t，其中，细胞状态C_t就包含了t时刻之前的所有有用信息。通过这种方式，可以计算出任意位置单词的前向和后向特征向量，将其组合起来即可得到包含完整信息的特征向量。

(c)定义CRF层，优化命名实体识别结果。在使用Bi-LSTM层提取出裁判文书的特征向量后，即可送入softmax分类器中，得到每一个单词所对应各种命名实体类别的概率，并选取概率最高的类别作为预测出的结果。但在实际情况下该结果并不总是合理的，这是因为命名实体识别任务有着天然的“语法规则”，例如一个命名实体标注只能以B或者S开头，以E或者S结束。因此，有必要使用CRF层对最终的识别结果进行全局性约束，以确保识别结果符合BIOES规则。CRF全称是Conditional RandomField，即条件随机场，它是一种经典的序列标注算法，通过学习大量的训练数据，它可以自动地捕获命名实体之间的依赖关系和约束关系，从而对上一层输出的概率分布进行修正，得到最终的预测结果。

步骤4、模型训练与测试。

在搭建好上述命名实体识别模型后，即可将训练集输入到模型中进行迭代训练，在训练过程中使用Adam优化算法来不断更新网络中的权重，相对于SGD、RMSprop等优化算法，Adam算法的收敛速度更快，也更容易找到全局最优的权重。根据训练后得到的模型在验证集上的效果，不断地对模型的超参数如学习率、drop-out、batch-size等进行调整。最后，观察模型在测试集上的表现，计算准确率、召回率和F1值，并与其他的模型进行对比分析。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于多元特征和机器学习的命名实体识别方法，其特征在于，包括以下步骤：

步骤2：构建裁判文书命名实体识别模型，所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成；将处理后裁判文书单词序列输入裁判文书命名实体识别模型，通过预测得到每个单词对应的命名实体类别标签和位置标签，进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型，通过优化训练得到优化后裁判文书命名实体识别模型；

步骤1所述处理后裁判文书单词序列为：

paper_i＝{w_i，1，w_i，2，…，w_i，n}，i∈[1，K]

其中，paper_i表示第i个处理后裁判文书单词序列，w_i，j表示第i个处理后裁判文书单词序列中第j个单词，n为每个处理后裁判文书单词序列中单词的数量，K表示处理后裁判文书的数量；

步骤1所述构建标签对序列为：

Item_i＝{(type_i，1，pos_i，1)，(type_i，2，pos_i，2)，…，(type_i，n，pos_i，n)}

type_i，j∈{D₁，D₂，…，D_M}

pos_t，j∈{B，I，E，S，O}

其中，type_i，j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别，pos_i，j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置，D₁，D₂，…，D_M代表M种命名实体类别，pos_i，j∈{B，I，E，S，O}代表M种命名实体位置，

其中，B表示该单词处于type_i，j实体的开头，I表示该单词处于type_i，j实体的内部，E表示该单词处于type_i，j实体的末尾，S表示该单词自身构成了完整的type_i，j实体，O表示该单词不在任何实体的范围内；

在提取词向量特征时，使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式；

对于第i个处理后裁判文书单词序列即paper_i＝{w_i，1，w_i，2，…，w_i，n}，通过BERT模型获得每个单词w_i，j的单词向量其中d表示词向量的维度；

进一步构建第i个处理后裁判文书单词词向量向量表示：V_i＝{V_i，1，V_i，2，…，V_i，n}；

在提取领域词典相似度特征时，在大量裁判文书的基础上构建了L个领域词典Dict＝{dict₁，dict₂，…，dict_L}，每个词典dict_k包含c_k个单词

通过这种方式，每个单词w_i，j都会得到一个领域词典相似度向量S_i，j中的每个元素代表单词w_i，j与各领域词典的相似度；

由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成，所以这样可以将人工总结的先验知识引入到模型中，从而提高模型的效果；

对于paper_i中的每个单词w_i，j，将对应的词向量V_i，j和领域词典相似度向量S_i，j连接在一起，即可获得该单词的特征向量f_i，j，

f_t＝sigmoid(W_f[h_t-1，x_t]+b_f)

i_t＝sigmoid(W_i[h_t-1，x_t]+b_i)

o_t＝sigmoid(W_o[h_t-1，x_t]+b_o)

其中，W和b分别表示权重矩阵和偏置矩阵，x_t是第t个单词对应的词向量，sigmoid是一种非线性激活函数，可将自变量映射到0到1之间的值；

细胞状态C_t和隐层状态h_t的计算公式如下：

其中，

h_t＝o_t·tanh(C_t)

经过双向长短期记忆神经网络层层的处理，对于上一层输入的f_i＝{f_i，1，f_i，2，…，f_i，n}，输出新的特征矩阵h_i＝{h_i，1，h_i，2，…，h_i，n}；

随后，将h_i输入到softmax分类器中，即可计算出初步的命名实体预测结果z_i＝{z_i，1，z_i，2，…，z_i，n}，其中z_i，j表示单词w_i，j对应各命名实体类别的概率，即z_i，j＝{z_i，j，1，z_ij，1，…，z_i，j，M}，z_i，j，k表示单词w_i，j属于第k类命名实体的概率，选择概率最大的类别即可作为预测出的类别；

所述条件随机场层用于优化命名实体识别结果；

步骤2所述构建损失函数模型为：

在搭建好上述模型后，即可将训练集输入到模型中进行迭代训练；

使用交叉熵的方式来定义模型的损失函数，如下所示；

其中，若单词w_i，j的真实标签type_i，j＝D_m，则y_ij，m＝1，否则y_ij，m＝0；p_ij，m表示模型预测出的w_i，j属于第m类命名实体的概率；K表示裁判文书的数量，n表示每篇裁判文书的单词数量，M表示命名实体类别的数量；