CN114021658A

CN114021658A - 一种命名实体识别模型的训练方法、应用方法及其系统

Info

Publication number: CN114021658A
Application number: CN202111324784.XA
Authority: CN
Inventors: 宿帅; 李若青; 曹源; 曲佳; 谢正光; 徐会杰; 楚柏青; 陈文�; 魏运; 吕楠; 豆飞; 禹丹丹
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-08

Abstract

本发明涉及一种命名实体识别模型的训练方法、应用方法及其系统，属于轨道交通自然语言处理领域，模型训练方法包括对故障文本进行预处理，得到字向量和词向量；字向量包括命名实体识别任务的字向量和分词任务的字向量；词向量用于判断一个句子中的连续的两个字向量是否关联为同一个词；建立命名实体识别模型；命名实体识别模型包括命名实体识别任务子模型、分词任务子模型和对抗训练结构；将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行训练，得到训练好的命名实体识别模型。利用该命名实体识别模型进行命名实体类别的识别，具有很高的识别精度和识别效果。

Description

一种命名实体识别模型的训练方法、应用方法及其系统

技术领域

本发明涉及自然语言处理方法在轨道交通领域的应用，特别是涉及一种面向故障文本的命名实体识别模型的训练方法、应用方法及其系统。

背景技术

自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、知识提取、文本分类、语音识别、中文OCR等方面。其中，知识提取是从文本型知识源中抽取出隐含的、有价值的知识的过程。为了有效挖掘文本信息，可以通过知识提取技术从非结构化的文本数据中获取结构化数据。知识提取通常包括命名实体识别、命名实体消歧、关系抽取和事件抽取，其中，命名实体识别是最重要的子任务之一。

然而，铁路领域中的中文命名实体识别方法仍然存在如下缺陷：

(1)铁路领域缺乏能公开使用的标注数据集，仍然依靠人工标注数据，由于人工标注数据存在清晰度和准确度的问题，会直接影响中文命名实体的识别精度和识别效果；

(2)中文语言具有多语义、常省略等复杂特性，导致实体与实体之间没有明确的边界，使得最终中文命名实体的识别精度低，识别效果差；

(3)铁路领域现有的中文命名实体识别方法都是基于字符的输入，没有引入词汇信息，实体识别效果较差。

因此，上述缺陷使得轨道交通铁路领域中现有的中文命名实体识别方法普遍存在识别精度低、识别效果差的问题。基于此，如何提升铁路领域中的中文命名实体识别的精度和效果，是目前铁路领域的中文命名实体类别识别方面中亟待解决的一个核心问题。

发明内容

本发明的目的是提供一种命名实体识别模型的训练方法、应用方法及其系统，以提升对中文命名实体类别的识别精度和识别效果，解决铁路领域中现有的命名实体识别方法存在的识别精度低、识别效果差的问题。

为实现上述目的，本发明提供了如下方案：

一方面，本发明提供了一种命名实体识别模型的训练方法，包括：

对故障文本进行预处理，得到字向量和词向量；所述字向量包括命名实体识别任务的字向量和分词任务的字向量；所述词向量用于判断一个句子中的连续的两个所述字向量是否关联为同一个词；

建立所述命名实体识别模型；所述命名实体识别模型包括命名实体识别任务子模型、分词任务子模型和对抗训练结构，所述命名实体识别任务子模型包括依次级联的第一字向量嵌入层、词向量嵌入层、Lattice LSTM层和第一条件随机场层，所述分词任务子模型包括依次级联的第二字向量嵌入层、第一双向长短期记忆网络层和第二条件随机场层；所述对抗训练结构包括生成器和判别器，所述生成器包括依次级联的所述第一字向量嵌入层、所述第二字向量嵌入层和第二双向长短期记忆网络层；所述判别器包括最大池化层和Softmax层；所述生成器和所述判别器之间进行对抗训练，以提取出所述命名实体识别任务和所述分词任务之间的共同特征，并通过所述最大池化层降低提取出的所述共同特征的维度，然后通过所述Softmax层归一化后输出任务类型的概率结果，从而识别出当前输入的字符序列来自所述命名实体识别任务还是所述分词任务；

将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行训练，得到训练好的命名实体识别模型。

可选的，所述对故障文本进行预处理，得到字向量和词向量，具体包括：

对所述故障文本进行分词处理，得到分词结果；

采用BIO标注法对所述分词结果进行字符标注，并基于“时间、地点、人物、起因、经过和结果”的事件六要素对命名实体进行定义，构建语料库；

对所述语料库进行预训练，得到所述字向量；

对所述分词结果进行预训练，得到所述词向量。

可选的，在所述命名实体识别模型中，所述命名实体识别任务子模型、所述分词任务子模型和所述对抗训练结构还各具有一层自注意力机制层；

所述命名实体识别任务子模型的自注意力机制层分别与所述Lattice LSTM层和所述第一条件随机场层级联；

所述分词任务子模型的自注意力机制层分别与所述第一双向长短期记忆网络层和所述第二条件随机场层级联；

所述对抗训练结构的自注意力机制层分别与所述第二双向长短期记忆网络层和所述最大池化层级联。

可选的，所述将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行训练，得到训练好的命名实体识别模型，具体包括：

将所述命名实体识别任务的字符序列和所述分词任务的字符序列交替输入至所述对抗训练结构中，通过所述判别器判断当前输入的字符序列来自于所述命名实体识别任务还是所述分词任务；所述字符序列上带有采用BIO标注法标注的标签；其中，所述命名实体识别任务的字符序列包括所述命名实体识别任务的字向量和相应的标签，所述分词任务的字符序列包括所述分词任务的字向量和相应的标签；

当所述判别器判断当前输入的字符序列来自于所述命名实体识别任务时，则利用所述命名实体识别任务的字向量和所述词向量对所述命名实体识别任务子模型进行训练；

当所述判别器判断当前输入的字符序列来自于所述分词任务时，则利用所述分词任务的字向量对所述分词任务子模型进行训练；

训练完成后，得到所述训练好的命名实体识别模型。

可选的，所述将所述命名实体识别任务的字符序列和所述分词任务的字符序列交替输入至所述对抗训练结构中，通过所述判别器判断当前输入的字符序列来自于所述命名实体识别任务还是所述分词任务，具体包括：

将所述命名实体任务的字符序列和所述分词任务的字符序列作为所述对抗训练结构的输入，交替地输入至所述生成器中对应的字向量嵌入层中，分别得到所述命名实体任务的字向量表示和所述分词任务的字向量表示；其中，所述字向量嵌入层包括输入所述命名实体任务的字符序列的第一字向量嵌入层以及输入所述分词任务的字符序列的第二字向量嵌入层；

根据所述命名实体任务的字向量表示和所述分词任务的字向量表示，利用所述第二双向长短期记忆网络层得到所述对抗训练结构的隐藏层状态；

将所述对抗训练结构的隐藏层状态输入至所述对抗训练结构的所述自注意力机制层，得到所述自注意力机制层的输出状态结果；

将所述自注意力机制层的输出状态结果传输至所述判别器中进行判别，经所述最大池化层的最大池化处理后得到中间结果，并将所述中间结果传输至所述Softmax层；

通过所述Softmax层输出所述命名实体任务和所述分词任务的任务类型的概率结果，根据所述任务类型的概率结果确定当前输入的字符序列来自于所述命名实体任务还是所述分词任务，并保存此时的所述自注意力机制层的输出状态结果。

可选的，所述当所述判别器判断当前输入的字符序列来自于所述命名实体识别任务时，则利用所述命名实体识别任务的字向量和所述词向量对所述命名实体识别任务子模型进行训练，具体包括：

当所述判别器判断当前输入的字符序列来自于所述命名实体识别任务时，表示所述对抗训练结构的输入来源于所述命名实体识别任务的字符序列，则此时开始对所述命名实体识别任务子模型进行训练；

将所述命名实体识别任务的字符序列和所述分词任务的单词序列进行拼接，并送入至所述第一字向量嵌入层和所述词向量嵌入层中，得到字向量表示和词向量表示；

将所述字向量表示和所述词向量表示输入至所述Lattice LSTM层，得到所述Lattice LSTM层的隐藏层状态；

将所述Lattice LSTM层的隐藏层状态送入至所述命名实体识别任务子模型的自注意力机制层中，得到所述命名实体识别任务子模型的自注意力机制层的输出状态结果；

将此时得到的所述自注意力机制层的输出状态结果与预先保存的所述自注意力机制层的输出状态结果进行拼接，得到新的自注意力机制层的输出状态结果；

将所述新的自注意力机制层的输出状态结果输入至所述第一条件随机场层中，利用所述第一条件随机场层对命名实体识别结果进行优化，输出最终的字符序列预测结果，所述字符序列预测结果表示当前输入的字符序列属于所述命名实体任务的概率。

可选的，所述当所述判别器判断当前输入的字符序列来自于所述分词任务时，则利用所述分词任务的字向量对所述分词任务子模型进行训练，具体包括：

当所述判别器判断当前输入的字符序列来自于所述分词任务时，表示所述对抗训练结构的输入来源于所述分词任务的字符序列，则此时开始对所述分词任务子模型进行训练；

将所述分词任务的字符序列送入所述第二字向量嵌入层中，得到字向量表示；

将所述字向量表示输入至所述第一双向长短期记忆网络层中，计算得到所述第一双向长短期记忆网络层的隐藏层状态；

将所述第一双向长短期记忆网络层的隐藏层状态输入至所述分词任务子模型的所述自注意力机制层中，得到所述分词任务子模型的所述自注意力机制层的输出状态结果；

将此时得到的所述自注意力机制层的输出状态结果输入至所述第二条件随机场层中进行优化，输出最终的字符序列预测结果，所述字符序列预测结果表示当前输入的字符序列属于所述分词任务的概率。

另一方面，本发明还提供了一种命名实体识别模型的应用方法，使用所述的训练好的命名实体识别模型进行命名实体识别，包括：

对故障文本进行预处理，得到字向量；所述字向量包括命名实体识别任务的字向量和分词任务的字向量；

将所述命名实体识别任务的字向量和所述分词任务的字向量输入至所述训练好的命名实体识别模型中，得到命名实体类别的识别结果。

可选的，所述对故障文本进行预处理，得到字向量，具体包括：

对所述故障文本进行分词处理，得到分词结果；

对所述语料库进行预训练，得到所述命名实体识别任务的字向量和所述分词任务的字向量。

另一方面，本发明还提供了一种命名实体识别模型的应用系统，所述应用系统被处理器运行时实现所述的命名实体识别模型的训练方法中一个或多个步骤或实现所述的命名实体识别模型的应用方法中一个或多个步骤。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明基于故障文本建立了命名实体识别模型，该命名实体识别模型包括命名实体识别任务子模型、分词任务子模型和对抗训练结构三部分，其中，命名实体识别任务子模型包括依次级联的第一字向量嵌入层、词向量嵌入层、Lattice LSTM层和第一条件随机场层；分词任务子模型包括依次级联的第二字向量嵌入层、第一双向长短期记忆网络层和第二条件随机场层；对抗训练结构包括生成器和判别器，所述生成器包括依次级联的所述第一字向量嵌入层、所述第二字向量嵌入层和第二双向长短期记忆网络层；所述判别器包括最大池化层和Softmax层。其中，生成器用于尽力提取命名实体识别任务和分词任务的共同特征，使判别器无法判别出当前输入的字符序列来自命名实体识别任务还是分词任务，判别器则用于尽力判别出当前输入的字符序列来自命名实体识别任务还是分词任务，从而实现对抗训练，通过多次对抗训练使生成器提取出判别器无法区分的命名实体识别任务和分词任务之间的共同特征。

通过对抗训练结构中的生成器和判别器之间进行对抗训练，以提取出命名实体识别任务和分词任务之间的共同特征，并通过最大池化层降低提取出的所述共同特征的维度，利用Softmax层适用于解决多分类问题的特点，当命名实体识别只包括命名实体识别任务和分词任务两种分类情况时，利用Softmax层将分类问题转化为二分类的回归问题，通过Softmax层输出这两种任务类型的概率结果，从而更加准确地识别出当前输入的字符序列来自命名实体识别任务还是来自分词任务，有效提升了命名实体类别的识别精度。

本发明面向于铁路领域的故障文本，实现对铁路领域中列车故障文本中的命名实体的精确识别，还可适用于其他具有故障文本的领域，可实现对这些故障文本中命名实体的识别，具有普适性，应用广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本发明的主旨。

图1为本发明实施例1提供的命名实体识别模型的训练方法的流程图；

图2为本发明实施例1提供的命名实体识别模型进行命名实体识别的流程图；

图3为本发明实施例1提供的Lattice LSTM层的结构示意图；

图4为本发明实施例1提供的以“空调故障”为例的Lattice LSTM层的工作流程图；

图5为本发明实施例2提供的命名实体识别模型的应用方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如本发明和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本发明对根据本发明的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本发明的目的是提供一种命名实体识别模型的训练方法、应用方法及其系统，在故障文本的前提下，可有效提升对故障文本中的中文命名实体的识别精度和识别效果，能够自动化、高精度地实现故障文本的关键信息(也称实体)的提取，挖掘历史故障文本数据中的有价值信息，利用这些有价值信息为工作人员提供决策帮助和信息支持。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本实施例提供了一种命名实体识别模型的训练方法，具体包括以下步骤：

步骤S1、对故障文本进行预处理，得到字向量和词向量；所述字向量包括命名实体识别任务的字向量和分词任务的字向量；所述词向量用于判断一个句子中的连续的两个所述字向量是否关联为同一个词。具体包括：

步骤S1.1、对所述故障文本进行分词处理，得到分词结果。具体包括：

步骤S1.1.1、将所述故障文本数据以句子为单位进行分割，得到句子分割结果；

步骤S1.1.2、将所述句子分割结果以词为单位进行分割，得到词分割结果；

步骤S1.1.3、将所述词分割结果中与命名实体识别任务无关的停用词删除，得到所述分词结果，包括多个故障文本单词序列text_i＝{w_i,1,w_i,2,…,w_i,n},i∈[1,N]。

其中，rext_i表示第i个故障文本单词序列，w_i,j表示第i个故障文本单词序列中的第j个单词，N表示故障文本的数量，n表示每个故障文本单词序列中单词的数量。

本实施例在分词处理时，由于例如铁路领域等各个领域中分别涉及相应的专业词汇，因此，本实施例通过外加领域词典以提高分词的准确性。

由于原始故障文本中的数据为粗糙的非结构化数据，因此，分词处理首先需要将原始故障文本以句子为单位分割，再将分割出的各个句子以词为单位分割，然后在分割出的各个词中，删除一些与命名实体识别任务无关的停用词，所述停用词指的是故障文本中不具有实质作用的词语，例如特殊字符、英文乱码、生僻字等。目前，可通过网络下载现有技术中公开的中文停用词库，在停用词库中划分出了停用词的具体范围，此处不再赘述。本实施例中，删除的停用词包括除逗号、句号外的其他标点符号、人名、生僻字和英文等。通过删除这些停用词，以降低中文命名实体的识别难度，提升识别准确性、可靠性。

本发明通过对故障文本进行分词，能够确定中文的命名实体与命名实体之间的边界，并在此基础上，能够识别出故障文本对应的领域中的专有名词作为领域实体，使得识别出的命名实体更加准确、可靠，提升了中文命名实体的识别精度。

步骤S1.2、采用BIO标注法对所述分词结果进行字符标注，并基于“时间、地点、人物、起因、经过和结果”的事件六要素对命名实体进行定义，构建语料库。也就是说，将分词处理后得到的故障文本单词序列中组成每个单词的字符进行标注，构建得到语料库。具体包括：

步骤S1.2.1、采用BIO标注法对所述分词结果中的每个单词的字符进行标注，得到字符序列的命名实体的类别以及每个所述字符的位置。

首先，利用领域词汇字典的方法构建字符对序列：

其中，item_i表示字符对序列，

表示第i个故障文本单词序列中第z个单词的中第j个字符在命名实体中的位置，z∈[1,n],j∈[1,k],k∈[1,5]，故障文本中单词包含的最长字符数为5；

表示第i个故障文本单词序列中第z个单词的命名实体类别；第z个单词中包含的所有字符均属于一个命名实体类别；M表示命名实体类别的数量，T₁,T₂,…,T_M分别表示M种命名实体对应的类别。

采用BIO标注法对字符对序列中的字符进行标注，为每个字符标注上“B”、“I”或者“O”。在BIO标注法中，“B”即Begin，表示该字符位于某实体的开头，“I”即Inside，表示该字符位于某实体的内部，“O”即Outside，表示该字符不属于任何规定类别的实体。

步骤S1.2.2、基于“时间、地点、人物、起因、经过和结果”的事件六要素，对所述命名实体进行定义，得到所述语料库。

本实施例中，根据上述事件六要素，将故障文本中涉及的命名实体定义为6类，如表1所示：

表1故障文本涉及的命名实体表

序号	实体名称	英文	标注名称
				1	故障发现人员	Identity	IDT
2	故障发生地点	Location	LOC
				3	故障现象	Phenomenon	PHO
4	故障处置步骤	Process	PRO
				5	故障影响	Effect	EFFE
6	领域专有名词	Terminology	TERM

下面以“列车运行至古城站接到乘务管理员通知”这一个句子为例，本实施例采用哈尔滨工业大学的pyltp自然语言处理工具包进行分词处理，并手动添加了词典，且词典中涵盖有领域专有名词，以帮助分词。经过分词处理后该句子构成的单词序列为：{列车，运行，至，古城站，接到，乘务管理员，通知}。经过BIO标注后得到序列：{{(列，B-TERM)，(车，I-TERM)}，{(运，O)，(行，O)}，{(至，O)}，{(古，B-LOC)，(城，I-LOC)，(站，I-LOC)}，{(接，O)，(到，O)}，{(乘，B-IDT)，(务，I-IDT)，(管，I-IDT)，(理，I-IDT)，(员，I-IDT)}，{(通，O)，(知，O)}}，如表2所示：

表2命名实体标注样式举例

本发明通过对故障文本进行字符标注并建立语料库，语料库中的数据均为已标注数据，半自动地构建出故障文本的命名实体识别的标注数据集，将语料库中的标注数据划分后能够直接输入到深度学习模型中进行训练，从而解决了现有技术中缺乏标注数据集、完全依靠人工标注数据的问题，消除了由于标注数据集缺乏、完全依靠人工标注数据造成的对中文命名实体的识别精度和识别效果的影响，进而提高了中文命名实体的识别精度和识别效果。

步骤S1.3、对所述语料库进行预训练，得到所述字向量。具体包括：

采用word2vec预训练法对所述语料库中文本形式的字符进行预训练，并将所述字符转化为对应的向量形式，得到所述字向量。

Word2vec是一群用来产生字/词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学的词文本。本实施例中维度设置为100维，训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。word2vec属于本领域中成熟且广泛使用的字/词向量训练方式，可以直接调用函数库实现，此处不再赘述。

word2vec模型的输出为预训练字向量矩阵e^c1。对于语料库D，其中任意字符c_i的字向量表示

可以从e^c1中查找得到，表示为：

其中，

表示语料库中字符的字向量表示，e^c1表示语料库中字符的预训练字向量矩阵，D表示语料库，c_i表示语料库中的任意一个字符。

步骤S1.4、对所述分词结果进行预训练，得到所述词向量。具体包括：

采用word2vec预训练法对所述分词结果进行预训练，得到所述词向量。

在步骤S1.4中对分词结果进行预训练获取词向量，使用的方法和步骤S1.3是相同的，同样采用word2vec预训练法，得到字符和词汇两种形式的向量表示，从而获取的到词向量。同步骤S1.3.2中字向量表示具有相同维度，在本实施例中设为100维。需要说明的是，这个具体数值是一个优选值，还可以设置为其他维度，可根据实际情况自行设定。

对于由分词结果组成的另一语料库W，其中任意词汇w_i的词向量表示

可以从预训练词向量矩阵e^w中查找得到，表示为：

其字符形式的向量表示为：

其中，w_i表示分词结果构成的另一语料库W中的任意一个词汇；

表示词汇w_i的词向量表示；e^w表示预训练词向量矩阵；

表示分词结果对应的字符的字向量表示；e^c2表示分词结果中字符的预训练字向量矩阵。

步骤S2、建立命名实体识别模型。

本发明采用的是基于Adversarial Training Lattice LSTM的深度学习模型作为命名实体识别模型，实施例1的模型训练方法，就是对该命名实体识别模型的训练方法。因此，首先需要构建出该命名实体识别模型。

该命名实体识别模型是一种词汇增强模型，通过两种动态结构将词汇信息添加到命名实体识别任务中，以提高命名实体的识别效果。第一种动态结构是AdversarialTraining对抗训练，通过学习命名实体识别任务和分词任务的共同特征，将词汇信息引入到命名实体识别任务中。第二种动态结构是Lattice LSTM，通过改变LSTM的结构来充分利用词与词之间的序列信息。

如图2所示，本发明采用的命名实体识别模型包括命名实体识别任务子模型、分词任务子模型和对抗训练结构，所述命名实体识别任务子模型包括依次级联的第一字向量嵌入层、词向量嵌入层、Lattice LSTM层和第一条件随机场层，所述分词任务子模型包括依次级联的第二字向量嵌入层、第一双向长短期记忆网络层和第二条件随机场层；所述对抗训练结构包括生成器和判别器，所述生成器包括依次级联的所述第一字向量嵌入层、所述第二字向量嵌入层和第二双向长短期记忆网络层；所述判别器包括最大池化层和Softmax层，判别器用于判断生成器的输入是来自于命名实体识别任务还是分词任务。

另外，在所述命名实体识别模型中，所述命名实体识别任务子模型、所述分词任务子模型和所述对抗训练结构还各具有一层自注意力机制层；所述命名实体识别任务子模型的自注意力机制层分别与所述Lattice LSTM层和所述第一条件随机场层级联；所述分词任务子模型的自注意力机制层分别与所述第一双向长短期记忆网络层和所述第二条件随机场层级联；所述对抗训练结构的自注意力机制层分别与所述第二双向长短期记忆网络层和所述最大池化层级联。

其中，对抗训练结构，指的是生成器和判别器之间进行对抗训练，以提取出所述命名实体识别任务和所述分词任务之间的共同特征，并通过所述最大池化层降低提取出的所述共同特征的维度，然后通过所述Softmax层归一化后输出任务类型的概率结果，从而识别出当前输入的字符序列来自所述命名实体识别任务还是所述分词任务。

步骤S3、根据上述训练方法，将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行多次训练，得到训练好的命名实体识别模型。具体包括：

步骤S3.1、将所述命名实体识别任务的字符序列和所述分词任务的字符序列交替输入至所述对抗训练结构中，通过所述判别器判断当前输入的字符序列来自于所述命名实体识别任务还是所述分词任务；所述字符序列上带有采用BIO标注法标注的标签；其中，所述命名实体识别任务的字符序列包括所述命名实体识别任务的字向量和相应的标签，所述分词任务的字符序列包括所述分词任务的字向量和相应的标签。

本实施例中，将命名实体任务和分词任务的字符序列交替输入至对抗训练结构的第一字向量嵌入层和第二字向量嵌入层中，得到两个任务的字向量表示

和

然后通过第二双向长短期记忆网络层得到隐藏层状态h_i，计算公式为：

其中，h_i表示通过第二双向长短期记忆网络层得到隐藏层状态；

表示字向量；h_i-1表示前一时刻的隐藏层状态；h_i+1表示后一时刻的隐藏层状态；箭头表示第二双向长短期记忆网络层的方向，向右的箭头表示从输入序列的开始遍历到结尾，向左的箭头表示从输入序列的结尾遍历到开始；

为拼接符号。

隐藏层输出的结果还需经过自注意力机制层，得到自注意力机制层的输出状态H，计算公式为：

其中，Q、K、V分别表示查询矩阵、键矩阵和值矩阵，

且Q＝K＝V＝H。d表示第二双向长短期记忆网络层隐藏单元的维度，本方法将d设置为128维。

这四个参数均是模型中的可训练参数。

自注意力机制层的输出结果需要输入到判别器中进行判别，以分辨输入来自命名实体识别任务还是分词任务。其表达式为：

h^k＝maxpooling(H^k)

D(h^k；θ_d)＝softmax(W_dh^k+b_d)

其中，H^k表示任务k输入生成器和自注意力机制后的输出，任务k的类别未知，可能是命名实体识别任务，也可能是分词任务。θ_d表示判别器的训练参数集。

是模型中可训练的参数，K表示任务数，本实施例中取值为2，即包含有命名实体识别和分词两个任务。h^k表示经过判别器最大池化层后的中间结果，然后输入到Softmax层中使其映射为(0，1)之间的值。D(h^k；θ_d)表示最终输出的概率，自变量是h^k，可训练参数集是θ_d。

假设命名实体识别任务为正确类别，则分词任务为错误类别，Softmax层用于区分输入来自于哪一个任务，最终得到正确类别的概率和错误类别的概率。当正确类别的概率大于错误类别的概率时，表示输入来自命名实体识别任务的字符序列，当正确类别的概率小于错误类别的概率时，表示输入来自分词任务的字符序列。将此时的自注意力机制层的输出状态H结果保存。

步骤S3.2、当所述判别器判断当前输入的字符序列来自于所述命名实体识别任务时，开始利用所述命名实体识别任务的字向量和所述词向量对所述命名实体识别任务子模型进行训练。

首先，将命名实体识别任务的字符序列和分词任务的单词序列进行拼接，并输入至第一字向量嵌入层和词向量嵌入层中，得到字向量表示

和词向量表示

然后通过Lattice LSTM层得到隐藏层状态

计算公式为：

其中，

表示j时刻隐节点的状态向量，

表示j时刻LSTM单元的状态向量；

分别表示LSTM单元的遗忘门、输入门、输出门和记忆门四个门控单元。W^c1、b^c1表示模型所有可训练的参数，

表示j时刻命名实体识别任务的字向量表示；σ()代表sigmoid激活函数，将输出值转换为0到1之间的数值。tanh()激活函数将输出转换为-1到1之间的数值。

由于Lattice LSTM层是一种动态结构，只有当某一字符序列能够引入词汇信息时，词向量才会被利用。因此，当引入词汇信息时，对于以字符索引b开头，以字符索引e结尾组成的词汇输入

此时Lattice LSTM层的状态向量

的计算公式如下：

其中，

分别代表Lattice LSTM层的输入门和遗忘门；

表示LatticeLSTM层的记忆门，W^w、b^w表示模型可训练的参数，

表示词汇输入；

表示b时刻LatticeLSTM层的状态向量，

表示b时刻隐节点的状态向量。

由于最后的标签预测仍然是基于字符的，因此j时刻隐节点的状态向量

的计算仍和没有引入词汇信息的字符序列的计算方式相同。如图3和图4所示，当没有词汇信息引入时，Lattice LSTM层采用图3中第一个图的结构输入输出；当有词汇信息引入时，采用图3中第二个图的结构输入词汇信息。Lattice LSTM层的工作流程图如图4所示，图4中以“空调故障”为例，在“空调故障”四个字符的基础上区分字符和词汇，以更清晰、更直观地表明Lattice LSTM层的具体结构。

在得到Lattice LSTM层的j时刻隐节点的状态向量

后，还需要经过自注意力机制层，计算方法和步骤S2.1中的方式相同，得到输出状态H′。将步骤S2.1中得到的命名实体识别任务的H进行拼接，得到新的自注意力机制层状态

最后经过第一条件随机场层优化命名实体识别结果，输出最终的标签预测结果

其中，

表示字符c⁽ⁱ⁾属于命名实体任务的概率。

步骤S3.3、当所述判别器判断当前输入的字符序列来自于所述分词任务时，则利用所述分词任务的字向量对所述分词任务子模型进行训练。

首先将分词任务的字符序列送入第二字向量嵌入层中，得到字向量表示

然后通过第一双向长短期记忆网络得到隐藏层状态h_i，计算公式同步骤S5.1中的方式相同。再经过自注意力机制层得到状态H，计算公式和步骤S2.1中的方式相同，此处不再赘述。最后经过第二条件随机场层输出最终的标签预测结果

其中，

表示字符c⁽ⁱ⁾属于分词任务的概率。

另外，在命名实体识别模型训练过程中，采用Adam优化算法持续更新网络权重，并以所述对抗训练结构的损失函数、所述命名实体识别任务子模型的损失函数和所述分词任务子模型的损失函数为模型损失函数，对所述命名实体识别模型进行迭代训练；

首先对抗训练结构的损失函数定义为：

其中，L_adv表示对抗训练结构的损失函数；D(h^k；θ_d)表示二分类任务的预测结果，即预测出对抗训练结构的输入来自于命名实体识别任务的概率；T_k表示任务k的训练样例数，

表示最大化生成器提取出共同特征的概率，训练参数为θ_d；

表示判别器的优化目标，最小化上述结果，尽可能使判别器分出哪个是命名实体识别任务哪个是分词任务，训练参数为θ_s。

本发明将对抗训练结构定义为一个最小最大优化问题，即生成器尽可能提取命名实体任务和分词任务的共同特征，使判别器无法判别出输入字符序列来自于哪一个任务；同时判别器试图判别出输入字符序列来自于哪一个任务。通过不断进行对抗训练，使得生成器提取出判别器无法区分的两个任务的共同特征，从而根据两个任务的共同特征，更易判别出到底属于哪一个任务，进而降低了模型的识别难度，提升了模型识别的准确性。

其次，命名实体识别任务子模型的损失函数定义为：

其中，L_NER表示命名实体识别任务子模型的损失函数；

表示字符c⁽ⁱ⁾属于命名实体任务的概率；T表示任务的训练样例数。

同样地，分词任务子模型的损失函数定义为：

其中，L_CWS表示分词任务子模型的损失函数；

表示字符c⁽ⁱ⁾属于分词任务的概率；T表示任务的训练样例数。

合并上述三个损失函数，得到模型最终的损失函数为：

L＝L_NER*I(x)+L_CWS*(1-I(x))+ηL_adv

其中，I(x)表示当前对抗训练结构判别出输入来自于哪一个任务；x表示对抗训练结构的输入；T_NER表示命名实体识别任务的训练数据集；T_CWS表示分词任务的训练数据集；η为一个超参数。

当命名实体识别模型产生的损失值满足设定条件或达到最大迭代次数，则停止训练，并保存此时命名实体识别模型的训练参数，得到所述训练好的命名实体识别模型。

本实施例中，将命名实体识别模型的最大迭代次数设置为10000次，迭代10000次后，停止对命名实体识别模型的训练，至此，训练结束。需要说明，本实施例中的最大迭代次数仅仅是一个优选值，其可以是不同的值，可自行设定。由于命名实体识别任务子模型和分词任务子模型的收敛速度可能不同，而本发明的关注点在于命名实体识别任务，因此，根据命名实体识别任务子模型的性能设置最大迭代次数的具体数值，可训练出效果较佳的命名实体识别模型，提升命名实体识别模型的识别性能。

上述训练过程完成后，得到所述训练好的命名实体识别模型。

对故障文本而言，目前诸如铁路领域等大部分领域中仅具有原始故障文本，没有可直接使用的公开数据集，然而大部分深度学习模型需要进行监督学习，通过向深度学习模型输入一个输入得到对应的输出。本发明为故障文本中的实体进行标注后，就构造了输入和输出一一对应的标注数据集，用此标注数据集来训练命名实体识别模型的参数。在现有的故障文本的前提下，通过分词、标注等方式即可获得标注数据集，不仅解决了现有技术中缺乏标注数据集、完全依靠人工标注数据的问题，利用标注数据集训练模型参数还提高了模型的识别精度，进而提高了中文命名实体的识别效果。

本发明通过对语料库进行训练得到字向量，通过对分词结果进行训练得到词向量，并将字向量、词向量参与到命名实体识别模型的训练过程中，帮助命名实体识别模型识别出更准确的实体边界，结合命名实体识别模型中对抗训练Adversarial Training和Lattice LSTM两种动态结构的优点，可消除引入词汇信息对实体识别带来的干扰，从而使识别结果更加准确、可靠，识别效果更加显著，有效提升了对命名实体类别的识别精度和效果。

本发明使用字向量和词向量同时作为输入，引入词汇信息帮助识别命名实体的边界，可提升模型的识别精度。并且，对抗训练结构可以消除引入词汇信息对实体识别带来的干扰，从而进一步提升了模型的识别精度。因此，本发明采用对抗训练AdversarialTraining和Lattice LSTM两种动态结构，相比仅具有单一动态结构的传统算法，显著提高了命名实体的识别精度，识别结果更加准确、可靠，识别效果更佳。

本发明通过对故障文本进行字符标注建立语料库，语料库中的数据均为已标注数据，半自动地构建出故障文本命名实体识别的标注数据集，将语料库中的标注数据划分后能够直接输入到命名实体识别模型中进行训练，从而解决了现有技术中缺乏标注数据集、完全依靠人工标注数据的问题，消除了由于标注数据集缺乏、完全依靠人工标注数据造成的对中文命名实体的识别精度和识别效果的影响，进而提高了中文命名实体的识别精度和识别效果。并且，本发明完全基于现有的故障文本数据，可实际应用于各种具有故障文本的场景中，尤其是铁路领域中，只要在发生故障后可产生故障文本，利用本发明的方法均可实现对命名实体的类别进行准确识别，有利于我国自然语言处理技术尤其是命名实体识别的发展和进步。

实施例2

如图5所示，本实施例2提供了一种命名实体识别模型的应用方法，该命名实体识别模型的应用方法使用的是实施例1中的训练好的命名实体识别模型。需要说明的是，本实施例中不再赘述命名实体识别模型的构建过程和训练过程，各个步骤的具体过程以及计算公式与实施例1是相同的，请参见实施例1，此处均不再赘述。

本实施例中，命名实体识别模型的应用方法的具体步骤如下：

步骤T1、对故障文本进行预处理，得到字向量；所述字向量包括命名实体识别任务的字向量和分词任务的字向量；

步骤T2、将所述命名实体识别任务的字向量和所述分词任务的字向量输入至所述训练好的命名实体识别模型中，得到命名实体类别的识别结果。

所述对故障文本进行预处理，得到字向量，具体包括：

步骤T1.1、对所述故障文本进行分词处理，得到分词结果；

步骤T1.2、采用BIO标注法对所述分词结果进行字符标注，并基于“时间、地点、人物、起因、经过和结果”的事件六要素对命名实体进行定义，构建语料库；

步骤T1.3、对所述语料库进行预训练，得到所述命名实体识别任务的字向量和所述分词任务的字向量。

实施例3

本实施例提供了一种命名实体识别模型的应用系统，所述应用系统被处理器运行时实现如实施例1中所述的命名实体识别模型的训练方法中一个或多个步骤，或者，实现如实施例2中所述的命名实体识别模型的应用方法中一个或多个步骤。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种命名实体识别模型的训练方法，其特征在于，包括：

建立命名实体识别模型；所述命名实体识别模型包括命名实体识别任务子模型、分词任务子模型和对抗训练结构，所述命名实体识别任务子模型包括依次级联的第一字向量嵌入层、词向量嵌入层、Lattice LSTM层和第一条件随机场层，所述分词任务子模型包括依次级联的第二字向量嵌入层、第一双向长短期记忆网络层和第二条件随机场层；所述对抗训练结构包括生成器和判别器，所述生成器包括依次级联的所述第一字向量嵌入层、所述第二字向量嵌入层和第二双向长短期记忆网络层；所述判别器包括最大池化层和Softmax层；所述生成器和所述判别器之间进行对抗训练，以提取出所述命名实体识别任务和所述分词任务之间的共同特征，并通过所述最大池化层降低提取出的所述共同特征的维度，然后通过所述Softmax层归一化后输出任务类型的概率结果，从而识别出当前输入的字符序列来自所述命名实体识别任务还是所述分词任务；

2.根据权利要求1所述的命名实体识别模型的训练方法，其特征在于，所述对故障文本进行预处理，得到字向量和词向量，具体包括：

对所述故障文本进行分词处理，得到分词结果；

对所述语料库进行预训练，得到所述字向量；

对所述分词结果进行预训练，得到所述词向量。

3.根据权利要求1所述的命名实体识别模型的训练方法，其特征在于，在所述命名实体识别模型中，所述命名实体识别任务子模型、所述分词任务子模型和所述对抗训练结构还各具有一层自注意力机制层；

4.根据权利要求3所述的命名实体识别模型的训练方法，其特征在于，所述将所述命名实体识别任务的字向量和所述分词任务的字向量交替输入至所述命名实体识别模型的所述对抗训练结构中进行训练，得到训练好的命名实体识别模型，具体包括：

训练完成后，得到所述训练好的命名实体识别模型。

5.根据权利要求4所述的命名实体识别模型的训练方法，其特征在于，所述将所述命名实体识别任务的字符序列和所述分词任务的字符序列交替输入至所述对抗训练结构中，通过所述判别器判断当前输入的字符序列来自于所述命名实体识别任务还是所述分词任务，具体包括：

6.根据权利要求5所述的命名实体识别模型的训练方法，其特征在于，所述当所述判别器判断当前输入的字符序列来自于所述命名实体识别任务时，则利用所述命名实体识别任务的字向量和所述词向量对所述命名实体识别任务子模型进行训练，具体包括：

将所述字向量表示和所述词向量表示输入至所述Lattice LSTM层，得到所述LatticeLSTM层的隐藏层状态；

7.根据权利要求4所述的命名实体识别模型的训练方法，其特征在于，所述当所述判别器判断当前输入的字符序列来自于所述分词任务时，则利用所述分词任务的字向量对所述分词任务子模型进行训练，具体包括：

8.一种命名实体识别模型的应用方法，使用如权利要求1所述的训练好的命名实体识别模型进行命名实体识别，其特征在于，包括：

9.根据权利要求8所述的命名实体识别模型的应用方法，其特征在于，所述对故障文本进行预处理，得到字向量，具体包括：

对所述故障文本进行分词处理，得到分词结果；

10.一种命名实体识别模型的应用系统，其特征在于，所述应用系统被处理器运行时实现如权利要求1-7任一项所述的命名实体识别模型的训练方法的步骤或实现如权利要求8-9任一项所述的命名实体识别模型的应用方法的步骤。