CN112699682A

CN112699682A - 一种基于可组合弱认证器的命名实体识别方法和装置

Info

Publication number: CN112699682A
Application number: CN202011601897.5A
Authority: CN
Inventors: 孙宇清; 吴佳琪; 刘天元
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-12-11
Filing date: 2020-12-30
Publication date: 2021-04-23
Anticipated expiration: 2040-12-30
Also published as: CN112699682B

Abstract

一种基于可组合弱认证器的命名实体识别的算法架构，包括：实体识别部分和结果认证部分；所述实体识别部分用于完成识别任务，得到识别结果；所述结果认证部分包括两个及以上弱认证器，分别用于对所述识别结果在每个弱认证器对应细分目标上进行检验认证。本发明所述弱认证器为能够独立完成一个细分目标的模块，其所需的训练数据能够在已有任务语料库上自动生成。弱认证器和实体识别部分形成端到端的网络，用于使用监督方法进行优化学习。本发明通过可组合的弱认证器来辅助命名实体识别的过程，有效提高实体识别的精度，并能简单快速地在特定领域实体识别场景下适配扩展。

Description

一种基于可组合弱认证器的命名实体识别方法和装置

技术领域

本发明涉及到一种基于可组合弱认证器的命名实体识别方法和装置，属于命名实体识别的技术领域。

背景技术

命名实体识别是指根据预先定义的实体类型集合，在文本中定位实体边界并分类实体的过程。命名实体识别结果为知识图谱构建、关系抽取、信息检索等许多下游任务提供支持。早期的命名实体识别主要识别人名、地名和组织机构名等简单的实体，随着命名实体识别应用领域的不断扩充，实体的类型也逐渐增多，在特殊的领域更是具有一些领域专有的实体类型，如生物医学领域的药物名等。

命名实体识别可以至少细分为两个过程，一是实体边界的确定，二是实体类型的识别。现有技术中，当上述两个环节中任意一个出错都将导致最后的命名实体识别错误：当前的命名实体识别方法通常将上述两个过程视为一体(传统的命名实体识别方法通常将命名实体识别视为序列标注任务，使用深度网络结合条件随机场进行实体标注，即将实体边界识别和实体类型识别合并为一个任务)，或单独处理其中某个过程，导致学习过程中，并不知道哪一个环节导致了最后实体识别的失败。

实体的命名在不同领域里可以根据需求自由定义没有严格约束，主观意识强，实体的边界差异较大，导致命名实体识别更加困难。需要进行实体识别的领域都缺乏大量标记的命名实体识别数据集，严重影响监督学习方法的效果，因此，怎样更加有效的利用领域内有限的实体标注数据进行学习，是命名实体识别取得良好结果的关键。

发明内容

为了解决现有命名实体识别技术存在的问题，本发明公开一种基于可组合弱认证器的命名实体识别的算法架构。

本发明还公开利用上述算法构架实现的基于可组合弱认证器的命名实体识别方法。

本发明还公开一种实现基于可组合弱认证器的命名实体识别方法的装置。

本发明还公开一种命名实体识别的训练方法。

本发明还公开一种实现基于可组合弱认证器的命名实体识别方法的可读存储介质。

本发明还公开一种实现基于可组合弱认证器的命名实体识别方法的计算机设备。

本发明的技术方案如下：

一种基于可组合弱认证器的命名实体识别的算法架构，其特征在于，包括：实体名称识别部分和结果认证部分；

所述实体名称识别部分用于完成文本中实体的识别任务，得到识别结果；

所述结果认证部分包括两个及以上弱认证器，分别用于对所述识别结果在每个弱认证器对应细分目标上进行检验认证。

本发明所述弱认证器为能够独立完成一个细分目标的模块，其所需的训练数据能够在已有任务语料库上自动生成。弱认证器和实体识别部分形成端到端的网络，使用监督方法进行优化学习。本发明通过组合多个弱认证器来辅助命名实体识别的过程，有效提高实体识别的精度，并能简单快速地在特定领域实体识别场景下适配扩展。

根据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，包括待识别信息输入层、实体识别层、数据转换层和弱认证器输出层；

所述待识别信息输入层进行特征提取工作：该层中包括特征提取模块；将待识别文本输入和实体描述输入经过特征提取模块处理后，作为实体识别层的第一输入信息；

所述实体识别层对第一输入信息进行实体识别工作：该层中包括实体识别模块，该模块将待识别文本处理为：实体概念描述类型对应的特征编码、输入序列每个位置被预测为实体的概率；

所述数据转换层根据弱认证器输出层中弱认证器信息处理要求分别对实体识别模块的输入、输出和/或实体类型嵌入向量融合处理后，作为弱认证器输出层的第二输入信息；

所述弱认证器输出层中包括多个弱认证器，每个弱认证器中记载有不同的神经网络层，实现在每个弱认证器对应细分目标上对第二输入信息进行检验认证。

根据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，还包括层间信息流：原始输入信息流、特征提取信息流、实体识别信息流、数据转换信息流和弱认证信息流；

所述原始输入信息流包括待识别文本输入和实体描述输入；所述特征提取信息流连接特征提取层和实体识别层；所述实体识别信息流连接实体识别层和数据转换层；所述数据转换信息流连接数据转换层和弱认证器输出层；所述弱认证信息流输出最终命名实体识别结果。

上述“用于对所述识别结果在每个弱认证器对应细分目标上进行检验认证”、“实现在每个弱认证器对应细分目标上对第二输入信息进行检验认证”和“所述弱认证信息流输出最终命名实体识别结果”都是相同的技术含义，即，将所述识别结果作为第二输入信息在每个弱认证器对应细分目标上进行检验认证，最终得到命名实体识别结果。

根据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，所述架构还包括训练信息流，所述训练信息流具体包括：预训练信息流和联合训练信息流；

其中，预训练信息流包括，实体识别模块预训练信息流、边界弱认证器预训练信息流和类型弱认证器预训练信息流；

实体识别模块预训练信息流：待识别信息输入层中的特征提取模块和实体识别层中的实体识别模块参与训练，弱认证器层关闭输入输出接口；训练数据为原始训练标记语料；

边界弱认证器模块预训练信息流：待识别信息输入层中的特征提取模块和弱认证器层中的边界弱认证器模块参与训练，实体识别层关闭输入输出接口，弱认证器层中的类型弱认证器模块关闭输入输出接口，特征提取模块在预训练过程中冻结网络参数；基于边界弱认证器模块的输入需求，对原始训练语料自动构建适配的数据输入；

类型弱认证器模块预训练信息流：待识别信息输入层中的特征提取模块和弱认证器层中的类型弱认证器模块，实体识别层关闭输入输出接口，弱认证器层中的边界弱认证器模块关闭输入输出接口，特征提取模块在预训练过程中冻结网络参数；基于类型弱认证器模块的输入需求，对原始训练语料自动构建适配的数据输入；

所述联合训练的信息流：待识别信息输入层中的特征提取模块、实体识别层中的实体识别模块、弱认证器层中的边界弱认证器模块和类型弱认证器模块参与训练，所有模块的输入输出输出接口打开。优选的，本发明不冻结实体识别模块的网络参数，冻结弱认证器模块的网络参数；通过边界弱认证器模块、类型弱认证器模块和实体识别模块的输出计算损失，对实体识别模块进行参数更新；训练数据为原始训练标记语料。

根据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，所述弱认证器层包括边界弱认证器模块和类型弱认证器模块；

所述数据转换层根据边界弱认证器模块对实体识别模块的输入、输出和/或实体类型嵌入向量融合处理的方法，包括：

流向边界弱认证器模块的第二输入信息的融合处理方法为：至少将输入序列的语义特征编码E和输入序列每个位置被预测为实体的概率进行拼接；

流向类型弱认证器模块的第二输入信息的融合处理方法为：至少将输入序列实体位置掩码后的语义特征编码和输入序列实体位置替换为实体类型嵌入向量后的编码进行拼接。

根据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，所述输入序列实体位置掩码后的语义特征编码的形成方式为：对输入序列的语义特征编码E和输入序列对应位置被预测为非实体的概率相乘；所述输入序列实体位置替换为实体类型嵌入向量的方式为：对实体类型嵌入向量和输入序列对应位置被预测为非实体的概率相乘。

根据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，所述实体识别模块包括多组神经网络串联和神经网络的激活函数，优选的，每组神经网络可以为具有提取序列特征能力的网络结构，例如Bi-LSTM神经网络 (Bidirectional Long Short-TermMemory，双向长短期记忆)、Bi-GRU神经网络(Bidirectional Gate Recurrent Unit，双向门控循环单元)或深度卷积神经网络等。

据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，所述特征提取模块中加载有基于自注意力机制的预训练语言模型；优选的，加载BERT算法。

据上述基于可组合弱认证器的命名实体识别的算法架构，优选的，所述边界弱认证器模块中加载有具有提取序列特征能力的神经网络(如Bi-LSTM神经网络、 Bi-GRU神经网络或深度卷积神经网络等)和神经网络的激活函数(如sigmoid 或softmax)，用于进行边界合法性判定；

所述类型弱认证器模块中加载有具有提取序列特征能力的神经网络 (Bi-LSTM神经网络、Bi-GRU神经网络或深度卷积神经网络等)和K个独立的激活函数(如sigmoid或softmax)用于进行K类实体的判定。

利用上述算法构架实现的基于可组合弱认证器的命名实体识别方法，其特征在于：

包括特征提取处理、实体识别处理、数据转换处理和弱认证器处理；

所述特征提取处理用于将待识别文本输入和实体描述输入经特征提取后得到输入的语义特征表示E，即E∈R^n×d，其中n为待识别文本输入序列的长度， d为经特征提取模块最后一层的向量输出维度，R表示实数空间；

所述实体识别处理用于将语义特征表示E处理后获得实体标记输出，所述实体标记输出包括：实体概念描述类型对应的特征编码、输入序列每个位置被预测为实体的概率；

所述数据转换处理包括，边界弱认证器模块的输入前的融合处理方法和类型弱认证器模块的输入前的融合处理方法：

其中，边界弱认证器模块的输入至少包括拼接的输入序列的语义特征编码E 和输入序列每个位置被预测为实体的概率；

其中，类型弱认证器模块的输入至少包括融合：输入序列的语义特征编码E、输入序列每个位置被预测为实体的概率和实体类型嵌入向量；

所述弱认证器处理用于实现在每个弱认证器对应细分目标上对输入信息进行检验认证。

根据上述命名实体识别方法，优选的，所述弱认证器处理中：

边界弱认证器模块使用Bi-LSTM神经网络对输入进行上下文语义编码，其中，边界弱认证器模块的输入序列的第i个位置输入

对应的隐含向量

计算过程如下：

对于每个位置的隐含向量

进行加权求和，得到输入的单一向量表示h^b：

采用sigmoid函数获得边界弱认证器模块的概率输出p^b:

p^b＝sigmoid(w^bh^b+b^b)#(6)

其中，w^b和b^b为经Bi-LSTM神经网络后输出层权重矩阵和偏置向量，h^b为边界弱认证器模块的Bi-LSTM的隐含状态向量，p^b代表了实体识别模块得到的序列实体类型概率向量P^ner符合当前待识别文本输入序列X＝x₁，…，x_n和实体概念描述输入序列Q＝q₁，…，q_m的概率，其中n代表待识别文本输入序列的长度，m 代表实体概念描述输入序列的长度。

利用上述命名实体识别方法，优选的，所述弱认证器处理中：

类型弱认证器模块使用Bi-LSTM神经网络获得输入的上下文编码，和边界弱认证器模块不同的是，类型弱认证器模块使用Bi-LSTM最后一个时间步的输出

计算最后的实体类型概率，对于待识别的K种实体类型，如图2所示，原始输入信息包含待识别文本和待识别实体概念描述，具体例如，对于待识别的文本为“张三在教室…”，如需要识别“人名”这个实体类型，则对应构建的“人名”的实体概念描述为“人名是一种称谓或名字，是每个人都拥有的一种代号…”。同理，待识别的实体类型集合中的所有实体类型都有对应的实体概念描述，例如再对应构建“地点”的实体概念描述为“地点是一种位置场景名称”。此时则构建了两个实体类型及描述分别为“人名”实体类型及描述和“地点”实体类型及描述，则后续所述的K作为待识别实体类型的数量为2，对所述待识别文本将进行K次实体类型识别，其中K为待识别实体类型的数量，每一次识别过程独立识别一类实体；类型弱认证器模块有K个输出，其中k∈(1，2，3......K，K为自然数)；

第k类实体概念类型概率的计算方式为：

其中

和

为经Bi-LSTM神经网络后输出层的权重矩阵和偏置向量。

根据上述命名实体识别方法，优选的，所述特征提取模块加载有BERT算法。待识别文本输入序列X＝x₁，…，x_n和实体描述输入序列Q＝q₁，…，q_m经过特征提取模块后，得到输入的一种语义特征表示E；如图3所示，本发明优选使用BERT 算法作为特征提取模块结构，其中，输入序列的形式为 {[CLS]，q₁，…，q_m，[SEP]，x₁，…，x_n}，其中[CLS]和[SEP]为BERT算法输入的特殊标记，语义特征表示E仅包含待识别文本输入序列经过BERT后对应的输出，即E∈ R^n×d，其中n为待识别文本输入序列的长度，d为BERT最后一层的向量输出维度。

根据上述命名实体识别方法，优选的，所述实体识别模块中加载有：Bi-LSTM 神经网络(Bidirectional Long Short-Term Memory，双向长短期记忆)进行上下文语义的学习，得到实体概念描述类型对应的特征编码H^ner∈R^n×c，c为Bi-LSTM隐含向量的维度；并在H^ner上应用神经网络的激活函数(优选的， sigmoid函数)得到输入序列每个位置被预测为实体的概率，所有位置概率组成的向量为P^ner∈(0，1)^n×1。

根据上述命名实体识别方法，优选的，对输入序列的语义特征编码E和输入序列每个位置被预测为实体的概率进行拼接的方法包括：

令e_i∈R^d是语义特征编码E中第i个字符对应的向量编码，

是实体类型概率向量P^ner中第i个字符对应的概率值；在边界弱认证器模块中，第i个位置的输入

表示为：

其中

表示向量拼接操作。

根据上述命名实体识别方法，优选的，所述类型弱认证器模块的输入的融合方法：

第i个位置的输入

的计算方式如下:

其中e_i为序列第i个位置对应的语义特征编码向量，

为序列第i个位置标记为实体的概率，z为实体类型嵌入向量，实体类型嵌入向量随机初始化，不同实体类型对应的向量不同。

一种实现基于可组合弱认证器的命名实体识别方法的装置，其特征在于：

所述装置包括：特征提取模块，待识别的原始文本和实体描述文本共同经过特征提取模块获得和实体概念相关的待识别文本语义特征编码；特征提取的结果将作为实体识别模块、边界弱认证器数据转换模块和类型弱认证器数据转换模块的输入；

还包括实体识别模块，用于获取符合实体概念描述的最优实体标记序列，特征提取的结果经过实体识别模块获得和待识别原始文本等长的实体标记序列输出；

还包括边界弱认证器数据转换模块，用于将特征提取结果和实体标记共同转换为边界弱认证器模块的合法输入；

还包括类型弱认证器数据转换模块，用于将特征提取结果、实体标记和实体类型嵌入向量共同转换为类型弱认证器模块的合法输入；

所述的特征提取结果为输入序列的语义特征编码E，所述实体标记为输入序列每个位置被预测为实体的概率。

本发明所述装置中，所述边界弱认证器模块用于对待识别文本对应的语义特征和实体标记序列进行合理性验证，判断实体标记序列是否是当前待识别文本的一种合理标记，经过边界弱认证器模块获得实体标记合理程度的概率输出；所述类型弱认证器模块根据待识别文本对应的语义特征和实体标记序列，判断当前标记为实体的位置可能出现的合法实体类型，一个不合法的实体标记序列或无实体标记的序列将得不到任何可能的实体类型输出；数据经过类型弱认证器模块将获得K个实体类型的概率输出，K为待识别的实体类型集合大小。

一种命名实体识别的训练方法，其特征在于，包括：

对实体识别模块的预训练、对边界弱认证器模块的预训练、对类型弱认证器模块的预训练和对上述三个模块的预训练全部完成后进行的联合训练，

所述实体识别模块的预训练旨在让实体识别模块在所述联合训练前具有一定识别能力，对于给定输入能够给出精度较高的实体标记输出；

所述边界弱认证器模块的预训练使其在判定一个实体标记序列是否符合实际的上下文语境；

所述类型弱认证器模块的预训练使其判断某种类型实体是否符合当前输入的上下文语境。

整体模型联合训练完成后，利用获得的模型进行命名实体识别过程。输入为待识别文本和实体概念描述，输出为实体识别结果。基于可组合弱认证器的命名实体识别方法和装置的实体识别结果有三部分组成，分别为识别的实体实例、实体边界的置信度和实体类型的置信度。

根据一种命名实体识别的训练方法，优选的，所述边界弱认证器模块的预训练使其在判定一个实体标记序列是否符合实际的上下文语境的方法：该模块预训练的负样本为不正确的实体标记序列和待识别文本对，正样本为正确的实体标记序列和待识别文本对；

所述类型弱认证器模块的预训练使其判断某种类型实体是否符合当前输入的上下文语境，即适合某类实体出现的上下文，将大概率不适合另一类实体出现；该模块预训练的负样本输入包括：一种形式为将正确实体标记序列输入替换为错误的实体标记序列输入，保持正确的实体类型嵌入向量输入；另一种形式为将实体类型嵌入向量输入进行替换，保持正确的实体标记序列输入。

根据一种命名实体识别的训练方法，优选的，实体识别模块在联合训练的过程中将有弱认证器指导，进行进一步的优化：弱认证器在联合训练过程中从边界合法性和类型合法性两个角度计算损失。有效指导实体识别模块的学习过程。

根据一种命名实体识别的训练方法，优选的，在所述边界弱认证器模块和类型弱认证器模块的预训练中：根据训练语料自动构建相似的实体标记概率序列

作为边界弱认证器模块和类型弱认证器模块的输入，对于原始语料的标记序列

实体标记概率序列

的自动构建方式如下：

其中δ_i为每个位置生成一个0～0.5的随机数。

需要说明的是，虽然在识别过程中，所述边界弱认证器模块和类型弱认证器模块的输入都包含来自实体识别模块的实体标记序列结果，但在两个弱认证器模块预训练过程都无需实体识别模块的参与。基于上述的自动构建语料方式，能够基于规则自动生成大量的负样本供弱认证器进行预训练，一方面能够有效增加监督学习的标记样本数量，提高弱认证器的能力，另一方面能够减少预训练时刻各模块的耦合性提高训练速度。

根据一种命名实体识别的训练方法，优选的，所述实体识别模块的预训练条件：特征提取模块和实体识别模块参与这部分训练，其余弱认证器模块关闭输入输出接口；训练数据为原始训练标记语料；

预训练方法为：输入包含待识别文本和人工或自动预先构建的实体概念描述文本，输出为标记的实体序列Y^ner，实体部分标记为1，非实体部分标记为0；实体识别模块预训练的损失函数包含两个部分：一是经过CRF(conditional random field，条件随机场)后得到的句子级别负对数似然函数Loss^CRF，二是预测实体标记和正确实体标签的交叉熵，损失函数的计算过程如下：

Loss^ner＝CE(P^ner，Y^ner)+Loss^CRF+λ||Θ||²#(11)

其中，X表示输入的待识别文本序列，Y^ner表示正确的实体标记序列，P^ner为实体识别模块得到的输入序列每个位置被预测为实体的概率组成的向量,Y′代表所有可能组合的实体标记序列，

和

为CRF的权重矩阵和偏置向量，

为实体识别模块神经网络的隐含向量，这里使用维特比算法来找到最优的实体标记序列；λ是L2范数正则化项||Θ||²的权重超参数，Θ代表网络的参数集合； CE表示交叉熵；所述CRF仅在预训练时参与损失函数的计算，在联合训练时将关闭输入输出接口。

根据一种命名实体识别的训练方法，优选的，所述边界弱认证器模块的预训练的条件为：

边界弱认证器模块预训练参与的模块包括：特征提取模块和边界弱认证器模块，其余模块关闭输入输出接口，特征提取模块在预训练过程中冻结网络参数；基于边界弱认证器模块的输入需求，对原始训练语料自动构建适配的数据输入；

边界弱认证器模块预训练方法为：其中特征提取模块的预训练输入包含待识别文本和人工或自动预先构建的实体概念描述文本；边界弱认证器模块预训练时的输入包含来自特征提取模块的输出语义特征编码E和基于规则自动构建实体标记概率序列

边界弱认证器模块预训练时的输出为实体标记符合当前待识别文本的概率；边界弱认证器模块负样本的构建具体方式为随机的对实体标记概率序列

中值大于0.5的位置，设置为小于0.5的随机数；该模块的预训练使用带有L2范数正则化项的交叉熵作为损失函数：

Loss^b＝CE(p^b，y^b)+λ||Θ||²#(12)

其中p^b为边界弱认证器模块预测的合法性概率输出，y^b为实际样本中实体标记符合当前待识别文本的概率，CE表示交叉熵。

所述类型弱认证器模块的预训练的条件为：

类型弱认证器模块预训参与的模块包括特征提取模块和类型弱认证器模块，其余模块关闭输入输出接口，特征提取模块在预训练过程中冻结网络参数；基于类型弱认证器模块的输入需求，对原始训练语料自动构建适配的数据输入；

类型弱认证器模块预训练方法为：其中类型弱认证器模块预训练时的输入包含来自特征提取模块的输出语义特征编码E、基于规则自动构建实体标记概率序列

以及实体类型嵌入向量z，输出为K个实体类型的预测概率，输出对应的真实样本标记表示为

类型弱认证器预训练负样本的构建具体方式为：将实体类型嵌入向量z进行替换；和/或随机的对实体标记概率序列

中值大于0.5的位置，设置为小于0.5的随机数；负样本对应的真实K个实体类型的预测概率均为0；类型弱认证器预训练使用带有L2正则化的交叉熵作为损失函数：

其中

表示类型弱认证器模块预测的第i个实体类型的概率，

为对应的第 i个实体类型的真实概率。

根据一种命名实体识别的训练方法，优选的，所述联合训练中包含损失函数，损失函数如下：

Loss＝αLoss^b+βLoss^t+CE(P^ner，Y^ner)#(14)

其中，α和β为固定的权重参数，其中α，β∈(0，1)，并且α和β的和为1，Y^ner表示正确的实体标记序列，P^ner为实体识别模块得到的输入序列每个位置被预测为实体的概率组成的向量，CE表示交叉熵。

一种实现基于可组合弱认证器的命名实体识别方法的可读存储介质，其特征在于，所述可读存储介质上存储有可执行的计算机程序，该程序被执行时能够完成：实现基于可组合弱认证器的命名实体识别方法、命名实体识别的训练方法、和/或命名实体识别的优化方法。

一种实现基于可组合弱认证器的命名实体识别方法的计算机设备，其特征在于，包括处理器、存储装置以及存储在存储装置上并可在所述处理器上执行的计算机程序；

所述处理器执行计算机程序时实现如下过程：

其中，判断是训练还是使用阶段：

若是训练阶段，获取训练语料；根据训练语料自动构建实体识别模块、边界弱认证器模块和类型弱认证器模块的预训练数据；分别对三个模块进行预训练过程；预训练完成后进行所有模块的联合学习过程，得到基于可组合弱认证器的命名实体识别模型；

若是使用阶段，获得训练得到的命名实体识别模型；获取待识别文本和待识别实体概念描述，将待识别文本和待识别实体概念描述输入到模型的语义特征提取模块，输出带有实体概念信息的待识别文本语义特征编码；将得到的语义特征编码输入给实体识别模块得到预测的实体标记输出；将实体标记序列输出以及语义特征编码输入到数据转换模块，得到边界弱认证器模块和类型弱认证器模块的输入；两个弱认证器模块的输入经过各自弱认证器网络，得到实体标记的边界置信度和实体类型的置信度；根据得到的实体标记输出、实体边界置信度和实体类型置信度得到最终的命名实体识别结果。

本发明的技术优势在于：

本发明的提出的基于可组合弱认证器的命名实体识别方法和装置适用的领域为所有具有命名实体识别需求的领域。这些领域包括但不限于需要对非结构化文本进行命名实体识别的领域、需要命名实体识别结果辅助的信息检索领域、需要命名实体识别结果辅助的问答和对话系统领域、需要命名实体识别结果辅助的知识图谱领域、需要进行特殊实体识别提取的医药、生物、司法等领域、需要命名实体识别进行信息分析的电商、社交媒体等领域、需要在多种语种环境中的进行命名实体识别的领域、需要对图像识别结果进行命名实体识别分析的领域等。

特别地，对于需要给出实体边界和实体类别识别置信度的场景，本发明提供的方法和装置相比于传统的仅仅具有实体识别结果的方法，能够更好的适配这类场景。这类场景通常需要告知用户命名实体识别系统的识别置信度以防止用户仅依靠命名实体识别系统的结果。

本发明提供的预训练过程中采用的自动生成训练样本的方法，能够在已有监督学习标记数据集的基础上，自动基于规则生成任务所需的大量负样本样例，大大丰富弱认证器在预训练阶段的训练样本。同时在预训练中引入负样本能够另模型更好的学习和任务相关的有用信息，增加模型在实际使用中的鲁棒性。

本发明提出的基于可组合弱认证器的命名实体识别方法很好的解决了以往命名实体识别方法在训练过程中无法判断识别错误来源的问题，并利用弱认证器的优势，在联合训练的过程中指导命名实体识别模块更好的学习任务相关的信息，有效提高命名实体识别的精度。

附图说明

图1是本发明中实现基于可组合弱认证器的命名实体识别方法的装置示意图；

图2是本发明所述一种基于可组合弱认证器的命名实体识别的算法架构示意图；其中，1、待识别信息输入层；2、实体识别层；3、数据转换层；4、弱认证器输出层；

图3是本发明所述一种命名实体识别的训练方法流程图；

图4是本发明所述实现基于可组合弱认证器的命名实体识别方法的计算机设备示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做详细的说明，但不限于此。

实施例1、

一种基于可组合弱认证器的命名实体识别的算法架构，包括：实体识别部分和结果认证部分；

所述实体识别部分用于完成识别任务，得到识别结果；

所述算法架构，还包括待识别信息输入层、实体识别层、数据转换层和弱认证器输出层；

所述算法架构，还包括层间信息流：原始输入信息流、特征提取信息流、实体识别信息流、数据转换信息流和弱认证信息流；

所述弱认证器层包括边界弱认证器模块和类型弱认证器模块；

所述输入序列实体位置掩码后的语义特征编码的形成方式为：对输入序列的语义特征编码E和输入序列对应位置被预测为非实体的概率相乘；所述输入序列实体位置替换为实体类型嵌入向量的方式为：对实体类型嵌入向量和输入序列对应位置被预测为非实体的概率相乘。

实施例2、

如实施例1所述的基于可组合弱认证器的命名实体识别的算法架构，所述架构还包括训练信息流，所述训练信息流具体包括：预训练信息流和联合训练信息流；

所述联合训练的信息流：待识别信息输入层中的特征提取模块、实体识别层中的实体识别模块、弱认证器层中的边界弱认证器模块和类型弱认证器模块参与训练，所有模块的输入输出输出接口打开。本实施例中，不冻结实体识别模块的网络参数，冻结弱认证器模块的网络参数；通过边界弱认证器模块、类型弱认证器模块和实体识别模块的输出计算损失，对实体识别模块进行参数更新；训练数据为原始训练标记语料。

实施例3、

如实施例1所述基于可组合弱认证器的命名实体识别的算法架构，所述实体识别模块包括多组神经网络串联和神经网络的激活函数，优选的，每组神经网络可以为具有提取序列特征能力的网络结构，例如Bi-LSTM神经网络 (Bidirectional Long Short-TermMemory，双向长短期记忆)、Bi-GRU神经网络(Bidirectional Gate Recurrent Unit，双向门控循环单元)或深度卷积神经网络等。

优选的，所述特征提取模块中加载有基于自注意力机制的预训练语言模型；优选的，加载BERT算法。

所述边界弱认证器模块中加载有具有提取序列特征能力的神经网络(如 Bi-LSTM神经网络、Bi-GRU神经网络或深度卷积神经网络等)和神经网络的激活函数(如sigmoid或softmax)，用于进行边界合法性判定；

所述类型弱认证器模块中加载有具有提取序列特征能力的神经网络(Bi-LSTM神经网络、Bi-GRU神经网络或深度卷积神经网络等)和K个独立的激活函数(如sigmoid或softmax)用于进行K类实体的判定。

实施例4、

如图1、2所示，利用如实施例1-3所述算法构架实现的基于可组合弱认证器的命名实体识别方法，包括特征提取处理、实体识别处理、数据转换处理和弱认证器处理；

优选的，所述弱认证器处理中：

对应的隐含向量

计算过程如下：

对于每个位置的隐含向量

进行加权求和，得到输入的单一向量表示h^b：

采用sigmoid函数获得边界弱认证器模块的概率输出p^b:

p^b＝sigmoid(w^bh^b+b^b)#(6)

优选的，所述弱认证器处理中：

第k类实体类型类型概率的计算方式为：

其中

和

为经Bi-LSTM神经网络后输出层的权重矩阵和偏置向量。

优选的，所述特征提取模块加载有BERT算法。待识别文本输入序列X＝ x₁，…，x_n和实体描述输入序列Q＝q₁，…，q_m经过特征提取模块后，得到输入的一种语义特征表示E；如图3所示，本发明优选使用BERT算法作为特征提取模块结构，其中，输入序列的形式为{[CLS]，q₁，…，q_m，[SEP]，x₁，…，x_n}，其中[CLS]和[SEP] 为BERT算法输入的特殊标记，语义特征表示E仅包含待识别文本输入序列经过 BERT后对应的输出，即E∈R^n×d，其中n为待识别文本输入序列的长度，d为 BERT最后一层的向量输出维度。

优选的，所述实体识别模块中加载有：Bi-LSTM神经网络(Bidirectional LongShort-Term Memory，双向长短期记忆)进行上下文语义的学习，得到实体概念描述类型对应的特征编码H^ner∈R^n×c，c为Bi-LSTM隐含向量的维度；并在 H^ner上应用神经网络的激活函数(优选的，sigmoid函数)得到输入序列每个位置被预测为实体的概率，所有位置的概率组成的向量为P^ner∈(0，1)^n×1。

优选的，对输入序列的语义特征编码E和输入序列每个位置被预测为实体的概率进行拼接的方法包括：

令e_i∈R^d是语义特征编码E中第i个字符对应的向量编码，

表示为：

其中

表示向量拼接操作。

优选的，所述类型弱认证器模块的输入的融合方法：

第i个位置的输入

的计算方式如下:

其中e_i为序列第i个位置对应的语义特征编码向量，

实施例6、

如图1所示，一种实现基于可组合弱认证器的命名实体识别方法的装置，所述装置包括：特征提取模块，待识别的原始文本和实体描述文本共同经过特征提取模块获得和实体概念描述相关的待识别文本语义特征编码；特征提取的结果将作为实体识别模块、边界弱认证器数据转换模块和类型弱认证器数据转换模块的输入；

实施例7、

如图3所示，一种命名实体识别的训练方法，包括：

优选的，所述边界弱认证器模块的预训练使其在判定一个实体标记序列是否符合实际的上下文语境的方法：该模块预训练的负样本为不正确的实体标记序列和待识别文本对，正样本为正确的实体标记序列和待识别文本对；

优选的，在所述边界弱认证器模块和类型弱认证器模块的预训练中：根据训练语料自动构建相似的实体标记概率序列

实体标记概率序列

的自动构建方式如下：

其中δ_i为每个位置生成一个0～0.5的随机数。

优选的，所述实体识别模块的预训练条件：特征提取模块和实体识别模块参与这部分训练，其余弱认证器模块关闭输入输出接口；训练数据为原始训练标记语料；

Loss^ner＝CE(P^ner，Y^ner)+Loss^CRF+λ||Θ||²#(11)

和

为CRF的权重矩阵和偏置向量，

优选的，所述边界弱认证器模块的预训练的条件为：

Loss^b＝CE(p^b，y^b)+λ||Θ||²#(12)

所述类型弱认证器模块的预训练的条件为：

其中

表示类型弱认证器模块预测的第i个实体类型的概率，

为对应的第 i个实体类型的真实概率。

优选的，所述联合训练中包含损失函数，损失函数如下：

Loss＝αLoss^b+βLoss^t+CE(P^ner，Y^ner)#(14)

实施例8、

根据如实施例7所述一种命名实体识别的训练方法，实体识别模块在联合训练的过程中将有弱认证器指导，进行进一步的优化：弱认证器在联合训练过程中从边界合法性和类型合法性两个角度计算损失。有效指导实体识别模块的学习过程。

实施例9、

一种实现基于可组合弱认证器的命名实体识别方法的可读存储介质，所述可读存储介质上存储有可执行的计算机程序，该程序被执行时能够完成：实现基于可组合弱认证器的命名实体识别方法、命名实体识别的训练方法、和/或命名实体识别的优化方法。

实施例10、

如图4所示，一种实现基于可组合弱认证器的命名实体识别方法的计算机设备，包括处理器、存储装置以及存储在存储装置上并可在所述处理器上执行的计算机程序；

所述处理器执行计算机程序时实现如下过程：

其中，判断是训练还是使用阶段：

应用例、

本应用例结合实施例给出一个医药领域实体识别场景下，利用本发明所述方法、装置进行训练以及识别过程的实例，发明内容所述的本发明适用的所有领域均可采用实例所示过程进行训练和识别。

医药领域的命名实体识别实例中，命名实体识别需求包括但不限于识别药品名、药品所属类别(如中药或西药)、药品适用人群、药品适用症状、药品成分、药品副作用等。对于该场景的一段待识别文本输入，如果其输入文本长度超过一定阈值如512，则将待识别文本拆分为连续的多段文本，每段文本不超过设定的阈值。

利用本发明所述方法时，每一类需要识别的实体类型都有概括其特征的实体描述。例如，药品成分实体类别的一种描述为：“药物中含有的所有与该复方临床应用目的密切相关的药理活性成分”。这些实体描述是易理解和构建的，包括但不限于来自词典或人为描述的实体类型的释义。一次识别过程识别一段文本和一种实体类型，重复k次识别过程即可完成所有的实体识别需求，k为实体类型集合的大小。

本应用例的训练过程包含预训练和联合训练两个阶段。

在预训练阶段，分别进行实体识别模块、边界弱认证器模块和类型弱认证器模块的预训练。首先进行实体识别模块的预训练。模块的输入为长度合理的待识别文本和需要识别的实体类型描述文本，输出为和待识别文本等长的实体标记序列。实体识别模块的预训练仅有特征提取模块和实体识别模块参与，其余模块关闭输入输出接口。实体识别模块预训练所使用的损失函数在发明内容描述中给出。然后进行边界弱认证模块和类型弱认证器模块的预训练。边界弱认证器模块预训练输入包含长度合理的待识别文本和实体标记序列。其中实体标记序列可以直接使用实体识别模块的输出，但最优的预训练方式为自动构建和实体识别模块相似的负样本代替实体识别模块的输出。负样本的构建能够使得弱认证器的预训练更加充分，得到的弱认证器也更加健壮。负样本的构建方式在发明内容描述中给出。采用负样本进行预训练时，关闭实体识别模块的输出。类型弱认证器模块预训练输入包含长度合理的待识别文本、实体标记序列和待识别的实体类型嵌入向量。和边界弱认证器类似，实体标记序列可以直接使用实体识别模块的输出，但最优的预训练方式为自动构建和实体识别模块相似的负样本代替实体识别模块的输出。负样本的构建方式在发明内容描述中给出，类型弱认证器的负样本构建还包括对实体类型嵌入向量进行负样本构建。同样的，采用负样本进行预训练时，关闭实体识别模块的输出。两个弱认证器模块预训练的损失函数在发明内容中给出。在进行弱认证器预训练时，特征提取模块的权重可以冻结，也可以在训练中更新，更建议的采用的方式为冻结特征提取模块的权重。预训练全部完成后，进行整体模型的联合训练，训练使用的损失函数包含两个弱认证器模块的输出损失。联合训练完成后，将得到一个健壮的适合该领域的命名实体识别模型。

在实例中，训练完成后，使用得到的本发明所述算法架构和识别方法建立模型可以进行命名实体识别过程。具体细节如下：

1)获取待识别的领域文本，分割为合适长度的输入片段；获取待识别的实体类型，自动获取存储的实体类型描述；将待识别文本和实体类型描述输入到特征提取模块，获得和待识别文本等长的特征编码。特征提取模块的结构包括但不限于基于自注意力机制的预训练语言模型如BERT、RoBERTa等；将特征编码输入实体识别模块获得实体标记的概率序列输出。

2)实体识别模块结构包括但不限于双向长短期记忆网络拼接上单个 sigmoid输出层；然后特征提取模块的输出、实体标记序列输出以及实体类型嵌入向量共同经过数据转换模块，转换为类型弱认证器模块和边界弱认证器模块输入。

其中，数据转换细节在发明内容中给出；数据经过类型弱认证器模块获得k 个实体类型的预测概率输出。类型弱认证器模块的结构包括但不限于双向长短期记忆网络拼接上K个sigmoid输出层，K为实体类型集合大小；数据经过边界弱认证器获得实体标记序列合理性的输出。边界弱认证器模块的结构包括但不限于双向长短期记忆网络拼接上单个sigmoid输出层；输出结果由实体识别模块的实体标记序列输出、类型弱认证器模块的类型识别置信度和边界弱认证器模块的边界合理性置信度组成。在具体场景下可以自动调节结果输出模块，控制使用三个输出还是仅仅使用实体标记输出。

Claims

1.一种基于可组合弱认证器的命名实体识别的算法架构，其特征在于，包括：实体识别部分和结果认证部分；

所述实体识别部分用于完成识别任务，得到识别结果；

2.根据权利要求1所述的一种基于可组合弱认证器的命名实体识别的算法架构，其特征在于，还包括待识别信息输入层、实体识别层、数据转换层和弱认证器输出层；

所述弱认证器输出层中包括多个弱认证器，每个弱认证器中记载有不同的神经网络层，实现在每个弱认证器对应细分目标上对第二输入信息进行检验认证；

优选的，还包括层间信息流：原始输入信息流、特征提取信息流、实体识别信息流、数据转换信息流和弱认证信息流；

所述原始输入信息流包括待识别文本输入和实体描述输入；所述特征提取信息流连接特征提取层和实体识别层；所述实体识别信息流连接实体识别层和数据转换层；所述数据转换信息流连接数据转换层和弱认证器输出层；所述弱认证信息流输出最终命名实体识别结果；

优选的，所述架构还包括训练信息流，所述训练信息流具体包括：预训练信息流和联合训练信息流；

所述联合训练的信息流：待识别信息输入层中的特征提取模块、实体识别层中的实体识别模块、弱认证器层中的边界弱认证器模块和类型弱认证器模块参与训练，所有模块的输入输出输出接口打开；优选的，本发明不冻结实体识别模块的网络参数，冻结弱认证器模块的网络参数；通过边界弱认证器模块、类型弱认证器模块和实体识别模块的输出计算损失，对实体识别模块进行参数更新；训练数据为原始训练标记语料；

优选的，所述弱认证器层包括边界弱认证器模块和类型弱认证器模块；

流向类型弱认证器模块的第二输入信息的融合处理方法为：至少将输入序列实体位置掩码后的语义特征编码和输入序列实体位置替换为实体类型嵌入向量后的编码进行拼接；

优选的，所述输入序列实体位置掩码后的语义特征编码的形成方式为：对输入序列的语义特征编码E和输入序列对应位置被预测为非实体的概率相乘；所述输入序列实体位置替换为实体类型嵌入向量的方式为：对实体类型嵌入向量和输入序列对应位置被预测为非实体的概率相乘；

优选的，所述实体识别模块包括多组神经网络串联和神经网络的激活函数，优选的，每组神经网络可以为具有提取序列特征能力的网络结构；

优选的，所述特征提取模块中加载有基于自注意力机制的预训练语言模型；优选的，加载BERT算法；

优选的，所述边界弱认证器模块中加载有具有提取序列特征能力的神经网络和神经网络的激活函数，用于进行边界合法性判定；

所述类型弱认证器模块中加载有具有提取序列特征能力的神经网络和K个独立的激活函数用于进行K类实体的判定。

3.利用如权利要求1或2所述算法构架实现的基于可组合弱认证器的命名实体识别方法，其特征在于：

所述特征提取处理用于将待识别文本输入和实体描述输入经特征提取后得到输入的语义特征表示E，即E∈R^n×d，其中n为待识别文本输入序列的长度，d为经特征提取模块最后一层的向量输出维度，R表示实数空间；

4.利用如权利要求3所述命名实体识别方法，所述弱认证器处理中：

边界弱认证器模块使用Bi-LSTM神经网络(Bidirectional Long Short-Term Memory，双向长短期记忆)对输入进行上下文语义编码，其中，边界弱认证器模块的输入序列的第i个位置输入

对应的隐含向量

计算过程如下:

对于每个位置的隐含向量

进行加权求和，得到输入的单一向量表示h^b：

采用sigmoid函数获得边界弱认证器模块的概率输出p^b:

p^b＝sigmoid(w^bh^b+b^b)#(6)

其中，w^b和b^b为经Bi-LSTM神经网络后输出层权重矩阵和偏置向量，h^b为边界弱认证器模块的Bi-LSTM的隐含状态向量，p^b代表了实体识别模块得到的序列实体类型概率向量P^ner符合当前待识别文本输入序列X＝x₁，…，x_n和实体概念描述输入序列Q＝q₁，…，q_m的概率，其中n代表待识别文本输入序列的长度，m代表实体概念描述输入序列的长度；

优选的，所述弱认证器处理中：

类型弱认证器模块使用Bi-LSTM神经网络获得输入的上下文编码，类型弱认证器模块有K个输出，其中K∈(1，2，3......k，k为自然数)；

第k类实体概念类型概率的计算方式为：

其中

和

为经Bi-LSTM神经网络后输出层的权重矩阵和偏置向量；

优选的，所述特征提取模块加载有BERT算法；

优选的，所述实体识别模块中加载有：Bi-LSTM神经网络进行上下文语义的学习，得到实体概念描述类型对应的特征编码H^ner∈R^n×c，c为Bi-LSTM隐含向量的维度；并在H^ner上应用神经网络的激活函数得到输入序列每个位置被预测为实体的概率，所有位置的概率组成的向量为P^ner∈(0，1)^n×1；

优选的，对输入序列的语义特征编码E和输入序列每个位置被预测为实体的概率向量进行拼接的方法包括：

令e_i∈R^d是语义特征编码E中第i个字符对应的向量编码，

表示为：

其中

表示向量拼接操作；

优选的，所述类型弱认证器模块的输入的融合方法：

第i个位置的输入

的计算方式如下:

其中e_i为序列第i个位置对应的语义特征编码向量，

5.一种实现如权利要求3所述基于可组合弱认证器的命名实体识别方法的装置，其特征在于：

还包括实体识别模块，用于获取符合实体概念描述的最优实体标记序列；

6.一种如权利要求3所述命名实体识别的训练方法，其特征在于，包括：

所述实体识别模块的预训练旨在让实体识别模块在所述联合训练前具有一定识别能力；

7.如权利要求6所述命名实体识别的训练方法，其特征在于，所述边界弱认证器模块的预训练使其在判定一个实体标记序列是否符合实际的上下文语境的方法：该模块预训练的负样本为不正确的实体标记序列和待识别文本对，正样本为正确的实体标记序列和待识别文本对；

所述类型弱认证器模块的预训练使其判断某种类型实体是否符合当前输入的上下文语境；该模块预训练的负样本输入包括：一种形式为将正确实体标记序列输入替换为错误的实体标记序列输入，保持正确的实体类型嵌入向量输入；另一种形式为将实体类型嵌入向量输入进行替换，保持正确的实体标记序列输入；

实体标记概率序列

的自动构建方式如下：

其中δ_i为每个位置生成一个0～0.5的随机数；

预训练方法为：输入包含待识别文本和预先构建的实体概念描述文本，输出为标记的实体序列Y^ner，实体部分标记为1，非实体部分标记为0；实体识别模块预训练的损失函数包含两个部分：一是经过CRF后得到的句子级别负对数似然函数Loss^CRF，二是预测实体标记和正确实体标签的交叉熵，损失函数的计算过程如下：

Loss^ner＝CE(P^ner，Y^ner)+Loss^CRF+λ||Θ||²#(11)

和

为CRF的权重矩阵和偏置向量，

为实体识别模块神经网络的隐含向量，这里使用维特比算法来找到最优的实体标记序列；λ是L2范数正则化项||Θ||²的权重超参数，Θ代表网络的参数集合；CE表示交叉熵；所述CRF仅在预训练时参与损失函数的计算，在联合训练时将关闭输入输出接口；

优选的，所述边界弱认证器模块的预训练的条件为：

边界弱认证器模块预训练方法为：其中特征提取模块的预训练输入包含待识别文本和预先构建的实体概念描述文本；边界弱认证器模块预训练时的输入包含来自特征提取模块的输出语义特征编码E和基于规则自动构建实体标记概率序列

Loss^b＝CE(p^b，y^b)+λ||Θ||²#(12)

其中p^b为边界弱认证器模块预测的合法性概率输出，y^b为实际样本中实体标记符合当前待识别文本的概率，CE表示交叉熵；

所述类型弱认证器模块的预训练的条件为：

其中

表示类型弱认证器模块预测的第i个实体类型的概率，

为对应的第i个实体类型的真实概率；

优选的，所述联合训练中包含损失函数，损失函数如下：

Loss＝αLoss^b+βLoss^t+CE(P^ner，Y^ner)#(14)

8.如权利要求7所述命名实体识别的训练方法，其特征在于，实体识别模块在联合训练的过程中将有弱认证器指导，进行进一步的优化：弱认证器在联合训练过程中从边界合法性和类型合法性两个角度计算损失。

9.一种实现如权利要求3所述基于可组合弱认证器的命名实体识别方法的可读存储介质，其特征在于，所述可读存储介质上存储有可执行的计算机程序，该程序被执行时能够完成：实现基于可组合弱认证器的命名实体识别方法、命名实体识别的训练方法、和/或命名实体识别的优化方法。

10.一种实现如权利要求3所述基于可组合弱认证器的命名实体识别方法的计算机设备，其特征在于，包括处理器、存储装置以及存储在存储装置上并可在所述处理器上执行的计算机程序；

所述处理器执行计算机程序时实现如下过程：

其中，判断是训练还是使用阶段：