CN113609859A

CN113609859A - 一种基于预训练模型的特种设备中文命名实体识别方法

Info

Publication number: CN113609859A
Application number: CN202110893472.4A
Authority: CN
Inventors: 张元鸣; 杨伟杰; 姬琦; 肖刚; 陆佳炜; 程振波
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-11-05

Abstract

一种基于预训练模型的特种设备中文命名实体识别方法，包括以下步骤：1)按照中文命名实体标注策略BIEOS对中文命名实体数据集进行标注，将实体类别分为四种类别；2)基于BERT预训练模型将中文句子转换为字向量表示；3)将字向量表示输入到biLSTM模型中，学习字向量序列双向编码，提取句子特征；4)采用CRF条件随机场学习上下文的标签概率，得到了每个汉字的所有可能的标签序列；5)最后输出汉字序列对应的实体类别。本发明通过无监督的方式对无标签语料中进行训练，能够有效解决小数据集、样本特征信息不足情况下中文命名实体提取的问题，用于构建特种设备领域的知识图谱。

Description

一种基于预训练模型的特种设备中文命名实体识别方法

技术领域

本发明涉及知识图谱、深度学习、特种设备、实体识别等领域，特别给出了一种基于预训练模型的特种设备中文命名实体识别方法。

背景技术

知识图谱是一种揭示实体之间关系的语义网络，能够对现实世界的事物及其相互关系进行形式化地描述，现已被用来泛指各种大规模的知识库。知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是(实体，关系，实体)三元组，以及实体及其相关属性值对，实体间通过关系相互联结，构成网状的知识结构，知识图谱被广泛应用于智能搜索、智能问答、个性化推荐等方面。

实体识别是知识图谱构建过程中的一项基础性任务，旨在从非结构化文本中提取出具有特定意义和类型的实体。现今，中文实体识别面临的主要问题在于中文和英文不同的语言特性，中文没有空格且基本单元是字，因此从字级别来理解句子会非常困难。

基于深度学习的实体识别模型主要包括基于循环神经网络、长短期记忆网络、卷积神经网络等实体识别方法。BiLSTM-CRF(Computer Science，2015)首次将双向长短期记忆网络模型应用于实体识别中，BiLSTM可以使用过去和未来的输入特征，CRF可以使用句子级的标注信息。LSTM-CNNs-CRF(Association for Computational Linguistics，2016)采用CNN将单词的字符信息编码为字符级特征然后与word embedding联合输入BiLSTM构建每个字符的上下文特征，最后由CRF利用上下文标签信息来解码整个句子的标签。Lattice-structured LSTM(Association for Computational Linguistics，2018)编码了序列中输入的字符信息和潜在词汇信息，对比以前只基于单个字的输入表征，这里可以明确地利用词汇信息，并且避免了实体分割错误的情况。WC-LSTM(Association for ComputationalLinguistics，2019)利用了四种不同的策略来将单词信息编码为固定大小的矢量，使其可以分批训练并适应各种应用场景。Multi-digraph Gazetteers(Association forComputational Linguistics，2019)利用词典和图神经网络融入单词信息给NER系统。LR-CNN(International Joint Conference on Artificial Intelligence)提出一种含有rethinking机制的CNN网络，通过CNN对句子与lexicon中存在的词语进行处理并且通过rethinking机制解决lexicon冲突。CAN-NER(North American Association forComputational Linguistics，2019)提出了基于注意力机制的卷积神经网络架构，用于中文实体识别。

特种设备领域的实体识别是构建特种设备知识图谱的关键步骤，其任务是从特种设备非结构化数据中提取特定类型的命名实体。目前，在特种设备领域中，还没有公开的标注数据集，领域文本数据规模较小，样本特征信息也不足，这些问题导致现有的模型难以有效识别特种设备领域的命名实体。

发明内容

本发明针对特种设备领域存在标注数量较少且实体识别精度不高等问题，提出了一种基于预训练模型的特种设备实体识别模型，该模型能够较充分地学习特种设备领域的文本特征信息，提取特种设备命名实体，从而构建知识图谱。

为了解决技术问题本发明提供如下的技术方案：

一种基于预训练模型的特种设备中文命名实体识别方法，包括以下步骤：

1)中文命名实体数据集标注：

1.1)数据获取：

从文档、书籍、文献、网页中抽取特种设备领域相关的大量数据，对数据进行清洗和去重，作为中文实体识别的数据源。

1.2)中文命名实体标注策略：

定义中文命名实体标注策略BIEOS，标注类别包括：

B表示该字符是实体的开始位置；

I表示该字符是实体的中间位置；

E表示该字符实体的结束位置；

O表示该字符实体的不属于任何实体类型；

S表示该字符单独构成一个实体；

x表示该字符所在实体的类型；

1.3)实体类别标注策略：

定义特种设备领域命名实体的类型，包括C、P、F和A四类，分别表示组成、参数、故障和事故，如下表1所示：

表1特种设备领域实体类型

标注符号	实体类别	类别定义	示例
				C	组成	设备组件	曳引机、层门等
P	参数	设备参数	运行速度、载重量等
				F	故障	设备故障	停止运行、平层不准等
A	事故	电梯事故	墩底、冲顶等

1.3)训练数据集标注：

根据实体标注策略和实体类型对实体进行标注，对训练集进行标注，其标注方法如下表2所示：

表2标注策略

实体类别	开始标签	中间标签	结尾
				组成	B-C	I-C	E-C
参数	B-P	I-P	E-P
				故障	B-F	I-F	E-F
事故	B-A	I-A	E-A

2)基于BERT预训练模型的字向量表示：

BERT是一种新型语言模型，它通过联合调节所有层中的双向Transformer来预训练深度双向表示，利用BERT的BertModel类构造BERT结构，然后将输入的特种设备中文汉字序列输入到BERT特征表示层中，对文本中的每个汉字进行编码得到中文汉字的向量表示：

x＝(x₁，x₂，x₃…x_n) (1)

3)biLSTM上下文编码：

biLSTM是一种双向长短期记忆网络，适合于时序数据建模，可以更好地捕捉较长距离双向语义依赖关系；

3.1)biLSTM的输入：

biLSTM接收来自BERT层输出的中文汉字序列的向量表示x，输入到两个biLSTM单元中，并初始化隐藏状态h₀；

3.2)基于biLSTM的字向量序列双向编码：

biLSTM隐藏层输出表示公式如下：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i) (2)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f) (3)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o) (4)

其中，W、b分别表示连接两层的权重矩阵和偏置向量，σ是sigmoid激活函数，

为点乘运算，x_t为输入向量，i_t，f_t和o_t分别为t时刻的输入门、遗忘门和输出门，

表示t时刻的状态，h_t则为t时刻隐藏层的输出；

对输入序列分别采用顺序和逆序的方式计算后得到两种不同的隐藏层表示h_前和h_后，然后通过向量拼接的方式得到最终的隐藏层表示，公示如下：

h_i＝[h_i前+h_i后] (8)

其中h_i前，h_i后分别表示第i个字符对应的前、后向隐藏层表示，[]表示相量拼接，h_i表示最终的隐藏层表示。

将得到的隐藏层表示经过一个线性层映射为一个维度为输出标签数量的向量，然后通过Softmax函数进行归一化处理，输出每种标签的概率分数P，公式如下：

P＝log(Softmax(h_i)) (9)

由此得到每种标签的概率值；

3.3)最小化损失函数：

采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距，NLLLoss函数接收两个张量，第一个张量是标签的概率值，第二个是目标结果，根据目标结果的取值找出标签的概率值中对应位置的元素，求和取平均值，通过随机梯度下降法最小化损失函数值，公式如下：

Loss＝NLLLoss(output,target) (10)

其中output是标签的概率值，target是目标结果；

4)基于CRF条件随机场解码标签序列：

4.1)学习状态矩阵和转移矩阵：

采用CRF(Conditional Random Field)条件随机场学习上下文的标签信息，CRF算法中涉及到状态矩阵和转移矩阵；

在条件随机场中，对于一个输入序列x＝(x₁，x₂，x₃…x_n)，序列中的第i个字对应k个特定标签的概率构成一个状态矩阵，是当前字符对应于每个标签的概率分数，表示为：

其中，分数越高就代表该字对应于该标签的概率越高，n表示序列长度，i表示序列中第i个字符，y_i则表示该字符对应的标签，k表示标签数量；

表示一个维度为n×k的矩阵；

在条件随机场中，对于特定的k个标签，从标签i转移到标签i+1的转移得分构成一个转移矩阵，用来表示标签与标签之间的转移关系，表示为：

其中，分数越高代表标签y_i转移到下一个标签y_i+1的概率越高；

4.2)计算序列标签最大概率：

根据状态矩阵和转移矩阵，对于一个输入序列x＝(x₁，x₂，x₃…x_n)，其对应的标签序列为y＝(y₁，y₂，y₃…y_n)的评分公式为：

用Softmax函数归一化得到y序列标签的概率，公式如下：

其中，

代表序列真实路径标记值，Y_x表示所有可能的路径标记的集合；e是指数函数；

4.3)最小化损失函数：

在训练过程中，采用以下损失函数最大化正确标签的似然概率，通过随机梯度下降法最小化损失函数的值，计算公式为：

4.4)基于维特比算法解码最终标签序列：

在中文命名实体识别模型训练完成之后，得到了每个汉字的所有可能的标签序列；然后，采用维特比算法解码该标签序列，即计算标签序列中的最优序列，该算法每次记录到当前时刻每个观察标签的最优序列，用动态规划的方法减少不必要的重复计算，到结束时，从最后一个时刻的最优值回溯到开始位置，回溯完成后，这个从开始到结束的路径就是最优的；

对于一组未知标签的序列x，采用维特比算法获得所有标签序列上预测总得分最高的标签序列，计算公式如下：

最后，输出汉字序列x所对应的最终实体标签序列y^*。

本发明的有益效果为：本发明给出的应用于特种设备领域的实体识别方法融合了预训练语言模型，长短期记忆网络以及条件随机场。其优势在于预训练模型是通过无监督的方式从大规模无标签语料中训练得到的，其充分考虑字符、词语、句子以及句子间的特征关系，增强字向量的语义表示，这可以有效解决特种设备领域数据规模较小，样本特征信息不足的问题。BiLSTM对于命名实体识别任务捕捉长距离信息并解决梯度消失问题效果显著。条件随机场能够让模型学习到标签之间的约束信息，通过考虑相邻标签之间的关系来保证最终预测标签的合理性。最终训练得到的实体识别模型可以用于特种设备自动识别实体，便于后续特种设备知识图谱的构建工作。

附图说明

图1是预训练模型图；

图2是实体识别标注结果。

具体实施方式

以电梯典型特种设备为例，结合图1和图2对本发明作进一步说明。

一种基于预训练训练模型的特种设备中文实体识别方法，包括以下步骤：

1)中文命名实体数据集标注：

1.1)数据获取：

从文档、书籍、文献、网页中抽取特种设备领域相关的大量数据，对数据进行清洗和去重，作为中文实体识别的数据源；

1.2)中文实体标注策略：

采用中文命名实体标注策略和实体类别标注策略，对文本进行标注，如“导致曳引机出现了问题”文本序列的标注结果如图2所示；

2)基于BERT预训练语言模型的字向量表示：

将文本序列“导致曳引机出现了问题”输入到BERT预训练层中，得到每个字符的向量表示：x＝(x₁，x₂，……x₉，x₁₀)，如图1所示；

3)基于biLSTM的字向量序列双向编码：

3.1)biLSTM的输入：

biLSTM接收来自BERT层输出的中文汉字序列的向量表示x，输入到两个biLSTM单元中，并随机初始化隐藏状态h₀；

3.2)基于biLSTM的字向量序列双向编码：

向量x输入到两个双向的LSTM单元，通过公式(2)(3)(4)(5)(6)(7)，计算得到每个字符对应的正向反向隐藏层输出h_i前和h_i后，将每个字符的正向反向隐藏层输出h_i前，h_i后通过公式(8)进行拼接为最终的隐藏层表示h_i，经过一个线性层映射为一个维度为输出标签数量的向量，使用公式(9)通过Softmax函数进行归一化处理，输出对应的每种标签的概率分数P；

3.3)最小化损失函数：

最后，根据公式(10),采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距。通过随机梯度下降法最小化损失函数值，直至收敛；

4)基于CRF条件随机场的标签序列预测,过程如下：

4.1)学习状态矩阵和转移矩阵：

1)状态矩阵：状态矩阵

由步骤3)的输出P得到，如下表所示，P_1，B-C＝0.9表示w₁这个字符被标记为“B-C”标签的概率为0.9；

B-C	0.9	0.4	0.4	0.2
					I-C	0.5	0.8	0.5	0.1
E-C	0.1	0.6	0.9	0.3
					O	0.5	0.2	0.1	0.9
…	0.3	0.1	0.1	0.4
						w<sub>1</sub>	w<sub>2</sub>	w<sub>3</sub>	w<sub>4</sub>

2)转移矩阵：转移得分矩阵在训练模型之前，随机初始化该矩阵。在训练过程中，这个矩阵中的所有随机得分将得到更新，最终得到转移得分矩阵

在训练过程中，为了使转移得分矩阵的鲁棒性更好，在数据中额外再加两个标签：“START”和“END”，“START”表示一句话的开始，注意这不是指该句话的第一个字，“START”后才是第一个字，同理“END”代表着这句话的结束。如下表所示转移得分矩阵，A_B-C，I-C＝0.9表示标签“B-C”转移到“I-C”的得分，即“B-C”后的标签很可能是“I-C”；

	START	B-C	I-C	E-C	O	END
							START	0	0.8	0.007	0.005	0.9	0.08
B-C	0	0.4	0.9	0.8	0.1	0.009
							I-C	0.001	0.4	0.75	0.78	0.12	0.005
E-C	0.002	0.6	0.2	0.3	0.78	0.6
							O	0	0.65	0.008	0.07	0.85	0.7
END	0	0	0	0	0	0

4.2)计算序列标签概率：

根据状态矩阵和转移矩阵，对于输入序列x＝(x₁，x₂，…，x₉，x₁₀)，其对应的标签序列为y＝(y₁，y₂，…，y₉，y₁₀)，由公式(11)求得输入序列对应的标签序列的评分为Score，然后由公式(12)得到y序列标签的概率P；

4.3)最小化损失函数：

由公式(13)损失函数，在训练过程中，模型将会不断更新，通过随机梯度下降法最小化损失函数的值，直至收敛；

4.4)基于维比特算法解码最终标签序列：

在模型训练完成之后，给定一组未知标签的序列x，通过维特比算法即公式(14)来获得所有标签序列上总得分最高的标签序列，作为特种设备领域命名实体识别的最终标注结果y^*；

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。