CN115759090A

CN115759090A - 一种结合软词典和汉字字形特征的中文命名实体识别方法

Info

Publication number: CN115759090A
Application number: CN202211245600.5A
Authority: CN
Inventors: 于舒娟; 赵阳; 毛新涛; 吴梦洁; 高贵; 张昀
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-03-07

Abstract

本发明公开了一种结合软词典和汉字字形特征的中文命名实体识别方法，包括：对输入的汉字序列分别进行软词典嵌入SoftLexicon embedding和部首级嵌入radical‑level embedding得到软词典嵌入表示、部首级嵌入表示，将软词典嵌入表示和部首级嵌入表示进行拼接得到字符表示；在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步提取，采用两种不同窗口大小的CNN网络提取文本上下文特征；将门卷积单元输出结果放入序列建模层，对字符之间的依赖关系进行建模，得到序列建模后的结果；将序列建模后的结果经过全连接层后，被送入到一个标准条件随机场中执行字符序列的标签预测，得到中文命名实体识别结果。

Description

一种结合软词典和汉字字形特征的中文命名实体识别方法

技术领域

本发明属于自然语言处理技术领域，涉及一种结合软词典和汉字字形特征的中文命名实体识别方法。

背景技术

命名实体识别(NER)是一项序列标记任务，涉及非结构文本中命名实体的识别，包括人名、地点和组织等。命名实体识别是自然语言处理(NLP)的组成部分，同时对其他下游任务有着至关重要的作用，例如关系提取、知识库构建、信息检索和问答等。

区别于英语，汉语中句子不是自然分割，每个汉字之间没有明显的分割边界。中文分词需要依靠语义信息来区分，这对中文命名实体识别任务造成巨大困难。因此，历年来，为了增强语义信息而诞生了许多研究。传统的基于词级别的模型大多都存在分词错误传播的问题。字级别的命名实体识别模型中会因缺少词级别信息以及分词边界未知而表现不佳。为了解决以上问题， Lattice-LSTM[Zhang Y,Yang J.Chinese NER usinglattice LSTM[J].arXiv preprint arXiv:1805.02023,2018.]首次将词典和词向量信息引入字级别表示中，通过编码和匹配词典中的单词来提高命名实体识别性能。由于LSTM在数据并行处理上存在劣势，许多研究人员尝试将词典匹配到其他网络中进行建模，例如LR-CNN[Gui T,Ma R,Zhang Q,et al.CNN-Based Chinese NER with Lexicon Rethinking[C]//ijcai.2019:4982-4988.]、CAN-NER[Zhu Y,Wang G,Karlsson B F. CAN-NER:Convolutional attention network for Chinese named entity recognition[J].arXiv preprint arXiv:1904.02141,2019.]等基于卷积神经网络(CNN)提出的新型架构获得了更高的模型效率。此外，SoftLexicon[Ma R,Peng M,Zhang Q,et al. Simplify theusage of lexicon in Chinese NER[J].arXiv preprint arXiv:1908.05969, 2019.]在整合更完整、更独特的词汇信息等方面具有优势，还具有模型效率高迁移性强的特点。

然而以上方法旨在整合中文词汇信息，而忽略了汉字的结构特征。

发明内容

类比英文中的词根和词缀能反映事物的属性信息，汉字的部首也有着同样的功能。汉字中有200多个部首，不同的部首代表不同的信息。比如“氵”部首代表水，对识别与水有关的地点实体有所帮助，像湖(lake),海(sea),江(river), 涧(gully)等。再比如，铁(iron),铜(copper),银(silver),链(chain)等汉字中包含的 “钅”部首有助于识别金属实体。由此可见，汉字的部首特征能够提高对相应属性实体的认识。部首特征对中文命名识别的有效性。

目的：为了克服现有技术中存在的不足，本发明提供一种结合软词典和汉字字形特征的中文命名实体识别方法，利用SoftLexicon方法，并结合汉字结构信息以及门卷积网络，以此提出一种新的方法。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，提供一种结合软词典和汉字字形特征的中文命名实体识别方法，包括：

步骤1：对输入的汉字序列分别进行软词典嵌入SoftLexicon embedding和部首级嵌入radical-level embedding得到软词典嵌入表示、部首级嵌入表示，将软词典嵌入表示和部首级嵌入表示进行拼接得到字符表示；

步骤2：在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步提取，采用两种不同窗口大小的CNN网络提取文本上下文特征；

步骤3：将门卷积单元输出结果放入序列建模层，对字符之间的依赖关系进行建模，得到序列建模后的结果；

步骤4：将序列建模后的结果经过全连接层后，被送入到一个标准条件随机场中执行字符序列的标签预测，得到中文命名实体识别结果。

对输入的汉字序列进行软词典嵌入SoftLexicon embedding，包括：将输入的汉字序列中的每个字符c_i的所有匹配词分类为四个词集“B、M、E、S”，并用四个切分标签进行标记以保留分割信息；

对于输入的汉字序列＝{c₁，c₂,…,c_n}中的每个字符，四个集合由以下公式构成：

其中，L表示工作中所用到的词汇；w_i,k、w_j,k、w_j,i分别表示c_i处在开头位置、中间位置、末尾位置匹配到的词汇；

表示任意，

表示存在，这两个为数学符号；i、j、k为字符的下标，表示字符在一个汉字序列中的位置；n表示输入的汉字序列中字符的个数；

如果词集为空，则将特殊单词“None”添加到空词集中；

使用每个单词w出现的频率作为权重，利用加权算法获得词集T的加权v^s(T) 表示：

其中，Z＝∑_{W∈B∪M∪E∪S} z(w)，e^w表示单词嵌入查找表；w表示单词；z(w)表示单词w在统计数据中出现的频率；

将四个词集的表示拼接起来组合成一个固定维度特征，得到软词典嵌入表示e^s(B,M,E,S)，表示为:

e^s(B,M,E,S)＝[v^s(B)；v^s(M)；v^s(E)；v^s(S)]。

在一些实施例中，对输入的汉字序列进行部首级嵌入radical-level embedding，包括：

使用字形结构部件Structural Components成份作为汉字部首特征输入，将其映射为d维特征向量，然后由改进的TCN网络提取部首特征信息以实现部首级嵌入；所述改进的TCN网络在原TCN网络中引入squeeze-and-inspire压缩和激励注意机制，改进的TCN网络的输出O由下式给出:

其中，x表示部首级特征向量输入，

是TCN网络的一系列变换，Activation 表示激活函数。

在一些实施例中，将软词典嵌入表示和部首级嵌入表示进行拼接得到字符表示，包括：使用二元图嵌入来扩充字符，拼接得到字符表示为：

x^c←[b^c；e^s(B,M,E,S)；r^c]

X＝{x¹,x²,…,xⁿ}

其中b^c表示二元嵌入查找表，e^s(B,M,E,S)是软词典嵌入表示，r^c是部首级嵌入表示，x^c表示代表拼接得到的每个字符的嵌入表示，X表示整个汉字序列的嵌入表示。

在一些实施例中，在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步提取，包括：

采用两种不同窗口大小的CNN网络提取文本上下文特征，设置Conv2卷积运算的窗口大小为2以使得所有潜在的字融合到相应的位置，设置Conv1卷积运算的窗口大小和步长设置为1，用以改变输入特征的通道数进而满足两个卷积运算后结果融合条件；

最终的门控卷积块输出Y表示为：

Y＝(1-θ)·C₁(X)+θ·C₂(X)

C₁(X)＝tanh(W₁*X+b₁),

C₂(X)＝tanh(W₂*X+b₂),

θ＝σ(C₂(X)).

其中，*代表卷积运算操作；W₁,b₁,W₂,b₂分别表示卷积中可训练的卷积核参数以及偏置项参数；σ代表Sigmoid激活函数，θ为模型参数，C₁(X)、C₂(X)代表两个CNN网络的输出；tanh代表双曲正切激活函数；X代表整个汉字序列的嵌入表示。

在一些实施例中，将门控卷积层的输出结果放入序列建模层，对字符之间的依赖关系进行建模，包括：使用单层Bi-LSTM来实现序列建模目的；Bi-LSTM 结合了前向LSTM和后向LSTM，首先给出前向LSTM的精确定义：

h_t＝o_t⊙tanh(c_t).

其中，σ代表element-wise sigmoid函数，⊙表示element-wise product；W和 b是可训练的参数；i_t表示输入门的值；f_t表示遗忘门的值；o_t表示输出门的值；

表示临时细胞状态；

表示字符输入向量；h_t-1、h_t分别表示前一时刻、当前时刻隐藏层状态；c_t-1、c_t分别表示前一时刻、当前时刻细胞状态；

后向LSTM以相同的方式对相反顺序的输入序列进行建模；BiLSTM在第i 步串联的隐状态

构成了c_i的上下文相关表示；其中

分别表示前向LSTM、后向LSTM的隐藏层状态。

在一些实施例中，标签预测，包括：

对于BiLSTM的输出结果，在经过全连接层后，被送入到一个标准条件随机场CRF中执行字符序列的标签预测，标签序列的概率p(y|s；θ)被定义为：

y_s表示输入的汉字序列s所有的可能标签序列，

其中w_y′,y和b_y′,y是(y′，y)标签对的可训练参数，

表示w_y′,y的转置矩阵， θ代表模型参数；i表示第i个标签；exp表示以自然常数e为底的指数函数；

表示累积；

筛选出对于输入序列s拥有最高条件概率的标签序列y^*作为最终输出结果：

第二方面，本发明提供了一种结合软词典和汉字字形特征的中文命名实体识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

有益效果：本发明提供的结合软词典和汉字字形特征的中文命名实体识别方法，具有以下优点：本发明首先对输入的汉字序列分别进行SoftLexicon embedding和radical-level embedding，获取对应的字符表示并拼接。SoftLexicon embedding的方法主要将所输入的每个字符所匹配到的词汇分为“BMES”四个词集，之后使用每个单词出现的频率作为权重，利用加权算法获得词集T的加权表示。radical-level embedding的方法使用TCN网络，利用其包含的扩张因果卷积可以提高其在时间序列上的特征提取能力来提取汉字部首特征信息。同时在原TCN网络中引入squeeze-and-inspire(SE)注意机制以解决卷积过程中因 feature map的不同通道所占的重要性不同带来的信息损失问题。最后通过最大池化层和全连通层实现汉字部首级特征嵌入。为了能够实现文本特征信息的进一步提取，在所得的字符表示上加入门卷积单元，采用两种不同窗口大小的CNN 网络提取文本上下文特征，设置Conv2卷积运算的窗口大小为2时，所有潜在的字都可以很容易地融合到相应的位置，Conv1卷积运算的窗口大小和步长设置为1，用以改变输入特征的通道数进而满足两个卷积运算后结果融合条件。最后将门控卷积层的输出结果放入序列建模层，对字符之间的依赖关系进行建模，使用单层Bi-LSTM来实现序列建模目的，最后将序列建模后的结果经过全连接层后，被送入到一个标准条件随机场中执行字符序列的标签预测。

附图说明

图1为根据本发明一实施例的总体结构示意图；

图2为根据本发明一实施例中部首级嵌入层结构示意图；

图3是根据本发明一实施例中改进的TCN网络结构示意图；

图4是根据本发明一实施例中门控卷积网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

一种结合软词典和汉字字形特征的中文命名实体识别方法，包括：

在一些实施例中，本实施例是在Windows11操作系统下，基于Intel(R) Core(TM)i7-12700H CPU@2.70GHz(16GB运行内存)和NVIDIA Geforce GTX3060 GPU的硬件设备上搭建PyTorch深度学习框架，利用Python编程语言实现中文命名实体识别模型的训练与测试。本文采用了文献[Ma R T,Peng M L, et al.Simplify the Usage of Lexicon inChinese NER[J].arXiv preprint arXiv:1908.059v2,2020.]中开放的源代码，并在它的基础上进行修改，从而实现本方法。图1为本实施例的总体结构示意图。

实验的超参数设置，对于小型数据集Weibo和Resume，隐藏层大小设置为 250和200；对于大型数据集OntoNotes4.0和MSRA，隐藏层大小被设置为300；对于微博数据集初始学习率设置为0.005，其他三个数据集设置为0.0015；模型丢弃率设置为0.5。

在本方法中，采用的数据集是四个主流的中文NER基准数据集，包括Weibo，Resume，MSRA和Ontonotes4.0。其中MSRA和OntoNotes4.0语料库来自新闻， Weibo语料库来自社交媒体，Resume语料库来自新浪财经的简历数据。

本节中，我们将在四个数据集上评估所提出的方法的可行性，使用跨度法计算精确度(P)、召回率(R)和F1分数(F1)(P和R的调和平均)作为评估指标，其公式表示为：

其中TP为真阳性，FP为假阳性，TN为真阴性，FN为假阴性。

步骤1，对输入的汉字序列分别进行SoftLexicon embedding和radical-levelembedding，获取对应的字符表示并拼接；

步骤1-1，SoftLexicon embedding，将每个字符c_i的所有匹配词分类为四个词集“BMES”，并用四个切分标签进行标记以保留分割信息。对于输入序列＝{c₁，c₂，…，c_n}中的每个字符，四个集合由以下公式构成：

L表示工作中所用到的词汇。另外，如果词集为空，则将特殊单词“None” 添加到空词集中。之后，使用每个单词出现的频率作为权重，利用加权算法获得词集T的加权表示：

其中，Z＝∑_{W∈B∪M∪E∪S} z(w)，e^w表示单词嵌入查找表。

最后，将四个词集的表示拼接起来组合成一个固定维度特征，它表示为：

e^s(B，M，E，S)＝[v^s(B)；v^s(M)；v^s(E)；v^s(S)] (3)

步骤1-2，radical-level embedding，如图2所示，为本实施例中部首级嵌入层结构，为了更好地提取汉字部首特征信息，使用Structural Components成份作为汉字部首特征输入，将其映射为d维特征向量，然后由TCN提取部首特征信息以实现部首级嵌入。TCN中包含的扩张因果卷积可以提高其在时间序列上的特征提取能力。另外，我们还在原TCN网络中引入squeeze-and-inspire(SE)注意机制，它可以有效地解决卷积过程中因feature map的不同通道所占的重要性不同带来的信息损失问题。改进后的TCN的输出由下式给出：

x表示部首级特征向量输入，

是图3中左侧分支的一系列变换。

步骤1-3，将获得的部首级嵌入表示和软词典嵌入表示拼接。为了能够更好的表示字符，我们的工作中使用二元图嵌入来扩充字符，最终每个字符和整个句子的嵌入表示由以下获得：

x^c←[b^c；e^s(B，M，E，S)；r^c] (5)

X＝{x¹，x²，…，xⁿ} (6)

其中其中b^c表示二元嵌入查找表，e^s(B，M，E，S)是软词典嵌入表示，r^c是部首级嵌入表示。

步骤2：门卷积网络，在步骤1所得的字符表示上使用门卷积单元来实现文本特征信息的进一步提取和传递，其结构见图4，这里尝试采用两种不同窗口大小的CNN网络提取文本上下文特征，设置Conv2卷积运算的窗口大小为2时，所有潜在的字都可以很容易地融合到相应的位置，这一点在LR-CNN中已经得到了验证。Conv1卷积运算的窗口大小和步长设置为1，用以改变输入特征的通道数进而满足两个卷积运算后结果融合条件。门控机制的使用能够有效控制信息流的传递，这些门可以在没有任何激活函数的情况下，缓解训练过程中的梯度消失。最终的门控卷积块输出可以表示为：

*代表卷积运算操作；W₁，b₁，W₂，b₂分别表示卷积中可训练的卷积核参数以及偏置项参数；σ代表Sigmoid激活函数。

步骤3：序列建模层，将门控卷积层的输出结果放入序列建模层，对字符之间的依赖关系进行建模。这里我们使用单层Bi-LSTM来实现序列建模目的。 Bi-LSTM结合了前向LSTM和后向LSTM，首先给出前向LSTM的精确定义：

其中，σ代表element-wise sigmoid函数，⊙表示element-wise product。W和 b是可训练的参数。后向LSTM以相同的方式对相反顺序的输入序列进行建模。 BiLSTM在第i步串联的隐状态

构成了c_i的上下文相关表示。

步骤4：标签预测层，对于BiLSTM的输出结果，在经过全连接层后，被送入到一个标准条件随机场(CRF)中执行字符序列的标签预测，标签序列的概率被定义为：

y_s表示s所有的可能标签序列，

其中w_y′,y和b_y′,y是(y′，y)标签对的可训练参数，θ代表模型参数。筛选出对于输入序列S拥有最高条件概率的标签序列y^*作为最终输出结果：

以上，就是本发明结合软词典和汉字字形特征的中文命名实体识别方法的实现步骤。从表1、表2、表3和表4我们可以看出，相比较于表格中第一区块的经典方法，在OntoNote4.0上，Zhang and Yang(2018)^B§获得了最高的准确率，Yang et al.

表1在Rusme数据集上的结果

表2在OntoNotes 4.0数据集上的结果

表3在Weibo数据集上的结果

表4在MSRA数据集上的结果

实施例2

第二方面，本实施例提供了一种结合软词典和汉字字形特征的中文命名实体识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。