CN111310468A

CN111310468A - 一种利用不确定分词信息实现中文命名实体识别方法

Info

Publication number: CN111310468A
Application number: CN202010044368.3A
Authority: CN
Inventors: 向阳; 贾圣宾; 徐忠国
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-19
Anticipated expiration: 2040-01-15
Also published as: CN111310468B

Abstract

本发明涉及一种利用不确定分词信息实现中文命名实体识别方法，本发明为了让分词信息在识别系统中发挥效用的同时避免将分词错误引入到识别系统中来，提出一种利用不确定分词信息实现中文命名实体识别模型，不确定分词信息包含所有分词情况而不是单独的一种，对字符候选分词位置信息编码，采用动态注意力机制整合分词的不确定信息。识别过程中，模型动态地选择有益的分词信息而自动忽视错误信息，最后得到最优的分词结果。与现有技术相比，本发明具有有效缓解错误级联、增强字符向量语义表达、分词错误率低等优点。

Description

一种利用不确定分词信息实现中文命名实体识别方法

技术领域

本发明涉及自然语言处理学(NLP)技术领域，涉及一种中文命名实体识别(NER)的方法，尤其是涉及一种利用不确定分词信息实现中文命名实体识别(UIcwsNN)方法。

背景技术

命名实体识别是NLP领域的基本任务并且有丰富的下层应用。然而相对于英文，中文句子没有分隔符，即中文文本是以字为单位的序列，词与词无法直接区分开来，而词语级别的信息对于命名实体识别是非常重要的。现有的分词工具会输出大量错误的分词结果，从而导致命名实体识别难以实现，识别效果不理想。

已有的中文命名实体识别方法，通常将其看作一个字符序列标注问题，通过对字分配标记完成命名实体识别。在字符级上进行字符序列的标注，把分词信息以特征向量方式加入标注系统，然而分词错误信息同样会引入，即便是同时进行命名实体和分词模型的训练，分词的错误信息依然会流入命名实体系统，产生噪声或错误，这种多任务联合学习无疑会增加模型训练的开销。综上，这些方法在利用分词信息时有一个共同的疏忽点，就是都是将自认为正确的分词信息引入到实体识别系统或模块中，不管这些信息是否完全正确，错误的分词信息必然会给实体识别带来负面的扰乱。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种利用不确定分词信息实现中文命名实体识别方法，探究如何才能有效利用分词信息来进行中文NER，为了让分词信息在识别系统中发挥效用的同时避免将分词错误引入到识别系统中来，提出一种利用不确定分词信息实现中文命名实体识别模型，不确定分词信息包含所有分词情况而不是单独的一种，对字符候选分词位置信息编码，采用动态注意力机制整合分词的不确定信息。识别过程中，模型动态地选择有益的分词信息而自动忽视错误信息，最后得到最优的分词结果。

本发明的目的可以通过以下技术方案来实现：

一种利用不确定分词信息实现中文命名实体识别方法，该方法包括以下步骤：

步骤1：输入中文文本S，得到字符序列S^C，进一步训练S^C得到字符向量

步骤2：将得到的字符序列S^C输入分词模型中得到所有候选分词信息，并进一步根据字符可能位置得到字符候选分词位置向量

步骤3：结合得到的

和

通过相应映射矩阵并拼接得到字符位置融合向量

步骤4：将得到的

输入卷积神经网络，选取卷积窗口并双向截取得到相邻字符特征向量

步骤5：将所有的

取j次并全部拼接得到

结合

及其相应映射矩阵再利用激活函数和时间分布层进一步得到语义位置特征向量A_i；

步骤6：对A_i进行softmax处理，输出得到字符在分词位置的概率向量

步骤7：结合得到的

和

通过相应映射矩阵并拼接得到字符概率位置融合向量

步骤8：将得到的

输入卷积神经网络，重复步骤4至步骤5解码得到字符位置向量

利用标注集进行标注得到字符位置标准序列p_i；

步骤9：根据p_i得到字符位置标注序列S^p并将其作为S的分词边界标注，在数据集运行后计算综合评价指标并逐步实现中文命名实体识别。

进一步地，所述的步骤1中的训练的方法包括Word2vec、FastText或Glove。

进一步地，所述的步骤2中的分词模型包括jieba、THULAC或HanLP。

进一步地，所述的步骤4中的卷积神经网络为双向卷积神经网络BiCNNs。

进一步地，所述的步骤8中的卷积神经网络为BiCNNs+CRF，网络模型的CNNs能捕捉局部信息，CRF能保证连续标注之间的依赖性。

进一步地，所述的步骤9中的数据集为命名实体集NE或名词提及集NM。

进一步地，所述的步骤3中的字符位置融合向量

其计算公式为：

式中，W^p为用于将字符候选分词位置向量

扩充维度的映射矩阵。

进一步地，所述的步骤4中的相邻字符特征向量

其计算公式为：

式中，

为卷积核，

为偏置值，l为相邻字符特征向量

的截取个数。

进一步地，所述的步骤5中的语义位置特征向量A_i，其计算公式为：

式中，

为用于将

扩充维度的映射矩阵。

进一步地，所述的步骤7中的字符概率位置融合向量

其计算公式为：

式中，W^vp为用于将字符候选分词位置向量

扩充维度的映射矩阵。

与现有技术相比，本发明具有以下优点：

(1)本发明提出一种方法，根据分词工具得到字符候选分词位置，进行不确定信息编码考虑了所有分词情况而不是一种，整合不确定性分词信息，让分词信息在识别系统中发挥效用的同时，提高对分词错误信息的容错能力，从而有效缓解错误级联的难题；

(2)本发明包含多种embedding信息，通过卷积滑动窗口设定，实现相邻字符信息拼接，弥补了上下文语义不足，增强了字符向量的语义表达；

(3)本发明提出一种动态选择机制，自动识别输入信息的有效性，针对不同字符的拼接设定注意力程度，可以给有效的分词信息更多的注意力而自动忽视错误信息，最终减少分词错误，有利于提及边界的识别。

附图说明

图1为本发明的识别模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，本发明方法的技术方案为：

1.1输入中文文本S，得到字符序列S^C＝{c₁,c₂,…,c_n}，其中n表示总字符数；训练S^C得到维度大小为d₁的字符向量

其中，e^c为训练字符序列产生的字符向量查找表，c_i表示S^C中第i个字符。

1.2将1.1所述的S^C输入分词模型中得到所有候选分词信息，根据每个字符可能出现在分词中的位置，得到维度大小为d₂的字符候选分词位置向量

其中，e^p表示字符在分词位置信息的编码，分词位置设定为开头、中间、结尾、单独4种，分词位置出现记为1，否则为0。

1.3将1.2所述的

被乘W^p矩阵扩充至d₃维拼接1.1所述的

得到维度大小为d₄的字符位置融合向量

其中，d₄＝d₁+d₃，d₁≤d₃，将位置特征平行甚至超过字符特征，即为主要学习特征。

1.4将1.3所述的

输入卷积神经网络，选取有限个不同大小的卷积窗口，以

为开头双向截取l个相邻字符特征向量

1.5将1.4所述的

的l取j次值，不同l的取值对应不同维度的

和

体现不同注意力程度，得到

维

拼接得到

维向量

1.6将1.5所述的

被乘矩阵

再由激活函数和时间分布层得到语义位置特征向量A_i：

其中A_i的维度为d₂，与

一致。

1.7将1.6所述的A_i进行softmax处理，输出字符在分词位置的概率向量

其中，

的维度为d₂，与

一致。

1.8将1.7所述的

替换1.3公式所述的

被乘W^vp矩阵扩至d₅拼接1.1所述的

得到维度大小为d₆的字符概率位置融合向量

其中d₆＝d₁+d₅，d₁＞d₅，将字符特征超过位置特征，即为主要学习特征。

1.9将1.8所述的

输入卷积神经网络，重复1.4～1.5步骤，在解码层解码得到字符位置向量

使用标注集P进行标注，得到字符位置标注序列P_i：

其中，r^p为位置标注向量查找表，根据每个字符在分词中的位置，将第一个字符标记为B，中间字符标记为I，最后一个字符标记为E，单独作为一个词的字符标记为S。

1.10将1.9的P_i得到的字符位置标注序列S^p＝{p₁,p₂,…,p_n}作为1.1所述S的分词边界标注。将方法在数据集运行，计算综合评价指标，逐步实现中文命名实体识别。

下面集合附图和具体实施例对本发明技术方案做进一步的分析说明：

实施例

1.1输入中文文本“南京市长江大桥调研”，得到字符序列[‘南’，‘京’，‘市’，‘长’，‘江’，‘大’，‘桥’，‘调’，‘研’]，字符数为9个，使用Word2vec的方法进行预训练，每个字符得到100维字符向量；

1.2将1.1所述的字符序列输入jieba分词模型中得到所有候选分词信息[‘南京’，‘南京市’，‘京市’，‘市长’，‘长江’，‘长江大桥’，‘江’，‘大桥’，‘调研’]，根据每个字符是否出现在分词中的位置信息得到维度大小为4的字符候选分词位置向量，得到向量组：

1.3将1.2所述的每个4维字符候选分词位置向量被乘4×100维的矩阵扩充至100维拼接1.1所述的字符向量得到维度大小为200的字符位置融合向量。

1.4将1.3所述的字符位置融合向量输入BiCNNs，选取有限个不同大小的卷积窗口，以每个字符位置融合向量为开头双向截取l个相邻字符特征向量。

1.5将1.4所述的l取2，3，4，5，不同l的取值对应不同维度的

和

，体现不同注意力程度，分别得到50、100、50、50维拼接得到250维向量。

1.6将1.5所述的250维向量被乘250×4维矩阵,再由激活函数和时间分布层得到4维语义位置特征向量，得到向量组：

1.7将1.6所述的向量组softmax处理，输出字符在分词位置的概率向量组：

1.8将1.7所述的概率向量组替换1.3公式所述的字符候选分词位置向量，被乘4×25维的矩阵扩充至25维拼接1.1所述的字符向量得到维度大小为125的得到字符概率位置融合向量。

1.9将1.8所述的字符概率位置融合向量输入BiCNNs+CRF，重复1.4～1.5步骤，在CRF层解码得到字符位置向量组，使用标注集P＝{B,I,E,S}进行标注，得到字符位置标注序列[‘B’，‘I’，‘E’，‘B’，‘I’，‘I’，‘E’，‘B’，‘E’]。

1.10将1.9的得到的字符位置标注序列作为1.1所述中文文本的分词边界标注，得到分词[‘南京市’，‘长江大桥’，‘调研’]。该方法在NE、NM、ALL的F值分别为57.94、65.77、61.54，得到最优的评价结果，逐步实现中文命名实体识别。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，该方法包括以下步骤：

步骤3：结合得到的

和

通过相应映射矩阵并拼接得到字符位置融合向量

步骤4：将得到的

步骤5：将所有的

取j次并全部拼接得到

结合

步骤7：结合得到的

和

通过相应映射矩阵并拼接得到字符概率位置融合向量

步骤8：将得到的

利用标注集进行标注得到字符位置标准序列p_i；

2.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤1中的训练的方法包括Word2vec、FastText或Glove。

3.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤2中的分词模型包括jieba、THULAC或HanLP。

4.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤4中的卷积神经网络为双向卷积神经网络BiCNNs。

5.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤8中的卷积神经网络为BiCNNs+CRF。

6.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤9中的数据集为命名实体集NE或名词提及集NM。

7.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤3中的字符位置融合向量

其计算公式为：

式中，W^p为用于将字符候选分词位置向量

扩充维度的映射矩阵。

8.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤4中的相邻字符特征向量

其计算公式为：

式中，W_i ^l为卷积核，

为偏置值，l为相邻字符特征向量

的截取个数。

9.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤5中的语义位置特征向量A_i，其计算公式为：

式中，W_i ^a为用于将

扩充维度的映射矩阵。

10.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤7中的字符概率位置融合向量

其计算公式为：

式中，W^vp为用于将字符候选分词位置向量

扩充维度的映射矩阵。