CN114818711A

CN114818711A - 基于神经网络的多信息融合命名实体识别方法

Info

Publication number: CN114818711A
Application number: CN202210450668.0A
Authority: CN
Inventors: 高镇; 肖峰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-29
Anticipated expiration: 2042-04-27
Also published as: CN114818711B

Abstract

本发明涉及一种基于神经网络的多信息融合命名实体识别方法，包括以下步骤：步骤一，对于包含实体信息的输入文本，转化成将文本长度为n并包含实体信息的文本序列，通过预训练模型BERT获取文本特征向量；通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片；步骤三，将步骤二得到的图片经过卷积模块提取特征；步骤四，将步骤一和步骤三分别提取的文本特征和图像特征拼接后得到完整的融合特征；步骤五，通过融合特征来构建标注矩阵；步骤六，基于标注矩阵实现命名实体识别。

Description

基于神经网络的多信息融合命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，是一种新型的命名实体识别的抽取方法。

背景技术

命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务，旨在将文本中的命名实体定位并分类为预先定义的类别，如人员、组织、位置、时间表达式、数量、货币值、百分比等。随着自然语言处理领域关系抽取技术的不断发展，各行各业产生的大量结构化、半结构化、非结构化的海量数据中隐藏的信息得以被挖掘和再开发，为社会进步和行业发展提供了新的动力和发展引导作用。

NER领域常用模型划分为两大类，一是传统模型，二是基于深度学习的模型。

传统模型主要包括有基于规则的模型，基于统计学习的方法。

基于规则的模型往往需要词表、词汇和领域知识。这种方法准确率高，召回率低，对于新词缺乏发现能力，并且往往需要领域专家维护知识库。基于统计机器学习的方法主要包括：隐马尔可夫模型(Hidden Markov Moder,HMM)、最大熵模型(Maximum EntropyModel,MEM)、支持向量机(Support Vector Machine,SVM)、条件随机场(ConditionalRandom Field,CRF)等等。在基于机器学习的方法中，NER被当作序列标注问题。利用大规模语料来学习出标注模型，从而对句子的各个位置进行标注。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等。条件随机场(Conditional Random Field，CRF)是NER目前的主流模型。条件随机场(CRF)的目标函数不仅考虑输入的状态特征函数，而且还包含了标签转移特征函数。在训练时可以使用SGD学习模型参数。在已知模型时，给输入序列求预测输出序列即求使目标函数最大化的最优序列，是一个动态规划问题，可以使用维特比算法进行解码。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。但其无法解决实体嵌套问题。总的来说，实体识别领域面临的挑战主要有以下两个方面：

1、如何获取更丰富准确的语义信息表达向量；

2、如何解决命名实体识别中的实体重叠和嵌套问题。

发明内容

本发明提供了一种基于神经网络的多信息融合命名实体识别方法，可以获取更丰富准确的语义信息表达，并用来避免解决命名实体识别中出现的实体重叠和嵌套问题。技术方案如下：

一种基于神经网络的多信息融合命名实体识别方法，包括以下步骤：

步骤一，对于包含实体信息的输入文本，转化成将文本长度为n并包含实体信息的文本序列，通过预训练模型BERT获取文本特征向量，输出的文本特征向量表示为

其中n代表文本长度，k代表每个字的文本特征向量的维度；

步骤二，通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片，每个字转换一张通道数为1的灰度图，如果某个字不存在BERT字表中对应的ID，则转换为一张全0的灰度图；

步骤三，将步骤二得到的图片经过卷积模块提取特征；

所述的卷积模块包括3D卷积块和多个2D卷积块，分别用来提取图像不同维度的信息，提取特征方法如下：

1)经过3D卷积块以提取到文字图片的深度信息，操作如下：使用2个卷积核大小为3×3×3的3D卷积层将步骤二得到的文字图片映射到8通道的特征空间；

2)将3D卷积块的输出分别依次经过4个2D卷积块以提取文字图片的宽度和广度信息，每个2D卷积块包含一个卷积层和一个最大池化层，第一个2D卷积块的卷积核大小为3×3，池化层大小为2×2，后面依次经过3个卷积核大小为2×2，池化层大小为2×2的2D卷积模块，得到最后的特征

步骤四，将步骤一和步骤三分别提取的文本特征

和图像特征

拼接后得到完整的融合特征

步骤五，通过融合特征来构建标注矩阵；

标注矩阵可以很好的解决实体重叠问题，在构建标注矩阵时，由于实体的头一定在实体的尾前面；所以，整个标注矩阵只需要构建上半个就可以了，即一个矩阵的上三角部分，从而减少计算资源的使用；标注矩阵的构建如下：已知，文本特征和图像特征融合后为

对应标注矩阵的第一行为

表示取

的所有行的所有列，第二行为

表示取

的第2到n行的所有列…,以此类推，直到最后一行为

表示取

的最后一行的所有列，将其拼接到一起得标注矩阵L^(n+n-1+n-2+...^+1)×(k+d)；

步骤六，基于标注矩阵实现命名实体识别。

本发明提供的技术方案的有益效果是：

1、本发明采用精心设计的卷积模块融合对应字符得图片信息，而现有技术大多在进行序列标注时没有考虑到融合这些信息，存在信息特征不丰富的问题；本发明能够有效利用卷积模块来提取字符图片的特征信息，来丰富整体模型的信息特征。

2、传统NER模型多是采用序列标注的形式，无法有效识别嵌套的实体。而本发明提出了矩阵标注分类的方法，能够有效解决嵌套实体的问题，来提高现目前NER的准确率。

附图说明

图1为一种基于多信息融合神经网络标注的命名实体识别方法的流程图；

图2为卷积模块的详细设计图和计算过程。

图3为文本序列标注方案，细说了如何用矩阵标注抽取出文本中的实体；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。下列实施例仅用于解释本发明的发明内容，并不用于限定本发明的保护范围。

由于现有模型很少融合图片信息而且多数存在着无法很好识别嵌套实体的问题，所以，本发明提出：①融合字符图片信息，来丰富特征。②采用矩阵标注分类的形式来解决实体嵌套问题。具体方案如下。

步骤一，对于包含实体信息的输入文本，通过预训练模型BERT获取文本特征向量。

将输入文本进行预处理，按照指定长度n对其进行截断或补充，输入BERT，根据BERT字表，每个字都有其对应ID，故可获取文本序列对应的ID序列。再将ID序列输入BERT模型，获取输出的文本特征向量

其中n代表文本长度，k代表每个字的文本特征向量的维度。

步骤二，通过匹配的方式将文本转换成对应的包含该文字的图片。

将文本长度为n并包含实体信息的文本序列，转换成对应的图片。每个字转换一张通道数为1、长和宽为50×50的灰度图。如果某个字不存在对应ID，则转换为一张全0的灰度图。

步骤三，将得到的图片经过卷积模块提取特征。

卷积模块主要包括3D卷积模块和多个2D卷积模块，分别提取图像不同维度的信息。其中每个2D卷积模块包含有一个卷积层和一个最大池化层，提取特征方法如下：

1)首先经过3D卷积模块，操作如下：使用2个卷积核大小为3×3×3的3D卷积层将图像映射8通道的特征空间。3D卷积层提取到了文字图片的深度信息，浓缩了图片特征。

2)依次经过4个2D卷积模块，每个模块包含一个卷积层和一个最大池化层，第一个2D模块的卷积核大小为3×3，池化层大小为2×2，后面依次经过3个卷积核大小为2×2，池化层大小为2×2的2D卷积模块，得到最后的特征

2D卷积提取了图片的宽度和广度信息。

步骤四，已知前后2个特征为

和

将其拼接得到完整的融合特征

步骤五，通过融合特征来构建标注矩阵。

标注矩阵可以很好的解决实体重叠问题，在构建标注矩阵时，由于实体的头一定在实体的尾前面。所以，整个标注矩阵只需要构建上半个就可以了，即一个矩阵的上三角部分，从而减少计算资源的使用。标注矩阵的构建如下：已知，文本特征和图像特征融合后为

对应标注矩阵的第一行为

(

这是取

的所有行，所有列)，第二行为

(

这是取

的第2到n行，所有列)…,最后一行为

(

这是取

的最后一行，所有列)，将其拼接到一起得标注矩阵L^{(n+n-1+n-2+...+1)×(k+d)}。

步骤六，将构造出来的标注矩阵输入FNN(前馈神经网络)，来减少压缩特征，再用softmax作为激活函数，加以分类。

前馈神经网络是由多个全连接层构成，本发明采用了3个全连接层，两两之间采用ReLU激活函数，最后一层的输出采用softmax做激活函数。具体实施如下：由步骤五已知，拼接完的向量为：L^{(n+n-1+n-2+...+1)×(k+d)}则一个向量的维度为k+d，假设总共的实体种类有m种(m<k+d)，经过FNN(前馈神经网络)压缩特征变为L^{(n+n-1+n-2+...+1)×m}，再做softmax来确认对应位置的实体应该取哪个类型，解码时就按照标注矩阵预测出的有效标签所在位置解码出对应的实体和标签。此方法可有效识别出嵌套的实体。