CN116341555A

CN116341555A - 命名实体识别方法和系统

Info

Publication number: CN116341555A
Application number: CN202310606442.XA
Authority: CN
Inventors: 邬昌兴; 王琛; 姚浩; 熊锦晖; 杨亚连
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-06-27
Anticipated expiration: 2043-05-26
Also published as: CN116341555B

Abstract

本发明提供了一种命名实体识别方法和系统，该方法包括：对各样本文本和对应的样本图片分别进行编码得到文本表示和图片表示；根据各图片表示对各文本表示进行信息增强得到文本增强表示，并分别基于文本表示和文本增强表示进行命名实体预测，得到第一预测结果和第二预测结果；根据第一预测结果和第二预测结果确定模型总训练代价，通过最小化模型总训练代价对命名实体识别模型进行参数更新，直至收敛；将待识别文本和/或对应的图片输入收敛后的命名实体识别模型进行识别，得到命名实体识别结果。本发明能有效地建立文本中的实体与图片中的物体之间的联系，从而充分利用图片中的信息学习更好的文本表示，提高了命名实体识别的性能。

Description

命名实体识别方法和系统

技术领域

本发明涉及实体识别技术领域，尤其涉及一种命名实体识别方法和系统。

背景技术

命名实体识别（Named Entity Recognition，NER）任务的目的是识别出给定文本中具有特定意义的实体，并判断实体所属的类型，比如，人名、地名、机构名、时间和专有名词等。命名实体识别是信息抽取、问答系统和机器翻译等上层应用系统的重要基础，在自然语言处理技术走向实用化的过程中占有重要地位，受到学术界和产业界越来越多的关注。

现有的命名实体识别方法，一般仅考虑了文本信息，而在很多情况下仅利用文本中的信息不足以正确地识别出所包含的实体及其类别，例如，在句子“汤姆在追逐杰瑞”中，仅根据文本并不能确定“汤姆”和“杰瑞”是人名还是动物名，进而导致命名实体识别准确率不高。

发明内容

本发明实施例的目的在于提供一种命名实体识别方法和系统，旨在解决现有的命名实体识别准确率不高的问题。

本发明实施例是这样实现的，一种命名实体识别方法，所述方法包括：

对各样本文本进行文本编码，得到文本表示，并对各样本文本对应的样本图片进行图片编码，得到图片表示；

根据各图片表示对各文本表示进行信息增强，得到文本增强表示，并分别基于各文本表示和各文本增强表示进行命名实体预测，得到第一预测结果和第二预测结果；

根据所述第一预测结果和所述第二预测结果确定模型总训练代价，并最小化所述模型总训练代价对命名实体识别模型进行参数更新，直至所述命名实体识别模型收敛；

将待识别文本和/或对应的图片输入收敛后的所述命名实体识别模型进行识别，得到命名实体识别结果。

本发明实施例的另一目的在于提供一种命名实体识别系统，所述系统包括：

编码模块，包括文本编码模块和图片编码模块，文本编码模块用于对各样本文本进行文本编码，得到文本表示，图片编码模块用于对各样本文本对应的样本图片进行图片编码，得到图片表示；

多级图文交互模块，用于根据各图片表示对各文本表示进行信息增强，通过多级信息交互，得到文本增强表示；

解码模块，包括第一解码层和第二解码层，第一解码层以各文本表示作为输入，得到第一预测结果，第二解码层以各文本增强表示作为输入，得到第二预测结果；

命名实体识别模块，用于得到不同实际应用场景下的命名实体识别结果，当输入待识别文本和对应图片时，依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层，将第二解码层输出第二预测结果作为命名实体识别结果；当仅输入待识别文本时，依次调用文本编码模块和解码模块中的第一解码层，将第一解码层输出的第一预测结果作为命名实体识别结果。

本发明实施例，能有效地建立文本中的实体与图片中的物体之间的联系，从而充分利用图片中的信息学习更好的文本表示，提高了命名实体识别的性能，还能应用于有对应图片的文本和仅有文本两种真实场景下的命名实体识别。

附图说明

图1是本发明第一实施例提供的命名实体识别方法的流程图；

图2是本发明第二实施例提供的命名实体识别系统的结构示意图；

图3是本发明第二实施例提供的命名实体识别系统的框架示意图；

图4是本发明第三实施例提供的终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的命名实体识别方法的流程图，该命名实体识别方法可以应用于任一终端设备或系统，该命名实体识别方法包括步骤：

步骤S10，对各样本文本进行文本编码，得到文本表示，并对各样本文本对应的样本图片进行图片编码，得到图片表示；

其中，通过采用基于BERT的文本编码模块对各样本文本进行文本编码，得到该文本表示，采用基于ViT的图片编码模块对各样本图片进行图片编码，得到图片表示，该步骤中，预设置有训练数据集D，训练数据集D包括成对的样本文本

和样本图片/>

，任一训练实例可表示为/>

，Y为人工标注的样本文本/>

对应的标注序列。

可选的，该步骤中，所述对各样本文本进行文本编码，得到文本表示，并对各样本文本对应的样本图片进行图片编码，得到图片表示，包括：

将各样本文本输入文本编码器进行文本编码，得到各文本表示；

将对应的各样本图片输入图片编码器进行图片编码，得到各图片表示；

其中，基于BERT的文本编码模块包含多个编码层（Transformer），用于学习多层次的文本表示，BERT是使用大量无标注文本预训练的文本编码器，其通过堆叠多个Transformer层以学习多层次的文本表示，在信息抽取等众多自然语言处理任务上取得了非常好的效果。

BERT中底部的多个Transformer层可以学习到词性和句法等语法特征，顶部的多个Transformer层可以学习到实体信息等高层次的语义特征。具体地，给定含有N个词的样本文本

，基于BERT的文本编码模块用于学习多层次的句子表示/>

，具体如下：

；

其中，BERT为预训练的文本编码器，

为BERT中Transformer的层数，/>

是BERT中第/>

个Transformer层输出的句子表示。/>

是一个N行的二维矩阵，其中的行是文本中相应词的表示，Transformer层是常用的神经网络层。

基于ViT的图片编码模块同样包含多个Transformer层，用于学习多层次的图片表示。ViT是使用大量图片预训练的图片编码器，其通过堆叠多个Transformer层以学习多层次的图片表示，在目标检测等众多计算机视觉任务上取得了非常好的效果。

ViT中底部的多个Transformer层可以学习到线条和轮廓等低层次的视觉特征，顶部的多个Transformer层可以学习到物体等高层次的视觉特征。具体地，给定与文本

成对的图片/>

，将其缩放成指定的大小（比如，560*560个像素点），然后切分为M个大小相同的块（比如，28*28个像素点），并将这些图片块排列成块的序列。基于ViT的图片编码模块用于学习多层次的图片表示/>

，具体如下：

；

其中，ViT为预训练的图片编码器，

为ViT中Transformer的层数，/>

是ViT中第/>

个Transformer层输出的图片表示。/>

是一个M行的二维矩阵，其中的行是图片中相应块的表示。本实施例中，ViT中Transformer的层数/>

和BERT中Transformer的层数/>

可以相同，也可以不相同。

需要说明的是，本实施例中的文本编码模块也可以基于其他堆叠的神经网络层（例如，BiLSTM层）或预训练模型实现，只要能输出多层次的文本表示即可；图片编码模块同样可以基于其他堆叠的神经网络层（例如，卷积层）或预训练模型实现，只要能输出多层次的图片表示即可。

步骤S20，根据各图片表示对各文本表示进行信息增强，得到文本增强表示，并分别基于各文本表示和各文本增强表示进行命名实体预测，得到第一预测结果和第二预测结果；

其中，可以基于交叉注意力机制的多级图文交互模块对各文本表示进行信息增强，基于交叉注意力机制的多级图文交互模块包含多个交叉注意力机制层，以多层次的句子表示和图片表示作为输入，用于学习图片信息增强的文本表示。在自然语言处理领域，交叉注意力机制常用于建模两段文本之间的交互，在文本推理、语义匹配和篇章关系识别等任务上取得了较好的效果。交叉注意力机制也常用于多模态信息之间的交互，在图片标题生成等多模态任务上取得了较好的效果。

本实施例中，基于BERT的文本编码模块中顶部的多个Transformer层可以学习到实体信息等高层次的语义特征，基于ViT的图片编码模块中顶部的多个Transformer层可以学习到物体等高层次的视觉特征，基于交叉注意力机制的多级图文交互模块可以有效地建立样本文本中的实体与图片中的物体之间的联系，从而能更有效地利用图片中的信息，提升命名实体识别的性能。

可选的，该步骤中，所述根据各图片表示对各文本表示进行信息增强，包括：

将各图片表示及对应的各文本表示输入基于交叉注意力机制的多级图文交互网络中的交叉注意力机制层进行信息交互，得到各文本增强表示；

所述基于交叉注意力机制的多级图文交互网络包括K个堆叠的交叉注意力机制层，第

个交叉注意力机制层的输入包括：

；

其中，

和/>

是第/>

个交叉注意力机制层的输入，/>

和/>

为第/>

个交叉注意力机制层的输出，/>

为所述文本编码器中第/>

个编码层输出的文本表示，/>

为所述图片编码器中第/>

个编码层输出的图片表示，LayerNorm为层标准化操作，/>

和/>

为参数矩阵，/>

时/>

和/>

为零矩阵，/>

是所述文本编码器中编码层的总个数，/>

是所述图片编码器中编码层的总个数。

本实施例中，第

个交叉注意力机制层输出的各文本增强表示为：

；

其中，

、/>

和/>

分别为文本到图片的注意力机制中的查询、键和值，

为与文本相关的图片信息的表示，/>

、/>

和/>

为需要学习的参数矩阵，/>

为按行进行归一化操作，T为矩阵转置操作，LayerNorm为层标准化操作，/>

为第/>

个交叉注意力机制层中的第一多层前馈神经网络，/>

为第 />

个交叉注意力机制层输出的文本增强表示。

在第

个交叉注意力机制层中，通过图片到文本的注意力机制部分计算文本信息增强的图片表示/>

，计算公式如下：

；

其中，

、/>

和/>

分别为图片到文本的注意力机制中的查询、键和值，/>

为与图片相关的文本信息的表示，/>

、/>

和/>

为需要学习的参数矩阵，/>

为第/>

个交叉注意力机制层中的第二多层前馈神经网络，/>

为第 />

个交叉注意力机制层输出的文本信息增强的图片表示。

进一步地，所述分别基于各文本表示和各文本增强表示进行命名实体预测，包括：

将各文本表示输入解码器中的第一解码层，并根据所述第一解码层对文本进行命名实体识别，得到所述第一预测结果；

将各文本增强表示输入所述解码器中的第二解码层，并根据所述第二解码层对文本进行命名实体识别，得到所述第二预测结果；

其中，第一解码层和第二解码层可以采用CRF层，第一CRF层基于文本表示进行命名实体识别，得到第一预测结果，第二CRF层基于图片信息增强的文本表示进行命名实体识别，得到第二预测结果。

在仅有文本而缺失图片的实际应用场景中，可以使用第一CRF层进行命名实体识别，而在具有成对的文本和图片的实际应用场景中，可以使用第二CRF层进行命名实体识别。与基于分类层分别预测每个词的标记相比，CRF层整体预测一个标记序列，能够有效地建模相邻标记之间的约束关系，能取得更好的识别性能。

具体地，给定基于BERT的文本编码模块最后一个Transformer层输出的文本表示

，第一CRF层使用Viterbi算法求出得分最高的标记序列，作为第一预测结果，根据所述第一解码层对文本进行命名实体识别采用的公式包括：

；

其中，

为/>

的第/>

行，/>

为文本编码器中最后一层的输出，/>

为第一预测结果，/>

为第一CRF层中第/>

个词对应的标记得分向量，N为文本中词的个数，

和/>

分别为第一CRF层中需要学习的不同标记之间的转移得分矩阵和线性变换层参数矩阵，标记序列的得分为文本中每个词对应的标记得分和序列中任意两个相邻标记之间的转移得分的总和。

给定基于交叉注意力机制的多级图文交互模块最后一层输出的图片信息增强的文本表示

，第二CRF层使用Viterbi算法求出得分最高的标记序列，作为第二预测结果，所述根据所述第二解码层对文本进行命名实体识别采用的公式包括：

；

其中，

为/>

的第/>

行，/>

为第二预测结果，/>

为多级图文交互网络中最后一个交叉注意力机制层输出的文本增强表示，/>

为第二CRF层中第/>

个词对应的标记得分向量，/>

和/>

分别为第二解码层中需要学习的不同标记之间的转移得分矩阵和线性变换层参数矩阵。

步骤S30，根据所述第一预测结果和所述第二预测结果确定模型总训练代价，并最小化所述模型总训练代价对命名实体识别模型进行参数更新，直至所述命名实体识别模型收敛；

其中，定义一种基于知识蒸馏的代价函数（知识蒸馏的代价函数），把第二解码层及基于交叉注意力机制的多级图文交互模块学到的知识传递到第一解码层及基于BERT的文本编码模块，从而实现它们之间迭代地相互增强的目的。

具体的，所述根据所述第一预测结果和所述第二预测结果确定模型总训练代价,计算模型总训练代价的函数包括：

；

其中，L ₁和L ₂分别为所述第一预测结果和所述第二预测结果对应的代价函数，

为训练数据集/>

中的一个训练样本，/>

为样本文本，/>

为对应的样本图片，/>

为人工标注的样本文本/>

对应的标注序列，/>

为样本文本/>

对应的所有可能的标记序列的集合，为集合

中的标记序列，函数/>

基于第一解码层中词对应的标记得分向量和不同标记之间的转移得分矩阵，计算任一标记序列的得分，函数/>

基于第二解码层中词对应的标记得分向量和不同标记之间的转移得分矩阵，计算任一标记序列的得分，/>

和

分别为第一解码层和第二解码层中人工标注的标记序列Y对应的概率值；

；

其中，L ₃为知识蒸馏的代价函数，

为样本文本/>

中的第/>

个词，/>

和/>

分别为第一解码层和第二解码层中计算得到的词/>

对应的标记得分向量，函数MSE用于计算两个标记得分向量的均方误差；模型训练过程中，知识蒸馏的代价函数L ₃可以使第一解码层中计算得到的标记得分向量尽量拟合第二解码层中计算得到的标记得分向量，从而达到知识传递的目的；

；

其中，

为所述模型总训练代价函数，/>

、/>

和/>

分别为L ₁、L ₂和L ₃对应的权重系数，模型总训练代价函数用于计算模型总训练代价，通过最小化总训练代价引导命名实体识别模型进行参数更新，最终得到训练好的命名实体识别模型。由于第二解码层利用了图片信息增强的文本表示，其预测的结果通常会好于第一解码层预测的结果。

步骤S40，将待识别文本和/或对应的图片输入收敛后的所述命名实体识别模型进行识别，得到命名实体识别结果；

其中，当输入待识别文本和对应图片时，依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层，将第二解码层输出的第二预测结果作为命名实体识别结果；当仅输入待识别文本时，依次调用文本编码模块和解码模块中的第一解码层，将第一解码层输出的第一预测结果作为命名实体识别结果。

本实施例中，通过各图片表示对各文本表示进行信息增强，能有效地建立各样本文本中的实体与图片中的物体之间的联系，使得各文本表示能有效地集成图片中的信息，从而能更有效地利用图片中的信息提升命名实体识别的性能，还能应用于有对应图片的文本和仅有文本两种真实场景下的命名实体识别。

实施例二

请参阅图2，是本发明第二实施例提供的命名实体识别系统100的结构示意图，包括：编码模块10、多级图文交互模块11、解码模块12和命名实体识别模块13，其中：

编码模块10，包括文本编码模块和图片编码模块，文本编码模块用于对各样本文本进行文本编码，得到文本表示，图片编码模块用于对各样本文本对应的样本图片进行图片编码，得到图片表示。

多级图文交互模块11，用于根据各图片表示对各文本表示进行信息增强，通过多级信息交互，得到文本增强表示。

解码模块12，包括第一解码层和第二解码层，第一解码层以各文本表示作为输入，得到第一预测结果，第二解码层以各文本增强表示作为输入，得到第二预测结果。

命名实体识别模块13，用于得到不同实际应用场景下的命名实体识别结果，当输入待识别文本和对应图片时，依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层，将第二解码层输出第二预测结果作为命名实体识别结果；当仅输入待识别文本时，依次调用文本编码模块和解码模块中的第一解码层，将第一解码层输出的第一预测结果作为命名实体识别结果。请参阅图3，编码模块10包括基于BERT的文本编码模块14和基于ViT的图片编码模块15，解码模块12包括第一CRF层16和第二CRF层17，解码模块12中设置有知识蒸馏增强的总代价函数；

本实施例中，基于BERT的文本编码模块14包含多个Transformer层，用于学习多层次的文本表示，基于ViT的图片编码模15同样包含多个Transformer层，用于学习多层次的图片表示，基于交叉注意力机制的多级图文交互模块11包含多个交叉注意力机制层，以多层次的句子表示和图片表示作为输入，用于学习图片信息增强的文本表示，第一CRF层16基于文本表示进行命名实体识别，第二CRF层17基于图片信息增强的文本表示进行命名实体识别，知识蒸馏增强的总代价函数用于计算模型的总训练代价，通过最小化总训练代价引导模型参数的更新，最终得到训练好的命名实体识别模型。

本实施例，通过各图片表示对各文本表示进行信息增强，能有效地建立各样本文本中的实体与图片中的物体之间的联系，使得各文本表示能有效地集成图片中的信息，从而能更有效地利用图片中的信息提升命名实体识别的性能，还能应用于有对应图片的文本和仅有文本两种真实场景下的命名实体识别。

实施例三

图4是本申请第三实施例提供的一种终端设备2的结构框图。如图4所示，该实施例的终端设备2包括：处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22，例如命名实体识别方法的程序。处理器20执行所述计算机程序22时实现上述各个命名实体识别方法各实施例中的步骤。

示例性的，所述计算机程序22可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器21中，并由所述处理器20执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括，但不仅限于，处理器20、存储器21。

所称处理器20可以是中央处理单元（Central Processing Unit，CPU）+图形处理器（Graphic Processing Unit，GPU）的处理单元，还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific IntegratedCircuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器21可以是所述终端设备2的内部存储单元，例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备，例如所述终端设备2上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。其中，计算机可读存储介质可以是非易失性的，也可以是易失性的。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。