CN111126069B

CN111126069B - 一种基于视觉对象引导的社交媒体短文本命名实体识别方法

Info

Publication number: CN111126069B
Application number: CN201911391112.3A
Authority: CN
Inventors: 蔡毅; 郑昌萌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-03-29
Anticipated expiration: 2039-12-30
Also published as: CN111126069A; WO2021135193A1

Abstract

本发明公开了一种基于视觉对象引导的社交媒体短文本命名实体识别方法，包括步骤：建立社交媒体短文本的文本描述数据集，并提供和文本描述相关的视觉图像数据；对视觉图像数据进行对象检测，并将检测出的视觉对象类别进行视觉词语义的提取；对原始文本描述进行语义提取，并对文本语义进行文本的特征提取；计算视觉词语义和文本特征的相似性，对视觉词语义进行加权求和；计算多模态语义与原始文本特征的相关性，得到最终的词语义向量；将最终的词语义向量输入到条件随机场中，进行实体边界和实体类别的识别，得到的结果为识别出的命名实体。本发明能够利用视觉对象信息进行实体类型的判定，对缺少语义信息的社交媒体短文本数据起到了补充作用。

Description

一种基于视觉对象引导的社交媒体短文本命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于视觉对象引导的社交媒体短文本命名实体识别方法。

背景技术

命名实体识别是自然语言处理的一个基本问题，其目的在于从文本段中定位命名实体以及将命名实体划分到预定义好的类别(例如人名、地点名或组织机构名)。早期的命名实体识别方法基于传统的机器学习方法，需要大量手工设计的特征(例如词频，词序等)。还有一些方法利用外部资源(例如外部词典)进行命名实体的抽取。这些方法往往依赖于具体的任务场景或者外部资源的有效性，在很多特定场景下效果很差。

近年来，由于深度学习技术的兴起与成熟，尤其是神经网络在序列标注任务上的成功，基于双向LSTM和CRF(条件随机场)的序列标注模型在处理命名实体识别任务上超过了传统的机器学习方法或是利用外部资源的方法，在很多公开数据集上取得了最好的结果。这些方法主要关注在新闻领域数据的命名实体识别。和新闻领域的数据不同，在社交媒体领域(例如微博、推特等)的文本往往可以提供更加丰富的用户信息，方便进行重要事件、个人观点甚至是群组喜好的提取和分析。但是，社交媒体领域的命名实体识别具有以下两个技术难点：(1)社交媒体中的文本通常是短文本，对于提取其中的命名实体来说所需的信息量是不足够的，仅仅利用文本上的特点不足以对命名实体进行准确有效的识别。(2)社交媒体中的文本通常具有歧义现象，因为其中含有大量的俚语和多义词。

结合字符特征与词嵌入模型的词表示方法能够有效地识别社交媒体领域文本中的俚语和部分多义词，但是在短文本的数据集上由于语义欠缺而表现较差。多模态或跨模态表示方法在很多自然语言处理的任务上取得了很好的效果，结合图片特征能够有效的补充短文本中丢失的语义信息。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于视觉对象引导的社交媒体短文本命名实体识别方法。本发明建立一个多模态命名实体识别数据集，通过分别提取文本数据特征和视觉对象特征来获取多模态的数据表示，采用多模态attention机制和门控gate机制对视觉信息进行过滤和筛选，最终将相关的视觉信息拼接到原始文本特征中，辅助对命名实体的识别过程。本发明能够利用视觉对象信息进行实体类型的判定，对缺少语义信息的社交媒体短文本数据起到了补充作用，同时利用attention机制和门控gate机制来过滤和筛选视觉信息，使得最终补充的信息与原有文本相关程度最大，在很大程度上提升了命名实体识别的效果。

本发明的目的能够通过以下技术方案实现：

一种基于视觉对象引导的社交媒体短文本命名实体识别方法，包括步骤：

建立社交媒体短文本的文本描述数据集，通过爬取社交媒体中文本附带的视觉图像，提供和文本描述相关的视觉图像数据；

基于视觉对象检测算法Faster RCNN对视觉图像数据进行对象检测，并对检测出的视觉对象类别进行视觉词语义的提取；

根据字符和词级别对原始文本描述进行语义提取，根据文本语义对文本进行特征提取；

计算视觉词语义和文本特征的相似性，利用相似性程度对视觉词语义进行加权求和；

根据加权求和结果计算多模态语义与原始文本特征的相关性，然后将加权求和后的多模态语义与原始文本特征进行拼接，得到最终的词语义向量；

将词语义向量输入到条件随机场中，进行实体边界和实体类别的识别，得到的结果为识别出的命名实体。

本发明相较于现有技术，具有以下的有益效果：

视觉对象作为一种细粒度的视觉表示，能够与文本中的不同实体进行对应，提升对不同类型的实体识别的效果。

1、本发明结合视觉信息对文本信息进行补充，进行命名实体的预测。

2、本发明将视觉对象的语义通过标签词嵌入模型转化到文本空间，使得视觉信息与文本信息能够在同一空间上有效结合，提升了多模态表示的有效性。

3、本发明中采用了多模态attention机制与门控gate机制，具有良好的抗噪性，并且能够筛选出与文本相关的有效视觉信息，极大程度的提升了最终实体识别的准确性。

附图说明

图1是本发明中一种基于视觉对象引导的社交媒体短文本命名实体识别方法的流程图。

图2是本发明中一种基于视觉对象引导的社交媒体短文本命名实体识别方法的模型架构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种基于视觉对象引导的社交媒体短文本命名实体识别方法的流程图，所述方法包括以下步骤：

(1)建立社交媒体短文本的文本描述数据集，通过爬取社交媒体中文本附带的视觉图像，并提供和文本描述相关的视觉图像数据；

(2)对视觉图像数据进行对象检测，并将检测出的视觉对象类别输入词嵌入层进行视觉词语义的提取，包括：

(2-1)对于输入的每张图片，采用视觉对象检测算法(Faster RCNN)进行视觉对象类别的提取，根据提取的置信度(置信度即分类器输出的类别概率)对识别出的n个对象进行排序，取前k个对象构成视觉对象集，k为超参数，视觉对象集表示为

如图2所示为本发明采用的模型的架构图。

(2-2)将视觉对象集中每个对象的类别通过词嵌入层进行视觉词语义的提取，提取方法为：

得到的视觉对象集合的词语义表示为

(2-3)为了后续计算便利性，将视觉对象集合的词语义通过一个单层感知机映射到和文本表示相同的维度中，具体映射方法为：

其中，tanh是非线性激活函数，W_I和b_I分别是可训练的参数矩阵。映射后得到最终的视觉词语义。

(3)采用字符和词级别的嵌入层获取每个词的字符和词级别的嵌入表示，并通过双向LSTM层进行文本的特征提取，包括：

(3-1)对于输入文本描述中的每个词，计算词级别嵌入语义和字符级别语义，词级别嵌入语义采用word embedding层，字符级别语义采用一个双向LSTM层；将字符输入到双向LSTM层中，拼接前后项的隐藏层输出作为最终的字符级别语义；将词级别嵌入语义和字符级别语义进行拼接，得到字符和词级别的嵌入语义，表示为：

其中，

是词嵌入语义，

是字符级别的语义，得到的字符和词级别的嵌入语义表示为

(3-2)将步骤(3-1)中的字符和词级别的嵌入语义输入到一个双向LSTM层中捕捉上下文信息，并将前后项的隐藏层输出拼接作为最终的文本特征表示。对于文本描述中的每个词，其特征表示记为

(4)将步骤(2)和步骤(3)中的视觉词语义和文本特征输入到一个多模态attention层中计算二者的相似性，利用相似程度对视觉词语义进行加权求和，包括：

(4-1)将步骤(2-3)和步骤(3-2)得到的视觉词语义和文本特征输入到一个多模态attention层中计算二者的相似性，计算公式为：

其中，softmax为非线性激活函数，得到的权重α_i的取值空间为[0,1]。

(4-2)将每个视觉对象根据在步骤(4-1)中得到的权重值进行加权求和，通过下述公式计算出最终的多模态attention表示向量：

(5)将步骤(4)中的多模态attention表示向量输入到一个门控机制gate层中，计算多模态表示与原始文本特征的相关性，然后将加权求和后的多模态表示与原始文本特征进行拼接得到最终的词语义向量，包括：(5-1)将步骤(4-2)中的多模态attention表示向量和文本表示向量输入到一个sigmoid非线性激活函数中，得到gate机制的门控参数g：

其中，

和

分别为多模态attention表示和文本特征输入到一个线性层进行维度转换的结果。[；]是向量拼接操作。最终得到的参数g则是值为[0,1]的门控参数，用来决定当前的多模态attention表示与文本特征的相关程度。

(5-2)将步骤(5-1)中得到的门控参数作为权重与多模态attention表示相乘，并与文本特征按照维度相加，得到最终的多模态词语义。这个语义被输入到最后一层的条件随机场中进行实体边界和实体类别的预测。

6)将步骤(5)中的多模态词语义向量输入到条件随机场中，进行实体边界和实体类别的识别，得到的结果就是基于视觉对象引导的社交媒体短文本命名实体识别算法识别出的命名实体。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。