CN111126069B - 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 - Google Patents
一种基于视觉对象引导的社交媒体短文本命名实体识别方法 Download PDFInfo
- Publication number
- CN111126069B CN111126069B CN201911391112.3A CN201911391112A CN111126069B CN 111126069 B CN111126069 B CN 111126069B CN 201911391112 A CN201911391112 A CN 201911391112A CN 111126069 B CN111126069 B CN 111126069B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- semantics
- visual
- visual object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于视觉对象引导的社交媒体短文本命名实体识别方法,包括步骤:建立社交媒体短文本的文本描述数据集,并提供和文本描述相关的视觉图像数据;对视觉图像数据进行对象检测,并将检测出的视觉对象类别进行视觉词语义的提取;对原始文本描述进行语义提取,并对文本语义进行文本的特征提取;计算视觉词语义和文本特征的相似性,对视觉词语义进行加权求和;计算多模态语义与原始文本特征的相关性,得到最终的词语义向量;将最终的词语义向量输入到条件随机场中,进行实体边界和实体类别的识别,得到的结果为识别出的命名实体。本发明能够利用视觉对象信息进行实体类型的判定,对缺少语义信息的社交媒体短文本数据起到了补充作用。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于视觉对象引导的社交媒体短文本命名实体识别方法。
背景技术
命名实体识别是自然语言处理的一个基本问题,其目的在于从文本段中定位命名实体以及将命名实体划分到预定义好的类别(例如人名、地点名或组织机构名)。早期的命名实体识别方法基于传统的机器学习方法,需要大量手工设计的特征(例如词频,词序等)。还有一些方法利用外部资源(例如外部词典)进行命名实体的抽取。这些方法往往依赖于具体的任务场景或者外部资源的有效性,在很多特定场景下效果很差。
近年来,由于深度学习技术的兴起与成熟,尤其是神经网络在序列标注任务上的成功,基于双向LSTM和CRF(条件随机场)的序列标注模型在处理命名实体识别任务上超过了传统的机器学习方法或是利用外部资源的方法,在很多公开数据集上取得了最好的结果。这些方法主要关注在新闻领域数据的命名实体识别。和新闻领域的数据不同,在社交媒体领域(例如微博、推特等)的文本往往可以提供更加丰富的用户信息,方便进行重要事件、个人观点甚至是群组喜好的提取和分析。但是,社交媒体领域的命名实体识别具有以下两个技术难点:(1)社交媒体中的文本通常是短文本,对于提取其中的命名实体来说所需的信息量是不足够的,仅仅利用文本上的特点不足以对命名实体进行准确有效的识别。(2)社交媒体中的文本通常具有歧义现象,因为其中含有大量的俚语和多义词。
结合字符特征与词嵌入模型的词表示方法能够有效地识别社交媒体领域文本中的俚语和部分多义词,但是在短文本的数据集上由于语义欠缺而表现较差。多模态或跨模态表示方法在很多自然语言处理的任务上取得了很好的效果,结合图片特征能够有效的补充短文本中丢失的语义信息。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于视觉对象引导的社交媒体短文本命名实体识别方法。本发明建立一个多模态命名实体识别数据集,通过分别提取文本数据特征和视觉对象特征来获取多模态的数据表示,采用多模态attention机制和门控gate机制对视觉信息进行过滤和筛选,最终将相关的视觉信息拼接到原始文本特征中,辅助对命名实体的识别过程。本发明能够利用视觉对象信息进行实体类型的判定,对缺少语义信息的社交媒体短文本数据起到了补充作用,同时利用attention机制和门控gate机制来过滤和筛选视觉信息,使得最终补充的信息与原有文本相关程度最大,在很大程度上提升了命名实体识别的效果。
本发明的目的能够通过以下技术方案实现:
一种基于视觉对象引导的社交媒体短文本命名实体识别方法,包括步骤:
建立社交媒体短文本的文本描述数据集,通过爬取社交媒体中文本附带的视觉图像,提供和文本描述相关的视觉图像数据;
基于视觉对象检测算法Faster RCNN对视觉图像数据进行对象检测,并对检测出的视觉对象类别进行视觉词语义的提取;
根据字符和词级别对原始文本描述进行语义提取,根据文本语义对文本进行特征提取;
计算视觉词语义和文本特征的相似性,利用相似性程度对视觉词语义进行加权求和;
根据加权求和结果计算多模态语义与原始文本特征的相关性,然后将加权求和后的多模态语义与原始文本特征进行拼接,得到最终的词语义向量;
将词语义向量输入到条件随机场中,进行实体边界和实体类别的识别,得到的结果为识别出的命名实体。
本发明相较于现有技术,具有以下的有益效果:
视觉对象作为一种细粒度的视觉表示,能够与文本中的不同实体进行对应,提升对不同类型的实体识别的效果。
1、本发明结合视觉信息对文本信息进行补充,进行命名实体的预测。
2、本发明将视觉对象的语义通过标签词嵌入模型转化到文本空间,使得视觉信息与文本信息能够在同一空间上有效结合,提升了多模态表示的有效性。
3、本发明中采用了多模态attention机制与门控gate机制,具有良好的抗噪性,并且能够筛选出与文本相关的有效视觉信息,极大程度的提升了最终实体识别的准确性。
附图说明
图1是本发明中一种基于视觉对象引导的社交媒体短文本命名实体识别方法的流程图。
图2是本发明中一种基于视觉对象引导的社交媒体短文本命名实体识别方法的模型架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于视觉对象引导的社交媒体短文本命名实体识别方法的流程图,所述方法包括以下步骤:
(1)建立社交媒体短文本的文本描述数据集,通过爬取社交媒体中文本附带的视觉图像,并提供和文本描述相关的视觉图像数据;
(2)对视觉图像数据进行对象检测,并将检测出的视觉对象类别输入词嵌入层进行视觉词语义的提取,包括:
(2-1)对于输入的每张图片,采用视觉对象检测算法(Faster RCNN)进行视觉对象类别的提取,根据提取的置信度(置信度即分类器输出的类别概率)对识别出的n个对象进行排序,取前k个对象构成视觉对象集,k为超参数,视觉对象集表示为
如图2所示为本发明采用的模型的架构图。
(2-2)将视觉对象集中每个对象的类别通过词嵌入层进行视觉词语义的提取,提取方法为:
(2-3)为了后续计算便利性,将视觉对象集合的词语义通过一个单层感知机映射到和文本表示相同的维度中,具体映射方法为:
其中,tanh是非线性激活函数,WI和bI分别是可训练的参数矩阵。映射后得到最终的视觉词语义。
(3)采用字符和词级别的嵌入层获取每个词的字符和词级别的嵌入表示,并通过双向LSTM层进行文本的特征提取,包括:
(3-1)对于输入文本描述中的每个词,计算词级别嵌入语义和字符级别语义,词级别嵌入语义采用word embedding层,字符级别语义采用一个双向LSTM层;将字符输入到双向LSTM层中,拼接前后项的隐藏层输出作为最终的字符级别语义;将词级别嵌入语义和字符级别语义进行拼接,得到字符和词级别的嵌入语义,表示为:
(4)将步骤(2)和步骤(3)中的视觉词语义和文本特征输入到一个多模态attention层中计算二者的相似性,利用相似程度对视觉词语义进行加权求和,包括:
(4-1)将步骤(2-3)和步骤(3-2)得到的视觉词语义和文本特征输入到一个多模态attention层中计算二者的相似性,计算公式为:
其中,softmax为非线性激活函数,得到的权重αi的取值空间为[0,1]。
(4-2)将每个视觉对象根据在步骤(4-1)中得到的权重值进行加权求和,通过下述公式计算出最终的多模态attention表示向量:
(5)将步骤(4)中的多模态attention表示向量输入到一个门控机制gate层中,计算多模态表示与原始文本特征的相关性,然后将加权求和后的多模态表示与原始文本特征进行拼接得到最终的词语义向量,包括:(5-1)将步骤(4-2)中的多模态attention表示向量和文本表示向量输入到一个sigmoid非线性激活函数中,得到gate机制的门控参数g:
其中,和分别为多模态attention表示和文本特征输入到一个线性层进行维度转换的结果。[;]是向量拼接操作。最终得到的参数g则是值为[0,1]的门控参数,用来决定当前的多模态attention表示与文本特征的相关程度。
(5-2)将步骤(5-1)中得到的门控参数作为权重与多模态attention表示相乘,并与文本特征按照维度相加,得到最终的多模态词语义。这个语义被输入到最后一层的条件随机场中进行实体边界和实体类别的预测。
6)将步骤(5)中的多模态词语义向量输入到条件随机场中,进行实体边界和实体类别的识别,得到的结果就是基于视觉对象引导的社交媒体短文本命名实体识别算法识别出的命名实体。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于视觉对象引导的社交媒体短文本命名实体识别方法,其特征在于,包括步骤:
建立社交媒体短文本的文本描述数据集,通过爬取社交媒体中文本附带的视觉图像,提供和文本描述相关的视觉图像数据;
基于视觉对象检测算法Faster RCNN对视觉图像数据进行对象检测,并对检测出的视觉对象类别进行视觉词语义的提取;
根据字符和词级别对原始文本描述进行语义提取,根据文本语义对文本进行特征提取;
计算视觉词语义和文本特征的相似性,利用相似性程度在每个视觉对象之间进行加权求和,得到多模态attention表示向量;
根据加权求和结果,得到门控参数,表示多模态语义与原始文本特征的相关性,然后将门控参数作为权重与多模态语义相乘,并与文本特征按照维度相加,最终得到词语义向量;
将词语义向量输入到条件随机场中,进行实体边界和实体类别的识别,得到的结果为识别出的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述对视觉图像数据进行对象检测,并对检测出的视觉对象类别进行视觉词语义的提取的步骤中,包括:
对于输入的每张图片,采用视觉对象检测算法进行视觉对象的提取,根据提取的置信度对识别出的n个对象进行排序,取前k个对象构成视觉对象集;
将视觉对象集中每个对象的类别进行视觉词语义的提取;
将视觉对象集合的词语义通过一个单层感知机映射到和文本语义相同的维度中,映射后得到最终的视觉词语义。
5.根据权利要求3所述的方法,其特征在于,所述计算视觉词语义和文本特征的相似性,根据相似性程度对视觉词语义进行加权求和的步骤中,包括:
计算得到的视觉词语义和文本特征二者的相似性,得到权重值;
将每个视觉对象根据得到的权重值进行加权求和,计算出最终的多模态attention表示向量。
7.根据权利要求1所述的方法,其特征在于,所述根据加权求和结果计算多模态语义与原始文本特征的相关性,得到最终的词语义向量的步骤中,包括:
将得到的多模态attention表示向量和文本特征输入到一个sigmoid非线性激活函数中,得到gate机制的门控参数g;
将得到的门控参数作为权重与多模态语义表示相乘,并与文本特征按照维度相加,得到最终的多模态词语义。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911391112.3A CN111126069B (zh) | 2019-12-30 | 2019-12-30 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
PCT/CN2020/105074 WO2021135193A1 (zh) | 2019-12-30 | 2020-07-28 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911391112.3A CN111126069B (zh) | 2019-12-30 | 2019-12-30 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126069A CN111126069A (zh) | 2020-05-08 |
CN111126069B true CN111126069B (zh) | 2022-03-29 |
Family
ID=70504645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911391112.3A Active CN111126069B (zh) | 2019-12-30 | 2019-12-30 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111126069B (zh) |
WO (1) | WO2021135193A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126069B (zh) * | 2019-12-30 | 2022-03-29 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN112801010B (zh) * | 2021-02-07 | 2023-02-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
CN113486657B (zh) * | 2021-07-26 | 2023-01-17 | 刘德喜 | 一种基于知识辅助的情感-原因对抽取系统 |
CN113569575B (zh) * | 2021-08-10 | 2024-02-09 | 云南电网有限责任公司电力科学研究院 | 一种基于象形-语义双特征空间映射的评审专家推荐方法 |
CN113704547B (zh) * | 2021-08-26 | 2024-02-13 | 合肥工业大学 | 一种基于单向监督注意力的多模态标签推荐方法 |
CN113435203B (zh) * | 2021-08-30 | 2021-11-30 | 华南师范大学 | 多模态命名实体识别方法、装置以及电子设备 |
CN113722490B (zh) * | 2021-09-06 | 2023-05-26 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN114580425B (zh) * | 2022-05-06 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
CN114782670A (zh) * | 2022-05-11 | 2022-07-22 | 中航信移动科技有限公司 | 一种多模态敏感信息鉴别方法、设备及介质 |
CN116341555B (zh) * | 2023-05-26 | 2023-08-04 | 华东交通大学 | 命名实体识别方法和系统 |
CN116484869B (zh) * | 2023-06-16 | 2023-12-15 | 华南师范大学 | 多模态命名实体识别方法、装置、设备以及存储介质 |
CN116579345B (zh) * | 2023-07-14 | 2023-10-24 | 亚信科技(中国)有限公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488663A (zh) * | 2012-06-11 | 2014-01-01 | 国际商业机器公司 | 自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法 |
CN104217008A (zh) * | 2014-09-17 | 2014-12-17 | 中国科学院自动化研究所 | 互联网人物视频交互式标注方法及系统 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
CN110334357A (zh) * | 2019-07-18 | 2019-10-15 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052262A1 (en) * | 2006-08-22 | 2008-02-28 | Serhiy Kosinov | Method for personalized named entity recognition |
US10353950B2 (en) * | 2016-06-28 | 2019-07-16 | Google Llc | Visual recognition using user tap locations |
CN108628823B (zh) * | 2018-03-14 | 2022-07-01 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
US10936820B2 (en) * | 2018-05-21 | 2021-03-02 | Leverton Holding Llc | Post-filtering of named entities with machine learning |
CN111126069B (zh) * | 2019-12-30 | 2022-03-29 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
-
2019
- 2019-12-30 CN CN201911391112.3A patent/CN111126069B/zh active Active
-
2020
- 2020-07-28 WO PCT/CN2020/105074 patent/WO2021135193A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488663A (zh) * | 2012-06-11 | 2014-01-01 | 国际商业机器公司 | 自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法 |
CN104217008A (zh) * | 2014-09-17 | 2014-12-17 | 中国科学院自动化研究所 | 互联网人物视频交互式标注方法及系统 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
CN110334357A (zh) * | 2019-07-18 | 2019-10-15 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
Non-Patent Citations (6)
Title |
---|
Multimodal Named Entity Recognition for Short Social Media Posts;Seungwhan Moon;《https://arxiv.org/abs/1802.07862》;20180222;1-9 * |
Visual Attention Model for Name Tagging in Multimodal Social Media;Di Lu;《Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics》;20180720;1990-1999 * |
Zeroshot Multimodal Named Entity Disambiguation for Noisy Social Media Posts;Seungwhan Moon;《Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics》;20180720;2000–2008 * |
一种基于多模态主题模型的图像自动标注方法;田璟;《理论与方法》;20150531;第34卷(第5期);22-26 * |
基于深度学习的中文微博文本命名实体识别研究;张亮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715(第7期);I138-1984 * |
基于混合模型的生物医学命名实体识别研究;孙重远;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715(第7期);I138-1911 * |
Also Published As
Publication number | Publication date |
---|---|
CN111126069A (zh) | 2020-05-08 |
WO2021135193A1 (zh) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126069B (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN110188194B (zh) | 一种基于多任务学习模型的假新闻检测方法及系统 | |
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111061843A (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111428593A (zh) | 一种文字识别方法、装置、电子设备及存储介质 | |
CN111582397A (zh) | 一种基于注意力机制的cnn-rnn图像情感分析方法 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN112364168A (zh) | 一种基于多属性信息融合的舆情分类方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
Akhlaghi et al. | Farsi handwritten phone number recognition using deep learning | |
CN111008624A (zh) | 光学字符识别方法和产生光学字符识别的训练样本的方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN114548274A (zh) | 一种基于多模态交互的谣言检测方法及系统 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
CN114627312B (zh) | 零样本图像分类方法、系统、设备及存储介质 | |
Robert et al. | A review on computational methods based automated sign language recognition system for hearing and speech impaired community | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |