CN115391586A - 基于知识图谱的视觉问答处理方法、设备及存储介质 - Google Patents
基于知识图谱的视觉问答处理方法、设备及存储介质 Download PDFInfo
- Publication number
- CN115391586A CN115391586A CN202211230302.9A CN202211230302A CN115391586A CN 115391586 A CN115391586 A CN 115391586A CN 202211230302 A CN202211230302 A CN 202211230302A CN 115391586 A CN115391586 A CN 115391586A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- processed
- feature vector
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于知识图谱的视觉问答处理方法、设备及存储介质,属于视觉问答技术领域,本申请提供的一种基于知识图谱的视觉问答处理方法,通过知识图谱构建对象物之间的关系,通过预训练的预训练的TransH模型获取对于的知识图谱特征,将视觉特征、文本问题特征和知识图谱特征融合,基于融合特征获取概率最高的候选答案,实现高效准确的视觉问答处理。
Description
技术领域
本发明属于视觉问答技术领域,具体来说是一种基于知识图谱的视觉问答处理方法、设备及存储介质。
背景技术
文旅客服领域存在大量提问频次高、流程固定繁琐、重复性高的问题,人工客服服务过程不仅会感到枯燥而且学习和回复的时间成本高,使用智能问答代替人工客服完成一部分重复工作,可以帮助企业在节省人力成本的同时提高服务效率。然而对于图片和文本结合的视觉问答形式智能客服目前难以有效的进行回复,依旧依赖于人工客服的处理。
基于图片和文本结合的视觉问答难以实现智能客服的原因,很大一部分来自于人工智能无法有效的识别文本与图像中对象物的关系。
发明内容
为解决或部分解决上述技术问题,本发明提供一种于知识图谱的视觉问答处理方法、设备及存储介质,本发明方案在视觉特征和文本问题特征获取后,通过知识图谱构建对象物之间的关系,通过预训练的预训练的TransH模型获取对于的知识图谱特征,将视觉特征、文本问题特征和知识图谱特征融合,基于融合特征获取概率最高的候选答案,实现视觉问答,具体技术方案如下:
一种基于知识图谱的视觉问答处理方法,包括如下步骤:
获取待处理图像和待处理文本;
将待处理图像输入Faster R-CNN网络进行特性提取,获取所述待处理图像的第一图像特征集合,所述第一图像特征集合为所述待处理图像所有图像特征的集合,将第一图像特征中的图像特征对应嵌入待处理图像中,输出第一图像特征向量;其中,所述图像特征包括待处理图像中对象物相应的类别标签、对象物空间位置关系和对象属性;
将待处理文本序列化并通过GloVe词嵌入模型进行特征向量提取得到文本向量集合;所述文本向量集合为待处理文本每个单词对应的词向量组成的集合;
基于GRU处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第一文本特征向量;
将第一图像特征向量基于图像空间注意力机制进行处理,得到第二图像特征向量;
将第一文本特征进行注意力机制处理得到第二文本特征向量;
根据第一图像特征集合及第一文本特征构建待处理图像对应的关联知识图谱,将处理图像对应的关联知识图谱输入预训练的TransH知识表示模型得到第一知识图谱特征;
将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征,将图像问答特征输入预训练的答案分类器获取概率最高的类别作为输出候选答案。
作为优选,所述处理图像对应的关联知识图谱的构建步骤包括:
获取第一图像特征集合中对象物的类别标签和对象属性,根据对象属性和类别标签并基于第一文本特征向量获取主体对象和背景对象,以主体对象为中心节点、背景对象为周边节点,以节点和边的的方式生成若干关联子图,以边缘节点关联权重将生成的若干关联子图合并为关联知识图谱。
作为优选,所述第一文本特征向量满足如下公式:
FQ=GRU(WQ);
式中,WQ={W1,W2,......,Wq};
Wi为序列为i的单词对应的词向量。
作为优选,所述将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征满足如下公式:
FR=MFB(FQA,FIA,FGA);
其中,FR为图像问答特征,FQA为第二文本特征向量,FIA为第二图像特征向量,FGA为第一知识图谱特征,采用MFB进行多模态融合。
第二方面,提供一种计算机设备,包括一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上述第一方面所述的方法。
第三方面,提供一种存储有计算机程序的存储介质,该程序被处理器执行时实现如上述第一方面所述的方法。
本发明的好处在于:
1. 通过将基于注意力机制的视觉特征、文本特征和知识图谱特征进行融合,有效提升图像与问题关联识别的准确性,从而提升视觉问答的准确率;
2. 通过Faster R-CNN网络进行图像特性提取,能够获取后续知识图谱构建所需的对象物属性、位置关系等重要信息,提升整体识别效率。
附图说明
图1为本发明一实施例提供的一种方法流程示意图。
图2为本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
以下结合具体实施例和说明书附图对本发明做出进一步清楚详细的描述说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。此外,下述说明中涉及到的本发明的实施例通常仅是本发明一部分的实施例,而不是全部的实施例。因此,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例:本实施例提供了一种基于知识图谱的视觉问答处理方法,如图1所示,包括如下步骤:
获取待处理图像和待处理文本;
将待处理图像输入Faster R-CNN网络进行特性提取,获取所述待处理图像的第一图像特征集合,所述第一图像特征集合为所述待处理图像所有图像特征的集合,将第一图像特征中的图像特征对应嵌入待处理图像中,输出第一图像特征向量;其中,所述图像特征包括待处理图像中对象物相应的类别标签、对象物空间位置关系和对象属性;
将待处理文本序列化并通过GloVe词嵌入模型进行特征向量提取得到文本向量集合;所述文本向量集合为待处理文本每个单词对应的词向量组成的集合;
基于GRU处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第一文本特征向量;
将第一图像特征向量基于图像空间注意力机制进行处理,得到第二图像特征向量,
将第一文本特征进行注意力机制处理得到第二文本特征向量;
根据第一图像特征集合及第一文本特征构建待处理图像对应的关联知识图谱,将处理图像对应的关联知识图谱输入预训练的TransH知识表示模型得到第一知识图谱特征;
将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征,将图像问答特征输入预训练的答案分类器获取概率最高的类别作为输出候选答案。
具体的,所述处理图像对应的关联知识图谱的构建步骤包括:
获取第一图像特征集合中对象物的类别标签和对象属性,根据对象属性和类别标签并基于第一文本特征向量获取主体对象和背景对象,以主体对象为中心节点、背景对象为周边节点,以节点和边的方式生成若干关联子图,以边缘节点关联权重将生成的若干关联子图合并为关联知识图谱。
进一步的,所述第一文本特征向量满足如下公式:
FQ=GRU(WQ);
式中,WQ={W1,W2,......,Wq};
Wi为序列为i的单词对应的词向量。
进一步的,所述将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征满足如下公式:
FR=MFB(FQA,FIA,FGA);
其中,FR为图像问答特征,FQA为第二文本特征向量,FIA为第二图像特征向量,FGA为第一知识图谱特征,采用MFB进行多模态融合。
本发明的好处在于通过将基于注意力机制的视觉特征、文本特征和知识图谱特征进行融合,有效提升图像与问题关联识别的准确性,从而提升视觉问答的准确率;通过Faster R-CNN网络进行图像特性提取,能够获取后续知识图谱构建所需的对象物属性、位置关系等重要信息,提升整体识别效率。
图2为本发明一实施例提供的一种设备的结构示意图。
如图2所示,作为本发明的又一实施例,提供一种计算机设备100,包括一个或多个中央处理单元(CPU)101,其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分108加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM103中,还存储有设备100操作所需的各种程序和数据。CPU101、ROM102以及RAM103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。
以下部件连接至I/O接口105:包括键盘、鼠标等的输入部分106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分107;包括硬盘等的存储部分108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理驱动器110也根据需要连接至I/O接口105。可拆卸介质111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器110上,以便于从其上读出的计算机程序根据需要被安装入存储部分108。
特别地,根据本申请公开的实施例,上述实施例1所描述的方法可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行上述任一实施例描述的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分109从网络上被下载和安装,和/或从可拆卸介质111被安装。
作为又一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例的装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,该程序被一个或者一个以上的处理器用来执行描述于本申请的方法。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,各所述单元可以是设置在计算机或移动智能设备中的软件程序,也可以是单独配置的硬件装置。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (6)
1.一种基于知识图谱的视觉问答处理方法,其特征在于,包括如下步骤:
获取待处理图像和待处理文本;
将待处理图像输入Faster R-CNN网络进行特性提取,获取所述待处理图像的第一图像特征集合,所述第一图像特征集合为所述待处理图像所有图像特征的集合,将第一图像特征中的图像特征对应嵌入待处理图像中,输出第一图像特征向量;其中,所述图像特征包括待处理图像中对象物相应的类别标签、对象物空间位置关系和对象属性;
将待处理文本序列化并通过GloVe词嵌入模型进行特征向量提取得到文本向量集合;所述文本向量集合为待处理文本每个单词对应的词向量组成的集合;
基于GRU处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第一文本特征向量;
将第一图像特征向量基于图像空间注意力机制进行处理,得到第二图像特征向量,
将第一文本特征进行注意力机制处理得到第二文本特征向量;
根据第一图像特征集合及第一文本特征构建待处理图像对应的关联知识图谱,将处理图像对应的关联知识图谱输入预训练的TransH知识表示模型得到第一知识图谱特征;
将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征,将图像问答特征输入预训练的答案分类器获取概率最高的类别作为输出候选答案。
2.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法,其特征在于,所述处理图像对应的关联知识图谱的构建步骤包括:
获取第一图像特征集合中对象物的类别标签和对象属性,根据对象属性和类别标签并基于第一文本特征向量获取主体对象和背景对象,以主体对象为中心节点、背景对象为周边节点,以节点和边的的方式生成若干关联子图,以边缘节点关联权重将生成的若干关联子图合并为关联知识图谱。
3.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法,其特征在于,所述第一文本特征向量满足如下公式:
FQ=GRU(WQ);
式中,WQ={W1,W2,......,Wq};
Wi为序列为i的单词对应的词向量。
4.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法,其特征在于,所述将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征满足如下公式:
FR=MFB(FQA,FIA,FGA);
其中,FR为图像问答特征,FQA为第二文本特征向量,FIA为第二图像特征向量,FGA为第一知识图谱特征,采用MFB进行多模态融合。
5.一种计算机设备,其特征在于,一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至4中任意一项所述的方法。
6.一种存储有计算机程序的存储介质,其特征在于,该程序被处理器执行时实现如权利要求1至4中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211230302.9A CN115391586A (zh) | 2022-10-08 | 2022-10-08 | 基于知识图谱的视觉问答处理方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211230302.9A CN115391586A (zh) | 2022-10-08 | 2022-10-08 | 基于知识图谱的视觉问答处理方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115391586A true CN115391586A (zh) | 2022-11-25 |
Family
ID=84127931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211230302.9A Pending CN115391586A (zh) | 2022-10-08 | 2022-10-08 | 基于知识图谱的视觉问答处理方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115391586A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116467482A (zh) * | 2023-04-04 | 2023-07-21 | 广东省科学院广州地理研究所 | 多模态植物知识查询方法、系统及计算机设备 |
CN117649917A (zh) * | 2024-01-29 | 2024-03-05 | 北京大学 | 检验报告生成模型的训练方法及装置、检验报告生成方法 |
-
2022
- 2022-10-08 CN CN202211230302.9A patent/CN115391586A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116467482A (zh) * | 2023-04-04 | 2023-07-21 | 广东省科学院广州地理研究所 | 多模态植物知识查询方法、系统及计算机设备 |
CN116467482B (zh) * | 2023-04-04 | 2024-04-09 | 广东省科学院广州地理研究所 | 多模态植物知识查询方法、系统及计算机设备 |
CN117649917A (zh) * | 2024-01-29 | 2024-03-05 | 北京大学 | 检验报告生成模型的训练方法及装置、检验报告生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740620B (zh) | 人群画像分类模型的建立方法、装置、设备和存储介质 | |
CN110458217B (zh) | 图像识别方法及装置、眼底图像识别方法和电子设备 | |
US11822568B2 (en) | Data processing method, electronic equipment and storage medium | |
CN115526259A (zh) | 一种多模态预训练模型的训练方法和装置 | |
CN114005012A (zh) | 多模态预训练模型的训练方法、装置、设备及存储介质 | |
US11915465B2 (en) | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks | |
CN105719243A (zh) | 图像处理装置和方法 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN111221949A (zh) | 基于强化学习的智能回访方法、装置、设备及存储介质 | |
CN115391586A (zh) | 基于知识图谱的视觉问答处理方法、设备及存储介质 | |
CN110633717A (zh) | 一种目标检测模型的训练方法和装置 | |
WO2023024653A1 (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
CN114445826A (zh) | 视觉问答方法、装置、电子设备以及存储介质 | |
CN111738186A (zh) | 目标定位方法、装置、电子设备及可读存储介质 | |
CN113627526B (zh) | 车辆标识的识别方法、装置、电子设备和介质 | |
CN113592981B (zh) | 图片标注方法、装置、电子设备和存储介质 | |
CN111860054A (zh) | 一种卷积网络训练方法和装置 | |
CN113379592B (zh) | 图片中敏感区域的处理方法、装置和电子设备 | |
CN115376137A (zh) | 一种光学字符识别处理、文本识别模型训练方法及装置 | |
CN112288748B (zh) | 一种语义分割网络训练、图像语义分割方法及装置 | |
CN116167434B (zh) | 一种弱监督视觉语言预训练模型的训练方法和装置 | |
CN116168442B (zh) | 样本图像生成方法、模型的训练方法、目标检测方法 | |
CN110019661A (zh) | 基于办公文档的文本搜索方法、装置和电子设备 | |
CN116935107A (zh) | 基于互联网搜索的检测类别自扩展目标检测方法及装置 | |
CN116342138A (zh) | 应答方法和装置、电子设备、计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |