CN114693790B - 基于混合注意力机制的自动图像描述方法与系统 - Google Patents
基于混合注意力机制的自动图像描述方法与系统 Download PDFInfo
- Publication number
- CN114693790B CN114693790B CN202210352863.XA CN202210352863A CN114693790B CN 114693790 B CN114693790 B CN 114693790B CN 202210352863 A CN202210352863 A CN 202210352863A CN 114693790 B CN114693790 B CN 114693790B
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- human
- features
- cognitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Abstract
本发明提出一种基于混合注意力机制的自动图像描述方法与系统,该方法包括:获取待描述图像中目标边界框的区域图像特征以及位置信息;将区域图像特征输入至机器注意力模块中得到机器注意力特征;获取人类进行图像描述任务时的认知数据,根据认知数据构建人类进行图像描述任务时的视觉认知模型;根据视觉认知模型得到注意力特征,根据注意力特征进行融合以得到最终图像描述。本发明将人类认知机制指导的注意力与传统机器注意力相结合,为描述生成过程中的注意力权重提供更好的参考,从而生成更精确的描述,提升了自动图像描述方法的性能,取得了更为优异的结果。
Description
技术领域
本发明涉及计算机图像技术领域,特别涉及一种基于混合注意力机制的自动图像描述方法与系统。
背景技术
在计算机领域中,图像描述生成是一个融合计算机视觉和自然语言处理的综合问题。虽然图像描述任务对于人类而言非常容易,但是对机器而言,由于受限于不同模态数据的异构特性,要求机器理解图片的内容并用自然语言进行描述则十分困难。不仅要求机器生成通顺且人类可理解的句子,还要求句子能表现出完整的图像内容。
受注意力机制在机器翻译中应用的启发,一些研究人员在传统的“编码-解码”框架引入了注意力机制,显著提高了自动图像描述任务的性能。注意力机制专注于图像中关键的视觉内容,在图像上下文向量输入到“编码-解码”框架的过程中能提供更具辨别力的视觉信息来指导句子的生成过程。
然而,尽管注意力机制能有效提升自动图像描述方法的性能,但是目前的方法仍然存在注意力不够准确等问题,导致在进行图像描述时出现图像中未出现的物体描述。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于混合注意力机制的自动图像描述方法与系统,通过构建人类进行图像描述任务的视觉认知模型,并与注意力机制融合,以解决上述技术问题。
本发明实施例提供了一种基于混合注意力机制的自动图像描述方法,其中,所述方法包括如下步骤:
步骤一、获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
步骤二、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
步骤三、获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
步骤四、将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
步骤五、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
步骤六、将所述融合图像特征输入至解码器中以得到最终图像描述。
本发明提出一种基于混合注意力机制的自动图像描述方法,首先获取待描述图像中目标边界框的区域图像特征以及目标边界框的位置信息;然后将区域图像特征输入至机器注意力模块中以得到机器注意力特征;同时构建人类进行图像描述任务的视觉认知模型;将上述的待描述图像也输入至图像描述任务的视觉认知模型中以得到认知图,将认知图以及区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;最后将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块中进行融合以得到融合图像特征,将融合图像特征输入至解码器中得到最终图像描述。本发明提出一种基于混合注意力机制的自动图像描述方法,将人类注意力与传统机器注意力相结合,为描述生成过程中的注意力权重提供更好的参考,从而生成更精确的描述,以提升自动图像描述方法的性能,取得了更为优异的结果。本发明提出的方法,对于应用于辅助视障人士的场景具有实际意义。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤一中,利用视觉基因数据集所预先训练的目标检测算法,提取所述待描述图像中所述目标边界框内的区域图像特征,以及所述目标边界框在所述待描述图像中的位置信息;
所述区域图像特征为k个2048维的向量,其中k为区域图像特征的数量值。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤二中,所述将所述区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤:
将当前时刻输入的词向量xt、第二长短期记忆人工神经网络的前一时刻输出以及图像全局特征输入至机器注意力模块中,经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出其中所述当前时刻输入的词向量xt表示对所述待描述图像进行描述时输出的句子中的单词;
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤三中,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型的方法包括如下步骤:
获取图像描述生成任务下的人类注视数据集;
将收集到的人类注视数据集经过高斯模糊处理后,用于构建人类进行图像描述任务时的视觉认知模型;
其中,在所述人类注视数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤四中,将所述待描述图像输入至视觉认知模型中以得到认知图的方法包括如下步骤:
将待描述图像I输入至视觉认知模型中以得到认知图Is,其中Is∈RIW×IH,IW为输入图像的宽,IH为输入图像的高;
根据所述目标边界框的位置信息,在认知图Is提取出各目标边界框对应的区域认知图,并将第i个图像区域的认知图记为IRi;
对第i个图像区域的认知图IRi中的像素按值从大到小进行排序,统计前J%的像素点对应的集合并记为Ti,计算Ti的均值作为区域重要性评分:
其中,Si表示第i个图像的区域重要性评分,Ti,j表示Ti集合中的第j个元素,|Ti|表示Ti中元素的总数。
所述基于混合注意力机制的自动图像描述方法,其中,所述区域重要性评分S表示为S=[s1,s2,...,sk],所述区域图像特征V表示为V=[v1,v2,...,vi,…,vk];
对所述区域图像特征进行加权计算的公式表示为:
c=softmax(ws*S)
其中,vi表示任一区域图像特征,ws为常量,c为归一化后的人类注意力机制的权重向量,[s1,s2,...,sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合,[v1,v2,...,vi,...,vk]表示多个区域图像特征的集合,k为区域图像特征的数量值。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤五中,将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征的方法包括如下步骤:
其中,⊙表示向量的点乘。
所述基于混合注意力机制的自动图像描述方法,其中,所述融合向量gt表示为:
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤六中,将所述融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤:
将所述融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出;
根据所述第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词,以组成所述最终图像描述;
所述当前时刻输出单词wt表示为:
其中,Wp为可学习参数,LSTM2表示第二长短期记忆人工神经网络,p(yt|y1:t-1)表示在输入1:t-1位置的单词y时,输出t位置上单词的概率向量。
本发明提出一种基于混合注意力机制的自动图像描述系统,其中,所述系统包括:
信息获取模块,用于获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
第一计算模块,用于将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
第二计算模块,用于获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
第三计算模块,用于将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
特征融合模块,用于将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
结果输出模块,用于将所述融合图像特征输入至解码器中以得到最终图像描述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于混合注意力机制的自动图像描述方法的流程图;
图2为本发明提出的基于混合注意力机制的自动图像描述系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,本发明提出一种基于混合注意力机制的自动图像描述方法,其中,所述方法包括如下步骤:
S101、获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息。
在步骤S101中,利用视觉基因数据集所预先训练的目标检测算法(Faster R-CNN),提取待描述图像中目标边界框内的区域图像特征,以及目标边界框在所述待描述图像中的位置信息。
其中,上述的区域图像特征为k个2048维的向量,其中k为区域图像特征的数量值。
S102、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征。
具体的,将区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤:
S1021、将当前时刻输入的词向量xt、第二长短期记忆人工神经网络的前一时刻输出以及图像全局特征输入至机器注意力模块中,经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出其中所述当前时刻输入的词向量xt表示对所述待描述图像进行描述时输出的句子中的单词。
S103、获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型。
步骤S103具体包括:
S1031、获取图像描述生成任务下的人类注视数据集。
首先,选取3000张图片,并找来5名测试人员,向测试人员展示这些图片的同时要求其用简短的语句描述图片中的内容,同时利用眼动仪记录测试人员在描述图片时的注视数据。
为了降低主观因素的影响,同一张图片会被三个不同的测试人员所描述,并将它们的注视数据整合到一起,形成人类注视数据集E。
对空白的认知图Ib进行初始化,将人类注视数据集E中每个注视点投影至空白的认知图Ib上。其中,Ib∈RIW×IH,IW为输入图像的宽,IH为输入图像的高。
S1032、将投影至空白的认知图Ib上的人类注释数据集E经高斯模糊处理后,构建人类进行图像描述任务时的视觉认知模型。
值得注意的是,传统的视觉认知任务数据集记录的是人在自由观看条件下的注视数据,而本发明的方法中用于训练的数据集记录的是人在描述图像内容时的注视数据。统计结果表明:人在描述图像内容时的注视数据更广泛地覆盖在文字描述的内容所对应的图像区域。
在本实施例中,在人类注释数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型SAL。作为一种实施方式,该视觉认知模型整体架构上遵循编码器-解码器的全卷积网络。其中,编码器部分基于ResNet-50网络提取多尺度的图像特征,解码器部分根据所述的多尺度图像特征预测视觉认知图。
S104、将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征。
具体的,包括如下步骤:
S1041、将待描述图像I输入至视觉认知模型中以得到认知图Is,其中Is∈RIW×IH,IW为输入图像的宽,IH为输入图像的高;
S1042、根据所述目标边界框的位置信息,在认知图Is提取出各目标边界框对应的区域认知图,并将第i个图像区域的认知图记为IRi;
S1043、对第i个图像区域的认知图IRi中的像素按值从大到小进行排序,统计前J%的像素点对应的集合并记为Ti,计算Ti的均值作为区域重要性评分:
其中,Si表示第i个图像的区域重要性评分,Ti,j表示Ti集合中的第j个元素,|Ti|表示Ti中元素的总数。
对于j的取值,有如下考虑:
当j的取值过大时,处于显著性区域的小目标的重要性得分会显著高于大目标,这是由于小的目标框总是能被显著性较强的区域全部覆盖,而大的目标只会被覆盖一部分,其余未覆盖的部分的像素值参与计算会降低目标整体的得分,应当避免目标大小对重要性得分产生过大的影响;
当j的取值过小时,只有像素值排序靠前的像素点参与计算重要性得分,因此被显著性较强区域所覆盖到的目标的重要性得分会集中在一个比较高的范围内,导致得分无法反映真实的目标重要性差异。
在经过了大量的实验分析,本发明取j为40较为合理,并且模型的性能达到最好。
S1044、根据区域重要性评分对所述区域图像特征进行加权计算以得到人类认知机制指导的注意力特征。
其中,区域重要性评分S表示为S=[s1,s2,...,sk],区域图像特征V表示为V=[v1,v2,...,vi,...,vk]。
对区域图像特征进行加权计算的公式表示为:
c=softmax(ws*S)
其中,vi表示任一区域图像特征,ws为常量,c为归一化后的人类注意力机制的权重向量,[s1,s2,...,sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合,[v1,v2,...,vi,...,vk]表示多个区域图像特征的集合,k为区域图像特征的数量值。
S105、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征。
在本步骤四中,将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块进行融合以得到融合图像特征的方法包括如下步骤:
其中,⊙表示向量的点乘。
上述的融合向量gt表示为:
S106、将所述融合图像特征输入至解码器中以得到最终图像描述。
在步骤五中,将融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤:
S1061、将融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出。
S1061、根据第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词,以组成所述最终图像描述。
所述当前时刻输出单词wt表示为:
其中,Wp为可学习参数,LSTM2表示第二长短期记忆人工神经网络,p(yt|y1:t-1)表示在输入1:t-1位置的单词y时,输出t位置上单词的概率向量。
作为补充说明的是,本发明提出的图像描述模型,除了包括上述的机器注意力模块以及人类注意力模块之外,还包括两层长短期记忆人工神经网络,也即上述的第一长短期记忆人工神经网络LSTM1以及第二长短期记忆人工神经网络LSTM2。
本发明提出一种基于混合注意力机制的自动图像描述方法,首先获取待描述图像中目标边界框的区域图像特征以及目标边界框的位置信息;然后将区域图像特征输入至机器注意力模块中以得到机器注意力特征;同时将上述的待描述图像也输入至视觉认知模型中以得到认知图,将认知图以及区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;最后将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块中进行融合以得到融合图像特征,将融合图像特征输入至解码器中得到最终图像描述。本发明提出一种基于混合注意力机制的自动图像描述方法,将人类注意力与传统机器注意力相结合,为描述生成过程中的注意力权重提供更好的参考,从而生成更精确的描述,以提升自动图像描述方法的性能,取得了更为优异的结果。本发明提出的方法,对于应用于辅助视障人士的场景具有实际意义。
请参阅图2,本发明提出一种基于混合注意力机制的自动图像描述系统,其中,所述系统包括:
信息获取模块,用于获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
第一计算模块,用于将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
第二计算模块,用于获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
第三计算模块,用于将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
特征融合模块,用于将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
结果输出模块,用于将所述融合图像特征输入至解码器中以得到最终图像描述。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于混合注意力机制的自动图像描述方法,其特征在于,所述方法包括如下步骤:
步骤一、获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
步骤二、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
步骤三、获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
步骤四、将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
步骤五、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
步骤六、将所述融合图像特征输入至解码器中以得到最终图像描述;
在步骤二中,将所述区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤:
将当前时刻输入的词向量xt、第二长短期记忆人工神经网络的前一时刻输出以及图像全局特征输入至机器注意力模块中,经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出其中所述当前时刻输入的词向量xt表示对所述待描述图像进行描述时输出的句子中的单词;
在所述步骤四中,将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征的方法包括如下步骤:
将待描述图像I输入至视觉认知模型中以得到认知图Is,其中Is∈RIW×IH,IW为输入图像的宽,IH为输入图像的高;
根据所述目标边界框的位置信息,在认知图Is提取出各目标边界框对应的区域认知图,并将第i个图像区域的认知图记为IRi;
对第i个图像区域的认知图IRi中的像素按值从大到小进行排序,统计前J%的像素点对应的集合并记为Ti,计算Ti的均值作为区域重要性评分:
其中,Si表示第i个图像的区域重要性评分,Ti,j表示Ti集合中的第j个元素,|Ti|表示Ti中元素的总数;
根据区域重要性评分对所述区域图像特征进行加权计算以得到人类认知机制指导的注意力特征;
其中,区域重要性评分S表示为S=[s1,s2,...,sk],区域图像特征V表示为V=[v1,v2,...,vi,...,vk];
对区域图像特征进行加权计算的公式表示为:
c=softmax(ws*S)
其中,vi表示任一区域图像特征,ws为常量,c为归一化后的人类注意力机制的权重向量,[s1,s2,...,sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合,[v1,v2,...,vi,...,vk]表示多个区域图像特征的集合,k为区域图像特征的数量值。
2.根据权利要求1所述的基于混合注意力机制的自动图像描述方法,其特征在于,在所述步骤一中,利用视觉基因数据集所预先训练的目标检测算法,提取所述待描述图像中所述目标边界框内的区域图像特征,以及所述目标边界框在所述待描述图像中的位置信息;
所述区域图像特征为k个2048维的向量,其中k为区域图像特征的数量值。
3.根据权利要求1所述的基于混合注意力机制的自动图像描述方法,其特征在于,在所述步骤三中,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型的方法包括如下步骤:
获取图像描述生成任务下的人类注视数据集;
将收集到的人类注视数据集经过高斯模糊处理后,用于构建人类进行图像描述任务时的视觉认知模型;
其中,在所述人类注视数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型。
5.根据权利要求4所述的基于混合注意力机制的自动图像描述方法,其特征在于,在所述步骤六中,将所述融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤:
将所述融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出;
根据所述第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词,以组成所述最终图像描述;
所述当前时刻输出单词wt表示为:
其中,Wp为可学习参数,LSTM2表示第二长短期记忆人工神经网络,p(yt|y1:t-1)表示在输入1:t-1位置的单词y时,输出t位置上单词的概率向量。
6.一种基于混合注意力机制的自动图像描述系统,其特征在于,所述系统应用如上述权利要求1至5任意一项所述的基于混合注意力机制的自动图像描述方法,所述系统包括:
信息获取模块,用于获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
第一计算模块,用于将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
第二计算模块,用于获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
第三计算模块,用于将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
特征融合模块,用于将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
结果输出模块,用于将所述融合图像特征输入至解码器中以得到最终图像描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352863.XA CN114693790B (zh) | 2022-04-02 | 2022-04-02 | 基于混合注意力机制的自动图像描述方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352863.XA CN114693790B (zh) | 2022-04-02 | 2022-04-02 | 基于混合注意力机制的自动图像描述方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114693790A CN114693790A (zh) | 2022-07-01 |
CN114693790B true CN114693790B (zh) | 2022-11-18 |
Family
ID=82142355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210352863.XA Active CN114693790B (zh) | 2022-04-02 | 2022-04-02 | 基于混合注意力机制的自动图像描述方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693790B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152623B (zh) * | 2023-04-04 | 2023-07-18 | 江西财经大学 | 基于多粒度特征融合的全景图像描述方法与系统 |
CN117372936B (zh) * | 2023-12-07 | 2024-03-22 | 江西财经大学 | 基于多模态细粒度对齐网络的视频描述方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN113569892A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186568B (zh) * | 2021-12-16 | 2022-08-02 | 北京邮电大学 | 一种基于关系编码和层次注意力机制的图像段落描述方法 |
-
2022
- 2022-04-02 CN CN202210352863.XA patent/CN114693790B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN113569892A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Learning Multimodal Attention LSTM Networks for Video Captioning;Jun Xu et al.;《Multimedia Search and Recommendation》;20171031;第537-545页 * |
基于图像语义的服务机器人视觉隐私行为识别与保护系统;李中益等;《计算机辅助设计与图形学学报》;20201031;第1679-1687页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114693790A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599448B (zh) | 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统 | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
De Melo et al. | Depression detection based on deep distribution learning | |
CN108830334B (zh) | 一种基于对抗式迁移学习的细粒度目标判别方法 | |
CN114693790B (zh) | 基于混合注意力机制的自动图像描述方法与系统 | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN109063643B (zh) | 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法 | |
CN111275118B (zh) | 基于自我修正式标签生成网络的胸片多标签分类方法 | |
US20220121902A1 (en) | Method and apparatus for quality prediction | |
CN111062277A (zh) | 基于单目视觉的手语-唇语转化方法 | |
CN113111968A (zh) | 图像识别模型训练方法、装置、电子设备和可读存储介质 | |
US20200380292A1 (en) | Method and device for identifying object and computer readable storage medium | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
CN113420745A (zh) | 基于图像的目标识别方法、系统、存储介质及终端设备 | |
Li et al. | Micro-expression action unit detection with dual-view attentive similarity-preserving knowledge distillation | |
Mobiny et al. | Decaps: Detail-oriented capsule networks | |
Lungociu | REAL TIME SIGN LANGUAGE RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. | |
CN116486465A (zh) | 用于人脸结构分析的图像识别方法及其系统 | |
CN114359741B (zh) | 基于区域特征的图像描述模型注意力机制评价方法与系统 | |
Zhao et al. | Automated assessment system for neonatal endotracheal intubation using dilated convolutional neural network | |
CN112597842B (zh) | 基于人工智能的运动检测面瘫程度评估系统 | |
CN115659221A (zh) | 一种教学质量的评估方法、装置及计算机可读存储介质 | |
Liauchuk et al. | Detection of lung pathologies using deep convolutional networks trained on large X-ray chest screening database | |
JP7239002B2 (ja) | 物体数推定装置、制御方法、及びプログラム | |
Veinović | Apparent Personality Analysis Based on Aggregation Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |