CN114693790B - 基于混合注意力机制的自动图像描述方法与系统 - Google Patents

基于混合注意力机制的自动图像描述方法与系统 Download PDF

Info

Publication number
CN114693790B
CN114693790B CN202210352863.XA CN202210352863A CN114693790B CN 114693790 B CN114693790 B CN 114693790B CN 202210352863 A CN202210352863 A CN 202210352863A CN 114693790 B CN114693790 B CN 114693790B
Authority
CN
China
Prior art keywords
image
attention
human
features
cognitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210352863.XA
Other languages
English (en)
Other versions
CN114693790A (zh
Inventor
姜文晖
李钦
方玉明
沈飞
刘扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Finance and Economics
Original Assignee
Jiangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Finance and Economics filed Critical Jiangxi University of Finance and Economics
Priority to CN202210352863.XA priority Critical patent/CN114693790B/zh
Publication of CN114693790A publication Critical patent/CN114693790A/zh
Application granted granted Critical
Publication of CN114693790B publication Critical patent/CN114693790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Abstract

本发明提出一种基于混合注意力机制的自动图像描述方法与系统,该方法包括:获取待描述图像中目标边界框的区域图像特征以及位置信息;将区域图像特征输入至机器注意力模块中得到机器注意力特征;获取人类进行图像描述任务时的认知数据,根据认知数据构建人类进行图像描述任务时的视觉认知模型;根据视觉认知模型得到注意力特征,根据注意力特征进行融合以得到最终图像描述。本发明将人类认知机制指导的注意力与传统机器注意力相结合,为描述生成过程中的注意力权重提供更好的参考,从而生成更精确的描述,提升了自动图像描述方法的性能,取得了更为优异的结果。

Description

基于混合注意力机制的自动图像描述方法与系统
技术领域
本发明涉及计算机图像技术领域,特别涉及一种基于混合注意力机制的自动图像描述方法与系统。
背景技术
在计算机领域中,图像描述生成是一个融合计算机视觉和自然语言处理的综合问题。虽然图像描述任务对于人类而言非常容易,但是对机器而言,由于受限于不同模态数据的异构特性,要求机器理解图片的内容并用自然语言进行描述则十分困难。不仅要求机器生成通顺且人类可理解的句子,还要求句子能表现出完整的图像内容。
受注意力机制在机器翻译中应用的启发,一些研究人员在传统的“编码-解码”框架引入了注意力机制,显著提高了自动图像描述任务的性能。注意力机制专注于图像中关键的视觉内容,在图像上下文向量输入到“编码-解码”框架的过程中能提供更具辨别力的视觉信息来指导句子的生成过程。
然而,尽管注意力机制能有效提升自动图像描述方法的性能,但是目前的方法仍然存在注意力不够准确等问题,导致在进行图像描述时出现图像中未出现的物体描述。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于混合注意力机制的自动图像描述方法与系统,通过构建人类进行图像描述任务的视觉认知模型,并与注意力机制融合,以解决上述技术问题。
本发明实施例提供了一种基于混合注意力机制的自动图像描述方法,其中,所述方法包括如下步骤:
步骤一、获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
步骤二、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
步骤三、获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
步骤四、将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
步骤五、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
步骤六、将所述融合图像特征输入至解码器中以得到最终图像描述。
本发明提出一种基于混合注意力机制的自动图像描述方法,首先获取待描述图像中目标边界框的区域图像特征以及目标边界框的位置信息;然后将区域图像特征输入至机器注意力模块中以得到机器注意力特征;同时构建人类进行图像描述任务的视觉认知模型;将上述的待描述图像也输入至图像描述任务的视觉认知模型中以得到认知图,将认知图以及区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;最后将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块中进行融合以得到融合图像特征,将融合图像特征输入至解码器中得到最终图像描述。本发明提出一种基于混合注意力机制的自动图像描述方法,将人类注意力与传统机器注意力相结合,为描述生成过程中的注意力权重提供更好的参考,从而生成更精确的描述,以提升自动图像描述方法的性能,取得了更为优异的结果。本发明提出的方法,对于应用于辅助视障人士的场景具有实际意义。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤一中,利用视觉基因数据集所预先训练的目标检测算法,提取所述待描述图像中所述目标边界框内的区域图像特征,以及所述目标边界框在所述待描述图像中的位置信息;
所述区域图像特征为k个2048维的向量,其中k为区域图像特征的数量值。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤二中,所述将所述区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤:
将当前时刻输入的词向量xt、第二长短期记忆人工神经网络的前一时刻输出
Figure BDA0003579503210000031
以及图像全局特征
Figure BDA0003579503210000032
输入至机器注意力模块中,经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000033
其中所述当前时刻输入的词向量xt表示对所述待描述图像进行描述时输出的句子中的单词;
根据所述第一长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000034
以及所述区域图像特征V计算得到特征权重αt,通过所述特征权重αt对所述区域图像特征V进行特征加权以得到第一机器注意力特征
Figure BDA0003579503210000035
所述基于混合注意力机制的自动图像描述方法,其中,所述第一长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000036
表示为:
Figure BDA0003579503210000037
第一机器注意力特征
Figure BDA0003579503210000038
表示为:
Figure BDA0003579503210000039
Figure BDA00035795032100000310
其中,Wa、Wh以及Wv均为可学习参数,LSTM1表示第一长短期记忆人工神经网络,T表示转置操作,soft max(·)表示归一化操作,
Figure BDA00035795032100000311
表示元素级的加法运算。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤三中,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型的方法包括如下步骤:
获取图像描述生成任务下的人类注视数据集;
将收集到的人类注视数据集经过高斯模糊处理后,用于构建人类进行图像描述任务时的视觉认知模型;
其中,在所述人类注视数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤四中,将所述待描述图像输入至视觉认知模型中以得到认知图的方法包括如下步骤:
将待描述图像I输入至视觉认知模型中以得到认知图Is,其中Is∈RIW×IH,IW为输入图像的宽,IH为输入图像的高;
根据所述目标边界框的位置信息,在认知图Is提取出各目标边界框对应的区域认知图,并将第i个图像区域的认知图记为IRi
对第i个图像区域的认知图IRi中的像素按值从大到小进行排序,统计前J%的像素点对应的集合并记为Ti,计算Ti的均值作为区域重要性评分:
Figure BDA0003579503210000041
其中,Si表示第i个图像的区域重要性评分,Ti,j表示Ti集合中的第j个元素,|Ti|表示Ti中元素的总数。
所述基于混合注意力机制的自动图像描述方法,其中,所述区域重要性评分S表示为S=[s1,s2,...,sk],所述区域图像特征V表示为V=[v1,v2,...,vi,…,vk];
对所述区域图像特征进行加权计算的公式表示为:
c=softmax(ws*S)
第二人类认知机制指导的注意力特征
Figure BDA0003579503210000042
表示为:
Figure BDA0003579503210000043
其中,vi表示任一区域图像特征,ws为常量,c为归一化后的人类注意力机制的权重向量,[s1,s2,...,sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合,[v1,v2,...,vi,...,vk]表示多个区域图像特征的集合,k为区域图像特征的数量值。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤五中,将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征的方法包括如下步骤:
根据第一人类认知机制指导的注意力特征
Figure BDA0003579503210000051
第二机器注意力特征
Figure BDA0003579503210000052
以及所述当前时刻输入的词向量xt计算得到融合向量gt
根据所述融合向量gt对第二人类认知机制指导的注意力特征
Figure BDA0003579503210000053
与第一机器注意力特征
Figure BDA0003579503210000054
进行计算以得到融合图像特征
Figure BDA0003579503210000055
其中,所述融合图像特征
Figure BDA0003579503210000056
表达式为:
Figure BDA0003579503210000057
其中,⊙表示向量的点乘。
所述基于混合注意力机制的自动图像描述方法,其中,所述融合向量gt表示为:
Figure BDA0003579503210000058
其中,σ表示sigmoid函数,
Figure BDA0003579503210000059
以及Wx表示可学习矩阵参数,b表示可学习的偏置。
所述基于混合注意力机制的自动图像描述方法,其中,在所述步骤六中,将所述融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤:
将所述融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出;
根据所述第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词,以组成所述最终图像描述;
其中,所述第二长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000061
表示为:
Figure BDA0003579503210000062
所述当前时刻输出单词wt表示为:
Figure BDA0003579503210000063
其中,Wp为可学习参数,LSTM2表示第二长短期记忆人工神经网络,p(yt|y1:t-1)表示在输入1:t-1位置的单词y时,输出t位置上单词的概率向量。
本发明提出一种基于混合注意力机制的自动图像描述系统,其中,所述系统包括:
信息获取模块,用于获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
第一计算模块,用于将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
第二计算模块,用于获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
第三计算模块,用于将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
特征融合模块,用于将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
结果输出模块,用于将所述融合图像特征输入至解码器中以得到最终图像描述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于混合注意力机制的自动图像描述方法的流程图;
图2为本发明提出的基于混合注意力机制的自动图像描述系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,本发明提出一种基于混合注意力机制的自动图像描述方法,其中,所述方法包括如下步骤:
S101、获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息。
在步骤S101中,利用视觉基因数据集所预先训练的目标检测算法(Faster R-CNN),提取待描述图像中目标边界框内的区域图像特征,以及目标边界框在所述待描述图像中的位置信息。
其中,上述的区域图像特征为k个2048维的向量,其中k为区域图像特征的数量值。
S102、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征。
具体的,将区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤:
S1021、将当前时刻输入的词向量xt、第二长短期记忆人工神经网络的前一时刻输出
Figure BDA0003579503210000081
以及图像全局特征
Figure BDA0003579503210000082
输入至机器注意力模块中,经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000083
其中所述当前时刻输入的词向量xt表示对所述待描述图像进行描述时输出的句子中的单词。
其中,第一长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000084
表示为:
Figure BDA0003579503210000085
S1022、根据所述第一长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000086
以及所述区域图像特征V计算得到特征权重αt,通过所述特征权重αt对所述区域图像特征V进行特征加权以得到第一机器注意力特征
Figure BDA0003579503210000087
其中,第一机器注意力特征
Figure BDA0003579503210000088
表示为:
Figure BDA0003579503210000089
Figure BDA00035795032100000810
其中,Wa、Wh以及Wv均为可学习参数,LSTM1表示第一长短期记忆人工神经网络,T表示转置操作,soft max(·)表示归一化操作,
Figure BDA0003579503210000091
表示元素级的加法运算。
S103、获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型。
步骤S103具体包括:
S1031、获取图像描述生成任务下的人类注视数据集。
首先,选取3000张图片,并找来5名测试人员,向测试人员展示这些图片的同时要求其用简短的语句描述图片中的内容,同时利用眼动仪记录测试人员在描述图片时的注视数据。
为了降低主观因素的影响,同一张图片会被三个不同的测试人员所描述,并将它们的注视数据整合到一起,形成人类注视数据集E。
对空白的认知图Ib进行初始化,将人类注视数据集E中每个注视点投影至空白的认知图Ib上。其中,Ib∈RIW×IH,IW为输入图像的宽,IH为输入图像的高。
Figure BDA0003579503210000092
S1032、将投影至空白的认知图Ib上的人类注释数据集E经高斯模糊处理后,构建人类进行图像描述任务时的视觉认知模型。
值得注意的是,传统的视觉认知任务数据集记录的是人在自由观看条件下的注视数据,而本发明的方法中用于训练的数据集记录的是人在描述图像内容时的注视数据。统计结果表明:人在描述图像内容时的注视数据更广泛地覆盖在文字描述的内容所对应的图像区域。
在本实施例中,在人类注释数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型SAL。作为一种实施方式,该视觉认知模型整体架构上遵循编码器-解码器的全卷积网络。其中,编码器部分基于ResNet-50网络提取多尺度的图像特征,解码器部分根据所述的多尺度图像特征预测视觉认知图。
S104、将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征。
具体的,包括如下步骤:
S1041、将待描述图像I输入至视觉认知模型中以得到认知图Is,其中Is∈RIW×IH,IW为输入图像的宽,IH为输入图像的高;
S1042、根据所述目标边界框的位置信息,在认知图Is提取出各目标边界框对应的区域认知图,并将第i个图像区域的认知图记为IRi
S1043、对第i个图像区域的认知图IRi中的像素按值从大到小进行排序,统计前J%的像素点对应的集合并记为Ti,计算Ti的均值作为区域重要性评分:
Figure BDA0003579503210000101
其中,Si表示第i个图像的区域重要性评分,Ti,j表示Ti集合中的第j个元素,|Ti|表示Ti中元素的总数。
对于j的取值,有如下考虑:
当j的取值过大时,处于显著性区域的小目标的重要性得分会显著高于大目标,这是由于小的目标框总是能被显著性较强的区域全部覆盖,而大的目标只会被覆盖一部分,其余未覆盖的部分的像素值参与计算会降低目标整体的得分,应当避免目标大小对重要性得分产生过大的影响;
当j的取值过小时,只有像素值排序靠前的像素点参与计算重要性得分,因此被显著性较强区域所覆盖到的目标的重要性得分会集中在一个比较高的范围内,导致得分无法反映真实的目标重要性差异。
在经过了大量的实验分析,本发明取j为40较为合理,并且模型的性能达到最好。
S1044、根据区域重要性评分对所述区域图像特征进行加权计算以得到人类认知机制指导的注意力特征。
其中,区域重要性评分S表示为S=[s1,s2,...,sk],区域图像特征V表示为V=[v1,v2,...,vi,...,vk]。
对区域图像特征进行加权计算的公式表示为:
c=softmax(ws*S)
第二人类认知机制指导的注意力特征
Figure BDA0003579503210000111
表示为:
Figure BDA0003579503210000112
其中,vi表示任一区域图像特征,ws为常量,c为归一化后的人类注意力机制的权重向量,[s1,s2,...,sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合,[v1,v2,...,vi,...,vk]表示多个区域图像特征的集合,k为区域图像特征的数量值。
S105、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征。
在本步骤四中,将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块进行融合以得到融合图像特征的方法包括如下步骤:
S1051、根据第一人类认知机制指导的注意力特征
Figure BDA0003579503210000113
第二机器注意力特征
Figure BDA0003579503210000114
以及所述当前时刻输入的词向量xt计算得到融合向量gt
S1052、根据所述融合向量gt对第二人类认知机制指导的注意力特征
Figure BDA0003579503210000115
与第一机器注意力特征
Figure BDA0003579503210000116
进行计算以得到融合图像特征
Figure BDA0003579503210000117
其中,上述的融合图像特征
Figure BDA0003579503210000121
表达式为:
Figure BDA0003579503210000122
其中,⊙表示向量的点乘。
上述的融合向量gt表示为:
Figure BDA0003579503210000123
其中,σ表示sigmoid函数,
Figure BDA0003579503210000124
以及Wx表示可学习矩阵参数,b表示可学习的偏置。
S106、将所述融合图像特征输入至解码器中以得到最终图像描述。
在步骤五中,将融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤:
S1061、将融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出。
其中,所述第二长短期记忆人工神经网络的当前时刻输出
Figure BDA0003579503210000125
表示为:
Figure BDA0003579503210000126
S1061、根据第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词,以组成所述最终图像描述。
所述当前时刻输出单词wt表示为:
Figure BDA0003579503210000127
其中,Wp为可学习参数,LSTM2表示第二长短期记忆人工神经网络,p(yt|y1:t-1)表示在输入1:t-1位置的单词y时,输出t位置上单词的概率向量。
作为补充说明的是,本发明提出的图像描述模型,除了包括上述的机器注意力模块以及人类注意力模块之外,还包括两层长短期记忆人工神经网络,也即上述的第一长短期记忆人工神经网络LSTM1以及第二长短期记忆人工神经网络LSTM2
本发明提出一种基于混合注意力机制的自动图像描述方法,首先获取待描述图像中目标边界框的区域图像特征以及目标边界框的位置信息;然后将区域图像特征输入至机器注意力模块中以得到机器注意力特征;同时将上述的待描述图像也输入至视觉认知模型中以得到认知图,将认知图以及区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;最后将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块中进行融合以得到融合图像特征,将融合图像特征输入至解码器中得到最终图像描述。本发明提出一种基于混合注意力机制的自动图像描述方法,将人类注意力与传统机器注意力相结合,为描述生成过程中的注意力权重提供更好的参考,从而生成更精确的描述,以提升自动图像描述方法的性能,取得了更为优异的结果。本发明提出的方法,对于应用于辅助视障人士的场景具有实际意义。
请参阅图2,本发明提出一种基于混合注意力机制的自动图像描述系统,其中,所述系统包括:
信息获取模块,用于获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
第一计算模块,用于将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
第二计算模块,用于获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
第三计算模块,用于将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
特征融合模块,用于将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
结果输出模块,用于将所述融合图像特征输入至解码器中以得到最终图像描述。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于混合注意力机制的自动图像描述方法,其特征在于,所述方法包括如下步骤:
步骤一、获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
步骤二、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
步骤三、获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
步骤四、将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
步骤五、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
步骤六、将所述融合图像特征输入至解码器中以得到最终图像描述;
在步骤二中,将所述区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤:
将当前时刻输入的词向量xt、第二长短期记忆人工神经网络的前一时刻输出
Figure FDA0003878590550000011
以及图像全局特征
Figure FDA0003878590550000012
输入至机器注意力模块中,经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出
Figure FDA0003878590550000013
其中所述当前时刻输入的词向量xt表示对所述待描述图像进行描述时输出的句子中的单词;
其中,第一长短期记忆人工神经网络的当前时刻输出
Figure FDA0003878590550000014
表示为:
Figure FDA0003878590550000015
根据所述第一长短期记忆人工神经网络的当前时刻输出
Figure FDA0003878590550000016
以及所述区域图像特征V计算得到特征权重αt,通过所述特征权重αt对所述区域图像特征V进行特征加权以得到第一机器注意力特征
Figure FDA0003878590550000017
其中,第一机器注意力特征
Figure FDA0003878590550000018
表示为:
Figure FDA0003878590550000021
Figure FDA0003878590550000022
其中,Wa、Wh以及Wv均为可学习参数,LSTM1表示第一长短期记忆人工神经网络,T表示转置操作,softmax(·)表示归一化操作,
Figure FDA0003878590550000024
表示元素级的加法运算;
在所述步骤四中,将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征的方法包括如下步骤:
将待描述图像I输入至视觉认知模型中以得到认知图Is,其中Is∈RIW×IH,IW为输入图像的宽,IH为输入图像的高;
根据所述目标边界框的位置信息,在认知图Is提取出各目标边界框对应的区域认知图,并将第i个图像区域的认知图记为IRi
对第i个图像区域的认知图IRi中的像素按值从大到小进行排序,统计前J%的像素点对应的集合并记为Ti,计算Ti的均值作为区域重要性评分:
Figure FDA0003878590550000023
其中,Si表示第i个图像的区域重要性评分,Ti,j表示Ti集合中的第j个元素,|Ti|表示Ti中元素的总数;
根据区域重要性评分对所述区域图像特征进行加权计算以得到人类认知机制指导的注意力特征;
其中,区域重要性评分S表示为S=[s1,s2,...,sk],区域图像特征V表示为V=[v1,v2,...,vi,...,vk];
对区域图像特征进行加权计算的公式表示为:
c=softmax(ws*S)
第二人类认知机制指导的注意力特征
Figure FDA0003878590550000031
表示为:
Figure FDA0003878590550000032
其中,vi表示任一区域图像特征,ws为常量,c为归一化后的人类注意力机制的权重向量,[s1,s2,...,sk]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合,[v1,v2,...,vi,...,vk]表示多个区域图像特征的集合,k为区域图像特征的数量值。
2.根据权利要求1所述的基于混合注意力机制的自动图像描述方法,其特征在于,在所述步骤一中,利用视觉基因数据集所预先训练的目标检测算法,提取所述待描述图像中所述目标边界框内的区域图像特征,以及所述目标边界框在所述待描述图像中的位置信息;
所述区域图像特征为k个2048维的向量,其中k为区域图像特征的数量值。
3.根据权利要求1所述的基于混合注意力机制的自动图像描述方法,其特征在于,在所述步骤三中,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型的方法包括如下步骤:
获取图像描述生成任务下的人类注视数据集;
将收集到的人类注视数据集经过高斯模糊处理后,用于构建人类进行图像描述任务时的视觉认知模型;
其中,在所述人类注视数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型。
4.根据权利要求1所述的基于混合注意力机制的自动图像描述方法,其特征在于,在所述步骤五中,将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征的方法包括如下步骤:
根据第一人类认知机制指导的注意力特征
Figure FDA0003878590550000033
第二机器注意力特征
Figure FDA0003878590550000034
以及当前时刻输入的词向量xt计算得到融合向量gt
根据所述融合向量gt对第二人类认知机制指导的注意力特征
Figure FDA0003878590550000041
与第一机器注意力特征
Figure FDA0003878590550000042
进行计算以得到融合图像特征
Figure FDA0003878590550000043
其中,所述融合图像特征
Figure FDA0003878590550000044
表达式为:
Figure FDA0003878590550000045
其中,⊙表示向量的点乘;
所述融合向量gt表示为:
Figure FDA0003878590550000046
其中,σ表示sigmoid函数,
Figure FDA0003878590550000047
以及Wx表示可学习矩阵参数,b表示可学习的偏置。
5.根据权利要求4所述的基于混合注意力机制的自动图像描述方法,其特征在于,在所述步骤六中,将所述融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤:
将所述融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出;
根据所述第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词,以组成所述最终图像描述;
其中,所述第二长短期记忆人工神经网络的当前时刻输出
Figure FDA0003878590550000048
表示为:
Figure FDA0003878590550000049
所述当前时刻输出单词wt表示为:
Figure FDA0003878590550000051
其中,Wp为可学习参数,LSTM2表示第二长短期记忆人工神经网络,p(yt|y1:t-1)表示在输入1:t-1位置的单词y时,输出t位置上单词的概率向量。
6.一种基于混合注意力机制的自动图像描述系统,其特征在于,所述系统应用如上述权利要求1至5任意一项所述的基于混合注意力机制的自动图像描述方法,所述系统包括:
信息获取模块,用于获取待描述图像,确定所述待描述图像中的目标边界框,获取所述目标边界框内的区域图像特征,以及所述目标边界框的位置信息;
第一计算模块,用于将所述区域图像特征输入至机器注意力模块以得到机器注意力特征;
第二计算模块,用于获取人类进行图像描述任务时的认知数据,根据所述认知数据构建人类进行图像描述任务时的视觉认知模型;
第三计算模块,用于将所述待描述图像输入至视觉认知模型中以得到认知图,将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征;
特征融合模块,用于将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征;
结果输出模块,用于将所述融合图像特征输入至解码器中以得到最终图像描述。
CN202210352863.XA 2022-04-02 2022-04-02 基于混合注意力机制的自动图像描述方法与系统 Active CN114693790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210352863.XA CN114693790B (zh) 2022-04-02 2022-04-02 基于混合注意力机制的自动图像描述方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210352863.XA CN114693790B (zh) 2022-04-02 2022-04-02 基于混合注意力机制的自动图像描述方法与系统

Publications (2)

Publication Number Publication Date
CN114693790A CN114693790A (zh) 2022-07-01
CN114693790B true CN114693790B (zh) 2022-11-18

Family

ID=82142355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210352863.XA Active CN114693790B (zh) 2022-04-02 2022-04-02 基于混合注意力机制的自动图像描述方法与系统

Country Status (1)

Country Link
CN (1) CN114693790B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152623B (zh) * 2023-04-04 2023-07-18 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN117372936B (zh) * 2023-12-07 2024-03-22 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN113569892A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 图像描述信息生成方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186568B (zh) * 2021-12-16 2022-08-02 北京邮电大学 一种基于关系编码和层次注意力机制的图像段落描述方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN113569892A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 图像描述信息生成方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Multimodal Attention LSTM Networks for Video Captioning;Jun Xu et al.;《Multimedia Search and Recommendation》;20171031;第537-545页 *
基于图像语义的服务机器人视觉隐私行为识别与保护系统;李中益等;《计算机辅助设计与图形学学报》;20201031;第1679-1687页 *

Also Published As

Publication number Publication date
CN114693790A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN110599448B (zh) 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测系统
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
De Melo et al. Depression detection based on deep distribution learning
CN108830334B (zh) 一种基于对抗式迁移学习的细粒度目标判别方法
CN114693790B (zh) 基于混合注意力机制的自动图像描述方法与系统
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN109063643B (zh) 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
CN111275118B (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
US20220121902A1 (en) Method and apparatus for quality prediction
CN111062277A (zh) 基于单目视觉的手语-唇语转化方法
CN113111968A (zh) 图像识别模型训练方法、装置、电子设备和可读存储介质
US20200380292A1 (en) Method and device for identifying object and computer readable storage medium
CN111694954B (zh) 图像分类方法、装置和电子设备
CN113420745A (zh) 基于图像的目标识别方法、系统、存储介质及终端设备
Li et al. Micro-expression action unit detection with dual-view attentive similarity-preserving knowledge distillation
Mobiny et al. Decaps: Detail-oriented capsule networks
Lungociu REAL TIME SIGN LANGUAGE RECOGNITION USING ARTIFICIAL NEURAL NETWORKS.
CN116486465A (zh) 用于人脸结构分析的图像识别方法及其系统
CN114359741B (zh) 基于区域特征的图像描述模型注意力机制评价方法与系统
Zhao et al. Automated assessment system for neonatal endotracheal intubation using dilated convolutional neural network
CN112597842B (zh) 基于人工智能的运动检测面瘫程度评估系统
CN115659221A (zh) 一种教学质量的评估方法、装置及计算机可读存储介质
Liauchuk et al. Detection of lung pathologies using deep convolutional networks trained on large X-ray chest screening database
JP7239002B2 (ja) 物体数推定装置、制御方法、及びプログラム
Veinović Apparent Personality Analysis Based on Aggregation Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant