CN114359741A - 基于区域特征的图像描述模型注意力机制评价方法与系统 - Google Patents
基于区域特征的图像描述模型注意力机制评价方法与系统 Download PDFInfo
- Publication number
- CN114359741A CN114359741A CN202210273007.5A CN202210273007A CN114359741A CN 114359741 A CN114359741 A CN 114359741A CN 202210273007 A CN202210273007 A CN 202210273007A CN 114359741 A CN114359741 A CN 114359741A
- Authority
- CN
- China
- Prior art keywords
- attention
- nouns
- image
- sentence
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 70
- 230000007246 mechanism Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000009825 accumulation Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于区域特征的图像描述模型注意力机制评价方法与系统,该方法包括:通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;将区域空间特征输入至图像描述模型中以生成单词序列,将语义特征与单词序列输入至注意力模块得到生成句子;将生成句子与真值句子进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,得到局部注意力评价结果,进而得到全局注意力评价结果。本发明不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。
Description
技术领域
本发明涉及计算机信息技术领域,特别涉及一种基于区域特征的图像描述模型注意力机制评价方法与系统。
背景技术
在计算机图像处理领域中,图像描述生成是一个融合计算机视觉与自然语言处理的综合问题。具体的,其要求对于任意的输入图像,能输出通顺且人类可理解的句子以完整描述图像内容。
当前主流的图像描述模型依赖于基于区域特征的注意力机制。具体的,区域特征以图像中关键区域的候选框为表示,描述该区域的语义特征。注意力机制专注于图像中关键的视觉内容,从区域特征中提取更具辨别力的视觉信息来指导句子生成。注意力机制极大程度地提高了图像描述模型的准确性。
然而,通过可视化分析发现注意力机制普遍存在“不聚焦”的问题。具体地,在生成描述的单词时,注意力机制有时会关注在物体不重要的区域,例如人的身体,从而错误预测人的性别;有时则关注于物体的背景,导致“幻想”出与目标相关但未实际出现的物体;有时则忽略了图像中的重要目标,导致描述中缺少重要信息。
如上所述,基于区域特征的注意力机制仍缺少可靠的量化分析方法,导致对图像描述模型性能的诊断变得十分困难。基于此,有必要提出一种基于区域特征的图像描述模型注意力机制评价方法与系统,以解决上述技术问题。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于区域特征的图像描述模型注意力机制评价方法与系统,以解决上述技术问题。
本发明实施例提供了一种基于区域特征的图像描述模型注意力机制评价方法,其中,所述方法包括如下步骤:
步骤一、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
步骤二、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
步骤三、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
步骤四、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
步骤五、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;然后将区域空间特征输入至图像描述模型中以生成单词序列,再将语义特征与单词序列输入至注意力模块,通过注意力模块得到生成句子;进而将生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,进而得到局部注意力评价结果,最后根据局部注意力评价结果计算得到全局注意力评价结果。本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤一中,所述区域空间特征表示为:
所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤四中,所述局部注意力评价结果的计算方法为:
通过判断匹配名词的局部注意准确率是否大于预设阈值;
当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述局部注意力准确率的计算方法包括如下步骤:
所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述映射图像素权重表示为:
所述基于区域特征的图像描述模型注意力机制评价方法,其中,根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果的方法包括如下步骤:
当忽略生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率;
根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率;
当考虑生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率;
根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率;
其中,所述第一全局注意力准确率以及所述第二全局注意力准确率即为所述全局注意力评价结果。
本发明还提出一种基于区域特征的图像描述模型注意力机制评价系统,其中,所述系统包括:
特征提取模块,用于获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
句子生成模块,用于将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
查找确定模块,用于将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
局部评价模块,用于将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
全局评价模块,用于根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于区域特征的图像描述模型注意力机制评价方法的流程图;
图2为本发明提出的基于区域特征的图像描述模型注意力机制评价系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有技术中,基于区域特征的注意力机制仍缺少可靠的量化分析方法,导致对图像描述模型性能的诊断变得十分困难。基于此,有必要提出一种基于区域特征的图像描述模型注意力机制评价方法与系统,以解决上述技术问题。
请参阅图1,本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,其中,所述方法包括如下步骤:
S101、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征。
在步骤S101中,区域空间特征表示为:
作为补充说明的是,上述的目标检测网络是经过Visual Genome所预先训练得到的,所提取得到的区域空间特征富含语义信息。
S102、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重。
S103、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤。
S104、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量。
在步骤S104中,局部注意力评价结果的计算方法包括如下步骤:
S1041,通过判断匹配名词的局部注意准确率是否大于预设阈值。
其中,局部注意力准确率的计算方法包括如下步骤:
所述映射图像素权重表示为:
S1042,当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。
在本步骤中,当匹配名词的局部注意力准确性大于预设阈值时,则判定图像描述模型在生成该匹配名词时的注意力是正确的。反之,当匹配名词的局部注意力准确性小于预设阈值时,则判定图像描述模型在生成该匹配名词时的注意力不正确。
进一步的,如上所述,当判定图像描述模型在生成该匹配名词时的注意力是正确时,则对应进行计数,以得到被认定为正确匹配名词的数量,用于后续计算得到全局注意力评价结果。
S105、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
在本步骤中,根据图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果的方法包括如下步骤:
当忽略生成句子的语言误差时,包括如下步骤:
S1051a、根据所述被认定为正确匹配名词的数量,生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率;
S1051b、根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率。
当考虑生成句子的语言误差时,包括如下步骤:
S1052a、根据所述被认定为正确匹配名词的数量,生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率;
S1052b、根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率。
需要说明的是,上述的第一全局注意力准确率以及第二全局注意力准确率即为所得到的全局注意力评价结果。
本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;然后将区域空间特征输入至图像描述模型中以生成单词序列,再将语义特征与单词序列输入至注意力模块,通过注意力模块得到生成句子;进而将生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,进而得到局部注意力评价结果,最后根据局部注意力评价结果计算得到全局注意力评价结果。本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。
请参阅图2,本发明还提出一种基于区域特征的图像描述模型注意力机制评价系统,其中,所述系统包括:
特征提取模块,用于获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
句子生成模块,用于将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
查找确定模块,用于将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
局部评价模块,用于将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
全局评价模块,用于根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于区域特征的图像描述模型注意力机制评价方法,其特征在于,所述方法包括如下步骤:
步骤一、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
步骤二、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
步骤三、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
步骤四、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
步骤五、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
4.根据权利要求3所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,在所述步骤四中,所述局部注意力评价结果的计算方法为:
通过判断匹配名词的局部注意准确率是否大于预设阈值;
当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。
8.根据权利要求7所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果的方法包括如下步骤:
当忽略生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率;
根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率;
当考虑生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率;
根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率;
其中,所述第一全局注意力准确率以及所述第二全局注意力准确率即为所述全局注意力评价结果。
10.一种基于区域特征的图像描述模型注意力机制评价系统,其特征在于,所述系统包括:
特征提取模块,用于获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
句子生成模块,用于将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
查找确定模块,用于将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
局部评价模块,用于将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
全局评价模块,用于根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210273007.5A CN114359741B (zh) | 2022-03-19 | 2022-03-19 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210273007.5A CN114359741B (zh) | 2022-03-19 | 2022-03-19 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114359741A true CN114359741A (zh) | 2022-04-15 |
CN114359741B CN114359741B (zh) | 2022-06-17 |
Family
ID=81094681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210273007.5A Active CN114359741B (zh) | 2022-03-19 | 2022-03-19 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359741B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372936A (zh) * | 2023-12-07 | 2024-01-09 | 江西财经大学 | 基于多模态细粒度对齐网络的视频描述方法与系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109559799A (zh) * | 2018-10-12 | 2019-04-02 | 华南理工大学 | 医学图像语义描述方法、描述模型的构建方法及该模型 |
CN110473267A (zh) * | 2019-07-12 | 2019-11-19 | 北京邮电大学 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
WO2020101777A1 (en) * | 2018-11-16 | 2020-05-22 | Google Llc | Segmenting objects by refining shape priors |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN112836709A (zh) * | 2021-02-07 | 2021-05-25 | 方玉明 | 一种基于空间注意力增强机制的自动图像描述方法 |
US20210232850A1 (en) * | 2020-01-23 | 2021-07-29 | Adobe Inc. | Generating Descriptions of Image Relationships |
CN114022687A (zh) * | 2021-09-24 | 2022-02-08 | 之江实验室 | 一种基于增强学习的图像描述对抗生成方法 |
-
2022
- 2022-03-19 CN CN202210273007.5A patent/CN114359741B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109559799A (zh) * | 2018-10-12 | 2019-04-02 | 华南理工大学 | 医学图像语义描述方法、描述模型的构建方法及该模型 |
WO2020101777A1 (en) * | 2018-11-16 | 2020-05-22 | Google Llc | Segmenting objects by refining shape priors |
CN110473267A (zh) * | 2019-07-12 | 2019-11-19 | 北京邮电大学 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
US20210232850A1 (en) * | 2020-01-23 | 2021-07-29 | Adobe Inc. | Generating Descriptions of Image Relationships |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN112836709A (zh) * | 2021-02-07 | 2021-05-25 | 方玉明 | 一种基于空间注意力增强机制的自动图像描述方法 |
CN114022687A (zh) * | 2021-09-24 | 2022-02-08 | 之江实验室 | 一种基于增强学习的图像描述对抗生成方法 |
Non-Patent Citations (3)
Title |
---|
CHIORI HORI 等: "Attention-Based Multimodal Fusion for Video Description", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 25 December 2017 (2017-12-25) * |
YUMING FANG 等: "Visual attention prediction for Autism Spectrum Disorder with hierarchical semantic fusion", 《SIGNAL PROCESSING: IMAGE COMMUNICATION》, vol. 93, 30 April 2021 (2021-04-30) * |
赵宏 等: "图像特征注意力与自适应注意力融合的图像内容中文描述", 《计算机应用》, vol. 41, no. 9, 10 September 2021 (2021-09-10) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372936A (zh) * | 2023-12-07 | 2024-01-09 | 江西财经大学 | 基于多模态细粒度对齐网络的视频描述方法与系统 |
CN117372936B (zh) * | 2023-12-07 | 2024-03-22 | 江西财经大学 | 基于多模态细粒度对齐网络的视频描述方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114359741B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
JP3856778B2 (ja) | 複数言語を対象とした文書分類装置及び文書分類方法 | |
CN113360701B (zh) | 一种基于知识蒸馏的素描图处理方法及其系统 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN114582470B (zh) | 一种模型的训练方法、训练装置及医学影像报告标注方法 | |
CN111275118B (zh) | 基于自我修正式标签生成网络的胸片多标签分类方法 | |
CN104933158B (zh) | 数学问题求解模型的训练方法和装置、推理方法和装置 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN109993187A (zh) | 一种用于识别物体类别的建模方法、机器人及存储装置 | |
CN113239227A (zh) | 图像数据结构化方法、装置、电子设备及计算机可读介质 | |
CN114359741B (zh) | 基于区域特征的图像描述模型注意力机制评价方法与系统 | |
CN114693790B (zh) | 基于混合注意力机制的自动图像描述方法与系统 | |
CN117975241B (zh) | 一种面向指向性目标分割的半监督学习方法 | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN111599444A (zh) | 智能舌诊检测方法、装置、智能终端和存储介质 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN117454987B (zh) | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN117012373B (zh) | 一种葡萄胎辅助检查模型的训练方法、应用方法及系统 | |
Aristoteles et al. | Identification of human sperm based on morphology using the you only look once version 4 algorithm | |
CN114037571A (zh) | 试题扩充方法及相关装置、电子设备和存储介质 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN112836709A (zh) | 一种基于空间注意力增强机制的自动图像描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |