CN113076956B - 一种图像描述生成方法、系统、介质及电子设备 - Google Patents
一种图像描述生成方法、系统、介质及电子设备 Download PDFInfo
- Publication number
- CN113076956B CN113076956B CN202110406530.6A CN202110406530A CN113076956B CN 113076956 B CN113076956 B CN 113076956B CN 202110406530 A CN202110406530 A CN 202110406530A CN 113076956 B CN113076956 B CN 113076956B
- Authority
- CN
- China
- Prior art keywords
- image
- information
- scene
- semantic
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像描述生成方法、系统、介质及电子设备,获取待描述的图像,提取全局特征和目标特征;利用预设循环神经网络的隐状态输出为目标特征分配权重,经加权求和后得到新的图像特征表示;利用全局特征为预设循环神经网络的隐状态输出计算注意力得分,经加权求和后得到新的语义信息表示;将图像特征表示和语义信息表示进行融合得到图像交互信息,对图像交互信息进行场景概念选择,得到场景概念信息,根据图像交互信息和场景概念信息,得到图像语义描述结果;本公开使用全局图像特征和局部图像特征来生成图像描述,采用交互机制,提高了描述的丰富性和准确性。
Description
技术领域
本公开涉及图像处理技术领域,特别涉及一种图像描述生成方法、系统、介质及电子设备。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
现有的图像描述生成方法中,注意力机制根据当前时刻的语义信息挑选出相关度较高的图像信息,进而将编码后的图像信息作为解码器的输入,然后将图像信息解码成文字。
但是,发明人发现,在图像描述过程中,注意力机制没有考虑语义信息和图像信息在两个方向上面的交互;现有的注意力方法仅基于低级空间特征或高级文本特征,限制了图像描述的丰富性;现有的图像描述生成方法,缺乏的场景语义信息特征,使得生成的语义描述的准确度较低。
发明内容
为了解决现有技术的不足,本公开提供了一种图像描述生成方法、系统、介质及电子设备,使用全局图像特征和局部图像特征来生成图像描述,采用交互机制,提高了描述的丰富性和准确性。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种图像描述生成方法。
一种图像描述生成方法,包括以下过程:
获取待描述的图像;
根据获取的图像,获取全局特征和目标特征;
利用预设循环神经网络的隐状态输出为目标特征分配权重,经加权求和后得到新的图像特征表示;
利用全局特征为预设循环神经网络的隐状态输出计算注意力得分,经加权求和后得到新的语义信息表示;
将图像特征表示和语义信息表示进行融合得到图像交互信息,对图像交互信息进行场景概念选择,得到场景概念信息,根据图像交互信息和场景概念信息,得到图像语义描述结果。
进一步的,利用Resnet101网络提取图像中的全局特征。
进一步的,利用Faster R–CNN网络提取图像中的目标特征。
进一步的,利用预设的门控单元将图像特征表示和语义信息表示进行融合。
进一步的,将图像交互信息、场景概念信息和隐状态输入到预设ON-LSTM解码器中,得到图像语义描述结果。
进一步的,将图像的场景主题类别转化成词嵌入向量形式,结合图像交互信息,得到场景概念信息。
进一步的,图像的场景主题类别包括多个主题词汇。
本公开第二方面提供了一种图像描述生成系统。
一种图像描述生成系统,包括以下过程:
图像获取模块,被配置为:获取待描述的图像;
特征提取模块,被配置为:根据获取的图像,获取全局特征和目标特征;
特征表示获取模块,被配置为:利用预设循环神经网络的隐状态输出为目标特征分配权重,经加权求和后得到新的图像特征表示;
语义信息获取模块,被配置为:利用全局特征为预设循环神经网络的隐状态输出计算注意力得分,经加权求和后得到新的语义信息表示;
图像场景描述模块,被配置为:将图像特征表示和语义信息表示进行融合得到图像交互信息,对图像交互信息进行场景概念选择,得到场景概念信息,根据图像交互信息和场景概念信息,得到图像语义描述结果。
本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的图像描述生成方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的图像描述生成方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质及电子设备,使用全局图像特征和局部图像特征来生成图像描述,采用交互机制,提高了描述的丰富性和准确性。
2、本公开所述的方法、系统、介质及电子设备,使用图像交互信息去选取场景语义信息来生成图像描述,通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息,并将选取后的场景语义信息添加到语言模型中,与图像的交互信息相结合,从而使模型能够得到更丰富的图像信息,并提前预知到一些需要生成的重要词汇,以此来共同引导模型生成更加准确且符合场景的描述。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的图像描述生成方法的流程示意图。
图2为本公开实施例1提供的交互机制示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种图像描述生成方法,包括以下过程:
分别用Resnet101和Faster R-CNN提取图像中的全局特征和目标特征;
本实施例提出的交互机制(Interactive mechanism),将从两个方向进行交互计算,完成图像全局特征和所有时刻语义信息当前语义信息和图像目标信息的相互交互。筛选出较为重要的图像特征和语义信息并通过门控单元获得融合两种模态信息的向量表示交互机制模块的具体内容如图2所示。
为了使模型能够生成更加准确且符合图像场景的描述,本实施例提出了使用图像交互信息去选取场景语义信息来生成图像描述的方法。通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息,并将选取后的场景语义信息添加到语言模型中,与图像的交互信息相结合,从而使模型能够得到更丰富的图像信息,并提前预知到一些需要生成的重要词汇,以此来共同引导模型生成更加准确且符合场景的描述。
通过场景语义选择模块输出当前时间步模型关注的场景语义信息,具体的操作如下:
S=WeUi
h2 t=ON-LSTML([Cc t;Cm t;h1 t],h2 t-1)
yt≈pt=softmax(WPh2 t)
本实施例使用的数据集为MSCOCO数据集。MSCOCO数据集采用Karpathy分割方法将数据集分为训练集、验证集和测试集,经该方法划分后,训练集、验证集和测试集分别含有82738张、5000张、5000张图像,如表1所示。
表1:各数据集图像数量。
数据集 | 训练集 | 验证集 | 测试集 |
MSCOCO | 82738 | 5000 | 5000 |
本实施例使用up-down作为基准模型,对up-down模型进行了复现,表2展示了up-down模型与本实施例方法在MSCOCO数据集上进行的性能比较。使用两阶段的训练策略,其中,XE表示使用交叉熵损失策略对模型进行训练的结果,RL表示使用强化学习方法,直接优化CIDEr分值进行训练的结果,Baseline指基准模型,ours指本实施例方法。
表2:up-down模型与本实施例方法在MSCOCO数据集上进行的性能比较。
表3:在MSCOCO数据集上与现有先进模型的性能比较。
Approach | BLEU-4 | METEOR | ROUGE-L | CIDEr |
Spatial-Attention | 34.2 | 26.3 | 55.2 | 106.0 |
Adaptive-Attention | 33.2 | 26.6 | 55.0 | 103.7 |
Semantic-Attention | 30.4 | 24.3 | 54.3 | 104.2 |
Stack-Cap | 36.1 | 27.4 | 56.9 | 120.4 |
Up-down | 36.3 | 27.7 | 56.9 | 120.1 |
RFNet | 36.5 | 27.7 | 57.3 | 121.9 |
CVAP | 38.6 | 28.3 | 58.5 | 126.3 |
Ours(RL) | 38.9 | 28.4 | 58.6 | 126.5 |
本实施例在MSCOCO测试集上选取了所有图像进行实验,实验结果显示,当生成与图像中目标相关的单词时,模型会关注到与当前时刻生成单词相关的图像区域,经过本实施例方法生成的描述语句与图像真实内容相比,句式比较完整,内容的含义比较准确且有意义。
实施例2:
本公开实施例2提供了一种图像描述生成系统,包括以下过程:
图像获取模块,被配置为:获取待描述的图像;
特征提取模块,被配置为:根据获取的图像,获取全局特征和目标特征;
特征表示获取模块,被配置为:利用预设循环神经网络的隐状态输出为目标特征分配权重,经加权求和后得到新的图像特征表示;
语义信息获取模块,被配置为:利用全局特征为预设循环神经网络的隐状态输出计算注意力得分,经加权求和后得到新的语义信息表示;
图像场景描述模块,被配置为:将图像特征表示和语义信息表示进行融合得到图像交互信息,对图像交互信息进行场景概念选择,得到场景概念信息,根据图像交互信息和场景概念信息,得到图像语义描述结果。
所述系统的工作方法与实施例1提供的图像描述生成方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的图像描述生成方法中的步骤。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的图像描述生成方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (5)
1.一种图像描述生成方法,其特征在于:包括以下过程:
获取待描述的图像;
根据获取的图像,获取全局特征和目标特征;利用Resnet101网络提取图像中的全局特征;利用Faster R–CNN网络提取图像中的目标特征;
利用预设循环神经网络的隐状态输出为目标特征分配权重,经加权求和后得到新的图像特征表示;
利用全局特征为预设循环神经网络的隐状态输出计算注意力得分,经加权求和后得到新的语义信息表示;
将图像特征表示和语义信息表示进行融合得到图像交互信息,对图像交互信息进行场景概念选择,得到场景概念信息,根据图像交互信息和场景概念信息,得到图像语义描述结果;通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息,并将选取后的场景语义信息添加到语言模型中,与图像的交互信息相结合,从而使模型能够得到更丰富的图像信息,并提前预知到一些需要生成的重要词汇,以此来共同引导模型生成更加准确且符合场景的描述;
将图像的场景主题类别转化成词嵌入向量形式,结合图像交互信息,得到场景概念信息;
将图像交互信息、场景概念信息和隐状态输入到预设ON-LSTM解码器中,得到图像语义描述结果。
2.如权利要求1所述的图像描述生成方法,其特征在于:
利用预设的门控单元将图像特征表示和语义信息表示进行融合。
3.一种图像描述生成系统,其特征在于:包括以下过程:
图像获取模块,被配置为:获取待描述的图像;
特征提取模块,被配置为:根据获取的图像,获取全局特征和目标特征;利用Resnet101网络提取图像中的全局特征;利用Faster R–CNN网络提取图像中的目标特征;
特征表示获取模块,被配置为:利用预设循环神经网络的隐状态输出为目标特征分配权重,经加权求和后得到新的图像特征表示;
语义信息获取模块,被配置为:利用全局特征为预设循环神经网络的隐状态输出计算注意力得分,经加权求和后得到新的语义信息表示;
图像场景描述模块,被配置为:将图像特征表示和语义信息表示进行融合得到图像交互信息,对图像交互信息进行场景概念选择,得到场景概念信息,根据图像交互信息和场景概念信息,得到图像语义描述结果;通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息,并将选取后的场景语义信息添加到语言模型中,与图像的交互信息相结合,从而使模型能够得到更丰富的图像信息,并提前预知到一些需要生成的重要词汇,以此来共同引导模型生成更加准确且符合场景的描述;
将图像的场景主题类别转化成词嵌入向量形式,结合图像交互信息,得到场景概念信息;
将图像交互信息、场景概念信息和隐状态输入到预设ON-LSTM解码器中,得到图像语义描述结果。
4.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-2任一项所述的图像描述生成方法中的步骤。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-2任一项所述的图像描述生成方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406530.6A CN113076956B (zh) | 2021-04-15 | 2021-04-15 | 一种图像描述生成方法、系统、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406530.6A CN113076956B (zh) | 2021-04-15 | 2021-04-15 | 一种图像描述生成方法、系统、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113076956A CN113076956A (zh) | 2021-07-06 |
CN113076956B true CN113076956B (zh) | 2023-02-24 |
Family
ID=76617601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110406530.6A Active CN113076956B (zh) | 2021-04-15 | 2021-04-15 | 一种图像描述生成方法、系统、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076956B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN111612070A (zh) * | 2020-05-13 | 2020-09-01 | 清华大学 | 基于场景图的图像描述生成方法及装置 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120141961A1 (en) * | 2010-12-06 | 2012-06-07 | YUMP INTERNATIONAL, Inc. | System and method for motivating a user based on personalized audiovisual sequences |
-
2021
- 2021-04-15 CN CN202110406530.6A patent/CN113076956B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN111612070A (zh) * | 2020-05-13 | 2020-09-01 | 清华大学 | 基于场景图的图像描述生成方法及装置 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
"基于双向注意力机制的图像描述生成";张家硕,等;《中文信息学报》;20200930;第1-2节 * |
"基于知识增强与注意力机制的双通道图像描述研究";陶云松,等;《测试技术学报》;20210131;摘要,第3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN113076956A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN109977234A (zh) | 一种基于主题关键词过滤的知识图谱补全方法 | |
CN111581966B (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN110502361A (zh) | 面向bug报告的细粒度缺陷定位方法 | |
CN110148400A (zh) | 发音类型的识别方法、模型的训练方法、装置及设备 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN113011337B (zh) | 一种基于深度元学习的汉字字库生成方法及系统 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112861524A (zh) | 一种基于深度学习的多层次中文细粒度情感分析方法 | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN114398871A (zh) | 金融实体抽取方法、装置、设备与计算机可读存储介质 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN113076956B (zh) | 一种图像描述生成方法、系统、介质及电子设备 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
CN117237479A (zh) | 基于扩散模型的产品风格自动生成方法、装置及设备 | |
CN116227603A (zh) | 一种事件推理任务的处理方法、设备及介质 | |
CN115438210A (zh) | 文本图像生成方法、装置、终端及计算机可读存储介质 | |
CN113837167A (zh) | 一种文本图像识别方法、装置、设备及存储介质 | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及系统 | |
CN115049899B (zh) | 模型训练方法、指代表达式生成方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |