CN117612170A - 一种结合记忆网络和扩散网络的图像到长文本生成方法 - Google Patents
一种结合记忆网络和扩散网络的图像到长文本生成方法 Download PDFInfo
- Publication number
- CN117612170A CN117612170A CN202410090494.0A CN202410090494A CN117612170A CN 117612170 A CN117612170 A CN 117612170A CN 202410090494 A CN202410090494 A CN 202410090494A CN 117612170 A CN117612170 A CN 117612170A
- Authority
- CN
- China
- Prior art keywords
- semantic
- image
- vector
- memory
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000009792 diffusion process Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 48
- 230000000007 visual effect Effects 0.000 claims abstract description 21
- 230000004044 response Effects 0.000 claims abstract description 13
- 230000003014 reinforcing effect Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000011946 reduction process Methods 0.000 claims description 2
- 230000001427 coherent effect Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及图像描述文本生成技术领域,公开了一种结合记忆网络和扩散网络的图像到长文本生成方法,对于给定图像产生描述文本,包括以下步骤:利用视觉编码器提取图像的视觉特征;利用语义概念预测器处理视觉特征,得到图像的语义特征向量;通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强,得到加强语义特征向量;利用扩散解码器处理视觉特征和加强语义特征向量,生成描述文本。本发明使用语义概念在图像到文本生成过程中传输基本的语义信息,并通过语义记忆网络来增强语义概念表示,以提供精确地控制,引导扩散网络生成全面而连贯的长文本。
Description
技术领域
本发明涉及图像描述文本生成技术领域,具体涉及一种结合记忆网络和扩散网络的图像到长文本生成方法。
背景技术
图像到文本的生成指的是自动生成描述图像的文本内容。现有的方法主要集中在生成短文本,无法生成足够全面和完整的文本内容,往往难以处理需要用长文本来描述丰富和多样化的视觉内容的复杂场景。
本发明提出一种语义记忆指导的扩散网络,来用于图像到长文本的生成,本发明从视觉内容中捕获显著的语义,并通过记忆网络进一步处理和增强,从而促进文本生成过程。
发明内容
为解决上述技术问题,本发明提供一种结合记忆网络和扩散网络的图像到长文本生成方法,本发明使用语义概念在图像到文本生成过程中传输基本的语义信息,并通过语义记忆网络来增强语义概念表示,以提供精确地控制,引导扩散网络生成全面而连贯的长文本。
为解决上述技术问题,本发明采用如下技术方案:
一种结合记忆网络和扩散网络的图像到长文本生成方法,对于给定图像产生描述文本/>,具体包括以下步骤:
步骤一,利用视觉编码器提取图像的视觉特征/>:
;
其中,表示图像/>中的第/>个图像块,/>表示图像/>中的图像块数量,/>表示的是串联操作,/>表示视觉编码器;
步骤二,利用语义概念预测器处理视觉特征,得到图像/>的语义特征向量/>:
;
其中,表示语义概念预测器;
步骤三,通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强,得到加强语义特征向量;语义条件记忆网络包括/>个记忆向量/>;
记忆查询过程包括:将语义特征向量和记忆向量/>映射到同一语义空间,得到向量/>和向量/>:/>,/>,/>和/>为可学习的线性转换矩阵;计算向量/>和向量/>之间的距离/>:/>,/>表示各记忆向量的维度;计算重要性权重/>:/>;
记忆回应过程包括:将向量和语义特征向量/>映射到同一个语义空间,得到向量/>:/>,/>为可学习的线性转换矩阵;通过重要性权重/>得到回应向量表示/>:/>;通过回应向量/>和语义特征向量/>,得到要传递给扩散解码器的加强语义特征向量/>:/>,/>表示正则化操作;
步骤四:利用扩散解码器处理视觉特征和加强语义特征向量/>,生成描述文本。
进一步地,步骤四具体包括:
用高斯噪声初始化/>,并进行迭代降噪得到/>:
;
其中,表示总迭代次数,/>和/>分别表示在第/>次迭代和第/>次迭代时产生的特征向量,/>表示经过降噪过程产生的最终特征向量;
对进行解码操作,得到描述文本/>:
;
其中表示解码操作。
与现有技术相比,本发明的有益技术效果是:
1.本发明使用语义概念作为中间媒介,在图像到文本生成过程中传输语义信息,并利用语义概念预测器来捕获这些信息。
2.通过语义条件记忆网络,使用在最相关的记忆向量中存储的特定图像-文本相关信息来增强语义概念的表示,以提供对扩散网络精确的控制,促进长文本生成过程。
3.将外部语义引导整合到扩散网络,进一步提升扩散网络生成全面而连贯的长文本的能力。
附图说明
图1为本发明所采用的生成模型的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明的图像到长文本生成方法所采用的生成模型结构如图1所示,生成方法的任务是对于给定图像,生成图像的描述文本/>。对于该任务,本发明首先利用视觉编码器得到图像视觉表示向量,然后通过语义概念预测器和语义条件记忆网络捕获并增强图像中的语义信息,最后利用这些信息来指导扩散解码器生成全面而通畅的长文本。
下面对本发明进行详细介绍。
步骤一,利用视觉编码器提取图像的视觉特征/>:
;
其中,表示图像/>中的第/>个图像块,/>表示图像/>中的图像块数量,/>表示的是串联操作,/>表示视觉编码器。
本实施例中的视觉编码器,可以采用残差网络ResNet-101。
步骤二,利用语义概念预测器处理视觉特征,得到图像/>的语义特征向量/>:
;
其中,表示语义概念预测器。
本实施例中的语义概念预测器,可以采用长短期记忆网络LSTM。
步骤三,应用语义条件记忆网络对语义特征向量进行处理来加强该特征,语义条件记忆网络包括一系列的记忆向量,记忆向量是语义条件记忆网络的参数,记为,用于表示记忆语义空间。语义条件记忆网络的处理流程主要由记忆查询过程和记忆回应过程组成。
记忆查询过程包括以下步骤:
S31:首先,通过两个学习到的线性转换矩阵和/>,将/>和/>映射到同一语义空间,得到相对应的向量/>和向量/>:
;
。
S32:计算向量和向量/>之间的距离/>,公式如下:
;
其中表示记忆向量的维度。
S33:通过以下公式计算重要性权重:
。
记忆回应过程包括以下步骤:
S34:首先,通过学习到的线性转换矩阵,将/>映射到和/>同一个语义空间,得到向量/>:
。
S35:然后通过重要性权重得到回应向量表示/>,公式如下:
。
S36:然后通过回应向量和语义特征向量/>,得到要传递给扩散解码器的加强语义特征向量/>:
;
其中表示正则化操作。
步骤四,利用扩散解码器处理视觉特征和加强语义特征向量/>,生成描述文本。
步骤四具体包括以下步骤:
S41:首先用高斯噪声初始化/>,其中/>表示迭代次数,并进行迭代降噪得到/>:
;
S42:将解码,得到描述文本/>:
;
其中表示解码操作。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (2)
1.一种结合记忆网络和扩散网络的图像到长文本生成方法,对于给定图像产生描述文本/>,具体包括以下步骤:
步骤一,利用视觉编码器提取图像的视觉特征/>:
;
其中,表示图像/>中的第/>个图像块,/>表示图像/>中的图像块数量,/>表示的是串联操作,/>表示视觉编码器;
步骤二,利用语义概念预测器处理视觉特征,得到图像/>的语义特征向量/>:
;
其中,表示语义概念预测器;
步骤三,通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强,得到加强语义特征向量;语义条件记忆网络包括/>个记忆向量/>;
记忆查询过程包括:将语义特征向量和记忆向量/>映射到同一语义空间,得到向量/>和向量/>:/>,/>,/>和/>为可学习的线性转换矩阵;计算向量/>和向量/>之间的距离/>:/>,/>表示各记忆向量的维度;计算重要性权重/>:/>;
记忆回应过程包括:将向量和语义特征向量/>映射到同一个语义空间,得到向量/>:,/>为可学习的线性转换矩阵;通过重要性权重/>得到回应向量表示/>:;通过回应向量/>和语义特征向量/>,得到要传递给扩散解码器的加强语义特征向量/>:/>,/>表示正则化操作;
步骤四:利用扩散解码器处理视觉特征和加强语义特征向量/>,生成描述文本/>。
2.根据权利要求1所述的结合记忆网络和扩散网络的图像到长文本生成方法,其特征在于,步骤四具体包括:
用高斯噪声初始化/>,并进行迭代降噪得到/>:
;
其中,表示总迭代次数,/>和/>分别表示在第/>次迭代和第/>次迭代时产生的特征向量,/>表示经过降噪过程产生的最终特征向量;
对进行解码操作,得到描述文本/>:
;
其中表示解码操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410090494.0A CN117612170A (zh) | 2024-01-23 | 2024-01-23 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410090494.0A CN117612170A (zh) | 2024-01-23 | 2024-01-23 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117612170A true CN117612170A (zh) | 2024-02-27 |
Family
ID=89952054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410090494.0A Pending CN117612170A (zh) | 2024-01-23 | 2024-01-23 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612170A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN114387366A (zh) * | 2022-01-14 | 2022-04-22 | 湖南大学 | 一种感知联合空间注意力文本生成图像方法 |
CN114677580A (zh) * | 2022-05-27 | 2022-06-28 | 中国科学技术大学 | 一种基于自适应增强自注意力网络的图像描述方法 |
US20220222956A1 (en) * | 2019-06-27 | 2022-07-14 | Tata Consultancy Services Limited | Intelligent visual reasoning over graphical illustrations using a mac unit |
CN116204674A (zh) * | 2023-04-28 | 2023-06-02 | 中国科学技术大学 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
CN117271816A (zh) * | 2023-09-28 | 2023-12-22 | 广州诺为信息科技有限公司 | 一种基于多模态信息融合的大模型图文生成方法 |
-
2024
- 2024-01-23 CN CN202410090494.0A patent/CN117612170A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
US20220222956A1 (en) * | 2019-06-27 | 2022-07-14 | Tata Consultancy Services Limited | Intelligent visual reasoning over graphical illustrations using a mac unit |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN114387366A (zh) * | 2022-01-14 | 2022-04-22 | 湖南大学 | 一种感知联合空间注意力文本生成图像方法 |
CN114677580A (zh) * | 2022-05-27 | 2022-06-28 | 中国科学技术大学 | 一种基于自适应增强自注意力网络的图像描述方法 |
CN116204674A (zh) * | 2023-04-28 | 2023-06-02 | 中国科学技术大学 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
CN117271816A (zh) * | 2023-09-28 | 2023-12-22 | 广州诺为信息科技有限公司 | 一种基于多模态信息融合的大模型图文生成方法 |
Non-Patent Citations (8)
Title |
---|
ALEX GRAVES ET AL.: "Hybrid computing using a neural network with dynamic external memory", 《NATURE》, vol. 538, 12 October 2016 (2016-10-12) * |
CHANG LIU ET AL.: "SEMANTIC MEMORY GUIDED DIFFUSION NETWORKS FOR IMAGE-TO-LONG TEXT GENERATION", pages 1 - 20, Retrieved from the Internet <URL:https://openreview.net/pdf?id=RAA0vCLMhp> * |
JIANJIE LUO ET AL.: "Semantic-conditional diffusion networks for image captioning", 《ARXIV.ORG》, 6 December 2022 (2022-12-06) * |
JINGJING ZHANG ET AL.: "Fine-tuning with Multi-modal Entity Prompts for News Image Captioning", 《MM\'22: PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, 10 October 2022 (2022-10-10) * |
TING WANG ET AL.: "Improving Image Captioning via Predicting Structured Concepts", 《ARXIV.ORG》, 14 November 2023 (2023-11-14) * |
张乃洲 等: "一种基于文本语义扩展的记忆网络查询建议模型", 《山东大学学报(理学版)》, vol. 58, 31 December 2023 (2023-12-31) * |
邓旭冉 等: "图像内容自动描述技术综述", 《信息安全研究》, vol. 5, 30 November 2019 (2019-11-30) * |
郭宇轩 等: "基于扩散模型的ControlNet网络虚拟试衣研究", 《现代纺织技术》, 25 October 2023 (2023-10-25) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110418210B (zh) | 一种基于双向循环神经网络和深度输出的视频描述生成方法 | |
CN109033095B (zh) | 基于注意力机制的目标变换方法 | |
CN111368118B (zh) | 一种图像描述生成方法、系统、装置和存储介质 | |
CN109871542B (zh) | 一种文本知识提取方法、装置、设备及存储介质 | |
CN113140023B (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
Chen et al. | Controllable image processing via adaptive filterbank pyramid | |
CN116523799B (zh) | 基于多粒度图文语义学习的文本引导图像修复模型及方法 | |
CN110084250A (zh) | 一种图像描述的方法及系统 | |
Zhou et al. | Enhancing detail preservation for customized text-to-image generation: A regularization-free approach | |
CN114780768A (zh) | 一种视觉问答任务处理方法、系统、电子设备及存储介质 | |
Cai et al. | Image neural style transfer: A review | |
CN109635269B (zh) | 一种机器翻译文本的译后编辑方法及装置 | |
Hou et al. | Semi‐supervised image super‐resolution with attention CycleGAN | |
CN115953779B (zh) | 基于文本对抗生成网络的无监督图像描述生成方法 | |
CN117612170A (zh) | 一种结合记忆网络和扩散网络的图像到长文本生成方法 | |
CN117094365A (zh) | 图文生成模型的训练方法、装置、电子设备及介质 | |
CN117292704A (zh) | 基于扩散模型的语音驱动姿势动作生成方法及装置 | |
Zhang et al. | ArtBank: Artistic Style Transfer with Pre-trained Diffusion Model and Implicit Style Prompt Bank | |
Zhang et al. | A broad generative network for two-stage image outpainting | |
CN114049939A (zh) | 一种基于UNet-GAN网络的肺炎CT图像生成方法 | |
Lin et al. | Click-Pixel Cognition Fusion Network With Balanced Cut for Interactive Image Segmentation | |
CN112434143A (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 | |
Cao et al. | An improved defocusing adaptive style transfer method based on a stroke pyramid | |
CN117994708B (zh) | 基于时序一致隐空间引导扩散模型的人体视频生成方法 | |
CN116645287B (zh) | 一种基于扩散模型的图像去模糊方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |