CN113706650A - 一种基于注意力机制和流模型的图像生成方法 - Google Patents
一种基于注意力机制和流模型的图像生成方法 Download PDFInfo
- Publication number
- CN113706650A CN113706650A CN202110993967.4A CN202110993967A CN113706650A CN 113706650 A CN113706650 A CN 113706650A CN 202110993967 A CN202110993967 A CN 202110993967A CN 113706650 A CN113706650 A CN 113706650A
- Authority
- CN
- China
- Prior art keywords
- subtask
- image
- generating
- attention mechanism
- flow model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明的基于注意力机制和流模型的图像生成方法,包括以下步骤:S1.训练数据预处理;S2.将预处理后的训练数据进入子任务一,使用注意力机制提取相关矩阵,用于生成有准确结构信息的中间结果;S3.训练数据进入子任务二,使用流模型预测流场,用于生成具有丰富细节信息的中间结果;S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中,使用内容感知网络生成权重图;以及S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务,使用编码器‑解码器的网络生成人体图像,输出图像。本发明方法能够兼顾结构信息和细节信息,从而获得更佳的生成质量。
Description
技术领域
本发明涉及图像生成和生成对抗网络领域,具体地,涉及一种基于注意力机制和流模型的图像生成方法。
背景技术
随着深度学习和神经网络的不断发展,计算机视觉和图像处理领域受到了广泛的关注。其中,近年来兴起的姿态引导的人体图像生成任务是计算机视觉领域中的一个比较有挑战性和实际功用的课题。它的核心任务是将给定图像中的人物通过一系列的空间变换转换成目标姿态中的样子。这一任务有着诸多的难点,例如生成图像中的结构信息不完整,纹理信息的缺失等等。
在人体图像生成任务刚提出时,大多数方法使用简单的编码器-解码器结构。但由于缺少高效的转换模块,大量有用的信息会在卷积过程中丢失,导致生成图像的质量较低。近几年的人体图像生成方法可以大致分为两种类型。
第一种是基于流的方法,即借助从源图像到目标图像的流场将源图像的像素扭曲到目标姿态对应的位置。这种方法可以更好地保留源图像的纹理细节并生成更逼真的输出。然而,虽然基于流的方法可以对相邻区域的变形建立联系,但很难对长期相关性进行建模,同时,由于有些部位并没有出现在原图像中,这就会导致生成图像的结构并不准确。
另一种方法是使用信息注入的方式,通过将源图像的人体属性解耦为各个语义部位,并提取中每个语义部位的特征,之后将特征解码到目标姿态中对应位置的方式来生成图像。这种方法通常可以生成较为准确的结构,但难以保留原图像各语义部位的清晰纹理。
总而言之,现行的方法虽然可以在某些方面有比较好的表现,但大多难以同时兼顾纹理信息和结构信息。
发明内容
本发明提供了一种基于注意力机制和流模型的图像生成方法,能够兼顾结构信息和细节信息,从而获得更佳的生成质量。
本发明的技术方案如下:
本发明的基于注意力机制和流模型的图像生成方法,包括以下步骤:S1.训练数据预处理;S2.将预处理后的训练数据进入子任务一,使用注意力机制提取相关矩阵,用于生成有准确结构信息的中间结果;S3.训练数据进入子任务二,使用流模型预测流场,用于生成具有丰富细节信息的中间结果;S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中,使用内容感知网络生成权重图;以及S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务,使用编码器-解码器的网络生成人体图像,输出图像。
优选的,在上述基于注意力机制和流模型的图像生成方法中,在步骤S1中,输入图像,进行数据预处理,将训练数据处理为模型需要的大小和格式,生成原图像和目标图像的姿态图。
优选的,在上述基于注意力机制和流模型的图像生成方法中,在步骤S2中,将原图像和目标图像的姿态图输入到子任务一中,使用基于注意力机制的相关矩阵提取器提取不同尺度下原图像和目标图像的姿态图之间的相关矩阵,以平均绝对误差作为损失函数,生成有准确结构信息的中间结果。
优选的,在上述基于注意力机制和流模型的图像生成方法中,在步骤S3中,将原图像、原图像的姿态图和目标图像的姿态图输入到子任务二中,使用流模型预测器预测不同尺度下从原图像到目标图像的姿态图的流场,以采样正确性损失和正则化损失作为损失函数,用于生成具有丰富细节信息的中间结果。
优选的,在上述基于注意力机制和流模型的图像生成方法中,在步骤S4中,步骤S2和步骤S3中所提取的相关矩阵与流场是多尺度的,并且在不同尺度下一一对应地作为子任务三的输入。
优选的,在上述基于注意力机制和流模型的图像生成方法中,在步骤S5中,将原图像和目标图像的姿态图以及子任务一、子任务二和子任务三的生成结果输入到主任务中,生成人体图像。
优选的,在上述基于注意力机制和流模型的图像生成方法中,在步骤S5中,使用相关矩阵和流场对特征图进行扭曲,之后使用权重图对扭曲后的特征图进行逐元素相乘,再将两结果进行逐元素相加;之后将扭曲后的特征图输入到解码器中,为目标姿态特征添加真实的纹理信息,生成具有准确结构信息和丰富纹理细节的人体图像。
根据本发明的技术方案,产生的有益效果是:
本发明的基于注意力机制的相关矩阵提取器,能够有效地学习到目标图像的结构信息,使生成图像具有更准确的结构;基于流模型的流场预测器,能够有效地保留原图像的细节信息。同时权重图生成器,将注意力机制和流模型的优点结合到了一起,生成同时具有准确结构信息和丰富细节信息的结果,提升了生成图的质量。
为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明的基于注意力机制和流模型的图像生成方法的流程图;
图2为本发明的基于注意力机制和流模型的图像生成方法的子任务的网络架构图。
图3为本发明的基于注意力机制和流模型的图像生成方法的主任务的网络架构图。
具体实施方式
为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
本发明的基于注意力机制和流模型的图像生成方法使用了三个子任务来提取结构信息并且保留细节信息。其中主任务使用了子任务。
本发明方法的工作原理为:子任务一.构造一个相关矩阵提取器以提取原图与目标姿态间的相关矩阵用以提取结构信息;子任务二.构造一个基于流模型的流场预测器以预测从原图到目标姿态的流场用以保留细节信息;以及子任务三.构造一个权重图生成器以将相关矩阵提取器和流场预测器生成的中间结果作为输入,预测权重用以综合二者的优势。最后将三个子任务的结果输入到主任务中指导生成具有准确结构和丰富细节的结果。
如附图1所示,本发明的基于注意力机制和流模型的图像生成方法,主要包括以下步骤:
S1.训练数据预处理。输入图像,进行数据预处理,将训练数据处理为模型需要的大小和格式,同时使用现有方法生成原图像和目标图像的姿态图。
S2.预处理后的训练数据进入子任务一,使用注意力机制提取相关矩阵c(如图3所示),用于生成有准确结构信息的中间结果。具体地,如附图2左侧所示,将原图像和目标图像的姿态图(即图2中的目标姿态图)输入到子任务一中,使用基于注意力机制的相关矩阵提取器提取不同尺度下原图像和目标图像的姿态图之间的相关矩阵,以平均绝对误差作为损失函数,生成有准确结构信息的中间结果。
S3.训练数据进入子任务二,使用流模型预测流场w(如图3所示),用于生成具有丰富细节信息的中间结果。具体地,如附图2右侧所示,将原图像、原图像的姿态图和目标图像的姿态图输入到子任务二中,使用流模型预测器预测不同尺度下从原图像到目标图像的姿态图(目标姿态图)的流场,以采样正确性损失和正则化损失作为损失函数,用于生成具有丰富细节信息的中间结果。
在此步骤中,假设所有借助流场的形变都应该是仿射变换。
其中正则化损失的定义如下:
其中Rl为以位置l为中心的n×n图像块,Sl是经过流场扭曲的图像块,可表示为:
S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中,使用内容感知网络生成权重图m(如图3所示),用于选择注意力机制和流模型结果的权重,用以同时保留两种方法的优势。其中,步骤S2和步骤S3中所提取的相关矩阵与流场可以是多尺度的,并且在不同尺度下一一对应地作为子任务三的输入。
S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务,使用编码器-解码器的网络生成人体图像,输出图像。具体地,如附图3所示,将原图像和目标图像的姿态图(目标姿态图)以及子任务一、子任务二和子任务三的生成结果输入到主任务中,生成人体图像。具体地,以子任务一、子任务二和子任务三中分别生成的相关矩阵、流场和权重图作为指导,在扭曲模块中对原图像提取出的特征图进行扭曲。具体地,使用相关矩阵和流场对特征图进行扭曲;之后使用权重图对扭曲后的特征图进行逐元素相乘,再将两结果进行逐元素相加;之后将扭曲后的特征图输入到解码器中,为目标姿态特征添加真实的纹理信息,生成具有准确结构信息和丰富纹理细节的人体图像。
本发明对生成图和真实的目标图像之间使用了感知损失函数从特征相似度上进行了约束,使用了风格损失函数在特征量上进行了约束。同时使用了面部重建损失对生成图的任务面部进行约束,使得生成图中的人脸更接近真实人脸。
本发明提出的方法与现有的图像生成方法相比,在主观和客观方面都具有更好的生成质量,同时具有较强的泛化能力,可以将此方法迁移到其他任务上。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。
Claims (7)
1.一种基于注意力机制和流模型的图像生成方法,其特征在于,包括以下步骤:
S1.训练数据预处理;
S2.将预处理后的训练数据进入子任务一,使用注意力机制提取相关矩阵,用于生成有准确结构信息的中间结果;
S3.训练数据进入子任务二,使用流模型预测流场,用于生成具有丰富细节信息的中间结果;
S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中,使用内容感知网络生成权重图;以及
S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务,使用编码器-解码器的网络生成人体图像,输出图像。
2.根据权利要求1所述的基于注意力机制和流模型的图像生成方法,其特征在于,在步骤S1中,输入图像,进行数据预处理,将所述训练数据处理为模型需要的大小和格式,生成原图像和目标图像的姿态图。
3.根据权利要求1所述的基于注意力机制和流模型的图像生成方法,其特征在于,在步骤S2中,将所述原图像和所述目标图像的姿态图输入到子任务一中,使用基于注意力机制的相关矩阵提取器提取不同尺度下所述原图像和所述目标图像的姿态图之间的相关矩阵,以平均绝对误差作为损失函数,生成有准确结构信息的中间结果。
4.根据权利要求1所述的基于注意力机制和流模型的图像生成方法,其特征在于,在步骤S3中,将原图像、原图像的姿态图和目标图像的姿态图输入到子任务二中,使用流模型预测器预测不同尺度下从原图像到目标图像的姿态图的流场,以采样正确性损失和正则化损失作为损失函数,用于生成具有丰富细节信息的中间结果。
5.根据权利要求1所述的基于注意力机制和流模型的图像生成方法,其特征在于,在步骤S4中,步骤S2和步骤S3中所提取的相关矩阵与流场是多尺度的,并且在不同尺度下一一对应地作为所述子任务三的输入。
6.根据权利要求1所述的基于注意力机制和流模型的图像生成方法,其特征在于,在步骤S5中,将所述原图像和所述目标图像的姿态图以及所述子任务一、所述子任务二和所述子任务三的生成结果输入到所述主任务中,生成人体图像。
7.根据权利要求1所述的基于注意力机制和流模型的图像生成方法,其特征在于,在步骤S5中,使用所述相关矩阵和所述流场对特征图进行扭曲,之后使用所述权重图对扭曲后的特征图进行逐元素相乘,再将两结果进行逐元素相加;之后将扭曲后的特征图输入到解码器中,为目标姿态特征添加真实的纹理信息,生成具有准确结构信息和丰富纹理细节的人体图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993967.4A CN113706650A (zh) | 2021-08-27 | 2021-08-27 | 一种基于注意力机制和流模型的图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993967.4A CN113706650A (zh) | 2021-08-27 | 2021-08-27 | 一种基于注意力机制和流模型的图像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113706650A true CN113706650A (zh) | 2021-11-26 |
Family
ID=78655821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110993967.4A Pending CN113706650A (zh) | 2021-08-27 | 2021-08-27 | 一种基于注意力机制和流模型的图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113706650A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227359A (zh) * | 2022-11-15 | 2023-06-06 | 重庆大学 | 基于注意力和卷积神经网络编解码器的流场预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781736A (zh) * | 2019-09-19 | 2020-02-11 | 杭州电子科技大学 | 基于双流网络将姿态和注意力相结合的行人重识别方法 |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
CN112991494A (zh) * | 2021-01-28 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、计算机设备及计算机可读存储介质 |
CN113283372A (zh) * | 2021-06-09 | 2021-08-20 | 戴姆勒股份公司 | 用于处理人物图像的方法和设备 |
-
2021
- 2021-08-27 CN CN202110993967.4A patent/CN113706650A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781736A (zh) * | 2019-09-19 | 2020-02-11 | 杭州电子科技大学 | 基于双流网络将姿态和注意力相结合的行人重识别方法 |
CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
CN112991494A (zh) * | 2021-01-28 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、计算机设备及计算机可读存储介质 |
CN113283372A (zh) * | 2021-06-09 | 2021-08-20 | 戴姆勒股份公司 | 用于处理人物图像的方法和设备 |
Non-Patent Citations (1)
Title |
---|
YURUI REN等: ""Deep Image Spatial Transformation for Person Image Generation"", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227359A (zh) * | 2022-11-15 | 2023-06-06 | 重庆大学 | 基于注意力和卷积神经网络编解码器的流场预测方法 |
CN116227359B (zh) * | 2022-11-15 | 2024-09-03 | 重庆大学 | 基于注意力和卷积神经网络编解码器的流场预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667399B (zh) | 风格迁移模型的训练方法、视频风格迁移的方法以及装置 | |
US20230072627A1 (en) | Gaze correction method and apparatus for face image, device, computer-readable storage medium, and computer program product face image | |
CN112733797B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN113538441A (zh) | 图像分割模型的处理方法、图像处理方法及装置 | |
CN111209811B (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
US20240037898A1 (en) | Method for predicting reconstructabilit, computer device and storage medium | |
CN115830392A (zh) | 基于改进的YOLOv5的学生行为识别方法 | |
CN113554653A (zh) | 基于互信息校准点云数据长尾分布的语义分割方法 | |
CN117542045B (zh) | 一种基于空间引导自注意力的食品识别方法及系统 | |
CN113361656A (zh) | 一种特征模型的生成方法、系统、设备及存储介质 | |
CN113706650A (zh) | 一种基于注意力机制和流模型的图像生成方法 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
CN110533749B (zh) | 一种动态纹理视频生成方法、装置、服务器及存储介质 | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN115457365A (zh) | 一种模型的解释方法、装置、电子设备及存储介质 | |
Brander et al. | Improving data-scarce image classification through multimodal synthetic data pretraining | |
CN117689890B (zh) | 一种基于晴雾场景的语义分割方法、装置及存储介质 | |
CN116805337B (zh) | 一种基于跨尺度视觉变换网络的人群定位方法 | |
Sedin et al. | 3D Object Detection with Perceiver Adapting the Perceiver Architecture for 3D Object Detection with Automotive Image Data | |
CN117542105A (zh) | 一种课堂教学下低分辨率图像的人脸超分与表情识别方法 | |
CN118015276A (zh) | 一种基于双路多尺度的半监督语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211126 |
|
RJ01 | Rejection of invention patent application after publication |