CN116863032B - 一种基于生成对抗网络的洪涝灾害场景生成方法 - Google Patents
一种基于生成对抗网络的洪涝灾害场景生成方法 Download PDFInfo
- Publication number
- CN116863032B CN116863032B CN202310768422.2A CN202310768422A CN116863032B CN 116863032 B CN116863032 B CN 116863032B CN 202310768422 A CN202310768422 A CN 202310768422A CN 116863032 B CN116863032 B CN 116863032B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- block
- flood disaster
- countermeasure network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 34
- 230000007246 mechanism Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 25
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 241000282414 Homo sapiens Species 0.000 claims description 4
- 230000008485 antagonism Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013519 translation Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000012271 agricultural production Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于生成对抗网络的洪涝灾害场景生成方法,包括:采集洪涝灾害相关信息,建立文本图像对数据集;对文本图像对数据集进行预处理,将文本图像对数据集分为训练集和验证集;根据构建好的生成器和鉴别器形成生成对抗网络模型;使用文本图像对数据集对生成对抗网络模型进行训练;通过生成对抗网络模型,根据文本生成洪涝灾害图像。本发明将文本编码器作为生成器的部分之一,进行预训练,利于生成细粒度更高的高质量图像,在融合块中,文本信息能够在图像分辨率不同的条件下与图像特征进行充分融合,鉴别器损失使用单项输出能够加速生成器收敛,能够生成高质量的洪涝灾害图像,同时能够保证文本与生成图像之间的语义一致性。
Description
技术领域
本发明属于洪涝灾害图像领域,涉及人工智能方向中计算机视觉和自然语言处理相关技术,具体涉及一种基于生成对抗网络的洪涝灾害场景生成方法。
背景技术
洪涝灾害一直在我国是一个待解决的问题,洪涝灾害对我国的农业生产和经济有重大影响,每年我国洪涝灾害对人民、建筑、经济产生直接负面影响,如何预防和减少洪涝灾害对国家和人民的损失是一个需要待解决的重要问题。我国降雨东多西少,降雨分布不均,很容易发生洪涝灾害。当洪涝来临时,很难做出应急反应去减少对人民和国家的损失。为此,需要根据天气和洪涝灾害产生因素相关的指标信息模拟出洪涝灾害来临时的场景,以此做出响应方案来面对洪涝灾害。
随着人工智能技术的进步,GAN网络的出现推进了由计算机视觉与自然语言处理相结合的文本生成图像这一领域,将人类的语言描述转换成图像,在此是构造出洪涝灾害的场景。生成对抗网络模型包含一个生成模型和判别模型,生成模型捕捉样本特征生图像,判别模型则是判别生成的图像是样本图像还是真实图像,以及评判生成图像的语义一致性程度。整个过程二者互相博弈,生成器生成高质量图像的能力越来越强,判别器判别图像真伪的能力越来越强,来达到提高各自能力的目的。当前文本生成图像中还有一些不足与待解决的问题:1.生成的图像质量不高,分辨率低,特别是对于自然灾害中需要更高的分辨率图像来模拟灾害。2.图像与文本语义不一致,生成不了文本描述样式的图像。
所以如何提高图像质量和图像文本之间的语义一致性是文本生成图像待解决的问题。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种基于生成对抗网络的洪涝灾害场景生成方法,能够生成高质量的洪涝灾害图像,同时能够保证文本与生成图像之间的语义一致性。
技术方案:为实现上述目的,本发明提供一种基于生成对抗网络的洪涝灾害场景生成方法,包括如下步骤:
S1:采集洪涝灾害相关信息,建立文本图像对数据集;
S2:对文本图像对数据集进行预处理,将文本图像对数据集分为训练集和验证集;
S3:根据构建好的生成器和鉴别器形成生成对抗网络模型;
S4:使用文本图像对数据集对生成对抗网络模型进行训练,得到训练好的生成对抗网络模型;
S5:通过训练好的生成对抗网络模型,根据文本生成洪涝灾害图像。
所述步骤S1中洪涝灾害相关信息包括洪涝灾害成因因素数据和洪涝灾害图像,其中,洪涝灾害成因因素数据包括致灾因子、孕灾环境、承灾体,其中致灾因子是引起灾害的动力诱因,主要包括平均降雨量、最大雨量等等。孕灾环境是指发生洪涝灾害下的自然环境,包括河网等级和坡度数据,承灾体指标提供人口密度、耕地面积等等;洪涝灾害图像由航拍方式进行获取,并且对图像的拍摄具有随机性。在时间上,在一天内不同时间段获取图像。空间上对农田、森林、山体、城市等不同环境场景进行洪涝灾害的图像捕获。
进一步地,所述步骤S1中文本图像对数据集的建立方式为:将采集的数据与场景描述合并构成文本,并对文本和图像进行预处理和数据增强,构建文本图像对数据集;
文本图像对数据集的建立过程包括如下步骤:
A1:构建文本:对于每张洪涝灾害图像,提供五句人类对图像的描述,并且文本要全面充分地描述出图像的颜色、形状等主要特征,其中文本中还要包括洪涝灾害生成因素的数据,将其与图像的特征描述相结合起来,构建为完整的文本描述;
A2:文本预处理:首先拼写检查纠正防止出现单词拼写错误的情况;然后将词型还原,将拼写不完整的单词还原成完整的单词;同时采用同义词替换、词向量替换、反向翻译等方法进行文本数据增强;
A3:图像预处理:采用中值滤波对图像进行去噪处理;其中实现数据增强的方式有:使用标准化对图像进行图像增强、使用几何变换(平移、翻转、旋转)对图像进行数据增强、使用随机调整亮度对图像进行增强、使用随机调整对比度对图像进行增强,以扩充数据集,获取样本的多样性与数据的多样性。
进一步地,所述步骤A3中的中值滤波的具体算法流程如下:
B1:将含有若干点的滑动窗口即滤波模板在图像中扫描移动,将模板中心对准图的某个像素点与其重合;此步骤的表达式为:
G(x,y)=Med{f(x-k,y-l),(k,l∈W)}
其中f(x,y)为原始图像,g(x,y)为处理后的图像。W为二维模板,为方形区域,可以在图像上滑动。
B2:逐个扫描图像中的像素点,读取模板中对应像素的像素值;
B3:将领域各元素的像素值按从小到大的顺序进行排序;
B4:将排序后的数据最中间的值赋给模板窗口中心位置的像素;如果滤波窗口内含有奇数个元素,中值取排序后数据的中间的值,若滤波窗口内含有偶数个元素,则将排序后的数据取最中间两个的取均值作为中值。
进一步地,所述步骤S3中构建好的生成器包含全连接层、文本编码器、6个融合块、注意力机制细节优化块、卷积层和生成器损失;
文本编码器采用双向LSTM网络结构;融合块由上采样块、2个仿射块和残差块组成;注意力机制细节优化块由注意力机制和图像特征转换器两部分组成;
生成器损失由对抗性损失和DAMSM损失构成,表达式为:
其中s是文本描述,是生成的图像,D()是鉴别器给出的输入图像与输入句子是否匹配的判定,λDA是DAMSM损失的权重;DAMSM损失是用来衡量文本与图像之间的语义一致性。
进一步地,所述融合块的组成和设置如下:
上采样块采用双线性插值法;
仿射块中,包含了以Affine层、ReLU层顺序的结构,一个仿射块有两层这样的结构;Affine层由两个MLP组成,并且句子向量输入每个仿射块中的MLP中;
残差块被设计为两个仿射块中间以及第二块仿射块后加入3x3卷积层。
进一步地,所述上采样块的双线性插值法的具体过程为:
C1:设f(x,y)代表像素点P(x,y)点的像素值;设Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)、Q22=(x2,y2),这四个点为距离目标点(x,y)最近的四个点;
C2:计算x方向的线性插值,表达式为:
Where R1=(x,y1)
Where R1=(x,y2)
C3:计算y方向的线性插值,求出目标点P,表达式为:
C4:最终目标点像素值结果表达式为:
进一步地,所述仿射块中的MLP的具体运行方法为:
D1:两个MLP分别预测语言条件下通道缩放参数γ和移位参数θ,表达式为:
γ=MLP1(e),θ=MLP1(e)
其中,e为句子向量;
D2:先使用参数γ对x进行通道方向标度运算,再使用移位参数θ进行通道方向的移位运算;表达式为:
Affine(xi|e)=γi*xi+θi
其中xi是视觉特征图第i通道信息,e是句子向量,γi和θi是视觉特征图第i通道的缩放参数和移位参数。
进一步地,所述注意力机制细节优化块的运行方法如下:
E1:将单词级特征和初始图像特征一起经过注意力机制筛选具有注意力机制的重要单词;表达式为:
αi=softmax((WiU)R0)
W={Wi|i=0,1,2,...,l-1}
其中R0表示初始图像特征,U是感知层,将单词嵌入W转换到视觉特征的底层公共语义空间中,Wg表示全局特征;
E2:将初始图像特征R0和经过注意力机制输出的全局特征Wg经过图像特征转换器生成第二阶段图像特征;表达式为:
Rg=F(R0,Wg)
其中F是图像特征转换器,Rg为第二阶段图像特征;图像特征转换器由一个Concat块、两个残差块、一个上采样块组成;其中Concat块可以将两个张量按指定维度拼接在一起;残差块由两个3x3卷积层和BN层的组合构成。
进一步地,所述步骤S3中构建好的鉴别器由一个3x3卷积层、6个隐藏块、单向输出构成;其中,
隐藏块包括下采样块和残差块;下采样块采用步长为2的卷积层;残差块的组成为4x4卷积层、ReLU层、3x3卷积层、ReLU层;
单向输出是将句子特征和图像特征Concat结合起来然后通过两个卷积层输出一个对抗性损失;
鉴别器损失使用了匹配感知梯度惩罚(MA-GP)损失相关的对抗性损失:
其中s是文本描述,是不匹配的文本描述,x是对应于s的真实图像,/>是生成的图像,D()是鉴别器给出的输入图像是否与输入句子匹配的判定,λMA和p是MA-GP的超参数。
进一步地,所述步骤S4中生成对抗网络模型的具体训练过程为:
F1:将文本描述输入文本编码器生成句子向量和单词特征;
F2:将正态分布采样的噪声向量输入全连接层重塑成需要的大小尺寸,然后与句子向量一起输入6个融合块生成初始图像特征;
F3:将单词特征和初始图像特征输入注意力机制细节优化块生成第二阶段图像特征;
F4:第二阶段图像特征经过3x3卷积后生成洪涝灾害图像;
F5:在鉴别器中,生成的图像经过卷积层和隐藏块生成图像特征并与句子向量连接经过单向输出计算对抗损失。
有益效果:本发明与现有技术相比,本发明模型将文本编码器作为生成器的部分之一,不固定参数,并使用真实数据图像对进行预训练,生成句子向量和单词特征,能更充分地利用文本信息生成图像;融合块中的仿射块加入ReLU层引入非线性变化,扩大了条件表示空间,更大的表示空间有助于生成器根据文本描述将不同的图像映射到不同的表示,促进了视觉特征的多样性,即促进了模型生成图像的多样性。在融合块中,文本信息能够在图像分辨率不同的条件下与图像特征进行充分融合;鉴别器中使用单向输出能够加速生成器收敛,并且促使生成器合成更真实更符合语义一致性的图像。该模型能够生成高质量的洪涝灾害图像,同时能够保证文本与生成图像之间的语义一致性,对于洪涝灾害的预测具有一定的参考价值。
附图说明
图1为本发明方法的流程示意图。
图2为本发明的模型结构示意图。
图3为融合块结构的示意图。
图4为Affine中的MLP仿射变换原理示意图。
图5为注意力机制细节优化块示意图。
图6为模型训练过程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供一种基于生成对抗网络的洪涝灾害场景生成方法,如图1所示,其包括如下步骤:
S1:采集洪涝灾害相关信息,建立文本图像对数据集:
洪涝灾害相关信息包括洪涝灾害成因因素数据和洪涝灾害图像,其中,洪涝灾害成因因素数据包括致灾因子、孕灾环境、承灾体,其中致灾因子是引起灾害的动力诱因,主要包括平均降雨量、最大雨量等等。孕灾环境是指发生洪涝灾害下的自然环境,包括河网等级和坡度数据,承灾体指标提供人口密度、耕地面积等等;洪涝灾害图像由航拍方式进行获取,并且对图像的拍摄具有随机性。在时间上,在一天内不同时间段获取图像。空间上对农田、森林、山体、城市等不同环境场景进行洪涝灾害的图像捕获。
文本图像对数据集的建立方式为:将采集的数据与场景描述合并构成文本,并对文本和图像进行预处理和数据增强,构建文本图像对数据集;
文本图像对数据集的建立过程包括如下步骤:
A1:构建文本:对于每张洪涝灾害图像,提供五句人类对图像的描述,并且文本要全面充分地描述出图像的颜色、形状等主要特征,其中文本中还要包括洪涝灾害生成因素的数据,将其与图像的特征描述相结合起来,构建为完整的文本描述;
A2:文本预处理:首先拼写检查纠正防止出现单词拼写错误的情况;然后将词型还原,将拼写不完整的单词还原成完整的单词;同时采用同义词替换、词向量替换、反向翻译等方法进行文本数据增强;
A3:图像预处理:采用中值滤波对图像进行去噪处理;其中实现数据增强的方式有:使用标准化对图像进行图像增强、使用几何变换(平移、翻转、旋转)对图像进行数据增强、使用随机调整亮度对图像进行增强、使用随机调整对比度对图像进行增强,以扩充数据集,获取样本的多样性与数据的多样性。
中值滤波的具体算法流程如下:
B1:将含有若干点的滑动窗口即滤波模板在图像中扫描移动,将模板中心对准图的某个像素点与其重合;
此步骤的表达式为:
G(x,y)=Med{f(x-k,y-l),(k,l∈W)}
其中f(x,y)为原始图像,g(x,y)为处理后的图像。W为二维模板,为方形区域,可以在图像上滑动。
B2:逐个扫描图像中的像素点,读取模板中对应像素的像素值;
B3:将领域各元素的像素值按从小到大的顺序进行排序;
B4:将排序后的数据最中间的值赋给模板窗口中心位置的像素;如果滤波窗口内含有奇数个元素,中值取排序后数据的中间的值,若滤波窗口内含有偶数个元素,则将排序后的数据取最中间两个的取均值作为中值。
S2:对文本图像对数据集进行预处理,将文本图像对数据集按照8:2的比例分为训练集和验证集;
S3:根据构建好的生成器和鉴别器形成生成对抗网络模型:
生成对抗网络模型的结构具体如图2所示:
1、生成器包含全连接层、文本编码器、6个融合块、注意力机制细节优化块、卷积层和生成器损失;
文本编码器采用双向LSTM网络结构;融合块由上采样块、2个仿射块和残差块组成;注意力机制细节优化块由注意力机制和图像特征转换器两部分组成;
生成器损失由对抗性损失和DAMSM损失构成,表达式为:
其中s是文本描述,是生成的图像,D()是鉴别器给出的输入图像与输入句子是否匹配的判定,λDA是DAMSM损失的权重;DAMSM损失是用来衡量文本与图像之间的语义一致性。
如图3所示,融合块的组成和设置如下:
上采样块采用双线性插值法;
仿射块中,包含了以Affine层、ReLU层顺序的结构,一个仿射块有两层这样的结构;Affine层由两个MLP组成,并且句子向量输入每个仿射块中的MLP中;
残差块被设计为两个仿射块中间以及第二块仿射块后加入3x3卷积层。
上采样块的双线性插值法的具体过程为:
C1:设f(x,y)代表像素点P(x,y)点的像素值;设Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)、Q22=(x2,y2),这四个点为距离目标点(x,y)最近的四个点;
C2:计算x方向的线性插值,表达式为:
Where R1=(x,y1)
Where R1=(x,y2)
C3:计算y方向的线性插值,求出目标点P,表达式为:
C4:最终目标点像素值结果表达式为:
如图4所示,仿射块中的MLP的具体运行方法为:
D1:两个MLP分别预测语言条件下通道缩放参数γ和移位参数θ,表达式为:
γ=MLP1(e),θ=MLP1(e)
其中,e为句子向量;
D2:先使用参数γ对x进行通道方向标度运算,再使用移位参数θ进行通道方向的移位运算;表达式为:
Affine(xi|e)=γi*xi+θi
其中xi是视觉特征图第i通道信息,e是句子向量,γi和θi是视觉特征图第i通道的缩放参数和移位参数。
如图5所示,注意力机制细节优化块的运行方法如下:
E1:将单词级特征和初始图像特征一起经过注意力机制筛选具有注意力机制的重要单词;表达式为:
αi=softmax((WiU)R0)
W={Wi|i=0,1,2,...,l-1}
其中R0表示初始图像特征,U是感知层,将单词嵌入W转换到视觉特征的底层公共语义空间中,Wg表示全局特征;
E2:将初始图像特征R0和经过注意力机制输出的全局特征Wg经过图像特征转换器生成第二阶段图像特征;表达式为:
Rg=F(R0,Wg)
其中F是图像特征转换器,Rg为第二阶段图像特征;图像特征转换器由一个Concat块、两个残差块、一个上采样块组成;其中Concat块可以将两个张量按指定维度拼接在一起;残差块由两个3x3卷积层和BN层的组合构成。
2、鉴别器由一个3x3卷积层、6个隐藏块、单向输出构成;其中,
隐藏块包括下采样块和残差块;下采样块采用步长为2的卷积层;残差块的组成为4x4卷积层、ReLU层、3x3卷积层、ReLU层;
单向输出是将句子特征和图像特征Concat结合起来然后通过两个卷积层输出一个对抗性损失;
鉴别器损失使用了匹配感知梯度惩罚(MA-GP)损失相关的对抗性损失:
其中s是文本描述,是不匹配的文本描述,x是对应于s的真实图像,/>是生成的图像,D()是鉴别器给出的输入图像是否与输入句子匹配的判定,λMA和p是MA-GP的超参数。
S4:使用文本图像对数据集对生成对抗网络模型进行训练,得到训练好的生成对抗网络模型;
S5:通过训练好的生成对抗网络模型,根据文本生成洪涝灾害图像。
如图6所示,生成对抗网络模型的具体训练过程为:
F1:将文本描述输入文本编码器生成句子向量和单词特征;
F2:将正态分布采样的噪声向量输入全连接层重塑成需要的大小尺寸,然后与句子向量一起输入6个融合块生成初始图像特征;
F3:将单词特征和初始图像特征输入注意力机制细节优化块生成第二阶段图像特征;
F4:第二阶段图像特征经过3x3卷积后生成洪涝灾害图像;
F5:在鉴别器中,生成的图像经过卷积层和隐藏块生成图像特征并与句子向量连接经过单向输出计算对抗损失。
本发明模型将文本编码器作为生成器的部分之一,不固定参数,并使用真实数据图像对进行预训练,生成句子向量和单词特征,能更充分地利用文本信息生成图像;融合块中的仿射块加入ReLU层引入非线性变化,扩大了条件表示空间,更大的表示空间有助于生成器根据文本描述将不同的图像映射到不同的表示,促进了视觉特征的多样性,即促进了模型生成图像的多样性。在融合块中,文本信息能够在图像分辨率不同的条件下与图像特征进行充分融合;鉴别器中使用单向输出能够加速生成器收敛,并且促使生成器合成更真实更符合语义一致性的图像。该模型能够生成高质量的洪涝灾害图像,同时能够保证文本与生成图像之间的语义一致性,对于洪涝灾害的预测具有一定的参考价值。
Claims (6)
1.一种基于生成对抗网络的洪涝灾害场景生成方法,其特征在于,包括如下步骤:
S1:采集洪涝灾害相关信息,建立文本图像对数据集;
S2:对文本图像对数据集进行预处理,将文本图像对数据集分为训练集和验证集;
S3:根据构建好的生成器和鉴别器形成生成对抗网络模型;
S4:使用文本图像对数据集对生成对抗网络模型进行训练,得到训练好的生成对抗网络模型;
S5:通过训练好的生成对抗网络模型,根据文本生成洪涝灾害图像;
所述步骤S1中洪涝灾害相关信息包括洪涝灾害成因因素数据和洪涝灾害图像,其中,洪涝灾害成因因素数据包括致灾因子、孕灾环境、承灾体;洪涝灾害图像由航拍方式进行获取,并且对图像的拍摄具有随机性;
所述步骤S3中构建好的生成器包含全连接层、文本编码器、6个融合块、注意力机制细节优化块、卷积层和生成器损失;
文本编码器采用双向LSTM网络结构;融合块由上采样块、2个仿射块和残差块组成;注意力机制细节优化块由注意力机制和图像特征转换器两部分组成;
生成器损失由对抗性损失和DAMSM损失构成,表达式为:
其中s是文本描述,是生成的图像,D()是鉴别器给出的输入图像与输入句子是否匹配的判定,λDA是DAMSM损失的权重;DAMSM损失是用来衡量文本与图像之间的语义一致性;
所述融合块的组成和设置如下:
上采样块采用双线性插值法;
仿射块中,包含了以Affine层、ReLU层顺序的结构,一个仿射块有两层这样的结构;Affine层由两个MLP组成,并且句子向量输入每个仿射块中的MLP中;
残差块被设计为两个仿射块中间以及第二块仿射块后加入3x3卷积层;
所述注意力机制细节优化块的运行方法如下:
E1:将单词级特征和初始图像特征一起经过注意力机制筛选具有注意力机制的重要单词;表达式为:
αi=softmax((WiU)R0)
W={Wi|i=0,1,2,...,l-1}
其中R0表示初始图像特征,U是感知层,将单词嵌入W转换到视觉特征的底层公共语义空间中,Wg表示全局特征;
E2:将初始图像特征g0和经过注意力机制输出的全局特征Wg经过图像特征转换器生成第二阶段图像特征;表达式为:
Rg=F(R0,Wg)
其中F是图像特征转换器,Rg为第二阶段图像特征;图像特征转换器由一个Concat块、两个残差块、一个上采样块组成;其中Concat块可以将两个张量按指定维度拼接在一起;残差块由两个3x3卷积层和BN层的组合构成;
所述步骤S3中构建好的鉴别器由一个3x3卷积层、6个隐藏块、单向输出构成;其中,
隐藏块包括下采样块和残差块;下采样块采用步长为2的卷积层;残差块的组成为4x4卷积层、ReLU层、3x3卷积层、ReLU层;
单向输出是将句子特征和图像特征Concat结合起来然后通过两个卷积层输出一个对抗性损失;
鉴别器损失使用了匹配感知梯度惩罚损失相关的对抗性损失:
其中s是文本描述,是不匹配的文本描述,x是对应于s的真实图像,/>是生成的图像,D()是鉴别器给出的输入图像是否与输入句子匹配的判定,λMA和p是MA-GP的超参数。
2.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法,其特征在于,所述步骤S1中文本图像对数据集的建立方式为:将采集的数据与场景描述合并构成文本,并对文本和图像进行预处理和数据增强,构建文本图像对数据集;
文本图像对数据集的建立过程包括如下步骤:
A1:构建文本:对于每张洪涝灾害图像,提供人类对图像的描述,并且文本要描述出图像的主要特征,其中文本中还要包括洪涝灾害生成因素的数据,将其与图像的特征描述相结合起来,构建为完整的文本描述;
A2:文本预处理:首先拼写检查纠正防止出现单词拼写错误的情况;然后将词型还原,将拼写不完整的单词还原成完整的单词;同时进行文本数据增强;
A3:图像预处理:采用中值滤波对图像进行去噪处理;其中实现数据增强的方式有:使用标准化对图像进行图像增强、使用几何变换对图像进行数据增强、使用随机调整亮度对图像进行增强、使用随机调整对比度对图像进行增强,以扩充数据集,获取样本的多样性与数据的多样性。
3.根据权利要求2所述的一种基于生成对抗网络的洪涝灾害场景生成方法,其特征在于,所述步骤A3中的中值滤波的具体算法流程如下:
B1:将含有若干点的滑动窗口即滤波模板在图像中扫描移动,将模板中心对准图的某个像素点与其重合;
B2:逐个扫描图像中的像素点,读取模板中对应像素的像素值;
B3:将领域各元素的像素值按从小到大的顺序进行排序;
B4:将排序后的数据最中间的值赋给模板窗口中心位置的像素;如果滤波窗口内含有奇数个元素,中值取排序后数据的中间的值,若滤波窗口内含有偶数个元素,则将排序后的数据取最中间两个的取均值作为中值。
4.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法,其特征在于,所述上采样块的双线性插值法的具体过程为:
C1:设f(x,y)代表像素点P(x,y)点的像素值;设Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)、Q22=(x2,y2),这四个点为距离目标点(x,y)最近的四个点;
C2:计算x方向的线性插值,表达式为:
C3:计算y方向的线性插值,求出目标点P,表达式为:
C4:最终目标点像素值结果表达式为:
5.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法,其特征在于,所述仿射块中的MLP的具体运行方法为:
D1:两个MLP分别预测语言条件下通道缩放参数γ和移位参数θ,表达式为:
γ=MLP1(e),θ=MLP1(e)
其中,e为句子向量;
D2:先使用参数γ对x进行通道方向标度运算,再使用移位参数θ进行通道方向的移位运算;表达式为:
Affine(xi|e)=γi*xi+θi
其中xi是视觉特征图第i通道信息,e是句子向量,γi和θi是视觉特征图第i通道的缩放参数和移位参数。
6.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法,其特征在于,所述步骤S4中生成对抗网络模型的具体训练过程为:
F1:将文本描述输入文本编码器生成句子向量和单词特征;
F2:将正态分布采样的噪声向量输入全连接层重塑成需要的大小尺寸,然后与句子向量一起输入6个融合块生成初始图像特征;
F3:将单词特征和初始图像特征输入注意力机制细节优化块生成第二阶段图像特征;
F4:第二阶段图像特征经过3x3卷积后生成洪涝灾害图像;
F5:在鉴别器中,生成的图像经过卷积层和隐藏块生成图像特征并与句子向量连接经过单向输出计算对抗损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310768422.2A CN116863032B (zh) | 2023-06-27 | 2023-06-27 | 一种基于生成对抗网络的洪涝灾害场景生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310768422.2A CN116863032B (zh) | 2023-06-27 | 2023-06-27 | 一种基于生成对抗网络的洪涝灾害场景生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116863032A CN116863032A (zh) | 2023-10-10 |
CN116863032B true CN116863032B (zh) | 2024-04-09 |
Family
ID=88231413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310768422.2A Active CN116863032B (zh) | 2023-06-27 | 2023-06-27 | 一种基于生成对抗网络的洪涝灾害场景生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863032B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118314246B (zh) * | 2024-06-11 | 2024-08-20 | 西南科技大学 | 一种文本合成图像的训练方法及训练系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489152A (zh) * | 2020-11-04 | 2021-03-12 | 湖南大学 | 一种基于远程相关注意力生成对抗网络的文本生成图像方法 |
CN112818646A (zh) * | 2021-02-26 | 2021-05-18 | 南京邮电大学 | 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 |
CN113052759A (zh) * | 2021-03-31 | 2021-06-29 | 华南理工大学 | 基于mask和自动编码器的场景复杂文本图像编辑方法 |
CN113140019A (zh) * | 2021-05-13 | 2021-07-20 | 电子科技大学 | 一种基于融合弥补生成对抗网络的文本生成图像的方法 |
CN113191375A (zh) * | 2021-06-09 | 2021-07-30 | 北京理工大学 | 一种基于联合嵌入的文本到多对象图像生成方法 |
CN113554212A (zh) * | 2021-06-10 | 2021-10-26 | 中国石油大学(华东) | 基于生成对抗网络的台风图像智能检测系统、计算机设备、存储介质 |
CN113989129A (zh) * | 2021-09-01 | 2022-01-28 | 西安电子科技大学 | 基于门控和上下文注意力机制的图像修复方法 |
CN114022729A (zh) * | 2021-10-27 | 2022-02-08 | 华中科技大学 | 基于孪生网络和监督训练的异源图像匹配定位方法和系统 |
CN115393692A (zh) * | 2022-09-08 | 2022-11-25 | 南京邮电大学 | 基于生成式预训练语言模型的联想文本到图像生成方法 |
CN115496650A (zh) * | 2022-08-25 | 2022-12-20 | 南京邮电大学 | 一种基于生成对抗网络的妆容迁移方法 |
CN115511816A (zh) * | 2022-09-20 | 2022-12-23 | 广东工业大学 | 一种基于生成对抗网络的排水管道缺陷识别方法 |
CN115688579A (zh) * | 2022-11-01 | 2023-02-03 | 福建中锐网络股份有限公司 | 一种基于生成对抗网络的流域多点水位预测预警方法 |
CN115690245A (zh) * | 2022-09-21 | 2023-02-03 | 浙江大学 | 一种基于属性驱动gan的文本生成图像的方法 |
CN115775284A (zh) * | 2022-11-29 | 2023-03-10 | 杭州电子科技大学 | 一种分阶段多路径文本生成图像的网络架构方法 |
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
CN115862039A (zh) * | 2022-12-06 | 2023-03-28 | 辽宁工程技术大学 | 基于多尺度特征的文本生成图像算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3132706A1 (en) * | 2020-10-05 | 2022-04-05 | Bank Of Montreal | Systems and methods for generating flood hazard estimation using machine learning model and satellite data |
-
2023
- 2023-06-27 CN CN202310768422.2A patent/CN116863032B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489152A (zh) * | 2020-11-04 | 2021-03-12 | 湖南大学 | 一种基于远程相关注意力生成对抗网络的文本生成图像方法 |
CN112818646A (zh) * | 2021-02-26 | 2021-05-18 | 南京邮电大学 | 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 |
CN113052759A (zh) * | 2021-03-31 | 2021-06-29 | 华南理工大学 | 基于mask和自动编码器的场景复杂文本图像编辑方法 |
CN113140019A (zh) * | 2021-05-13 | 2021-07-20 | 电子科技大学 | 一种基于融合弥补生成对抗网络的文本生成图像的方法 |
CN113191375A (zh) * | 2021-06-09 | 2021-07-30 | 北京理工大学 | 一种基于联合嵌入的文本到多对象图像生成方法 |
CN113554212A (zh) * | 2021-06-10 | 2021-10-26 | 中国石油大学(华东) | 基于生成对抗网络的台风图像智能检测系统、计算机设备、存储介质 |
CN113989129A (zh) * | 2021-09-01 | 2022-01-28 | 西安电子科技大学 | 基于门控和上下文注意力机制的图像修复方法 |
CN114022729A (zh) * | 2021-10-27 | 2022-02-08 | 华中科技大学 | 基于孪生网络和监督训练的异源图像匹配定位方法和系统 |
CN115496650A (zh) * | 2022-08-25 | 2022-12-20 | 南京邮电大学 | 一种基于生成对抗网络的妆容迁移方法 |
CN115393692A (zh) * | 2022-09-08 | 2022-11-25 | 南京邮电大学 | 基于生成式预训练语言模型的联想文本到图像生成方法 |
CN115511816A (zh) * | 2022-09-20 | 2022-12-23 | 广东工业大学 | 一种基于生成对抗网络的排水管道缺陷识别方法 |
CN115690245A (zh) * | 2022-09-21 | 2023-02-03 | 浙江大学 | 一种基于属性驱动gan的文本生成图像的方法 |
CN115688579A (zh) * | 2022-11-01 | 2023-02-03 | 福建中锐网络股份有限公司 | 一种基于生成对抗网络的流域多点水位预测预警方法 |
CN115775284A (zh) * | 2022-11-29 | 2023-03-10 | 杭州电子科技大学 | 一种分阶段多路径文本生成图像的网络架构方法 |
CN115862039A (zh) * | 2022-12-06 | 2023-03-28 | 辽宁工程技术大学 | 基于多尺度特征的文本生成图像算法 |
CN115797495A (zh) * | 2023-02-07 | 2023-03-14 | 武汉理工大学 | 一种句子-字符语义空间融合感知的文本生成图像的方法 |
Non-Patent Citations (1)
Title |
---|
人工智能在农业风险管理中的应用研究综述;桂泽春 等;智慧农业;20230331;第5卷(第1期);82-98 * |
Also Published As
Publication number | Publication date |
---|---|
CN116863032A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN111292264B (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
CN111242238B (zh) | 一种rgb-d图像显著性目标获取的方法 | |
CN110992238B (zh) | 一种基于双通道网络的数字图像篡改盲检测方法 | |
CN111787187B (zh) | 利用深度卷积神经网络进行视频修复的方法、系统、终端 | |
CN113989129A (zh) | 基于门控和上下文注意力机制的图像修复方法 | |
CN112381716B (zh) | 一种基于生成式对抗网络的图像增强方法 | |
CN116863032B (zh) | 一种基于生成对抗网络的洪涝灾害场景生成方法 | |
CN110197505A (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN113706406A (zh) | 基于特征空间多分类对抗机制的红外可见光图像融合方法 | |
CN116486074A (zh) | 一种基于局部和全局上下文信息编码的医学图像分割方法 | |
Zhang et al. | Dense haze removal based on dynamic collaborative inference learning for remote sensing images | |
CN113689382A (zh) | 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统 | |
CN111652240A (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN116778165A (zh) | 基于多尺度自适应语义分割的遥感影像灾害检测方法 | |
CN114782298A (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
Liang et al. | Method for reconstructing a high dynamic range image based on a single-shot filtered low dynamic range image | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
Liu et al. | An information retention and feature transmission network for infrared and visible image fusion | |
CN116977822A (zh) | 一种融合CNN与Transformer模型的图像识别网络 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
CN117036171A (zh) | 单幅图像的蓝图可分离残差平衡蒸馏超分辨率重建模型及方法 | |
CN114820316A (zh) | 一种基于深度学习的视频图像超分辨率恢复系统 | |
CN113538615A (zh) | 基于双流生成器深度卷积对抗生成网络的遥感图像上色方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |