CN116935166A - 模型训练方法、图像处理方法及装置、介质、设备 - Google Patents
模型训练方法、图像处理方法及装置、介质、设备 Download PDFInfo
- Publication number
- CN116935166A CN116935166A CN202311009300.1A CN202311009300A CN116935166A CN 116935166 A CN116935166 A CN 116935166A CN 202311009300 A CN202311009300 A CN 202311009300A CN 116935166 A CN116935166 A CN 116935166A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- model
- trained
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000003860 storage Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 15
- 238000003709 image segmentation Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 238000009792 diffusion process Methods 0.000 description 27
- 230000011218 segmentation Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 16
- 238000004519 manufacturing process Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000003708 edge detection Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010923 batch production Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例是关于一种模型训练方法及装置、图像处理方法及装置、电子设备、存储介质,涉及计算机技术领域,该模型训练方法包括:获取样本图像以及所述样本图像对应的样本掩码图像;获取所述样本图像对应的样本边缘图像,并将所述样本边缘图像与所述样本掩码图像进行融合得到样本引导图像;利用所述样本图像、所述样本引导图像以及所述样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。本公开实施例中的技术方案,能够提高模型的准确性。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种模型训练方法及装置、图像处理方法及装置、计算机可读存储介质以及电子设备。
背景技术
用于处理数据的模型的性能通常需要足够多的训练数据迭代训练,但是实际应用中,训练数据的数据质量难以保证,因此需要提高生成的数据的准确性。
相关技术中,可以将生产式网络以及分割网络应用于数据工厂链路中,以基于图像生成大量需要的图像数据。上述方式中,提供的原图和分割数据的准确性较低,使得训练得到的模型的准确性较低,从而导致生成的图像的丰富程度具有一定的局限性,准确性较低且质量较差。
发明内容
本公开的目的在于提供一种模型训练方法及装置、图像处理方法及装置、存储介质、电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的模型准确性较低的问题。
根据本公开的第一方面,提供一种模型训练方法,包括:获取样本图像以及所述样本图像对应的样本掩码图像;获取所述样本图像对应的样本边缘图像,并将所述样本边缘图像与所述样本掩码图像进行融合得到样本引导图像;利用所述样本图像、所述样本引导图像以及所述样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。
根据本公开的第二方面,提供一种图像处理方法,包括:获取待处理图像以及所述待处理图像对应的掩码图像;获取所述待处理图像对应的边缘图像,并将所述边缘图像与所述掩码图像进行融合得到引导图像;将所述待处理图像、所述引导图像以及所述待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像;其中,所述训练后的图像编辑模型根据上述任意一项所述的模型训练方法训练得到。
根据本公开的第三方面,提供一种模型训练装置,包括:图像获取模块,用于获取样本图像以及所述样本图像对应的样本掩码图像;样本引导图像生成模块,用于获取所述样本图像对应的样本边缘图像,并将所述样本边缘图像与所述样本掩码图像进行融合得到样本引导图像;引导训练模块,用于利用所述样本图像、所述样本引导图像以及所述样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。
根据本公开的第四方面,提供一种图像处理装置,包括:图像获取模块,用于获取待处理图像以及所述待处理图像对应的掩码图像;引导图像确定模块,用于获取所述待处理图像对应的边缘图像,并将所述边缘图像与所述掩码图像进行融合得到引导图像;图像生成模块,用于将所述待处理图像、所述引导图像以及所述待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像;其中,所述训练后的图像编辑模型根据上述任意一项所述的模型训练方法训练得到。
根据本公开的第五方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述第一方面的模型训练方法以及第二方面的图像处理方法及其可能的实现方式。
根据本公开的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的模型训练方法以及第二方面的图像处理方法及其可能的实现方式。
本公开实施例中提供的技术方案中,一方面,通过将样本边缘图像以及样本掩码图像进行融合得到样本引导图像,能够实现对图像的细节的提取和融合,增强图像的细节程度;由于在模型训练过程中,考虑到了具有细节信息的样本引导图像,通过利用样本图像、样本引导图像以及样本图像对应的样本描述文本对图像编辑模型进行训练,使用了内部结构更加丰富的图像来实现模型训练,因此在模型训练过程中提高了全面性和准确性,提高了模型训练效果。另一方面,由于根据样本描述文本以及样本引导图像共同来训练模型,避免了相关技术中每个应用场景都需要重新训练模型的问题,提高了模型的通用性和灵活性,增加了应用范围。再一方面,基于训练后的图像编辑模型进行图像处理的过程中,能够提高图像处理的准确性,提高图像处理质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的模型训练方法的应用场景的示意图。
图2示意性示出本公开实施例一种模型训练方法的示意图。
图3示意性示出本公开实施例中确定样本引导图像的流程示意图。
图4示意性示出本公开实施例中一种样本融合图像的示意图。
图5示意性示出本公开实施例中另一种样本融合图像的示意图。
图6A-图6B示意性示出本公开实施例的调整后的样本融合图像的示意图。
图7示意性示出本公开实施例的训练图像编辑模型的流程示意图。
图8示意性示出本公开实施例的一种图像处理方法的流程示意图。
图9示意性示出本公开实施例的根据数据工厂链路得到目标图像的示意图。
图10示意性示出本公开实施例的根据训练后的图像编辑模型生成图像的示意图。
图11示意性示出本公开实施例中进行数据生产的整体流程示意图。
图12示意性示出本公开实施例中通过数据工厂链路进行数据生产的整体流程示意图。
图13示意性示出本公开实施例中生成的目标图像的示意图。
图14示意性示出本公开实施例中一种模型训练装置的框图。
图15示意性示出本公开实施例中一种图像处理装置的框图。
图16示意性示出本公开实施例中电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在当前的分割网络研究中,网络性能的优越表现通常需要足够多的训练数据和长时间的迭代训练。但是训练数据的数量和质量往往难以得到保证。因此,在算法应用的实际场景中,可通过数据工程提供高质量训练数据。数据工程涉及收集、清理、标注和预处理数据的过程,旨在为算法提供准确、丰富且代表性的训练样本。这包括从多个来源收集数据、进行质量验证和筛选、标注数据以生成准确的标签等。因此需要解决数据不平衡、噪声和标注错误等常见问题,以确保训练数据的质量和可靠性。
在本公开的一些实施例中,可通过生成式网络实现数据生产。例如可以使用Stable Diffusion来执行。但是,生成模型的输出结果很大程度上受提示文本和网络超参数配置的影响,在不同的应用场景中,需要重新训练模型或微调超参数才能生成符合要求的输出结果,缺乏灵活性,且训练效率较低。为了实现Diffusion输出的可引导性,并在较短时间内获得高质量的生成结果,可对大型模型进行微调再训练。其中结合了预训练的生产式网络和具体任务的需求,通过微调模型的参数来提升生成输出的质量和控制性。但是在将生产式网络应用于数据工厂链路中,分割网络提供的原图-分割数据对存在误差,可能会导致生成的数据质量较差,因此可能需要额外引入先验信息对输入数据进行数据增强,以补充局部纹理细节。并且,现有的数据工厂链路的效率较低,实用性较差。
为了解决上述技术问题,本公开实施例中提供了一种模型训练方法,可以应用于数据工厂链路中进行自动化数据生成的应用场景中。图1示出了可以应用本公开实施例的模型训练方法及装置的系统架构的示意图。
如图1所示,可以获取样本图像以及样本图像对应的样本掩码图像;然后获取样本图像对应的样本边缘图像,并将所述样本边缘图像与样本掩码图像进行融合得到样本引导图像;接下来利用样本图像、样本引导图像以及样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。进一步地,可以将待处理图像输入至训练后的图像编辑模型,生成与待处理图像对应的目标图像。
需要说明的是,上述模型训练方法可以由服务器执行,并部署在服务器上。例如,可以在服务器上对图像编辑模型进行训练,得到训练后的图像编辑模型。进一步地可以训练后的图像编辑模型来执行后续的模型应用阶段,以实现数据批量生产。
本公开实施例中,提供了一种模型训练方法,可以应用于数据工厂链路中进行数据生产时的模型训练阶段。接下来,参考图2中所示,对本公开实施例中的模型训练方法的各个步骤进行详细说明。
在步骤S210中,获取样本图像以及样本图像对应的样本掩码图像。
本公开实施例中,样本图像可以为任何类型的图像,例如可以为静态图像或者是动态图像,其中包含的对象可以为人物、动物、静物或者是任意类型的对象。掩码图像可以用于提取样本图像中包含的对象。可以通过图像分割算法对样本图像进行分割得到样本图像对应的样本掩码图像。图像分割算法可以为语义分割算法或者是实例分割算法,此处不作具体限定,只要能够实现前景图像和背景图像即可。其中,对于一张样本图像,语义分割能够分割出所有的目标(包括背景),但对于同一类别的目标,无法区别不同个体。实例分割能够将样本图像中除背景之外的所有目标分割出来,并且可以区分同一类别下的不同个体。
基于此,可以通过对样本图像进行语义分割或者是实例分割,获取样本图像对应的前景图像作为样本掩码图像。样本图像和样本掩码图像可以组成一个图像对,并且可以将该图像对作为数据工厂链路中训练图像编辑模型的输入,以实现模型训练和数据生成。
在步骤S220中,获取样本图像对应的样本边缘图像,并将样本边缘图像与样本掩码图像进行融合得到样本引导图像。
本公开实施例中,样本引导图像用于表示生成图像的条件,通过该样本引导图像,可以基于少量图像批量生成受引导的同类型的图像数据,实现数据大批量生产。样本引导图像可以包括样本边缘图像、样本掩码图像、样本边缘图像以及样本掩码图像融合得到的样本融合图像、其他类型的图像中的任意一种,具体根据下游的数据生产任务的精度和要求来确定。
在一些实施例中,可以对样本图像进行分割,并将样本掩码图像表示的分割结果作为用于生成图像的样本引导图像,从而通过少量的分割数据集来建立一个能够批量生成受引导输出的数据工厂链路,以通过这个数据工厂链路的输出可以作为下游任务的输入。
在另一些实施例中,为了能够使得网络从作为引导输入的图像中学习到更多的纹理信息,以及使得图像保留边缘特征,可以将样本图像进行边缘检测得到样本边缘图像,进一步结合样本边缘图像以及样本掩码图像共同来确定样本引导图像。具体地,可以将样本边缘图像以及样本掩码图像进行融合,得到样本融合图像,进一步根据样本融合图像来确定包含纹理细节的样本引导图像。在得到样本融合图像之后,可以直接将样本融合图像作为样本引导图像。或者,为了获取更加精细的边缘分割结果,可以对样本融合图像中的分割边界进行精细调整得到调整后的样本融合图像,进一步将调整后的样本融合图像作为样本引导图像。
图3中示意性示出了根据样本融合图像确定样本引导图像的流程图,参考图3中所示,主要包括以下步骤:
在步骤S310中,将样本图像进行边缘检测,得到样本边缘图像。
本步骤中,可以通过边缘检测模型对样本图像进行边缘检测。边缘检测模型可以为任意类型的能够提取边缘的模型,此处以HED(Holistically-nested Edge Detection)模型为例进行说明。基于此,可以将输出的HED图像作为样本边缘图像。
在一些实施例中,HED模型包含五个层级的特征提取架构,每个层级中,使用卷积层和池化层提取层级特征图;可以将多个层级特征图进行合并,例如可按照通道维度拼接多个层级特征图;进一步使用1*1卷积对多个层级特征图进行卷积操作,以确定出样本边缘图像。
在步骤S320中,对样本边缘图像与样本掩码图像进行融合得到样本融合图像。
本步骤中,可以将样本边缘图像与样本融合图像进行逐像素融合,即将样本边缘图像与样本融合图像的每个像素点的像素值进行像素融合,得到每个像素点的融合后的像素值,进一步根据每个像素点的融合后的像素值确定样本融合图像。需要说明的是,样本图像可以为人物、静物等等。当样本图像为静物时,得到的样本融合图像的效果可以参考图4中所示。当样本图像为人物时,得到的样本融合图像的效果可以参考图5中所示。
在步骤S330中,对样本融合图像的分割边界进行调整,得到调整后的样本融合图像。
本步骤中,在得到样本融合图像之后,为了获得更加精细的边缘分割结果,可以对样本融合图像的分割边界进行精细调整,以进一步提升数据的质量。示例性地,可以采用Matteformer模型来对样本融合图像的分割边界进行精细调整。
在一些实施例中,可获取样本图像对应的三分图像,将三分图像中未知区域包含的先验标记作为全局标记来确定未知区域的像素点的灰度值以得到调整后的样本融合图像。具体地,Matteformer模型可以包含多个编码层以及一个解码层,每个编码层可以包含一个Transformer模块,可以将三分图像中未知区域的先验标记作为每个Transformer模块的Key值和Value值,以进行自注意力操作,从而得到多个隐式特征作为编码层的输出;进一步将多个隐式特征输入至解码层进行解码,得到解码结果。解码结果可以为三分图像中未知区域的每个像素点的灰度值。
具体地,三分图像Trimap具有先验标记,Trimap先验包含了每个Trimap区域的信息,例如前景、背景和未知区域的信息。这些先验标记被用作全局的先验标记,并参与每个Transformer模块的自注意机制。在编码阶段,充分利用了Transformer块中的Trimap信息,使网络能够学习到更具表达能力的隐式特征。
在一些实施例中,可以通过每个编码层分别基于未知区域的先验标记进行多次自注意力操作,得到多个隐式特征;接下来可以对多个隐式特征进行解码,确定未知区域的像素点的灰度值,以得到调整后的样本融合图像。示例性地,先验标记用于指示每个Trimap区域的全局信息,可以为未知区域的灰度值,例如0或1等等。基于此,可以将未知区域的灰度值0或1,转换为0-255的具体灰度值,从而得到调整后的样本融合图像,使得未知区域具有更多的细节特征,提高了细节度。调整后的样本融合图像可以参考图6A和图6B中所示。
基于此,利用先验标记来对样本融合图像进行精细调整的过程中,通过在网络中融入Trimap先验标记,能够更好地理解和捕捉分割边界的细微特征,从而使得边缘分割结果更加精细和准确。能够提高数据处理的质量,并获得更精确更细节的样本融合图像。
在步骤S340中,将调整后的样本融合图像作为样本引导图像。
本步骤中,可以直接将精细调整后的包含纹理细节的样本融合图像作为样本引导图像,能够使得输出的图像更好的保留样本图像的纹理细节,并且能够提高细节准确性。
需要补充的是,也可以直接将样本融合图像作为样本引导图像,而无需对样本融合图像进行精细调整。
本公开实施例中,通过样本融合图像或者是调整后的样本融合图像来确定样本引导图像,能够使得样本引导图像更好地保留图像的纹理细节,从而使得生成的图像具有细节信息,提高了准确性和细节度。
接下来,在步骤S230中,利用样本图像、样本引导图像以及样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。
本公开实施例中,样本描述文本可以包括任意类型的文本。例如可以为句子、短语等包括一个或多个单词的文本,可以用于描述样本图像中包含的语义信息。样本描述文本可以用于表征要生成的图像的内容,具体根据样本图像的信息而确定。可以将样本图像输入至BLIP模型,得到样本图像对应的样本描述文本。样本引导图像用于表征要生成的图像的区域范围。
图像编辑模型可以为扩散模型,也可以为其他任何类型的图像处理模型,此处以扩散模型Stable Diffusion为例进行说明。对于扩散模型而言,采用了扩散过程的思想,能够生成多样化、细节丰富的数据,如图像和文本等。其原理在于:由于每张图像满足一定规律分布,利用文本中包含的这些分布信息作为指导,把一张纯噪声的图片逐步去噪,生成与文本信息匹配的图像。
在一些实施例中,扩散模型包括文本编码器、图像信息创建器以及解码器。文本编码器将输入的文本转换成图像信息创建器可以理解的空间编码,以得到文本特征。其输入是文字串,输出是一系列包含描述文本的文字信息的语义向量。
图像信息创建器中包含多个UNet网络。图像信息创建器中的UNet用于模拟噪声的分布,每一个UNet的输出结果为预测噪声。图像信息创建器中存在前向扩散和后向扩散过程。前向扩散用于实现逐步向样本图像添加随机噪声最终得到一个纯噪声,后向扩散用于基于纯噪声进行去噪以生成图像。示例性地,图像信息创建器的输入可以为纯噪声的图像隐向量(即叠加了随机噪声的样本图像的图像特征),输出可以为去噪的图像隐向量(去噪的图像特征),且该去噪的图像特征为低维图像特征。具体地,可以将文本特征以及样本引导图像对应的引导特征作为控制条件,从纯噪声的图像特征开始迭代进行去噪,并向图像特征中融入文本特征以及引导特征,得到具有语义信息以及引导信息的去噪的图像特征。在进行去噪的过程中,可以将文本特征以及引导特征作为控制条件输入,和时间步一起,以简单连接或者交叉注意力的方式,指导低维度特征的去噪。
解码器用于将低维度特征转换为高维特征,以实现图像生成。基于此,可以将图像信息创建器输出的去噪的图像特征输入解码器中进行解码,以生成具有语义信息和引导信息的图像。
为了提高图像生成的准确性,可以对图像编辑模型进行训练,得到训练后的图像编辑模型。图7中示意性示出了对图像编辑模型进行训练的流程图,参考图7中所示,主要包括以下步骤:
在步骤S710中,基于样本图像、样本引导图像以及样本描述文本对参考图像编辑模型进行训练,得到训练后的参考图像编辑模型。
本公开实施例中,参考图像编辑模型可以为与图像编辑模型类型和参数完全相同的模型,例如依然可以为扩散模型Stable Diffusion。
本公开实施例中,对扩散模型的训练过程进行说明。在训练扩散模型时,无需训练整个网络,而是使用ControlNet的大模型微调方案,采用超网络的设计方法对扩散模型进行参数微调,以使生成网络能够适应特定要求的数据生成任务。示例性地,在训练过程中,冻结扩散模型的梯度更新,并复制一部分网络及其权重作为固定模型,剩余的部分作为非固定模型。接下来,可以对新的扩散模型(参考图像编辑模型)进行训练,逐层微调其对应的参数,进而调整原始扩散模型的参数。即,先固定新的扩散模型中其他网络层的参数不变,以对当前层的参数进行调整。其中,新的扩散模型的初始参数与原始的扩散模型的参数相同。
本公开实施例中,可以根据样本引导图像以及样本描述文本表示的控制条件来可控的逐层调整新的扩散模型的参数,由于可以根据样本引导图像以及样本描述文本等控制条件来调整模型参数,实现可控化模型训练。并且,由于融合图像具备更完整的边缘和细节纹理信息,并且超网络的网络权重设置与原始的扩散模型保持一致,因此可以方便地对原始的扩散模型进行微调,使扩散模型的输出受到超网络的引导,并生成符合要求的图像。
在对参考图像编辑模型进行训练时,可以为样本图像添加随机噪声得到纯噪声的图像隐向量。将样本引导图像、样本描述文本作为控制条件,根据引导特征以及文本特征作为控制条件输入,和时间步特征进行融合,从纯噪声的图像隐向量开始迭代进行去噪,并向图像隐向量中融入文本特征以及引导特征,得到具有语义信息以及引导信息的去噪的图像隐向量,并基于去噪的图像隐向量生成参考图像。参考图像可以为,在样本图像的基础上生成的与样本描述文本以及样本引导图像关联的图像。
在得到参考图像之后,为了评估准确性,可以确定参考图像与样本引导图像以及样本描述文本之间的相关度。具体地,可以计算参考图像与样本引导图像的相似度,以得到二者之间的相关度;也可以计算参考图像与样本描述文本的相似度,以得到二者之间的相关度。在与样本引导图像以及样本描述文本之间的相关度均大于对应的相关度阈值时,可认为相关度满足相关度条件。
接下来,可以根据当前时间步对应的噪声分布、预测噪声分布以及高斯分布确定损失函数。可以将噪声分布、预测噪声分布以及高斯分布进行逻辑组合,得到损失函数,具体参考公式(1)所示:
其中,ε为当前时间步t下的噪声分布,εθ为当前时间步t下网络预测的预测噪声分布,为当前时间步t下的高斯分布方差。
在得到损失函数之后,可以基于损失函数来对参考图像编辑模型进行逐层训练,直至相关度满足相关度条件为止,得到训练后的参考图像编辑模型。
需要说明的是,也可以直接根据样本融合图像训练图像编辑模型,而无需使用Matteformer模型对样本融合图像进行精细调整。在这种情况下,可以在得到训练后的图像编辑模型后,使用训练后的图像编辑模型生成参考图像,进一步使用Matteformer模型对参考图像以及对应的掩码图像进行精细调整,从而实现模型训练。
在步骤S720中,根据训练后的参考图像编辑模型调整图像编辑模型的参数,以得到训练后的图像编辑模型。
本公开实施例中,在将参考图像编辑模型训练完成之后,可以根据训练后的参考图像编辑模型的参数,对图像编辑模型中非固定模型的参数进行调整,并保持图像编辑模型中固定模型的参数不变,从而得到训练后的图像编辑模型。
本公开实施例中,通过将样本边缘图像以及样本掩码图像进行融合得到样本引导图像,并基于样本引导图像以及样本描述文本来对图像编辑模型进行训练,由于样本引导图像中包含了较多的细节信息,因此能够准确地训练图像编辑模型,提高模型的准确性。并且,由于样本引导图像具备更完整的边缘和细节信息,并且图像编辑模型的训练受到参考图像编辑模型的引导,能够确保输出的可控性。除此之外,由于样本引导图像具备更完整的边缘和细节纹理信息,并且超网络的网络权重设置与原始的图像编辑模型保持一致,可以方便地对原模型进行微调,使生成网络的输出受到超网络的引导,提高了模型训练的便捷性和模型训练效率,也提高了模型的通用性和灵活性。通过在工具链路中引入参数微调的方法,能够根据特定要求生成符合要求的图像,提高了数据生成任务的效果。
本公开实施例中,还提供了一种图像处理方法,参考图8中所示,该图像处理方法可以应用于推理阶段,具体包括以下步骤:
在步骤S810中,获取待处理图像以及待处理图像对应的掩码图像;
在步骤S820中,获取待处理图像对应的边缘图像,并将边缘图像与掩码图像进行融合得到引导图像;
在步骤S830中,将待处理图像、引导图像以及待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像。
本公开实施例提供的技术方案中,一方面,由于将边缘图像与掩码图像进行融合得到引导图像,且引导图像中具备更完整的边缘和细节纹理,能够根据准确的输入来生成目标图像,提高了目标图像的准确性和质量。另一方面,能够通过数据工厂链路中的训练后的图像编辑模型对引导图像、描述文本进行处理,实现通过少量待处理图像生成符合引导图像以及描述文本的大量目标图像的数据生产过程,提高了数据生产效率。
接下来,参考图8对本公开实施例中的图像处理方法的每个步骤进行详细说明。
在步骤S810中,获取待处理图像以及待处理图像对应的掩码图像。
本公开实施例中,待处理图像可以为任何类型的图像,其中包含的对象可以为人物、动物、静物或者是任意类型的对象。掩码图像是由0和1组成的一个二进制图像。使用掩码图像可以提取图像中的特定图像。可以通过图像分割算法对待处理图像进行分割得到待处理图像对应的掩码图像。图像分割算法可以为语义分割算法或者是实例分割算法,此处不作具体限定。
基于此,可以将待处理图像和掩码图像组成一个图像对,从而将该图像对作为数据工厂链路的输入,以实现数据生成。
在步骤S820中,获取待处理图像对应的边缘图像,并将边缘图像与掩码图像进行融合得到引导图像。
本公开实施例中,引导图像用于表示对待处理图像进行图像处理的控制条件,引导图像可以表示在待处理图像中进行图像编辑的区域范围。通过该引导图像,可以基于少量图像批量生成受引导的同类型的图像数据,实现数据大批量生产。引导图像可以包括边缘图像、掩码图像、边缘图像以及掩码图像对应的融合图像、其他类型的图像中的任意一种,具体根据下游的数据生产任务的精度和要求来确定。
本公开实施例中,为了能够使得网络从作为引导输入的图像中学习到更多的纹理信息,以及使得图像保留边缘特征,可以将待处理图像进行边缘检测得到边缘图像,进一步结合边缘图像以及掩码图像共同来确定引导图像。具体地,可以将边缘图像以及掩码图像进行融合,得到融合图像,进一步根据融合图像来确定包含纹理细节的引导图像。在得到融合图像之后,可以直接将融合图像作为引导图像。或者,为了获取更加精细的边缘分割结果,可以对融合图像中的分割边界进行精细调整得到调整后的融合图像,进一步根据调整后的融合图像来确定引导图像。
其中,也可以基于HED模型对待处理图像进行边缘提取,得到边缘图像。在进行精细调整时,依然可以采用Matteformer模型来对融合图像的分割边界进行精细调整,具体处理过程与步骤S310至步骤S330中的执行过程相同,此处不再赘述。
进一步地,可以直接将融合图像作为引导图像,也可以将调整后的融合图像作为引导图像,具体根据实际需求进行确定。
在步骤S830中,将待处理图像、引导图像以及待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像。
本公开实施例中,数据工厂链路可以包含多个模型,例如可以包括但不限于BLIP(Bootstrapping Language-Image Pre-training,稳定的图-文本大模型)模型、训练后的图像编辑模型等等。在此基础上,首先可以根据数据工厂链路中的BLIP模型获取描述文本。描述文本可以用于表示需要在待处理图像中生成的图像的信息,具体可以根据待处理图像中包含的信息而确定。例如可以包括但不限于图像中包含的物体、环境、动作、数量、大小、风格等等,具体根据实际需求而确定。例如,将待处理图像输入到BLIP模型中,经过处理后输出与图像场景相对应的文本描述prompt。
进一步地,可以将待处理图像、描述文本以及引导图像作为数据工厂链路中的训练后的图像编辑模型的输入,从而进行图像生成,以基于数据工厂链路实现数据生产。训练后的图像编辑模型可以为训练后的扩散模型,能够实现文本到图像的转换。示例性地,可以将待处理图像、引导图像以及描述文本输入至训练后的图像编辑模型进行图像生成,得到多个生成图像;进一步地,可以确定每个生成图像与待处理图像之间的差异性,并根据差异性从多个生成图像中确定目标图像。参考图9中所示,可以将待处理图像、引导图像以及描述文本作为训练后的图像编辑模型的输入,得到多个生成图像作为输出;进一步对多个生成图像进行筛选,得到目标图像。目标图像的数量可以为一个或者多个,此处不作具体限定。需要说明的是,目标图像的掩码图像,与待处理图像的掩码图像相同,即目标图像与待处理图像为相同类型图像,且二者共享掩码图像。
参考图10中所示,训练后的图像编辑模型中,可以包括文本编码器、图像信息创建器以及解码器。在生成图像的过程中,首先,文本编码器用于将描述文本进行特征提取得到文本特征。接下来,由于是将引导图像和描述文本共同作为控制条件,可以将引导图像对应的引导特征以及文本特征进行融合得到融合特征,结合融合特征对具有随机特征的待处理图像的图像特征以及时间步特征进行拟合,得到中间特征作为图像信息创建器的输出结果。示例性地,将文本特征以及引导特征作为控制条件,从纯噪声的图像隐向量(具有随机噪声的待处理图像的图像特征)开始进行迭代去噪,并向图像特征中融入文本特征以及引导特征,得到具有语义信息以及引导信息的去噪的图像特征。在进行去噪的过程中,可以文本特征以及引导特征作为控制条件输入,和时间步一起,以简单连接或者交叉注意力的方式,指导低维度特征的去噪,从而得到中间特征。进一步地,可以基于解码器对中间特征进行解码,得到多个生成图像。
在得到多个生成图像之后,可以确定生成图像与待处理图像之间的差异性,并根据差异性从多个生成图像中确定目标图像。其中,差异性用于描述生成图像与待处理图像之间的差别的大小。差异性可以根据第一指标以及第二指标中的一种或多种来确定。其中,第一指标可以为PSNR(Peak Signal-to-Noise Ratio,峰值信噪比),第二指标可以为SSIM(Structural SIMilarity,结构相似性)第一指标可以通过公式(2)来计算:
其中,其中为图像可能的最大像素值。如果每个像素都由8位二进制来表示,则/>可以为255。MSE为每个像素点的均方误差,其可以通过公式(3)来计算:
第二指标可以通过公式(4)来确定:
其中x和y分别代表原图像(待处理图像)与生成图像,μx为x的均值,μy为y的均值,σx 2为x的方差,σy 2为y的方差,σxy为x和y的协方差,c1=(k1L)2,c2=(k2L)2为两个常量,L为像素值的范围2B-1,k1=0.01,k2=0.03。
基于此,可以只根据第一指标或者第二指标来确定差异性,也可以将第一指标和第二指标按照权重参数进行加权求和以确定差异性,此处不作具体限定。在得到差异性之后,可以对每个差异性,按照从小到大的顺序进行排列,将排列在前N位的差异性对应的生成图像作为目标图像。目标图像的数量N可以根据实际业务需求进行确定。如果只需要一个目标图像,可以直接将差异性最小的生成图像作为目标图像;也可以将排列在前N位的差异性显示在交互界面上,然后根据用户在交互界面上对生成图像的选择操作来确定出目标图像。
如果需要大量目标图像,且差异性小于差异性阈值的生成图像的数量满足数量条件,可以直接将差异性小于差异性阈值的生成图像均作为目标图像,以便于根据目标图像执行下游任务。如果需要大量目标图像,且差异性小于差异性阈值的生成图像的数量不满足数量条件,可以对图像编辑模型重新进行训练,以根据重新训练后的图像编辑模型重新进行数据生成,从而根据目标图像执行下游任务。
基于此,能够通过图文生成模型以及训练后的图像编辑模型构成的数据工厂链路,自动化批量生成同类数据集,从而得到指定姿态且与输入的待处理图像共享相同掩码图像的数据集合。可以基于待处理图像的原图,确定边缘图像和掩码图像融合得到的引导图像,进一步基于待处理图像和融合图像进行数据生成得到目标图像。进一步地,还可以对目标图像以及掩码图像进行精细调整,以提高准确性。
在得到待处理图像对应的目标图像的数据集合之后,该数据工厂链路输出的可以为目标图像以及目标图像对应的掩码图像组成的图像对,例如<目标图像,掩码图像>。进一步地,可以基于数据工厂链路输出的图像对执行下游任务。下游任务例如可以为图像分割或者是其他类型的操作,具体根据实际业务需求确定。此处以下游任务为图像分割为例进行说明。
示例性地,可以将所有的目标图像以及目标图像对应的掩码图像组成的图像对作为输入,而无需进行标注来对图像分割模型进行训练,从而得到训练后的图像分割模型。其中,由于输出的是目标图像以及对应的掩码图像,无需对目标图像进行再次标注,因此可以基于生成的具有细节信息的目标图像来准确地训练图像分割模型,以完成下游任务。
本公开实施例中,通过引入BLIP模型和扩散模型的结合,实现了自动化的描述文本预测过程。使得网络能够在没有人工干预的情况下进行数据生成任务,并且生成的数据更加符合输入图像的语义和场景特征。进一步地,通过数据工厂链路,能够使用少量的待处理图像生成姿态指定且共享相同掩码图像的数据集合,实现自动化批量生成同类数据的功能。
图11中示意性示出进行数据生产的整体流程图,参考图11中所示,主要包括模型训练阶段以及模型应用阶段,包括以下步骤:
在步骤S1110中,获取样本图像,以及样本图像的样本掩码图像;
在步骤S1120中,获取样本图像对应的样本边缘图像;
在步骤S1130中,将样本边缘图像与样本掩码图像进行融合得到样本引导图像;
在步骤S1140中,获取样本图像对应的样本描述文本;
在步骤S1150中,确定损失函数,并基于损失函数对图像编辑模型进行训练。
在步骤S1160中,判断模型训练是否结束;若是,转至步骤S1170;若否,转至步骤S1110。
在步骤S1170中,得到训练后的图像编辑模型。
在步骤S1180中,将待处理图像、待处理图像对应的引导图像以及描述文本输入至训练后的图像编辑模型。
在步骤S1190中,输出目标图像。
图12中示意性示出通过数据工厂链路进行数据生产的流程图,参考图12中所示,主要包括以下步骤:
在步骤S1202中,获取待处理图像以及掩码图像;
在步骤S1204中,将待处理图像对应的边缘图像以及掩码图像进行融合得到引导图像;
在步骤S1206中,将待处理图像输入BLIP模型得到文本描述;
在步骤S1208中,将待处理图像、文本描述以及引导图像输入至训练后的图像编辑模型中;
在步骤S1210中,共享掩码图像生成目标图像。
本公开实施例中的技术方案,通过将样本边缘图像以及样本掩码图像进行融合得到样本引导图像,并基于样本引导图像以及样本描述文本来对图像编辑模型进行训练,由于样本引导图像中包含了较多的细节信息,因此能够准确地训练图像编辑模型,提高模型的准确性。并且,由于样本引导图像具备更完整的边缘和细节信息,并且图像编辑模型的训练受到参考图像编辑模型的引导,能够确保输出的可控性。除此之外,由于样本引导图像具备更完整的边缘和细节纹理信息,并且超网络的网络权重设置与原始的图像编辑模型保持一致,可以方便地对原模型进行微调,使生成网络的输出受到超网络的引导,提高了模型训练的便捷性和模型训练效率,也提高了模型的通用性和灵活性。通过在工具链路中引入参数微调的方法,能够根据特定要求生成符合要求的图像,提高了数据生成任务的效果。根据数据工厂链路得到的与待处理图像同类型且共享掩码图像的生成图像可以参考图13中所示。
本公开实施例中提供了一种模型训练装置,参考图14中所示,该模型训练装置1400可以包括:图像获取模块1401、样本引导图像生成模块1402以及引导训练模块1403;其中:
图像获取模块1401,可以用于获取样本图像以及所述样本图像对应的样本掩码图像;
样本引导图像生成模块1402,可以用于获取所述样本图像对应的样本边缘图像,并将所述样本边缘图像与所述样本掩码图像进行融合得到样本引导图像;
引导训练模块1403,可以用于利用所述样本图像、所述样本引导图像以及所述样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。
在本公开的一种示例性实施例中,样本引导图像生成模块包括:生成控制模块,用于对所述样本边缘图像与所述样本掩码图像逐像素进行融合得到样本融合图像,并根据所述样本融合图像确定所述样本引导图像。
在本公开的一种示例性实施例中,生成控制模块包括:三分图像获取模块,用于获取所述样本图像对应的三分图像;调整模块,用于根据所述三分图像中未知区域包含的先验标记,确定所述未知区域的像素点的灰度值,以得到调整后的样本融合图像;生成模块,用于将所述调整后的样本融合图像作为所述样本引导图像。
在本公开的一种示例性实施例中,调整模块包括:自注意力操作模块,用于分别基于所述先验标记进行多次自注意力操作,得到多个隐式特征;灰度值确定模块,用于对多个所述隐式特征进行解码,确定所述未知区域的像素点的灰度值,以得到调整后的样本融合图像。
在本公开的一种示例性实施例中,引导训练模块包括:参考训练模块,用于基于所述样本图像、所述样本引导图像以及样本描述文本对参考图像编辑模型进行训练,得到训练后的参考图像编辑模型;微调模块,用于根据所述训练后的参考图像编辑模型调整所述图像编辑模型的参数,以得到所述训练后的图像编辑模型。
在本公开的一种示例性实施例中,参考训练模块包括:参考图像生成模块,用于以所述样本引导图像以及所述样本描述文本作为控制条件,基于所述参考图像编辑模型对所述样本图像进行图像生成得到参考图像;相关度确定模块,用于确定所述样本引导图像以及所述样本描述文本,与所述参考图像之间的相关度;损失函数确定模块,用于根据当前时间步对应的噪声分布、预测噪声分布以及高斯分布确定损失函数;训练控制模块,用于基于所述损失函数对所述参考图像编辑模型进行逐层训练,直至所述相关度满足相关度条件为止,得到所述训练后的参考图像编辑模型。
在本公开的一种示例性实施例中,所述图像编辑模型包括固定模型和非固定模型;微调模块被配置为:根据所述训练后的参考图像编辑模型的参数,对所述图像编辑模型中所述非固定模型的参数进行调整,并保持所述图像编辑模型中所述固定模型的参数不变,以得到所述训练后的图像编辑模型。
本公开实施例中,还提供了一种图像处理装置,参考图15中所示,该图像处理装置1500可以包括:图像获取模块1501、引导图像确定模块1502以及图像生成模块1503;其中:
图像获取模块1501,用于获取待处理图像以及所述待处理图像对应的掩码图像;
引导图像确定模块1502,用于获取所述待处理图像对应的边缘图像,并将所述边缘图像与所述掩码图像进行融合得到引导图像;
图像生成模块1503,用于将所述待处理图像、所述引导图像以及所述待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像;其中,所述训练后的图像编辑模型根据上述任意一项所述的模型训练方法训练得到。
在本公开的一种示例性实施例中,图像生成模块包括:生成图像确定模块,用于将所述待处理图像、所述引导图像以及所述描述文本输入至所述训练后的图像编辑模型进行图像生成,得到多个生成图像;目标图像确定模块,用于确定所述生成图像与所述待处理图像之间的差异性,并根据所述差异性从多个所述生成图像中确定所述目标图像。
在本公开的一种示例性实施例中,生成图像确定模块包括:文本特征提取模块,用于对所述描述文本进行特征提取,得到文本特征;中间特征拟合模块,用于将所述引导图像的引导特征以及所述文本特征进行融合得到融合特征,并结合所述融合特征对具有随机噪声的待处理图像对应的图像特征以及时间步特征进行拟合,得到中间特征;解码模块,用于对所述中间特征进行解码,得到多个生成图像。
在本公开的一种示例性实施例中,目标图像确定模块包括:第一指标确定模块,用于根据所述生成图像的平均像素值与所述待处理图像的任一像素点的像素值,确定第一指标;第二指标确定模块,用于根据所述生成图像与所述待处理图像的像素值对应的参数,确定第二指标;差异性确定模块,用于根据所述第一指标以及所述第二指标中的一个或多个确定所述差异性。
在本公开的一种示例性实施例中,在得到目标图像之后,所述装置还包括:图像分割模型训练模块,用于根据所述目标图像以及所述目标图像对应的掩码图像对图像分割模型进行训练,得到训练后的图像分割模型。
需要说明的是,上述模型训练装置以及图像处理装置中各部分的具体细节在对应方法的部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述移动终端设备。一般的,该电子设备可以包括处理器与存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行上述图像处理方法以及视频文本检索方法。
下面以图16中的移动终端1600为例,对该电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图16中的构造也能够应用于固定类型的设备。
如图16所示,移动终端1600具体可以包括:处理器1601、存储器1602、总线1603、移动通信模块1604、天线1、无线通信模块1605、天线2、显示屏1606、摄像模块1607、音频模块1608、电源模块1609与传感器模块1610。
处理器1601可以包括一个或多个处理单元,例如:处理器1601可以包括AP(Application Processor,应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit,图形处理器)、ISP(Image Signal Processor,图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor,数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit,神经网络处理器)等。本示例性实施方式中的图像处理方法以及视频文本检索方法可以由AP、GPU或DSP来执行,当方法涉及到神经网络相关的处理时,可以由NPU来执行,例如NPU可以加载神经网络参数并执行神经网络相关的算法指令。
编码器可以对图像或视频进行编码(即压缩),以减小数据大小,便于存储或发送。解码器可以对图像或视频的编码数据进行解码(即解压缩),以还原出图像或视频数据。移动终端1600可以支持一种或多种编码器和解码器,例如:JPEG(Joint PhotographicExperts Group,联合图像专家组)、PNG(Portable Network Graphics,便携式网络图形)、BMP(Bitmap,位图)等图像格式,MPEG(Moving Picture Experts Group,动态图像专家组)1、MPEG10、H.1063、H.1064、HEVC(High Efficiency Video Coding,高效率视频编码)等视频格式。
处理器1601可以通过总线1603与存储器1602或其他部件形成连接。
存储器1602可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器1601通过运行存储在存储器1602的指令,执行移动终端1600的各种功能应用以及数据处理。存储器1602还可以存储应用数据,例如存储图像,视频等文件。
移动终端1600的通信功能可以通过移动通信模块1604、天线1、无线通信模块1605、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块1604可以提供应用在移动终端1600上3G、4G、5G等移动通信解决方案。无线通信模块1605可以提供应用在移动终端1600上的无线局域网、蓝牙、近场通信等无线通信解决方案。
显示屏1606用于实现显示功能,如显示用户界面、图像、视频等。摄像模块1607用于实现拍摄功能,如拍摄图像、视频等,且摄像模块中可以包含色温传感器阵列。音频模块1608用于实现音频功能,如播放音频,采集语音等。电源模块1609用于实现电源管理功能,如为电池充电、为设备供电、监测电池状态等。传感器模块1610可以包括一种或多种传感器,用于实现相应的感应检测功能。例如,传感器模块1610可以包括惯性传感器,其用于检测移动终端1600的运动位姿,输出惯性传感数据。
需要说明的是,本公开实施例中还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (16)
1.一种模型训练方法,其特征在于,包括:
获取样本图像以及所述样本图像对应的样本掩码图像;
获取所述样本图像对应的样本边缘图像,并将所述样本边缘图像与所述样本掩码图像进行融合得到样本引导图像;
利用所述样本图像、所述样本引导图像以及所述样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述将所述样本边缘图像与所述样本掩码图像进行融合得到样本引导图像,包括:
对所述样本边缘图像与所述样本掩码图像逐像素进行融合得到样本融合图像,并根据所述样本融合图像确定所述样本引导图像。
3.根据权利要求2所述的模型训练方法,其特征在于,所述根据所述样本融合图像确定所述样本引导图像,包括:
获取所述样本图像对应的三分图像;
根据所述三分图像中未知区域包含的先验标记,确定所述未知区域的像素点的灰度值,以得到调整后的样本融合图像;
将所述调整后的样本融合图像作为所述样本引导图像。
4.根据权利要求3所述的模型训练方法,其特征在于,所述根据所述三分图像中未知区域包含的先验标记,确定所述未知区域的像素点的灰度值,以得到调整后的样本融合图像,包括:
分别基于所述先验标记进行多次自注意力操作,得到多个隐式特征;
对多个所述隐式特征进行解码,确定所述未知区域的像素点的灰度值,以得到调整后的样本融合图像。
5.根据权利要求1所述的模型训练方法,其特征在于,所述利用所述样本图像、所述样本引导图像以及所述样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型,包括:
基于所述样本图像、所述样本引导图像以及所述样本描述文本对参考图像编辑模型进行训练,得到训练后的参考图像编辑模型;
根据所述训练后的参考图像编辑模型调整所述图像编辑模型的参数,以得到所述训练后的图像编辑模型。
6.根据权利要求5所述的模型训练方法,其特征在于,所述基于所述样本图像、所述样本引导图像以及所述样本描述文本对参考图像编辑模型进行训练,得到训练后的参考图像编辑模型,包括:
以所述样本引导图像以及所述样本描述文本作为控制条件,基于所述参考图像编辑模型对所述样本图像进行图像生成得到参考图像;
确定所述样本引导图像以及所述样本描述文本,与所述参考图像之间的相关度;
根据当前时间步对应的噪声分布、预测噪声分布以及高斯分布确定损失函数;
基于所述损失函数对所述参考图像编辑模型进行逐层训练,直至所述相关度满足相关度条件为止,得到所述训练后的参考图像编辑模型。
7.根据权利要求5所述的模型训练方法,其特征在于,所述图像编辑模型包括固定模型和非固定模型;
所述根据所述训练后的参考图像编辑模型调整所述图像编辑模型的参数,以得到所述训练后的图像编辑模型,包括:
根据所述训练后的参考图像编辑模型的参数,对所述图像编辑模型中所述非固定模型的参数进行调整,并保持所述图像编辑模型中所述固定模型的参数不变,以得到所述训练后的图像编辑模型。
8.一种图像处理方法,其特征在于,包括:
获取待处理图像以及所述待处理图像对应的掩码图像;
获取所述待处理图像对应的边缘图像,并将所述边缘图像与所述掩码图像进行融合得到引导图像;
将所述待处理图像、所述引导图像以及所述待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像;其中,所述训练后的图像编辑模型根据权利要求1-7中任意一项所述的模型训练方法训练得到。
9.根据权利要求8所述的图像处理方法,其特征在于,所述将所述待处理图像、所述引导图像以及所述待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像,包括:
将所述待处理图像、所述引导图像以及所述描述文本输入至所述训练后的图像编辑模型进行图像生成,得到多个生成图像;
确定所述生成图像与所述待处理图像之间的差异性,并根据所述差异性从多个所述生成图像中确定所述目标图像。
10.根据权利要求9所述的图像处理方法,其特征在于,所述将所述待处理图像、所述引导图像以及所述描述文本输入至所述训练后的图像编辑模型进行图像生成,得到多个生成图像,包括:
对所述描述文本进行特征提取,得到文本特征;
将所述引导图像的引导特征以及所述文本特征进行融合得到融合特征,并结合所述融合特征对具有随机噪声的待处理图像对应的图像特征以及时间步特征进行拟合,得到中间特征;
对所述中间特征进行解码,得到多个生成图像。
11.根据权利要求9所述的图像处理方法,其特征在于,确定所述生成图像与所述待处理图像之间的差异性,包括:
根据所述生成图像的平均像素值与所述待处理图像的任一像素点的像素值,确定第一指标;
根据所述生成图像与所述待处理图像的像素值对应的参数,确定第二指标;
根据所述第一指标以及所述第二指标中的一个或多个确定所述差异性。
12.根据权利要求8所述的图像处理方法,其特征在于,在得到目标图像之后,所述方法还包括:
根据所述目标图像以及所述目标图像对应的掩码图像对图像分割模型进行训练,得到训练后的图像分割模型。
13.一种模型训练装置,其特征在于,包括:
图像获取模块,用于获取样本图像以及所述样本图像对应的样本掩码图像;
样本引导图像生成模块,用于获取所述样本图像对应的样本边缘图像,并将所述样本边缘图像与所述样本掩码图像进行融合得到样本引导图像;
引导训练模块,用于利用所述样本图像、所述样本引导图像以及所述样本图像对应的样本描述文本对图像编辑模型进行训练,得到训练后的图像编辑模型。
14.一种图像处理装置,其特征在于,包括:
图像获取模块,用于获取待处理图像以及所述待处理图像对应的掩码图像;
引导图像确定模块,用于获取所述待处理图像对应的边缘图像,并将所述边缘图像与所述掩码图像进行融合得到引导图像;
图像生成模块,用于将所述待处理图像、所述引导图像以及所述待处理图像对应的描述文本输入至训练后的图像编辑模型,得到目标图像;其中,所述训练后的图像编辑模型根据权利要求1-7中任意一项所述的模型训练方法训练得到。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的模型训练方法或权利要求8-12任意一项所述的图像处理方法。
16.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任意一项所述的模型训练方法或权利要求8-12任意一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311009300.1A CN116935166A (zh) | 2023-08-10 | 2023-08-10 | 模型训练方法、图像处理方法及装置、介质、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311009300.1A CN116935166A (zh) | 2023-08-10 | 2023-08-10 | 模型训练方法、图像处理方法及装置、介质、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935166A true CN116935166A (zh) | 2023-10-24 |
Family
ID=88384374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311009300.1A Pending CN116935166A (zh) | 2023-08-10 | 2023-08-10 | 模型训练方法、图像处理方法及装置、介质、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935166A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351227A (zh) * | 2023-11-27 | 2024-01-05 | 西交利物浦大学 | 甲骨字图片生成模型的训练、甲骨字图片生成方法及装置 |
-
2023
- 2023-08-10 CN CN202311009300.1A patent/CN116935166A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351227A (zh) * | 2023-11-27 | 2024-01-05 | 西交利物浦大学 | 甲骨字图片生成模型的训练、甲骨字图片生成方法及装置 |
CN117351227B (zh) * | 2023-11-27 | 2024-03-08 | 西交利物浦大学 | 甲骨字图片生成模型的训练、甲骨字图片生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN113487618A (zh) | 人像分割方法、装置、电子设备及存储介质 | |
CN113963409A (zh) | 一种人脸属性编辑模型的训练以及人脸属性编辑方法 | |
CN114239717A (zh) | 模型训练方法、图像处理方法及装置、电子设备、介质 | |
CN116935166A (zh) | 模型训练方法、图像处理方法及装置、介质、设备 | |
CN111724400A (zh) | 视频自动抠像方法及系统 | |
CN112288816B (zh) | 位姿优化方法、位姿优化装置、存储介质与电子设备 | |
CN113034648A (zh) | 图像处理方法、装置、设备和存储介质 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
CN115481283A (zh) | 音视频特征提取方法、装置、电子设备及计算机可读存储介质 | |
CN113689372A (zh) | 图像处理方法、设备、存储介质及程序产品 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN114494942A (zh) | 视频分类方法及装置、存储介质及电子设备 | |
US11526972B2 (en) | Simultaneously correcting image degradations of multiple types in an image of a face | |
CN114139703A (zh) | 知识蒸馏方法及装置、存储介质及电子设备 | |
CN113409803B (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN113658122A (zh) | 图像质量评价方法、装置、存储介质与电子设备 | |
CN116824005A (zh) | 图像处理方法及装置、存储介质以及电子设备 | |
CN117218346A (zh) | 图像生成方法、装置、计算机可读存储介质及计算机设备 | |
CN112200817A (zh) | 基于图像的天空区域分割和特效处理方法、装置及设备 | |
CN116206314A (zh) | 模型训练方法、公式识别方法、装置、介质及设备 | |
CN115905613A (zh) | 音视频多任务学习、评估方法、计算机设备及介质 | |
CN113706572B (zh) | 一种基于查询向量的端到端的全景图像分割方法 | |
CN115272660A (zh) | 一种基于双流神经网络的唇语识别方法及系统 | |
CN116644783A (zh) | 模型训练方法、对象处理方法及装置、电子设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |