CN117455752B - 图像调整模型处理方法、装置及电子设备 - Google Patents
图像调整模型处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117455752B CN117455752B CN202311780299.2A CN202311780299A CN117455752B CN 117455752 B CN117455752 B CN 117455752B CN 202311780299 A CN202311780299 A CN 202311780299A CN 117455752 B CN117455752 B CN 117455752B
- Authority
- CN
- China
- Prior art keywords
- sample
- image
- character string
- input image
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 230000002787 reinforcement Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请提供一种图像调整模型处理方法、装置及电子设备,所述图像调整模型包括特征提取模型及大语言模型,所述方法包括:获取第一样本输入图像和第一样本图像调整参数;获得第一样本输入图像特征向量;将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串;将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练,以使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。如此,将图像化的信息转换为字符语言信息进行处理,可以获得数据之间更抽象的上下文关联信息,从而使得后续根据所述大语言模型预测生成的字符串执行图像调整的结果更加准确。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种图像调整模型处理方法、装置及电子设备。
背景技术
随着人工智能技术的发展,通过人工智能模型对图像进行处理被广泛地应用。例如,在一些场景中采用了图像处理模型对输入图像进行调整,例如,对输入的人脸图像执行瘦脸、美颜等调整操作。但是,现有的图像调整模型均是针对图像本身进行特征提取、映射等操作,存在处理图像效果不佳的问题。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种图像调整模型处理方法,所述图像调整模型包括特征提取模型及大语言模型,所述方法包括:
获取第一训练样本,所述第一训练样本包括第一样本输入图像和针对所述第一样本输入图像执行图像调整后得到的第一样本图像调整参数;
对所述第一样本输入图像进行图像特征提取,获得第一样本输入图像特征向量;
对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串;
将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练,以使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。
在一种可能的实现方式中,所述方法还包括:
获取目标输入图像;
对所述目标输入图像进行图像特征提取,获得目标输入图像特征向量;
对所述目标输入图像特征向量进行字符化编码处理,将所述目标输入图像特征向量换为第一目标字符串;
将所述第一目标字符串输入已训练的所述大语言模型进行处理,获得所述大语言模型根据所述第一目标字符串预测输出的第二目标字符串;
对所述第二目标字符串进行解码处理,获得目标图像调整参数;
使用所述目标图像调整参数对所述目标输入图像执行相应的图像调整处理,获得调整后的目标输出图像。
在一种可能的实现方式中,所述方法还包括:
获取第二训练样本,所述第二训练样本包括第二样本输入图像;
对所述第二样本输入图像进行图像特征提取,获得第二样本输入图像特征向量;
对所述第二样本输入图像特征向量进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第三样本字符串;
将所述第三样本字符串输出所述大语言模型进行处理,获得所述大语言模型输出的第四样本字符串;
对所述第四样本字符串进行解码处理,获得第二样本图像调整参数;
使用所述第二样本图像调整参数对所述第二样本输入图像执行相应的图像调整处理,获得调整后的样本输出图像;
根据所述第二样本输入图像和所述样本输出图像,获得图像处理评价数据,并根据所述图像处理评价数据,采用人类反馈强化学习对所述大语言模型的模型参数进行调整。
在一种可能的实现方式中,所述根据所述第二样本输入图像和所述样本输出图像,获得图像处理评价数据,并根据所述图像处理评价数据,采用人类反馈强化学习对所述大语言模型的模型参数进行调整的步骤,包括:
获得同一个所述第二样本输入图像的所述第二样本输入图像特征向量分别多次经所述大语言模型处理后获得的多个所述样本输出图像;
根据所述第二样本输入图像和多个所述样本输出图像,采用人工打分标注的方式获得多个所述样本输出图像对应的图像处理评价数据;
根据多个所述样本输出图像对应的图像处理评价数据,采用人类反馈强化学习对所述大语言模型的模型参数进行调整。
在一种可能的实现方式中,所述对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串的步骤,包括:
分别对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行离散化处理,将所述第一样本输入图像特征向量和所述第一样本图像调整参数转化为设定数值范围的无符号整型数;
分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行编码,将各个所述数据项转换为字符,并分别将所述第一样本输入图像特征向量和所述第一样本图像调整参数对应的多个字符合并为字符串。
在一种可能的实现方式中,所述大语言模型包括大规模的多语言预训练文本到文本转换器mT5模型;
所述分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行编码的步骤,包括:
分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行UTF-16编码。
在一种可能的实现方式中,所述将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练的步骤,包括:
将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,采用掩膜语言建模的方式对待训练的大语言模型进行训练。
本申请的另一目的在于提供一种图像调整模型处理装置,所述图像调整模型处理装置包括:
样本获取模块,用于获取第一训练样本,所述第一训练样本包括第一样本输入图像和针对所述第一样本输入图像执行图像调整后得到的第一样本图像调整参数;
特征提取模块,用于对所述第一样本输入图像进行图像特征提取,获得第一样本输入图像特征向量;
字符化模块,用于对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串;
模型训练模块,用于将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练,以使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。
本申请的另一目的在于提供一种电子设备,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的图像调整模型处理方法。
本申请的另一目的在于提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现本申请提供的图像调整模型处理方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的图像模型处理方法、装置及电子设备,通过将第一样本输入图像的图像特征向量和第一图像调整参数字符化为第一样本字符串和第二样本字符串,然后通过大语言模型学习第一样本字符串和第二样本字符串之间的关联,从而使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。如此,将图像化的信息转换为字符语言信息进行处理,可以获得数据之间更抽象的上下文关联信息,从而使得后续根据所述大语言模型预测生成的字符串执行图像调整的结果更加准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的图像调整模型处理方法的步骤流程示意图之一;
图2为本申请实施例提供的图像调整模型处理方法的步骤流程示意图之二;
图3为本申请实施例提供的图像调整模型处理方法的步骤流程示意图之三;
图4为本申请实施例提供的图像调整系统的示意图;
图5为本申请实施例提供的电子设备的示意图;
图6为本申请实施例提供的图像调整模型处理装置的功能模块示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参见图1,图1为本实施例提供的一种图像调整模型处理方法的步骤流程示意图,下面对该方法进行详细阐述。
步骤S110,获取第一训练样本,所述第一训练样本包括第一样本输入图像和针对所述第一样本输入图像执行图像调整后得到的第一样本图像调整参数。
在本实施例中,可以获取用户提供的原始图像作为所述第一样本输入图像。然后,可以记录用户对所述第一样本输入图像执行的操作获得所述第一样本图像调整参数,或者可以获得用户执行调整后的图像,并根据其与所述第一样本图像的之间的差异获得所述第一样本图像调整参数。
所述第一样本图像调整参数可以用于表征针对所述第一样本输入图像进行的调整,例如,所述第一样本调整调整参数可以包括多个数据项,不同的数据项对应于所述第一样本图像不同位置或者不同图像特性(如,饱和度、亮度、对比度等)。
步骤S120,对所述第一样本输入图像进行图像特征提取,获得第一样本输入图像特征向量。
在本实施例中,可以已通过已训练的特征提取模型对所述第一样本输入图像进行特征提取,所述特征提取模型可以为通用的特征提取模型,在本实施例中不做具体限定。其中,针对不同的第一样本输入图像或者针对后续执行图像调整的关注点,可以选用不同的特征提取模型。例如,若所述第一样本输入图像为人脸图像,后续执行图像调整关注点为对人脸执行美颜调整,则可以选用主要针对人脸特征进行特征提取的特征提取模型。
步骤S130,对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串。
在本实施例中,可以分别对所述第一样本输入图像特征向量和所述第一样本图像调整参数可逆的进行字符化编码处理,从而将数值化的所述第一样本输入图像特征向量和所述第一样本图像调整参数分别转换为第一样本字符串和第二样本字符串。
其中,针对所述第一样本输入图像特征向量和所述第一样本图像调整参数可以采用不同的编码方法,也可以采用相同的编码方法,在本实施例中不做具体限定。
步骤S140,将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练,以使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。
在本实施例中,可以针对将所述第一样本字符串作为训练样本,输入所述大语言模型,使大语言模型对所述第一样本字符串进行特征提取并根据提取到的特征进行映射或预测,从而输出一训练预测样本字符串。
然后根据预设的损失函数根据所述预测样本字符串和所述第二样本字符串之间的差异计算损失值,并以最小化所述损失值为目的调整所述大语言模型的模型参数,从而所述大语言模型可以根据所述第一样本字符串预测获得所述第二样本字符串。
在此基础上,通过上述步骤训练的模型可以用于根据输入的图样预测获得与图像调整参数相关的字符串以用于后续执行图像调整。
具体地,请参照图2,本实施例提供的所述图像调整模型处理方法还可以包括以下步骤。
步骤S210,获取目标输入图像。
在本实施例中,所述目标输入图像可以为使用所述图像调整模型执行图像调整的待处理图像。
步骤S220,对所述目标输入图像进行图像特征提取,获得目标输入图像特征向量。
在本实施例中,可以通过与步骤S120所用相同的特征提取模型对所述目标输入图像进行特征提取处理,获得所述目标输入图像特征向量。
步骤S230,对所述目标输入图像特征向量进行字符化编码处理,将所述目标输入图像特征向量换为第一目标字符串。
在本实施例中,可以采用与步骤S130中对所述第一样本输入图像特征向量相同的字符化编码方法所述目标输入图像特征向量进行字符化编码处理,获得所述第一目标字符串。
步骤S240,将所述第一目标字符串输入已训练的所述大语言模型进行处理,获得所述大语言模型根据所述第一目标字符串预测输出的第二目标字符串。
在本实施例中,可以将所述第一目标字符串输入已训练的所述大语言模型进行处理,所述大语言模型可以对所述第一目标字符串进行特征提取,然后将进行映射或预测处理,获得所述第二目标字符串。
基于步骤S110到步骤S140的训练过程,所述大语言模型能够从语言的角度分析所述第一目标字符串中各字符所表征的数据的上下文联系,并据此输出所述第二目标字符串。相较于现有技术图像处理模型中仅针对图像本身进行特征提取和映射处理,本实施例提供的方案中将图像特征转换为字符串,化用语言模型处理流程中分析字符串上下文联系的方式对字符化以后的图像特征进行处理,从而可以获得更多特征之间的抽象联系,从而使后续预测获得结果更加准确。
步骤S250,对所述第二目标字符串进行解码处理,获得目标图像调整参数。
在本实施例中,可以采用步骤S130中,对所述第一样本图像调整参数进行字符化编码处理对应的解码方法对所述第二目标字符串进行解码处理,从而获得目标图像调整参数。
步骤S260,使用所述目标图像调整参数对所述目标输入图像执行相应的图像调整处理,获得调整后的目标输出图像。
在本实施例中,在通过步骤S210到步骤S250根据所述目标输入图像获得所述目标调整参数后,即可以使用所述目标调整参数对所述目标输入图像执行图像调整动作。
基于上述设计,本申请提供的图像模型处理方法、装置及电子设备,通过将第一样本输入图像的图像特征向量和第一图像调整参数字符化为第一样本字符串和第二样本字符串,然后通过大语言模型学习第一样本字符串和第二样本字符串之间的关联,从而使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。如此,将图像化的信息转换为字符语言信息进行处理,可以获得数据之间更抽象的上下文关联信息,从而使得后续根据所述大语言模型预测生成的字符串执行图像调整的结果更加准确。
在一些可能的实现方式中,请参照图3,本实施例提供的方法还可以包括以下步骤。
步骤S310,获取第二训练样本,所述第二训练样本包括第二样本输入图像。
步骤S320,对所述第二样本输入图像进行图像特征提取,获得第二样本输入图像特征向量。
步骤S330,对所述第二样本输入图像特征向量进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第三样本字符串。
步骤S340,将所述第三样本字符串输出所述大语言模型进行处理,获得所述大语言模型输出的第四样本字符串。
步骤S350,对所述第四样本字符串进行解码处理,获得第二样本图像调整参数。
步骤S360,使用所述第二样本图像调整参数对所述第二样本输入图像执行相应的图像调整处理,获得调整后的样本输出图像。
在本实施例中,在步骤S310到步骤S360中,可以采用与步骤S210到步骤S260相同的处理方式对所述第二样本输入图像进行处理,获得所述样本输出图像。
步骤S370,根据所述第二样本输入图像和所述样本输出图像,获得图像处理评价数据,并根据所述图像处理评价数据,采用人类反馈强化学习对所述大语言模型的模型参数进行调整。
具体地,在步骤S370中,可以将同一个所述第二样本输入图像的所述第二样本输入图像特征向量分别多次经所述大语言模型处理后获得的多个所述样本输出图像。例如,多次采用所述大语言模型对同一个所述第二样本输入图像的所述第二样本输入图像特征向量分别多次处理,获得多个所述样本输出图像。
然后,根据所述第二样本输入图像和多个所述样本输出图像,采用人工打分标注的方式获得多个所述样本输出图像对应的图像处理评价数据。例如,通过人工观察对比所述第二样本输入图像和多个所述样本输出图像,根据所述样本输出图像的美观度对对各所述样本输出图像,获得对应的图像处理评价数据。
接着,根据多个所述样本输出图像对应的图像处理评价数据,采用人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)对所述大语言模型的模型参数进行调整。
可选地,在本实施例中,可以选择部分所述图像调整模型的目标使用户来执行步骤S370中的评价操作。
基于上述设计,结合用户评分通过RLHF对所述大语言模型的模型参数进行微调,可以有效提高所述大语言模型输出结果的准确性,并且使基于其输出结果执行的图像调整动作更符合用户的美学评价标准。
需要说明的是,在本实施例中,所述第二样本图像和所述第一样本图像可以为相同的图像,也可以为不同的图像,在本实施例中不做具体限定。
在一种可能的实现方式中,在步骤S130中可以先分别对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行离散化处理,将所述第一样本输入图像特征向量和所述第一样本图像调整参数转化为设定数值范围的无符号整型数。
然后,分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行编码,将各个所述数据项转换为字符,并分别将所述第一样本输入图像特征向量和所述第一样本图像调整参数对应的多个字符合并为字符串。
具体地,所述大语言模型包括大规模的多语言预训练文本到文本转换器(Massively Multilingual Pre-trained Text-to-Text Transfer Transformer,mT5)模型。在进行编码时,可以分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行UTF-16编码。
需要说明的事,在本实施例中,将图像特征和图像调整参数进行字符化以后获得的字符串可能不具有在已知自然语言的逻辑可理解性,所述大语言模型的处理过程可以视为将输入字符串作为一种新的语言进行字符特征提取和映射,从而学习构建输入字符串和输出字符串之间的联系。所述大语言模型在学习字符之间的上下文关联时,相当于在学习图像特征中各个特征项之间的关联,相较于现有技术中仅针对图像特征本身进行处理的方式,将图像特征转换为字符串按照语言的形式进行分析可以更好地表达特征的全局影响性和特征之间的相互影响,从而提高输出结果的准确性。
在一种可能的实现方式中,在对所述大语言模型进行训练时,可以将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,采用掩膜语言建模的方式对待训练的大语言模型进行训练。如此,在训练过程中掩盖部分字符,可以避免针对部分字符过度拟合,从而提高模型输出的准确性。
请参照图4,本实施例还提供一种图像调整系统,该系统可以包括服务器和用户终端,所述服务器和所述用户终端可以通过网络相互通信连接。在本实施例中,图2所示的步骤可以运行于所述服务器上。
具体地,在步骤S210中,所述服务器可以从所述用户终端获取用户上传的需要执行调整的所述目标输入图像。在步骤S260之后,可以将调整之后的所述目标输出图像发送给所述用户终端。如此,用户可以通过其所述用户终端与所述服务器之间的交互执行图像调整。
在本实施例中,图1所示所述图像调整模型的训练过程和图2训练后的所述图像调整模型的使用过程可以运行在同一个电子设备也可以运行于不同电子设备上。例如,在一个例子中,所述图像调整模型的训练过程和所述图像调整模型的使用过程可以均运行于云端服务器上;或者,在另一个例子中,所述图像调整模型的训练过程可以运行与开发人员电脑上,训练完成后可以再将训练后的所述图像调整模型部署在云端服务器上供用户使用。
在此情况下,请参照图5,本实施例还提供一种电子设备100,该电子设备100可以用于执行图1所示的所述图像调整模型调整方法。所述电子设备100包括图像调整模型处理装置110、机器可读存储介质120、处理器130。
所述机器可读存储介质120、处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述图像调整模型处理装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述电子设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述图像调整模型处理装置110所包括的软件功能模块及计算机程序等。
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。其中,机器可读存储介质120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序/可执行本实施例提供的所述图像调整模型处理方法。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit, 简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图6,本实施例还提供一种图像调整模型处理装置110,图像调整模型处理装置110包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分,图像调整模型处理装置110可以包括样本获取模块111、特征提取模块112、字符化模块113及模型训练模块114。
所述样本获取模块111用于获取第一训练样本,所述第一训练样本包括第一样本输入图像和针对所述第一样本输入图像执行图像调整后得到的第一样本图像调整参数。
本实施例中,所述样本获取模块111可用于执行图1所示的步骤S110,关于所述样本获取模块111的具体描述可参对所述步骤S110的描述。
所述特征提取模块112用于对所述第一样本输入图像进行图像特征提取,获得第一样本输入图像特征向量。
本实施例中,所述特征提取模块112可用于执行图1所示的步骤S120,关于所述特征提取模块112的具体描述可参对所述步骤S120的描述。
所述字符化模块113用于对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串。
本实施例中,所述字符化模块113可用于执行图1所示的步骤S130,关于所述字符化模块113的具体描述可参对所述步骤S130的描述。
所述模型训练模块114用于将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练,以使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。
本实施例中,所述模型训练模块114可用于执行图1所示的步骤S140,关于所述模型训练模块114的具体描述可参对所述步骤S140的描述。
综上所述,本申请提供的图像模型处理方法、装置及电子设备,通过将第一样本输入图像的图像特征向量和第一图像调整参数字符化为第一样本字符串和第二样本字符串,然后通过大语言模型学习第一样本字符串和第二样本字符串之间的关联,从而使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串。如此,将图像化的信息转换为字符语言信息进行处理,可以获得数据之间更抽象的上下文关联信息,从而使得后续根据所述大语言模型预测生成的字符串执行图像调整的结果更加准确。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种图像调整模型处理方法,其特征在于,所述图像调整模型包括特征提取模型及大语言模型,所述方法包括:
获取第一训练样本,所述第一训练样本包括第一样本输入图像和针对所述第一样本输入图像执行图像调整后得到的第一样本图像调整参数;
对所述第一样本输入图像进行图像特征提取,获得第一样本输入图像特征向量;
对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串;
将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练,以使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串;
其中,所述方法还包括:
获取目标输入图像;
对所述目标输入图像进行图像特征提取,获得目标输入图像特征向量;
对所述目标输入图像特征向量进行字符化编码处理,将所述目标输入图像特征向量换为第一目标字符串;
将所述第一目标字符串输入已训练的所述大语言模型进行处理,获得所述大语言模型根据所述第一目标字符串预测输出的第二目标字符串;
对所述第二目标字符串进行解码处理,获得目标图像调整参数;
使用所述目标图像调整参数对所述目标输入图像执行相应的图像调整处理,获得调整后的目标输出图像。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二训练样本,所述第二训练样本包括第二样本输入图像;
对所述第二样本输入图像进行图像特征提取,获得第二样本输入图像特征向量;
对所述第二样本输入图像特征向量进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第三样本字符串;
将所述第三样本字符串输出所述大语言模型进行处理,获得所述大语言模型输出的第四样本字符串;
对所述第四样本字符串进行解码处理,获得第二样本图像调整参数;
使用所述第二样本图像调整参数对所述第二样本输入图像执行相应的图像调整处理,获得调整后的样本输出图像;
根据所述第二样本输入图像和所述样本输出图像,获得图像处理评价数据,并根据所述图像处理评价数据,采用人类反馈强化学习对所述大语言模型的模型参数进行调整。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二样本输入图像和所述样本输出图像,获得图像处理评价数据,并根据所述图像处理评价数据,采用人类反馈强化学习对所述大语言模型的模型参数进行调整的步骤,包括:
获得同一个所述第二样本输入图像的所述第二样本输入图像特征向量分别多次经所述大语言模型处理后获得的多个所述样本输出图像;
根据所述第二样本输入图像和多个所述样本输出图像,采用人工打分标注的方式获得多个所述样本输出图像对应的图像处理评价数据;
根据多个所述样本输出图像对应的图像处理评价数据,采用人类反馈强化学习对所述大语言模型的模型参数进行调整。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串的步骤,包括:
分别对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行离散化处理,将所述第一样本输入图像特征向量和所述第一样本图像调整参数转化为设定数值范围的无符号整型数;
分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行编码,将各个所述数据项转换为字符,并分别将所述第一样本输入图像特征向量和所述第一样本图像调整参数对应的多个字符合并为字符串。
5.根据权利要求4所述的方法,其特征在于,所述大语言模型包括大规模的多语言预训练文本到文本转换器mT5模型;
所述分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行编码的步骤,包括:
分别对所述离散化处理后的所述第一样本输入图像特征向量和所述第一样本图像调整参数中的各个数据项进行UTF-16编码。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练的步骤,包括:
将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,采用掩膜语言建模的方式对待训练的大语言模型进行训练。
7.一种图像调整模型处理装置,其特征在于,所述图像调整模型处理装置包括:
样本获取模块,用于获取第一训练样本,所述第一训练样本包括第一样本输入图像和针对所述第一样本输入图像执行图像调整后得到的第一样本图像调整参数;
特征提取模块,用于对所述第一样本输入图像进行图像特征提取,获得第一样本输入图像特征向量;
字符化模块,用于对所述第一样本输入图像特征向量和所述第一样本图像调整参数进行字符化编码处理,将所述图像特征向量和所述图像调整参数分别转换为第一样本字符串和第二样本字符串;
模型训练模块,用于将所述第一样本字符串作为训练样本,将所述第二样本字符串作为训练标签,对待训练的大语言模型进行训练,以使所述大语言模型根据所述第一样本字符串预测获得所述第二样本字符串;
所述图像调整模型处理装置还用于:
获取目标输入图像;对所述目标输入图像进行图像特征提取,获得目标输入图像特征向量;对所述目标输入图像特征向量进行字符化编码处理,将所述目标输入图像特征向量换为第一目标字符串;将所述第一目标字符串输入已训练的所述大语言模型进行处理,获得所述大语言模型根据所述第一目标字符串预测输出的第二目标字符串;对所述第二目标字符串进行解码处理,获得目标图像调整参数;使用所述目标图像调整参数对所述目标输入图像执行相应的图像调整处理,获得调整后的目标输出图像。
8.一种电子设备,其特征在于,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-6任意一项所述的方法。
9.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311780299.2A CN117455752B (zh) | 2023-12-22 | 2023-12-22 | 图像调整模型处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311780299.2A CN117455752B (zh) | 2023-12-22 | 2023-12-22 | 图像调整模型处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117455752A CN117455752A (zh) | 2024-01-26 |
CN117455752B true CN117455752B (zh) | 2024-04-09 |
Family
ID=89582212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311780299.2A Active CN117455752B (zh) | 2023-12-22 | 2023-12-22 | 图像调整模型处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117455752B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935169A (zh) * | 2023-09-13 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 文生图模型训练方法以及文生图方法 |
CN117218346A (zh) * | 2023-09-12 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、计算机可读存储介质及计算机设备 |
-
2023
- 2023-12-22 CN CN202311780299.2A patent/CN117455752B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218346A (zh) * | 2023-09-12 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、计算机可读存储介质及计算机设备 |
CN116935169A (zh) * | 2023-09-13 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 文生图模型训练方法以及文生图方法 |
Non-Patent Citations (1)
Title |
---|
基于大规模预训练文本图像模型的虚拟试穿方法;祖雅妮 等;丝绸;20230831;第60卷(第88期);第99-106页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117455752A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN110717325B (zh) | 文本的情感分析方法、装置、电子设备及存储介质 | |
CN111382271B (zh) | 文本分类模型的训练方法及装置、文本分类方法及装置 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN112329476A (zh) | 一种文本纠错方法及装置、设备、存储介质 | |
CN111651674B (zh) | 双向搜索方法、装置及电子设备 | |
CN108664464B (zh) | 一种语义相关度的确定方法及确定装置 | |
CN117455752B (zh) | 图像调整模型处理方法、装置及电子设备 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117173269A (zh) | 一种人脸图像生成方法、装置、电子设备和存储介质 | |
CN117038099A (zh) | 医疗类术语标准化方法以及装置 | |
CN117018632A (zh) | 游戏平台智能管理方法、系统及存储介质 | |
CN116702765A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN111144575A (zh) | 舆情预警模型的训练方法、预警方法、装置、设备及介质 | |
CN112801006B (zh) | 表情表征模型的训练方法、面部的表情表征方法及装置 | |
JP2018077677A (ja) | 文字列変換装置、モデル学習装置、方法、及びプログラム | |
CN111428005A (zh) | 标准问答对确定方法、装置及电子设备 | |
CN117540221B (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN112926309B (zh) | 一种安全信息判别方法、装置和电子设备 | |
CN116089589B (zh) | 问句生成方法及装置 | |
CN116681428B (zh) | 电子设备的智能回收管理系统及方法 | |
CN110929508B (zh) | 词向量的生成方法、装置和系统 | |
CN117610529A (zh) | 基于预训练模型的自然语言处理方法以及相关设备 | |
CN114693944A (zh) | 训练方法、图像描述方法及模型 | |
JP2021099805A (ja) | デジタルデータを処理する装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |