CN117521601A - 一种文本生成图片的方法、装置、电子设备和存储介质 - Google Patents
一种文本生成图片的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117521601A CN117521601A CN202311611098.XA CN202311611098A CN117521601A CN 117521601 A CN117521601 A CN 117521601A CN 202311611098 A CN202311611098 A CN 202311611098A CN 117521601 A CN117521601 A CN 117521601A
- Authority
- CN
- China
- Prior art keywords
- picture
- network model
- instance
- text
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 111
- 238000012549 training Methods 0.000 claims abstract description 65
- 239000000463 material Substances 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 78
- 238000005192 partition Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000283973 Oryctolagus cuniculus Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种文本生成图片的方法、装置、电子设备和存储介质,该方法包括:获取多组训练样本对;每组训练样本对包括一个图片的文本令牌和图片令牌;应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数;应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照;基于实例分割快照和指定实例素材,计算内容损失函数;根据自回归变压器损失函数和内容损失函数计算总损失函数;应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件;应用训练好的网络模型对待推理文本进行处理,生成对应的图片,实现更个性化的图片生成。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本生成图片的方法、装置、电子设备和存储介质。
背景技术
在广告、设计、虚拟现实以及人工智能等领域中,文本生成图片的应用越来越广泛,目的是将文本描述或者指令转换成逼真的图像,以实现文本自动化生成图像。
相关技术中,在根据文本生成图片的过程中,通常是随机生成实例图像,无法满足用户对实例的个性化需求。
发明内容
本申请示例性的实施方式中提供一种文本生成图片的方法、装置、电子设备和存储介质,用以满足文本生成图片的个性化需求。
根据示例性的实施方式中的第一方面,提供一种文本生成图片的方法,该方法包括:
获取多组训练样本对;其中,每组训练样本对包括一个图片的文本令牌和图片令牌;
应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数;
应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照;
基于实例分割快照和指定实例素材,计算内容损失函数;
根据自回归变压器损失函数和内容损失函数计算总损失函数;
应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件;
应用训练好的网络模型,对待推理文本进行处理,生成对应的图片。
根据示例性的实施方式中的第二方面,提供一种文本生成图片的装置,包括:
数据获取模块,用于:获取多组训练样本对;其中,每组训练样本对包括一个图片的文本令牌和图片令牌;
训练模块,用于:应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数;
实例分割模块,用于:应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照;
损失函数计算模块,用于:基于实例分割快照和指定实例素材,计算内容损失函数;
损失函数计算模块,还用于:根据自回归变压器损失函数和内容损失函数计算总损失函数;
参数更新模块,用于:应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件;
推理模块,用于:应用训练好的网络模型,对待推理文本进行处理,生成对应的图片。
根据示例性的实施方式中的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种方法的步骤。
根据示例性的实施方式中的第四方面,提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,当指令在计算机上运行时,使得计算机执行如第一方面的方法。
本申请实施例中,为了提高文本生成图片过程的准确度,构建图片令牌和文字令牌作为训练样本,其中,每组训练样本对包括一个图片的文本令牌和图片令牌。首先,应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。为了将添加指定素材示例,应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照,再基于实例分割快照和指定实例素材,计算内容损失函数,进而根据自回归变压器损失函数和内容损失函数计算总损失函数;应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件;应用训练好的网络模型对待推理文本进行处理,生成对应的图片。因此,不在局限于生成随机图片,可以准确指定所需的实例素材,使得能够根据指定实例素材生成图片,高效且准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了本申请实施例提供的一种文本生成图片的示意图;
图2示例性示出了本申请实施例提供的一种文本生成图片的方法的流程图;
图3示例性示出了本申请实施例提供的一种自适应变压器网络模型的结构示意图;
图4示例性示出了本申请实施例提供的一种实例分割网络模型的分割过程示意图;
图5示例性示出了本申请实施例提供的一种完整的文本生成图片的方法的流程图;
图6示例性示出了本申请实施例提供的一种文本生成图片的装置的结构示意图;
图7示例性示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
(1)令牌:在计算机科学和网络安全领域,Token通常指的是一种用于身份验证和授权的令牌。这种令牌是用于验证用户身份并授予他们访问特定资源或执行特定操作的权限。本申请实施例中,文本令牌是用于描述文本的数据,图片令牌是用于描述图片的数据。
(2)生成式预训练Transformer模型GPT(generative pre-trained transformer,GPT模型):一种自然语言处理模型,能够根据输入的文本提示来生成连贯的自然语言文本。常用于各种文本生成任务,如文章摘要、对话生成、文档自动化等。
(3)量子化自编码器模型(vector quantized variational autoencoder,VQ-VAE)模型:一种深度学习生成模型,用于学习数据的潜在表示。它由编码器和解码器组成,编码器将输入数据映射到潜在空间的概率分布中,解码器将潜在变量样本重建为原始数据。
(4)掩膜R-CNN(mask region-based convolutional neural network,Mask R-CNN)模型:一种深度学习计算机视觉模型,结合了目标检测和对象实例分割,能够在图像中识别对象并为每个对象的每个像素分配精确的掩膜,用于实现精细的对象分割。
在广告、设计、虚拟现实以及人工智能等领域中,文本生成图片的应用越来越广泛,目的是将文本描述或者指令转换成逼真的图像,以实现文本自动化生成图像。
相关技术中,在根据文本生成图片的过程中,通常是随机生成实例图像,无法满足用户对实例的个性化需求。另外,现有技术中也缺乏对指定实例素材的精确控制。
为此,本申请实施例提供了一种改进的文本生成图片的方法,该方法中,引入实例分割网络模型,并基于实例分割快照和指定实例素材计算内容损失函数,对输出目标图片的自回归变压器损失函数进行更新,得到总损失函数,基于总损失函数继续训练,对模型参数。可以应用训练好的网络模型进行推理,生成的图片更符合用户对指定实例素材的个性化需求。允许根据指定实例素材生成文字与图像之间的有机联系,解决了现有技术中只能使用文本生成随机实例图像,而不能指定特定实例素材进行图像生成的问题。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参考图1,示出了一种文本生成图片的应用场景图,其中,文本为“请显示一只兔子”,则图片为一张兔子。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,参考图2示出的一种文本生成图片的方法的流程图,对本申请实施例提供的技术方案进行说明。
S201:获取多组训练样本对。
其中,每组训练样本对包括一个图片的文本令牌和图片令牌。
S202:应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。
S203:应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照。
S204:基于实例分割快照和指定实例素材,计算内容损失函数。
S205:根据自回归变压器损失函数和内容损失函数计算总损失函数。
S206:应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件。
S207:应用训练好的网络模型对待推理文本进行处理,生成对应的图片。
本申请实施例中,为了提高文本生成图片过程的准确度,构建图片令牌和文字令牌作为训练样本,其中,每组训练样本对包括一个图片的文本令牌和图片令牌。首先,应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。为了将添加指定素材示例,应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照,再基于实例分割快照和指定实例素材,计算内容损失函数,进而根据自回归变压器损失函数和内容损失函数计算总损失函数;应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件;应用训练好的网络模型对待推理文本进行处理,生成对应的图片。因此,不在局限于生成随机图片,可以准确指定所需的实例素材,使得能够根据指定实例素材生成图片,高效且准确。
涉及到S201,获取训练样本的过程可通过步骤A1-A2实现:
A1:收集参与训练的数据集。
其中,数据集包括至少一张图片以及每张图片对应的描述文本。示例性的,可以使用微软提供的上下文常用对象数据集(microsoft common objects inContext,MS COCO)。MS COCO数据集是一种大规模计算机视觉数据集,用于目标识别、目标检测和图像分割等任务。
示例性的,每张图片对应至少一个描述文本。
A2:应用设定清洗规则对数据集进行清洗,并对清洗后的数据集进行处理,得到多组文本令牌和图片令牌。
其中,设定清洗规则可以是去除质量不高的图像或者缺失描述文本的样本、查找并删除重复的图像和描述文本。清洗的目的是确保所有图像具有一致的分辨率和颜色通道,并规范化描述文本的格式。清洗后的数据集包括多张图片以及每张图片对应的描述文本。
对清洗后的数据集进行处理,得到多组文本令牌和图片令牌过程中,分为A2-1中的对图片的处理以及A2-2中的对文本的处理。
A2-1:针对清洗后的数据集中的每个图片,应用VQ-VAE深度学习模型框架,将图片压缩成低维度的离散潜在空间表示,生成图片令牌。
其中,每个图片生成的图片令牌的数量可通过VQ-VAE深度学习模型框架中的参数设置确定。图片xi的图片令牌为Xi={imageToken1,imageToken2,..,imageTokenni},其中ni为图片xi生成的图片令牌的数量。图片不同,生成的图片令牌的数量可能不同。
A2-2:针对清洗后的数据集中的每个文本,使用预训练的词嵌入模型,将文本映射到低维度的表示,生成文本令牌。
示例性的,词嵌入模型可以是BERT模型,使用BERT模型的词嵌入功能来获得文本的表示。文本ti的文本令牌为Ti={textToken1,textToken1,..,textTokenmi}。其中mi为文本ti生成的文本令牌的数量。文本不同,生成的文本令牌的数量可能不同。
由于每张图片对应至少一个描述文本,因此,一个图片的令牌集合有对应的文本令牌集合。
涉及到S202:应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。
具体的,将图片令牌集合和对应的文本令牌集合作为训练样本,对自回归变压器网络模型进行训练。在迭代过程中,每一轮的输出称为目标图片。
假设图像令牌Xi可以由文本令牌Ti通过涉及潜在变量zi的随机过程生成,则在任何一轮的迭代过程中,包括步骤B1-B3:
B1:生成文本令牌Ti,通过从先验分布p(T;θ)中随机生成。
B2:生成潜在变量zi,从条件分布p(z|T=Ti;θ)中随机生成。
B3:生成图像令牌Xi,给定潜在变量z为zi的条件下,从条件分布p(X|z=zi;θ)中生成的。设q(z|Xi;φ)为变分分布,为VAE编码器φ的输出。对数似然和证据下限可表示为:
在对数似然和证据下限的表达式中,包括三部分:
其中,第一部分为重构损失,具体表示图像xi的重建损失,衡量模型生成的图像与真实图像之间的差异,ψ代表VAE解码器的参数;第二部分为文本的负对数似然损失-log p(Ti;θ),用于评估模型生成的文本与真实文本之间的差异;第三部分为潜在变量zi的负对数似然损失-log p(zi|Ti;θ),用于评估模型生成的潜在变量与真实潜在变量之间的差异
另外,应用多组训练样本对,对自回归变压器网络模型进行训练之后,还可以将每组训练样本对中的文本令牌和图片令牌调换输入顺序,对自回归变压器网络模型进行微调。
其中,使用与逆提示相关的思想来微调模型,输入序列中交换文本和图像的令牌的顺序,以使其适应图像描述任务。由于模型已经学会了文本和图像之间的对应关系,所以反转生成过程方便实现。
进而可以应用微调后的回归变压器网络模型确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。
其中,应用指标Loss(X,T)表示文本令牌的交叉熵损失,用于评估图像和文本之间的对应性。该指标的计算方式为:其中|T|表示文本令牌的数量,p(T|X,T0:k-1)表示给定前面文本令牌条件下,模型生成Tk的概率。
使用微调和损失指标实现模型的自我重排序,以选择与文本最相关的图像。实现相对简单且计算资源消耗较低,同时在评价指标上表现良好,使文本与图像之间的生成过程更加有机和准确。
图3为本申请实施例提供的一种自适应变压器网络模型的结构示意图。其中,自适应变压器网络模型为GPT模型,其架构以处理图像数据,具体通过引入视觉注意力机制和图像编码器来实现。在Transformer模型中LayerNorm层改进结构,通过在每个残差分支的末尾添加LayerNorm层,有助于避免深层网络中的数值爆炸问题,适用于文本到图像预训练任务。
上述实施例中,得到的目标图片为随机生成的图片,并不包括指定实例素材,因此,为了实现个性化的文本生成图片,可以将指定实例素材添加至目标图片中。因此,确定生成图像中不同物体实例的精确位置和分割,提供了更丰富的图像信息,使生成的图像更容易符合个性化要求。
涉及到S203,应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照,该过程可以通过步骤C1-C2实现:
C1:应用实例分割网络模型,对目标图片进行实例分割,确定实例分割掩码,该过程可以通过步骤C1-1到C1-2实现。
其中,实例分割网络模型可以是Mask R-CNN实例分割网络模型。
C1-1:将目标图片输入至实例分割网络模型,确定至少一个候选框。
将生成的目标图片输入到Mask R-CNN实例分割网络模型,可以确定至少一个候选框,进而通过RoIAlign操作从每个候选框中提取特征。
C1-2:针对每个候选框,执行分类、边界框回归以及二值分割的操作,生成候选框表示的实例的实例分割掩码。
示例性的,通过三个专用分支并行执行以下操作:分类(确定物体属于哪个类别)、边界框回归(精确定位物体边界框的位置),以及二值分割操作(生成实例分割的二进制掩码)。这些操作共同作用于每个候选框,以产生实例分割掩码Maskδp,p=1,2,…,M,其中M代表候选框的数量。
C2:根据实例分割掩码生成实例分割快照,该过程可以通过步骤C2-1到C2-2实现。
C2-1:将每个实例的实例分割掩码与对应的目标图片以像素为单位进行叠加。
其中,将每个物体实例的分割掩码叠加到原始生成的图像上,每个分割掩码与生成的图像进行像素级别的逐元素操作。这意味着我们将实例分割掩码与生成的图像的每个像素进行对应操作,以获得每个像素是否属于某个物体实例的信息。
C2-2:确定叠加后得到新的像素构成实例分割快照。
生成的实例分割快照显示了生成的图像中的每个物体实例,为每个实例提供了准确的边界信息和像素级别的分割信息。
涉及到S204:基于实例分割快照和指定实例素材,计算内容损失函数。
其中,度量标准使用平均绝对误差(mean absolute error,MAE)比较实例分割快照和指定实例素材的分割掩码,具体来说,内容损失值的计算方式如下:对于图像中的每个实例的像素位置j,我们将生成图像的像素值G与实例图像的像素值R进行比较。这个比较操作将在每个实例的所有像素上执行,D表示图像中的像素总数。量化实例分割快照与指定实例素材之间的差异,以便后续的优化过程。
因此,对于每个实例,计算内容损失函数的过程中,每个像素位置计算得到的损失值进行聚合,聚合操作考虑了整个图像中的所有实例,以便获得一个全局的内容损失度量。这个度量将指导网络优化的方向,以更好地匹配指定实例素材。
图4为本申请实施例提供的一种实例分割网络模型的分割过程示意图,其中,目标图片输入至实例分割网络模型后,可以与指定实例像素叠加。
涉及到S205:根据自回归变压器损失函数和内容损失函数计算总损失函数。
该过程可以是利用设定好的自回归变压器损失函数和内容损失函数各自的权重,进行加权求和,得到总损失函数,以便生成高质量的指定实例素材文字图片。
涉及到S206:应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件。
训练过程中,网络会不断优化以最小化综合损失,这意味着网络会不断调整生成的图像,以使其更接近指定的实例素材。通过这个过程,能够生成高质量的文字图片,以满足特定的需求和要求。这个方法的技术性和精确性使其能够在图像生成任务中取得好的成果。
涉及到S207:应用训练好的网络模型对待推理文本进行处理,生成对应的图片。
因此,训练好的模型可以应用到推理过程中,进而生成更能满足用户要求的个性化的图片。
图5为本申请实施例提供的一种完整的文本生成图片的方法流程图。
S501:收集参与训练的数据集;其中,数据集包括至少一张图片以及每张图片对应的描述文本。
S502:应用设定清洗规则对数据集进行清洗。
S503:针对清洗后的数据集中的每个图片,应用VQ-VAE深度学习模型框架,将图片压缩成低维度的离散潜在空间表示,生成图片令牌。
S504:针对清洗后的数据集中的每个文本,使用预训练的词嵌入模型,将文本映射到低维度的表示,生成文本令牌。
S505:应用多组训练样本对,对自回归变压器网络模型进行训练,将每组训练样本对中的文本令牌和图片令牌调换输入顺序,对自回归变压器网络模型进行微调,应用微调后的回归变压器网络模型确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。
其中,每组训练样本对包括一个图片的文本令牌和图片令牌。
S506:将目标图片输入至实例分割网络模型,确定至少一个候选框。
S507:针对每个候选框,执行分类、边界框回归以及二值分割的操作,生成候选框表示的实例的实例分割掩码。
S508:将每个实例的实例分割掩码与对应的目标图片以像素为单位进行叠加。
S509:确定叠加后得到新的像素构成实例分割快照。
S510:基于实例分割快照和指定实例素材,计算内容损失函数。
S511:根据自回归变压器损失函数和内容损失函数计算总损失函数。
S512:应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件。
S513:应用训练好的网络模型对待推理文本进行处理,生成对应的图片。
需要说明的是,S503和S504之间没有必然的先后关系,这里只是举例说明,并不形成具体的限定。另外,各步骤的实现方式可参见前述实施例,这里不赘述。
本申请实施例,满足用户对特定实例素材生成图片的需求,提供更高效、准确的生成体验。该过程中,通过构建文字令牌和图片令牌,并训练自回归变压器预训练网络;基于交换输入序列中文本和图像标记的顺序,微调自回归变压器网络,确定文本到图像的生成;基于生成的图片进行实例分割,确定实例分割掩码生成实例分割快照;基于实例分割快照和指定实例素材,计算图片内容损失;基于自回归变压器损失和图片内容损失作为本方法网络总体损失,确定指定实例素材文字图片。解决了现有技术只能使用文本生成随机实例图像,而不能指定特定实例素材进行图像生成,实现了高效且准确的文字与指定实例素材生成图片。
如图6所示,基于相同的发明构思,本申请实施例提供一种文本生成图片的装置,包括:数据获取模块61、训练模块62、实例分割模块63、损失函数计算模块64、参数更新模块65和推理模块66。
数据获取模块61,用于:获取多组训练样本对;其中,每组训练样本对包括一个图片的文本令牌和图片令牌;
训练模块62,用于:应用多组训练样本对,对自回归变压器网络模型进行训练,确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数;
实例分割模块63,用于:应用实例分割网络模型,对目标图片进行实例分割,得到实例分割快照;
损失函数计算模块64,用于:基于实例分割快照和指定实例素材,计算内容损失函数;
损失函数计算模块64,还用于:根据自回归变压器损失函数和内容损失函数计算总损失函数;
参数更新模块65,用于:应用总损失函数,更新自回归变压器网络模型和实例分割网络模型的模型参数,直到满足预设收敛条件;
推理模块66,用于:应用训练好的网络模型,对待推理文本进行处理,生成对应的图片。
在一种可选的实施方式中,数据获取模块61具体用于:
收集参与训练的数据集;其中,数据集包括至少一张图片以及每张图片对应的描述文本;
应用设定清洗规则对数据集进行清洗,并对清洗后的数据集进行处理,得到多组文本令牌和图片令牌。
在一种可选的实施方式中,数据获取模块61具体用于:
针对清洗后的数据集中的每个图片,应用VQ-VAE深度学习模型框架,将图片压缩成低维度的离散潜在空间表示,生成图片令牌;
针对清洗后的数据集中的每个文本,使用预训练的词嵌入模型,将文本映射到低维度的表示,生成文本令牌。
在一种可选的实施方式中,还包括微调模块,用于:在应用多组训练样本对,对自回归变压器网络模型进行训练之后:
将每组训练样本对中的文本令牌和图片令牌调换输入顺序,对自回归变压器网络模型进行微调;
训练模块62具体用于:
应用微调后的回归变压器网络模型确定自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。
在一种可选的实施方式中,实例分割模块63具体用于:
应用实例分割网络模型,对目标图片进行实例分割,确定实例分割掩码;
根据实例分割掩码生成实例分割快照。
在一种可选的实施方式中,实例分割模块63具体用于:
将目标图片输入至实例分割网络模型,确定至少一个候选框;
针对每个候选框,执行分类、边界框回归以及二值分割的操作,生成候选框表示的实例的实例分割掩码。
在一种可选的实施方式中,实例分割模块63具体用于:
将每个实例的实例分割掩码与对应的目标图片以像素为单位进行叠加;
确定叠加后得到新的像素构成实例分割快照。
由于该装置即是本申请实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
基于与上述资源分配方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体(可以为智能设备内部的控制设备或控制系统,也可以是与智能设备通信的外部设备,如)可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、服务器等。如图7所示,该电子设备可以包括处理器71和存储器72。
处理器71可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器72作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器72还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本申请实施例的方法,不应理解为对本申请实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种文本生成图片的方法,其特征在于,包括:
获取多组训练样本对;其中,每组训练样本对包括一个图片的文本令牌和图片令牌;
应用所述多组训练样本对,对自回归变压器网络模型进行训练,确定所述自回归变压器网络模型输出的目标图片以及自回归变压器损失函数;
应用实例分割网络模型,对所述目标图片进行实例分割,得到实例分割快照;
基于所述实例分割快照和指定实例素材,计算内容损失函数;
根据所述自回归变压器损失函数和所述内容损失函数计算总损失函数;
应用所述总损失函数,更新所述自回归变压器网络模型和所述实例分割网络模型的模型参数,直到满足预设收敛条件;
应用训练好的网络模型对待推理文本进行处理,生成对应的图片。
2.根据权利要求1所述的方法,其特征在于,所述获取多组训练样本对,包括:
收集参与训练的数据集;其中,所述数据集包括至少一张图片以及每张图片对应的描述文本;
应用设定清洗规则对所述数据集进行清洗,并对清洗后的数据集进行处理,得到多组文本令牌和图片令牌。
3.根据权利要求2所述的方法,其特征在于,所述对清洗后的数据集进行处理,得到多组文本令牌和图片令牌,包括:
针对清洗后的数据集中的每个图片,应用VQ-VAE深度学习模型框架,将图片压缩成低维度的离散潜在空间表示,生成图片令牌;
针对清洗后的数据集中的每个文本,使用预训练的词嵌入模型,将文本映射到低维度的表示,生成文本令牌。
4.根据权利要求1所述的方法,其特征在于,所述应用所述多组训练样本对,对自回归变压器网络模型进行训练之后,还包括:
将每组训练样本对中的文本令牌和图片令牌调换输入顺序,对所述自回归变压器网络模型进行微调;
所述确定所述自回归变压器网络模型输出的目标图片以及自回归变压器损失函数,包括:
应用微调后的回归变压器网络模型确定所述自回归变压器网络模型输出的目标图片以及自回归变压器损失函数。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述应用实例分割网络模型,对所述目标图片进行实例分割,得到实例分割快照,包括:
应用实例分割网络模型,对所述目标图片进行实例分割,确定实例分割掩码;
根据所述实例分割掩码生成实例分割快照。
6.根据权利要求5所述的方法,其特征在于,所述应用实例分割网络模型,对所述目标图片进行实例分割,确定实例分割掩码,包括:
将所述目标图片输入至实例分割网络模型,确定至少一个候选框;
针对每个候选框,执行分类、边界框回归以及二值分割的操作,生成所述候选框表示的实例的实例分割掩码。
7.根据权利要求5所述的方法,其特征在于,所述根据所述实例分割掩码生成实例分割快照,包括:
将每个实例的所述实例分割掩码与对应的目标图片以像素为单位进行叠加;
确定叠加后得到新的像素构成实例分割快照。
8.一种文本生成图片的装置,其特征在于,包括:
数据获取模块,用于:获取多组训练样本对;其中,每组训练样本对包括一个图片的文本令牌和图片令牌;
训练模块,用于:应用所述多组训练样本对,对自回归变压器网络模型进行训练,确定所述自回归变压器网络模型输出的目标图片以及自回归变压器损失函数;
实例分割模块,用于:应用实例分割网络模型,对所述目标图片进行实例分割,得到实例分割快照;
损失函数计算模块,用于:基于所述实例分割快照和指定实例素材,计算内容损失函数;
损失函数计算模块,还用于:根据所述自回归变压器损失函数和所述内容损失函数计算总损失函数;
参数更新模块,用于:应用所述总损失函数,更新所述自回归变压器网络模型和所述实例分割网络模型的模型参数,直到满足预设收敛条件;
推理模块,用于:应用训练好的网络模型,对待推理文本进行处理,生成对应的图片。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311611098.XA CN117521601A (zh) | 2023-11-29 | 2023-11-29 | 一种文本生成图片的方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311611098.XA CN117521601A (zh) | 2023-11-29 | 2023-11-29 | 一种文本生成图片的方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117521601A true CN117521601A (zh) | 2024-02-06 |
Family
ID=89743588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311611098.XA Pending CN117521601A (zh) | 2023-11-29 | 2023-11-29 | 一种文本生成图片的方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521601A (zh) |
-
2023
- 2023-11-29 CN CN202311611098.XA patent/CN117521601A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Scalor: Generative world models with scalable object representations | |
Lu et al. | Image generation from sketch constraint using contextual gan | |
US10671889B2 (en) | Committed information rate variational autoencoders | |
Dupont et al. | Generative models as distributions of functions | |
Kumar et al. | Videoflow: A conditional flow-based model for stochastic video generation | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
WO2019155064A1 (en) | Data compression using jointly trained encoder, decoder, and prior neural networks | |
US11915121B2 (en) | Simulator-assisted training for interpretable generative models | |
US20230359899A1 (en) | Transfer learning based on cross-domain homophily influences | |
CN114359563B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
US11315038B2 (en) | Method to measure similarity of datasets for given AI task | |
CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
Horwitz et al. | Conffusion: Confidence intervals for diffusion models | |
CN111783997A (zh) | 一种数据处理方法、装置及设备 | |
CN111340245B (zh) | 一种模型训练方法及系统 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN117693754A (zh) | 训练用于图像修复的经掩模的自动编码器 | |
CN111914949B (zh) | 基于强化学习的零样本学习模型的训练方法及装置 | |
CN116402138A (zh) | 一种多粒度历史聚合的时序知识图谱推理方法及系统 | |
CN114155388B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
CN115858388A (zh) | 基于变异模型映射图的测试用例优先级排序方法和装置 | |
CN117521601A (zh) | 一种文本生成图片的方法、装置、电子设备和存储介质 | |
EP4288910A1 (en) | Continual learning neural network system training for classification type tasks | |
CN113822293A (zh) | 用于图数据的模型处理方法、装置、设备及存储介质 | |
US20230298326A1 (en) | Image augmentation method, electronic device and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |