CN117765128A - 海报快速生成方法及装置 - Google Patents
海报快速生成方法及装置 Download PDFInfo
- Publication number
- CN117765128A CN117765128A CN202311676511.0A CN202311676511A CN117765128A CN 117765128 A CN117765128 A CN 117765128A CN 202311676511 A CN202311676511 A CN 202311676511A CN 117765128 A CN117765128 A CN 117765128A
- Authority
- CN
- China
- Prior art keywords
- image
- deep learning
- learning model
- text
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013136 deep learning model Methods 0.000 claims abstract description 83
- 230000006870 function Effects 0.000 claims abstract description 56
- 230000003044 adaptive effect Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000006978 adaptation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 18
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 11
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供了一种海报快速生成方法及装置,其中,所述方法包括:获取用于描述待生成的海报的文本;将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报;其中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。本申请解决了现有技术中生成海报的准确性较低的技术问题。
Description
技术领域
本申请涉及AI技术领域,具体而言,涉及一种海报快速生成方法及装置。
背景技术
在人工智能的长期演进中,文生图经历了显著的提升,特别是在根据给定的文本提示生成高质量且多样化的图像方面表现出色。为了确保文生图模型的输出准确性,对其进行微调变得至关重要。但是,在微调过程中使用的训练样本包含复杂的背景信息,这可能会对模型的准确训练造成干扰,导致文生图的深度学习模型的训练结果不准确,进而导致生成的图像不准确的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种海报快速生成方法及装置,以至少解决现有技术中生成海报的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种海报快速生成方法,包括:获取用于描述待生成的海报的文本;将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报;其中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。
根据本发明实施例的另一方面,还提供了一种海报快速生成装置,包括:获取模块,被配置为获取用于描述待生成的海报的文本;生成模块,被配置为将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报;其中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。
在本发明实施例中,获取用于描述待生成的海报的文本;将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报;其中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。通过上述方案,解决了现有技术中生成海报的准确性较低的技术问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种海报快速生成方法的流程图;
图2是根据本申请实施例的另一种海报快速生成方法的流程图;
图3是根据本申请实施例的训练深度学习模型的过程的流程图;
图4是根据本申请实施例的一种意图识别方法的流程图;
图5是根据本申请实施例的一种模型训练的方法的流程图;
图6是根据本申请实施例的一种海报快速生成装置的结构示意图;
图7示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例1
本申请实施例提供了一种海报快速生成方法,如图1所示,该方法包括以下步骤:
步骤S102,获取用于描述待生成的海报的文本。
步骤S104,将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报。
首先,训练深度学习模型。例如,从训练数据集中选取图文样本对,其中,所述图文样本对包括样本图像和用于描述所述样本图像的描述文本;将所述描述文本和所述样本图像输入到待训练的所述深度学习模型中,得到所述样本图像的图像预测噪声;基于所述图像预测噪声,确定所述深度学习模型的损失函数,并基于所述损失函数来调整所述深度学习模型的所述文本编码器和所述去噪网络中的权重调整层上的参数自适应矩阵,以训练所述深度学习模型。本实施例中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。例如,对待训练的所述深度学习模型中的所述文本编码器进行调参;以及对待训练的所述深度学习模型中的所述去噪网络中的所述权重调整层上的参数自适应矩阵进行调整。
本实施例通过从训练数据集中选择图文样本对,其中包含样本图像和相关的描述文本,有助于模型学习图像和文本之间的关联。将描述文本和样本图像输入到深度学习模型中,生成图像预测噪声,使模型能够捕捉样本图像的特征和噪声。通过基于图像预测噪声确定深度学习模型的损失函数,实现对模型性能的量化评估,从而指导模型的调整和优化。具体而言,调整文本编码器和去噪网络中的参数自适应矩阵,有助于提高模型的泛化能力和对多样性文本图像的适应性。因此,该训练过程有助于使深度学习模型更准确、鲁棒,并能够更好地应对复杂的图文关系。
在一些实施例中,可以采用以下方法确定损失函数:
1)获取所述样本图像中的物体对应的掩码图像及对应的物体类别,其中,所述掩码图像用于表示所述物体在所述样本图像中的位置区域。
2)将所述掩码图像及所述物体类别输入到待训练的所述深度学习模型中,获得掩码预测噪声。例如,将所述掩码图像及所述物体类别输入到待训练的所述深度学习模型中,所述深度学习模型从所述物体类别中提取物体类别特征并从所述掩码图像中提取掩码图像特征;对所述掩码图像特征进行加噪处理,得到加噪后的所述掩码图像特征;基于加噪后的所述掩码图像特征和所述物体类别特征进行预测,得到所述掩码图像的掩码预测噪声。
3)将所述描述文本和所述样本图像输入到待训练的所述深度学习模型中,得到所述样本图像的图像预测噪声。例如,将所述描述文本和所述样本图像输入到待训练的所述深度学习模型中,所述深度学习模型从所述描述文本中提取文本特征并从所述样本图像中提取图像特征;对所述图像特征进行加噪处理,得到加噪后的所述图像特征;基于加噪后的所述图像特征和所述文本特征进行预测,得到所述样本图像的图像预测噪声。
4)基于所述图像预测噪声和所述掩码预测噪声,来确定所述深度学习模型的损失函数。例如,获取所述图像预测噪声和图像目标噪声之间的第一差异信息;获取所述掩码预测噪声和掩码目标噪声之间的第二差异信息;基于所述第一差异信息和所述第二差异信息,构建所述损失函数。
本实施例通过获取样本图像中物体的掩码图像及对应的物体类别,有助于模型理解图像中物体的位置和类别信息。将掩码图像和物体类别输入到深度学习模型中,获得掩码预测噪声,使模型能够对物体的位置和类别进行预测。同时,将描述文本和样本图像输入到模型中,生成图像预测噪声,使模型能够理解文本和图像之间的关系。通过基于图像预测噪声和掩码预测噪声确定深度学习模型的损失函数,综合考虑文本、图像、物体位置和类别等多方面信息,有助于提高模型对样本图像生成的准确性和多样性。本实施例提供的方法能够更全面地捕捉图像和文本之间的语义关系,进而有效指导模型的训练和优化,使得生成的海报更加符合用户需求和期望。
接着,利用所述深度学习模型来生成与所述文本对应的海报。将所述文本输入到预先训练好的深度学习模型中,利用深度学习模型来生成海报。
实施例2
本申请实施例提供了另一种海报快速生成方法,如图2所示,该方法包括以下步骤:
步骤S202,训练深度学习模型。
具体地,训练深度学习模型的过程如图3所示,包括以下步骤:
步骤S2022,将所述描述文本和所述样本图像输入到待训练的所述深度学习模型中,得到所述样本图像的图像预测噪声。
首先,将用于描述待生成海报的文本和对应的样本图像提供给深度学习模型。在文本方面,采用文本编码器,通常是RNN或LSTM层,将描述文本转换为文本特征向量,以捕捉文本的语义信息,具体地,参见实施例3中的方法,此处不再赘述。同时,样本图像通过图像处理网络,可以是CNN或其他特征提取网络,被转换为图像特征向量,以捕捉图像中的关键特征。
接下来,文本特征向量和图像特征向量通过融合操作形成联合特征。这一步旨在使模型能够同时考虑文本和图像的信息,以更好地生成符合描述文本的图像。融合的方式可以采用拼接、加权求和等方法。生成联合特征后,它通过去噪网络,即生成网络,生成图像预测噪声。这个噪声是为了引入一些随机性,从而提高生成图像的多样性。
最后,通过将生成的图像预测噪声与输入的样本图像相加或合成,得到最终的目标图像。这个目标图像是深度学习模型根据给定的文本描述生成的,同时考虑了文本特征和图像特征的信息。在整个训练过程中,通过反向传播算法和优化器,不断调整模型参数,使生成的图像逐渐接近目标图像。训练的目标是优化损失函数,提高模型生成的准确性和多样性。
步骤S2024,获取所述样本图像中的物体对应的掩码图像及对应的物体类别,并将所述掩码图像及所述物体类别输入到待训练的所述深度学习模型中,获得掩码预测噪声。
首先,从样本图像中提取物体的位置信息,例如,使用物体检测算法或手动标注的方式。物体检测算法可以是先进的深度学习模型,如基于卷积神经网络(CNN)的物体检测器。对于每个检测到的物体,提取其对应的掩码图像,该掩码图像用于表示物体在样本图像中的位置区域。
同时,获取每个物体对应的物体类别,这可以通过物体检测算法输出的类别标签获得。类别信息用于指示待生成图像中物体的种类。
接下来,将获得的掩码图像及对应的物体类别输入到待训练的深度学习模型中。深度学习模型可以包括一个特定于掩码的网络,其任务是根据掩码图像和物体类别生成掩码预测噪声。类似于步骤S2022,将输入的信息经过一系列层和操作,包括掩码图像和类别特征的融合,加噪处理,以及最终的预测。
步骤S2026,基于所述图像预测噪声和所述掩码预测噪声,来确定所述深度学习模型的损失函数。
首先,收集图像预测噪声和掩码预测噪声之间的不同信息。可以通过比较模型生成的图像预测与目标图像之间的像素级差异来实现,以及比较生成的掩码预测与目标掩码之间的差异。这些差异信息将被用作构建损失函数的基础。
其次,通过设计损失函数来衡量这些不同的影响。损失函数的设计可以采用像素级差异度量,如均方误差(MSE)或交叉熵损失,用于比较图像预测和目标图像之间的差异。对于掩码预测,可以使用与掩码相关的特定损失函数,确保模型能够准确地生成与目标掩码相匹配的预测。还可以引入权重,以平衡图像预测和掩码预测对整体损失的贡献。这有助于确保模型在生成图像时不会忽视对掩码的准确性。
通过将损失函数应用于模型的输出,可以计算出损失值。最终的目标是通过最小化损失值来优化深度学习模型的参数。可以通过反向传播算法和优化器来实现,从而更新模型的权重和参数,以使损失值最小化。这个过程通过多次迭代进行,直到模型的性能达到满意的水平。
在一些实施例中,可以基于掩码图像的数量、图像目标噪声、图像预测噪声、掩码目标噪声、掩码图像的目标噪声、掩码预测噪声来计算损失函数,例如,可以通过以下公式得到:
其中,i是掩码图像的索引,取值范围为1,2,…,S;S是掩码图像的数量。D1是第一差异信息,表示图像预测噪声和图像目标噪声之间的差异信息。D2是第二差异信息,表示掩码预测噪声和掩码目标噪声之间的差异信息。Oi是图像目标噪声,表示样本图像中第i个物体的目标噪声。Pi是图像预测噪声,表示样本图像中第i个物体的图像预测噪声。Mi是掩码目标噪声,表示样本图像中第i个物体对应的掩码图像的目标噪声。M^i是掩码预测噪声,表示样本图像中第i个物体对应的掩码图像的预测噪声。w11,w12,w21,w22是权重项,用于调整不同差异信息的相对重要性。表示梯度运算,用于衡量信息之间的梯度变化。w1和w2是全局权重项,用于调整两类差异信息的相对重要性。
本实施例通过使用图像预测噪声和掩码预测噪声,损失函数能够同时关联文本描述和图像内容,从而更好地生成与文本对应的海报。这有助于确保生成的海报与描述文本更为一致和准确。通过引入图像目标噪声和掩码目标噪声,损失函数能够更加细致地考虑样本图像中的物体信息。从而有助于生成更具有结构性和语义性的海报,使得生成的图像中物体更容易识别和理解。通过引入不同层次的信息(图像预测噪声、掩码预测噪声、图像目标噪声、掩码目标噪声等),损失函数能够促使深度学习模型进行多层次的特征学习。从而有助于提高模型对图像和文本信息的理解和表达能力。通过引入权重,使得损失函数能够根据任务需求调整不同差异信息的相对重要性。这有助于更灵活地适应不同任务和数据集的特性,提高模型的泛化能力。最后,损失函数中的梯度运算可以帮助模型自适应地调整参数,从而更好地适应训练数据集的特征。这有助于提高训练过程的效率和稳定性。
步骤S2028,基于损失函数来调整深度学习模型的参数。
将损失值通过反向传播算法传递回深度学习模型。反向传播计算损失函数对于模型参数的梯度,即确定损失值变化方向的信息。
通过使用优化器(如Adam、SGD等),根据梯度信息更新深度学习模型的参数。这些参数包括文本编码器和去噪网络中的权重调整层上的参数自适应矩阵,以及其他与模型结构相关的参数。
调整参数是通过考虑损失函数的梯度来实现的,以使损失值最小化。这一过程涉及对文本编码器和去噪网络中的参数进行微调,以改善模型的性能。
上述步骤是迭代进行的,即反复计算损失值、进行反向传播和更新参数。每次迭代都朝着减小损失值的方向调整模型参数,逐渐提高深度学习模型对于生成符合要求的海报的能力。停止条件:训练过程可以通过设置停止条件,例如达到预定的训练轮数或达到满意的性能水平,来决定何时结束。
通过这个过程,深度学习模型逐渐学习到更好地生成与文本描述相匹配的海报。损失函数的设计和参数的调整直接影响模型的性能,确保生成的海报在视觉上和语义上都符合预期。
步骤S204,利用深度学习模型生成海报。
实施例3
本申请实施例提供了一种意图识别方法,如图4所示,该方法包括以下步骤:
步骤S404,获取描述文本,对文本语句数据进行分词切分。
对文本进行分词切分,将每个问题划分成一个词语组,为后续的处理和分析做准备。
步骤S406,在切分后的词语组中添加预设好的token。
将在问题语句分词切分后得到的词语组中添加预设好的token。这些token可能是为了标识句子的开始和结束,也可能是为了标识问题的特定部分或结构。这有助于模型更好地理解问题的语境和结构。
步骤S408,对lable进行特殊定义。
例如,单意图、多意图。
步骤S410,模型训练。
利用二进制交叉熵确定模型的损失函数,通过该损失函数训练模型。模型进行批量运行,验证最终模型的性能结果,其中使用F1分数来评估模型的性能。
本实施例采用Tensorflow框架、使用BERT来实现Embedding的转换、使用LSTM进行训练评估结果、使用optimizer为adam。
具体地,模型训练的方法如图5所示包括以下步骤:
步骤S4102,构建模型。
本实施例使用Tensorflow框架来建立深度学习模型。该模型的架构包括了嵌入层(Embedding Layer),LSTM层,输出层等。Embedding Layer用于将文本数据转换为向量,LSTM层用于处理序列信息。Tensorflow是一个广泛应用于机器学习和深度学习的框架,其提供了高度灵活的工具和接口,有助于构建、训练和评估复杂的神经网络模型。BERT是预训练的自然语言处理模型,通过将文本映射到高维向量空间,保留了语境信息。这有助于提高模型对问题的理解。长短时记忆网络LSTM是一种适用于序列数据的深度学习模型。LSTM能够有效地捕获文本中的序列信息,对问题语句的语义有更好的理解。
具体地,构建模型包括以下方法:
1)Embedding过程(BERT Embedding):
输入序列:X=(x1,x2,...,xT)
Embedding层的输出:E=(e1,e2,...,eT)
其中,E表示Embedding后的向量序列,每个xi是对应ei的嵌入向量。
2)LSTM层运算。
对于LSTM的一个单元(cell):
=σ(Wiixt+bii+Uiiht-1+cii)
ft=σ(Wifxt+bif+Uifht-1+cif)
gt=tanh(Wigxt+big+Uight-1+cig)
ot=σ(Wioxt+bio+Uioht-1+cio)
其中,it,ft,gt,ot分别表示输入门、遗忘门、细胞状态更新和输出门的激活值,xt是当前时间步的输入,ht-1是上一时间步的隐藏状态,W和U是嵌入层和LSTM层的权重,b和c是相应的偏置。
3)LSTM层的输出:
ht=ot·tanh(Ct)
其中,Ct是当前时间步的细胞状态。
4)模型输出层(多标签分类):
输出层采用Sigmoid激活函数,对每个标签的输出进行二分类:
yi=σ(Vix+di)
这里,yi表示第i个标签的输出,Vi和di是相应的权重和偏置,σ(sigma)表示sigmoid函数。
本实施例新引入了表示Embedding后的向量序列E以及Embedding层和LSTM层的权重W、E和偏置b、c。V,d是输出层的权重和偏置。
本实施例通过引入BERT进行Embedding的转换,能够更好地捕捉问题语句的语义信息。BERT是预训练的自然语言处理模型,通过上下文关系学习,能够生成更丰富的语义表示。LSTM层的引入使模型能够更好地处理问题语句的序列信息。LSTM通过记忆细胞状态,有助于捕捉语句中的长期依赖关系,提高了对问题语境的理解。
步骤S4104,模型配置。
配置模型的优化器(optimizer)。本实施例选择了Adam优化器以及损失函数(binary_crossentropy)。Adam优化器有助于提高模型在训练过程中的收敛速度,而binary_crossentropy损失函数适用于二分类问题。
在配置Adam优化器时,可以基于一阶和二阶矩的估计、动量项、学习率衰减参数、控制随时间学习率的变化的参数、迭代次数、一阶和二阶矩的偏差修正来更新Adam优化器。例如,Adam优化器的更新规则可以如下:
其中,mt和vt分别为t时刻的一阶和二阶矩的估计。β1和β2为动量项,通常分别取0.9和0.999。θt是模型的参数集,包括神经网络中的权重和偏差等。a为学习率衰减参数,Δθt-1=θt-θt-1表示参数的变化。ρ是新引入的控制随时间学习率的变化的参数。t是当前的迭代次数。和/>分别为对一阶和二阶矩的偏差修正。η为学习率。ε是为了数值稳定性而添加的小常数。
本实施例中,Adam优化器的更新规则结合了动量(momentum)和自适应学习率的概念,有益于提高模型在训练过程中的收敛速度和稳定性。通过计算梯度的一阶和二阶矩估计,Adam可以动态地调整学习率,对于不同参数有不同的学习率,从而更灵活地适应不同方向和幅度的梯度变化。这有助于避免学习率设置过大或过小的问题,提高了优化的效果。此外,Adam还利用动量的概念,使更新方向更加平滑,有助于克服优化过程中的震荡现象,进而提高了模型的收敛速度和泛化能力。
Adam优化器根据梯度的一阶和二阶矩估计动态调整学习率,有助于模型更快地收敛。采用binary_crossentropy损失函数,适用于二分类问题。这个损失函数用于衡量模型输出与实际标签之间的差异,最小化该差异是训练过程的目标。
在一些实施例中,可以基于不同类型的正则化项、正则化项权重参数、实际标签和预测标签来确定损失函数。例如,可以采用以下的方式来确定二进制交叉熵损失函数:
其中,R1(θ)和R2(θ)分别是两种不同类型的正则化项,β是正则化项权重参数,控制两种正则化项在总损失中的权重。N是样本数。yi是实际标签。是模型输出的预测标签。
引入正则化项的损失函数有益于控制模型的复杂度,防止过拟合,提高模型在未见过数据上的泛化能力。正则化项通过对模型参数的大小进行惩罚,使得模型更倾向于学习简单且更具一般性的模式,而不是过度拟合训练数据中的噪声。这有助于防止模型在面对新数据时出现过度拟合的情况,从而提高了模型的鲁棒性和实用性。通过合适的正则化,可以有效平衡模型在训练数据上的拟合程度和在未知数据上的泛化性能,使得模型更具有通用性和可靠性。
本实施例还引入了如学习率和正则化项,使得模型的配置更加灵活。不同层面的学习率和正则化项可以帮助优化器更好地调整模型参数,提高模型训练的稳定性和收敛速度。此外,引入正则化项可以有效地控制模型的复杂度,防止过拟合,提高模型在未见过数据上的泛化能力。最后,通过多个epoch的训练和性能验证,模型在训练数据上逐渐适应,最终得到的F1分数表明模型在多意图分类任务上表现出色,具有更高的准确性和性能。
步骤S4106,模型训练。
使用配置好的优化器和损失函数,在训练数据上进行多个epochs的训练。这一过程通过反向传播不断更新模型的参数,使其逐渐适应训练数据,提高对意图的识别能力。
步骤S4108,性能验证。
在训练完成后,利用验证集或测试集进行性能验证。采用F1分数作为评估指标,通过批量运行模型,并计算F1分数来评估模型的准确性和泛化能力。
最终损失在0.141表明模型在训练过程中逐渐收敛。而通过批量运行验证和得到的F1分数为0.913,说明该模型在多意图分类任务上表现出色,具有很高的准确性和泛化能力。
实施例4
本申请实施例提供了一种海报快速生成装置,如图6所示,包括:获取模块62和生成模块64。
获取模块62被配置为获取用于描述待生成的海报的文本;生成模块64被配置为将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报;其中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。
需要说明的是:上述实施例提供的海报快速生成装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的海报快速生成装置与海报快速生成方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
实施例5
图7示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图7示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,该电子设备包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,电子设备还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现上述方法实施例的各个步骤等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种海报快速生成方法,其特征在于,包括:
获取用于描述待生成的海报的文本;
将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报;
其中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。
2.根据权利要求1所述的方法,其特征在于,所述深度学习模型是通过以下训练得到的:
从训练数据集中选取图文样本对,其中,所述图文样本对包括样本图像和用于描述所述样本图像的描述文本;
将所述描述文本和所述样本图像输入到待训练的所述深度学习模型中,得到所述样本图像的图像预测噪声;
基于所述图像预测噪声,确定所述深度学习模型的损失函数,并基于所述损失函数来调整所述深度学习模型的所述文本编码器和所述去噪网络中的权重调整层上的参数自适应矩阵,以训练所述深度学习模型。
3.根据权利要求2所述的方法,其特征在于,基于所述图像预测噪声,确定所述深度学习模型的损失函数,包括:
获取所述样本图像中的物体对应的掩码图像及对应的物体类别,其中,所述掩码图像用于表示所述物体在所述样本图像中的位置区域;
将所述掩码图像及所述物体类别输入到待训练的所述深度学习模型中,获得掩码预测噪声;
基于所述图像预测噪声和所述掩码预测噪声,来确定所述深度学习模型的损失函数。
4.根据权利要求3所述的方法,其特征在于,将所述描述文本和所述样本图像输入到待训练的所述深度学习模型中,得到所述样本图像的图像预测噪声,包括:
将所述描述文本和所述样本图像输入到待训练的所述深度学习模型中,所述深度学习模型从所述描述文本中提取文本特征并从所述样本图像中提取图像特征;
对所述图像特征进行加噪处理,得到加噪后的所述图像特征;
基于加噪后的所述图像特征和所述文本特征进行预测,得到所述样本图像的图像预测噪声。
5.根据权利要求3所述的方法,其特征在于,将所述掩码图像及所述物体类别输入到待训练的所述深度学习模型中,获得掩码预测噪声,包括:
将所述掩码图像及所述物体类别输入到待训练的所述深度学习模型中,所述深度学习模型从所述物体类别中提取物体类别特征并从所述掩码图像中提取掩码图像特征;
对所述掩码图像特征进行加噪处理,得到加噪后的所述掩码图像特征;
基于加噪后的所述掩码图像特征和所述物体类别特征进行预测,得到所述掩码图像的掩码预测噪声。
6.根据权利要求3所述的方法,其特征在于,基于所述图像预测噪声和所述掩码预测噪声,来确定所述深度学习模型的损失函数,包括:
获取所述图像预测噪声和图像目标噪声之间的第一差异信息;
获取所述掩码预测噪声和掩码目标噪声之间的第二差异信息;
基于所述第一差异信息和所述第二差异信息,构建所述损失函数。
7.根据权利要求2所述的方法,其特征在于,基于所述损失函数来调整所述深度学习模型的所述文本编码器和所述去噪网络中的权重调整层上的参数自适应矩阵,包括:
对待训练的所述深度学习模型中的所述文本编码器进行调参;以及
对待训练的所述深度学习模型中的所述去噪网络中的所述权重调整层上的参数自适应矩阵进行调整。
8.一种海报快速生成装置,其特征在于,包括:
获取模块,被配置为获取用于描述待生成的海报的文本;
生成模块,被配置为将所述文本输入到预先训练好的深度学习模型中,利用所述深度学习模型来生成与所述文本对应的海报;
其中,所述深度学习模型是利用损失函数来调整文本编码器和去噪网络中的权重调整层上的参数自适应矩阵而得到的。
9.一种电子设备,其特征在于,包括:
存储器,被配置为存储计算机程序;
处理器,被配置为在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311676511.0A CN117765128A (zh) | 2023-12-07 | 2023-12-07 | 海报快速生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311676511.0A CN117765128A (zh) | 2023-12-07 | 2023-12-07 | 海报快速生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117765128A true CN117765128A (zh) | 2024-03-26 |
Family
ID=90317168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311676511.0A Pending CN117765128A (zh) | 2023-12-07 | 2023-12-07 | 海报快速生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117765128A (zh) |
-
2023
- 2023-12-07 CN CN202311676511.0A patent/CN117765128A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200265301A1 (en) | Incremental training of machine learning tools | |
CN110929869B (zh) | 序列数据处理方法、装置、设备及存储介质 | |
CN110766142A (zh) | 模型生成方法和装置 | |
WO2021089012A1 (zh) | 图网络模型的节点分类方法、装置及终端设备 | |
US20210264111A1 (en) | Predicting joint intent-slot structure | |
US10783452B2 (en) | Learning apparatus and method for learning a model corresponding to a function changing in time series | |
CN111259647A (zh) | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 | |
CN111598253A (zh) | 使用教师退火来训练机器学习模型 | |
US10599976B2 (en) | Update of attenuation coefficient for a model corresponding to time-series input data | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
CN113469186A (zh) | 一种基于少量点标注的跨域迁移图像分割方法 | |
CN112149809A (zh) | 模型超参数的确定方法及设备、计算设备和介质 | |
CN116307624A (zh) | 一种erp系统的资源调度方法及其系统 | |
CN111950647A (zh) | 分类模型训练方法和设备 | |
CN113935489A (zh) | 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN117708698A (zh) | 一种类别确定方法、装置、设备及存储介质 | |
CN110489435B (zh) | 基于人工智能的数据处理方法、装置、及电子设备 | |
CN117765128A (zh) | 海报快速生成方法及装置 | |
US20240020531A1 (en) | System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model | |
KR20190129422A (ko) | 뉴럴 네트워크를 이용한 변분 추론 방법 및 장치 | |
CN114648021A (zh) | 问答模型的训练方法、问答方法及装置、设备和存储介质 | |
CN112348161B (zh) | 神经网络的训练方法、神经网络的训练装置和电子设备 | |
CN115210714A (zh) | 通过基于知识蒸馏的nas进行大型模型仿真 | |
CN117725172A (zh) | 多意图识别支持大模型qa问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Building 60, 1st Floor, No.7 Jiuxianqiao North Road, Chaoyang District, Beijing 021 Applicant after: Shiyou (Beijing) Technology Co.,Ltd. Address before: 4017, 4th Floor, Building 2, No.17 Ritan North Road, Chaoyang District, Beijing Applicant before: 4U (BEIJING) TECHNOLOGY CO.,LTD. Country or region before: China |
|
CB02 | Change of applicant information |