CN117765133A

CN117765133A - 生成文本的修正方法及装置、存储介质、电子设备

Info

Publication number: CN117765133A
Application number: CN202410195608.8A
Authority: CN
Inventors: 邓邱伟; 田云龙; 苏明月; 赵乾; 牛丽; 吴贵英
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2024-02-22
Filing date: 2024-02-22
Publication date: 2024-03-26
Anticipated expiration: 2044-02-22
Also published as: CN117765133B

Abstract

本申请公开了一种生成文本的修正方法及装置、存储介质、电子设备，涉及智慧家庭技术领域，该生成文本的修正方法包括：将第一文本数据和第二文本数据输入到文生图模型中，以使文生图模型在初始生成图像中生成第一生成文本，得到生成图像，其中，第一文本数据包括N个第一子文本，第一生成文本包括N个第二子文本，确定第一子文本对应的第一文本特征和第二子文本对应的第二文本特征之间的文本相似度；在确定N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据第三文本数据对生成图像中的第一生成文本进行修正；采用上述方案，解决了现有技术缺少能高效修正生成文本的方法的问题；从而提高了生成图像中生成文本的正确率。

Description

生成文本的修正方法及装置、存储介质、电子设备

技术领域

本申请涉及智慧家庭技术领域，具体而言，涉及一种生成文本的修正方法及装置、存储介质、电子设备。

背景技术

目前大量的开源大模型和商业服务提供的图像生成能力在保真度、适用性、通用性等方面已经取得了卓越成果，非设计从业者也可以轻松的使用文本prompt来生成一副精美的图片，在各行业的落地应用中涌现了大批优秀案例，节约了大量的人力、物力。但目前在图像上进行文本生成的技术仍然没有成熟的算法及方案，阻碍了内容生成式服务在行业的应用落地发展，比如营销场景中涉及的电商商品图、宣传海报等场景，图像中的文本区域，目前仍然需要设计人员手动添加文本素材，并调校文字素材的位置、大小等，消耗大量的人力成本。

在文本生成的算法方向，目前生成图片中的文本易出现笔画错误，生成错误等问题导致无法正常应用。

针对现有技术中，目前的文生图算法在图片中生成的文字会出现生成错误的情况，但目前缺少能高效修正生成文本的方法等问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种生成文本的修正方法及装置、存储介质、电子设备，以至少解决现有技术中，目前的文生图算法在图片中生成的文字会出现生成错误的情况，但现有技术缺少能高效修正生成文本的方法的问题。

根据本申请实施例的一个实施例，提供了一种生成文本的修正方法，包括：将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，其中，所述第二文本数据用于生成所述初始生成图像，所述第一文本数据包括N个第一子文本，所述第一生成文本包括N个第二子文本，所述N为正整数；根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，得到N个文本集合，其中，所述第i个文本集合中包括：所述N个第一子文本中的第i个第一子文本，所述N个第二子文本中的第i个第二子文本，i取值为1到N的任一整数；对于所述第i个文本集合，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；在确定所述N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正。

在一个示例性实施例中，将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，包括：将所述第一文本数据、所述第二文本数据和第一掩膜图像输入到所述文生图模型中，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；根据所述第二文本数据生成所述初始生成图像；确定所述第一文本数据中包括的所述N个第一子文本，以及确定所述第一文本数据中包括的用于描述所述第一生成文本的字形信息；根据所述N个第一子文本、所述字形信息和所述位置信息在所述初始生成图像中生成所述第一生成文本，得到所述生成图像。

在一个示例性实施例中，根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，包括：对于所述第一文本数据中的第i个第一子文本，根据第一掩膜图像在所述生成图像中确定第i个文本区域，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；通过文字识别模型对所述第i个文本区域进行文字识别，得到与所述第i个第一子文本存在对应关系的第i个第二子文本；将所述第i个第一子文本和所述第i个第二子文本确定为所述第i个文本集合。

在一个示例性实施例中，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，包括：对所述第i个第一子文本进行文本特征提取，得到所述第一文本特征，以及对所述第i个第二子文本进行文本特征提取，得到所述第二文本特征；计算所述第一文本特征与所述第二文本特征之间的余弦相似度，以及确定所述第i个文本区域在所述生成图像中的面积占比；根据所述面积占比确定所述余弦相似度的第一权重系数，并根据所述第一权重系数和所述余弦相似度确定所述文本相似度。

在一个示例性实施例中，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正，包括：确定所述目标文本集合中的目标第一子文本，以及确定所述目标文本集合中的目标第二子文本在所述生成图像中的位置信息；根据所述目标第二子文本的位置信息和所述目标第一子文本生成第二掩膜图像，并根据所述目标第一子文本生成所述第三文本数据；将所述第三文本数据、所述第二掩膜图像和所述生成图像输入到所述文生图模型中，以使所述文生图模型在所述生成图像中对所述第一生成文本中的目标第二子文本进行修正。

在一个示例性实施例中，将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像之前，所述方法还包括：对采集图像进行文本信息标注，得到训练图像，其中，所述训练图像包括：所述采集图像，文本标注信息；将所述采集图像转换为第一潜在向量，并对所述第一潜在向量进行文本特征增强处理，得到所述采集图像的增强特征向量；根据所述第一潜在向量和所述增强特征向量对初始文生图模型进行训练，得到所述文生图模型。

在一个示例性实施例中，对采集图像进行文本信息标注，得到训练图像，包括：对所述采集图像进行文字识别，得到所述采集图像包含的文本信息；通过图像理解方法对所述采集图像进行内容识别，得到所述采集图像的标题信息；根据所述文本信息和所述标题信息对所述采集图像进行文本信息标注，得到所述训练图像，其中，所述文本标注信息包括：所述文本信息，所述标题信息。

在一个示例性实施例中，将所述训练图像转换为第一潜在向量，并对所述第一潜在向量进行文本特征增强处理，得到所述训练图像的增强特征向量，包括：将所述采集图像映射到潜在空间，得到低维的第二潜在向量，并通过扩散算法对所述第二潜在向量进行添加噪声处理，得到所述第一潜在向量；对所述采集图像进行向量识别，得到字形潜在向量、位置潜在向量和掩膜图像潜在向量，其中，所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量均与所述第一潜在向量维度相同，所述字形潜在向量用于描述所述采集图像中包含的文本信息的字形信息，所述位置潜在向量用于描述所述文本信息在所述采集图像中的位置信息，所述掩膜图像潜在向量用于描述所述位置信息对应的掩膜图像；根据所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量对所述第一潜在向量进行文本特征增强处理，得到所述增强特征向量。

在一个示例性实施例中，根据所述第一潜在向量和所述增强特征向量对初始文生图模型进行训练，得到所述文生图模型，包括：将所述第一潜在向量输入到所述初始文生图模型的锁定网络副本中进行训练，以及将所述增强特征向量输入到所述初始文生图模型的可训练网络副本中进行训练，得到训练后的文生图模型，其中，所述锁定网络副本用于保留所述初始文生图模型的文生图能力，所述文生图能力用于根据所述第二文本数据生成所述初始生成图像，所述可训练网络副本用于训练所述初始文生图模型的文本生成能力，所述文本生成能力用于根据所述第一文本数据在所述初始生成图像中生成所述第一生成文本；将所述文本标注信息输入到所述训练后的文生图模型中进行处理，生成推理图像，其中，所述推理图像中包含有推理生成文本和推理生成图像；确定所述采集图像包含的文本信息在所述采集图像中的多个第二文本区域，以及根据所述多个第二文本区域的位置信息确定所述推理生成文本在所述推理图像中对应的多个第三文本区域；对所述多个第二文本区域中的第p个第二文本区域进行图像特征提取，得到第p个第一图像特征，以及，对所述多个第三文本区域中的第p个第三文本区域进行图像特征提取，得到第p个第二图像特征，其中，p为正整数；通过公式统计时间步长t内多个所述第一图像特征和多个所述第二图像特征的总特征距离，其中，/>为所述总特征距离，/>用于指示所述时间步长t与所述推理生成文本的文本生成质量的相关性，/>为所述第p个第一图像特征，为所述第p个第二图像特征；计算所述训练后的文生图模型生成所述推理生成图像的第一损失；确定所述多个第三文本区域在所述推理图像中的总面积占比，并根据所述总面积占比确定所述总特征距离的第二权重系数；通过公式/>计算所述训练后的文生图模型生成所述推理图像的第二损失，其中，/>为所述第二损失，/>为所述第一损失，/>为所述第二权重系数；在所述第二损失满足预设条件的情况下，将所述训练后的文生图模型确定为所述文生图模型。

根据本申请实施例的另一个实施例，还提供了一种生成文本的修正装置，包括：生成模块，用于将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，其中，所述第二文本数据用于生成所述初始生成图像，所述第一文本数据包括N个第一子文本，所述第一生成文本包括N个第二子文本，所述N为正整数；第一确定模块，用于根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，得到N个文本集合，其中，所述第i个文本集合中包括：所述N个第一子文本中的第i个第一子文本，所述N个第二子文本中的第i个第二子文本，i取值为1到N的任一整数；第二确定模块，用于对于所述第i个文本集合，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；修正模块，用于在确定所述N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述生成文本的修正方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的生成文本的修正方法。

在本申请实施例中，先将第一文本数据和第二文本数据输入到文生图模型中，通过文生图模型通过第二文本数据生成初始生成图像，并在初始生成图像中生成第一文本数据对应的第一生成文本，其中，第一文本数据包括N个第一子文本，第一生成文本包括N个第二子文本，N为正整数；根据第一文本数据和第一生成文本的对应关系确定出N个文本集合，这N个文本集合中的第i个文本集合包括：N个第一子文本中的第i个第一子文本，N个第一子文本中的第i个第二子文本，i为1至N中的任一整数；对于第i个文本集合，确定第i个第一子文本对应的第一文本特征与第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；若这N个文本相似度中存在小于第一预设阈值的目标文本相似度的情况下，根据该目标文本相似度对应的目标文本集合生成第三文本数据，从而根据第三文本数据对生成图像中的第一生成文本进行修正。采用上述方案，在生成图像后对生成图像中的生成文本进行错误校验并及时进行修正，从而提高了生成图像中生成文本的正确率；进而解决了相关技术中目前的文生图算法在图片中生成的文字会出现生成错误的情况，但目前缺少能高效修正生成文本的方法的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的生成文本的修正方法的硬件环境示意图；

图2是根据本申请实施例的一种可选的生成文本的修正方法的流程图；

图3是根据本申请实施例的一种可选的模型推理结果的矫正流程示意图；

图4是根据本申请实施例的一种可选的图像标注示意图；

图5是根据本申请实施例的一种可选的模型训练方法的流程示意图；

图6是根据本申请实施例的一种可选的生成文本的修正装置的结构框图（一）；

图7是根据本申请实施例的一种可选的生成文本的修正装置的结构框图（二）。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种生成文本的修正方法。该生成文本的修正方法广泛应用于智慧家庭（Smart Home）、智能家居、智能家用设备生态、智慧住宅（Intelligence House）生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述生成文本的修正方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务（如应用服务等），可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI（Wireless Fidelity，无线保真），蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、冰箱设备、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

在本实施例中提供了一种生成文本的修正方法，应用于计算机终端，图2是根据本申请实施例的一种可选的生成文本的修正方法的流程图，该流程包括如下步骤：

步骤S202，将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，其中，所述第二文本数据用于生成所述初始生成图像，所述第一文本数据包括N个第一子文本，所述第一生成文本包括N个第二子文本，所述N为正整数；

步骤S204，根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，得到N个文本集合，其中，所述第i个文本集合中包括：所述N个第一子文本中的第i个第一子文本，所述N个第二子文本中的第i个第二子文本，i取值为1到N的任一整数；

步骤S206，对于所述第i个文本集合，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；

步骤S208，在确定所述N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正。

可选的，可以通过以下实施方式来实现上述步骤：将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，具体包括：将所述第一文本数据、所述第二文本数据和第一掩膜图像输入到所述文生图模型中，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；根据所述第二文本数据生成所述初始生成图像；确定所述第一文本数据中包括的所述N个第一子文本，以及确定所述第一文本数据中包括的用于描述所述第一生成文本的字形信息；根据所述N个第一子文本、所述字形信息和所述位置信息在所述初始生成图像中生成所述第一生成文本，得到所述生成图像。

生成初始生成图像和生成图像的过程包括：在输入第一文本数据、第二文本数据到文生图模型中的同时，输入第一掩膜图像，该第一掩膜图像用于指示第一文本数据待在初始生成图像中生成第一生成文本的位置信息；然后文生图模型先根据第二文本数据生成初始生成图像；从第一文本数据中确定出N个第一子文本，并确定出第一文本数据中包括的用于描述第一生成文本的字形信息，这N个第一子文本在第一掩膜图像中所指示的位置信息各不相同，最后文生图模型根据N个第一子文本、字形信息和位置信息在初始生成图像的不同位置按照该字形信息生成第一生成文本，从而得到完整的生成图像。

可选的，根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，包括：对于所述第一文本数据中的第i个第一子文本，根据第一掩膜图像在所述生成图像中确定第i个文本区域，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；通过文字识别模型对所述第i个文本区域进行文字识别，得到与所述第i个第一子文本存在对应关系的第i个第二子文本；将所述第i个第一子文本和所述第i个第二子文本确定为所述第i个文本集合。

确定文本集合的过程包括：对于第一文本数据中的第i个第一子文本，根据第一掩膜图像所指示的位置信息在生成图像中确定出第i个文本区域，对这第i个文本区域进行文字识别，得到与该第i个第一子文本存在对应关系的第i个第二子文本；将这第i个第一子文本和第i个第二子文本确定为第i个文本集合；直至第一文本数据中的所有第一子文本遍历结束，得到N个文本集合。

可选的，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，包括：对所述第i个第一子文本进行文本特征提取，得到所述第一文本特征，以及对所述第i个第二子文本进行文本特征提取，得到所述第二文本特征；计算所述第一文本特征与所述第二文本特征之间的余弦相似度，以及确定所述第i个文本区域在所述生成图像中的面积占比；根据所述面积占比确定所述余弦相似度的第一权重系数，并根据所述第一权重系数和所述余弦相似度确定所述文本相似度。

可选的，可以采用Word2vec模型分别对第一子文本和第二子文本进行向量转换，转换成同维度的向量（即上述第一文本特征）和/>（即上述第二文本特征），通过公式计算两个向量的余弦相似度，/>即为余弦相似度，取值范围为（0，1）。由于N个文本区域在图像中的占比不同，假设第i个文本区域在整张图像中面积占比记为/>，文本区域面积占比越大对图像的影响越明显，我们将第i个文本区域/>的生成结果（相当于上述第i个第二子文本）与提示词中目标文本（相当于上述第i个第一子文本）的相似度定义为/>，通过此公式计算出二者间的文本相似度。

当大于或等于相似度阈值/>（即上述第一预设阈值）时，认为文本区域/>文本生成还原度较高，不需要修改，但当/>小于/>时，认为文本区域/>的生成效果不合格，将小于/>的/>确定为目标文本相似度；确定目标文本相似度对应的目标文本集合中的目标第一子文本，以及确定目标文本集合中的目标第二子文本在生成图像中的位置信息，即目标第二子文本对应的文本区域的位置信息，根据位置信息和目标第一子文本生成第二掩膜图像，并根据目标第一子文本生成第三文本数据；令文生图模型根据第三文本数据、第二掩膜图像和生成图像在生成图像中对目标第二子文本进行修正。

即在确定出文本生成还原度较低的第二子文本后，针对确定出的目标第二子文本，修改prompt和mask图像（掩膜图像），对目标第二子文本进行重新生成，从而保证图像指定区域内的文本生成更准确。

对生成文本的修正过程如图3所示，图3是本申请实施例的一种可选的模型推理结果的矫正过程示意图，首先根据初始的prompt“一张户外双筒洗衣机的电商广告，上面写着“双12大促！”、“立减500”、“变频节能”，高级设计感，精美构图”生成图3a，其中，“一张户外双筒洗衣机的电商广告”即为上述第二文本数据，“高级设计感，精美构图”即为上述字形信息；而后进行文本区域特征提取对比，确定需要矫正的文本区域，通过特征比对发现，图3a中的“频”字的偏旁“页”的笔画生成错误，因此需要进行矫正；因此针对该文本区域进行文本修正，输入新的prompt ““变频节能”，高级设计感，精美构图”，通过新的prompt针对性地对图3a进行修正，从而得到图3b，完成生成文本的修正过程。

需要说明的是，上述prompt仅用作示例，并不对实际的prompt结构进行限定。

可选的，将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像之前，所述方法还包括：对采集图像进行文本信息标注，得到训练图像，其中，所述训练图像包括：所述采集图像，文本标注信息；将所述采集图像转换为第一潜在向量，并对所述第一潜在向量进行文本特征增强处理，得到所述采集图像的增强特征向量；根据所述第一潜在向量和所述增强特征向量对初始文生图模型进行训练，得到所述文生图模型。

为了保证生成文本更加准确高效，本申请实施例还在常规的文生图模型的基础上进行了训练，使得训练后的文生图模型具备精确的视觉文本生成能力，生成文本的准确度更高。本申请的模型训练是在稳定扩散模型的基础上进行的Fine-tuning，采用了ControlNet的体系结构，ControlNet是一种能够嵌入任意已经训练好的扩散模型，并通过图像prompt来引入图像特征更加精细的控制扩散模型的生成过程。

训练模型的过程包括：先对采集图像进行文本信息标注，从而得到训练图像，用于进行模型训练，训练图像包括：采集图像和文本标注信息；将采集图像转换为第一潜在向量，并对第一潜在向量进行文本特征增强处理，得到采集图像的增强特征向量，最后根据第一潜在向量和增强特征向量对初始文生图模型进行训练，得到本申请所使用的文生图模型。

需要说明的是，Fine-tuning是指在一个已经训练好的模型基础上，进一步在特定任务上进行训练，从而使模型适应该任务的特定数据和要求。通常情况下，我们会使用一个在大规模数据上预训练的模型作为基础模型，然后在特定的任务上进行Fine-tuning，以获得更好的性能。Fine-tuning的优点在于，它可以充分利用预训练模型在大规模数据上学习到的特征和知识，从而在小数据集上也能获得较好的性能。此外，Fine-tuning还可以节省大量的训练时间和计算资源，因为我们可以直接在预训练模型的基础上进行训练，而不需要从头开始训练一个新的模型。

ControlNet是一种用于生成特定控制条件下图像的神经网络模型。核心组件包括一个编码器和一个解码器，它们共同工作以实现图像的生成和控制。编码器负责将输入图像映射到一个低维潜在空间向量。解码器则利用这个潜在向量来生成相应的图像。ControlNet的设计允许用户根据需要灵活地调整输出图像的多种属性，例如颜色、大小或形态等。ControlNet由锁定副本和可训练副本两部分组成，锁定副本包含原始神经网络中的参数，这些参数被锁定，形成了一个可以重新训练的副本。可训练副本是一个新的神经网络副本，它使用外部条件向量进行训练，以适应特定的控制需求。这种结构使得ControlNet可以保留从大量图像数据中学到的通用能力，同时通过特定任务的训练来获得对控制条件的精确响应。因此可以说ControlNet是一个端到端的神经网络架构，用于学习任务相关的输入条件，并通过生成式的对抗机制来生成符合特定控制的图像。

具体的，对采集图像进行文本信息标注，得到训练图像，可以通过以下步骤来实现，包括：对所述采集图像进行文字识别，得到所述采集图像包含的文本信息；通过图像理解方法对所述采集图像进行内容识别，得到所述采集图像的标题信息；根据所述文本信息和所述标题信息对所述采集图像进行文本信息标注，得到所述训练图像，其中，所述文本标注信息包括：所述文本信息，所述标题信息。

首先，采集和标注营销场景垂域视觉文本训练数据集，采集图像涵盖了包含文本的各种营销场景图片，包括街景、海报、封面、广告、视频封面等（即上述采集图像）。部分数据集直接使用文字识别的文本信息进行标注，另外一部分图像都使用OCR检测和识别模型进行处理；然后，使用图像理解方法（如BLIP）重新生成标题（即上述标题信息）；例如：“一个户外帐篷的海报，上面写着“*”，“*”，“*”，“*””，得到文本标注信息。标注示例如图4所示，首先对图像进行文字识别，得到文本信息为“超薄大桶径洗衣机”，而后通过图像理解方法对图像进行内容识别，识别出羽毛、圆弧形水流等元素，最后得到文本标注信息为“一个单筒洗衣机在水面上的海报，羽毛，圆弧形水流，文本写着“超薄大桶径洗衣机””。

进一步地，将所述训练图像转换为第一潜在向量，并对所述第一潜在向量进行文本特征增强处理，得到所述训练图像的增强特征向量，包括：将所述采集图像映射到潜在空间，得到低维的第二潜在向量，并通过扩散算法对所述第二潜在向量进行添加噪声处理，得到所述第一潜在向量；对所述采集图像进行向量识别，得到字形潜在向量、位置潜在向量和掩膜图像潜在向量，其中，所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量均与所述第一潜在向量维度相同，所述字形潜在向量用于描述所述采集图像中包含的文本信息的字形信息，所述位置潜在向量用于描述所述文本信息在所述采集图像中的位置信息，所述掩膜图像潜在向量用于描述所述位置信息对应的掩膜图像；根据所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量对所述第一潜在向量进行文本特征增强处理，得到所述增强特征向量。

在本申请实施例中，在模型训练阶段增加文字字形、位置和掩膜图像的特征学习。首先是将图像通过VAE编码器将图像映射到潜在空间压缩为低维的潜在向量（即上述第二潜在向量），再经扩散算法添加噪声处理生成潜在向量/>（即上述第一潜在向量）；然后对图片中字形区、位置区及mask图像进行采样，生成与/>同维度的中文字形潜在向量/>（即上述字形潜在向量）、位置潜在向量/>（即上述位置潜在向量）、mask图像潜在向量/>（即上述掩膜图像潜在向量）三个条件。然后在卷积融合层将这三个增强条件的潜在向量与/>进行合并产生图像的增强特征/>（即上述增强特征向量），/>。

需要说明的是，VAE（Variational Autoencoder）是一种生成模型，它是自编码器（Autoencoder）的一种变体。自编码器是一种无监督学习算法，它可以将输入数据压缩成一个低维度的表示，并且能够从这个低维度的表示中重构出原始数据。VAE在自编码器的基础上，加入了一些概率分布的假设，使得它可以生成新的数据。VAE的核心思想是将输入数据映射到一个潜在空间（latent space）中，并且在这个潜在空间中进行采样，从而生成新的数据。这个潜在空间通常是一个高斯分布，因此VAE可以通过学习高斯分布的参数来生成新的数据。VAE的训练过程可以分为两个阶段：编码器（encoder）和解码器（decoder）的训练。编码器将输入数据映射到潜在空间中，解码器将潜在空间中的向量映射回原始数据空间中。

基于上述步骤，根据所述第一潜在向量和所述增强特征向量对初始文生图模型进行训练，得到所述文生图模型，包括：将所述第一潜在向量输入到所述初始文生图模型的锁定网络副本中进行训练，以及将所述增强特征向量输入到所述初始文生图模型的可训练网络副本中进行训练，得到训练后的文生图模型，其中，所述锁定网络副本用于保留所述初始文生图模型的文生图能力，所述文生图能力用于根据所述第二文本数据生成所述初始生成图像，所述可训练网络副本用于训练所述初始文生图模型的文本生成能力，所述文本生成能力用于根据所述第一文本数据在所述初始生成图像中生成所述第一生成文本；将所述文本标注信息输入到所述训练后的文生图模型中进行处理，生成推理图像，其中，所述推理图像中包含有推理生成文本和推理生成图像；确定所述采集图像包含的文本信息在所述采集图像中的多个第二文本区域，以及根据所述多个第二文本区域的位置信息确定所述推理生成文本在所述推理图像中对应的多个第三文本区域；对所述多个第二文本区域中的第p个第二文本区域进行图像特征提取，得到第p个第一图像特征，以及，对所述多个第三文本区域中的第p个第三文本区域进行图像特征提取，得到第p个第二图像特征，其中，p为正整数；通过公式统计时间步长t内多个所述第一图像特征和多个所述第二图像特征的总特征距离，其中，/>为所述总特征距离，/>用于指示所述时间步长t与所述推理生成文本的文本生成质量的相关性，/>为所述第p个第一图像特征，/>为所述第p个第二图像特征；计算所述训练后的文生图模型生成所述推理生成图像的第一损失；确定所述多个第三文本区域在所述推理图像中的总面积占比，并根据所述总面积占比确定所述总特征距离的第二权重系数；通过公式/>计算所述训练后的文生图模型生成所述推理图像的第二损失，其中，/>为所述第二损失，/>为所述第一损失，/>为所述第二权重系数；在所述第二损失满足预设条件的情况下，将所述训练后的文生图模型确定为所述文生图模型。

将文本特征增强的特征放入到ControlNet可训练的网络副本，将/>放入到锁定的ControlNet副本分别进行训练，这使得原模型（初始文生图模型）文本生成图像的能力得到保留，同时学习到文本生成的能力。训练后将上述文本标注信息输入到训练后的文生图模型中进行处理，生成推理图像，推理图像包含有推理生成文本和推理生成图像；通过训练后的文生图模型根据文本标注信息生成推理图像，来对模型的损失进行计算，具体计算过程包括：先确定采集图像包含的文本信息在采集图像中的多个第二文本区域，如图3中的图3a或图3b所示，三段子文本“双12大促！”、“立减500”、“变频节能”分别确定出三个第二文本区域，然后根据这些第二文本区域的位置信息确定出推理生成文本在推理图像中对应的多个第三文本区域；分别对所有第二文本区域和第三文本区域进行图像特征提取，得到多个第一图像特征和多个第二图像特征，然后通过公式/>统计时间步长t内的/>和/>之间的距离，该公式作为文本生成区域的损失函数；其中，函数/>能够表征时间步长t与文本生成质量的相关性，这里可以采用扩散模型训练常用的扩散过程系数。而后计算文生图任务的第一损失/>，最后通过公式/>计算整体目标损失（即第二损失），/>为第二权重系数，根据所有文本区域在整体图像的总面积占比来确定；在多次模型训练过程中，确定第二损失最小化时，确定文生图模型训练完成，此时可以保证训练数据文本（即采集图像包含的文本信息）与预测文本（即推理生成文本）差异最小化，从而保障指定区域内文本生成更准确。

可选的，本申请实施例提供了一种可选的模型训练方法，整体流程如图5所示：

第一、采集和标注营销场景垂域视觉文本训练数据集，采集图像涵盖了包含文本的各种营销场景图片，包括街景、海报、封面、广告、视频封面等。部分数据集直接使用文字识别的文本信息进行标注，另外一部分图像都使用OCR检测和识别模型进行处理。然后，使用图像理解方法（如BLIP）重新生成标题，如图5中的图像所示。

第二、模型训练阶段增加文字字形、位置和掩膜图像的特征学习，该步骤中首先是图像通过VAE编码器将图像映射到潜在空间压缩为低维的潜在向量，再经扩散算法添加噪声处理生成潜在向量/>。然后对图片中字形区、位置区及mask图像进行采样，生成与/>同维度的中文字形潜在向量/>（即字形向量）、位置潜在向量/>（即位置向量）、mask图像潜在向量/>（即掩膜图像向量）三个条件。在卷积融合层将这三个增强条件的潜在向量与/>进行合并产生图像的增强特征/>，/>。

接下来，将文本特征增强的特征放入到ControlNet可训练的网络副本，将/>放入到锁定的ControlNet副本分别进行训练，这使得原模型文本生成图像的能力得到保留，同时学习到文本生成的能力。

第三、文本嵌入模块增加文本字形标记，将单行字形渲染到图像中，将图像放入OCR文字识别模型提取最后一个全连接层的特征作为文本嵌入，再根据文本区域和文本内容调整大小，并从标题标记中替换它们的嵌入。最后文本嵌入采用CLIP模型进行编码后添加到ControlNet两个网络副本中进行训练。

第四，增加文本生成区域的监督训练，最后，监督指定生成区域的文本生成，通过对指定区域的生成进行损失计算实现。增加文本区域损失计算可以增加文本生成的准确性。记原图像的文本区域图像为（即上述第二文本区域），推理阶段获取高斯模糊的图像，经过VAE解码器和逆扩散算法获得原始输入图像的近似重建，记为/>（即上述第三文本区域）。准确定位生成文本的区域/>，将该区域与原始图像中的对应区域进行比较，并只关注文本本身书写的正确性，排除背景、颜色等影响。接下来我们通过裁剪、仿射变换、填充和归一化等操作处理p位置上的/>和/>，将两个图像输入图像特征编码器，这里的图像特征编码器的设计不作限制，然后得到原始图像和预测图像的文本书写特征表示/>和/>，通过公式/>统计时间步长t内的/>和/>之间的距离，作为文本生成区域损失函数，其中，函数/>能够表征时间步长t与文本生成质量的相关性，这里可以采用扩散模型训练常用的扩散过程系数。

整体目标损失通过公式来计算，其中，/>为文生图任务损失函数，/>为权重系数（即上述第二权重系数），这里我们根据文本区域p在整体图像的总面积占比来指定。训练目标损失函数最小化，可以保障训练数据文本与预测文本差异最小化，从而保障指定区域内文本生成更准确。

通过本申请实施例，在图像转换潜在空间增加字形、文本位置、掩码标记图像三个条件构建文本增强的图像特征，网络学习在指定区域生成文本的能力，在保留文生图能力的前提下，增加了模型在指定区域生成文本的能力。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

在本实施例中还提供了生成文本的修正装置，该生成文本的修正装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的一种可选的生成文本的修正装置的结构框图；如图6所示，包括：

生成模块62，用于将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，其中，所述第二文本数据用于生成所述初始生成图像，所述第一文本数据包括N个第一子文本，所述第一生成文本包括N个第二子文本，所述N为正整数；

第一确定模块64，用于根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，得到N个文本集合，其中，所述第i个文本集合中包括：所述N个第一子文本中的第i个第一子文本，所述N个第二子文本中的第i个第二子文本，i取值为1到N的任一整数；

第二确定模块66，用于对于所述第i个文本集合，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；

修正模块68，用于在确定所述N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正。

通过上述装置，先将第一文本数据和第二文本数据输入到文生图模型中，通过文生图模型通过第二文本数据生成初始生成图像，并在初始生成图像中生成第一文本数据对应的第一生成文本，其中，第一文本数据包括N个第一子文本，第一生成文本包括N个第二子文本，N为正整数；根据第一文本数据和第一生成文本的对应关系确定出N个文本集合，这N个文本集合中的第i个文本集合包括：N个第一子文本中的第i个第一子文本，N个第一子文本中的第i个第二子文本，i为1至N中的任一整数；对于第i个文本集合，确定第i个第一子文本对应的第一文本特征与第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；若这N个文本相似度中存在小于第一预设阈值的目标文本相似度的情况下，根据该目标文本相似度对应的目标文本集合生成第三文本数据，从而根据第三文本数据对生成图像中的第一生成文本进行修正。采用上述方案，在生成图像后对生成图像中的生成文本进行错误校验并及时进行修正，从而提高了生成图像中生成文本的正确率；进而解决了相关技术中目前的文生图算法在图片中生成的文字会出现生成错误的情况，但目前缺少能高效修正生成文本的方法的问题。

可选的，上述生成模块62，还用于将所述第一文本数据、所述第二文本数据和第一掩膜图像输入到所述文生图模型中，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；根据所述第二文本数据生成所述初始生成图像；确定所述第一文本数据中包括的所述N个第一子文本，以及确定所述第一文本数据中包括的用于描述所述第一生成文本的字形信息；根据所述N个第一子文本、所述字形信息和所述位置信息在所述初始生成图像中生成所述第一生成文本，得到所述生成图像。

可选的，上述第一确定模块64，还用于对于所述第一文本数据中的第i个第一子文本，根据第一掩膜图像在所述生成图像中确定第i个文本区域，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；通过文字识别模型对所述第i个文本区域进行文字识别，得到与所述第i个第一子文本存在对应关系的第i个第二子文本；将所述第i个第一子文本和所述第i个第二子文本确定为所述第i个文本集合。

可选的，上述第二确定模块66，还用于对所述第i个第一子文本进行文本特征提取，得到所述第一文本特征，以及对所述第i个第二子文本进行文本特征提取，得到所述第二文本特征；计算所述第一文本特征与所述第二文本特征之间的余弦相似度，以及确定所述第i个文本区域在所述生成图像中的面积占比；根据所述面积占比确定所述余弦相似度的第一权重系数，并根据所述第一权重系数和所述余弦相似度确定所述文本相似度。

可选的，上述修正模块68，还用于确定所述目标文本集合中的目标第一子文本，以及确定所述目标文本集合中的目标第二子文本在所述生成图像中的位置信息；根据所述目标第二子文本的位置信息和所述目标第一子文本生成第二掩膜图像，并根据所述目标第一子文本生成所述第三文本数据；将所述第三文本数据、所述第二掩膜图像和所述生成图像输入到所述文生图模型中，以使所述文生图模型在所述生成图像中对所述第一生成文本中的目标第二子文本进行修正。

可选的，上述生成模块62，还用于对采集图像进行文本信息标注，得到训练图像，其中，所述训练图像包括：所述采集图像，文本标注信息；将所述采集图像转换为第一潜在向量，并对所述第一潜在向量进行文本特征增强处理，得到所述采集图像的增强特征向量；根据所述第一潜在向量和所述增强特征向量对初始文生图模型进行训练，得到所述文生图模型。

可选的，上述生成文本的修正装置，还包括标注模块70，如图7所示，标注模块70用于对所述采集图像进行文字识别，得到所述采集图像包含的文本信息；通过图像理解方法对所述采集图像进行内容识别，得到所述采集图像的标题信息；根据所述文本信息和所述标题信息对所述采集图像进行文本信息标注，得到所述训练图像，其中，所述文本标注信息包括：所述文本信息，所述标题信息。

可选的，上述生成文本的修正装置，还包括处理模块72，如图7所示，处理模块72用于将所述采集图像映射到潜在空间，得到低维的第二潜在向量，并通过扩散算法对所述第二潜在向量进行添加噪声处理，得到所述第一潜在向量；对所述采集图像进行向量识别，得到字形潜在向量、位置潜在向量和掩膜图像潜在向量，其中，所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量均与所述第一潜在向量维度相同，所述字形潜在向量用于描述所述采集图像中包含的文本信息的字形信息，所述位置潜在向量用于描述所述文本信息在所述采集图像中的位置信息，所述掩膜图像潜在向量用于描述所述位置信息对应的掩膜图像；根据所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量对所述第一潜在向量进行文本特征增强处理，得到所述增强特征向量。

可选的，上述生成文本的修正装置，还包括训练模块74，如图7所示，训练模块74，用于将所述第一潜在向量输入到所述初始文生图模型的锁定网络副本中进行训练，以及将所述增强特征向量输入到所述初始文生图模型的可训练网络副本中进行训练，得到训练后的文生图模型，其中，所述锁定网络副本用于保留所述初始文生图模型的文生图能力，所述文生图能力用于根据所述第二文本数据生成所述初始生成图像，所述可训练网络副本用于训练所述初始文生图模型的文本生成能力，所述文本生成能力用于根据所述第一文本数据在所述初始生成图像中生成所述第一生成文本；将所述文本标注信息输入到所述训练后的文生图模型中进行处理，生成推理图像，其中，所述推理图像中包含有推理生成文本和推理生成图像；确定所述采集图像包含的文本信息在所述采集图像中的多个第二文本区域，以及根据所述多个第二文本区域的位置信息确定所述推理生成文本在所述推理图像中对应的多个第三文本区域；对所述多个第二文本区域中的第p个第二文本区域进行图像特征提取，得到第p个第一图像特征，以及，对所述多个第三文本区域中的第p个第三文本区域进行图像特征提取，得到第p个第二图像特征，其中，p为正整数；通过公式统计时间步长t内多个所述第一图像特征和多个所述第二图像特征的总特征距离，其中，/>为所述总特征距离，/>用于指示所述时间步长t与所述推理生成文本的文本生成质量的相关性，/>为所述第p个第一图像特征，/>为所述第p个第二图像特征；计算所述训练后的文生图模型生成所述推理生成图像的第一损失；确定所述多个第三文本区域在所述推理图像中的总面积占比，并根据所述总面积占比确定所述总特征距离的第二权重系数；通过公式/>计算所述训练后的文生图模型生成所述推理图像的第二损失，其中，/>为所述第二损失，/>为所述第一损失，/>为所述第二权重系数；在所述第二损失满足预设条件的情况下，将所述训练后的文生图模型确定为所述文生图模型。

本申请的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，其中，所述第二文本数据用于生成所述初始生成图像，所述第一文本数据包括N个第一子文本，所述第一生成文本包括N个第二子文本，所述N为正整数；

S2，根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，得到N个文本集合，其中，所述第i个文本集合中包括：所述N个第一子文本中的第i个第一子文本，所述N个第二子文本中的第i个第二子文本，i取值为1到N的任一整数；

S3，对于所述第i个文本集合，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；

S4，在确定所述N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正。

本申请的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种生成文本的修正方法，其特征在于，包括：

将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，其中，所述第二文本数据用于生成所述初始生成图像，所述第一文本数据包括N个第一子文本，所述第一生成文本包括N个第二子文本，所述N为正整数；

根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，得到N个文本集合，其中，所述第i个文本集合中包括：所述N个第一子文本中的第i个第一子文本，所述N个第二子文本中的第i个第二子文本，i取值为1到N的任一整数；

对于所述第i个文本集合，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；

在确定所述N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正。

2.根据权利要求1所述的生成文本的修正方法，其特征在于，将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，包括：

将所述第一文本数据、所述第二文本数据和第一掩膜图像输入到所述文生图模型中，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；

根据所述第二文本数据生成所述初始生成图像；

确定所述第一文本数据中包括的所述N个第一子文本，以及确定所述第一文本数据中包括的用于描述所述第一生成文本的字形信息；

根据所述N个第一子文本、所述字形信息和所述位置信息在所述初始生成图像中生成所述第一生成文本，得到所述生成图像。

3.根据权利要求1所述的生成文本的修正方法，其特征在于，根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，包括：

对于所述第一文本数据中的第i个第一子文本，根据第一掩膜图像在所述生成图像中确定第i个文本区域，其中，所述第一掩膜图像用于指示待生成的第一生成文本在所述生成图像中的位置信息；

通过文字识别模型对所述第i个文本区域进行文字识别，得到与所述第i个第一子文本存在对应关系的第i个第二子文本；

将所述第i个第一子文本和所述第i个第二子文本确定为所述第i个文本集合。

4.根据权利要求3所述的生成文本的修正方法，其特征在于，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，包括：

对所述第i个第一子文本进行文本特征提取，得到所述第一文本特征，以及对所述第i个第二子文本进行文本特征提取，得到所述第二文本特征；

计算所述第一文本特征与所述第二文本特征之间的余弦相似度，以及确定所述第i个文本区域在所述生成图像中的面积占比；

根据所述面积占比确定所述余弦相似度的第一权重系数，并根据所述第一权重系数和所述余弦相似度确定所述文本相似度。

5.根据权利要求1所述的生成文本的修正方法，其特征在于，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正，包括：

确定所述目标文本集合中的目标第一子文本，以及确定所述目标文本集合中的目标第二子文本在所述生成图像中的位置信息；

根据所述目标第二子文本的位置信息和所述目标第一子文本生成第二掩膜图像，并根据所述目标第一子文本生成所述第三文本数据；

将所述第三文本数据、所述第二掩膜图像和所述生成图像输入到所述文生图模型中，以使所述文生图模型在所述生成图像中对所述第一生成文本中的目标第二子文本进行修正。

6.根据权利要求1所述的生成文本的修正方法，其特征在于，将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像之前，所述方法还包括：

对采集图像进行文本信息标注，得到训练图像，其中，所述训练图像包括：所述采集图像，文本标注信息；

将所述采集图像转换为第一潜在向量，并对所述第一潜在向量进行文本特征增强处理，得到所述采集图像的增强特征向量；

根据所述第一潜在向量和所述增强特征向量对初始文生图模型进行训练，得到所述文生图模型。

7.根据权利要求6所述的生成文本的修正方法，其特征在于，对采集图像进行文本信息标注，得到训练图像，包括：

对所述采集图像进行文字识别，得到所述采集图像包含的文本信息；

通过图像理解方法对所述采集图像进行内容识别，得到所述采集图像的标题信息；

根据所述文本信息和所述标题信息对所述采集图像进行文本信息标注，得到所述训练图像，其中，所述文本标注信息包括：所述文本信息，所述标题信息。

8.根据权利要求6所述的生成文本的修正方法，其特征在于，将所述训练图像转换为第一潜在向量，并对所述第一潜在向量进行文本特征增强处理，得到所述训练图像的增强特征向量，包括：

将所述采集图像映射到潜在空间，得到低维的第二潜在向量，并通过扩散算法对所述第二潜在向量进行添加噪声处理，得到所述第一潜在向量；

对所述采集图像进行向量识别，得到字形潜在向量、位置潜在向量和掩膜图像潜在向量，其中，所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量均与所述第一潜在向量维度相同，所述字形潜在向量用于描述所述采集图像中包含的文本信息的字形信息，所述位置潜在向量用于描述所述文本信息在所述采集图像中的位置信息，所述掩膜图像潜在向量用于描述所述位置信息对应的掩膜图像；

根据所述字形潜在向量、所述位置潜在向量和所述掩膜图像潜在向量对所述第一潜在向量进行文本特征增强处理，得到所述增强特征向量。

9.根据权利要求8所述的生成文本的修正方法，其特征在于，根据所述第一潜在向量和所述增强特征向量对初始文生图模型进行训练，得到所述文生图模型，包括：

将所述第一潜在向量输入到所述初始文生图模型的锁定网络副本中进行训练，以及将所述增强特征向量输入到所述初始文生图模型的可训练网络副本中进行训练，得到训练后的文生图模型，其中，所述锁定网络副本用于保留所述初始文生图模型的文生图能力，所述文生图能力用于根据所述第二文本数据生成所述初始生成图像，所述可训练网络副本用于训练所述初始文生图模型的文本生成能力，所述文本生成能力用于根据所述第一文本数据在所述初始生成图像中生成所述第一生成文本；

将所述文本标注信息输入到所述训练后的文生图模型中进行处理，生成推理图像，其中，所述推理图像中包含有推理生成文本和推理生成图像；

确定所述采集图像包含的文本信息在所述采集图像中的多个第二文本区域，以及根据所述多个第二文本区域的位置信息确定所述推理生成文本在所述推理图像中对应的多个第三文本区域；

对所述多个第二文本区域中的第p个第二文本区域进行图像特征提取，得到第p个第一图像特征，以及，对所述多个第三文本区域中的第p个第三文本区域进行图像特征提取，得到第p个第二图像特征，其中，p为正整数；

通过公式统计时间步长t内多个所述第一图像特征和多个所述第二图像特征的总特征距离，其中，/>为所述总特征距离，/>用于指示所述时间步长t与所述推理生成文本的文本生成质量的相关性，/>为所述第p个第一图像特征，/>为所述第p个第二图像特征；

计算所述训练后的文生图模型生成所述推理生成图像的第一损失；

确定所述多个第三文本区域在所述推理图像中的总面积占比，并根据所述总面积占比确定所述总特征距离的第二权重系数；

通过公式计算所述训练后的文生图模型生成所述推理图像的第二损失，其中，/>为所述第二损失，/>为所述第一损失，/>为所述第二权重系数；

在所述第二损失满足预设条件的情况下，将所述训练后的文生图模型确定为所述文生图模型。

10.一种生成文本的修正装置，其特征在于，包括：

生成模块，用于将第一文本数据和第二文本数据输入到文生图模型中，以使所述文生图模型在初始生成图像中生成所述第一文本数据对应的第一生成文本，得到生成图像，其中，所述第二文本数据用于生成所述初始生成图像，所述第一文本数据包括N个第一子文本，所述第一生成文本包括N个第二子文本，所述N为正整数；

第一确定模块，用于根据所述第一文本数据与所述第一生成文本的对应关系确定第i个文本集合，得到N个文本集合，其中，所述第i个文本集合中包括：所述N个第一子文本中的第i个第一子文本，所述N个第二子文本中的第i个第二子文本，i取值为1到N的任一整数；

第二确定模块，用于对于所述第i个文本集合，确定所述第i个第一子文本对应的第一文本特征和所述第i个第二子文本对应的第二文本特征之间的文本相似度，得到N个文本相似度；

修正模块，用于在确定所述N个文本相似度中存在目标文本相似度小于第一预设阈值的情况下，根据所述目标文本相似度对应的目标文本集合生成第三文本数据，并根据所述第三文本数据对所述生成图像中的所述第一生成文本进行修正。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至9任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。