CN114119811B - 图像的生成方法、装置和电子设备 - Google Patents

图像的生成方法、装置和电子设备 Download PDF

Info

Publication number
CN114119811B
CN114119811B CN202210103785.XA CN202210103785A CN114119811B CN 114119811 B CN114119811 B CN 114119811B CN 202210103785 A CN202210103785 A CN 202210103785A CN 114119811 B CN114119811 B CN 114119811B
Authority
CN
China
Prior art keywords
sequence
text
glyph
predicted
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210103785.XA
Other languages
English (en)
Other versions
CN114119811A (zh
Inventor
丁铭
杨卓毅
洪文逸
郑问迪
周畅
杨红霞
唐杰
刘德兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co ltd filed Critical Beijing Zhipu Huazhang Technology Co ltd
Priority to CN202210103785.XA priority Critical patent/CN114119811B/zh
Publication of CN114119811A publication Critical patent/CN114119811A/zh
Application granted granted Critical
Publication of CN114119811B publication Critical patent/CN114119811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提出了一种图像的生成方法、装置和电子设备,其中,方法包括:根据目标文本的目标文本形符序列,获取对应的预测图像形符序列;根据预测图像形符序列,获取对应的预测文本形符序列;根据预测文本形符序列与目标文本形符序列的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列;根据候选图像形符序列,生成目标文本对应的目标图像。本申请中,降低了图像的生成难度,提高了图像对文本表达的准确度,提高了图像的生成质量,优化了图像的生成效果。

Description

图像的生成方法、装置和电子设备
技术领域
本申请涉及数据处理领域,尤其涉及一种图像的生成方法、装置和电子设备。
背景技术
随着技术的发展,人们对于基于文本生成对应图像的需求越来越高,相关技术中,可以通过文本生成物体框,进而生成轮廓,以达到最后图像生成的目的。由于误差的累计,图像生成质量较低、准确率较低。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请第一方面提出一种图像的生成方法。
本申请第二方面还提出一种图像的生成装置。
本申请第三方面提出一种电子设备。
本申请第四方面提出一种计算机可读存储介质。
本申请第一方面提出一种图像的生成方法,包括:根据目标文本的目标文本形符序列,获取对应的预测图像形符序列;根据所述预测图像形符序列,获取对应的预测文本形符序列;根据所述预测文本形符序列与所述目标文本形符序列的关联度,从所述预测图像形符序列中获取所述目标文本的候选图像形符序列;根据所述候选图像形符序列,生成所述目标文本对应的目标图像。
另外,本申请第一方面提出的图像的生成方法,还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述根据所述预测图像形符序列,获取对应的预测文本形符序列,包括:根据所述目标文本形符序列进行图像形符预测,获取所述预测图像形符序列;根据所述预测图像形符序列进行文本形符预测,获取所述预测文本形符序列。
根据本申请的一个实施例,所述根据所述目标文本形符序列进行图像形符预测,获取所述预测图像形符序列,包括:根据样本图文形符序列对待训练图像形符预测模型进行训练,获取训练后的图像形符预测模型;将所述目标文本形符序列输入所述图像形符预测模型进行图像形符预测,获取所述目标文本形符序列对应的所述预测图像形符序列。
根据本申请的一个实施例,所述将所述目标文本形符序列输入所述图像形符预测模型进行图像形符预测,获取所述目标文本形符序列对应的所述预测图像形符序列,包括:根据所述目标文本形符序列,获取所述预测图像形符序列每个位置上的候选图像形符集;从所述候选图像形符集中,确定所述预测图像形符序列的每个位置上的预测图像形符;根据全部位置上的预测图像形符,确定所述目标文本形符序列对应的所述预测图像形符序列。
根据本申请的一个实施例,所述根据所述预测图像形符序列进行文本形符预测,获取所述预测文本形符序列,包括:根据所述样本图文形符序列对待训练文本形符预测模型进行训练,获取训练后的文本形符预测模型;将所述预测图像形符序列输入所述文本形符预测模型进行文本形符预测,获取所述预测图像形符序列对应的所述预测文本形符序列。
根据本申请的一个实施例,所述将所述预测图像形符序列输入所述文本形符预测模型进行文本形符预测,获取所述预测图像形符序列对应的所述预测文本形符序列,包括:根据所述预测图像形符序列,获取所述预测文本形符序列每个位置上的候选文本形符集;根据所述目标文本形符序列中每个位置上的目标文本形符,从所述候选文本形符集中确定所述预测文本形符序列上每个位置的预测文本形符;根据全部位置上的预测文本形符,确定所述预测图像形符序列对应的所述预测文本形符序列。
根据本申请的一个实施例,所述根据所述预测文本形符序列与所述目标文本形符序列的关联度,从所述预测图像形符序列中获取所述目标文本的候选图像形符序列,包括:确定所述预测文本形符序列与所述目标文本形符序列的所述关联度;将所述关联度满足设定标准的预测文本形符序列对应的预测图像形符序列,作为所述目标文本的所述候选图像形符序列。
根据本申请的一个实施例,所述确定所述预测文本形符序列与所述目标文本形符序列的所述关联度,包括:从所述预测文本形符序列每个位置上的候选文本形符集中,确定每个位置上的预测文本形符的分布概率;根据全部位置上的预测文本形符的分布概率,确定所述预测文本形符序列的目标概率值;根据所述目标概率值确定所述预测文本形符序列与所述目标文本形符序列的所述关联度。
根据本申请的一个实施例,所述根据所述候选图像形符序列,生成所述目标文本对应的目标图像,包括:切割所述候选图像形符序列对应的候选图像,获取所述候选图像包括的多个候选片段图像;提升每个候选片段图像的分辨率,生成所述每个候选片段图像对应的目标片段图像;将所述目标片段图像进行拼接,生成所述目标文本对应的所述目标图像。
本申请第二方面还提出一种图像的生成装置,该装置包括:获取模块,用于根据目标文本的目标文本形符序列,获取对应的预测图像形符序列;预测模块,用于根据所述预测图像形符序列,获取对应的预测文本形符序列;确定模块,用于根据所述预测文本形符序列与所述目标文本形符序列的关联度,从所述预测图像形符序列中获取所述目标文本的候选图像形符序列;处理模块,用于根据所述候选图像形符序列,生成所述目标文本对应的目标图像。
本申请第二方面提出的图像的生成装置还可以具有如下附加的技术特征:
根据本申请的一个实施例,所述预测模块,还用于:根据所述目标文本形符序列进行图像形符预测,获取所述预测图像形符序列;根据所述预测图像形符序列进行文本形符预测,获取所述预测文本形符序列。
根据本申请的一个实施例,所述预测模块,还用于:根据样本图文形符序列对待训练图像形符预测模型进行训练,获取训练后的图像形符预测模型;将所述目标文本形符序列输入所述图像形符预测模型进行图像形符预测,获取所述目标文本形符序列对应的所述预测图像形符序列。
根据本申请的一个实施例,所述预测模块,还用于:根据所述目标文本形符序列,获取所述预测图像形符序列每个位置上的候选图像形符集;从所述候选图像形符集中,确定所述预测图像形符序列的每个位置上的预测图像形符;根据全部位置上的预测图像形符,确定所述目标文本形符序列对应的所述预测图像形符序列。
根据本申请的一个实施例,所述预测模块,还用于:根据所述样本图文形符序列对待训练文本形符预测模型进行训练,获取训练后的文本形符预测模型;将所述预测图像形符序列输入所述文本形符预测模型进行文本形符预测,获取所述预测图像形符序列对应的所述预测文本形符序列。
根据本申请的一个实施例,所述预测模块,还用于:根据所述预测图像形符序列,获取所述预测文本形符序列每个位置上的候选文本形符集;根据所述目标文本形符序列中每个位置上的目标文本形符,从所述候选文本形符集中确定所述预测文本形符序列上每个位置的预测文本形符;根据全部位置上的预测文本形符,确定所述预测图像形符序列对应的所述预测文本形符序列。
根据本申请的一个实施例,所述确定模块,还用于:确定所述预测文本形符序列与所述目标文本形符序列的所述关联度;将所述关联度满足设定标准的预测文本形符序列对应的预测图像形符序列,作为所述目标文本的所述候选图像形符序列。
根据本申请的一个实施例,所述确定模块,还用于:从所述预测文本形符序列每个位置上的候选文本形符集中,确定每个位置上的预测文本形符的分布概率;根据全部位置上的预测文本形符的分布概率,确定所述预测文本形符序列的目标概率值;根据所述目标概率值确定所述预测文本形符序列与所述目标文本形符序列的所述关联度。
根据本申请的一个实施例,所述处理模块,还用于:切割所述候选图像形符序列对应的候选图像,获取所述候选图像包括的多个候选片段图像;提升每个候选片段图像的分辨率,生成所述每个候选片段图像对应的目标片段图像;将所述目标片段图像进行拼接,生成所述目标文本对应的所述目标图像。
本申请第三方面提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提出的图像的生成方法。
本申请第四方面提出了一种计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面提出的图像的生成方法。
本申请提出的图像的生成方法及装置,获取目标文本的目标文本形符序列后,根据目标文本形符序列获取对应的预测图像形符序列。根据预测图像形符序列生成对应的预测文本形符序列,并根据预测文本形符序列与目标文本形符序列之间的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列。进一步地,根据候选图像形符序列生成对应的候选图像,并对候选图像进行图像处理,从而生成目标文本对应的目标图像。本申请中,通过文本形符序列向图像形符序列的转化,实现文本对应的图像的生成,降低了图像的生成难度,根据预测文本形符序列与目标文本形符序列的对比获取对应的候选图像,提高了图像对文本表达的准确度,提高了图像的生成质量,优化了图像的生成效果。
应当理解,本申请所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一实施例的图像的生成方法的流程示意图;
图2为本申请另一实施例的图像的生成方法的流程示意图;
图3为本申请另一实施例的图像的生成方法的流程示意图;
图4为本申请另一实施例的图像的生成方法的流程示意图;
图5为本申请另一实施例的图像的生成方法的流程示意图;
图6为本申请另一实施例的图像的生成方法的流程示意图;
图6a为本申请一实施例的图像分辨率处理的示意图;
图6b为本申请另一实施例的图像分辨率处理的示意图;
图6c为本申请另一实施例的图像分辨率处理的示意图;
图7为本申请一实施例的图像的生成装置的结构示意图;
图8为本申请一实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述本申请实施例的图像的生成方法、装置、电子设备和存储介质。
图1为本申请一实施例的图像的生成方法的流程示意图,如图1所示,该方法包括:
S101,根据目标文本的目标文本形符序列,获取对应的预测图像形符序列。
实现中,文本可以由多个词语组合生成,不同的词语可以体现不同的含义,词语与词语之间基于设定的顺序进行组合,从而生成可以用于表达的文本。为了可以更加直观的获取文本表达的含义,可以将文本转化为对应的图像。
其中,可以基于词语结构对文本进行划分,并分别根据划分后获取到的词语进行图像的转换,进而生成文本对应的图像。
可选地,可以使用文本形符标识文本中的词语,不同含义的词语对应不同的文本形符,其中,文本形符可以对文本内容中的对应的文本碎片的进行表达,通过多个文本形符可以实现对文本内容的碎片化切分。
本申请实施例中,可以通过设定工具对目标文本进行划分,并将划分后的词语用对应的文本形符进行标识,从而生成目标文本对应的目标文本形符序列。其中,可以通过自然语言处理工具包(SentencePiece)目标文本进行划分进而生成对应的目标文本形符序列,也可以通过其他可以实现目标文本形符序列生成的工具实现。
相应地,文本形符存在对应的图像形符,通过图像形符可以对图像内容中的对应图像碎片进行表达,根据图像内容对应的全部图像形符可以实现对图像内容的完整表达。
因此,获取文本形符后,基于文本形符进行图像内容对应的图像形符的预测,根据预测获取到的图像形符,可以实现文本对应的图像内容的获取。
进一步地,根据目标文本形符序列获取对应的预测图像形符序列。
可选地,可以通过目标文本形符序列的整体表达的含义,获取对应的预测图像形符序列。
可选地,可以获取目标文本形符序列中每个文本形符进行图像形符的获取和组合进而获取对应的预测图像形符序列。
需要说明的是,预测图像形符序列是根据目标文本形符序列生成的,因此,需要从预测图像形符序列进行进一步的筛选,其中,预测图像形符序列的数量为多个。
S102,根据预测图像形符序列,获取对应的预测文本形符序列。
为了获取可以准确表达目标文本的图像,可以分别将每个预测图像形符序列转化为对应的预测文本形符序列,并将预测图像形符序列转化的预测文本形符序列与目标文本形符序列进行对比,根据对比的结果实现预测图像形符序列的筛选。
可选地,可以根据预测图像形符序列中每个图像形符的表达含义,获取对应的文本形符,进而确定预测图像形符序列对应的预测文本形符序列。
可选地,可以根据预测图像形符序列的完整表达含义,获取对应的预测文本形符序列。
S103,根据预测文本形符序列与目标文本形符序列的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列。
本申请实施例中,可以通过预测文本形符序列与目标文本形符序列之间的关联度,判断预测文本形符序列对应的预测图像形符序列是否可以实现对目标文本的准确表达。
可选地,可以将预测文本形符序列中的每个位置上的文本形符,与目标文本形符序列对应位置上的文本形符进行对比,根据对比结果获取预测文本形符序列与目标文本形符序列之间的关联度。
可选地,可以根据预测文本形符序列的整体表达与目标文本形符序列的整体表达进行对比,根据对比结果获取预测文本形符序列与目标文本形符序列之间的关联度。
其中,关联度高的预测文本形符序列对应的预测图像形符序列,对于目标文本的表达的准确程度,高于关联度低的预测文本形符序列对应的预测图像形符序列,对于目标文本的表达的准确程度。
进一步地,可以基于关联度对全部的预测文本形符序列进行排序,进而确定其中关联度较高的部分预测文本形符序列,并将该部分预测文本形符序列对应的预测图像形符序列,确定为目标文本的候选图像形符序列。
其中,候选图像形符序列可以为一个,也可以为多个,此处不做限定。
S104,根据候选图像形符序列,生成目标文本对应的目标图像。
本申请实施例中,可以通过相关设定工具对候选图像形符序列进行处理,进而生成候选图像形符序列对应的候选图像。
可选地,可以根据候选图像形符序列中的每个图像形符生成对应的图像片段,并将全部的图像片段进行整合,进而获取对应的候选图像。
进一步地,为了获取更高质量的图像,可以对候选图像进行进一步的图像处理。
其中,可以基于候选图像的相关属性参数对候选图像进行调整。可选地,可以调整候选图像的饱和度,也可以调整候选图像的锐度等。
进一步地,将处理后的候选图像确定为目标文本对应的目标图像。
本申请提出的图像生成方法,获取目标文本的目标文本形符序列后,根据目标文本形符序列获取对应的预测图像形符序列。根据预测图像形符序列生成对应的预测文本形符序列,并根据预测文本形符序列与目标文本形符序列之间的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列。进一步地,根据候选图像形符序列生成对应的候选图像,并对候选图像进行图像处理,从而生成目标文本对应的目标图像。本申请中,通过文本形符序列向图像形符序列的转化,实现文本对应的图像的生成,降低了图像的生成难度,根据预测文本形符序列与目标文本形符序列的对比获取对应的候选图像,提高了图像对文本表达的准确度,提高了图像的生成质量,优化了图像的生成效果。
上述实施例中,关于候选文本形符序列的获取,可结合图2进一步理解,图2为本申请另一实施例的图像生成方法的流程示意图,如图2所示,该方法包括:
S201,根据目标文本形符序列进行图像形符预测,获取预测图像形符序列。
本申请实施例中,可以通过对图像形符的预测,获取对应的预测图像形符序列。可选地,预测图像形符序列可以通过图像形符预测模型获取,也可以通过其他可以实现图像形符预测的算法获取,此处不做限定。
进一步地,关于通过图像形符预测模型实现预测图像形符序列的获取,其中,可以根据样本图文形符序列对待训练图像形符预测模型进行训练,获取训练后的图像形符预测模型。
本申请实施例中,以根据样本图文形符序列对可以实现图像形符预测的待训练模型进行训练,进而获取可以实现准确图像形符预测的模型。
可选地,可以将表达相同含义的文本和图像进行组合,生成对应的样本图文。基于样本图文生成对应的样本图文形符序列,进而实现对待训练图像形符预测模型的训练。
进一步地,可以将样本图文分为样本文本和样本图像,并分别获取样本文本对应的文本形符序列和样本图像对应的图像形符序列,作为样本文本形符序列和样本图像形符序列。
关于样本文本形符序列的获取,可以通过SentencePiece对样本文本进行处理,从而获取样本文本对应的样本文本形符序列。
关于样本图像形符序列的获取,可以通过编码器对样本图像进行处理,从而获取样本图像对应的样本图像形符序列。
进一步地,为了实现准确的样本图像形符序列的获取,可以对编码器进行训练,进而实现准确的样本图像形符序列的生成。
可选地,可以获取用于训练编码器的图像,并将该图像输入待训练编码器中,生成对应的图像形符序列。将训练中的编码器输出的图像形符序列输入编码器对应的解码器中,解码器根据输入的图像形符序列生成对应的训练图像。
将解码器输出的训练图像与用于训练编码器的图像进行对比,根据对比结果,调整编码器的相关参数,直至训练过程中,编码器满足训练结束的条件,即可停止对编码器的训练。
进一步地,将样本图像输入训练后的编码器中,基于训练后的编码器实现样本图像形符序列的获取。
需要说明的是,在编码器的训练过程中,可以构建图像形符库,将能够准确表达文本形符序列的图像形符存储于图像形符库中的设定位置,并设定对应的标识信息,比如编号。
进一步地,基于设定顺序对样本文本形符序列和样本图像形符序列进行拼接。
比如,设定样本文本形符序列和样本图像形符序列为横向排列的形符序列,则可以将样本图像形符序列横向顺序拼接至样本文本形符序列之后,生成横向排列的样本图文形符序列。
再比如,设定样本文本形符序列和样本图像形符序列为纵向排列的形符序列,也可以将样本图像形符序列纵向顺序拼接至样本文本形符序列之后,生成纵向排列的样本图文形符序列。
如图3所示,设定样本文本为“一只可爱的小猫的头像”,样本图像如图3所示,获取样本文本对应的样本文本形符序列,通过编码器获取样本图像对应的样本图像形符序列,进一步地,将样本文本形符序列与样本图像形符序列进行拼接,进而生成可以对图像形符预测模型进行训练的样本图文形符序列。
进一步地,将样本图文形符序列输入待训练图像形符预测模型进行训练,并将满足训练结束条件的图像形符预测模型,确定为训练后的图像形符预测模型。
其中,可以根据样本图文形符序列中的样本文本形符序列进行图像形符预测的训练,并将每个轮次的训练结果,与样本图文形符序列中的样本图像形符序列进行对比。
根据每个训练轮次输出的图像形符序列与样本图像形符序列的对比结果,对图像形符预测模型进行属性参数的调整,并使用下一个样本图文形符序列对调整后的图像形符预测模型继续进行训练,直至调整后的图像形符预测模型满足训练结束的条件,则结束对图像形符预测模型的训练,进而获取训练后的图像形符预测模型。
可选地,可以根据图像形符预测模型的训练轮次设定训练结束的条件。在训练的过程中,可以对图像形符预测模型的训练轮次进行监控,当训练轮次满足设定的训练结束的条件时,可以判断,当前训练后的图像形符预测模型可以满足应用所需,则结束对图像形符预测模型的训练,并通过训练后的图像形符预测模型进行图像形符的预测。
可选地,可以根据图像形符预测模型的训练结果设定训练结束的条件。在每个轮次的训练结束后,根据图像形符预测模型在当前轮次输出的训练结果与设定的训练结束条件进行对比,若当前轮次输出的训练结果满足设定的训练结束条件,可以判断,当前轮次训练结束后的图像形符预测模型可以满足应用所需,则结束对图像形符预测模型的训练,并通过训练后的图像形符预测模型进行图像形符的预测。
进一步地,将目标文本形符序列输入图像形符预测模型进行图像形符预测,获取目标文本形符序列对应的预测图像形符序列。
本申请实施例中,可以通过图像形符预测模型实现基于文本形符序列的图像形符预测。可以将目标文本形符序列输入图像形符预测模型中,根据图像形符预测模型的输出结果,获取目标文本形符序列对应的预测图像形符序列。
进一步地,根据目标文本形符序列,获取预测图像形符序列每个位置上的候选图像形符集。
其中,可以根据目标文本形符序列表达的整体含义,和/或,根据目标文本形符序列中每个位置的目标文本形符的表达含义,逐个对预测图像形符序列每个位置上的图像形符进行预测,其中,每个位置上的图像形符可以从图像形符库中获取。
可选地,可以从图像形符库中为预测图像形符序列的每个位置选择至少一个可以表达该位置的图像内容的图像形符,进而生成预测图像形符序列的每个位置对应的候选图像形符集。
本申请实施例中,可以对目标文本进行准确表达的图像具有设定标准,因此,预测图像形符序列的每个位置对应的候选图像形符集中的图像形符存在设定的概率分布,其中,每个图像形符的分布概率与其对应位置的图像内容的表达程度存在一定程度的关联。
比如,设定图像形符库中可以表达预测图像形符序列第N个位置的图像形符为为编号7的图像形符、编号11的图像形符和编号56的图像形符,则可以根据编号7的图像形符、编号11的图像形符和编号56的图像形符中的至少一个图像形符,确定预测图像形符序列第N个位置对应的候选图像形符集中。当候选图像形符集中包括该三个图像形符时,可以根据每个图像形符对第N个位置的内容的表达程度的不同,确定每个图像形符对应的分布概率,可以包括,编号7的图像形符的分布概率为11%、编号11的图像形符的分布概率为67%和编号56的图像形符的分布概率为22%。
需要说明的是,预测图像形符序列的每个位置对应的每个候选图像形符集中,全部的图像形符的分布概率的和值为1。
进一步地,从候选图像形符集中,获取预测图像形符序列的每个位置上的预测图像形符。
本申请实施例中,候选图像形符集中的图像形符,可以实现对应位置上的图像内容的表达,因此,可以从每个位置对应的候选图像形符集中分别确定预测图像形符序列的每个位置上的图像形符,并将其确定为预测图像形符序列每个位置上的预测图像形符。
在一些实现中,可以在每个位置对应的候选图像形符集中随机采样,并根据随机采样的结果确定每个位置上的预测图像形符。
在另一些实现中,可以根据分布概率设定采样顺序,并基于设定的顺序对每个位置上的候选图像形符集进行采样,进而确定预测图像形符序列每个位置上的预测图像形符。
进一步地,根据全部位置上的预测图像形符,确定目标文本形符序列对应的预测图像形符序列。
本申请实施例中,预测图像形符序列的位置存在设定顺序,确定每个位置上的预测图像形符后,根据每个位置之间的设定顺序将全部的预测图像形符进行组合,并将组合获取到的图像形符序列,作为目标文本形符序列对应的预测图像形符序列。
比如,设定预测图像形符序列存在1024个位置,则分别确定每个位置上的预测图像形符后,将该1024个图像形符进行顺序拼接,进而生成由1024个图像形符组成的预测图像形符序列。
需要说明的是,在生成同一个文本对应的预测图像形符序列的过程中,每个轮次对每个位置对应的候选图像形符集采样结束后,会基于相同的候选图像形符集进行下一轮次的每个位置的预测图像形符的采样,进而获取同一文本对应的多个预测图像形符序列。
S202,根据预测图像形符序列进行文本形符预测,获取预测文本形符序列。
本申请实施例中,可以通过对文本形符的预测,获取预测图像形符序列对应的预测文本形符序列。可选地,预测文本形符序列可以通过文本形符预测模型获取,也可以通过其他可以实现文本形符预测的算法获取,此处不做限定。
其中,关于文本形符预测模型实现预测文本形符序列的获取,其中,可以根据样本图文形符序列对待训练文本形符预测模型进行训练,获取训练后的文本形符预测模型。
进一步地,可以根据样本图文形符序列中的样本图像形符序列进行文本形符预测的训练,并将每个轮次的训练结果,与样本图文形符序列中的样本文本形符序列进行对比。
根据每个训练轮次输出的文本形符序列与样本文本形符序列的对比结果,对文本形符预测模型进行属性参数的调整,并使用下一个样本图文形符序列对调整后的文本形符预测模型继续进行训练,直至调整后的文本形符预测模型满足训练结束的条件,则结束对文本形符预测模型的训练,进而获取训练后的文本形符预测模型。
可选地,可以根据文本形符预测模型的训练轮次设定训练结束的条件。在训练的过程中,可以对文本形符预测模型的训练轮次进行监控,当训练轮次满足设定的训练结束的条件时,可以判断,当前训练后的文本形符预测模型可以满足应用所需,则结束对文本形符预测模型的训练,并通过训练后的文本形符预测模型进行文本形符的预测。
可选地,可以根据文本形符预测模型的训练结果设定训练结束的条件。在每个轮次的训练结束后,根据文本形符预测模型在当前轮次输出的训练结果与设定的训练结束条件进行对比,若当前轮次输出的训练结果满足设定的训练结束条件,可以判断,当前轮次训练结束后的文本形符预测模型可以满足应用所需,则结束对文本形符预测模型的训练,并通过训练后的文本形符预测模型进行文本形符的预测。
进一步地,将预测图像形符序列输入文本形符预测模型进行文本形符预测,获取预测图像形符序列对应的预测文本形符序列。
其中,可以根据预测图像形符序列,获取预测文本形符序列每个位置上的候选文本形符集。
本申请实施例中,可以根据预测图像形符序列表达的整体含义,和/或,根据预测图像形符序列中每个位置的预测图像形符的表达含义,逐个对预测文本形符每个位置上的文本形符进行预测。
可选地,可以获取预测文本序列的每个位置对应的至少一个文本形符,进而生成预测文本序列每个位置对应的候选文本形符集。
进一步地,根据目标文本形符序列中每个位置上的目标文本形符,从候选文本形符集中确定预测文本形符序列上每个位置的预测文本形符。
本申请实施例中,预测文本形符序列用于衡量其对应的预测图像形符序列是否可以实现对目标文本的准确表达。
因此,可以从预测文本形符序列每个位置对应的候选文本形符集中的每个文本形符,与目标文本形符序列中对应位置上的目标文本形符进行匹配,并将候选文本形符集中确认匹配的文本形符,确定为每个位置上的预测文本形符。
需要说明的是,预测文本形符序列的每个位置对应的每个候选文本形符集中,全部的文本形符的分布概率的和值为1。
进一步地,根据全部位置上的预测文本形符,确定预测图像形符序列对应的预测文本形符序列。
其中,预测文本序列中的位置存在设定顺序,根据设定顺序将全部位置上的预测文本形符进行组合,并将组合获取到的文本形符序列,作为预测图像形符序列对应的预测文本形符序列。
本申请提出的图像生成方法,根据目标文本形符序列获取对应的预测图像形符序列,并根据预测图像形符序列获取对应的预测文本形符序列。通过对预测图像形符序列的预测获取,降低了基于文本生成图像的难度,通过预测图像形符序列对应的预测文本形符序列,可以对预测图像形符序列是否可以对目标文本进行准确表达进行判断,进而提高了生成的图像的准确度。
上述实施例中,关于候选图像形符序列的获取,可结合图4进一步理解,图4为本申请另一实施例的图像生成方法的流程示意图,如图4所示,该方法包括:
S401,确定预测文本形符序列与目标文本形符序列的关联度。
本申请实施例中,目标文本形符序列是通过对目标文本进行切割划分获取的,预测文本形符序列是根据预测图像形符序列进行文本形符预测获取的,其中,预测图像形符序列是为了达到生成目标文本对应的目标图像的目的,因此,为了使得生成的目标图像可以实现对目标文本的准确表达,可以通过预测文本形符序列对预测图像形符序列的准确性进行判断。
可选地,可以通过获取预测文本形符序列与目标文本形符序列之间的关联度,进而判断预测图像形符序列是否可以实现对目标文本的准确表达。
作为一种可能的实现方式,可以将预测文本形符序列的整体含义与目标文本形符序列的整体含义进行对比,并根据对比结果获取预测文本形符序列与目标文本形符序列之间的关联程度。
作为另一种可能的实现方式,可以通过对预测文本形符序列每个位置上的文本形符对应的分布概率,确定预测文本形符序列与目标文本形符序列之间的关联度。
其中,可以从预测文本形符序列每个位置上的候选文本形符集中,确定每个位置上的预测文本形符的分布概率。
本申请实施例中,通过预测图像形符序列对预测文本形符序列的每个位置进行文本形符预测时,可以获取每个位置上对应的全部文本形符,并生成每个位置对应的候选文本形符集,其中,候选文本形符集中包括可以对其所属位置的文本内容进行表达的全部文本形符,还包括每个文本形符对应的分布概率。
进一步地,根据全部位置上的预测文本形符的分布概率,确定预测文本形符序列的目标概率值。
本申请实施例中,目标文本形符序列的每个位置上的文本形符是确定的,预测文本形符序列与目标文本形符序列在每个文本形符的位置上存在对应关系。预测文本形符序列与目标文本形符序列之间的关联度,可以通过预测文本形符对应的分布概率确定。
根据预测图像形符序列进行文本形符预测的场景中,可以为预测文本形符序列的每个位置,获取可以表达对应位置的文本内容的候选文本形符,并对每个位置对应的每个候选文本形符的可能概率进行预测,进而获取预测文本形符序列每个位置的候选文本形符集中的文本形符的分布概率。
进一步地,预测文本形符序列每个位置上的预测文本形符,与其在目标文本形符序列的对应位置上的目标文本形符相匹配,相应地,预测文本形符对应的分布概率,与其所属的预测文本形符序列与目标文本形符序列之间的关联度存在一定程度的关联关系
从每个位置的候选文本形符集中,可以确定每个位置上的预测文本形符对应的分布概率,可以将每个位置上的预测文本形符的分布概率相乘,根据获取到的乘积,进而确定预测文本形符序列的目标概率值。
进一步地,根据目标概率值确定预测文本形符序列与目标文本形符序列的关联度。
在目标概率值与预测文本形符序列与目标文本形符序列之间的关联度呈现正相关的场景中,可以将获取到的目标概率值进行排序,其中,目标概率值越高,其所属的预测文本形符序列与目标文本形符序列之间的关联度越高,目标概率值越低,其所属的预测文本形符序列与目标文本形符序列之间的关联度越低。
S402,将关联度满足设定标准的预测文本形符序列对应的预测图像形符序列,作为目标文本的候选图像形符序列。
本申请实施例中,可以根据预测文本形符序列与目标文本形符序列之间的关联度,设定对应的标准。
在一些实现中,可以基于关联度设定对应的关联度阈值,将每个预测文本形符序列对应的关联度与设定的关联度阈值进行比较,并获取其中大于或者等于设定关联度阈值的预测文本形符序列。进一步地,将该部分预测文本形符序列对应的预测图像形符序列确定为,目标文本的候选图像形符序列。
在另一些实现中,可以基于设定的数量,从关联度最高的预测文本形符序列开始采样,当采集到与设定数量相同的预测文本形符序列时,则停止采集,并将采集到的预测文本形符序列对应的预测图像形符序列,确定为目标文本对应的候选图像形符序列。
本申请提出的图像生成方法,获取预测文本形符序列与目标文本形符序列之间的关联度,并将关联度满足设定标准的预测文本形符序列对应的预测图像形符序列,作为目标文本的候选图像形符序列。通过预测文本形符序列判断预测图像形符序列是否可以对目标文本进行准确表达,进而获取对应的候选图像形符序列,提高了目标文本对应的目标图像的准确度,优化了图像的生成效果。
进一步地,基于候选图像形符序列可以生成对应的候选图像,并进行相应地的图像处理,可结合图5理解,图5为本申请另一实施例的图像生成方法的流程示意图,如图5所示,该方法包括:
S501,切割候选图像形符序列对应的候选图像,获取候选图像包括的多个候选片段图像。
本申请实施例中,可以通过设定工具对候选图像形符序列进行处理,进而生成对应的候选图像,比如解码器等。
其中,获取到的候选图像存在图像质量需要调整的可能,因此,可以将候选图像进行进一步地图像处理。
在一些实现中,可以基于候选图像的属性参数对候选图像的整体进行调整,从而提高候选图像的图像质量。
在另一些实现中,可以将候选图像进行切割,并对切割后的候选片段图像进行图像处理。为了提高候选图像的处理指令,可以将候选图像切割成多个候选片段图像。
S502,提升每个候选片段图像的分辨率,生成每个候选片段图像对应的目标片段图像。
本申请实施例中,可以对候选片段图像的分辨率进行提高处理,并将分辨率提升后的图像确定为候选片段图像对应的目标片段图像。
在一些实现中,可以通过分辨率提升模型对候选片段图像进行提升分辨率的处理。可以获取训练好的分辨率提升模型,将候选图像输入至分别率提升模型中,基于分辨率提升模型对候选图像的分割,以及对分割后的每个候选片段图像的处理,进而获取分辨率提升后的目标片段图像。
进一步地,候选片段图像之间可以存在重叠区域。在当前正在处理的候选片段图像中存在与上一轮次处理的候选片段图像的重叠区域,对于该重叠区域可以保留其上一轮次分辨率处理后的结果,进行后续其他未处理的区域的分辨率提升。
如图6所示,设定当前处理的为编号2的候选片段图像,编号2的候选片段图像中存在与编号1的候选片段图像的重叠区域,对于该重叠区域,可以保留其在编号1的候选片段图像进行分辨率提升时的处理结果,仅对编号2的其他区域进行分辨率提升,进而获取编号2的候选片段图像对应的目标片段图像。
相应地,如图6所示,设定当前处理的为编号8的候选片段图像,编号8的候选片段图像中存在与编号7的候选片段图像的重叠区域,对于该重叠区域,可以保留其在编号7的候选片段图像进行分辨率提升时的处理结果,仅对编号8的其他区域进行分辨率提升,进而获取编号8的候选片段图像对应的目标片段图像。
S503,将目标片段图像进行拼接,生成目标文本对应的目标图像。
本申请实施例中,对每个候选片段图像的分辨率处理完毕后,可以基于设定顺序对每个目标片段图像进行拼接,进而生成对应的目标图像。
如图6所示,可以根据每个候选片段图像的编号顺序和位置顺序,对其对应的目标片段图像进行拼接,进而获取目标文本的目标图像。
其中,图6a的老虎为候选图像,通过两次不同的分辨率的提升处理,进而获取到图6b的目标图像老虎或者图6c的目标图像老虎。
需要说明的是,对于候选图像的分辨率处理方法,可以通过分辨率提升模型实现,也可以通过其他相关算法实现,此处不做限定。
本申请提出的图像处理方法,通过对候选图像的进一步处理,提高了目标图像的成像质量,优化了目标图像的成像结果。
与上述几种实施例提出的图像的生成方法相对应,本申请的一个实施例还提出了一种图像的生成装置,由于本申请实施例提出的图像的生成装置与上述几种实施例提出的图像的生成方法相对应,因此上述图像的生成方法的实施方式也适用于本申请实施例提出的图像的生成装置,在下述实施例中不再详细描述。
图7为本申请一实施例的图像生成装置的结构示意图,如图7所示,图像生成装置700,包括获取模块71、预测模块72、确定模块73、处理模块74,其中:
获取模块71,用于根据目标文本的目标文本形符序列,获取对应的预测图像形符序列;
预测模块72,用于根据预测图像形符序列,获取对应的预测文本形符序列;
确定模块73,用于根据预测文本形符序列与目标文本形符序列的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列;
处理模块74,用于根据候选图像形符序列,生成目标文本对应的目标图像。
本申请实施例中,预测模块72,还用于:根据目标文本形符序列进行图像形符预测,获取预测图像形符序列。根据预测图像形符序列进行文本形符预测,获取预测文本形符序列。
本申请实施例中,预测模块72,还用于:根据样本图文形符序列对待训练图像形符预测模型进行训练,获取训练后的图像形符预测模型;将目标文本形符序列输入图像形符预测模型进行图像形符预测,获取目标文本形符序列对应的预测图像形符序列。
本申请实施例中,预测模块72,还用于:根据目标文本形符序列,获取预测图像形符序列每个位置上的候选图像形符集;从候选图像形符集中,确定预测图像形符序列的每个位置上的预测图像形符;根据全部位置上的预测图像形符,确定目标文本形符序列对应的预测图像形符序列。
本申请实施例中,预测模块72,还用于:根据样本图文形符序列对待训练文本形符预测模型进行训练,获取训练后的文本形符预测模型;将预测图像形符序列输入文本形符预测模型进行文本形符预测,获取预测图像形符序列对应的预测文本形符序列。
本申请实施例中,预测模块72,还用于:根据预测图像形符序列,获取预测文本形符序列每个位置上的候选文本形符集;根据目标文本形符序列中每个位置上的目标文本形符,从候选文本形符集中确定预测文本形符序列上每个位置的预测文本形符;根据全部位置上的预测文本形符,确定预测图像形符序列对应的预测文本形符序列。
本申请实施例中,确定模块73,还用于:确定预测文本形符序列与目标文本形符序列的关联度;将关联度满足设定标准的预测文本形符序列对应的预测图像形符序列,作为目标文本的候选图像形符序列。
本申请实施例中,确定模块73,还用于:从预测文本形符序列每个位置上的候选文本形符集中,确定每个位置上的预测文本形符的分布概率;根据全部位置上的预测文本形符的分布概率,确定预测文本形符序列的目标概率值;根据目标概率值确定预测文本形符序列与目标文本形符序列的关联度。
本申请实施例中,处理模块74,还用于:切割候选图像形符序列对应的候选图像,获取候选图像包括的多个候选片段图像;提升每个候选片段图像的分辨率,生成每个候选片段图像对应的目标片段图像;将目标片段图像进行拼接,生成目标文本对应的目标图像。
本申请提出的图像生成装置,获取目标文本的目标文本形符序列后,根据目标文本形符序列获取对应的预测图像形符序列。根据预测图像形符序列生成对应的预测文本形符序列,并根据预测文本形符序列与目标文本形符序列之间的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列。进一步地,根据候选图像形符序列生成对应的候选图像,并对候选图像进行图像处理,从而生成目标文本对应的目标图像。本申请中,通过文本形符序列向图像形符序列的转化,实现文本对应的图像的生成,降低了图像的生成难度,根据预测文本形符序列与目标文本形符序列的对比获取对应的候选图像,提高了图像对文本表达的准确度,提高了图像的生成质量,优化了图像的生成效果。
为达到上述实施例,本申请还提出了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
图8为本申请一实施例的电子设备的结构示意图。如图8所示,设备800包括存储器81、处理器82及存储在存储81上并可在处理器82上运行的计算机程序,处理器82执行程序指令时,实现上述实施例提出的图像的生成方法。
本申请实施例的电子设备,获取目标文本的目标文本形符序列后,根据目标文本形符序列获取对应的预测图像形符序列。根据预测图像形符序列生成对应的预测文本形符序列,并根据预测文本形符序列与目标文本形符序列之间的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列。进一步地,根据候选图像形符序列生成对应的候选图像,并对候选图像进行图像处理,从而生成目标文本对应的目标图像。本申请中,通过文本形符序列向图像形符序列的转化,实现文本对应的图像的生成,降低了图像的生成难度,根据预测文本形符序列与目标文本形符序列的对比获取对应的候选图像,提高了图像对文本表达的准确度,提高了图像的生成质量,优化了图像的生成效果。
本申请实施例提出的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述实施例提出的图像的生成方法。
本申请实施例的计算机可读存储介质,获取目标文本的目标文本形符序列后,根据目标文本形符序列获取对应的预测图像形符序列。根据预测图像形符序列生成对应的预测文本形符序列,并根据预测文本形符序列与目标文本形符序列之间的关联度,从预测图像形符序列中获取目标文本的候选图像形符序列。进一步地,根据候选图像形符序列生成对应的候选图像,并对候选图像进行图像处理,从而生成目标文本对应的目标图像。本申请中,通过文本形符序列向图像形符序列的转化,实现文本对应的图像的生成,降低了图像的生成难度,根据预测文本形符序列与目标文本形符序列的对比获取对应的候选图像,提高了图像对文本表达的准确度,提高了图像的生成质量,优化了图像的生成效果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种图像生成方法,其特征在于,该方法包括:
根据目标文本的目标文本形符序列,获取对应的预测图像形符序列;
根据所述预测图像形符序列,获取对应的预测文本形符序列;
根据所述预测文本形符序列与所述目标文本形符序列的关联度,从所述预测图像形符序列中获取所述目标文本的候选图像形符序列;
根据所述候选图像形符序列,生成所述目标文本对应的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预测图像形符序列,获取对应的预测文本形符序列,包括:
根据所述目标文本形符序列进行图像形符预测,获取所述预测图像形符序列;
根据所述预测图像形符序列进行文本形符预测,获取所述预测文本形符序列。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本形符序列进行图像形符预测,获取所述预测图像形符序列,包括:
根据样本图文形符序列对待训练图像形符预测模型进行训练,获取训练后的图像形符预测模型;
将所述目标文本形符序列输入所述图像形符预测模型进行图像形符预测,获取所述目标文本形符序列对应的所述预测图像形符序列。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标文本形符序列输入所述图像形符预测模型进行图像形符预测,获取所述目标文本形符序列对应的所述预测图像形符序列,包括:
根据所述目标文本形符序列,获取所述预测图像形符序列每个位置上的候选图像形符集;
从所述候选图像形符集中,确定所述预测图像形符序列的每个位置上的预测图像形符;
根据全部位置上的预测图像形符,确定所述目标文本形符序列对应的所述预测图像形符序列。
5.根据权利要求4所述的方法,其特征在于,所述根据所述预测图像形符序列进行文本形符预测,获取所述预测文本形符序列,包括:
根据所述样本图文形符序列对待训练文本形符预测模型进行训练,获取训练后的文本形符预测模型;
将所述预测图像形符序列输入所述文本形符预测模型进行文本形符预测,获取所述预测图像形符序列对应的所述预测文本形符序列。
6.根据权利要求5所述的方法,其特征在于,所述将所述预测图像形符序列输入所述文本形符预测模型进行文本形符预测,获取所述预测图像形符序列对应的所述预测文本形符序列,包括:
根据所述预测图像形符序列,获取所述预测文本形符序列每个位置上的候选文本形符集;
根据所述目标文本形符序列中每个位置上的目标文本形符,从所述候选文本形符集中确定所述预测文本形符序列上每个位置的预测文本形符;
根据全部位置上的预测文本形符,确定所述预测图像形符序列对应的所述预测文本形符序列。
7.根据权利要求6所述的方法,其特征在于,所述根据所述预测文本形符序列与所述目标文本形符序列的关联度,从所述预测图像形符序列中获取所述目标文本的候选图像形符序列,包括:
确定所述预测文本形符序列与所述目标文本形符序列的所述关联度;
将所述关联度满足设定标准的预测文本形符序列对应的预测图像形符序列,作为所述目标文本的所述候选图像形符序列。
8.根据权利要求7所述的方法,其特征在于,所述确定所述预测文本形符序列与所述目标文本形符序列的所述关联度,包括:
从所述预测文本形符序列每个位置上的候选文本形符集中,确定每个位置上的预测文本形符的分布概率;
根据全部位置上的预测文本形符的分布概率,确定所述预测文本形符序列的目标概率值;
根据所述目标概率值确定所述预测文本形符序列与所述目标文本形符序列的所述关联度。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述根据所述候选图像形符序列,生成所述目标文本对应的目标图像,包括:
切割所述候选图像形符序列对应的候选图像,获取所述候选图像包括的多个候选片段图像;
提升每个候选片段图像的分辨率,生成所述每个候选片段图像对应的目标片段图像;
将所述目标片段图像进行拼接,生成所述目标文本对应的所述目标图像。
10.一种图像生成装置,其特征在于,该装置包括:
获取模块,用于根据目标文本的目标文本形符序列,获取对应的预测图像形符序列;
预测模块,用于根据所述预测图像形符序列,获取对应的预测文本形符序列;
确定模块,用于根据所述预测文本形符序列与所述目标文本形符序列的关联度,从所述预测图像形符序列中获取所述目标文本的候选图像形符序列;
处理模块,用于根据所述候选图像形符序列,生成所述目标文本对应的目标图像。
11.根据权利要求10所述的装置,其特征在于,所述预测模块,还用于:
根据所述目标文本形符序列进行图像形符预测,获取所述预测图像形符序列;
根据所述预测图像形符序列进行文本形符预测,获取所述预测文本形符序列。
12.根据权利要求11所述的装置,其特征在于,所述预测模块,还用于:
根据样本图文形符序列对待训练图像形符预测模型进行训练,获取训练后的图像形符预测模型;
将所述目标文本形符序列输入所述图像形符预测模型进行图像形符预测,获取所述目标文本形符序列对应的所述预测图像形符序列。
13.根据权利要求12所述的装置,其特征在于,所述预测模块,还用于:
根据所述目标文本形符序列,获取所述预测图像形符序列每个位置上的候选图像形符集;
从所述候选图像形符集中,确定所述预测图像形符序列的每个位置上的预测图像形符;
根据全部位置上的预测图像形符,确定所述目标文本形符序列对应的所述预测图像形符序列。
14.根据权利要求13所述的装置,其特征在于,所述预测模块,还用于:
根据所述样本图文形符序列对待训练文本形符预测模型进行训练,获取训练后的文本形符预测模型;
将所述预测图像形符序列输入所述文本形符预测模型进行文本形符预测,获取所述预测图像形符序列对应的所述预测文本形符序列。
15.根据权利要求14所述的装置,其特征在于,所述预测模块,还用于:
根据所述预测图像形符序列,获取所述预测文本形符序列每个位置上的候选文本形符集;
根据所述目标文本形符序列中每个位置上的目标文本形符,从所述候选文本形符集中确定所述预测文本形符序列上每个位置的预测文本形符;
根据全部位置上的预测文本形符,确定所述预测图像形符序列对应的所述预测文本形符序列。
16.根据权利要求15所述的装置,其特征在于,所述确定模块,还用于:
确定所述预测文本形符序列与所述目标文本形符序列的所述关联度;
将所述关联度满足设定标准的预测文本形符序列对应的预测图像形符序列,作为所述目标文本的所述候选图像形符序列。
17.根据权利要求16所述的装置,其特征在于,所述确定模块,还用于:
从所述预测文本形符序列每个位置上的候选文本形符集中,确定每个位置上的预测文本形符的分布概率;
根据全部位置上的预测文本形符的分布概率,确定所述预测文本形符序列的目标概率值;
根据所述目标概率值确定所述预测文本形符序列与所述目标文本形符序列的所述关联度。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述处理模块,还用于:
切割所述候选图像形符序列对应的候选图像,获取所述候选图像包括的多个候选片段图像;
提升每个候选片段图像的分辨率,生成所述每个候选片段图像对应的目标片段图像;
将所述目标片段图像进行拼接,生成所述目标文本对应的所述目标图像。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
CN202210103785.XA 2022-01-28 2022-01-28 图像的生成方法、装置和电子设备 Active CN114119811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210103785.XA CN114119811B (zh) 2022-01-28 2022-01-28 图像的生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210103785.XA CN114119811B (zh) 2022-01-28 2022-01-28 图像的生成方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN114119811A CN114119811A (zh) 2022-03-01
CN114119811B true CN114119811B (zh) 2022-04-01

Family

ID=80361791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210103785.XA Active CN114119811B (zh) 2022-01-28 2022-01-28 图像的生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114119811B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110287484A (zh) * 2019-06-11 2019-09-27 华东师范大学 一种基于人脸特征的汉语文本描述人脸图像生成方法
WO2020227971A1 (en) * 2019-05-15 2020-11-19 Microsoft Technology Licensing, Llc Image generation
CN112070852A (zh) * 2019-06-10 2020-12-11 阿里巴巴集团控股有限公司 图像的生成方法和系统、数据处理方法
CN112669215A (zh) * 2021-01-05 2021-04-16 北京金山云网络技术有限公司 一种训练文本图像生成模型、文本图像生成的方法和装置
CN113674383A (zh) * 2020-05-15 2021-11-19 华为技术有限公司 生成文本图像的方法及装置
CN113961736A (zh) * 2021-09-14 2022-01-21 华南理工大学 文本生成图像的方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
WO2020227971A1 (en) * 2019-05-15 2020-11-19 Microsoft Technology Licensing, Llc Image generation
CN112070852A (zh) * 2019-06-10 2020-12-11 阿里巴巴集团控股有限公司 图像的生成方法和系统、数据处理方法
CN110287484A (zh) * 2019-06-11 2019-09-27 华东师范大学 一种基于人脸特征的汉语文本描述人脸图像生成方法
CN113674383A (zh) * 2020-05-15 2021-11-19 华为技术有限公司 生成文本图像的方法及装置
CN112669215A (zh) * 2021-01-05 2021-04-16 北京金山云网络技术有限公司 一种训练文本图像生成模型、文本图像生成的方法和装置
CN113961736A (zh) * 2021-09-14 2022-01-21 华南理工大学 文本生成图像的方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主题的图像描述生成技术研究与应用;周畅;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20181015(第10期);全文 *

Also Published As

Publication number Publication date
CN114119811A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
JP5528121B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN108460098B (zh) 信息推荐方法、装置和计算机设备
CN108231089B (zh) 基于人工智能的语音处理方法及装置
CN104504649A (zh) 图片的裁剪方法和装置
JP4294348B2 (ja) 表示システム
CN107273883B (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
JP2007086954A (ja) 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム
JP2002024258A (ja) 画像取得装置および画像取得方法ならびに画像取得処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2991779B2 (ja) 文字認識方法及び装置
US20110320937A1 (en) Editing apparatus, editing method performed by editing apparatus, and storage medium storing program
CN113378839A (zh) 信息处理装置、信息处理方法及计算机可读介质
JP2008059298A (ja) 罫線抽出プログラム、罫線抽出装置、罫線抽出方法
CN108829896B (zh) 回复信息反馈方法和装置
CN114119811B (zh) 图像的生成方法、装置和电子设备
JP5335581B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
JP7379876B2 (ja) 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
US10088997B2 (en) Apparatus for generating data, method for generating data, and non-transitory computer-readable medium
JP2016057925A (ja) 画像分類装置、画像分類システム、画像分類方法およびプログラム
CN101901341B (zh) 从可移植电子文档中提取光栅图像的方法和设备
CN116226681A (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
JP2021012589A (ja) 画像処理装置、画像処理方法及びプログラム
US7623714B2 (en) Form recognition system, method, program, and storage medium
US20180081951A1 (en) Information generation system, a method and a non-transitory computer readable medium thereof
CN118585573B (zh) 一种版式文件结构化处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ding Ming

Inventor after: Yang Zhuoyi

Inventor after: Hong Wenyi

Inventor after: Zheng Wendi

Inventor after: Zhou Chang

Inventor after: Yang Hongxia

Inventor after: Liu Debing

Inventor before: Ding Ming

Inventor before: Yang Zhuoyi

Inventor before: Hong Wenyi

Inventor before: Zheng Wendi

Inventor before: Zhou Chang

Inventor before: Yang Hongxia

Inventor before: Tang Jie

Inventor before: Liu Debing