CN113450433A - 图片生成方法、装置、计算机设备和介质 - Google Patents

图片生成方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN113450433A
CN113450433A CN202010225699.7A CN202010225699A CN113450433A CN 113450433 A CN113450433 A CN 113450433A CN 202010225699 A CN202010225699 A CN 202010225699A CN 113450433 A CN113450433 A CN 113450433A
Authority
CN
China
Prior art keywords
layer
code
code sequence
picture
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010225699.7A
Other languages
English (en)
Other versions
CN113450433B (zh
Inventor
崔苗苗
谢宣松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010225699.7A priority Critical patent/CN113450433B/zh
Publication of CN113450433A publication Critical patent/CN113450433A/zh
Application granted granted Critical
Publication of CN113450433B publication Critical patent/CN113450433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了一种图片生成方法、装置、计算机设备和介质。该方法包括:生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息;基于第二码序列,生成所述图片。本公开提高了图片生成的个性化程度,提高多样性,使设计更智能化。

Description

图片生成方法、装置、计算机设备和介质
技术领域
本发明涉及机器学习领域,更具体而言,涉及一种图片生成方法、装置、计算机设备和介质。
背景技术
目前,有一些为用户根据用户的图片素材制作成品图片的应用、网站等,例如根据用户的物品或人像照片为用户制作海报,或根据产品照片来制作平面广告图片,以取代设计师、美工等人为工作。这些应用、网站等一般采取预先设定的一些固定范式,如“背景+物品修饰+文案修饰+文案……”,或套取预先设计的模板。这样,必然导致图片缺乏创意,多样性差等问题。
发明内容
有鉴于此,本公开提出一种图片生成技术,它能够提高图片生成的个性化程度,提高多样性,使设计更智能化。
为了达到这个目的,根据本公开的一个方面,提供了一种图片生成方法,包括:
生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息;
基于第二码序列,生成所述图片。
可选地,所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
可选地,所述第一码序列包含代表所述物品图层的码串、和代表所述文案图层的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。
可选地,所述颜色代码通过以下方式获得:
对该码串代表的图层的各像素的颜色进行聚类;
将所述颜色聚成的类的标识作为所述颜色代码。
可选地,所述对该码串代表的图层的各像素的颜色进行聚类包括:
将该码串代表的图层的各像素的颜色组成颜色向量;
确定该颜色向量与作为聚类中心的多个聚类基准颜色向量的距离;
将距离最小的聚类基准颜色向量作为聚类结果。
可选地,所述CNN特征代码通过以下方式获得:
将该码串代表的图层输入CNN,由所述CNN输出所述CNN特征代码。
可选地,所述主题风格代码通过以下方式获得:
如所述图片生成要求中指示主题风格,将指示的主题风格转换成所述主题风格代码;
如所述图片生成要求中未指示主题风格,将该码串代表的图层的各像素的颜色输入主题风格机器学习模型,由所述主题风格机器学习模型输出主题风格代码。
可选地,所述设计手法代码通过以下方式获得:
如所述图片生成要求中指示设计手法,将指示的设计手法转换成所述设计手法代码;
如所述图片生成要求中未指示设计手法,将该码串代表的图层的各像素的颜色输入设计手法机器学习模型,由所述设计手法机器学习模型输出设计手法代码。
可选地,所述元素种类代码通过以下方式获得:
从该码串代表的图层中识别元素;
将识别出的元素的种类转换成元素种类代码。
可选地,所述空间信息代码通过以下方式获得:
将该码串代表的图层的覆盖区域的长度和宽度分别进行m等分和n等分,将所述覆盖区域划分成m×n个矩形格,其中,m和n为自然数;
根据图层中的图层元素所占的矩形格的标识,生成所述空间信息代码。
可选地,在生成第一码序列后,所述方法还包括:
展示所述第一码序列对应的物品图层和文案图层;
接收用户对展示的物品图层和文案图层的第一调整指示;
响应于所述第一调整指示,对所述第一码序列进行调整。
可选地,所述将第一码序列输入到串联的卷积层和长短期记忆LSTM层,包括:
将所述第一码序列输入所述卷积层前加入的嵌入层,由嵌入层输出升高维度后的码序列;
将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层。
可选地,在将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层之后,所述方法还包括:
将所述长短期记忆LSTM层的输出结果输入到所述长短期记忆LSTM层后面加入的全连接层,以降低维度,得到第二码序列。
可选地,所述将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,包括:
将所述物品图层的码串、所述文案图层的码串、和已预测出的图层的码串输入到串联的卷积层和长短期记忆LSTM层,输出下一预测图层的码串,直到所述图片全部图层的码串都预测出;
将预测出的全部图层的码串连接成所述第二码序列。
可选地,所述第二码序列包含代表生成的图片的各图层信息的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征;所述基于第二码序列,生成所述图片,包括:将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层;将绘制模型绘制出的各图层叠加,得到所述图片。
可选地,在将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层后,所述方法还包括:
展示绘制的各图层;
接收用户对展示的各图层的第二调整指示;
响应于所述第二调整指示,对相应图层进行调整。
根据本公开的一方面,提供了一种图片生成装置,包括:
第一码序列生成单元,用于生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
第二码序列生成单元,用于将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息;
图片生成单元,用于基于第二码序列,生成所述图片。
可选地,所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
可选地,所述第一码序列包含代表所述物品图层的码串、和代表所述文案图层的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。
可选地,所述颜色代码通过以下方式获得:
对该码串代表的图层的各像素的颜色进行聚类;
将所述颜色聚成的类的标识作为所述颜色代码。
可选地,所述对该码串代表的图层的各像素的颜色进行聚类包括:
将该码串代表的图层的各像素的颜色组成颜色向量;
确定该颜色向量与作为聚类中心的多个聚类基准颜色向量的距离;
将距离最小的聚类基准颜色向量作为聚类结果。
可选地,所述CNN特征代码通过以下方式获得:
将该码串代表的图层输入CNN,由所述CNN输出所述CNN特征代码。
可选地,所述主题风格代码通过以下方式获得:
如所述图片生成要求中指示主题风格,将指示的主题风格转换成所述主题风格代码;
如所述图片生成要求中未指示主题风格,将该码串代表的图层的各像素的颜色输入主题风格机器学习模型,由所述主题风格机器学习模型输出主题风格代码。
可选地,所述设计手法代码通过以下方式获得:
如所述图片生成要求中指示设计手法,将指示的设计手法转换成所述设计手法代码;
如所述图片生成要求中未指示设计手法,将该码串代表的图层的各像素的颜色输入设计手法机器学习模型,由所述设计手法机器学习模型输出设计手法代码。
可选地,所述元素种类代码通过以下方式获得:
从该码串代表的图层中识别元素;
将识别出的元素的种类转换成元素种类代码。
可选地,所述空间信息代码通过以下方式获得:
将该码串代表的图层的覆盖区域的长度和宽度分别进行m等分和n等分,将所述覆盖区域划分成m×n个矩形格,其中,m和n为自然数;
根据图层中的图层元素所占的矩形格的标识,生成所述空间信息代码。
可选地,所述装置还包括:
物品图层和文案图层展示单元,用于在生成第一码序列后,展示所述第一码序列对应的物品图层和文案图层;
第一调整指示接收单元,用于接收用户对展示的物品图层和文案图层的第一调整指示;
第一调整单元,用于响应于所述第一调整指示,对所述第一码序列进行调整。
可选地,所述第二码序列生成单元进一步用于:
将所述第一码序列输入所述卷积层前加入的嵌入层,由嵌入层输出升高维度后的码序列;
将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层。
可选地,所述第二码序列生成单元进一步用于:
将所述长短期记忆LSTM层的输出结果输入到所述长短期记忆LSTM层后面加入的全连接层,以降低维度,得到第二码序列。
可选地,所述第二码序列生成单元进一步用于:
将所述物品图层的码串、代表所述文案图层的码串、和已预测出的图层的码串输入到串联的卷积层和长短期记忆LSTM层,输出下一预测图层的码串,直到所述图片全部图层的码串都预测出;
将预测出的全部图层的码串连接成所述第二码序列。
可选地,所述第二码序列包含代表生成的图片的各图层信息的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征;所述图片生成单元进一步用于:将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层;将绘制模型绘制出的各图层叠加,得到所述图片。
可选地,所述装置还包括:
全图层展示单元,用于在将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层后,展示绘制的各图层;
第二调整指示接收单元,用于接收用户对展示的各图层的第二调整指示;
第二调整单元,用于响应于所述第二调整指示,对相应图层进行调整。
根据本公开的一个方面,提供了一种计算机设备,包括:
存储器,用于存储计算机可执行代码;
处理器,用于执行所述计算机可执行代码,以实现如上所述的图片生成方法。
根据本公开的一个方面,提供了一种计算机可读介质,其特征在于,包括计算机可执行代码,所述计算机可执行代码被处理器执行时实现如上所述的图片生成方法。
根据本公开的一个方面,提供了一种数据处理方法,包括:
获取待处理数据,其中,所述待处理数据包括:物品图和文案;
获取与所述待处理数据对应的第一码序列,其中,所述第一码序列包括与所述物品图和文案分别对应的子部分;
将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列;
基于第二码序列,生成一张或多张图片。
可选地,在获取与所述待处理数据对应的第一码序列后,所述方法还包括:展示所述第一码序列对应的物品图层和文案图层;在将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列之后,所述方法还包括:展示所述第二码序列对应的图片各图层。
可选地,在展示所述第一码序列对应的物品图层和文案图层之后,所述方法还包括:
接收用户对展示的物品图层和文案图层的第一调整指示;
响应于所述第一调整指示,调整第一码序列;
在展示所述第二码序列对应的图片各图层之后,所述方法还包括:
接收用户对展示的各图层的第二调整指示;
响应于所述第二调整指示,调整第二码序列。
根据本公开的一个方面,提供了一种数据处理装置,包括:
待处理数据获取单元,用于获取待处理数据,其中,所述待处理数据包括:物品图和文案;
第一码序列获取单元,用于获取与所述待处理数据对应的第一码序列,其中,所述第一码序列包括与所述物品图和文案分别对应的子部分;
第二码序列获取单元,用于将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列;
图片生成单元,用于基于第二码序列,生成一张或多张图片。
可选地,所述数据处理装置还包括:
物品图层和文案图层展示单元,用于在获取与所述待处理数据对应的第一码序列后,展示所述第一码序列对应的物品图层和文案图层;
全图层展示单元,用于在将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列之后,展示所述第二码序列对应的图片各图层。
可选地,所述数据处理装置还包括:
第一调整指示接收单元,用于在展示所述第一码序列对应的物品图层和文案图层之后,接收用户对展示的物品图层和文案图层的第一调整指示;
第一调整单元,用于响应于所述第一调整指示,调整第一码序列;
第二调整指示接收单元,用于在展示所述第二码序列对应的图片各图层之后,接收用户对展示的各图层的第二调整指示;
第二调整单元,用于响应于所述第二调整指示,调整第二码序列。
根据本公开的一个方面,提供了一种计算机设备,包括:存储器,用于存储计算机可执行代码;处理器,用于执行所述计算机可执行代码,以实现如上所述的数据处理方法。
根据本公开的一个方面,提供了一种计算机可读介质,包括计算机可执行代码,所述计算机可执行代码被处理器执行时实现如上所述的数据处理方法。
根据本公开的一个方面,提供了一种数据处理方法,包括:
接收待处理数据,其中,所述待处理数据包括:物品图和文案;
生成第一码序列并展示第一码序列对应的物品图层和文案图层,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
基于所述第一码序列,生成第二码序列并展示第二码序列对应的图片图层,所述第二码序列代表图片图层信息;
基于所述第二码序列,生成并展示所述图片图层信息合成的图片。
可选地,所述基于所述第一码序列,生成第二码序列,包括:将所述第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列。
可选地,所述待处理数据还包括图片生成要求;所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
可选地,在生成第一码序列并展示第一码序列对应的物品图层和文案图层之后,所述方法还包括:
接收用户对所述物品图层和文案图层的第一调整指示;
响应于第一调整指示,对所述第一码序列进行调整。
可选地,在生成第二码序列并展示第二码序列对应的图片图层之后,所述方法还包括:
接收用户对图片中各图片的第二调整指示;
响应于第二调整指示,对所述第二码序列进行调整。
根据本公开的一个方面,提供了一种数据处理装置,包括:
待处理数据接收单元,用于接收待处理数据,其中,所述待处理数据包括:物品图和文案;
第一码序列生成及展示单元,用于生成第一码序列并展示第二码序列对应的图片图层,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
第二码序列生成及展示单元,用于基于所述第一码序列,生成第二码序列并展示第二码序列对应的图片图层,所述第二码序列代表图片图层信息;
图片生成及展示单元,用于基于所述第二码序列,生成并展示所述图片图层信息合成的图片。
可选地,所述第二码序列生成及展示单元进一步用于:将所述第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列。
可选地,所述待处理数据还包括图片生成要求;所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
可选地,该数据处理装置还包括:
第一调整指示接收单元,用于在生成第一码序列并展示第一码序列对应的物品图层和文案图层之后,接收用户对所述物品图层和文案图层的第一调整指示;
第一调整单元,用于响应于第一调整指示,对所述第一码序列进行调整。
可选地,该数据处理装置还包括:
第二调整指示接收单元,用于在生成第二码序列并展示第二码序列对应的图片图层之后,接收用户对图片中各图片的第二调整指示;
第二调整单元,用于响应于第二调整指示,对所述第二码序列进行调整。
根据本公开的一个方面,提供了一种计算机设备,包括:存储器,用于存储计算机可执行代码;处理器,用于执行所述计算机可执行代码,以如上所述的数据处理方法。
根据本公开的一个方面,提供了一种计算机可读介质,包括计算机可执行代码,所述计算机可执行代码被处理器执行时实现如上所述的数据处理方法。
卷积神经网络是一种前馈型的神经网络,其在大型图像处理方面有出色的表现,目前已经被大范围使用到图像分类、定位、识别等领域中,但不能直接用于图片生成和预测。长短期记忆神经网络(LSTM)是一种特殊的循环神经网络(RNN),克服了RNN在训练中,随着训练时间的加长以及网络层数的增多,很容易出现梯度爆炸或者梯度消失的问题,因此广泛用于文本生成、预测、翻译等,但它不能针对图片进行预测,从而用于图片生成。本公开巧妙地将卷积层和LSTM层串联成一个模型,对其整体训练,其中卷积层用来解决从物品图层和文案图层的图层信息中抽取出各种预测需要的抽象信息的问题,而虽然LSTM层不能直接针对图片预测,但可以针对提取的特征预测,从而根据从物品图层和文案图层提取的抽象信息预测图片的其它层的图层信息(背景层、修饰层、口号层等的信息)。然后,本公开实施例再基于预测出的图片的各图层的图层信息,生成图片,从而自动得到预测的图片。这种方式不机械套用模板,提高了图片生成的个性化程度,提高多样性,使设计更智能化。
附图说明
通过参考以下附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1A-F示出本公开实施例应用于海报创建的应用场景下的各界面变化图;
图2示出了本公开实施例从第一码序列转换到第二码序列用到的整体模型图;
图3示出了根据本公开一个实施例的图片生成方法的流程图;
图4示出了根据本公开的一个实施例的生成第一码序列的过程;
图5示出了根据本公开的一个实施例的根据物品图层的图层信息和文案图层的图层信息预测后续其它各图层的图层信息的预测逻辑图;
图6示出了根据本公开一个实施例的图片生成装置的框图;
图7示出了根据本公开一个实施例的数据处理方法的流程图;
图8示出了根据本公开一个实施例的数据处理装置的框图;
图9示出了根据本公开一个实施例的数据处理方法的流程图;
图10示出了根据本公开一个实施例的数据处理装置的框图;
图11示出了根据本公开一个实施例的计算机设备的结构。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
本公开实施例的图片生成方法可以应用于海报制作、广告制作、宣传图片制作等场景。下面结合图1A-F,描述本公开实施例的图片生成方法在海报制作的场景下的应用。
本公开实施例的图片生成可以由一个应用安装在普通的终端设备上完成,也可以借助于一个网站实现,也可以由专门的图片生成设备实现。用户登录该应用、网站或者专用设备,应用、网站或者专用设备出现如图1A所示的“创建海报”的界面,用户在界面上选择“确定”,于是出现如图1B所示的界面,提示用户选择要创建海报的物品的照片。
用户可以在本地存储的照片中选择要创建海报的物品的照片。当本地没有想要创建海报的物品的照片时,也可以利用用户终端拍照后存储在本地,然后选择该图片。
然后,用户在界面上选择“确定”,出现图1C所示的界面,提示用户输入要在海报上出现的文案。如图1C所示,用户输入“芦荟润肤露”、“浸润干渴的土地”。
用户输入要在海报上出现的文案后,选择“确定”,出现图1D所示的界面,提示用户输入设计要求,例如,用户希望海报的长、宽、设计样式、布图(物品照片和文案分别位于海报的什么位置)。如图1D所示,用户输入海报的长为352cm,宽为340cm,设计样式为花繁,布图为左下角放物品照片、右下角放文案,然后选择“确定”。
接着,按照用户选择的要创建海报的物品的照片、输入的文案和设计要求,系统自动生成要创建的海报中物品图层和文案图层的信息,即第一码序列,并显示物品图层和文案图层(图中未示)。要创建的海报实际上是分图层渲染的,例如物品图层、文案图层、背景图层、装饰图层、口号图层等。最后的图片相当于各个图层叠加在一起,其中物品图层和文案图层是最好确定的,它可以简单地根据用户要创建海报的物品的照片、输入的文案和设计要求生成,而之后的背景图层、装饰图层、口号图层等则比较难于确定,要通过机器学习模型(后面提到的卷积层和LSTM层)进行预测。因此,先将物品图层和文案图层确定出来显示给用户,然后再通过模型预测其它层。用户在界面上看到生成的物品图层和文案图层后,可以进行调整。例如,对于文案图层,拖拽其中的文案到用户希望的界面位置。当调整后,会根据用户的调整指示,重新生成第一码序列。
第一码序列代表着物品图层和文案图层的信息。接下来,系统就基于第一码序列,预测代表图片所有图层(包括背景图层、装饰图层、口号图层等)的信息的第二码序列,并将预测出的所有图层的信息显示给用户,如图1E所示,界面出现“正在为您生成海报”的提示,在界面上显示图片的各图层。用户在界面上看到生成的各图层后,可以进行调整。例如,用户在界面上选择其中的装饰层,拖拽其中的装饰图案到用户希望的界面位置。当调整后,会根据用户的调整指示,重新生成第二码序列,并重新生成图片的各图层。
接着,如图1F所示,界面出现设计好的海报。可以看到,在该海报中,左下角摆放物品照片,右下角摆放文案。用户可以选择“保存”来保存生成的海报。
图1A-F只是一个海报生成的应用场景界面的示例。本领域技术人员应当理解,上述界面仅仅是示例性的,用于说明本公开应用的场景,实际的界面可以不同于上述界面。
根据本公开的一个实施例,提供了一种图片生成方法。图片生成是指根据物品图和文案,由机器自动设计图片而无需人为设计。当图片生成由一个应用安装在普通的终端设备上完成时,该方法由普通的终端设备执行。当图片生成由一个网站实现时,该方法由网站服务器执行。当图片生成由专门的图片生成设备实现时,该方法由该图片生成设备执行。
如图3所示,该方法包括:
步骤210、生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
步骤220、将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息;
步骤230、基于第二码序列,生成所述图片。
下面对这些步骤进行详细描述。
在步骤210中,生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息。
物品是指生成的图片所主要展示的对象。这里的物品可以包括人。例如,为产品设计广告或宣传海报,物品就是该产品。为明星设计宣传海报,物品就是该明星。物品图是事先准备的要在图片上使用的物品的图像,它可以是照片,也可以是关于该物品的素描、油画、铅笔画等。一般的广告、海报等图片不但需要物品,还需要有介绍物品的文字描述,即文案。图1B示出了当物品是润肤露时的润肤露照片,图1C示出了希望为其配的文案“芦荟润肤露”、“浸润干渴的土地”。
熟悉计算机制图的人员都知道,计算机对于图片的制作是分层的。计算机对图片进行渲染显示时,不将图片上的所有内容都渲染在一个平面上,而大多数是分别将图片上不同的对象显示在不同的图层中,不同的图层叠加之后就产生了最后的图片。分成不同的图层有利于图片的修改。这些图层可以看作是“透明的塑料纸”。例如,要绘制一个房子,房子前面由一只狗,背景是绿色的草地,通过会将房子、狗、背景绘制在3个不同的图层上,将3个图层叠加,就产生了最后需要的图片,但单独修改一个对象不会对其它对象造成影响。例如,要想单独修改狗的时候,不会擦去周围的背景,可以仅在狗绘制在的图层上修改就可以。而将所有对象绘制在一起,则做不到这一点。
对于生成的图片来说,其首先要包括图片针对的物品,还要包括对物品介绍的文案,因此,可以首先将物品和文案分别作为图片中的一个图层,然后再基于这两个图层预测其它的图层,例如背景层、修饰层、口号(logo)层等。但是,现有技术中,没有模型能够基于图层预测图层,因此,本公开实施例想到将图层转换成码序列,而由码序列预测进一步的码序列就可以采用已知的长短期记忆神经网络(LSTM)模型。因此,在本步骤,将物品图层和文案图层的信息代码化,形成第一码序列,这样,在后续的步骤中,就可以由串联的卷积层和LSTM层进行码序列到码序列的预测,从而预测出图片中其它图层的信息,从而生成其它图层,得到最后的图片。
因此,第一码序列就是至少将物品图层和文案图层所包含的图层信息进行代码化后形成的代码序列。而物品图层是根据如图1B中的物品图生成的,文案图层是根据如图1C中的文案生成的。在有物品图的情况下,可以基于预定规则,生成物品图层。例如,预定规则是,将物品图置于物品图层的中间。同样,在有文案的情况下,可以基于预定规则,生成文案图层。例如,预定规则是,将文案用宋体字书写,置于文案图层的下部。
在一个实施例中,所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
图片生成要求是对生成图片的文字性要求,通常包括生成的图片的长和宽、样式、布图。布图是指图片素材出现在图片中的位置。例如,布图“左下图右下文”是指物品照片出现在图片的左下角,文案出现在图片的右下角。因此,生成物品图层时,就可以将物品图放在该图层的左下角;生成文案图层时,就可以将文案放在该图层的右下角。这样,从生成了物品图层和文案图层。图片包含了很多图层,其中物品图层和文案图层是比较容易确定的,其它的图层,诸如背景层、装饰层和口号层等,是不容易确定的。因此,本公开实施例的一个主要的任务就是根据物品图层和文案图层的图层信息,预测图片其它图层的图层信息,进而得到整个预测的图片。
由于第一码序列就是至少将物品图层和文案图层所包含的图层信息进行代码化后形成的,其包括代表所述物品图层的码串、和代表所述文案图层的码串。码串即多个代码串联形成的串。物品图层的码串包括物品图层的颜色代码、物品图层的卷积神经网络CNN特征代码、物品图层的主题风格代码、物品图层的设计手法代码、物品图层的元素种类代码、物品图层的空间信息代码,分别用于表示物品图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。文案图层的码串包括文案图层的颜色代码、文案图层的卷积神经网络CNN特征代码、文案图层的主题风格代码、文案图层的设计手法代码、文案图层的元素种类代码、文案图层的空间信息代码,分别用于表示文案图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。上述的代码可以是多个代码的串。例如,物品图层的颜色代码可以是指代表物品图片的颜色的多个代码组成的串。
在一个实施例中,如图4所示,将代表所述物品图层的码串、和代表所述文案图层的码串330分别限定为64比特,这64比特各自分成6个箱区(bin),每个箱区各占用一些比特,分别放置该图层的颜色代码334、该图层的CNN特征代码335、该图层的主题风格代码331、该图层的设计手法代码332、该图层的元素种类代码333、该图层的空间信息代码336。下面将详细描述颜色代码334、CNN特征代码335、主题风格代码331、设计手法代码332、元素种类代码333、空间信息代码336是如何从物品图、文案、图片生成要求得到的。
在一个实施例中,所述主题风格代码通过以下方式获得:
如所述图片生成要求中指示主题风格,将指示的主题风格转换成所述主题风格代码;
如所述图片生成要求中未指示主题风格,将该码串代表的图层的各像素的颜色输入主题风格机器学习模型,由所述主题风格机器学习模型输出主题风格代码。
主题风格是图片整体的设计风格,如促销风、简约风。图片生成要求是对生成图片的文字性要求,因此,在该要求中,可能有明确的用户希望的主题风格,如图1D的“花繁”。因此,从中可以提取出主题风格。由于最后形成的图层的码串中各种信息(例如主题风格、设计手法等信息)要有统一的表示形式,因此,将主题风格转换成主题风格代码,以形成统一的表达。将主题风格转换成主题风格代码可以通过查找主题风格与代码对照表进行。
如果图片生成要求中没有指示主题风格,将该码串代表的图层的各像素的颜色输入如图4所示的主题风格机器学习模型301。这里,该码串代表的图层可以是物品图层或文案图层。每个图层是由像素阵列构成的,阵列的每行有若干像素,每列有若干像素。可以将这些像素的颜色按照行从上到下、列从左到右的顺序组成序列,输入主题风格机器学习模型301。例如,先将第一行的像素从左到右的像素的颜色排列,接着将第二行的像素从左到右的像素的颜色排列起来,放在第一行的像素排列的后面,以此类推,直到排列完最后一行像素,形成的序列输入主题风格机器学习模型301。
可以通过主题风格机器学习模型301来获得主题风格代码。主题风格机器学习模型可以预先通过以下方式训练:获取由大量具有确定的主题风格标签的图片样本组成的图片样本集;对于图片样本集中的每个图片样本,获取其物品图层和文案图层,将物品图层的各像素的颜色输入机器学习模型,由机器学习模型输出判定的主题风格,判定其是否与该图片样本的标签相符;如果图片样本集中判定结果与图片样本标签相符的比例大于预定比例(例如95%)则停止训练;同理,将文案图层的各像素的颜色输入机器学习模型,由机器学习模型输出判定的主题风格,判定其是否与该图片样本的标签相符;如果图片样本集中判定结果与图片样本标签相符的比例大于预定比例(例如95%)则停止训练;这样训练出的机器学习模型就是主题风格机器学习模型301。
在一个实施例中,所述设计手法代码通过以下方式获得:
如所述图片生成要求中指示设计手法,将指示的设计手法转换成所述设计手法代码;
如所述图片生成要求中未指示设计手法,将该码串代表的图层的各像素的颜色输入设计手法机器学习模型,由所述设计手法机器学习模型输出设计手法代码。
设计手法是设计图片用的手法,如环绕手法。在图片生成要求中含有布图的要求(如图1D的“左下图右下文”)。因此,根据该布图的要求,可以得到设计手法(例如,是环绕式还是角落布局式)。然后,将设计手法转换成设计手法代码,以形成统一的表达。将设计手法转换成设计手法代码可以通过查找设计手法与代码对照表进行。
如果图片生成要求中没有指示设计手法,将该码串代表的图层的各像素的颜色输入如图4所示的设计手法机器学习模型302。这里,该码串代表的图层可以是物品图层或文案图层。每个图层是由像素阵列构成的,同前所述,可以将这些像素的颜色按照行从上到下、列从左到右的顺序组成序列,输入设计手法机器学习模型302。
可以通过设计手法机器学习模型302来获得设计手法代码。设计手法机器学习模型302可以预先通过以下方式训练:获取由大量具有确定的设计手法标签的图片样本组成的图片样本集;对于图片样本集中的每个图片样本,获取其物品图层和文案图层,将物品图层的各像素的颜色输入机器学习模型,由机器学习模型输出判定的设计手法,判定其是否与该图片样本的设计手法标签相符;如果图片样本集中判定结果与图片样本设计手法标签相符的比例大于预定比例(例如95%)则停止训练;同理,将文案图层的各像素的颜色输入机器学习模型,由机器学习模型输出判定的设计手法,判定其是否与该图片样本的设计手法标签相符;如果图片样本集中判定结果与图片样本设计手法标签相符的比例大于预定比例(例如95%)则停止训练;这样训练出的机器学习模型就是设计手法机器学习模型302。
在一个实施例中,所述元素种类代码通过以下方式获得:
从该码串代表的图层中识别元素;
将识别出的元素的种类转换成元素种类代码。
元素是构成图片的基本工具,如背景、背景修饰、文案修饰、商品修饰、碎片修饰、口号(logo)、高亮修饰等。一般地,在将图片分成图层时,图片中的一个元素对应于一个图层,以便于对该元素修改时不影响其它元素。例如,背景对应背景图层,背景修饰对应背景修饰图层,文案修饰对应文案修饰图层。元素种类即该元素是背景、背景修饰、文案修饰、商品修饰、碎片修饰、口号、高亮修饰等中的哪一个。由图4所示的元素种类提取模块303从物品图层或文案图层识别元素,并识别出元素的种类。然后,将元素种类转换成元素种类代码,以形成统一的表达。将元素种类转换成元素种类代码可以通过查找元素种类与代码对照表进行。
在一个实施例中,所述空间信息代码通过以下方式获得:
将该码串代表的图层的覆盖区域的长度和宽度分别进行m等分和n等分,将所述覆盖区域划分成m×n个矩形格,其中,m和n为自然数;
根据图层中的图层元素所占的矩形格的标识,生成所述空间信息代码。
在各图层中,有些部分需要绘制图层元素,有些部分不绘制。因此,可以将图层的覆盖区域划分成m×n的矩形格阵列。将物品图层或文案图层的覆盖区域的长度和宽度分别进行m等分和n等分,其中,m和n为自然数。每个矩形格分配一个标识。这样,根据图层中的图层元素所占的矩形格的标识,就可以生成所述空间信息代码,例如将这些标识连接起来成为一个空间信息代码。举例来说,如果一个图层中仅在左上角的第一行的前两个矩形格中绘制元素,则可以将矩形格坐标(1,1)和(1,2)连起来,作为空间信息代码。上述空间信息代码是通过如图4所示的空间信息获取模块306获得的。
在一个实施例中,所述CNN特征代码通过以下方式获得:
将该图层输入到图4所示的CNN 305,由所述CNN 305输出所述CNN特征代码。例如,该CNN特征可以是2048维的视觉特征。
CNN特征是利用CNN网络从物品照片中抽象出的表示该物品整体的特征,它描述物品大致的形状、纹理、和引起的感觉。颜色特征着眼于每个像素的颜色,是图片的细节特征,它不能表达纹理信息及语义信息,因此,本公开实施例不但提取像素的颜色特征,还提取CNN特征,从微观和宏观两方面来描述图层的整体视觉效果。
除了提取CNN特征之外,还要提取微观的每个像素的颜色,但每个像素的颜色形成一个多维数组,其与上文所述的提取的其它特征是一维特征不一样,是一个多维特征,占用空间不匹配,不利于整合到统一的数字空间。因此,在一个实施例中,用聚类的方法将多维颜色数组整合为一维代码。
在一个实施例中,所述颜色代码通过以下方式获得:
对该码串代表的图层的各像素的颜色进行聚类;
将所述颜色聚成的类的标识作为所述颜色代码。
聚类的方法有多种。其中一种是确定该图层中最多的一种像素颜色,将该图层聚成该像素颜色的类。例如,该图层以红色调为主,所有像素中红色像素最多,则将该码串代表的图层的各像素的颜色聚成红色,将红色的标识作为颜色代码。
另一种聚类方式是采用距离最小法,其包括:将该码串代表的图层的各像素的颜色组成颜色向量;
确定该颜色向量与作为聚类中心的多个聚类基准颜色向量的距离;
将距离最小的聚类基准颜色向量作为聚类结果。
即,将上述多维颜色数组看作多维的颜色向量。预先设置多个聚类基准颜色向量,每个聚类基准颜色向量也是与该多维的颜色向量相同维数的。由于维数相同,可以计算出该颜色向量与每个聚类基准颜色向量的距离,将该颜色向量聚类成该聚类最小的聚类基准颜色向量。聚类基准颜色向量的标识是一维的,因此,就可以利用聚类到的聚类基准颜色向量的标识作为所述颜色代码,从而达到降维的作用。例如,多维颜色数组表示为(y1,y2……yn),即有n维,一共有3个聚类基准颜色向量,即(x11,x12……x1n),(x21,x22……x2n),(x31,x32……x3n),这时可以分别计算(y1,y2……yn)与(x11,x12……x1n)之间的距离、(y1,y2……yn)与(x21,x22……x2n)之间的距离、(y1,y2……yn)与(x31,x32……x3n)之间的距离,将(x11,x12……x1n)、(x21,x22……x2n)、(x31,x32……x3n)距离最小的一个,作为聚类结果,其代码为颜色代码。
如图4所示,上述聚类的过程是通过聚类模块304实现的。
上述颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征属于视觉信息,空间信息特征属于空间信息。本公开实施例将空间信息、视觉信息融合到同一个度量空间进行计算。特征表达中运用了纹理、CNN、主题风格等不同种类的特征,涵盖了浅层语义信息和高级语义信息,图像的运用更加纯熟精准。
在步骤210后,在一个实施例中,可以展示所述第一码序列对应的物品图层和文案图层,接收用户对展示的物品图层和文案图层的第一调整指示,并响应于所述第一调整指示,对所述第一码序列进行调整。
如上所述,第一码序列包含代表所述物品图层的码串、和代表所述文案图层的码串,代表着物品图层和文案图层,为了及时纠正第一码序列的偏差,可以将第一码序列代表的物品图层和文案图层通过界面展示给用户,并接收用户调整指示。例如,对于文案图层,用户在界面上将文案拖拽到另一位置,相当于做出了一个调整文案图层上文案的位置的指示。响应于该第一调整指示,按照该指示进行调整。例如,响应于用户在界面上将文案拖拽到另一位置的指示,就将该文案在文案图层上移动到用户拖拽到的位置,同时,由于第一码序列对应着物品图层和文案图层,也对第一码序列进行调整。该实施例能够响应于用户指示,及时对物品图层和文案图层进行调整,提高了用户的满意度,也提高了最后产生的图片的定制化程度。
在步骤220中,将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息。
图片图层信息是指图片中各图层的图层信息,包括物品图层和文案图层的图层信息,也包括其它图层(例如背景层、装饰层、口号层等)的图层信息。物品图层和文案图层的图层信息已经反映在第一码序列中。实际上,步骤220预测的主要是其它图层(例如背景层、装饰层、口号层等)的图层信息,它通过串联的卷积层和LSTM层来预测。
卷积神经网络是一种前馈型的神经网络,其在大型图像处理方面有出色的表现,目前已经被大范围使用到图像分类、定位、识别等领域中,但不能直接用于图片生成和预测。卷积神经网络的隐含层包含卷积层、池化层和全连接层。卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),类似于一个前馈神经网络的神经元(neuron)。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连,区域的大小取决于卷积核的大小,在文献中被称为“感受野(receptive field)”,其含义可类比视觉皮层细胞的感受野。卷积核在工作时,会有规律地扫过输入特征,在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。卷积层在本公开实施例中用来解决从代表物品图层和文案图层的图层信息的第一码序列中准确提取特征的问题。
长短期记忆神经网络(LSTM)是一种特殊的循环神经网络(RNN)。人对一个问题的思考不会完全从头开始。比如人在阅读一句话中的一个词时,会根据之前理解过的信息来理解该词。在理解当前词的时候,人并不会忘记之前看过的文字,从头思考当前词。循环神经网络(RNN)可以通过不停的将信息循环操作,保证信息持续存在,从而解决上述问题。如果相关信息与需要该信息的位置距离较近,RNN能够学习利用以前的信息来对当前任务进行相应的操作。但如果针对“I grew up in France…I speak fluent French.”,目前RNN通过以前文字语境可以预测出最后一个字是某种语言,但是要猜测出French,要根据之前的France语境,而之前France语境的地方与需要进行处理信息的地方之间的距离较远,这样容易导致RNN不能学习到有用的信息,最终推理的任务可能失败。而LSTM可以弥补这一缺陷。这是因为LSTM虽然具有与RNN同样的链式结构,但是它与RNN的重复单元只有一个网络层不同,它的重复单元内部有四个网络层,因此广泛用于文本生成、预测、翻译等,但它不能针对图片进行预测,从而用于图片生成。
本公开巧妙地将上面的卷积层102和LSTM层103串联成一个模型,对其整体训练,其中卷积层102用来解决从代表物品图层和文案图层的图层信息的第一码序列中准确提取特征的问题,而LSTM层103虽然不能直接针对图片预测,但可以针对提取的特征预测,从而预测出图片的其它图层的图层信息。然后,本公开实施例再基于预测出的图片的各图层的图层信息,生成图片,从而自动得到预测的图片。这种方式不机械套用模板,提高了图片生成的个性化程度,提高多样性,使设计更智能化。
在一个实施例中,如图2所示,卷积层102和LSTM层103之前还包括嵌入层101,起到将第一码序列升高维度的作用。在该实施例中,步骤220包括:
将所述第一码序列输入所述卷积层前加入的嵌入层,由嵌入层输出升高维度后的码序列;
将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层。
通过在卷积层102和LSTM层103前面加入的嵌入层101来完成升维转换。第一码序列是一维的,但卷积层102和LSTM层103处理数据时,通常是以矩阵的形式处理,提高效率,实现神经网络的前向传播,因此,要将该一维的第一码序列映射为固定维度的稠密向量,即升维操作,之后才方便应用于卷积层102和LSTM层103。
另外,如图2所示,在串联的卷积层102和LSTM层103之后,可以加入全连接层104。全连接层104的每一个节点都与上一层的所有节点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。一般在CNN结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。由于它具有整个前一层提取的特征的功能,因此降低了数据维度。本公开实施例中,将所述LSTM层103的输出结果输入到全连接层104,以降低维度,得到第二码序列。
卷积层102和LSTM层103的主要作用是根据物品图层和文案图层的图层信息,预测出图片中的其它图层(例如背景图层、修饰图层、口号图层等)的图层信息,从而得到第二码序列。在预测其它图层(例如背景图层、修饰图层、口号图层等)的图层信息时,这些其它图层的图层信息并不是一起预测出的,而是有先后顺序,而且之前预测出的图层的图层信息会与已知的物品图层和文案图层的图层信息一起,充当预测下一图层的图层信息的输入。即,将所述物品图层的码串、代表所述文案图层的码串、和已预测出的图层的码串输入到串联的卷积层和长短期记忆LSTM层,输出下一预测图层的码串,直到所述图片全部图层的码串都预测出。将预测出的全部图层的码串连接成所述第二码序列。
如图5所示,第三图层码串341代表着背景图层的图层信息,其中具有该背景图层的主体风格代码331、设计手法代码332、元素种类代码333、颜色代码334、CNN特征代码335、空间信息代码336。该第三图层码串341要返回给卷积层102和LSTM层103用于修饰图层的图层信息的预测,即第四图层码串342的预测。这是合理的,因为只有先确定了背景,在背景上添加什么样的修饰才能够确定。因此,卷积层102和LSTM层103在预测第四图层码串342时,要根据已知的物品图层的码串、文案图层的码串、和第三图层码串341。同理,该第四图层码串342要返回给卷积层102和LSTM层103用于口号图层的图层信息的预测,即第五图层码串343的预测。卷积层102和LSTM层103在预测第五图层码串343时,要根据已知的物品图层的码串、文案图层的码串、第三图层码串341和第四图层码串342。由于卷积层102和LSTM层103逐图层进行预测,而且每预测新的一个图层的信息(码串)时,要根据已知的物品图层的码串、文案图层的码串、和已经预测出的图层的码串,能够反映出图层之间的依赖关系,提高预测准确性。
另外,在预测当前图层的码串时,可以不只预测出一个码串,而是预测出多个候选当前码串。例如,将预测的概率大于预定概率阈值的当前码串都作为候选当前码串。这样,多个候选当前码串就会反馈回卷积层102和LSTM层103,参与到下一个图层的码串预测。在下一个图层的码串预测时,卷积层102和LSTM层103会分别以每个候选当前码串作为一个分支,分别预测下一个图层的码串,在这个分支中仍然可能预测出多个候选下一层码串,这样一直进行,会产生很多的码串组合。例如,每次预测取3个候选码串,这3个候选码串分别参与到下一层的码串预测,各自产生下一层的3个候选码串。如果有64个图层的话,最后产生364个最终候选结果。其数量太多,导致结果难以筛选。因此,可以采用剪枝的方法。即,为每个分支中预测的每个候选下一层码串,计算在该分支中产生该候选下一层码串的联合概率,如果该联合概率低于预定联合概率阈值,则预测出结束码344,停止为该候选下一层码串继续预测更下一层的候选码串。通过预测出多个候选当前码串的方式,可以提高预测的准确性。通过剪枝方法,可以大大提高预测效率。
在步骤230中,基于第二码序列,生成所述图片。
所述第二码序列包含代表图片的各个图层的码串,包括物品图层的码串、文案图层的码串、背景图层的码串、装饰图层的码串、口号图层的码串等等,这些码串可以采用串联的方式。这些码串中,物品图层的码串、文案图层的码串与第一码序列中是一样的,并不是预测出来的,而除了这两个图层之外的图层的码串都是预测出来的。每个码串也包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。
然后,对于各个图层中单个图层的码串,将其包括的颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码输入一个预先训练的绘制模型,由该绘制模型绘制出该图层。当各个图层都通过绘制模型绘制好后,将这些图层叠加,就成为最后的图片。
该绘制模型也是一个机器学习模型,其可以通过以下的方式预先训练:获取图层样本集合;对于图层样本集合中的每个图层样本,按照图4所示的方法提取出主题风格代码、设计手法代码、元素种类代码、颜色代码、CNN特征代码、空间信息代码;将提取出的主题风格代码、设计手法代码、元素种类代码、颜色代码、CNN特征代码、空间信息代码输入绘制模型,由绘制模型输出绘制的图层,将输出的图层与该图层样本进行像素比较,如果对应位置像素一致的比例超过预定像素一致比例(例如95%)则认为预测成功。通过调整绘制模型的参数,使得图层样本集合中预测成功的比例超过预定成功比例(例如95%),则认为该绘制模型训练成功。
在一个实施例中,在将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层后,不是立刻将各图层叠加,而是展示绘制的各图层,接收用户对展示的各图层的第二调整指示,响应于所述第二调整指示,对相应图层进行调整。
如上所述,第二码序列包含代表最终的图片的各图层的码串,其代表着图片的各图层,为了及时纠正最后图片的偏差,可以将第二码序列代表的各图层通过界面展示给用户,并接收用户调整指示。例如,对于装饰图层,用户在界面上将装饰图案拖拽到另一位置,相当于做出了一个调整装饰图层上装饰图案的位置的指示。响应于该第一调整指示,按照该指示进行调整。例如,响应于用户在装饰图层上将装饰图案拖拽到另一位置的指示,就将该装饰图案在装饰图层上移动到用户拖拽到的位置,这样,最后生成的图片就发生了变化。同时,由于第二码序列对应于图片中的各图层,也对第二码序列进行调整。该实施例能够响应于用户指示,及时对图片中的各图层进行调整,提高了用户的满意度,也提高了最后产生的图片的定制化程度。
如图6所示,根据本公开的一个实施例,还提供了一种图片生成装置400,包括:
第一码序列生成单元410,用于生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
第二码序列生成单元420,用于将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息;
图片生成单元430,用于基于第二码序列,生成所述图片。
可选地,所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
可选地,所述第一码序列包含代表所述物品图层的码串、和代表所述文案图层的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。
可选地,所述颜色代码通过以下方式获得:
对该码串代表的图层的各像素的颜色进行聚类;
将所述颜色聚成的类的标识作为所述颜色代码。
可选地,所述对该码串代表的图层的各像素的颜色进行聚类包括:
将该码串代表的图层的各像素的颜色组成颜色向量;
确定该颜色向量与作为聚类中心的多个聚类基准颜色向量的距离;
将距离最小的聚类基准颜色向量作为聚类结果。
可选地,所述CNN特征代码通过以下方式获得:
将该码串代表的图层输入CNN,由所述CNN输出所述CNN特征代码。
可选地,所述主题风格代码通过以下方式获得:
如所述图片生成要求中指示主题风格,将指示的主题风格转换成所述主题风格代码;
如所述图片生成要求中未指示主题风格,将该码串代表的图层的各像素的颜色输入主题风格机器学习模型,由所述主题风格机器学习模型输出主题风格代码。
可选地,所述设计手法代码通过以下方式获得:
如所述图片生成要求中指示设计手法,将指示的设计手法转换成所述设计手法代码;
如所述图片生成要求中未指示设计手法,将该码串代表的图层的各像素的颜色输入设计手法机器学习模型,由所述设计手法机器学习模型输出设计手法代码。
可选地,所述元素种类代码通过以下方式获得:
从该码串代表的图层中识别元素;
将识别出的元素的种类转换成元素种类代码。
可选地,所述空间信息代码通过以下方式获得:
将该码串代表的图层的覆盖区域的长度和宽度分别进行m等分和n等分,将所述覆盖区域划分成m×n个矩形格,其中,m和n为自然数;
根据图层中的图层元素所占的矩形格的标识,生成所述空间信息代码。
可选地,所述装置还包括:
物品图层和文案图层展示单元,用于在生成第一码序列后,展示所述第一码序列对应的物品图层和文案图层;
第一调整指示接收单元,用于接收用户对展示的物品图层和文案图层的第一调整指示;
第一调整单元,用于响应于所述第一调整指示,对所述第一码序列进行调整。
可选地,所述第二码序列生成单元进一步用于:
将所述第一码序列输入所述卷积层前加入的嵌入层,由嵌入层输出升高维度后的码序列;
将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层。
可选地,所述第二码序列生成单元进一步用于:
将所述长短期记忆LSTM层的输出结果输入到所述长短期记忆LSTM层后面加入的全连接层,以降低维度,得到第二码序列。
可选地,所述第二码序列生成单元进一步用于:
将所述物品图层的码串、代表所述文案图层的码串、和已预测出的图层的码串输入到串联的卷积层和长短期记忆LSTM层,输出下一预测图层的码串,直到所述图片全部图层的码串都预测出;
将预测出的全部图层的码串连接成所述第二码序列。
可选地,所述第二码序列包含代表生成的图片的各图层信息的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征;所述图片生成单元进一步用于:将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层;将绘制模型绘制出的各图层叠加,得到所述图片。
可选地,所述装置还包括:
全图层展示单元,用于在将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层后,展示绘制的各图层;
第二调整指示接收单元,用于接收用户对展示的各图层的第二调整指示;
第二调整单元,用于响应于所述第二调整指示,对相应图层进行调整。
由于上文已经结合图3针对本公开的图片生成方法进行了详细描述,图片生成装置400的实现细节与图片生成方法是基本一致的,故不赘述。
如图7所示,根据本公开的一个实施例,还提供了一种数据处理方法,包括:
步骤510、获取待处理数据,其中,所述待处理数据包括:物品图和文案;
步骤520、获取与所述待处理数据对应的第一码序列,其中,所述第一码序列包括与所述物品图和文案分别对应的子部分;
步骤530、将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列;
步骤540、基于第二码序列,生成一张或多张图片。
当由一个应用安装在普通的终端设备上来生成图片时,该数据处理方法由普通的终端设备执行。当由一个网站来生成图片时,该数据处理方法由网站服务器执行。当由专门的图片生成设备来生成图片时,该方法由该图片生成设备执行。
步骤510中的待处理数据是指用于生成图片的素材,它包括如图1B输入的物品图、如图1C输入的文案、如图1D输入的图片生成要求等。获取的方式可以通过如图1B-D所示向用户显示输入页面,并在输入页面上接收这些待处理数据来进行。
步骤520与步骤210基本相同,其中与物品图对应的子部分就是代表所述物品图层的码串,与文案对应的子部分就是代表所述文案图层的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于物品图层或文案图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。
步骤530基本上与步骤220相同,故不赘述。
步骤540基本上与步骤230相同,故不赘述。
在一个实施例中,该数据处理方法还包括:展示所述第一码序列和第二码序列。
在一个实施例中,在步骤520后,还展示第一码序列对应的物品图层和文案图层(图中未示,其可以在图1D的界面之后,图1E的界面之前)。如上所述,第一码序列包含代表所述物品图层的码串、和代表所述文案图层的码串,代表着物品图层和文案图层,为了及时纠正第一码序列的偏差,可以将第一码序列代表的物品图层和文案图层通过界面展示给用户,并接收用户对展示的物品图层和文案图层的第一调整指示。例如,对于文案图层,用户在界面上将文案拖拽到另一位置,相当于做出了一个调整文案图层上文案的位置的指示。响应于该第一调整指示,按照该指示进行调整。例如,响应于用户在界面上将文案拖拽到另一位置的第一调整指示,就将该文案在文案图层上移动到用户拖拽到的位置,同时,也对第一码序列进行调整。该实施例能够响应于用户指示,及时对物品图层和文案图层进行调整,提高了用户的满意度,也提高了最后产生的图片的定制化程度。
另外,在步骤530之后,展示所述第二码序列对应的图片各图层,如图1E所示,并接收用户对展示的各图层的第二调整指示。例如,对于装饰图层,用户在界面上将装饰图案拖拽到另一位置,相当于做出了一个调整装饰图层上装饰图案的位置的第二调整指示。响应于该第二调整指示,按照该指示进行调整。例如,响应于用户在装饰图层上将装饰图案拖拽到另一位置的第二调整指示,就将该装饰图案在装饰图层上移动到用户拖拽到的位置,这样,最后生成的图片就发生了变化。同时,由于第二码序列对应于图片中的各图层,也对第二码序列进行调整。该实施例能够响应于用户指示,及时对图片中的各图层进行调整,提高了用户的满意度,也提高了最后产生的图片的定制化程度。
如图8所示,根据本公开的一个实施例,提供了一种数据处理装置600,包括:
待处理数据获取单元610,用于获取待处理数据,其中,所述待处理数据包括:物品图和文案;
第一码序列获取单元620,用于获取与所述待处理数据对应的第一码序列,其中,所述第一码序列包括与所述物品图和文案分别对应的子部分;
第二码序列获取单元630,用于将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列;
图片生成单元640,用于基于第二码序列,生成一张或多张图片。
可选地,该数据处理装置还包括:
物品图层和文案图层展示单元(未示),用于在获取与所述待处理数据对应的第一码序列后,展示所述第一码序列对应的物品图层和文案图层;
全图层展示单元(未示),用于在将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列之后,展示所述第二码序列对应的图片各图层。
可选地,该数据处理装置还包括:
第一调整指示接收单元(未示),用于在展示所述第一码序列对应的物品图层和文案图层之后,接收用户对展示的物品图层和文案图层的第一调整指示;
第一调整单元(未示),用于响应于所述第一调整指示,调整第一码序列;
第二调整指示接收单元(未示),用于在展示所述第二码序列对应的图片各图层之后,接收用户对展示的各图层的第二调整指示;
第二调整单元(未示),用于响应于所述第二调整指示,调整第二码序列。
该数据处理装置的实现细节可以参考前面关于图7的数据处理方法的描述。
如图9所示,根据本公开的一个实施例,提供了一种数据处理方法,包括:
步骤710、接收待处理数据,其中,所述待处理数据包括:物品图和文案;
步骤720、生成第一码序列并展示第一码序列对应的物品图层和文案图层,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
步骤730、基于所述第一码序列,生成第二码序列并展示第二码序列对应的图片图层,所述第二码序列代表图片图层信息;
步骤740、基于所述第二码序列,生成并展示所述图片图层信息合成的图片。
当由一个应用安装在普通的终端设备上来生成图片时,该数据处理方法由普通的终端设备执行。当由一个网站来生成图片时,该数据处理方法由网站服务器执行。当由专门的图片生成设备来生成图片时,该方法由该图片生成设备执行。
步骤710与步骤510相同,故不赘述。
步骤720生成第一码序列的部分与步骤520相同。关于第一码序列对应的物品图层和文案图层的展示,上文也详细描述过,故不赘述。。
步骤730生成第二码序列的部分与步骤530相同。展示第二码序列对应的图片图层,上文也有描述,故不赘述。
步骤740与步骤540相同,故不赘述。
可选地,步骤730包括:将所述第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列。
可选地,所述待处理数据还包括图片生成要求;所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
可选地,在步骤720之后,所述方法还包括:接收用户对所述物品图层和文案图层的第一调整指示;响应于第一调整指示,对所述第一码序列进行调整。其细节在前文中已详细描述。
可选地,在步骤730之后,所述方法还包括:接收用户对图片中各图片的第二调整指示;响应于第二调整指示,对所述第二码序列进行调整。其细节在前文中已详细描述。
如图10所示,提供了一种数据处理装置900,包括:
待处理数据接收单元910,用于接收待处理数据,其中,所述待处理数据包括:物品图和文案;
第一码序列生成及展示单元920,用于生成第一码序列并展示第二码序列对应的图片图层,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
第二码序列生成及展示单元930,用于基于所述第一码序列,生成第二码序列并展示第二码序列对应的图片图层,所述第二码序列代表图片图层信息;
图片生成及展示单元940,用于基于所述第二码序列,生成并展示所述图片图层信息合成的图片。
可选地,所述第二码序列生成及展示单元930进一步用于:将所述第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列。
可选地,所述待处理数据还包括图片生成要求;所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
可选地,该数据处理装置900还包括:
第一调整指示接收单元(未示),用于在生成第一码序列并展示第一码序列对应的物品图层和文案图层之后,接收用户对所述物品图层和文案图层的第一调整指示;
第一调整单元(未示),用于响应于第一调整指示,对所述第一码序列进行调整。
可选地,该数据处理装置900还包括:
第二调整指示接收单元(未示),用于在生成第二码序列并展示第二码序列对应的图片图层之后,接收用户对图片中各图片的第二调整指示;
第二调整单元(未示),用于响应于第二调整指示,对所述第二码序列进行调整。
该数据处理装置900的实现细节在前面的方法实施例中已有涉及,不再赘述。
根据本公开的一个实施例的图片生成方法可以由图11的计算机设备800实现。当图3所示的图片生成方法、图7的数据处理方法、图9的数据处理方法由一个安装了特定应用的通用终端完成时,该计算机设备800是通用终端。当图3所示的图片生成方法、图7的数据处理方法、图9的数据处理方法由一个网站服务器完成时,该计算机设备800是网站服务器。当图3所示的图片生成方法、图7的数据处理方法、图9的数据处理方法由一个专门的图片生成设备实现时,该计算机设备800是专门的图片生成设备。
下面参照图11来描述根据本公开实施例的计算机设备800。图11显示的计算机设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,计算机设备800以通用计算设备的形式表现。计算机设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图3、7、9中所示的各个步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
计算机设备800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该计算机设备800交互的设备通信,和/或与使得该计算机设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,计算机设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与计算机设备800的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
需要领会,以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本说明书的实施例存在许多变型。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
应该理解,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
应该理解,上述对本说明书特定实施例进行了描述。其它实施例在权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
应该理解,本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外,本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件,且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。
还应理解,本文采用的术语和表述方式只是用于描述,本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征,应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的,权利要求应视为覆盖所有这些等效物。

Claims (54)

1.一种图片生成方法,包括:
生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息;
基于第二码序列,生成所述图片。
2.根据权利要求1所述的方法,其中,所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
3.根据权利要求2所述的方法,其中,所述第一码序列包含代表所述物品图层的码串、和代表所述文案图层的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。
4.根据权利要求3所述的方法,其中,所述颜色代码通过以下方式获得:
对该码串代表的图层的各像素的颜色进行聚类;
将所述颜色聚成的类的标识作为所述颜色代码。
5.根据权利要求4所述的方法,其中,所述对该码串代表的图层的各像素的颜色进行聚类包括:
将该码串代表的图层的各像素的颜色组成颜色向量;
确定该颜色向量与作为聚类中心的多个聚类基准颜色向量的距离;
将距离最小的聚类基准颜色向量作为聚类结果。
6.根据权利要求3所述的方法,其中,所述CNN特征代码通过以下方式获得:
将该码串代表的图层输入CNN,由所述CNN输出所述CNN特征代码。
7.根据权利要求3所述的方法,其中,所述主题风格代码通过以下方式获得:
如所述图片生成要求中指示主题风格,将指示的主题风格转换成所述主题风格代码;
如所述图片生成要求中未指示主题风格,将该码串代表的图层的各像素的颜色输入主题风格机器学习模型,由所述主题风格机器学习模型输出主题风格代码。
8.根据权利要求3所述的方法,其中,所述设计手法代码通过以下方式获得:
如所述图片生成要求中指示设计手法,将指示的设计手法转换成所述设计手法代码;
如所述图片生成要求中未指示设计手法,将该码串代表的图层的各像素的颜色输入设计手法机器学习模型,由所述设计手法机器学习模型输出设计手法代码。
9.根据权利要求3所述的方法,其中,所述元素种类代码通过以下方式获得:
从该码串代表的图层中识别元素;
将识别出的元素的种类转换成元素种类代码。
10.根据权利要求3所述的方法,其中,所述空间信息代码通过以下方式获得:
将该码串代表的图层的覆盖区域的长度和宽度分别进行m等分和n等分,将所述覆盖区域划分成m×n个矩形格,其中,m和n为自然数;
根据图层中的图层元素所占的矩形格的标识,生成所述空间信息代码。
11.根据权利要求1所述的方法,其中,在生成第一码序列后,所述方法还包括:
展示所述第一码序列对应的物品图层和文案图层;
接收用户对展示的物品图层和文案图层的第一调整指示;
响应于所述第一调整指示,对所述第一码序列进行调整。
12.根据权利要求1所述的方法,其中,所述将第一码序列输入到串联的卷积层和长短期记忆LSTM层,包括:
将所述第一码序列输入所述卷积层前加入的嵌入层,由嵌入层输出升高维度后的码序列;
将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层。
13.根据权利要求12所述的方法,其中,在将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层之后,所述方法还包括:
将所述长短期记忆LSTM层的输出结果输入到所述长短期记忆LSTM层后面加入的全连接层,以降低维度,得到第二码序列。
14.根据权利要求3所述的方法,其中,所述将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,包括:
将所述物品图层的码串、所述文案图层的码串、和已预测出的图层的码串输入到串联的卷积层和长短期记忆LSTM层,输出下一预测图层的码串,直到所述图片全部图层的码串都预测出;
将预测出的全部图层的码串连接成所述第二码序列。
15.根据权利要求1所述的方法,其中,所述第二码序列包含代表生成的图片的各图层信息的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征;
所述基于第二码序列,生成所述图片,包括:
将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层;
将绘制模型绘制出的各图层叠加,得到所述图片。
16.根据权利要求15所述的方法,其中,在将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层后,所述方法还包括:
展示绘制的各图层;
接收用户对展示的各图层的第二调整指示;
响应于所述第二调整指示,对相应图层进行调整。
17.一种图片生成装置,包括:
第一码序列生成单元,用于生成第一码序列,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
第二码序列生成单元,用于将第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列,所述第二码序列代表生成的图片图层信息;
图片生成单元,用于基于第二码序列,生成所述图片。
18.根据权利要求17所述的装置,其中,所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
19.根据权利要求17所述的装置,其中,所述第一码序列包含代表所述物品图层的码串、和代表所述文案图层的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征。
20.根据权利要求19所述的装置,其中,所述颜色代码通过以下方式获得:
对该码串代表的图层的各像素的颜色进行聚类;
将所述颜色聚成的类的标识作为所述颜色代码。
21.根据权利要求20所述的装置,其中,所述对该码串代表的图层的各像素的颜色进行聚类包括:
将该码串代表的图层的各像素的颜色组成颜色向量;
确定该颜色向量与作为聚类中心的多个聚类基准颜色向量的距离;
将距离最小的聚类基准颜色向量作为聚类结果。
22.根据权利要求19所述的装置,其中,所述CNN特征代码通过以下方式获得:
将该码串代表的图层输入CNN,由所述CNN输出所述CNN特征代码。
23.根据权利要求19所述的装置,其中,所述主题风格代码通过以下方式获得:
如所述图片生成要求中指示主题风格,将指示的主题风格转换成所述主题风格代码;
如所述图片生成要求中未指示主题风格,将该码串代表的图层的各像素的颜色输入主题风格机器学习模型,由所述主题风格机器学习模型输出主题风格代码。
24.根据权利要求19所述的装置,其中,所述设计手法代码通过以下方式获得:
如所述图片生成要求中指示设计手法,将指示的设计手法转换成所述设计手法代码;
如所述图片生成要求中未指示设计手法,将该码串代表的图层的各像素的颜色输入设计手法机器学习模型,由所述设计手法机器学习模型输出设计手法代码。
25.根据权利要求19所述的装置,其中,所述元素种类代码通过以下方式获得:
从该码串代表的图层中识别元素;
将识别出的元素的种类转换成元素种类代码。
26.根据权利要求19所述的装置,其中,所述空间信息代码通过以下方式获得:
将该码串代表的图层的覆盖区域的长度和宽度分别进行m等分和n等分,将所述覆盖区域划分成m×n个矩形格,其中,m和n为自然数;
根据图层中的图层元素所占的矩形格的标识,生成所述空间信息代码。
27.根据权利要求17所述的装置,其中,所述装置还包括:
物品图层和文案图层展示单元,用于在生成第一码序列后,展示所述第一码序列对应的物品图层和文案图层;
第一调整指示接收单元,用于接收用户对展示的物品图层和文案图层的第一调整指示;
第一调整单元,用于响应于所述第一调整指示,对所述第一码序列进行调整。
28.根据权利要求17所述的装置,其中,所述第二码序列生成单元进一步用于:
将所述第一码序列输入所述卷积层前加入的嵌入层,由嵌入层输出升高维度后的码序列;
将升高维度后的码序列输入串联的卷积层和长短期记忆LSTM层。
29.根据权利要求28所述的装置,其中,所述第二码序列生成单元进一步用于:
将所述长短期记忆LSTM层的输出结果输入到所述长短期记忆LSTM层后面加入的全连接层,以降低维度,得到第二码序列。
30.根据权利要求19所述的装置,其中,所述第二码序列生成单元进一步用于:
将所述物品图层的码串、代表所述文案图层的码串、和已预测出的图层的码串输入到串联的卷积层和长短期记忆LSTM层,输出下一预测图层的码串,直到所述图片全部图层的码串都预测出;
将预测出的全部图层的码串连接成所述第二码序列。
31.根据权利要求17所述的装置,其中,所述第二码序列包含代表生成的图片的各图层信息的码串,其中每个码串包括颜色代码、卷积神经网络CNN特征代码、主题风格代码、设计手法代码、元素种类代码、空间信息代码,分别用于表示该码串代表的图层的颜色特征、CNN特征、主题风格特征、设计手法特征、元素种类特征、空间信息特征;
所述图片生成单元进一步用于:
将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层;
将绘制模型绘制出的各图层叠加,得到所述图片。
32.根据权利要求31所述的装置,其中,所述装置还包括:
全图层展示单元,用于在将代表每个图层信息的码串分别输入绘制模型,由绘制模型绘制出相应图层后,展示绘制的各图层;
第二调整指示接收单元,用于接收用户对展示的各图层的第二调整指示;
第二调整单元,用于响应于所述第二调整指示,对相应图层进行调整。
33.一种计算机设备,包括:
存储器,用于存储计算机可执行代码;
处理器,用于执行所述计算机可执行代码,以实现权利要求1-16中任一个所述的图片生成方法。
34.一种计算机可读介质,其特征在于,包括计算机可执行代码,所述计算机可执行代码被处理器执行时实现权利要求1-16中任一个所述的图片生成方法。
35.一种数据处理方法,包括:
获取待处理数据,其中,所述待处理数据包括:物品图和文案;
获取与所述待处理数据对应的第一码序列,其中,所述第一码序列包括与所述物品图和文案分别对应的子部分;
将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列;
基于第二码序列,生成一张或多张图片。
36.根据权利要求35所述的数据处理方法,其中,在获取与所述待处理数据对应的第一码序列后,所述方法还包括:展示所述第一码序列对应的物品图层和文案图层;
在将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列之后,所述方法还包括:展示所述第二码序列对应的图片各图层。
37.根据权利要求36所述的数据处理方法,其中,在展示所述第一码序列对应的物品图层和文案图层之后,所述方法还包括:
接收用户对展示的物品图层和文案图层的第一调整指示;
响应于所述第一调整指示,调整第一码序列;
在展示所述第二码序列对应的图片各图层之后,所述方法还包括:
接收用户对展示的各图层的第二调整指示;
响应于所述第二调整指示,调整第二码序列。
38.一种数据处理装置,包括:
待处理数据获取单元,用于获取待处理数据,其中,所述待处理数据包括:物品图和文案;
第一码序列获取单元,用于获取与所述待处理数据对应的第一码序列,其中,所述第一码序列包括与所述物品图和文案分别对应的子部分;
第二码序列获取单元,用于将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列;
图片生成单元,用于基于第二码序列,生成一张或多张图片。
39.根据权利要求38所述的数据处理装置,还包括:
物品图层和文案图层展示单元,用于在获取与所述待处理数据对应的第一码序列后,展示所述第一码序列对应的物品图层和文案图层;
全图层展示单元,用于在将第一码序列,输入到机器学习模型中的卷积层和长短期记忆LSTM层,输出第二码序列之后,展示所述第二码序列对应的图片各图层。
40.根据权利要求39所述的数据处理装置,其中,还包括:
第一调整指示接收单元,用于在展示所述第一码序列对应的物品图层和文案图层之后,接收用户对展示的物品图层和文案图层的第一调整指示;
第一调整单元,用于响应于所述第一调整指示,调整第一码序列;
第二调整指示接收单元,用于在展示所述第二码序列对应的图片各图层之后,接收用户对展示的各图层的第二调整指示;
第二调整单元,用于响应于所述第二调整指示,调整第二码序列。
41.一种计算机设备,包括:
存储器,用于存储计算机可执行代码;
处理器,用于执行所述计算机可执行代码,以实现权利要求35-37中任一个所述的数据处理方法。
42.一种计算机可读介质,其特征在于,包括计算机可执行代码,所述计算机可执行代码被处理器执行时实现权利要求35-37中任一个所述的数据处理方法。
43.一种数据处理方法,包括:
接收待处理数据,其中,所述待处理数据包括:物品图和文案;
生成第一码序列并展示第一码序列对应的物品图层和文案图层,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
基于所述第一码序列,生成第二码序列并展示第二码序列对应的图片图层,所述第二码序列代表图片图层信息;
基于所述第二码序列,生成并展示所述图片图层信息合成的图片。
44.根据权利要求43所述的数据处理方法,其中,所述基于所述第一码序列,生成第二码序列,包括:将所述第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列。
45.根据权利要求43所述的数据处理方法,其中,所述待处理数据还包括图片生成要求;所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
46.根据权利要求43所述的数据处理方法,其中,在生成第一码序列并展示第一码序列对应的物品图层和文案图层之后,所述方法还包括:
接收用户对所述物品图层和文案图层的第一调整指示;
响应于第一调整指示,对所述第一码序列进行调整。
47.根据权利要求43所述的数据处理方法,其中,在生成第二码序列并展示第二码序列对应的图片图层之后,所述方法还包括:
接收用户对图片中各图片的第二调整指示;
响应于第二调整指示,对所述第二码序列进行调整。
48.一种数据处理装置,包括:
待处理数据接收单元,用于接收待处理数据,其中,所述待处理数据包括:物品图和文案;
第一码序列生成及展示单元,用于生成第一码序列并展示第二码序列对应的图片图层,所述第一码序列包含至少基于物品图生成的物品图层和至少基于文案生成的文案图层的图层信息;
第二码序列生成及展示单元,用于基于所述第一码序列,生成第二码序列并展示第二码序列对应的图片图层,所述第二码序列代表图片图层信息;
图片生成及展示单元,用于基于所述第二码序列,生成并展示所述图片图层信息合成的图片。
49.根据权利要求48所述的数据处理装置,其中,所述第二码序列生成及展示单元进一步用于:将所述第一码序列输入到串联的卷积层和长短期记忆LSTM层,输出第二码序列。
50.根据权利要求48所述的数据处理装置,其中,所述待处理数据还包括图片生成要求;所述物品图层除了基于所述物品图之外,还基于图片生成要求生成;所述文案图层除了基于所述文案之外,还基于图片生成要求生成。
51.根据权利要求48所述的数据处理装置,还包括:
第一调整指示接收单元,用于在生成第一码序列并展示第一码序列对应的物品图层和文案图层之后,接收用户对所述物品图层和文案图层的第一调整指示;
第一调整单元,用于响应于第一调整指示,对所述第一码序列进行调整。
52.根据权利要求48所述的数据处理装置,还包括:
第二调整指示接收单元,用于在生成第二码序列并展示第二码序列对应的图片图层之后,接收用户对图片中各图片的第二调整指示;
第二调整单元,用于响应于第二调整指示,对所述第二码序列进行调整。
53.一种计算机设备,包括:
存储器,用于存储计算机可执行代码;
处理器,用于执行所述计算机可执行代码,以实现权利要求43-47中任一个所述的数据处理方法。
54.一种计算机可读介质,其特征在于,包括计算机可执行代码,所述计算机可执行代码被处理器执行时实现权利要求43-47中任一个所述的数据处理方法。
CN202010225699.7A 2020-03-26 2020-03-26 图片生成方法、装置、计算机设备和介质 Active CN113450433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010225699.7A CN113450433B (zh) 2020-03-26 2020-03-26 图片生成方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010225699.7A CN113450433B (zh) 2020-03-26 2020-03-26 图片生成方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN113450433A true CN113450433A (zh) 2021-09-28
CN113450433B CN113450433B (zh) 2024-08-16

Family

ID=77807376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010225699.7A Active CN113450433B (zh) 2020-03-26 2020-03-26 图片生成方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN113450433B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015050506A (ja) * 2013-08-30 2015-03-16 シャープ株式会社 画像復号装置および画像符号化装置
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
US20170310972A1 (en) * 2016-04-20 2017-10-26 Qualcomm Incorporated Methods and systems of generating a background picture for video coding
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks
CN107636691A (zh) * 2015-06-12 2018-01-26 商汤集团有限公司 用于识别图像中的文本的方法和设备
CN110196972A (zh) * 2019-04-24 2019-09-03 北京奇艺世纪科技有限公司 文案生成方法、装置及计算机可读存储介质
CN110210581A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
CN110245257A (zh) * 2019-05-31 2019-09-17 阿里巴巴集团控股有限公司 推送信息的生成方法及装置
CN110362696A (zh) * 2019-06-11 2019-10-22 平安科技(深圳)有限公司 歌词生成方法、系统、计算机设备及计算机可读存储介质
CN110489582A (zh) * 2019-08-19 2019-11-22 腾讯科技(深圳)有限公司 个性化展示图像的生成方法及装置、电子设备
CN110659371A (zh) * 2019-08-21 2020-01-07 苏宁云计算有限公司 一种目标对象的banner图的批量自动生成方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015050506A (ja) * 2013-08-30 2015-03-16 シャープ株式会社 画像復号装置および画像符号化装置
CN107636691A (zh) * 2015-06-12 2018-01-26 商汤集团有限公司 用于识别图像中的文本的方法和设备
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks
US20170310972A1 (en) * 2016-04-20 2017-10-26 Qualcomm Incorporated Methods and systems of generating a background picture for video coding
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN110196972A (zh) * 2019-04-24 2019-09-03 北京奇艺世纪科技有限公司 文案生成方法、装置及计算机可读存储介质
CN110210581A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
CN110245257A (zh) * 2019-05-31 2019-09-17 阿里巴巴集团控股有限公司 推送信息的生成方法及装置
CN110362696A (zh) * 2019-06-11 2019-10-22 平安科技(深圳)有限公司 歌词生成方法、系统、计算机设备及计算机可读存储介质
CN110489582A (zh) * 2019-08-19 2019-11-22 腾讯科技(深圳)有限公司 个性化展示图像的生成方法及装置、电子设备
CN110659371A (zh) * 2019-08-21 2020-01-07 苏宁云计算有限公司 一种目标对象的banner图的批量自动生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹斌;: "中文图像描述的自动生成与模型分析", 电子世界, no. 05, pages 95 *

Also Published As

Publication number Publication date
CN113450433B (zh) 2024-08-16

Similar Documents

Publication Publication Date Title
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN114390217B (zh) 视频合成方法、装置、计算机设备和存储介质
CN115511969A (zh) 图像处理与数据渲染方法、设备及介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN117556067B (zh) 数据检索方法、装置、计算机设备和存储介质
Li [Retracted] Intelligent Environmental Art Design Combining Big Data and Artificial Intelligence
CN115115745A (zh) 自主创作型的数字艺术的生成方法、系统、存储介质及电子设备
CN115017561A (zh) 3d设计图的生成方法、系统、终端设备及存储介质
CN117011875A (zh) 多媒体页面的生成方法、装置、设备、介质和程序产品
CN113298616A (zh) 一种基于特征融合的成对服装兼容性预测方法
Wu et al. Automatic generation of traditional patterns and aesthetic quality evaluation technology
Wang The Influence of Artificial Intelligence on Visual Elements of Web Page Design under Machine Vision
CN113821663A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN107578475A (zh) 一种三维网页显示方法及装置
CN113450433B (zh) 图片生成方法、装置、计算机设备和介质
KR102648613B1 (ko) 입력 이미지를 기반으로 인터넷 쇼핑몰에 전시되는 상품 이미지를 생성하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체
Kumar et al. Computer Vision and Creative Content Generation: Text-to-Sketch Conversion
Wang et al. Artistic Text Style Transfer: An overview of state-of-the-art methods and datasets [SP Forum]
Sra et al. Deepspace: Mood-based image texture generation for virtual reality from music
CN113239995A (zh) 一种图层的解析方法、装置、计算机设备和存储介质
Jahanian Quantifying aesthetics of visual design applied to automatic design
Olivier et al. Structured Shape-Patterns from a Sketch: A Multi-Scale Approach
Guan et al. Computer-Aided Optimization Design of Intelligent Commodity Packaging Based on Generative Adversarial Network
Cui Computer-aided design of hand-drawn art food packaging design based on a deep neural network model
CN118397148B (zh) 目标中文海报生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant