CN116955677A - 基于文字生成图片的方法、装置、设备及存储介质 - Google Patents

基于文字生成图片的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116955677A
CN116955677A CN202310240545.9A CN202310240545A CN116955677A CN 116955677 A CN116955677 A CN 116955677A CN 202310240545 A CN202310240545 A CN 202310240545A CN 116955677 A CN116955677 A CN 116955677A
Authority
CN
China
Prior art keywords
picture
description
pictures
model
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310240545.9A
Other languages
English (en)
Inventor
陈小帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310240545.9A priority Critical patent/CN116955677A/zh
Publication of CN116955677A publication Critical patent/CN116955677A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于文字生成图片的方法、装置、设备及存储介质,属于计算机技术领域。该方法包括:获取第一图片描述,第一图片描述用于描述待生成图片的图片内容;通过描述扩展模型,对第一图片描述进行处理,得到第二图片描述,描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,用于将简约图片描述扩展为对应的规范图片描述,规范图片描述包括用于描述参考图片的主要描述对象的多个词语和用于描述参考图片的次要描述对象的至少一个词语,简约图片描述为规范图片描述中用于描述主要描述对象的关键词;基于第二图片描述,生成图片。该方法通过丰富图片描述的内容来生成内容丰富的图片,提高了生成图片的质量。

Description

基于文字生成图片的方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种基于文字生成图片的方法、装置、设备及存储介质。
背景技术
用户在发表评论、社区帖子等时,经常需要制作符合自己个性化表达需求的图片。随着基于文本生成图片的技术逐渐涌现,用户只需输入图片描述,即可指示设备生成相应的图片。
如果想要基于图片描述生成质量较高的图片,需要专业且复杂的图片描述。例如,生成一张质量较高的山峰图片,需要输入如下样式的图片描述:山,雄伟,令人敬畏,白雪皑皑,宁静,浩瀚,高峰,云雾,绵延,丘陵,郁郁葱葱,山谷,惊险,地平线,风景。
对于非专业人员的用户来说,输入上述专业且复杂的图片描述存在很大的困难,通常情况下用户只能输入一个基本概念,如“山”、“大海”等。由于用户输入的图片描述太过简单,导致生成图片的质量较低。
发明内容
本申请实施例提供了一种基于文字生成图片的方法、装置、设备及存储介质,能够提高生成图片的质量。所述技术方案如下:
一方面,提供了一种基于文字生成图片的方法,所述方法包括:
获取第一图片描述,所述第一图片描述用于描述待生成图片的图片内容;
通过描述扩展模型,对所述第一图片描述进行处理,得到第二图片描述,所述描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,用于将所述简约图片描述扩展为对应的所述规范图片描述,所述规范图片描述包括用于描述所述参考图片的主要描述对象的多个词语和用于描述所述参考图片的次要描述对象的至少一个词语,所述简约图片描述为所述规范图片描述中用于描述所述主要描述对象的关键词;
基于所述第二图片描述,生成图片。
另一方面,提供了一种用于图片生成的描述扩展模型训练方法,所述方法包括:
将网络中图片的描述获取为规范图片描述;
对所述规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述;
基于所述规范图片描述和所述简约图片描述,训练描述扩展模型,所述描述扩展模型是对用于生成图片的图片描述进行扩展的模型。
另一方面,提供了一种基于文字生成图片的装置,所述装置包括:
获取模块,用于获取第一图片描述,所述第一图片描述用于描述待生成图片的图片内容;
扩展模块,用于通过描述扩展模型,对所述第一图片描述进行处理,得到第二图片描述,所述描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,用于将所述简约图片描述扩展为对应的所述规范图片描述,所述规范图片描述包括用于描述所述参考图片的主要描述对象的多个词语和用于描述所述参考图片的次要描述对象的至少一个词语,所述简约图片描述为所述规范图片描述中用于描述所述主要描述对象的关键词;
生成模块,用于基于所述第二图片描述,生成图片。
可选地,所述扩展模块,包括:
参数确定单元,用于通过所述描述扩展模型,确定词表中词语的采样参数,所述采样参数用于表示所述词语被采样为所述第二图片描述中的词语的概率;
采样单元,用于通过所述描述扩展模型,基于所述词表中词语的采样参数,对所述词表进行采样,得到所述第二图片描述。
可选地,所述参数确定单元,用于通过所述描述扩展模型,确定所述词表中词语的相关性参数,所述相关性参数用于表示所述词语与所述第一图片描述的语义相关程度;通过所述描述扩展模型,基于描述对的共现参数以及所述词表中词语的相关性参数,确定所述词表中词语的采样参数,所述描述对包括简约图片描述中的第一词语与对应的规范图片描述对中的第二词语,所述共现参数用于表示在所述简约图片描述包括所述第一词语的情况下,对应的所述规范图片描述包括所述第二词语的概率。
可选地,所述装置还包括:
统计模块,用于对所述多个参考图片的规范图片描述中的词语和简约图片描述中的词语进行统计,得到多个描述对以及所述多个描述对的共现参数。
可选地,所述装置还包括:
筛选模块,用于基于共现参数阈值,对所述多个描述对进行筛选,保留共现参数不小于所述共现参数阈值的描述对。
可选地,所述采样单元,用于通过所述描述扩展模型,基于所述词表中词语的采样参数,采样所述词表中采样参数满足采样条件的多个词语,得到多个第二图片描述,不同第二图片描述包括满足所述采样条件的不同词语;
所述生成模块,用于对于所述多个第二图片描述,分别执行基于所述第二图片描述,生成图片的步骤。
可选地,所述扩展模块,用于通过描述扩展模型,对所述第一图片描述进行词语扩展,得到所述第二图片描述,所述描述扩展模型用于扩展出与输入图片描述语义关联的至少一个词语。
可选地,所述生成模块,包括:
获取单元,用于获取多个随机因子,所述随机因子用于指示待生成图片的初始状态;
生成单元,用于对于所述多个随机因子,分别基于所述随机因子和所述第二图片描述,生成图片。
可选地,所述图片为多个;所述装置还包括:
排序模块,用于基于多个图片的相关性参数和质量参数中的至少一项,对所述多个图片进行排序;
显示模块,用于基于所述多个图片的排列顺序,显示至少一个图片。
可选地,所述显示模块,用于按照所述多个图片的排列顺序,排列显示所述多个图片;或者,
所述显示模块,用于显示排列位次为第一位的图片;或者,
所述显示模块,用于基于所述多个图片的排列顺序,显示位于前目标位次的多个图片。
另一方面,提供了一种用于图片生成的描述扩展模型训练装置,所述装置包括:
获取模块,用于将网络中图片的描述获取为规范图片描述;
提取模块,用于对所述规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述;
训练模块,用于基于所述规范图片描述和所述简约图片描述,训练描述扩展模型,所述描述扩展模型是对用于生成图片的图片描述进行扩展的模型。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如上述方面所述的基于文字生成图片的方法所执行的操作,或者,以实现如上述方面所述的用于图片生成的描述扩展模型训练方法所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如上述方面所述的基于文字生成图片的方法所执行的操作,或者,以实现如上述方面所述的用于图片生成的描述扩展模型训练方法所执行的操作。
另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序由处理器加载并执行,以实现如上述方面所述的基于文字生成图片的方法所执行的操作,或者,以实现如上述方面所述的用于图片生成的描述扩展模型训练方法所执行的操作。
本申请实施例提供了一种基于文字生成图片的方案,先通过描述扩展模型对第一图片描述进行处理,得到第二图片描述,再通过第二图片描述生成图片。由于描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,而规范图片描述包括描述参考图片的主要描述对象的多个词语和用于描述参考图片的次要描述对象的至少一个词语,简约图片描述为规范图片描述中用于描述主要描述对象的关键词,因此,描述扩展模型可以基于描述主要描述对象的关键词扩展出描述该主要描述对象的其他词语,还可以扩展出描述次要描述对象的词语,使得扩展出的图片描述内容丰富,也使得基于扩展出的图片描述所生成的图片内容丰富,提高了图片生成的质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种基于文字生成图片的方法流程图;
图3是本申请实施例提供的一种基于文字生成图片的方法流程图;
图4是本申请实施例提供的一种描述扩展模型的示意图;
图5是本申请实施例提供的一种图片生成模型的示意图;
图6是本申请实施例提供的一种相关度模型的示意图;
图7是本申请实施例提供的一种质量评估模型的示意图;
图8是本申请实施例提供的一种基于文字生成图片的方法流程图;
图9是本申请实施例提供的一种用于图片生成的描述扩展模型训练方法的流程图;
图10是本申请实施例提供的一种基于文字生成图片的装置的结构示意图;
图11是本申请实施例提供的另一种基于文字生成图片的装置的结构示意图;
图12是本申请实施例提供的一种用于图片生成的描述扩展模型训练装置的结构示意图;
图13是本申请实施例提供的一种终端的结构示意图;
图14是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一图片称为第二图片,且类似地,可将第二图片称为第一图片。
其中,至少一个是指一个或者一个以上,例如,至少一个图片可以是一个图片、两个图片、三个图片等任一大于等于一的整数个图片。多个是指两个或者两个以上,例如,多个图片可以是两个图片、三个图片等任一大于等于二的整数个图片。每个是指至少一个中的每一个,例如,每个图片是指多个图片中的每一个图片,若多个图片为3个图片,则每个图片是指3个图片中的每一个图片。
可以理解的是,在本申请的实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例提供的基于文本生成图片的方法可以应用于任一需要生成图片的场景中。
例如,应用于信息发表的场景中:用户在发表评论、社区帖子时,经常需要制作符合自己个性化表达需求的图片,若采用本申请实施例提供的基于文字生成图片的方法,用户只需输入简单的图片描述,甚至只输入一个词语,即可生成内容丰富的图片,提高了生成图片的质量。
又如,应用于绘画创作场景中:由于基于文字生成图片具有随机性和多样性,因此,若采用本申请实施例提供的基于文字生成图片的方法,用户只需输入简单的图片描述,甚至只输入一个词语,即可随机生成相应内容的图片,用户可以从随机生成的图片中寻找创作灵感进行创作。
需要说明的是,本申请实施例仅是以信息发表场景和绘画创作场景为例,对需要生成图片的场景进行示例性说明,并不对需要生成图片的场景进行限定。在另一些实施例中,该需要生成图片的场景还可以是工作辅助场景等。
本申请实施例提供的基于文字生成图片的方法,由终端执行。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表或者手持便携式游戏设备等,但并不局限于此。
本申请实施例提供的用于图片生成的描述扩展模型训练方法,由计算机设备执行。可选地,该计算机设备为终端。该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表或者手持便携式游戏设备等,但并不局限于此。可选地,该计算机设备为服务器。该服务器可以是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图1是本申请实施例提供的一种实施环境的示意图,如图1所示,该实施环境包括终端101和服务器102。终端101与服务器102通过有线或无线通信方式进行直接或间接地连接。其中,图1仅以服务器102与终端101进行连接为例,除此之外,该服务器102可以与其他的终端进行连接。
在一些实施例中,终端101上安装由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用。例如,目标应用为图片生成应用,该图片生成应用具有生成图片的功能,当然,该图片生成应用还能够具有其他功能,例如,分享功能、点评功能等。
在一些实施例中,终端101获取用户输入的图片描述,向服务器102发送该图片描述;服务器102基于该图片描述,生成图片,向终端101发送该图片。终端101接收并展示该图片。在另一些实施例中,终端101获取用户输入的图片描述,基于该图片描述自行生成图片;服务器102用于更新终端101基于图片描述生成图片的流程。
图2是本申请实施例提供的一种基于文字生成图片的方法流程图,本申请实施例以执行主体为终端为例进行示例性说明,参见图2,该方法包括:
201、终端获取第一图片描述,该第一图片描述用于描述待生成图片的图片内容。
图片描述是以文字的形式来描述图片内容。该图片描述可以是任一种语言形式的文字。例如,图片描述是汉字“山”、“小河”、“大海”等。又如,图片描述是英文“mountain(山)”、“girl(小女孩)”等。本申请实施例中,终端可以基于图片描述生成图片,第一图片描述就是用于生成图片的图片描述。
在一些实施例中,第一图片描述是用户输入的。可选地,终端显示有图片生成界面,该图片生成界面是用于基于文字生成图片的界面,该图片生成界面显示有图片描述输入框,获取在图片描述输入框中输入的图片描述,得到第一图片描述。在另一些实施例中,第一图片描述是其他设备发送至终端的,或者,第一图片描述是终端从网络中查找到的,本申请实施例对第一图片描述的获取方式不做限定。
202、终端通过描述扩展模型,对第一图片描述进行处理,得到第二图片描述,描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,用于将简约图片描述扩展为对应的规范图片描述,规范图片描述包括用于描述参考图片的主要描述对象的多个词语和用于描述参考图片的次要描述对象的至少一个词语,简约图片描述为规范图片描述中用于描述主要描述对象的关键词。
由于第一图片描述用于描述待生成图片的图片内容,因此,第一图片描述越简单,基于第一图片描述生成图片的图片内容越不丰富、背景越不美观、图片质量越低;相反,第一图片描述越丰富,基于第一图片描述生成图片的图片内容越丰富、背景越美观、图片质量越高。为了使得基于图片描述生成图片质量较高的图片,本申请实施例在获取第一图片描述之后,会通过描述扩展模型对第一图片描述进行处理,得到内容丰富的第二图片描述,基于第二图片描述生成图片。其中,描述扩展模型可以是任一种自然语言生成模型,本申请实施例对描述扩展模型不做限定。
由于描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,而规范图片描述包括描述参考图片的主要描述对象的多个词语和用于描述参考图片的次要描述对象的至少一个词语,简约图片描述为规范图片描述中用于描述主要描述对象的关键词,因此,描述扩展模型可以基于描述主要描述对象的关键词扩展出描述该主要描述对象的其他词语,还可以扩展出描述次要描述对象的词语,使得扩展出的图片描述内容丰富。换言之,用户只需输入一个词语,描述扩展模型即可扩展出内容丰富的图片描述。
例如,用户输入的第一图片描述为“山”,描述扩展模型不仅可以扩展出描述山的其他词语,如“山谷”、“山脉”、“峡谷”、“险峰”、“丘陵”等词语,由于雪和山,云雾和山经常出现在同一图片中,因此,描述扩展模型还可以扩展出“白雪皑皑”、“云雾”等描述其他次要描述对象的词语。
203、终端基于第二图片描述,生成图片。
例如,用户输入的第一图片描述为“小女孩”,终端基于第一图片描述,可以生成一张小女孩的图片,但是由于第一图片描述仅包括“小女孩”,因此,图片中小女孩的背景是虚化的,也就是说,生成的图片的质量较差。而通过上述步骤202对第一图片描述进行处理,可以得到第二图片描述,如“小女孩,可爱,长发,圆脸,鲜花,奔跑”,基于第二图片描述可以生成一张小女孩在花园中奔跑的图片,该图片背景美观,内容丰富,图片生成质量较高。
本申请实施例提供了一种基于文字生成图片的方案,先通过描述扩展模型对第一图片描述进行处理,得到第二图片描述,再通过第二图片描述生成图片。由于描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,而规范图片描述包括描述参考图片的主要描述对象的多个词语和用于描述参考图片的次要描述对象的至少一个词语,简约图片描述为规范图片描述中用于描述主要描述对象的关键词,因此,描述扩展模型可以基于描述主要描述对象的关键词扩展出描述该主要描述对象的其他词语,还可以扩展出描述次要描述对象的词语,使得扩展出的图片描述内容丰富,也使得基于扩展出的图片描述所生成的图片内容丰富,提高了图片生成的质量。
图3是本申请实施例提供的一种基于文字生成图片的方法流程图,本申请实施例以执行主体为终端为例进行示例性说明,参见图3,该方法包括:
301、终端获取第一图片描述,该第一图片描述用于描述待生成图片的图片内容。
该步骤301与上述步骤302同理,在此不再一一赘述。
302、终端通过描述扩展模型,基于第一图片描述,确定词表中词语的采样参数,该采样参数用于表示词语被采样为第二图片描述中的词语的概率。
词表包括多个词语,词表中的多个词语可以根据经验或者实施场景确定,本申请实施例对词表不做限定。
本申请实施例通过描述扩展模型,基于第一图片描述,在词表进行采样,来得到第二图片描述。词表包括多个词语,终端在词表中进行采样时,可以基于第一图片描述确定词表中多个词语的采样参数,该采样参数表示词语被采样为第二图片描述中的词语的概率,基于词表中多个词语的采样参数,对该词表进行采样,得到第二图片描述。
本申请实施例是基于扩展得到的第二图片描述生成图片,为了保证基于第二图片描述生成的图片符合第一图片描述,需要第二图片描述与第一图片描述语义关联。因此,可以基于词表中词语与第一图片描述的相关性来确定该词语的采样参数,词语与第一图片描述的相关性越高,该词语被采样为第二图片描述中的词语的概率越高。在一种可能的实现方式中,通过描述扩展模型,基于第一图片描述,确定词表中词语的采样参数,包括:确定词表中词语的相关性参数,该相关性参数用于表示词语与第一图片描述的语义相关程度;基于词表中词语的相关性参数,确定词表中词语的采样参数。
其中,终端基于词表中词语的相关性参数,确定词表中词语的采样参数时,可以直接将词语的相关性参数确定为该词语的采样参数,也可以对词语的相关性参数进行运算得到词语的采样参数,还可以基于词语的相关性参数和其他参数,确定词语的采样参数。词语的其他参数可以是共现参数等,本申请实施例对此不做限定。
在另一种可能的实现方式中,为了使扩展出的第二图片描述具有丰富的描述对象,使得生成图片的内容丰富,背景美观,且包括的不同描述对象是可以兼容在同一图片中的,还可以基于多个参考图片的规范图片描述和简约图片描述,增大词表中相应词语的采样参数,使得终端在第一图片描述包括简约图片描述中的某一词语时,扩展出的第二图片描述包括对应的规范图片描述中的词语。可选地,通过描述扩展模型,确定词表中词语的采样参数,包括:通过描述扩展模型,确定词表中词语的相关性参数,该相关性参数用于表示词语与第一图片描述的语义相关程度;通过描述扩展模型,基于描述对的共现参数以及词表中词语的相关性参数,确定词表中词语的采样参数,该描述对包括简约图片描述中的第一词语与对应的规范图片描述对中的第二词语,该共现参数用于表示在该简约图片描述包括第一词语的情况下,对应的规范图片描述包括第二词语的概率。
在一些实施例中,规范图片描述是对简约图片描述进行词语扩展得到的图片描述。可选地,获取用户输入的图片描述作为简约图片描述,由专业人员对该简约图片描述进行词语扩展,得到规范图片描述。
在另一些实施例中,简约图片描述是对规范图片描述进行关键词提取得到的图片描述。可选地,将网络中图片的描述获取为规范图片描述,对该规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述。其中,将网络中图片的描述获取为规范图片描述时,可以从网络中筛选出满足图片质量条件的图片,将满足图片质量条件的图片的描述获取为规范图片描述,间接保证了规范图片描述的质量。或者,还可以为规范图片描述设置筛选条件,将网络中符合描述质量条件的图片描述获取为规范图片描述。当然,在筛选规范图片描述时,可以由技术人员人工筛选,也可以设置一定的筛选条件(如词语数量达到指定数量等),来自动筛选。需要说明的是,本申请实施例对简约图片描述和规范图片描述的获取方式不做限定。
描述对的共现参数用于表示简约图片描述包括第一词语的情况下,对应的规范图片描述包括第二词语的概率。因此,描述对的共现参数可以通过对简约图片描述和规范图片描述进行统计得到。在一些实施例中,该方法还包括:对多个参考图片的规范图片描述中的词语以及简约图片描述中的词语进行统计,得到多个描述对以及多个描述对的共现参数。
可选地,对多个参考图片的规范图片描述中的词语以及简约图片描述中的词语进行统计,得到多个描述对以及多个描述对的共现参数,包括:将第二词语在指定规范图片描述中出现的次数与该指定规范图片描述中词语的总数目之比,确定为描述对的共现参数。其中,指定规范图片描述是包含第一词语的简约图片描述对应的规范图片描述。
例如,简约图片描述1和简约图片描述2中包括第一词语,确定第二词语在规范图片描述1和规范图片描述2中的出现次数,将该出现次数与规范图片描述1和规范图片描述2中词语的总数目之比确定为,第一词语与第二词语这一描述对的共现概率。其中,规范图片描述1是简约图片描述1对应的规范图片描述,规范图片描述2是简约图片描述2对应的规范图片描述。
需要说明的是,如果某一描述对的共现参数较小,那么对词语的采样参数的影响也会较小,为了节约算力,在确定词表中词语的采样参数时,可以不考虑共现参数较小的描述对。可选地,该方法还包括:基于共现参数阈值,对多个描述对进行筛选,保留共现参数不小于该共现参数阈值的描述对。其中,该共现参数阈值可以是任一数值。可选地,该共现参数阈值为经验值,或者,技术人员设置的数值等,本申请实施例对共现参数阈值不做限定。
在一些实施例中,通过描述扩展模型,基于描述对的共现参数以及词表中词语的相关性参数,确定词表中词语的采样参数,包括:通过描述扩展模型,将词语的共现参数与相关性参数之和,确定为该词语的采样参数;或者,将词语的共现参数与相关性参数进行加权求和,得到该词语的采样参数。
例如,第一图片描述中的词语A与词表中词语B的共现参数表示为P_adj[A,B],词语A与词语B的相关性参数表示为softmax[A,B],那么词语B的采样参数表示为softmax[A,B]+a*P_adj[A,B]。其中,a为共现参数的权重。该权重为0至1之间的任一数值,例如,该权重为0.3、0.5等。
需要说明的是,在基于描述对的共现参数以及词表中词语的相关性参数,确定词表中词语的采样参数时,为了避免采样参数所表示的采样概率超过1,在确定采样参数之后,还可以对确定的采样参数进行归一化处理,以使采样参数所表示的采样概率不超过1。
303、终端通过描述扩展模型,基于该词表中词语的采样参数,对词表进行采样,得到第二图片描述。
词语的采样参数用于表示该词语被采样为第二图片描述中的词语的概率。因此,终端基于该词表中词语的采样参数,对词表进行采样,得到第二图片描述,可以包括:终端基于该词表中词语的采样参数,将采样参数最大的词语作为第二图片描述中的词语。
为了保证第二图片描述的丰富性,还可以设置第二图片描述中词语的数量,终端通过描述扩展模型,基于该词表中词语的采样参数,对词表进行采样时,采样相应数量的词语,来得到第二图片描述。在一种可能的实现方式中,终端一次采样多个词语来得到第二图片描述。终端通过描述扩展模型,基于该词表中词语的采样参数,对词表进行采样,得到第二图片描述,包括:终端通过描述扩展模型,基于该词表中词语的采样参数,将采样参数最大的目标数量个词语作为第二图片描述中的词语。该目标数量为第二图片描述中词语的数量。
在另一种可能的实现方式中,终端通过描述扩展模型,每次采样一个词语,通过多次采样来得到第二图片描述。终端通过描述扩展模型,基于该词表中词语的采样参数,对词表进行采样,得到第二图片描述,包括:终端通过描述扩展模型,基于该词表中词语的采样参数,将采样参数最大的词语作为第二图片描述中的词语;终端通过描述扩展模型,基于第一图片描述和已采样的词语,重新确定词表中除已采样词语的其他词语的采样参数,将采样参数最大的词语作为第二图片描述中词语,终端重复执行通过描述扩展模型,基于第一图片描述和已采样的词语,重新确定词表中除已采样词语的其他词语的采样参数,将采样参数最大的词语作为第二图片描述中词语的步骤,直至第二图片描述中的词语的数量达到目标数量。
需要说明的是,本申请实施例仅是以生成一个第二图片描述为例,对生成第二图片描述的过程进行示例性说明,而在另一实施例中,终端还可以生成多个第二图片描述,针对每个第二图片描述,生成相应的图片。
接下来,本申请实施例对“通过描述扩展模型,对第一图片描述进行处理,得到多个第二图片描述”进行示例性说明:
在一种可能的实现方式中,可以设置一个采样条件,使得词表中满足采样条件的词语为多个。每次采样时,采样满足该采样条件的多个词语,并且,每次采样时,将采样到的多个词语,分别作为不同第二图片描述中的词语,以得到多个不同的第二图片描述。终端通过描述扩展模型,基于词表中词语的采样参数,对词表进行采样,得到第二图片描述,包括:通过描述扩展模型,基于词表中词语的采样参数,采样词表中采样参数满足采样条件的多个词语,得到多个第二图片描述,不同第二图片描述包括满足该采样条件的不同词语。
其中,采样条件可以是采样参数不小于采样参数阈值,也可以是采样参数为词表中多个词语的采样参数中最大的P个采样参数之一。本申请实施例对采样条件不做限定。
例如,终端通过TOP P采样方式,对词表进行采样,得到第二图片。其中,TOP P采样方式是指:从词表中采样P个采样参数最大的词语。其中,P为大于1的任一数值。
描述扩展模型可以是任一种自然语言生成模型,本申请实施例对描述扩展模型不做限定。仅以图4所示的模型结构为例对描述扩展模型进行示例性说明。如图4所示,描述扩展模型包括编码层和解码层,通过编码层对第一图片描述进行编码,以得到第一图片描述的特征;再通过解码层对第一图片描述的特征进行解码,得到至少一个第二图片描述;在解码时,可以参考图片描述的相关性词袋,该相关性词袋包括多个描述对的共现参数。
304、终端获取多个随机因子,对于该多个随机因子,分别基于该随机因子和第二图片描述,生成图片。
本申请实施例中,随机因子用于指示待生成图片的初始状态,通过获取多个随机因子,并基于每个随机因子和第二图片描述,生成图片,可以得到多个不同的图片,使得基于第二图片描述生成的图片具有多样性。
随机因子可以是任一数值,例如,1、2、10、50、100等,本申请实施例对随机因子不做限定。终端可以从目标数值区间中随机选取一个数值,作为随机因此,该目标数值区间可以是任一数值区间,本申请实施例对目标数值区间不做限定。
在一些实施例中,多个随机因子还可以是预先设置的,本申请实施例对随机因子的获取方式不做限定。
在一种可能的实现方式中,上述步骤304可以通过图片生成模型来实现。该图片生成模型可以是扩散模型,例如,stable diffusion(可学习扩散)1.4模型等。
例如,该图片生成模型如图5所示,将随机因子x和图片描述输入到图片生成模型中,图片生成模型将随机因子编码到潜在表示空间得到潜在特征z,再对潜在特征z进行前向扩散,得到噪声特征zT。图片生成模型通过跨注意力层对图片描述和zT进行处理,得到zT-1,使得zT-1中融入了图片描述的信息,再对zT-1进行去噪,得到特征z,对特征z进行解码,得到图片。
需要说明的是,本申请实施例仅是以基于一个第二图片描述,生成多个图片为例,对图片的生成过程进行示例性说明。而在另一实施例中,还可以基于一个第二图片描述,生成一个图片,本申请实施例对图片生成过程不做限定。
305、终端基于多个图片的相关性参数和质量参数中的至少一项,对多个图片进行排序。
其中,图片的相关性参数是指:该图片与第一图片描述的相关程度。本申请实施例中,虽然是基于第二图片描述来生成图片,但是生成的图片显然是需要符合第一图片描述的意图的。因此,终端基于多个图片的相关性参数对该多个图片进行排序,从而将与第一图片描述更相关的图片排在前面。以第一图片描述是用户输入的图片描述为例,通过基于多个图片的相关性参数,对该多个图片进行排序,可以将更加符合用户意图的图片排在前面,以供用户进行挑选。
需要说明的是,本申请实施例对终端确定多个图片的相关性参数的方式不做限定。在一种可能的实现方式中,终端基于第一图片描述所描述对象在图片中的占比,来确定第一图片描述与该图片的相关性参数。在另一种可能的实现方式中,终端通过相关度模型对第一图片描述和图片进行处理,得到该图片的相关性参数。
其中,该相关度模型是用于确定输入的两个信息之间的相关度的模型,本申请实施例对相关度模型的模型结构不做限定。该相关度模型可以是基于第一样本信息、第二样本信息以及样本相关度训练出的模型,该样本相关度是指第一样本信息和第二样本信息之间的相关度。
例如,该相关度模型如图6所示,先对图片进行切分,将图片切分成6*6=36个小块,然后通过全连接网络构建每个小块的embedding(嵌入向量)表示,将每个小块的embedding表示输入到多头自注意力层中进行自注意力处理,再将自注意力处理后的特征输入到全连接层中进行深度特征提取。将第一图片描述进行分词,并获取每个分词结果的词向量,将多个词向量输入到多头自注意力层中进行自注意力处理,再将自注意力处理后的特征输入到全连接层中进行深度特征提取。之后,将深度特征提取得到的图片特征和图片描述特征输入到多头自注意力层中,获取图片描述特征的查询特征、图片特征的键特征和值特征,基于图片描述特征的查询特征和键特征,确定值特征的权重,基于值特征的权重,对值特征进行加权处理,得到自注意力处理后的特征,将该特征输入到全连接层进行深度特征提取,再进行相关度预测,得到图片与第一图片描述的相关性参数。
由于图片生成模型在基于第二图片描述生成图片时,会引入随机因子,从而使得生成的图片具有多样性,为了避免生成图片的质量较差,本申请实施例还可以基于多个图片的质量参数,对该多个图片进行排序,以使质量较高的图片排在前面,以供用户进行挑选。
需要说明的是,本申请实施例对终端确定多个图片的质量参数的方式不做限定。在一种可能的实现方式中,终端基于图片的清晰度、亮度和色调等中的至少一项,确定图片的质量参数。在另一种可能的实现方式中,终端通过质量评估模型对图片进行处理,得到该图片的质量参数。
其中,该质量评估模型是用于评估图片质量的模型,本申请实施例对质量评估模型的模型结构不做限定。该质量评估模型可以是基于样本图片和样本质量参数训练出的模型,该样本质量参数是样本图片的质量参数。
本申请实施例以图7所示的质量评估模型为例,对通过质量评估模型对图片进行处理的过程进行示例性说明。如图7所示,先对图片进行切分,将图片切分成6*6=36个小块,然后通过全连接网络构建每个小块的embedding表示,将每个小块的embedding表示输入到多头自注意力层中进行自注意力处理,再将自注意力处理后的特征输入到全连接层中进行深度特征提取,之后将得到的特征输入到质量评估层,得到质量分。
在一些实施例中,终端基于多个图片的相关性参数和质量参数中的至少一项,对多个图片进行排序,包括:终端基于多个图片的相关性参数和质量参数,确定多个图片的综合评估参数;基于多个图片的综合评估参数,对该多个图片进行排序。
可选地,终端基于多个图片的相关性参数和质量参数,确定多个图片的综合评估参数,包括:终端将图片的相关性参数和质量参数之和,确定为该图片的综合评估参数;或者,终端对图片的相关性参数和质量参数进行加权求和,得到该图片的综合评估参数。其中,相关性参数和质量参数的权重可以相同,也可以不同,本申请实施例对此不做限定。在一些实施例中,相关性参数的权重为0.7,质量参数的权重为0.3。
306、终端基于该多个图片的排列顺序,显示至少一个图片。
终端确定多个图片的排列顺序之后,可以基于多个图片的排列顺序,选择一个或多个图片进行显示,以供用户进行选择。
在一些实施例中,终端将生成的多个图片均显示出来。可选地,终端基于该多个图片的排列顺序,显示至少一个图片,包括:按照该多个图片的排列顺序,排列显示该多个图片。
在一些实施例中,终端只显示一个图片。可选地,终端基于该多个图片的排列顺序,显示至少一个图片,包括:显示排列位次为第一位的图片。
在一些实施例中,终端显示一定数量的图片。可选地,终端基于该多个图片的排列顺序,显示至少一个图片,包括:基于该多个图片的排列顺序,显示位于前目标位次的多个图片。该目标位次可以是任一位次,本申请实施例对目标位次不做限定。
需要说明的是,上述步骤305和上述步骤306为可选方案,也就是说,上述步骤305和上述步骤306可以执行,也可以不执行,是否执行上述步骤305和步骤306可以由实际应用需求确定。
本申请实施例提供了一种基于文字生成图片的方案,先通过描述扩展模型对第一图片描述进行处理,得到第二图片描述,再通过第二图片描述生成图片。由于描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,而规范图片描述包括描述参考图片的主要描述对象的多个词语和用于描述参考图片的次要描述对象的至少一个词语,简约图片描述为规范图片描述中用于描述主要描述对象的关键词,因此,描述扩展模型可以基于描述主要描述对象的关键词扩展出描述该主要描述对象的其他词语,还可以扩展出描述次要描述对象的词语,使得扩展出的图片描述内容丰富,也使得基于扩展出的图片描述所生成的图片内容丰富,提高了图片生成的质量。
并且,本申请实施例通过对词表采样来得到第二图片描述时,引入了描述对的共现参数,不仅可以采样到相关程度较高的词语,还可以采样到共现概率较高的词语,使得采样到的词语更加丰富,从而使得生成的第二图片描述的内容也更加丰富,进而使得基于第二图片描述所生成图片的图片质量也越高。
并且,本申请实施例可以生成多个图片,并基于图片与第一图片描述的相关性和图片质量,对多个图片进行排序,使得与第一图片描述相关且图片质量高的图片被排在前面,提高了用户选择图片的体验。
本申请实施例以图8为例,对基于文字生成图片的过程进行示例性说明。如图8所示,首先获取用户输入的第一图片描述,通过描述扩展模型,对第一图片描述进行处理,得到多个第二图片描述。将多个第二图片描述,分别输入到图片生成模型中,通过图片生成模型为每个第二图片描述生成至少一个图片;再将每个图片输入到相关度模型和质量评估模型中,确定每个图片的相关性参数和质量参数;基于每个图片的相关性参数和质量参数,对多个图片进行排序。
图9是本申请实施例提供的一种用于图片生成的描述扩展模型训练方法的流程图,本申请实施例以执行主体为计算机设备为例进行示例性说明,参见图9,该方法包括:
901、计算机设备将网络中图片的描述获取为规范图片描述。
网络中的图片可以是在互联网中传播的任一图片。例如,该图片是视频网站上的图片,也可以是任一已有数据库中的图片,本申请实施例对网络中的图片不做限定。需要说明的是,互联网中传播的图片大多设置有图片标签,该图片标签是用于描述该图片的标签,可以看做是图片的描述。需要说明的另一点是,计算机设备从网络中获取的图片可以是图3所示的实施例中的参考图片。
可选地,计算机设备从网络中随机获取图片,将该图片的描述作为规范图片描述。可选地,计算机设备从网络中获取满足图片质量条件的图片,将该图片的描述作为规范图片描述。可选地,计算机设备从网络中获取描述超过目标字数的图片,将该图片的描述作为规范图片描述。本申请实施例对获取规范图片描述的方式不做限定。
902、计算机设备对规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述。
计算机设备可以采用任一种关键词提取方式对规范图片描述进行关键词提取,本申请实施例对关键词提取方式不做限定,仅以以下实施例对关键词提取过程进行示例性说明。
在一些实施例中,计算机设备对规范图片描述进行分词,基于每个分词结果的语义和规范图片描述的语义,确定每个分词结果在规范图片描述中的语义权重,将语义权重最高的分词结果,作为简约图片描述。
需要说明的是,为了保证规范图片描述和简约图片描述的准确性,在得到规范图片描述和简约图片描述之后,还可以人工对规范图片描述和简约图片描述进行校验或筛选。
903、计算机设备基于规范图片描述和简约图片描述,训练描述扩展模型,该描述扩展模型是对用于生成图片的图片描述进行扩展的模型。
计算机设备可以将简约图片描述输入到描述扩展模型,描述扩展模型按照上述步骤302至步骤303所示的方法对简约图片描述进行词语扩展,得到预测图片描述;基于预测图片描述和规范图片描述之间的差异,训练描述扩展模型,以使描述扩展模型的误差收敛。
需要说明的是,本申请实施例可以通过描述扩展模型、图片生成模型、相关度模型和质量评估模型中的至少一个模型来实现。因此,上述至少一个模型可以一起训练。例如,从网络中获取图片作为样本图片,将该图片的描述作为规范图片描述,将对规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述,并为该样本图片标注相关性参数和质量参数。
在训练模型时,可以打乱一些样本图片与规范图片描述、相关性参数和质量参数的对应关系,以形成负样本,提高模型的训练效果。
本申请实施例提供的用于图片生成的描述扩展模型训练方法,可以从网络中自动获取规范图片描述,并基于规范图片描述自动生成简约图片描述,降低了获取样本集的难度,也降低了人力成本和物力成本。
图10是本申请实施例提供的一种基于文字生成图片的装置的结构示意图。参见图10,该装置包括:
获取模块1001,用于获取第一图片描述,第一图片描述用于描述待生成图片的图片内容;
扩展模块1002,用于通过描述扩展模型,对所述第一图片描述进行处理,得到第二图片描述,所述描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,用于将所述简约图片描述扩展为对应的所述规范图片描述,所述规范图片描述包括用于描述所述参考图片的主要描述对象的多个词语和用于描述所述参考图片的次要描述对象的至少一个词语,所述简约图片描述为所述规范图片描述中用于描述所述主要描述对象的关键词;
生成模块1003,用于基于第二图片描述,生成图片。
本申请实施例提供了一种基于文字生成图片的方案,先通过描述扩展模型对第一图片描述进行处理,得到第二图片描述,再通过第二图片描述生成图片。由于描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,而规范图片描述包括描述参考图片的主要描述对象的多个词语和用于描述参考图片的次要描述对象的至少一个词语,简约图片描述为规范图片描述中用于描述主要描述对象的关键词,因此,描述扩展模型可以基于描述主要描述对象的关键词扩展出描述该主要描述对象的其他词语,还可以扩展出描述次要描述对象的词语,使得扩展出的图片描述内容丰富,也使得基于扩展出的图片描述所生成的图片内容丰富,提高了图片生成的质量。
如图11所示,可选地,扩展模块1002,包括:
参数确定单元1012,用于通过所述描述扩展模型,确定词表中词语的采样参数,采样参数用于表示词语被采样为第二图片描述中的词语的概率;
采样单元1022,用于通过所述描述扩展模型,基于词表中词语的采样参数,对词表进行采样,得到第二图片描述。
可选地,参数确定单元1012,用于通过所述描述扩展模型,确定词表中词语的相关性参数,相关性参数用于表示词语与第一图片描述的语义相关程度;通过所述描述扩展模型,基于描述对的共现参数以及所述词表中词语的相关性参数,确定所述词表中词语的采样参数,所述描述对包括简约图片描述中的第一词语与对应的规范图片描述对中的第二词语,所述共现参数用于表示在所述简约图片描述包括所述第一词语的情况下,对应的所述规范图片描述包括所述第二词语的概率。
可选地,该装置还包括:
统计模块1004,用于对所述多个参考图片的规范图片描述中的词语和简约图片描述中的词语进行统计,得到多个描述对以及所述多个描述对的共现参数。
可选地,该装置还包括:
筛选模块1005,用于基于共现参数阈值,对多个描述对进行筛选,保留共现参数不小于共现参数阈值的描述对。
可选地,采样单元1022,用于通过所述描述扩展模型,基于词表中词语的采样参数,采样词表中采样参数满足采样条件的多个词语,得到多个第二图片描述,不同第二图片描述包括满足采样条件的不同词语;
生成模块1003,用于对于多个第二图片描述,分别执行基于第二图片描述,生成图片的步骤。
可选地,扩展模块1002,用于通过描述扩展模型,对第一图片描述进行词语扩展,得到第二图片描述,描述扩展模型用于扩展出与输入图片描述语义关联的至少一个词语。
可选地,生成模块1003,包括:
获取单元1013,用于获取多个随机因子,随机因子用于指示待生成图片的初始状态;
生成单元1023,用于对于多个随机因子,分别基于随机因子和第二图片描述,生成图片。
可选地,图片为多个;装置还包括:
排序模块1006,用于基于多个图片的相关性参数和质量参数中的至少一项,对多个图片进行排序;
显示模块1007,用于基于多个图片的排列顺序,显示至少一个图片。
可选地,显示模块1007,用于按照多个图片的排列顺序,排列显示多个图片;或者,
显示模块1007,用于显示排列位次为第一位的图片;或者,
显示模块1007,用于基于多个图片的排列顺序,显示位于前目标位次的多个图片。
需要说明的是:上述实施例提供的基于文字生成图片的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于文字生成图片的装置与基于文字生成图片的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12是本申请实施例提供的一种用于图片生成的描述扩展模型训练装置的结构示意图。参见图12,该装置包括:
获取模块1201,用于将网络中图片的描述获取为规范图片描述;
提取模块1202,用于对所述规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述;
训练模块1203,用于基于所述规范图片描述和所述简约图片描述,训练描述扩展模型,所述描述扩展模型是对用于生成图片的图片描述进行扩展的模型。
本申请实施例提供的用于图片生成的描述扩展模型训练方案,可以从网络中自动获取规范图片描述,并基于规范图片描述自动生成简约图片描述,降低了获取样本集的难度,也降低了人力成本和物力成本。
在一些实施例中,计算机设备被提供为终端。该终端包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的基于文字生成图片的方法中所执行的操作,或者,实现上述实施例的用于图片生成的描述扩展模型训练方法中所执行的操作。
图13示出了本申请一个示例性实施例提供的终端1300的结构示意图。
终端1300包括有:处理器1301和存储器1302。
处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以集成有GPU(Graphics Processing Unit,图像处理的交互器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一条计算机程序,该至少一条计算机程序用于被处理器1301所具有以实现本申请中方法实施例提供的基于文字生成图片的方法或者用于图片生成的描述扩展模型训练方法。
在一些实施例中,终端1300还可选包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。可选地,外围设备包括:射频电路1304、显示屏1305、摄像头组件1306、音频电路1307和电源1308中的至少一种。
外围设备接口1303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中,处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上;在一些其他实施例中,处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时,显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时,显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1305可以为一个,设置在终端1300的前面板;在另一些实施例中,显示屏1305可以为至少两个,分别设置在终端1300的不同表面或呈折叠设计;在另一些实施例中,显示屏1305可以是柔性显示屏,设置在终端1300的弯曲表面上或折叠面上。甚至,显示屏1305还可以设置成非矩形的不规则图形,也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件1306用于采集图像或视频。可选地,摄像头组件1306包括前置摄像头和后置摄像头。前置摄像头设置在终端1300的前面板,后置摄像头设置在终端1300的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理,或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1307还可以包括耳机插孔。
电源1308用于为终端1300中的各个组件进行供电。电源1308可以是交流电、直流电、一次性电池或可充电电池。当电源1308包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1300还包括有一个或多个传感器1309。该一个或多个传感器1309包括但不限于:加速度传感器1310、陀螺仪传感器1311、压力传感器1312、光学传感器1313以及接近传感器1314。
加速度传感器1310可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1310可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1310采集的重力加速度信号,控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1310还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1311可以检测终端1300的机体方向及转动角度,陀螺仪传感器1311可以与加速度传感器1310协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1311采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1312可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1312设置在终端1300的侧边框时,可以检测用户对终端1300的握持信号,由处理器1301根据压力传感器1312采集的握持信号进行左右手识别或快捷操作。当压力传感器1312设置在显示屏1305的下层时,由处理器1301根据用户对显示屏1305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1313用于采集环境光强度。在一个实施例中,处理器1301可以根据光学传感器1313采集的环境光强度,控制显示屏1305的显示亮度。可选地,当环境光强度较高时,调高显示屏1305的显示亮度;当环境光强度较低时,调低显示屏1305的显示亮度。在另一个实施例中,处理器1301还可以根据光学传感器1313采集的环境光强度,动态调整摄像头组件1306的拍摄参数。
接近传感器1314,也称距离传感器,设置在终端1300的前面板。接近传感器1314用于采集用户与终端1300的正面之间的距离。在一个实施例中,当接近传感器1314检测到用户与终端1300的正面之间的距离逐渐变小时,由处理器1301控制显示屏1305从亮屏状态切换为息屏状态;当接近传感器1314检测到用户与终端1300的正面之间的距离逐渐变大时,由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图13中示出的结构并不构成对终端1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,计算机设备被提供为服务器。该服务器包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的基于文字生成图片的方法中所执行的操作,或者,实现上述实施例的用于图片生成的描述扩展模型训练方法中所执行的操作。
图14是本申请实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)1401和一个或一个以上的存储器1402,其中,该存储器1402中存储有至少一条程序代码,该至少一条程序代码由该处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
该服务器1400用于执行上述方法实施例中服务器所执行的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的基于文字生成图片的方法中所执行的操作,或者,实现上述实施例的用于图片生成的描述扩展模型训练方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序由处理器加载并执行,以实现如上述实施例的基于文字生成图片的方法中所执行的操作,或者,实现上述实施例的用于图片生成的描述扩展模型训练方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种基于文字生成图片的方法,其特征在于,所述方法包括:
获取第一图片描述,所述第一图片描述用于描述待生成图片的图片内容;
通过描述扩展模型,对所述第一图片描述进行处理,得到第二图片描述,所述描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,用于将所述简约图片描述扩展为对应的所述规范图片描述,所述规范图片描述包括用于描述所述参考图片的主要描述对象的多个词语和用于描述所述参考图片的次要描述对象的至少一个词语,所述简约图片描述为所述规范图片描述中用于描述所述主要描述对象的关键词;
基于所述第二图片描述,生成图片。
2.根据权利要求1所述的方法,其特征在于,所述通过描述扩展模型,对所述第一图片描述进行处理,得到第二图片描述,包括:
通过所述描述扩展模型,确定词表中词语的采样参数,所述采样参数用于表示所述词语被采样为所述第二图片描述中的词语的概率;
通过所述描述扩展模型,基于所述词表中词语的采样参数,对所述词表进行采样,得到所述第二图片描述。
3.根据权利要求2所述的方法,其特征在于,所述通过所述描述扩展模型,确定所述词表中词语的采样参数,包括:
通过所述描述扩展模型,确定所述词表中词语的相关性参数,所述相关性参数用于表示所述词语与所述第一图片描述的语义相关程度;
通过所述描述扩展模型,基于描述对的共现参数以及所述词表中词语的相关性参数,确定所述词表中词语的采样参数,所述描述对包括简约图片描述中的第一词语与对应的规范图片描述对中的第二词语,所述共现参数用于表示在所述简约图片描述包括所述第一词语的情况下,对应的所述规范图片描述包括所述第二词语的概率。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述多个参考图片的规范图片描述中的词语和简约图片描述中的词语进行统计,得到多个描述对以及所述多个描述对的共现参数。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于共现参数阈值,对所述多个描述对进行筛选,保留共现参数不小于所述共现参数阈值的描述对。
6.根据权利要求2所述的方法,其特征在于,所述通过所述描述扩展模型,基于所述词表中词语的采样参数,对所述词表进行采样,得到所述第二图片描述,包括:
通过所述描述扩展模型,基于所述词表中词语的采样参数,采样所述词表中采样参数满足采样条件的多个词语,得到多个第二图片描述,不同第二图片描述包括满足所述采样条件的不同词语;
所述方法还包括:
对于所述多个第二图片描述,分别执行基于所述第二图片描述,生成图片的步骤。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第二图片描述,生成图片,包括:
获取多个随机因子,所述随机因子用于指示待生成图片的初始状态;
对于所述多个随机因子,分别基于所述随机因子和所述第二图片描述,生成图片。
8.根据权利要求1所述的方法,其特征在于,所述图片为多个;所述方法还包括:
基于多个图片的相关性参数和质量参数中的至少一项,对所述多个图片进行排序,所述图片的相关性参数用于表示所述图片与所述第一图片描述的相关程度;
基于所述多个图片的排列顺序,显示至少一个图片。
9.根据权利要求8所述的方法,其特征在于,所述基于所述多个图片的排列顺序,显示至少一个图片,包括:
按照所述多个图片的排列顺序,排列显示所述多个图片;或者,
显示排列位次为第一位的图片;或者,
基于所述多个图片的排列顺序,显示位于前目标位次的多个图片。
10.一种用于图片生成的描述扩展模型训练方法,其特征在于,所述方法包括:
将网络中图片的描述获取为规范图片描述;
对所述规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述;
基于所述规范图片描述和所述简约图片描述,训练描述扩展模型,所述描述扩展模型是对用于生成图片的图片描述进行扩展的模型。
11.一种基于文字生成图片的装置,其特征在于,所述装置包括:
获取模块,用于获取第一图片描述,所述第一图片描述用于描述待生成图片的图片内容;
扩展模块,用于通过描述扩展模型,对所述第一图片描述进行处理,得到第二图片描述,所述描述扩展模型是基于多个参考图片的规范图片描述和简约图片描述训练得到的,用于将所述简约图片描述扩展为对应的所述规范图片描述,所述规范图片描述包括用于描述所述参考图片的主要描述对象的多个词语和用于描述所述参考图片的次要描述对象的至少一个词语,所述简约图片描述为所述规范图片描述中用于描述所述主要描述对象的关键词;
生成模块,用于基于所述第二图片描述,生成图片。
12.一种用于图片生成的描述扩展模型训练装置,其特征在于,所述装置包括:
获取模块,用于将网络中图片的描述获取为规范图片描述;
提取模块,用于对所述规范图片描述进行关键词提取,将提取到的关键词作为简约图片描述;
训练模块,用于基于所述规范图片描述和所述简约图片描述,训练描述扩展模型,所述描述扩展模型是对用于生成图片的图片描述进行扩展的模型。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至9任一项所述的基于文字生成图片的方法所执行的操作,或者,以实现如权利要求10所述的用于图片生成的描述扩展模型训练方法所执行的操作。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至9任一项所述的基于文字生成图片的方法所执行的操作,或者,以实现如权利要求10所述的用于图片生成的描述扩展模型训练方法所执行的操作。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序由处理器加载并执行,以实现如权利要求1至9任一项所述的基于文字生成图片的方法所执行的操作,或者,以实现如权利要求10所述的用于图片生成的描述扩展模型训练方法所执行的操作。
CN202310240545.9A 2023-03-03 2023-03-03 基于文字生成图片的方法、装置、设备及存储介质 Pending CN116955677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310240545.9A CN116955677A (zh) 2023-03-03 2023-03-03 基于文字生成图片的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310240545.9A CN116955677A (zh) 2023-03-03 2023-03-03 基于文字生成图片的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116955677A true CN116955677A (zh) 2023-10-27

Family

ID=88448062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310240545.9A Pending CN116955677A (zh) 2023-03-03 2023-03-03 基于文字生成图片的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116955677A (zh)

Similar Documents

Publication Publication Date Title
CN109299315B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
CN110020140B (zh) 推荐内容显示方法、装置及系统
CN110110145B (zh) 描述文本生成方法及装置
CN109918669B (zh) 实体确定方法、装置及存储介质
CN111506758B (zh) 物品名称确定方法、装置、计算机设备及存储介质
CN113010740B (zh) 词权重的生成方法、装置、设备及介质
CN108628985B (zh) 一种相册的处理方法及移动终端
CN110147533B (zh) 编码方法、装置、设备及存储介质
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN111491123A (zh) 视频背景处理方法、装置及电子设备
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN114333774A (zh) 语音识别方法、装置、计算机设备及存储介质
CN112764600B (zh) 资源处理方法、装置、存储介质及计算机设备
CN110852093B (zh) 诗词生成方法、装置、计算机设备及存储介质
CN114415907B (zh) 媒体资源显示方法、装置、设备及存储介质
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN111125424B (zh) 提取歌曲核心歌词的方法、装置、设备及存储介质
CN116955677A (zh) 基于文字生成图片的方法、装置、设备及存储介质
CN112311652B (zh) 消息发送方法、装置、终端及存储介质
CN112256976A (zh) 一种匹配方法和相关装置
CN111858983A (zh) 图片类别的确定方法、装置、电子设备及存储介质
CN116431838B (zh) 文献检索方法、装置、系统及存储介质
CN111259161B (zh) 本体建立方法、装置及存储介质
CN117392254A (zh) 图像生成方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40099458

Country of ref document: HK