CN114529635A - 一种图像生成方法、装置、存储介质及设备 - Google Patents
一种图像生成方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN114529635A CN114529635A CN202210138243.6A CN202210138243A CN114529635A CN 114529635 A CN114529635 A CN 114529635A CN 202210138243 A CN202210138243 A CN 202210138243A CN 114529635 A CN114529635 A CN 114529635A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- region
- target
- authored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 230000004044 response Effects 0.000 claims abstract description 72
- 230000000007 visual effect Effects 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 24
- 238000005516 engineering process Methods 0.000 abstract description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000008451 emotion Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 235000001715 Lentinula edodes Nutrition 0.000 description 1
- 240000000599 Lentinula edodes Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例公开了一种图像生成方法、装置、存储介质及设备,本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等场景。方法包括:获取文本集合和目标图像;目标图像包括主体对象;响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本;获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域,将目标文本添加至目标图像中的创作文本区域中,得到创作图像。通过本申请,可以提高创作图像的生成效率,且丰富创作图像的显示效果。
Description
技术领域
本申请涉及一种图像处理技术领域,尤其涉及一种图像生成方法、装置、存储介质及设备。
背景技术
随着计算机技术的迅速发展,人们的沟通方式越来越多样化,除了可以打电话、发短信之外,还可以通过各种聊天工具实现沟通交流,比如可以通过即时通信应用程序实现语音、文字的沟通。同时,为了增加聊天的趣味性,可以采用时下流行的明星、语录、动漫、影视截图为素材,配上一系列相匹配的文字,进而生成创作图像,用以表达特定的情感,创作图像能够大大增加用户之间信息交互的灵活性和趣味性。
目前,用户使用的创作图像大都是通过人工采用绘图工具、动画工具等设计和绘制而成,制作过程复杂,且受人为主观因素的影响,导致创作图像的制作效率较低,且显示效果较差。
发明内容
本申请实施例所要解决的技术问题在于,提供一种图像生成方法、装置、存储介质及设备,可以提高创作图像的生成效率,且丰富创作图像的显示效果。
本申请实施例一方面提供一种图像生成方法,包括:
获取文本集合和目标图像;目标图像包括主体对象;
响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本;
获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域;非视觉显著区域为目标图像中不包括主体对象的关键部位的区域;
将目标文本添加至目标图像中的创作文本区域中,得到创作图像。
本申请实施例一方面提供一种图像生成方法,包括:
获取文本集合和目标图像;目标图像包括主体对象;
响应于针对文本集合和目标图像的创作生成操作,输出创作图像;创作图像是基于目标图像和目标文本所生成的;目标文本突出显示在创作图像中的创作文本区域;创作文本区域中的目标文本与主体对象的关键部位互不遮挡;目标文本属于文本集合。
本申请实施例一方面提供一种图像生成装置,包括:
第一获取模块,用于获取文本集合和目标图像;目标图像包括主体对象;
第一确定模块,用于响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本;
第二确定模块,用于获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域;非视觉显著区域为目标图像中不包括主体对象的关键部位的区域;
添加模块,用于将目标文本添加至目标图像中的创作文本区域中,得到创作图像。
其中,文本集合包括N个文本,N个文本包括目标文本;N为正整数;第一确定模块包括:
第一语义识别单元,用于调用文本语义识别模型,分别对N个文本进行语义识别,得到每个文本对应的文本语义;
第二语义识别单元,用于调用图像语义识别模型,对目标图像进行语义识别,得到目标图像对应的图像语义;
第一确定单元,用于确定每个文本对应的文本语义分别与图像语义之间的图文匹配度;
第二确定单元,用于将文本集合中,具有最大图文匹配度的文本,确定为与目标图像相匹配的目标文本。
其中,第一语义识别单元具体用于:
调用文本语义识别模型中的嵌入层,分别对N个文本进行嵌入向量转换,得到每个文本对应的文本嵌入向量;
调用文本语义识别模型中的自注意力特征提取层,基于每个文本的上下文信息和文本嵌入向量,对每个文本进行自注意力特征提取,得到每个文本对应的自注意力特征向量;
调用文本语义识别模型中的语义分类层,对每个文本对应的自注意力特征向量进行语义分类,得到每个文本对应的文本语义。
第一确定模块还包括:
第一迭代训练单元,用于获取通用文本样本,采用通用文本样本对初始文本语义识别模型进行迭代训练,得到第一候选文本语义识别模型;
第二迭代训练单元,用于获取用于表征对象意图的意图文本样本,采用意图文本样本对第一候选文本语义识别模型进行迭代训练,得到第二候选文本语义识别模型;
第三迭代训练单元,用于获取创作图像样本,从创作图像样本中获取创作文本样本,采用创作文本样本对第二候选文本语义识别模型进行迭代训练,得到文本语义识别模型。
其中,第二确定模块包括:
区域分割单元,用于调用显著区域预测模型,通过显著区域预测模型中的区域分割层,对目标图像进行区域分割,得到M个候选区域;M为正整数;
特征提取单元,用于通过显著区域预测模型中的特征提取层,分别对M个候选区域进行特征提取,得到每个候选区域中的主体对象的对象信息;
分类处理单元,用于通过显著区域预测模型中的分类层,对M个候选区域进行分类处理,得到M个候选区域分别对应的区域内容类型;
第三确定单元,用于根据对象信息和区域内容类型,从M个候选区域中确定目标图像中的视觉显著区域;视觉显著区域为主体对象的关键部位所在区域;
第四确定单元,用于将目标图像中除视觉显著区域之外的区域,确定为目标图像中的非视觉显著区域。
其中,第三确定单元具体用于:
通过显著区域预测模型中的级联层,对每个候选区域的对象信息和区域内容类型进行合并处理,得到每个候选区域的合并区域特征;
根据每个候选区域的合并区域特征,对每个候选区域进行影响度预测,得到每个候选区域的区域影响度;
将M个候选区域中,区域影响度大于或者等于目标阈值的候选区域,确定为目标图像中的视觉显著区域。
其中,添加模块包括:
第一获取单元,用于获取目标文本的文本尺寸信息;
第五确定单元,用于根据文本尺寸信息以及非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域。
其中,第五确定单元具体用于:
对目标图像中非视觉显著区域进行区域划分,得到Q个候选创作文本区域;Q为正整数;
获取每个候选创作文本区域分别对应的区域尺寸信息;
分别获取文本尺寸信息,与每个候选创作文本区域对应的区域尺寸信息之间的尺寸匹配度;
根据尺寸匹配度,在Q个候选创作文本区域中选择L个尺寸匹配创作文本区域;L为小于或等于Q的正整数;
在L个尺寸匹配创作文本区域中确定目标图像中的创作文本区域。
其中,第五确定单元还具体用于:
若L为1,则将尺寸匹配创作文本区域确定为目标图像中的创作文本区域;尺寸匹配创作文本区域具有最大尺寸匹配度;
若L大于1,则获取L个尺寸匹配创作文本区域分别在目标图像中的区域显示位置,根据区域显示位置确定每个尺寸匹配创作文本区域对应的区域显著度;
将L个尺寸匹配创作文本区域中,具有最大区域显著度的尺寸匹配创作文本区域确定为目标图像中的创作文本区域。
本申请实施例一方面提供一种图像生成装置,包括:
第二获取模块,用于获取文本集合和目标图像;目标图像包括主体对象;
输出模块,用于响应于针对文本集合和目标图像的创作生成操作,输出创作图像;创作图像是基于目标图像和目标文本所生成的;目标文本突出显示在创作图像中的创作文本区域;创作文本区域中的目标文本与主体对象的关键部位互不遮挡;目标文本属于文本集合。
其中,文本集合包括N个文本,N个文本包括目标文本;输出模块包括:
第一显示单元,用于响应于针对文本集合和目标图像的创作生成操作,在候选页面中显示N个候选创作图像;一个候选创作图像是基于文本集合中的一个文本和目标图像所生成;N个候选创作图像中的文本互不相同;
第二显示单元,用于响应于针对N个候选创作图像的选择操作,在确认页面中显示创作图像;创作图像为选择操作所选中的候选创作图像。
其中,输出模块还包括:
第三显示单元,用于在候选页面中,显示每个候选创作图像对应的图文匹配度;图文匹配度为候选创作图像中的文本与目标图像之间的匹配度。
其中,图像生成装置还包括:
更新显示模块,用于响应于针对创作图像中的创作文本区域的编辑操作,获取编辑后的创作文本区域,将创作图像中的目标文本更新显示到编辑后的创作文本区域中。
其中,输出模块包括:
第四显示单元,用于响应于针对文本集合和目标图像的创作生成操作,显示区域位置信息和目标文本;区域位置信息用于指示目标文本显示在目标图像中的位置信息;
第六确定单元,用于响应于针对目标文本和目标图像的合成操作,将目标图像中区域位置信息所指示的区域,作为创作文本区域;
第五显示单元,用于在创作文本区域中添加目标文本,得到创作图像,显示创作图像。
其中,输出模块还包括:
更新显示单元,用于响应于针对区域位置信息的调整操作,将创作图像中调整后的区域位置信息所指示的区域,作为更新创作文本区域,将创作图像中的目标文本更新显示到更新创作文本区域中。
其中,第二获取模块包括:
第六显示单元,用于响应于针对语音控件的触发操作,显示转换文本以及文本集合;转换文本是对通过触发语音控件所获取到的语音数据进行文本转换得到的;文本集合包括基于转换文本所划分得到的一个或多个文本;
第七确定单元,用于响应于针对图像输入区域的触发操作,获取视频数据,将视频数据中的视频帧,作为目标图像。
其中,输出模块还包括:
第二获取单元,用于响应于针对文本集合和目标图像的创作生成操作,获取文本集合的文本地址和目标图像的图像地址;
发送单元,用于向服务设备发送携带文本地址和图像地址的创作请求,以使服务设备根据创作请求中的文本地址和图像地址生成创作图像;
输出单元,用于接收服务设备返回的创作图像,输出创作图像。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
在本申请实施例中,通过获取文本集合和目标图像;目标图像包括主体对象;响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本。可见,本方案可以在文本集合中确定与目标图像相匹配的目标文本,可以提高创作图像的生成准确性。进一步地,获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域,将目标文本添加至目标图像中的创作文本区域中,得到创作图像。非视觉显著区域为目标图像中不包括主体对象的关键部位的区域,这样,根据非视觉显著区域确定创作文本区域,在创作文本区域中添加目标文本时,并不会遮挡主体对象的关键部位,可以让目标文本和主体对象的关键部位均突出显示在创作图像中,可以丰富创作图像的显示效果。在本方案中,不用人工参与便可以快速生成创作图像,可以提高创作图像生成的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像生成系统的架构示意图;
图2是本申请实施例提供的一种图像生成的应用场景示意图;
图3是本申请实施例提供的一种图像生成方法的流程示意图;
图4是本申请实施例提供的一种文本语义识别模型训练的示意图;
图5是本申请实施例提供的一种获取创作文本区域的示意图;
图6是本申请实施例提供的一种显著区域预测模型的示意图;
图7是本申请实施例提供的一种视觉显著区域的示意图;
图8是本申请实施例提供的一种视觉显著区域的示意图;
图9是本申请实施例提供的一种视觉显著区域的示意图;
图10是本申请实施例提供的一种图像生成方法的流程示意图;
图11是本申请实施例提供的一种输出创作图像的示意图;
图12是本申请实施例提供的一种创作图像的示意图;
图13是本申请实施例提供的一种创作图像的示意图;
图14是本申请实施例提供的一种图像生成装置的结构示意图;
图15是本申请实施例提供的一种图像生成装置的结构示意图;
图16是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请具体涉及人工智能技术下属的计算机视觉技术(Computer Vision,CV)。
其中,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容识别、三维物体重建、3D技术、虚拟现实、增强现实与地图构建等技术。本申请具体涉及计算机视觉下属的图像处理,通过在文本集合中确定目标文本,以及在目标图像中确定用于添加目标文本的创作文本区域,在目标图像中的创作文本区域中添加目标文本,得到创作图像,以使目标文本和目标图像中的主体对象均在创作图像中显著显示。这样,可以提高创作图像的生成效率和准确性。
见图1,图1是本申请实施例提供的一种图像生成系统的结构示意图。如图1所示,该图像生成系统可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
其中,该用户终端集群中的每个用户终端均可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居、头戴设备、车载终端、智能语音交互设备等具有图像生成功能的智能终端。应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互。
其中,如图1所示,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如,为便于理解,本申请实施例可以将图1所示的用户终端100a作为目标用户终端,该目标用户终端中可以集成有具备该图像生成功能的应用客户端。其中,应用客户端可以包括社交客户端、多媒体客户端(例如,视频客户端)、娱乐客户端(例如,游戏客户端)、教育客户端等具有图像加载和显示功能的客户端。其中,目标用户终端(即图1所示的用户终端100a)可以为第一对象(即例如,用户A)所使用的用户终端。第一对象可以在目标用户终端中选择好想要用于创作图像的目标图像和文本集合,该文本集合中包括一个或者多个文本,这里将不对该第一对象所选择的文本的数量进行限制。其中,该文本可以是指语气用语(如“哈哈哈哈”、“害”、“哼!”、“啊啊啊”、“唉”等)、陈述用语(如“我完全不敢说什么”、“请开始你的表演”、“我太难了”等)以及网络用语(如“香菇蓝瘦”、“奥利给”等)等。例如,第一对象可以在目标用户终端的本地图像数据中挑选出一张图像,作为目标图像,或者,通过目标用户终端中的摄像组件拍摄得到目标图像;例如,第一对象可以在目标用户终端所提供的文本输入框中输入文本信息,作为文本集合。
进一步地,目标用户终端接收到第一对象输入的目标图像和文本集合后,可以获取目标图像的图像地址以及文本集合的文本地址。第一对象选择好目标图像和文本集合后,可以在目标用户终端的展示界面中,实施针对目标图像和文本集合的创作生成操作。当第一对象触发创作生成操作后,目标用户终端可以生成包含目标图像的图像地址和文本集合的文本地址的创作请求,向服务器发送包含目标图像的图像地址和文本集合的文本地址的创作请求。服务器可以根据文本集合的文本地址,从文本集合中确定目标文本。可选的,可以将文本集合中与目标图像中主体对象相关联的文本确定为目标文本,或者,将文本集合中任意一个文本确定为目标文本。进一步地,服务器可以在目标图像中确定创作文本区域,在目标头像的创作文本区域中添加目标文本,得到创作图像。可选的,创作文本区域为目标图像中主体对象所在区域之外的区域,以确保在目标图像中添加目标文本后,创作文本区域中的目标文本与主体对象均在创作图像中显著显示。服务器生成创作图像后,可以向目标用户终端返回创作图像。目标用户终端可以在其展示界面中输出创作图像。应当理解,本方案可以通过从第一对象输入的文本集合中选择出目标文本,将该目标文本添加至第一对象输入的目标图像的创作文本区域中,得到创作图像,以向第一对象提供创作图像,可以提高创作图像的生成效率和准确性,进而在展示界面中丰富创作图像的显示效果。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
为便于理解,进一步地,请参见图2,图2是本申请实施例提供的一种图像生成的应用场景示意图。其中,如图2所示的服务器20g可以为上述的服务器10,如图2所示的目标用户终端可以为上述图1中所展示的用户终端集群中的任意一个用户终端,例如,目标用户终端可以为上述用户终端100a。
如图2所示,第一对象20d可以按照自己需求选择好的目标图像20b和文本集合20c,可以实施针对目标展示页面中提供的图像输入控件的触发操作,以及实施针对目标展示页面中提供的文本输入控件的触发操作,将目标图像20b和文本集合20c输入目标用户终端。其中,目标展示页面属于第一对象20d所持有的目标用户终端的展示页面。如图2所示,目标用户终端可以在目标展示界面20a中显示第一对象20d选择好的目标图像20b和文本集合20c。如图2所示,目标展示界面20a中显示有生成控件20e,当第一对象20d选择好目标图像20b和文本集合20c后,可以实施针对目标展示界面20a中显示的生成控件20e的触发操作。进一步地,目标用户终端可以进行页面跳转,将目标展示页面20a跳转至目标展示页面20f,展示页面20f显示“图像生成中”,以提示用户当前正在根据目标图像20b和文本集合20c生成创作图像。
进一步地,目标用户终端可以获取目标图像20b对应的图像地址,以及文本集合20c的文本地址,并生成包含目标图像20b的图像地址和文本集合20c的文本地址的创作请求。目标用户终端可以向服务器20g发送包含目标图像20b的图像地址和文本集合20c的文本地址的创作请求,该创作请求用于指示根据目标图像20b和文本集合20c生成创作图像。服务器20g可以从文本集合中确定目标文本。可选的,服务器20g可以根据目标图像的图像语义以及文本集合中每个文本的文本语义,获取目标图像的图像语义和每个文本的文本语义之间的匹配度,根据该匹配度从文本集合中确定目标文本。进一步地,服务器20g可以在目标图像中确定用于添加目标文本的创作文本区域,该创作文本区域为除目标图像中的主体对象所在的区域之外的区域。服务器20g可以将目标文本添加至目标图像20b中的创作文本图像中,得到创作图像,以使目标图像中的主体对象和目标文本显著显示在创作图像中。服务器20g将创作图像返回给目标用户终端,目标用户终端可以在目标展示界面20h中输出创作图像,并在创作图像中显示目标文本20i(******)。如图2中的目标展示页面20h所示,目标图像中的主题对象和目标文本均显著显示在创作图像中。可见,本方案可以提高创作图像的生成效率和准确性,进而在展示界面中丰富创作图像的显示效果,提高用户的用户体验。
请参见图3,图3是本申请实施例提供的一种图像生成方法的流程示意图。该图像生成方法可由图1中的任一用户终端来执行,也可以由图1中的服务器来执行,还可以由图1中的任一用户终端和服务器共同执行,本申请中用于执行该方法的设备可以统称为计算机设备。如图3所示,该图像生成方法可以包括但不限于以下步骤:
S101,获取文本集合和目标图像。
具体的,当第一对象想要生成关于目标图像和文本集合的创作图像时,可以在计算机设备提供的创作数据输入界面中输入目标图像和文本集合,并触发针对目标图像和文本集合的创作生成操作。计算机设备可以根据第一对象输入的目标图像和文本集合,生成创作图像,该创作图像可以用于表达特定的意图,第一对象可以采用该创作图像与其他对象进行信息交流,可以增加对象之间信息交流的趣味性。可选的,目标图像可以是目标对象在计算机设备本地存储的多媒体数据中选取的图像数据,或者,是由目标对象通过计算机设备的拍摄组件拍摄得到的图像数据。目标图像也可以是指目标对象上传的视频数据中的视频帧,或者,是由目标对象拍摄得到的视频数据中的视频帧。其中,文本集合中包括一个或者多个文本,这里将不对目标对象所选择的文本的数量进行限制。其中,该文本可以是指语气用语(如“哈哈哈哈”、“害”、“哼!”、“啊啊啊”、“唉”等)、陈述用语(如“我完全不敢说什么”、“请开始你的表演”、“我太难了”等)以及网络用语(如“香菇蓝瘦”、“奥利给”等)等。具体的,当目标对象确定目标图像后,想要添加至目标图像的文本有多个,但不知道添加那个文本最好时,可以在计算机设备所提供的创作数据输入界面中,输入目标图像和多个文本对应的文本集合。其中,目标图像的数量也可以为一张或者多张,即目标对象可以输入一张或者多张目标图像。该目标图像中包括主体对象,该主体对象可以是指动物、植物、真实人物(如娱乐明星等)、漫画人物等等,目标图像可以包括时下流行的明星图像、语句图像、动漫图像、影视截图等。
可选的,计算机设备可以在目标对象所持有的终端展示界面(即上述的目标用户终端的目标展示界面)中显示文本输入区域和图像输入区域,目标对象可以在文本输入区域中输入文本数据,计算机设备可以根据该输入的文本数据生成文本集合。例如,计算机设备可以对目标对象输入的文本数据进行词义划分,得到一个或者多个文本,将该一个或者多个文本确定为文本集合。例如,计算机设备可以对目标对象输入的文本数据进行组合,得到一个或者多个文本,将该一个或者多个文本确定文本集合。可选的,计算机设备可以在文本输入区域中显示多个文本字段,如“文本1”、…、“文本n”等。目标对象可以在该文本字段后输入文本字段值,如,目标对象可以输入文本字段“文本1”的文本字段值为“快乐”,将文本字段“文本2”的文本字段值为“激动”等。计算机设备可以将目标对象输入的一个或者多个文本字段值确定为一个或者多个文本,将该一个或者多个文本确定为文本集合。具体的,目标对象可以在图像输入区域中输入目标图像。例如,计算机设备可以在图像输入区域中显示图像添加控件,当目标对象实施针对该图像添加控件的触发操作后,可以通过自主拍摄或者本地多媒体数据获取等方式,获取目标图像。
可选的,计算机设备在获取文本集合和目标图像的具体方式可以包括:响应于针对语音控件的触发操作,显示转换文本以及文本集合;转换文本是对通过触发语音控件所获取到的语音数据进行文本转换得到的;文本集合包括基于转换文本所划分得到的一个或多个文本。响应于针对图像输入区域的触发操作,获取输入视频数据,将输入视频数据中的视频帧,作为目标图像。
可选的,计算机设备还可以获取目标文本对应的转换语音数据。可选的,转换语音数据可以是指目标对象针对该目标文本的语音数据,或者,转换语音数据也可以通过计算机设备对目标文本进行语音合成得到的。进一步,计算机设备可以将在目标图像中的创作文本区域添加目标文本后的图像确定为初始创作图像,生成转换语音数据对应的播放控件,将该创作图像与该转换语音数据进行关联,将该播放控件显示在初始创作图像中,得到创作图像。可以增强创作图像的显示效果,提高创作图像的趣味性。
可选的,上述将该播放控件显示在初始创作图像中,得到创作图像,包括:将该播放控件以显式显示方式显示在初始创作图像中,得到创作图像,显式显示方式是指直接将播放控件显示在初始创作图像中,即目标对象能够在创作图像中看到该播放控件。这时当检测针对创作图像中的该播放控件的触发操作时,则播放与该创作图像关联的转换语音数据。或者,若检测到使用该创作图像时,则播放与该创作图像关联的转换语音数据,如检测到将该创作图像发送至聊天界面,播放与该创作图像关联的转换语音数据。
可选的,上述将该播放控件显示在初始创作图像中,得到创作图像,包括:将该播放控件以隐式显示方式显示在初始创作图像中,得到创作图像,隐式显示方式是指将播放控件隐藏显示在初始创作图像中,即目标对象不能够在创作图像中看到该播放控件。这时,当检测针对创作图像中的任意位置的触控操作时,则播放与该创作图像关联的转换语音数据,或者,若检测到使用该创作图像时,则播放与该创作图像关联的转换语音数据,如检测到将该创作图像发送至聊天界面,播放与该创作图像关联的转换语音数据。
具体的,计算机设备可以在目标对象所持有的终端展示界面(即上述的目标用户终端的目标展示界面)中显示文本输入区域和图像输入区域,该文本输入区域中包括语音输入控件。目标对象可以实施针对语音控件的触发操作(如点击操作或者持续按压操作),计算机设备可以响应于目标对象针对语音控件的触发操作,获取触发该语音控件所输入的语音数据。进一步地,计算机设备可以对该语音数进行文本转换,得到转换文本,将该转换文本显示在终端展示界面中。可以理解的是,当目标对象实施针对语音控件的触发操作,输入语音数据时,计算机设备可以获取目标对象输入的语音数据,并对该语音数据进行文本转换,得到转换文本,并将该转换文本显示在终端展示界面中。例如,目标对象持续按压语音控件,输入语音数据后,计算机设备可以在终端展示界面中实时显示目标对象输入的语音数据对应的文本信息。这样,目标对象可以通过文本输入方式或者语音输入方式,输入文本集合,可以提高文本集合输入的灵活性,同时也可以提高目标对象的用户体验感。
具体的,目标对象可以在图像输入区域中输入目标图像。其中,图像输入区域中可以显示图像添加控件,目标对象可以实施针对该图像添加控件的触发操作,通过拍摄方式或者本地多媒体数据获取方式,获取目标图像。计算机设备可以响应目标对象针对图像添加控件的触发操作,显示图像获取界面,该图像获取界面中可以包括拍摄控件和本地多媒体数据选择控件。可选的,当目标对象选择拍摄控件时,计算机设备可以响应于目标对象针对拍摄控件的选择操作,获取基于该拍摄控件所得到的拍摄数据。当该拍摄数据为图像数据时,则将拍摄得到的图像数据确定为目标图像。当拍摄数据为视频数据时,则可以将该视频数据中的视频帧作为目标图像,或者,从该视频数据中挑选出目标视频帧作为目标图像。这样,目标对象可以通过拍摄方式或者本地多媒体数据选择方式,输入目标图像,可以提高目标图像获取的灵活性,同时也可以提高目标对象的用户体验感。
可选的,当目标对象选择本地多媒体数据选择控件时,计算机设备可以响应于目标对象针对本地多媒体数据的选择操作,获取基于该本地多媒体数据选择控件所得到的本地多媒体数据。若该本地多媒体数据为图像数据时,则将该图像数据确定目标图像。若该本地多媒体数据为视频数据时,则将该视频数据中的视频帧作为目标图像,例如,可以从视频数据中选择目标数量的视频帧,作为目标图像。该目标数量可以为大于或者等于1的正整数,该目标数量小于或者等于视频数据中视频帧的总数量。例如,可以从视频数据中选择一帧视频帧作为目标图像。这样,目标对象可以输入视频数据,计算机设备可以自动从视频数据中选择视频帧,作为目标图像,进而生成关于该目标图像与目标文本的创作图像。而不用目标对象手动从视频数据中选择出视频帧,可以提高创作图像的生成效率,同时,也可以提高目标对象的用户体验。其中,目标图像和文本集合也可以是指计算机设备自动收集的。
S202,响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本。
具体的,当目标对象实施针对文本集合和目标图像的创作生成操作后,计算机设备可以响应于目标对象实施的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本。计算机设备可以获取文本集合中的文本与目标图像之间的匹配度,根据该匹配度,从目标文本集合中确定与目标图像相匹配的目标文本。
可选的,文本集合包括N个文本,N个文本包括目标文本,N为正整数,如N可以取值为1,2,3…。计算机设备从文本集合中确定与目标图像相匹配的目标文本的具体方式可以包括:调用文本语义识别模型,分别对N个文本进行语义识别,得到每个文本对应的文本语义。调用图像语义识别模型,对目标图像进行语义识别,得到目标图像对应的图像语义,确定每个文本对应的文本语义分别与图像语义之间的图文匹配度。将文本集合中,具有最大图文匹配度的文本,确定与目标主体相匹配的目标文本。
具体的,计算机设备可以获取文本语义识别模型,调用该文本语义识别模型,分别对N个文本进行语义识别,得到每个文本对应的文本语义。其中,文本语义识别模型可以是指BERT(即Bidirectional Encoder Representation from Transformers)模型,BERT模型是基于变换器的双向编码器表示技术,用于自然语言处理,可以生成能融合左右上下文信息的深层双向语言表征,进而可以提高语义识别的准确性,BERT模型可以进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。计算机设备可以调用图像语义识别模型,对目标图像进行语义识别,得到目标图像对应的图像语义。该图像语义识别模型可以是指CNN(即Convolutional Neural Network,卷积神经网络)模型,该CNN模型是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。可选的,计算机设备可以直接获取目标图像的图像语义,与每个文本的文本语义之间的相似度,将该相似度确定为每个文本与目标图像之间的图文匹配度。其中,计算机设备可以预先训练完成文本语义识别模型和图像语义识别模型。
可选的,计算机设备得到每个文本的文本语义后,可以根据每个文本语义确定每个文本的文本情感类别,该情感类别可以包括无情绪、高兴、悲伤、惊奇、恐惧、厌恶以及愤怒等。其中,计算机设备得到目标图像的图像语义后,可以根据目标图像的图像语义,确定目标图像的图像情感类型,同样的,该情感类别可以包括无情绪、高兴、悲伤、惊奇、恐惧、厌恶以及愤怒等。计算机设备可以获取目标图像的图像情感类别与每个文本的文本情感类别之间的匹配度,作为图文匹配度。
进一步地,计算机设备可以根据目标图像与每个文本之间的图文匹配度,从文本集合中确定目标文本。具体的,计算机设备可以将文本集合中,最大的图文匹配度所对应的文本,确定为目标文本。可选的,当最大的图文匹配度存在多个时,可以获取目标筛选规则,从多个最大的图文匹配度分别对应的文本中,确定目标文本。该目标筛选规则可以根据目标对象的历史生成创作图像中的文本信息生成的,或者,目标筛选规则可以为随机挑选。
可选的,计算机设备调用文本语义识别模型,分别对N个文本进行语义识别,得到每个文本对应的文本语义的具体方式可以包括:调用文本语义识别模型中的嵌入层,分别对N个文本进行嵌入向量转换,得到每个文本对应的文本嵌入向量。调用文本语义识别模型中的自注意力特征提取层,基于每个文本的上下文信息和文本嵌入向量,对每个文本进行自注意力特征提取,得到每个文本对应的自注意力特征向量。调用文本语义识别模型中的语义分类层,对每个文本对应的自注意力特征向量进行语义分类,得到每个文本对应的文本语义。
具体的,文本语义识别模型可以包括嵌入层、自注意力特征提取层以及语义分类层,计算机设备可以调用文本语义识别模型中的嵌入层,分别对N个文本进行嵌入向量转换,得到每个文本对应的文本嵌入向量。在嵌入层中,可以获取每个文本中词的语义向量、标识向量(即属于哪个文本)以及出现位置向量,对文本中词的语义向量、标识向量(即属于哪个文本)以及出现位置向量进行求和,得到每个文本的文本嵌入向量。进一步地,计算机设备可以调用文本语义识别模型中的自注意力特征提取层,基于文本Ni的文本嵌入向量和该文本Ni的上下文信息,对文本Ni进行自注意力特征提取,得到每个文本对应的自注意力特征向量,以此获取每个文本与上下文之间的关联特征信息,可以提高文本语义识别的准确性。进一步地,计算机设备可以调用文本语义识别模型中的语义分类层,对每个文本对应的自注意力特征向量进行语义分类,得到每个文本对应的文本语义
可选的,计算机设备可以预先训练完成文本语义识别模型。计算机设备可以获取通用文本样本,采用通用文本样本对初始文本语义识别模型进行迭代训练,得到第一候选文本语义识别模型。获取用于表征对象意图的意图文本样本,采用意图文本样本对第一候选文本语义识别模型进行迭代训练,得到第二候选文本语义识别模型。获取创作图像样本,从创作图像样本中获取创作文本样本,采用创作文本样本对第二候选文本语义识别模型进行迭代训练,得到文本语义识别模型。
具体的,计算机设备可以获取通用的通用文本样本,该通用文本样本可以是指中文语料,即书籍中的中文语料,或者新闻报道中的中文语料等等。计算机设备可以采用通用文本样本,对初始文本语义识别模型进行迭代训练,当初始文本语义识别模型满足收敛条件时,则将该满足收敛条件的初始文本语义识别模型确定为第一候选文本语义识别模型。其中,收敛条件可以是指模型的训练次数达到目标次数,或者,模型的识别损失值小于或者等于目标阈值。进一步地,计算机设备得到第一候选文本语义识别模型后,可以获取用于表征对象意图的意图文本样本,该对象意图可以是指对象情感、对象形态、对象行为等。其中,可以根据文本语义识别模型的具体应用场景确定意图文本样本,例如,当文本语义识别模型用于识别出文本的情感类别时,意图文本样本可以是指通用的携带情感的语句,可以训练第一候选文本语义识别模型对意图文本样本进行情感类别识别,得到意图文本样本的情感类别。该情感类别可以包括无情绪、高兴、悲伤、惊奇、恐惧、厌恶以及愤怒等。当第一候选文本语义识别模型满足收敛条件时,即第一候选文本语义识别模型可以准确识别出意图文本样本的情感类别后,计算机设备可以创作图像样本,从创作图像样本中获取创作文本样本,该创作文本样本是基于社交媒体和网络不断发展之后的产物,与以往传统的媒体内容不同。例如,可以将历史生成的创作图像中的文本,作为创作文本样本,如“香菇蓝瘦”、“奥利给”等,该创作文本样本可以为用户在日常生活中创造的网络流行词。计算机设备可以采用创作文本样本对第二候选文本语义识别模型进行迭代训练,以使第二候选文本语义识别模型满足收敛条件,当第二候选文本语义识别模型满足收敛条件时,可以将满足收敛条件的第二候选文本语义识别模型确定为文本语义识别模型。以此,该文本语义识别模型可以识别出通用文本(即中文信息)、携带情感的意图文本以及创作文本(即用户自行创造的文本,如网络流行语)的文本语义,进而识别出文本的情感类别,可以提高语义识别模型的语义识别准确性。
可选的,计算机设备可以周期性地从网络中获取创作图像中的文本或者创作文本(即用户自行创造的文本,用于表达特定的情感或者语义,如网络流行语),作为更新创作文本样本。或者,计算机设备可以历史生成的创作图像中的文本,作为更新创作文本样本。计算机设备可以采用该更新创作文本样本,对文本语义识别模型进行更新,以使文本语义识别模型可以准确识别出文本的文本语义,进而准确识别文本的情感类别。
如图4所示,图4是本申请实施例提供的一种文本语义识别模型训练的示意图,如图4所示,计算机设备可以获取通用文本样本40a,该通用文本样本40a可以为书籍或者报纸等中的中文信息,采用该通用文本样本40a对初始文本语义识别模型40b进行迭代训练,如图4所示,初始文本语义识别模型40b可以为BERT模型,初始文本语义识别模型40b可以将通用文本样本40a切分为多个词向量Tok1、Tok2、…、Tokn。进一步地,初始文本语义识别模型40b可以将多个词向量Tok1、Tok2、…、Tokn转换成嵌入向量E1、E2、…En,根据该嵌入向量E1、E2、…En得到通用文本样本的情感类别。其中,初始文本语义识别模型40b得到通用文本样本的情感类别的过程,可以参考上述S202中文本语义识别模型得到文本的情感类别的过程,本申请实施例在此不再赘述。计算机设备可以对初始文本语义识别模型40b进行迭代训练,以致初始文本语义识别模型40b满足收敛条件,将满足收敛条件的初始文本语义识别模型40b确定为第一候选文本语义识别模型40d。
进一步地,计算机设备可以获取意图文本样本40c,采用该意图文本样本40c对第一候选文本语义识别模型40d进行迭代训练,第一候选文本语义识别模型40d的模型结构与初始文本语义识别模型的模型结构相同,在此不再赘述。当第一候选文本语义识别模型40d满足收敛条件时,可以将满足收敛条件的第一候选文本语义识别模型40d确定为第二候选文本语义识别模型40f。进一步地,计算机设备可以获取创作文本样本40e,采用该创作文本样本40e对第二候选文本语义识别模型40f进行迭代训练,第二候选文本语义识别模型40f的模型结构与初始文本语义识别模型的模型结构相同,在此不再赘述。当第二候选文本语义识别模型40f满足收敛条件时,可以将满足收敛条件的第二候选文本语义识别模型40f确定为文本语义识别模型。
S103,获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域。
S104,将目标文本添加至目标图像中的创作文本区域中,得到创作图像。
具体的,计算机设备可以在目标图像中的非视觉显著区域,该非视觉显著区域是指目标图像中不包括主体对象的关键部位的区域,即目标图像中主体对象的关键部位所在区域之外的区域。其中,计算机设备可以将目标图像中主体对象的关键部位所在的区域确定为视觉显著区域。计算机设备对目标图像进行图像识别,确定目标图像中主体对象的关键部位,以及获取主体对象的关键部位在目标图像中的区域,作为目标图像中的视觉显著区域。其中,视觉显著区域可以是指目标图像中主体对象的关键部位所在的区域,即人眼感兴趣区域。在面对一个场景时,对象会自动地注意到感兴趣区域而选择性地忽略不感兴趣区域,可以将人眼感兴趣的区域被称之为显著性区域。因此可以将目标对象对主体对象感兴趣的部位,确定为主体对象的关键部位。
进一步地,计算机设备可以将目标图像中视觉显著区域所在区域之外的区域,确定为目标图像中的非视觉显著区域,在目标图像的非视觉显著区域中确定用于添加目标文本的创作文本区域。创作文本区域可以是指目标图像中不包括主体对象的关键部位的区域,这样,便不会遮挡目标图像中主体对象的关键部位。进一步地,计算机设备可以将目标文本添加至目标图像中的创作文本区域中,得到创作图像。这样,可以使创作图像中的目标文本和主体对象均突出显示,可以避免添加目标文本后,导致主体对象的关键部位被遮挡的情况出现,同时也可以在目标图像中突出显示目标文本,可以提高创作图像的显示效果,进而可以提高创作图像生成的准确性。
可选的,计算机设备获取目标图像中的非视觉显著区域的具体方式可以包括:调用显著区域预测模型,通过显著区域预测模型中的区域分割层,对目标图像进行区域分割,得到M个候选区域,M为正整数。通过显著区域预测模型中的特征提取层,分别对M个候选区域进行特征提取,得到每个候选区域中的主体对象的对象信息。通过显著区域预测模型中的分类层,对M个候选区域进行分类处理,得到M个候选区域分别对应的区域内容类型。根据对象信息和区域内容类型,从M个候选区域中确定目标图像中的视觉显著区域;视觉显著区域为主体对象的关键部位所在区域。将目标图像中除视觉显著区域之外的区域,确定为目标图像中的非视觉显著区域。
具体的,计算机设备可以调用显著区域预测模型,该显著区域预测模型可以是指视觉重要性区域预测模型(Visual Importance Prediction),可以用于提取出图像中的视觉重要区域,如主体对象所在的区域。计算机设备可以通过显著区域预测模型中的区域分割层,对目标图像进行区域分割,得到M个候选区域。该M个候选区域的区域大小互不相同,同时,该M个候选区域所覆盖的区域位置各不相同。M为正整数,如M可以取值为1,2,3…。进一步地,计算机设备可以通过显著区域预测模型中的特征提取层,分别对M个候选区域进行特征提取,得到M个候选区域分别对应的区域信息量。其中,计算机设备可以获取每个候选区域中的像素点的像素值,根据每个候选区域中的像素点的像素值确定每个候选区域中的像素值分布,根据该每个候选区域中的像素值分布,确定每个候选区域的区域信息量。例如,若从像素值分布中确定不同像素值越多,则可以确定候选区域的信息量越大;若从像素值分布中确定不同像素值越少,则可以确定候选区域的信息量越小。进一步地,计算机设备可以根据每个候选区域的区域信息量,确定每个候选区域中包括主体对象的对象信息。若候选区域中不包括主体对象的对象信息,则确定该候选区域中的主体对象的对象信息为空。若候选区域中包括主体对象的对象信息,则检测该候选区域中包括的主体对象的对象信息是否为关键部位信息。其中,显著区域预测模型中的特征提取层可以是空间金字塔池化结构,该空间金字塔结构可以使任意大小的特征图都能够转换成固定大小的特征向量。
进一步地,计算机设备可以通过显著区域预测模型中的分类层,对M个候选区域进行分类处理,得到M个候选区域分别对应的区域内容类型。该区域内容类型可以包括空白类型、植物类型、动物类型、眼部类型、鼻子类型、耳朵类型以及嘴巴类型等等。计算机设备可以对每个候选区域进行图像识别,得到每个候选区域的区域特征信息,根据该区域特征信息,从区域内容类型库中确定每个候选区域的区域内容类型。其中,区域内容类型库中包括多个候选区域内容类型以及每个候选区域内容类型的类型特征信息,计算机设备可以获取候选区域的区域特征信息与区域内容类型库中每个候选区域内容类型的类型特征信息之间的特征相似度。将区域内容类型库中,最大的特征相似度所对应的候选区域内容类型,确定为候选区域的区域内容类型。进一步地,计算机设备可以根据每个候选区域的对象信息和区域内容类型,从M个候选区域中确定目标图像的视觉显著区域,将目标图像中除视觉显著区域之外的区域,确定为目标图像中的非视觉显著区域。
可选的,计算机设备根据每个候选区域的对象信息和区域内容类型,从M个候选区域中确定目标图像中的视觉显著区域的具体方式可以包括:通过显著区域预测模型中的级联层,对每个候选区域的对象信息和区域内容类型进行合并处理,得到每个候选区域的合并区域特征。根据每个候选区域的合并区域特征,对每个候选区域进行影响度预测,得到每个候选区域的区域影响度。将M个候选区域中,区域影响度大于或者等于目标阈值的候选区域,确定为目标图像中的视觉显著区域。
具体的,计算机设备可以通过显著区域预测模型中的级联层,对每个候选区域的对象信息和区域内容类型进行合并处理,得到每个候选区域的合并区域特征。其中,级联层可以根据每个候选区域的区域标识,将每个候选区域的对象信息和区域内容类型进行合并处理,得到每个候选区域的合并区域特征。进一步地,计算机设备可以通过显著区域预测模型中的预测层,基于每个候选区域的合并区域特征,对每个候选区域进行影响度预测,得到每个候选区域的区域影响度。具体的,计算机设备还可以获取每个候选区域在目标图像中的区域显示位置。计算机设备可以在预测层中,根据每个候选区域的区域内容类型确定每个候选区域的类型影响度,根据每个候选区域的区域显示位置确定每个候选区域的位置影响度,根据每个候选区域的对象信息确定每个候选区域的信息关键度。
进一步地,计算机设备可以对每个候选区域的类型影响度、位置影响度以及信息关键度进行求和,得到每个候选区域的区域影响度。例如,候选区域T的类型影响度为1,位置影响度为3,信息影响度为5,则该候选区域的区域影响度为1+3+5=9。可以理解的是,若候选区域的类型影响度、位置影响度以及信息影响度越大,则候选区域的区域影响度越大;若候选区域的类型影响度、位置影响度以及信息影响度越小,则候选区域的区域影响度越小。进一步地,计算机设备可以将M个候选区域中,区域影响度大于或者等于目标阈值的候选区域,确定为目标图像中的视觉显著区域。其中,计算机设备可以预先训练完成显著区域预测模型,该显著区域预测模型训练完成后无需重复训练便可在多种数据上迁移使用,具有很好的泛化性能。具体的,计算机设备在目标图像中确定视觉显著区域后,可以根据视觉显著区域的最小外接矩形框,在非视觉显著区域中确定目标图像中的创作文本区域。
如图5所示,图5是本申请实施例提供的一种获取创作文本区域的示意图,如图5所示,计算机设备响应于目标对象针对于文本集合和目标图像的创作生成操作后,可以获取目标图像50a,对该目标图像50a进行图像识别,得到该目标图像50a的图像特征信息。计算机设备可以根据该目标图像的图像特征信息确定视觉显著区域50b,该视觉显著区域50b中显示有目标图像中的主体对象,即视觉显著区域可以为目标图像中的主体对象所在的区域。进一步地,计算机设备可以获取该视觉显著区域的边界50c,基于该视觉显著区域的边界50c,对目标图像中除视觉显著区域50b之外的剩余区域进行区域划分,得到Q个候选创作文本区域,并从该Q个候选创作文本区域中确定创作文本区域50d。
可选的,计算机设备在目标图像中确定非视觉显著区域后,可以根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域,将目标文本添加之目标图像中的创作文本区域中,得到创作图像。计算机设备确定创作文本区域的具体方式可以包括:获取目标文本的文本尺寸信息。根据文本尺寸信息以及非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域。将目标文本添加至目标图像中的创作文本区域中,得到创作图像。
具体的,计算机设备可以获取目标文本的文本尺寸信息。其中,计算机设备可以获取目标文本的词数量,以及获取目标图像的图像尺寸,根据该词数量以及目标图像的图像尺寸确定目标文本的文本尺寸信息。其中,目标文本的文本尺寸信息可以基于用户使用习惯确定。其中,目标文本的文本尺寸信息可以包括文本显示宽度和文本显示高度。进一步地,计算机设备可以根据文本尺寸信息以及非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域。该创作文本区域属于非显著区域,这样,在创作文本区域中添加目标文本时,不会遮挡目标图像中主体对象的关键部位,即不会遮挡主体对象的重要信息,可以丰富创作图像的显示效果。同时,计算机设备可以获取目标文本的文本尺寸信息,根据该文本尺寸信息确定创作文本区域的显示位置和显示大小。这样,可以确保不遮挡目标图像中主体对象的关键部位的同时,也可以让目标文本突出显示在创作图像中,丰富创作图像的显示效果。其中,突出显示是指高亮显示、明显显示,可以理解的是,突出显示是指将目标文本和主体对象的关键部位均明显显示在创作图像中。目标文本的突出显示是指通过智能算法模拟对象的视觉特点,提取出目标图像中对象感兴趣的感兴趣区域,将目标文本显示在该感兴趣区域中。这样,目标对象可以直观的看到创作图像中的目标文本和主体对象的关键部位,可以增强创作图像的显示效果。进一步地,计算机设备可以将目标文本添加至目标图像中的创作文本区域中,得到创作图像。这样,计算机设备可以在目标图像中确定目标文本显示的合适位置,以确保目标文本显著显示在创作图像中,也可以确保目标图像中的主体对象也显著显示在创作图像中,提高创作图像生成的准确性和效率,同时也可以提高创作图像的显示效果。
可选的,计算机设备在创作文本区域中添加目标文本时,若计算机设备检测到目标文本的文本长度大于目标文本长度,则对目标文本进行文本分割,得到K个子文本,K为大于1的正整数,如K可以取值为2,3,4…。计算机设备获取目标文本的文本语义信息,根据该文本语义信息对目标文本进行文本分割,得到具有独立语义的K个子文本。可以理解的是,具有独立语义的子文本可以是指能够表达特定语义的句子,不会存在语义不清。可选的,计算机可以获取目标文本中的标点符号,根据该标点符号对目标文本进行分割,得到K个子文本。计算机设备可以得到K个子文本后,可以分别对应的该K个子文本对应的创作文本区域,在目标图像中将每个子文本添加至对应的创作文本区域中,得到创作图像,以实现在创作图像中添加多行目标文本。这样,可以避免目标文本太长,导致在一个创作文本区域中显示不清楚的情况,可以提高创作图像生成的准确性,进而丰富创作图像的显示效果。其中,目标文本可以横向或者竖向显示在创作图像中,可以根据具体情况确定,本申请实施例对具体显示的位置和方向不做限制。
可选的,计算机设备在目标图像中确定用于添加目标文本的创作文本区域的具体方式可以包括:对目标图像中非视觉显著区域进行区域划分,得到Q个候选创作文本区域;Q为正整数。获取每个候选创作文本区域分别对应的区域尺寸信息,分别获取文本尺寸信息,与每个候选创作文本区域对应的区域尺寸信息之间的尺寸匹配度。根据尺寸匹配度,在Q个候选创作文本区域中选择L个尺寸匹配创作文本区域;L为小于或等于Q的正整数。在L个尺寸匹配创作文本区域中确定目标图像中的创作文本区域。
具体的,计算机设备确定目标图像中的非视觉显著区域后,可以以对目标图像中的非视觉显著区域进行区域划分,得到Q个候选创作文本区域,Q为正整数,如Q可以取值为1,2,3,…。其中,Q个候选创作文本区域的区域大小互不相同,且各个候选创作文本区域所覆盖的区域范围互不相同。其中,计算机设备可以以视觉显著区域的边缘所在位置对剩余区域进行划分,得到Q个候选创作文本区域。计算机设备可以获取Q个候选创作文本区域中每个候选创作文本区域对应的区域尺寸信息,该区域尺寸信息可以包括区域宽度和区域高度。进一步地,计算机设备可以分别获取目标文本的文本尺寸信息,与每个候选创作文本区域对应的区域尺寸信息之间的尺寸匹配度。根据该尺寸匹配度,在Q个候选创作文本区域中选择L个尺寸匹配创作文本区域,L为小于或者等于Q的正整数,如Q为3时,L可以取值为1,2,3…。例如,可以将尺寸匹配度排序在前三的3个候选创作文本区域,确定为3个尺寸匹配创作文本区域。进一步地,计算机设备可以在L个尺寸匹配创作文本区域,确定目标图像中的创作文本区域。
可选的,计算机设备在L个尺寸匹配创作文本区域中确定目标图像中的创作文本区域的具体方式可以包括:若L为1,则将尺寸匹配创作文本区域确定为目标图像中的创作文本区域;尺寸匹配创作文本区域具有最大尺寸匹配度。若L大于1,则获取L个尺寸匹配创作文本区域分别在目标图像中的区域显示位置,根据区域显示位置确定每个尺寸匹配创作文本区域对应的区域显著度。将L个尺寸匹配创作文本区域中,具有最大区域显著度的尺寸匹配创作文本区域确定为目标图像中的创作文本区域。
具体的,计算机设备可以从Q个候选创作文本区域中,确定最大的尺寸匹配度所对应的候选创作文本区域,得到L个尺寸匹配创作文本区域。若L为1,则将该尺寸匹配创作文本区域确定为目标图像中的创作文本区域,该尺寸匹配创作文本区域具有最大尺寸匹配度。若L大于1,则获取L个尺寸匹配创作文本区域分别在目标图像中的区域显示位置,根据该区域显示位置确定每个尺寸匹配创作文本区域对应的区域显著度。将L个尺寸匹配创作文本区域中,具有最大区域显著度的尺寸匹配创作文本区域确定为目标图像中的创作文本区域。这样,在确保目标文本显著显示在创作图像的同时,也可以避免目标文本遮挡目标图像中的主体对象,以确保目标文本和主体对象均显著显示在创作图像中,增强创作图像的显示效果。
可选的,计算机设备还可以获取每个候选创作文本区域的尺寸匹配度和区域显著度,根据该每个候选创作文本区域的尺寸匹配度和区域显著度,确定每个候选创作文本区域的区域评分,将Q个候选创作文本区域中,具有最大区域评分的候选创作文本区域确定为目标图像中的创作文本区域。
如图6所示,图6是本申请实施例提供的一种显著区域预测模型的示意图,如图6所示,计算机设备获取到目标图像60a后,可以调用显著区域预测模型中的区域分割层60b,对目标图像60a进行区域分割,得到M个候选区域。进一步地,计算机设备可以调用显著区域预测模型中的特征提取层60c,对分别对M个候选区域进行特征提取,得到M个候选区域分别对应的对象信息。计算机设备通过显著区域预测模型中的分类层60d,对M个候选区域进行分类处理,得到M个候选区域分别对应的区域内容类型。进一步地,计算机设备可以通过显著区域预测模型中的级联层60e,对每个候选区域的对象信息和区域内容类型进行合并处理,得到每个候选区域的合并区域特征。根据每个候选区域的合并区域特征,对每个候选区域进行影响度预测,得到每个候选区域的区域影响度。将M个候选区域中,区域影响度大于或者等于目标阈值的候选区域,确定为目标图像中的视觉显著区域60f。显著区域预测模型中区域分割层60b、特征提取层60c、分类层60d以及级联层60e的具体内容可以参见上述步骤S203的具体的内容,本申请实施例在此不赘述。
如图7所示,图7是本申请实施例提供的一种视觉显著区域的示意图,如图7所示,计算机设备对目标图像70a进行视觉显著区域提取,得到目标图像70a的视觉显著区域为70b。
如图8所示,图8是本申请实施例提供的一种视觉显著区域的示意图,如图8所示,计算机设备对目标图像80a进行视觉显著区域提取,得到目标图像80a的视觉显著区域为80b。
如图9所示,图9是本申请实施例提供的一种视觉显著区域的示意图,如图9所示,计算机设备对目标图像90a进行视觉显著区域提取,得到目标图像90a的视觉显著区域为90b。
在本申请实施例中,通过获取文本集合和目标图像;目标图像包括主体对象;响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本。可见,本方案可以在文本集合中确定与目标图像相匹配的目标文本,可以提高创作图像的生成准确性。进一步地,获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域,将目标文本添加至目标图像中的创作文本区域中,得到创作图像。非视觉显著区域为目标图像中不包括主体对象的关键部位的区域,这样,根据非视觉显著区域确定创作文本区域,在创作文本区域中添加目标文本时,并不会遮挡主体对象的关键部位,可以让目标文本和主体对象的关键部位均显示在创作图像中,可以丰富创作图像的显示效果。在本方案中,不用人工参与便可以快速生成创作图像,可以提高创作图像生成的效率,同时可以让目标文本和主体对象均突出显示在创作图像中,可以丰富创作图像的显示效果。另外,本方案可以直接将目标图像和文本集合发送给服务设备,由服务设备生成关于目标图像和文本集合的创作图像,而不用调用目标用户终端中的GPU,可以提高创作图像的生成效率。另外,本方案在生成创作图像采用了文本语义识别模型、图像语义识别模型以及显著区域预测模型,可以提高创作图像生成的准确性。
请参见图10,图10是本申请实施例提供的一种图像生成方法的流程示意图。该图像生成方法可由图1中的任一用户终端来执行,也可以由图1中的服务器来执行,还可以由图1中的任一用户终端和服务器共同执行,本申请中用于执行该方法的设备可以统称为计算机设备。如图10所示,该图像生成方法可以包括但不限于以下步骤:
S201,获取文本集合和目标图像。
具体的,本申请实施例中步骤S101的具体内容可以参见上述图3中步骤S101的内容,本申请实施例在此不再赘述。
S202,响应于针对文本集合和目标图像的创作生成操作,输出创作图像。
具体的,目标对象选择好目标图像和文本集合后,可以实施针对目标图像和文本集合的创作生成操作,以生成创作图像。计算机设备可以响应于目标对象针对文本集合和目标图像的创作生成操作,输入创作图像,例如,在终端展示界面中显示创作图像。具体的,计算机设备可以从文本集合中确定目标文本。可选的,计算机设备可以将文本集合中任意一文本作为目标文本,或者,计算机设备可以从文本集合中获取与目标图像中的主体对象相关联的文本,作为目标文本。进一步地,计算机设备可以在目标图像中确定用于添加目标文本的创作文本区域,该创作文本区域可以为目标图像中不包括主体对象的关键部位的区域。这样,在目标图像的创作文本区域中添加目标文本时,不会遮挡目标图像中的主体对象的关键部位,同时对目标文本进行突出显示,以使目标文本和目标图像中的主体对象均突出显示在创作图像中,可以提高创作图像的显示效果。其中,目标文本的突出显示是指将目标文本显示在创作图像中的人眼感兴趣区域,同时显示合适大小的目标文本,以使用户较容易看到,主体对象的突出显示是指没有遮挡主体对象的关键部位。同时,目标对象输入目标图像和文本集合后,计算机设备可以自动从文本集合中选择出目标文本,并将该目标文本添加至目标图像中的创作文本区域中。该创作文本区域为目标图像中不包括主体对象的关键部位的区域,这样,可以使目标文本和主体对象突出显示在创作图像中,可以提高创作图像的生成效率和生产准确性,进而提高目标对象的用户体验感。
可选的,文本集合中可以包括N个文本,该N个文本包括目标文本,N为正整数,如N可以取值为1,2,3…。计算机设备响应于针对文本集合和目标图像的创作生成操作,输出创作图像的具体方式可以包括:响应于针对文本集合和目标图像的创作生成操作,在候选页面中显示N个候选创作图像。一个候选创作图像是基于文本集合中的一个文本和目标图像所生成;N个候选创作图像中的文本互不相同。响应于针对N个候选创作图像的选择操作,在确认页面中显示创作图像;创作图像为选择操作所选中的候选创作图像。
具体的,计算机设备可以响应于目标对象针对目标图像和文本集合的创作生成操作,在目标图像中确定创作文本区域,该创作文本区域用于添加文本,该创作文本区域可以为目标图像中不包括主体对象的关键部位的区域。计算机设备可以将文本集合中的每个文本添加至目标图像的创作文本区域中,生成N个候选创作图像,一个候选创作图像是文本集合中的一个文本和目标图像所生成的。文本集合中的一个文本添加至目标图像的创作文本区域中生成一个候选创作图像,N个候选创作图像中的文本互不相同。可以理解的是,计算机设备在目标图像中确定创作文本区域后,可以将文本集合中的文本分别添加至目标图像中的创作文本区域中,得到N个候选创作图像。
上述将文本集合中的每个文本添加至目标图像的创作文本区域中,生成N个候选创作图像,包括:将文本集合中的每个文本添加至目标图像的创作文本区域中,生成K个指定创作图像,从该K个指定创作图像中筛选出N个候选创作图像。例如,计算机设备可以获取K个指定创作图像中的主体对象的对象信息,根据对象信息从该K个指定创作图像中筛选出N个候选创作图像,该对象信息包括指定创作图像中的主体对象的尺寸、主体对象的关键部位的完整性、所包括的主体对象的数量等等中的一项或多项,如可以从该K个指定创作图像中筛选出主体对象的关键部位具有完整性的指定创作图像,作为候选创作图像,或者,从该K个指定创作图像中筛选出所包括主体对象的数量小于数量阈值的指定创作图像,作为候选创作图像;或者,从该K个指定创作图像中筛选出主体对象的尺寸大于尺寸阈值的指定创作图像,作为候选创作图像。
进一步地,计算机设备可以在候选页面中显示N个候选创作图像,目标对象可以在该N个候选创作图像中选择自己需要的创作图像。计算机设备可以响应于目标对象针对N个候选创作图像的选择操作,在确认页面中显示创作图像,该创作图像为目标对象针对N个候选创作图像的选择操作所选中的候选创作图像。例如,N个候选创作图像中包括候选创作图像1、候选创作图像2以及候选创作图像3,该三个候选创作图像中的文本互不相同。计算机设备可以在候选页面中显示候选创作图像1、候选创作图像2以及候选创作图像3,目标对象选中候选创作图像1和候选创作图像2后,计算机设备可以响应于目标对象的选择操作,在确认页面中显示候选创作图像1和候选创作图像2,并将该候选创作图像1和候选创作图像2确定为创作图像。这样,目标对象可以在N个候选创作图像中选择自己喜欢的创作图像,可以提高目标对象的参与性,也可以提高创作图像生成的灵活性。
可选的,计算机设备可以候选页面中显示N个候选创作图像后,还可以显示N个候选创作图像中每个候选创作图像对应的图文匹配度,该图文匹配度为候选创作图像中的文本与目标图像之间的匹配度。可以理解的是,计算机设备可以获取文本集合中每个文本与目标对象之间的匹配度,该匹配度可以是指语义匹配度、类型匹配度等,计算机设备在候选页面中显示N个候选创作图像时,还可以显示每个候选创作图像中文本与目标图像之间的图文匹配度。具体的,计算机设备可以在每个候选创作图像中的空白区域中显示图文匹配度,或者,计算机设备可以在每个候选创作图像对应的显示框中显示图文本匹配度。一个显示框对应一个候选创作图像,显示框通过线段与对应的候选创作图像相连,一个显示框中用于指示对应的候选创作图像中的文本和目标图像之间的图文匹配度。计算机设备显示每个候选创作图像的图文匹配度,该图文匹配度可以为目标对象选择创作图像提供参考信息。目标对象可以根据每个候选创作图像的图文匹配度,选择创作图像,这样,可以提高目标对象的参与性,也可以提高创作图像生成的灵活性。
可选的,N个文本中包括文本Ni,i为小于或者等于N的正整数,如当N为3时,i可以取值为1,2,3…。计算机设备在获取文本Ni与目标图像之间的图文匹配度时,可以获取文本Ni在目标图像中显示的区域位置信息,即该区域位置信息用于指示目标图像中用于添加文本Ni的位置信息。计算机设备还可以获取目标文本的文本语义信息,以及目标图像的图像语义信息,根据区域位置信息、文本语义信息以及图像语义信息,确定文本Ni与目标图像之间的图文匹配度。具体的,计算机设备可以在目标图像中确定区域位置信息所在的区域,获取与该区域位置信息所在的区域相邻的相邻区域。进一步地,计算机设备可以获取相邻区域的相邻图像语义信息,获取相邻图像语义信息与文本Ni的文本语义信息之间的匹配度,作为文本Ni对应的候选创作图像的图文匹配度。由于目标图像中不同位置的主体对象所表达的情感或者语义是不同的,因此,根据区域位置信息,确定文本Ni与目标图像之间的匹配度,可以准确得到与区域位置信息相邻的图像语义信息与文本Ni的文本语义信息之间的匹配度,提高图文匹配度的准确性。
可选的,目标对象可以根据自己的需求,对创作图像中的创作文本区域的位置和样式进行编辑。计算机设备还可以响应于针对创作图像中的创作文本区域的编辑操作,获取编辑后的创作文本区域,将创作图像中的目标文本更新显示到编辑后的创作文本区域中。这样,当目标对象对创作图像中创作文本区域的显示位置或者样式不满意时,可以对创作图像中的创作文本区域进行编辑,以编辑至自己喜欢的显示位置或者样式。这样,可以满足目标对象的个性化设置,提高创作图像生成的灵活性和准确性。
具体的,当目标对象对创作图像中的创作文本区域进行编辑后,计算机设备可以响应于目标对象对创作文本区域的编辑操作,获取编辑后的创作文本区域,将创作图像中的目标文本更新显示到编辑后的创作文本区域中。可选的,编辑操作包括拖延操作,目标对象可以对创作图像中的创作文本区域进行拖曳,以调整创作文本区域的显示位置。计算机设备可以响应于目标对象的拖曳操作,将显示在原始创作文本区域,更新显示在拖延操作所得到的调整位置,将显示在调整位置的创作文本区域确定为编辑后的创作文本区域。可选的,目标对象可以对创作图像中的创作文本区域的样式进行编辑,计算机设备可以响应于目标对象的样式编辑操作,获取编辑后的创作文本区域。将创作图像中的目标文本更新显示到编辑后的创作文本区域中。
可选的,目标对象也可以对创作图像中的目标文本进行编辑,如样式编辑、字体编辑、色彩编辑等。计算机设备可以响应于目标对象对创作图像中目标文本的编辑操作,获取编辑后的目标文本,将创作图像中创作文本区域中的目标文本更新显示为编辑后的目标文本。同样的,当目标对象对创作图像中目标文本的样式不满意时,可以对创作图像中的目标文本进行编辑,以编辑至自己喜欢的样式。这样,可以满足目标对象的个性化设置,提高创作图像生成的灵活性和准确性。
可选的,计算机设备响应于针对文本集合和目标图像的创作生成操作,输出创作图像的具体方式可以包括:响应于针对文本集合和目标图像的创作生成操作,显示区域位置信息和目标文本;区域位置信息用于指示目标文本显示在目标图像中的位置信息。响应于针对目标文本和目标图像的合成操作,将目标图像中区域位置信息所指示的区域,作为创作文本区域。在创作文本区域中添加目标文本,得到创作图像,显示创作图像。计算机设备可以显示区域位置信息和目标文本,该目标文本可以是文本集合中与目标图像之间的匹配度最高的文本。这样,目标对象可以自主将目标文本添加至目标图像中区域位置信息所指示的区域中,得到创作图像,可以提高目标对象的参与性,也可以提高创作图像生成的灵活性。同时,目标对象可以对目标文本进行编辑,再将编辑后的目标文本添加至目标图像中区域位置信息所指示的区域中,得到创作图像,可以满足目标对象对目标文本的个性化设置,提高创作图像生成的准确性。
具体的,计算机设备可以响应于目标对象针对与文本集合和目标图像的创作生成操作,获取文本集合中每个文本与目标图像之间的图文匹配度,将文本集合中,最大的图文匹配度的文本确定为目标文本。同时,对目标图像进行图像识别,得到目标图像的图像内容信息,根据该图像内容信息确定用于添加目标文本的区域位置信息。进一步地,计算机设备可以在终端展示界面中显示区域位置信息和目标文本,该区域位置信息用于指示目标文本显示在目标图像中的位置信息,该区域位置信息可以是指以目标图像的左下角为坐标原点所得到的坐标信息。例如,目标文本可以为“今天真高兴呀!”,区域位置信息可以为“[0,0],[128,0],[128,36],[0,36]”。例如,计算机设备可以在目标图像中以线段形式显示区域位置信息。这样,目标对象可以对区域位置信息和目标文本进行编辑,当编辑完成后,可以实施针对目标文本和目标图像的合成操作,生成创作图像。计算机设备可以响应于目标对象的合成操作,将目标图像中区域位置信息所指示的区域,作为创作文本区域,在创作文本区域中添加目标文本,得到创作图像,并显示创作图像。这样,可以为目标对象提供个性化设计创作图像的条件,同时也可以提高目标对象的参与性,进而提高创作图像生成的准确性。
可选的,目标对象可以对计算机设备在终端展示界面中显示的区域位置信息和目标文本进行调整。计算机设备可以响应于针对区域位置信息的调整操作,将创作图像中调整后的区域位置信息所指示的区域,作为更新创作文本区域,将创作图像中的目标文本更新显示到更新创作文本区域中。这样,可以为目标对象提供个性化设计创作图像的条件,可以自主设计目标文本的样式和内容,以及设计目标文本在目标图像中的显示位置,可以提高目标对象的参与性,进而提高创作图像生成的准确性。
具体的,计算机设备在终端展示界面中显示区域位置信息和目标文本后,若目标对象对区域位置信息或者文本不满意时,可以对区域位置信息和目标文本进行调整,以调整至自己喜欢的区域位置信息和目标文本。计算机设备可以响应于目标对象针对区域位置信息的调整操作,获取调整后的区域位置信息,将创作图像中调整后的区域位置信息所指示的区域,确定为更新创作文本区域。进一步地,计算机设备可以将创作图像中的目标文本更新显示到更新创作文本区域中。可选的,目标对象也可以对目标文本的文本内容或者文本样式进行调整,计算机设备可以响应于目标对象对目标文本的调整操作,获取调整后的目标文本。进一步地,将创作图像中创作文本区域中显示的目标文本更新显示为调整后的目标文本。
如图11所示,图11是本申请实施例提供的一种输出创作图像的示意图,如图11所示,目标对象110b在其持有的目标用户终端的终端展示界面110a中输入目标图像和文本集合后,可以实施针对目标图像和文本集合的创作生成操作,以得到创作图像。如图11所示,终端展示界面中包括生成控件110c,目标对象110b可以点击该生成控件110c,以触发针对目标图像和文本集合的生成操作。目标用户终端可以响应于目标对象110b针对目标图像和文本集合的创作生成操作,生成包含目标图像的图像地址和文本集合的文本地址的创作请求,并将终端展示页面110a切换成终端展示页面110e。如图11所示,终端展示页面中显示“数据生成中”,以提示目标对象110b,目标用户终端正在生成创作图像。
进一步地,目标用户终端可以将创作请求发送给服务设备110d,服务设备110d可以根据创作请求中文本集合的文本地址以及目标图像的图像地址,获取文本集合和目标图像。服务设备110d可以从文本集合中确定目标文本,例如,将文本集合中与目标图像之间的图文匹配度最大的文本确定为目标文本。服务设备110d可以从目标图像中确定区域位置信息,该区域位置信息可以为目标图像中主体对象所在区域之外的其他区域,该区域位置信息用于指示目标文本在目标图像中的显示信息。进一步地,服务设备110d可以将目标文本和区域位置信息返回给目标用户终端,目标用户终端接收到目标文本和区域位置信息后,可以输出该目标文本和区域位置信息,如图11所示,目标用户终端可以在终端展示界面110f显示目标文本110i“*******”和区域位置信息110j“[0,0],[128,0],[128,36],[0,36]”。如终端展示界面110f所示,目标用户终端还可以显示区域位置信息在目标图像中的显示位置110g,这样,目标对象110b可以直观的看到区域位置信息在目标图像中的显示位置。可选的,当目标对象110b对区域位置信息110i在目标图像中的显示位置或者目标文本110j不满意时,可以对该目标文本110i或者区域位置信息110j进行编辑,以编辑至满足的目标文本和区域位置信息。
如图11所示,终端展示界面中显示有合成控件110h,当目标对象110b实施针对该合成控件110h的触发操作后,目标用户终端可以在目标图像中确定区域位置信息所指示的区域,作为创作文本区域。进一步地,目标用户终端可以将目标文本添加至目标图像中的创作文本区域中,得到创作图像。目标用户终端将终端展示界面110f切换至终端展示页面110k,输出创作图像,如终端展示界面110k所示,在创作图像的创作文本区域中显示目标文本110l。可见,通过本方案生成的创作图像,目标文本与目标图像相关联,且目标文本和目标图像中的主体对象均显著显示在创作图像中,可以增强创作图像的显示效果,且可以提高创作图像的生成效率。
可选的,计算机设备响应于针对文本集合和目标图像的创作生成操作,输出创作图像的具体方式可以包括:响应于针对文本集合和目标图像的创作生成操作,获取文本集合的文本地址和目标图像的图像地址。向服务设备发送携带文本地址和图像地址的创作请求,以使服务设备根据创作请求中的文本地址和图像地址生成创作图像,接收服务设备返回的创作图像,输出创作图像。
具体的,计算机设备可以由目标对象所持有的目标用户终端和服务设备组成。当目标对象选择好目标图像和文本集合后,可以通过目标用户终端实施针对该目标图像和文本集合的创作生成操作。目标用户终端可以响应于目标对象针对于目标图像和文本集合的创作生成操作,获取文本集合的文本地址,以及目标图像的图像地址。进一步地,目标用户终端可以生成携带文本集合的文本地址和目标图像的图像地址的创作请求,向服务设备发送携带文本集合的文本地址和目标图像的图像地址的创作请求。服务设备接收到文本集合的文本地址和目标图像的图像地址的创作请求后,可以根据文本地址获取文本集合,根据图像地址获取目标图像。根据目标图像和文本集合生成创作图像,进一步地,服务设备可以向目标用户终端返回创作图像,目标用户终端可以在终端展示界面中显示创作图像。
具体的,目标用户终端获取到目标图像的图像地址和文本集合的文本地址后,可以将该图像地址和文本地址添加至预设脚本中相应的字段中,生成携带图像地址和文本地址的创作请求。目标用户终端启动预设脚本后,可以将创作请求发送给服务设备,服务设备可以根据文本集合和目标图像,生成创作图像,并通过HTTP协议将创作图像返回给目标用户终端,目标用户终端可以在终端展示界面中显示创作图像。其中,HTTP协议是Hyper TextTransfer Protocol(超文本传输协议)的缩写,是用于从万维网服务器传输超文本到本地浏览器的传送协议。目标对象可以在终端显示界面下载创作图像,用于自己的需求,本方案生成创作图像的过程中,可以支持无GPU的快速生产,可以满足多种场合的合成需求,进而提高创作图像的生成效率。其中,GPU是指图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。本方案可以直接将目标图像和文本集合发送给服务设备,由服务设备生成关于目标图像和文本集合的创作图像,而不用调用目标用户终端中的GPU,可以提高创作图像的生成效率。
如图12所示,图12是本申请实施例提供的一种创作图像的示意图,如图12所示,计算机设备可以响应于针对目标图像和文本集合的创作生成操作,从文本集合中确定目标文本120c,在目标图像中确定创作文本区域,将目标文本120c添加至目标图像中的创作文本区域中,得到创作图像120a,并输入创作图像120a。如图12所示,该创作图像120a中的主体对象120b和目标文本120c均显著显示在创作图像120a中。
如图13所示,图13是本申请实施例提供的一种创作图像的示意图,如图13所示,计算机设备可以响应于针对目标图像和文本集合的创作生成操作,从文本集合中确定目标文本130c,在目标图像中确定创作文本区域,将目标文本130c添加至目标图像中的创作文本区域中,得到创作图像130a,并输入创作图像130a。如图13所示,该创作图像130a中的主体对象130b和目标文本130c均显著显示在创作图像130a中。
可选的,本方案可以应用于游戏场景中。具体的,计算机设备可以获取目标对象在玩游戏过程中的游戏操作视频,从该游戏操作视频中挑选出S帧视频帧,作为目标图像。其中,计算机设备可以从游戏操作视频中获取具有目标动作的视频帧,或者,完成目标任务时的视频帧,或者,取得目标成果时的视频帧等。进一步地,计算机设备可以采用图像语义识别模型,对目标图像进行语义识别,得到目标图像的图像语义。计算机设备可以获取样本文本集合中每个样本文本与目标图像的图像语义之间的匹配度,该样本文本集合可以是指计算机设备从网页数据中收集到的文本,也可以是指管理人员添加至计算机设备的特定文本,存储在计算机设备本地。进一步地,计算机设备可以将样本文本集合中,最大匹配度所对应的样本文本,确定为目标文本。计算机设备可以调用显著区域预测模型,确定目标图像中用于添加目标文本的创作文本区域,具体内容可以参见上述步骤S203的内容,本申请实施例在此不再赘述。进一步地,计算机设备可以将目标文本添加至目标图像的创作文本区域中,得到目标对象关于游戏操作视频的游戏创作图像。这样,当游戏结束后,可以将该游戏创作图像输出给目标对象,以提供给目标对象有创意的游戏创作图像,可以提高目标对象的游戏体验,提高趣味性。当然,计算机设备也可以将该游戏创作视频作为游戏操作视频的封面图像,这样,可以提高游戏视频封面的趣味性,进而提高游戏操作视频的观看吸引力。
其中,当本申请以上实施例运用到具体产品或技术中时,获取与目标对象相关联的对象信息、对目标图像进行语义识别以及对文本集合中的每个文本进行语义识别需要获得目标对象许可或者同意,且文本集合和目标图像获取、对目标图像进行语义识别以及对文本集合中的每个文本进行语义识别等信息的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,计算机设备可以在获取到用户针对上述信息的授权信息时,计算机设备才能获取与目标对象相关联的对象信息、对目标图像进行语义识别以及对文本集合中的每个文本进行语义识别。
通过获取文本集合和目标图像,该目标图像包括主体对象。当目标对象触发针对文本集合和目标图像的创作生成操作时,计算机设备可以响应于针对文本集合和目标图像的创作生成操作,输出创作图像。该创作图像是基于目标图像和目标文本所生成的,目标文本是从文本集合中确定的。其中,目标文本突出显示在创作图像中的创作文本区域,同时创作文本区域中的目标文本与主体对象的关键部位互不遮挡,进而使创作文本区域中的目标文本与主体对象的关键部位均在创作图像中突出显示。同时,本方案不用人工参与便可以自动生成创作图像,可以提高创作图像生成的效率,同时可以让目标文本和主体对象均突出显示在创作图像中,可以丰富创作图像的显示效果。另外,本方案可以直接将目标图像和文本集合发送给服务设备,由服务设备生成关于目标图像和文本集合的创作,而不用调用目标用户终端中的GPU,可以提高创作图像的生成效率。
请参见图14,图14是本申请实施例提供的一种图像生成装置的结构示意图。图14中的图像生成装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像生成装置1为一个应用软件;该图像生成装置1可以用于执行本申请实施例提供的图像生成方法中的相应步骤。如图14所示,该图像生成装置1可以包括:第一获取模块11、第一确定模块12、第二确定模块13以及添加模块14。
第一获取模块11,用于获取文本集合和目标图像;目标图像包括主体对象;
第一确定模块12,用于响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本;
第二确定模块13,用于获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域;非视觉显著区域为目标图像中不包括主体对象的关键部位的区域;
添加模块14,用于将目标文本添加至目标图像中的创作文本区域中,得到创作图像。
其中,文本集合包括N个文本,N个文本包括目标文本;N为正整数;第一确定模块12包括:
第一语义识别单元,用于调用文本语义识别模型,分别对N个文本进行语义识别,得到每个文本对应的文本语义;
第二语义识别单元,用于调用图像语义识别模型,对目标图像进行语义识别,得到目标图像对应的图像语义;
第一确定单元,用于确定每个文本对应的文本语义分别与图像语义之间的图文匹配度;
第二确定单元,用于将文本集合中,具有最大图文匹配度的文本,确定为与目标图像相匹配的目标文本。
其中,第一语义识别单元具体用于:
调用文本语义识别模型中的嵌入层,分别对N个文本进行嵌入向量转换,得到每个文本对应的文本嵌入向量;
调用文本语义识别模型中的自注意力特征提取层,基于每个文本的上下文信息和文本嵌入向量,对每个文本进行自注意力特征提取,得到每个文本对应的自注意力特征向量;
调用文本语义识别模型中的语义分类层,对每个文本对应的自注意力特征向量进行语义分类,得到每个文本对应的文本语义。
第一确定模块12还包括:
第一迭代训练单元,用于获取通用文本样本,采用通用文本样本对初始文本语义识别模型进行迭代训练,得到第一候选文本语义识别模型;
第二迭代训练单元,用于获取用于表征对象意图的意图文本样本,采用意图文本样本对第一候选文本语义识别模型进行迭代训练,得到第二候选文本语义识别模型;
第三迭代训练单元,用于获取创作图像样本,从创作图像样本中获取创作文本样本,采用创作文本样本对第二候选文本语义识别模型进行迭代训练,得到文本语义识别模型。
其中,第二确定模块13包括:
区域分割单元,用于调用显著区域预测模型,通过显著区域预测模型中的区域分割层,对目标图像进行区域分割,得到M个候选区域;M为正整数;
特征提取单元,用于通过显著区域预测模型中的特征提取层,分别对M个候选区域进行特征提取,得到每个候选区域中的主体对象的对象信息;
分类处理单元,用于通过显著区域预测模型中的分类层,对M个候选区域进行分类处理,得到M个候选区域分别对应的区域内容类型;
第三确定单元,用于根据对象信息和区域内容类型,从M个候选区域中确定目标图像中的视觉显著区域;视觉显著区域为主体对象的关键部位所在区域;
第四确定单元,用于将目标图像中除视觉显著区域之外的区域,确定为目标图像中的非视觉显著区域。
其中,第三确定单元具体用于:
通过显著区域预测模型中的级联层,对每个候选区域的对象信息和区域内容类型进行合并处理,得到每个候选区域的合并区域特征;
根据每个候选区域的合并区域特征,对每个候选区域进行影响度预测,得到每个候选区域的区域影响度;
将M个候选区域中,区域影响度大于或者等于目标阈值的候选区域,确定为目标图像中的视觉显著区域。
其中,添加模块14包括:
第一获取单元,用于获取目标文本的文本尺寸信息;
第五确定单元,用于根据文本尺寸信息以及非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域;
添加单元,用于将目标文本添加至目标图像中的创作文本区域中,得到创作图像。
其中,第五确定单元具体用于:
对目标图像中非视觉显著区域进行区域划分,得到Q个候选创作文本区域;Q为正整数;
获取每个候选创作文本区域分别对应的区域尺寸信息;
分别获取文本尺寸信息,与每个候选创作文本区域对应的区域尺寸信息之间的尺寸匹配度;
根据尺寸匹配度,在Q个候选创作文本区域中选择L个尺寸匹配创作文本区域;L为小于或等于Q的正整数;
在L个尺寸匹配创作文本区域中确定目标图像中的创作文本区域。
其中,第五确定单元具体用于:
若L为1,则将尺寸匹配创作文本区域确定为目标图像中的创作文本区域;尺寸匹配创作文本区域具有最大尺寸匹配度;
若L大于1,则获取L个尺寸匹配创作文本区域分别在目标图像中的区域显示位置,根据区域显示位置确定每个尺寸匹配创作文本区域对应的区域显著度;
将L个尺寸匹配创作文本区域中,具有最大区域显著度的尺寸匹配创作文本区域确定为目标图像中的创作文本区域。
根据本申请的一个实施例,图14示的图像生成装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,测试装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
在本申请实施例中,通过获取文本集合和目标图像;目标图像包括主体对象;响应于针对文本集合和目标图像的创作生成操作,从文本集合中确定与目标图像相匹配的目标文本。可见,本方案可以在文本集合中确定与目标图像相匹配的目标文本,可以提高创作图像的生成准确性。进一步地,获取目标图像中的非视觉显著区域,根据非视觉显著区域,在目标图像中确定用于添加目标文本的创作文本区域,将目标文本添加至目标图像中的创作文本区域中,得到创作图像。非视觉显著区域为目标图像中不包括主体对象的关键部位的区域,这样,根据非视觉显著区域确定创作文本区域,在创作文本区域中添加目标文本时,并不会遮挡主体对象的关键部位,可以让目标文本和主体对象的关键部位均显示在创作图像中,可以丰富创作图像的显示效果。在本方案中,不用人工参与便可以快速生成创作图像,可以提高创作图像生成的效率,同时可以让目标文本和主体对象均显示在创作图像中,可以丰富创作图像的显示效果。另外,本方案可以直接将目标图像和文本集合发送给服务设备,由服务设备生成关于目标图像和文本集合的创作图像,而不用调用目标用户终端中的GPU,可以提高创作图像的生成效率。另外,本方案在生成创作图像采用了文本语义识别模型、图像语义识别模型以及显著区域预测模型,可以提高创作图像生成的准确性。
请参见图15,图15是本申请实施例提供的一种图像生成装置的结构示意图。图15中的图像生成装置2可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像生成装置2为一个应用软件;该图像生成装置2可以用于执行本申请实施例提供的图像生成方法中的相应步骤。如图15所示,该图像生成装置2可以包括:第二获取模块21、输出模块22以及更新显示模块23。
第二获取模块21,用于获取文本集合和目标图像;目标图像包括主体对象;
输出模块22,用于响应于针对文本集合和目标图像的创作生成操作,输出创作图像;创作图像是基于目标图像和目标文本所生成的;目标文本突出显示在创作图像中的创作文本区域;创作文本区域中的目标文本与主体对象的关键部位互不遮挡;目标文本属于文本集合。
其中,文本集合包括N个文本,N个文本包括目标文本;输出模块22包括:
第一显示单元,用于响应于针对文本集合和目标图像的创作生成操作,在候选页面中显示N个候选创作图像;一个候选创作图像是基于文本集合中的一个文本和目标图像所生成;N个候选创作图像中的文本互不相同;
第二显示单元,用于响应于针对N个候选创作图像的选择操作,在确认页面中显示创作图像;创作图像为选择操作所选中的候选创作图像。
其中,输出模块22还包括:
第三显示单元,用于在候选页面中,显示每个候选创作图像对应的图文匹配度;图文匹配度为候选创作图像中的文本与目标图像之间的匹配度。
其中,图像生成装置还包括:
更新显示模块23,用于响应于针对创作图像中的创作文本区域的编辑操作,获取编辑后的创作文本区域,将创作图像中的目标文本更新显示到编辑后的创作文本区域中。
其中,输出模块22包括:
第四显示单元,用于响应于针对文本集合和目标图像的创作生成操作,显示区域位置信息和目标文本;区域位置信息用于指示目标文本显示在目标图像中的位置信息;
第六确定单元,用于响应于针对目标文本和目标图像的合成操作,将目标图像中区域位置信息所指示的区域,作为创作文本区域;
第五显示单元,用于在创作文本区域中添加目标文本,得到创作图像,显示创作图像。
其中,输出模块22还包括:
更新显示单元,用于响应于针对区域位置信息的调整操作,将创作图像中调整后的区域位置信息所指示的区域,作为更新创作文本区域,将创作图像中的目标文本更新显示到更新创作文本区域中。
其中,第二获取模块21包括:
第六显示单元,用于响应于针对语音控件的触发操作,显示转换文本以及文本集合;转换文本是对通过触发语音控件所获取到的语音数据进行文本转换得到的;文本集合包括基于转换文本所划分得到的一个或多个文本;
第七确定单元,用于响应于针对图像输入区域的触发操作,获取视频数据,将视频数据中的视频帧,作为目标图像。
其中,输出模块22还包括:
第二获取单元,用于响应于针对文本集合和目标图像的创作生成操作,获取文本集合的文本地址和目标图像的图像地址;
发送单元,用于向服务设备发送携带文本地址和图像地址的创作请求,以使服务设备根据创作请求中的文本地址和图像地址生成创作图像;
输出单元,用于接收服务设备返回的创作图像,输出创作图像。
根据本申请的一个实施例,图15示的图像生成装置2中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,测试装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
通过获取文本集合和目标图像,该目标图像包括主体对象。当目标对象触发针对文本集合和目标图像的创作生成操作时,计算机设备可以响应于针对文本集合和目标图像的创作生成操作,输出创作图像。该创作图像是基于目标图像和目标文本所生成的,目标文本是从文本集合中确定的。其中,目标文本突出显示在创作图像中的创作文本区域,同时创作文本区域中的目标文本与主体对象的关键部位互不遮挡,进而使创作文本区域中的目标文本与主体对象的关键部位均在创作图像中突出显示。同时,本方案不用人工参与便可以自动生成创作图像,可以提高创作图像生成的效率,同时可以让目标文本和主体对象均突出显示在创作图像中,可以丰富创作图像的显示效果。另外,本方案可以直接将目标图像和文本集合发送给服务设备,由服务设备生成关于目标图像和文本集合的创作,而不用调用目标用户终端中的GPU,可以提高创作图像的生成效率。
请参见图16,图16是本申请实施例提供的一种计算机设备的结构示意图。如图16所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图16所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图16所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3所对应实施例中对图像生成方法的描述,也可执行前文图14所对应实施例中对图像生成装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图10所对应实施例中对图像生成方法的描述,也可执行前文图15所对应实施例中对图像生成装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像生成装置所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3和图10所对应实施例中对图像生成方法的描述,因此,这里将不再进行赘述。
另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3和图10所对应实施例中对图像生成方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (21)
1.一种图像生成方法,其特征在于,包括:
获取文本集合和目标图像;所述目标图像包括主体对象;
响应于针对所述文本集合和所述目标图像的创作生成操作,从所述文本集合中确定与所述目标图像相匹配的目标文本;
获取所述目标图像中的非视觉显著区域,根据所述非视觉显著区域,在所述目标图像中确定用于添加所述目标文本的创作文本区域;所述非视觉显著区域为所述目标图像中不包括所述主体对象的关键部位的区域;
将所述目标文本添加至所述目标图像中的创作文本区域中,得到创作图像。
2.根据权利要求1所述的方法,其特征在于,所述文本集合包括N个文本,所述N个文本包括所述目标文本;N为正整数;所述从所述文本集合中确定与所述目标图像相匹配的目标文本,包括:
调用文本语义识别模型,分别对所述N个文本进行语义识别,得到每个文本对应的文本语义;
调用图像语义识别模型,对所述目标图像进行语义识别,得到所述目标图像对应的图像语义;
确定所述每个文本对应的文本语义分别与所述图像语义之间的图文匹配度;
将所述文本集合中,具有最大图文匹配度的文本,确定与所述目标图像相匹配的目标文本。
3.根据权利要求2所述的方法,其特征在于,所述调用文本语义识别模型,分别对所述N个文本进行语义识别,得到每个文本对应的文本语义,包括:
调用所述文本语义识别模型中的嵌入层,分别对所述N个文本进行嵌入向量转换,得到每个文本对应的文本嵌入向量;
调用所述文本语义识别模型中的自注意力特征提取层,基于所述每个文本的上下文信息和文本嵌入向量,对所述每个文本进行自注意力特征提取,得到所述每个文本对应的自注意力特征向量;
调用所述文本语义识别模型中的语义分类层,对所述每个文本对应的自注意力特征向量进行语义分类,得到所述每个文本对应的文本语义。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取通用文本样本,采用所述通用文本样本对初始文本语义识别模型进行迭代训练,得到第一候选文本语义识别模型;
获取用于表征对象意图的意图文本样本,采用所述意图文本样本对所述第一候选文本语义识别模型进行迭代训练,得到第二候选文本语义识别模型;
获取创作图像样本,从所述创作图像样本中获取创作文本样本,采用所述创作文本样本对所述第二候选文本语义识别模型进行迭代训练,得到所述文本语义识别模型。
5.根据权利要求1所述的方法,其特征在于,所述获取所述目标图像中的非视觉显著区域,包括:
调用显著区域预测模型,通过所述显著区域预测模型中的区域分割层,对所述目标图像进行区域分割,得到M个候选区域;M为正整数;
通过所述显著区域预测模型中的特征提取层,分别对所述M个候选区域进行特征提取,得到每个候选区域中的主体对象的对象信息;
通过所述显著区域预测模型中的分类层,对所述M个候选区域进行分类处理,得到M个候选区域分别对应的区域内容类型;
根据所述对象信息和所述区域内容类型,从所述M个候选区域中确定所述目标图像中的视觉显著区域;所述视觉显著区域为所述主体对象的关键部位所在区域;
将所述目标图像中除所述视觉显著区域之外的区域,确定为所述目标图像中的非视觉显著区域。
6.根据权利要求5所述的方法,其特征在于,所述根据所述对象信息和所述区域内容类型,从所述M个候选区域中确定所述目标图像中的视觉显著区域,包括:
通过所述显著区域预测模型中的级联层,对所述每个候选区域的对象信息和区域内容类型进行合并处理,得到所述每个候选区域的合并区域特征;
根据所述每个候选区域的合并区域特征,对所述每个候选区域进行影响度预测,得到所述每个候选区域的区域影响度;
将所述M个候选区域中,区域影响度大于或者等于目标阈值的候选区域,确定为所述目标图像中的视觉显著区域。
7.根据权利要求1所述的方法,其特征在于,所述根据所述非视觉显著区域,在所述目标图像中确定用于添加所述目标文本的创作文本区域,包括:
获取所述目标文本的文本尺寸信息;
根据所述文本尺寸信息以及所述非视觉显著区域,在所述目标图像中确定用于添加所述目标文本的创作文本区域。
8.根据权利要求7所述的方法,其特征在于,所述根据所述文本尺寸信息以及所述非视觉显著区域,在所述目标图像中确定用于添加所述目标文本的创作文本区域,包括:
对所述目标图像中所述非视觉显著区域进行区域划分,得到Q个候选创作文本区域;Q为正整数;
获取每个候选创作文本区域分别对应的区域尺寸信息;
分别获取所述文本尺寸信息,与所述每个候选创作文本区域对应的区域尺寸信息之间的尺寸匹配度;
根据所述尺寸匹配度,在所述Q个候选创作文本区域中选择L个尺寸匹配创作文本区域;L为小于或等于Q的正整数;
在L个尺寸匹配创作文本区域中确定所述目标图像中的创作文本区域。
9.根据权利要求8所述的方法,其特征在于,所述在L个尺寸匹配创作文本区域中确定所述目标图像中的创作文本区域,包括:
若L为1,则将所述尺寸匹配创作文本区域确定为所述目标图像中的创作文本区域;所述尺寸匹配创作文本区域具有最大尺寸匹配度;
若L大于1,则获取L个尺寸匹配创作文本区域分别在所述目标图像中的区域显示位置,根据所述区域显示位置确定每个尺寸匹配创作文本区域对应的区域显著度;
将所述L个尺寸匹配创作文本区域中,具有最大区域显著度的尺寸匹配创作文本区域确定为所述目标图像中的创作文本区域。
10.一种图像生成方法,其特征在于,包括:
获取文本集合和目标图像;所述目标图像包括主体对象;
响应于针对所述文本集合和所述目标图像的创作生成操作,输出创作图像;所述创作图像是基于所述目标图像和目标文本所生成的;所述目标文本突出显示在所述创作图像中的创作文本区域;所述创作文本区域中的所述目标文本与所述主体对象的关键部位互不遮挡;所述目标文本属于所述文本集合。
11.根据权利要求10所述的方法,其特征在于,所述文本集合包括N个文本,所述N个文本包括所述目标文本;N为正整数;所述响应于针对所述文本集合和所述目标图像的创作生成操作,输出创作图像,包括:
响应于针对所述文本集合和所述目标图像的创作生成操作,在候选页面中显示N个候选创作图像;一个候选创作图像是基于所述文本集合中的一个文本和所述目标图像所生成;所述N个候选创作图像中的文本互不相同;
响应于针对所述N个候选创作图像的选择操作,在确认页面中显示创作图像;所述创作图像为所述选择操作所选中的候选创作图像。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
在所述候选页面中,显示每个候选创作图像对应的图文匹配度;所述图文匹配度为候选创作图像中的文本与所述目标图像之间的匹配度。
13.根据权利要求10所述的方法,其特征在于,所述方法还包括:
响应于针对所述创作图像中的创作文本区域的编辑操作,获取编辑后的创作文本区域,将所述创作图像中的所述目标文本更新显示到所述编辑后的创作文本区域中。
14.根据权利要求10所述的方法,其特征在于,所述响应于针对所述文本集合和所述目标图像的创作生成操作,输出创作图像,包括:
响应于针对所述文本集合和所述目标图像的创作生成操作,显示区域位置信息和所述目标文本;所述区域位置信息用于指示所述目标文本显示在所述目标图像中的位置信息;
响应于针对所述目标文本和所述目标图像的合成操作,将所述目标图像中所述区域位置信息所指示的区域,作为创作文本区域;
在所述创作文本区域中添加所述目标文本,得到所述创作图像,显示所述创作图像。
15.根据权利要求14所述的方法,其特征在于,所述方法还包括:
响应于针对所述区域位置信息的调整操作,将所述创作图像中调整后的区域位置信息所指示的区域,作为更新创作文本区域,将所述创作图像中的所述目标文本更新显示到所述更新创作文本区域中。
16.根据权利要求10所述的方法,其特征在于,所述获取文本集合和目标图像,包括:
响应于针对语音控件的触发操作,显示转换文本以及文本集合;所述转换文本是对通过触发所述语音控件所获取到的语音数据进行文本转换得到的;所述文本集合包括基于所述转换文本所划分得到的一个或多个文本;
响应于针对图像输入区域的触发操作,获取视频数据,将所述视频数据中的视频帧,作为目标图像。
17.根据权利要求10所述的方法,其特征在于,所述响应于针对所述文本集合和所述目标图像的创作生成操作,输出创作图像,包括:
响应于针对所述文本集合和所述目标图像的创作生成操作,获取所述文本集合的文本地址和所述目标图像的图像地址;
向服务设备发送携带所述文本地址和所述图像地址的创作请求,以使所述服务设备根据所述创作请求中的所述文本地址和所述图像地址生成创作图像;
接收所述服务设备返回的创作图像,输出所述创作图像。
18.一种图像生成装置,其特征在于,包括:
第一获取模块,用于获取文本集合和目标图像;所述目标图像包括主体对象;
第一确定模块,用于响应于针对所述文本集合和所述目标图像的创作生成操作,从所述文本集合中确定与所述目标图像相匹配的目标文本;
第二确定模块,用于获取所述目标图像中的非视觉显著区域,根据所述非视觉显著区域,在所述目标图像中确定用于添加所述目标文本的创作文本区域;所述非视觉显著区域为所述目标图像中不包括所述主体对象的关键部位的区域;
添加模块,用于将所述目标文本添加至所述目标图像中的创作文本区域中,得到创作图像。
19.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-17任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-17任一项所述的方法。
21.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,所述计算机指令适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1-17任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210138243.6A CN114529635B (zh) | 2022-02-15 | 2022-02-15 | 一种图像生成方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210138243.6A CN114529635B (zh) | 2022-02-15 | 2022-02-15 | 一种图像生成方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114529635A true CN114529635A (zh) | 2022-05-24 |
CN114529635B CN114529635B (zh) | 2024-08-20 |
Family
ID=81622929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210138243.6A Active CN114529635B (zh) | 2022-02-15 | 2022-02-15 | 一种图像生成方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529635B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099855A (zh) * | 2022-06-23 | 2022-09-23 | 广州华多网络科技有限公司 | 广告文案创作模型制备方法及其装置、设备、介质、产品 |
CN115619904A (zh) * | 2022-09-09 | 2023-01-17 | 北京字跳网络技术有限公司 | 图像处理方法、装置及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369196A (zh) * | 2017-06-30 | 2017-11-21 | 广东欧珀移动通信有限公司 | 表情包制作方法、装置、存储介质及电子设备 |
CN109886282A (zh) * | 2019-02-26 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机可读存储介质和计算机设备 |
CN110264545A (zh) * | 2019-06-19 | 2019-09-20 | 北京字节跳动网络技术有限公司 | 图片生成方法、装置、电子设备及存储介质 |
CN111353064A (zh) * | 2020-02-28 | 2020-06-30 | 北京百度网讯科技有限公司 | 表情包生成方法、装置、设备和介质 |
CN111415396A (zh) * | 2019-01-08 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 一种图像生成方法、装置和存储介质 |
US20200410686A1 (en) * | 2019-06-26 | 2020-12-31 | Adobe Inc. | Automatic sizing and placement of text within a digital image |
US20210027508A1 (en) * | 2019-07-22 | 2021-01-28 | Adobe Inc. | Automatic Positioning of Textual Content Within Digital Images |
US20210110587A1 (en) * | 2019-10-14 | 2021-04-15 | Adobe Inc. | Automatic Positioning of Textual Content within Digital Images |
CN112749291A (zh) * | 2020-08-25 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种图文匹配的方法和装置 |
CN113590854A (zh) * | 2021-09-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
-
2022
- 2022-02-15 CN CN202210138243.6A patent/CN114529635B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369196A (zh) * | 2017-06-30 | 2017-11-21 | 广东欧珀移动通信有限公司 | 表情包制作方法、装置、存储介质及电子设备 |
CN111415396A (zh) * | 2019-01-08 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 一种图像生成方法、装置和存储介质 |
CN109886282A (zh) * | 2019-02-26 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机可读存储介质和计算机设备 |
CN110264545A (zh) * | 2019-06-19 | 2019-09-20 | 北京字节跳动网络技术有限公司 | 图片生成方法、装置、电子设备及存储介质 |
US20200410686A1 (en) * | 2019-06-26 | 2020-12-31 | Adobe Inc. | Automatic sizing and placement of text within a digital image |
US20210027508A1 (en) * | 2019-07-22 | 2021-01-28 | Adobe Inc. | Automatic Positioning of Textual Content Within Digital Images |
US20210110587A1 (en) * | 2019-10-14 | 2021-04-15 | Adobe Inc. | Automatic Positioning of Textual Content within Digital Images |
CN111353064A (zh) * | 2020-02-28 | 2020-06-30 | 北京百度网讯科技有限公司 | 表情包生成方法、装置、设备和介质 |
CN112749291A (zh) * | 2020-08-25 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种图文匹配的方法和装置 |
CN113590854A (zh) * | 2021-09-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
崔兰耀主编: "中文版Flash 8动画创作专业技能培训教程", 31 January 2007, 北京:航空工业出版社, pages: 341 - 343 * |
王挺进;赵永威;李弼程;: "基于显著图加权视觉语言模型的图像分类方法", 计算机工程, no. 03, 15 March 2015 (2015-03-15), pages 204 - 210 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099855A (zh) * | 2022-06-23 | 2022-09-23 | 广州华多网络科技有限公司 | 广告文案创作模型制备方法及其装置、设备、介质、产品 |
CN115619904A (zh) * | 2022-09-09 | 2023-01-17 | 北京字跳网络技术有限公司 | 图像处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114529635B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260545B (zh) | 生成图像的方法和装置 | |
CN114529635B (zh) | 一种图像生成方法、装置、存储介质及设备 | |
CN111586466B (zh) | 一种视频数据处理方法、装置及存储介质 | |
KR102490319B1 (ko) | 인공지능 콘텐츠 자동 생성 및 변형 방법 | |
CN113569037A (zh) | 一种消息处理方法、装置以及可读存储介质 | |
US20180143741A1 (en) | Intelligent graphical feature generation for user content | |
CN117011875A (zh) | 多媒体页面的生成方法、装置、设备、介质和程序产品 | |
CN114419527B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN113407766A (zh) | 视觉动画显示方法及相关设备 | |
CN116977457A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114286154A (zh) | 多媒体文件的字幕处理方法、装置、电子设备及存储介质 | |
CN113573128B (zh) | 一种音频处理方法、装置、终端以及存储介质 | |
CN112569591B (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 | |
CN111062207A (zh) | 表情图像处理方法、装置、计算机存储介质及电子设备 | |
CN117009577A (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
CN113761281A (zh) | 虚拟资源处理方法、装置、介质及电子设备 | |
CN115082930A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN112115231A (zh) | 一种数据处理方法及装置 | |
CN118152609B (zh) | 图像生成方法、装置、计算机设备 | |
CN114328990B (zh) | 图像完整性识别方法、装置、计算机设备和存储介质 | |
CN117828010A (zh) | 文本处理方法、装置、电子设备、存储介质以及程序产品 | |
CN117523046A (zh) | 口型动画生成方法、装置、电子设备以及存储介质 | |
CN115409917A (zh) | 图像生成方法、装置、存储介质及计算机设备 | |
CN116958965A (zh) | 封面图片的识别方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40071915 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |