CN116433825B - 图像生成方法、装置、计算机设备及存储介质 - Google Patents

图像生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116433825B
CN116433825B CN202310596684.5A CN202310596684A CN116433825B CN 116433825 B CN116433825 B CN 116433825B CN 202310596684 A CN202310596684 A CN 202310596684A CN 116433825 B CN116433825 B CN 116433825B
Authority
CN
China
Prior art keywords
target
text
description
descriptive
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310596684.5A
Other languages
English (en)
Other versions
CN116433825A (zh
Inventor
胡文皓
盛佳璇
夏俊
陈璇
曹溪语
关天梦
张久金
辛永正
苏文嗣
刘红星
佘俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310596684.5A priority Critical patent/CN116433825B/zh
Publication of CN116433825A publication Critical patent/CN116433825A/zh
Application granted granted Critical
Publication of CN116433825B publication Critical patent/CN116433825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提出一种图像生成方法、装置、计算机设备及存储介质,涉及计算机视觉和深度学习技术领域。包括:首先获取第一描述文本,然后确定第一描述文本与多个候选图像生成模型间的多个第一匹配度,再基于多个第一匹配度,确定目标图像生成模型及其关联的目标文本处理策略,之后对第一描述文本进行处理,获取多个第二描述文本,然后再将多个描述文本输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。由此极大程度上满足用户对目标生成图像的数量、效果需求,提高了AI绘画系统基于描述文本进行智能作画的灵活性,提高了智能生成图像的多样性,提升了用户的使用体验。

Description

图像生成方法、装置、计算机设备及存储介质
技术领域
本公开涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,尤其涉及一种图像生成方法、装置、计算机设备及存储介质。
背景技术
目前的人工智能(Artificial Intelligence,AI)绘画技术多是基于用户提供的文本(prompt)及选择的(或指定的,或应用智能确定的)风格,生成对应的图像。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
本公开第一方面实施例,提出了一种图像生成方法,包括:
获取第一描述文本;
确定所述第一描述文本分别与多个候选图像生成模型间的多个第一匹配度;
基于多个所述第一匹配度,确定目标图像生成模型及所述目标图像生成模型关联的目标文本处理策略;
基于所述目标文本处理策略,对所述第一描述文本进行处理,生成多个第二描述文本;分别将所述多个第二描述文本,输入所述目标图像生成模型,以获取每个所述第二描述
文本对应的至少一个目标图像。
本公开第二方面实施例,提出了一种图像生成装置,包括:
第一获取模块,用于获取第一描述文本;
第一确定模块,用于确定所述第一描述文本分别与多个候选图像生成模型间的多个第一匹配度;
第二确定模块,用于基于多个所述第一匹配度,确定目标图像生成模型及所述目标图像生成模型关联的目标文本处理策略;
生成模块,用于基于所述目标文本处理策略,对所述第一描述文本进行处理,生成多个第二描述文本;
第二获取模块,用于分别将所述多个第二描述文本,输入所述目标图像生成模型,以获取每个所述第二描述文本对应的至少一个目标图像。
本公开第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的图像生成方法。
本公开第四方面实施例提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现如本公开第一方面实施例提出的图像生成方法。
本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时,实现如本公开第一方面实施例提出的图像生成方法。
本公开提供的图像生成方法、装置、计算机设备及存储介质,存在如下有益效果:
本公开实施例中,首先获取第一描述文本,然后确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,再基于多个第一匹配度,确定目标图像生成模型及其关联的目标文本处理策略,之后对第一描述文本进行处理,获取多个第二描述文本,然后再将多个描述文本输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。由此极大程度上满足用户对目标生成图像的数量、效果需求,提高了AI绘画系统基于描述文本进行智能作画的灵活性,提高了智能生成图像的多样性,提升了用户的使用体验。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本公开一实施例所提供的一种图像生成方法的流程示意图;
图1(a)是本公开实施例中的AI绘画系统的目标图像生成界面显示图;
图2为本公开另一实施例所提供的一种图像生成方法的流程示意图;
图3为本公开另一实施例所提供的一种图像生成方法的流程示意图;
图4为本公开另一实施例所提供的一种图像生成方法的流程示意图;
图5为本公开另一实施例所提供的一种图像生成方法的流程示意图;
图6为本公开另一实施例所提供的一种图像生成方法的流程示意图;
图6(a)是本公开实施例中的AI绘画系统的画作详情界面显示图;
图7为本公开另一实施例所提供的一种图像生成方法的流程示意图;
图8为本公开另一实施例所提供的一种图像生成方法的流程示意图;
图9示出了适于用来实现本公开实施方式的示例性计算机设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。下面参考附图描述本公开实施例的图像生成方法、装置、计算机设备和存储介质。
需要说明的是,本公开实施例的图像生成方法的执行主体为图像生成装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
本公开实施例涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域。
其中,人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
计算机视觉,是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
深度学习,是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
图1为本公开一实施例所提供的一种图像生成方法的流程示意图。
如图1所示,该图像生成方法,可以包括:
步骤101,获取第一描述文本。
其中,第一描述文本,是指用户输入到人工智能AI绘画系统中的用于描述目标生成图像的文本信息,该第一描述文本可以为用户在AI绘画系统的显示界面中输入的自定义文本,或者也可以为AI绘画系统提供的推荐描述文本,本公开对此不做限制。
举例来说,如图1(a)所示,图1(a)是本公开实施例中的AI绘画系统的目标图像生成界面显示图。示意性的,本公开中的AI绘画系统的目标图像生成界面左侧区域可以为功能区,界面中间区域为工作台,界面右侧区域为创作记录。用户在功能区选择需要使用的功能,使用对应功能生成的图像将在中间工作台进行展示,同时创作历史将出现在右侧的创作记录列表中。当基于AI创作功能进行智能绘画时,可以选择推荐模式或者自定义模式。在推荐模式下,用户可以在功能区的文本输入区域输入对希望生成的目标图像内容进行描述的文本信息,或者选择系统推荐的文本信息来生成目标图像,之后AI绘画系统就可以获取到第一描述文本。
步骤102,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度。
其中,候选图像生成模型,是指预置在AI绘画系统中,可以根据描述文本生成对应类型图像的模型,例如二次元图像生成模型、水墨画图像生成模型、国风图像生成模型等等,本公开对此不做限定。
可选地,在一些实施例中,可以首先获取每个候选图像生成模型关联的第一描述词典,然后根据第一描述文本与每个第一描述词典中各第一描述词间的第二匹配度,确定第一描述文本与每个候选图像生成模型间的第一匹配度。从而提高了确定的第一匹配度的准确性和可靠性。
其中,第一描述词典,是指每个候选图像生成模型在生成对应类型图像时可以使用的描述词的集合。
本公开实施例中,每个第一描述词典可能包括多个第一描述词,可以计算第一描述文本与每个第一描述词的第二匹配度,然后将得到的各个第二匹配度进行(加权)求平均,得到第一描述文本与每个第一描述词典间的第一匹配度。或者,也可以将每个第一描述词典中各第一描述词对应的最高第二匹配度,确定为第一描述文本与第一描述词典间的第一匹配度等等,本公开对此不做限定。
可选地,可以通过多种方式,确定第一描述文本与每个第一描述词间的第二匹配度。比如,可以根据第一描述文本是否包含该第一描述词来计算第一描述文本与每个第一描述词的第二匹配度,包含第一描述词,则第一描述对应的第二匹配度为1,否则为0;或者,也可以根据第一描述文本中的描述词是否为第一描述词的同义词、近义词,来计算第一描述文本与每个第一描述词的第二匹配度,比如第一描述文本中的描述词为第一描述词的同义词或近义词,则第一描述词对应的第二匹配度为1,否则为0;或者,也可以根据第一描述文本中的各词与第一描述词间的距离(比如词向量间的余弦值)来确定第一描述文本与每个第一描述词间的第二匹配度等等,本公开对此不做限定。
步骤103,基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略。
其中,目标图像生成模型,是指在所有候选图像生成模型中与第一描述文本的信息较为匹配的图像生成模型,可能是对应第一匹配度最高的一个模型,也可能是根据目标图像的生成数量而选定的第一匹配度较高的多个模型等等,本公开对此不做限制。
其中,目标图像生成模型关联的目标文本处理策略,是指目标图像生成模型关联用于对第一描述文本进行扩充、替换等等的处理方案。
本公开实施例中,可以将对应的第一匹配度较高的一个或多个候选图像生成模型,确定为目标图像生成模型,然后获得各目标图像生成模型关联的目标文本处理策略。
本公开中,为了尽量减少AI绘画系统的数据处理量,本公开中AI绘画系统在确定了第一描述文本与每个候选图像生成模型间的第一匹配度后,可以首先确定包括第一描述文本的图像生成请求,是否请求获取多种不同风格的目标图像,并仅在确定其请求了多种不同风格的目标图像的情况下,再确定目标图像生成模型及关联的目标文本处理策略。
可选地,比如确定包括第一描述文本的图像生成请求中的第一服务参数的值为第一预设值,或者,确定包括第一描述文本的图像生成请求中的目标图像数量大于第二预设值,那么就可以确定当前的图像请求用于请求生成多种风格不同的图像,从而就可以选择一个或多个目标图像生成模型。
其中,图像生成请求,是指AI绘画系统获取的用于生成目标图像的操作请求,可能包含第一描述文本、第一服务参数、目标图像数量、图像比例等等,本公开对此不做限定。
其中,第一服务参数,是指本公开中,用于判断AI绘画系统提供的用于生成多种不同风格的图像的功能(比如,“灵感模式”)是否被开启的参数。比如,图像生成请求中第一服务参数为1,表示开启了该功能,第一服务参数为0表示未开启该功能等等,本公开对此不做限定。
其中,第一预设值,是指预设在AI绘画系统中,用于判断是否启动了生成多种不同风格的图像的功能(比如,“灵感模式”)的值,比如,第一预设值可以是1,本公开对此不做限定。
其中,第二预设值,是指预设在AI绘画系统中的一个阈值,AI绘画系统可以基于该值判断是否需要启动生成多种不同风格的图像的功能(比如,“灵感模式”)。图像生成请求中的目标图像数量小于或等于这个阈值时,可以确定该图像生成请求为一个普通生成请求,直接基于第一描述文本,生成一种风格的目标数量个图像。或者,当图像生成请求中的目标图像数量大于这个阈值时,直接基于第一描述文本可能无法生成满足目标数量的图像,因此AI绘画系统可以确定需要启用“灵感模式”服务,以得到目标数量个图像。
举例说明,如图1(a)所示,图1(a)是本公开实施例中的AI绘画系统的目标图像生成界面显示图,在AI绘画系统的界面左侧的功能区中,可以输入第一描述文本之后,用户可以在对图像比例进行选择设置(例如竖图、方图以及横图等),也可以对最终生成的目标图像数量进行设置。用户设置完毕,并点击功能区右下角的“立即生成”控件后,AI绘画系统接收到图像生成请求,该图像生成请求包括第一描述文本为“可爱的女孩”,第一服务参数为1,目标图像数量为4,图像比例为方图等等。由于AI绘画系统接收到的图像生成请求中第一预设值为1,可以确定“灵感模式”服务被启用。
步骤104,基于目标文本处理策略,对第一描述文本进行处理,生成多个第二描述文本。
其中,第二描述文本的数量,是可以根据图像生成请求中的目标图像数量而确定的。
本公开实施例中,可以利用目标图像生成模型关联的不同的描述词,对第一描述文本进行补充和/或替换,以生成与目标图像数量个相同的第二描述文本。
步骤105,分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
其中,目标图像生成模型,是指用于对描述文本进行绘画处理以生成相应图像的模型。
本公开实施例中,可以将得到的第二描述文本分别输入到目标图像生成模型,则每个第二描述文本可以至少得到一个目标图像,之后可以选取目标数量个目标图像在AI绘画系统的图像生成界面中进行展示。
本实施例中,AI绘画系统在获取到第一描述文本后,首先确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及其关联的目标文本处理策略,之后根据目标文本处理策略,对第一描述文本进行处理,得到多个第二描述文本,然后再将其分别输入到目标图像生成模型,以获取每个描述文本对应的至少一个目标图像。由此,极大程度上满足用户对目标生成图像的数量、效果需求,提高了AI绘画系统基于描述文本进行智能作画的灵活性,提高了智能生成图像的多样性,提升了用户的使用体验。
图2为本公开另一实施例所提供的一种图像生成方法的流程示意图。
如图2所示,该图像生成方法,可以包括:
步骤201,获取第一描述文本。
步骤202,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度。
步骤203,基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略。
上述步骤201-203的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
步骤204,对第一描述文本进行完整性校验。
在本公开实施例中,可以通过判断第一描述文本的语义是否完整,来校验该第一描述文本的完整性。
步骤205,在校验未通过的情况下,确定第一描述文本中包含的主体词所属的第一词性类及包含的画面主体。
其中,主体词,是指第一描述文本中包含的用于描述生成的图像中的画面主体的词,,比如,第一描述文本为“可爱的小女孩”,则画面主体为“女孩”。
其中,画面主体,是指第一描述文本用户生成的图像中的主体,可以是物体或者人物等等,比如,第一描述文本为“可爱的小女孩”,则画面主体为“女孩”。
其中,第一词性类,是指预先设置在AI绘画系统中的词性分类集合,可以是Subject(主体,描述图像的主要内容,如人物、动物等等)、Medium(媒介,描述图像的制作材料,如油画、素描等等)、Style(风格,描述图像所属的风格和时代,如印象派、当代艺术等等)、Artist(艺术家,描述图像的作者)、Resolution(分辨率,描述图像的清晰度和分辨率)、Additional detail(附加细节,如大小、年代、等等)、Color(颜色)、Lighting(光线和阴影)的其中之一。
举例来说,当第一描述文本“可爱的女孩”的完整性校验未通过的情况下,可以首先得到第一描述文本包含的主体词为“女孩”,然后对这两个词进行词性标注,确定“女孩”的第一词性类为Subject,且第一描述文本包含的画面主体为“女孩”。
步骤206,获取与画面主体关联的候选词集及候选词集中每个候选词所属的第二词性类。
其中,候选词集,可以是预置在AI绘画系统中的不同画面主体关联的候选词集合,或者也可以是基于对大量的历史描述文本进行学习生成的候选词集合等等,本公开对此不做限定。并且,在确定了候选词集后,可以对候选词集中的每一个候选词进行词性标注,以确定每个候选词所属的第二词性类。
本公开实施例中,可以查询各画画主体与候选词集的关联关系,以确定当前的画面主体关联的候选词集,及每个候选词所属的第二词性类。
步骤207,基于各词性类间的共现关系及第一共现频次,获取与第一词性类关联的目标第二词性类。
其中,共现关系,是指两个或多个词性类在描述文本中是否有同时存在的关系。第一共现频次,是指这两个或多个词性类在多个描述文本中同时存在的频率。
可选地,可以对各参考描述文本进行解析,确定各描述词的词性、所属的词性类及各描述词间的共现关系,然后对各描述词的词性、所属的词性类及各描述词间的共现关系进行统计,以获取各词性类间的共现关系及第一共现频次。其中,参考描述文本,可以为已知的优质描述文本,其可以为AI绘画系统根据历史数据确定的,或者也可以为用户提供的,本公开对此不做限定。通过基于多个参考描述文本,确定各词性类间的共现关系及第一共现频率,从而保证了确定的共现关系及第一共现频率的准确性和可靠性,并提高了基于该共现关系及第一共现频次,确定的目标第二词性类的准确性和可靠性。
本公开实施例中,可以根据统计的各词性类间的共现频次,将第一描述文本中各主体词所属的第一词性类对应的共现频次最高的词性类,确定为目标第二词性类。
步骤208,利用属于目标第二词性类的第一候选词,对第一描述文本进行更新,以生成多个第二描述文本。
其中,第一候选词,是指在画面主体关联的候选词集中属于目标第二词性类的候选词。
在本实施例中,由于第一描述文本的语义不完整,则此处对第一描述文本进行更新时,可以先是利用第一候选词对第一描述文本进行扩充。
可选地,可以首先确定每个第一候选词对应的第二共现频次,其中,第二共现频次为第一候选词与画面主体共现的频次,然后根据各第二共现频次,确定每个第一候选词的优先级,之后根据各第一候选词的优先级及待生成的目标图像的数量,从第一候选词中确定出目标候选词,然后再利用目标候选词,对第一描述文本进行更新,从而可以通过筛选出高共现频次的第一候选词。提高了生成的第二描述文本的可靠性和准确性。
本公开实施例中,可以对参考描述文本中第一候选词与画面主体共现的频次进行统计,以确定每个第一候选词对应的第二共现频次,然后根据各第二共现频次的高低,将对应的第一候选词进行排序,从而确定每个第一候选词的优先级,之后根据图像生成请求中的目标图像数量,将优先级较高的对应数量个第一候选词确定为目标候选词,然后再利用目标候选词对第一描述文本进行扩充,以生成多个第二描述文本。
可选地,在目标第二词性类为多个,且第一描述文本中未包含属于目标第二词性类的描述词的情况下,可以利用分别属于不同目标第二词性类的多个第一候选词,对第一描述文本进行更新,从而进一步提高了生成的第二描述文本的准确性及多样性。
举例来说,若Subject类的高频共现词性类主要为[Additional detai,Colour]、及[Medium,Style,Artist],且[Additional detai,Colour]的频次较高,那么目标第二词性类就为[Additional detai,Colour],此时,若第一描述文本中未包含分别属于Additional detai,Colour的描述词,那么每次对第一描述文本更新时,都需要获取一个词性类为Additional detai的第一候选词,和一个词性类为Colour的第一候选词对第一描述文本进行扩充。
需要说明的是,若目标第二词性类为多个,而第一描述文本中包含属于部分目标第二词性类的描述词的情况下,那么就可以仅利用属于未包含的部分目标第二词性类的词对第一描述文本进行更新。
举例来说,若Subject类的高频共现词性类主要为[Additional detai,Colour]、及[Medium,Style,Artist],且[Additional detai,Colour]的频次较高,那么目标第二词性类就为[Additional detai,Colour],此时,若第一描述文本中包含属于Additionaldetai的描述词,那么每次对第一描述文本更新时,只需要获取一个词性类为Colour的第一候选词对第一描述文本进行扩充。
步骤209,分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
上述步骤209的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
本实施例中,AI绘画系统在获取到第一描述文本,首先确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略,之后对第一描述文本进行完整性校验,在校验未通过的情况下,确定第一描述文本中包含的主体词所属的第一词性类及包含的画面主体,然后再获取与画面主体关联的候选词集及候选词集中每个候选词所属的第二词性类,基于各词性类间的共现关系及共现频次,得到与第一词性类关联的目标第二词性类,然后再利用属于目标第二词性类的第一候选词,对第一描述文本进行更新,生成多个第二描述文本,最后分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。由此,通过利用高共现频次的第一候选词,对缺乏完整性的第一描述文本进行扩充,进一步提高了生成的图像的准确性和多样性,提升了用户的使用体验。
图3为本公开另一实施例所提供的一种图像生成方法的流程示意图。
如图3所示,该图像生成方法,可以包括:
步骤301,获取第一描述文本。
步骤302,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度。
步骤303,基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略。
步骤304,对第一描述文本进行完整性校验。
上述步骤301-304的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
步骤305,在通过完整性校验的情况下,确定第一描述文本中包含的画面主体。
本公开实施例中,当AI绘画系统确认第一描述文本的语义完整时,可以确定第一描述文本通过完整性校验,然后提取第一描述文本中的画面主体。
步骤306,获取与画面主体关联的候选词集。
步骤307,分别利用候选词集中与第一描述文本中的描述词间的相似度低于阈值的多个候选词对第一描述文本中的描述词进行替换,以生成多个第二描述文本。
其中,可以根据候选词与描述词是否为同义词、反义词等等,以计算得到相似度。比如,互为同义词的候选词与描述词间的相似度可以为1,互为反义词的候选词与描述词间的相似度可以为0。或者,也可以根据候选词与描述词间的向量距离,来计算得到相似度,本公开对此不做限定。
其中,阈值可以是一个固定值,或者也可以是一个根据需要生成的第二描述文本的数量而变化的值等等,本公开对此不做限制。
本公开实施例中,可以每次利用一个相似度低于阈值的候选词对第一描述文本的一个描述词进行替换,以生成一个第二描述文本。或者,也可以每次利用多个候选词,分别对第一描述文本中的多个描述词进行替换,以生成一个第二描述文本,本公开对此不做限定。
本公开中,通过利用相似度较低的候选词,对语义完整的第一描述文本中的描述词进行替换,从而保证了生成的多个第二描述文本互不相同。
步骤308,分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
上述步骤308的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
本公开实施例中,AI绘画系统首先获取第一描述文本,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略,之后对第一描述文本进行完整性校验,在通过完整性校验的情况下,确定第一描述文本中包含的画面主体,然后再获取与画面主体关联的候选词集,分别利用候选词集中与第一描述文本中的描述词间的相似度低于阈值的多个候选词对第一描述文本中的描述词进行替换,以生成多个第二描述文本,最后分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。由此,通过利用相似度较低的候选词,对语义完整的第一描述文本中的描述词进行替换,以保证生成的多个第二描述文本不同,从而进一步提高了生成的图像的多样性,提升了用户的使用体验。
图4为本公开另一实施例所提供的一种图像生成方法的流程示意图。
如图4所示,该图像生成方法,可以包括:
步骤401,获取第一描述文本。
步骤402,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度。
步骤403,基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略。
上述步骤401-403的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
步骤404,在目标图像生成模型中包含多个子风格模型的情况下,确定第一描述文本与每个子风格模型关联的第二描述词典间的第三匹配度。
其中,子风格模型,是指在图像生成模型中根据风格差异细分形成的子模型。比如,二次元图像生成模型可以包含厚涂、Q版等等子风格模型,本公开对此不做限制。
本公开实施例中,可以先获取目标图像生成模型中每个子风格模型关联的第二描述词典,然后计算第一描述文本与每个第二描述词典中的第二描述词间的匹配度,再通过对匹配度进行(加权)求平均或者取最大值,以确定第一描述文本与每个子风格模型关联的第二描述词典间的第三匹配度。
步骤405,基于多个第三匹配度,确定目标子风格模型。
本公开实施例中,可以将对应第三匹配度最大的一个或多个子风格模型确定为目标子风格模型。
步骤406,确定目标子风格模型的邻域子风格模型及关联的第三描述词典。
其中,邻域子风格模型,是指与目标子风格模型的风格相近的模型。
本公开实施例中,一个目标子风格可能有多个邻域子风格模型,且多个目标子风格模型的邻域子风格模型中可能包含相同的子风格模型,也可能未包含相同的子风格模型。
步骤407,基于目标文本处理策略,利用目标子风格模型关联的目标第二描述词典、目标图像生成模型关联的第一描述词典及第三描述词典,对第一描述文本进行更新,以生成多个第二描述文本。
可选地,可以首先确定目标子风格模型的第一权重、邻域子风格模型的第二权重及目标图像生成模型的第三权重,然后基于第一权重、第二权重、第三权重,将目标第二描述词典中的第二描述词、第三描述词典中的第三描述词及第一描述词典中的第一描述词进行融合,生成融合后的描述词,之后利用融合后的描述词对第一描述文本进行更新,以生成多个第二描述文本。从而进一步保证了第二描述文本的全面性及准确性。
其中,第一权重,第二权重及第三权重,可以为预先设置的值,或者也可以为AI绘画系统基于用户的选择确定的值,本公开对此不做限定。
需要说明的是,由于词性不同的描述词不能进行融合操作,所以此处的第一描述词、第二描述词及第三描述词应属于同一词性类。
可选地,在一些实施例中,可以分别将属于不同词性类的第二描述词、第三描述词及第一描述词进行融合,生成多个属于不同词性类的融合后的描述词。从而,提高了对第一描述文本中的描述词进行更新的多样性。
在本公开实施例中,将目标第二描述词典中的第二描述词、第三描述词典中的第三描述词及第一描述词典中的第一描述词,根据词性类的划分及对应模型的权重,融合成多个属于不同词性类的描述词,然后对对第一描述文本进行更新,以生成多个第二描述文本,从而提高了得到的第二描述文本的多样性及准确性。
步骤408,分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
上述步骤408的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
本公开实施例中,AI绘画系统首先获取第一描述文本,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略,之后在目标图像生成模型中包含多个子风格模型的情况下,确定第一描述文本与每个子风格模型关联的第二描述词典间的第三匹配度,然后再基于多个第三匹配度,确定目标子风格模型,以及确定目标子风格模型的邻域子风格模型及关联的第三描述词典,然后再基于目标文本处理策略,利用目标子风格模型关联的目标第二描述词典、目标图像生成模型关联的第一描述词典及第三描述词典,对第一描述文本进行更新,以生成多个第二描述文本,最后分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。由此,基于权重将目标图像生成模型、目标子风格模型及其邻域子风格模型的关联的描述词典中的描述词进行融合,利用融合后的描述词对第一描述文本进行更新,进一步提高了得到的第二描述文本的多样性及准确性,从而提高了生成的图像的多样性和准确性,提升了用户的使用体验。
图5为本公开另一实施例所提供的一种图像生成方法的流程示意图。
如图5所示,该图像生成方法,可以包括:
步骤501,获取第一描述文本。
步骤502,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度。
步骤503,基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略。
步骤504,在目标图像生成模型中包含多个子风格模型的情况下,确定第一描述文本与每个子风格模型关联的第二描述词典间的第三匹配度。
上述步骤501-504的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
步骤505,在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,将多个子风格模型中均确定为目标子风格模型。
可选地,在一个子风格模型对应的第三匹配度最大的情况下,可以仅将该子风格模型确定为目标子风格模型。
可选地,在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,也可以将多个子风格模型中的任一子风格模型确定为目标子风格模型。
在本公开实施例中,可以将第三匹配度最大的一个或多个子风格模型,确定为目标子风格模型,从而可以在保证描述词与第一描述文本贴合的情况下,提高了待用于更新的描述词的多样性。
步骤506,获取每个目标子风格模型的邻域子风格模型及关联的第三描述词典。
步骤507,在任一邻域子风格模型为至少两个目标子风格模型的邻域子风格模型的情况下,增加该任一邻域子风格模型的第三权重。
本公开中,在任一邻域子风格模型为多个目标子风格模型的邻域子风格模型的情况下,可以将其的第三权重增加固定的值,比如增加0.1。或者,也可以根据其关联的目标子风格模型的数量,确定第三权重的增加值。举例来说,邻域子风格模型A为两个目标子风格模型的邻域子风格模型,而邻域子风格模型B为三个目标子风格模型的邻域子风格模型,那么邻域子风格模型B的第三权重的增加值,就会高于邻域子风格模型A的第三权重的增加值。
本公开中,考虑到由于邻域子风格模型作为邻域的目标子风格模型数量越多,说明该邻域子风格模型与第一描述文本的关联程度越高,则在生成融合的描述词的过程中应相应的提高其权重,从而为进一步提高第二描述文本的准确性提供了条件。
步骤508,基于目标文本处理策略,利用目标子风格模型关联的目标第二描述词典、目标图像生成模型关联的第一描述词典及第三描述词典,对第一描述文本进行更新,以生成多个第二描述文本。
步骤509,分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
上述步骤508-509的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
本实施例中,AI绘画系统首先获取第一描述文本,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略,之后在目标图像生成模型中包含多个子风格模型的情况下,确定第一描述文本与每个子风格模型关联的第二描述词典间的第三匹配度,然后将对应最大第三匹配度的一个或多个子风格模型,确定为目标子风格模型,然后再获取每个目标子风格模型的邻域子风格模型及关联的第三描述词典,并基于目标文本处理策略,利用目标子风格模型关联的目标第二描述词典、目标图像生成模型关联的第一描述词典及第三描述词典,对第一描述文本进行更新,以生成多个第二描述文本,最后分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。由此,通过基于邻域子风格的的关联程度,调整其权重,以得到融合后的描述词,并利用融合后的描述词得到第二描述文本,进一步提高了得到的第二描述文本的准确性性和多样性,提高了生成的图像的多样性,提升了用户的使用体验。
图6为本公开另一实施例所提供的一种图像生成方法的流程示意图。
如图6所示,该图像生成方法,可以包括:
步骤601,获取第一描述文本。
步骤602,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度。
步骤603,基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略。
步骤604,基于目标文本处理策略,对第一描述文本进行处理,生成多个第二描述文本。
步骤605,分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
上述步骤601-605的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
步骤606,在显示界面显示目标图像。
举例说明,如图1(a)所示,图1(a)是本公开实施例中的AI绘画系统的目标图像生成界面显示图,在界面中间区域可以显示第二描述文本对应生成的多张目标图像。需要说明的是,该目标图像的显示数量可以与用户在界面左侧功能区选定的目标图像数量相同,或者,由于受显示界面尺寸影响,每次显示的生成的图像数量也可能小于目标图像数量。当获取的第一描述文本为“可爱的女孩”,且通过处理后生成的第二描述文本分别为“可爱的女孩,水墨国风”、“可爱的女孩,厚涂”、“可爱的女孩,Q版”、“可爱的女孩,治愈手绘”时,则显示区间区域可以分别显示上述四种第二描述文本分别对应的4张目标图像图a、图b、图c和图d。
步骤607,在任一目标图像被选中的情况下,在显示界面显示任一目标图像、其对应的第二描述文本及各图像编辑控件。
其中,图像编辑控件,是指用于图像编辑操作的用户界面控件。在本公开中,图像编辑控件可以是“创作相似”、“橡皮擦”、“裁剪”等等控件,本公开对此不做限制。
举例说明,如图6(a)所示,图6(a)是本公开实施例中的AI绘画系统的画作详情界面显示图。当用户点击图1(a)中的任一目标图像(如图a)后,AI绘画系统将跳转至此界面,该显示界面包含被点击的目标图像、该图像对应的第二描述文本、该图像的显示尺寸、图像编辑(比如“创作相似”)控件以及其他控件(如点赞,转发等等)。之后,用户就可以根据需要,对该任一目标图像进行编辑(比如,裁剪,擦除部分区域及细节)及其它处理。
本实施例中,AI绘画系统首先获取第一描述文本,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及其关联的目标文本处理策略,之后根据目标文本处理策略,对第一描述文本进行处理,得到多个第二描述文本,然后再将其分别输入到目标图像生成模型,以获取每个描述文本对应的至少一个目标图像,之后在显示界面显示目标图像,并在任一目标图像被选中的情况下,在显示界面显示任一目标图像、其对应的第二描述文本及各图像编辑控件。由此,用户可以准确获得生成的每个目标图像对应的第二描述文本,并根据需要对目标图像进行编辑等,进一步提升了AI绘画系统的交互能力,改善了用户的使用体验。
图7为本公开另一实施例所提供的一种图像生成方法的流程示意图。
如图7所示,该图像生成方法,可以包括:
步骤701,获取第一描述文本。
步骤702,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度。
步骤703,基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略。
步骤704,基于目标文本处理策略,对第一描述文本进行处理,生成多个第二描述文本。
步骤705,分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
步骤706,在显示界面显示目标图像。
步骤707,在任一目标图像被选中的情况下,在显示界面显示任一目标图像、其对应的第二描述文本及各图像编辑控件。
上述步骤701-707的具体实现形式,可以参考本公开任一实施例,此处不再赘述。
步骤708,在监测到显示界面中第一控件被触发的情况下,将对应的第二描述文本输入目标图像生成模型,以获取与任一目标图像风格相同的参考图像。
其中,第一控件是指画作详情显示界面中的“创作相似”控件。
本公开实施例中,用户在任一目标图像的画作详情显示界面中点击“创作相似”控件后,AI绘画系统将该目标图像对应的第二描述文本重新输入到目标图像生成模型中,可以获取到与该目标图像风格相同的更多的图像。从而使得用户可以复用满意的目标图像的生成参数,以生成风格相同的其他参考图像,提升了生成特定风格图像的效率,丰富了用户的使用体验。
步骤709,在监测到显示界面中第一控件被触发,且与第一服务参数关联的第二控件被选中的情况下,返回执行对应的第二描述文本与多个候选图像生成模型间的多个第一匹配度,直至生成多个第三描述文本及每个第三描述文本对应的至少一个目标图像。
其中,与第一服务参数关联的第二控件,是指目标图像生成显示界面中用于指示生成多种风格的图像的控件,比如图1(a)中的“灵感模式”控件。
本公开实施例中,用户在任一目标图像的画作详情显示界面中点击“创作相似”控件,并且选中“灵感模式”控件以及点击显示界面中的“立即生成”后,AI绘画系统将该目标图像对应的第二描述文本作为第一描述文本返回执行步骤702至步骤705,以生成多个第三描述文本及每个第三描述文本对应的至少一个目标图像。从而可以在用户满意的目标图像的生成参数上进一步扩展,丰富了用户的使用体验。
举例来说,用户在对应第二描述文本为“可爱的女孩,水墨国风”的目标图像的画作详情显示界面中点击“创作相似”控件,该描述文本“可爱的女孩,水墨国风”将展示在目标图像生成显示界面左边的文本输入区域,然后用户点击开启“灵感模式”控件,并触控显示界面中的“立即生成”按钮后,AI绘画系统将获取第二描述文本为“可爱的女孩,水墨国风”,并通过处理后生成的第三描述文本分别为“可爱的女孩,水墨国风,清新”、“可爱的女孩,水墨国风,平涂”、“可爱的女孩,水墨国风,黑白线稿”、“可爱的女孩,水墨国风,穿着红色裙子”时,则显示区域可以分别显示上述四种第三描述文本分别对应的4张目标图像。
本实施例中,AI绘画系统首先获取第一描述文本,确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及其关联的目标文本处理策略,之后根据目标文本处理策略,对第一描述文本进行处理,得到多个第二描述文本,然后再将其分别输入到目标图像生成模型,以获取每个描述文本对应的至少一个目标图像,之后在显示界面显示目标图像,并在任一目标图像被选中的情况下,在显示界面显示任一目标图像、其对应的第二描述文本及各图像编辑控件,然后在监测到显示界面中第一控件被触发的情况下,将对应的第二描述文本输入目标图像生成模型,以获取与任一目标图像风格相同的参考图像,或者,在监测到显示界面中第一控件被触发,且与第一服务参数关联的第二控件被选中的情况下,返回执行对应的第二描述文本与多个候选图像生成模型间的多个第一匹配度,直至生成多个第三描述文本及每个第三描述文本对应的至少一个目标图像。由此,满足了用户在图像生成过程中的各种功能需求,进一步提升了用户的使用体验。
为了实现上述实施例,本公开还提出一种图像生成装置。
图8为本公开一实施例所提供的一种图像生成装置的流程示意图。
如图8所示,该图像生成装置800,包括:
第一获取模块801,用于获取第一描述文本;
第一确定模块802,用于确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度;
第二确定模块803,用于基于多个第一匹配度,确定目标图像生成模型及目标图像生成模型关联的目标文本处理策略;
生成模块804,用于基于目标文本处理策略,对第一描述文本进行处理,生成多个第二描述文本;
第二获取模块805,用于分别将多个第二描述文本,输入目标图像生成模型,以获取每个第二描述文本对应的至少一个目标图像。
其中,第一确定模块802,具体用于:
获取每个候选图像生成模型关联的第一描述词典;
根据第一描述文本与每个第一描述词典中各第一描述词间的第二匹配度,确定第一描述文本与每个候选图像生成模型间的第一匹配度。
在本公开的一些实施例中,该装置还包括第三确定模块,用于:
确定包括第一描述文本的图像生成请求中的第一服务参数的值为第一预设值;或者,
确定包括第一描述文本的图像生成请求中的目标图像数量大于第二预设值。
其中,生成模块804,具体用于:
对第一描述文本进行完整性校验;
在校验未通过的情况下,确定第一描述文本中包含的主体词所属的第一词性类及包含的画面主体;
获取与画面主体关联的候选词集及候选词集中每个候选词所属的第二词性类;
基于各词性类间的共现关系及第一共现频次,获取与第一词性类关联的目标第二词性类;
利用属于目标第二词性类的第一候选词,对第一描述文本进行更新,以生成多个第二描述文本。
在本公开的一些实施例中,该装置还包括处理模块,用于:
对各参考描述文本进行解析,确定各描述词的词性、所属的词性类及各描述词间的共现关系;
对各描述词的词性、所属的词性类及各描述词间的共现关系进行统计,以获取各词性类间的共现关系及第一共现频次。
其中,生成模块804,具体用于:
确定每个第一候选词对应的第二共现频次,其中,第二共现频次为候选词与画面主体共现的频次;
根据各第二共现频次,确定每个第一候选词的优先级;
根据各第一候选词的优先级及待生成的目标图像的数量,从第一候选词中确定出目标候选词;
利用目标候选词,对第一描述文本进行更新。
其中,生成模块804,还可以用于:
在目标第二词性类为多个,且第一描述文本中未包含属于目标第二词性类的描述词的情况下,利用分别属于不同目标第二词性类的多个第一候选词,对第一描述文本进行更新。
其中,生成模块804,还可以用于:
在通过完整性校验的情况下,确定第一描述文本中包含的画面主体;
获取与画面主体关联的候选词集;
分别利用候选词集中与第一描述文本中的描述词间的相似度低于阈值的多个候选词对第一描述文本中的描述词进行替换,以生成多个第二描述文本。
其中,生成模块804,还可以用于:
在目标图像生成模型中包含多个子风格模型的情况下,确定第一描述文本与每个子风格模型关联的第二描述词典间的第三匹配度;
基于多个第三匹配度,确定目标子风格模型;
确定目标子风格模型的邻域子风格模型及关联的第三描述词典;
基于目标文本处理策略,利用目标子风格模型关联的目标第二描述词典、目标图像生成模型关联的第一描述词典及第三描述词典,对第一描述文本进行更新,以生成多个第二描述文本。
其中,生成模块804,还可以用于:
确定目标子风格模型的第一权重、邻域子风格模型的第二权重及目标图像生成模型的第三权重;
基于第一权重、第二权重、第三权重,将目标第二描述词典中的第二描述词、第三描述词典中的第三描述词及第一描述词典中的第一描述词进行融合,生成融合后的描述词;
利用融合后的描述词对第一描述文本进行更新,以生成多个第二描述文本。
其中,生成模块804,还可以用于:
分别将属于不同词性类的第二描述词、第三描述词及第一描述词进行融合,生成多个属于不同词性类的融合后的描述词。
其中,生成模块804,还可以用于:
在一个子风格模型对应的第三匹配度最大的情况下,将一个子风格模型确定为目标子风格模型;或者,
在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,将多个子风格模型中的任一子风格模型确定为目标子风格模型;或者,
在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,将多个子风格模型中均确定为目标子风格模型。
其中,生成模块804,还可以用于:
获取每个目标子风格模型的邻域子风格模型;
在任一邻域子风格模型为至少两个目标子风格模型的邻域子风格模型的情况下,增加任一邻域子风格模型的第三权重。
在本公开的一些实施例中,该装置还包括交互模块,用于:
在显示界面显示目标图像;
在任一目标图像被选中的情况下,在显示界面显示任一目标图像、其对应的第二描述文本及各图像编辑控件。
其中,第二获取模块805,还可以用于:
在监测到显示界面中第一控件被触发的情况下,将对应的第二描述文本输入目标图像生成模型,以获取与任一目标图像风格相同的参考图像。
在本公开的一些实施例中,该装置还包括返回模块,用于:
在监测到显示界面中第一控件被触发,且与第一服务参数关联的第二控件被选中的情况下,返回执行对应的第二描述文本与多个候选图像生成模型间的多个第一匹配度,直至生成多个第三描述文本及每个第三描述文本对应的至少一个目标图像。
需要说明的是,前述对图像生成方法的解释说明也适用于本实施例的图像生成装置,此处不再赘述。
本实施例中,AI绘画系统在获取到第一描述文本后,首先确定第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,然后基于多个第一匹配度,确定目标图像生成模型及其关联的目标文本处理策略,之后根据目标文本处理策略,对第一描述文本进行处理,得到多个第二描述文本,然后再将其分别输入到目标图像生成模型,以获取每个描述文本对应的至少一个目标图像。由此,极大程度上满足用户对目标生成图像的数量、效果需求,提高了AI绘画系统基于描述文本进行智能作画的灵活性,提高了智能生成图像的多样性,提升了用户的使用体验。
为了实现上述实施例,本公开还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本公开前述实施例提出的图像生成方法。
为了实现上述实施例,本公开还提出一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,实现如本公开前述实施例提出的图像生成方法。
为了实现上述实施例,本公开还提出一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时,实现如本公开前述实施例提出的充电方法。
图9示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (32)

1.一种图像生成方法,包括:
获取第一描述文本;
确定所述第一描述文本分别与多个候选图像生成模型间的多个第一匹配度;
基于多个所述第一匹配度,确定目标图像生成模型及所述目标图像生成模型关联的目标文本处理策略;
基于所述目标文本处理策略,对所述第一描述文本进行处理,生成多个第二描述文本;
分别将所述多个第二描述文本,输入所述目标图像生成模型,以获取每个所述第二描述文本对应的至少一个目标图像;
其中,在所述确定目标图像生成模型及所述目标图像生成模型关联的目标文本处理策略之前,还包括:
确定包括所述第一描述文本的图像生成请求中的第一服务参数的值为第一预设值;或者,
确定包括所述第一描述文本的图像生成请求中的目标图像数量大于第二预设值。
2.如权利要求1所述的方法,其中,所述确定所述第一描述文本分别与多个候选图像生成模型间的多个第一匹配度,包括:
获取每个所述候选图像生成模型关联的第一描述词典;
根据所述第一描述文本与每个所述第一描述词典中各第一描述词间的第二匹配度,确定所述第一描述文本与每个所述候选图像生成模型间的第一匹配度。
3.如权利要求1所述的方法,其中,所述基于所述目标文本处理策略,对所述第一描述文本进行处理,生成多个第二描述文本,包括:
对所述第一描述文本进行完整性校验;
在校验未通过的情况下,确定所述第一描述文本中包含的主体词所属的第一词性类及包含的画面主体;
获取与所述画面主体关联的候选词集及所述候选词集中每个候选词所属的第二词性类;
基于各词性类间的共现关系及第一共现频次,获取与所述第一词性类关联的目标第二词性类;
利用属于所述目标第二词性类的第一候选词,对所述第一描述文本进行更新,以生成多个所述第二描述文本。
4.如权利要求3所述的方法,其中,在所述基于各词性类间的共现关系及第一共现频次,获取与所述第一词性类关联的目标第二词性类之前,还包括:
对各参考描述文本进行解析,确定各描述词的词性、所属的词性类及各描述词间的共现关系;
对所述各描述词的词性、所属的词性类及各描述词间的共现关系进行统计,以获取所述各词性类间的共现关系及第一共现频次。
5.如权利要求3所述的方法,其中,所述利用属于所述目标第二词性类的第一候选词,对所述第一描述文本进行更新,包括:
确定每个所述第一候选词对应的第二共现频次,其中,所述第二共现频次为所述候选词与所述画面主体共现的频次;
根据各所述第二共现频次,确定每个所述第一候选词的优先级;
根据各所述第一候选词的优先级及待生成的目标图像的数量,从所述第一候选词中确定出目标候选词;
利用所述目标候选词,对所述第一描述文本进行更新。
6.如权利要求3所述的方法,其中,所述利用属于所述目标第二词性类的第一候选词,对所述第一描述文本进行更新,包括:
在所述目标第二词性类为多个,且所述第一描述文本中未包含属于所述目标第二词性类的描述词的情况下,利用分别属于不同目标第二词性类的多个第一候选词,对所述第一描述文本进行更新。
7.如权利要求3所述的方法,其中,在所述对所述第一描述文本进行完整性校验之后,还包括:
在通过完整性校验的情况下,确定所述第一描述文本中包含的画面主体;
获取与所述画面主体关联的候选词集;
分别利用所述候选词集中与所述第一描述文本中的描述词间的相似度低于阈值的多个候选词对第一描述文本中的描述词进行替换,以生成多个所述第二描述文本。
8.如权利要求1-7任一所述的方法,其中,所述基于所述目标文本处理策略,对所述第一描述文本进行处理,生成多个第二描述文本,包括:
在所述目标图像生成模型中包含多个子风格模型的情况下,确定所述第一描述文本与每个所述子风格模型关联的第二描述词典间的第三匹配度;
基于多个所述第三匹配度,确定目标子风格模型;
确定所述目标子风格模型的邻域子风格模型及关联的第三描述词典;
基于所述目标文本处理策略,利用所述目标子风格模型关联的目标第二描述词典、所述目标图像生成模型关联的第一描述词典及所述第三描述词典,对所述第一描述文本进行更新,以生成多个第二描述文本。
9.如权利要求8所述的方法,其中,所述基于所述目标文本处理策略,利用所述目标子风格模型关联的目标第二描述词典、所述目标图像生成模型关联的第一描述词典及所述第三描述词典,对所述第一描述文本进行更新,包括:
确定所述目标子风格模型的第一权重、所述邻域子风格模型的第二权重及所述目标图像生成模型的第三权重;
基于所述第一权重、第二权重、第三权重,将所述目标第二描述词典中的第二描述词、所述第三描述词典中的第三描述词及第一描述词典中的第一描述词进行融合,生成融合后的描述词;
利用所述融合后的描述词对所述第一描述文本进行更新,以生成多个第二描述文本。
10.如权利要求9所述的方法,其中,所述将所述目标第二描述词典中的第二描述词、所述第三描述词典中的第三描述词及第一描述词典中的第一描述词进行融合,生成融合后的描述词,包括:
分别将属于不同词性类的第二描述词、第三描述词及第一描述词进行融合,生成多个属于不同词性类的融合后的描述词。
11.如权利要求8所述的方法,其中,所述确定目标子风格模型,包括:
在一个子风格模型对应的第三匹配度最大的情况下,将所述一个子风格模型确定为所述目标子风格模型;或者,
在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,将所述多个子风格模型中的任一子风格模型确定为所述目标子风格模型;或者,
在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,将所述多个子风格模型中均确定为所述目标子风格模型。
12.如权利要求11所述的方法,其中,所述确定所述目标子风格模型的邻域子风格模型及关联的第三描述词典,包括:
获取每个所述目标子风格模型的邻域子风格模型;
在任一邻域子风格模型为至少两个目标子风格模型的邻域子风格模型的情况下,增加所述任一邻域子风格模型的第三权重。
13.如权利要求8所述的方法,其中,在所述获取每个所述第二描述文本对应的至少一个目标图像之后,还包括:
在显示界面显示所述目标图像;
在任一目标图像被选中的情况下,在所述显示界面显示所述任一目标图像、其对应的第二描述文本及各图像编辑控件。
14.如权利要求13所述的方法,其中,在所述显示界面显示所述任一目标图像及其对应的第二描述文本之后,还包括:
在监测到所述显示界面中第一控件被触发的情况下,将所述对应的第二描述文本输入所述目标图像生成模型,以获取与所述任一目标图像风格相同的参考图像。
15.如权利要求13所述的方法,其中,在所述显示界面显示所述任一目标图像及其对应的第二描述文本之后,还包括:
在监测到所述显示界面中第一控件被触发,且与第一服务参数关联的第二控件被选中的情况下,返回执行所述对应的第二描述文本与多个候选图像生成模型间的多个第一匹配度,直至生成多个第三描述文本及每个所述第三描述文本对应的至少一个目标图像。
16.一种图像生成装置,包括:
第一获取模块,用于获取第一描述文本;
第一确定模块,用于确定所述第一描述文本分别与多个候选图像生成模型间的多个第一匹配度;
第二确定模块,用于基于多个所述第一匹配度,确定目标图像生成模型及所述目标图像生成模型关联的目标文本处理策略;
生成模块,用于基于所述目标文本处理策略,对所述第一描述文本进行处理,生成多个第二描述文本;
第二获取模块,用于分别将所述多个第二描述文本,输入所述目标图像生成模型,以获取每个所述第二描述文本对应的至少一个目标图像;
第三确定模块,用于:
确定包括所述第一描述文本的图像生成请求中的第一服务参数的值为第一预设值;或者,
确定包括所述第一描述文本的图像生成请求中的目标图像数量大于第二预设值。
17.如权利要求16所述的装置,其中,所述第一确定模块,具体用于:
获取每个所述候选图像生成模型关联的第一描述词典;
根据所述第一描述文本与每个所述第一描述词典中各第一描述词间的第二匹配度,确定所述第一描述文本与每个所述候选图像生成模型间的第一匹配度。
18.如权利要求16所述的装置,其中,所述生成模块,具体用于:
对所述第一描述文本进行完整性校验;
在校验未通过的情况下,确定所述第一描述文本中包含的主体词所属的第一词性类及包含的画面主体;
获取与所述画面主体关联的候选词集及所述候选词集中每个候选词所属的第二词性类;
基于各词性类间的共现关系及第一共现频次,获取与所述第一词性类关联的目标第二词性类;
利用属于所述目标第二词性类的第一候选词,对所述第一描述文本进行更新,以生成多个所述第二描述文本。
19.如权利要求18所述的装置,其中,还包括:处理模块,用于:
对各参考描述文本进行解析,确定各描述词的词性、所属的词性类及各描述词间的共现关系;
对所述各描述词的词性、所属的词性类及各描述词间的共现关系进行统计,以获取所述各词性类间的共现关系及第一共现频次。
20.如权利要求18所述的装置,其中,所述生成模块,具体用于:
确定每个所述第一候选词对应的第二共现频次,其中,所述第二共现频次为所述候选词与所述画面主体共现的频次;
根据各所述第二共现频次,确定每个所述第一候选词的优先级;
根据各所述第一候选词的优先级及待生成的目标图像的数量,从所述第一候选词中确定出目标候选词;
利用所述目标候选词,对所述第一描述文本进行更新。
21.如权利要求18所述的装置,其中,所述生成模块,还用于:
在所述目标第二词性类为多个,且所述第一描述文本中未包含属于所述目标第二词性类的描述词的情况下,利用分别属于不同目标第二词性类的多个第一候选词,对所述第一描述文本进行更新。
22.如权利要求18所述的装置,其中,所述生成模块,还用于:
在通过完整性校验的情况下,确定所述第一描述文本中包含的画面主体;
获取与所述画面主体关联的候选词集;
分别利用所述候选词集中与所述第一描述文本中的描述词间的相似度低于阈值的多个候选词对第一描述文本中的描述词进行替换,以生成多个所述第二描述文本。
23.如权利要求16-22任一所述的装置,其中,所述生成模块,还用于:
在所述目标图像生成模型中包含多个子风格模型的情况下,确定所述第一描述文本与每个所述子风格模型关联的第二描述词典间的第三匹配度;
基于多个所述第三匹配度,确定目标子风格模型;
确定所述目标子风格模型的邻域子风格模型及关联的第三描述词典;
基于所述目标文本处理策略,利用所述目标子风格模型关联的目标第二描述词典、所述目标图像生成模型关联的第一描述词典及所述第三描述词典,对所述第一描述文本进行更新,以生成多个第二描述文本。
24.如权利要求23所述的装置,其中,所述生成模块,还用于:
确定所述目标子风格模型的第一权重、所述邻域子风格模型的第二权重及所述目标图像生成模型的第三权重;
基于所述第一权重、第二权重、第三权重,将所述目标第二描述词典中的第二描述词、所述第三描述词典中的第三描述词及第一描述词典中的第一描述词进行融合,生成融合后的描述词;
利用所述融合后的描述词对所述第一描述文本进行更新,以生成多个第二描述文本。
25.如权利要求24所述的装置,其中,所述生成模块,还用于:
分别将属于不同词性类的第二描述词、第三描述词及第一描述词进行融合,生成多个属于不同词性类的融合后的描述词。
26.如权利要求23所述的装置,其中,所述生成模块,还用于:
在一个子风格模型对应的第三匹配度最大的情况下,将所述一个子风格模型确定为所述目标子风格模型;或者,
在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,将所述多个子风格模型中的任一子风格模型确定为所述目标子风格模型;或者,
在多个子风格模型对应的第三匹配度相同,且均大于其它子风格模型对应的第三匹配度的情况下,将所述多个子风格模型中均确定为所述目标子风格模型。
27.如权利要求26所述的装置,其中,所述生成模块,还用于:
获取每个所述目标子风格模型的邻域子风格模型;
在任一邻域子风格模型为至少两个目标子风格模型的邻域子风格模型的情况下,增加所述任一邻域子风格模型的第三权重。
28.如权利要求23所述的装置,其中,还包括,交互模块,用于:
在显示界面显示所述目标图像;
在任一目标图像被选中的情况下,在所述显示界面显示所述任一目标图像、其对应的第二描述文本及各图像编辑控件。
29.如权利要求28所述的装置,其中,所述第二获取模块,还用于:
在监测到所述显示界面中第一控件被触发的情况下,将所述对应的第二描述文本输入所述目标图像生成模型,以获取与所述任一目标图像风格相同的参考图像。
30.如权利要求28所述的装置,其中,还包括:返回模块,用于:
在监测到所述显示界面中第一控件被触发,且与第一服务参数关联的第二控件被选中的情况下,返回执行所述对应的第二描述文本与多个候选图像生成模型间的多个第一匹配度,直至生成多个第三描述文本及每个所述第三描述文本对应的至少一个目标图像。
31.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-15中任一所述的图像生成方法。
32.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-15中任一所述的图像生成方法。
CN202310596684.5A 2023-05-24 2023-05-24 图像生成方法、装置、计算机设备及存储介质 Active CN116433825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310596684.5A CN116433825B (zh) 2023-05-24 2023-05-24 图像生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310596684.5A CN116433825B (zh) 2023-05-24 2023-05-24 图像生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN116433825A CN116433825A (zh) 2023-07-14
CN116433825B true CN116433825B (zh) 2024-03-26

Family

ID=87085702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310596684.5A Active CN116433825B (zh) 2023-05-24 2023-05-24 图像生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116433825B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553837A (zh) * 2020-04-28 2020-08-18 武汉理工大学 一种基于神经风格迁移的艺术文本图像生成方法
CN112400186A (zh) * 2019-05-15 2021-02-23 微软技术许可有限责任公司 图像生成
CN112990302A (zh) * 2021-03-11 2021-06-18 北京邮电大学 基于文本生成图像的模型训练方法、设备和图像生成方法
CN114359446A (zh) * 2021-12-30 2022-04-15 科大讯飞股份有限公司 一种动画绘本生成方法、装置、设备和存储介质
CN115357755A (zh) * 2022-08-10 2022-11-18 北京百度网讯科技有限公司 视频生成方法、视频展示方法和装置
CN115830171A (zh) * 2023-02-17 2023-03-21 深圳前海深蕾半导体有限公司 基于人工智能绘画的图像生成方法、显示设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022074466A (ja) * 2020-11-04 2022-05-18 京セラドキュメントソリューションズ株式会社 画像処理装置および画像形成装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112400186A (zh) * 2019-05-15 2021-02-23 微软技术许可有限责任公司 图像生成
CN111553837A (zh) * 2020-04-28 2020-08-18 武汉理工大学 一种基于神经风格迁移的艺术文本图像生成方法
CN112990302A (zh) * 2021-03-11 2021-06-18 北京邮电大学 基于文本生成图像的模型训练方法、设备和图像生成方法
CN114359446A (zh) * 2021-12-30 2022-04-15 科大讯飞股份有限公司 一种动画绘本生成方法、装置、设备和存储介质
CN115357755A (zh) * 2022-08-10 2022-11-18 北京百度网讯科技有限公司 视频生成方法、视频展示方法和装置
CN115830171A (zh) * 2023-02-17 2023-03-21 深圳前海深蕾半导体有限公司 基于人工智能绘画的图像生成方法、显示设备及存储介质

Also Published As

Publication number Publication date
CN116433825A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Stoll et al. Text2Sign: towards sign language production using neural machine translation and generative adversarial networks
CN109300179B (zh) 动画制作方法、装置、终端和介质
CN107330023B (zh) 基于关注点的文本内容推荐方法和装置
CN112532897B (zh) 视频剪辑方法、装置、设备及计算机可读存储介质
CN108984679B (zh) 对话生成模型的训练方法和装置
CN106557576B (zh) 基于人工智能的提示信息推荐方法以及装置
CN110175335B (zh) 翻译模型的训练方法和装置
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
CN110796199A (zh) 一种图像处理方法、装置以及电子医疗设备
CN111027419B (zh) 一种视频无关内容检测的方法、装置、设备和介质
CN112231554B (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN109814733B (zh) 基于输入的推荐信息生成方法和装置
CN112365876A (zh) 语音合成模型的训练方法、装置、设备以及存储介质
CN114596440B (zh) 语义分割模型的生成方法、装置、电子设备及存储介质
CN110909889A (zh) 一种基于特征分布的训练集生成、模型训练方法及装置
CN113035198B (zh) 三维人脸的唇动控制方法、设备和介质
CN116433825B (zh) 图像生成方法、装置、计算机设备及存储介质
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统
CN109740140B (zh) 页面排版方法、装置和计算机设备
CN116499471A (zh) 一种基于开放场景地图的视觉语言导航方法、装置及介质
Callemein et al. Automated analysis of eye-tracker-based human-human interaction studies
CN108829896B (zh) 回复信息反馈方法和装置
CN115527083A (zh) 图像标注方法、装置和电子设备
US11915614B2 (en) Tracking concepts and presenting content in a learning system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant