CN116402049A - 修饰文本集和图像增强器生成方法、装置及电子设备 - Google Patents
修饰文本集和图像增强器生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116402049A CN116402049A CN202310667106.6A CN202310667106A CN116402049A CN 116402049 A CN116402049 A CN 116402049A CN 202310667106 A CN202310667106 A CN 202310667106A CN 116402049 A CN116402049 A CN 116402049A
- Authority
- CN
- China
- Prior art keywords
- text
- modified
- modified text
- information
- modifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 138
- 239000003623 enhancer Substances 0.000 title claims abstract description 93
- 239000003607 modifier Substances 0.000 claims abstract description 279
- 238000012986 modification Methods 0.000 claims abstract description 191
- 230000004048 modification Effects 0.000 claims abstract description 191
- 230000000694 effects Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012217 deletion Methods 0.000 claims description 117
- 230000037430 deletion Effects 0.000 claims description 117
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 description 29
- 239000000203 mixture Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 230000001965 increasing effect Effects 0.000 description 10
- 230000008447 perception Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 241001417519 Priacanthidae Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 229940028444 muse Drugs 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- GMVPRGQOIOIIMI-DWKJAMRDSA-N prostaglandin E1 Chemical compound CCCCC[C@H](O)\C=C\[C@H]1[C@H](O)CC(=O)[C@@H]1CCCCCCC(O)=O GMVPRGQOIOIIMI-DWKJAMRDSA-N 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种修饰文本集和图像增强器生成方法、装置及电子设备,涉及计算机技术领域,以至少解决了相关技术中大部分都是利用人工整理、社区经验、感性判断等方式得到的修饰文本来增强图像的生成效果,使得生成结果存在准确度不高、数量有限、质量不高等问题。具体实现方案为:针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集;对所有第一修饰文本集进行合并处理,得到第二修饰文本集;基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器。
Description
技术领域
本公开涉及但不限于计算机技术领域,尤其涉及一种修饰文本集和图像增强器生成方法、装置、电子设备及存储介质。
背景技术
文本生图(Text-to-Image Generation)作为人工智能生成内容(ArtificialIntelligence Generated Content,AIGC)的重要组成部分,受到越来越多的关注和应用。在实施时,用户只需要通过文本(即:提示语)描述预期的内容,生成模型即可生成高质量且符合语义要求的图片。
相关技术中,通过在提示语中添加合适的修饰词(即:修饰文本),这些修饰词可以显著地改善文本生图效果,达到提升图像品质、增加细节、丰富美感、降低瑕疵的可能性等目的。而这些修饰词通常主要依赖个人感性判断、社区经验、人工整理等方式得到的,存在数量有限、准确度不高、效率不高等问题,从而使得生成结果存在局限性、质量不高等问题。
发明内容
本公开实施例提供一种修饰文本集和图像增强器生成方法、装置、电子设备、存储介质及计算机程序产品。
本公开实施例的技术方案是这样实现的:
本公开实施例提供一种修饰文本集生成方法,该修饰文本集生成方法包括:
针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集;
对所有第一修饰文本集进行合并处理,得到第二修饰文本集;
基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。
本公开实施例提供一种图像增强器生成方法,该图像增强器生成方法包括:
从第五修饰文本集中确定至少一个目标修饰文本,其中,所述第五修饰文本集是根据上述任一项修饰文本集生成方法得到的;
基于每一所述目标修饰文本,确定目标图像增强器;其中,所述目标图像增强器用于与目标提示信息配合生成所述目标提示信息对应的图像。
本公开实施例提供一种修饰文本集生成装置,该修饰文本集生成装置包括:
第一确定模块,用于针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集;
第二确定模块,用于对所有第一修饰文本集进行合并处理,得到第二修饰文本集;
第三确定模块,用于基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。
本公开实施例提供一种图像增强器生成装置,该图像增强器生成装置包括:
第四确定模块,用于从第五修饰文本集中确定至少一个目标修饰文本;其中,所述第五修饰文本集是根据上述任一项修饰文本集生成方法得到的;
生成模块,用于基于每一所述目标修饰文本,生成目标图像增强器;其中,所述目标图像增强器用于与目标提示信息配合生成所述目标提示信息对应的图像。
本公开实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。
本公开实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法。
本公开实施例中,通过针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集;对所有第一修饰文本集进行合并处理,得到第二修饰文本集;基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。这样,一方面,自动对提示信息集中的多条提示信息进行提取及合并,得到多个第二修饰文本,相较于通过个人感性判断、社区经验、人工整理等方式而言,不仅增加了修饰文本的数量、缩短了修饰文本的获得时长,从而降低了修饰文本的获得成本,而且还提升了修饰文本的可靠性和准确度;另一方面,通过多个第二修饰文本的属性信息(例如,频次信息、名称信息、和/或语义信息)来确定第三修饰文本集,在提高了第三修饰文本集的准确度的同时还增加了修饰文本的数量,从而在后续使用第三修饰文本集来生成图像增强器时,既提升了图像增强器的多样性,还提高了图像增强器的准确度和有效性,进而使得生成图像具有更加丰富多样及更高质量的增强效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图一;
图2为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图二;
图3为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图三;
图4为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图四;
图5为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图五;
图6为本公开实施例提供的一种图像增强器生成方法的实现流程示意图一;
图7A为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图六;
图7B为本公开实施例提供的一种分类方法的实现流程示意图;
图7C为本公开实施例提供的一种图像增强器生成方法的实现流程示意图二;
图7D为本公开实施例提供的一种基于目标提示语生成图像的示意图;
图8为本公开实施例提供的一种修饰文本集生成装置的组成结构示意图;
图9为本公开实施例提供的一种图像增强器生成装置的组成结构示意图;
图10为本公开实施例中电子设备的一种硬件实体示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
相关技术中,在文本生图过程中,具有一定经验的用户,在编写提示语时会添加一些修饰词,用于增强图像的生成效果。在实施时,组合后的修饰词,又称之为图像增强器。对于大部分用户而言,可能并不清楚有哪些可用的修饰词,更不清楚该如何恰当且充分地组合及使用修饰词。目前,主要依赖于人的社区经验,整理得到的极少个数的图像增强器以供用户参考和使用,那么在文本生图的过程中,反复使用这几个图像增强器,虽然改善了生成效果,但严重影响了生成结果的多样性和生成质量。
本公开实施例提供一种修饰文本集生成方法,一方面,自动对提示信息集中的多条提示信息进行提取及合并,得到多个第二修饰文本,相较于通过个人感性判断、社区经验、人工整理等方式而言,不仅增加了修饰文本的数量、缩短了修饰文本的获得时长,从而降低了修饰文本的获得成本,而且还提升了修饰文本的可靠性和准确度;另一方面,通过多个第二修饰文本的属性信息来确定第三修饰文本集,在提高了第三修饰文本集的准确度的同时还增加了修饰文本的数量,从而在后续使用第三修饰文本集来生成图像增强器时,既提升了图像增强器的多样性,还提高了图像增强器的准确度和有效性,进而使得生成图像具有更加丰富多样及更高质量的增强效果。本公开实施例提供的方法可以由电子设备执行,电子设备可以为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端,也可以实施为服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
下面,将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图1为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图一,如图1所示,所述方法包括步骤S11至步骤S13,其中:
步骤S11、针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集。
这里,提示信息集中包括至少一条提示信息。提示信息可以是任意合适的提示信息。在实施时,提示信息可以是文字提示信息、语音提示信息等。例如,提示信息可以是描述人、虚拟对象、物品等的属性信息的文字/语音提示信息。其中,属性信息可以包括但不限于性别(比如,男、女)、体型(比如,高、矮、胖、瘦等)、外貌等,虚拟对象可以是模型、数字人等。比如,提示信息可以是“背着书包的学生”。
获取提示信息集的方式可以根据实际应用场景来确定,本公开实施例对此不作限定。
例如,用户通过电子设备的输入组件输入的提示信息集。其中,输入组件可以包括但不限于键盘、鼠标、触控屏、触控板、音频输入器等。又例如,接收其它设备发送的提示信息集。还例如,对第一提示信息集进行清洗处理,得到该提示信息集。其中,第一提示信息集可以是从利用爬虫等技术从一些关联链接(例如,文本生图的链接、提示语资源链接)中获取的多条提示语记录中得到的,在实施时,该提示语记录中可以包括但不限于提示语标识、提示语、生成图像的属性信息、随机数等,即:将每一提示语记录中的提示语分别作为第一提示信息集中的一条提示信息。清洗处理可以包括但不限于去重、长度筛选等。比如,对多条提示语中进行去重处理,即,对于相同的M条提示语,仅保留一条提示语,其余的M-1条提示语数据删除,M为大于1的正整数。又比如,统计每一提示语的长度,保留长度满足条件的提示语,即,删除长度过长的提示语、和删除长度过短的提示语。这样,通过从大量提示语记录中提取提示信息集,对于文本生图而言,可以实现更加丰富多样的增强效果。
在一些实施方式中,提示信息一般是由主体内容和多个修饰词组成,修饰词是词类的一种,主要用来描写或修饰名词或代词,表示人或事物的性质、状态、特征、属性等。例如,“很大”、“雪白”、“大眼睛”、“长头发”等。
在一些实施方式中,可以按照预设的提取规则,对该提示信息进行修饰文本提取。其中,提取规则可以是任意合适的能够从提示信息中提取修饰文本的规则。例如,设定的符号、提取算法、模型等。比如,利用设定的符号对提示信息进行分割,得到多个短语、或短句,其中,符号可以包括但不限于逗号、句号、问号、感叹号等标点符号,特殊符号等。在实施时,本领域技术人员可以根据实际需求自主设定提取规则、本公开实施例不作限定。
在一些实施方式中,第一修饰文本集中包括至少一个修饰文本。在实施时,每一提示信息对应一个第一修饰文本集。例如,提示信息为“一个具有长头发、大眼睛、白皮肤的漂亮女生”,那么该提示信息对应的第一修饰文本集为{长头发,大眼睛,白皮肤的漂亮女生}。
步骤S12、对所有第一修饰文本集进行合并处理,得到第二修饰文本集。
这里,第二修饰文本集中包括至少一个第二修饰文本。由于不同的第一修饰文本集中可能包括相同的修饰文本,因此需要对每一第一修饰文本集进行合并处理,得到该第二修饰文本集。在合并的过程中,若第二修饰文本集中包括Y个相同的第二修饰文本,则仅保留一个第二修饰文本即可,并将Y个作为该第二修饰文本的频次信息,用以表征该第二修饰文本出现的频繁程度,即:频次越高,表征出现越频繁。
步骤S13、基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。
这里,第三修饰文本集中的修饰文本的数量不大于第二修饰文本集中的第二修饰文本的数量。例如,第二修饰文本集中包括C1(C1为正整数)个第二修饰文本,经过筛选后,第三修饰文本集中仅包括C2(C2为正整数,且小于C1)个修饰文本。
第二修饰文本的属性信息可以包括但不限于频次信息、名称信息、语义信息等。其中,频次信息表征第二修饰文本出现的次数。名称信息表征第二修饰文本中是否包含预设名称,预设名称可以是任意的不利于增强图像的生成效果的名称,例如,人名、地名、虚拟对象的名称等。语义信息表征第二修饰文本与其它第二修饰文本之间是否相似。
在一些实施方式中,通过设定筛选条件,判断每一第二修饰文本是否满足该筛选条件,以对第二修饰文本集中的每一第二修饰文本进行筛选,并将筛选完后的修饰文本集作为该第三修饰文本集。即:若第二修饰文本满足筛选条件,则从第二修饰文本集中删除该第二修饰文本;反之,则保留该第二修饰文本。
其中,筛选条件可以是长度、类型、预设的删除条件等。删除条件可以包括但不限于频次信息不小于频次阈值(即:删除条件一)、名称信息中包含预设名称(删除条件二)、语义信息满足第一预设条件(即:删除条件三)等中的至少之一。在实施时,该频次阈值(比如,180次、200次、260次等)、相似度阈值(比如,95%、98%等)可以是经验值、多次试验得到的值等。预设名称可以包括但不限于人名、地名、虚拟对象的名称等。第二修饰文本的语义信息是基于第二修饰文本与其它每一第二修饰文本之间的语义相似度确定的。在实施时,若存在至少一个语义相似度不小于预设的相似度阈值时,可以将每一语义相似度、及对应的第二修饰文本均作为该第二修饰文本的语义信息;若每一语义相似度均小于相似度阈值,那么第二修饰文本的语义信息可以为无。相似度阈值可以是任意合适的阈值。第一预设条件可以是任意合适的条件,比如,存在目标第二修饰文本(与第二修饰文本之间的语义相似度不小于相似度阈值)。又比如,语义信息的长度不为0。
例如,在第二修饰文本的类型为预设类型的情况下,满足筛选条件,需要从第二修饰文本集中删除该第二修饰文本。
又例如,在第二修饰文本的频次信息小于频次阈值,表征该第二修饰文本可能是主体内容,满足筛选条件,需要从第二修饰文本集中删除该第二修饰文本。由于对于同一主体,不同的人所使用的表述方式可能会存在一些差异,完全相同的情况比较少,出现频次一般都比较低,而对于较短且常用的修饰词,表述方式基本上相同,其出现频次一般都比较高。因此通过设定频次阈值作为筛选条件(即:前述删除条件)来对第二修饰文本进行筛选,可以提升修饰文本的准确度和有效性。
还例如,利用预设的命名实体识别模型对第二修饰文本进行检测,得到该第二修饰文本的名称信息,若该名称信息中包含预设名称,则满足筛选条件,需要从第二修饰文本集中删除该第二修饰文本。由于在提示信息中添加一些艺术家名称(对应于前述预设名称)后,可以让文本生图模型借鉴该艺术家的作品内容和风格,达到提升图像品质的目的,但由于艺术家名称和图像之间并非存在直接的语义的相关性、且艺术家非常多,风格各异,那么添加在提示信息后,反而会使得生成的图像存在不稳定性和不可解释性。因此通过设定预设名称作为筛选条件(即:前述删除条件)来对第二修饰文本进行筛选,可以提升修饰文本的有效性、稳定性和可解释性。
再例如,利用第一预设条件来对第二修饰文本进行筛选,即:在第二修饰文本的语义信息满足第一预设条件(存在目标第二修饰文本)的情况下,表征这两个第二修饰文本很相似,那么可以先根据第二修饰文本的频次信息来进一步判断,若频次信息满足预设条件,则表明该第二修饰文本满足筛选条件,需要从第二修饰文本集中删除该第二修饰文本,反之,再根据第二修饰文本的名称信息来进一步判断,若名称信息中包含预设名称,则表明该第二修饰文本满足筛选条件,需要从第二修饰文本集中删除该第二修饰文本,反之,则保留该第二修饰文本。其中,预设条件可以包括但不限于频次信息远小于(表征相差巨大,例如,10倍、100倍等)目标第二修饰文本的频次信息、该频次信息是否接近于(表征相差不大)目标第二修饰文本的频次信息等。
语义相似度的计算方式可以是任意合适的计算方式。例如,余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数、CLIP(Contrastive Language-Image Pre-training,基于对比文本图像对的预训练)模型等。在实施时,本领域技术人员可以根据实际需求自主选择语义相似度的计算方式,本公开实施例不作限定。例如,通过CLIP,将第二修饰文本和另一第二修饰文本映射至统一共享的特征空间中,使得相似的文本在该特征空间中具备相近的特征表示。在实施时,将第二修饰文本和另一第二修饰文本均映射为固定长度的向量表示,然后计算这两个向量表示之间的相似度,作为该语义相似度。
比如,若第二修饰文本A1的频次信息远大于另一第二修饰文本A2的频次信息,那么可以保留A1,删除A2;若A1的频次信息远小于A2的频次信息,那么可以删除A1,保留A2;若A1的频次信息接近A2的频次信息,那么可以保留A1和A2。
在一些实施方式中,基于该第二修饰文本的频次信息,确定该第二修饰文本是否满足删除条件,若满足该删除条件,则从第二修饰文本集中删除该第二修饰文本,反之,可以根据第二修饰文本的名称信息和/或第二修饰文本的语义信息来进一步判断该第二修饰文本是否满足该删除条件。在实施时,可以先判断第二修饰文本的名称信息是否满足删除条件,若不满足,则进一步判断第二修饰文本的语义信息是否满足删除条件;也可以先判断第二修饰文本的语义信息是否满足删除条件,若不满足,则进一步判断第二修饰文本的名称信息是否满足删除条件。
例如,在第二修饰文本的名称信息中包含预设名称的情况下,则确定该第二修饰文本满足该删除条件;在第二修饰文本的名称信息中不包含预设名称的情况下,再判断第二修饰文本的语义信息是否满足第一预设条件,若不满足该第一预设条件,保留该第二修饰文本;若满足该第一预设条件,且该第二修饰文本的频次信息远大于另一修饰文本的频次信息,保留该第二修饰文本;若满足该第一预设条件,且该第二修饰文本的频次信息远小于目标第二修饰文本的频次信息,那么则从第二修饰文本集中删除该第二修饰文本。
又例如,在第二修饰文本的语义信息满足第一预设条件、且第二修饰文本的频次信息远小于目标第二修饰文本的频次信息的情况下,则确定该第二修饰文本满足该删除条件;在第二修饰文本的语义信息满足第一预设条件、且第二修饰文本的频次信息远大于目标第二修饰文本的频次信息的情况下,再判断第二修饰文本的名称信息中是否包含预设名称,若不包含预设名称,则保留该第二修饰文本,反之,则从第二修饰文本集中删除该第二修饰文本;在第二修饰文本的语义信息不满足第一预设条件的情况下,再基于第二修饰文本的名称信息和/或第二修饰文本的频次信息,来进一步判断是否从第二修饰文本集中删除该第二修饰文本。
在一些实施方式中,基于该第二修饰文本的名称信息,确定该第二修饰文本是否满足删除条件,若满足该删除条件,则从第二修饰文本集中删除该第二修饰文本,反之,可以根据第二修饰文本的频次信息和/或第二修饰文本的语义信息来进一步判断该第二修饰文本是否满足该删除条件。在实施时,可以先判断第二修饰文本的频次信息是否满足删除条件,若不满足,则进一步判断第二修饰文本的语义信息是否满足删除条件;也可以先判断第二修饰文本的语义信息是否满足删除条件,若不满足,则进一步判断第二修饰文本的频次信息是否满足删除条件。
在一些实施方式中,基于该第二修饰文本的语义信息,确定该第二修饰文本是否满足删除条件,若满足该删除条件,则从第二修饰文本集中删除该第二修饰文本,反之,可以根据第二修饰文本的频次信息和/或第二修饰文本的名称信息来进一步判断该第二修饰文本是否满足该删除条件。在实施时,可以先判断第二修饰文本的频次信息是否满足删除条件,若不满足,则进一步判断第二修饰文本的名称信息是否满足删除条件;也可以先判断第二修饰文本的名称信息是否满足删除条件,若不满足,则进一步判断第二修饰文本的频次信息是否满足删除条件。
在一些实施方式中,可以直接从第三修饰文本集中选取至少一个目标修饰文本、或先对第三修饰文本集进行分类,得到不同类别的第四修饰文本集,再从每一第四修饰文本集中分别选取至少一个目标修饰文本,然后基于每一目标修饰文本,确定目标图像增强器。
其中,目标修饰文本的数量可以为至少一个。在实施时,目标修饰文本的数量可以是随机个数。例如,1个、2个、3个等。
目标修饰文本的确定方式可以包括但不限于随机、自定义、用户喜好、使用频率、用户操作信息等。在实施时,本领域技术人员可以根据实际需求自主选择目标修饰文本的确定方式,本公开实施例不作限定。
例如,从第三修饰文本集中随机选择随机个数(比如,2个、3个等)的目标修饰文本。
又例如,按照频次信息对第三修饰文本集中的每一修饰文本进行排序,将频次前三的修饰文本分别作为一个目标修饰文本。
还例如,根据用户的手势实时确定目标修饰文本。比如,不同的手势对应不同的目标修饰文本,即:在用户输入第一手势的情况下,将第三修饰文本集中的前两个修饰文本分别作为一个目标修饰文本,在实施时,第三修饰文本集中的每一修饰文本可以按照名称、大小、时间(例如,修改时间、创建时间等)、频次信息等进行排序;在用户输入第二手势的情况下,将第三修饰文本集中的最后两个修饰文本分别作为一个目标修饰文本。又比如,不同的操作步长对应不同的目标修饰文本,即:在操作步长属于第一长度范围的情况下,将第三修饰文本集中的前三个修饰文本分别作为一个目标修饰文本;在操作步长属于第二长度范围的情况下,将第三修饰文本集中的最后一个修饰文本作为目标修饰文本,其中,第一长度范围与第二长度范围不相同。在实施时,本领域技术人员可以根据实际需求自主设定操作手势、目标修饰文本、目标修饰文本的数量之间的对应关系,本公开实施例不作限定。
对每一目标修饰文本进行随机顺序的组合,得到目标图像增强器。例如,从第三修饰文本集中确定三个修饰文本B1~B3,那么对B1~B3进行随机组合,可以生成6个不同的图像增强器,即:B1+B2+B3、B1+B3+B2、B2+B1+B3、B2+B3+B1、B3+B1+B2及B3+B2+B1,从这6个图像增强器中选择一个作为目标图像增强器。这样,一方面,利用第三修饰文本集来生成图像增强器,相较于仅使用几个修饰文本来生成图像增强器而言,由于第三修饰文本集中具有丰富多样的多个修饰文本,可以提升图像增强器的多样性,从而使得生成的图像具有更加丰富多样的增强效果;另一方面,自动地从第三修饰文本集中选择随机个数修饰文本进行随机组合来生成图像增强器,相较于用户显式的选择多个修饰文本、自行组合多个修饰文本来生成图像增强器而言,整个生成过程对用户而言完全无感知,在简化了操作步骤的同时还提升了用户的操作体验。
在本公开实施例中,一方面,自动对提示信息集中的多条提示信息进行提取及合并,得到多个第二修饰文本,相较于通过个人感性判断、社区经验、人工整理等方式而言,不仅增加了修饰文本的数量、缩短了修饰文本的获得时长,从而降低了修饰文本的获得成本,而且还提升了修饰文本的可靠性和准确度;另一方面,通过多个第二修饰文本的属性信息来确定第三修饰文本集,在提高了第三修饰文本集的准确度的同时还增加了修饰文本的数量,从而在后续使用第三修饰文本集来生成图像增强器时,既提升了图像增强器的多样性,还提高了图像增强器的准确度和有效性,进而使得生成图像具有更加丰富多样及更高质量的增强效果。
图2为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图二,如图2所示,所述方法包括步骤S21至步骤S23,其中:
步骤S21、针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集。
步骤S22、对所有第一修饰文本集进行合并处理,得到第二修饰文本集。
这里,上述步骤S21至步骤S22分别对应于前述步骤S11至步骤S12,在实施时可以参照前述步骤S11至步骤S12的实施方式。
步骤S23、针对所述第二修饰文本集中的每一第二修饰文本,基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为第三修饰文本集中的一个修饰文本;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器。
这里,第二修饰文本的频次信息表征第二修饰文本的出现次数,在实施时,在对所有第一修饰文本集进行合并的过程中,统计每一第二修饰文本出现的次数,以得到每一第二修饰文本的频次信息。
删除条件至少包括频次信息不小于频次阈值(即:删除条件一)。例如,在第二修饰文本的频次信息小于频次阈值,确定该第二修饰文本满足删除条件;反之,则确定该第二修饰文本不满足删除条件。
在一些实施方式中,该删除条件还可以包括名称信息中包含预设名称(删除条件二)、语义信息满足第一预设条件(即:删除条件三)等中的至少之一。在实施时,在第二修饰文本的频次信息不小于频次阈值的情况下,可以基于名称信息和/或语义信息来进一步判断第二修饰文本是否满足删除条件。
例如,在第二修饰文本的频次信息大于频次阈值且第二修饰文本的名称信息中包含预设名称时,确定该第二修饰文本满足删除条件;在第二修饰文本的频次信息大于频次阈值、且第二修饰文本的名称信息中不包含预设名称时,则确定该第二修饰文本不满足删除条件。
又例如,在第二修饰文本的频次信息大于频次阈值、且第二修饰文本的语义信息满足第一预设条件时,确定该第二修饰文本满足删除条件;在第二修饰文本的频次信息大于频次阈值、且第二修饰文本的语义信息不满足第一预设条件时,确定该第二修饰文本不满足删除条件。
还例如,在第二修饰文本的频次信息大于频次阈值、第二修饰文本中不包含预设名称、第二修饰文本的语义信息满足第一预设条件、且第二修饰文本的频次信息远小于目标第二修饰文本的频次信息时,则确定该第二修饰文本满足删除条件。
在一些实施方式中,当删除条件包括至少两个条件的情况下,对于每个删除条件的执行顺序并不限定。在实施时,可以将上一删除条件的输出作为下一删除条件的输入。
例如,在删除条件包括删除条件一(即:频次信息不小于频次阈值)和删除条件二(即:名称信息中包含预设名称)这两个条件的情况下,可以先判断第二修饰文本集中的每一第二修饰文本是否满足删除条件一,并将不满足删除条件一的第二修饰文本从第二修饰文本集中删除,得到新的第二修饰文本集(即:删除条件一的输出);再判断新的第二修饰文本集中的每一第二修饰文本(即:删除条件二的输入)是否满足删除条件二,并将不满足删除条件二的第二修饰文本从新的第二修饰文本集中删除,以得到第三修饰文本集;比如,先判断第二修饰文本集中的每一第二修饰文本的频次信息是否大于频次阈值,删除频次信息小于频次阈值的第二修饰文本,得到新的第二修饰文本集;再判断新的第二修饰文本集中的每一第二修饰文本的名称信息中是否包含预设名称,删除包含预设名称的第二修饰文本,以得到第三修饰文本集。也可以先判断第二修饰文本集中的每一第二修饰文本是否满足删除条件二,并将不满足删除条件二的第二修饰文本从第二修饰文本集中删除,得到新的第二修饰文本集(即:删除条件二的输出);再判断新的第二修饰文本集中的每一第二修饰文本(即:删除条件一的输入)是否满足删除条件一,并将不满足删除条件一的第二修饰文本从新的第二修饰文本集中删除,以得到第三修饰文本集。比如,先判断第二修饰文本集中的每一第二修饰文本的名称信息中是否包含预设名称,删除包含预设名称的第二修饰文本,得到新的第二修饰文本集;再判断新的第二修饰文本集中的每一第二修饰文本的频次信息是否大于频次阈值,删除频次信息小于频次阈值的第二修饰文本,以得到第三修饰文本集。
图像增强器的确定方式对应于前述步骤S13中的图像增强器的确定方式,在实施时,可以参照前述步骤S13的具体实施方式。
在本公开实施例中,通过设定频次信息作为删除条件,自动对第二修饰文本集中的多条修饰文本进行筛选,以得到第三修饰文本集,相较于通过个人感性判断、社区经验、人工整理等筛选方式而言,不仅在增加了修饰文本的数量的同时还提高了筛选效率,从而降低了筛选成本,而且还提升了第三修饰文本集的准确度、有效性和可靠性,从而为后续的图像增强器提供了强有力的数据支撑。
在一些实施方式中,所述步骤S23中的“基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足预设的删除条件”,包括步骤S231和/或步骤S232,其中:
步骤S231、在所述第二修饰文本的频次信息小于预设的频次阈值的情况下,确定所述第二修饰文本满足所述删除条件。
这里,在第二修饰文本中的频次信息小于频次阈值的情况下,则表明第二修饰文本满足删除条件,需要从第二修饰文本集中删除该第二修饰文本,以提升修饰文本的准确性和有效性。
步骤S232、在所述第二修饰文本的频次信息不小于所述频次阈值的情况下,基于所述第二修饰文本的名称信息和/或所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足所述删除条件。
这里,在第二修饰文本中的频次信息不小于频次阈值的情况下,表征第二修饰文本可能满足删除条件,通过第二修饰文本名称信息和/或第二修饰文本语义信息来进行进一步判断。在实施时,可以先利用名称信息判断第二修饰文本是否满足删除条件,在不满足删除条件的情况下,再利用语义信息来进一步判断第二修饰文本是否满足删除条件;也可以先利用语义信息判断第二修饰文本是否满足删除条件,在不满足删除条件的情况下,再利用名称信息来进一步判断第二修饰文本是否满足删除条件。
在本公开实施方式中,通过频次信息以及名称信息和/或语义信息来对修饰文本进行判断,一方面,相较于依赖个人感性判断而言,利用可量化、可比较及可解释的筛选标准,提升了判断的准确度、可靠性和判断效率;另一方面,相较于仅使用某一条件判断而言,提升了判断的准确度,从而提高了修饰文本的准确度和有效性。
图3为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图三,如图3所示,所述方法包括步骤S31至步骤S33,其中:
步骤S31、针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集。
步骤S32、对所有第一修饰文本集进行合并处理,得到第二修饰文本集。
这里,上述步骤S31至步骤S32分别对应于前述步骤S11至步骤S12,在实施时可以参照前述步骤S11至步骤S12的实施方式。
步骤S33、针对所述第二修饰文本集中的每一第二修饰文本,对所述第二修饰文本进行命名实体识别,得到所述第二修饰文本的名称信息,基于所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器。
这里,命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。第二修饰文本的名称信息包括包含预设名称、不包含预设名称等。在实施时,可以通过任意合适的方式来表示第二修饰文本的名称信息。例如,用“1”表示包含预设名称,用“0”表示不包含预设名称。
在一些实施方式中,可以通过命名实体识别模型、算法等来对第二修饰文本进行识别,得到该第二修饰文本的名称信息。
删除条件至少包括名称信息中包含预设名称(删除条件二)。例如,在第二修饰文本的名称信息中包含预设名称,确定该第二修饰文本满足删除条件;反之,则确定该第二修饰文本不满足删除条件。
在一些实施方式中,该删除条件还可以包括频次信息不小于频次阈值(即:删除条件一)、语义信息满足第一预设条件(即:删除条件三)等中的至少之一。在实施时,在第二修饰文本的名称信息不包含预设名称的情况下,可以基于频次信息和/或语义信息来进一步判断该第二修饰文本是否满足删除条件。
例如,在第二修饰文本的名称信息中不包括预设名称、且第二修饰文本的频次信息小于频次阈值时,确定该第二修饰文本满足删除条件;在第二修饰文本的名称信息中不包括预设名称、且第二修饰文本的频次信息不小于频次阈值时,确定该第二修饰文本不满足删除条件。
又例如,在第二修饰文本的名称信息中不包括预设名称、且第二修饰文本的语义信息满足第一预设条件时,确定该第二修饰文本满足删除条件;在第二修饰文本的名称信息中不包括预设名称、且第二修饰文本的语义信息不满足第一预设条件时,确定该第二修饰文本不满足删除条件。
还例如,在第二修饰文本中不包含预设名称、第二修饰文本的频次信息大于频次阈值、第二修饰文本的语义信息满足第一预设条件、且第二修饰文本的频次信息远小于目标第二修饰文本的频次信息时,则确定该第二修饰文本满足删除条件。
在一些实施方式中,当删除条件包括至少两个条件的情况下,对于每个删除条件的执行顺序并不限定。在实施时,可以将上一删除条件的输出作为下一删除条件的输入。
图像增强器的确定方式对应于前述步骤S13中的图像增强器的确定方式,在实施时,可以参照前述步骤S13的具体实施方式。
在本公开实施例中,通过设定名称信息作为删除条件,自动对第二修饰文本集中的多条修饰文本进行筛选,以得到第三修饰文本集,相较于通过个人感性判断、社区经验、人工整理等筛选方式而言,不仅在增加了修饰文本的数量的同时还提高了筛选效率,从而降低了筛选成本,而且还提升了第三修饰文本集的准确度、有效性和可靠性,从而为后续的图像增强器提供了强有力的数据支撑。
在一些实施方式中,所述步骤S33中的“基于所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足预设的删除条件”,包括步骤S331和/或步骤S332,其中:
步骤S331、在所述第二修饰文本的名称信息中包含预设名称的情况下,确定所述第二修饰文本满足所述删除条件。
这里,在第二修饰文本的名称信息中包含预设名称的情况下,则表明第二修饰文本满足删除条件,需要从第二修饰文本集中删除该第二修饰文本,以提升修饰文本的准确性和有效性。
步骤S332、在所述第二修饰文本的名称信息中不包含所述预设名称的情况下,基于所述第二修饰文本的频次信息和/或所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足所述删除条件。
这里,在第二修饰文本的名称信息中不包含预设名称的情况下,表征第二修饰文本可能满足删除条件,通过第二修饰文本的频次信息和/或第二修饰文本语义信息来进行进一步判断。在实施时,可以先利用频次信息判断第二修饰文本是否满足删除条件,在不满足删除条件的情况下,再利用语义信息来进一步判断第二修饰文本是否满足删除条件;也可以先利用语义信息判断第二修饰文本是否满足删除条件,在不满足删除条件的情况下,再利用频次信息来进一步判断第二修饰文本是否满足删除条件。
在本公开实施方式中,通过名称信息以及频次信息和/或语义信息来对修饰文本进行判断,一方面,相较于依赖个人感性判断而言,利用可量化、可比较及可解释的筛选标准,提升了判断的准确度、可靠性和判断效率;另一方面,相较于仅使用某一条件判断而言,提升了判断的准确度,从而提高了修饰文本的准确度和有效性。
图4为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图四,如图4所示,所述方法包括步骤S41至步骤S43,其中:
步骤S41、针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集。
步骤S42、对所有第一修饰文本集进行合并处理,得到第二修饰文本集。
这里,上述步骤S41至步骤S42分别对应于前述步骤S11至步骤S12,在实施时可以参照前述步骤S11至步骤S12的实施方式。
步骤S43、针对所述第二修饰文本集中的每一第二修饰文本,确定所述第二修饰文本的语义信息,基于所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器。
这里,第二修饰文本的语义信息是基于第二修饰文本与其它每一第二修饰文本之间的语义相似度确定的。在实施时,若存在至少一个语义相似度不小于预设的相似度阈值时,可以将每一语义相似度、及对应的第二修饰文本均作为该第二修饰文本的语义信息。
在一些实施方式中,所述步骤S43中的“确定所述第二修饰文本的语义信息”,包括步骤S431至步骤S432,其中:
步骤S431、确定所述第二修饰文本与至少一个另一第二修饰文本之间的语义相似度。
这里,至少一个另一第二修饰文本分别为第二修饰文本集中不同于第二修饰文本的一个第二修饰文本。比如,第二修饰文本集中包括修饰文本1~100,若第二修饰文本为修饰文本2,那么修饰文本1、修饰文本3~100分别为一个另一第二修饰文本。
语义相似度的计算方式可以是任意合适的计算方式。例如,余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数、CLIP模型等。
步骤S432、基于每一所述语义相似度,确定所述第二修饰文本的语义信息。
这里,第二修饰文本的语义信息可以包括但不限于无、至少一个语义相似度及对应的修饰文本等。在实施时,若每一语义相似度均小于相似度阈值,则表明不存在与第二修饰文本很相似的一个修饰文本,那么,第二修饰文本的语义信息可以为无;若存在至少一个语义相似度不小于相似度阈值,则表明存在至少一个与第二修饰文本很相似的修饰文本,那么,可以将每一语义相似度(不小于相似度阈值)、及对应的修饰文本作为该第二修饰文本的语义信息。
例如,第二修饰文本集中包括第二修饰文本A1~A100,针对第二修饰文本A1,分别确定第二修饰文本A1与第二修饰文本A2~A100之间的语义相似度,若所有的语义相似度均小于相似度阈值,那么,该第二修饰文本A1的语义信息为无;若仅有第二修饰文本A3与第二修饰文本A1之间的语义相似度不小于相似度阈值,表明第二修饰文本A3作为一个目标第二修饰文本,那么可以将第二修饰文本A3与第二修饰文本A1之间的语义相似度、及第二修饰文本A3作为该第二修饰文本A1的语义信息;若第二修饰文本A3与第二修饰文本A1之间的语义相似度、第二修饰文本A5与第二修饰文本A1之间的语义相似度均不小于相似度阈值,表明第二修饰文本A3、第二修饰文本A5均作为一个目标第二修饰文本,那么可以将第二修饰文本A3与第二修饰文本A1之间的语义相似度、第二修饰文本A3、第二修饰文本A5与第二修饰文本A1之间的语义相似度、及第二修饰文本A5作为该第二修饰文本A1的语义信息。
删除条件至少包括语义信息满足第一预设条件(即:删除条件三)。例如,在第二修饰文本的语义信息满足第一预设条件,确定该第二修饰文本满足删除条件;反之,则确定该第二修饰文本不满足删除条件。
在一些实施方式中,该删除条件还可以包括频次信息不小于频次阈值(即:删除条件一)、名称信息中包含预设名称(删除条件二)等中的至少之一。在实施时,在第二修饰文本的语义信息满足第一预设条件的情况下,基于频次信息,确定第二修饰文本是否满足删除条件;在第二修饰文本的语义信息不满足第一预设条件的情况下,基于第二修饰文本的频次信息和/或名称信息来进一步确定该第二修饰文本是否满足删除条件。
例如,在第二修饰文本的语义信息不满足第一预设条件、且第二修饰文本的频次信息小于频次阈值时,确定该第二修饰文本满足删除条件;在第二修饰文本的语义信息不满足第一预设条件、且第二修饰文本的频次信息不小于频次阈值时,确定该第二修饰文本不满足删除条件。
又例如,在第二修饰文本的语义信息不满足第一预设条件、且第二修饰文本的名称信息中包括预设名称时,确定该第二修饰文本满足删除条件;在第二修饰文本的语义信息不满足第一预设条件、且第二修饰文本的名称信息中不包括预设名称时,确定该第二修饰文本不满足删除条件。
还例如,在第二修饰文本的语义信息满足第一预设条件、且第二修饰文本的频次信息远小于另一第二修饰文本(与第二修饰文本之间的语义相似度不小于相似度阈值)的频次信息时,则确定该第二修饰文本满足删除条件;在第二修饰文本的语义信息满足第一预设条件、且第二修饰修饰文本的频次信息远大于另一第二修饰文本,则确定第二修饰文本不满足删除条件。
再例如,在第二修饰文本的语义信息满足第一预设条件、且第二修饰修饰文本的频次信息远大于另一第二修饰文本时,可以基于第二修饰文本的名称信息进一步判断第二修饰文本是否满足删除条件,即:在第二修饰文本的名称信息中包含预设名称时,则确定该第二修饰文本满足删除条件;反之,则确定该第二修饰文本不满足删除条件。
在一些实施方式中,当删除条件包括至少两个条件的情况下,对于每个删除条件的执行顺序并不限定。在实施时,可以将上一删除条件的输出作为下一删除条件的输入。
图像增强器的确定方式对应于前述步骤S13中的图像增强器的确定方式,在实施时,可以参照前述步骤S13的具体实施方式。
在本公开实施例中,通过设定语义信息作为删除条件,自动对第二修饰文本集中的多条修饰文本进行筛选,以得到第三修饰文本集,相较于通过个人感性判断、社区经验、人工整理等筛选方式而言,不仅在增加了修饰文本的数量的同时还提高了筛选效率,从而降低了筛选成本,而且还提升了第三修饰文本集的准确度、有效性和可靠性,从而为后续的图像增强器提供了强有力的数据支撑。
在一些实施方式中,所述步骤S43中的“基于所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足预设的删除条件”,包括步骤S441和/或步骤S442,其中:
步骤S441、在所述第二修饰文本的语义信息满足第一预设条件情况下,基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足所述删除条件。
这里,第一预设条件表征存在目标第二修饰文本。目标第二修饰文本与第二修饰文本之间的语义相似度不小于预设的相似度阈值。
在第二修饰文本的语义信息满足第一预设条件的情况下,则表明第二修饰文本集中存在与第二修饰文本很相似的修饰文本,那么第二修饰文本可能满足删除条件,通过第二修饰文本的频次信息来进行进一步判断。在实施时,若第二修饰文本的频次信息远小于目标第二修饰文本的频次信息时,则确定该第二修饰文本满足删除条件,需要从第二修饰文本集中删除该第二修饰文本;反之,若第二修饰文本的频次信息远大于目标第二修饰文本的频次信息,可以确定该第二修饰文本不满足删除条件,也可以根据第二修饰文本的名称信息进行进一步判断第二修饰文本是否满足删除条件。
步骤S442、在所述第二修饰文本的语义信息不满足所述第一预设条件的情况下,基于所述第二修饰文本的频次信息和/或所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足所述删除条件。
这里,在第二修饰文本的语义信息不满足第一预设条件的情况下,则表明第二修饰文本集中不存在与第二修饰文本很相似的修饰文本,那么该第二修饰文本可能满足删除条件,通过第二修饰文本频次信息和/或第二修饰文本名称信息来进行进一步判断。在实施时,可以先利用频次信息判断第二修饰文本是否满足删除条件,在不满足删除条件的情况下,再利用名称信息来进一步判断第二修饰文本是否满足删除条件;也可以先利用名称信息判断第二修饰文本是否满足删除条件,在不满足删除条件的情况下,再利用频次信息来进一步判断第二修饰文本是否满足删除条件。
在本公开实施方式中,通过语义信息以及频次信息和/或名称信息来对修饰文本进行判断,一方面,相较于依赖个人感性判断而言,利用可量化、可比较及可解释的筛选标准,提升了判断的准确度、可靠性和判断效率;另一方面,相较于仅使用某一条件判断而言,提升了判断的准确度,从而提高了修饰文本的准确度和有效性。
图5为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图五,如图5所示,所述方法包括步骤S51至步骤S55,其中:
步骤S51、针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集。
步骤S52、对所有第一修饰文本集进行合并处理,得到第二修饰文本集。
步骤S53、基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。
这里,上述步骤S51至步骤S53分别对应于前述步骤S11至步骤S13,在实施时可以参照前述步骤S11至步骤S13的实施方式。
步骤S54、针对所述第三修饰文本集中的每一修饰文本,从至少一个修饰类别中确定所述修饰文本的目标修饰类别。
这里,修饰类别可以是任意合适的类别。在实施时,本领域技术人员可以根据实际需求自主设定修饰类别及修饰类别的数量,本公开实施例不作限定。
例如,根据图像的评价维度来设定修饰类别,在实施时,对于一张图像,一般可以从画质、构图、色彩、光线、内容等维度来进行评价,那么可以设定修饰类别可以包括“画质、构图、色彩、光线、内容及其它”。其中,画质包括清晰度,分辨率,有无模糊、噪点、瑕疵、变形等,是否采用了高动态范围成像(High Dynamic Range Imaging,HDR)、或其它后期处理技术等。构图包括是否合理地采用了常用的构图法则(例如,三分构图法、框架法、消失点法等)、是否合理安排了主体和衬体、前后景的虚实关系等。色彩包括是否采用了常用的配色法(例如,单色配色、补色配色等),色调(例如,暖色调、冷色调等),色彩饱和度等。光线包括光源(例如,自然光、人造光、摄影光等),方向(例如,正光、背光、侧光等),是否有明暗对比,是否采用了某些摄影光学技术等。内容包括是否具备趣味性、创造性、艺术性、抽象性等,是否包含文化理念、故事叙述性等。
又例如,按照修饰对象、修饰位置等来设定修饰类别。比如,按照人、动物、生物、虚拟对象等修饰对象,可以设定修饰类别包括“人、动物、生物、虚拟对象及其它”。又比如,按照修饰人的脸部、头部、轮廓、整体、其它等修饰位置,设定修饰类别包括“人的脸部、人的头部、人的轮廓、人的整体、及其它”。
在一些实施方式中,可以计算修饰文本与每一修饰类别(或部分修饰类别)之间的第一语义相似度,基于该每一第一语义相似度来确定目标修饰类别。其中,修饰文本的目标修饰类别的确定方式可以包括但不限于将某一第一语义相似度接近阈值对应的修饰类别,最高的第一语义相似度对应的修饰类别,除部分修饰类别外的另一修饰类别(与部分修饰类别之间的第一语义相似度接近)等。例如,包括“画质、构图、色彩、光线、内容及其它”这六个修饰类别,该修饰文本与这六个修饰类别之间的第一语义相似度分别为20%、31%、99%、10%、5%、2%,那么可以将第三个修饰类别“色彩”作为该修饰文本的目标修饰类别。又例如,包括“画质、构图、色彩、光线、内容及其它”这六个修饰类别,该修饰文本与前五个修饰类别之间的第一语义相似度分别为25%、30%、28%、27%、25.6%,那么可以将最后一个修饰类别“其它”作为该修饰文本的目标修饰类别。
步骤S55、针对每一修饰文本,将所述修饰文本分类至所述修饰文本的目标修饰类别对应的第四修饰文本集中。
这里,不同的修饰类别对应不同的第四修饰文本集。在实施时,第四修饰文本集的数量与修饰类别的数量相同。
在本公开实施例中,通过将每一修饰文本分类至设定的修饰类别中,提高了分类的精确度和分类效率,以使得后续根据多种类别的修饰文本生成的图像增强器来生成具有丰富多样的增强效果和更好质量的图像。
在一些实施方式中,所述步骤S54中的“从至少一个修饰类别中确定所述修饰文本的目标修饰类别”,包括步骤S541至步骤S543,其中:
步骤S541、从每一所述修饰类别中确定至少一个第一修饰类别和一个第二修饰类别。
这里,第一修饰类别可以是某一具体的类别,第二修饰类别可以是附加的类别。例如,在修饰类别包括“画质、构图、色彩、光线、内容及其它”的情况下,那么第一修饰类别可以是“画质”、“构图”、“色彩”、“光线”、“内容”,第二修饰类别可以是“其它”。
步骤S542、针对每一第一修饰类别,基于所述修饰文本和所述第一修饰类别对应的标准修饰文本集,确定所述第一修饰类别对应的第一语义相似度。
这里,不同的第一修饰类别对应不同的标准修饰文本集。在实施时,可以预先设定第一修饰类别与标准修饰文本集之间的对应关系,并将该对应关系存储在电子设备、或其它电子设备中。在实施时,本领域技术人员可以根据实际需求自主第一修饰类别和标准修饰文本集之间的对应关系,本公开实施例不作限定。
例如,在第一修饰类别是“画质”、“构图”、“色彩”、“光线”、或“内容”的情况下,那么,“画质”对应的标准修饰文本集可以包括“质量,分辨率,4K,8K,聚焦,平滑”等,“构图”对应的标准修饰文本集可以包括“中心,对称,黄金比例,电源构图”等,“色彩”对应的标准修饰文本集可以包括“鲜艳的颜色,多彩的,生动的色彩,冷色调,暖色调,黑白”等,“光线”对应的标准修饰文本集可以包括“戏剧照明,体积照明,全局照明,动态照明”等,“内容”对应的标准修饰文本集可以包括“优雅,代表作,幻象、电源”等。
在一些实施方式中,所述步骤S542的“基于所述修饰文本和所述第一修饰类别对应的标准修饰文本集,确定所述第一修饰类别对应的第一语义相似度”,包括步骤S5421至步骤S5422,其中:
步骤S5421、针对所述第一修饰类别对应的标准修饰文本集中的每一标准修饰文本,确定所述修饰文本与所述标准修饰文本之间的第二语义相似度。
这里,每一标准修饰文本集中包括至少一个修饰文本。例如,对于画质而言,其标准修饰文本集中可以包括质量、分辨率等基准词(即:标准修饰文本)。第二语义相似度的计算方式可以包括但不限于余弦距离、内积、欧式距离、曼哈顿距离、皮尔逊相关系数、CLIP等。例如,通过余弦距离来计算修饰文本与标准修饰文本之间的第二语义相似度。
步骤S5422、基于每一所述第二语义相似度,确定所述第一修饰类别对应的第一语义相似度。
这里,第一语义相似度的确定方式可以包括但不限于某一第二语义相似度、对某一第二语义相似度进行加权/取对数/取指数、每一第二语义相似度的均值/均方差/方差、对每一第二语义相似度进行加权之后的均值/均方差/方差等。在实施时,本领域技术人员可以根据实际需求自主选择第一语义相似度的确定方式,本公开实施例不作限定。例如,将每一第二语义相似度的均值,作为该第一语义相似度。
步骤S543、基于每一所述第一修饰类别对应的第一语义相似度和所述第二修饰类别,确定所述修饰文本对应的目标修饰类别。
这里,目标修饰类别可以是某一第一修饰类别、第二修饰类别。例如,在某一第一语义相似度远大于其它第一语义相似度的情况下,则将该第一语义相似度对应的第一修饰类别作为该目标修饰类别。又例如,在每一第一语义相似度均比较接近的情况下,将第二修饰类别作为该目标修饰类别。
在一些实施方式中,所述步骤S543包括步骤S5431和/或步骤S5432,其中:
步骤S5431、在每一所述第一修饰类别对应的第一语义相似度满足第二预设条件的情况下,将所述第二修饰类别作为所述修饰文本对应的目标修饰类别。
这里,第二预设条件表征每一第一语义相似度基本上相同,在实施时,若每一第一语义相似度基本上相同,表明修饰文本与每一第一修饰类别均不相似,此时,可以将第二修饰类别作为该修饰文本对应的目标修饰类别。例如,修饰文本与五个第一修饰类别的第一语义相似度分别为:28%、30%、31%、29%、26%,那么将第二修饰类别作为该修饰文本对应的目标修饰类别。
步骤S5432、在每一所述第一修饰类别对应的第一语义相似度不满足所述第二预设条件的情况下,基于每一所述第一修饰类别对应的第一语义相似度,从每一所述第一修饰类别中确定所述修饰文本对应的目标修饰类别。
这里,若每一第一语义相似度基本上不相同,表明修饰文本可能与某一第一修饰类别比较相似,此时,可以将最大的第一语义相似度对应的第一修饰类别作为该目标修饰类别。例如,修饰文本与五个第一修饰类别的第一语义相似度分别为:20%、30%、90%、31%、45%,那么将第三个第一修饰类别作为该修饰文本对应的目标修饰类别。
在本公开实施方式中,通过从每一所述修饰类别中确定至少一个第一修饰类别和一个第二修饰类别;针对每一第一修饰类别,基于所述修饰文本和所述第一修饰类别对应的标准修饰文本集,确定所述第一修饰类别对应的第一语义相似度;基于每一所述第一修饰类别对应的第一语义相似度和所述第二修饰类别,确定所述修饰文本对应的目标修饰类别。这样,通过将修饰文本与每一修饰类别进行比对,以得到修饰文本的目标修饰类别,提高了修饰文本分类的准确性和分类效率,从而提高了后续根据不同类别的修饰文本生成的图像增强器的合理性和有效性。
图6为本公开实施例提供的一种图像增强器生成方法的实现流程示意图一,如图6所示,所述方法包括步骤S61至步骤S62,其中:
步骤S61、从第五修饰文本集中确定至少一个目标修饰文本。
这里,第五修饰文本集是根据上述任一项修饰文本集生成方法得到的。在实施时,第五修饰文本集的数量可以为至少一个。例如,第五修饰文本集可以是上述第三修饰文本集。又例如,第五修饰文本集的数量为多个,每一第五修饰文本集可以是上述任意一个第四修饰文本集,且每一第五修饰文本集具有不同的类别。
目标修饰文本的数量可以为至少一个。在实施时,目标修饰文本的数量可以是随机个数。例如,1个、2个、3个等。
目标修饰文本的确定方式可以包括但不限于随机、自定义、用户喜好、使用频率、用户操作信息等。
例如,从第五修饰文本集中随机选择随机个数(比如,2个、3个等)的目标修饰文本。
又例如,针对每一第五修饰文本集,按照频次信息对该第五修饰文本集中的每一修饰文本进行排序,将频次最高的修饰文本作为一个目标修饰文本。
还例如,针对每一第五修饰文本集,确定该第五修饰文本集中每一修饰文本的抽取概率,并按照每一修饰文本的抽取概率来抽取目标修饰文本。其中,抽取概率是基于修饰文本的频次信息得到的,比如,将频次信息取对数后进行归一化处理,得到该抽取概率。这样,从每一类别的修饰文本集中均选取修饰文本作为目标修饰文本,相较于仅选取部分类别的修饰文本而言,由于同时兼顾了多种类别的修饰,提升了图像增强器的性能,从而使得利用图像增强器生成的图像具有更好的质量和效果。
在一些实施方式中,由于文本生图模型会对提示信息进行分词处理,对于超过数量阈值的内容将被截断处理,因此需要对目标修饰文本的数量进行限定,即:目标图像增强器的词数进行限定。例如,从画质对应的第五修饰文本集中随机抽取3个画质词、从构图对应的第五修饰文本集中随机抽取1个构图词、从色彩对应的第五修饰文本集中随机抽取1个色彩词、从光线对应的第五修饰文本集中随机抽取1个光线词、从内容对应的第五修饰文本集中随机抽取3个内容词、及从其它对应的第五修饰文本集中随机抽取2个词。
步骤S62、基于每一所述目标修饰文本,确定目标图像增强器;其中,所述目标图像增强器用于与目标提示信息配合生成所述目标提示信息对应的图像。
这里,将每一目标修饰文本进行随机顺序的组合,得到该目标图像增强器。
目标提示信息可以是任意合适的提示信息。在实施时,目标提示信息可以是文字提示信息、语音提示信息等。例如,目标提示信息可以是描述人、虚拟对象、物品等的属性信息的文字/语音提示信息。比如,目标提示信息可以是“一个男生”。又比如,目标提示信息可以是“戴着眼镜的女生”。目标提示信息的获取方式可以包括但不限于通过输入组件输入的、接收其它设备发送的等。
在实施时,将目标提示信息和目标图像增强器进行随机顺序的组合,得到第一提示信息,并利用预设的文本生图模型,生成该第一提示信息对应的图像,并将该图像作为目标提示信息对应的图像。其中,文本生图模型可以是任意合适的能够基于提示信息生成图像的模型。例如,Stable Diffusion、Guided Language to Image DiffusionforGeneration and Editing(GLIDE,文本引导图像生成模型)、Midjourney、MUSE等。
例如,目标提示信息为“漂亮的女生”,那么第一提示信息可以是“漂亮的女生+目标图像增强器”、“目标图像增强器+漂亮的女生”等。在实施时,不同的第一提示信息,生成的图像的增强效果不同。
在本公开实施例中,一方面,使用第五文本修饰集来自动生成图像增强器,相较于仅使用几个修饰文本来生成图像增强器而言,由于第五修饰文本集中具有丰富多样的修饰文本,那么可以提升图像增强器的多样性,同时不需要用户显示的选择修饰文本、对多个修饰文本进行组合来生成图像增强器,简化了操作步骤,提升了用户的操作体验;另一方面,根据提示信息和目标图像增强器来生成图像,使得生成图像具有更加丰富多样的增强效果和更好的质量,降低了仅使用几个固定的生成器来提升生成效果的局限性、及盲目组合修饰文本来生成图像增强器可能带来的不稳定和不可解释性的可能性。
下面说明本公开实施例提供的方法在实际场景中的应用,以基于目标提示语(对应于前述目标提示信息)和目标修饰词(对应于前述目标修饰文本)进行生图的场景为例进行说明。
随着DALL-E、Imagen、MidJourney等扩散模型(Diffusion Model)的推出,文本生图成为AIGC的重要组成部分,生成图像的分辨率、质感、纹理和细节等都取得了里程碑式进展,生成质量逼近人类作品,受到了越来越多的关注和应用。用户只需要通过提示语(即:提示信息)描述预期的内容,文本生图模型即可生成高质量且符合提示信息的语义要求的图像内容。对于提示语而言,恰当而充分地使用修饰词可以显著地改善文本生图效果、提升品质、增加细节、丰富美感、避免瑕疵等。在实施时,仅使用单个修饰词作为增强器(对应于前述图像增强器),生成的图像品质便得到了显著提升。
然而,对于一般用户而言,可能完全不知道有哪些可用的修饰词,更不清楚该如何恰当而充分地组合以及使用它们。目前主要依赖个人感性判断、社区经验、人工整理等方式,整理出一定量的增强器供用户参考和使用,那么在文本生图的过程中,反复使用这几个增强器,虽然改善了图像的生成效果,但严重影响了图像的生成结果的多样性和生成质量。
本公开实施例提供一种图像生成方法,首先,从大量的提示语(对应于前述提示信息集)中提取出多个第一修饰词集(对应于前述第一修饰文本集),对多个第一修饰词集进行合并处理、利用删除条件进行筛选等,得到各种各样的修饰词(对应前述第三修饰文本集);其次,在美感计算相关理论的指导下,这些目标修饰词被进一步分类成不同类别的修饰词(对应于前述第四修饰文本集);最后,从每一类别的修饰词中随机抽取随机个数的目标修饰词(对应于前述目标修饰文本),对每一目标修饰词进行随机顺序的组合,以生成恰当而有效的增强器,并将该增强器添加至目标提示语之后,以实现更多样更高质量的生成效果,从而解决仅使用少量修饰词或固定几个增强器来提升生成效果的局限性、以及无法生成更高质量的内容。
下面从筛选阶段、分类阶段及使用阶段这三个阶段来阐述本公开实施例提供的图像生成方法的实施过程,其中:
1、筛选阶段,主要对大量的修饰词(对应于前述多个第一修饰文本集)进行筛选,得到目标修饰词集(对应于前述第三修饰文本集)。图7A为本公开实施例提供的一种修饰文本集生成方法的实现流程示意图六,如图7A所示,该方法包括步骤S701至步骤S703,其中:
步骤S701、基于海量的提示语,确定候选提示语集(对应于前述提示信息集);
这里,与现有技术中主要依靠人工整理的方式不同,为了尽可能多、尽可能全地获取修饰词,本公开从多个使用最为广泛的在线文本生图网站以及提示语资源整合网站,获取海量提示语记录,每条提示语记录中包括标识信息、提示语、图片属性信息、随机数种子等。从海量提示语记录中获得每一提示语记录中的提示语,形成第一提示语集。对第一提示语集进行去重处理,即:完全相同的提示语会被去重且仅保留一条,得到第二提示语集。为了提高提示语的质量,对第二提示语集中的每一提示语进行词数统计,从第二提示语集中删除提示语过长和过短的提示语,形成候选提示语集。
步骤S702、利用预设的标点符合,分别对候选提示语集中的每一提示语进行分割,得到每一提示语对应的第一修饰词集;
这里,标点符号可以包括但不限于逗号、问号、感叹号等。
步骤S703、对多个第一修饰词集进行合并去重处理,得到第二修饰词集(对应于前述第二修饰文本集),并利用删除条件对第二修饰词集进行筛选处理,得到目标修饰词集(对应于前述第三修饰文本集);
这里,将每一第一修饰词集进行合并处理,即,将M个相同的修饰词进行合并,并将M次作为该修饰词的出现频次(对应于前述频次信息)。
删除条件可以包括但不限于前述删除条件一(频次信息不小于频次阈值)、前述删除条件二(第二修饰文本的名称信息中包含预设名称)、及前述删除条件三(第二修饰文本的语义信息满足第一预设条件)等中的至少之一。在实施时,对于每个删除条件的执行顺序并不限定。
例如,分别按照删除条件一、删除条件二、删除条件三,依次对第二修饰词集进行筛选,即:
首先,由于对于同一主体,不同的人所使用的表述方式可能会存在一些差异,完全相同的情况比较少,出现频次一般都比较低,而对于较短且常用的修饰词,表述方式基本上相同,其出现频次一般都比较高。因此可以利用删除条件一来对第二修饰词集进行第一次筛选,得到第六修饰词集,即:若第二修饰词集中的某个修饰词的频次小于200次(对应于前述频次阈值),则删除该修饰词,反之,则保留该修饰词,以提升修饰词的准确度和有效性。
其次,由于艺术家名称和生图效果之间并非存在直接的语义的相关性、且艺术家非常多,风格各异,那么将艺术家名称添加在提示信息后,反而会使得生成的图像存在不稳定性和不可解释性。因此,可以利用删除条件二对第六修饰词集进行第二次筛选,得到第七修饰词集,即:采用命名实体识别模型,对第六修饰词集中的每一修饰词进行识别,若某一修饰词中包含人名,则删除该修饰词,反之,则保留该修饰词,以提升修饰词的有效性、稳定性和可解释性。如果依靠人工对第六修饰词集进行逐一处理,将耗费大量时间和人力,相比之下,采用全自动化的处理流程,依靠命名实体识别模型完成筛选工作,效率更高且结果更可靠。
最后,由于第七修饰词集中可能包含很多语义相似的修饰词,需要对第七修饰词集进行语义去重,因此利用删除条件三对第七修饰词集进行第三次筛选,得到目标修饰词集(对应于前述第三修饰文本集),即:利用CLIP,计算修饰词A和修饰词B之间的语义相似度,若该语义相似度大于相似度阈值、且修饰词A和修饰词B之间的频次信息相差10倍以上,则删除频次较低者,以进一步提升修饰词的有效性。
2、分类阶段,主要是利用美感计算中的相关理论对目标修饰词集进行分类。图7B为本公开实施例提供的一种分类方法的实现流程示意图,如图7B所示,该方法包括步骤S711至步骤S712,其中:
步骤S711、针对目标修饰词集中的每一修饰词,基于每一类别(对应于前述第一修饰类别)对应的若干个基准词(对应于前述标准修饰文本集),确定该修饰词的目标类别。
这里,由于一张具有较高审美愉悦的图像,应该同时具备画质、构图、色彩、光线、及内容这五个方面的优质特征,使得观者在浏览之后产生审美愉悦。因此本公开提供“画质、构图、色彩、光线、内容、及其它”这六个类别,并为画质、构图、色彩、光线、内容这五个类别分别构建了若干个基准词。对于每一修饰词,分别计算该修饰词与某一类别中每个基准词的语义相似度(对应于前述第二语义相似度),将多个语义相似度进行平均后得到该修饰词与该类别之间的语义相似度(对应于前述第一语义相似度);若该修饰词与某一类别之间的语义相似度远大于该修饰词与其它类别之间的语义相似度,则将该修饰词划分至该类别;若该修饰词与五个类别之间的语义相似度均比较接近,则将该修饰词划分至“其它”类别。
步骤S712,将每一修饰词分类至对应的目标类别所属的修饰词集(对应于前述第五修饰文本集)中。
这里,经过上述分类处理后,所有的修饰词可以划分为“画质、构图、色彩、光线、内容、及其它”这六个类别。
3、使用阶段,主要是利用每一类别中的若干个修饰词来生成增强器,并利用增强器来生成图像。图7C为本公开实施例提供的一种图像增强器生成方法的实现流程示意图二,如图7C所示,该方法包括步骤S721至步骤S722,其中:
步骤S721、从每一类别的修饰词集中随机抽取若干个目标修饰词;
这里,由于CLIP模型会对提示信息进行分词,超过设定个数(例如,77个)的词将会被截断,因此在兼顾各个类别的前提下,需要限制增强器的总词数。
在每一类别进行随机抽取时,可以对该类别所有的修饰词按照频次取对数、并归一化后作为其概率进行抽取,以使得频次越高的修饰词越容易被抽取。由于每一类别的修饰词集中包括多个修饰词、且随机抽取的数量也不固定,相较于仅使用少量修饰词来生成图像而言,生成的图像的结果更加丰富多样,且不管在细节品质,还是整体审美上,均可以得到显著的生成效果的提升。
步骤S722、将每一目标修饰词进行随机顺序的拼接,得到增强器(对应于前述目标图像增强器)。
这里,将增强器拼接至目标提示语后,输入至文本生图模型(例如,StableDiffusion)中,生成该目标提示语对应的图像。整个生成过程,对于用户而言,是完全无感知的,用户无需显式地手动选择修饰词或增强器,即可得到对质量和效果进行增强之后的图像。
图7D为本公开实施例提供的一种基于目标提示语生成图像的示意图,如图7D所示,在用户输入目标提示语731后:
若无增强器,即:不使用增强效果,利用文本生图模型76,则可以生成目标提示语731对应的图像732;
若增强器为“清晰的焦点,优雅的,超逼真的,对称的,丰富多彩的,平滑的,电影般的,景深的,造型奇特,体积照明,美丽”,此时,将增强器拼接至目标提示语731后,则形成新的提示语741,那么利用文本生图模型76,则可以生成该新的提示语741对应的图像742,并将图像742作为目标提示语731对应的图像。图像742相较于图像732而言,图像质量和图像效果显著提升;
若增强器为“超现实主义,次表面散射,美丽的构图,边缘光线,极其细致,生动,8k,绽放,叙事诗,黄金时刻,花,暖色调渐变背景”,将增强器拼接至目标提示语731后,则形成新的提示语751,那么利用文本生图模型76,则可以生成该新的提示语751对应的图像752,并将图像752作为目标提示语731对应的图像。图像752相较于图像732而言,图像质量和图像效果显著提升;图像752相较于图像742而言,丰富了生成结果的多样性。
本公开实施例提供的方法至少具有以下有益效果:
1)基于海量提示语记录,充分利用大规模跨模态预训练模型所蕴含的知识,有效且准确地提取出丰富的修饰词集,相较于主要依赖人工整理少量可用的修饰词而言,由于优化后的修饰词集中包含大量的修饰词,增加了修饰文本的数量、缩短了修饰文本的获得时长,从而降低了修饰文本的获得成本,而且还提升了修饰文本的可靠性和准确度;
2)通过自由灵活地生成随机数量的修饰词,并遵循美感计算相关理论的指导来生成增强器,相较于主要依赖人工整理少量可用且固定的增强器,反复使用会导致生成内容的重复性和趋同性而言,既提升了图像增强器的多样性、性能和效果,还实现了更加丰富多样及更高质量的增强效果。
基于上述实施例,本公开实施例提供一种修饰文本集生成装置,图8为本公开实施例提供的一种修饰文本集生成装置的组成结构示意图,如图8所示,所述修饰文本集生成装置80包括第一确定模块81、第二确定模块82及第三确定模块83,其中:
所述第一确定模块81,用于针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集;
所述第二确定模块82,用于对所有第一修饰文本集进行合并处理,得到第二修饰文本集;
所述第三确定模块83,用于基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。
在一些实施方式中,在所述属性信息包括所述频次信息的情况下,所述第三确定模块83,还用于:针对所述第二修饰文本集中的每一第二修饰文本,基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本。
所述第三确定模块83,还用于以下至少之一:在所述第二修饰文本的频次信息小于预设的频次阈值的情况下,确定所述第二修饰文本满足所述删除条件;在所述第二修饰文本的频次信息不小于所述频次阈值的情况下,基于所述第二修饰文本的名称信息和/或所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足所述删除条件。
在一些实施方式中,在所述属性信息包括所述名称信息的情况下,所述第三确定模块83,还用于:针对所述第二修饰文本集中的每一第二修饰文本,对所述第二修饰文本进行命名实体识别,得到所述第二修饰文本的名称信息,基于所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本。
所述第三确定模块83,还用于以下至少之一:在所述第二修饰文本的名称信息中包含预设名称的情况下,确定所述第二修饰文本满足所述删除条件;在所述第二修饰文本的名称信息中不包含所述预设名称的情况下,基于所述第二修饰文本的频次信息和/或所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足所述删除条件。
在一些实施方式中,在所述属性信息包括所述语义信息的情况下,所述第三确定模块83,还用于:针对所述第二修饰文本集中的每一第二修饰文本,确定所述第二修饰文本的语义信息,基于所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本。
在一些实施方式中,所述第三确定模块83,还用于:确定所述第二修饰文本与至少一个另一第二修饰文本之间的语义相似度;其中,所述至少一个另一第二修饰文本分别为所述第二修饰文本集中不同于所述第二修饰文本的一个第二修饰文本;基于每一所述语义相似度,确定所述第二修饰文本的语义信息。
在一些实施方式中,所述第三确定模块83,还用于以下至少之一:在所述第二修饰文本的语义信息满足第一预设条件情况下,基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足所述删除条件;其中,所述第一预设条件表征存在目标第二修饰文本,所述目标第二修饰文本与所述第二修饰文本之间的语义相似度不小于预设的相似度阈值;在所述第二修饰文本的语义信息不满足所述第一预设条件的情况下,基于所述第二修饰文本的频次信息和/或所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足所述删除条件。
在一些实施方式中,所述装置还包括第五确定模块,所述第五确定模块,用于:针对所述第三修饰文本集中的每一修饰文本,从至少一个修饰类别中确定所述修饰文本的目标修饰类别;针对每一修饰文本,将所述修饰文本分类至所述修饰文本的目标修饰类别对应的第四修饰文本集中。
在一些实施方式中,所述第五确定模块,还用于:从每一所述修饰类别中确定至少一个第一修饰类别和一个第二修饰类别;针对每一第一修饰类别,基于所述修饰文本和所述第一修饰类别对应的标准修饰文本集,确定所述第一修饰类别对应的第一语义相似度;基于每一所述第一修饰类别对应的第一语义相似度和所述第二修饰类别,确定所述修饰文本对应的目标修饰类别。
在一些实施方式中,所述第五确定模块,还用于:针对所述第一修饰类别对应的标准修饰文本集中的每一标准修饰文本,确定所述修饰文本与所述标准修饰文本之间的第二语义相似度;基于每一所述第二语义相似度,确定所述第一修饰类别对应的第一语义相似度。
在一些实施方式中,所述第五确定模块,还用于以下至少之一:在每一所述第一修饰类别对应的第一语义相似度满足第二预设条件的情况下,将所述第二修饰类别作为所述修饰文本对应的目标修饰类别;在每一所述第一修饰类别对应的第一语义相似度不满足所述第二预设条件的情况下,基于每一所述第一修饰类别对应的第一语义相似度,从每一所述第一修饰类别中确定所述修饰文本对应的目标修饰类别。
以上修饰文本集生成装置实施例的描述,与上述修饰文本集生成方法实施例的描述是类似的,具有同修饰文本集生成方法实施例相似的有益效果。对于本公开修饰文本集生成装置实施例中未披露的技术细节,请参照本公开修饰文本集生成方法实施例的描述而理解。
基于上述实施例,本公开实施例提供一种图像增强器生成装置,图9为本公开实施例提供的一种图像增强器生成装置的组成结构示意图,如图9所示,所述图像增强器生成装置90包括第四确定模块91及生成模块92,其中:
所述第四确定模块91,用于从第五修饰文本集中确定至少一个目标修饰文本;其中,所述第五修饰文本集是根据上述任一项修饰文本集生成方法得到的;
所述生成模块92,用于基于每一所述目标修饰文本,生成目标图像增强器;其中,所述目标图像增强器用于与目标提示信息配合生成所述目标提示信息对应的图像。
以上图像增强器生成装置实施例的描述,与上述图像增强器生成方法实施例的描述是类似的,具有同图像增强器生成方法实施例相似的有益效果。对于本公开图像增强器生成装置实施例中未披露的技术细节,请参照本公开图像增强器生成方法实施例的描述而理解。
需要说明的是,本公开实施例中,如果以软件功能模块的形式实现上述方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本公开实施例不限制于任何特定的硬件和软件结合。
本公开实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本公开实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
需要说明的是,图10为本公开实施例中电子设备的一种硬件实体示意图,如图10所示,该电子设备1000的硬件实体包括:处理器1001、通信接口1002和存储器1003,其中:
处理器1001通常控制电子设备1000的总体操作。
通信接口1002可以使电子设备通过网络与其他终端或服务器通信。
存储器1003配置为存储由处理器1001可执行的指令和应用,还可以缓存待处理器1001以及电子设备1000中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器1001、通信接口1002和存储器1003之间可以通过总线1004进行数据传输。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本公开实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本公开的实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。
Claims (17)
1.一种修饰文本集生成方法,其特征在于,所述方法包括:
针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集;
对所有第一修饰文本集进行合并处理,得到第二修饰文本集;
基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。
2.根据权利要求1所述的方法,其特征在于,在所述属性信息包括所述频次信息的情况下,所述基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集,包括:
针对所述第二修饰文本集中的每一第二修饰文本,基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足预设的删除条件,包括以下至少之一:
在所述第二修饰文本的频次信息小于预设的频次阈值的情况下,确定所述第二修饰文本满足所述删除条件;
在所述第二修饰文本的频次信息不小于所述频次阈值的情况下,基于所述第二修饰文本的名称信息和/或所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足所述删除条件。
4.根据权利要求1所述的方法,其特征在于,在所述属性信息包括所述名称信息的情况下,所述基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集,包括:
针对所述第二修饰文本集中的每一第二修饰文本,对所述第二修饰文本进行命名实体识别,得到所述第二修饰文本的名称信息,基于所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足预设的删除条件,包括以下至少之一:
在所述第二修饰文本的名称信息中包含预设名称的情况下,确定所述第二修饰文本满足所述删除条件;
在所述第二修饰文本的名称信息中不包含所述预设名称的情况下,基于所述第二修饰文本的频次信息和/或所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足所述删除条件。
6.根据权利要求1所述的方法,其特征在于,在所述属性信息包括所述语义信息的情况下,所述基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集,包括:
针对所述第二修饰文本集中的每一第二修饰文本,确定所述第二修饰文本的语义信息,基于所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足预设的删除条件,并在所述第二修饰文本不满足所述删除条件的情况下,将所述第二修饰文本作为所述第三修饰文本集中的一个修饰文本。
7.根据权利要求6所述的方法,其特征在于,所述确定所述第二修饰文本的语义信息,包括:
确定所述第二修饰文本与至少一个另一第二修饰文本之间的语义相似度;其中,所述至少一个另一第二修饰文本分别为所述第二修饰文本集中不同于所述第二修饰文本的一个第二修饰文本;
基于每一所述语义相似度,确定所述第二修饰文本的语义信息。
8.根据权利要求6所述的方法,其特征在于,所述基于所述第二修饰文本的语义信息,确定所述第二修饰文本是否满足预设的删除条件,包括以下至少之一:
在所述第二修饰文本的语义信息满足第一预设条件情况下,基于所述第二修饰文本的频次信息,确定所述第二修饰文本是否满足所述删除条件;其中,所述第一预设条件表征存在目标第二修饰文本,所述目标第二修饰文本与所述第二修饰文本之间的语义相似度不小于预设的相似度阈值;
在所述第二修饰文本的语义信息不满足所述第一预设条件的情况下,基于所述第二修饰文本的频次信息和/或所述第二修饰文本的名称信息,确定所述第二修饰文本是否满足所述删除条件。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:
针对所述第三修饰文本集中的每一修饰文本,从至少一个修饰类别中确定所述修饰文本的目标修饰类别;
针对每一修饰文本,将所述修饰文本分类至所述修饰文本的目标修饰类别对应的第四修饰文本集中。
10.根据权利要求9所述的方法,其特征在于,所述从至少一个修饰类别中确定所述修饰文本的目标修饰类别,包括:
从每一所述修饰类别中确定至少一个第一修饰类别和一个第二修饰类别;
针对每一第一修饰类别,基于所述修饰文本和所述第一修饰类别对应的标准修饰文本集,确定所述第一修饰类别对应的第一语义相似度;
基于每一所述第一修饰类别对应的第一语义相似度和所述第二修饰类别,确定所述修饰文本对应的目标修饰类别。
11.根据权利要求10所述的方法,其特征在于,所述基于所述修饰文本和所述第一修饰类别对应的标准修饰文本集,确定所述第一修饰类别对应的第一语义相似度,包括:
针对所述第一修饰类别对应的标准修饰文本集中的每一标准修饰文本,确定所述修饰文本与所述标准修饰文本之间的第二语义相似度;
基于每一所述第二语义相似度,确定所述第一修饰类别对应的第一语义相似度。
12.根据权利要求10所述的方法,其特征在于,所述基于每一所述第一修饰类别对应的第一语义相似度和所述第二修饰类别,确定所述修饰文本对应的目标修饰类别,包括以下至少之一:
在每一所述第一修饰类别对应的第一语义相似度满足第二预设条件的情况下,将所述第二修饰类别作为所述修饰文本对应的目标修饰类别;
在每一所述第一修饰类别对应的第一语义相似度不满足所述第二预设条件的情况下,基于每一所述第一修饰类别对应的第一语义相似度,从每一所述第一修饰类别中确定所述修饰文本对应的目标修饰类别。
13.一种图像增强器生成方法,其特征在于,所述方法包括:
从第五修饰文本集中确定至少一个目标修饰文本;其中,所述第五修饰文本集是根据权利要求1至12中任一项所述的方法得到的;
基于每一所述目标修饰文本,生成目标图像增强器;其中,所述目标图像增强器用于与目标提示信息配合生成所述目标提示信息对应的图像。
14.一种修饰文本集生成装置,其特征在于,所述装置包括:
第一确定模块,用于针对提示信息集中的每一提示信息,对所述提示信息进行修饰文本提取,得到所述提示信息对应的第一修饰文本集;
第二确定模块,用于对所有第一修饰文本集进行合并处理,得到第二修饰文本集;
第三确定模块,用于基于所述第二修饰文本集中的每一第二修饰文本的属性信息,从所述第二修饰文本集中确定第三修饰文本集;其中,所述第三修饰文本集中的每一修饰文本用于生成至少一个提升图像生成效果的图像增强器;所述属性信息包括频次信息、名称信息、语义信息中的至少一项。
15.一种图像增强器生成装置,其特征在于,所述装置包括:
第四确定模块,用于从第五修饰文本集中确定至少一个目标修饰文本;其中,所述第五修饰文本集是根据权利要求1至12中任一项所述的方法得到的;
生成模块,用于基于每一所述目标修饰文本,生成目标图像增强器;其中,所述目标图像增强器用于与目标提示信息配合生成所述目标提示信息对应的图像。
16.一种电子设备,包括处理器和存储器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13任一项所述方法。
17.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至13中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310667106.6A CN116402049B (zh) | 2023-06-06 | 2023-06-06 | 修饰文本集和图像增强器生成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310667106.6A CN116402049B (zh) | 2023-06-06 | 2023-06-06 | 修饰文本集和图像增强器生成方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402049A true CN116402049A (zh) | 2023-07-07 |
CN116402049B CN116402049B (zh) | 2023-08-22 |
Family
ID=87008020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310667106.6A Active CN116402049B (zh) | 2023-06-06 | 2023-06-06 | 修饰文本集和图像增强器生成方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402049B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726897A (zh) * | 2023-09-22 | 2024-03-19 | 书行科技(北京)有限公司 | 训练数据生成方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250365A (zh) * | 2016-07-21 | 2016-12-21 | 成都德迈安科技有限公司 | 基于文本分析的消费者评论中商品属性特征词的提取方法 |
US10074200B1 (en) * | 2015-04-22 | 2018-09-11 | Amazon Technologies, Inc. | Generation of imagery from descriptive text |
CN109859813A (zh) * | 2019-01-30 | 2019-06-07 | 新华三大数据技术有限公司 | 一种实体修饰词识别方法及装置 |
CN113254694A (zh) * | 2021-05-21 | 2021-08-13 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN115018941A (zh) * | 2022-05-23 | 2022-09-06 | 大连理工大学 | 一种基于改进版文本解析器的文本至图像生成算法 |
CN116205786A (zh) * | 2022-12-21 | 2023-06-02 | 华南农业大学 | 一种基于文本驱动图像生成的虚拟试衣方法 |
-
2023
- 2023-06-06 CN CN202310667106.6A patent/CN116402049B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10074200B1 (en) * | 2015-04-22 | 2018-09-11 | Amazon Technologies, Inc. | Generation of imagery from descriptive text |
CN106250365A (zh) * | 2016-07-21 | 2016-12-21 | 成都德迈安科技有限公司 | 基于文本分析的消费者评论中商品属性特征词的提取方法 |
CN109859813A (zh) * | 2019-01-30 | 2019-06-07 | 新华三大数据技术有限公司 | 一种实体修饰词识别方法及装置 |
CN113254694A (zh) * | 2021-05-21 | 2021-08-13 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN115018941A (zh) * | 2022-05-23 | 2022-09-06 | 大连理工大学 | 一种基于改进版文本解析器的文本至图像生成算法 |
CN116205786A (zh) * | 2022-12-21 | 2023-06-02 | 华南农业大学 | 一种基于文本驱动图像生成的虚拟试衣方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726897A (zh) * | 2023-09-22 | 2024-03-19 | 书行科技(北京)有限公司 | 训练数据生成方法、装置、电子设备和存储介质 |
CN117726897B (zh) * | 2023-09-22 | 2024-09-24 | 书行科技(北京)有限公司 | 训练数据生成方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116402049B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Affective image content analysis: Two decades review and new perspectives | |
US10311479B2 (en) | System for producing promotional media content and method thereof | |
CN110325986B (zh) | 文章处理方法、装置、服务器及存储介质 | |
CN113569088B (zh) | 一种音乐推荐方法、装置以及可读存储介质 | |
KR102457665B1 (ko) | 검색/생성된 디지털 미디어 파일을 기반으로 잠재적 관련성에 대한 주제 예측 | |
US9940307B2 (en) | Augmenting text with multimedia assets | |
CN116402049B (zh) | 修饰文本集和图像增强器生成方法、装置及电子设备 | |
US11914841B2 (en) | Automatic generation of stylized icons | |
JPWO2007138911A1 (ja) | キャラクタ服飾決定装置、キャラクタ服飾決定方法、およびキャラクタ服飾決定プログラム | |
CN116127054B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序 | |
WO2019245033A1 (ja) | 動画編集サーバおよびプログラム | |
CN113536172B (zh) | 一种百科信息展示的方法、装置及计算机存储介质 | |
WO2023116122A1 (zh) | 一种字幕生成方法、电子设备及计算机可读存储介质 | |
JP6730760B2 (ja) | サーバおよびプログラム、動画配信システム | |
CN109241299A (zh) | 多媒体资源搜索方法、装置、存储介质及设备 | |
CN113573128B (zh) | 一种音频处理方法、装置、终端以及存储介质 | |
KR101804679B1 (ko) | 스토리에 기초하는 멀티미디어 콘텐츠 개발 장치 및 방법 | |
CN117061785A (zh) | 信息播报视频的生成方法、装置、设备及存储介质 | |
CN114047979A (zh) | 展示项目配置及显示方法、装置、设备、存储介质 | |
JP2021119662A (ja) | サーバおよびデータ割り当て方法 | |
CN110837307A (zh) | 一种输入法及其系统 | |
JP2020108162A (ja) | サーバおよびプログラム | |
CN116401394B (zh) | 对象集和图像生成方法、装置、电子设备及存储介质 | |
WO2022201236A1 (ja) | サーバおよびシステム、画像切り抜き方法、プログラム | |
Kurabayashi et al. | Impression-aware video stream retrieval system with temporal color-sentiment analysis and visualization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |