CN116894881A - 图像生成方法、装置、电子设备和存储介质 - Google Patents
图像生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116894881A CN116894881A CN202310907515.9A CN202310907515A CN116894881A CN 116894881 A CN116894881 A CN 116894881A CN 202310907515 A CN202310907515 A CN 202310907515A CN 116894881 A CN116894881 A CN 116894881A
- Authority
- CN
- China
- Prior art keywords
- information
- image
- target
- color
- book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004590 computer program Methods 0.000 claims description 10
- 210000000056 organ Anatomy 0.000 claims description 5
- 210000000697 sensory organ Anatomy 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000005034 decoration Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例公开了图像生成方法、装置、电子设备和存储介质,包括:获取目标书籍和所述目标书籍的封面图像;从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息;对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息;将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。提高了作者的创作效率和创作体验,通过分发图像能够更加生动、一目了然的了解书籍的关键信息,加快了用户理解书籍的效率,提升了书籍推荐效果。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像生成方法、装置、电子设备和存储介质。
背景技术
在电子书籍应用程序中,可以通过封面和摘要信息来展示电子书籍的主要信息,用户通过封面和摘要信息来判断是否进一步阅读该电子书籍。
发明人在实现本发明的过程中发现,现有的电子书籍封面一般都是作者从封面库中挑选得到的,导致封面可能与电子书籍不匹配;或者,需要作者自己进行书籍封面的创作,创作过程需要花费大量的时间,且需要作者有一定的软件作图基础,创作门槛较高。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种图像生成方法、装置、电子设备和存储介质,能够自动生成与电子书籍内容、角色匹配的封面,且生成的封面能够与作者的色彩和风格需求想匹配,提高了封面的生成效率;此外,封面表征了电子书籍的关键角色和内容,方便用户一目了然的了解电子书籍的关键信息,节约了用户的理解成本。
本发明实施例提供了一种图像生成方法,包括:获取目标书籍和所述目标书籍的封面图像;从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息;对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息;将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
本发明实施例还提供了一种图像生成装置,包括:获取模块,用于获取目标书籍和所述目标书籍的封面图像;提取模块,用于从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息;确定模块,用于对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息;生成模块,用于将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
本发明实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的图像生成方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的图像生成方法。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的图像生成方法。
本发明实施例提供的技术方案与现有技术相比至少具有如下优点:本发明实施例提供的图像生成方法、装置、电子设备及存储介质,通过目标书籍的封面图像确定色彩信息和图像风格信息,基于生成式模型、综合目标书籍的角色信息、精彩情节的文本信息、色彩信息和图像风格信息自动生成目标书籍的分发图像,提高了作者的创作效率和创作体验,通过分发图像能够更加生动、一目了然的了解书籍的关键信息,加快了用户理解书籍的效率,提升了书籍推荐效果。
附图说明
结合附图并参考以下具体实施方式,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本发明实施例中的一种图像生成方法的流程图;
图2为本发明又一实施例中的一种图像生成方法的流程图;
图3本发明实施例中的一种图像生成装置的结构示意图;
图4本发明实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
参考图1所示,本发明实施例提供了一种图像生成方法的流程图。
步骤S101,获取目标书籍和所述目标书籍的封面图像。
在本步骤中,目标书籍包括待生成分发图像的书籍,书籍的相关信息在推荐页面通过分发图像进行展示,用户触发分发图像跳转到阅读器进行书记的阅读。分发图像可以是作者选择的书籍,也可以是根据每本书籍的书籍讨论度、书籍连载状态等确定的。一般地,作者在创建一本新书时,会上传或制作图像作为该新书的封面图像,即每本书籍对应有封面图像。在确定目标书籍后,也同时确定了该目标书籍的封面图像。
步骤S102,从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息。
为了使分发图像更能表征目标书籍中的角色和精彩情节,在本步骤中,提取目标书籍中各角色的角色信息和精彩情节的文本信息。具体地,可以从目标书籍的大纲信息中确定多个角色的角色名称,根据所述角色名称在目标书籍的全文内容中进行搜索,确定描述所述角色外貌、服装、装饰等的多段文本,对这些段文本进行分析整合,生成所述角色的角色信息。所述精彩情节包括目标书籍的情节发展到高潮阶段的目标章节,和/或用户评论、讨论较多的目标章节,确定目标章节的场景、角色、角色间的关系、角色间的动作等,生成描述该精彩情节的文本信息。
进一步地,目标书籍中的角色、精彩情节包括多个。首先,可以根据目标书籍的评论中讨论最多的角色、精彩情节,确定要提取的目标角色、目标精彩情节;如果目标书籍是连载中状态,可以根据书籍当前最新更新内容,实时跟新分发图像,保证分发图像与最新更新内容的一致性,因此,也可以根据目标书籍的书籍连载状态,确定当前连载章节出现的新角色、新精彩情节,将新角色、新精彩情节确定为要提取的目标角色、目标精彩情节。然后,再提取目标书籍中目标角色的角色信息和目标精彩情节的文本信息。
步骤S103,对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息。
为了保持分发图像与封面图像的色彩和风格的一致性,本步骤中,通过对封面图像进行识别,确定其对应的色彩信息和图像风格信息。具体地,色彩信息可以通过确定组成封面图像的每个像素RGB值确定(比如同一RGB值对应的像素点数量最多的色彩信息),图像风格信息可以通过识别封面图像的画风确定(比如马赛克风格、赛博朋克风格,通过画风识别模型输出图像风格信息),本发明在此不做限定。
步骤S104,将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
这里,生成式模型可以基于Transfomer、Bert、GPT等模型训练得到,本发明再次不做限定。在本步骤中,首先将角色信息、所述文本信息、所述色彩信息和所述图像风格信息补充至引导信息模板(例如,引导信息模板可以为“用以下的关键词:“角色信息”+“文本信息”产出以“色彩信息”为主的“图像风格信息”风格的图像),转化成生成式模型可理解的引导信息,再将引导信息输入至生成式模型,生成目标书籍的分发图像。
本发明实施例提供的技术方案,通过目标书籍的封面图像确定色彩信息和图像风格信息,基于生成式模型、综合目标书籍的角色信息、精彩情节的文本信息、色彩信息和图像风格信息自动生成目标书籍的分发图像,提高了作者的创作效率和创作体验,通过分发图像能够更加生动、一目了然的了解书籍的关键信息,加快了用户理解书籍的效率,提升了书籍推荐效果。
作为本发明实施例的一些可选实施方式,如图2所示,公开了一种图像生成方法,包括如下步骤:
步骤S201,获取目标书籍和所述目标书籍的封面图像。
步骤S202,从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息。
作为本发明的一些可选实施方式,可以通过以下方案提取角色信息和文本信息:确定所述目标书籍描述各所述角色的外貌、服装的目标段落,按照角色信息模板中各类特征项目、从所述目标段落中提取对应的目标内容,生成所述角色信息;根据所述目标书籍的大纲和/或评论信息,确定具有精彩情节的多个目标章节,从所述目标章节中提取所述文本信息。
这里,所述角色信息模板包括用于生成角色图像所需的各类特征项目,例如外貌类的特征项目包括眉毛、眼睛、鼻子、嘴、脸型、发型、发色、肤色、身材等;服装类的特征项目包括上装、下装、裙装、鞋;装饰类的特征项目包括耳饰、头饰、装备、乐器等。具体地,可以预先建立角色信息模板对应的关键词库,所述关键词库包括各类特征项目下常见的关键词。从目标书籍的大纲信息中确定了所述角色的角色名称后,根据所述角色名称和所述关键词在目标书籍的全文内容中进行搜索,确定描述所述角色外貌、服装、装饰等的多段目标段落。从所述多段目标段落中,提取所述角色信息模板中与每类特征项目匹配的目标内容,将所述目标内容填入所述角色模板,生成所述角色信息。
如上所述,所述精彩情节包括目标书籍的情节发展到高潮阶段的目标章节,和/或用户评论、讨论较多的目标章节。这里,可以根据所述目标书籍的大纲和/或评论信息,确定具有精彩情节的多个目标章节,从所述目标章节中提取所述文本信息。
具体地,根据所述目标书籍的大纲和/或评论信息确定至少一个目标情节节点;确定所述目标情节节点关联的多个目标章节;提取所述目标章节中包括的角色的角色动作信息、场景描述信息,基于所述角色动作信息和场景描述信息生成所述文本信息。
这里,基于自然语言理解技术,对目标书籍的大纲进行分析,确定情节发展各个高潮阶段的多个第一情节节点;对针对目标书籍的用户评论进行分析,确定讨论较多的多个第二情节节点;对第一情节节点和第二情节节点进行比对,将重合的情节节点作为目标情节节点,或者,将第一情节节点作为目标情节节点,或者,将第二情节节点作为目标情节节点。根据目标书籍的书籍内容,确定和目标情节节点相关联的多个目标章节,从目标章节中提取角色动作信息、精彩情节的场景描述信息,生成文本信息。
步骤S203,对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息。
作为本发明的一些可选实施方式,封面图像的色彩信息通过如下方案确定:确定所述封面图像对应的色彩特征分布信息;基于预先划分的各色彩搭配组合对应的色彩特征区间集,确定所述色彩特征分布信息中包括的色彩特征在不同色彩特征区间集的重合比例;根据所述重合比例确定目标色彩搭配组合,将所述目标色彩搭配组合对应的色彩特征区间集作为所述封面图像的色彩信息。
这里,预先对各种图像风格的色彩搭配进行分析,确定多种色彩搭配组合。每种色彩搭配组合包括多个色彩,根据每个色彩对应的RGB值,生成色彩特征区间集。因为每个色彩都有相近色彩,因此色彩对应的GRB值包括其相近色彩对应的RGB值。
采集封面图像中每个像素的RGB值,并对相似色彩的RGB值进行聚类统计,得到至少一个色彩组以及每个色彩组对应的像素数量。色彩特征分布信息包括每个色彩组的色彩特征(可以是色彩组中任一相似色彩的RGB值)和对应的像素数量。
进一步地,根据像素数量有大到小对每个色彩组进行排序,取排序前N个的目标色彩组(其中,N可以根据实际情况确定),确定每个目标色彩组包括的色彩特征在不同色彩特征区间集的重合比例。重合比例越大,说明封面图像与色彩搭配组合的色彩越相近。在计算重合比例时,不同色彩组对应的权重不同,像素数量越多,对应的权重越大。根据重合比例从上述色彩搭配组合中确定目标色彩搭配组合,将目标色彩搭配组合对应的色彩特征区间集中的每个色彩组的色彩特征,作为封面图像的色彩信息。
作为本发明的一些可选实施方式,封面图像的图像风格信息通过如下方案确定:识别所述封面图像中出现的人像,确定至少一个人像区域;对所述人像区域进行切割,得到五官图像和服装图像;将所述五官图像和所述服装图像输入至图像风格识别模型,确定所述封面图像的图像风格。
在执行本步骤之前,获取各类图像风格的图像样本,保证图像样本中包括人像,切割出图像样本中的五官子图像和服装子图像,通过五官子图像和服装子图像对图像风格识别模型进行训练。
在本方案中,可以通过深度学习模型等对封面图像进行人像识别,确定一个或多个人像区域;在选定的人像区域中,切割拆分出五官图像和服装图像;再将五官图像和服装图像输入至预先训练好的图像风格识别模型,确定封面图像的图像风格。
步骤S204,将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
作为本发明的一些可选实施方式,如图2所示,本步骤可以通过如下步骤实现:
步骤S2041,根据所述角色信息和所述文本信息生成候选引导信息;所述候选引导信息包括角色的外貌、服装、动作、以及场景对应的候选引导关键词。
具体地,候选引导信息包括多维表格的形式,表格中需要根据角色信息、文本信息补充角色的外貌、神态、服装、视频、动作,以及精彩情节相关场景的自然环境、建筑物等关键词。
步骤S2042,在预先建立的引导词库中查找与所述候选引导关键词匹配的目标引导关键词。
生成式模型对于表达同一意思的不同关键词,可能会输出不同质量的图像。举例来说,“火冒三丈”和“怒发冲冠”都可以用来描述愤怒,将以上两个词分别输入至生成模型,生成图像中人物的愤怒的神态质量是不同的。因此,本方案通过对生成式模型的预先训练,确定表述人物外貌、神态、服装、视频、动作,以及场景的自然环境、建筑物的目标词,即预先建立各关键词与目标词之间的关联关系,虽然目标词和其关联的关键词表述的意思相同,但是用目标词输入值生成式模型,能够生成质量最高的图像。举例来说,针对头部表情中的“笑”而言,可能在不同的书籍中,对笑有不同的描述;即使针对相同书籍的不同章节、不同人物对应的笑的描述可能也不一样,例如可以包括微笑、哈哈大笑、邪恶笑、狷狂一笑、欣慰、欣喜、开心、满足等等。但是,无论对笑的描述是怎样的,最后都可以对应于相同的目标词,存在多种关键词对应于同一目标词的关联映射关系。
而这种映射关系的建立的过程,以微笑为例,可以预先确定各种笑分别对应的候选目标词,在测试各种笑分别对应的候选目标词的图像生成效果,最终可以发现针对笑而言,smile的图像生成效果是最好的,所以就可以建立多种笑的关键词与smile之间的多对一的映射关系,smile就是笑的目标词。
具体地,针对候选引导信息中包括的每个候选引导关键词,在上述建立的引导词库中查找与所述候选引导关键词匹配的目标词,将该目标词作为目标引导关键词。
步骤S2043,在所述候选引导信息中将所述候选引导关键词替换成所述目标引导关键词,得到引导信息。
具体地,将候选引导信息中的每个候选引导关键词替换成目标引导关键词,得到引导信息。
步骤S2044,将所述引导信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
这里,直接将上述步骤得到的引导信息、色彩信息和图像风格信息一并输入至生成式模型,使模型生成目标书籍的分发图像。
作为本发明的一些可选实施方式,本步骤可以通过以下方案确定:获取所述图像风格信息对应的多张候选风格引导图片;基于所述角色信息和所述文本信息确定角色数量、角色间的相对位置;从所述候选风格引导图片中确定与所述角色数量和所述角色间的相对位置匹配的目标风格引导图片;将所述引导信息、所述色彩信息和所述图像风格图片输入至生成式模型,生成所述目标书籍的分发图像。
发明人在实现本发明的过程中发现,针对角色与角色之间的动作,由于动作幅度、姿态的具体细节无法用文字描述清楚,因此会出现生成图像中角色动作的偏差和走形。因此本方案中,根据角色信息和文本信息中对角色自身动作、姿态的描述,角色与角色之间动作、相对位置的描述,从候选风格引导图片中确定与之匹配的目标风格引导图片,将引导信息、色彩信息和图像风格图片一并输入至图像生成模型,从而得到质量更高的分发图像。需要说明的是,为了防止输入的目标风格引导图片与目标书籍的风格信息差距较大,本方案首先获取与图像风格信息匹配的多张候选风格引导图片,从中挑选目标风格引导图片。
本发明实施例提供的技术方案,通过目标书籍的封面图像确定色彩信息和图像风格信息,基于生成式模型、综合目标书籍的角色信息、精彩情节的文本信息、色彩信息和图像风格信息自动生成目标书籍的分发图像,提高了作者的创作效率和创作体验,通过分发图像能够更加生动、一目了然的了解书籍的关键信息,加快了用户理解书籍的效率,提升了书籍推荐效果。
在一个实施例中,参考图3所示,提供了一种图像生成装置的结构示意图。该装置可用于执行图1-图2任一所示的图像生成方法,该装置包括:获取模块310、提取模块320、确定模块330和生成模块340;其中,
获取模块310,用于获取目标书籍和所述目标书籍的封面图像;提取模块320,用于从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息;确定模块330,用于对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息;生成模块340,用于将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
可选地,提取模块320进一步用于,确定所述目标书籍描述各所述角色的外貌、服装的目标段落,按照角色信息模板中各类特征项目、从所述目标段落中提取对应的目标内容,生成所述角色信息;根据所述目标书籍的大纲和/或评论信息,确定具有精彩情节的多个目标章节,从所述目标章节中提取所述文本信息。
可选地,提取模块320进一步用于,根据所述目标书籍的大纲和/或评论信息确定至少一个目标情节节点;确定所述目标情节节点关联的多个目标章节;提取所述目标章节中包括的角色的角色动作信息、场景描述信息,基于所述角色动作信息和场景描述信息生成所述文本信息。
可选地,确定模块330进一步用于,确定所述封面图像对应的色彩特征分布信息;基于预先划分的各色彩搭配组合对应的色彩特征区间集,确定所述色彩特征分布信息中包括的色彩特征在不同色彩特征区间集的重合比例;根据所述重合比例确定目标色彩搭配组合,将所述目标色彩搭配组合对应的色彩特征区间集作为所述封面图像的色彩信息。
可选地,确定模块330进一步用于,识别所述封面图像中出现的人像,确定至少一个人像区域;对所述人像区域进行切割,得到五官图像和服装图像;将所述五官图像和所述服装图像输入至图像风格识别模型,确定所述封面图像的图像风格。
可选地,生成模块340进一步用于,根据所述角色信息和所述文本信息生成候选引导信息;所述候选引导信息包括角色的外貌、服装、动作、以及场景对应的候选引导关键词;在预先建立的引导词库中查找与所述候选引导关键词匹配的目标引导关键词;在所述候选引导信息中将所述候选引导关键词替换成所述目标引导关键词,得到引导信息;将所述引导信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
可选地,生成模块340进一步用于,获取所述图像风格信息对应的多张候选风格引导图片;基于所述角色信息和所述文本信息确定角色数量、角色间的相对位置;从所述候选风格引导图片中确定与所述角色数量和所述角色间的相对位置匹配的目标风格引导图片;将所述引导信息、所述色彩信息和所述图像风格图片输入至生成式模型,生成所述目标书籍的分发图像。
需要说明的是,本发明实施例所提供的图像生成装置对应的可用于执行上述各方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4为本发明实施例中的一种电子设备的结构示意图。下面具体参考图4,其示出了适于用来实现本发明实施例中的电子设备400的结构示意图。本发明实施例中的电子设备400可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口504也连接至总线404。
通常,以下装置可以连接至I/O接口504:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码,从而实现如上所述的方法。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理装置401执行时,执行本发明实施例的方法中限定的上述功能。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,终端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取目标书籍和所述目标书籍的封面图像;从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息;对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息;将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
附图中的流程图和框图,图示了按照本发明各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,依照所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (10)
1.一种图像生成方法,其特征在于,所述方法包括:
获取目标书籍和所述目标书籍的封面图像;
从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息;
对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息;
将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
2.根据权利要求1所述的方法,其特征在于,所述从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息,包括:
确定所述目标书籍描述各所述角色的外貌、服装的目标段落,按照角色信息模板中各类特征项目、从所述目标段落中提取对应的目标内容,生成所述角色信息;
根据所述目标书籍的大纲和/或评论信息,确定具有精彩情节的多个目标章节,从所述目标章节中提取所述文本信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标书籍的大纲和/或评论信息,确定具有精彩情节的多个目标章节,从所述目标章节中提取所述文本信息,包括:
根据所述目标书籍的大纲和/或评论信息确定至少一个目标情节节点;
确定所述目标情节节点关联的多个目标章节;
提取所述目标章节中包括的角色的角色动作信息、场景描述信息,基于所述角色动作信息和场景描述信息生成所述文本信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述封面图像进行识别,确定所述封面图像的色彩信息,包括:
确定所述封面图像对应的色彩特征分布信息;
基于预先划分的各色彩搭配组合对应的色彩特征区间集,确定所述色彩特征分布信息中包括的色彩特征在不同色彩特征区间集的重合比例;
根据所述重合比例确定目标色彩搭配组合,将所述目标色彩搭配组合对应的色彩特征区间集作为所述封面图像的色彩信息。
5.根据权利要求1或4所述的方法,其特征在于,所述对所述封面图像进行识别,确定所述封面图像的图像风格信息,包括:
识别所述封面图像中出现的人像,确定至少一个人像区域;
对所述人像区域进行切割,得到五官图像和服装图像;
将所述五官图像和所述服装图像输入至图像风格识别模型,确定所述封面图像的图像风格。
6.根据权利要求1所述的方法,其特征在于,所述将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像,包括:
根据所述角色信息和所述文本信息生成候选引导信息;所述候选引导信息包括角色的外貌、服装、动作、以及场景对应的候选引导关键词;
在预先建立的引导词库中查找与所述候选引导关键词匹配的目标引导关键词;
在所述候选引导信息中将所述候选引导关键词替换成所述目标引导关键词,得到引导信息;
将所述引导信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
7.根据权利要求6所述的方法,其特征在于,所述将所述引导信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像,包括:
获取所述图像风格信息对应的多张候选风格引导图片;
基于所述角色信息和所述文本信息确定角色数量、角色间的相对位置;
从所述候选风格引导图片中确定与所述角色数量和所述角色间的相对位置匹配的目标风格引导图片;
将所述引导信息、所述色彩信息和所述图像风格图片输入至生成式模型,生成所述目标书籍的分发图像。
8.一种图像生成装置,其特征在于,包括:
获取模块,用于获取目标书籍和所述目标书籍的封面图像;
提取模块,用于从所述目标书籍中提取至少一个角色的角色信息,以及用于描述至少一个精彩情节的文本信息;
确定模块,用于对所述封面图像进行识别,确定所述封面图像的色彩信息和图像风格信息;
生成模块,用于将所述角色信息、所述文本信息、所述色彩信息和所述图像风格信息输入至生成式模型,生成所述目标书籍的分发图像。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310907515.9A CN116894881A (zh) | 2023-07-21 | 2023-07-21 | 图像生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310907515.9A CN116894881A (zh) | 2023-07-21 | 2023-07-21 | 图像生成方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894881A true CN116894881A (zh) | 2023-10-17 |
Family
ID=88313376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310907515.9A Pending CN116894881A (zh) | 2023-07-21 | 2023-07-21 | 图像生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894881A (zh) |
-
2023
- 2023-07-21 CN CN202310907515.9A patent/CN116894881A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109688463B (zh) | 一种剪辑视频生成方法、装置、终端设备及存储介质 | |
CN110781347B (zh) | 一种视频处理方法、装置、设备以及可读存储介质 | |
WO2021238631A1 (zh) | 物品信息的显示方法、装置、设备及可读存储介质 | |
CN110134931B (zh) | 媒介标题生成方法、装置、电子设备及可读介质 | |
CN109803180B (zh) | 视频预览图生成方法、装置、计算机设备及存储介质 | |
CN110968736B (zh) | 视频生成方法、装置、电子设备及存储介质 | |
CN110446063B (zh) | 视频封面的生成方法、装置及电子设备 | |
CN113377971B (zh) | 多媒体资源生成方法、装置、电子设备以及存储介质 | |
KR102227896B1 (ko) | 영상데이터의 외형서술데이터 획득 방법, 장치 및 프로그램 | |
CN114564666B (zh) | 百科信息展示方法、装置、设备和介质 | |
US11210563B2 (en) | Method and apparatus for processing image | |
US20240143684A1 (en) | Information presentation method and apparatus, and device and medium | |
CN111191503A (zh) | 一种行人属性识别方法、装置、存储介质及终端 | |
CN114240552A (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
CN112287168A (zh) | 用于生成视频的方法和装置 | |
CN111800650B (zh) | 视频配乐方法、装置、电子设备及计算机可读介质 | |
CN113204659A (zh) | 多媒体资源的标签分类方法、装置、电子设备及存储介质 | |
CN113610034B (zh) | 识别视频中人物实体的方法、装置、存储介质及电子设备 | |
CN112182255A (zh) | 用于存储媒体文件和用于检索媒体文件的方法和装置 | |
CN116977992A (zh) | 文本信息识别方法、装置、计算机设备和存储介质 | |
CN116894881A (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN113438532B (zh) | 视频处理、视频播放方法、装置、电子设备及存储介质 | |
CN111222011B (zh) | 一种视频向量确定方法和装置 | |
CN109493401B (zh) | 演示文稿生成方法、装置以及电子设备 | |
CN115909390A (zh) | 低俗内容识别方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |