CN117115303A - 用于内容生成的方法、系统、计算设备和存储介质 - Google Patents
用于内容生成的方法、系统、计算设备和存储介质 Download PDFInfo
- Publication number
- CN117115303A CN117115303A CN202311079967.9A CN202311079967A CN117115303A CN 117115303 A CN117115303 A CN 117115303A CN 202311079967 A CN202311079967 A CN 202311079967A CN 117115303 A CN117115303 A CN 117115303A
- Authority
- CN
- China
- Prior art keywords
- prompt
- stylized
- model
- style
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 93
- 238000013145 classification model Methods 0.000 claims abstract description 31
- 230000001960 triggered effect Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 126
- 239000000470 constituent Substances 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000153 supplemental effect Effects 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 21
- 238000010586 diagram Methods 0.000 description 19
- 241000282326 Felis catus Species 0.000 description 14
- 238000010422 painting Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 5
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 description 2
- 240000003173 Drymaria cordata Species 0.000 description 2
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- IXSZQYVWNJNRAL-UHFFFAOYSA-N etoxazole Chemical compound CCOC1=CC(C(C)(C)C)=CC=C1C1N=C(C=2C(=CC=CC=2F)F)OC1 IXSZQYVWNJNRAL-UHFFFAOYSA-N 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 241000345998 Calamus manan Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001137251 Corvidae Species 0.000 description 1
- 241000258937 Hemiptera Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 206010047924 Wheezing Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000004927 clay Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010428 oil painting Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 235000012950 rattan cane Nutrition 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本说明书的实施例涉及一种用于内容生成的方法、系统、电子设备和存储介质。该方法通过检测用户触发的内容生成请求,获取关于内容生成请求的初始提示语;通过分类模型提取初始提示语的特征,以确定初始提示语所指示的风格偏好;基于所确定的风格偏好和所获取的初始提示语,通过经训练的风格化模型对初始提示语进行风格化处理,以生成风格化提示语;将所生成的风格化提示语输入预定的生成式人工智能模型,从而生成针对内容生成请求的内容。
Description
技术领域
本说明书的实施例总体涉及人工智能领域,并且更具体地涉及一种用于内容生成的方法、系统、计算设备和存储介质。
背景技术
生成式人工智能(AIGC,Artificial Intelligence Generated Content)可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入提示(Prompt),AIGC可以生成与Prompt相匹配的文章、图像、音频等。随着AIGC领域的重大突破,AIGC技术逐渐在各个领域得到广泛应用,如应用于图像文字影音等作品的生成和修改等方面。
然而AIGC在生成的内容时,存在一定的不可控性和不稳定性,AIGC有些情况下并不能很好的理解用户输入的提示(Prompt),不一定能稳定的生成满足用户期望的内容,还可能会产生一些偏差。
由此,需要一种能够提高生成式人工智能生成内容的可控性的方案,以使得通过生成式人工智能生成的内容更满足用户期望。
发明内容
针对上述问题,本说明书提供了一种用于内容生成的方法、计算设备和存储介质,能够有效的提高生成式人工智能生成内容的可控性,以使得更满足用户的期望。
根据本说明书的第一方面,提供了一种用于内容生成的方法,包括:响应于检测到用户触发的内容生成请求,获取关于内容生成请求的初始提示语;基于所获取的初始提示语,经由经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好;基于所确定的风格偏好和所获取的初始提示语,经由经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于内容生成请求的风格化提示语;以及将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对内容生成请求的内容。
在一些实施例中,所生成的风格化提示语包括以下至少一项:语段、语句、短语、词语、字、字母、单词、符号、数字、字符、字符串、表格和图像。
在一些实施例中,风格化提示语包括以下至少一项:内容语,用于指示内容生成请求所对应的内容特征;以及风格语,用于指示内容生成请求所对应的风格特征。
在一些实施例中,风格语与以下至少一项相关联:美术风格、美学词汇、摄影术语、设计风格、情绪、绘图软件、绘图术语、作画风格、艺术家、目标对象和参数。
在一些实施例中,内容语与以下至少一项相关联:主题、场景、情景、背景、环境、画面、目标对象、动作、姿态、位置、情绪和参数。
在一些实施例中,确定初始提示语所指示的风格偏好包括:响应于无法确定初始提示语所指示的风格偏好,向用户提供提示语编辑界面;基于提示语编辑界面,向用户推荐候选提示语补充元素,以便用户确定提示语补充元素;基于用户所确定的提示语补充元素,生成新的初始提示语;针对所生成的新的初始提示语,经由经训练的风格分类模型提取新的初始提示语的特征,以便确定新的初始提示语所指示的风格偏好。
在一些实施例中,对所获取的初始提示语进行风格化处理包括:从初始提示语中提取至少一个第一组成元素,以便基于所提取的第一组成元素和所确定的风格偏好,确定至少一个第二组成元素;基于第二组成元素,确定至少一个用于生成风格化提示语的内容语和/或风格语;以及基于所确定的内容语和/或风格语,确定至少一个内容语和/或风格语在所生成的风格化提示语中的表达顺序。
在一些实施例中,经训练的分类模型是经由以下各项而获得的:获取多个训练提示语和训练提示语对应的风格偏好;针对多个训练提示语,提取关于训练提示语的组成元素的元素内容特征;以及基于训练提示语的元素内容特征和训练提示语对应的风格偏好,以预定第一损失函数训练分类模型直至模型收敛,以获得经训练的分类模型。
在一些实施例中,经训练的风格化模型是经由以下各项生成:获取多个训练提示语,训练提示语对应的风格偏好和训练提示语所对应的风格化训练提示语;基于预定的参数信息,确定风格化模型中的待调整参数;以及基于训练提示语、训练提示语对应的风格偏好、风格化训练提示语和待调整参数,以预定第二损失函数训练风格化模型直至模型收敛,以获得经训练的提示语风格化模型。
在一些实施例中,风格化模型是基于LLM模型所构建,获得经训练的提示语风格化模型包括:将训练提示语所对应的风格化训练提示语确定为验证数据,将训练提示语和训练提示语对应的风格偏好确定为风格化模型的训练数据,以获取风格化模型预测的风格化训练提示语将所预测的风格化训练提示语输入参数调整模块,以便确定风格化模型中的新的待调整参数;以及基于训练提示语、训练提示语对应的风格偏好和风格化训练提示语和新的待调整,以预定第二损失函数训练风格化模型直至模型收敛,以获得经训练的提示语风格化模型。
在一些实施例中,获得经训练的风格化模型还包括:每隔预定周期间隔,获取风格化模型中的待调整参数和所预测的风格化训练提示语;基于所获取的待调整参数和所预测的风格化训练提示语,确定风格化模型的迭代概率;以及响应于所确定的迭代概率大于预定阈值,针对当前周期间隔的风格化模型进行下一轮训练迭代;或者响应于所确定的迭代概率小于或者等于预定概率阈值,或者响应于风格化模型的训练迭代轮数达到预定迭代次数,结束风格化模型的训练迭代,以获得经训练的风格化模型。
在一些实施例中,第二损失函数至少与风格化提示语的预测损失参数、待调整参数比例参数和/或迭代概率参数相关联。
在一些实施例中,将所生成的风格化提示语输入预定的生成式人工智能模型包括:基于所生成的风格化提示语,经由经训练的生成式人工智能选择模型确定风格化提示语对应的内容类型和/或风格类型,以便针对所生成的风格化提示语从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能模型;基于所匹配到的生成式人工智能模型,确定一个生成式人工智能模型用于输入所生成的风格化提示语,以生成针对内容生成请求的内容。
在一些实施例中,经训练的生成式人工智能选择模型经由以下各项生成:获取多个风格化提示语,以及获取风格化提示语所对应的内容类型和/或风格类型;针对多个风格化提示语,提取关于风格化提示语的内容特征和/或风格特征;以及基于多个风格化提示语的内容特征和/或风格特征,以预定的第三损失函数训练生成式人工智能选择模型直至模型收敛,以获得经训练的生成式人工智能选择模型。
在一些实施例中,针对所生成的风格化提示语从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能生成式人工智能模型包括:基于多个候选的生成式人工智能模型和每个候选的生成式人工智能模型所对应的内容类型和/或风格类型,针对所生成的风格化提示语,从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能模型;以及响应于匹配到多个预定的生成式人工智能模型,从多个预定的生成式人工智能模型中随机确定一个生成式人工智能模型用于输入所生成的风格化提示语,以生成针对内容生成请求的内容。
在一些实施例中,第三损失函数包括关于风格化提示语的内容类型的内容分类损失;以及关于风格化提示语的风格类型的风格分类损失。
根据本说明书的第二方面,提供了一种内容生成系统,包括:提示语获取模块,用于响应于检测到用户触发的内容生成请求,获取关于内容生成请求的初始提示语;风格分类模块,用于基于所获取的初始提示语,经由经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好;提示语风格化模块,用于基于所确定的风格偏好和所获取的初始提示语,经由经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于内容生成请求的风格化提示语;以及内容生成模块,用于将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对内容生成请求的内容。
根据本说明书的第三方面,提供了一种计算设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本说明书的第一方面的方法。
在本说明书的第四方面中,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序用于使计算机执行本说明书的第一方面的方法。
应当理解,本部分所描述的内容并非旨在标识本说明书的实施例的关键或重要特征,也不用于限制本说明书的范围。本说明书的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本说明书各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
图1示出了用于实现根据本说明书的实施例的用于内容生成的方法的场景的示意图。
图2示出了根据本说明书的实施例的用于内容生成的方法200的流程图。
图3示出了根据本说明书的实施例的用于确定初始提示语风格偏好的方法300的流程图。
图4示出了根据本说明书的实施例的用于提示语风格化的方法400的流程图。
图5示出了根据本说明书的实施例的用于训练分类模型的方法500的流程图。
图6示出了根据本说明书的实施例的用于训练风格化模型的方法600的流程图。
图7示出了根据本说明书的实施例的用于更新待调整参数的方法700的流程图。
图8示出了根据本说明书的实施例的用于训练迭代次数确定的方法800的流程图。
图9示出了根据本说明书的实施例的用于训练生成式人工智能选择模型的方法900的流程图。
图10示出了根据本说明书的实施例的提示语编辑界面1000的示意图。
图11示出了本说明书实施例提供的内容生成系统1100的结构示意图。
图12示出了根据本说明书的实施例的电子设备的框图。
具体实施方式
以下结合附图对本说明书的示范性实施例做出说明,其中包括本说明书实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本说明书的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如前文所描述,生成式人工智能(AIGC)在生成的内容时,存在一定的不可控性和不稳定性,AIGC有些情况下并不能很好的理解用户输入的提示(Prompt),不一定能稳定的生成满足用户期望的内容,还可能会产生一些偏差。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本说明书的示例实施例提出了一种用于内容生成的方案,在本说明书方案中,通过检测用户触发的内容生成请求,获取关于内容生成请求的初始提示语;基于所获取的初始提示语,经由经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好;基于所确定的风格偏好和所获取的初始提示语,经由经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于内容生成请求的风格化提示语;以及将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对内容生成请求的内容;从而能够基于用户提供的初始提示语,进行风格偏好识别,针对初始提示语的风格偏好对初始提示语进行风格化处理,以获得相比于初始提示语更具有风格倾向的风格化提示语,将风格化提示语输入生成式人工智能(AIGC)模型,从而使得通过生成式人工智能生成的内容更符合用户的期望。
为了便于理解本说明书的实施例,下文首先对本说明书所涉及的一些基本概念进行介绍。
关于提示语,其英文名称为Prompt,其例如是一种输入引导,通过提示语向AIGC模型提供特定的指令或问题,帮助AIGC模型理解用户的意图并生成相应的回答。提示语(Prompt)可以是一段文字、问题、短语、关键词、指令、参考图像等形式或它们的组合形式。
关于风格,本说明书中所提及的风格指代的一种艺术上的概念,关于艺术作品在整体上呈现的有代表性的面貌。风格不同于一般的艺术特色,通过艺术品所表现出来的相对稳定、内在、反映时代或艺术家的思想、审美等的内在特性。本质在于是艺术家对审美独特鲜明的表现,有着无限的丰富性。
关于风格类型,本说明书中所提及的风格类型其至少与审美相关,其例如至少与艺术风格、时代风格、艺术流派、创作技法、创作风格、视觉表达等相关,随着时代和科技的发展风格类型也在与时俱进。
关于风格偏好,本说明书中所提及的其例如包括提示语本身的所指向的风格类型,其例如包括特定用户的审美偏好所指向的风格类型,其例如也可以是两者结合所指向的风格类型。
图1示出了用于实现根据本说明书的实施例的用于内容生成的方法的场景100的示意图。如图1中所示,场景100包括计算设备110、网络140和用户终端150。在一些实施例中,计算设备110、用户终端150经由网络140进行数据交互。
关于计算设备110,其例如用于针对来自用户终端150的内容生成请求提供生成内容。具体而言,计算设备110可以通过检测用户触发的内容生成请求,获取关于内容生成请求的初始提示语;基于所获取的初始提示语,经由经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好;基于所确定的风格偏好和所获取的初始提示语,经由经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于内容生成请求的风格化提示语;以及将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对内容生成请求的内容。
在一些实施例中,计算设备110上还可以存储有关于多个用户的内容生成请求历史信息、关于多个提示语的内容生成信息、多个生成式人工智能模型、以及多个预定的生成式人工智能模型的内容生成历史信息。应当理解,上述计算设备110上存储的信息,也可以通过多个服务器、云服务器存储。
关于计算设备110,可以具有一个或多个处理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外,在每个计算设备110上也可以运行着一个或多个虚拟机。计算设备110,其还可以包括云服务中心,其可以通过计算机集群软件将海量的实体服务器作为一个整体使用,以部署本说明书实施例提供的用于内容生成的方法、内容生成系统。
在一些实施例中,计算设备110可以和多个用户终端150通过网络140进行数据交互,以针对不同用户触发的内容生成请求,实施本说明书实施例提供的用于内容生成的方法,以生成针对内容生成请求的内容。
用户终端150,可以包括但不限于以下至少之一:手机、笔记本电脑、平板电脑、掌上电脑、台式电脑、智能语音交互设备、智能家电。在一些实施例中,用户终端150上可以全部或部分的部署本说明书实施例提供的用于内容生成的方法、内容生成系统,并与计算设备110通过网络140交互,以针对用户发起的内容生成请求提供对应的生成内容。在一些实施例中,计算设备110例如包括:提示语获取模块112、风格分类模块114、提示语风格化模块116和内容生成模块118。可以配置在一个或者多个计算设备110上。
关于提示语获取模块112,其用于响应于检测到用户触发的内容生成请求,获取关于内容生成请求的初始提示语。
关于风格分类模块114,其用于基于所获取的初始提示语,通过经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好。
关于提示语风格化模块116,其用于基于所确定的风格偏好和所获取的初始提示语,通过经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于内容生成请求的风格化提示语。
关于内容生成模块118,其用于将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对内容生成请求的内容。
图2示出了根据本说明书的实施例的用于内容生成的方法200的流程图。方法200可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤202,如果计算设备110检测到用户触发的内容生成请求,获取关于内容生成请求的初始提示语。
关于内容生成请求,其例如是用户通过终端设备150上搭载的本说明书实施例提供的内容生成系统进行操作,通过操作界面输入、确定、选择或编辑提示语等方式,向计算设备110发起内容生成请求,内容生成请求中至少包括用户所确定的初始提示语。
关于初始提示语,其例如可以是用户直接输入的,也可以是用户根据内容生成系统所推荐的参考提示语进行编辑、选择等操作而确定的。
在步骤204,计算设备110基于所获取的初始提示语,通过经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好。
关于初始提示语所指示的风格偏好,例如初始提示语本身所包括的内容会指向一种风格倾向,如初始提示语“哪吒,二次元”指向动画风格、初始提示语“设计一个房子,要巴洛克一点”指向巴洛克风格、初始提示语“一只猫带着墨镜,在海边喝奶茶”可能会指向一种非写实的风格、初始提示语“机器人革命爆发于仙女星系,要有激光、飞船和机械工业科技感,以及要帅要炫酷一点”可能会指向机械赛朋克风格等,此处不再一一列举。值得注意的是,初始提示语本身包括的文字信息和图像信息等,可能会将其指向于某种特定的风格,例如初始提示语“大漠孤烟直”可能指向中国画风格、而初始提示语“以印象派水彩风格,描绘大漠孤烟直的场景”则可能会指向印象派水彩风格。
由此,通过经训练的分类模型能够基于初始提示语本身所包含的信息确定其所指示的风格偏好,以风格偏好作为风格化提示语的基础。下文将结合图3说明用于确定初始提示语风格偏好的方法300,将结合图5说明用于训练分类模型的方法500,在此,都不再赘述。
在步骤206,计算设备110基于所确定的风格偏好和所获取的初始提示语,通过经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于内容生成请求的风格化提示语。
在一些实施例中,所生成的风格化提示语包括以下至少一项:语段、语句、短语、词语、字、字母、单词、符号、数字、字符、字符串、表格和图像。
例如,所生成的风格化提示语可以是包含多个词语的一段文字表达、可以是图文混合的形式、可以是文字与符号、数字、字符等构成的参数信息或指令信息等形式。
在一些实施例中,风格化提示语包括以下至少一项:内容语,用于指示内容生成请求所对应的内容特征;以及风格语,用于指示内容生成请求所对应的风格特征。
例如,风格化提示语“水彩、林黛玉、跳舞”,风格语为“水彩”指向水彩画风,内容语为“林黛玉、跳舞”指向目标对象是林黛玉,目标对象的动作是跳舞;例如,风格化提示语“延迟摄影、广角15mm、海边、落日”风格语为“延迟摄影、镜头焦距15mm”指向采用延迟摄影的方式,参数镜头焦距为15mm,内容语为“海边、落日”指向场景时海边,目标对象是落日。
在一些实施例中,风格语与以下至少一项相关联:美术风格、美学词汇、摄影术语、设计风格、情绪、绘图软件、绘图术语、作画风格、艺术家、目标对象和参数。
关于风格语相关联的因素,例如画种风格(如中国画、工笔画、写意山水、油画、水彩、岩彩、彩铅、数字绘画、浮世绘、插画、素描、扁平风格、设计稿、科学插图、黏土、雕塑、二次元等);例如摄影术语(如广角、微距、长焦、运动模糊、鱼眼镜头、延迟摄影、高速摄影等);例如设计风格(如扁平设计、3D风格、新中式、古典欧式、地中海式、日式、现代简约、极简主义等);例如艺术家(透纳、萨金特、约瑟夫、倪瓒、八大山人、石涛、永山裕子等)则偏向特定艺术家的绘画风格;例如目标对象(如哪吒、孙悟空、山海经)则偏向特定对象本身的风格;例如参数(如摄影参数、绘图软件的设置参数、画面色彩参数等)。应当理解,上述风格语相关因素只是一些示意,在实施本说明书提供的用于内容生成的方法时,可根据实际情况进行选择和配置。
在一些实施例中,内容语与以下至少一项相关联:主题、场景、情景、背景、环境、画面、目标对象、动作、姿态、位置、情绪和参数。
关于内容语相关的因素,例如主题(哥特、赛博科幻、蒸汽朋克、中国画、风景、外太空、星辰与大海等);例如目标对象以及其动作、姿态和在画面中的位置(如目标对象橘猫,在屋顶上,躲猫猫);例如情绪(快乐、阳光、悲伤、阴郁、抑郁等);例如情景(如对话、争吵、会议等);例如场景(如银河系、冥王星、沙滩、沙漠、雪山、森林等)。应当理解,上述内容语相关因素只是一些示意,在实施本说明书提供的用于内容生成的方法时,可根据实际情况进行选择和配置。
值得注意的是,针对风格化提示语,其风格语和内容语可以重叠或部分重叠,这是由于部分提示语的组成元素自带双重属性,它们同时可以表达内容和风格;例如“梵高星空”,其本身既可以作为内容语指向画面内容的目标对象是“梵高的油画星空”,也可以作为风格语指向生成画面的画风是艺术家梵高的绘画风格。
下文将结合图4说明用于提示语风格化的方法400,将结合图6说明用于训练风格化模型的方法600,在此,不再赘述。
在步骤208,计算设备110将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对内容生成请求的内容。
关于将所生成的风格化提示语输入预定的生成式人工智能模型,其例如包括计算设备110基于所生成的风格化提示语,经由经训练的生成式人工智能选择模型确定风格化提示语对应的内容类型和/或风格类型,以便针对所生成的风格化提示语从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能模型;以及基于所匹配到的生成式人工智能模型,确定一个生成式人工智能模型用于输入所生成的风格化提示语,以生成针对所述内容生成请求的内容。
关于从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能模型,其例如包括计算设备110基于多个候选的生成式人工智能模型和每个候选的生成式人工智能模型所对应的内容类型和/或风格类型,针对所生成的风格化提示语,从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能模型;以及如果匹配到多个预定的生成式人工智能模型,从多个预定的生成式人工智能模型中随机确定一个生成式人工智能模型用于输入所生成的风格化提示语,以生成针对所述内容生成请求的内容。
下文将结合图9说明用于训练生成式人工智能选择模型的方法900,在此,不再赘述。
在上述方案中,实现了基于用户确定的初始提示语,针对初始提示语进行风格偏好识别,基于初始提示语的风格偏好对初始提示语进行风格化处理,以获得相比于初始提示语更具有风格倾向的风格化提示语,将风格化提示语输入生成式人工智能模型,从而能够引导生成式人工智能模型生成的内容在风格上更符合用户的期望,由此,可以提高生成内容和用户请求的匹配度,以更好的满足用户需求。
图3示出了根据本说明书的实施例的用于确定初始提示语风格偏好的方法300的流程图。方法300可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法300还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤302,如果计算设备110无法确定初始提示语所指示的风格偏好,向用户提供提示语编辑界面。
在步骤304,计算设备110基于提示语编辑界面,向用户推荐候选提示语补充元素,以便用户确定提示语补充元素。
在步骤306,计算设备110基于用户所确定的提示语补充元素,生成新的初始提示语。
具体而言,用户还可以基于提示语编辑界面,输入相关内容以完善初始提示语;也可以基于推荐的候选提示语补充元素,选择提示语补充元素,以用于生成新的初始提示语。
请参考图10示意的提示语编辑界面1000。例如,用户A输入初始提示语A01“猫”,分类模型无法仅仅通过“猫”来确定初始提示语A01所指示的风格偏好;故可通过提示语编辑界面向用户A推荐候选提示语补充元素;推荐补充元素如猫的品种“橘猫”、“布偶猫”、“狸花猫”等;推荐补充元素如画风“写实”、“素描”、“水彩”等;推荐补充元素如氛围“温馨”、“神秘”。如果用户A对所提供的推荐候选提示语补充元素不满意,可以在提示语编辑界面输入提示语补充元素,也可以点击重新推荐以更新候选提示语补充元素。应当理解,候选提示语补充元素可以是基于用户A的历史偏好信息进行推荐;也可以是基于多个用户关于带有“猫”的提示语生成内容的风格偏好的趋向,如在生成对象“猫”时,40%的用户生成了“橘猫”,80%的用户偏向于“可爱”;也可以是基于相关的补充元素随机进行推荐等。
在步骤308,计算设备110针对所生成的新的初始提示语,经由经训练的风格分类模型提取新的初始提示语的特征,以便确定新的初始提示语所指示的风格偏好。
由此,能够在所获取的初始提示语风格偏好不明的情况下,通过提供交互界面,使得用户能够针对初始提示语进行补充,以生成新的初始提示语,且使得新的初始提示语的风格倾向更明显,有助于确定用户的风格偏好,以使得生成内容更符合的用户期望。
图4示出了根据本说明书的实施例的用于提示语风格化的方法400的流程图。方法400可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法400还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤402,计算设备110从初始提示语中提取至少一个第一组成元素,以便基于所提取的第一组成元素和所确定的风格偏好,确定至少一个第二组成元素。
例如,初始提示语B“一只大橘,坐在江边,在月圆之夜猛虎咆哮,写实一点,神秘一点”,从初始提示语B中提取第一组成元素“大橘、江边、月圆之夜、咆哮”,确定第二组成元素有“橘猫、坐、江边、夜晚、圆月、咆哮、模仿老虎、写实、彩色、神秘”。
在步骤404,计算设备110基于第二组成元素,确定至少一个用于生成风格化提示语的内容语和/或风格语。
在步骤406,计算设备110基于所确定的内容语和/或风格语,确定至少一个内容语和/或风格语在所生成的风格化提示语中的表达顺序。
例如,继续上面的例子对获取的第二组成元素进行选择和调整,得到初始提示语B的风格化提示语B“写实、彩色、神秘、夜晚、圆月、橘猫坐江边、橘猫模仿老虎咆哮”。
应当理解,提示语中的各个组成元素,在提示语中的顺序,也会影响到生成的内容,由于AIGC模型的理解能力和不同模型的调试问题,导致它们对不同的组成元素的权重、参数调整和理解是有侧重的,因此,在生成风格化提示语时,根据用户的偏好风格,和预定的生成式人工智能模型的属性,针对所要生成的风格化提示语的组成元素进行排序是非常重要的。
由此,本说明书实施例提供的上述方案,能够提取初始提示语中的组成元素,以确定风格化提示语中的组成元素,并确定这些组成元素在风格化提示语中的表达顺序,以使得所生成的风格化提示语能够更好的引导内容生成,以更符合用户的期望。
图5示出了根据本说明书的实施例的用于训练分类模型的方法500的流程图。方法500可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法500还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤502,计算设备110获取多个训练提示语和训练提示语对应的风格偏好。
关于训练提示语对应的风格偏好,可以预先由专业人事如艺术家、艺术从业人员对提示语的风格进行人工标注,以形成训练分类模型所需要的验证数据。
关于训练提示语,可以来自于例如初始提示语、参考图像等。
在步骤504,计算设备110针对多个训练提示语,提取关于训练提示语的组成元素的元素内容特征。
关于元素内容特征,一个提示语中包含多个组成元素,如一句话中包含多个词语可以是主语、谓语、宾语、动词、连词、名词、形容词等;其中,有一些组成元素对图像内容没有任何指向,可能仅仅起到连接作用,比如“逗号”、“的”等;而有些组成元素能够明显的指向提示语所引导的生成内容中应当呈现的内容或风格等。例如,组成元素“米老鼠”可以直接指向动画角色米老鼠,组成元素“枯藤老树昏鸦”其指向的风格可能是中国风,如组成元素“素描”直接指向了绘画风格。
继续上面的例子,某一提示语中可能会包含多个组成元素,这些组成元素的内容特征可能会指向相同的、相似的或者不同的特征,而分类模型的训练就是为了根据某提示语中的多个组成元素的内容特征各自指向的风格偏好,来确定该提示语概率最大的风格偏好。
例如,提示语C“白雪公主和七个小矮人,水墨画”,提示语C的组成元素如“白雪公主”指向动画,而“水墨画”指向一种特定的绘画风格,例如在本说明书提供的用于内容生成的方案中,将提示语中出现的明显具有风格倾向的元素,作为优先元素来确定提示语的风格偏好,如提示语C最终被确认为“中国画-水墨”风格。
在步骤506,计算设备110基于训练提示语的元素内容特征和训练提示语对应的风格偏好,以预定第一损失函数训练分类模型直至模型收敛,以获得经训练的分类模型。
在一些实施例中,分类器模型包括提示语特征编码模块和风格分类模块两部分,由提示语特征编码模块完成对训练提示语的特征提取,由风格分类模块基于所提取的特征确定训练提示语的风格,基于分类模型所确定的训练提示语的风格和训练提示语所对应的风格偏好(如标注信息)之间的差距确定第一损失函数。
由此,通过本说明书实施例提供的上述方法,能够使得训练后的分类模型更好的通过提示语所包含的内容来识别出提示语所指向的风格偏好。
图6示出了根据本说明书的实施例的用于训练风格化模型的方法600的流程图。方法600可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法600还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤602,计算设备110获取多个训练提示语,训练提示语对应的风格偏好和训练提示语所对应的风格化训练提示语。
在一些实施例中,风格化模型是基于LLM模型所构建。
关于LLM模型,其例如是基于Transformer网络架构的深度学习模型所构建的,其例如是基于转换器的生成式预训练(Generative Pre-trained Transformer,GPT)模型、广义线性(Generalized Linear Model,GLM)模型、或者moss模型等。
在一些实施例中,在模型训练过程中,训练提示语对应的风格偏好可以通过将训练提示语输入分类模型来确定。
在步骤604,计算设备110基于预定的参数信息,确定风格化模型中的待调整参数。
关于待调整的参数,例如模型中有100个参数,其中有10个参数对提示语的风格理解比较敏感,基于预定的参数信息可以选择,在模型训练过程中,对这10个风格敏感参数中的某几个进行调参;应当理解在模型训练过程中,待调整参数可以根据模型的训练表现进行变更,如占全部参数的比例调整、数量调整、参数的具体类型调整等。
在步骤606,计算设备110基于训练提示语、训练提示语对应的风格偏好、风格化训练提示语和待调整参数,以预定第二损失函数训练风格化模型直至模型收敛,以获得经训练的提示语风格化模型。
在一些实施例中,基于LLM模型构建风格化模型时,并不需要对模型中的全部参数进行调整,所采用的LLM模型本身对语言和/或图像等具有一定的理解能力,仅需要调整对内容风格比较敏感的参数,由此,通过确定风格化模型中的待调整参数,能够减少调参比例,提高模型的训练效率,以及确定对生成内容的风格影响较大的参数。
图7示出了根据本说明书的实施例的用于更新待调整参数的方法700的流程图。方法700可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法700还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤702,计算设备110将训练提示语所对应的风格化训练提示语确定为验证数据,将训练提示语和训练提示语对应的风格偏好确定为风格化模型的训练数据,以获取风格化模型预测的风格化训练提示语。
在步骤704,计算设备110将所预测的风格化训练提示语输入参数调整模块,以便确定风格化模型中的新的待调整参数。
关于新的待调整的参数,例如第一轮迭代中待调整参数比例为2%,在第10轮迭代中调整为5%;例如第二轮迭代中待调整参数为参数p、参数k和参数r,在第8轮迭代中的待调整参数为参数p、参数a、参数w和参数f;待调整参数的比例和具体参数类型都可以在训练中进行调整。
在步骤706,计算设备110基于训练提示语、训练提示语对应的风格偏好和风格化训练提示语和新的待调整参数,以预定第二损失函数训练风格化模型直至模型收敛,以获得经训练的提示语风格化模型。
关于第二损失函数,其例如至少与风格化提示语的预测损失参数、待调整参数比例参数和/或迭代概率参数相关联。
关于待调整参数比例参数,其例如是最小化参数,用于指示需要调整的参数数量和/或比例在模型的参数中所占比例最小,能够用使得调整最少的参数,得到性能符合训练目的的模型,以节约训练资源和提高风格化模型的训练效率。
图8示出了根据本说明书的实施例的用于训练迭代次数确定的方法800的流程图。方法800可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法800还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤802,计算设备110每隔预定周期间隔,获取风格化模型中的待调整参数和所预测的风格化训练提示语。
在步骤804,计算设备110基于所获取的待调整参数和所预测的风格化训练提示语,确定风格化模型的迭代概率。
在步骤806,如果计算设备110检测到所确定的迭代概率大于预定阈值,针对当前周期间隔的风格化模型进行下一轮训练迭代。
在步骤808,如果计算设备110检测到所确定的迭代概率小于或者等于预定概率阈值,或者响应于风格化模型的训练迭代轮数达到预定迭代次数,结束风格化模型的训练迭代,以获得经训练的风格化模型。
由此,参考图6-8本说明书实施例中提供的风格化模型包括三个部分,第一个部分是迭代判断模块用于判断模型是否需要继续迭代,第二个部分是可训练参数调整模块用于在模型训练过程中确定待调整参数,第三个部分是LLM模型(风格化模型中的LLM模型部分,在训练阶段大部分参数保持不变,只有小部分待调整参数随着模型的训练而发生变化)。
由此,基于LLM模型构建的风格化模型,能够实现对用户输入的提示语的修改,以增加风格化元素,输出风格化提示语;具体来说,能够根据训练提示语和标注的提示语风格偏好,对风格化模型进行多轮的适配,直到效果满足预期。并且,多轮适配过程中,会逐步增加风格化模型中可以训练的参数,从而可以找到兼顾LLM原始能力和对风格语的适配能力。
图9示出了根据本说明书的实施例的用于训练生成式人工智能选择模型的方法900的流程图。方法900可由如图1所示的计算设备110执行,还可以在图12所示的电子设备1200处执行。应当理解的是,方法900还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本说明书的范围在此方面不受限制。
在步骤902,计算设备110获取多个风格化提示语,以及获取风格化提示语所对应的内容类型和/或风格类型。
在步骤904,计算设备110针对多个风格化提示语,提取关于风格化提示语的内容特征和/或风格特征。
在步骤906,计算设备110基于多个风格化提示语的内容特征和/或风格特征,以预定的第三损失函数训练生成式人工智能选择模型直至模型收敛,以获得经训练的生成式人工智能选择模型。
关于第三损失函数,其例如包括:关于风格化提示语的内容类型的内容分类损失;以及关于风格化提示语的风格类型的风格分类损失。
应当理解,不同AIGC模型可能擅长处理不同的内容类型,例如一些模型较擅长处理卡通类型,而另一些可能擅长处理写实类型;为了能够为不同风格偏好的提示语选择风格上更匹配的AIGC模型以生成内容。
由此,上述方案,基于提示语的内容类型和/或风格类型,匹配AIGC模型,从而能够为风格化提示语匹配更适配其风格的AIGC模型,以使得针对用户请求的生成内容能够更符合用户的预期。
图11示出了本说明书实施例提供的内容生成系统1100的结构示意图。在一些实施例中,内容生成系统1100可搭载于计算设备110、用户终端150,或搭载于图12所示的电子设备1200中,以实现本说明书实施例提供的任一项用于内容生成的方法。
请参考图11,内容生成系统1100例如包括提示语获取模块1102、风格分类模块1104、提示语风格化模块1106和内容生成模块1108。
提示语获取模块1102,用于响应于检测到用户触发的内容生成请求,获取关于内容生成请求的初始提示语;
风格分类模块1104,用于基于所获取的初始提示语,经由经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好;
提示语风格化模块1106,用于基于所确定的风格偏好和所获取的初始提示语,经由经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于内容生成请求的风格化提示语;以及
内容生成模块1108,用于将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对内容生成请求的内容。
本说明书实施例提供的内容生成系统,可用于执行用于本说明书实施例提供的用于内容生成的方法,其实现原理和技术效果类似,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图12示出了可以用来实施本说明书内容的实施例的示例电子设备1200的示意性步骤图。例如,如图1所示的计算设备110可以由电子设备1200来实施。如图所示,电子设备1200包括处理单元(CPU)1201,其可以根据存储在只读存储器(ROM)1202中的计算机程序指令或者从存储单元1208加载到随机存取存储器(RAM)1203中的计算机程序指令,来执行各种适当的动作和处理。在随机存取存储器1203中,还可存储电子设备1200操作所需的各种程序和数据。处理单元1201、只读存储器1202以及随机存取存储器1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
电子设备1200中的多个部件连接至输入/输出接口1205,包括:输入单元1206,例如键盘、鼠标、麦克风等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200至900,可由处理单元1201执行。例如,在一些实施例中,方法200至900可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由只读存储器1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序被加载到随机存取存储器1203并由处理单元1201执行时,可以执行上文描述的方法200至900的一个或多个动作。
本说明书涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本说明书的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本说明书操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本说明书的各个方面。
这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产品的流程图和/或步骤图描述了本说明书的各个方面。应当理解,流程图和/或步骤图的每个方步骤以及流程图和/或步骤图中各方步骤的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作。
附图中的流程图和步骤图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或步骤图中的每个方步骤可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方步骤中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,步骤图和/或流程图中的每个方步骤、以及步骤图和/或流程图中的方步骤的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本说明书的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (19)
1.一种用于内容生成的方法,包括:
响应于检测到用户触发的内容生成请求,获取关于所述内容生成请求的初始提示语;
基于所获取的初始提示语,通过经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好;
基于所确定的风格偏好和所获取的初始提示语,通过经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于所述内容生成请求的风格化提示语;以及
将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对所述内容生成请求的内容。
2.根据权利要求1所述的方法,其中,
所生成的风格化提示语包括以下至少一项:语段、语句、短语、词语、字、字母、单词、符号、数字、字符、字符串、表格和图像。
3.根据权利要求1所述的方法,其中,风格化提示语包括以下至少一项:
内容语,用于指示内容生成请求所对应的内容特征;以及
风格语,用于指示内容生成请求所对应的风格特征。
4.根据权利要求3所述的方法,其中,所述风格语与以下至少一项相关联:美术风格、美学词汇、摄影术语、设计风格、情绪、绘图软件、绘图术语、作画风格、艺术家、目标对象和参数。
5.根据权利要求3所述的方法,其中,所述内容语与以下至少一项相关联:主题、场景、情景、背景、环境、画面、目标对象、动作、姿态、位置、情绪和参数。
6.根据权利要求1所述的方法,其中,确定初始提示语所指示的风格偏好包括:
响应于无法确定初始提示语所指示的风格偏好,向用户提供提示语编辑界面;
基于所述提示语编辑界面,向用户推荐候选提示语补充元素,以便用户确定提示语补充元素;
基于用户所确定的提示语补充元素,生成新的初始提示语;
针对所生成的新的初始提示语,经由经训练的风格分类模型提取新的初始提示语的特征,以便确定新的初始提示语所指示的风格偏好。
7.根据权利要求1-6中任一项所述的方法,其中,对所获取的初始提示语进行风格化处理包括:
从初始提示语中提取至少一个第一组成元素,以便基于所提取的第一组成元素和所确定的风格偏好,确定至少一个第二组成元素;
基于所述第二组成元素,确定至少一个用于生成风格化提示语的内容语和/或风格语;以及
基于所确定的内容语和/或风格语,确定所述至少一个内容语和/或风格语在所生成的风格化提示语中的表达顺序。
8.根据权利要求1-6中任一项所述的方法,其中,所述经训练的分类模型是经由以下各项而获得的:
获取多个训练提示语和训练提示语对应的风格偏好;
针对所述多个训练提示语,提取关于训练提示语的组成元素的元素内容特征;以及
基于训练提示语的元素内容特征和训练提示语对应的风格偏好,以预定第一损失函数训练分类模型直至模型收敛,以获得经训练的分类模型。
9.根据权利要求1-6中任一项所述的方法,其中,经训练的风格化模型是经由以下各项生成:
获取多个训练提示语,训练提示语对应的风格偏好和训练提示语所对应的风格化训练提示语;
基于预定的参数信息,确定风格化模型中的待调整参数;以及
基于训练提示语、训练提示语对应的风格偏好、风格化训练提示语和待调整参数,以预定第二损失函数训练风格化模型直至模型收敛,以获得经训练的提示语风格化模型。
10.根据权利要求9所述的方法,其中,所述风格化模型是基于LLM模型所构建,获得经训练的提示语风格化模型包括:
将训练提示语所对应的风格化训练提示语确定为验证数据,将训练提示语和训练提示语对应的风格偏好确定为风格化模型的训练数据,以获取风格化模型预测的风格化训练提示语;
将所预测的风格化训练提示语输入参数调整模块,以便确定风格化模型中的新的待调整参数;以及
基于训练提示语、训练提示语对应的风格偏好和风格化训练提示语和新的待调整参数,以预定第二损失函数训练风格化模型直至模型收敛,以获得经训练的提示语风格化模型。
11.根据权利要求10所述的方法,获得经训练的风格化模型还包括:
每隔预定周期间隔,获取风格化模型中的待调整参数和所预测的风格化训练提示语;
基于所获取的待调整参数和所预测的风格化训练提示语,确定风格化模型的迭代概率;以及
响应于所确定的迭代概率大于预定阈值,针对当前周期间隔的风格化模型进行下一轮训练迭代;或者
响应于所确定的迭代概率小于或者等于预定概率阈值,或者响应于风格化模型的训练迭代轮数达到预定迭代次数,结束风格化模型的训练迭代,以获得经训练的风格化模型。
12.根据权利要求10或11所述的方法,其中,第二损失函数至少与风格化提示语的预测损失参数、待调整参数比例参数和/或迭代概率参数相关联。
13.根据权利要求1-6中任一项所述的方法,其中,将所生成的风格化提示语输入预定的生成式人工智能模型包括:
基于所生成的风格化提示语,经由经训练的生成式人工智能选择模型确定风格化提示语对应的内容类型和/或风格类型,以便针对所生成的风格化提示语从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能模型;
基于所匹配到的生成式人工智能模型,确定一个生成式人工智能模型用于输入所生成的风格化提示语,以生成针对所述内容生成请求的内容。
14.根据权利要求13所述的方法,其中,经训练的生成式人工智能选择模型经由以下各项生成:
获取多个风格化提示语,以及获取风格化提示语所对应的内容类型和/或风格类型;
针对所述多个风格化提示语,提取关于风格化提示语的内容特征和/或风格特征;以及
基于多个风格化提示语的内容特征和/或风格特征,以预定的第三损失函数训练生成式人工智能选择模型直至模型收敛,以获得经训练的生成式人工智能选择模型。
15.根据权利要求13所述的方法,其中,针对所生成的风格化提示语从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能生成式人工智能模型包括:
基于多个候选的生成式人工智能模型和每个候选的生成式人工智能模型所对应的内容类型和/或风格类型,针对所生成的风格化提示语,从多个候选的生成式人工智能模型中匹配至少一个预定的生成式人工智能模型;以及
响应于匹配到多个预定的生成式人工智能模型,从所述多个预定的生成式人工智能模型中随机确定一个生成式人工智能模型用于输入所生成的风格化提示语,以生成针对所述内容生成请求的内容。
16.根据权利要求14-15中任一项所述的方法,其中,第三损失函数包括:
关于风格化提示语的内容类型的内容分类损失;以及
关于风格化提示语的风格类型的风格分类损失。
17.一种内容生成系统,包括:
提示语获取模块,用于响应于检测到用户触发的内容生成请求,获取关于所述内容生成请求的初始提示语;
风格分类模块,用于基于所获取的初始提示语,经由经训练的分类模型提取初始提示语的特征,以便确定初始提示语所指示的风格偏好;
提示语风格化模块,用于基于所确定的风格偏好和所获取的初始提示语,经由经训练的风格化模型对所获取的初始提示语进行风格化处理,以便生成关于所述内容生成请求的风格化提示语;以及
内容生成模块,用于将所生成的风格化提示语输入预定的生成式人工智能模型,以生成针对所述内容生成请求的内容。
18.一种计算设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。
19.一种计算机可读存储介质,其中,计算机可读存储介质上存储有计算机程序,所述计算机程序用于使所述计算机执行权利要求1-16中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311079967.9A CN117115303A (zh) | 2023-08-24 | 2023-08-24 | 用于内容生成的方法、系统、计算设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311079967.9A CN117115303A (zh) | 2023-08-24 | 2023-08-24 | 用于内容生成的方法、系统、计算设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117115303A true CN117115303A (zh) | 2023-11-24 |
Family
ID=88805105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311079967.9A Pending CN117115303A (zh) | 2023-08-24 | 2023-08-24 | 用于内容生成的方法、系统、计算设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115303A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117440574A (zh) * | 2023-12-18 | 2024-01-23 | 深圳市千岩科技有限公司 | 灯屏设备及灯效生成方法和相应的装置、介质 |
CN117933195A (zh) * | 2024-03-25 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 导航播报数据处理方法、装置、计算机设备和存储介质 |
-
2023
- 2023-08-24 CN CN202311079967.9A patent/CN117115303A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117440574A (zh) * | 2023-12-18 | 2024-01-23 | 深圳市千岩科技有限公司 | 灯屏设备及灯效生成方法和相应的装置、介质 |
CN117440574B (zh) * | 2023-12-18 | 2024-04-02 | 深圳市千岩科技有限公司 | 灯屏设备及灯效生成方法和相应的装置、介质 |
CN117933195A (zh) * | 2024-03-25 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 导航播报数据处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962217B (zh) | 语音合成方法及相关设备 | |
CN109844741B (zh) | 在自动聊天中生成响应 | |
US20200395008A1 (en) | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models | |
CN110705284B (zh) | 基于神经网络生成模型的诗词生成质量的优化方法及系统 | |
Hope et al. | Digital arts: An introduction to new media | |
CN109002433B (zh) | 一种文本生成方法及装置 | |
CN117115303A (zh) | 用于内容生成的方法、系统、计算设备和存储介质 | |
CN112819933A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
JP2018190077A (ja) | 発話生成装置、発話生成方法及び発話生成プログラム | |
Chamola et al. | Beyond reality: The pivotal role of generative ai in the metaverse | |
Yang et al. | Automatic comic generation with stylistic multi-page layouts and emotion-driven text balloon generation | |
Liu et al. | Transformation vs tradition: Artificial general intelligence (agi) for arts and humanities | |
US20220253609A1 (en) | Social Agent Personalized and Driven by User Intent | |
Farella et al. | Question Answering with BERT: designing a 3D virtual avatar for Cultural Heritage exploration | |
US12045735B1 (en) | Interactive template for multimodal content generation | |
Guljajeva et al. | Artistic strategies to guide neural networks | |
Wang et al. | Naturality: A Natural Reflection of Chinese Calligraphy | |
Mathewson | Humour-in-the-loop: Improvised Theatre with Interactive Machine Learning Systems | |
Maddock | What Is Cinematography in the Age of Virtual Film Production? Posing a New Definition for the Practice of Cinematography | |
CN115442495A (zh) | 一种ai演播室系统 | |
CN112036155A (zh) | 文本生成方法、文本生成装置及计算机可读存储介质 | |
Bellardi | The cinematic mode in twentieth-century fiction a comparative approach | |
Berke | ‘Never Let the Camera Catch me Acting’: Lillian Gish as Actress, Star, and Theorist | |
Costan Davara | Audiovisual Translation: Subtitling Netflix documentary â Black Hole Apocalypseâ | |
Nikolić et al. | Metaphysics of The Machines: From Human-Robot-Robot Interaction to AI Philosophers Abstraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |