CN117131272A - 人工智能内容生成方法、模型及系统 - Google Patents
人工智能内容生成方法、模型及系统 Download PDFInfo
- Publication number
- CN117131272A CN117131272A CN202311105045.0A CN202311105045A CN117131272A CN 117131272 A CN117131272 A CN 117131272A CN 202311105045 A CN202311105045 A CN 202311105045A CN 117131272 A CN117131272 A CN 117131272A
- Authority
- CN
- China
- Prior art keywords
- information
- target user
- target
- model
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000009792 diffusion process Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims description 54
- 238000013507 mapping Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 13
- 238000001574 biopsy Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 32
- 230000006399 behavior Effects 0.000 description 56
- 238000010586 diagram Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 208000016261 weight loss Diseases 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种人工智能内容生成方法、模型及系统,该人工智能内容生成方法包括在接收到目标用户的目标提示信息,确定该目标用户的个性化信息。然后,将上述目标提示信息、连同该目标用户的个性化信息以及随机噪声输入训练后的内容生成模型。在上述内容生成模型对上述输入信息的处理过程中,具体为基于该目标用户的个性化信息和上述目标提示信息对随机噪声进行扩散处理,从而输出确定上述目标提示信息对应的目标内容。具体地,上述内容生成模型基于上述目标提示信息对随机噪声进行扩散处理以确定生成内容,目标用户的个性化信息辅助上述内容生成过程,以使得所生成内容中包含目标用户的个性化信息,得到能够体现目标用户个性化的目标内容。
Description
技术领域
本说明书涉及人工智能处理领域,尤其涉及一种人工智能内容生成方法、模型及系统。
背景技术
人工智能内容生成(AI Generate Content,AIGC)是指基于人工智能技术的方法,通过对已有数据进行学习和模式识别,以适当的泛化能力生成相关内容的技术。现有的AIGC技术对于不同用户分别输入的类似提示语,会给出类似的输出。也就是说,其所生成的内容没有考虑不同用户的个性化需求。
背景技术部分的内容仅仅是发明人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。
发明内容
本说明书提供一种人工智能内容生成方法、模型及系统,能够提升AIGC的个性化程度。
第一方面,本申请提供一种人工智能内容生成方法,该AIGC方法包括:响应接收到目标用户的目标提示信息,确定上述目标用户的个性化信息;将上述目标提示信息、上述目标用户的个性化信息以及随机噪声输入训练后的内容生成模型,以使上述内容生成模型基于上述目标用户的个性化信息和上述目标提示信息对上述随机噪声进行扩散处理;以及根据上述内容生成模型的输出确定上述目标提示信息对应的目标内容。
在一些实施例中,上述目标用户的个性化信息包括上述目标用户的画像信息;上述确定上述目标用户的个性化信息,包括:确定上述目标用户的历史行为信息,以及确定上述历史行为信息对应的实际对象;以及根据上述目标用户的历史行为信息及其对应的实际对象,确定上述目标用户的画像信息。
在一些实施例中,上述根据上述目标用户的历史行为信息及其对应的实际对象,确定上述目标用户的画像信息,包括:确定上述目标用户的历史行为信息对应的历史行为特征,以及确定上述实际对象对应的实际对象特征;根据上述历史行为特征和上述实际对象特征,确定第一融合特征;根据上述第一融合特征确定上述目标用户对应的目标属性,以及预测行为和/或预测对象;以及将上述第一融合特征和上述目标属性,以及上述预测行为和/或上述预测对象,确定为上述目标用户的画像信息。
在一些实施例中,通过训练后的画像预测模型确定上述目标用户的画像特征,其中上述画像预测模型包括第一编码部分、第一融合部分、第一预测部分以及第二预测部分;
上述根据上述目标用户的历史行为信息及其对应的实际对象,确定上述目标用户的画像信息,包括:通过上述第一编码部分中第一编码网络对上述目标用户的历史行为信息进行编码,得到历史行为特征;以及通过上述第一编码部分中第二编码网络对上述实际对象进行编码,得到实际对象特征;通过上述第一融合部分对上述历史行为特征和上述实际对象特征进行融合,确定第一融合特征;通过上述第一预测部分对上述第一融合特征进行分类,得到上述目标用户对应的目标属性;以及通过上述第二预测部分对上述第一融合特征进行分类,得到上述目标用户的预测行为和/或预测对象;以及将上述第一融合特征和上述目标属性,以及上述预测行为和/或上述预测对象,确定为上述目标用户的画像信息。
在一些实施例中,上述目标用户的个性化信息包括上述目标用户的偏好信息;上述确定上述目标用户的个性化信息,包括:确定上述目标用户的画像特征;以及将上述目标用户的画像特征映射至多个不同的特征空间,并对映射后的特征进行分类,得到目标用户的偏好信息。
在一些实施例中,上述目标用户的个性化信息包括上述目标用户的偏好信息;上述确定上述目标用户的个性化信息,包括:确定上述目标用户的画像信息,其中上述目标用户的画像信息用于作为训练后偏好预测模型的输入以通过上述偏好预测模型的输出确定上述目标用户的个性化信息,其中上述偏好预测模型包括N个训练后的分类子模型、权重确定部分以及特征空间映射部分,N取值为大于1的整数;将上述目标用户的画像特征分别输入上述N个训练后的分类子模型,其中第i个分类子模型对上述目标用户的画像特征进行特征处理得到的第i加工特征,上述第i加工特征用于上述第i个分类子模型进行分类,i取值为不大于N的正整数;通过上述权重确定部分确定N个权重,并根据上述N个权重以及N个上述加工特征确定第二融合特征;以及通过上述特征空间映射部分将上述第二融合特征映射至多个不同的特征空间,并对映射后的特征进行分类,得到目标用户的偏好信息。
在一些实施例中,上述目标用户的个性化信息包括上述目标用户的画像信息和偏好信息。
在一些实施例中,上述内容生成模型包括条件编码子模型和扩散子模型;
上述将上述目标提示信息、上述个性化信息以及随机噪声输入训练后的内容生成模型,以使上述内容生成模型基于上述目标用户的个性化信息和上述目标提示信息对上述随机噪声进行扩散处理,包括:通过上述条件编码子模型确定上述目标用户的画像信息对应的画像特征,通过上述条件编码子模型确定上述目标用户的偏好信息对应的偏好特征,以及通过上述条件编码子模型确定上述目标用户的画像特征和偏好特征的第三融合特征,得到用于上述目标用户个性化内容生成的个性化特征;以及上述目标提示信息、上述目标用户的个性化特征以及随机噪声输入上述扩散子模型,以使上述扩散子模型基于上述个性化信息和上述目标提示信息对上述随机噪声进行扩散处理。
在一些实施例中,上述内容生成模型的类型包括生成图像类型、生成视频类型、生成文本类型、以及生成语音类型;在上述将上述目标提示信息、上述个性化信息以及随机噪声输入训练后的内容生成模型之前,上述方法还包括:根据上述目标用户的目标提示信息,确定对应于上述目标提示信息的目标内容的目标类型;以及根据上述目标内容的目标类型确定目标类型的内容生成模型,以根据上述目标类型的内容生成模型进行AIGC。
第二方面,本申请提供一种人工智能内容生成模型,该AIGC模型包括:条件编码子模型,被配置为根据目标用户的个性化信息确定上述目标用户的个性化特征;以及扩散子模型,被配置为接收上述目标用户的目标提示信息、上述目标用户的个性化特征以及随机噪声,基于上述目标用户的个性化信息和上述目标提示信息对上述随机噪声进行扩散处理,以确定并输出上述目标提示信息对应的目标内容。
第三方面,本申请提供一种人工智能内容生成AIGC系统,该AIGC系统包括:至少一个存储介质,存储有至少一个指令集,用于进行活体检测;以及至少一个处理器,同上述至少一个存储介质通信连接,其中,当上述活体检测系统运行时,上述至少一个处理器读取上述至少一个指令集,并且根据上述至少一个指令集的指示执行上述第一方面所提供的AIGC方法的任意实施例。
由以上技术方案可知,本申请提供的人工智能内容生成方法、模型及系统,在接收到目标用户的目标提示信息,确定该目标用户的个性化信息。然后,将上述目标提示信息、连同该目标用户的个性化信息以及随机噪声输入训练后的内容生成模型。在上述内容生成模型对上述输入信息的处理过程中,具体为基于该目标用户的个性化信息和上述目标提示信息对随机噪声进行扩散处理,从而输出确定上述目标提示信息对应的目标内容。具体地,上述内容生成模型基于上述目标提示信息对随机噪声进行扩散处理以确定生成内容,而目标用户的个性化信息辅助上述内容生成过程,以使得所生成内容中包含目标用户的个性化信息,得到能够体现目标用户个性化的目标内容。
本说明书提供的人工智能内容生成方法、模型及系统的其他功能将在以下说明中部分列出。根据描述,以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的人工智能内容生成方法、模型及系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A示出了根据本申请的实施例提供的一种应用场景的示意图;
图1B示出了根据本申请的实施例提供的一种应用场景的示意图;
图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图;
图3示出了根据本申请的实施例提供的AIGC方法的一种流程示意图;
图4示出了根据本申请的实施例提供的AIGC模型的一种结构示意图;
图5示出了根据本申请的实施例提供的确定画像特征方法的一种流程示意图;
图6示出了根据本申请的实施例提供的画像预测模型的一种结构示意图;
图7示出了根据本申请的实施例提供的AIGC模型的另一种结构示意图;
图8示出了根据本申请的实施例提供的确定偏好特征方法的一种流程示意图;
图9示出了根据本申请的实施例提供的偏好预测模型的一种结构示意图;
图10示出了根据本申请的实施例提供的AIGC模型的再一种结构示意图;
图11示出了根据本申请的实施例提供的AIGC模型的又一种结构示意图。
具体实施方式
以下描述提供了本说明书的特定应用场景和要求,目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说,对所公开的实施例的各种局部修改是显而易见的,并且在不脱离本说明书的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用。因此,本说明书不限于所示的实施例,而是与权利要求一致的最宽范围。
这里使用的术语仅用于描述特定示例实施例的目的,而不是限制性的。比如,除非上下文另有明确说明,这里所使用的,单数形式“一”,“一个”和“该”也可以包括复数形式。当在本说明书中使用时,术语“包括”、“包含”和/或“含有”意思是指所关联的整数,步骤、操作、元素和/或组件存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。
考虑到以下描述,本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图,所有这些形成本说明书的一部分。然而,应该清楚地理解,附图仅用于说明和描述的目的,并不旨在限制本说明书的范围。还应理解,附图未按比例绘制。
本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解,流程图的操作可以不按顺序实现。相反,操作可以以反转顺序或同时实现。此外,可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。
图1A示出了根据本申请的实施例提供的一种应用场景的示意图。该图所示出的场景为用户A通过电子设备110进行内容生成的场景001a。其中,电子设备110中存储并可以执行关于本申请实施例中的AIGC方法的程序,或者,电子设备110可以通过网络与存储有本申请实施例中的AIGC方法的程序的服务器进行交互。其中,电子设备110可以是手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它设备。电子设备110还可以包括:智能手机(smartphone)、蜂窝电话(cellular phone)、平板型电脑、个人数字助理(personal digital assistant,PDA)电脑、膝上型电脑(laptop computer)、车载电脑、智能手表(smart watch)、智能手环(smart wristband)、计步器(pedometer)以及其他具有通话功能的电子设备。具体的,上述电子设备110具备对所生成内容进行输出的能力。例如,在所生成内容包含图像(如,图像、视频等)的情况下,电子设备110应具备显示屏;在所生成内容包含语音(如,视频、音频)的情况下,电子设备110应具备扬声器等。
参考图1A,本申请实施例所提供的AIGC方案中,用户A的提示信息为“生成一张柯基狗狗图像”,则电子设备110(或与电子设备1110通信连接的服务器)确定用户A的个性化信息,进一步地,基于上述提示信息、用户A的个性化信息对随机噪声进行扩散处理,生成能够体现用户A个性化风格的图像,如图1A中“生成助手”所对应的图。
图1B示出了根据本申示请的实施例提供的一种应用场景的意图。该图所示出的场景为用户B通过电子设备110进行内容生成的场景001b。参考图1B,本申请实施例所提供的AIGC方案中,用户B的提示信息为“生成一张柯基狗狗图像”,则电子设备110(或与电子设备1110通信连接的服务器)确定用户B的个性化信息,进一步地,基于上述提示信息、用户B的个性化信息对随机噪声进行扩散处理,生成能够体现用户B个性化风格的图像,如图1B中“生成助手”所对应的图。
可见,本申请实施例所提供的AIGC方案中,通过体现用户风格的个性化信息和提示信息两方面,对随机噪声进行扩散处理,从而所生成内容能够体现用户风格。具体地,在根据提示信息和个性化信息对随机噪声进行扩散处理的过程中,个性化信息作为一种使得所生成内容体现用户个性化特征的约束条件,促使所生成内容能够体现用户的个性化特征。例如,用户A的个性化信息包括“偏好写真风格”,则内容生成过程中,根据提示信息“生成一张柯基狗狗图像”以及个性化信息“偏好写真风格”对随机噪声进行扩散处理,具体地,在对随机噪声进行扩散处理的过程中,个性化信息“偏好写真风格”作为一种使得所生成内容体现用户A个性化特征的约束条件,促使所生成内容能够体现用户A的偏好写真的个性化特征,可见场景001a中生成内容能够体现用户A偏好写真的个性化风格;同理,用户B的个性化信息包括“偏好卡通风格”,则内容生成过程中,根据提示信息“生成一张柯基狗狗图像”以及个性化信息“偏好卡通风格”对随机噪声进行扩散处理,具体地,在对随机噪声进行扩散处理的过程中,个性化信息“偏好卡通风格”作为一种使得所生成内容体现用户B的个性化特征的约束条件,促使所生成内容能够体现用户B偏好卡通风格的个性化特征,可见场景001b中生成内容能够体现用户B偏好卡通的个性化风格。
假如采用相关技术提供的AIGC方案,对于不同用户分别提出的相同或类似的提示语,所生成内容基本一致。具体地,在相关技术提供的AIGC方案中,用户A和用户B分别提出的提示语均为:生成一张柯基狗狗图,则生成模型基于相同的提示信息,所生成的图像进行一致,并不能体现不同用户的个性化风格。
图2示出了根据本说明书的实施例提供的一种计算设备002的硬件结构图。计算设备002可以执行本说明书描述的AIGC方法。其中,AIGC方法的具体实施方式将在本申请下述实施例详细介绍。当上述AIGC方法在电子设备上执行时,计算设备002可以是如图1A或图1B中电子设备110。当上述AIGC方法在服务器上执行时,计算设备002可以是与如图1A或图1B中电子设备通信连接的服务器。当上述AIGC方法可以部分在电子设备上执行,部分在服务器上执行时,计算设备002既可以是如图1A或图1B中的电子设备110,也可以是如图1A或图1B中与电子设备110通信连接的服务器。
如图2所示,计算设备002可以包括至少一个存储介质230和至少一个处理器220。在一些实施例中,计算设备002还可以包括通信端口250和内部通信总线210。同时,计算设备002还可以包括I/O组件260。
内部通信总线210可以连接不同的系统组件,包括存储介质230、处理器220和通信端口250。
I/O组件260支持计算设备002和其他组件之间的输入/输出。
通信端口250用于计算设备002同外界的数据通信,比如,通信端口250可以用于计算设备002同网络240之间的数据通信。通信端口250可以是有线通信端口也可以是无线通信端口。
存储介质230可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质,也可以是暂时性存储介质。比如,所述数据存储装置可以包括闪存(Flash Memory)232、磁盘234、只读存储介质(Read-Only Memory,ROM)236、随机存取存储介质(Random AccessMemory,RAM)238中的一种或多种。存储介质230还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的AIGC方法的程序、例程、对象、组件、数据结构、过程、模块等等。
至少一个处理器220可以同至少一个存储介质230以及通信端口250通过内部通信总线210通信连接。至少一个处理器220用以执行上述至少一个指令集。当计算设备002运行时,至少一个处理器220读取所述至少一个指令集,并且根据所述至少一个指令集的指示,执行本说明书提供的AIGC方法。处理器220可以执行AIGC方法包含的所有步骤。处理器220可以是一个或多个处理器的形式,在一些实施例中,处理器220可以包括一个或多个硬件处理器,例如中心处理单元(Central Processing Unit,CPU),图形处理单元(GraphicsProcessing Unit,GPU),物理处理单元(Physics Processing Unit,PPU),微控制器单元,数字信号处理器(Digital Signal Processor,DSP),现场可编程门阵列(FieldProgrammable Gate Array,FPGA),可编程逻辑器件(Programmable Logic Device,PLD),微控制器,微处理器,精简指令集计算机(Reduced InstrucTIon Set Computer,RISC),高级RISC机器(ARM),专用集成电路(Application Specific Integrated Circuit,ASIC),即多核处理器220-A为能够执行一个或多个功能的任何电路或处理器等,或其任何组合。仅仅为了说明问题,在本说明书中计算设备002中仅描述了一个处理器220。然而,应当注意,本说明书中计算设备002还可以包括多个处理器,因此,本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行,也可以由多个处理器联合执行。例如,如果在本说明书中计算设备002的处理器220执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同处理器220联合或分开执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。
图3示出了根据本说明书的实施例提供的一种AIGC方法P100的流程图。如前所述,计算设备002可以执行本说明书的AIGC方法P100。具体地,计算设备002可以读取存储在其本地存储介质中的指令集,然后根据指令集的规定,执行本说明书的人工智能内容生成方法P100。如图3所示,人工智能内容生成方法P100可以包括:
S120:响应接收到目标用户的目标提示信息,确定上述目标用户的个性化信息。
其中,上述目标用户为任意一个进行内容生成操作的用户,本说明书实施例中以“目标用户”为例介绍AIGC过程。上述目标提示信息为上述目标用户为了生成目标内容提供的提示信息,用于告知机器用户所需生成内容的必要信息作为提示信息,其中可以包含生成内容的类型(如,图像、文字、音频、视频等)、生成内容的描述信息(如,动物、植物等)等。可以理解的是,在目标用户所提供的目标提示信息中未包含生成内容的必要信息的情况下,可以提醒用户再次输入提示信息,从而提升内容生成准确性。
在本说明书实施例中,在接收到包含生成内容的必要信息的目标提示信息的情况下,计算设备002确定发出上述目标提示信息的用户身份,进一步地,根据该目标用户的身份来确定其个性化信息。在一个实施例中,上述目标用户的个性化信息为该目标用户的画像信息;在另一个实施例中,上述目标用户的个性化信息为该目标用户的偏好信息,其中上述偏好特征可以由该用户的画像信息映射得到;在再一个实施例中,上述目标用户的个性化信息为该目标用户的画像信息和偏好信息。
S140:将上述目标提示信息、上述目标用户的个性化信息以及随机噪声输入训练后的内容生成模型,以使上述内容生成模型基于上述目标用户的个性化信息和上述目标提示信息对上述随机噪声进行扩散处理。
图4示出了根据本申请的实施例提供的AIGC模型的一种结构示意图。该图示出的AIGC模型003包括:条件编码子模型410和扩散子模型420。其中,条件编码子模型410,被配置为确定目标用户的个性化信息。示例性的,根据个性化信息的不同条件编码子模型410的模型结构存在差别,例如,在个性化信息为目标用户的画像信息的情况下,条件编码子模型410的模型结构包括画像预测模型004(可参考图7)以及编码部分(参考图7中第二编码部分70);在个性化信息为目标用户的偏好信息的情况下,条件编码子模型410的模型结构包括画像预测模型004、偏好预测模型005(可参考图10)以及编码部分(参考图10中第三编码部分80);在个性化信息为目标用户的画像信息和偏好信息的情况下,条件编码子模型410的模型结构包括画像预测模型004、偏好预测模型005(可参考图11)以及融合部分(参考图11中第三融合部分1100)。
继续参考图4,AIGC模型中的扩散子模型420,被配置为接收该目标用户的目标提示信息、该目标用户的个性化信息以及随机噪声,基于上述目标用户的个性化信息和上述目标提示信息对上述随机噪声进行扩散处理(diffusion process),以确定并输出所述目标提示信息对应的目标内容。具体地,在根据提示信息和个性化信息对随机噪声进行扩散处理的过程中,个性化信息作为一种使得所生成内容体现用户个性化特征的约束条件,促使所生成内容能够体现用户的个性化特征,有利于提升所生成内容的个性化程度。
示例性的,内容生成模型的类型包括生成图像类型、生成视频类型、生成文本类型、以及生成语音类型。可以理解的是,根据所生成内容的不同扩散子模型420所采用的模型不同,例如,在生成内容为图像、视频的情况下,扩散子模型420可以采用Unet;在生成内容为文字的情况下,扩散子模型420可以采用语言模型(Language Model,LM)。可理解的是,本说明书实施例对扩散子模型所采用的模型不做限定,可以根据实际需求确定。
在一些实施例中,在计算设备002将所述目标提示信息、所述个性化信息以及随机噪声输入训练后的内容生成模型之前,计算设备002还可以根据该目标用户的目标提示信息,来确定对应于目标提示信息的目标内容的目标类型。例如,目标提示信息为“生成xx图像”则可以确定目标内容的目标类型为图像,目标提示信息为“生成yy语音”则可以确定目标内容的目标类型为语音,等。进一步地,计算设备002根据上述目标内容的目标类型确定目标类型的内容生成模型,以根据上述目标类型的内容生成模型进行AIGC,从而确保所生成内容的类型准确。
S160:根据所述内容生成模型的输出确定所述目标提示信息对应的目标内容。
参考图1A,计算设备002在接收到提示信息“生成一只柯基狗狗图像”后,可以确定发出该提示信息的用户身份为用户A,进一步地计算设备002确定用户A的个性化信息(如,包括偏好写真图像),则进一步地,利用上述内容生成模型002,基于该用户A的个性化信息和上述提示信息对随机噪声进行扩散处理,从而确定并输出目标内容如图1A中所示的写真风格的柯基狗狗图像。
在图3所提供实施例中,在接收到目标用户的目标提示信息,确定该目标用户的个性化信息。然后,将上述目标提示信息、连同该目标用户的个性化信息以及随机噪声输入训练后的内容生成模型。在上述内容生成模型对上述输入信息的处理过程中,具体为基于该目标用户的个性化信息和上述目标提示信息对随机噪声进行扩散处理,从而输出确定上述目标提示信息对应的目标内容。具体地,上述内容生成模型基于上述目标提示信息对随机噪声进行扩散处理以确定生成内容,而目标用户的个性化信息辅助上述内容生成过程,以使得所生成内容中包含目标用户的个性化信息,得到能够体现目标用户个性化的目标内容。
在一些实施例中,可以将用户的画像信息作为该用户的个性化信息,在内容生成模型的扩散处理过程中,该用户的画像信息作为内容生成的约束条件,以使生成内容中包含该用户的画像特征,得到能够体现用户个性化的目标内容。具体地,将结合图5至图7对该实施例进行详细介绍。
图5示出了根据本申请的实施例提供的确定画像信息方法P200的一种流程示意图。具体地,计算设备002可以执行本说明书的确定画像信息方法P200。具体地,计算设备002可以读取存储在其本地存储介质中的指令集,然后根据指令集的规定,执行本说明书的确定画像信息方法P200。如图5所示,确定画像信息方法P200可以包括:
S1202:确定目标用户的历史行为信息,以及确定上述历史行为信息对应的实际对象。
|本说明书实施例中,计算设备002获取目标用户的历史行为信息,例如,目标用户在互联网的消费记录、浏览记录、观看记录以及播放记录等。还获取上述历史行为对应的对象(为了区别于后文中预测对象,历史行为对应的对象记作:实际对象),例如,消费记录对应的购买商品、浏览记录所对应的网页,观看记录所对应的视频、图像等,以及播放记录对应的音乐等。进一步地,计算设备002根据目标用户的历史行为及其对应的对象,来确定该目标用户的画像信息。本说明书实施例通过多模态数据来确定用户画像信息,有利于从多角度确定内容丰富的用户画像。
图6示出了根据本申请的实施例提供的画像预测模型的一种结构示意图。具体地,本说明书实施例中将上述目标用户的历史行为特征及其对应的实际对象输入至该画像预测模型004中,并通过该画像预测模型004确定目标用户的画像信息。具体的,画像预测模型004包括:第一编码部分610、第一融合部分620、第一预测部分630以及第二预测部分640。其中,第一编码部分610包括用于对历史行为信息进行编码的第一编码网络,还包括用于对实际对象进行编码的第二编码网络。在一些实施例中,由于历史行为信息多为结构化字符串,则上述第一编码网络可以采用transformer,由于上述实际对象多为视频、图像,上述第二编码网络可以采用残差神经网络。
需要注意的是,上述画像预测模型004包括两个预测分支,具体的第一预测部分630用于预测用户的属性(如,性别、职业类型等),第二预测部分640用于预测用户的行为和/或行为对应的对象。通过对用户进行多方面多角度的预测,来丰富的用户画像,进而有利于内容生成的个性化程度。
先介绍画像预测模型004的训练实施例,其中训练样本中一组样本包括:样本用户的历史行为a及历史行为a对应的实际对象d,其标签为用户的属性,以及该样本用户的历史行为b的特征和/或历史行为b对应的对象特征。具体地,第一编码部分610的第一编码网络对样本用户的历史行为a进行编码并输出样本用户的历史行为a对应的历史行为特征a’,第一编码部分610的第二编码网络对样本用户的历史行为a对应的对象进行编码并输出样本用户的历史行为a对应的实际对象d的实际对象特征d’;第一融合部分620对该样本用户的历史行为特征a’及其对应的实际对象特征d’进行特征融合,得到融合样本特征a’d’;进一步地,第一预测部分630基于融合样本特征a’d’预测上述样本用户的身份;第二预测部分640基于融合样本特征a’d’预测上述样本用户的预测行为和/或预测对象。其中,上述画像预测模型004的损失函数包括两个部分,一个部分是用户的属性预测损失,第二个部分是预测行为和/或预测行为对应的对象的自回归损失。从而,基于上述训练样本以及损失函数进行模型训练优化各部分参数,直至画像预测模型004收敛。可以理解的是,上述关于画像预测模型004的训练过程可以由计算设备002执行。
进一步地,计算设备002基于训练后的画像预测模型004来确定上述目标用户的画像,具体地计算设备执行S1204-S1208。
S1204:确定上述目标用户的历史行为信息对应的历史行为特征,以及确定上述实际对象对应的实际对象特征。
参考图6,计算设备002通过训练后的画像预测模型004中第一编码部分610中第一编码网络对上述目标用户的历史行为信息进行编码,得到历史行为特征;以及通过第一编码部分610中第二编码网络对上述历史行为信息对应的实际对象进行编码,得到实际对象特征。例如,目标用户关于A视频的浏览记录为x日y1时z1秒-x日y2时z2秒,本实施例中,通过训练后的画像预测模型004中第一编码部分610中第一编码网络对浏览记录为x日y1时z1秒-x日y2时z2秒(即,上述目标用户的历史行为信息)进行编码,得到历史行为特征Z1;以及通过第一编码部分610中第二编码网络对视频A(上述历史行为信息对应的实际对象)进行编码,得到实际对象特征Z2。
S1206:根据上述历史行为特征和上述实际对象特征,确定第一融合特征。
计算设备002通过训练后的画像预测模型004中第一融合部分620对上述历史行为特征和上述实际对象特征进行融合,确定第一融合特征。例如,计算设备002通过第一融合部分620对上述历史行为特征Z1和上述实际对象特征Z2进行融合,得到第一融合特征Z。需要说明的是,进行融合的两个特征之间应当具备对应关系,例如消费记录与其对应的商品,观看记录与其对应的视频,从而保障所确定用户画像的精准度。
S1208:根据上述第一融合特征确定上述目标用户对应的目标属性,以及预测行为和/或预测对象。
计算设备002通过训练后的画像预测模型004中第一预测部分630对上述第一融合特征进行分类,得到该目标用户对应的目标属性,例如该目标用户的性别为女。
计算设备002通过训练后的画像预测模型004中第二预测部分640对上述第一融合特征进行分类,得到该目标用户的预测行为和/或预测对象,例如预测该用户可能会观看的视频、可能会购买的商品等。
需要注意的是,本说明书实施例所提供的方案中,不仅将画像预测模型中两个预测分支的输出结果作为该目标用户的画像信息,还将用于预测的上述第一融合特征作为该目标用户的画像信息,从而进一步丰富用户画像,进而有利于提升所生成内容的个性化程度。
示例性的,每个用户的画像信息可以间隔预设时长进行更新,以保证用户画像的准确程度,从而有利于所生成的个性化内容贴合用户的当前画像特征。
图7示出了根据本申请的实施例提供的AIGC模型的另一种结构示意图。参考图7示出的AIGC模型003’,由于图5以及图6所提供实施例中将用户的画像信息作为个性化信息,在图4示出的AIGC模型003的基础上,上述条件编码子模型410包括:画像预测模型004和第二编码部分70。具体地,计算设备002通过画像预测模型004确定目标用户的画像信息,同上所述目标用户的画像信息包括:目标用户的第一融合特征和目标属性,以及预测行为和/或预测对象。进一步地,计算设备002通过第二编码部分70对目标用户的第一融合特征和目标属性,以及预测行为和/或预测对象进行编码得到画像特征,并将该画像特征作为参与内容生成的个性化特征。
在如图7所提供实施例中,将目标用户的画像信息作为其个性化信息,且上述画像信息通过用户多模态数据确定,以保证用户画像的丰富程度。并且用户画像中不仅包含基于画像预测模型的多方面的预测结果,还包括用于确定预测结果的第一融合特征,从而进一步丰富了用户画像。进一步地,将丰富程度高的用户画像作为内容生成的约束条件,以使得所生成内容中包含目标用户丰富的个性化特征,进而所得到的目标内容具有高的个性化程度。
在一些实施例中,可以将根据用户的画像信息映射得到的偏好信息作为该用户的个性化信息,在内容生成模型的扩散处理过程中,该用户的偏好信息作为内容生成的约束条件,以使生成内容中包含该用户的偏好特征,得到能够体现用户个性化的目标内容。其中,偏好信息可以是偏好类型,其可以根据实际需求定义,例如关于生成图像风格的类型包括:艺术家风格、通俗风格、极客(geek)风格等,可以将生成图像风格的类型设置为偏好分类。可见,目标用户的偏好信息与生成内容的类型直接相关,也就是说,在内容生成过程中,目标用户的偏好信息能够显性体现用户特征,从而,本说明书实施例将用户的偏好分类作为生成内容的生成参考信息,能够更直接地提升所生成内容的个性化程度,使得所生成内容更贴合目标用户的偏好。具体地,将结合图8至图10对该实施例进行详细介绍。
图8示出了根据本申请的实施例提供的确定偏好信息方法P300的一种流程示意图。具体地,计算设备002可以执行本说明书的确定偏好信息方法P300。具体地,计算设备002可以读取存储在其本地存储介质中的指令集,然后根据指令集的规定,执行本说明书的确定偏好信息方法P300。如图8所示,确定偏好信息方法P300可以包括:
S1202’:确定目标用户的画像信息。
示例性的,用户的画像信息通过图5和图6对应的实施例确定,在此不再赘述。在一些实施例中,计算设备002可以将上述目标用户的画像信息输出训练后的偏好预测模型,从而根据偏好预测模型的输出确定该目标用户的偏好信息。
图9示出了根据本申请的实施例提供的偏好预测模型的一种结构示意图。具体地,偏好预测模型005包括:多专家分类部分910、权重确定部分920以及特征空间映射部分930。其中,多专家分类部分910所包含的N(大于1的整数)个分类子模型,N个分类子模型的神经网络结构可以一致,但是在经过训练过程之后不同分类子模型之间的参数可能是不同的。由于模型参数的不同,各个分类子模型的输出向量会存在差异,而这种差异表征不同分类子模型对输入的倾向侧重不同。因此,在关于一个或多个学习目标的预测方面,不同子模型所擅长的角度不同。可见,相较于将某一个分类子模型,至少两个分类子模型的预测组合更为准确。需要说明的是,本说明书实施例中,并不关注分类子模型所输出的分类结果,而是将各个分类子模型用于分类的过程特征,作为下一步处理的基础。在通过权重确定部分920对N个分类子模型的输出的过程特征进行加权,得到融合特征(记作:第二融合特征)。进一步地,特征空间映射部分930用于将上述第二融合特征由一个特征空间分别映射至多个不同的特征空间,映射过程中会有特征损失有利于输出结果的鲁棒性冗余性。相较于多专家分类部分的分类结果,基于映射至多个特征空间的特征进行分类,有利于丰富所获得偏好分类。
训练上述偏好预测模型005的损失函数包括三个部分,一个部分是单个分类子模型的分类损失;另一个部分是特征空间映射部分的损失;再一个是权重确定部分920的attention权重稀疏损失。基于上述损失函数进行模型训练,直至模型收敛,得到训练后的偏好预测模型。可以理解的是,上述关于偏好预测模型005的训练过程可以由计算设备002执行。
S1204’:将上述目标用户的画像信息分别输入上述N个训练后的分类子模型,其中第i个分类子模型对上述目标用户的画像特征进行特征处理得到的第i加工特征,上述第i加工特征用于上述第i个分类子模型进行分类。
同前所述,相较于多专家分类部分910的分类结果,基于映射至多个特征空间的特征进行分类,有利于丰富所获得偏好分类。因此在本步骤中获得N个分类子模型分别输出的过程特征,以用于进一步处理。
S1206’:通过上述权重确定部分确定N个权重,并根据上述N个权重以及N个上述加工特征确定第二融合特征。以及,S1208’:通过上述特征空间映射部分将上述第二融合特征映射至多个不同的特征空间,并对映射后的特征进行分类,得到目标用户的偏好信息。
同前所述,特征空间映射部分930用于将上述第二融合特征由一个特征空间分别映射至多个不同的特征空间,映射过程中会有特征损失有利于输出结果的鲁棒性冗余性。本说明书实施例中,计算设备002通过上述权重确定部分确定对应于每个分类子模型的权重,并通过上述N个权重对N个上述加工特征进行加权后再求和,得到上述第二融合特征。进一步地,计算设备002将上述第二融合特征输入上述特征空间映射部分930中的第j(取值为1至M之间的正整数,M为核函数总数)个核函数,从而通过M个核函数将上述第二融合特征映射至多个不同的特征空间。计算设备002并对特征空间映射后的特征进行分类,可以得到关于上述目标用户的偏好信息,例如,目标用户的偏好信息包括卡通风格图像、声音甜美的音频,以及可爱风字体,从而在为该目标用户生成内容的类型为文字的情况下,可以采用可爱风字体;在为给目标用户生成内容的类型为图像的情况下,可以采用卡通风格等。
示例性的,每个用户的画像信息以及偏好信息均可以间隔预设时长进行更新,以保证用户画像的准确程度,从而有利于所生成的个性化内容贴合用户的当前偏好。
图10示出了根据本申请的实施例提供的AIGC模型的再一种结构示意图。参考图10示出的AIGC模型003”,由于图8以及图9所提供实施例中将用户的偏好信息作为个性化信息,在图4示出的AIGC模型003的基础上,上述条件编码子模型410包括:画像预测模型004、偏好预测模型005和第三编码部分80。具体地,计算设备002通过画像预测模型004确定目标用户的画像信息,同上所述目标用户的画像信息包括:目标用户的第一融合特征和目标属性,以及预测行为和/或预测对象;然后,计算设备002将上述目标用户的画像信息输入至上述偏好预测模型005,得到该目标用户的偏好信息。进一步地,计算设备002通过第三编码部分80对目标用户的偏好信息进行编码得到偏好特征,并将该偏好特征作为参与内容生成的个性化特征。
在如图10所提供实施例中,将目标用户的偏好信息作为其个性化信息,且上述偏好信息为上述用户画像数据通过多专家分类部分处理得到N个过程特征,进一步地基于权重确定部分的权重将上述N个过程特征结合为第二融合特征,还对第二融合特征转换至多个特征空间,从而既有利于提升用户偏好的丰富程度,还能够增加鲁棒性。将丰富程度高且鲁棒性高的偏好信息作为内容生成的约束条件,以使得所生成内容中包含目标用户丰富的个性化特征,进而所得到的目标内容具有高的个性化程度。
在一些实施例中,可以将根据用户的上述画像信息和上述偏好信息作为该用户的个性化信息,在内容生成模型的扩散处理过程中,该用户的画像和偏好信息共同作为内容生成的约束条件,以使生成内容中包含该用户的画像特征和偏好特征,得到能够体现用户个性化的目标内容。其中,画像信息和偏好信息的具体获得过程,均已在上述实施例中进行了介绍,在此不再赘述。
图11示出了根据本申请的实施例提供的AIGC模型的又一种结构示意图。参考图11示出的AIGC模型003”’,本实施例中将用户的画像信息化和偏好信息共同作为个性化信息,在图4示出的AIGC模型003的基础上,上述条件编码子模型410包括:画像预测模型004、偏好预测模型005和第二融合部分1100。具体地,计算设备002通过画像预测模型004确定目标用户的画像信息,同上所述目标用户的画像信息包括:目标用户的第一融合特征和目标属性,以及预测行为和/或预测对象;然后,计算设备002将上述目标用户的画像信息输入至上述偏好预测模型005,得到该目标用户的偏好信息。进一步地,计算设备002通过第二融合部分1100对目标用户的画像信息进行编码得到画像特征,以及对该目标用户的偏好信息进行编码得到偏好特征,进一步地对上述画像特征以及偏好特征融合处理,得到画像特征和偏好特征的同和特征,并作为参与内容生成的个性化特征。
在图11所提供实施例中,将目标用户的偏好信息与画像信息作为其个性化信息,且述画像信息通过用户多模态数据确定,以保证用户画像的丰富程度;上述偏好信息为上述用户画像数据通过多专家分类部分处理得到N个过程特征,进一步地基于权重确定部分的权重将上述N个过程特征结合为第二融合特征,还对第二融合特征转换至多个特征空间,从而既有利于提升用户偏好的丰富程度,还能够增加鲁棒性。根据丰富程度高且鲁棒性高的偏好信息以及丰富程度高的画像信息确定的融合特征作为内容生成的约束条件,以使得所生成内容中包含目标用户丰富的个性化信息,进而所得到的目标内容具有高的个性化程度。
综上所述,本申请的实施例提供的人工智能内容生成方法、模型及系统,在接收到目标用户的目标提示信息,确定该目标用户的个性化信息。然后,将上述目标提示信息、连同该目标用户的个性化信息以及随机噪声输入训练后的内容生成模型。在上述内容生成模型对上述输入信息的处理过程中,具体为基于该目标用户的个性化信息和上述目标提示信息对随机噪声进行扩散处理,从而输出确定上述目标提示信息对应的目标内容。具体地,上述内容生成模型基于上述目标提示信息对随机噪声进行扩散处理以确定生成内容,而目标用户的个性化信息辅助上述内容生成过程,以使得所生成内容中包含目标用户的个性化信息,得到能够体现目标用户个性化的目标内容。
本申请另一方面提供一种非暂时性存储介质,存储有至少一组用来进行信号处理的可执行指令。当所述可执行指令被处理器执行时,所述可执行指令指导所述处理器实施本申请所述的人工智能内容生成方法P100的步骤。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码。当所述程序产品在声学系统上运行时,所述程序代码用于使声学系统执行本申请描述的人工智能内容生成方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(Compact DiscRead Only Memory,CD ROM)包括程序代码,并可以在声学系统上运行。然而,本申请的程序产品不限于此,在本申请中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器((Easerable Programable ROM,EPROM)或闪存)、光纤、便携式紧凑盘只读存储器(CD ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在声学系统上执行、部分地在声学系统上执行、作为一个独立的软件包执行、部分在声学系统上部分在远程计算设备上执行、或者完全在远程计算设备上执行。
上述对本申请特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者是可能有利的。
综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽管这里没有明确说明,本领域技术人员可以理解本申请需求囊括对实施例的各种合理改变,改进和修改。这些改变,改进和修改旨在由本申请提出,并且在本申请的示例性实施例的精神和范围内。
此外,本申请中的某些术语已被用于描述本申请的实施例。例如,“一个实施例”,“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征,结构或特性可以包括在本申请的至少一个实施例中。因此,可以强调并且应当理解,在本申请的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外,特定特征,结构或特性可以在本申请的一个或多个实施例中适当地组合。
应当理解,在本申请的实施例的前述描述中,为了帮助理解一个特征,出于简化本申请的目的,本申请将各种特征组合在单个实施例、附图或其描述中。然而,这并不是说这些特征的组合是必须的,本领域技术人员在阅读本申请的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说,本申请中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。
本文引用的每个专利,专利申请,专利申请的出版物和其他材料,例如文章,书籍,说明书,出版物,文件,物品等,除了与其相关的任何历史起诉文件、可能与本文件不一致或相冲突的任何相同的、或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的历史起诉文件,均可以通过引用结合于此,并用于现在或以后与本文件相关联的所有目的。此外,如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时,使用本文件中的术语为准。
最后,应理解,本文公开的申请的实施方案是对本申请的实施方案的原理的说明。其他修改后的实施例也在本申请的范围内。因此,本申请披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本申请中的实施例采取替代配置来实现本申请中的申请。因此,本申请的实施例不限于申请中被精确地描述过的实施例。
Claims (11)
1.一种人工智能内容生成AIGC方法,其中,所述方法包括:
响应接收到目标用户的目标提示信息,确定所述目标用户的个性化信息;
将所述目标提示信息、所述目标用户的个性化信息以及随机噪声输入训练后的内容生成模型,以使所述内容生成模型基于所述目标用户的个性化信息和所述目标提示信息对所述随机噪声进行扩散处理;以及
根据所述内容生成模型的输出确定所述目标提示信息对应的目标内容。
2.根据权利要求1所述的AIGC方法,其中,所述目标用户的个性化信息包括所述目标用户的画像信息;
所述确定所述目标用户的个性化信息,包括:
确定所述目标用户的历史行为信息,以及确定所述历史行为信息对应的实际对象;以及
根据所述目标用户的历史行为信息及其对应的实际对象,确定所述目标用户的画像信息。
3.根据权利要求2所述的AIGC方法,其中,所述根据所述目标用户的历史行为信息及其对应的实际对象,确定所述目标用户的画像信息,包括:
确定所述目标用户的历史行为信息对应的历史行为特征,以及确定所述实际对象对应的实际对象特征;
根据所述历史行为特征和所述实际对象特征,确定第一融合特征;
根据所述第一融合特征确定所述目标用户对应的目标属性,以及预测行为和/或预测对象;以及
将所述第一融合特征和所述目标属性,以及所述预测行为和/或所述预测对象,确定为所述目标用户的画像信息。
4.根据权利要求2所述的AIGC方法,其中,通过训练后的画像预测模型确定所述目标用户的画像特征,其中所述画像预测模型包括第一编码部分、第一融合部分、第一预测部分以及第二预测部分;
所述根据所述目标用户的历史行为信息及其对应的实际对象,确定所述目标用户的画像信息,包括:
通过所述第一编码部分中第一编码网络对所述目标用户的历史行为信息进行编码,得到历史行为特征;以及通过所述第一编码部分中第二编码网络对所述实际对象进行编码,得到实际对象特征;
通过所述第一融合部分对所述历史行为特征和所述实际对象特征进行融合,确定第一融合特征;
通过所述第一预测部分对所述第一融合特征进行分类,得到所述目标用户对应的目标属性;以及通过所述第二预测部分对所述第一融合特征进行分类,得到所述目标用户的预测行为和/或预测对象;以及
将所述第一融合特征和所述目标属性,以及所述预测行为和/或所述预测对象,确定为所述目标用户的画像信息。
5.根据权利要求1所述的AIGC方法,其中,所述目标用户的个性化信息包括所述目标用户的偏好信息;
所述确定所述目标用户的个性化信息,包括:
确定所述目标用户的画像特征;以及
将所述目标用户的画像特征映射至多个不同的特征空间,并对映射后的特征进行分类,得到目标用户的偏好信息。
6.根据权利要求1所述的AIGC方法,其中,所述目标用户的个性化信息包括所述目标用户的偏好信息;
所述确定所述目标用户的个性化信息,包括:
确定所述目标用户的画像信息,其中所述目标用户的画像信息用于作为训练后偏好预测模型的输入以通过所述偏好预测模型的输出确定所述目标用户的个性化信息,其中所述偏好预测模型包括N个训练后的分类子模型、权重确定部分以及特征空间映射部分,N取值为大于1的整数;
将所述目标用户的画像特征分别输入所述N个训练后的分类子模型,其中第i个分类子模型对所述目标用户的画像特征进行特征处理得到的第i加工特征,所述第i加工特征用于所述第i个分类子模型进行分类,i取值为不大于N的正整数;
通过所述权重确定部分确定N个权重,并根据所述N个权重以及N个所述加工特征确定第二融合特征;以及
通过所述特征空间映射部分将所述第二融合特征映射至多个不同的特征空间,并对映射后的特征进行分类,得到目标用户的偏好信息。
7.根据权利要求1所述的AIGC方法,其中,所述目标用户的个性化信息包括所述目标用户的画像信息和偏好信息。
8.根据权利要求7所述的AIGC方法,其中,所述内容生成模型包括条件编码子模型和扩散子模型;
所述将所述目标提示信息、所述个性化信息以及随机噪声输入训练后的内容生成模型,以使所述内容生成模型基于所述目标用户的个性化信息和所述目标提示信息对所述随机噪声进行扩散处理,包括:
通过所述条件编码子模型确定所述目标用户的画像信息对应的画像特征,通过所述条件编码子模型确定所述目标用户的偏好信息对应的偏好特征,以及通过所述条件编码子模型确定所述目标用户的画像特征和偏好特征的第三融合特征,得到用于所述目标用户个性化内容生成的个性化特征;以及
所述目标提示信息、所述目标用户的个性化特征以及随机噪声输入所述扩散子模型,以使所述扩散子模型基于所述个性化信息和所述目标提示信息对所述随机噪声进行扩散处理。
9.根据权利要求1至8中任意一项所述的AIGC方法,其中,所述内容生成模型的类型包括生成图像类型、生成视频类型、生成文本类型、以及生成语音类型;
在所述将所述目标提示信息、所述个性化信息以及随机噪声输入训练后的内容生成模型之前,所述方法还包括:
根据所述目标用户的目标提示信息,确定对应于所述目标提示信息的目标内容的目标类型;以及
根据所述目标内容的目标类型确定目标类型的内容生成模型,以根据所述目标类型的内容生成模型进行AIGC。
10.一种人工智能内容生成AIGC模型,其中,所述AIGC模型包括:
条件编码子模型,被配置为根据目标用户的个性化信息确定所述目标用户的个性化特征;以及
扩散子模型,被配置为接收所述目标用户的目标提示信息、所述目标用户的个性化特征以及随机噪声,基于所述目标用户的个性化信息和所述目标提示信息对所述随机噪声进行扩散处理,以确定并输出所述目标提示信息对应的目标内容。
11.一种人工智能内容生成AIGC系统,包括:
至少一个存储介质,存储有至少一个指令集,用于进行活体检测;以及
至少一个处理器,同所述至少一个存储介质通信连接,
其中,当所述活体检测系统运行时,所述至少一个处理器读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行权利要求1-9任意一项所述的AIGC方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311105045.0A CN117131272A (zh) | 2023-08-29 | 2023-08-29 | 人工智能内容生成方法、模型及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311105045.0A CN117131272A (zh) | 2023-08-29 | 2023-08-29 | 人工智能内容生成方法、模型及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117131272A true CN117131272A (zh) | 2023-11-28 |
Family
ID=88850462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311105045.0A Pending CN117131272A (zh) | 2023-08-29 | 2023-08-29 | 人工智能内容生成方法、模型及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131272A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423329A (zh) * | 2023-12-19 | 2024-01-19 | 北京中科汇联科技股份有限公司 | 模型训练及语音生成方法、装置、设备及存储介质 |
-
2023
- 2023-08-29 CN CN202311105045.0A patent/CN117131272A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423329A (zh) * | 2023-12-19 | 2024-01-19 | 北京中科汇联科技股份有限公司 | 模型训练及语音生成方法、装置、设备及存储介质 |
CN117423329B (zh) * | 2023-12-19 | 2024-02-23 | 北京中科汇联科技股份有限公司 | 模型训练及语音生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200279163A1 (en) | Device placement optimization with reinforcement learning | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
US20200372217A1 (en) | Method and apparatus for processing language based on trained network model | |
CN111897934B (zh) | 问答对生成方法及装置 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
WO2023045605A1 (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN117131272A (zh) | 人工智能内容生成方法、模型及系统 | |
CN112149699A (zh) | 用于生成模型的方法、装置和用于识别图像的方法、装置 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
WO2024021685A1 (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN115640611B (zh) | 一种自然语言处理模型的更新方法及相关设备 | |
CN116756281A (zh) | 知识问答方法、装置、设备和介质 | |
CN113486260B (zh) | 互动信息的生成方法、装置、计算机设备及存储介质 | |
CN115757786A (zh) | 文本分类方法、装置、设备及存储介质 | |
US11810547B2 (en) | Machine learning for intelligent dictation of analysis of multidimensional objects | |
Newnham | Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps | |
CN116610804B (zh) | 一种提升小样本类别识别的文本召回方法和系统 | |
CN114579740B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
US20230223008A1 (en) | Method and electronic device for intelligently reading displayed contents | |
CN116226382B (zh) | 一种给定关键词的文本分类方法、装置、电子设备及介质 | |
US20240086051A1 (en) | Editing User Interfaces using Free Text | |
CN117273996A (zh) | 合同处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |