CN117494791A - 内容生成模型优化方法、内容生成方法及相关装置 - Google Patents
内容生成模型优化方法、内容生成方法及相关装置 Download PDFInfo
- Publication number
- CN117494791A CN117494791A CN202311437538.4A CN202311437538A CN117494791A CN 117494791 A CN117494791 A CN 117494791A CN 202311437538 A CN202311437538 A CN 202311437538A CN 117494791 A CN117494791 A CN 117494791A
- Authority
- CN
- China
- Prior art keywords
- model
- generation
- fusion
- basic
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000005457 optimization Methods 0.000 title abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 184
- 238000012549 training Methods 0.000 claims abstract description 172
- 230000006978 adaptation Effects 0.000 claims abstract description 57
- 238000004821 distillation Methods 0.000 claims abstract description 37
- 239000002346 layers by function Substances 0.000 claims abstract description 18
- 238000003860 storage Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000009792 diffusion process Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 15
- 239000010410 layer Substances 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013138 pruning Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000010428 oil painting Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000883306 Huso huso Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本说明书一个或多个实施例提供了一种内容生成模型优化方法、内容生成方法及相关装置。该优化方法根据多个不同类型的第一训练样本集训练得到多个具有不同类型的内容生成能力的基础生成模型,再对多个基础生成模型进行联合蒸馏,将基础生成模型的能力迁移到与其一一对应的多个适配模块,这些适配模块和初始融合模型构成融合生成模型,多个基础生成模型的内容生成能力均被融合到融合生成模型。该优化方法还在蒸馏之前对多个基础生成模型的功能层进行随机交换。该内容生成方法通过目标模型群生成用户所请求的目标内容,目标模型群中配置有融合生成模型;根据融合模型对基础生成模型的拟合能力,还可选择一个或多个基础生成模型配置于目标模型群中。
Description
技术领域
本说明书一个或多个实施例涉及人工智能技术领域,尤其涉及一种内容生成模型优化方法、内容生成方法及相关装置。
背景技术
随着人工智能技术的发展,工业界出现了多种基于人工智能技术的应用。其中,利用基于人工智能技术的内容生成模型自动生成高质量且富有创意的图像、文本等内容,受到大量关注。这些内容生成模型虽然为人们提供了多样化的服务,但其需要占用大量计算资源。相关的模型优化方法,往往是在牺牲内容生成质量的前提下,来减少模型的资源消耗量,难以适应多样化的应用需求。
因此,需要提供一种新的内容生成方法,既可以保证生成质量的前提下,又可以减少资源消耗量,提高内容生成效率。
发明内容
为了在保证生成质量的前提下,减少资源消耗量、提高内容生成效率,本说明书一个或多个实施例提供了一种内容生成模型优化方法、内容生成方法及相关装置。
第一方面,本说明书一个或多个实施例提供了一种内容生成模型优化方法,包括:
根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型;
根据所述基础生成模型确定初始融合模型和嵌入所述初始融合模型并与所述基础生成模型一一对应的多个适配模块;
以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,以使所述适配模块一一对应学习所述基础生成模型的内容生成能力,直至所述初始融合模型收敛,得到融合生成模型。
一种可能的实现方式中,所述内容生成模型优化方法还包括:
将至少一个所述基础生成模型中的至少一个功能层随机替换为其他所述基础生成模型的功能层。
一种可能的实现方式中,所述根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型,包括:
获取多个不同类型的第一训练样本集;
分别通过每个所述第一训练样本集对预设模型进行训练,得到具有与所述第一训练样本集同类型的内容生成能力的基础生成模型。
一种可能的实现方式中,所述获取多个不同类型的第一训练样本集,包括以下至少一项:
获取不同生成对象对应的多个第一训练样本集;所述生成对象包括图像、文本、音频、视频中的至少一种;
获取不同生成风格对应的多个第一训练样本集;所述生成风格包括图像风格、文本风格、音频风格、视频风格中的至少一种。
一种可能的实现方式中,所述蒸馏训练包括:
获取第二训练样本集;
以所述第二训练样本集为输入数据,分别获取每个所述基础生成模型输出的第一生成内容;
以所述第二训练样本集为输入数据,获取所述初始融合模型输出的特征图谱;
以所述特征图谱为输入数据,分别获取每个所述适配模块输出的第二生成内容;
根据所述第一生成内容和第二生成内容对每个所述适配模块进行参数更新。
一种可能的实现方式中,所述基础生成模型为扩散模型;
所述初始融合模型和所述基础生成模型的模型结构相同或部分相同。
第二方面,本说明书一个或多个实施例提供了一种内容生成方法,包括:
获取目标提示信息;
将所述目标提示信息输入目标模型群,得到与所述目标提示信息对应的目标内容;其中,所述目标模型群包括根据上述第一方面所述的方法得到的融合生成模型。
一种可能的实现方式中,所述内容生成方法还包括:
根据所述融合生成模型和多个基础生成模型配置所述目标模型群;
其中,所述融合生成模型为根据上述第一方面所述的方法,通过所述多个基础生成模型优化得到的。
一种可能的实现方式中,所述根据所述融合生成模型和多个基础生成模型配置所述目标模型群,包括:
确定所述融合生成模型对每个基础生成模型的拟合分数;所述拟合分数表示所述融合生成模型对所述基础生成模型的拟合能力;
确定所述目标模型群待配置的模型数量K;
若待配置的模型数量K=1,则将所述融合生成模型配置于所述目标模型群;
若待配置的模型数量K>1,则将所述融合生成模型和K-1个拟合分数最小的基础生成模型配置于所述目标模型群。
一种可能的实现方式中,所述确定所述融合生成模型对每个基础生成模型的拟合分数,包括:
将预设提示信息输入所述融合生成模型,得到第一输出内容;
将所述预设提示信息分别输入各个所述基础生成模型,得到多个第二输出内容;
计算每个所述第二输出内容与所述第一输出内容的平均余弦相似度,并将所述平均余弦相似度作为所述融合生成模型对相应的基础生成模型的拟合分数。
第三方面,本说明书一个或多个实施例还提供了一种内容生成模型优化装置,包括:
基础训练单元,用于根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型;
模型构造单元,用于根据所述基础生成模型确定初始融合模型和嵌入所述初始融合模型并与所述基础生成模型一一对应的多个适配模块;
模型融合单元,用于以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,以使所述适配模块一一对应学习所述基础生成模型的内容生成能力,直至所述初始融合模型收敛,得到融合生成模型。
一种可能的实现方式中,所述装置还包括:
随机交换单元,用于将至少一个所述基础生成模型中的至少一个功能层随机替换为其他所述基础生成模型的功能层。
一种可能的实现方式中,所述基础训练单元用于根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型,包括:
所述基础训练单元用于,获取多个不同类型的第一训练样本集,并分别通过每个所述第一训练样本集对预设模型进行训练,得到具有与所述第一训练样本集同类型的内容生成能力的基础生成模型。
一种可能的实现方式中,所述基础训练单元用于获取多个不同类型的第一训练样本集,包括所述基础训练单元用于执行以下至少一项:
获取不同生成对象对应的多个第一训练样本集;所述生成对象包括图像、文本、音频、视频中的至少一种;
获取不同生成风格对应的多个第一训练样本集;所述生成风格包括图像风格、文本风格、音频风格、视频风格中的至少一种。
一种可能的实现方式中,所述模型融合单元用于以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,包括所述模型融合单元用于执行:
获取第二训练样本集;
以所述第二训练样本集为输入数据,分别获取每个所述基础生成模型输出的第一生成内容;
以所述第二训练样本集为输入数据,获取所述初始融合模型输出的特征图谱;
以所述特征图谱为输入数据,分别获取每个所述适配模块输出的第二生成内容;
根据所述第一生成内容和第二生成内容对每个所述适配模块进行参数更新。
一种可能的实现方式中,所述基础生成模型为扩散模型;
所述初始融合模型和所述基础生成模型的模型结构相同或部分相同。
第四方面,本说明书一个或多个实施例还提供了一种内容生成装置,包括:
获取单元,用于获取目标提示信息;
生成单元,用于将所述目标提示信息输入目标模型群,得到与所述目标提示信息对应的目标内容;其中,所述目标模型群包括根据上述第一方面所述的方法得到的融合生成模型。
一种可能的实现方式中,所述装置还包括:
配置单元,用于根据所述融合生成模型和多个基础生成模型配置所述目标模型群;
其中,所述融合生成模型为根据上述第一方面所述的方法,通过所述多个基础生成模型优化得到的。
一种可能的实现方式中,所述配置单元用于根据所述融合生成模型和多个基础生成模型配置所述目标模型群,包括所述配置单元用于执行:
确定所述融合生成模型对每个基础生成模型的拟合分数;所述拟合分数表示所述融合生成模型对所述基础生成模型的拟合能力;
确定所述目标模型群待配置的模型数量K;
若待配置的模型数量K=1,则将所述融合生成模型配置于所述目标模型群;
若待配置的模型数量K>1,则将所述融合生成模型和K-1个拟合分数最小的基础生成模型配置于所述目标模型群。
一种可能的实现方式中,所述配置单元用于确定所述融合生成模型对每个基础生成模型的拟合分数,包括所述配置单元用于执行:
将预设提示信息输入所述融合生成模型,得到第一输出内容;
将所述预设提示信息分别输入各个所述基础生成模型,得到多个第二输出内容;
计算每个所述第二输出内容与所述第一输出内容的平均余弦相似度,并将所述平均余弦相似度作为所述融合生成模型对相应的基础生成模型的拟合分数。
第五方面,本说明书一个或多个实施例还提供了一种电子设备,该电子设备包括存储器和处理器;所述存储器用于存储计算机程序产品;所述处理器用于执行所述存储器中存储的计算机程序产品,且所述计算机程序产品被执行时,实现上述第一方面或第二方面的方法。
第六方面,本说明书一个或多个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,该计算机程序指令被执行时,实现上述第一方面或第二方面的方法。
综上,本说明书一个或多个实施例提供了一种内容生成模型优化方法、内容生成方法及相关装置,该内容生成模型优化方法通过模型蒸馏的方式,将多个不同的基础生成模型的能力汇总到一个模型中,即最终得到融合生成模型,该融合生成模型可以代替多个基础生成模型,生成不同类型的内容,即满足多样化的内容生成需求,又极大的压缩了模型所占用的存储资源和计算资源,降低了对相关硬件设备的配置需求,扩展了模型的应用场景。
其次,该内容生成模型优化方法还通过随机交换方式对基础生成模型中的一个或多个层与其他模型进行交换,以增强不同的基础生成模型之间的关联性,进而降低后续模型蒸馏的难度。
再次,该内容生成模型优化方法实现了多模型联合蒸馏,在此过程中,通过不同的适配模块来学习不同的基础生成模型的能力,只需要对各个适配模块的参数进行调节更新,作为融合生成模型的共享部分的初始融合模型中的参数可以是固定的,从而减少蒸馏过程中需要调节的参数的数量,提高蒸馏效率。
另外,本说明书实施例提供的内容生成方法,利用上述内容生成模型优化方法得到的融合生成模型,可以对用户输入的任意目标提示信息,生成多种不同类型的目标内容,与使用上述多个基础生成模型生成多种不同类型的目标内容的效果相同或相似,既可以保证目标内容的质量和多样化,又减少了模型所占用的存储资源及计算资源。此外,为进一步保证内容生成质量,该内容生成方法,还结合相关设备或平台的存储空间所能容纳的模型数量,选择融合生成模型拟合能力最差的一个或多个基础生成模型,与该融合生成模型共同配置在该设备或平台中,在输出内容时,可以优先输出由基础生成模型生成的质量更高的内容,舍弃融合生成模型生成的同类型的内容,从而保证对用户所请求的每种类型内容的生成质量。
附图说明
为了更清楚地说明本说明书一个或多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种内容生成模型优化方法的流程图;
图2为本说明书一个或多个实施例提供的一种内容生成方法的流程图;
图3为本说明书一个或多个实施例提供的内容生成模型优化方法中训练基础生成模型的原理示意图;
图4为本说明书一个或多个实施例提供的内容生成模型优化方法中基于多个基础生成模型进行蒸馏训练的原理示意图;
图5为本说明书一个或多个实施例提供的一种内容生成模型优化装置的结构框图;
图6为本说明书一个或多个实施例提供的一种内容生成装置的结构框图;
图7为本说明书一个或多个实施例提供的一种电子设备的结构框图。
具体实施方式
下面通过附图和实施例对本说明书一个或多个实施例进一步详细说明。通过这些说明,本说明书一个或多个实施例的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
此外,下面所描述的本说明书一个或多个实施例不同实施方式中涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为了便于理解,下面先对本说明书一个或多个实施例提供的技术方案的应用场景进行说明。
生成式人工智能(AI-Generated Content,AIGC)是人工智能技术发展过程中一个重要的里程碑。AIGC模型通过对已有数据的学习和识别,可以以一定的泛化能力生成具有创意和高质量的内容,更具体的说,AIGC模型可以根据输入的条件或指导信息,可以生成与之相关的图像、文章、音频、视频等内容。但AIGC模型消耗的计算资源相较于传统人工智能算法要高数十倍;另外,相关平台或应用往往需要部署数十个具有不同能量的模型,形成模型群,以提供多样化的服务,这更加剧了资源消耗。
相关技术中,通过模型剪枝将资源消耗大的大型模型修剪为满足终端设备或小型服务器使用条件的轻量级模型,但剪枝后的轻量级模型的内容生成质量受到严重影响;虽然可以利用剪枝前的原始模型对剪枝后的轻量级模型进行蒸馏,以提升轻量级模型的性能,但仍与剪枝前的大型模型的内容生成质量存在显著差距。因此,相关技术中的剪枝方法是在牺牲内容生成质量的条件下实现对模型的压缩。
有鉴于此,本说明书实施例提供了新的方案,可以在保证内容生成质量的前提下对大型模型进行压缩,得到对计算资源要求更低的轻量级模型。
下面对本说明书一个或多个实施例提供的具体实现方案进行详细介绍。
图1为本说明书一个实施例提供的内容生成模型优化方法的流程图。
参照图1,该方法包括以下步骤:
步骤102,根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型;
通过不同的训练样本集,可以训练得到具有不同能力的基础生成模型,例如,可能生成漫画风格图像的基础生成模块T1、可以生成油画风格图像的基础生成模型T2等等。以同样的提示信息作为输入条件,通过具有不同能力的基础生成模型可以生成不同类型的内容。
步骤104,根据所述基础生成模型确定初始融合模型和嵌入所述初始融合模型并与所述基础生成模型一一对应的多个适配模块;
步骤106,以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,以使所述适配模块一一对应学习所述基础生成模型的内容生成能力,直至所述初始融合模型收敛,得到融合生成模型。
一种可能的实现方式中,初始融合模型可以采用与基础生成模型完全相同或者部分相同的结构。
初始融合模型中可以包含多个基础生成模型中相同或相似的公共层,即共享网络或共享层(Shared Layer)。上述适配模块(Adapter)可以随时嵌入初始融合模型中,或者从初始融合模型中移除,根据实际应用场景确定适配模块在初始融合模型中的嵌入位置;或者也可以选择初始融合模型中的一个或多个功能层并改造为适配模块。适配模块可以视为用于实现特定能力的任务特定层(Task-Specific Layer),与基础生成模型一一对应,通过上述步骤106所述的蒸馏训练,每个适配模块可以学习到一个基础生成模型的能力,或者说通过蒸馏训练可以将基础生成模型的知识一一对应的迁移到适配模块中。
例如,通过步骤106所述的蒸馏训练过程,可以使适配模块M1学习到上述基础生成模型T1生成漫画风格图像的能力,使适配模块M2学习到上述基础生成模型T2生成油画风格图像的能力;这样,初始融合模型嵌入训练后的M1、M2等适配模块即为最终得到的融合生成模型,对于用户输入的任意提示信息P,该融合生成模型可以基于适配模块M1生成相应的漫画风格图像,还可以基于适配模块M2生成相应的油画风格图像。
由以上阐述可知,本说明书实施例通过对多个具有不同能力的基础生成模型进行联合蒸馏,最终得到的融合生成模型相当于融合了多个基础生成模型的能力,但又不需要这些基础生成模型本身,而是通过可以嵌入模型中的轻量级的适配模块来满足不同类型的内容生成需求,既可以保证对不同类型内容的生成能力和生成质量,又可以大大压缩模型的体积,减少模型的资源消耗,增加模型的应用范围,即本实施例得到的融合生成模型不仅可以用于高配置的服务器集群等应用场景,也可以用于低配置的终端设备或小型服务器等场景。
一种可能的实现方式中,上述步骤102所述的根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型,具体可以包括:
步骤1022,获取多个不同类型的第一训练样本集;
步骤1024,分别通过每个所述第一训练样本集对预设模型进行训练,得到具有与所述第一训练样本集同类型的内容生成能力的基础生成模型。
可选的,上述步骤1022获取多个不同类型的第一训练样本集可以是获取不同生成对象对应的多个第一训练样本集;其中,所述生成对象包括图像、文本、音频、视频中的至少一种。即,
例如,根据图像类型的训练样本集A可以训练得到用于生成图像内容的基础生成模型、根据文本类型的训练样本集B可以训练得到用于生成文字或文章内容的基础生成模型、根据音频类型的训练样本集C可以训练得到用于生成音频内容的基础生成模型、根据视频类型的训练样板集D可以训练得到用于生成视频内容的基础生成模型等等。
可选的,对于上述任一种生成对象,上述步骤1022获取多个不同类型的第一训练样本集也可以是获取不同生成风格对应的多个第一训练样本集;所述生成风格包括图像风格、文字风格、音频风格、视频风格中的至少一种。
例如,不同的图像风格的训练样本集可以包括漫画风格的训练样本集A1、油画风格的训练样本集A2、水墨画风格的训练样本集A3等,或者写实派风格的训练样本集A4、印象派风格的训练样本集A5等;不同的文本风格可以包括散文风格的训练样本集B1、小说风格的训练样本集B2等,或者婉约派风格的训练样本集B3、豪放派风格的训练样本集B4等。
实际应用中,可以从不同维度、不同粒度来划分生成内容的类型,并针对不同的类型分别获取相应的训练样本集,以训练得到可以生成相应类型内容的基础生成模型。
例如,一个训练样本集A1中的多组训练样本可以是漫画风格图像及其对应的提示信息,通过该训练样本集A1训练得到基础生成模型T1,则该模型T1的能力为:根据用户当前输入的提示信息,如“一只猫”,生成漫画风格的猫的图像;而另一个训练样本集A2中的多组训练样本可以是油画风格图像及其对应的提示信息,通过该训练样本集A2训练得到基础生成模型T2,则该模型T2的能力为:根据同样的提示信息“一只猫”,生成油画风格的猫的图像。
因此,通过不同类型的训练样本集可以训练得到具有不同能力(即可以生成不同类型的内容)的基础生成模型,不仅可以保证该模型对相应类型内容的生成质量,进而保证最终得到的融合生成模型对各个类型的内容的生成质量,还可以满足多样化的内容生成需求。
一种可能的实现方式中,本说明书实施例提供的内容生成模型优化方法,还可以包括:
步骤108,在训练得到多个基础生成模型后、蒸馏训练之前,将至少一个所述基础生成模型中的至少一个功能层随机替换为其他所述基础生成模型的功能层。
如图3所示的基础生成模型训练过程的原理示意图,通过步骤102基于n个第一训练样本集,以A1、A2……An为例,训练得到n个基础生成模型(其中n≥2),可以记为T1’~Tn’,对于其中任一个基础生成模型Ti’,其中i∈[1,n],可以从其他n-1个基础生成模型中随机选择一个或一个以上模型Tj’,其中,j∈[1,n]且j≠i,将Ti’和Tj’中的一对或多对功能层或功能模块进行交换(Swap),交换后的基础生成模型相应记为Ti、Tj;其中,Ti相对于Ti’、Tj相对于Tj’,仅部分功能层发生改变,所能生成的内容类型不变。例如,可以将基础生成模型T1’和T2’中功能相似的一对代码层进行交换,同时,还可以将T1’和T3’中功能相似的另一对代码层进行交换,最终交换完成后得到T1、T2和T3等。
通过不同的训练样本得到的多个基础生成模型之间是相互独立的,这样会使后续蒸馏融合过程难度较大;有鉴于此,本申请实施例通过对多个基础生成模型的功能层进行随机交换,可以提高不同的基础生成模型之间的关联性,从而降低后续蒸馏融合过程(即步骤106)的难度,提高模型训练效率。
一种可能的实现方式中,本说明书实施例上述步骤1024中待训练的预设模型可以只有一个,即通过不同的第一训练样本集分别对同一个预设模型进行训练,得到不同的基础生成模型;另一种可能的实现方式中,待训练的预设模型也可以是多个结构相似的不同模型,针对每个第一训练样本集,可以指定或随机选择其中一个预设模型作为训练对象,并训练得到相应的基础生成模型。
本说明书实施例中,基于相同或结构相似的预设模型进行训练,可以使得到的各个基础生成模型的结构也是相似的,使不同的基础生成模型之间具有一定的关联性,同时也便于模型之间功能层的随机交换(即步骤108),保证随机交换操作的有效性,避免交换后的模型变形或性能严重下降。
一种可能的实现方式中,上述预设模型可以采用扩散模型,相应的,训练得到的基础生成模型也为扩散模型;训练过程中,可以根据预先设定的扩散损失函数来调节模型参数,直至模型收敛。
另外,在预设模型为扩散模型的情况下,在模型训练过程中,作为模型输入的除了训练样本集中的提示信息外,还可以包括随机噪声;根据扩散模型的工作原理,该随机噪声可以作为扩散模型的前向扩散过程的终点,以及反向生成过程的起点。
一种可能的实现方式中,步骤106中所述的蒸馏训练过程,具体可以包括以下步骤:
步骤1060,获取第二训练样本集;
步骤1062,以所述第二训练样本集为输入数据,分别获取每个所述基础生成模型输出的第一生成内容;
上述第二训练样本集中可以包括多个提示信息P1、P2、P3等等,对于任一提示信息,将其分别输入n个基础生成模型T1~Tn,可以得到n个第一生成内容。
如前文所述,不同基础生成模型输出的第一生成内容可以是图像、文本、音频、视频等不同对象,或者不同风格的同种对象。
另外,当基础生成模型为扩散模型时,还可以将随机噪声与提示信息一并作为输入数据,输入各个基础生成模型。
步骤1064,以所述第二训练样本集为输入数据,获取所述初始融合模型输出的特征图谱;
步骤1066,以所述特征图谱为输入数据,分别获取每个所述适配模块输出的第二生成内容;
上述第二训练样本集中的各个提示信息P1、P2、P3等分别输入初始融合模型,基于该初始融合模型中的共享层可以对输入的提示信息进行一些基础操作,如对于图像信息可以进行图像分割、对于文本信息可以进行语义分析等操作;通过一系列基础操作,可以提取出提示信息的特征,得到各个提示信息对应的特征图谱。然后,将特征图谱再分别输入各个适配模块,由于不同的适配模块的参数不同,对同一特征图谱中不同特征的关注度也不同,或者说对不同特征所分配的权重不同,故可以得到不同的第二生成内容。
步骤1068,根据所述第一生成内容和第二生成内容对每个所述适配模块进行参数更新。
参照图4所示的蒸馏过程示意图,以第二训练样本集中的一个样本,即提示信息P1为例,一方面,将P1分别输入基础生成模型T1~Tn,可以得到n个第一生成内容S1-1、S1-2……S1-n;另一方面,将P1输入初始融合模型,得到其特征图谱,将该特征图谱分别输入与基础生成模型T1~Tn一一对应的适配模块M1~Mn,可以得到n个第二生成内容S2-1、S2-2……S2-n。
由于上述步骤的训练目的是使适配模块学习相应的基础生成模型的内容生成能力,因此训练完成时,相对应的基础生成模型和适配模型,如T1和M1、T2和M2、T3和M3等等,所输出的第一生成内容和第二生成内容,如S1-1和S2-1、S1-2和S2-2、S1-3和S2-3等等,应当是相同的或差异稳定在一定范围内。
有鉴于此,根据基于P1得到的n对第一生成内容和第二生成内容之间的差异对相应的适配模块的参数进行调节、更新(如根据S1-1和S2-1对M1进行参数更新、根据S1-2和S2-2对M2进行参数更新)。对于更新后的各个适配模块,继续基于另一个训练样本,如P2,重复执行上述步骤1060~步骤1066,再次得到一一对应的n个第一生成内容和n个第二生成内容,然后在步骤1068中对适配模块M1~Mn中的参数在此进行更新。
依此类推,基于第二训练样本集中的每个训练样本,重复执行上述步骤1060~步骤1068,实现对n个适配模块的迭代更新,使得其输出的第二生成内容与对应的基础生成模型输出的第二生成内容之间的差异逐渐减小,直至收敛,适配模块的性能稳定,即训练完成。训练完成后的n个适配模块和初始融合模型构成兼具n个基础生成模型的内容生成能力的融合生成模型。
本说明书实施例中,基于多个基础生成模型通过蒸馏训练得到融合生成模型的过程,仅需要更新适配模块的参数,而初始融合模型作为融合生成模型的共享部分,其参数可以是固定的,从而大大减少需要调节的参数数量,简化训练过程,提高融合训练效率。
其中,第一生成内容和第二生成内容之间的差异可以利用损失函数来表示,如图4所示。对于上述步骤1060~步骤1068所述的蒸馏训练过程,损失函数可以包括蒸馏损失函数;另外,若基础生成模块为扩散模块,上述蒸馏训练过程的损失函数还可以包括扩散损失函数。
综上所述,本说明书实施例提供的内容生成模型优化方法,通过模型蒸馏的方式,将多个不同的基础生成模型的能力汇总到一个模型中,即最终得到融合生成模型,该融合生成模型可以代替多个基础生成模型,生成不同类型的内容,即满足多样化的内容生成需求,又极大的压缩了模型所占用的存储资源和计算资源,降低了对相关硬件设备的配置需求,扩展了模型的应用场景。其次,本实施例还通过随机交换方式对基础生成模型中的一个或多个层与其他模型进行交换,以增强不同的基础生成模型之间的关联性,进而降低后续模型蒸馏的难度。另外,本实施例实现了多模型联合蒸馏,在此过程中,通过不同的适配模块来学习不同的基础生成模型的能力,只需要对各个适配模块的参数进行调节更新,作为融合生成模型的共享部分的初始融合模型中的参数可以是固定的,从而减少蒸馏过程中需要调节的参数的数量,提高蒸馏效率。
基于同一发明构思,本说明书一个或多个实施例还提供了一种内容生成方法。该内容生成方法基于上述内容生成模型优化方法得到的融合生成模型进行内容生成。图2为本说明书一个或多个实施例提供的内容生成方法的流程图。参见图2,该方法包括:
步骤202,获取目标提示信息;
步骤204,将所述目标提示信息输入目标模型群,得到与所述目标提示信息对应的目标内容。
其中,所述目标模型群包括根据前文任一实施例所述的内容生成模型优化方法得到的融合生成模型。
由前文实施例所述的内容生成模型优化方法可知,融合生成模型中融合了多个不同的基础生成模型的内容生成能力,因此,对于同样的目标提示信息,目标模型群中的融合生成模型可以生成任意一种或多种不同的目标内容,满足不同目标应用场景中多样化的内容生成需求;同时,相对于配置多个基础生成模型,相关应用场景中可以仅配置上述融合生成模型,即可提供同样多样化的服务,因此,本实施例所述的内容生成方法对相关服务设备或服务平台的存储需求、计算需求等配置要求更低,可以广泛使用于多种不同规模的应用场景。
根据前文实施例可知,融合生成模型中通过多个不同的适配模块来学习到不同的基础生成模型的内容生成能力。而实际应用中,学习效果可能不是百分百的,也就是说,输入同样的提示信息,由融合生成模型中适配模块生成的内容,与通过相应的基础生成模型生成的内容之间可能还是存在一定程度的差异,这可以称为融合生成模型对基础生成模型的拟合能力。融合生成模型对不同的基础生成模型的拟合能力可能是不同的;对于同样的输入信息,融合生成模型生成的内容与基础生成模型生成的内容之间的差异越小,则融合生成模型对该基础生成模型的拟合能力越强。因此,如果得到的融合生成模型对某一个或某几个的基础生成模型的拟合能力较差,则应用该融合生成模型生成相应类型的内容的质量也较低。
有鉴于此,一种可能的实现方式中,为保证对每个不同类型的内容的生成质量,上述内容生成方法还可以包括:
步骤206,根据所述融合生成模型和多个基础生成模型配置所述目标模型群;
其中,所述融合生成模型为根据前文任一实施例所述的内容生成模型优化方法,通过所述多个基础生成模型优化得到的。
本说明书实施例中,目标模型群中除了配置融合生成模型外,还可以根据实际应用需求选择配置得到该融合生成模型所依据的多个基础生成模型中的一个或多个。
一种可能的实现方式中,可以基于融合生成模型对各个基础生成模型的拟合能力来配置目标模型群。
例如,融合生成模型对大多数的基础生成模型的拟合能力都较高,可以满足应用需求,但对基础生成模型T1的拟合能力较差,则可以在目标模型群中同时配置该融合生成模型和基础生成模型T1,从而在需要生成与T1对应的内容时,可以将质量更高的T1生成的内容输出给用户。
可选的,可以根据应用场景对内容质量的要求,来确定拟合能力阈值,然后在目标模型群中,不仅配置该融合生成模型,还配置对应的拟合能力在该阈值之下的一个或多个基础生成模型,从而保证目标模型群对不同类型的内容都具有较高的生成质量。
一种可能的实现方式中,还可以综合考虑拟合能力和应用场景的存储空间来对目标模型群进行配置。上述步骤206具体可以包括:
步骤2062,确定所述融合生成模型对每个基础生成模型的拟合分数;所述拟合分数表示所述融合生成模型对所述基础生成模型的拟合能力;
步骤2064,确定所述目标模型群待配置的模型数量K;
可选的,根据应用场景的可用存储空间,可以确定最多可以存储几个模型,从而确定目标模型群中待配置的模型数量K。可以理解的是,本实施例所确定的模型数量K可以等于或小于实际应用场景中可存储的模型数量最大值;即,假设应用场景中最多可存储5个模型,则K可以设置为5,也可以设置为更小的4、3等数值。
步骤2066,若待配置的模型数量K=1,则将所述融合生成模型配置于所述目标模型群;
步骤2068,若待配置的模型数量K>1,则将所述融合生成模型和K-1个拟合分数最小的基础生成模型配置于所述目标模型群。
例如,假设K=5,则目标模型群中除了配置融合生成模型外,还可以选择对应的拟合能力最差的4个基础生成模型,也配置于目标模型群中,从而弥补该融合生成模型对相应四种类型的内容的生成质量,保障整个目标模型群对每种类型内容的生成质量。
一种可能的实现方式中,用于表征融合生成模型对基础生成模型的拟合能力的拟合分数,具体可以采用平均余弦相似度;相应的,上述步骤2062中确定所述融合生成模型对每个基础生成模型的拟合分数,具体可以包括:
步骤20622,将预设提示信息输入所述融合生成模型,得到第一输出内容;
步骤20624,将所述预设提示信息分别输入各个所述基础生成模型,得到多个第二输出内容;
步骤20626,计算每个所述第二输出内容与所述第一输出内容的平均余弦相似度;
步骤20628,将所述平均余弦相似度作为所述融合生成模型对相应的基础生成模型的拟合分数。
例如,通过计算得知,融合生成模型得到的第一输出内容和基础生成模型T1得到的第二输出内容的平均余弦相似度为sn1,即融合生成模型对T1的拟合分数记为sn1;同理,可以计算得到融合生成模型对基础生成模型T2的拟合分数为sn2、对T3的拟合分数为sn3……对各个拟合分数sn1、sn2、sn3等进行排序,即可得知最小的K-1个拟合分数;这K-1个最小拟合分数对应的基础生成模型即可与融合生成模型共同配置于目标模型群中。
一种可能的实现方式中,可以随机确定多个预设提示信息,重复上述步骤20622~20626,则可以得到同一个基础生成模型对应的多个平均余弦相似度,然后根据这多个平均余弦相似度综合确定该基础生成模型对应的拟合分数。
例如,可以对同一基础生成模型对应的多个平均余弦相似度进行综合计算,如计算平均值、中间值等,将综合计算得到的结果作为该基础生成模型对应的拟合分数。
基于多个预设提示信息,本实施例可以更准确的评估融合生成模型对各个基础生成模型的拟合能力,避免由单个预设提示信息计算拟合分数导致的偶然误差。
可以理解的是,上述实施例仅为示例,实际实施时可以对上述实施例进行变形,本领域技术人员可以理解,上述实施例不用付出创造性劳动的变形方法均落入本说明书一个或多个实施例的保护范围,实施例中不再赘述。
基于同一发明构思,本说明书一个或多个实施例还提供了一种内容生成模型优化装置,由于该装置所解决问题的原理与前述内容生成模型优化方法实施例相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
图5为本说明书一个或多个实施例提供的一种内容生成模型优化装置的结构框图。如图5所示,该内容生成模型优化装置300可以包括:
基础训练单元301,用于根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型;
模型构造单元302,用于根据所述基础生成模型确定初始融合模型和嵌入所述初始融合模型并与所述基础生成模型一一对应的多个适配模块;
模型融合单元303,用于以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,以使所述适配模块一一对应学习所述基础生成模型的内容生成能力,直至所述初始融合模型收敛,得到融合生成模型。
一种可能的实现方式中,该内容生成模型优化装置300还包括:
随机交换单元304,用于将至少一个所述基础生成模型中的至少一个功能层随机替换为其他所述基础生成模型的功能层。
一种可能的实现方式中,基础训练单元301用于根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型,包括:
所述基础训练单元301用于,获取多个不同类型的第一训练样本集,并分别通过每个所述第一训练样本集对预设模型进行训练,得到具有与所述第一训练样本集同类型的内容生成能力的基础生成模型。
一种可能的实现方式中,所述基础训练单元301用于获取多个不同类型的第一训练样本集,包括所述基础训练单元301用于执行以下至少一项:
获取不同生成对象对应的多个第一训练样本集;所述生成对象包括图像、文本、音频、视频中的至少一种;
获取不同生成风格对应的多个第一训练样本集;所述生成风格包括图像风格、文本风格、音频风格、视频风格中的至少一种。
一种可能的实现方式中,所述模型融合单元303用于以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,包括所述模型融合单元303用于执行以下操作:
获取第二训练样本集;
以所述第二训练样本集为输入数据,分别获取每个所述基础生成模型输出的第一生成内容;
以所述第二训练样本集为输入数据,获取所述初始融合模型输出的特征图谱;
以所述特征图谱为输入数据,分别获取每个所述适配模块输出的第二生成内容;
根据所述第一生成内容和第二生成内容对每个所述适配模块进行参数更新。
一种可能的实现方式中,所述基础生成模型为扩散模型;所述初始融合模型和所述基础生成模型的模型结构相同或部分相同。
基于同一发明构思,本说明书一个或多个实施例还提供了一种内容生成装置,由于该装置所解决问题的原理与前述内容生成方法实施例相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
图6为本说明书一个或多个实施例提供的一种内容生成装置的结构框图。如图6所示,该内容生成装置400可以包括:
获取单元401,用于获取目标提示信息;
生成单元402,用于将所述目标提示信息输入目标模型群,得到与所述目标提示信息对应的目标内容;其中,所述目标模型群包括根据权利要求1~6中任一项所述的方法得到的融合生成模型。
一种可能的实现方式中,该内容生成装置400还包括:
配置单元403,用于根据所述融合生成模型和多个基础生成模型配置所述目标模型群;
其中,所述融合生成模型为根据前文任一实施例所述的内容生成模型优化方法,通过所述多个基础生成模型优化得到的。
一种可能的实现方式中,所述配置单元403用于根据所述融合生成模型和多个基础生成模型配置所述目标模型群,包括所述配置单元403用于执行以下操作:
确定所述融合生成模型对每个基础生成模型的拟合分数;所述拟合分数表示所述融合生成模型对所述基础生成模型的拟合能力;
确定所述目标模型群待配置的模型数量K;
若待配置的模型数量K=1,则将所述融合生成模型配置于所述目标模型群;
若待配置的模型数量K>1,则将所述融合生成模型和K-1个拟合分数最小的基础生成模型配置于所述目标模型群。
一种可能的实现方式中,所述配置单元403用于确定所述融合生成模型对每个基础生成模型的拟合分数,包括所述配置单元403用于执行以下操作:
将预设提示信息输入所述融合生成模型,得到第一输出内容;
将所述预设提示信息分别输入各个所述基础生成模型,得到多个第二输出内容;
计算每个所述第二输出内容与所述第一输出内容的平均余弦相似度,并将所述平均余弦相似度作为所述融合生成模型对相应的基础生成模型的拟合分数。
参见图7,图7为本说明书一个或多个实施例提供的一种电子设备的结构框图。如图7所示,该电子设备900可以包括处理器901和存储器902;存储器902可以耦合到处理器901中。值得注意的是,该图7是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。可选的,该电子设备900可以是服务器。
一种可能的实现方式中,上述内容生成模型优化装置300的功能可以被集成到处理器901中。其中,处理器901可以被配置为执行如下操作:
根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型;
根据所述基础生成模型确定初始融合模型和嵌入所述初始融合模型并与所述基础生成模型一一对应的多个适配模块;
以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,以使所述适配模块一一对应学习所述基础生成模型的内容生成能力,直至所述初始融合模型收敛,得到融合生成模型。
在另一种可能的实现方式中,内容生成模型优化装置300可以与处理器901分开配置,例如可以将内容生成模型优化装置300配置为与处理器901连接的芯片,通过处理器901的控制来实现前文实施例所述的内容生成模型优化方法。
一种可能的实现方式中,上述内容生成装置400的功能可以被集成到处理器901中。其中,处理器901可以被配置为执行如下操作:
获取目标提示信息;
将所述目标提示信息输入目标模型群,得到与所述目标提示信息对应的目标内容;其中,所述目标模型群包括根据权利要求1~6中任一项所述的方法得到的融合生成模型。
在另一种可能的实现方式中,内容生成装置400可以与处理器901分开配置,例如可以将内容生成装置400配置为与处理器901连接的芯片,通过处理器901的控制来实现前文实施例所述的内容生成方法。
此外,在一些可选的实现方式中,该电子设备900还可以包括:通信模块、输入单元、音频处理器、显示器、电源等。值得注意的是,电子设备900也并不是必须要包括图7中所示的所有部件;此外,电子设备900还可以包括图7中没有示出的部件,可以参考现有技术。
在一些可选的实现方式中,处理器901有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器901接收输入并控制电子设备900的各个部件的操作。
其中,存储器902,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与数据提供装置300或数据消费装置400有关的信息,此外还可存储执行有关信息的程序。并且处理器901可执行该存储器902存储的该程序,以实现信息存储或处理等。
输入单元可以向处理器901提供输入。该输入单元例如为按键或触摸输入装置。电源可以用于向电子设备900提供电力。显示器可以用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
存储器902可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器902还可以是某种其它类型的装置。存储器902包括缓冲存储器(有时被称为缓冲器)。存储器902可以包括应用/功能存储部,该应用/功能存储部用于存储应用程序和功能程序或用于通过处理器901执行电子设备900的操作的流程。
存储器902还可以包括数据存储部,该数据存储部用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器902的驱动程序存储部可以包括计算机设备的用于通信功能和/或用于执行计算机设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器901,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一计算机设备中,可以设置有多个通信模块,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风,以经由扬声器提供音频输出,并接收来自麦克风的音频输入,从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器还耦合到处理器901,从而使得可以通过麦克风能够在本机上录音,且使得可以通过扬声器来播放本机上存储的声音。
本说明书一个或多个实施例还提供能够实现上述实施例中的内容生成模型优化方法或内容生成方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的内容生成模型优化方法或内容生成方法的全部步骤。具体步骤可参见前文实施例所述,此处不再赘述。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域技术人员应明白,本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本说明书一个或多个实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。本领域的普通技术人员而言,可以根据具体情况理解上述术语在本说明书一个或多个实施例中的具体含义。
需要说明的是,在不冲突的情况下,本说明书一个或多个实施例及实施例中的特征可以相互组合。本说明书一个或多个实施例并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本说明书一个或多个实施例的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本说明书一个或多个实施例的技术方案,而非对其限制;尽管参照前述各实施例对本说明书一个或多个实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本说明书一个或多个实施例技术方案的范围,其均应涵盖在本说明书一个或多个实施例的权利要求和说明书的范围当中。
Claims (22)
1.一种内容生成模型优化方法,其特征在于,包括:
根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型;
根据所述基础生成模型确定初始融合模型和嵌入所述初始融合模型并与所述基础生成模型一一对应的多个适配模块;
以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,以使所述适配模块一一对应学习所述基础生成模型的内容生成能力,直至所述初始融合模型收敛,得到融合生成模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
将至少一个所述基础生成模型中的至少一个功能层随机替换为其他所述基础生成模型的功能层。
3.根据权利要求1所述的方法,其特征在于,所述根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型,包括:
获取多个不同类型的第一训练样本集;
分别通过每个所述第一训练样本集对预设模型进行训练,得到具有与所述第一训练样本集同类型的内容生成能力的基础生成模型。
4.根据权利要求3所述的方法,其特征在于,所述获取多个不同类型的第一训练样本集,包括以下至少一项:
获取不同生成对象对应的多个第一训练样本集;所述生成对象包括图像、文本、音频、视频中的至少一种;
获取不同生成风格对应的多个第一训练样本集;所述生成风格包括图像风格、文本风格、音频风格、视频风格中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述蒸馏训练包括:
获取第二训练样本集;
以所述第二训练样本集为输入数据,分别获取每个所述基础生成模型输出的第一生成内容;
以所述第二训练样本集为输入数据,获取所述初始融合模型输出的特征图谱;
以所述特征图谱为输入数据,分别获取每个所述适配模块输出的第二生成内容;
根据所述第一生成内容和第二生成内容对每个所述适配模块进行参数更新。
6.根据权利要求1所述的方法,其特征在于,所述基础生成模型为扩散模型;
所述初始融合模型和所述基础生成模型的模型结构相同或部分相同。
7.一种内容生成方法,其特征在于,包括:
获取目标提示信息;
将所述目标提示信息输入目标模型群,得到与所述目标提示信息对应的目标内容;其中,所述目标模型群包括根据权利要求1~6中任一项所述的方法得到的融合生成模型。
8.根据权利要求7所述的方法,其特征在于,还包括:
根据所述融合生成模型和多个基础生成模型配置所述目标模型群;
其中,所述融合生成模型为根据权利要求1~6中任一项所述的方法,通过所述多个基础生成模型优化得到的。
9.根据权利要求8所述的方法,其特征在于,所述根据所述融合生成模型和多个基础生成模型配置所述目标模型群,包括:
确定所述融合生成模型对每个基础生成模型的拟合分数;所述拟合分数表示所述融合生成模型对所述基础生成模型的拟合能力;
确定所述目标模型群待配置的模型数量K;
若待配置的模型数量K=1,则将所述融合生成模型配置于所述目标模型群;
若待配置的模型数量K>1,则将所述融合生成模型和K-1个拟合分数最小的基础生成模型配置于所述目标模型群。
10.根据权利要求9所述的方法,其特征在于,所述确定所述融合生成模型对每个基础生成模型的拟合分数,包括:
将预设提示信息输入所述融合生成模型,得到第一输出内容;
将所述预设提示信息分别输入各个所述基础生成模型,得到多个第二输出内容;
计算每个所述第二输出内容与所述第一输出内容的平均余弦相似度,并将所述平均余弦相似度作为所述融合生成模型对相应的基础生成模型的拟合分数。
11.一种内容生成模型优化装置,其特征在于,包括:
基础训练单元,用于根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型;
模型构造单元,用于根据所述基础生成模型确定初始融合模型和嵌入所述初始融合模型并与所述基础生成模型一一对应的多个适配模块;
模型融合单元,用于以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,以使所述适配模块一一对应学习所述基础生成模型的内容生成能力,直至所述初始融合模型收敛,得到融合生成模型。
12.根据权利要求11所述的装置,其特征在于,还包括:
随机交换单元,用于将至少一个所述基础生成模型中的至少一个功能层随机替换为其他所述基础生成模型的功能层。
13.根据权利要求11所述的装置,其特征在于,所述基础训练单元用于根据多个第一训练样本集训练得到用于生成不同类型内容的多个基础生成模型,包括:
所述基础训练单元用于,获取多个不同类型的第一训练样本集,并分别通过每个所述第一训练样本集对预设模型进行训练,得到具有与所述第一训练样本集同类型的内容生成能力的基础生成模型。
14.根据权利要求13所述的装置,其特征在于,所述基础训练单元用于获取多个不同类型的第一训练样本集,包括所述基础训练单元用于执行以下至少一项:
获取不同生成对象对应的多个第一训练样本集;所述生成对象包括图像、文本、音频、视频中的至少一种;
获取不同生成风格对应的多个第一训练样本集;所述生成风格包括图像风格、文本风格、音频风格、视频风格中的至少一种。
15.根据权利要求11所述的装置,其特征在于,所述模型融合单元用于以所述多个基础生成模型为教师模型,所述初始融合模型为学生模型,进行蒸馏训练,包括所述模型融合单元用于执行:
获取第二训练样本集;
以所述第二训练样本集为输入数据,分别获取每个所述基础生成模型输出的第一生成内容;
以所述第二训练样本集为输入数据,获取所述初始融合模型输出的特征图谱;
以所述特征图谱为输入数据,分别获取每个所述适配模块输出的第二生成内容;
根据所述第一生成内容和第二生成内容对每个所述适配模块进行参数更新。
16.根据权利要求11所述的装置,其特征在于,所述基础生成模型为扩散模型;
所述初始融合模型和所述基础生成模型的模型结构相同或部分相同。
17.一种内容生成装置,其特征在于,包括:
获取单元,用于获取目标提示信息;
生成单元,用于将所述目标提示信息输入目标模型群,得到与所述目标提示信息对应的目标内容;其中,所述目标模型群包括根据权利要求1~6中任一项所述的方法得到的融合生成模型。
18.根据权利要求17所述的装置,其特征在于,还包括:
配置单元,用于根据所述融合生成模型和多个基础生成模型配置所述目标模型群;
其中,所述融合生成模型为根据权利要求1~6中任一项所述的方法,通过所述多个基础生成模型优化得到的。
19.根据权利要求18所述的装置,其特征在于,所述配置单元用于根据所述融合生成模型和多个基础生成模型配置所述目标模型群,包括所述配置单元用于执行:
确定所述融合生成模型对每个基础生成模型的拟合分数;所述拟合分数表示所述融合生成模型对所述基础生成模型的拟合能力;
确定所述目标模型群待配置的模型数量K;
若待配置的模型数量K=1,则将所述融合生成模型配置于所述目标模型群;
若待配置的模型数量K>1,则将所述融合生成模型和K-1个拟合分数最小的基础生成模型配置于所述目标模型群。
20.根据权利要求19所述的方法,其特征在于,所述配置单元用于确定所述融合生成模型对每个基础生成模型的拟合分数,包括所述配置单元用于执行:
将预设提示信息输入所述融合生成模型,得到第一输出内容;
将所述预设提示信息分别输入各个所述基础生成模型,得到多个第二输出内容;
计算每个所述第二输出内容与所述第一输出内容的平均余弦相似度,并将所述平均余弦相似度作为所述融合生成模型对相应的基础生成模型的拟合分数。
21.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机程序产品;
处理器,用于执行所述存储器中存储的计算机程序产品,且所述计算机程序产品被执行时,实现上述权利要求1~10中任意一项所述的方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被执行时,实现上述权利要求1~10中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311437538.4A CN117494791A (zh) | 2023-10-31 | 2023-10-31 | 内容生成模型优化方法、内容生成方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311437538.4A CN117494791A (zh) | 2023-10-31 | 2023-10-31 | 内容生成模型优化方法、内容生成方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117494791A true CN117494791A (zh) | 2024-02-02 |
Family
ID=89675628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311437538.4A Pending CN117494791A (zh) | 2023-10-31 | 2023-10-31 | 内容生成模型优化方法、内容生成方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117494791A (zh) |
-
2023
- 2023-10-31 CN CN202311437538.4A patent/CN117494791A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102295935B1 (ko) | 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법 | |
CN105719649B (zh) | 语音识别方法及装置 | |
CN102460423B (zh) | 使用重新识别和统计分类的识别 | |
US20200265315A1 (en) | Neural architecture search | |
CN108519998B (zh) | 基于知识图谱的问题引导方法及装置 | |
CN112185362A (zh) | 针对用户个性化服务的语音处理方法及装置 | |
KR20210065629A (ko) | 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법 | |
CN110442698B (zh) | 对话内容生成方法及系统 | |
CN104980396A (zh) | 一种用于社交网络的通信方法及系统 | |
CN117494791A (zh) | 内容生成模型优化方法、内容生成方法及相关装置 | |
CN111292171A (zh) | 金融理财产品推送方法及装置 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 | |
EP4322066A1 (en) | Method and apparatus for generating training data | |
CN114530073B (zh) | 基于虚拟现实的培训方法及装置 | |
CN112820302B (zh) | 声纹识别方法、装置、电子设备和可读存储介质 | |
CN108664890A (zh) | 一种矛盾协调方法、装置、机器人及存储介质 | |
CN112035162A (zh) | 配置文件批量修改方法及装置 | |
CN111368099B (zh) | 核心信息语义图谱生成方法及装置 | |
CN114237402B (zh) | 一种虚拟现实的空间移动控制系统及方法 | |
CN113140210B (zh) | 音频批改方法、装置、电子设备和存储介质 | |
CN117493882A (zh) | 内容生成模型训练方法、内容生成方法及相关装置 | |
CN118733730A (zh) | 问答方法、装置、相关设备及计算机程序产品 | |
CN116382903A (zh) | 大数据平台调度系统资源分配优化方法和装置 | |
CN117933387A (zh) | 对话数据生成方法、系统、模型训练方法、对话处理方法 | |
CN112183619A (zh) | 数字化模型融合方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |