CN116977794B

CN116977794B - 一种基于强化学习的数字人视频鉴别模型训练方法和系统

Info

Publication number: CN116977794B
Application number: CN202311089278.6A
Authority: CN
Inventors: 薛弘扬
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2024-04-02
Anticipated expiration: 2043-08-28
Also published as: CN116977794A

Abstract

本发明公开了一种基于强化学习的数字人视频鉴别模型训练方法和系统，属于人工智能技术领域。根据加噪行为类型定义动作空间及其各动作的取值索引，初始化含值网络和回放缓冲的强化学习模型；从正负样本集合中采样正负样本对，利用值网络得到待添加噪声并添加到样本对中，得到新正负样本对，利用鉴别模型获取新正负样本对添加噪声的回报值，构建四元组存入回放缓冲；当四元组数量达到阈值后，更新值网络，清空回放缓冲；利用值网络扰动正负样本集合得到新集合，合并新集合和原集合，重新训练鉴别模型；循环进行更新值网络和训练鉴别模型的过程，直至鉴别模型稳定。本发明促使鉴别模型学习噪声和视频语义的相关性，以此不断提升鉴别模型的能力。

Description

一种基于强化学习的数字人视频鉴别模型训练方法和系统

技术领域

本发明属于人工智能领域，尤其涉及一种基于强化学习的数字人视频鉴别模型训练方法和系统。

背景技术

随着深度学习和生成模型的逐渐发展和成熟，AIGC(人工智能内容生成)在文本生成、图像、视频生成方面发挥着越来越大的作用。如今，使用AI生成的数字人视频具备极高的真实度，可以以假乱真，让人无法分辨真伪。这种真实度极高的数字人技术可以应用于影视制作、新闻播报、智能人机交互等场合，大大解放生产力，但另一方面，也存在许多隐患：这种技术可能会被应用于欺诈等违法犯罪场景，从而影响社会的安定与秩序。因此，在生成模型发展之初，就有许多学者在研究对AI生成的内容进行甄别的手段。这些手段大致可以分为两种类型：针对生成模型已知的方法、和针对生成模型未知的方法。前者存在归纳偏置，往往只能对个别生成手段进行识别，后者显然比前者更难解决。为了实现更加通用的AI生成内容甄别，必须研究如何出更好的方法，能在生成模型未知，甚至存在许多不同生成技术的情况下，将模型生成的内容与真实内容区别开来。

有许多方法，着眼于如何识别AI生成的数字人视频。有些从分析音唇同步率入手，有些从视频帧之间的运动变化和运动模糊入手，有些则从视频中存在的噪音进行分析。随着数字人生成技术的不断提升，音唇同步率越来越高，到如今，已经几乎无法发现音唇不匹配的情况；基于原始视频素材的超写实2D数字人，也同时具备极其自然的视频帧间过渡，从视频帧之间的运动关系入手，也已经很难识别出AI生成的视频。目前最具备通用性的方法，反而是从背景噪声入手进行分析，由于真实摄像机的设备噪声，以及真实视频拍摄场地中各种电子设备、光学设备的噪声，会造成最终实际拍摄的视频中，存在一些符合自然规律的噪声。而数字人的合成视频，并没有引入这些设备噪声，因此它的噪声变化规律会和实际拍摄的真实视频有所不同。但这一类方法，也面临着越来越强的对抗手段，许多数字人生成方法也会往生成的视频中添加噪声，意图蒙混过关，因此急需一个能够快速提升数字人视频识别方法的手段。

现有的数字人视频鉴别方法，至少存在以下问题：

(1)数字人合成视频识别方法总是落后于生成方法，这是因为现有的方法依赖于大量的正负样本，其中正样本的收集需要采集大量的数字人合成视频数据。

(2)数字人合成视频识别方法的正样本难以获取。当数字人合成技术越来越强，人类也无法判断视频的真假，采用人工标注已经逐渐不再可行。同时由于识别模型已经落后于生成模型，也无法采用模型自动识别的方法将这些样本筛选出来。

(3)只从噪声入手的甄别方法终将不再有效。随着数字人合成视频识别方法的不断增强，数字人合成方法也会因着这些反馈不断进行增强，从而不断趋近更加真实的画面噪声和扰动。

(4)存在严重的误报现象。基于噪声分析的方法，虽然具备一定的通用性，但并没有真正学习到噪声和图像语义信息的关联性，因此在面对新设备拍摄的真实视频时，会存在严重的误报现象。

发明内容

为了解决上述问题，本发明提供了一种基于强化学习的数字人视频鉴别模型训练方法和系统，无需依赖数字人视频合成算法和大量正负样本，可通过现有的正负样本自动化并高效地产生新的样本，促使鉴别模型去学习噪声和视频语义的相关性，从而避免鉴别模型只依赖噪声分析进行工作，以此不断提升鉴别模型的能力，突破原有鉴别模型的能力上限。

为了实现上述目的，本发明采用的技术方案如下：

第一方面，本发明提供了一种基于强化学习的数字人视频鉴别模型训练方法，包括：

获取基础的正负样本集合，训练数字人视频与真实视频的鉴别模型；

根据加噪行为类型定义动作空间及其各动作的取值索引，并以此初始化一个含值网络和回放缓冲的强化学习模型；

从正负样本集合中采样正负样本对，利用强化学习模型中的值网络得到待添加噪声并添加到当前正负样本对中，得到新正负样本对，利用鉴别模型获取新正负样本对添加噪声的回报值，根据原正负样本对、添加噪声的取值索引、添加噪声的回报值、新正负样本对构成四元组，存入回放缓冲；当回放缓冲中的四元组达到阈值后，利用四元组更新值网络，清空回放缓冲；

利用值网络对正负样本集合中样本进行扰动，产生新的正负样本集合并加入到原样本集合中，重新训练鉴别模型；

循环进行更新值网络和训练鉴别模型的过程，直至鉴别模型稳定。

进一步地，所述的根据加噪行为类型定义动作空间及其各动作的取值索引，包括：

定义加噪行为包括噪点类型和噪点强度、以及亮度、对比度、饱和度、反差、锐度中的一种或多种；

定义加噪周期参数包括周期频率、周期相位；

将加噪行为和加噪周期参数视为动作，得到含多种动作的动作空间；

根据各动作的取值范围和取值间隔，得到各动作的若干离散取值点，每一个离散取值点对应一个取值索引。

进一步地，所述的利用强化学习模型中的值网络得到待添加噪声并添加到当前正负样本对中，得到新正负样本对，包括：

将采样到的正负样本对作为值网络的输入，根据值网络的输出选择各动作的取值索引，基于取值索引得到动作取值；

计算施加在视频各帧图像上的最终噪声：

e_t，i＝e_isin(e_frqt+e_ph)，i＝1，2，…，m

其中，e_i表示第i种加噪行为的取值，e_frq、e_ph分别表示周期频率、周期相位的取值，t表示视频中的第t帧，e_t，i表示在视频的第t帧添加的第i种加噪行为的噪声强度，表示在视频的第t帧添加的最终噪声，m表示加噪行为的类型数量；

将最终噪声添加至正负样本对的对应帧图像上，得到新正负样本对。

进一步地，所述的值网络包括主干网络和多动作头，所述的多动作头为并排设置的m+2个全连接层；

前m-2个全连接层以主干网络的输出作为输入，分别输出前m-2个动作中可选取值的期望得分，根据期望得分选择取值索引；所述的前m-2个动作取自亮度、对比度、饱和度、反差、锐度，3≤m≤7；

第m-1个全连接层以主干网络的输出作为输入，用于输出噪点类型中可选取值的期望得分，根据期望得分选择取值索引；

第m个全连接层以主干网络的输出和第m-1个全连接层选择的取值索引的拼接结果作为输入，用于输出噪点强度中可选取值的期望得分，根据期望得分选择取值索引；

最后2个全连接层以主干网络的输出和前m个全连接层选择的取值索引的拼接结果作为输入，用于输出周期频率和周期相位中可选取值的期望得分，根据期望得分选择取值索引。

第二方面，本发明提供了一种基于强化学习的数字人视频鉴别模型训练系统，用于实现上述的数字人视频鉴别模型训练方法。

第三方面，本发明提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述的数字人视频鉴别模型训练方法。

第四方面，本发明提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，用于实现上述的数字人视频鉴别模型训练方法。

本发明具备的有益效果是：

(1)本发明采用了强化学习来对样本进行扰动，可以高效产生对当前数字人视频识别模型来说困难的样本，从而迅速扩充高质量的数据集，提升数字人视频识别模型的效果。且基于强化学习的框架，可以在一个封闭系统中不断提升数字人视频识别模型的能力，无需依赖数字人视频合成技术的发展情况。

(2)本发明采用基于强化学习的加噪方法，同时考虑了正负样本的数据本身，在此基础上进行相同的噪声添加，从而不仅仅是盲目的噪声添加，同时相同噪声下成对的数据还可以促使识别模型学习到除了噪声本身规律以外的用来识别数字人合成视频的特征，有助于提高模型的识别能力和泛化能力，减少在真实数据上的误报。

附图说明

图1是本发明实施例示出的基于强化学习的数字人视频鉴别模型训练方法的流程示意图；

图2是本发明实施例示出的值网络Q的结构示意图；

图3是本发明实施例示出的鉴别模型D的结构示意图；

图4是本发明实施例示出的基于强化学习的数字人视频鉴别模型训练方法的电子设备终端结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

除非另有定义，本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本发明所使用的术语“或/和”包括一个或多个相关的所列项目的任意的和所有的组合。

本实施例提出的一种基于强化学习的数字人视频鉴别模型训练方法，包括：

步骤一，获取基础的正负样本集合S；其中，正样本为数字人合成视频，负样本为真实视频。

步骤二，根据加噪行为类型定义动作空间A及其各加噪行为、加噪周期参数的取值索引，并以此初始化一个强化学习模型，所述的强化学习模型包含一个值网络Q和一个回放缓冲B。

步骤三，基于S训练一个数字人视频与真实视频的鉴别模型D；

本步骤中，鉴别模型D即数字人视频识别模型，将任意视频作为输入，提取视频特征，根据视频特征判断该输入视频为正样本和负样本的logits得分l_p、l_n，再基于logits得分得到该输入视频为数字人合成视频和真实视频的概率。

步骤四，从正负样本集合S中采样正负样本对(p_k，n_k)，其中p_k为正样本，n_k为负样本。

步骤五，根据强化学习模型中的值网络q，获取当前正负样本对(p_k，n_k)要添加的各类型加噪行为、加噪周期参数的取值索引基于索引/>得到对应加噪行为、加噪周期参数的取值/>计算各类型加噪行为在视频的每一帧待添加的噪声/>对采样得到的正负样本对(p_k，n_k)的每一帧施加噪声/>后得到新样本(p^′ _k，n^′ _k)，其中，m表示加噪行为类型的数量，n表示加噪周期参数的数量；

本步骤中，通过将正负样本对添加相同的噪声用于后续训练，其目的在于训练模型能够关联噪声和语义进行真伪识别，使其能有效避免模型的过拟合，防止模型在面对新设备拍摄视频时出现严重的误报情况。

步骤六，通过步骤二的鉴别模型D获取新样本(p^′ _k，n^′ _k)的鉴别分数，从而得到索引对应噪声的回报值/>将这一次的扰动样本记作四元组/>将其存入回放缓冲B中；

本步骤中，对应m种加噪行为的取值索引。

步骤七，重复步骤四到步骤六，直到回放缓冲B中收集了N个扰动样本，将扰动样本作为强化学习模型的训练样本，更新强化学习模型中的值网络Q，直到值网络Q收敛，清空回放缓冲B。

步骤八，利用训练后的强化学习模型中的值网络Q，对正负样本集合S进行扰动，产生新的正负样本集合S′，将S′加入S中，即S←S∪S′。

步骤九，重复步骤三到八，直到鉴别模型D稳定。

上述步骤二中，一种可选的实施过程包括：

S2.1，根据加噪行为类别定义动作空间A，本实施例中，设置7种加噪行为和2种加噪周期参数，共计9种动作，采用e₁，e₂，e₃，e₄，e₅，e₆，e₇，e₈，e₉分别表示7种加噪行为(亮度、对比度、饱和度、反差、锐度、噪点类型、噪点强度)和2种加噪周期参数(周期频率、周期相位)，其取值分别设置为离散集合，各类型加噪行为的取值索引记为a_i，i＝1，2，3，4，5，7；2种加噪周期参数的取值索引记为a_i，i＝8，9。

本实施例中，的取值范围为[-1，1)，取值间隔为0.01，将其表示为[-1，0.01，1]，其中0表示不添加，1表示亮度最大值，-1表示亮度最小值，区间[-1，0.01，1]表示从-1到1，间隔为0.01的200个离散点的集合，因此，e_i的取值索引可以表示为{0，1，2，...，199}，将最终选中的取值索引记为a_i。

e₆可取{0，1，2，3，4}五种值，即5个离散点集合，分别代表高斯噪声、脉冲噪声、gamma噪声、指数噪声、均匀噪声，因此，e₆的取值索引可以表示为{0，1，2，3，4}，将最终选中的取值索引记为a₆。

e₇的取值范围为[0，1)，取值间隔为0.01，将其表示为[0，0.01，1]，取值含义与相似，其中0表示不添加，1表示噪点强度最大值，区间[0，0.01，1]表示从0到1，间隔为0.01的100个离散点的集合，因此，e₇的取值索引可以表示为{0，1，2，...，99}，将最终选中的取值索引记为a₇。

e₈，e₉代表的加噪周期参数，其周期采用时间上的正弦函数：y＝Asin(ωt+φ)，其中ω＝e₈，φ＝e₉，其中e₈取值范围[0，1)，取值间隔为0.01，将其表示为[0，0.01，1]；e₉取值范围为[0，6.3)，取值间隔为0.1，将其表示为[0，0.1，6.3]；区间[0，0.01，1]中，0表示不添加，1表示周期频率最大值，整体表示从0到1，间隔为0.01的100个离散点的集合；区间[0，0.1，6.3]中，0表示不添加，6.3表示周期相位最大值，整体表示从0到6.3，间隔为0.1的63个离散点的集合；因此，e₈的取值索引可以表示为{0，1，2，...，99}，将最终选中的取值索引记为a₈；e₉的取值索引可以表示为{0，1，2，...，62}，将最终选中的取值索引记为a₉。

在上述表示下，各类型加噪行为在视频的每一帧待添加的噪声与其自身加噪行为的取值以及加噪周期参数相关，将施加在视频第t帧图像上的最终噪声表示如下：

e_t，i＝e_isin(e₈t+e₉)，i＝1，2，3，4，5，7

其中，e_i表示第i种加噪行为的取值，i＝1，2，3，4，5，7；t表示视频中的第t帧，e_t，i表示在视频的第t帧添加的第i种加噪行为的噪声强度，表示在视频的第t帧添加的最终噪声；上述公式中的e_i，i＝1，2，3，4，5，7以及e₈、e₉分别根据各类型加噪行为的取值索引a_i，i＝1，2，3，4，5，7、以及2种加噪周期参数的取值索引a_i，i＝8，9得到。

S2.2，初始化一个值网络Q，表示为v：＝Q(s_i)，其中s_i为一对正负样本，v＝(v₁，...，v₉)为动作值，每个v_i为一个向量，向量的维度为该动作可选的取值数量，向量中的每一个元素对应一个可选取值的期望得分，然后使用∈-greedy策略从向量中选择对应的取值索引；例如，以v₁为例，其对应第一个动作(亮度)，可选的取值数量为200，因此v₁表示一个维度为200的向量，向量中的第i个元素表示该动作的第i个取值的得分，假设最大得分值为第j个元素，则以∈的概率在v₁的下标中随机选一个索引，以1-∈的概率选择该最大得分值对应的索引，将选中的索引作为取值索引a₁，用于后续计算待施加的噪声。∈一开始设置为0.99，随后缓慢下降到0.01。

在值网络Q中，其主干网络与鉴别模型Q的主干网络相似，即采用基于3D ResNet单元的主干网络，如图2所示，包含2个3D ResNet单元和1个全连接层FC，主干网络之后接多动作头，所述的多动作头为并排设置的9个全连接层FC_i，i＝1，2，...，9；其中FC_i，i＝1，2，...，6均为叶子节点，其直接与主干网络的全连接层FC相连，分别输出v_i，i＝1，2，...，6；FC₇的输入依赖FC₆的输出结果，其分别与主干网络的全连接层FC和多动作头的全连接层FC₆相连，将FC输出结果与v₆中最大概率对应的取值索引a₆拼接后作为FC₇的输入，从而输出v₇；FC₈、FC₉的输入依赖FC_i，i＝1，2，...，7的输出结果，其分别与主干网络的全连接层FC和多动作头的全连接层FC_i，i＝1，2，...，7相连，将FC输出结果依次与v_i，i＝1，2，...，7中最大概率对应的取值索引a_i，i＝1，2，...，7拼接后作为FC₈、FC₉的输入，从而各自输出v₈、v₉。

本实施例中，所述的值网络Q以采样得到的一对正负样本(p_k，n_k)作为输入，由主干网络的全连接层FC将3D ResNet单元提取的视频特征转换为256维向量，多动作头的全连接层FC_i，i＝1，2，...，6将256维向量转换为200维向量v_i，i＝1，2，...，6，与对应动作可选的取值数量一致；多动作头的全连接层FC₇由于在256维向量中拼接了FC₆对应的取值索引a₆，因此FC₇将257维向量转换为4维向量v₇；同理，FC₈、FC₉将263维向量分别转换为100维向量v₈和63维向量v₉。

S2.3，初始化一个用于存放扰动样本的回放缓冲

上述步骤三中，鉴别模型D可以采用任意视频动作识别的模型结构，本实施例中，如图3所示，鉴别模型D采用基于3D ResNet单元的主干网络，包含9个3D ResNet单元、1个多层感知机和1个全连接层，采用二分类损失作为损失函数，用0代表正样本，即该样本为数字人合成视频，用1代表负样本，即该样本为真实视频。使用样本集S进行训练，待其收敛，结束训练。

上述步骤五中，一种可选的实施过程包括：

S5.1，以正负样本对(p_k，n_k)为输入，计算值网络Q的输出结果v＝Q((p_k，n_k))，v＝(v₁，…，v₉)为动作取值得分；

S5.2，根据输出结果采样动作(e_i)＝∈-greedy(v_i)，该公式含义为分别以一定概率∈直接随机选择v_i中的任意下标索引，以概率1-∈取v_i中最大得分对应的索引，将选中的索引作为取值索引a_i，基于取值索引a_i得到动作取值e_i，i＝1，2，...，7。∈在一开始设置为0.99，随后缓慢下降到0.01。

S5.3，根据动作取值e_i计算待添加的噪声，将噪声添加到正负样本对(p_k，n_k)上得到新样本(p′_k，n′_k)。

上述步骤六中，一种可选的实施过程包括：

S6.1，将新样本(p′_k，n′_k)输入鉴别模型D，得到鉴别模型判断新样本(p′_k，n′_k)分别为正样本和负样本的logits得分l_p，l_n；

S6.2，计算新样本中所添加噪声的回报值，因为本发明希望噪声能够欺骗鉴别模型，这种情况下鉴别模型正确识别对应的logits应该尽可能小，因此回报值计算公式为：

r＝exp(-l_n-l_p)

记新样本(p′_k，n′_k)所添加噪声的取值索引为对应上述公式计算得到的回报值记为/>

S6.3，将扰动样本记作四元组将其存入回放缓冲B中。

上述步骤七中，一种可选的实施过程包括：

将N个扰动样本加入强化学习模型进行训练，更新值网络q，直到值网络Q收敛，训练过程采用标准的DQN训练方法，最小化Q值估计的误差：

不断从回放缓冲B中采样扰动样本，更新值网络Q的权重。

上述步骤八中，一种可选的实施过程包括：

S8.1，在当前正负样本集合S中采样正负样本对；

S8.2，以正负样本对作为值网络Q的输入，输出动作取值概率；

S8.3，根据输出结果采样动作，根据动作取值计算待添加的噪声，将噪声添加到正负样本对上；

S8.4，重复步骤S8.1至S8.3，对正负样本集合S进行扰动，产生新的正负样本集合S^′，将S^′加入S中，即S←S∪S′。更新后的正负样本集合S中，对每一对正负样本添加了相同的噪声，其目的在于让鉴别模型能够关联噪声和语义进行真伪识别，防止在面对新设备拍摄视频时出现严重的误报情况。

为了验证本发明的效果，将采用本发明方法训练鉴别模型和直接训练鉴别模型进行对比，初始训练数据集包含正负样本各1000条短视频，正样本为使用数字人视频合成方法获取的视频，负样本为实际拍摄的用于定制对应数字人形象的真实视频。测试数据集包含正负样本各200条短视频，另外，还用该训练集以外的拍摄设备拍摄了140条短视频作为误报评估数据集。如表1所示，本发明训练得到的鉴别模型在数字人视频识别准确率上显著高于直接训练得到的鉴别模型，且本发明训练得到的鉴别模型在不同设备采集的真实数据上的误报率显著低于直接训练得到的鉴别模型。

表1

在本实施例中还提供了一种基于强化学习的数字人视频鉴别模型训练系统，该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

本实施例提供的一种基于强化学习的数字人视频鉴别模型训练系统，包括：

正负样本集合模块，其用于存储正负样本集合；

鉴别模型模块，其用于识别数字人视频与真实视频，通过正负样本集合训练得到；

动作空间模块，其用于根据加噪行为类型定义动作空间及其各动作的取值索引；

强化学习模型模块，其包含一个含值网络和回放缓冲；

第一循环模块，其用于从正负样本集合模块中采样正负样本对，利用强化学习模型模块中的值网络得到待添加噪声并添加到当前正负样本对中，得到新正负样本对，再利用鉴别模型模块获取新正负样本对添加噪声的回报值，根据原正负样本对、添加噪声的取值索引、添加噪声的回报值、新正负样本对构成四元组，存入强化学习模型模块中的回放缓冲中；当回放缓冲中的四元组达到阈值后，利用四元组更新强化学习模型模块中的值网络，清空回放缓冲；

第二循环模块，其用于利用强化学习模型模块中的值网络对正负样本集合中样本进行扰动，产生新的正负样本集合并加入到原样本集合中，更新正负样本集合模块内存储的存储正负样本集合，并重新训练鉴别模型模块；

判断模块，其用于在第二循环模块任务完成后，判断鉴别模型模块是否稳定，若是，将鉴别模型模块用于识别数字人视频与真实视频；若否，依次执行第一循环模块和第二循环模块。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可，其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

本发明实施例还提供一种电子设备，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述的一种基于强化学习的数字人视频鉴别模型训练方法。

从硬件层面而言，如图4所示，为本实施例提供的一种硬件结构图，除了图中所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的一种基于强化学习的数字人视频鉴别模型训练方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

显然，以上所述实施例和附图只是本申请的一些例子，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的数字人视频鉴别模型训练方法，其特征在于，包括：

根据加噪行为类型定义动作空间及其各动作的取值索引，并以此初始化一个含值网络和回放缓冲的强化学习模型；所述的根据加噪行为类型定义动作空间及其各动作的取值索引，包括：定义加噪行为包括噪点类型和噪点强度、以及亮度、对比度、饱和度、反差、锐度中的一种或多种；定义加噪周期参数包括周期频率、周期相位；将加噪行为和加噪周期参数视为动作，得到含多种动作的动作空间；根据各动作的取值范围和取值间隔，得到各动作的若干离散取值点，每一个离散取值点对应一个取值索引；

从正负样本集合中采样正负样本对，利用强化学习模型中的值网络得到待添加噪声并添加到当前正负样本对中，得到新正负样本对，包括：将采样到的正负样本对作为值网络的输入，根据值网络的输出选择各动作的取值索引，基于取值索引得到动作取值；

计算施加在视频各帧图像上的最终噪声：

e_t,i＝e_isin(e_frqt+e_ph),i＝1,2,...,m

其中，e_i表示第i种加噪行为的取值，e_frq、e_ph分别表示周期频率、周期相位的取值，t表示视频中的第t帧，e_t,i表示在视频的第t帧添加的第i种加噪行为的噪声强度，表示在视频的第t帧添加的最终噪声，m表示加噪行为的类型数量；

将最终噪声添加至正负样本对的对应帧图像上，得到新正负样本对；

所述的值网络包括主干网络和多动作头，所述的多动作头为并排设置的m+2个全连接层；前m-2个全连接层以主干网络的输出作为输入，分别输出前m-2个动作中可选取值的期望得分，根据期望得分选择取值索引；所述的前m-2个动作取自亮度、对比度、饱和度、反差、锐度，3≤m≤7；第m-1个全连接层以主干网络的输出作为输入，用于输出噪点类型中可选取值的期望得分，根据期望得分选择取值索引；第m个全连接层以主干网络的输出和第m-1个全连接层选择的取值索引的拼接结果作为输入，用于输出噪点强度中可选取值的期望得分，根据期望得分选择取值索引；最后2个全连接层以主干网络的输出和前m个全连接层选择的取值索引的拼接结果作为输入，用于输出周期频率和周期相位中可选取值的期望得分，根据期望得分选择取值索引；

利用鉴别模型获取新正负样本对添加噪声的回报值，根据原正负样本对、添加噪声的取值索引、添加噪声的回报值、新正负样本对构成四元组，存入回放缓冲；当回放缓冲中的四元组达到阈值后，利用四元组更新值网络，清空回放缓冲；

2.根据权利要求1所述的基于强化学习的数字人视频鉴别模型训练方法，其特征在于，采用∈-greedy策略从多动作头输出的可选取值的期望得分中选择取值索引。

3.根据权利要求1所述的基于强化学习的数字人视频鉴别模型训练方法，其特征在于，所述的利用鉴别模型获取新正负样本对添加噪声的回报值，包括：

将新正负样本对输入鉴别模型，得到鉴别模型判断新正负样本对分别为正样本和负样本的logits得分l_p,l_n；

计算新正负样本对中所添加噪声的回报值r：

r＝exp(-l_n-l_p)。

4.根据权利要求1所述的基于强化学习的数字人视频鉴别模型训练方法，其特征在于，以原正负样本对、添加噪声的取值索引、添加噪声的回报值、新正负样本对构成的四元组作为训练样本，采用强化学习训练值网络。

5.一种用于执行权利要求1所述的基于强化学习的数字人视频鉴别模型训练方法的系统，其特征在于，包括：

正负样本集合模块，其用于存储正负样本集合；

强化学习模型模块，其包含一个含值网络和回放缓冲；

6.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1所述的基于强化学习的数字人视频鉴别模型训练方法。

7.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，用于实现权利要求1所述的基于强化学习的数字人视频鉴别模型训练方法。