CN115277264A

CN115277264A - 一种基于联邦学习的字幕生成方法、电子设备及存储介质

Info

Publication number: CN115277264A
Application number: CN202211192216.3A
Authority: CN
Inventors: 李祯其; 胡尧; 温志庆
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-11-01
Anticipated expiration: 2042-09-28
Also published as: CN115277264B

Abstract

本申请涉及字幕生成技术领域，具体提供了一种基于联邦学习的字幕生成方法、电子设备及存储介质，方法包括以下步骤：构建多任务模型，多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；基于本地数据对多任务模型进行多轮次训练，并在每轮次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据由不同多任务模型上传的参数集合构建全局模型；从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型；利用优化后的多任务模型生成字幕；该方法能够有效地提高本地数据的私密性。

Description

一种基于联邦学习的字幕生成方法、电子设备及存储介质

技术领域

本申请涉及字幕生成技术领域，具体而言，涉及一种基于联邦学习的字幕生成方法、电子设备及存储介质。

背景技术

随着社会的发展，短视频行业的兴起，使用短视频进行传播信息也越来越多。由于短视频比传统文字和图片传递的消息更丰富和易于理解，即短视频中的字幕可以帮助观众更好的理解视频的内容，因此字幕已经成为视频中不可缺少的一部分。

现有技术的字幕生成方法一般将视频数据或音频数据输入字幕生成模型以生成对应的字幕。为了提高字幕生成模型的识别准确度，需要对字幕生成模型进行训练，此时需要用户将其本地数据上传至服务器，由于上传至服务器的本地数据容易出现泄露的问题，因此现有的字幕生成方法不能有效地保护用户隐私。

针对上述问题，目前尚未有有效的技术解决方案。

发明内容

本申请的目的在于提供一种基于联邦学习的字幕生成方法、电子设备及存储介质，能够有效地提高本地数据的私密性。

第一方面，本申请提供了一种基于联邦学习的字幕生成方法，用于生成字幕，其包括步骤：

构建训练多任务模型，上述多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；

基于本地数据对上述多任务模型进行多轮次训练，并在每轮次结束训练时将多任务模型的参数集合上传至服务器，以使上述服务器基于联邦学习根据由不同多任务模型多个轮次上传的参数集合构建全局模型；

从服务器中获取上述全局模型，并利用上述全局模型优化多轮次训练后的多任务模型；

利用优化后的多任务模型生成字幕。

本申请提供的一种基于联邦学习的字幕生成方法，先基于本地数据对多任务模型进行多轮次训练，并在每次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据不同多任务模型上传的参数集合构建全局模型，然后从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型，由于在多任务模型的构建和训练中无需将本地数据上传至服务器，因此该方法能够有效地避免出现由于需要将本地数据上传至服务器而导致本地数据泄露的问题，从而有效地提高本地数据的私密性。

可选地，上述利用上述全局模型优化多轮次训练后的多任务模型的步骤包括：

基于本地数据获取上述全局模型的全局特征；

根据上述全局特征和上述多任务模型的本地特征建立自适应迁移策略；

根据上述自适应迁移策略获取不同任务的全局特征和不同任务的本地特征之间的特征迁移损失；

根据上述多任务模型的多任务目标函数和上述特征迁移损失建立总体任务目标函数；

更新上述总体任务目标函数以优化多轮次训练后的多任务模型。

可选地，上述自适应迁移策略包括外迁移函数和内迁移函数，上述外迁移函数用于将上述全局特征向上述本地特征迁移，上述内迁移函数用于将上述全局特征对应的维度向上述本地特征对应的维度迁移。

可选地，上述外迁移函数、上述内迁移函数和上述自适应迁移策略的构建过程包括步骤：

基于元神经网络参数设定外迁移权重和内迁移权重；

根据上述外迁移权重、上述全局特征和上述多任务模型的本地特征构建外迁移函数；

根据上述内迁移权重、上述全局特征和上述本地特征构建内迁移函数；

根据上述外迁移函数和上述内迁移函数建立上述自适应迁移策略。

可选地，上述更新上述总体任务目标函数的步骤包括：

基于反向传播算法更新上述总体任务目标函数的参数集合以最小化上述总体任务目标函数的总体任务损失。

可选地，上述更新上述总体任务目标函数的步骤包括：

固定上述元神经网络参数，基于反向传播算法更新上述自适应迁移策略的参数集合以最小化上述特征迁移损失；

基于反向传播算法更新上述多任务目标函数的参数集合以最小化上述总体任务目标函数的总体任务损失。

该技术方案先固定元神经网络参数，并基于反向传播算法更新自适应迁移策略的参数集合以最小化特征迁移损失，再基于反向传播算法更新多任务目标函数的参数集合以最小化总体任务目标函数的总体任务损失，由于自适应迁移策略的影响被扩大，因此该技术方案能够有效地缩短更新上述总体任务目标函数所需要的时间，从而有效地提高优化多轮次训练后的多任务模型的效率。

可选地，上述本地数据包括中文音频数据、英文音频数据、与上述中文音频数据对应的中英文字幕数据和与上述英文音频数据对应的中英文字幕数据，上述多任务模型用于根据输入音频数据生成中文字幕和/或英文字幕。

可选地，上述中文音频数据和上述英文音频数据均为包括音频信息和唇动信息的视频信息。

由于该技术方案的中文音频数据和英文音频数据均为包括音频信息和唇动信息的视频信息，音频信息和唇动信息相互关联，因此该技术方案能够有效地提高多任务模型的抗噪性。

第二方面，本申请还提供了一种电子设备，包括处理器以及存储器，上述存储器存储有计算机可读取指令，当上述计算机可读取指令由上述处理器执行时，运行如上述第一方面提供的方法中的步骤。

第三方面，本申请还提供了一种存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时运行如上述第一方面提供的方法中的步骤。

由上可知，本申请提供的一种基于联邦学习的字幕生成方法、电子设备及存储介质，先基于本地数据对多任务模型进行多轮次训练，并在每次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据不同多任务模型上传的参数集合构建全局模型，然后从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型，由于在多任务模型的构建和训练中无需将本地数据上传至服务器，因此该方法能够有效地避免出现由于需要将本地数据上传至服务器而导致本地数据泄露的问题，从而有效地提高本地数据的私密性。

附图说明

图1为本申请实施例提供的一种基于联邦学习的字幕生成方法的流程图。

图2为本申请实施例提供的一种电子设备的结构示意图。

附图标记：101、处理器；102、存储器；103、通信总线。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一方面，如图1所示，本申请提供了一种基于联邦学习的字幕生成方法，用于生成字幕，其包括步骤：

S1、构建多任务模型，多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；

S2、基于本地数据对多任务模型进行多轮次训练，并在每轮次结束训练时基于联邦学习将多任务模型的参数集合上传至服务器，以使服务器能根据由不同多任务模型多个轮次上传的参数集合构建全局模型；

S3、从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型；

S4、利用优化后的多任务模型生成字幕。

步骤S1构建多任务模型相当于在本地构建多任务模型。步骤S1基于深度学习算法、强化学习算法等现有算法在共享特征层构建多任务模型，该多任务模型为用于根据输入音频数据生成对应的字幕的学习模型，具体地，多任务模型能够实现以下功能中的任意一种：1.多任务模型根据一种输入音频数据生成一种字幕，例如根据英文输入音频数据生成英文字幕或根据英文输入音频数据生成中文字幕；2.多任务模型根据一种输入音频数据生成多种字幕，例如根据英文输入音频数据生成英文字幕和中文字幕；3.多任务模型根据多种输入音频数据生成多种字幕，例如根据英文输入音频数据和中文输入音频数据生成中文字幕和英文字幕。该实施例的多任务模型优选为根据一种输入音频数据生成多种字幕的模型。

步骤S2基于本地数据对多任务模型进行多轮次训练，每轮次训练优选进行多次迭代训练，多轮次训练相当于更新多任务模型的多任务目标函数的参数集合的过程。步骤S2的本地数据包括输入数据集和输出数据集，输入数据集包括训练音频数据，输出数据集包括与训练音频数据对应的字幕数据，训练构建好的多任务模型时利用多任务模型根据不同输入数据集生成的结果与对应的输出数据集的匹配度对多任务模型的多任务目标函数的参数集合进行调整，具体地，多任务模型的多任务目标函数如式（1）所示：

（1）

其中，l_multi为多任务模型的多任务目标函数，H为任务集合，|H|为任务集合中任务的数量，l_i（θ；x，y_i）为第i个任务（根据输入数据集中的一个训练音频数据生成对应的字幕）采用的损失函数，θ为多任务目标函数的参数集合，x为输入数据集中的训练音频数据，y_i为即输出数据集中与该训练音频数据对应的字幕数据。应当理解的是，本领域技术人员能够根据多任务模型需要识别的语言和需要生成的字幕类型改变输入数据集和输出数据集的信息类型，例如，多任务模型需要识别的语言为德语，多任务模型需要生成的字幕类型为中文字幕和英文字幕，则输入数据集包括德语音频数据，输出数据集包括中文字幕数据和英文字幕数据。

步骤S2的联邦学习是一种分布式机器学习技术，其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练，其能在保证本地数据隐私安全即合法合规的基础上根据不同模型上传的参数集合构建全局模型。在每轮次结束训练时，步骤S2将多轮次训练后的多任务模型的参数集合上传至服务器（相当于将每次更新后的多任务目标函数的参数集合上传至服务器），在服务器接收到不同多任务模型多个轮次上传的参数集合后，服务器对所有参数集合进行聚合以构建全局模型。

步骤S3可以通过将全局模型下载至本地的方式从服务器中获取全局模型，在获取全局模型后，步骤S3利用全局模型的特征对多轮次训练后的多任务模型进行训练。由于全局模型为服务器对不同多任务模型多个轮次上传的参数集合进行整合建模得到的模型，全局模型综合了不同多任务模型的特点，即该全局模型能够在识别准确度较高的情况下对不同种类的输入音频数据进行识别并生成对应的字幕，因此步骤S3从服务器中获取全局模型并利用全局模型优化多轮次训练后的多任务模型能够有效地提高本地的多任务模型的识别准确度和使本地的多任务模型能对原本的输入音频数据以外的其他音频数据进行识别。在完成多任务模型的优化后，步骤S4利用优化后的多任务模型生成字幕。应当理解的是步骤S1-S4相当于在一个用户端执行的逻辑。

该实施例的工作原理为：先基于本地数据对多任务模型进行多轮次训练，并在每次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据不同多任务模型上传的参数集合构建全局模型，然后从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型，由于构建多任务模型、基于本地数据对多任务模型进行多轮次训练和利用全局模型优化多轮次训练后的多任务模型均发生在本地，且服务器仅需要根据不同多任务模型上传的参数集合即可构建全局模型，即该方法的整个流程均无需将本地数据上传至服务器，因此该方法能够有效地避免出现由于需要将本地数据上传至服务器而导致本地数据泄露的问题，从而有效地提高本地数据的私密性，且由于利用本地数据训练的多任务模型仅能根据有限种输入音频数据生成有限种字幕，而全局模型综合了不同多任务模型的特点，即该全局模型能够在识别准确度较高的情况下对不同种类的输入音频数据进行识别并生成对应的字幕，因此利用全局模型优化多轮次训练后的多任务模型能够有效地提高本地的多任务模型的识别准确度和使本地的多任务模型能对原本的输入音频数据以外的其他音频数据进行识别。

在一些实施例中，利用全局模型优化多轮次训练后的多任务模型的步骤包括：

S31、基于本地数据获取全局模型的全局特征；

S32、根据全局特征和多任务模型的本地特征建立自适应迁移策略；

S33、根据自适应迁移策略获取不同任务的全局特征和不同任务的本地特征之间的特征迁移损失；

S34、根据多任务模型的多任务目标函数和特征迁移损失建立总体任务目标函数；

S35、更新总体任务目标函数以优化多轮次训练后的多任务模型。

步骤S31利用本地数据在获取到的全局模型中进行前向传播，以从全局模型中提取与本地数据对应的全局特征。步骤S32的本地特征为多任务模型中与本地数据对应的特征，步骤S32的自适应迁移策略为根据全局特征和多任务模型的本地特征建立的损失函数，该自适应迁移策略用于使全局特征朝向多任务模型的本地特征进行迁移。步骤S33根据自适应迁移策略将不同任务的全局特征朝向不同任务的本地特征进行迁移并计算不同任务的全局特征和不同任务的本地特征之间的特征迁移损失。步骤S34的多任务目标函数为多任务模型的损失函数，该损失函数也是步骤S1构建和训练多任务模型时使用的函数，步骤S34根据多任务目标函数和特征迁移损失建立总体任务目标函数，自适应迁移策略、多任务目标函数和总体任务目标函数共用同一个参数集合。由于自适应迁移策略、多任务目标函数和总体任务目标函数共用同一个参数集合，因此步骤S35在更新总体任务目标函数时也更新多任务目标函数，从而实现优化多轮次训练后的多任务模型。具体地，步骤S34建立总体任务目标函数如式（2）所示：

（2）

其中，l_personal表示总体任务目标函数，l_multi表示多任务目标函数，l_trans表示自适应迁移策略，δ为预设值，当δ大于1时，则多任务目标函数对总体任务目标函数的影响小于自适应迁移策略对总体任务目标函数的影响，且δ越大，多任务目标函数对总体任务目标函数的影响越小；当δ小于1时，则多任务目标函数对总体任务目标函数的影响大于自适应迁移策略对总体任务目标函数的影响，且δ越小，自适应迁移策略对总体任务目标函数的影响越小。本领域技术人员能够根据实际需要设置δ的大小，δ优选为1（此时多任务目标函数对总体任务目标函数的影响与自适应迁移策略对总体任务目标函数的影响相同）。

在一些实施例中，自适应迁移策略包括外迁移函数和内迁移函数，外迁移函数用于将全局特征向本地特征迁移，以使多任务模型向全局模型靠近，内迁移函数用于将全局特征对应的维度向本地特征对应的维度迁移，以使全局特征的类型与本地特征的类型一致。

在一些实施例中，外迁移函数、内迁移函数和自适应迁移策略的构建过程包括步骤：

A1、基于元神经网络参数设定外迁移权重和内迁移权重；

A2、根据外迁移权重、全局特征和多任务模型的本地特征构建外迁移函数；

A3、根据内迁移权重、全局特征和本地特征构建内迁移函数；

A4、根据外迁移函数和内迁移函数建立自适应迁移策略。

步骤A1基于同一个元神经网络参数构建两个元神经网络以设定外迁移权重和内迁移权重，元神经网络是一种神经网络，由于元神经网络能够根据不同任务的全局特征生成不同的外迁移权重和不同的内迁移权重，因此外迁移权重和内迁移权重均为自适应值。外迁移权重用于缩小全局模型从某一个任务提取的全局特征与多任务模型从某一个任务提取的本地特征之间的距离，内迁移权重用于缩小全局模型基于某一个批大小和某一个维度大小从某一个任务提取的全局特征与多任务模型基于同样的批大小和同样的维度大小从某一个任务提取的本地特征之间的差值。由于迁移不同任务的特征需要使用不同的外迁移权重和内迁移权重，因此内迁移权重的数量、外迁移权重的数量和任务的数量相同。具体地，步骤A1设定外迁移权重和内迁移权重的公式如式（3）所示：

（3）

其中，

为第i个任务的全局特征，x为输入数据集中的训练音频数据，

为外迁移权重，

为内迁移权重，

为元神经网络参数，

为第一元神经网络，

为第二元神经网络，第一元神经网络和第二元神经网络共用同一个元神经网络参数。

步骤A2根据不同任务的全局特征、不同任务的本地特征和对应的外迁移权重构建外迁移函数，外迁移函数为每个任务的全局特征与每个任务的本地特征之间的特征距离之和。具体地，外迁移函数的构建公式如式（4）所示：

（4）

其中，

为外迁移函数，x为输入数据集中的语音数据，θ为外迁移函数的参数集合，H为任务集合，B为训练过程中的批（梯度下降中的batch-size）大小，C为训练过程中提取特征的维度大小，

为批大小为p、维度大小为q时第i个任务的全局特征，

为批大小为p、维度大小为q时第j个任务的本地特征，

为对应的外迁移权重。

步骤A3根据不同任务的全局特征、不同任务的本地特征和对应的内迁移权重构建内迁移函数，内迁移函数表征任意全局特征和任意本地特征的维度迁移关系。具体地，内迁移函数的构建公式如式（5）所示：

（5）

其中，

为内迁移函数，x为输入数据集中的语音数据，θ为内迁移函数的参数集合，B为训练过程中的批（梯度下降中的batch-size）大小，C为训练过程中提取特征的维度大小，

为批大小为p、维度大小为q时第i个任务的全局特征，

为批大小为p、维度大小为q时第j个任务的本地特征，

为对应的内迁移权重。

步骤A4根据外迁移函数和内迁移函数建立自适应迁移策略，自适应迁移策略如式（6）所示：

（6）

其中，

为自适应迁移策略，

为元神经网络参数，B为训练过程中的批（梯度下降中的batch-size）大小，C为训练过程中提取特征的维度大小，

为批大小为p、维度大小为q时第i个任务的全局特征，

为批大小为p、维度大小为q时第j个任务的本地特征，

为对应的外迁移权重，

为对应的内迁移权重。

在一些实施例中，更新总体任务目标函数的步骤包括：

B1、基于反向传播算法更新总体任务目标函数的参数集合以最小化总体任务目标函数的总体任务损失。

其中，反向传播算法属于现有技术，此处不再进行详细论述。由于总体任务目标函数综合了多任务模型和自适应迁移策略，而在更新过程中自适应迁移策略产生的影响较小，在总体任务损失最小时多任务损失也为较小值，从而通过优化多任务目标函数实现优化多轮次训练后的多任务模型，因此步骤B1基于反向传播算法更新总体任务目标函数的参数集合以最小化总体任务损失。在一些优选实施例中，在最小化总体任务损失后，根据当前的参数集合评估多任务模型（基于当前的参数集合对多任务目标函数进行前向传播算法处理）并利用评估后的多任务模型更新元神经网络参数，以进一步最小化多任务损失。

上述实施例基于反向传播算法更新总体任务目标函数的参数集合，由于更新总体任务目标函数的参数集合时自适应迁移策略产生的影响较小，因此再利用评估后的多任务模型更新元神经网络参数时需要经过较多的迭代轮次才能获取比较好的元神经网络参数，从而导致优化多轮次训练后的多任务模型所需的时间长。为了解决该技术问题，在一些实施例中，更新总体任务目标函数的步骤包括：

C1、固定元神经网络参数，基于反向传播算法更新自适应迁移策略的参数集合以最小化特征迁移损失；

C2、基于反向传播算法更新多任务目标函数的参数集合以最小化总体任务目标函数的总体任务损失。

参照式（2）、式（3）和式（6）可知，总体任务目标函数包括多任务目标函数和自适应迁移策略，自适应迁移策略对应的迁移特征损失过大时会对训练造成影响，因此需要最小化迁移特征损失，即步骤C1先随机生成一个元神经网络参数并将其固定，然后基于反向传播算法更新自适应迁移策略的参数集合以最小化特征迁移损失。在最小化特征迁移损失（即优化自适应迁移策略）后，步骤C2基于反向传播算法更新多任务目标函数的参数集合以最小化总体任务目标函数的总体任务损失（即优化总体任务目标函数）。该实施例的工作原理为：该实施例先固定元神经网络参数，并基于反向传播算法更新自适应迁移策略的参数集合以最小化特征迁移损失，再基于反向传播算法更新多任务目标函数的参数集合以最小化总体任务目标函数的总体任务损失，由于自适应迁移策略的影响被扩大，因此该实施例能够有效地缩短更新总体任务目标函数所需要的时间，从而有效地提高优化多轮次训练后的多任务模型的效率。

在一些实施例中，步骤C2之后还包括步骤：

C3、在最小化总体任务损失后，根据当前的参数集合评估多任务模型并利用评估后的多任务模型更新元神经网络参数，以进一步最小化多任务损失。

由于更新元神经网络参数相当于对元神经网络进行训练，因此该实施例能够得到最优的外迁移权重和最优的内迁移权重。

在一些实施例中，本地数据包括中文音频数据、英文音频数据、与中文音频数据对应的中英文字幕数据和与英文音频数据对应的中英文字幕数据，多任务模型用于根据输入音频数据生成中文字幕和/或英文字幕。具体地，中文音频数据和英文音频数据为式（1）中的x，中英文字幕数据和中英文字幕数据相当于式（1）中的y_i。多任务模型包括中文字幕多任务目标函数和英文字幕多任务目标函数，中文字幕多任务目标函数用于计算多任务模型生成的中文字幕与中文字幕数据之间的损失值，英文字幕多任务目标函数用于计算多任务模型生成的英文字幕与英文字幕数据之间的损失值。

在一些实施例中，中文音频数据和英文音频数据均为包括音频信息和唇动信息的视频信息。由于该实施例的中文音频数据和英文音频数据均为包括音频信息和唇动信息的视频信息，音频信息和唇动信息相互关联，因此该实施例能够有效地提高多任务模型的抗噪性。

在一些优选实施例中，若音频数据为包括音频信息和唇动信息的视频信息，在利用该音频数据对多任务模型进行训练前，将视频信息中的音频信息和唇动信息分离以得到纯音频信息和唇动视频信息，基于信号学技术对唇动视频信息进行增强处理，基于机器学习技术对纯音频信息进行增强处理。由于该实施例利用增强后的纯音频信息和增强后的唇动视频信息训练多任务模型，因此多任务模型能够得到更好的训练。

由上可知，本申请提供的一种基于联邦学习的字幕生成方法，先基于本地数据对多任务模型进行多轮次训练，并在每次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据不同多任务模型上传的参数集合构建全局模型，然后从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型，由于在多任务模型的训练中无需将本地数据上传至服务器，因此该方法能够有效地避免出现由于需要将本地数据上传至服务器而导致本地数据泄露的问题，从而有效地提高本地数据的私密性。

第二方面，请参照图2，图2为本申请实施例提供的一种电子设备的结构示意图，本申请提供一种电子设备，包括：处理器101和存储器102，处理器101和存储器102通过通信总线103和/或其他形式的连接机构（未标出）互连并相互通讯，存储器102存储有处理器101可执行的计算机可读取指令，当电子设备运行时，处理器101执行该计算机可读取指令，以执行时执行实施例的任一可选的实现方式中的方法，以实现以下功能：构建多任务模型，多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；基于本地数据对多任务模型进行多轮次训练，并在每轮次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据由不同多任务模型多个轮次上传的参数集合构建全局模型；从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型；利用优化后的多任务模型生成字幕。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，执行实施例的任一可选的实现方式中的方法，以实现以下功能：构建多任务模型，多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；基于本地数据对多任务模型进行多轮次训练，并在每轮次结束训练时将多任务模型的参数集合上传至服务器，以使服务器基于联邦学习根据由不同多任务模型多个轮次上传的参数集合构建全局模型；从服务器中获取全局模型，并利用全局模型优化多轮次训练后的多任务模型；利用优化后的多任务模型生成字幕。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-OnlyMemory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read OnlyMemory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于联邦学习的字幕生成方法，用于生成字幕，其特征在于，所述基于联邦学习的字幕生成方法包括：

构建训练多任务模型，所述多任务模型为用于根据输入音频数据生成对应的字幕的学习模型；

基于本地数据对所述多任务模型进行多轮次训练，并在每轮次结束训练时将多任务模型的参数集合上传至服务器，以使所述服务器基于联邦学习根据由不同多任务模型多个轮次上传的参数集合构建全局模型；

从服务器中获取所述全局模型，并利用所述全局模型优化多轮次训练后的多任务模型；

利用优化后的多任务模型生成字幕。

2.根据权利要求1所述的基于联邦学习的字幕生成方法，其特征在于，所述利用所述全局模型优化多轮次训练后的多任务模型的步骤包括：

基于本地数据获取所述全局模型的全局特征；

根据所述全局特征和所述多任务模型的本地特征建立自适应迁移策略；

根据所述自适应迁移策略获取不同任务的全局特征和不同任务的本地特征之间的特征迁移损失；

根据所述多任务模型的多任务目标函数和所述特征迁移损失建立总体任务目标函数；

更新所述总体任务目标函数以优化多轮次训练后的多任务模型。

3.根据权利要求2所述的基于联邦学习的字幕生成方法，其特征在于，所述自适应迁移策略包括外迁移函数和内迁移函数，所述外迁移函数用于将所述全局特征向所述本地特征迁移，所述内迁移函数用于将所述全局特征对应的维度向所述本地特征对应的维度迁移。

4.根据权利要求3所述的基于联邦学习的字幕生成方法，其特征在于，所述外迁移函数、所述内迁移函数和所述自适应迁移策略的构建过程包括步骤：

基于元神经网络参数设定外迁移权重和内迁移权重；

根据所述外迁移权重、所述全局特征和所述多任务模型的本地特征构建外迁移函数；

根据所述内迁移权重、所述全局特征和所述本地特征构建内迁移函数；

根据所述外迁移函数和所述内迁移函数建立所述自适应迁移策略。

5.根据权利要求2所述的基于联邦学习的字幕生成方法，其特征在于，所述更新所述总体任务目标函数的步骤包括：

基于反向传播算法更新所述总体任务目标函数的参数集合以最小化所述总体任务目标函数的总体任务损失。

6.根据权利要求4所述的基于联邦学习的字幕生成方法，其特征在于，所述更新所述总体任务目标函数的步骤包括：

固定所述元神经网络参数，基于反向传播算法更新所述自适应迁移策略的参数集合以最小化特征迁移损失；

基于反向传播算法更新所述多任务目标函数的参数集合以最小化所述总体任务目标函数的总体任务损失。

7.根据权利要求1所述的基于联邦学习的字幕生成方法，其特征在于，所述本地数据包括中文音频数据、英文音频数据、与所述中文音频数据对应的中英文字幕数据和与所述英文音频数据对应的中英文字幕数据，所述多任务模型用于根据输入音频数据生成中文字幕和/或英文字幕。

8.根据权利要求7所述的基于联邦学习的字幕生成方法，其特征在于，所述中文音频数据和所述英文音频数据均为包括音频信息和唇动信息的视频信息。

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-8任一项所述方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-8任一项所述方法中的步骤。