CN117688538A

CN117688538A - 一种基于数字身份安全防范的互动教育管理方法及系统

Info

Publication number: CN117688538A
Application number: CN202311719227.7A
Authority: CN
Inventors: 郭圣; 马越; 蒋宇城
Original assignee: Shanghai Shengan Digital Technology Co ltd
Current assignee: Shanghai Shengan Digital Technology Co ltd
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-03-12
Anticipated expiration: 2043-12-13

Abstract

本申请提供一种基于数字身份安全防范的互动教育管理方法及系统，涉及智能化教育平台技术领域，其中该方法包括：发送活体检测请求至第一用户终端；从第一用户终端接收第一用户生物特征，根据授权用户信息库识别是否存在相匹配的目标授权用户信息；获取目标授权用户信息所对应的元数据标签集；将元数据标签集、人脸伪装标签配置、语音伪装标签配置和用户生物特征信息输入至数字身份伪装模型，以确定相应的伪装生物特征信息；发送伪装互动授权通知至第一用户终端；响应于互动授权通知，基于伪装生物特征信息进行数字身份伪装处理。由此，实现了教育互动平台的用户的隐私保护和提高活体身份用户参与互动的积极性。

Description

一种基于数字身份安全防范的互动教育管理方法及系统

技术领域

本申请涉及智能化教育平台技术领域，尤其涉及一种基于数字身份安全防范的互动教育管理方法及系统。

背景技术

在当今数字化时代，互动教育系统的发展与普及已成为推动教育创新和个性化学习的关键因素。随着人工智能技术的迅速进步，互动教育系统不仅提供了更灵活的学习环境，还为学生之间以及学生和教师之间的互动创造了更多可能性。

在现有的远程互动教育平台中，一般都会采用直接的视频会议过程，但这样就会导致用户信息在远程视频互动的过程中泄露。尤其是，有可能涉及未成年的肖像信息和声纹信息的外泄，不利于对未成年的安全保护。

随着视频软件的技术更迭，数字身份伪装技术(例如，人脸替换或语音变声)得到了有效推广与应用，例如主播顶着玩偶虚拟头像进行视频直播。但是，一方面，目前的数字身份伪装技术都是基于特定的数字伪装模板来实现的，其要求平台提供多样化的数字伪装模板来满足不同用户的个性化需求，且需要开发人员持续进行开发更迭。尤其是，在教育互动平台中，为了匹配众多学生用户和教师用户的喜好进行定制开发，会导致平台开发和维护的成本激增。另一方面，虽然在互动教育平台中加入数字伪装技术能够有效提高学生参与互动教育的积极性并保护学生或教师的隐私，但也会导致新的安全隐患，即平台无法对互动用户的学生或教师身份进行有效核验，容易滋生学生冒名参与互动教育的隐患，不利于远程互动教育平台的秩序管理与维护。

针对上述问题，目前业界暂未提出较佳的技术解决方案。

发明内容

本申请提供一种基于数字身份安全防范的互动教育管理方法及系统，用以至少解决现有技术中在教育互动平台中无法较佳地使用数字身份伪装技术的缺陷。

本申请提供一种基于数字身份安全防范的互动教育管理方法，应用于教育平台服务端，包括：在确定检测到从第一用户终端接收到伪装互动请求的情况下，发送活体检测请求至所述第一用户终端；从所述第一用户终端接收响应于所述活体检测请求的第一用户生物特征，根据授权用户信息库中的各个预存储的授权用户信息识别针对所述第一用户生物特征是否存在相匹配的目标授权用户信息；所述第一用户生物特征的特征类型包括声纹特征类型和人脸图像特征；在确定存在所述目标授权身份的情况下，获取所述目标授权用户信息所对应的元数据标签集；所述元数据标签集包含用户属性标签、行为习惯标签、学习评价标签和伪装设置标签；将所述元数据标签集、人脸伪装标签配置、语音伪装标签配置和所述用户生物特征信息输入至数字身份伪装模型，以确定相应的伪装生物特征信息；所述用户属性标签包含以下中的至少一种子标签类型：用户性别、用户年龄和用户身份；所述行为习惯标签包含以下中的至少一种子标签类型：平台登录频率、活动时间段以及提问频率；所述学习评价标签包含以下中的至少一种子标签类型：学习课程、学习成绩、考试通过率以及上传文档内容；所述伪装设置标签包含虚拟形象偏好和/或声音调制设置；其中，所述人脸伪装标签配置预定义了与人脸伪装任务关联的多种标签类型，以及所述语音伪装标签配置预定义了与语音伪装任务关联的多种标签类型；发送伪装互动授权通知至所述第一用户终端；响应于所述互动授权通知，基于所述伪装生物特征信息，对从所述第一用户终端所接收到的教育互动消息中的人脸图像和语音数据进行数字身份伪装处理。

可选地，所述数字身份伪装模型采用混合神经网络，所述数字身份伪装模型包含编码器模块、条件变分自编码器模块、风格迁移网络模块、生成对抗网络模块和元数据标签融合器；所述数字身份伪装模型用于执行包括以下的操作来确定所述伪装生物特征信息：基于所述编码器模块，确定所述用户生物特征信息所对应的生物特征向量；基于所述条件变分自编码器，根据元数据标签集和所述生物特征向量生成潜在空间表示；基于所述风格迁移网络模块，根据所述潜在空间表示、所述语音伪装标签配置和所述元数据标签集生成初始伪装语音特征；基于所述生成对抗网络模块，根据所述潜在空间表示、所述人脸伪装标签配置和所述元数据标签集生成初始伪装人脸特征；基于所述元数据标签融合器，根据所述元数据标签集调整所述初始伪装语音风格特征和所述初始伪装人脸特征信息，输出相应的目标伪装语音风格特征和目标伪装人脸特征信息，以确定所述伪装生物特征信息。

可选地，所述风格迁移网络模块包含内容编码器、风格编码器和音频解码器；所述基于所述风格迁移网络模块，根据所述潜在空间表示、所述语音伪装标签配置和所述元数据标签集生成初始伪装语音特征，包括：基于所述内容编码器从所述潜在空间表示中提取语音内容信息；基于所述风格编码器从所述潜在空间表示中提取语音风格，所述语音风格包含用户音色信息；基于所述音频解码器，根据所述元数据标签集、所述语音伪装标签配置和所提取的语音风格，合成对应所述语音内容信息的初始伪装语音特征。

可选地，所述元数据标签融合器包含嵌入层和基于标签注意力机制的融合层，其中，所述基于所述元数据标签融合器，根据所述元数据标签集调整所述初始伪装语音特征和所述初始伪装人脸特征，输出相应的目标伪装语音风格特征和目标伪装人脸特征信息，包括：基于所述嵌入层，确定所述元数据标签集所对应的元数据嵌入矩阵；利用所述融合层对所述元数据嵌入矩阵进行标签注意力权重校准，并将经校准的元数据嵌入矩阵与所述初始伪装语音特征和所述初始伪装人脸特征分别进行融合，以得到相应的目标伪装语音风格特征和目标伪装人脸特征信息。

可选地，所述混合神经网络的整体损失函数包含面部图像生成损失函数、语音样本生成损失函数；所述面部图像生成损失函数包含对抗损失、特征匹配损失和标签匹配损失；所述语音样本生成损失函数包含变分损失和风格一致性损失；所述整体损失函数是根据所述面部图像生成损失函数和所述语音样本生成损失函数进行加权计算而确定的。

可选地，所述对抗损失为：

其中，G表示用于生成伪装人脸图像的生成器，D表示用于区分真实图像和生成图像的判别器，x表示真实人脸图像数据，z表示随机噪声或潜在空间向量，p_data表示真实人脸图像的数据分布，以及p_z表示随机噪声分布；

所述特征匹配损失为：

其中，D^(f)表示判别器中的特征提取部分；

所述标签匹配损失为：

其中，CE表示交叉熵损失函数，M_face表示对应所述人脸伪装标签配置的各个元数据标签；

所述变分损失为：

其中，q表示使用编码器得到的潜在空间表示，p表示潜在空间表示的先验分布，KL表示KL散度；

所述风格一致性损失为：

其中，f表示风格特征提取函数，M_voice表示对应所述语音伪装标签配置的各个元数据标签；

所述综合损失函数为：

其中，λ_adv,λ_fm,λ_lm,λ_vae,λ_style分别表示相应损失类型所对应的目标损失权重。

可选地，所述方法还包括基于贝叶斯优化模型确定各个所述损失权重：确定针对各个损失类型的权重搜索空间；在所述权重搜索空间中随机选取第一点组，基于所选取的第一点组设置并训练混合神经网络，继而在验证数据集上评估其性能，得到相应的第一平均综合损失；基于所述第一点组和所述第一平均综合损失组成权重-损失对，并利用所述权重-损失对训练GP代理模型；迭代执行代理模型更新操作：利用所述EI获取函数从所述搜索空间中迭代选取第二点组，并基于所述第二点组重新设置所述混合神经网络，以相应地迭代更新所述GP代理模型；在确定检测到所述GP代理模型的超参数变化幅度低于预设阈值时，停止迭代执行所述代理模型更新操作，并根据对应最新迭代轮次的第二点组确定各个所述目标损失权重。

本申请还提供一种基于数字身份安全防范的互动教育管理系统，包括：活体检测单元，用于在确定检测到从第一用户终端接收到伪装互动请求的情况下，发送活体检测请求至所述第一用户终端；用户比对单元，用于从所述第一用户终端接收响应于所述活体检测请求的第一用户生物特征，根据授权用户信息库中的各个预存储的授权用户信息识别针对所述第一用户生物特征是否存在相匹配的目标授权用户信息；所述第一用户生物特征的特征类型包括声纹特征类型和人脸图像特征；标签获取单元，用于在确定存在所述目标授权身份的情况下，获取所述目标授权用户信息所对应的元数据标签集；所述元数据标签集包含用户属性标签、行为习惯标签、学习评价标签和伪装设置标签；伪装信息确定单元，用于将所述元数据标签集、人脸伪装标签配置、语音伪装标签配置和所述用户生物特征信息输入至数字身份伪装模型，以确定相应的伪装生物特征信息；所述用户属性标签包含以下中的至少一种子标签类型：用户性别、用户年龄和用户身份；所述行为习惯标签包含以下中的至少一种子标签类型：平台登录频率、活动时间段以及提问频率；所述学习评价标签包含以下中的至少一种子标签类型：学习课程、学习成绩、考试通过率以及上传文档内容；所述伪装设置标签包含虚拟形象偏好和/或声音调制设置；其中，所述人脸伪装标签配置预定义了与人脸伪装任务关联的多种标签类型，以及所述语音伪装标签配置预定义了与语音伪装任务关联的多种标签类型；授权通知单元，发送伪装互动授权通知至所述第一用户终端；互动伪装单元，响应于所述互动授权通知，基于所述伪装生物特征信息，对从所述第一用户终端所接收到的教育互动消息中的人脸图像和语音数据进行数字身份伪装处理。

本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于数字身份安全防范的互动教育管理方法。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于数字身份安全防范的互动教育管理方法。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于数字身份安全防范的互动教育管理方法。

通过本申请提供的一种基于数字身份安全防范的互动教育管理方法、系统、电子设备及非暂态计算机可读存储介质，能够至少产生如下的技术效果：(1)未成年学生用户可以通过数字身份伪装技术进行远程教育互动，通过人脸特征和语音声纹的伪装，有效保护了学生和教师的个人隐私不会外泄，可以增加学生参与互动教育的积极性，特别是在年轻的学生用户中，提高远程互动教育的趣味性。(2)通过数字身份伪装模型自动融合各类元数据标签，综合考虑用户的用户属性、行为习惯和学习评价等维度，能够自适应生成个性化的伪装生物特征，并且相比于开发多种固定的数字伪装模板，本方案能够有效自动生成符合用户各类元数据标签的伪装特征，在满足互动教育用户的个性化需求的同时，还降低了长期的开发和维护成本。(3)通过活体检测和生物特征识别，在用户活体验证通过后才授权对该用户的互动消息进行数字身份伪装处理，确保了教育平台通过数字身份进行交流沟通的学生和教师的真实身份，从而减少了冒名顶替的安全风险，有助于维护远程互动教育平台的秩序和安全。由此，不仅提高了教育互动平台的用户隐私保护和参与互动的积极性，同时也为平台提供了有效的身份核验机制，既满足了个性化需求，又降低了开发和维护成本，有利于维护远程互动教育平台的秩序和用户信息安全性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请实施例的基于数字身份安全防范的互动教育管理方法的一示例的流程图；

图2示出了根据本申请实施例的数字身份伪装模型的一示例的结构框图；

图3示出了通过贝叶斯优化模型来确定各个损失类型所对应的目标损失权重的一示例的流程图；

图4示出了根据本申请实施例的风格迁移网络模块的一示例的结构框图；

图5示出了根据本申请实施例的元数据标签融合器的一示例的结构框图；

图6示出了根据本申请实施例的基于数字身份安全防范的互动教育管理系统的一示例的结构框图；

图7是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了根据本申请实施例的基于数字身份安全防范的互动教育管理方法的一示例的流程图。

关于本申请实施例方法的执行主体，其可以是任意具有处理计算能力的教育平台服务端，例如云计算平台服务器集群等，以实现为参与互动教育的用户提供数字身份伪装功能。

如图1所示，在步骤S110中，在确定检测到从第一用户终端接收到伪装互动请求的情况下，发送活体检测请求至第一用户终端。

在一些实施方式中，在用户从其终端发起伪装互动请求时，教育平台服务端(例如云计算平台服务器集群)会向用户的终端发送活体检测请求，以验证正在与平台互动的是真实用户，而非程序或非授权实体。由此，确保正在请求进行数字伪装服务的是活体用户，增强平台的安全性，防止非授权访问。

在步骤S120中，从第一用户终端接收响应于活体检测请求的第一用户生物特征，根据授权用户信息库中的各个预存储的授权用户信息识别针对第一用户生物特征是否存在相匹配的目标授权用户信息。

这里，第一用户生物特征的特征类型包括声纹特征类型和人脸图像特征。在一些实施方式中，服务端根据预存储的授权用户信息库中的数据，识别并验证这些生物特征，通过多重认证，以避免出现顶替他人参与教育互动的情况。

在步骤S130中，在确定存在目标授权身份的情况下，获取目标授权用户信息所对应的元数据标签集。

这里，元数据标签集包含用户属性标签、行为习惯标签、学习评价标签和伪装设置标签。在一些实施方式中，一旦确认用户身份，服务端获取与该用户相关联的元数据标签集，例如通过对该用户信息所对应的历史日志进行解析而确定的。

在步骤S140中，将元数据标签集、人脸伪装标签配置、语音伪装标签配置和用户生物特征信息输入至数字身份伪装模型，以确定相应的伪装生物特征信息。

这里，用户属性标签包含以下中的至少一种子标签类型：用户性别、用户年龄和用户身份；行为习惯标签包含以下中的至少一种子标签类型：平台登录频率、活动时间段以及提问频率；学习评价标签包含以下中的至少一种子标签类型：学习课程、学习成绩、考试通过率以及上传文档内容；伪装设置标签包含虚拟形象偏好和/或声音调制设置。

需说明的是，人脸伪装标签配置预定义了与人脸伪装任务关联的多种标签类型，以及语音伪装标签配置预定义了与语音伪装任务关联的多种标签类型。在一些实施方式中，人脸伪装标签配置和语音伪装标签配置可以是由运营人员或用户进行定义和配置的，例如虚拟形象偏好是由用户设置的与人脸伪装任务相关的标签，声音调制设置是由用户设置的与语音伪装任务相关的标签，用户身份是由运营人员定义的与人脸伪装任务和语音伪装任务均相关的标签，等等。

这里，元数据标签是关联到用户数据上的结构化信息，其目的在于描述用户的属性、行为和偏好等信息。这些标签是多维度的，不仅包含了属性特征，还可以包含社会特征、行为习惯以及与互动教育平台使用相关的数据。通过各类元数据标签，能够帮助数字身份伪装模型更精准地生成针对不同用户的个性化伪装。

针对用于确定元数据标签的方法操作进行展开：

第一方面，在注册与配置阶段，用户在平台注册时填写的基本信息(比如年龄、性别、语言)可以直接作为元数据标签的来源。此外，用户也可以在个人设置中选择特定的偏好选项，如虚拟形象风格等。示例性地，在用户注册时选择性别为男性、年龄为20-25岁，系统自动创建“Gender:Male”和“AgeGroup:20-25”的元数据标签。

第二方面，分析用户在平台上的行为，例如他们参与课程的类型、参与讨论的频率、资源的上传下载活动等，用于创建行为习惯标签。例如，系统检测到一个用户经常在晚上活跃、频繁下载编程相关的课程资料，生成“ActivityPattern:Night-time”和“CourseInterest:Programming”的标签。

第三方面，通过运用数据挖掘技术，例如聚类分析和关联规则挖掘，识别用户的隐含特征和习惯，以帮助揭示学习风格和偏好。示例性地，机器学习模型分析用户的在线测试答题模式，推断其学习风格倾向于逻辑解析，于是生成“LearningStyle:Logical”标签。

第四方面，随着时间推移，平台可以使用机器学习模型来预测和更新用户的元数据标签，使标签尽可能地与用户的当前状态和行为保持同步。示例性地，经过一段时间的学习，用户的试卷问答评分有了明显提高，系统便基于最新成绩自动添加了“AcademicPerformance:Improved”标签。

通过上述方式不断地收集、更新和细化用户的元数据标签，平台能够为每个用户提供更个性化、更准确的数字身份伪装和其他相关服务。

这里，数字身份伪装模型可以采用各种适宜的机器学习模型。示例性地，针对面部伪装模型模块，利用条件生成对抗网络(CGAN)，条件是来自元数据标签和生物特征数据，输出是用户对应的虚拟面部图像。针对语音伪装模型模块，通过声音转换网络(VoiceConversion Network)和Meta-Learning策略定制生成声纹，转换或生成独特的语音内容，并与面部模型同步。

在步骤S150中，发送伪装互动授权通知至第一用户终端。

在一些实施方式中，一旦确定了伪装生物特征信息，服务端向用户终端发送伪装互动授权通知。由此，确保用户知晓并同意其使用数字身份伪装技术进行教育互动的目标。

在步骤S160中，响应于互动授权通知，基于伪装生物特征信息，对从第一用户终端所接收到的教育互动消息中的人脸图像和语音数据进行数字身份伪装处理。

在一些实施方式中，在该用户后续发送的教育互动消息时，服务端可以对消息中的人脸图像和语音数据进行数字身份伪装处理。由此，确保了在互动过程中用户的真实身份得到保护，同时也维护了互动教育的趣味性和参与度，尤其有助于保护未成年用户的个人隐私的安全性。

在本申请实施例中，提供了基于数字身份伪装技术的互动教育管理平台，通过确保用户身份的真实性和安全性，实现了在提高用户隐私保护的同时，保持教育平台的互动性和个性化体验，增强用户对平台的信任和满意度。

图2示出了根据本申请实施例的数字身份伪装模型的一示例的结构框图。

如图2所示，数字身份伪装模型200采用混合神经网络，数字身份伪装模型200包含编码器模块210、条件变分自编码器模块220、风格迁移网络模块230、生成对抗网络模块240和元数据标签融合器250。由此，提供了混合神经网络来生成用于数字身份伪装的生物特征信息，在混合神经网络中结合了生成对抗网络(GAN)的能力，以及条件变分自编码器提供的样本生成多样性。

数字身份伪装模型200用于执行包括以下的操作来确定所述伪装生物特征信息：

基于编码器模块210，确定用户生物特征信息所对应的生物特征向量。示例性地，编码器模块210可以采用一个深度神经网络，用于从用户的原始生物特征(语音和面部图像)中提取特征管理，以捕捉到足够的信息以允许准确的身份伪装。

基于条件变分自编码器(条件VAE)220，根据元数据标签集和所述生物特征向量生成潜在空间表示。由此，从用户的元数据标签和编码器输出的特征中生成潜在空间的表示，这些表示能够指导伪装特征的生成。

基于风格迁移网络模块230，根据潜在空间表示、语音伪装标签配置和元数据标签集生成初始伪装语音特征。由此，实现基于语音样本的风格迁移，结合潜在空间的表示和元数据标签以生成符合伪装标准的语音特性。

基于生成对抗网络模块240，根据潜在空间表示、人脸伪装标签配置和元数据标签集生成初始伪装人脸特征。由此，结合潜在空间的表示和相关联的元数据标签来生成伪装面部图像，通过对抗训练来增强生成图像的真实性。

基于元数据标签融合器250，根据元数据标签集调整初始伪装语音风格特征和初始伪装人脸特征信息，输出相应的目标伪装语音风格特征和目标伪装人脸特征信息，以确定伪装生物特征信息。由此，为了确保生成的伪装特征符合用户设定的伪装要求，该网络部分根据融合的元数据标签调整生成对抗网络和变分自编码器的输出。

以下将对数字身份伪装模型的细节做进一步展开：

数字身份伪装模型的输入特征维度为：

用户生物特征信息B＝{B_face,B_voice}，其中B_face表示用户的面部图像数据，B_voice表示用户的语音样本；

元数据标签集M＝{M_user,M_habit,M_result,M_appearance}，M_user表示用户属性标签，M_habit表示行为习惯标签，M_result表示学习评价标签，以及M_appearance表示伪装设置标签

数字身份伪装模型的输入为：

伪装生物特征信息其中/>表示伪装人脸特征，/>表示伪装语音特征。

针对数字身份伪装模型的训练优化过程，包含各模块的独立训练优化和整体模型的联合优化。

具体地，对编码器模块进行预训练，使得其能够从原始生物特征提取高质量的特征。对条件VAE进行训练，以通过优化重构损失和KL散度损失，训练条件VAE来生成能够用于生成伪装特征的潜在表示。对风格迁移网络模块进行训练，以利用风格迁移技术，结合潜在空间的表示和元数据标签，优化使得生成的语音样本与所需伪装风格一致。对生成对抗网络模块进行训练，以使其生成伪装人脸图像，其中生成器获得潜在表示和元数据标签，判别器学习区分真实和生成的面部图像。对元数据标签融合器进行训练，使得元数据标签融合器融合元数据标签和控制生成结果的网络，确保输出不仅真实，而且匹配用户的伪装偏好。最后，需要在所有网络组件训练到一定程度后，进行联合优化，以确保语音和面部特征的伪装结果在风格上保持一致并满足用户设定。

通过本申请实施例提供的混合神经网络的模型，能够确保生成的伪装生物特征既保留用户的个性化属性，同时又能有效地隐藏真实身份，为用户在互动教育平台上提供安全且富有个性的体验。

进一步地，混合神经网络的整体损失函数包含面部图像生成损失函数、语音样本生成损失函数。面部图像生成损失函数包含对抗损失、特征匹配损失和标签匹配损失，语音样本生成损失函数包含变分损失和风格一致性损失，整体损失函数是根据面部图像生成损失函数和语音样本生成损失函数进行加权计算而确定的。

在混合神经网络模型中，损失函数需要同时考虑到生成的生物特征的质量和这些特征与用户元数据标签的匹配度。损失函数通常包括几个部分：重构损失、对抗损失、风格一致性损失和正则化项。

具体地，所述对抗损失为：

所述特征匹配损失为：

其中，D^(f)表示判别器中的特征提取部分；

所述标签匹配损失为：

所述变分损失为：

所述风格一致性损失为：

所述综合损失函数为：

这些损失函数各自针对模型的不同方面进行优化，最终目标是使模型能生成高质量、风格一致且与用户设定的伪装设置匹配的生物特征。通过调整损失权重，可以根据实际应用场景优化模型的性能，确保在用户匿名性和生物特征真实性之间取得平衡。

在本申请实施例的一些示例中，上述λ_adv,λ_fm,λ_lm,λ_vae,λ_style的设定，在一个示例中，可以是由技术专家进行定义的，而在另一示例中，其还可以由智能化方式进行确定。具体地，通过使用“贝叶斯优化”来确定各个损失函数权重。

具体地，确定针对各个损失类型的权重搜索空间。在权重搜索空间中随机选取第一点组，基于所选取的第一点组设置并训练混合神经网络，继而在验证数据集上评估其性能，得到相应的第一平均综合损失。基于第一点组和第一平均综合损失组成权重-损失对，并利用权重-损失对训练GP代理模型。迭代执行代理模型更新操作：利用EI获取函数从搜索空间中迭代选取第二点组，并基于第二点组重新设置混合神经网络，以相应地迭代更新GP代理模型。在确定检测到GP代理模型的超参数变化幅度低于预设阈值时，停止迭代执行代理模型更新操作，并根据对应最新迭代轮次的第二点组确定各个目标损失权重。

图3示出了通过贝叶斯优化模型来确定各个损失类型所对应的目标损失权重的一示例的流程图。

如图3所示，在步骤S310中，定义搜索空间。

确定每个损失权重的搜索范围，例如λ_adv,λ_fm,λ_lm,λ_vae,λ_style可能的取值区间为[0.1,1]。

在步骤S320中，选择代理模型与获取函数。

这里，选择高斯过程(Gaussian Process,GP)模型来作为代理模型。高斯过程是一种灵活的、用来描述未知函数的概率模型，它可以给出任意查询点的概率预测以及不确定性估计。此外，选用一个获取函数，例如预期改进(Expected Improvement，EI)。

在步骤S330中，初始化数据。

这里，在搜索空间中随机选取一组初始点，或者使用拉丁超立方取样等设计的取样方法。

在步骤S340中，迭代优化。

-用当前的权重设置训练混合神经网络，并在验证数据集上评估其性能，例如通过计算验证集上的损失函数总和。

-在优化目标函数(model validation loss)的观测数据集上拟合或更新GP模型。

-根据EI得到的信息选择下一组权重进行评估。EI理论上选择了在当前模型知识基础上改进最大的点。

在步骤S350中，更新与选择下一点。

将新获取的数据点(权重配置及其性能)添加到观测数据集中，用来更新GP模型。更新完后，GP模型反映了对目标函数地形(在损失权重空间中)的最新理解。GP模型训练完成后，用EI获取函数选取下一个最有可能改善性能的权重组合。

在步骤S360中，重复步骤S340-S350，直到满足停止条件，例如优化步数达到先前设定的最大迭代次数，或者EI表明接下来的改进不大。

在步骤S370中，选择最佳权重。

具体地，在贝叶斯优化结束时，选择有最好验证集性能的权重配置作为最优解，此时可以使用这组权重来设置数字身份伪装模型中各个模型组件的相对作用权重。

通过本申请实施例，使用贝叶斯优化进行模型参数调节可以显著提高模型性能，同时节省位于大规模参数空间茫无目标搜索的时间和资源。

图4示出了根据本申请实施例的风格迁移网络模块的一示例的结构框图。

对于音频风格迁移，网络的目标是捕捉到源语音的内容，同时模仿目标语音的风格。这样，可以生成不同风格的音频，而内容仍然保持一致。这在伪装技术中特别有用，因为用户可能希望改变自己的声音特征以保持隐私。

如图4所示，风格迁移网络模块400包含内容编码器410、风格编码器420和音频解码器430。

基于内容编码器410从潜在空间表示中提取语音内容信息。示例性地，内容编码器常常包括一系列卷积层和循环层，以处理序列数据的时域特性。

基于风格编码器420从潜在空间表示中提取语音风格，语音风格包含用户音色信息。这里，语音风格还可以包含更多的信息，例如音调、节奏等，以满足高风格迁移匹配度。示例性地，通过GloVe向量或Skip-Thought向量来处理样本，以使用提取全局特征的网络设计。

基于所述音频解码器430，根据元数据标签集、语音伪装标签配置和所提取的语音风格，合成对应语音内容信息的初始伪装语音特征。这里，解码器可以基于卷积或循环神经网络(如LSTM或GRU)，并且可能涉及转置卷积(逆卷积过程)来恢复时序信号。

在一些实施方式中，风格迁移网络模块400还可以包含判别器(未示出)，其用于区分生成的语音和真实样本的差异，通过对抗训练提高生成样本的自然度。由此，使用对抗训练，确保生成的语音不容易被判别器区分开，保障在听感上的自然度。

通过上述方法，风格迁移网络能够根据提供的样本，生成听起来似乎出自不同说话者的语音，但实际上是用户原始语音的改编，为数字身份伪装提供了得力工具。

图5示出了根据本申请实施例的元数据标签融合器的一示例的结构框图。

在数字身份伪装模型中，元数据标签融合器的作用是整合用户的元数据信息，确保生成的伪装生物特征与用户的身份、行为习惯以及伪装偏好设置相匹配。该融合器在模型中充当一个关键部分，负责控制和引导生成网络如何利用用户提供的元数据标签。

如图5所示，元数据标签融合器500包含嵌入层510和基于标签注意力机制的融合层520。

基于嵌入层510，确定元数据标签集所对应的元数据嵌入矩阵。

在一些实施方式中，将元数据标签集中离散的元数据标签(如用户类型、行为偏好)转换为密集的向量表示，例如通过一个可训练的嵌入矩阵完成，相似的元数据标签会被映射到相近的向量。

利用融合层520对元数据嵌入矩阵进行标签注意力权重校准，并将经校准的元数据嵌入矩阵与所述初始伪装语音特征和所述初始伪装人脸特征分别进行融合，以得到相应的目标伪装语音风格特征和目标伪装人脸特征信息。

这里，通过使用注意力机制来权衡不同标签的影响，利用嵌入层对得到的密集向量和生物特征信息进行深度融合。示例性地，一名教师希望建立一个缓和、友好的数字身份进行在线授课，教师的元数据包含了“UserType:Teacher”和“AvatarPreference:Cartoon”，在预处理步骤中，这些标签首先会被嵌入层转换为高维向量，进而嵌入向量基于注意力权重与教师的生物特征(面部图像、声音样本)在融合层中进行融合。由此，帮助生成的伪装身份不仅符合用于维护隐私的技术需要，而且还符合用户特定的偏好和身份特征。

通过本申请实施例，采用注意力机制可以帮助模型更好地理解和加权不同的元数据标签，从而更精准地影响生成的伪装特征。注意力机制可以允许模型为不同的标签分配不同的重要程度，这在综合多样化的用户元数据(如角色类型、行为习惯、个人喜好)至关重要。

以下是基于注意力机制的融合层的示例结构：

如上面所描述的一样，在嵌入层，所有的元数据标签被映射到一个高维空间，生成连续的向量表示(或嵌入)，例如如果是文本标签，可以使用词嵌入如Word2Vec或BERT。

在注意力权重计算部分，使用注意力分数计算函数来为每个元数据标签分配一个权重。这个分数通过计算嵌入向量和表征全局上下文信息的查询向量(query vector)之间的相关性来获得。例如，这可以是一个点积操作，后接一个softmax函数。

在特征加权与融合部分，将计算得到的注意力权重应用于对应的嵌入向量，以突出重要标签的影响。进而，加权后的嵌入向量可以通过求和或者加权平均来合并成单一的表示向量。

在与生物特征融合部分，将注意力融合得到的元数据特征向量和用户的生物特征(如声音、面部图像特征)通过进一步的网络层(例如全连接层)进行混合，以生成最终用于控制伪装生成模型的特征向量。

针对注意力融合层的训练过程可按照下列两方面步骤进行：在前向传播方面，在进行标准的前向传播过程中，用户的生物特征和元数据标签通过注意力融合层生成控制生成模型的融合向量。在损失反向传播方面：损失函数计算将涉及到生成的伪装特征与用户预期的伪装特征之间的差异度量。这些差异(损失)会通过网络反向传播，优化注意力融合层的参数。

结合业务应用场景来说：

假设有一个平台用户，他希望在教育平台上维持匿名。他选择了以下元数据标签作为他的个人伪装设置：“UserRole:Teacher”，“BehavioralPattern:Interactive”和“VisualPreferences:Animated”。

首先，每个标签首先被嵌入成高维向量表示。然后，注意力权重计算函数根据用户的嵌入标签和一个查询向量计算权重。进而，各个嵌入向量根据计算出的注意力权重获得加权，突出了特定的偏好。然后，将这些加权嵌入向量与用户的生物特征(如语音样本或面部图像)结合，生成一组综合特征向量。最终的融合特征向量会被送入样式迁移网络和/或生成对抗网络，以生成符合用户元数据标签和生物特征的伪装语音和伪装人脸图像。

在这个例子中可以看出，注意力机制使得模型能够根据用户设置的优先级调整语音和视觉伪装的特性，如突出互动性或隐匿性的视觉效果，从而确保生成的数字身份既保护用户的隐私，又符合用户的个性化需求。

下面对本申请提供的基于数字身份安全防范的互动教育管理系统进行描述，下文描述的基于数字身份安全防范的互动教育管理系统与上文描述的基于数字身份安全防范的互动教育管理方法可相互对应参照。

图6示出了根据本申请实施例的基于数字身份安全防范的互动教育管理系统的一示例的结构框图。

如图6所示，一种基于数字身份安全防范的互动教育管理系统600，包括活体检测单元610、用户比对单元620、标签获取单元630、伪装信息确定单元640、授权通知单元650和互动伪装单元660。

活体检测单元610用于在确定检测到从第一用户终端接收到伪装互动请求的情况下，发送活体检测请求至所述第一用户终端。

用户比对单元620用于从所述第一用户终端接收响应于所述活体检测请求的第一用户生物特征，根据授权用户信息库中的各个预存储的授权用户信息识别针对所述第一用户生物特征是否存在相匹配的目标授权用户信息；所述第一用户生物特征的特征类型包括声纹特征类型和人脸图像特征。

标签获取单元630用于在确定存在所述目标授权身份的情况下，获取所述目标授权用户信息所对应的元数据标签集；所述元数据标签集包含用户属性标签、行为习惯标签、学习评价标签和伪装设置标签。

伪装信息确定单元640用于将所述元数据标签集、人脸伪装标签配置、语音伪装标签配置和所述用户生物特征信息输入至数字身份伪装模型，以确定相应的伪装生物特征信息；所述用户属性标签包含以下中的至少一种子标签类型：用户性别、用户年龄和用户身份；所述行为习惯标签包含以下中的至少一种子标签类型：平台登录频率、活动时间段以及提问频率；所述学习评价标签包含以下中的至少一种子标签类型：学习课程、学习成绩、考试通过率以及上传文档内容；所述伪装设置标签包含虚拟形象偏好和/或声音调制设置；其中，所述人脸伪装标签配置预定义了与人脸伪装任务关联的多种标签类型，以及所述语音伪装标签配置预定义了与语音伪装任务关联的多种标签类型。

授权通知单元650用于发送伪装互动授权通知至所述第一用户终端。

互动伪装单元660用于响应于所述互动授权通知，基于所述伪装生物特征信息，对从所述第一用户终端所接收到的教育互动消息中的人脸图像和语音数据进行数字身份伪装处理。

在一些实施例中，本申请实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本申请上述基于数字身份安全防范的互动教育管理方法。

在一些实施例中，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述基于数字身份安全防范的互动教育管理方法。

在一些实施例中，本申请实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行基于数字身份安全防范的互动教育管理方法。

图7是本申请另一实施例提供的执行基于数字身份安全防范的互动教育管理方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行基于数字身份安全防范的互动教育管理方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于数字身份安全防范的互动教育管理方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于数字身份安全防范的互动教育管理方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的基于数字身份安全防范的互动教育管理方法。

上述产品可执行本申请实施例所提供的基于数字身份安全防范的互动教育管理方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于数字身份安全防范的互动教育管理方法，应用于教育平台服务端，包括：

在确定检测到从第一用户终端接收到伪装互动请求的情况下，发送活体检测请求至所述第一用户终端；

从所述第一用户终端接收响应于所述活体检测请求的第一用户生物特征，根据授权用户信息库中的各个预存储的授权用户信息识别针对所述第一用户生物特征是否存在相匹配的目标授权用户信息；所述第一用户生物特征的特征类型包括声纹特征类型和人脸图像特征；

在确定存在所述目标授权身份的情况下，获取所述目标授权用户信息所对应的元数据标签集；所述元数据标签集包含用户属性标签、行为习惯标签、学习评价标签和伪装设置标签；

将所述元数据标签集、人脸伪装标签配置、语音伪装标签配置和所述用户生物特征信息输入至数字身份伪装模型，以确定相应的伪装生物特征信息；所述用户属性标签包含以下中的至少一种子标签类型：用户性别、用户年龄和用户身份；所述行为习惯标签包含以下中的至少一种子标签类型：平台登录频率、活动时间段以及提问频率；所述学习评价标签包含以下中的至少一种子标签类型：学习课程、学习成绩、考试通过率以及上传文档内容；所述伪装设置标签包含虚拟形象偏好和/或声音调制设置；其中，所述人脸伪装标签配置预定义了与人脸伪装任务关联的多种标签类型，以及所述语音伪装标签配置预定义了与语音伪装任务关联的多种标签类型；

发送伪装互动授权通知至所述第一用户终端；

响应于所述互动授权通知，基于所述伪装生物特征信息，对从所述第一用户终端所接收到的教育互动消息中的人脸图像和语音数据进行数字身份伪装处理。

2.根据权利要求1所述的方法，其中，所述数字身份伪装模型采用混合神经网络，所述数字身份伪装模型包含编码器模块、条件变分自编码器模块、风格迁移网络模块、生成对抗网络模块和元数据标签融合器；

所述数字身份伪装模型用于执行包括以下的操作来确定所述伪装生物特征信息：

基于所述编码器模块，确定所述用户生物特征信息所对应的生物特征向量；

基于所述条件变分自编码器，根据元数据标签集和所述生物特征向量生成潜在空间表示；

基于所述风格迁移网络模块，根据所述潜在空间表示、所述语音伪装标签配置和所述元数据标签集生成初始伪装语音特征；

基于所述生成对抗网络模块，根据所述潜在空间表示、所述人脸伪装标签配置和所述元数据标签集生成初始伪装人脸特征；

基于所述元数据标签融合器，根据所述元数据标签集调整所述初始伪装语音风格特征和所述初始伪装人脸特征信息，输出相应的目标伪装语音风格特征和目标伪装人脸特征信息，以确定所述伪装生物特征信息。

3.根据权利要求2所述的方法，其中，所述风格迁移网络模块包含内容编码器、风格编码器和音频解码器；

所述基于所述风格迁移网络模块，根据所述潜在空间表示、所述语音伪装标签配置和所述元数据标签集生成初始伪装语音特征，包括：

基于所述内容编码器从所述潜在空间表示中提取语音内容信息；

基于所述风格编码器从所述潜在空间表示中提取语音风格，所述语音风格包含用户音色信息；

基于所述音频解码器，根据所述元数据标签集、所述语音伪装标签配置和所提取的语音风格，合成对应所述语音内容信息的初始伪装语音特征。

4.根据权利要求2所述的方法，其中，所述元数据标签融合器包含嵌入层和基于标签注意力机制的融合层；

其中，所述基于所述元数据标签融合器，根据所述元数据标签集调整所述初始伪装语音特征和所述初始伪装人脸特征，输出相应的目标伪装语音风格特征和目标伪装人脸特征信息，包括：

基于所述嵌入层，确定所述元数据标签集所对应的元数据嵌入矩阵；

利用所述融合层对所述元数据嵌入矩阵进行标签注意力权重校准，并将经校准的元数据嵌入矩阵与所述初始伪装语音特征和所述初始伪装人脸特征分别进行融合，以得到相应的目标伪装语音风格特征和目标伪装人脸特征信息。

5.根据权利要求2所述的方法，其中，所述混合神经网络的整体损失函数包含面部图像生成损失函数、语音样本生成损失函数；

所述面部图像生成损失函数包含对抗损失、特征匹配损失和标签匹配损失；

所述语音样本生成损失函数包含变分损失和风格一致性损失；

所述整体损失函数是根据所述面部图像生成损失函数和所述语音样本生成损失函数进行加权计算而确定的。

6.根据权利要求5所述的方法，其中，所述对抗损失为：

所述特征匹配损失为：

其中，D^(f)表示判别器中的特征提取部分；

所述标签匹配损失为：

所述变分损失为：

所述风格一致性损失为：

所述综合损失函数为：

7.根据权利要求6所述的方法，其中，所述方法还包括基于贝叶斯优化模型确定各个所述损失权重：

确定针对各个损失类型的权重搜索空间；

在所述权重搜索空间中随机选取第一点组，基于所选取的第一点组设置并训练混合神经网络，继而在验证数据集上评估其性能，得到相应的第一平均综合损失；

基于所述第一点组和所述第一平均综合损失组成权重-损失对，并利用所述权重-损失对训练GP代理模型；

迭代执行代理模型更新操作：利用所述EI获取函数从所述搜索空间中迭代选取第二点组，并基于所述第二点组重新设置所述混合神经网络，以相应地迭代更新所述GP代理模型；

在确定检测到所述GP代理模型的超参数变化幅度低于预设阈值时，停止迭代执行所述代理模型更新操作，并根据对应最新迭代轮次的第二点组确定各个所述目标损失权重。

8.一种基于数字身份安全防范的互动教育管理系统，包括：

活体检测单元，用于在确定检测到从第一用户终端接收到伪装互动请求的情况下，发送活体检测请求至所述第一用户终端；

用户比对单元，用于从所述第一用户终端接收响应于所述活体检测请求的第一用户生物特征，根据授权用户信息库中的各个预存储的授权用户信息识别针对所述第一用户生物特征是否存在相匹配的目标授权用户信息；所述第一用户生物特征的特征类型包括声纹特征类型和人脸图像特征；

标签获取单元，用于在确定存在所述目标授权身份的情况下，获取所述目标授权用户信息所对应的元数据标签集；所述元数据标签集包含用户属性标签、行为习惯标签、学习评价标签和伪装设置标签；

伪装信息确定单元，用于将所述元数据标签集、人脸伪装标签配置、语音伪装标签配置和所述用户生物特征信息输入至数字身份伪装模型，以确定相应的伪装生物特征信息；所述用户属性标签包含以下中的至少一种子标签类型：用户性别、用户年龄和用户身份；所述行为习惯标签包含以下中的至少一种子标签类型：平台登录频率、活动时间段以及提问频率；所述学习评价标签包含以下中的至少一种子标签类型：学习课程、学习成绩、考试通过率以及上传文档内容；所述伪装设置标签包含虚拟形象偏好和/或声音调制设置；其中，所述人脸伪装标签配置预定义了与人脸伪装任务关联的多种标签类型，以及

所述语音伪装标签配置预定义了与语音伪装任务关联的多种标签类型；

授权通知单元，用于发送伪装互动授权通知至所述第一用户终端；

互动伪装单元，用于响应于所述互动授权通知，基于所述伪装生物特征信息，对从所述第一用户终端所接收到的教育互动消息中的人脸图像和语音数据进行数字身份伪装处理。