CN116127301A - 模型的训练方法、数据处理方法及装置 - Google Patents
模型的训练方法、数据处理方法及装置 Download PDFInfo
- Publication number
- CN116127301A CN116127301A CN202111326663.9A CN202111326663A CN116127301A CN 116127301 A CN116127301 A CN 116127301A CN 202111326663 A CN202111326663 A CN 202111326663A CN 116127301 A CN116127301 A CN 116127301A
- Authority
- CN
- China
- Prior art keywords
- dimension
- task model
- hidden code
- code
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Abstract
本申请实施例提供了人工智能领域中的一种模型的训练方法、数据处理方法及装置,该训练方法包括:提取第一任务模型对第一样本数据的第一隐编码中的至少一个第一维度的关注度,第一任务模型用于预测第一隐编码对应的敏感信息,以减少至少一个第一维度的关注度为目标调整至少一个第一维度,以得到调整后的第一隐编码,基于调整后的第一隐编码和第一样本数据对应的第一标签训练第二任务模型。本申请的方法能够有效消减模型的偏见,有利于保证模型的推理结果的公平性。
Description
技术领域
本申请实施例涉及人工智能领域,并且更具体地,涉及一种模型的训练方法、数据处理方法及装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
随着AI模型的效率的不断提高,应用范围也更加广泛。然而,一些AI模型的推理结果存在偏见,无法保证模型的公平性。带有偏见的AI模型倾向于根据数据中与任务结果具有高度相关性的敏感特征(例如,性别)或者代理特征(例如,住址)做出判断,而忽略正确的逻辑推理关系。例如,在批核贷款等任务中,正确的逻辑推理关系应该是依据申请人的财务情况以及能力状况等做出判断,但带有偏见的AI模型可能会以性别或住址等为依据得到推理结果。
现有的方案中通过表示学习,将原始数据投射到隐空间,得到隐编码,在该过程中移除敏感信息,利用脱敏的向量训练下游任务模型,从而消除下游任务模型的偏见。例如,通过解离表示学习,将原始数据投影到隐空间,得到隐编码,在该过程中,尽可能将每一个变量因子单独编码为一个维度,从而实现解离;移除与敏感特征的相关性较高的维度,以实现偏见消减。然而,该方案的偏见消减效果依赖于解离效果。高维数据中难以准确确定变量因子的数量,也就难以保证将每一个变量因子单独编码,影响解离效果,进而影响偏见消减效果。
如何消减模型的偏见成为一个亟待解决的问题。
发明内容
本申请实施例提供一种模型的训练方法、数据处理方法及装置,能够有效消减模型的偏见,有利于保证模型的推理结果的公平性。
第一方面,提供了一种模型的训练方法,包括:获取第一样本数据的第一隐编码和第一样本数据对应的第一标签;提取第一任务模型对第一隐编码中的至少一个第一维度的关注度,第一任务模型用于预测第一隐编码对应的敏感信息;调整第一隐编码,其中,该调整包括以减少至少一个第一维度的关注度为目标调整至少一个第一维度;基于调整后的第一隐编码和第一标签训练第二任务模型。
根据本申请实施例的方案,通过第一任务模型对第一隐编码中的维度的关注度反映敏感信息与第一隐编码中的维度的相关性程度,调整第一隐编码以减少第一任务模型对第一隐编码中的维度的关注度,即减少与敏感信息相关的维度的关注度,从而减少对敏感信息的关注。由于第一任务模型和第二任务模型均使用梯度下降法优化参数,因此,基于调整后的第一隐编码训练第二任务模型,能够使得第二任务模型朝着减少关注敏感信息的方向调整参数,有利于消减训练好的第二任务模型的偏见,保证训练好的第二任务模型的公平性。
同时,本申请实施例的方案对于第二任务模型的偏见消减效果不依赖于第一隐编码是否支持解离,也不依赖于第一隐编码的解离效果,应用场景广泛。
同时,本申请实施例的方案中基于第一任务模型对第一隐编码中的至少一个第一维度的关注度调整该至少一个第一维度,能够细粒度地去除敏感信息,避免移除整个维度导致的第一隐编码中的非敏感信息丢失,从而保证了第二任务模型的训练效果。
第一样本数据的第一编码是通过编码器对第一样本数据进行处理得到的。
编码器可以采用现有的表示学习方法中的编码器,例如,变分自编码器(variational autoencoder,VAE)。
标签用于指示样本数据对应的真值(ground truth)。一个样本数据可以对应一个或多个不同类型的标签。不同类型的标签分别用于指示该样本数据对应的不同类型的信息中的真值,或者说,用于指示该样本数据在不同任务中对应的真值,即不同任务模型的目标输出。
第一标签即为第二任务模型的训练过程所需的标签,具体地,第一标签即为训练过程中第二任务模型的目标输出。
敏感信息可以包括受保护的信息。或者说,敏感信息可以包括与第二任务模型的偏见相关性较高的信息。或者说,敏感信息可以包括影响第二任务模型的推理结果的公平性的信息。也就是说,敏感信息可以包括不希望第二任务模型关注的信息。
示例性地,第一任务模型对第一隐编码中的至少一个第一维度的关注度可以通过第一任务模型在第一隐编码处的梯度确定。
结合第一方面,在第一方面的某些实现方式中,第一任务模型对第一隐编码中的至少一个第一维度的关注度可以根据以下至少一项:第一任务模型对应的显著图、第一任务模型对应的激活图或第一任务模型对应的注意力图等。
这样可以利用现有的模块,减少运算量,提高处理效率。
结合第一方面,在第一方面的某些实现方式中,训练方法还包括:提取第二任务模型对第一隐编码中的至少一个第二维度的关注度;以及该调整还包括:以增大至少一个第二维度的关注度为目标调整至少一个第二维度。
本申请的方案中,基于第一任务模型对至少一个第一维度的关注度调整了该至少一个第一维度,该调整可能会降低第二任务模型的精度。
根据本申请实施例的方案,通过第二任务模型对第一隐编码中的维度的关注度反映目标任务信息与第一隐编码中的维度的相关性程度,细粒度地调整第一隐编码以增加第二任务模型对第一隐编码中的维度的关注度,有利于增加与目标任务信息相关的维度的关注度,从而增加对目标任务信息的关注,基于调整后的第一隐编码训练第二任务模型,能够使得第二任务模型朝着增加关注目标任务信息的方向调整参数,有利于保证第二任务模型对于目标任务结果判断的准确性。即本申请的方案能够在消减第二任务模型的偏见的同时,进一步减少第二任务模型的精度的损失,或者说,细粒度地补偿第二任务模型的精度损失,保证了模型的训练效果。
示例性地,第二任务模型对第一隐编码中的至少一个第二维度的关注度可以通过第二任务模型在第一隐编码处的梯度确定。
结合第一方面,在第一方面的某些实现方式中,第二任务模型对第一隐编码中的至少一个第二维度的关注度可以根据以下至少一项:第二任务模型对应的显著图、第二任务模型对应的激活图或第二任务模型对应的注意力图等。
这样可以利用现有的模块,减少运算量,提高处理效率。
结合第一方面,在第一方面的某些实现方式中,调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量在目标范围内。
示例性地,调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量在目标范围内,可以为:调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量的绝对值小于或等于第一阈值。第一阈值可以根据需要设定。
本申请实施例的方案通过将调整后的第一隐编码的变化量控制在目标范围内,避免第一隐编码过度失真,有利于保证第二任务模型的训练效果,即有利于保证训练后的第二任务模型的精度。
结合第一方面,在第一方面的某些实现方式中,至少一个第一维度包括第一隐编码的全部维度。
这样,通过第一任务模型对第一隐编码中的各个维度的关注度反映各个维度中的敏感信息的含量,全面准确定位第一隐编码所包含的敏感信息和代理信息,基于此调整第一隐编码能够避免遗漏代理信息,有利于削弱第二任务模型对敏感信息的关注,提高第二任务模型的偏见消减效果。
结合第一方面,在第一方面的某些实现方式中,该至少一个第一维度可以包括第一任务模型对第一隐编码的所有维度的关注度中关注度最高的部分维度。
这样,能够保证与敏感信息相关性最高的至少一个维度得到调整,有效减少对敏感信息的关注,保证了第二任务模型的偏见消减效果。
结合第一方面,在第一方面的某些实现方式中,以减少至少一个第一维度的关注度为目标调整至少一个第一维度,包括:以减少第一任务模型对该至少一个第一维度的关注度为目标,根据该至少一个第一维度的关注度调整该至少一个第一维度,以得到调整后的第一隐编码,调整后的第一隐编码中的该至少一个第一维度相对于第一样本数据的第一隐编码中的该至少一个第一维度的变化量与该至少一个第一维度的关注度呈正相关关系。
这样,与敏感信息相关性越高的维度的调整幅度越高,与敏感信息相关性越小的维度的调整幅度越小,这样能够保证细粒度地去除敏感信息,在有效减少对敏感信息的关注的同时,尽可能保留非敏感信息,保证了第二任务模型的精度。
结合第一方面,在第一方面的某些实现方式中,至少一个第二维度包括第一隐编码的全部维度。
这样,通过第二任务模型对第一隐编码中的各个维度的关注度反映各个维度中的目标任务信息的含量,全面定位第一隐编码所包含的目标任务信息,基于此调整第一隐编码能够避免遗漏目标任务信息,有利于提高第二任务模型的精度。
结合第一方面,在第一方面的某些实现方式中,该至少一个第二维度可以包括第二任务模型对第一隐编码的所有维度的关注度中关注度最高的部分维度。
这样,能够保证与目标任务信息相关性最高的至少一个维度得到调整,有效增加对目标任务信息的关注,保证了第二任务模型的预测精度。
结合第一方面,在第一方面的某些实现方式中,以减少至少一个第一维度的关注度为目标调整至少一个第一维度,以增大至少一个第二维度的关注度为目标调整至少一个第二维度,以得到调整后的第一隐编码包括:以减少第一任务模型对该至少一个第一维度的关注度为目标,根据该至少一个第一维度的关注度调整该至少一个第一维度,以增加第二任务模型对该至少一个第二维度的关注度为目标,根据该至少一个第二维度的关注度调整该至少一个第二维度,以得到调整后的第一隐编码,调整后的第一隐编码中的至少一个第一维度相对于第一样本数据的第一隐编码中的至少一个第一维度的变化量与该至少一个第一维度的关注度呈正相关关系,调整后的第一隐编码中的至少一个第二维度相对于第一样本数据的第一隐编码中的至少一个第二维度的变化量与该至少一个第二维度的关注度呈正相关关系。
这样,与敏感信息相关性越高的维度的调整幅度越高,与敏感信息相关性越小的维度的调整幅度越小,与目标任务信息相关性越高的维度的调整幅度越高,与目标任务信息相关性越小的维度的调整幅度越小,这样能够保证细粒度地去除敏感信息,同时细粒度补偿第二任务模型的精度,在有效减少对敏感信息的关注的同时,有效增加对目标任务信息的关注,进一步保证了第二任务模型的精度。
结合第一方面,在第一方面的某些实现方式中,第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,第二标签用于指示第二样本数据对应的敏感信息的真值。
第二方面,提供了一种数据处理方法,包括:获取待处理的数据的第三隐编码;利用第二任务模型对第三隐编码进行处理,以得到待处理的数据的处理结果,其中,第二任务模型是基于调整后的第一隐编码和第一样本数据对应的第一标签训练得到的,调整后的第一隐编码是通过调整第一样本数据的第一隐编码得到的,该调整包括:以减少第一任务模型对第一样本数据的第一隐编码中的至少一个第一维度的关注度为目标调整至少一个第一维度得到的,第一任务模型用于预测第一隐编码对应的敏感信息。
根据本申请实施例的方案,通过第一任务模型对第一隐编码中的维度的关注度反映敏感信息与第一隐编码中的维度的相关性程度,调整第一隐编码以减少第一任务模型对第一隐编码中的维度的关注度,即减少与敏感信息相关的维度的关注度,从而减少对敏感信息的关注,基于调整后的第一隐编码训练第二任务模型,能够使得第二任务模型朝着减少关注敏感信息的方向调整参数,有利于消减训练好的第二任务模型的偏见,保证训练好的第二任务模型的公平性。
待处理的数据包括图像数据、语音数据或文本数据等。
待处理的数据的类型与第二任务模型的任务有关。例如,第二任务模型用于图像处理任务,则该待处理的数据可以为图像。具体地,图像处理任务包括图像分类、图像检测、图像分割、图像识别或图像生成等。再如,第二任务模型用于文本处理任务,则该待处理的数据可以为文本。具体地,文本处理任务包括文本识别或文本翻译等。再如,第二任务模型用于语音处理任务,则该待处理的数据可以为语音数据。具体地,语音处理任务包括语音识别等。本申请实施例对待处理的数据的类型不做限定。
待处理的数据的第三隐编码是通过编码器对待处理的数据进行处理得到的。编码器可以采用现有的表示学习方法中的编码器,例如,变分自编码器(variationalautoencoder,VAE)。
结合第二方面,在第二方面的某些实现方式中,该调整还包括,以增大第二任务模型对第一样本数据的第一隐编码中的至少一个第二维度的关注度为目标调整至少一个第二维度。
结合第二方面,在第二方面的某些实现方式中,调整后的第一隐编码相对于第一样本的第一隐编码的变化量在目标范围内。
结合第二方面,在第二方面的某些实现方式中,至少一个第一维度包括第一隐编码的全部维度。
结合第二方面,在第二方面的某些实现方式中,至少一个第二维度包括第一隐编码的全部维度。
结合第二方面,在第二方面的某些实现方式中,第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,第二标签用于指示第二样本数据对应的敏感信息的真值。
第三方面,提供了一种模型的训练装置,该装置包括用于执行上述第一方面的任意一种实现方式的方法的单元。
第四方面,提供了一种数据处理装置,该装置包括用于执行上述第二方面的任意一种实现方式的方法的单元。
应理解,在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第二方面、第三方面以及第四方面中相同的内容。
第五方面,提供了一种模型的训练装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面以及第一方面的任意一种实现方式中的方法。
上述第五方面中的处理器既可以是中央处理器(central processing unit,CPU),也可以是CPU与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括图形处理器(graphics processing unit,GPU)、神经网络处理器(neural-networkprocessing unit,NPU)和张量处理器(tensor processing unit,TPU)等等。其中,TPU是谷歌(google)为机器学习全定制的人工智能加速器专用集成电路。
第六方面,提供了一种数据处理装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第二方面以及第二方面的任意一种实现方式中的方法。
上述第六方面中的处理器既可以是CPU,也可以是CPU与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括GPU、NPU和TPU等等。
第七方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行第一方面或第二方面的任意一种实现方式中的方法。
第八方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面或第二方面的任意一种实现方式中的方法。
第九方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面或第二方面的任意一种实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面或第二方面的任意一种实现方式中的方法。
附图说明
图1是本申请实施例提供的一种人工智能主体框架示意图;
图2为本申请实施例提供的一种系统架构的结构示意图;
图3为本申请实施例提供的另一种系统架构的示意图;
图4为一种模型的训练方法的示意图;
图5为本申请实施例提供的一种模型的训练方法的示意性流程图;
图6为本申请实施例提供的另一种模型的训练方法的示意图;
图7为本申请实施例提供的一种数据处理方法的示意性流程图;
图8为本申请实施例提供的一种模型的训练装置的示意性框图;
图9为本申请实施例提供的一种数据处理装置的示意性框图;
图10是本申请实施例提供的另一种模型的训练装置的示意性框图;
图11是本申请实施例提供的另一种数据处理装置的示意性框图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行描述。
图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。
下面从“智能信息链”(水平轴)和“信息技术(information technology,IT)价值链”(垂直轴)两个维度对上述人工智能主题框架进行详细的阐述。
“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据-信息-知识-智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施:
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。
基础设施可以通过传感器与外部沟通,基础设施的计算能力可以由智能芯片提供。
这里的智能芯片可以是中央处理器(central processing unit,CPU)、神经网络处理器(neural-network processing unit,NPU)、图形处理器(graphics processingunit,GPU)、专门应用的集成电路(application specific integrated circuit,ASIC)以及现场可编程门阵列(field programmable gate array,FPGA)等硬件加速芯片。
基础设施的基础平台可以包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。
例如,对于基础设施来说,可以通过传感器和外部沟通获取数据,然后将这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据:
基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理:
上述数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等处理方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力:
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用:
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,智慧城市,智能终端等。
本申请实施例可以应用在人工智能中的很多领域,例如,智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶以及智慧城市等领域。
具体地,本申请实施例可以具体应用在信贷决策、安防预警以及招聘决策等场景中,尤其适用于要求保证推理结果的公平性的任务场景中。
下面对信贷决策和招聘决策这两种应用场景进行简单的介绍。
信贷决策:
信贷决策是在对贷款项目及其借款方全面综合评价的基础上进行的,通过人工智能模型能够加快贷款流程,有利于实现决策自动化。
利用本申请实施例的模型训练方法,能够消减模型的偏见,避免模型基于性别、年龄或教育等偏见的影响作出是否审批的决策,有利于保证预测结果的公平性。
招聘决策:
招聘决策的质量是影响企业发展的重要因素之一,人工智能模型能够辅助招聘决策,有利于加快招聘进程。
通过采用本申请实施例的模型的训练方法,能够消减模型的偏见,避免模型基于性别、外貌、姓名、年龄或教育等偏见的影响作出是否录用的决策,有利于保证预测结果的公平性。。
由于本申请实施例涉及神经网络的应用,为了便于理解,下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。
f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号变换为输出信号。该激活函数的输出信号可以作为下一层的输入。例如,激活函数可以是ReLU,tanh或sigmoid函数。
神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量。由于DNN层数多,系数W和偏移向量的数量也比较多。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。
需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(3)隐空间(latent space)
隐空间也被称为潜特征空间、特征空间或编码空间。数据投射到隐空间后的编码即为该数据的隐编码。在隐空间中,一组数据的编码,即隐编码,会保持该组数据在原数据空间中的相似性。
隐编码中可以包括一个或多个维度。
具体地,可以通过编码器将数据投射到隐空间,得到相应的隐编码。
示例性地,编码器可以为变分自编码器(variational autoencoder,VAE)、FactorVAE、BetaVAE、FFVAE或VanillaVAE等。
(4)敏感信息和代理信息
敏感信息指的是需要保护的信息,例如,性别或年龄等。
代理信息指的是与敏感信息之间具有高度相关性的信息。模型可以通过代理信息作出与使用敏感信息时相同的预测结果。
如图2所示,本申请实施例提供了一种系统架构100。在图2中,数据采集设备160用于采集训练样本数据。例如,若训练样本数据为图像数据,则训练样本数据可以包括训练图像以及训练图像对应的处理结果。例如,训练图像对应的分类结果,训练图像的分类结果可以是人工预先标注的结果。本申请实施例中的训练数据即为方法500中调整后的第一隐编码以及第一样本数据对应的第一标签。
在采集到训练数据之后,数据采集设备160将这些训练数据存入数据库130,训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。
下面对训练设备120基于训练数据得到目标模型/规则101进行描述,训练设备120对输入的原始数据进行处理,将输出值与目标值进行对比,直到训练设备120输出的值与目标值的差值小于一定的阈值,从而完成目标模型/规则101的训练。
本申请实施例中的目标模型/规则101具体可以为神经网络模型。例如,卷积神经网络或残差网络。需要说明的是,在实际的应用中,所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中,如应用于图2所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)AR/虚拟现实(virtual reality,VR),车载终端等,还可以是服务器或者云端等。在图2中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统150中。
最后,I/O接口112将处理结果,如上述得到的数据的处理结果返回给客户设备140,从而提供给用户。
值得说明的是,训练设备120可以针对不同的目标或不同的任务,基于不同的训练数据生成相应的目标模型/规则101,该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在图2中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,图2仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图2中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。
如图2所示,根据训练设备120训练得到目标模型/规则101,该目标模型/规则101在本申请实施例中可以是本申请中的第二任务模型,具体的,本申请实施例的第二任务模型可以为CNN或残差网络等。
如图3所示,本申请实施例提供了一种系统架构300。该系统架构包括本地设备301、本地设备302以及执行设备310和数据存储系统350,其中,本地设备301和本地设备302通过通信网络与执行设备310连接。
执行设备310可以由一个或多个服务器实现。可选的,执行设备310可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备310可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备310可以使用数据存储系统350中的数据,或者调用数据存储系统350中的程序代码来实现本申请实施例的模型的训练方法。
具体地,在一种实现方式中,执行设备310可以执行以下过程:
获取第一样本数据的第一隐编码和第一样本数据对应的第一标签;
提取第一任务模型对第一隐编码中的至少一个第一维度的关注度,第一任务模型用于预测第一隐编码对应的敏感信息;
调整第一隐编码,该调整包括:以减少至少一个第一维度的关注度为目标调整至少一个第一维度;
基于调整后的第一隐编码和第一标签训练第二任务模型。
通过执行上述过程,可以得到训练好的第二任务模型。
用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备310进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备310进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一种实现方式中,本地设备301、本地设备302从执行设备310获取到训练好的第二任务模型的相关参数,将训练好的第二任务模型部署在本地设备301、本地设备302上,利用本申请实施例的数据处理方法进行图像分类、进行图像处理、语音处理或者文本处理等等。
在另一种实现中,执行设备310上可以直接部署训练好的第二任务模型,执行设备310通过从本地设备301和本地设备302获取待处理数据,并利用本申请实施例的数据处理方法对待处理数据进行处理。
上述执行设备310也可以为云端设备,此时,执行设备310可以部署在云端;或者,上述执行设备310也可以为终端设备,此时,执行设备310可以部署在用户终端侧,本申请实施例对此并不限定。
图4示出了一种模型的训练方法。如图4所示,该训练方法可以分为两个阶段,即表示学习阶段和下游任务学习阶段。
表示学习阶段也可以称为表示模型的训练阶段。表示模型即为图4中的编码器(encoder)f(x),x表示输入数据。利用训练好的编码器对输入数据x进行编码,即将输入数据x映射到隐空间,得到隐编码(latent code)z。
下游任务学习阶段也可以称为下游任务模型(downstream task model)的训练阶段。以隐编码z作为训练数据对下游任务模型g(z)进行训练。利用训练好的下游任务模型对待处理的数据的隐编码进行处理即可得到预测结果。
在该方案中,表示学习方法可以采用解离表示学习方法,尽可能将原始数据中的每一个变量因子单独编码为一个维度,实现解离。计算各个维度与敏感特征的相关性,移除高度相关的维度,得到处理后的隐编码。该处理后的隐编码即为下游任务模型的训练数据。
其中,变量因子指的是数据中的变化的因素,例如,人脸图片中人的脸型、眉形或眼形等。
如图4所示的训练方法中,下游任务模型的偏见消减效果取决于训练数据的质量,而训练数据的质量是依赖于解离效果,也就是说,下游任务模型的偏见消减效果取决于解离效果。对于高维数据,例如,图像数据,无法确定数据中的变量因子的数量,因而无法实现将每一个变量因子单独编码为一个维度,影响解离效果,进而影响偏见消减效果。而且,上述方案仅移除了与敏感特征高度相关的维度,可能会忽略与代理特征相关的维度,进而影响偏见消减效果。
此外,上述方案移除了整个维度,可能导致非敏感信息丢失,进而影响下游任务的精度。
本申请实施例提供了一种模型的训练方法,能够消减模型偏见,有利于保证推理结果的公平性。
下面结合图5对本申请实施例中的模型的训练方法进行详细的描述。
图5示出了本申请实施例提供的模型的训练方法500。图5所示的方法可以由模型的执行装置来执行,该装置可以是云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行模型的运算的装置,也可以是由云服务设备和终端设备构成的系统。
示例性地,方法500可以由图2中的训练设备120或图3中的执行设备310执行。
方法500包括步骤S510至步骤S540。下面对步骤S510至步骤S540进行详细介绍。
S510,获取第一样本数据的第一隐编码以及第一样本数据对应的第一标签。
第一样本数据的第一编码是通过编码器对第一样本数据进行处理得到的。或者说,第一样本数据的第一编码是通过编码器将第一样本数据投射到隐编码空间得到的。
第一样本数据的类型与任务模型的任务相关。例如,任务模型用于执行图像处理任务。具体地,图像处理任务包括图像分类、图像检测、图像分割、图像识别或图像生成等。即任务模型可以为图像处理模型,第一样本数据可以为图像数据。再如,任务模型用于执行文本处理任务。具体地,文本处理任务包括文本识别或文本翻译等。即任务模型为文本处理模型,第一样本数据可以为文本数据。再如,任务模型用于执行音频处理任务。具体地,音频处理任务包括语音识别等。即任务模型为音频处理模型,第一样本数据可以为音频数据。本申请实施例对此不做限定。
需要说明的是,第一隐编码中的“第一”仅用于限定第一隐编码为第一样本数据的隐编码,不具有其他限定作用。也就是说,第一样本数据的隐编码即为第一隐编码。
样本数据的隐编码是通过将样本数据投射到隐空间得到的。具体地,样本数据的隐编码是通过编码器对样本数据进行处理后得到的。隐编码也可以称为潜特征。
编码器可以采用现有的表示学习方法中的编码器,例如,采用VAE、FactorVAE、BetaVAE、FFVAE或VanillaVAE等方法中的任一方法得到的编码器对样本数据进行处理,得到样本数据的隐编码。应理解,此处仅为示例,还可以采用其他方式对样本数据进行编码,本申请实施例对此不做限定。
第一样本数据的第一隐编码可以通过多种方式获取。
示例性地,可以读取或接收本地存储的第一样本数据的第一隐编码,为了便于描述,本申请实施例中对于本地的数据的“接收”或“读取”统称为“读取”。
可替换地,可以接收用户输入的第一样本数据的第一隐编码或者其他设备发送的第一样本数据的第一隐编码。
可替换地,可以读取本地存储的第一样本数据,并对第一样本数据进行处理,得到第一样本数据的第一隐编码。
可替换地,可以接收用户输入的第一样本数据或者其他设备发送的第一样本数据,并对第一样本数据进行处理,得到第一样本数据的第一隐编码。
对第一样本数据进行处理,得到第一样本数据的第一隐编码,可以包括:通过编码器对第一样本数据进行处理,得到第一样本数据的第一隐编码。
示例性地,第一隐编码可以为图4中的隐编码。也就是说,本申请实施例的方案能够应用于图4所示的表示学习阶段和下游任务阶段之间的衔接处。
标签用于指示样本数据对应的真值(ground truth)。真值指的是真实情况或真实值。真值可以是标注得到的。在训练过程中,标签所指示的结果即为真值,也就是模型的目标输出。示例性地,标签可以是人工标注的。一个样本数据可以对应一个或多个不同类型的标签。不同类型的标签分别用于指示该样本数据对应的不同类型的信息中的真值,或者说,用于指示该样本数据在不同任务中对应的真值,即不同任务模型的目标输出。
例如,一个样本数据对应的性别标签可以用于指示该样本数据对应的性别信息的真值,即该样本数据对应的真实性别;该样本数据对应的年龄标签可以用于指示该样本数据对应的年龄信息的真值,即该样本数据对应的真实年龄。
具体的标签类型可以根据任务模型的需要设置,本申请实施例对此不做限定。
第一标签即为第二任务模型的训练过程所需的标签,具体地,第一标签即为训练过程中第二任务模型的目标输出。第二任务模型也可以称为目标任务模型,或者下游任务模型。
S520,提取第一任务模型对第一隐编码中的至少一个第一维度的关注度,第一任务模型用于预测第一隐编码对应的敏感信息。
第一任务模型为执行敏感任务的模型,敏感任务即为预测敏感信息的任务。第一任务模型也可以称为敏感任务模型。
示例性地,第一任务模型可以为神经网络模型。该神经网络模型可以是现有的神经网络模型,例如,CNN模型、残差网络模型或循环神经网络模型等。或者,该神经网络模型也可以用户自行构建的,本申请实施例对此不做限定。
第一隐编码对应的敏感信息也可以理解为第一隐编码所包含的敏感信息,即能够从第一隐编码获取到的与第一样本数据相关的敏感信息。
敏感信息可以包括受保护的信息。或者说,敏感信息可以包括与第二任务模型的偏见相关性较高的信息。或者说,敏感信息可以包括影响第二任务模型的推理结果的公平性的信息。也就是说,敏感信息可以包括不希望第二任务模型关注的信息。
敏感信息可以为一种类型的信息,也可以包括多种类型的信息。
例如,敏感信息为性别信息,则第一任务模型用于预测输入数据对应的性别信息。
再如,敏感信息为年龄信息,则第一任务模型用于预测输入数据对应的年龄信息。
再如,敏感信息为教育信息,则第一任务模型用于预测输入数据对应的教育信息。
再如,敏感信息包括性别信息和年龄信息,则第一任务模型用于预测输入数据的性别信息和年龄信息。
在敏感信息包括多种类型的信息的情况下,采用第一任务模型可以预测多种类型的信息,提取第一任务模型对第一隐编码中的至少一个第一维度的关注度,即可一次性得到各个维度中多种类型的信息的含量,以便后续一次性减少与所有敏感信息相关的维度的关注度,有利于处理的效率。
应理解,以上仅为示例,敏感信息可以根据应用场景的需要自行设定,本申请实施例对此不作限定。
模型对输入数据中的至少一个维度的关注度,也可以称为,模型对输入数据的特征关注,即模型对于输入数据中用于推理的特征的关注。模型对于输入数据中与预测结果相关性较高的维度的关注度高于模型对于输入数据中与预测结果相关性较低的维度的关注度。若输入数据中的一个或多个维度对模型的预测结果的影响较大,也就是说,模型在推理过程中更关注该一个或多个维度,则模型对该一个或多个维度的关注度较高。若输入数据中的一个或多个维度对模型的预测结果的影响较小,也就是说,模型在推理过程中较少关注该一个或多个维度,则模型对该一个或多个维度的关注度较低。
换言之,模型对输入数据中的一个维度的关注度能够在一定程度上反映该维度对模型的预测结果的影响程度。
第一任务模型对第一隐编码中的维度的关注度,也可以称为,第一任务模型对第一隐编码的特征关注。第一任务模型对于第一隐编码中与敏感信息的预测结果的相关性较高的维度的关注度高于第一任务模型对于第一隐编码中与敏感信息的预测结果的相关性较低的维度的关注度。若第一隐编码中的一个或多个维度对敏感信息的预测结果的影响较大,第一任务模型在预测敏感信息的过程中更关注该一个或多个维度,则第一任务模型对该一个或多个维度的关注度较高。若输入数据中的一个或多个维度对敏感信息的预测结果的影响较小,也就是说,第一任务模型在预测敏感信息的过程中较少关注该一个或多个维度,则第一任务模型对该一个或多个维度的关注度较低。第一任务模型对第一隐编码中的一个维度的关注度,能够反映该维度对敏感信息的预测结果的影响程度,或者说,能够反映该维度中的敏感信息含量。第一任务模型对第一隐编码中的各个维度的关注度即能够反映各个维度中的敏感信息含量。第一任务模型对一个维度的关注度越高,则该维度与敏感信息的相关性越高,或者说,该维度中的敏感信息的含量越高。
示例性地,第一任务模型对第一隐编码中的至少一个第一维度的关注度可以通过第一任务模型在第一隐编码处的梯度确定。
可选地,第一任务模型对第一隐编码中的至少一个第一维度的关注度可以根据以下至少一项:第一任务模型对应的显著图、第一任务模型对应的激活图或第一任务模型对应的注意力图等。
也就是说,可以通过获取显著图、激活图或注意力图的方式得到第一任务模型对第一隐编码中的至少一个第一维度的关注度。这样可以利用现有的模块,减少运算量,提高处理效率。
下面以显著图为例进行说明。
示例性地,步骤S520可以包括以下步骤。
S1,将第一隐编码输入第一任务模型中,提取第一任务模型对应的显著图。
S2,从第一任务模型对应的显著图中去除第一隐编码的值。
若该显著图中包括全部维度的显著性值,则从该显著图中去除第一隐编码中的全部维度的值。
若该显著图中仅包括部分维度的显著性值,则从该显著图中去除第一隐编码中的该部分维度的值。
通常,采用现有方案提取特征关注的过程中会叠加原隐编码,例如,显著图提取过程中即叠加了原隐编码,也就是说,提取到的显著图中包含原隐编码的值,在步骤S2中可以去除该叠加的原隐编码的值。
应理解,以上仅为示例,还可以通过其他方式提取模型的特征关注,本申请实施例对此不做限定。
S530,调整第一隐编码,该调整包括以减少第一任务模型对该至少一个第一维度的关注度为目标调整该至少一个第一维度。
也就是说,第一任务模型对第一隐编码中的该至少一个第一维度的关注度大于第一任务模型对调整后的第一隐编码中的该至少一个第一维度的关注度。
应理解,为了描述简洁,本申请实施例中将“第一样本数据的第一隐编码”简称为“第一隐编码”,后文中除了“调整后的第一隐编码”之外,其余“第一隐编码”均为调整前的第一隐编码,第一样本数据的第一隐编码。
S540,基于调整后的第一隐编码和第一标签训练第二任务模型。
具体地,以调整后的第一隐编码作为第二任务模型的输入数据,以第一标签作为第二任务模型的目标输出调整第二任务模型的参数。
进一步地,可以基于不同的第一样本数据重复执行步骤S510至步骤S540,直至第二任务模型训练完成,得到训练好的第二任务模型。
示例性地,第二任务模型可以为神经网络模型。该目标网络模型可以是现有的神经网络模型,例如,CNN模型、残差网络模型或循环神经网络模型等。或者,该神经网络模型也可以用户自行构建的,本申请实施例对此不做限定。
第二任务模型用于对第二任务模型的输入数据进行处理,得到预测结果。第二任务模型也可以称为下游任务模型,即用于执行目标任务。第二任务模型的预测结果也可以称为目标任务的执行结果。
例如,第二任务模型的输入数据可以为待处理的图像,第二任务模型用于判断待处理的图像是否具有吸引力,则第二任务模型的预测结果即用于指示预测待处理的图像的吸引力的高低,或者,用于指示第二任务模型预测的待处理的图像是否具有吸引力。
以上仅为示例,目标任务可以根据应用场景的需要自行设定。
应理解,第二任务模型可以是未经训练的模型,也可以是训练过程中的模型,还可以是预训练后得到的模型,本申请实施例对此不做限定。
根据本申请实施例的方案,通过第一任务模型对第一隐编码中的维度的关注度反映敏感信息与第一隐编码中的维度的相关性程度,调整第一隐编码以减少第一任务模型对第一隐编码中的维度的关注度,即减少与敏感信息相关的维度的关注度,从而减少对敏感信息的关注,由于第一任务模型和第二任务模型均使用梯度下降法优化参数,基于调整后的第一隐编码训练第二任务模型,能够使得第二任务模型朝着减少关注敏感信息的方向调整参数,有利于消减训练好的第二任务模型的偏见,保证训练好的第二任务模型的公平性。
同时,本申请实施例的方案对于第二任务模型的偏见消减效果不依赖于第一隐编码是否支持解离,也不依赖于第一隐编码的解离效果,应用场景广泛。
同时,本申请实施例的方案中基于第一任务模型对第一隐编码中的至少一个第一维度的关注度调整该至少一个第一维度,能够细粒度地去除敏感信息,避免移除整个维度导致的第一隐编码中的非敏感信息丢失,从而保证了第二任务模型的训练效果。
将待处理的数据的隐编码输入至训练好的第二任务模型中进行处理,即可得到偏见消减的预测结果。
可选地,该至少一个第一维度可以包括第一隐编码中的全部维度。
在该情况下,步骤S520可以理解为提取第一任务模型对第一隐编码中的每个维度的关注度。
需要说明的是,在该情况下,步骤S530中调整至少一个第一维度可以为调整第一隐编码中的全部维度,也可以为调整第一隐编码中的部分维度。例如,第一任务模型对部分维度的关注度较低,例如,第一任务模型对部分维度的关注度为0,则可以认为该部分维度与敏感信息无关,无需调整该部分维度。
这样,通过第一任务模型对第一隐编码中的各个维度的关注度反映各个维度中的敏感信息的含量,全面定位第一隐编码所包含的敏感信息和代理信息,基于此调整第一隐编码能够避免遗漏代理信息,有利于削弱第二任务模型对敏感信息的关注,提高第二任务模型的偏见消减效果。
或者,该至少一个第一维度也可以包括第一隐编码中的部分维度。
在该情况下,步骤S520可以理解为提取第一任务模型对第一隐编码中的部分维度的关注度。
可选地,该至少一个第一维度可以包括第一任务模型对第一隐编码的所有维度的关注度中关注度最高的部分维度。
例如,第一隐编码包括n个维度,在该n个维度中,第一任务模型对维度A和维度B的关注度最高,则维度A和维度B即为该至少一个第一维度。
这样,能够保证与敏感信息相关性最高的至少一个维度得到调整,有效减少对敏感信息的关注,保证了第二任务模型的偏见消减效果。
可选地,步骤S530包括:以减少第一任务模型对该至少一个第一维度的关注度为目标,根据该至少一个第一维度的关注度调整该至少一个第一维度,以得到调整后的第一隐编码,调整后的第一隐编码中的该至少一个第一维度相对于第一样本数据的第一隐编码中的至少一个第一维度的变化量与该至少一个第一维度的关注度呈正相关关系。
也就是说,该至少一个第一维度的调整幅度与第一任务模型对该至少一个第一维度的关注度相关。在该至少一个第一维度中,关注度越高的第一维度的调整幅度越大,关注度越小的第一维度的调整幅度越小。
这样,与敏感信息相关性越高的维度的调整幅度越高,与敏感信息相关性越小的维度的调整幅度越小,这样能够保证细粒度地去除敏感信息,在有效减少对敏感信息的关注的同时,尽可能保留非敏感信息,保证了第二任务模型的精度。
进一步地,根据该至少一个第一维度的关注度调整该至少一个第一维度,包括:根据该至少一个第一维度的关注度以第一强度调整该至少一个第一维度。
也就是说,可以通过第一强度控制调整幅度,即实现该至少一个第一维度的可控调整,有利于提高第二任务模型的偏见消减效果。
应理解,以上仅为示例。步骤S530还可以通过其他方式实现。例如,在该至少一个第一维度可以包括第一任务模型对第一隐编码的所有维度的关注度中关注度最高的部分维度的情况下,可以基于相同的调整幅度调整该至少一个第一维度,以得到调整后的第一隐编码。
可选地,方法500还包括步骤S550(图5中未示出)。
S550,提取第二任务模型对第一隐编码中的至少一个第二维度的关注度。
在该情况下,步骤S530包括:以减少第一任务模型对该至少一个第一维度的关注度为目标调整该至少一个第一维度,以增大第二任务模型对该至少一个第二维度的关注度为目标调整该至少一个第二维度,以得到调整后的第一隐编码。
也就是说,对第一隐编码进行双重调整,以得到调整后的第一隐编码。
第二任务模型对第一隐编码中的维度的关注度,也可以理解为,第二任务模型对第一隐编码的特征关注。第二任务模型对于第一隐编码中与目标任务的执行结果的相关性较高的维度的关注度高于第二任务模型对于第一隐编码中与目标任务的执行结果相关性较低的维度的关注度。若第一隐编码中的一个或多个维度对目标任务的执行结果的影响较大,第二任务模型在执行目标任务的过程中更关注该一个或多个维度,则第二任务模型对该一个或多个维度的关注度较高。若第一隐编码中的一个或多个维度对目标任务的执行结果的影响较小,也就是说,第二任务模型在执行目标任务的过程中较少关注该一个或多个维度,则第二任务模型对该一个或多个维度的关注度较低。第二任务模型对第一隐编码中的一个维度的关注度,能够反映该维度对目标任务的执行结果的影响程度,或者说,能够反映该维度中的目标任务信息含量。第二任务模型对第一隐编码中的各个维度的关注度即能够反映各个维度中的目标任务信息含量。第二任务模型对一个维度的关注度越高,则该维度与目标任务信息的相关性越高,或者说,该维度中的目标任务信息的含量越高。
示例性地,第二任务模型对第一隐编码中的至少一个第二维度的关注度可以通过第二任务模型在第一隐编码处的梯度确定。
可选地,第二任务模型对第一隐编码中的至少一个第二维度的关注度可以根据以下至少一项:第二任务模型对应的显著图、第二任务模型对应的激活图或第二任务模型对应的注意力图等。
也就是说,可以通过获取显著图、激活图或注意力图的方式得到第二任务模型对第一隐编码中的至少一个第二维度的关注度。
下面以显著图为例进行说明。
示例性地,步骤S550可以包括以下步骤。
S1,将第一隐编码输入第二任务模型中,提取第二任务模型对应的显著图。
S2,从第二任务模型对应的显著图中去除第一隐编码的值。
若该显著图中包括全部维度的显著性值,则从该显著图中去除第一隐编码中的全部维度的值。
若该显著图中仅包括部分维度的显著性值,则从该显著图中去除第一隐编码中的该部分维度的值。
应理解,以上仅为示例,还可以通过其他方式提取模型的特征关注,本申请实施例对此不做限定。
本申请的方案中,基于第一任务模型对至少一个第一维度的关注度调整了该至少一个第一维度,该调整可能会降低第二任务模型的精度。
根据本申请实施例的方案,通过第二任务模型对第一隐编码中的维度的关注度反映目标任务信息与第一隐编码中的维度的相关性程度,细粒度地调整第一隐编码以增加第二任务模型对第一隐编码中的维度的关注度,有利于增加与目标任务信息相关的维度的关注度,从而增加对目标任务信息的关注,基于调整后的第一隐编码训练第二任务模型,能够使得第二任务模型朝着增加关注目标任务信息的方向调整参数,有利于保证第二任务模型对于目标任务结果判断的准确性。即本申请的方案能够在消减第二任务模型的偏见的同时,进一步减少第二任务模型的精度的损失,或者说,细粒度地补偿第二任务模型的精度损失,保证了模型的训练效果。
目标任务的执行结果与目标任务信息相关。第二任务模型在训练过程中会发现这一规律,相较于关注其他信息,第二任务模型关注目标任务信息时预测结果的准确性更高。通过增加第二任务模型对各个维度的关注度,有利于增加第二任务模型对目标任务信息的关注,也就是说使得第二任务模型朝着关注目标任务信息的方向调整参数,有利于保证第二任务模型对于目标任务结果判断的准确性。
也就是说,本申请实施例的方案通过双向模型特征提取机制获取第一任务模型对隐编码的特征关注以及第二任务模型对隐编码的特征关注,以定位隐编码各维度中敏感信息、代理信息以及目标任务信息,然后通过双向模型重关注机制消减模型对敏感信息、代理信息的关注,加强对目标任务信息的关注,从而实现在消减偏见的同时,补偿第二任务模型的精度损失。
可选地,该至少一个第二维度可以包括第一隐编码中的所有维度。
在该情况下,步骤S550可以理解为提取第二任务模型对第一隐编码中的每个维度的关注度。
需要说明的是,在该情况下,步骤S530中,调整至少一个第二维度可以为调整第一隐编码中的全部维度,也可以为调整第一隐编码中的部分维度。例如,第二任务模型对部分维度的关注度较低,例如,第二任务模型对部分维度的关注度为0,则可以认为该部分维度与目标任务信息无关,无需调整该部分维度。
这样,通过第二任务模型对第一隐编码中的各个维度的关注度反映各个维度中的目标任务信息的含量,全面准确定位第一隐编码所包含的目标任务信息,基于此调整第一隐编码能够避免遗漏目标任务信息,有利于提高第二任务模型的精度。
或者,该至少一个第二维度也可以包括第一隐编码中的部分维度,在该情况下,步骤S550可以理解为提取第二任务模型对第二隐编码中的部分维度的关注度。
可选地,该至少一个第二维度可以包括第二任务模型对第一隐编码的所有维度的关注度中关注度最高的部分维度。
例如,第一隐编码包括n个维度,在该n个维度中,第二任务模型对维度C和维度D的关注度最高,则维度C和维度D即为该至少一个第二维度。
这样,能够保证与目标任务信息相关性最高的至少一个维度得到调整,有效增加对目标任务信息的关注,保证了第二任务模型的预测精度。
需要说明的是,本申请实施例中的至少一个第一维度和至少一个第二维度可以相同,也可以不同,本申请实施例对此不做限定。
可选地,步骤S530包括:以减少第一任务模型对该至少一个第一维度的关注度为目标,根据该至少一个第一维度的关注度调整该至少一个第一维度,以增加第二任务模型对该至少一个第二维度的关注度为目标,根据该至少一个第二维度的关注度调整该至少一个第二维度,以得到调整后的第一隐编码,调整后的第一隐编码中的至少一个第一维度的变化量相对于第一样本数据的第一隐编码中的至少一个第一维度与该至少一个第一维度的关注度呈正相关关系,调整后的第一隐编码中的至少一个第二维度相对于第一样本数据的第一隐编码中的至少一个第二维度的变化量与该至少一个第二维度的关注度呈正相关关系。
也就是说,该至少一个第一维度的调整幅度与第一任务模型对该至少一个第一维度的关注度相关。在该至少一个第一维度中,关注度越高的第一维度的调整幅度越大,关注度越小的第一维度的调整幅度越小。该至少一个第二维度的调整幅度与第二任务模型对该至少一个第二维度的关注度相关。在该至少一个第二维度中,关注度越高的第二维度的调整幅度越大,关注度越小的第二维度的调整幅度越小。
这样,与敏感信息相关性越高的维度的调整幅度越高,与敏感信息相关性越小的维度的调整幅度越小,与目标任务信息相关性越高的维度的调整幅度越高,与目标任务信息相关性越小的维度的调整幅度越小,这样能够保证细粒度地去除敏感信息,同时细粒度补偿第二任务模型的精度,在有效减少对敏感信息的关注的同时,有效增加对目标任务信息的关注,进一步保证了第二任务模型的精度。
进一步地,根据该至少一个第二维度的关注度调整该至少一个第二维度,包括:根据该至少一个第二维度的关注度以第二强度调整该至少一个第人维度。
也就是说,可以通过第二强度控制调整幅度,即实现该至少一个第二维度的可控调整,有利于提高第二任务模型的精度。
可选地,调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量在目标范围内。
示例性地,调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量在目标范围内,可以为:调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量的绝对值小于或等于第一阈值。第一阈值可以根据需要设定。
也就是说,相对于第一样本数据的第一隐编码而言,调整后的第一隐编码的调整幅度在目标范围内。
若调整幅度过大,则可能导致第一隐编码过度失真,进而影响第二任务模型的训练效果。本申请实施例的方案通过将调整后的第一隐编码的变化量控制在目标范围内,避免第一隐编码过度失真,有利于保证第二任务模型的训练效果,即有利于保证训练后的第二任务模型的精度。
第一任务模型可以是基于第二样本数据的第二隐编码以及第二样本数据对应的第二标签训练得到的,该第二标签用于指示第二样本数据对应的敏感信息的真值。
第二标签也可以称为敏感标签。
例如,该敏感信息为性别信息,敏感标签即为性别标签,第二样本数据对应的性别标签用于指示第二样本数据对应的性别信息的真值,即第二样本数据对应的真实性别。
需要说明的是,第二隐编码中的“第二”仅用于限定第二隐编码为第二样本数据的隐编码,不具有其他限定作用。也就是说,第二样本数据的隐编码即为第二隐编码。
如前所述,样本数据的隐编码是通过编码器对样本数据进行处理后得到的。该编码器可以采用现有的表示学习方法中的编码器。第二隐编码的获取方式可以参考前述第一隐编码的获取方式,此处不再赘述。
用于对第一样本数据进行处理的编码器与用于对第二样本数据进行处理的编码器可以是相同的。只要第一任务模型的输入数据的格式与第二任务模型的输入数据的格式一致即可。
示例性地,以第二隐编码作为初始第一任务模型的输入数据,以敏感标签作为初始第一任务模型的目标输出,调整初始第一任务模型的参数,直至训练完成,得到训练好的模型,即第一任务模型。
具体训练过程可以采用现有的训练方法,此处不再赘述。
第一任务模型可以是基于多个不同的第二训练数据训练得到的。
需要说明的是本申请实施例中的“第一样本数据”中的“第一”仅用于限定该训练样本用于训练第二任务模型;“第二样本数据”中的“第二”仅用于限定该训练样本用于训练第一任务模型。也就是说,用于训练第二任务模型训练样本均可以称为第一样本数据,用于训练第一任务模型的训练样本均可以称为第二样本数据。第一样本数据和第二样本数据可以相同,也可以不同。本申请实施例对此不作限定。
本申请实施例提供还提供了一种模型的训练方法600,方法600可以理解为方法500的一种具体实现方式,具体描述可以参见方法500,为了避免重复,在描述方法600时适当省略部分描述。方法600可以应用于图4所示的架构中,例如,如图6所示。下面结合图6对方法600进行说明。
方法600包括步骤S610至步骤S660,下面对步骤S610至步骤S660进行说明。
S610,利用编码器对第一样本图像(第一样本数据的一例)进行处理,以得到第一样本图像的第一隐编码。
第一样本图像属于第一训练数据集。第一训练数据集中可以包括一个或多个不同的第一样本图像,为了便于描述,方法600中仅以一个第一样本图像为例进行说明。在实际应用中,可以利用编码器对第一训练数据集中的每个第一样本图像进行处理,以得到每个第一样本图像的第一隐编码。
第一训练数据集可以采用现有的数据集,例如,采用CelebA数据集。或者,第一训练数据集也可以采用自行设置的训练数据集。
示例性地,可以通过表示学习方法,例如FactorVAE、BetaVAE、FFVAE、VanillaVAE等,基于第二训练数据集对编码器和解码器进行训练。训练好的编码器即为图6中的编码器f(x),第一样本图像x可以为图6中的原始图像x。如图6所示,利用编码器f(x)对原始图像x进行处理,得到原始图像的隐编码z,即第一样本图像的第一隐编码。
第二训练数据集和第一训练数据集可以相同,也可以不同。本申请实施例对此不做限定。
需要说明的是,步骤S610为可选步骤。第一样本图像的第一隐编码也可以通过其他方式获取,具体描述可以参考步骤S510中的描述,此处不再赘述。
S620,利用第二样本图像(第二样本数据的一例)的第二隐编码和第二样本图像对应的性别标签(第二标签的一例),训练得到第一任务模型(图6未示出)。
第一任务模型用于预测第一任务模型的输入数据对应的性别信息。
具体地,步骤S620可以为:以至少一个第二样本图像的第二隐编码作为初始第一任务模型的输入数据,以该至少一个第二样本图像对应的性别标签作为初始第一任务模型的目标输出,对初始第一任务模型进行训练,得到训练好的模型即为第一任务模型。
第二样本图像属于第三训练数据集。第三训练数据集中可以包括一个或多个不同的第二样本图像。
第三训练数据集和第一训练数据集可以相同,也可以不同。第三训练数据集和第二训练数据集可以相同,也可以不同。本申请实施例对此不做限定。
需要说明的是,步骤S620为可选步骤。第一任务模型也可以是预训练好的模型。
S630,将第一隐编码输入至第一任务模型中,提取特征关注,以得到第一任务模型对第一隐编码中的各个维度的关注度。
例如,如图6所示,将隐编码z输入第一任务模型d(z)中,提取特征关注,得到敏感任务特征关注S′sens,即第一任务模型对隐编码z中的各个维度的关注度。
需要说明的是,在步骤S630中,至少一个第一维度包括第一隐编码中的所有维度仅为示例,该至少一个第一维度也可以只包括第一隐编码中的部分维度,具体描述可以参考前文中的步骤S520,此处不再赘述。
示例性地,提取特征关注可以通过以下步骤实现。
S631,提取第一任务模型对应的显著图Ssens。该第一任务模型对应的显著图用于指示隐编码z中的各个维度在第一任务模型中的显著性。
提取显著图的方法可以采用现有的方案。
例如,该第一任务模型对应的显著图满足如下公式:
从上述公式中可以看出,该显著图中通过逐点相乘的操作叠加了原隐编码,即隐编码z。
S632,去除第一任务模型对应的显著图中的隐编码z的值,以得到敏感任务特征关注S′sens。
S640,将第一隐编码输入至第二任务模型中,提取特征关注,以得到第二任务模型对第一隐编码中的各个维度的关注度。
示例性地,第二任务模型对应的目标任务为预测输入数据是否具有吸引力,第一样本图像对应的第一标签为吸引力标签,吸引力标签用于指示第一样本图像是否具有吸引力。
例如,如图6所示,下游任务模型即为本申请中的第二任务模型。将隐编码z输入下游任务模型g(z)中,提取特征关注,得到下游任务特征关注S′task,即第二任务模型对隐编码z中的各个维度的关注度。
需要说明的是,在步骤S640中,至少一个第二维度包括第一隐编码中的所有维度仅为示例,该至少一个第二维度也可以只包括第一隐编码中的部分维度,具体描述可以参考前文中的方法500中的描述,此处不再赘述。
示例性地,提取特征关注可以通过以下步骤实现。
S641,提取第二任务模型对应的显著图Stask。该第二任务模型对应的显著图用于指示隐编码z中的各个维度在第二任务模型中的显著性。
提取显著图的方法可以采用现有的方案。
例如,该第二任务模型对应的显著图满足如下公式:
从上述公式中可以看出,该显著图中通过逐点相乘的操作叠加了原隐编码,即隐编码z。
S642,去除第二任务模型对应的显著图Stask中的隐编码z的值,以得到目标任务特征关注S′task。
S650,对第一隐编码进行重关注,得到重关注后的第一隐编码。
具体地,以减少第一任务模型对第一隐编码中的各个维度的关注度和增大第二任务模型对第一隐编码中的各个维度的关注度为目标调整第一隐编码,得到调整后的第一隐编码,即重关注后的第一隐编码。
如图6所示,减少第一任务模型对隐编码z中的4个维度的关注度,也可以称为减少S′sens。增大第二任务模型对隐编码z中的4个维度的关注度,也可以称为增大S′task。
可选地,以减少第一任务模型对第一隐编码中的各个维度的关注度为目标基于第一强度调整第一隐编码。
可选地,以增大第二任务模型对第一隐编码中的各个维度的关注度为目标基于第二强度调整第一隐编码。
第一强度和第二强度可以根据需要设置。
可选地,调整后的第一隐编码的变化量在目标范围内。
示例性地,重关注后的第一隐编码可以满足如下公式:
S660,基于重关注后的第一隐编码和第一样本图像对应的吸引力标签对第二任务模型进行训练。
即以重关注后的第一隐编码作为第二任务模型的输入数据,以第一样本图像对应的吸引力标签作为第二任务模型的目标输出调整第二任务模型的参数。
重复步骤S630至步骤S660,直至训练结束,得到训练好的第二任务模型。
在方法600中,敏感标签为性别标签,第二任务模型用于判断输入数据是否具有吸引力。通过减少与性别信息有关的维度的关注度,在第二任务模型的训练过程中减少第二任务模型对于性别信息的关注,即在判断输入数据是否具有吸引力时减少对性别信息的关注,有利于减少模型偏见,提高预测结果的公平性,同时在目标训练过程中增加第二任务模型对于吸引力信息的关注,有利于提高第二任务模型的训练效果。
图7示出了本申请实施例提供的一种数据处理方法700,该方法可以由能够执行模型的运算的装置或设备执行,例如,该装置可以为云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行数据处理的方法的装置,也可以是由云服务设备和终端设备构成的系统。示例性地,方法700可以由图2中的执行设备110或图3中的执行设备310或本地设备执行。
例如,方法700具体可以由如图2所示的执行设备110执行,方法700中的待处理数据可以是如图2所示的客户设备140给出的输入数据。
图7中的数据处理的方法700中使用的训练好的第二任务模型可以是通过上述图5或图6中的方法构建的。具体描述可以参考方法500或方法600中的描述,为了避免不必要的重复,下面在介绍方法700时适当省略重复的描述。
方法700包括步骤S710至步骤S720,下面对步骤S710至步骤S720进行描述。
S710,获取待处理的数据的第三隐编码。
待处理的数据包括图像数据、语音数据或文本数据等。
待处理的数据的类型与第二任务模型的任务有关。例如,第二任务模型用于图像处理任务,则该待处理的数据可以为图像。具体地,图像处理任务包括图像分类、图像检测、图像分割、图像识别或图像生成等。再如,第二任务模型用于文本处理任务,则该待处理的数据可以为文本。具体地,文本处理任务包括文本识别或文本翻译等。再如,第二任务模型用于语音处理任务,则该待处理的数据可以为语音数据。具体地,语音处理任务包括语音识别等。本申请实施例对待处理的数据的类型不做限定。
需要说明的是,第三隐编码中的“第三”仅用于限定第三隐编码为待处理的数据的隐编码,不具有其他限定作用。也就是说,待处理的数据的隐编码即为第三隐编码。
待处理的数据的第三隐编码是通过编码器对待处理的数据进行处理得到的。编码器可以采用现有的表示学习方法中的编码器,例如,采用VAE、FactorVAE、BetaVAE、FFVAE或VanillaVAE等方法中的任一方法得到的编码器对待处理的数据进行处理,得到待处理的数据的隐编码。
S720,利用第二任务模型对第三隐编码进行处理,以得到待处理的数据的处理结果。其中,第二任务模型是基于调整后的第一隐编码和第一样本数据对应的第一标签训练得到的,调整后的第一隐编码是通过调整第一样本数据的第一隐编码得到的,该调整包括以减少第一任务模型对第一样本数据的第一隐编码中的至少一个第一维度的关注度为目标调整至少一个第一维度,第一任务模型用于预测第一隐编码对应的敏感信息。
也就是说,在推理过程中,可以直接输入数据的原始隐编码至训练好的第二任务模型中进行处理,得到偏见消减的预测结果。原始隐编码可以理解为编码器处理器得到的隐编码。
在方法700中,用于对待处理的数据进行处理的第二任务模型可以理解为通过方法500或方法600训练好的第二任务模型。
可选地,该调整还包括:以增大第二任务模型对第一样本数据的第一隐编码中的至少一个第二维度的关注度为目标调整至少一个第二维度。
可选地,调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量在目标范围内。
可选地,至少一个第一维度包括第一隐编码的全部维度。
可选地,至少一个第二维度包括第一隐编码的全部维度。
可选地,第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,第二标签用于指示第二样本数据对应的敏感信息的真值。
根据本申请实施例的方案,通过第一任务模型对第一隐编码中的维度的关注度反映敏感信息与第一隐编码中的维度的相关性程度,调整第一隐编码以减少第一任务模型对第一隐编码中的维度的关注度,即减少与敏感信息相关的维度的关注度,从而减少对敏感信息的关注,基于调整后的第一隐编码训练第二任务模型,能够使得第二任务模型朝着减少关注敏感信息的方向调整参数,有利于消减训练好的第二任务模型的偏见,保证训练好的第二任务模型的公平性。
相较于现有的基于解离表示方法的偏见消减方案,本申请实施例的方案训练得到的模型更公平,精度更高。
下面结合图8至图11对本申请实施例的装置进行说明。应理解,下面描述的装置能够执行前述本申请实施例的方法,为了避免不必要的重复,下面在介绍本申请实施例的装置时适当省略重复的描述。
图8是本申请实施例的模型的训练装置的示意性框图。图8所示的模型的训练装置3000包括获取单元3010和处理单元3020。
获取单元3010和处理单元3020可以用于执行本申请实施例的模型的训练方法,具体地,可以用于执行方法500或方法600。
获取单元3010用于获取第一样本数据的第一隐编码和第一样本数据对应的第一标签。
处理单元3020用于,提取第一任务模型对第一隐编码中的至少一个第一维度的关注度,第一任务模型用于预测第一隐编码对应的敏感信息;调整第一隐编码,该调整包括:以减少至少一个第一维度的关注度为目标调整至少一个第一维度;基于调整后的第一隐编码和第一标签训练第二任务模型。
可选地,处理单元3020还用于:提取第二任务模型对第一隐编码中的至少一个第二维度的关注度;以及处理单元3020还用于:以增大至少一个第二维度的关注度为目标调整至少一个第二维度。
可选地,调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量在目标范围内。
可选地,至少一个第一维度包括第一隐编码的全部维度。
可选地,至少一个第二维度包括第一隐编码的全部维度。
可选地,第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,第二标签用于指示第二样本数据对应的敏感信息的真值。
图9是本申请实施例的数据处理装置的示意性框图。图9所示的数据处理装置4000包括获取单元4010和处理单元4020。
获取单元4010和处理单元4020可以用于执行本申请实施例的数据处理方法,具体地,可以用于执行方法700。
获取单元4010用于获取待处理的数据的第三隐编码。
处理单元4020用于利用第二任务模型对第三隐编码进行处理,以得到待处理的数据的处理结果,其中,第二任务模型是基于调整后的第一隐编码和第一样本数据对应的第一标签训练得到的,调整后的第一隐编码是通过调整第一样本数据的第一隐编码得到的,该调整包括以减少第一任务模型对第一样本数据的第一隐编码中的至少一个第一维度的关注度为目标调整至少一个第一维度,第一任务模型用于预测第一隐编码对应的敏感信息。
可选地,该调整还包括:以增大第二任务模型对第一样本数据的第一隐编码中的至少一个第二维度的关注度为目标调整至少一个第二维度。
可选地,调整后的第一隐编码相对于第一样本数据的第一隐编码的变化量在目标范围内。
可选地,至少一个第一维度包括第一隐编码的全部维度。
可选地,至少一个第二维度包括第一隐编码的全部维度。
可选地,第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,第二标签用于指示第二样本数据对应的敏感信息的真值。
需要说明的是,上述训练装置3000和装置4000处理以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图10是本申请实施例提供的模型的训练装置的硬件结构示意图。图10所示的模型的训练装置5000(该装置5000具体可以是一种计算机设备)包括存储器5001、处理器5002、通信接口5003以及总线5004。其中,存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。
存储器5001可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器5001可以存储程序,当存储器5001中存储的程序被处理器5002执行时,处理器5002用于执行本申请实施例的模型的训练方法的各个步骤。例如,处理器5002可以执行上文中图5所示的方法500。
处理器5002可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的模型的训练方法。
处理器5002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的模型的训练方法的各个步骤可以通过处理器5002中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器5002还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器5001,处理器5002读取存储器5001中的信息,结合其硬件完成图8所示的装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图5或图6所示的模型的训练方法。
通信接口5003使用例如但不限于收发器一类的收发装置,来实现装置5000与其他设备或通信网络之间的通信。例如,可以通过通信接口5003获取第一样本数据的第一隐编码和第一样本数据对应的第一标签。
总线5004可包括在装置5000各个部件(例如,存储器5001、处理器5002、通信接口5003)之间传送信息的通路。
图11是本申请实施例提供的数据处理装置的硬件结构示意图。图11所示的数据处理装置6000(该装置6000具体可以是一种计算机设备)包括存储器6001、处理器6002、通信接口6003以及总线6004。其中,存储器6001、处理器6002、通信接口6003通过总线6004实现彼此之间的通信连接。
存储器6001可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器6001可以存储程序,当存储器6001中存储的程序被处理器6002执行时,处理器6002用于执行本申请实施例的数据处理方法的各个步骤。例如,处理器6002可以执行上文中图7所示的方法700。
处理器6002可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的数据处理方法。
处理器6002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的数据处理方法的各个步骤可以通过处理器6002中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器6002还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器6001,处理器6002读取存储器6001中的信息,结合其硬件完成图9所示的装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图7所示的数据处理方法。
通信接口6003使用例如但不限于收发器一类的收发装置,来实现装置6000与其他设备或通信网络之间的通信。例如,可以通过通信接口6003获取待处理数据的第三隐编码。
总线6004可包括在装置6000各个部件(例如,存储器6001、处理器6002、通信接口6003)之间传送信息的通路。
本申请实施例还提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行本申请实施例中的模型的训练方法或数据处理方法。
本申请实施例还提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行本申请实施例中的模型的训练方法或数据处理方法。
本申请实施例还提供一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行本申请实施例中的模型的训练方法或数据处理方法。
可选地,作为一种实现方式,该芯片还可以包括存储器,该存储器中存储有指令,该处理器用于执行该存储器上存储的指令,当该指令被执行时,该处理器用于执行本申请实施例中的模型的训练方法或数据处理方法。
应理解,本申请实施例中的处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (28)
1.一种模型的训练方法,其特征在于,包括:
获取第一样本数据的第一隐编码和所述第一样本数据对应的第一标签;
提取第一任务模型对所述第一隐编码中的至少一个第一维度的关注度,所述第一任务模型用于预测所述第一隐编码对应的敏感信息;
调整所述第一隐编码,其中,所述调整包括以减少所述至少一个第一维度的关注度为目标调整所述至少一个第一维度;
基于所述调整后的第一隐编码和所述第一标签训练第二任务模型。
2.根据权利要求1所述的训练方法,其特征在于,所述训练方法还包括:
提取所述第二任务模型对所述第一隐编码中的至少一个第二维度的关注度;以及
所述调整还包括:
以增大所述至少一个第二维度的关注度为目标调整所述至少一个第二维度。
3.根据权利要求1或2所述的训练方法,其特征在于,所述调整后的第一隐编码相对于所述第一样本数据的第一隐编码的变化量在目标范围内。
4.根据权利要求1至3中任一项所述的训练方法,其特征在于,所述至少一个第一维度包括所述第一隐编码的全部维度。
5.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述至少一个第二维度包括所述第一隐编码的全部维度。
6.根据权利要求1至5中任一项所述的训练方法,其特征在于,所述第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,所述第二标签用于指示所述第二样本数据对应的敏感信息的真值。
7.一种数据处理方法,其特征在于,包括:
获取待处理的数据的第三隐编码;
利用第二任务模型对所述第三隐编码进行处理,以得到所述待处理的数据的处理结果,其中,所述第二任务模型是基于调整后的第一隐编码和第一样本数据对应的第一标签训练得到的,所述调整后的第一隐编码是通过调整第一样本数据的第一隐编码得到的,所述调整包括以减少第一任务模型对所述第一样本数据的第一隐编码中的至少一个第一维度的关注度为目标调整所述至少一个第一维度,所述第一任务模型用于预测所述第一隐编码对应的敏感信息。
8.根据权利要求7所述的方法,其特征在于,所述调整还包括以增大所述第二任务模型对所述第一样本数据的第一隐编码中的至少一个第二维度的关注度为目标调整所述至少一个第二维度。
9.根据权利要求7或8所述的方法,其特征在于,所述调整后的第一隐编码相对于所述第一样本数据的第一隐编码的变化量在目标范围内。
10.根据权利要求7至9中任一项所述的方法,其特征在于,所述至少一个第一维度包括所述第一隐编码的全部维度。
11.根据权利要求7至10中任一项所述的方法,其特征在于,所述至少一个第二维度包括所述第一隐编码的全部维度。
12.根据权利要求7至11中任一项所述的方法,其特征在于,所述第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,所述第二标签用于指示所述第二样本数据对应的敏感信息的真值。
13.一种模型的训练装置,其特征在于,包括:
获取单元,用于获取第一样本数据的第一隐编码和所述第一样本数据对应的第一标签;
处理单元,用于:
提取第一任务模型对所述第一隐编码中的至少一个第一维度的关注度,所述第一任务模型用于预测所述第一隐编码对应的敏感信息;
调整所述第一隐编码,其中,所述调整包括:以减少所述至少一个第一维度的关注度为目标调整所述至少一个第一维度;
基于所述调整后的第一隐编码和所述第一标签训练第二任务模型。
14.根据权利要求13所述的训练装置,其特征在于,所述处理单元还用于:
提取所述第二任务模型对所述第一隐编码中的至少一个第二维度的关注度;以及
所述处理单元还用于:
以增大所述至少一个第二维度的关注度为目标调整所述至少一个第二维度。
15.据权利要求13或14所述的训练装置,其特征在于,所述调整后的第一隐编码相对于所述第一样本数据的第一隐编码的变化量在目标范围内。
16.据权利要求13至15中任一项所述的训练装置,其特征在于,所述至少一个第一维度包括所述第一隐编码的全部维度。
17.据权利要求13至16中任一项所述的训练装置,其特征在于,所述至少一个第二维度包括所述第一隐编码的全部维度。
18.据权利要求13至17中任一项所述的训练装置,其特征在于,所述第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,所述第二标签用于指示所述第二样本数据对应的敏感信息的真值。
19.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待处理的数据的第三隐编码;
处理单元,用于利用第二任务模型对所述第三隐编码进行处理,以得到所述待处理的数据的处理结果,其中,所述第二任务模型是基于调整后的第一隐编码和第一样本数据对应的第一标签训练得到的,所述调整后的第一隐编码是通过调整第一样本数据的第一隐编码得到的,所述调整包括以减少第一任务模型对所述第一样本数据的第一隐编码中的至少一个第一维度的关注度为目标调整所述至少一个第一维度,所述第一任务模型用于预测所述第一隐编码对应的敏感信息。
20.根据权利要求19所述的装置,其特征在于,所述调整还包括,以增大所述第二任务模型对所述第一样本数据的第一隐编码中的至少一个第二维度的关注度为目标调整所述至少一个第二维度。
21.根据权利要求19或20所述的装置,其特征在于,所述调整后的第一隐编码相对于所述第一样本数据的第一隐编码的变化量在目标范围内。
22.根据权利要求19至21中任一项所述的装置,其特征在于,所述至少一个第一维度包括所述第一隐编码的全部维度。
23.根据权利要求19至22中任一项所述的装置,其特征在于,所述至少一个第二维度包括所述第一隐编码的全部维度。
24.根据权利要求19至23中任一项所述的装置,其特征在于,所述第一任务模型是基于第二样本数据的第二隐编码和第二样本数据对应的第二标签训练得到的,所述第二标签用于指示所述第二样本数据对应的敏感信息的真值。
25.一种模型的训练装置,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行如权利要求1至6中任一项所述的方法。
26.一种数据处理装置,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行如权利要求7至12中任一项所述的方法。
27.一种计算机可读存储介质,其特征在于,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如权利要求1至6或权利要求7至12中任一项所述的方法。
28.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至6或权利要求7至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111326663.9A CN116127301A (zh) | 2021-11-10 | 2021-11-10 | 模型的训练方法、数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111326663.9A CN116127301A (zh) | 2021-11-10 | 2021-11-10 | 模型的训练方法、数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127301A true CN116127301A (zh) | 2023-05-16 |
Family
ID=86303176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111326663.9A Pending CN116127301A (zh) | 2021-11-10 | 2021-11-10 | 模型的训练方法、数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127301A (zh) |
-
2021
- 2021-11-10 CN CN202111326663.9A patent/CN116127301A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4064130A1 (en) | Neural network model update method, and image processing method and device | |
CN112651511B (zh) | 一种训练模型的方法、数据处理的方法以及装置 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN110175671A (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN110222717B (zh) | 图像处理方法和装置 | |
CN111898635A (zh) | 神经网络的训练方法、数据获取方法和装置 | |
CN112418392A (zh) | 一种神经网络构建方法以及装置 | |
CN113688855A (zh) | 数据处理方法、联邦学习的训练方法及相关装置、设备 | |
CN113570029A (zh) | 获取神经网络模型的方法、图像处理方法及装置 | |
EP3884426B1 (en) | Action classification in video clips using attention-based neural networks | |
CN114255361A (zh) | 神经网络模型的训练方法、图像处理方法及装置 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111368972A (zh) | 一种卷积层量化方法及其装置 | |
CN114418030B (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN112633459A (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
CN111612215A (zh) | 训练时间序列预测模型的方法、时间序列预测方法及装置 | |
CN111340190A (zh) | 构建网络结构的方法与装置、及图像生成方法与装置 | |
CN112257759A (zh) | 一种图像处理的方法以及装置 | |
CN113128285A (zh) | 一种处理视频的方法及装置 | |
WO2021169366A1 (zh) | 数据增强方法和装置 | |
CN114707589B (zh) | 对抗样本的生成方法、装置、存储介质、设备及程序产品 | |
WO2024160215A1 (zh) | 一种数据处理方法及其装置 | |
CN114861859A (zh) | 神经网络模型的训练方法、数据处理方法及装置 | |
EP4318322A1 (en) | Data processing method and related device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |