CN110070183B - 一种弱标注数据的神经网络模型训练方法及装置 - Google Patents

一种弱标注数据的神经网络模型训练方法及装置 Download PDF

Info

Publication number
CN110070183B
CN110070183B CN201910181274.8A CN201910181274A CN110070183B CN 110070183 B CN110070183 B CN 110070183B CN 201910181274 A CN201910181274 A CN 201910181274A CN 110070183 B CN110070183 B CN 110070183B
Authority
CN
China
Prior art keywords
label
model
neural network
target
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910181274.8A
Other languages
English (en)
Other versions
CN110070183A (zh
Inventor
葛仕明
李晨钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910181274.8A priority Critical patent/CN110070183B/zh
Publication of CN110070183A publication Critical patent/CN110070183A/zh
Application granted granted Critical
Publication of CN110070183B publication Critical patent/CN110070183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及一种弱标注数据的神经网络模型训练方法及装置。该方法的步骤包括:1)通过特征流深度神经网络从输入的特征中学习标签预测,并输出目标标签的预测结果;2)通过标签流深度神经网络从输入的多视角弱标签中学习标签预测,并输出目标标签的预测结果;3)采用广义的交叉熵损失定义标签的一致性,通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络,对目标标签的预测结果进行优化。本发明采用特征与标签两路学习标签预测,通过双流协同统一融合了模型和知识,同时考虑了弱特征和弱标签,创新性地构建了模型协同优化策略,利用彼此的知识交叉验证引导模型优化。

Description

一种弱标注数据的神经网络模型训练方法及装置
技术领域
本发明属于互联网领域,具体而言,涉及一种基于弱监督学习的神经网络模型训练方法和装置。
背景技术
近年来,人工神经网络在机器学习和模式识别领域取得了巨大的成就。人工神经网络的计算模型灵感来自动物的中枢神经系统,通常呈现为相互连接的“神经元”,可以依赖于大量的输入和一般的未知近似函数进行估计,具有很强的非线性关系拟合能力。
例如,用于手写体识别的神经网络是由一组可能被输入图像的像素激活的输入神经元来限定。后经过加权,并通过一个函数(由网络的设计者确定的)转化,这些神经元的致动被其他神经元识别然后被传递,重复此过程,直到最后,输出神经元被激活,这决定了哪些字符被读取。
人工神经网络的最大优势是其能够被用作一个任意函数逼近的机制,那是从观测到的数据“学习”。换言之,为了实现预先被确定的功能,大规模的完全标注信息的训练数据对模型的训练起着至关重要的作用。而现实生活中,一方面人工标注的时间和人力成本很高,另一方面,部分问题缺乏足够的先验知识,难以得到准确的分类标签。
针对上述的问题,目前尚未提出有效的解决方案。在弱监督机器学习领域,更具体地,在含噪音标记样本下的学习问题,主要有以下几种方法。
一类方法是基于噪声估计的学习方法,这类方法可假定样本标签的噪音水平已知,从而通过对分类分布进行损失惩罚设计来实现学习,如通过修改理想情况下的标签损失惩罚函数到带噪音标签情况下的标签损失惩罚函数来实现学习。
第二类方法是知识传递方法,通过将已经学习的模型在一定量的样本上进行传递与修正,获得更好的模型。采用知识传递的方法,可在一个含大量数据的数据集上进行模型训练,得到一个性能较高的模型,然后利用该模型在特定的弱监督数据集上进行模型调整,从而实现模型对特定应用的适应性。
第三类方法是集成学习方法,使用一系列学习器在已有弱监督数据上进行学习,将已有的同类别“弱”模型集成起来,变为“强”模型。通过集成多个学习器,充分利用它们学习到的针对训练数据的知识并将其综合应用,集百家之长,从而在特定条件下能实现更高的准确率,但训练比较复杂而且效率不高。
上述现有技术的缺陷主要是:1.模型复杂度高,训练困难;2.分类器对标注知识利用不足,分类准确度不佳。3.模型安全性差。
发明内容
本发明提供了一种弱标注数据的神经网络模型训练方法和装置,以解决在标签不准确的情形下训练强决策能力的分类网络的技术问题。
本发明的一种弱标注数据的神经网络模型训练方法,包括以下步骤:
1)通过特征流深度神经网络从输入的特征中学习标签预测,并输出目标标签的预测结果;
2)通过标签流深度神经网络从输入的多视角弱标签中学习标签预测,并输出目标标签的预测结果;
3)采用广义的交叉熵损失定义标签的一致性,通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络,对目标标签的预测结果进行优化。
进一步地,所述特征流深度神经网络是一个基于深度神经网络的特征修复与决策模型,其由11个全连接层构成,输出层的激活函数为tanH,其他层的激活函数均为ReLU函数;该模型的目标是输出针对具体业务场景的决策,即解决一个二分类问题;该模型的第1到9层对输入特征进行非线性映射,采用自动编码器的架构,利用信息的冗余性,恢复在降维过程中损失的场景信息;10到11层则基于修复后的特征输出针对具体业务场景的决策,即预测标签。
进一步地,所述标签流深度神经网络是一个基于深度神经网络的标签去噪优化与集成决策模型,其由11个全连接层构成,输出层的激活函数为tanH,其他层的激活函数均为ReLU函数;该模型的目标是输出针对具体业务场景的决策,即解决一个二分类问题;该模型的第1到9层对输入弱标签进行非线性映射,采用自动编码器的架构,将输入弱标签视作含噪声的准确标签,通过重构输入实现去噪声的目的,以隐式学习的方式将原本的弱标签提炼为精简且准确的形式,10到11层的目标则是依据经优化的标签输出具体业务决策,即二分类结果。
进一步地,步骤3)包括:
3.1)构建一个损失函数L,由目标一致性损失项和知识损失项组成:
Figure GDA0002980861380000021
其中,Φf为特征学习器,Φt为标签学习器,λ为调整参数,用于平衡各项损失的影响。特征流DNN和标签流DNN的参数{Wf,Wt}以及伪目标标签
Figure GDA0002980861380000031
是模型学习的目标,F和T是输入特征和弱标签即训练样本;本发明所述“伪目标标签”是指假设的目标标签,具有目标标签的监督功能。
损失函数L的第一项为目标一致性损失项L1,用于实现特征学习器和标签学习器的知识融合,通过互相协同来进行伪标签监督情形下模型规整和优化;损失函数L的第二项为知识损失项L2,用于对伪标签
Figure GDA0002980861380000032
自身分布规律的有效性进行评估,从而更新伪标签,确保特征修复和标签去噪的有效性。
3.2)通过交替迭代优化损失函数L,实现神经网络模型的学习。
进一步地,根据业务部署需求,对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩;所述优化压缩包括下列中的至少一种:
a)从模型大小上通过量化、剪枝进行参数数量与精度裁剪,提升模型部署的推理效能;
b)采用模型蒸馏技术设计层数更少的、结构更紧凑的神经网络来实现对复杂模型效果的逼近。
进一步地,所述模型蒸馏技术从训练好的模型中提取归一化前的概率分布向量为软分类标签,作为另一个更轻量级、更低复杂度的模型的学习目标,通过对学生模型的训练,实现知识从教师模型到学生模型的传递。
进一步地,从所述特征流深度神经网络和所述标签流深度神经网络的网络结构或规则引入可解释性机制,以提升模型部署的安全性。
与上面方法对应地,本发明还提供一种弱标注数据的神经网络模型训练装置,其包括:
特征学习器,用于通过特征流深度神经网络从输入的特征中学习标签预测,并输出目标标签的预测结果;
标签学习器,用于通过标签流深度神经网络从输入的多视角弱标签中学习标签预测,并输出目标标签的预测结果;
目标一致性评估器,用于采用广义的交叉熵损失定义标签的一致性,通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络,对目标标签的预测结果进行优化。
进一步地,还包括模型压缩器,用于根据业务部署需求,对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩。
与现有技术相比,本发明的积极效果为:
1.采用特征与标签两路学习标签预测,通过双流协同统一融合了模型和知识,同时考虑了弱特征和弱标签,创新性地构建了模型协同优化策略,利用彼此的知识交叉验证引导模型优化。
2.创新性地引入伪目标标签,将无监督问题转化为有监督问题,迭代优化双流分类模型与伪目标标签,提升模型性能。
3.提出以知识蒸馏为核心的模型压缩,降低模型复杂度和计算成本,使之更适于实际部署。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的双流深度神经网络系统优化框架。
图2为本发明的特征学习器流程图。
图3为本发明的标签学习器流程图。
图4为本发明的模型压缩流程图。
图5为本发明的一个应用场景示例。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一方面,提供了一种模型的训练方法的方法实施例。本发明的方法流程如图1所示。本发明的方法框架包含特征流和标签流两个深度神经网络(DNN),即双流深度神经网络,主要由特征学习器、标签学习器、目标一致性评估器和模型压缩器四个模块组成。
一.特征学习器
现实的互联网业务中,一般需要基于多维大数据做出决策,由于应用这些高维度、高稀疏性的元数据直接用于训练显然效率太低,往往利用既有的模型或规则提取特征向量,实现数据的清洗与结构化,再进行后续任务。由于维度压缩程度高,特征向量的表征能力有限。
针对以上不足,本发明构建了一个基于DNN的特征修复与决策模型Φf。具体地,模型由11个全连接层构成,输出层的激活函数为tanH,其他层的激活函数均为ReLU函数。用Φf(F,Wf)表示模型对输入的F和Wf进行非线性操作得到的输出结果,其中F表示输入特征向量,Wf表示模型Φf的参数。该模型的目标是输出针对具体业务场景的决策,即解决一个二分类问题(是否为某事件)。该模型的第1到9层对输入特征进行非线性映射,采用自动编码器的架构,目的是利用信息的冗余性,恢复在降维过程中损失的场景信息,得到表征能力更强的特征,通过神经网络层实现对输入特征的非线性映射;10到11层则基于修复后的特征输出针对具体业务场景的决策,即预测标签,其大小与目标标签相同,对于二类分类问题来说其维度是1,采用独热编码形式表示则是2维。特征学习器的流程如图2所示。
该模型的优点体现在:将修复与识别任务相结合,一方面通过中间层隐特征修复,提高特征的表征能力,为后续的风险决策提供尽可能丰富而准确的有关目标场景的信息;另一方面,有效利用了决策结果对特征的修复提供的知识引导。
二.标签学习器
实际场景中我们往往能够获得弱标签,即与目标问题不直接相关或不够准确的标记信息,弱标签具备对场景数据的一定的辨别或理解能力,但不足以对复杂目标问题做出强决策。基于此,本模块构建了一个基于DNN的标签去噪优化与集成决策模型Φt,具体地,模型由11个全连接层构成,输出层的激活函数为tanH,其他层的激活函数均为ReLU函数。用Φt(T,Wt)表示模型对输入的T和Wt进行非线性操作得到的输出结果,其中T表示输入弱标签,Wt表示模型Φt的参数。该模型的目标是输出针对具体业务场景的决策,即解决一个二分类问题(是否为某事件)。模型的第1到9层对输入弱标签进行非线性映射,采用自动编码器的架构,将输入弱标签视作含噪声的准确标签,以无噪声标签为目标输出,通过重构输入实现去噪声的目的,将原本的弱标签提炼为更精简且准确的形式,10到11层的目标则是依据经优化的标签输出具体业务决策,即二分类结果。该模块的研究实现了标签的优化与再整理。标签学习器的流程如图3所示。
该模块的优点体现在:有效地利用了既有弱标签所蕴含的对场景数据的理解能力,通过知识再整合,用于提升模型在具体业务上的表现,形成了一个通用的模型框架。
三.目标一致性评估器
为了实现特征学习器和标签学习器之间的相互协作,进行针对具体业务场景的训练与优化。本发明提出一种基于目标一致性的优化学习方法,具体步骤为:
首先构建一个评估损失函数L,由目标一致性损失项和知识损失项组成:
Figure GDA0002980861380000061
其中,Φf为特征学习器,Φt为标签学习器,λ为调整参数,用于平衡各项损失的影响。特征流DNN和标签流DNN的参数{Wf,Wt}以及伪目标标签
Figure GDA0002980861380000062
是模型学习的目标,F和T是输入特征和弱标签即训练样本。
损失函数L的第一项为目标一致性损失项L1,用于实现特征学习器和标签学习器的知识融合,通过互相协同来进行伪标签监督情形下模型规整和优化。具体地可以表示为以下公式:
Figure GDA0002980861380000063
其中,n代表样本个数,C代表类别个数。pji和qji分别为网络Φf和Φt输出的第j个样本属于第i类的预测概率,
Figure GDA0002980861380000064
是相应的目标概率即伪标签,
Figure GDA0002980861380000065
Figure GDA0002980861380000066
分别是网络Φf和Φt中间层的特征,D表示特征学习器和标签学习器中间层特征之间的距离。
上式由三项组成,第一项和第二项均为广义的交叉熵函数,分别用于评价特征学习器和标签学习器预测结果与伪标签分布的一致性,目的是以伪标签作为监督信号优化两个分类网络。第三项则是特征学习器和标签学习器中间层特征之间的距离,目的是实现两个网络知识的协同,互相引导网络的优化,这里即选用最简单的欧氏距离度量。
损失函数L的第二项为知识损失项L2,用于对伪标签
Figure GDA0002980861380000067
自身分布规律的有效性进行评估,从而更新伪标签,确保特征修复和标签去噪的有效性。数学表达如下:
Figure GDA0002980861380000068
其中,n代表样本个数,C代表类别个数。pji和qji分别为网络Φf和Φt输出的第j个样本属于第i类的预测概率,
Figure GDA0002980861380000069
是相应的目标概率即伪标签。上式由网络Φf和Φt的输出与伪标签之间的KL距离(Kullback-Leiber Divergence)组成,同样是评价特征学习器和标签学习器预测结果与伪标签分布的一致性,而此处目的是利用两个网络已学习到的知识优化更新伪标签。
进一步地,交替迭代优化损失函数L,实现模型学习。
该模型的优点体现在:统一融合了模型和知识,同时考虑了弱特征和弱标签,创新性地构建了模型协同优化策略,利用彼此的知识交叉验证引导模型优化,从特征和标签两个层面评估模型能力。
四.模型压缩器
深度学习发展以来已取得了显著的成就,然而,现有的基于深度学习的模型往往具有高复杂度、高计算量,因而在资源受限场景下很难部署和应用。为了实现更好的模型泛化能力和更高效的部署,本发明根据业务部署需求,从两个方面进行模型的优化压缩,流程如图4所示。
1.从模型大小上通过量化、剪枝等手段进行参数数量与精度裁剪,提升模型部署的推理效能。其中裁剪可以使用现有技术实现。
2.采用模型蒸馏技术,设计一个更浅(层数较少)结构更紧凑的网络来实现对复杂模型效果的逼近。具体地,从训练好的模型(教师模型)中提取归一化前的概率分布向量为软分类标签,作为另一个更轻量级、更低复杂度的模型(学生模型)的学习目标。通过对学生模型的训练,实现知识从教师模型到学生模型的传递。
同时,从网络结构、规则等引入可解释性机制,提升模型部署的安全性。例如,利用t-SNE等可视化方法分析网络中间层特征的分布特性。
该模型的优点体现在:一体化地解决模型部署中的推理效能、安全性等问题,有效地降低模型落地应用的风险。
采用本发明的上述技术方案,实现了不完全信息数据下的学习,解决了如下的两个“利用”问题。第一,数据利用问题:在现实开放环境下,相对于完全标注的监督数据,弱监督、带噪音的数据不完全标注数据则很容易获得,尤其是在互联网环境中,该类数据每天均能大量产生,如何利用好这些数据来引导机器学习,获得具备智能稳定的模型是一个需要解决的问题。第二,知识利用问题:现实场景中获得的弱标签数据,尽管不能直接准确对应某一复杂任务而通常存在噪声或者标签错误,但是往往包含了一定的知识如规则等,这些知识以规则或弱模型的形态可以对数据从多视角进行标注,提供了多个带噪声的标签,标签的分布能反映一定的数据知识规律,能对模型学习起到重要的引导作用。
本发明的技术方案以多视角弱标签数据驱动为思想,以双流深度神经网络协同优化为核心,构建多视角弱标签学习方法框架。如图1所示,包含特征流和标签流两个深度神经网络(DNN),主要由特征学习器、标签学习器、目标一致性评估器和模型压缩器四个模块组成。根据本发明的双流深度神经网络,本发明的一个实施例提供一种弱标注数据的神经网络模型训练方法,即一种双流深度神经网络协同优化框架,主要包括以下步骤:
1)初始化1维伪目标标签
Figure GDA0002980861380000081
(例如根据经验对弱标签进行简单的加权平均初始化)。
2)特征流:通过特征流深度神经网络φf(F,Wf),从海量输入特征F中学习标签预测,优化模型参数Wf。其输出是对目标(target)标签的预测,对于二类分类问题来说预测标签的维度是1,采用独热编码形式表示则是2维。
3)标签流:通过标签流深度神经网络Φt(T,Wt),从对应的海量多视角弱标签T中学习出标签的集成,优化模型参数Wt。其输出也是预测标签。具体地,T的维度是d,表示从d个弱模型或规则(例如众包)对目标标签从多个视角进行预测或投票。
4)从一致性分布的角度来进行伪目标标签的优化。理想情况下,我们期望特征流深度神经网络和标签流深度神经网络预测的结果都一样对应于真实的目标标签。利用这点,采用广义的交叉熵损失定义标签的一致性,联合地训练两个深度神经网络。更新得到新的伪目标标签。
5)交替迭代地对{Wf,Wl}和
Figure GDA0002980861380000082
进行优化,直到满足停止条件。
6)根据业务部署需求,从两方面对模型进行优化压缩。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
下面结合图5对本发明在具体场景中的利用进行描述。
当今,互联网金融风险(盗卡、薅羊毛等)层出不穷,急需机器学习手段进行有效的风险控制。近年来使用深度神经网络(DNN)在监督数据上训练模型进行风控,取得了良好效果。但是,这种训练方式在很多实际业务落地中存在困难。在很多特定业务场景中,一方面,数据标注过程所需的人力和时间成本极高;另一方面,风控场景中需要考量的信用度等因素很难量化,很多任务很难获得如真值标签这样的强监督信息,只有若干主观评测的分值,标签信息不准确。如何充分利用不准确的弱监督海量数据实现精准决策,是风控面临的一个巨大挑战。本发明涉及的一种弱标注数据训练方法及装置能够很好地解决这个问题。如图5,风控场景中常常用到多源高维多媒体数据用于构建人物画像,并将其用于风险决策。使用这些元数据作分类显然不现实,计算量大且模型训练效率低,因此一般将其转换为相对低维的特征作为分类网络输入。在部分金融风控场景中,完全准确的标签很难获得,需要极大的时间成本,但是一些不够准确的弱分类标签则容易获得。将已有的弱特征和弱标签分别作为输入,经本发明提出的弱标注数据训练方法与装置即可得到一个与问题相适应的风险控制模型,进而实现风险决策。
本发明的以上技术方案中,未详细描述的部分可以采用现有技术实现。
本发明方案中,特征学习网络和标签学习网络的结构并不仅限于本发明方案中所描述的11层全连接网络,而可以根据具体业务场景设计具体的网络架构(例如,卷积神经网络等)。本发明方案中定义的距离函数均可替换为其他广义距离度量。

Claims (8)

1.一种弱标注数据的神经网络模型训练方法,其特征在于,包括以下步骤:
1)通过特征流深度神经网络从输入的特征中学习标签预测,并输出目标标签的预测结果;
2)通过标签流深度神经网络从输入的多视角弱标签中学习标签预测,并输出目标标签的预测结果;
3)采用广义的交叉熵损失定义标签的一致性,通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络,对目标标签的预测结果进行优化;
步骤3)包括:
3.1)构建一个损失函数L,由目标一致性损失项和知识损失项组成:
Figure FDA0002980861370000011
其中,Φf为特征学习器,Φt为标签学习器,λ为调整参数,用于平衡各项损失的影响;特征流DNN和标签流DNN的参数{Wf,Wt}以及伪目标标签
Figure FDA0002980861370000012
是模型学习的目标,F和T是输入特征和弱标签即训练样本;
损失函数L的第一项为目标一致性损失项L1,用于实现特征学习器和标签学习器的知识融合,通过互相协同来进行伪标签监督情形下模型规整和优化;损失函数L的第二项为知识损失项L2,用于对伪标签
Figure FDA0002980861370000013
自身分布规律的有效性进行评估,从而更新伪标签,确保特征修复和标签去噪的有效性;
3.2)通过交替迭代优化损失函数L,实现神经网络模型的学习;
所述目标一致性损失项L1表示为以下公式:
Figure FDA0002980861370000014
其中,n代表样本个数,C代表类别个数,pji和qji分别为网络Φf和Φt输出的第j个样本属于第i类的预测概率,
Figure FDA0002980861370000015
是相应的目标概率即伪标签,
Figure FDA0002980861370000016
Figure FDA0002980861370000017
分别是网络Φf和Φt中间层的特征,D表示特征学习器和标签学习器中间层特征之间的距离;上式由三项组成,第一项和第二项均为广义的交叉熵函数,分别用于评价特征学习器和标签学习器预测结果与伪标签分布的一致性,目的是以伪标签作为监督信号优化两个分类网络;第三项则是特征学习器和标签学习器中间层特征之间的距离,目的是实现两个网络知识的协同,互相引导网络的优化;
所述知识损失项L2表示为以下公式:
Figure FDA0002980861370000021
其中,n代表样本个数,C代表类别个数,pji和qji分别为网络Φf和Φt输出的第j个样本属于第i类的预测概率,
Figure FDA0002980861370000022
是相应的目标概率即伪标签;上式由网络Φf和Φt的输出与伪标签之间的KL距离组成,用于评价特征学习器和标签学习器预测结果与伪标签分布的一致性,目的是利用两个网络已学习到的知识优化更新伪标签。
2.根据权利要求1所述的方法,其特征在于,所述特征流深度神经网络是一个基于深度神经网络的特征修复与决策模型,其由11个全连接层构成,输出层的激活函数为tanH,其他层的激活函数均为ReLU函数;该模型的目标是输出针对具体业务场景的决策,即解决一个二分类问题;该模型的第1到9层对输入特征进行非线性映射,采用自动编码器的架构,利用信息的冗余性,恢复在降维过程中损失的场景信息;10到11层则基于修复后的特征输出针对具体业务场景的决策,即预测标签。
3.根据权利要求1所述的方法,其特征在于,所述标签流深度神经网络是一个基于深度神经网络的标签去噪优化与集成决策模型,其由11个全连接层构成,输出层的激活函数为tanH,其他层的激活函数均为ReLU函数;该模型的目标是输出针对具体业务场景的决策,即解决一个二分类问题;该模型的第1到9层对输入弱标签进行非线性映射,采用自动编码器的架构,将输入弱标签视作含噪声的准确标签,通过重构输入实现去噪声的目的,以隐式学习的方式将原本的弱标签提炼为精简且准确的形式,10到11层的目标则是依据经优化的标签输出具体业务决策,即二分类结果。
4.根据权利要求1所述的方法,其特征在于,根据业务部署需求,对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩;所述优化压缩包括下列中的至少一种:
a)从模型大小上通过量化、剪枝进行参数数量与精度裁剪,提升模型部署的推理效能;
b)采用模型蒸馏技术设计层数更少的、结构更紧凑的神经网络来实现对复杂模型效果的逼近。
5.根据权利要求4所述的方法,其特征在于,所述模型蒸馏技术从训练好的模型中提取归一化前的概率分布向量为软分类标签,作为另一个更轻量级、更低复杂度的模型的学习目标,通过对学生模型的训练,实现知识从教师模型到学生模型的传递。
6.根据权利要求1所述的方法,其特征在于,从所述特征流深度神经网络和所述标签流深度神经网络的网络结构或规则引入可解释性机制,以提升模型部署的安全性。
7.一种采用权利要求1~6中任一权利要求所述方法的弱标注数据的神经网络模型训练装置,其特征在于,包括:
特征学习器,用于通过特征流深度神经网络从输入的特征中学习标签预测,并输出目标标签的预测结果;
标签学习器,用于通过标签流深度神经网络从输入的多视角弱标签中学习标签预测,并输出目标标签的预测结果;
目标一致性评估器,用于采用广义的交叉熵损失定义标签的一致性,通过联合地训练所述特征流深度神经网络和所述标签流深度神经网络,对目标标签的预测结果进行优化。
8.根据权利要求7所述的装置,其特征在于,还包括模型压缩器,用于根据业务部署需求,对训练好的所述特征流深度神经网络和所述标签流深度神经网络的模型进行优化压缩。
CN201910181274.8A 2019-03-11 2019-03-11 一种弱标注数据的神经网络模型训练方法及装置 Active CN110070183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910181274.8A CN110070183B (zh) 2019-03-11 2019-03-11 一种弱标注数据的神经网络模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910181274.8A CN110070183B (zh) 2019-03-11 2019-03-11 一种弱标注数据的神经网络模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN110070183A CN110070183A (zh) 2019-07-30
CN110070183B true CN110070183B (zh) 2021-08-20

Family

ID=67366147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910181274.8A Active CN110070183B (zh) 2019-03-11 2019-03-11 一种弱标注数据的神经网络模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN110070183B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580499B (zh) * 2019-08-20 2022-05-24 北京邮电大学 基于众包重复标签的深度学习目标检测方法及系统
CN112529024A (zh) * 2019-09-17 2021-03-19 株式会社理光 一种样本数据的生成方法、装置及计算机可读存储介质
CN110688471B (zh) * 2019-09-30 2022-09-09 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备
US11579598B2 (en) * 2019-10-17 2023-02-14 Mitsubishi Electric Research Laboratories, Inc. Manufacturing automation using acoustic separation neural network
CN110826344B (zh) 2019-10-24 2022-03-01 北京小米智能科技有限公司 神经网络模型压缩方法、语料翻译方法及其装置
CN110909775A (zh) * 2019-11-08 2020-03-24 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置及电子设备
CN111062563A (zh) * 2019-11-08 2020-04-24 支付宝(杭州)信息技术有限公司 风险预测模型的训练方法、风险预测方法及相关装置
CN111143552B (zh) * 2019-12-05 2023-06-27 支付宝(杭州)信息技术有限公司 文本信息的类别预测方法和装置、服务器
CN111028224B (zh) * 2019-12-12 2020-12-01 广西医准智能科技有限公司 数据标注、模型训练和图像处理方法、装置及存储介质
CN111079836B (zh) * 2019-12-16 2022-10-04 浙江大学 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN111104482A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 数据处理方法和装置
CN111125760B (zh) * 2019-12-20 2022-02-15 支付宝(杭州)信息技术有限公司 保护数据隐私的模型训练、预测方法及其系统
CN111145026B (zh) * 2019-12-30 2023-05-09 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置
CN111242364A (zh) * 2020-01-07 2020-06-05 上海钧正网络科技有限公司 基于神经网络的车辆故障和舒适度预测方法、装置、终端及介质
CN113450786A (zh) * 2020-03-25 2021-09-28 阿里巴巴集团控股有限公司 网络模型获得方法、信息处理方法,装置以及电子设备
CN111401483B (zh) * 2020-05-15 2022-05-17 支付宝(杭州)信息技术有限公司 样本数据处理方法、装置及多方模型训练系统
CN111695698B (zh) * 2020-06-12 2023-09-12 北京百度网讯科技有限公司 用于模型蒸馏的方法、装置、电子设备及可读存储介质
CN111966823B (zh) * 2020-07-02 2022-04-22 华南理工大学 一种面向标签噪声的图节点分类方法
CN112115781B (zh) * 2020-08-11 2022-08-16 西安交通大学 基于对抗攻击样本和多视图聚类的无监督行人重识别方法
CN111950638B (zh) * 2020-08-14 2024-02-06 厦门美图之家科技有限公司 基于模型蒸馏的图像分类方法、装置和电子设备
CN112199549A (zh) * 2020-09-08 2021-01-08 北京数美时代科技有限公司 基于弱标签标注的音频事件监测方法、装置、计算机设备
CN112199717B (zh) * 2020-09-30 2024-03-22 中国科学院信息工程研究所 一种基于少量公共数据的隐私模型训练方法及装置
CN112116441B (zh) * 2020-10-13 2024-03-12 腾讯科技(深圳)有限公司 金融风险分类模型的训练方法、分类方法、装置及设备
CN112364980B (zh) * 2020-11-09 2024-04-30 北京计算机技术及应用研究所 一种弱监督场景下基于强化学习的深度神经网络训练方法
CN112541122A (zh) * 2020-12-23 2021-03-23 北京百度网讯科技有限公司 推荐模型的训练方法、装置、电子设备及存储介质
CN112733911B (zh) * 2020-12-31 2023-05-30 平安科技(深圳)有限公司 实体识别模型的训练方法、装置、设备和存储介质
CN112860183B (zh) * 2021-01-07 2023-04-14 西安交通大学 基于高阶矩匹配的多源蒸馏-迁移机械故障智能诊断方法
CN112766337B (zh) * 2021-01-11 2024-01-12 中国科学院计算技术研究所 用于预测众包数据的正确标签的方法及系统
CN113033679B (zh) * 2021-03-31 2022-05-31 清华大学深圳国际研究生院 一种用于监控视频车辆检测的半监督带噪声学习方法
CN113110550B (zh) * 2021-04-23 2022-09-23 南京大学 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法
CN113361201B (zh) * 2021-06-10 2023-08-25 南京大学 一种基于噪声标签学习的众包获取标签数据清洗方法
CN113919936B (zh) * 2021-09-22 2022-08-05 百融至信(北京)征信有限公司 样本数据的处理方法及装置
CN114139629A (zh) * 2021-12-02 2022-03-04 中国人民解放军国防科技大学 基于度量学习的自引导式混合数据表征学习方法及系统
CN114299349B (zh) * 2022-03-04 2022-05-13 南京航空航天大学 一种基于多专家系统和知识蒸馏的众包图像学习方法
CN115422179B (zh) * 2022-09-14 2023-05-23 北京中数睿智科技有限公司 基于大数据清洗的ai训练处理方法及人工智能训练系统
CN115393660B (zh) * 2022-10-28 2023-02-24 松立控股集团股份有限公司 基于弱监督协同稀疏关系排名机制的停车场火灾检测方法
CN116883817A (zh) * 2023-07-26 2023-10-13 中国信息通信研究院 基于人工智能的目标增强检测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334934A (zh) * 2017-06-07 2018-07-27 北京深鉴智能科技有限公司 基于剪枝和蒸馏的卷积神经网络压缩方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108734195A (zh) * 2018-04-13 2018-11-02 王延峰 基于协同学习的弱监督检测模型训练方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229357B2 (en) * 2015-09-11 2019-03-12 Facebook, Inc. High-capacity machine learning system
US9965717B2 (en) * 2015-11-13 2018-05-08 Adobe Systems Incorporated Learning image representation by distilling from multi-task networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334934A (zh) * 2017-06-07 2018-07-27 北京深鉴智能科技有限公司 基于剪枝和蒸馏的卷积神经网络压缩方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108734195A (zh) * 2018-04-13 2018-11-02 王延峰 基于协同学习的弱监督检测模型训练方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Co-teaching:Robust training of deep neural networks with extremely noisy labels;Bo Han等;《32nd Conference on Neural Information Processing Systems》;20181030;1-13 *
Daiki Tanaka等.Joint Optimization Framework for Learning with Noisy Labels.《2018CVPR》.2018,1-11. *
Joint Optimization Framework for Learning with Noisy Labels;Daiki Tanaka等;《2018CVPR》;20180330;1-11 *
基于增强监督知识蒸馏的交通标识分类;赵胜伟等;《中国科技论文》;20171031;2355-2360 *

Also Published As

Publication number Publication date
CN110070183A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110070183B (zh) 一种弱标注数据的神经网络模型训练方法及装置
Jaafra et al. Reinforcement learning for neural architecture search: A review
CN111680721B (zh) 利用硬性注意力的准确且可解释的分类
CN111695779B (zh) 一种知识追踪方法、装置及存储介质
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN112949929B (zh) 一种基于协同嵌入增强题目表示的知识追踪方法及系统
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
Jiang et al. An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing
Long et al. Beginning deep learning with tensorflow
CN115168864A (zh) 一种基于特征交叉的智能交叉合约漏洞检测方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN113989566A (zh) 一种图像分类方法、装置、计算机设备和存储介质
LOPEZ Big Data and Deep Learning. Examples with Matlab
Ghifary Domain adaptation and domain generalization with representation learning
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN111158640B (zh) 一种基于深度学习的一对多需求分析识别方法
Liu et al. Hybrid learning network: a novel architecture for fast learning
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant