CN103942421A - 基于噪声扰动的测试数据预测方法 - Google Patents

基于噪声扰动的测试数据预测方法 Download PDF

Info

Publication number
CN103942421A
CN103942421A CN201410140690.0A CN201410140690A CN103942421A CN 103942421 A CN103942421 A CN 103942421A CN 201410140690 A CN201410140690 A CN 201410140690A CN 103942421 A CN103942421 A CN 103942421A
Authority
CN
China
Prior art keywords
loss function
test data
function
forecast model
forecasting methodology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410140690.0A
Other languages
English (en)
Other versions
CN103942421B (zh
Inventor
陈宁
朱军
陈键飞
张钹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410140690.0A priority Critical patent/CN103942421B/zh
Publication of CN103942421A publication Critical patent/CN103942421A/zh
Application granted granted Critical
Publication of CN103942421B publication Critical patent/CN103942421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于噪声扰动的测试数据预测方法,包括以下步骤:S1、对测试数据进行预处理,提取测试数据的特征并进行归一化处理;S2、根据测试数据的特征建立预测模型;S3、对预测模型进行参数求解;S4、利用求解后的预测模型对测试数据进行预测;步骤S3包括:选取预测模型的损失函数、将最小化预测模型的损失函数的期望设置为目标函数、计算损失函数的变分上界、优化目标函数及使用迭代复加权最小二乘法以求解目标函数。通过采用本发明所公开的基于噪声扰动的测试数据预测方法,运用数据增广方法解决了铰链损失函数以及罗杰斯特损失函数在扰动分布下的期望很难计算的问题,为噪声扰动模型学习方法提供了高效、准确的预测模型。

Description

基于噪声扰动的测试数据预测方法
技术领域
本发明涉及计算机应用领域,尤其涉及一种基于噪声扰动的测试数据预测方法。
背景技术
人工特征噪声扰动方法(artificial feature noising methods)是将有限的训练数据按照已知的扰动分布生成一系列扰动数据,扩充为无限个扰动后的训练数据进行训练的方法。在许多扰动方法中,dropout扰动是一种非常有效的控制过拟合的训练方法。Dropout扰动的核心思想是在每一步迭代训练过程中,随机丢弃一些特征,从而生成一系列特征数目较少的样本,在这种扰动后的数据上进行模型学习。由于扰动后的训练数据集规模太大,对模型的时间复杂度提出了很高的要求,因此很不实用。常用的噪声扰动模型学习方法是采用平均化的思想,最小化模型损失函数关于噪声扰动分布的期望,最近许多工作从自适应正则化的角度为这种方法提供了理论上的理解,例如S.Wager等人提出的“Dropout training as adaptiveregularization”,Advances in Neural Information Processing Systems(2013),并且这种方法在多种应用问题如文本分类(例如van derMaaten等人提出的“Learning with marginalized corrupted features”,International Conference on Machine Learning(2013))、实体识别(例如S.Wang等人提出的“Fast dropout training”,International Conferenceon Machine Learning(2013))、图像分类(例如S.Wang等人提出的“Feature noising for log-linear structured prediction”,EmpiricalMethods in Natural Language Processing(2013))等方面都有很有很不错的结果,这从近年来的多篇论文中可以得到印证。
噪声扰动模型学习方法的关键区别是不同损失函数的选取。之前有一些工作已经研究了二次损失函数、经典罗杰斯特损失函数、或者从一个广义线性模型(Generalized linear models,GLM)中推导得到的罗杰斯特损失函数。但是调研中发现,几乎没有噪声扰动模型方法是基于最大间隔的铰链损失函数的,而众所周知,基于铰链损失函数的最大间隔学习方法非常适于分类预测任务。基于铰链损失函数的噪声扰动方法的最大难点在于铰链损失函数中的max函数的非平滑性,使得直接计算或者近似铰链损失函数在扰动分布下的期望变得非常困难。已有的方法并不能直接解决这个难题,因此需要诉诸于新的方法。
发明内容
本发明所要解决的技术问题是现有的噪声扰动模型中无法使用铰链损失函数以及罗杰斯特损失函数以获得较精确的预测模型参数。
为此目的,本发明提出了一种基于噪声扰动的测试数据预测方法,包括以下步骤:
S1、对测试数据进行预处理,提取所述测试数据的特征并进行归一化处理;
S2、根据所述测试数据的特征建立用以对测试数据进行预测的预测模型;
S3、对所述预测模型进行参数求解;
S4、利用求解后的所述预测模型对测试数据进行预测;
其中,步骤S3包括:
S3.1、选取所述预测模型的损失函数,将最小化所述预测模型的损失函数的期望设置为目标函数;
S3.2、计算所述损失函数的变分上界;
S3.3、基于所述损失函数的变分上界,优化所述目标函数;
S3.4、使用迭代复加权最小二乘法以求解目标函数。
优选的,步骤S3.2中使用数据增广的方法得出所述损失函数的变分上界。
优选的,步骤S3.2中使用数据增广的方法以获取所述响应变量的伪似然函数,并根据所述伪似然函数获取所述损失函数的变分上界。
优选的,步骤S3.1中的损失函数为铰链损失函数,所述目标函数为最小化所述预测模型的铰链损失函数的期望。
优选的,步骤S3.4进一步包括:
对于低维的数据,用矩阵求逆的方式来得到所述预测模型参数的解;对于高维的数据,用数值求解方法以得到所述预测模型参数的解。
优选的,步骤S3.1中的损失函数为铰链损失函数,步骤S3.2中铰链损失函数期望的变分上界通过所述伪似然函数及杰森不等式得到。
优选的,步骤S3.1中的损失函数为罗杰斯特损失函数,所述目标函数为最小化所述预测模型的罗杰斯特损失函数的期望。
优选的,步骤S3.4中使用坐标下降法以实现变分优化。
通过采用本发明所公开的基于噪声扰动的测试数据预测方法,将铰链损失函数以及罗杰斯特损失函数用于噪声扰动模型学习中,并运用数据增广方法解决了铰链损失函数以及罗杰斯特损失函数在扰动分布下的期望很难计算这个挑战性问题,为噪声扰动模型学习方法提供了高效、准确的预测模型。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明的流程图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
如图1所示,为本发明基于噪声扰动的测试数据预测方法,包括以下步骤:
S1、对测试数据进行预处理,提取测试数据的特征并进行归一化处理;
S2、根据测试数据的特征建立用以对测试数据进行预测的预测模型;
S3、对预测模型进行参数求解;
S4、利用求解后的预测模型对测试数据进行预测;
其中,步骤S3包括:
S3.1、选取预测模型的损失函数,将最小化预测模型的损失函数的期望设置为目标函数;
S3.2、计算损失函数的变分上界;
S3.3、基于损失函数的变分上界,优化目标函数;
S3.4、使用迭代复加权最小二乘法以求解目标函数。
实施例1:
步骤S3.1中的损失函数取铰链损失函数,本发明包括如下步骤:A1、对测试数据进行预处理,提取测试数据的特征并进行归一化处理;
在此以二分类问题为例,多分类任务可以通过使用one-vs-all或者one-vs-one方式的多种二分类器实现。其中训练样本为数据特征和响应变量的集合(x,y),其中是输入的特征向量,其中,D表示特征向量的维度,y∈{+1,-1}表示二分类问题的类别标签。
A2、根据步骤A1中测试数据的特征建立用以对测试数据进行预测的预测模型;
A3、对预测模型进行参数求解;
A3.1、选取铰链损失函数为预测模型的损失函数,将最小化预测模型的铰链损失函数的期望设置为目标函数;
模型的铰链损失函数的期望表示为
其中,l为模型预测错误时的代价,N为样本数目,w为预测模型权值向量,为经过扰动后的输入特征,表示所有可观测数据θ:={w}表示所有需要训练学习得到的模型参数,表示铰链损失函数;上述的l及N均取预设值。由于无法写出max函数的期望的解析解,因此最小化铰链损失函数的期望是无法计算的。本发明通过引入数据增广变量,建立铰链损失函数期望的变分上界。
A3.2、计算铰链损失函数的变分上界;
为样本n对应的响应变量的伪似然函数,其中,c为正则化参数且取预设值,于是可以得到:
使用数据增广的方法,得到伪似然函数等价为:
φ ( yn | x ~ n , θ ) = ∫ 0 ∞ 1 2 π λ n exp { - ( λ n + cξ n ) 2 2 λ n } dλ n - - - ( 3 )
其中,λn,n∈[N]是增广变量。使用(3)和杰森不等式,可以得到铰链损失函数期望的变分上界如下:
其中H(λn)是变分分布的熵。定义表示变分分布q的期望,表示噪声扰动分布p的期望。
A3.3、基于铰链损失函数的变分上界,优化所述目标函数;
其中P是归一化的概率分布空间。可以发现,若没有特征噪声(即这个变分上界就是原目标函数,此时等价于学习一个标准的支持向量机分类器。
A3.4、使用迭代复加权最小二乘法以求解目标函数;
可以发现在变分上界中,当变分分布q给定,含有期望的项其实可看作一个二次损失函数的期望,这个期望值可以很容易地计算。本发明充分利用这个优良的属性,提出基于坐标下降的方法来求解问题(5)。此方法迭代地进行如下两步(类似于变分EM算法的两步迭代):
A3.4.1求解q(λ):推理得到变分分布q(λ)。具体来说,保持中的其他变量不变,优化q(λ)得到:
其中的平方期望项为
式中方差项是一个D×D的对角矩阵,其中每一个对角元素是特征在扰动分布下的方差。公式中的表示广义逆高斯分布。因此,服从逆高斯分布
A3.4.2求解θ:=w:去除中与w无关的项,此步可理解为最小化如下的目标函数:
其中可以发现此步骤等价于最小化复加权后的二次损失函数,详述如下。
当给定q(λ),M步等价于最小化复加权后的二次损失函数(包含L2范数的正则化因子):
其中是复加权后的标签,复加权系数具有如下形式:
对于低维的数据,可以用矩阵求逆的方式来得到w的解析解。具体来说,保持中其他项不变优化w,可以得到
其中I为单位矩阵。但是,当数据的维度很高(例如文本文档等)时,上述矩阵求逆的方法的计算复杂度急剧增长。此时,需要使用数值求解方法,例如拟牛顿方法等。
A4、利用求解后的预测模型对测试数据进行预测。
值得说明的是,本发明提出的算法迭代地最小化复加权后的二次损失函数的期望,其复加权系数可以直接得到解析形式。因此,本发明提出的方法可以被看作是复加权的迭代最小二乘法在dropout训练学习中的一个延伸。可以观测得到若固定且l=0,模型其实最小化二次损失函数在扰动分布下的期望。可以发现,本发明中铰链损失函数的期望值将通过迭代方法自适应地变化γn,不断地改进经典的二次损失函数的期望值。此外,假设扰动分布是无偏差的,即此时模型只需要计算扰动分布的方差,这对于所有服从指数族的概率分布来说都很容易计算。
实施例2:
步骤S3.1中的损失函数取罗杰斯特损失函数,本发明包括如下步骤:
B1、对测试数据进行预处理,提取测试数据的特征并进行归一化处理;
在此考虑二分类问题,多分类任务可以通过使用one-vs-all或者one-vs-one方式的多种二分类器实现。其中训练样本为数据特征和响应变量的集合(x,y),其中是输入的特征向量,其中,D表示特征向量的维度,y∈{+1,-1}表示二分类问题的类别标签。
B2、根据步骤B1中测试数据的特征建立用以对测试数据进行预测的预测模型;
B3、对预测模型进行参数求解;
B3.1、选取罗杰斯特损失函数为预测模型的损失函数,将最小
化预测模型的罗杰斯特损失函数的期望设置为目标函数;
罗杰斯特损失函数在扰动分布下的期望为:
N为样本数目,w为预测模型权值向量,为经过扰动后的输入特征,表示所有可观测数据表示罗杰斯特损失函数,其中N取预设值。由于这个期望不能得到解析解,需要推导其替代的变分上界。
B3.2、计算罗杰斯特损失函数的变分上界;
具体来说,令表示样本n对应的响应变量的伪似然函数,其中,c为正则化因子且取预设值,于是,运用数据增广原理,可以得到伪似然函数可以被表示成
ψ ( yn | x ~ n , w ) = 1 2 c e κ n ω n ∫ 0 ∞ e - λ n ( y n ω n ) 2 2 p ( λ n ) dλ n - - - ( 14 )
其中λn是增广的Polya-gamma变量,满足通过公式(14),可以推出罗杰斯特损失函数的期望的上界:
其中,H(λn)表示变分分布q(λ)的熵。定义表示变分分布q的期望,表示噪声扰动分布p的期望。
B3.3、基于罗杰斯特损失函数的变分上界,优化目标函数;
最小化罗杰斯特损失函数的变分上界目标函数:
其中q(λ)是变分分布。
B3.4、使用迭代复加权最小二乘法以求解目标函数;
本发明使用坐标下降法来求解变分优化问题,迭代地进行如下两步(类似于变分EM算法的两步迭代):
B3.4.1求解q(λ)推理得到变分分布q(λ)。具体来说,保持中的其他变量不变,优化q(λ),得到:
可以看出q(λ)服从Polya-gamma分布,其中
B3.4.2求解θ:=w:去除中与w无关的项,最小化如下的目标函数:
于是,可以得到最优解为
其中,I表示单位矩阵。观察发现,求解w其实等价于最小化一个复加权的二次损失函数的期望。
当给定q(λ),M步等价于最小化一个复加权的二次损失函数(包含L2范数的正则化因子):
其中是复加权后的标签,且复加权系数
可以看出,当固定式中时,迭代复加权最小二乘算法退化成最小化基于扰动分布的二次损失函数的期望。这与基于铰链损失函数的噪声扰动支持向量机分类方法相似。
B4、利用求解后的预测模型对测试数据进行预测。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (8)

1.一种基于噪声扰动的测试数据预测方法,其特征在于,包括以下步骤:
S1、对测试数据进行预处理,提取所述测试数据的特征并进行归一化处理;
S2、根据所述测试数据的特征建立用以对测试数据进行预测的预测模型;
S3、对所述预测模型进行参数求解;
S4、利用求解后的所述预测模型对测试数据进行预测;
其中,步骤S3包括:
S3.1、选取所述预测模型的损失函数,将最小化所述预测模型的损失函数的期望设置为目标函数;
S3.2、计算所述损失函数的变分上界;
S3.3、基于所述损失函数的变分上界,优化所述目标函数;
S3.4、使用迭代复加权最小二乘法以求解目标函数。
2.根据权利要求1所述的测试数据预测方法,其特征在于,步骤S3.2中使用数据增广的方法得出所述损失函数的变分上界。
3.根据权利要求2所述的测试数据预测方法,其特征在于,所述测试数据包括输入的特征向量与响应变量的集合,步骤S3.2中使用数据增广的方法以获取所述响应变量的伪似然函数,并根据所述伪似然函数获取所述损失函数的变分上界。
4.根据权利要求1至3中任一项所述的测试数据预测方法,其特征在于,步骤S3.1中的损失函数为铰链损失函数,所述目标函数为最小化所述预测模型的铰链损失函数的期望。
5.根据权利要求4所述的测试数据预测方法,其特征在于,步骤S3.4进一步包括:
对于低维的数据,用矩阵求逆的方式来得到所述预测模型参数的解;对于高维的数据,用数值求解方法以得到所述预测模型参数的解。
6.根据权利要求3所述的测试数据预测方法,其特征在于,步骤S3.1中的损失函数为铰链损失函数,步骤S3.2中铰链损失函数期望的变分上界通过所述伪似然函数及杰森不等式得到。
7.根据权利要求1至3中任一项所述的测试数据预测方法,其特征在于,步骤S3.1中的损失函数为罗杰斯特损失函数,所述目标函数为最小化所述预测模型的罗杰斯特损失函数的期望。
8.根据权利要求7所述的测试数据预测方法,其特征在于,步骤S3.4中使用坐标下降法以实现变分优化。
CN201410140690.0A 2014-04-09 2014-04-09 基于噪声扰动的测试数据预测方法 Active CN103942421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410140690.0A CN103942421B (zh) 2014-04-09 2014-04-09 基于噪声扰动的测试数据预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410140690.0A CN103942421B (zh) 2014-04-09 2014-04-09 基于噪声扰动的测试数据预测方法

Publications (2)

Publication Number Publication Date
CN103942421A true CN103942421A (zh) 2014-07-23
CN103942421B CN103942421B (zh) 2017-02-15

Family

ID=51190089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410140690.0A Active CN103942421B (zh) 2014-04-09 2014-04-09 基于噪声扰动的测试数据预测方法

Country Status (1)

Country Link
CN (1) CN103942421B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618046A (zh) * 2015-02-10 2015-05-13 广东省电信规划设计院有限公司 基于无线传播模型校正的信号强度预测方法和系统
WO2018165971A1 (zh) * 2017-03-17 2018-09-20 深圳大学 脉冲噪声下的加权稀疏约束稳健波束形成方法及装置
WO2019232772A1 (en) * 2018-06-08 2019-12-12 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for content identification
CN114037864A (zh) * 2021-10-31 2022-02-11 际络科技(上海)有限公司 图像分类模型的构建方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198228A (zh) * 2013-04-18 2013-07-10 清华大学 基于广义关系隐话题模型的关系网络链接预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198228A (zh) * 2013-04-18 2013-07-10 清华大学 基于广义关系隐话题模型的关系网络链接预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JUN ZHU等: "Bayesian Inference with Posterior Regularization and Applications to Infnite Latent SVMs", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
JUN ZHU等: "Gibbs Max-margin Topic Models with Data Augmentation", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
LAURENS VAN DER MAATEN等: "Learning with Marginalized Corrupted Features", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
NICHOLAS G等: "Data Augmentation for Support Vector Machines", 《BAYESIAN ANALYSIS》 *
TREVOR HASTIE等: "《The Elements of Statistical Learning Data Mining,Inference,and Prediction》", 31 December 2009 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104618046A (zh) * 2015-02-10 2015-05-13 广东省电信规划设计院有限公司 基于无线传播模型校正的信号强度预测方法和系统
CN104618046B (zh) * 2015-02-10 2017-05-03 广东省电信规划设计院有限公司 基于无线传播模型校正的信号强度预测方法和系统
WO2018165971A1 (zh) * 2017-03-17 2018-09-20 深圳大学 脉冲噪声下的加权稀疏约束稳健波束形成方法及装置
WO2019232772A1 (en) * 2018-06-08 2019-12-12 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for content identification
CN114037864A (zh) * 2021-10-31 2022-02-11 际络科技(上海)有限公司 图像分类模型的构建方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103942421B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN111279362B (zh) 胶囊神经网络
US20180247227A1 (en) Machine learning systems and methods for data augmentation
Kao et al. A Bayesian latent variable model with classification and regression tree approach for behavior and credit scoring
Shahriari et al. An entropy search portfolio for Bayesian optimization
CN103942421A (zh) 基于噪声扰动的测试数据预测方法
Ibragimovich et al. Effective recognition of pollen grains based on parametric adaptation of the image identification model
CN110298024A (zh) 涉密文档的检测方法、装置及存储介质
Zhu et al. Mixseq: Connecting macroscopic time series forecasting with microscopic time series data
CN102208030A (zh) 基于支持向量机正则化路径的贝叶斯模型平均模型组合方法
Krawczyk et al. Incremental weighted one-class classifier for mining stationary data streams
CN108846128B (zh) 一种基于自适应噪音降噪编码器的跨领域文本分类方法
El Bour et al. A crime prediction model based on spatial and temporal data
Wang et al. Adaptive supervised learning on data streams in reproducing kernel Hilbert spaces with data sparsity constraint
CN103678580B (zh) 一种用于文本分类的多任务机器学习方法及其装置
Wu et al. An intelligent forecasting model based on robust wavelet ν-support vector machine
Lahmiri Improving forecasting accuracy of the S&P500 intra-day price direction using both wavelet low and high frequency coefficients
Park et al. Robust Kriging models in computer experiments
Zeng et al. RACMF: robust attention convolutional matrix factorization for rating prediction
Chen et al. Experiments with rough set approach to face recognition
Zaorálek et al. Recognition of face images with noise based on tucker decomposition
Tanai et al. Model-based clustering analysis of student data
Hu et al. Latent Gaussian models for topic modeling
Bhandari et al. Enhanced Apriori Algorithm model in course suggestion system
Mohammadi et al. Surrogate Modeling and Surrogate-Based Optimization with Stochastic Simulations
Lee et al. An efficient method for determining the optimal convolutional neural network structure based on Taguchi method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210525

Address after: 100084 a1901, 19th floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee after: Beijing Ruili Wisdom Technology Co.,Ltd.

Address before: 100084 mailbox, 100084-82 Tsinghua Yuan, Beijing, Haidian District, Beijing

Patentee before: TSINGHUA University

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140723

Assignee: Beijing Intellectual Property Management Co.,Ltd.

Assignor: Beijing Ruili Wisdom Technology Co.,Ltd.

Contract record no.: X2023110000073

Denomination of invention: Test Data Prediction Method Based on Noise Disturbance

Granted publication date: 20170215

License type: Common License

Record date: 20230531

EE01 Entry into force of recordation of patent licensing contract