CN113642636A - 基于样本高斯不确定性建模的特征度量损失分类方法 - Google Patents
基于样本高斯不确定性建模的特征度量损失分类方法 Download PDFInfo
- Publication number
- CN113642636A CN113642636A CN202110926392.4A CN202110926392A CN113642636A CN 113642636 A CN113642636 A CN 113642636A CN 202110926392 A CN202110926392 A CN 202110926392A CN 113642636 A CN113642636 A CN 113642636A
- Authority
- CN
- China
- Prior art keywords
- sample
- target reference
- training
- reference sample
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000005259 measurement Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 204
- 239000013074 reference sample Substances 0.000 claims abstract description 195
- 239000000523 sample Substances 0.000 claims abstract description 168
- 238000009826 distribution Methods 0.000 claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000012352 Spearman correlation analysis Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于样本高斯不确定性建模的特征度量损失分类方法,本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法中,首先根据当前的特征提取模型对训练批次中每个训练样本进行特征提取,对于训练批次中的参考样本,根据参考样本所在的类别的特征的平均值确定该参考样本的概率密度分布,再根据每个参考样本的正样本和负样本到参考样本的概率密度分布的距离对特征提取模型的参数进行更新,这样,在模型训练过程中考虑了样本分布的不确定性,从而使得样本的分布信息可以在模型训练过程中同时被学习得到,对于简单样本而言可以对模型提供额外的梯度信息,从而使得数据的利用率显著提高,训练效率提升。
Description
技术领域
本发明涉及分类技术领域,特别涉及一种基于样本高斯不确定性建模的特征度量损失分类方法。
背景技术
分类任务在生活中十分常见,精准且高效的分类算法一直为研究热点,现有的分类算法中SVM(支持向量机)算法应用广泛,基于SVM的分类算法通过一个特征提取模型提取分类对象的特征并输入至SVM分类器中进行分类。
在现有的分类任务的基于样本高斯不确定性建模的特征度量损失分类过程中,对于样本数据的利用率低,模型训练效率低。
因此,现有技术还有待改进和提高。
发明内容
针对现有技术的上述缺陷,本发明提供一种基于样本高斯不确定性建模的特征度量损失分类方法,旨在解决现有技术分类任务中的基于样本高斯不确定性建模的特征度量损失分类效率低的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
本发明的第一方面,提供一种基于样本高斯不确定性建模的特征度量损失分类方法,所述方法包括:
根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次;
在所述训练批次中确定至少一个参考样本,对于所述至少一个参考样本中的目标参考样本,从所述训练批次中选定所述目标参考样本的同组样本,其中,所述目标参考样本的同组样本包括至少一个正样本和至少一个负样本,所述正样本为与所述目标参考样本类别相同的训练样本,所述负样本为与所述目标参考样本类别不同的训练样本;
根据当前的特征提取模型确定所述训练批次中每个训练样本的特征,根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布;
根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新。
所述的基于样本高斯不确定性建模的特征度量损失分类方法,其中,所述根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次,包括:
在包括N个类别的训练样本的预设训练集中抽取K个类别作为选中类别;
在所述选中类别中每个类别采样P个训练样本作为所述训练批次中的训练样本;
其中,N、K、P均为正整数。
所述的基于样本高斯不确定性建模的特征度量损失分类方法,其中,所述根据每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布,包括:
获取所述目标参考样本所属类别的训练样本的特征均值;
根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布。
所述的基于样本高斯不确定性建模的特征度量损失分类方法,其中,所述根据每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布之前,包括:
初始化所述预设训练集中所有类别对应的协方差矩阵。
所述的基于样本高斯不确定性建模的特征度量损失分类方法,其中,所述根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布,包括:
根据所述特征均值和当前所述目标参考样本所述类别对应的协方差矩阵确定表示所述目标参考样本的不确定性的协方差矩阵;
根据预设函数公式确定所述目标参考样本的概率密度分布;
所述的基于样本高斯不确定性建模的特征度量损失分类方法,其中,所述根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新,包括:
构建损失函数,所述损失函数中包括所述训练批次中每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离积分;
根据所述损失函数计算损失,根据损失计算梯度,更新所述特征提取模型的参数和所述目标参考样本所属类别对应的协方差矩阵。
所述的基于样本高斯不确定性建模的特征度量损失分类方法,其中,所述损失函数为:
其中,Rn表示n维特征空间,Φ(Ini)表示目标参考样本的负样本的特征,Φ(Ipi)表示目标参考样本的正样本的特征,fai(x)为目标参考样本的概率密度分布函数,m为表示正负样本对间需要被推远的距离的超参数,m为常数。
本发明的第二方面,提供一种基于样本高斯不确定性建模的特征度量损失分类装置,包括:
训练批次确定模块,所述训练批次确定模块用于根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次;
同组样本确定模块,所述同组样本确定模块用于在所述训练批次中确定至少一个参考样本,对于所述至少一个参考样本中的目标参考样本,从所述训练批次中选定所述目标参考样本的同组样本,其中,所述目标参考样本的同组样本包括至少一个正样本和至少一个负样本,所述正样本为与所述目标参考样本类别相同的训练样本,所述负样本为与所述目标参考样本类别不同的训练样本;
概率密度分布确定模块,所述概率密度分布确定模块用于根据当前的特征提取模型确定所述训练批次中每个训练样本的特征,根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布;
更新模块,所述更新模块用于根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新。
本发明的第三方面,提供一种终端,所述终端包括处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述任一项所述的分类方法的步骤。
本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的分类方法的步骤。
与现有技术相比,本发明提供了一种基于样本高斯不确定性建模的特征度量损失分类方法、装置、终端及存储介质,所述的基于样本高斯不确定性建模的特征度量损失分类方法,首先根据当前的特征提取模型对训练批次中每个训练样本进行特征提取,对于训练批次中的参考样本,根据参考样本所在的类别的特征的平均值确定该参考样本的概率密度分布,再根据每个参考样本的正样本和负样本到参考样本的概率密度分布的距离对特征提取模型的参数进行更新,这样,在模型训练过程中考虑了样本分布的不确定性,从而使得样本的分布信息可以在模型训练过程中同时被学习得到,对于简单样本而言可以对模型提供额外的梯度信息,从而使得数据的利用率显著提高,训练效率提升。
附图说明
图1为本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法的实施例的流程图;
图2(a)为现有的传统的样本组损失示意图;
图2(b)为本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法的实施例中样本组损失示意图;
图3为本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法的实施例中协方差矩阵范围确定示意图;
图4为本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法的训练过程逻辑示意图;
图5(a)、图5(b)和图5(c)为本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法的实施例在细粒度划分数据集上学习的协方差的收敛结果图;
图6(a)、图6(b)和图6(c)为本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法的实施例在细粒度划分数据集上学习的协方差与样本真实方差之间的比较图;
图7(a)、图7(b)和图7(c)为本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法的实施例在细粒度划分数据集上学习的协方差与样本真实方差的斯皮尔曼相关性分析结果图;
图8为本发明提供的基于样本高斯不确定性建模的特征度量损失分类装置的实施例的结构原理图;
图9为本发明提供的终端的实施例的原理示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供的基于样本高斯不确定性建模的特征度量损失分类方法,可以应用于具有计算能力的终端中,终端可以执行本发明提供的分类方法对特征提取模型进行训练,终端可以但不限于是各种计算机、移动终端、智能家电、可穿戴式设备等。
实施例一
如图1所示,所述分类方法的一个实施例中,包括步骤:
S100、根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次。
所述预设训练集中包括多个预先打上类别标签训练样本,也就是说,所述预设训练集中的每个训练样本的类别是已知的,所述预设训练集中包括多个训练样本以及每个训练样本对应的类别信息。
在本实施例中,对特征提取模型进行训练的过程中,会进行多次训练,每次训练时根据一个训练批次来对特征提取模型的参数进行更新,最终达到收敛后,所述基于样本高斯不确定性建模的特征度量损失分类完成。
所述根据包括多个类别的训练样本的预设训练集确定包括多个U型捏脸样本的训练批次,包括:
在包括N个类别的训练样本的预设训练集中抽取K个类别作为选中类别;
在所述选中类别中每个类别采样P个训练样本作为所述训练批次中的训练样本。
其中,N、K、P均为正整数,对于所述选中类别的训练样本数不足P的情况,也可以采用有放回的方式进行采样直至采样数量为P。不难看出,所述训练批次中的训练样本的总数为K*P。
请再次参阅图1,本实施例提供的基于样本高斯不确定性建模的特征度量损失分类方法,还包括步骤:
S200、在所述训练批次中确定至少一个参考样本,对于所述至少一个参考样本中的目标参考样本,从所述训练批次中选定所述目标参考样本的同组样本,其中,所述目标参考样本的同组样本包括至少一个正样本和至少一个负样本,所述正样本为与所述目标参考样本类别相同的训练样本,所述负样本为与所述目标参考样本类别不同的训练样本。
在所述训练批次的K*P个训练样本中确定至少一个参考样本,参考样本的选取方式可以是随机的。将所述至少一个参考样本中的每个参考样本作为目标参考样本,确定其的同组样本,将与所述目标参考样本的类别相同的训练样本称为正样本,将与所述目标参考样本的类别不同的训练样本称为负样本,同组样本包括至少一个正样本和至少一个负样本。将所述目标参考样本和其同组样本称为一个样本组,那么所述训练批次中所有的样本组可以表示为:X={γi|i≤k,i∈N+},其中,γi表示所述训练批次中的第i个样本组,k为所述训练批次中可能存在的样本组的最大数量,所述目标参考样本和其同组样本构成的样本组γi=<Iai,Ipi,Ini>,Iai表示所述目标参考样本,Ipi表示正样本,在一个样本组里可以有多个,Ini表示负样本,在一个样本组里可以有多个,以所述目标参考样本的同组样本中包括所述目标参考样本、一个正样本和一个负样本为例,那么对于所述训练批次来说,可能存在的样本组数量
S300、根据当前的特征提取模型确定所述训练批次中每个训练样本的特征,根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布。
如图2(a)所示,特征提取模型的损失计算原理是以某一样本为参考点,以其在特征空间中的一个特定的欧式距离作为阈值目标,将同类样本尽可能拉近至距离阈值内,不同类样本尽可能推远离距离阈值以外,从而达到区分同类样本与不同类样本的目标,这样,特征提取模型对于同类样本提取的特征之间的相似度高于不同类样本提取的特征之间的相似度,从而实现分类任务。然而简单负样本在现有的计算中得到的损失将为0,也就是说简单样本组对于模型的梯度计算为提供有效信息。针对此,在本实施例提供的基于样本高斯不确定性建模的特征度量损失分类方法中,将特征空间中的每个样本不看做是一个确定点,而是一个多元高斯分布,其协方差矩阵代表其均值周围的不确定性,如图2(b)所示,确定的参考点被替换为一个以参考点为均值,不确定性作为范围的概率分布,在计算损失时,计算正样本和负样本对于参考样本的概率密度积分,此时计算的损失将不再为0,意味着对于简单样本组而言,其计算的梯度不为零,对于模型的训练是由贡献的,数据的利用率得到提高,从而训练效率得到提高。
具体地,所述根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布,包括:
获取所述训练批次中所述目标参考样本所述类别的训练样本的特征均值;
根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布。
对于所述训练批次中与所述目标参考样本所属类别的所有训练样本,采用当前的所述特征提取模型进行特征提取,得到所述训练批次中与所述目标参考样本所属类别的所有训练样本的特征,对所述训练批次中与所述目标参考样本所属类别的所有训练样本的特征求均值,得到特征均值,根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布。具体地,在本实施例中,所述协方差矩阵为与特征空间维度相同的对角矩阵,也就是说,所述协方差矩阵的维度与通过所述特征提取模型提取的特征的维度相同,所述目标参考样本所属类别对应的协方差矩阵可以表示为:
其中,n为通过所述特征提取模型提取的特征的维度,b1,b2,...bn表示样本分布的方差,对于每个所述目标参考样本所属类别对应的协方差矩阵在第一次训练迭代时进行初始化,即,对b1,b2,...bn进行初始化,将其全部初始化为常数或正态分布。
具体地,所述根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布,包括:
根据所述特征均值和当前所述目标参考样本所述类别对应的协方差矩阵确定表示所述目标参考样本的不确定性的协方差矩阵;
根据预设函数公式确定所述目标参考样本的概率密度分布。
根据所述目标参考样本所属类别对应的协方差矩阵对所述目标参考样本进行不确定性建模,具体地,表示所述目标参考样本的不确定性的协方差矩阵与所述目标参考样本到所述目标参考样本所述类别的中心的距离有关。为了考虑每个参考点的不确定性,在一个训练批次中,同一类样本在特征空间中的位置在一定程度上可以用这些样本的在空间中的集合中心表示,也就是欧式距离的中心,因此,参考点距离该集合中心的欧式距离越近,则认为该参考点拥有的不确定性越弱,不确定范围越小,意味着其高斯协方差矩阵越小,反之,参考点距离集合中心的欧式距离越远,则认为其不确定性范围越大,意味着其高斯协方差矩阵越大。如图3所示,圆圈代表在特种空间中与参考点有相同标签的样本点,三角代表与参考点不相同标签的样本点,而五角星代表参考点同类样本在特征空间中的集合中心,可见,当样本点远离集合中心时,其获得的不确定性越大,表示远离集合中心时其采样的不确定性越强。在本实施例中,表示所述目标参考样本的不确定性的协方差矩阵可以表示为:
其中,β为控制不确定性分布范围大小的尺度超参数,β为一个常数,本领域技术人员可以根据分类任务的精度、试验效果等实际情况进行设定,例如可以取10-2、10-3等,Iai为所述目标参考样本,Φ(Iai)表示通过所述特征提取模型提取的所述目标参考样本的特征,Λn为所述目标参考样本对应的协方差矩阵,ci为所述目标参考样板所述类别的特征均值,即Iaj表示所述训练批次中所述目标参考样本所属类别的第j个训练样本,Φ(Iaj)表示通过所述特征提取模型提取的Iaj的特征,Ni为所述训练批次中属于所述目标参考样本所属类别的训练样本的总数。不难看出,只要学习一个对角化的协方差矩阵Λn,就可以确定所述目标参考样本在特征空间中的分布信息,相较于学习整个协方差矩阵而言,所需学习的参数量下降至特征空间维数级别的数量级。
在确定了表示所述目标参考样本的不确定性的协方差矩阵之后,就可以推导出所述目标参考样本的概率密度分布,具体地,所述目标参考样本的概率密度分布采用一个函数表示,所述预设函数公式为其中,A为表示所述目标参考样本的不确定性的协方差矩阵,xi=Φ(Iai),为通过所述特征提取模型提取的所述目标参考样本的特征。
请再次参阅图1,本实施例提供的基于样本高斯不确定性建模的特征度量损失分类方法,还包括步骤:
S400、根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新。
具体地,根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新,包括:
构建损失函数,所述损失函数中包括所述训练批次中每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离积分;
根据所述损失函数计算损失,根据损失计算梯度,更新所述特征提取模型的参数和所述目标参考样本所属类别对应的协方差矩阵。
所述损失函数中包括所述训练批次中每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离积分,正如前文所说明的,在特征提取模型的训练过程中,需要在特征空间中将同类样本之间距离拉近,将不同类样本之间的距离推远,通过同组样本到所述目标参考样本的概率密度分布的距离积分,可以衡量正样本与负样本到所述目标参考样本的距离,因此,通过包括每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离积分来计算梯度,更新所述特征提取模型的参数,可以实现对所述特征提取模型进行训练,使得所述特征提取模型的特征提取性能更高。
具体地,构建的所述损失函数为:
其中,Rn表示n维特征空间,Φ(Ini)表示目标参考样本的负样本的特征,Φ(Ipi)表示目标参考样本的正样本的特征,fai(x)为目标参考样本的概率密度分布函数,m为表示正负样本对间需要被推远的距离的超参数,m为常数。
所述损失函数可以转化为用误差函数表示:
根据损失对特征求偏导数,更新模型参数,其中损失l对Φ(Iai),Φ(Ipi)和Φ(Ini)分别求偏导数可以得到:
由偏导数分别对梯度方向的负方向进行梯度下降法迭代学习以更新所述特征提取模型参数以及目标参考样本所属类别对应的协方差矩阵参数b1、b2…bn:
如图4所示,在根据一个训练批次对所述特征提取模型的参数进行更新之后,重新在所述预设训练集中进行采样,得到新的训练批次和样本组,进行一次新的迭代,直到所述特征提取模型的参数达到收敛。迭代结束后,即所述基于样本高斯不确定性建模的特征度量损失分类结束后,将训练完成的所述特征提取模型用于提取样本特征并训练SVM分类器,特征提取模型与SVM分类器共同构成分类模型进行分类任务。
采用本实施例提供的基于样本高斯不确定性建模的特征度量损失分类方法训练模型进行分类和其他现有的分类方法进行了试验,通过在Stanford car,Stanford dog、CUN-200-2011三个细粒度划分数据集上进行细粒度划分任务来验证本实施例提供的方法的有效性。本实施例提供的方法与其余基准线方法的比较研究结果如表1所示,从表1可以看出,在不同的细粒度数据集上,相较于其余基准线方法,本实施例提供的方法的top-1准确率与top-5准确率均为三个数据集上的最优表现,。
表1
同时,如图5(a)-(c)、图6(a)-(c),以及图7(a)-(c)所示,对学习得到的协方差矩阵的方差与实际特征空间中的特征的方差进行比较后,经过斯皮尔曼相关性分析可以验证在迭代的过程中,随着迭代次数增加,学习得到的协方差矩阵与实际特征空间中的特征的方差的相关性在不断提高,验证了提出的方法是有效的。
综上所述,本实施例提供一种基于样本高斯不确定性建模的特征度量损失分类方法,首先根据当前的特征提取模型对训练批次中每个训练样本进行特征提取,对于训练批次中的参考样本,根据参考样本所在的类别的特征的平均值确定该参考样本的概率密度分布,再根据每个参考样本的正样本和负样本到参考样本的概率密度分布的距离对特征提取模型的参数进行更新,这样,在模型训练过程中考虑了样本分布的不确定性,从而使得样本的分布信息可以在模型训练过程中同时被学习得到,对于简单样本而言可以对模型提供额外的梯度信息,从而使得数据的利用率显著提高,训练效率提升。
应该理解的是,虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取计算机可读存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例二
基于上述实施例,本发明还相应提供了一种基于样本高斯不确定性建模的特征度量损失分类装置,如图8所示,所述基于样本高斯不确定性建模的特征度量损失分类装置包括:
训练批次确定模块,所述训练批次确定模块用于根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次,具体如实施例一中所述;
同组样本确定模块,所述同组样本确定模块用于在所述训练批次中确定至少一个参考样本,对于所述至少一个参考样本中的目标参考样本,从所述训练批次中选定所述目标参考样本的同组样本,其中,所述目标参考样本的同组样本包括至少一个正样本和至少一个负样本,所述正样本为与所述目标参考样本类别相同的训练样本,所述负样本为与所述目标参考样本类别不同的训练样本,具体如实施例一中所述;
概率密度分布确定模块,所述概率密度分布确定模块用于根据当前的特征提取模型确定所述训练批次中每个训练样本的特征,根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布,具体如实施例一中所述;
更新模块,所述更新模块用于根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新,具体如实施例一中所述。
实施例三
基于上述实施例,本发明还相应提供了一种终端,如图9所示,所述终端包括处理器10以及存储器20。图9仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于样本高斯不确定性建模的特征度量损失分类程序30,该基于样本高斯不确定性建模的特征度量损失分类程序30可被处理器10所执行,从而实现本申请中基于样本高斯不确定性建模的特征度量损失分类方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述分类方法等。
在一实施例中,当处理器10执行所述存储器20中基于样本高斯不确定性建模的特征度量损失分类程序30时实现以下步骤:
根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次;
在所述训练批次中确定至少一个参考样本,对于所述至少一个参考样本中的目标参考样本,从所述训练批次中选定所述目标参考样本的同组样本,其中,所述目标参考样本的同组样本包括至少一个正样本和至少一个负样本,所述正样本为与所述目标参考样本类别相同的训练样本,所述负样本为与所述目标参考样本类别不同的训练样本;
根据当前的特征提取模型确定所述训练批次中每个训练样本的特征,根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布;
根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新。
其中,所述根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次,包括:
在包括N个类别的训练样本的预设训练集中抽取K个类别作为选中类别;
在所述选中类别中每个类别采样P个训练样本作为所述训练批次中的训练样本;
其中,N、K、P均为正整数。
其中,所述根据每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布,包括:
获取所述目标参考样本所属类别的训练样本的特征均值;
根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布。
其中,所述根据每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布之前,包括:
初始化所述预设训练集中所有类别对应的协方差矩阵。
其中,所述根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布,包括:
根据所述特征均值和当前所述目标参考样本所述类别对应的协方差矩阵确定表示所述目标参考样本的不确定性的协方差矩阵;
根据预设函数公式确定所述目标参考样本的概率密度分布;
其中,所述根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新,包括:
构建损失函数,所述损失函数中包括所述训练批次中每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离积分;
根据所述损失函数计算损失,根据损失计算梯度,更新所述特征提取模型的参数和所述目标参考样本所属类别对应的协方差矩阵。
其中,所述损失函数为:
其中,Rn表示n维特征空间,Φ(Ini)表示目标参考样本的负样本的特征,Φ(Ipi)表示目标参考样本的正样本的特征,fai(x)为目标参考样本的概率密度分布函数,m为表示正负样本对间需要被推远的距离的超参数,m为常数。
实施例四
本发明还提供一种计算机可读存储介质,其中,存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的基于样本高斯不确定性建模的特征度量损失分类方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于样本高斯不确定性建模的特征度量损失分类方法,其特征在于,所述方法包括:
根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次;
在所述训练批次中确定至少一个参考样本,对于所述至少一个参考样本中的目标参考样本,从所述训练批次中选定所述目标参考样本的同组样本,其中,所述目标参考样本的同组样本包括至少一个正样本和至少一个负样本,所述正样本为与所述目标参考样本类别相同的训练样本,所述负样本为与所述目标参考样本类别不同的训练样本;
根据当前的特征提取模型确定所述训练批次中每个训练样本的特征,根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布;
根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新。
2.根据权利要求1所述的基于样本高斯不确定性建模的特征度量损失分类方法,其特征在于,所述根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次,包括:
在包括N个类别的训练样本的预设训练集中抽取K个类别作为选中类别;
在所述选中类别中每个类别采样P个训练样本作为所述训练批次中的训练样本;
其中,N、K、P均为正整数。
3.根据权利要求1所述的基于样本高斯不确定性建模的特征度量损失分类方法,其特征在于,所述根据每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布,包括:
获取所述目标参考样本所属类别的训练样本的特征均值;
根据所述特征均值和当前所述目标参考样本所属类别对应的协方差矩阵确定所述目标参考样本的概率密度分布。
4.根据权利要求3所述的基于样本高斯不确定性建模的特征度量损失分类方法,其特征在于,所述根据每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布之前,包括:
初始化所述预设训练集中所有类别对应的协方差矩阵。
6.根据权利要求3所述的基于样本高斯不确定性建模的特征度量损失分类方法,其特征在于,所述根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新,包括:
构建损失函数,所述损失函数中包括所述训练批次中每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离积分;
根据所述损失函数计算损失,根据损失计算梯度,更新所述特征提取模型的参数和所述目标参考样本所属类别对应的协方差矩阵。
8.一种基于样本高斯不确定性建模的特征度量损失分类装置,其特征在于,包括:
训练批次确定模块,所述训练批次确定模块用于根据包括多个类别的训练样本的预设训练集确定包括多个训练样本的训练批次;
同组样本确定模块,所述同组样本确定模块用于在所述训练批次中确定至少一个参考样本,对于所述至少一个参考样本中的目标参考样本,从所述训练批次中选定所述目标参考样本的同组样本,其中,所述目标参考样本的同组样本包括至少一个正样本和至少一个负样本,所述正样本为与所述目标参考样本类别相同的训练样本,所述负样本为与所述目标参考样本类别不同的训练样本;
概率密度分布确定模块,所述概率密度分布确定模块用于根据当前的特征提取模型确定所述训练批次中每个训练样本的特征,根据所述训练批次中每个所述目标参考样本所属类别的训练样本的特征确定所述目标参考样本的概率密度分布;
更新模块,所述更新模块用于根据每个所述目标参考样本的同组样本到所述目标参考样本的概率密度分布的距离对所述特征提取模型的参数进行更新。
9.一种终端,其特征在于,所述终端包括:处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述权利要求1-7任一项所述的基于样本高斯不确定性建模的特征度量损失分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任一项所述的基于样本高斯不确定性建模的特征度量损失分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110926392.4A CN113642636B (zh) | 2021-08-12 | 2021-08-12 | 基于样本高斯不确定性建模的特征度量损失分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110926392.4A CN113642636B (zh) | 2021-08-12 | 2021-08-12 | 基于样本高斯不确定性建模的特征度量损失分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642636A true CN113642636A (zh) | 2021-11-12 |
CN113642636B CN113642636B (zh) | 2023-12-26 |
Family
ID=78421227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110926392.4A Active CN113642636B (zh) | 2021-08-12 | 2021-08-12 | 基于样本高斯不确定性建模的特征度量损失分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642636B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2544324A1 (en) * | 2005-06-10 | 2006-12-10 | Unicru, Inc. | Employee selection via adaptive assessment |
CA2688328A1 (en) * | 2008-12-12 | 2010-06-12 | Simon Haykin | Apparatus, systems and methods for binaural hearing enhancement in auditory processing systems |
CN101976435A (zh) * | 2010-10-07 | 2011-02-16 | 西安电子科技大学 | 基于对偶约束的联合学习超分辨方法 |
CN108805185A (zh) * | 2018-05-29 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 模型的训练方法、装置、存储介质及计算机设备 |
CN110781934A (zh) * | 2019-10-15 | 2020-02-11 | 深圳市商汤科技有限公司 | 监督学习、标签预测方法及装置、电子设备和存储介质 |
CN111242199A (zh) * | 2020-01-07 | 2020-06-05 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像分类模型的训练方法及分类方法 |
-
2021
- 2021-08-12 CN CN202110926392.4A patent/CN113642636B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2544324A1 (en) * | 2005-06-10 | 2006-12-10 | Unicru, Inc. | Employee selection via adaptive assessment |
CA2688328A1 (en) * | 2008-12-12 | 2010-06-12 | Simon Haykin | Apparatus, systems and methods for binaural hearing enhancement in auditory processing systems |
CN101976435A (zh) * | 2010-10-07 | 2011-02-16 | 西安电子科技大学 | 基于对偶约束的联合学习超分辨方法 |
CN108805185A (zh) * | 2018-05-29 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 模型的训练方法、装置、存储介质及计算机设备 |
CN110781934A (zh) * | 2019-10-15 | 2020-02-11 | 深圳市商汤科技有限公司 | 监督学习、标签预测方法及装置、电子设备和存储介质 |
CN111242199A (zh) * | 2020-01-07 | 2020-06-05 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像分类模型的训练方法及分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113642636B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852446A (zh) | 机器学习模型训练方法、装置和计算机可读存储介质 | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN111897975A (zh) | 一种面向知识图谱表示学习训练的局部训练方法 | |
CN111125658B (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN110728313B (zh) | 一种用于意图分类识别的分类模型训练方法及装置 | |
CN112947300A (zh) | 一种加工质量虚拟量测方法、系统、介质及设备 | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、系统和装置 | |
CN116596095B (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
Huang et al. | Efficient optimization for linear dynamical systems with applications to clustering and sparse coding | |
CN113642636B (zh) | 基于样本高斯不确定性建模的特征度量损失分类方法 | |
Choi et al. | Robust regression to varying data distribution and its application to landmark-based localization | |
CN115907775A (zh) | 基于深度学习的个人征信评级方法及其应用 | |
CN115565115A (zh) | 一种舾装件智能识别方法、计算机设备 | |
EP3985529A1 (en) | Labeling and data augmentation for graph data | |
CN112800138B (zh) | 大数据分类方法及系统 | |
CN115471876A (zh) | 一种指纹检索方法及装置 | |
CN112766423B (zh) | 人脸识别模型的训练方法、装置、计算机设备及存储介质 | |
Lv et al. | Incremental semi-supervised graph learning NMF with block-diagonal | |
CN111860818B (zh) | 基于智能芯片的som神经网络算法处理方法 | |
CN114610899A (zh) | 一种知识图谱的表示学习方法和系统 | |
CN115309891A (zh) | 一种文本分类方法、装置、设备及计算机存储介质 | |
CN111626376A (zh) | 一种基于判别联合概率的域适配方法及系统 | |
CN114428720A (zh) | 基于p-k的软件缺陷预测方法、装置、电子设备及介质 | |
CN110738243B (zh) | 一种自适应无监督特征选择方法 | |
CN117574137B (zh) | 一种高维制造工艺数据的特征选择方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |