CN103064939A - 数据重排序方法和系统 - Google Patents

数据重排序方法和系统 Download PDF

Info

Publication number
CN103064939A
CN103064939A CN2012105722749A CN201210572274A CN103064939A CN 103064939 A CN103064939 A CN 103064939A CN 2012105722749 A CN2012105722749 A CN 2012105722749A CN 201210572274 A CN201210572274 A CN 201210572274A CN 103064939 A CN103064939 A CN 103064939A
Authority
CN
China
Prior art keywords
data
matrix
node
positive sample
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105722749A
Other languages
English (en)
Other versions
CN103064939B (zh
Inventor
陈世峰
曹琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210572274.9A priority Critical patent/CN103064939B/zh
Publication of CN103064939A publication Critical patent/CN103064939A/zh
Application granted granted Critical
Publication of CN103064939B publication Critical patent/CN103064939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种数据重排序方法,首先根据数据集合建立节点集合,得到数据集合中每个数据与节点集合中节点的映射关系,获取节点集合中各节点的第一节点值,将第一节点值小于或等于第一预设值的节点对应的数据作为噪声去除,对数据集合进行全局去噪,提高数据检索精度。提取去噪数据集合中标定数据对应的标定正样本作为查询样本集合,获取查询样本集合中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类,将主导数据类中的数据作为最终的标定数据对去噪数据集合进行重排序,提高了标定数据的准确度,进一步提高数据的检索精度。此外,本发明还提供一种数据重排序系统。

Description

数据重排序方法和系统
技术领域
本发明涉及半监督学习领域,特别是涉及一种数据重排序方法和系统。
背景技术
在机器学习领域中,传统的学习方法有两种:监督学习和无监督学习。半监督学习(Semi-supervised Learning)是近年来模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
根据机器学习的普遍观点,半监督学习问题解是同时对数据平滑和经验风险的最小化。数据平滑由数据内在结构决定,而经验风险主要取决于初始标定的查询样本。这一框架被广泛应用在如信息检索、交互式图像分割等问题。
在现实的应用中,数据的流型结构会被噪声破坏,从而导致数据平滑传导和度量的偏差,降低数据检索精度。另外,由于初始查询样本来源于算法自动生成而非人工标定,不准确的标定也会降低数据检索精度。
发明内容
基于此,有必要提供一种能提高数据检索精度的数据重排序方法和系统。
一种数据重排序方法,包括以下步骤:
获取数据集合,所述数据集合中包含多个标定数据;
根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本;
获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合;
提取所述去噪数据集合中标定数据对应的标定正样本建立查询样本集合;
获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类;
根据所述主导数据类对所述去噪数据集合进行重排序。
在其中一个实施例中,所述根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本的步骤具体包括:
获取所述数据集合中每个数据的多个特征值,多个所述特征值构成所述数据特征;
构建每个数据对应的节点,所述节点为多维向量且所述节点的一个维度表示一种所述特征值;
根据所述节点建立所述节点集合;
χ={x1,…,xm,xm+1,…,xn}
其中,χ为所述节点集合,x1,…,xm为所述标定正样本,与所述标定数据对应。
在其中一个实施例中,所述获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合的步骤具体包括:
对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
Figure BDA00002650629000021
根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
根据所述归一化图拉普拉斯矩阵对所述节点集合进行第一类扭曲变换,得到第一类数据特征和第一类维度权重对角矩阵;具体为:
Figure BDA00002650629000031
h ii = 1 / Σ j = 1 n Ψ 1 ( x i ) j
其中,Rn表示n维向量集合,通过所述第一类扭曲变换,将节点xi映射到维度等于节点个数的特征空间,得到所述第一类数据特征Ψ1(xi)=L-1(i,·)T,L-1(i,·)表示所述归一化图拉普拉斯矩阵L逆矩阵的第i行向量;hii为所述第一类维度权重对角矩阵H1的表达式;
对所述节点集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示节点x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
根据所述判别函数建立第一学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 m | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
简化所述第一学习模型,得到所述参数向量的第一表达式;具体为:
w*=(XTX+μH)-1XTyn
H=diag(h)
其中,w*为所述参数向量的第一表达式,矩阵X=[Ψ(x1),…,Ψ(xn)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yn为节点xn的查询样本向量;
根据所述第一类数据特征和第一类维度权重对角矩阵,由所述判别函数得出所述节点集合中各节点的第一节点值;
去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到所述去噪数据集合。
在其中一个实施例中,所述获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类的步骤具体包括:
对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
Figure BDA00002650629000041
根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
根据所述归一化图拉普拉斯矩阵对所述查询样本集合进行第二类扭曲变换,得到第二类数据特征和第二类维度权重对角矩阵;具体为:
Figure BDA00002650629000042
hii=λi
其中,Rk表示k维向量集合,通过所述第二类扭曲变换,得到第二类数据特征Ψ2(xj)=Uk(j,·)T,Uk(j,·)T表示特征向量矩阵Uk=[v1,v2,…,vk]的逆矩阵的第j行向量,所述特征向量矩阵Uk由所述归一化图拉普拉斯矩阵L的前k个特征向量v组成,k为预设参数;hii为所述第二类维度权重对角矩阵H2的表达式,λi为所述归一化图拉普拉斯矩阵L的特征值;
对所述查询样本集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示所述查询样本集合中标定正样本x的为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
根据所述判别函数建立第二学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 l | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述查询样本集合中的标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
简化所述第二学习模型,得到所述参数向量的第二表达式;具体为:
w*=(XTX+μH)-1XTyl
其中,w*为所述参数向量的第二表达式,矩阵X=[Ψ(x1),…,Ψ(xl)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yl为所述查询样本集合中标定正样本xl的查询样本向量;
根据所述第二类数据特征和第二类维度权重对角矩阵,由所述判别函数得出所述查询样本集合中各标定正样本的第二节点值;
提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到所述主导数据类。
在其中一个实施例中,所述根据所述主导数据类对所述去噪数据集合进行重排序的步骤具体包括:
提取所述去噪数据集合中各数据与所述主导数据类中标定数据的相似度;
根据所述相似度对所述去噪数据集合中的数据进行重排序。
一种数据重排序系统,包括:
数据集合获取模块,用于获取数据集合,所述数据集合中包含多个标定数据;
节点集合建立模块,用于根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本;
数据去噪模块,用于获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合;
查询样本集合建立模块,用于提取所述去噪数据集合中标定数据对应的标定正样本建立查询样本集合;
主导数据类提取模块,用于获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类;
数据重排序模块,用于根据所述主导数据类对所述去噪数据集合进行重排序。
在其中一个实施例中,所述节点集合建立模块包括:
特征值获取模块,用于获取所述数据集合中每个数据的多个特征值,多个所述特征值构成所述数据特征;
节点构建模块,用于构建每个数据对应的节点,所述节点为多维向量且所述节点的一个维度表示一种所述特征值;
集合建立模块,用于根据所述节点建立所述节点集合;具体为:
χ={x1,…,xm,xm+1,…,xn}
其中,χ为所述节点集合,x1,…,xm为所述标定正样本,与所述标定数据对应。
在其中一个实施例中,所述数据去噪模块包括:
边权重矩阵建立模块,用于对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
图矩阵建立模块,用于根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
Figure BDA00002650629000061
图拉普拉斯矩阵建立模块,用于根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
第一类扭曲变换模块,用于根据所述归一化图拉普拉斯矩阵对所述节点集合进行第一类扭曲变换,得到第一类数据特征和第一类维度权重对角矩阵;具体为:
Figure BDA00002650629000071
h ii = 1 / &Sigma; j = 1 n &Psi; 1 ( x i ) j
其中,Rn表示n维向量集合,通过所述第一类扭曲变换,将节点xi映射到维度等于节点个数的特征空间,得到所述第一类数据特征Ψ1(xi)L-1(i,·)T,L-1(i,·)表示所述归一化图拉普拉斯矩阵L逆矩阵的第i行向量;hii为所述第一类维度权重对角矩阵H1的表达式;
判别函数建立模块,用于对所述节点集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示节点x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
第一学习模型建立模块,用于根据所述判别函数建立第一学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 m | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
第一学习模型简化模块,用于简化所述第一学习模型,得到所述参数向量的第一表达式;具体为:
w*=(XTX+μH)-1XTyn
H=diag(h)
其中,w*为所述参数向量的第一表达式,矩阵X=[Ψ(x1),…,Ψ(xn)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yn为节点xn的查询样本向量;
第一节点值获取模块,用于根据所述第一类数据特征和第一类维度权重对角矩阵,由所述判别函数得出所述节点集合中各节点的第一节点值;
去噪模块,用于去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到所述去噪数据集合。
在其中一个实施例中,所述主导数据类提取模块包括:
边权重矩阵获取模块,用于对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
归一化图矩阵获取模块,用于根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
图拉普拉斯矩阵获取模块,用于根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
第二类扭曲变换模块,用于根据所述归一化图拉普拉斯矩阵对所述查询样本集合进行第二类扭曲变换,得到第二类数据特征和第二类维度权重对角矩阵;具体为:
Figure BDA00002650629000082
hii=λi
其中,Rk表示k维向量集合,通过所述第二类扭曲变换,得到第二类数据特征Ψ2(xj)=Uk(j,·)T,Uk(j,·)T表示特征向量矩阵Uk=[v1,v2,…,vk]的逆矩阵的第j行向量,所述特征向量矩阵Uk由所述归一化图拉普拉斯矩阵L的前k个特征向量v组成,k为预设参数;hii为所述第二类维度权重对角矩阵H2的表达式,λi为所述归一化图拉普拉斯矩阵L的特征值;
判别函数获取模块,用于对所述查询样本集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示所述查询样本集合中标定正样本x的为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
第二学习模型获取模块,用于根据所述判别函数建立第二学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 l | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述查询样本集合中的标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
第二学习模型简化模块,用于简化所述第二学习模型,得到所述参数向量的第二表达式;具体为:
w*=(XTX+μH)-1XTyl
其中,w*为所述参数向量的第二表达式,矩阵X=[Ψ(x1),…,Ψ(xl)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yl为所述查询样本集合中标定正样本xl的查询样本向量;
第二节点值获取模块,用于根据所述第二类数据特征和第二类维度权重对角矩阵,由所述判别函数得出所述查询样本集合中各标定正样本的第二节点值;
提取模块,用于提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到所述主导数据类。
在其中一个实施例中,所述数据重排序模块包括:
相似度提取模块,用于提取所述去噪数据集合中各数据与所述主导数据类中标定数据的相似度;
重排序模块,用于根据所述相似度对所述去噪数据集合中的数据进行重排序。
上述数据重排序方法和系统,首先根据数据集合建立节点集合,得到数据集合中每个数据与节点集合中节点的映射关系,获取节点集合中各节点的第一节点值,将第一节点值小于或等于第一预设值的节点对应的数据作为噪声去除,对数据集合进行全局去噪,避免数据的流型结构被噪声破坏而导致数据平滑传导和度量的偏差,提高数据检索精度。提取去噪数据集合中标定数据对应的标定正样本作为查询样本集合,获取查询样本集合中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类,将主导数据类中的数据作为最终的标定数据对去噪数据集合进行重排序,提高了标定数据的准确度,进一步提高数据的检索精度。
附图说明
图1为一实施例中数据重排序方法的流程图;
图2为图1中根据数据特征建立节点集合,得到数据集合中的数据与节点集合中节点的映射关系的流程图;
图3为图1中获取节点集合中各节点的第一节点值,去除数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合的流程图;
图4为图1中获取查询样本集合中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类的流程图;
图5为图1中根据主导数据类对去噪数据集合进行重排序的流程图;
图6为一实施例中数据重排序系统的结构图;
图7为图6中节点集合建立模块的结构图;
图8为图6中数据去噪模块的结构图;
图9为图6中主导数据类提取模块的结构图;
图10为图6中数据重排序模块的结构图。
具体实施方式
基于图论的半监督学习方法将数据当作节点,并在两两之间建立边。这类方法基于一个关键的假设,距离相近的节点倾向于拥有相似的标签,因此代表同一种语意的数据节点会聚成一类。传统的半监督学习方法给定少量的标定数据节点作为查询样本,整个未标定的数据集能够基于与查询样本的相似度进行分类,这种相似度通过边的传导来衡量。由于实际数据分布会混杂一些语意无关的数据类和离散分布的噪声数据。数据的流型结构会被噪声破坏,从而导致数据平滑传导和度量的偏差,在现实的应用中,当初始查询样本来源于算法自动生成而非人工标定时,不准确的标定会使检索精度低,最终导致令人不满意的分类结果。
为解决上述问题,现已存在两个噪声去除半监督学习方法LabelDiag和SpecFilter,通过设计过滤器净化带噪声的查询样本。上述两个噪声去除半监督学习方法主要有以下两个缺点。(1)仅仅过滤初始查询样本中的噪声,而不考虑数据集本身的全局离散噪声。(2)在查询过程中容易引入错误样本,导致查询结果不准确。LabelDiag通过迭代,每次除去查询样本中的一个所谓的错误样本,并同时向查询样本中加入一个未标定的所谓正确样本,当初始的查询样本精度较低时,此方法更倾向于给查询样本带入更多的噪声。SpecFilter仅在初始查询样本集中寻找局部的高密度区域,当噪声在查询样本中形成类时这种方法很可能带来完全错误的查询样本。
因此,为了提高数据检索精度,本发明提供了一种数据重排序方法,如图1所述,包括以下步骤:
步骤S110:获取数据集合。
数据集合可以是根据关键字检索排序得到的图像集合,数据集合中包括多个标定数据。
步骤S120:根据数据特征建立节点集合,得到数据集合中的数据与节点集合中节点的映射关系。
节点集合包含与标定数据对应的标定正样本,对于包括n个数据的数据集,提取每个数据的多个特征值构成数据特征,根据数据特征建立节点集合。
具体地,如图2所示,步骤S120可包括以下步骤:
步骤S122:获取所数据集合中每个数据的多个特征值,多个特征值构成数据特征。
步骤S124:构建每个数据对应的节点,节点为多维向量且节点的一个维度表示一种所述特征值。
步骤S126:根据节点建立节点集合。
具体为:
χ={x1,…,xm,xm+1,…,xn}
其中,χ为节点集合,节点xn为多维向量且每一个维度表示一种特征值,x1,…,xm为数据集中标定数据对应的标定正样本。对于数据集中的数据,若是标定数据,其对应节点即标定正样本的查询样本向量y为1,若不是,则对应节点的查询样本向量y为0。
步骤S130:获取节点集合中各节点的第一节点值,去除数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合。
第一节点值表示节点是实际正样本的概率,具体地,如图3所示,步骤S130可包括以下步骤:
步骤S131:对节点集合中各节点两两之间建立边,得到边权重矩阵。
具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为边权重矩阵W的表达式,且wii=0,σ2为预设参数。
步骤S132:根据边权重矩阵得到归一化图矩阵。
具体为:
S=D-1/2WD-1/2
其中,S为归一化图矩阵,对角矩阵D的对角元素
Figure BDA00002650629000121
是边权重矩阵W对应的列元素之和。
步骤S133:根据归一化图矩阵得到归一化图拉普拉斯矩阵。
具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵。
步骤S134:根据归一化图拉普拉斯矩阵对节点集合进行第一类扭曲变换,得到第一类数据特征和第一类维度权重对角矩阵。
将不处于任意类团或流型结构的离散点当作噪声,并进行如下扭曲:
Figure BDA00002650629000122
Rn表示n维向量集合,通过第一类扭曲变换得到所述第一类数据特征Ψ1(xi)=L-1(i,·)T,将节点xi映射到维度等于节点个数的特征空间,该空间的每一维Ψ1(xi)j表示节点i和节点j处于同一类团的可能性。L-1(i,·)表示所述归一化图拉普拉斯矩阵L逆矩阵的第i行向量,第一类维度权重对角矩阵H1 h ii = 1 / &Sigma; j = 1 n &Psi; 1 ( x i ) j .
步骤S135:对节点集合建立判别函数。
判别函数由数据特征及与数据特征维度相同的参数向量内积得到,具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示节点x为实际正样本的概率,取值范围为[0,1];w为参数向量,Ψ(x)为数据特征,<w,Ψ(x)>表示数据特征Ψ(x)和参数向量w内积。
步骤S136:根据判别函数建立第一学习模型。
当节点xi是正样本时判别函数f(xi;w)=1,利用标定正样本建立如下学习模型:
min w 1 2 ( &Sigma; i = 1 m | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为标定正样本,h是权重向量,·是点乘算子,μ是平衡因子。
Figure BDA00002650629000133
为经验风险项,用于保证标定正样本xi的节点值f(xi;w)与初始标定的查询样本向量相差不大,μ<h,w·w>为正则项,用于将参数向量w限制在较小的值以防过拟合。对于某一数据,若在数据集合中存在大量的数据与其特征值相近似,则这个数据对应节点的节点值较大,节点值越大,节点为实际正样本的概率也越大。反之则对应节点的节点值较小,节点的节点值越小,表明对应数据为噪声的概率越大。
步骤S137:简化第一学习模型,得到参数向量的第一表达式。
为便于简化学习模型,在此定义矩阵X=[Ψ(x1),…,Ψ(xn)]T,维度权重对角矩阵H=diag(h),其中hii为权重向量h的第i维元素。得到
w * = arg min w 1 2 ( | | Xw - y n | | 2 + &mu;w T Hw )
上式右边对参数向量w求微分得到
w*=(XTX+μH)-1XTyn
w*为参数向量的第一表达式,yn为节点xn的查询样本向量,在其中一个实施例中,还可以对判别函数f(xi;w)设定阈值,将得到的新的查询样本向量yn,作为下轮的输入迭代计算参数向量的第一表达式,通过反复计算参数向量的第一表达式直至收敛。例如,可以设定判别函数f(xi;w)的阈值为0.5,当节点的节点值大于0.5,认为其为实际正样本,在下个迭代中,判别函数f(xi;w)取1;否则取0,以此对参数向量的第一表达式进行迭代计算。
步骤S138:根据第一类数据特征和第一类维度权重对角矩阵,由判别函数得出节点集合中各节点的第一节点值。
根据步骤S134中得到的第一类数据特征Ψ1(xi)和第一类维度权重对角矩阵H1,由步骤S135中的判别函数f(x;w)计算节点集合χ中各节点第一节点值。
步骤S139:去除数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合。
本实施例中第一预设值可取判别函数f(x;w)的最小值,即第一预设值为0,将节点值为0的节点对应的数据作为噪声去除,在其他实施例中也可以将第一预设值设定为0.2或其他值。
在其他实施例中,也可以不进行上述的第一类扭曲变换,即步骤S130可不包括步骤S131至步骤S134以及步骤S138,直接根据原数据特征Ψ(x),利用判别函数f(x;w)计算各节点的节点值,将节点集合中节点值小于或等于第一预设值的节点对应的数据作为噪声去除。本实施例中经第一类扭曲变换使噪声的数据特征在几乎所有维度都具有较小的值,减小噪声对应节点的节点值,提高了对噪声的精确提取。
步骤S140:提取去噪数据集合中标定数据对应的标定正样本建立查询样本集合。
χl={x1,x2,…,xl}
χl为查询样本集合,xl为与去噪数据集合中标定数据对应的标定正样本。
步骤S150:获取查询样本集合中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类。
第二节点值表示标定正样本是实际正样本的概率,主导数据类是指数据在流形中分布密度较高的类团,提取这样的类团能够更好地表达数据的特性,提取出来的主导数据类中的数据跟单独去噪之后的数据相比有着更加高的准确性。因此,以主导数据类中的数据作为最后的标定数据更能提高数据的检索精度。
具体地,如图4所示,步骤S150可包括以下步骤:
步骤S151:对节点集合中各节点两两之间建立边,得到边权重矩阵。
具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为边权重矩阵W的表达式,且wii=0,σ2为预设参数。
步骤S152:根据边权重矩阵得到归一化图矩阵。
具体为:
S=D-1/2WD-1/2
其中,S为归一化图矩阵,对角矩阵D的对角元素
Figure BDA00002650629000151
步骤S153:根据所述归一化图矩阵得到归一化图拉普拉斯矩阵。
具体为:
L=I-S
其中,L为归一化图拉普拉斯矩阵,I为单位矩阵。
步骤S154:根据归一化图拉普拉斯矩阵对查询样本集合进行第二类扭曲变换,得到第二类数据特征和第二类维度权重对角矩阵。
通常情况下查询样本集合中实际正样本的比例高于整个节点集合,因此本实施例中对查询样本集合进行扭曲变换。归一化图拉普拉斯矩阵L中较小特征值对应的特征向量表现出明显的块状结构,在判断类别中更具代表性。归一化图拉普拉斯矩阵L的特征值向量和特征值对为
Figure BDA00002650629000153
本步骤的第二类扭曲变换具体如下:
Figure BDA00002650629000152
hii=λi
Rk表示k维向量集合,通过第二类扭曲变换,得到第二类数据特征Ψ2(xj)=Uk(j,·)T,Uk(j,·)T表示特征向量矩阵Uk=[v1,v2,…,vk]的逆矩阵的第j行向量,特征向量矩阵Uk由归一化图拉普拉斯矩阵L的前k个特征向量组成,k为预设参数;hii为第二类维度权重对角矩阵H2的表达式。
步骤S155:对查询样本集合建立判别函数。
判别函数由数据特征及与数据特征维度相同的参数向量内积得到,具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示查询样本集合中标定正样本x为实际正样本的概率,取值范围为[0,1];w为参数向量,Ψ(x)为数据特征,<w,Ψ(x)>表示数据特征Ψ(x)和参数向量w内积。
步骤S156:根据判别函数建立第二学习模型。
具体为:
min w 1 2 ( &Sigma; i = 1 l | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为查询样本集合中的标定正样本,h是权重向量,·是点乘算子,μ是平衡因子。
步骤S157:简化第二学习模型,得到参数向量的第二表达式。
具体为:
w*=(XTX+μH)-1XTyl
其中,w*为参数向量的第二表达式,矩阵X=[Ψ(x1),…,Ψ(xl)]T,维度权重对角矩阵H=diag(h),元素hii为权重向量h的第i维元素,yl为查询样本集合中标定正样本xl的查询样本向量。在其中一个实施例中,同样还可以对判别函数f(xi;w)设定阈值,将得到的新的查询样本向量yl,作为下轮的输入迭代计算上式,通过反复计算上式直至收敛。
步骤S158:根据第二类数据特征和第二类维度权重对角矩阵,由判别函数得出查询样本集合中各标定正样本的第二节点值。
步骤S159:提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类。
本实施例中第二预设值取判别函数f(x;w)的最大值,提取节点值为1的标定正样本对应的标定数据得到主导数据类,在其他实施例中也可以将第二预设值设定为0.8或其他值。
在其他实施例中,步骤S150可不包括步骤S151至步骤S153,直接根据步骤S133中得到的归一化图拉普拉斯矩阵L进行步骤S154。另外,也可以不进行上述的第二类扭曲变换,即步骤S150不包括步骤S151至步骤S154以及步骤S158,直接根据原数据特征Ψ(x),利用判别函数f(x;w)计算各标定正样本的节点值,提取去噪数据集合中对应标定正样本的节点值大于或等于第二预设值的标定数据,得到主导数据类。本实施例中,通过第二类扭曲变换在空间上拉近了处于同一类团的节点,使得处于最高密度类团节点的节点值具有最大的值。增大实际正样本的节点值,便于提取实际正样本以得到主导数据类。
可以理解,当上述第一扭曲变换和第二类扭曲变换均不进行时,标定正样本的第一节点值和第二节点值相同。
步骤S160:根据主导数据类对去噪数据集合进行重排序。
具体地,如图5所示,步骤S160可包括以下步骤:
步骤S162:提取去噪数据集合中各数据与主导数据类中标定数据的相似度。
步骤S164:根据相似度对去噪数据集合中的数据进行重排序。
得出去噪数据集合中各数据与主导数据类中标定数据的相似度,按相似度的高低对去噪数据集合中的数据进行重排序。确定相似度时,可以是对去噪数据集合中数据与主导数据类中所有标定数据的相似度取平均值,也可以是直接取去噪数据集合中数据与主导数据类中一标定数据的相似度。
上述数据重排序方法,首先根据数据集合建立节点集合,得到数据集合中每个数据与节点集合中节点的映射关系,获取节点集合中各节点的第一节点值,将第一节点值小于或等于第一预设值的节点对应的数据作为噪声去除,对数据集合进行全局去噪,避免数据的流型结构被噪声破坏而导致数据平滑传导和度量的偏差,提高数据检索精度。提取去噪数据集合中标定数据对应的标定正样本作为查询样本集合,获取查询样本集合中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类,将主导数据类中的数据作为最终的标定数据对去噪数据集合进行重排序,提高了标定数据的准确度,进一步提高数据的检索精度。
本发明还提供一种数据重排序系统,如图6所示,包括数据集合获取模块110、节点集合建立模块120、数据去噪模块130、查询样本集合建立模块140、主导数据类提取模块150和数据重排序模块160。
数据集合获取模块110用于获取数据集合,数据集合可以是根据关键字检索排序得到的图像集合,数据集合中包括多个标定数据。
节点集合建立模块120用于根据数据特征建立节点集合,得到数据集合中的数据与节点集合中节点的映射关系。
节点集合包含与标定数据对应的标定正样本,对于包括n个数据的数据集,提取每个数据的多个特征值构成数据特征,根据数据特征建立节点集合。
具体地,如图7所示,节点集合建立模块120可包括特征值获取模块122、节点构建模块124和集合建立模块126。
特征值获取模块122用于获取数据集合中每个数据的多个特征值,多个特征值构成所述数据特征。
节点构建模块124用于构建每个数据对应的节点,节点为多维向量且节点的一个维度表示一种所述特征值。
集合建立模块126用于根据节点建立节点集合。
具体为:
χ={x1,…,xm,xm+1,…,xn}
其中,χ为节点集合,节点xn为多维向量且每一个维度表示一种特征值,x1,…,xm为数据集中标定数据对应的标定正样本。对于数据集中的数据,若是标定数据,其对应节点即标定正样本的查询样本向量y为1,若不是,则对应节点的查询样本向量y为0。
数据去噪模块130用于获取节点集合χ中各节点的第一节点值,去除数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合。
第一节点值表示节点是实际正样本的概率,具体地,如图8所示,数据去噪模块130可包括边权重矩阵建立模块131、图矩阵建立模块132、图拉普拉斯矩阵建立模块133、第一类扭曲变换模块134、判别函数建立模块135、第一学习模型建立模块136、第一学习模型简化模块137、第一节点值获取模块138和去噪模块139。
边权重矩阵建立模块131用于对节点集合χ中各节点两两之间建立边,得到边权重矩阵。
具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为边权重矩阵W的表达式,且wii=0,σ2为预设参数。
图矩阵建立模块132用于根据边权重矩阵W得到归一化图矩阵。
具体为:
S=D-1/2WD-1/2
其中,S为归一化图矩阵,对角矩阵D的对角元素
Figure BDA00002650629000191
是边权重矩阵W对应的列元素之和。
图拉普拉斯矩阵建立模块133用于根据归一化图矩阵S得到归一化图拉普拉斯矩阵。
具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵。
第一类扭曲变换模块134用于根据归一化图拉普拉斯矩阵L对节点集合χ进行第一类扭曲变换,得到第一类数据特征和第一类维度权重对角矩阵。
将不处于任意类团或流型结构的离散点当作噪声,并进行如下扭曲:
Figure BDA00002650629000192
Rn表示n维向量集合,通过第一类扭曲变换得到所述第一类数据特征Ψ1(xi)=L-1(i,·)T,将节点xi映射到维度等于节点个数的特征空间,该空间的每一维Ψ1(xi)j表示节点i和节点j处于同一类团的可能性。L-1(i,)表示所述归一化图拉普拉斯矩阵L逆矩阵的第i行向量,第一类维度权重对角矩阵H1 h ii = 1 / &Sigma; j = 1 n &Psi; 1 ( x i ) j .
判别函数建立模块135用于对节点集合χ建立判别函数。
判别函数由数据特征及与数据特征维度相同的参数向量内积得到,具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示节点x为实际正样本的概率,取值范围为[0,1];w为参数向量,Ψ(x)为数据特征,<w,Ψ(x)>表示数据特征Ψ(x)和参数向量w内积。
第一学习模型建立模块136用于根据判别函数f(x;w)建立第一学习模型。
当节点xi是正样本时判别函数f(xi;w)=1,利用标定正样本建立如下学习模型:
min w 1 2 ( &Sigma; i = 1 m | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为标定正样本,h是权重向量,·是点乘算子,μ是平衡因子。
Figure BDA00002650629000203
为经验风险项,用于保证标定正样本xi的节点值f(xi;w)与初始标定的查询样本向量相差不大,μ<h,w·w>为正则项,用于将参数向量w限制在较小的值以防过拟合。对于某一数据,若在数据集合中存在大量的数据与其特征值相近似,则这个数据对应节点的节点值较大,节点值越大,节点为实际正样本的概率也越大。反之则对应节点的节点值较小,节点的节点值越小,表明对应数据为噪声的概率越大。
第一学习模型简化模块137用于简化第一学习模型,得到参数向量的第一表达式。
为便于简化学习模型,在此定义矩阵X=[Ψ(x1),…,Ψ(xn)]T,维度权重对角矩阵H=diag(h),其中hii为权重向量h的第i维元素。得到
w * = arg min w 1 2 ( | | Xw - y n | | 2 + &mu;w T Hw )
上式右边对参数向量w求微分得到
w*=(XTX+μH)-1XTyn
w*为参数向量的第一表达式,yn为节点xn的查询样本向量,在其中一个实施例中,第一学习模型简化模块137还可用于对判别函数f(xi;w)设定阈值,将得到的新的查询样本向量yn,作为下轮的输入迭代计算参数向量的第一表达式,通过反复计算参数向量的第一表达式直至收敛。例如,可以设定判别函数f(xi;w)的阈值为0.5,当标定正样本的节点值大于0.5,认为其为实际正样本,在下个迭代中,判别函数f(xi;w)取1;否则取0,以此对参数向量的第一表达式进行迭代计算。
第一节点值获取模块138用于根据第一类数据特征Ψ1(xi)和第一类维度权重对角矩阵H1,由判别函数f(x;w)得出节点集合χ中各节点的第一节点值。
去噪模块139用于去除数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合。
本实施例中第一预设值可取判别函数f(x;w)的最小值,即第一预设值为0,将节点值为0的节点对应的数据作为噪声去除,在其他实施例中也可以将第一预设值设定为0.2或其他值。
在其他实施例中,也可以不进行上述的第一类扭曲变换,即数据去噪模块130只包括判别函数建立模块135、第一学习模型建立模块136、第一学习模型简化模块137和去噪模块139,直接根据原数据特征Ψ(x),利用判别函数f(x;w)计算各节点的节点值,将节点集合中节点值小于或等于第一预设值的节点对应的数据作为噪声去除。本实施例中经第一类扭曲变换使噪声的数据特征在几乎所有维度都具有较小的值,减小噪声对应节点的节点值,提高了对噪声的精确提取。
查询样本集合建立模块140用于提取去噪数据集合中标定数据对应的标定正样本建立查询样本集合。
具体为:
χl={x1,x2,…,xl}
χl为查询样本集合,xl为与去噪数据集合中标定数据对应的标定正样本。
主导数据类提取模块150用于获取查询样本集合χl中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类。
第二节点值表示标定正样本是实际正样本的概率,主导数据类是指数据在流形中分布密度较高的类团,提取这样的类团能够更好地表达数据的特性,提取出来的主导数据类中的数据跟单独去噪之后的数据相比有着更加高的准确性。因此,以主导数据类中的数据作为最后的标定数据更能提高数据的检索精度。
具体地,如图9所示,主导数据类提取模块150可包括边权重矩阵获取模块151、归一化图矩阵获取模块152、图拉普拉斯矩阵获取模块153、第二类扭曲变换模块154、判别函数获取模块155、第二学习模型获取模块156、第二学习模型简化模块157、第二节点值获取模块158和提取模块159。
边权重矩阵获取模块151用于对节点集合中各节点两两之间建立边,得到边权重矩阵。
具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为边权重矩阵W的表达式,且wii=0,σ2为预设参数。
归一化图矩阵获取模块152用于根据边权重矩阵W得到归一化图矩阵。
具体为:
S=D-1/2WD-1/2
其中,S为归一化图矩阵,对角矩阵D的对角元素
图拉普拉斯矩阵获取模块153用于根据归一化图矩阵S得到归一化图拉普拉斯矩阵。
具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵。
第二类扭曲变换模块154用于根据归一化图拉普拉斯矩阵L对查询样本集合χl进行第二类扭曲变换,得到第二类数据特征和第二类维度权重对角矩阵。
通常情况下查询样本集合中实际正样本的比例高于整个节点集合,因此本实施例中对查询样本集合进行扭曲变换。归一化图拉普拉斯矩阵L中较小特征值对应的特征向量表现出明显的块状结构,在判断类别中更具代表性。归一化图拉普拉斯矩阵L的特征值向量和特征值对为
Figure BDA00002650629000222
,第二类扭曲变换具体为:
hii=λi
其中,Rk表示k维向量集合,通过第二类扭曲变换,得到第二类数据特征Ψ2(xj)=Uk(j,·)T,Uk(j,·)T表示特征向量矩阵Uk=[v1,v2,…,vk]的逆矩阵的第j行向量,特征向量矩阵Uk由归一化图拉普拉斯矩阵L的前k个特征向量v组成,k为预设参数;hii为所述第二类维度权重对角矩阵H2的表达式。
判别函数获取模块155用于对查询样本集合χl建立判别函数。
判别函数由数据特征及与数据特征维度相同的参数向量内积得到,具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示查询样本集合中标定正样本x为实际正样本的概率,其取值范围为[0,1];w为参数向量,Ψ(x)为数据特征,<w,Ψ(x)>表示数据特征Ψ(x)和所述参数向量w内积。
第二学习模型获取模块156用于根据判别函数f(x;w)建立第二学习模型。
具体为:
min w 1 2 ( &Sigma; i = 1 l | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为查询样本集合中的标定正样本,h是权重向量,·是点乘算子,μ是平衡因子。
第二学习模型简化模块157用于简化第二学习模型,得到参数向量的第二表达式。
具体为:
w*=(XTX+μH)-1XTyl
其中,w*为参数向量的第二表达式,矩阵X=[Ψ(x1),…,Ψ(xl)]T,维度权重对角矩阵H=diag(h),元素hii为权重向量h的第i维元素,yl为所述查询样本集合中标定正样本xl的查询样本向量。在其中一个实施例中,第二学习模型简化模块157还可用于对判别函数f(xi;w)设定阈值,将得到的新的查询样本向量yl,作为下轮的输入迭代计算上式,通过反复计算上式直至收敛。
第二节点值获取模块158用于根据第二类数据特征Ψ2(xj)和第二类维度权重对角矩阵H2,由判别函数f(x;w)得出查询样本集合χl中各标定正样本的第二节点值。
提取模块159用于提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类。
本实施例中第二预设值取判别函数f(x;w)的最大值,提取节点值为1的标定正样本对应的标定数据得到主导数据类,在其他实施例中也可以将第二预设值设定为0.8或其他值。
在其他实施例中,主导数据类提取模块150可不包括边权重矩阵获取模块151、归一化图矩阵获取模块152和图拉普拉斯矩阵获取模块153,第二类扭曲变换模块154直接根据图拉普拉斯矩阵建立模块133中得到的归一化图拉普拉斯矩阵L对查询样本集合χl进行第二类扭曲变换。另外,主导数据类提取模块150也可以不进行上述的第二类扭曲变换,即主导数据类提取模块150不包括边权重矩阵获取模块151、归一化图矩阵获取模块152和图拉普拉斯矩阵获取模块153、第二类扭曲变换模块154和第二节点值获取模块158,直接根据原数据特征Ψ(x),利用判别函数f(x;w)计算各标定正样本的节点值,提取去噪数据集合中对应标定正样本的节点值大于或等于第二预设值的标定数据,得到主导数据类。本实施例中,通过第二类扭曲变换在空间上拉近了处于同一类团的节点,使得处于最高密度类团节点的节点值具有最大的值。增大实际正样本的节点值,便于提取实际正样本以得到主导数据类。
可以理解,当上述第一扭曲变换和第二类扭曲变换均不进行时,标定正样本的第一节点值和第二节点值相同。
数据重排序模块160用于根据主导数据类对去噪数据集合进行重排序。
具体地,如图10所示,数据重排序模块160可包括相似度提取模块162和重排序模块164。
相似度提取模块162用于提取去噪数据集合中各数据与主导数据类中标定数据的相似度。
重排序模块164用于根据相似度对去噪数据集合中的数据进行重排序。
相似度提取模块162提取去噪数据集合中各数据与主导数据类中标定数据的相似度,重排序模块164按相似度的高低对去噪数据集合中的数据进行重排序。相似度提取模块162确定相似度时,可以是对去噪数据集合中数据与主导数据类中所有标定数据的相似度取平均值,也可以是直接取去噪数据集合中数据与主导数据类中一标定数据的相似度。
上述数据重排序系统,首先数据集合获取模块110获取数据集合,节点集合建立模块120根据数据集合建立节点集合,得到数据集合中每个数据与节点集合中节点的映射关系,数据去噪模块130获取节点集合中各节点的第一节点值,将第一节点值小于或等于第一预设值的节点对应的数据作为噪声去除,对数据集合进行全局去噪,避免数据的流型结构被噪声破坏而导致数据平滑传导和度量的偏差,提高数据检索精度。查询样本集合建立模块140提取去噪后的数据集合中标定数据对应的标定正样本作为查询样本集合,主导数据类提取模块150获取查询样本集合中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类,数据重排序模块160根据主导数据类中的数据对去噪数据集合进行重排序。确定标定数据中的主导数据类,将主导数据类中的数据作为最终的标定数据对去噪数据集合进行重排序,提高了标定数据的准确度,进一步提高数据的检索精度。
将上述数据重排序方法运用在双圆环小型数据库上对数据进行处理,来验证上述数据重排序方法的效果。双圆环小型数据库上由两个环构成的点云混合一些离散噪声点组成300个点的数据集,内圆:外圆:噪声的比例为112:96:92,以12:7:11的内圆:外圆:噪声比例采样30个点作为初始的带噪声查询样本(即上述数据重排序方法中的标定数据)。将本方法与传统的半监督学习方法,以及前面所述的噪声去除半监督学习方法LabelDiag和SpecFilter进行比较,比较结果如表1所示。
小型数据库实验 查询样本准确度(%) 平均精度(%)
传统半监督学习方法 40.00 41.34
LabelDiag 40.00 45.74
SpecFilter 0.00 28.01
本方法 100.00 100.00
表1
由表1可以看出,利用本方法对数据集合进行重排序,查询样本的准确度以及数据检索的平均精度都有明显的提高。
此外,本发明还提供了一种图像重排序方法,利用上述数据重排序方法,对经关键字检索得到的图像集合进行重排序。具体包括以下步骤:
步骤1:提取经关键字检索排序得到的图像得到图像集合,图像集合中包括多个标定图像。
步骤2:根据图像特征建立节点集合,得到图像集合中各图像与节点集合中节点的映射关系,节点集合中包含与标定图像对应的标定正样本。
本实施例中可采用局部受限线性编码对各个图像提取图像特征。
步骤3:根据上述数据重排序方法,对节点集合进行第一类扭曲变换,建立判别函数,得出第一类扭曲变换后的节点集合中各节点的节点值,将节点值小于或等于第一预设值的节点对应的图像作为噪声图像去除。噪声图像指与关键字无关的图像。
步骤4:提取去噪后的图像集合中标定图像对应的标定正样本作为查询样本集合。
步骤5:根据上述数据重排序方法,对查询样本集合进行第二类扭曲变换,根据判别函数得出第二类扭曲变换后的查询样本集合中各标定正样本的节点值,提取节点值大于或等于第二预设值的标定正样本对应的标定图像得到主导图像类。
步骤6:根据主导图像类对去噪后的图像集合进行重排序。
上述图像重排序方法,提取根据关键字检索排序的图像作为图像集合,然后根据图像集合建立节点集合,得到图像集合中每个图像与节点集合中节点的映射关系,对节点集合进行第一类扭曲变换,通过判别函数得出第一类扭曲变换后的节点集合中各节点的节点值,将节点值小于或等于第一预设值的节点对应的图像作为噪声图像去除,对图像集合进行全局去噪,提高图像检索精度。提取去噪后的图像集合中标定图像对应的标定正样本得到查询样本集合,对查询样本集合进行第二类扭曲变换,根据判别函数得出第二类扭曲变换后查询样本集合中各标定正样本的节点值,提取节点值大于或等于第二预设值的标定正样本对应的图像,得到主导图像类,将主导图像类中的图像作为最终的标定图像,对去噪后的图像集合进行重排序。提高了标定图像的准确度,进一步提高了图像的检索精度。
将上述图像重排序方法在有353类和71478张图片的INRIA-kavj10公共数据库上进行测试。表2为上述图像重排序方法对图像集合进行全局去噪的效果。
类内图像 噪声图像 精度
除噪前 31347 40131 43.86%
除噪后 22013 21795 50.25%
表2
由表2可以看出,利用本方法对图像集合进行全局去噪后,图像检索精度有明显的提高。
在INRIA-kavj10公共数据库上对传统的图像排序方法、前面所述的噪声去除半监督学习方法LabelDiag和SpecFilter,以及本方法进行比较,比较结果如表3所示,取图像集合中前50个图像作为带噪声的查询样本(即上述图像重排序方法中的标定图像)。
INRIA实验 查询样本精度(%) MAP(%)
传统的图像排序 56.94 56.99
LabelDiag 56.82 70.12
SpecFilter 60.83 73.58
本方法 70.72 75.10
表3
由表3可以看出,利用本方法对图像集合进行重排序,查询样本的准确度以及图像检索的平均精度(MAP)都有明显的提高。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据重排序方法,其特征在于,包括以下步骤:
获取数据集合,所述数据集合中包含多个标定数据;
根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本;
获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合;
提取所述去噪数据集合中标定数据对应的标定正样本建立查询样本集合;
获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类;
根据所述主导数据类对所述去噪数据集合进行重排序。
2.根据权利要求1所述的数据重排序方法,其特征在于,所述根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本的步骤具体包括:
获取所述数据集合中每个数据的多个特征值,多个所述特征值构成所述数据特征;
构建每个数据对应的节点,所述节点为多维向量且所述节点的一个维度表示一种所述特征值;
根据所述节点建立所述节点集合;具体为:
χ={x1,…,xm,xm+1,…,xn}
其中,χ为所述节点集合,x1,…,xm为所述标定正样本,与所述标定数据对应。
3.根据权利要求2所述的数据重排序方法,其特征在于,所述获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合的步骤具体包括:
对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
Figure FDA00002650628900021
根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
根据所述归一化图拉普拉斯矩阵对所述节点集合进行第一类扭曲变换,得到第一类数据特征和第一类维度权重对角矩阵;具体为:
Figure FDA00002650628900022
h ii = 1 / &Sigma; j = 1 n &Psi; 1 ( x i ) j
其中,Rn表示n维向量集合,通过所述第一类扭曲变换,将节点xi映射到维度等于节点个数的特征空间,得到所述第一类数据特征Ψ1(xi)=L-1(i,·)T,L-1(i,·)表示所述归一化图拉普拉斯矩阵L逆矩阵的第i行向量;hii为所述第一类维度权重对角矩阵H1的表达式;
对所述节点集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示节点x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
根据所述判别函数建立第一学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 m | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
简化所述第一学习模型,得到所述参数向量的第一表达式;具体为:
w*=(XTX+μH)-1XTyn
H=diag(h)
其中,w*为所述参数向量的第一表达式,矩阵X=[Ψ(x1),…,Ψ(xn)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yn为节点xn的查询样本向量;
根据所述第一类数据特征和第一类维度权重对角矩阵,由所述判别函数得出所述节点集合中各节点的第一节点值;
去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到所述去噪数据集合。
4.根据权利要求2所述的数据重排序方法,其特征在于,所述获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类的步骤具体包括:
对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
根据所述归一化图拉普拉斯矩阵对所述查询样本集合进行第二类扭曲变换,得到第二类数据特征和第二类维度权重对角矩阵;具体为:
Figure FDA00002650628900032
hii=λi
其中,Rk表示k维向量集合,通过所述第二类扭曲变换,得到第二类数据特征Ψ2(xj)=Uk(j,·)T,Uk(j,·)T表示特征向量矩阵Uk=[v1,v2,…,vk]的逆矩阵的第j行向量,所述特征向量矩阵Uk由所述归一化图拉普拉斯矩阵L的前k个特征向量v组成,k为预设参数;hii为所述第二类维度权重对角矩阵H2的表达式,λi为所述归一化图拉普拉斯矩阵L的特征值;
对所述查询样本集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示所述查询样本集合中标定正样本x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
根据所述判别函数建立第二学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 l | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述查询样本集合中的标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
简化所述第二学习模型,得到所述参数向量的第二表达式;具体为:
w*=(XTX+μH)-1XTyl
其中,w*为所述参数向量的第二表达式,矩阵X=[Ψ(x1),…,Ψ(xl)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yl为所述查询样本集合中标定正样本xl的查询样本向量;
根据所述第二类数据特征和第二类维度权重对角矩阵,由所述判别函数得出所述查询样本集合中各标定正样本的第二节点值;
提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到所述主导数据类。
5.根据权利要求1所述的数据重排序方法,其特征在于,所述根据所述主导数据类对所述去噪数据集合进行重排序的步骤具体包括:
提取所述去噪数据集合中各数据与所述主导数据类中标定数据的相似度;
根据所述相似度对所述去噪数据集合中的数据进行重排序。
6.一种数据重排序系统,其特征在于,包括:
数据集合获取模块,用于获取数据集合,所述数据集合中包含多个标定数据;
节点集合建立模块,用于根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本;
数据去噪模块,用于获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合;
查询样本集合建立模块,用于提取所述去噪数据集合中标定数据对应的标定正样本建立查询样本集合;
主导数据类提取模块,用于获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类;
数据重排序模块,用于根据所述主导数据类对所述去噪数据集合进行重排序。
7.根据权利要求6所述的数据重排序系统,其特征在于,所述节点集合建立模块包括:
特征值获取模块,用于获取所述数据集合中每个数据的多个特征值,多个所述特征值构成所述数据特征;
节点构建模块,用于构建每个数据对应的节点,所述节点为多维向量且所述节点的一个维度表示一种所述特征值;
集合建立模块,用于根据所述节点建立所述节点集合;具体为:
χ={x1,…,xm,xm+1,…,xn}
其中,χ为所述节点集合,x1,…,xm为所述标定正样本,与所述标定数据对应。
8.根据权利要求7所述的数据重排序系统,其特征在于,所述数据去噪模块包括:
边权重矩阵建立模块,用于对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
图矩阵建立模块,用于根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
Figure FDA00002650628900061
图拉普拉斯矩阵建立模块,用于根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
第一类扭曲变换模块,用于根据所述归一化图拉普拉斯矩阵对所述节点集合进行第一类扭曲变换,得到第一类数据特征和第一类维度权重对角矩阵;具体为:
Figure FDA00002650628900062
h ii = 1 / &Sigma; j = 1 n &Psi; 1 ( x i ) j
其中,Rn表示n维向量集合,通过所述第一类扭曲变换,将节点xi映射到维度等于节点个数的特征空间,得到所述第一类数据特征Ψ1(xi)=L-1(i,·)T,L-1(i,·)表示所述归一化图拉普拉斯矩阵L逆矩阵的第i行向量;hii为所述第一类维度权重对角矩阵H1的表达式;
判别函数建立模块,用于对所述节点集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示节点x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
第一学习模型建立模块,用于根据所述判别函数建立第一学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 m | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
第一学习模型简化模块,用于简化所述第一学习模型,得到所述参数向量的第一表达式;具体为:
w*=(XTX+μH)-1XTyn
H=diag(h)
其中,w*为所述参数向量的第一表达式,矩阵X=[Ψ(x1),…,Ψ(xn)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yn为节点xn的查询样本向量;
第一节点值获取模块,用于根据所述第一类数据特征和第一类维度权重对角矩阵,由所述判别函数得出所述节点集合中各节点的第一节点值;
去噪模块,用于去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到所述去噪数据集合。
9.根据权利要求7所述的数据重排序系统,其特征在于,所述主导数据类提取模块包括:
边权重矩阵获取模块,用于对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:
wij=exp(-||xi-xj||2/2σ2),i≠j
其中,wij为所述边权重矩阵W的表达式,且wii=0,σ2为预设参数;
归一化图矩阵获取模块,用于根据所述边权重矩阵得到归一化图矩阵;具体为:
S=D-1/2WD-1/2
其中,S为所述归一化图矩阵,对角矩阵D的对角元素
Figure FDA00002650628900071
图拉普拉斯矩阵获取模块,用于根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:
L=I-S
其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;
第二类扭曲变换模块,用于根据所述归一化图拉普拉斯矩阵对所述查询样本集合进行第二类扭曲变换,得到第二类数据特征和第二类维度权重对角矩阵;具体为:
hii=λi
其中,Rk表示k维向量集合,通过所述第二类扭曲变换,得到第二类数据特征Ψ2(xj)=Uk(j,·)T,Uk(j,·)T表示特征向量矩阵Uk=[v1,v2,…,vk]的逆矩阵的第j行向量,所述特征向量矩阵Uk由所述归一化图拉普拉斯矩阵L的前k个特征向量v组成,k为预设参数;hii为所述第二类维度权重对角矩阵H2的表达式,λi为所述归一化图拉普拉斯矩阵L的特征值;
判别函数获取模块,用于对所述查询样本集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:
f(x;w)=<w,Ψ(x)>
其中,判别函数f(x;w)表示所述查询样本集合中标定正样本x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,<w,Ψ(x)>表示所述数据特征Ψ(x)和所述参数向量w内积;
第二学习模型获取模块,用于根据所述判别函数建立第二学习模型;具体为:
min w 1 2 ( &Sigma; i = 1 l | | f ( x i ; w ) - 1 | | 2 + &mu; < h , w &CenterDot; w > )
其中,xi为所述查询样本集合中的标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;
第二学习模型简化模块,用于简化所述第二学习模型,得到所述参数向量的第二表达式;具体为:
w*=(XTX+μH)-1XTyl
其中,w*为所述参数向量的第二表达式,矩阵X=[Ψ(x1),…,Ψ(xl)]T,维度权重对角矩阵H中元素hii为所述权重向量h的第i维元素,yl为所述查询样本集合中标定正样本xl的查询样本向量;
第二节点值获取模块,用于根据所述第二类数据特征和第二类维度权重对角矩阵,由所述判别函数得出所述查询样本集合中各标定正样本的第二节点值;
提取模块,用于提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到所述主导数据类。
10.根据权利要求6所述的数据重排序系统,其特征在于,所述数据重排序模块包括:
相似度提取模块,用于提取所述去噪数据集合中各数据与所述主导数据类中标定数据的相似度;
重排序模块,用于根据所述相似度对所述去噪数据集合中的数据进行重排序。
CN201210572274.9A 2012-12-25 2012-12-25 数据重排序方法和系统 Active CN103064939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210572274.9A CN103064939B (zh) 2012-12-25 2012-12-25 数据重排序方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210572274.9A CN103064939B (zh) 2012-12-25 2012-12-25 数据重排序方法和系统

Publications (2)

Publication Number Publication Date
CN103064939A true CN103064939A (zh) 2013-04-24
CN103064939B CN103064939B (zh) 2015-09-30

Family

ID=48107569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210572274.9A Active CN103064939B (zh) 2012-12-25 2012-12-25 数据重排序方法和系统

Country Status (1)

Country Link
CN (1) CN103064939B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699612A (zh) * 2013-12-13 2014-04-02 中国科学院深圳先进技术研究院 一种图像检索排序的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398898A (zh) * 2008-10-20 2009-04-01 中国科学院合肥物质科学研究院 基于流形学习的植物叶片识别方法
US20090164416A1 (en) * 2007-12-10 2009-06-25 Aumni Data Inc. Adaptive data classification for data mining
CN102081655A (zh) * 2011-01-11 2011-06-01 华北电力大学 基于贝叶斯分类算法的信息检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164416A1 (en) * 2007-12-10 2009-06-25 Aumni Data Inc. Adaptive data classification for data mining
CN101398898A (zh) * 2008-10-20 2009-04-01 中国科学院合肥物质科学研究院 基于流形学习的植物叶片识别方法
CN102081655A (zh) * 2011-01-11 2011-06-01 华北电力大学 基于贝叶斯分类算法的信息检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699612A (zh) * 2013-12-13 2014-04-02 中国科学院深圳先进技术研究院 一种图像检索排序的方法及装置
CN103699612B (zh) * 2013-12-13 2017-10-13 中国科学院深圳先进技术研究院 一种图像检索排序的方法及装置

Also Published As

Publication number Publication date
CN103064939B (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
Li et al. A Nonparametric Statistical Approach to Clustering via Mode Identification.
CN106203523B (zh) 基于梯度提升决策树半监督算法融合的高光谱图像分类方法
Shao et al. Multiple incomplete views clustering via weighted nonnegative matrix factorization with regularization
CN109522956B (zh) 一种低秩判别特征子空间学习方法
WO2021003951A1 (zh) 一种基于标签约束弹性网图模型的高光谱图像分类方法
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN113378632A (zh) 一种基于伪标签优化的无监督域适应行人重识别算法
CN103718190B (zh) 增量图像聚类
CN103699523B (zh) 产品分类方法和装置
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN107563442B (zh) 基于稀疏低秩正则图张量化嵌入的高光谱图像分类方法
CN106909946A (zh) 一种多模态融合的商品分类系统
CN105551022B (zh) 一种基于形状交互矩阵的图像错误匹配检验方法
Ding et al. Sparse hierarchical clustering for VHR image change detection
CN107392251B (zh) 一种使用分类图片提升目标检测网络性能的方法
CN107832786A (zh) 一种基于字典学习的人脸识别分类方法
CN105574475A (zh) 一种基于共同向量词典的稀疏表示分类方法
CN104881852B (zh) 基于免疫克隆和模糊核聚类的图像分割方法
CN107590800A (zh) 一种基于地物光谱库的高光谱遥感图像混合像元分解方法
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
Levin et al. Out-of-sample extension of graph adjacency spectral embedding
CN110334777A (zh) 一种加权多视角无监督属性选择方法
CN108664653A (zh) 一种基于K-means的医疗消费客户自动分类方法
CN106844733A (zh) 基于词汇树信息融合与豪斯多夫距离结合的图像检索方法
Chapel et al. Partial gromov-wasserstein with applications on positive-unlabeled learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant