CN111368254B - 多流形正则化非负矩阵分解的多视角数据缺失补全方法 - Google Patents

多流形正则化非负矩阵分解的多视角数据缺失补全方法 Download PDF

Info

Publication number
CN111368254B
CN111368254B CN202010137047.8A CN202010137047A CN111368254B CN 111368254 B CN111368254 B CN 111368254B CN 202010137047 A CN202010137047 A CN 202010137047A CN 111368254 B CN111368254 B CN 111368254B
Authority
CN
China
Prior art keywords
view
data
missing
matrix
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010137047.8A
Other languages
English (en)
Other versions
CN111368254A (zh
Inventor
孙晶涛
张秋余
陈彦萍
李敬明
王忠民
孙韩林
温福喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202010137047.8A priority Critical patent/CN111368254B/zh
Publication of CN111368254A publication Critical patent/CN111368254A/zh
Application granted granted Critical
Publication of CN111368254B publication Critical patent/CN111368254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多流形正则化非负矩阵分解的多视角数据缺失补全方法,通过多视角间的一致性假设,利用多流形正则化非负矩阵分解算法,获得无标记多视角数据趋于一致的流形及全局聚类;采用视角协同改进高斯混合方法,构建多视角协同判别模型。通过对存在缺失数据的样本,在非缺失视角下簇相关度水平的计算,实现样本所属簇的预标定;利用多视角在低维空间中的一致性,采用多元线性回归分析方法,建立特定视角下的缺失数据预测模型,实现在多属性缺失条件下的数据精确补全。本发明不需要大规模的标注样本进行训练,避免了预先定义类别关系和相关特征,提高了现有多视角挖掘技术对于无标记多源数据的理解发现能力。

Description

多流形正则化非负矩阵分解的多视角数据缺失补全方法
技术领域
本发明属于面向多视角数据为研究对象的机器学习技术领域,具体涉及一种基于多流形正则化非负矩阵分解的多视角数据缺失补全方法。
背景技术
随着物联网与大数据技术的飞速发展,当前应用所能采集到的数据变得越来越庞大和复杂,而数据之间所呈现的多源性、多态性特点,为从不同视角揭示事物的不同属性提供了可能。例如:新闻事件报道,既可以获取自多个风格迥异的新闻网站,也可以获取自不同国家的不同语种,更可以获取自视频、音频、图片等多种信息形式。在医疗诊断中,更是利用了大量的医疗技术(血液、尿液、粪便,以及各种医学仪器的检查)进行综合研判,找出疾病的原因。因此,研究如何合理利用同一对象广泛存在的多个视角信息,实现对多视角刻画对象的深度分析与理解,已成为当前机器学习领域的研究热点。这种以面向多视角数据为研究对象的机器学习方法目前已被普遍接受为一种新的学习方式,即多视角学习(Multi-view-Learning,MVL)。
当前,面向多视角数据为研究对象的多视角学习(Multi-view-Learning,MVL),如协同训练(Co-training)、多核学习(Multiple Kernel Learning,MKL)、子空间学习(Subspace Learning,SL)等均要求来自不同视角数据的描述为完整的矩阵、向量或数据框。然而,在现阶段各热门领域的研究中,能够获取到的多视角数据,一般都会因为一些已知或未知的原因,造成某一视角部分或全部属性出现缺失。当这种缺失比例很小时,可以采取对缺失记录进行舍弃或手工的方式进行处理。但在实际数据中,往往这种缺失占有相当的比重。如果采用手工处理,将会非常低效;如果不处理,由于数据的缺失,会使得对多视角所刻画对象进行数据分析变的十分困难;如果采用舍弃缺失记录的方式处理,则可能会丢失大量有效信息,导致最终的分析结果存在诸多不确定性。因此,针对多视角缺失数据进行有效填充的方法研究具有重要意义。
目前各种处理缺失数据的方法均建立在数据缺失机制的某种假定上,通常MCAR被认为是可忽略的缺失,因为在该机制下,数据缺失的发生与其他存在的变量之间没有直接关系,传统的缺失数据处理方法大多基于MCAR,如删除法,即直接丢弃存在视角数据缺失的样本后采用常规分析方法进行分析。该方法简单易行,当MCAR满足且缺失率很小,删除法可获得理想的处理效果。但在实际中MCAR很难满足,删除法会造成可用于训练的样本数量减少,从而导致泛化性能的降低。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于多流形正则化非负矩阵分解的多视角数据缺失补全方法,有效避免预先定义类别关系和相关特征;解决了传统缺失处理方法中,删除法所造成的估计偏差及统计功效损失,降低了单一插补法可能带来的样本分布扭曲问题;更为无监督环境下的多视角多属性缺失数据精确补全提供了一种新思路。
本发明采用以下技术方案:
多流形正则化非负矩阵分解的多视角数据缺失补全方法,包括以下步骤:
S1、利用多流形正则化非负矩阵分解方法发现多视角间的相似成分,获得多视角数据一致的聚类结果;
S2、根据步骤S1的聚类结果,采用视角协同改进高斯混合方法构建多视角协同判别模型,在非缺失视角下簇相关度水平对存在缺失数据的样本进行计算,完成样本所属簇的预标定;
S3、步骤S2完成后,结合正交投影非负矩阵分解和l2范数,构建存在缺失数据的样本在特定视角中多元线性回归模型,实现在多属性缺失条件下的数据精确补全,通过在已填补数据集上,采用基于机器学习的决策分析方法进行舆情监控、图像识别以及信息协同决策。
具体的,步骤S1具体为:
S101、正则化各视角Xs,并对Us,Vs,V*进行初始化;
S102、对于每个视角Xs,通过固定Vs计算并更新Us;通过固定Us和V*计算并更新Vs;通过固定Vs计算并更新V*
S103、依次迭代,直至多流形正则化非负矩阵分解算法的优化模型收敛;
S104、利用V*定义数据点i的簇标记。
进一步的,步骤S101中,假设未标记多视角完整数据集
Figure BDA0002397697820000031
Figure BDA0002397697820000032
m是视角的个数,N是每个视角的样本个数,
Figure BDA0002397697820000033
表示视角s中的数据点i,ts为视角s的维度。
进一步的,步骤S102中,Us为:
Figure BDA0002397697820000034
Vs为:
Figure BDA0002397697820000035
V*为:
Figure BDA0002397697820000041
其中,-表示矩阵点除;·表示矩阵点乘;E为全1的矩阵;Ds表示对角矩阵且
Figure BDA0002397697820000042
Figure BDA0002397697820000043
表示在视角s下两个数据点的相似度;Ws表示视角s下的相似度矩阵。
进一步的,步骤S103中,多流形正则化非负矩阵分解算法的优化模型为:
Figure BDA0002397697820000044
s.t.Us≥0,Vs≥0,V*≥0
其中,
Figure BDA0002397697820000045
一致的指示矩阵V*∈RN×k,表示所有视角指示矩阵Vs∈RN×k的平衡,k是簇的个数;
Figure BDA0002397697820000046
L*∈RN×N是由不同视角流形构建而成新流形的拉普拉斯矩阵。
进一步的,步骤S104中,数据点i的簇标记如下:
zi={zi1,zi2,…,zik}
Figure BDA0002397697820000047
具体的,步骤S2具体为:
S201、对于存在缺失的多视角数据点
Figure BDA0002397697820000048
计算s视角下第j个高斯模型的均值向量
Figure BDA0002397697820000049
j=1,2,…,k;
S202、计算s视角下第j个高斯模型的协方差矩阵
Figure BDA00023976978200000410
j=1,2,…,k;
S203、计算s视角下第j个高斯模型的混合概率
Figure BDA00023976978200000411
j=1,2,…,k;
S204、利用
Figure BDA0002397697820000051
计算数据点
Figure BDA0002397697820000052
在s视角下属于第j个簇的后验概率;
S205、输出存在缺失的多视角数据点
Figure BDA0002397697820000053
在s视角中所属的簇类为
Figure BDA0002397697820000054
在完整视角
Figure BDA0002397697820000055
中所属的簇类为
Figure BDA0002397697820000056
得到数据点
Figure BDA0002397697820000057
的簇标记
Figure BDA0002397697820000058
进一步的,步骤S204中,后验概率如下:
Figure BDA0002397697820000059
Figure BDA00023976978200000510
其中,
Figure BDA00023976978200000511
为数据点
Figure BDA00023976978200000512
在视角s中属于第j个簇的后验概率,ts为视角s的维度,T为向量的转置。
具体的,步骤S3具体为:
S301、填充存在缺失维度最少的视角s;选取该视角中无缺失值的变量作为预测变量,建立在视角s下的回归模型;
S302、对回归系数β的目标函数进行求导,得到β*,确定数据点
Figure BDA00023976978200000513
内维度h的精确补全为
Figure BDA00023976978200000514
Figure BDA00023976978200000515
为数据点
Figure BDA00023976978200000516
的完整视角,
Figure BDA00023976978200000517
为数据点
Figure BDA00023976978200000518
的簇标记;
S303、利用步骤S302获得维度h数值,构建回归模型填充数据点
Figure BDA00023976978200000519
在视角s下的另外一个缺失维度,依次迭代,直到数据点
Figure BDA00023976978200000520
在视角s下全部缺失的维度均被填充;
S304、填充存在缺失维度次少的视角,采用与步骤S301类似的预测变量;
S305、重复步骤S301~S304,直到所有存在缺失维度的视角均被填充完毕为止。
进一步的,步骤S302中,回归系数β的目标函数为:
Figure BDA0002397697820000061
β*=(G'G+γE)-1G'h
其中,β*为对Q(β)求导后β值,γ为常系数,β为回归系数,G=[(Xq)'Z1],1=[1,1,…,1]T∈RN×1为全1列向量,
Figure BDA0002397697820000062
为数据集Xq中所有原始维度,Z={z1,z2,…,zN}∈RN×k,G'为G的导数,h为数据集Xq的维度,E为单位矩阵。
与现有技术相比,本发明至少具有以下有益效果:
本发明基于多流形正则化非负矩阵分解的多视角数据缺失补全方法,不需要大规模标注样本进行训练,避免了预先定义类别关系和相关特征,提高了现有多视角挖掘技术对于无标记多源数据的理解发现能力;解决了传统缺失处理方法中,删除法所造成的估计偏差及统计功效损失,降低了单一插补法可能带来的样本分布扭曲问题;实现了在MAR机制下多视角缺失数据的处理,为无监督环境下的多视角多属性缺失数据精确补全提供了一种新思路。
进一步的,利用步骤S1设置的目的是为了发现多视角间的相似成分,并以此获得多视角数据一致的聚类结果。
进一步的,步骤S101设置的目的是通过正则化各视角,以改善过拟合问题,提高模型的泛化能力。
进一步的,步骤S102设置的目的是利用迭代加快多流形正则化非负矩阵分解算法的优化速度。
进一步的,步骤S103设置的目的是使多流形正则化非负矩阵分解算法的优化模型收敛。
进一步的,步骤S104设置的目的是建立数据点i在多视角间的关联性,并得到了数据点i的簇标记。
进一步的,步骤S2设置的目的是为了通过视角间的相关性获得
Figure BDA0002397697820000071
的近似
Figure BDA0002397697820000072
并利用高斯混合模型(Gaussian Mixture Models)这一无监督聚类模型,准确地分析出缺失数据
Figure BDA0002397697820000073
在完整视角集下的近似簇类。
进一步的,步骤S204设置的目的是为了计算数据点
Figure BDA0002397697820000074
在s视角下属于第j个簇的后验概率,以实现对数据点
Figure BDA0002397697820000075
在s视角中所属簇类的判定。
进一步的,步骤S3设置的目的是利用同一对象广泛存在的多个视角信息,采取多个视角中自变量的最优组合共同实现对特定视角下缺失数据的精准预测。
进一步的,步骤S302设置的好处是采用多元线性回归分析方法相比于只用一个自变量进行预测的线性回归分析方法更有效。
综上所述,本发明解决了传统缺失处理方法中,删除法所造成的估计偏差及统计功效损失,降低了单一插补法可能带来的样本分布扭曲问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明基于多流形正则化非负矩阵分解的多视角数据缺失补全方法整体流程图;
图2为多视角全局聚类过程流程图;
图3为多视角协同判别过程流程图;
图4为多视角数据缺失补全过程流程图;
图5为识别性能比较图,其中,(a)为识别准确率,(b)为识别查全率,(c)为识别F1值。
具体实施方式
本发明提供了一种基于多流形正则化非负矩阵分解的多视角数据缺失补全方法,不需要大规模的标注样本进行训练,不仅避免了预先定义类别关系和相关特征,提高了现有多视角挖掘技术对于无标记多源数据的理解发现能力;还解决了传统缺失处理方法中,删除法所造成的估计偏差及统计功效损失,降低了单一插补法可能带来的样本分布扭曲问题;更为无监督环境下的多视角多属性缺失数据精确补全提供了一种新方法。
请参阅图1,本发明一种基于多流形正则化非负矩阵分解的多视角数据缺失补全方法,包括以下步骤:
S1、通过多视角间的一致性假设,利用多流形正则化非负矩阵分解方法,发现多视角间的相似成分,以此获得多视角数据一致的聚类结果;
请参阅图2,多视角聚类方法为:
假设未标记多视角完整数据集
Figure BDA0002397697820000081
m是视角的个数,N是每个视角的样本个数,
Figure BDA0002397697820000082
表示视角s中的数据点i,ts为视角s的维度。
S101、正则化各视角Xs,并对Us,Vs,V*进行初始化;
S102、对于每个视角Xs,通过固定Vs,计算Us并更新Us;固定Us和V*,计算Vs并更新Vs;固定Vs,计算V*并更新V*
Us为:
Figure BDA0002397697820000083
Vs为:
Figure BDA0002397697820000091
V*为:
Figure BDA0002397697820000092
其中,-表示矩阵点除;·表示矩阵点乘;E为全1的矩阵;Ds表示对角矩阵且
Figure BDA0002397697820000094
Figure BDA0002397697820000095
表示在视角s下两个数据点的相似度;Ws表示视角s下的相似度矩阵。
S103、依次迭代,直至多流形正则化非负矩阵分解算法的优化模型收敛;
多流形正则化非负矩阵分解算法的优化模型为:
Figure BDA0002397697820000096
s.t.Us≥0,Vs≥0,V*≥0
其中,
Figure BDA0002397697820000097
一致的指示矩阵V*∈RN×k,表示所有视角指示矩阵Vs∈RN×k的平衡,k是簇的个数;
Figure BDA0002397697820000098
L*∈RN×N是由不同视角流形构建而成新流形的拉普拉斯矩阵,其是对各视角中Ls∈RN×N流形结构的统一。
S104、利用V*定义数据点i的簇标记如下:
zi={zi1,zi2,…,zik}
其中,
Figure BDA0002397697820000099
S2、采用视角协同改进高斯混合方法,构建多视角协同判别模型,通过对存在缺失数据的样本,在非缺失视角下簇相关度水平的计算,以此实现样本所属簇的预标定;
多视角协同判别为:
假设
Figure BDA0002397697820000101
为存在缺失的多视角数据点,数据点
Figure BDA0002397697820000102
存在缺失的视角
Figure BDA0002397697820000103
为:
Figure BDA0002397697820000104
数据点
Figure BDA0002397697820000105
的完整视角
Figure BDA0002397697820000106
为:
Figure BDA0002397697820000107
对于多视角数据点
Figure BDA0002397697820000108
的补全,通过视角间的相关性获得
Figure BDA0002397697820000109
的近似
Figure BDA00023976978200001010
在数据点
Figure BDA00023976978200001011
的完整视角
Figure BDA00023976978200001012
中,利用高斯混合模型思想,构建完整视角集下的协同判别模型,以此分析缺失数据
Figure BDA00023976978200001013
在完整视角集下的近似簇类。
请参阅图3,在完整视角集下,缺失数据
Figure BDA00023976978200001014
的近似簇类判别方法为:
S201、对于存在缺失的多视角数据点
Figure BDA00023976978200001015
计算s视角下第j个高斯模型的均值向量
Figure BDA00023976978200001016
j=1,2,…,k;Xs的均值向量集合为:
Figure BDA00023976978200001017
Figure BDA00023976978200001018
S202、计算s视角下第j个高斯模型的协方差矩阵
Figure BDA00023976978200001019
j=1,2,…,k;
协方差矩阵集合为:
Figure BDA00023976978200001020
Figure BDA00023976978200001021
S203、计算s视角下第j个高斯模型的混合概率
Figure BDA0002397697820000111
j=1,2,…,k;
混合概率向量为:
Figure BDA0002397697820000112
Figure BDA0002397697820000113
其中,k表示聚类的个数。
S204、利用
Figure BDA0002397697820000114
依据贝叶斯定理,计算数据点
Figure BDA0002397697820000115
在s视角下属于第j个簇的后验概率如下:
Figure BDA0002397697820000116
Figure BDA0002397697820000117
其中,
Figure BDA0002397697820000118
为数据点
Figure BDA0002397697820000119
在视角s中属于第j个簇的后验概率,ts为视角s的维度,T为向量的转置。
S205、输出存在缺失的多视角数据点
Figure BDA00023976978200001110
在s视角中所属的簇类为
Figure BDA00023976978200001111
在完整视角
Figure BDA00023976978200001112
中所属的簇类为
Figure BDA00023976978200001113
得到数据点
Figure BDA00023976978200001114
的簇标记
Figure BDA00023976978200001115
S3、利用多视角在低维空间中的一致性,采用多元线性回归分析方法,结合正交投影非负矩阵分解和l2范数,构建存在缺失数据的样本在特定视角中多元线性回归模型,实现在多属性缺失条件下的数据精确补全,通过在已填补数据集上,采用基于机器学习的识别方法(C4.5、BN)进行网络水军的识别,经填充过的数据,能够使传统模式识别方法的实际识别率得到显著提升。
单一视角下存在缺失数据的样本精确补全方法为:
假设q(q∈[r,…,r+l])为数据点
Figure BDA0002397697820000121
中存在缺失数据的一个视角q,h(h∈tq)为视角q中存在缺失数据的一个维度。
对于数据集Xq(Xq∈X),建立其在视角q下的一个回归模型,以此估计数据点
Figure BDA0002397697820000122
内维度h的数值,即将数据集Xq中的维度h表示为响应变量,所有原始维度(去除数据点
Figure BDA0002397697820000123
的非缺失维度)及一系列簇标记变量共同表示为预测变量,结合l2范数,求解回归系数β的目标函数变为:
Figure BDA0002397697820000124
其中,γ为常系数,β为回归系数,G=[(Xq)'Z1],1=[1,1,…,1]T∈RN×1为全1列向量,
Figure BDA0002397697820000125
为数据集Xq中所有原始维度(去除数据点
Figure BDA0002397697820000126
的非缺失维度),Z={z1,z2,…,zN}∈RN×k
对β的目标函数求导如下:
Figure BDA0002397697820000127
得到
β*=(G'G+γE)-1G'h
其中,E为单位矩阵。
那么,数据点
Figure BDA0002397697820000128
内维度h的精确补全为
Figure BDA0002397697820000129
请参阅图4,多个视角均存在缺失数据的样本精确补全方法为:
S301、填充存在缺失维度最少的视角s;选取该视角中无缺失值的变量作为预测变量,建立在视角s下的回归模型;
S302、对回归系数β的目标函数进行求导,得到β*,确定数据点
Figure BDA00023976978200001210
内维度h的精确补全为
Figure BDA00023976978200001211
Figure BDA00023976978200001212
为数据点
Figure BDA00023976978200001213
的完整视角,
Figure BDA00023976978200001214
为数据点
Figure BDA00023976978200001215
的簇标记;
回归系数β的目标函数为:
Figure BDA0002397697820000131
β*=(G'G+γE)-1G'h
其中,β*为对Q(β)求导后β值,γ为常系数,β为回归系数,G=[(Xq)'Z1],1=[1,1,…,1]T∈RN×1为全1列向量,
Figure BDA0002397697820000132
为数据集Xq中所有原始维度,Z={z1,z2,…,zN}∈RN×k,G'为G的导数,h为数据集Xq的维度,E为单位矩阵。
S303、利用步骤S302获得维度h数值,构建回归模型填充数据点
Figure BDA0002397697820000133
在视角s下的另外一个缺失维度,依次迭代,直到数据点
Figure BDA0002397697820000134
在视角s下全部缺失的维度均被填充;
S304、填充存在缺失维度次少的视角,采用与步骤S301类似的预测变量;
S305、重复步骤S301-S304,直到所有存在缺失维度的视角均被填充完毕为止。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了验证经由多流形正则化非负矩阵分解的多视角数据缺失补全方法填充过的微博信息,对基于机器学习的模式识别方法性能所产生的影响。采用新浪微博数据集,使用2种基于机器学习的模式识别方法(C4.5、BN)作为评估手段,设计在原始完整数据集、填补数据集(缺失率为40%时)以及缺失删减数据集(缺失率为40%时)三种场景下的对比测试,得到网络水军识别效果如图5所示。
从图5可以看出,经由随机删减方法,构造的缺失率为40%的新浪微博数据集,采用MVCM-MNMF方法进行缺失填充处理,得到两种机器学习方法的性能指标,与完整数据集条件下,其识别性能指标相近,且明显高于采用简单的缺失删减处理的数据集。例如:在召回率方面,相较完整数据集,C4.5性能下降2.13%,BN性能下降0.97%;相较删减数据集,C4.5性能提高约26.7%,BN性能提高约34.6%(见图5(b));相较BN,C4.5的性能下降较为明显,提升幅度也略低,这是由于C4.5决策树算法是通过一系列条件来对用户数据进行判断,对于特征明显的分类识别率较高,而在删减数据集上,水军、非水军的特征存在着不同程度的弱化,因此,该算法的水军分辨能力降幅明显。
综上所述,本发明一种多流形正则化非负矩阵分解的多视角数据缺失补全方法,不需要大规模标注样本进行训练,不仅避免了预先定义类别关系和相关特征,提高了现有多视角挖掘技术对于无标记多源数据的理解发现能力;还解决了传统缺失处理方法中,删除法所造成的估计偏差及统计功效损失,降低了单一插补法可能带来的样本分布扭曲问题;更为无监督环境下的多视角多属性缺失数据精确补全提供了一种新方法。实验结果表明,经本文MVCM-MNMF方法预处理过的数据集,能够使后续模式识别方法的效率和准确率得到了进一步提升,其填充有效且实用。另外,多视角数据缺失补全仅仅是数据挖掘中较为基础性的研究,该研究的成果有助于上层模式分类相关方法的实现,也能为社会生活的多领域提供新手段、新功能,而这正是今后要进行的研究思路。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (5)

1.多流形正则化非负矩阵分解的多视角数据缺失补全方法,其特征在于,包括以下步骤:
S1、利用多流形正则化非负矩阵分解方法发现多视角间的相似成分,获得多视角数据一致的聚类结果,具体为:
S101、正则化各视角Xs,并对Us,Vs,V*进行初始化,假设未标记多视角完整数据集
Figure FDA0004056540770000011
m是视角的个数,N是每个视角的样本个数,
Figure FDA0004056540770000012
表示视角s中的数据点i,ts为视角s的维度;
S102、对于每个视角Xs,通过固定Vs计算并更新Us;通过固定Us和V*计算并更新Vs;通过固定Vs计算并更新V*,Us为:
Figure FDA0004056540770000013
Vs为:
Figure FDA0004056540770000014
V*为:
Figure FDA0004056540770000015
其中,÷.表示矩阵点除;·表示矩阵点乘;E为全1的矩阵;Ds表示对角矩阵且
Figure FDA0004056540770000018
Figure FDA0004056540770000017
表示在视角s下两个数据点的相似度;Ws表示视角s下的相似度矩阵;
S103、依次迭代,直至多流形正则化非负矩阵分解算法的优化模型收敛;
S104、利用V*定义数据点i的簇标记;
S2、根据步骤S1的聚类结果,采用视角协同改进高斯混合方法构建多视角协同判别模型,在非缺失视角下簇相关度水平对存在缺失数据的样本进行计算,完成样本所属簇的预标定,步骤S2具体为:
S201、对于存在缺失的多视角数据点
Figure FDA0004056540770000021
计算s视角下第j个高斯模型的均值向量
Figure FDA0004056540770000022
2,…,k;
S202、计算s视角下第j个高斯模型的协方差矩阵
Figure FDA0004056540770000023
S203、计算s视角下第j个高斯模型的混合概率
Figure FDA0004056540770000024
S204、利用
Figure FDA0004056540770000025
计算数据点
Figure FDA0004056540770000026
在s视角下属于第j个簇的后验概率;
S205、输出存在缺失的多视角数据点
Figure FDA0004056540770000027
在s视角中所属的簇类为
Figure FDA0004056540770000028
在完整视角
Figure FDA0004056540770000029
中所属的簇类为
Figure FDA00040565407700000210
得到数据点
Figure FDA00040565407700000211
的簇标记
Figure FDA00040565407700000212
S3、步骤S2完成后,结合正交投影非负矩阵分解和l2范数,构建存在缺失数据的样本在特定视角中多元线性回归模型,实现在多属性缺失条件下的数据精确补全,通过在已填补数据集上,采用基于机器学习的决策分析方法进行舆情监控、图像识别以及信息协同决策,具体为:
S301、填充存在缺失维度最少的视角s;选取该视角中无缺失值的变量作为预测变量,建立在视角s下的回归模型;
S302、对回归系数β的目标函数进行求导,得到β*,确定数据点
Figure FDA00040565407700000213
内维度h的精确补全为
Figure FDA00040565407700000214
Figure FDA00040565407700000215
为数据点
Figure FDA00040565407700000216
的完整视角,
Figure FDA00040565407700000217
为数据点
Figure FDA00040565407700000218
的簇标记;
S303、利用步骤S302获得维度h数值,构建回归模型填充数据点
Figure FDA00040565407700000219
在视角s下的另外一个缺失维度,依次迭代,直到数据点
Figure FDA00040565407700000220
在视角s下全部缺失的维度均被填充;
S304、填充存在缺失维度次少的视角,采用与步骤S301类似的预测变量;
S305、重复步骤S301~S304,直到所有存在缺失维度的视角均被填充完毕为止。
2.根据权利要求1所述的多流形正则化非负矩阵分解的多视角数据缺失补全方法,其特征在于,步骤S103中,多流形正则化非负矩阵分解算法的优化模型为:
Figure FDA00040565407700000221
s.t.Us≥0,Vs≥0,V*≥0
其中,
Figure FDA0004056540770000031
一致的指示矩阵V*∈RN×k,表示所有视角指示矩阵Vs∈RN×k的平衡,k是簇的个数;
Figure FDA0004056540770000032
L*∈RN×N是由不同视角流形构建而成新流形的拉普拉斯矩阵。
3.根据权利要求1所述的多流形正则化非负矩阵分解的多视角数据缺失补全方法,其特征在于,步骤S104中,数据点i的簇标记如下:
zi={zi1,zi2,…,zik}
Figure FDA0004056540770000033
4.根据权利要求1所述的多流形正则化非负矩阵分解的多视角数据缺失补全方法,其特征在于,步骤S204中,后验概率如下:
Figure FDA0004056540770000034
Figure FDA0004056540770000035
其中,
Figure FDA0004056540770000036
为数据点
Figure FDA0004056540770000037
在视角s中属于第j个簇的后验概率,ts为视角s的维度,T为向量的转置。
5.根据权利要求1所述的多流形正则化非负矩阵分解的多视角数据缺失补全方法,其特征在于,步骤S302中,回归系数β的目标函数为:
Figure FDA0004056540770000038
β*=(G'G+γE)-1G'h
其中,β*为对Q(β)求导后β值,γ为常系数,β为回归系数,G=[(Xq)'Z1],1=[1,1,…,1]T∈RN×1为全1列向量,
Figure FDA0004056540770000039
为数据集Xq中所有原始维度,Z={z1,z2,…,zN}∈RN×k,G'为G的导数,h为数据集Xq的维度,E为单位矩阵。
CN202010137047.8A 2020-03-02 2020-03-02 多流形正则化非负矩阵分解的多视角数据缺失补全方法 Active CN111368254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010137047.8A CN111368254B (zh) 2020-03-02 2020-03-02 多流形正则化非负矩阵分解的多视角数据缺失补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010137047.8A CN111368254B (zh) 2020-03-02 2020-03-02 多流形正则化非负矩阵分解的多视角数据缺失补全方法

Publications (2)

Publication Number Publication Date
CN111368254A CN111368254A (zh) 2020-07-03
CN111368254B true CN111368254B (zh) 2023-04-07

Family

ID=71208355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010137047.8A Active CN111368254B (zh) 2020-03-02 2020-03-02 多流形正则化非负矩阵分解的多视角数据缺失补全方法

Country Status (1)

Country Link
CN (1) CN111368254B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111938592B (zh) * 2020-08-13 2024-03-12 天津工业大学 面向阿尔兹海默症诊断的有缺失多模态表示学习算法
CN112541485B (zh) * 2020-12-29 2024-03-29 宁波职业技术学院 基于多源正则化消费视频事件检测模糊回归模型构建方法
CN112861128B (zh) * 2021-01-21 2024-06-18 微梦创科网络科技(中国)有限公司 一种批量识别机器账号的方法及系统
CN112731161B (zh) * 2021-02-08 2021-10-26 中南大学 基于少量数据混插的非线性数据特征提取和分类预测方法
CN116415121B (zh) * 2021-12-24 2024-04-19 江南大学 一种基于不完整多视角聚类的金融缺失数据填补方法
CN114817668B (zh) * 2022-04-21 2022-10-25 中国人民解放军32802部队 用于电磁大数据的自动化标注与目标关联方法
CN116189760B (zh) * 2023-04-19 2023-07-07 中国人民解放军总医院 基于矩阵补全的抗病毒药物筛选方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945255A (zh) * 2012-10-18 2013-02-27 浙江大学 跨媒体多视角非完美标签学习方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN109242671A (zh) * 2018-08-29 2019-01-18 厦门市七星通联科技有限公司 一种基于多视角不完整数据的信贷违约预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945255A (zh) * 2012-10-18 2013-02-27 浙江大学 跨媒体多视角非完美标签学习方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN109242671A (zh) * 2018-08-29 2019-01-18 厦门市七星通联科技有限公司 一种基于多视角不完整数据的信贷违约预测方法及系统

Also Published As

Publication number Publication date
CN111368254A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368254B (zh) 多流形正则化非负矩阵分解的多视角数据缺失补全方法
US11200424B2 (en) Space-time memory network for locating target object in video content
Du et al. Spatial and spectral unmixing using the beta compositional model
Wang et al. Variable selection for censored quantile regresion
Seo et al. Root selection in normal mixture models
CN113435522A (zh) 图像分类方法、装置、设备及存储介质
Kuismin et al. Precision matrix estimation with ROPE
Losser et al. A spatiotemporal interpolation method using radial basis functions for geospatiotemporal big data
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN112800173B (zh) 标准化数据库和医学文本库的构建方法、装置及电子设备
Tsagris et al. A folded model for compositional data analysis
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN114445640A (zh) 基于描述子一致性约束的异源遥感图像块匹配方法及系统
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN112163106A (zh) 二阶相似感知的图像哈希码提取模型建立方法及其应用
Zhang et al. Covariance estimation for matrix-valued data
López-Cifuentes et al. Attention-based knowledge distillation in scene recognition: the impact of a dct-driven loss
Aerts et al. Cellwise robust regularized discriminant analysis
Krishnan et al. Mitigating sampling bias and improving robustness in active learning
Sigrist A comparison of machine learning methods for data with high-cardinality categorical variables
Bacallado et al. Looking-backward probabilities for Gibbs-type exchangeable random partitions
US11961277B2 (en) Image information detection method and apparatus and storage medium
CN115761360A (zh) 一种肿瘤基因突变分类方法、装置、电子设备及存储介质
CN111428741B (zh) 网络社区的发现方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant