CN113837394A - 多特征视图数据标签预测方法、系统与可读存储介质 - Google Patents

多特征视图数据标签预测方法、系统与可读存储介质 Download PDF

Info

Publication number
CN113837394A
CN113837394A CN202111031652.8A CN202111031652A CN113837394A CN 113837394 A CN113837394 A CN 113837394A CN 202111031652 A CN202111031652 A CN 202111031652A CN 113837394 A CN113837394 A CN 113837394A
Authority
CN
China
Prior art keywords
label
sample
predicted
training
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111031652.8A
Other languages
English (en)
Inventor
李泽瑞
袁晨辉
康宇
吕文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202111031652.8A priority Critical patent/CN113837394A/zh
Publication of CN113837394A publication Critical patent/CN113837394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多特征视图数据标签预测方法、系统与可读存储介质,属于数据处理技术领域,包括:获取多特征视图数据的样本集合,该样本集合包括m个有标签样本集合和一个待预测标签样本集合;对有标签样本集合和一个待预测标签样本集合进行处理,得到m个训练集;利用m个训练集和待预测标签样本集合对神经网络进行训练,得到经网络变换后的m个新训练集和m个新待预测标签样本集合;基于新训练集和新待预测标签样本集合,计算标签矩阵,实现待预测标签样本集合的标签预测。本发明可提高数据标签的准确性。

Description

多特征视图数据标签预测方法、系统与可读存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种多特征视图数据标签预测方法、系统与可读存储介质。
背景技术
如何利用海量的数据是当前机器学习面临的一个重要任务,例如,基于机器学习进行数据标签预测的方法,需要大量有标记的样本进行训练。但在实际应用中,由于能够使用的样本数据大部分是没有标签的,有标签的样本点较少,如果只利用这些较少的有标签的样本,会导致大量未知标签的样本中包含的信息被丢失掉,如果使用其他数据集进行训练,会因为数据分布差异造成预测不准。因此,在对样本数据进行标签预测时,传统的数据标签预测不能多维度考虑数据特征,且无法利用分布差异较大的有标签数据集,因此导致准确度不高。
发明内容
本发明的目的在于克服上述背景技术中的不足,提高数据标签预测准确度。
为实现以上目的,一方面,采用一种多特征视图数据标签预测方法,包括:
获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm
利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
进一步地,所述对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
min πkCk
Figure BDA0003245483990000021
Figure BDA0003245483990000022
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素
Figure BDA0003245483990000023
为Sk的第i个样本
Figure BDA0003245483990000024
和Sm+1的第j个样本
Figure BDA0003245483990000025
的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素
Figure BDA0003245483990000026
表明Sk的第i个样本
Figure BDA0003245483990000027
被分配到Sm+1的第j个样本
Figure BDA0003245483990000028
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm
进一步地,所述利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
进一步地,第k组所述训练集
Figure BDA0003245483990000031
Figure BDA0003245483990000032
Figure BDA0003245483990000033
的神经网络损失为:
Figure BDA0003245483990000034
其中,
Figure BDA0003245483990000035
为样本标签分类的交叉熵损失,
Figure BDA0003245483990000036
为对i的数学期望,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,
Figure BDA0003245483990000037
为Tk的第i个样本,
Figure BDA0003245483990000038
为样本
Figure BDA0003245483990000039
的标签,
Figure BDA00032454839900000310
为第k组训练集Tk的特征变换网络,
Figure BDA00032454839900000311
为Tk在特征变换之后的分类网络,其输入为变换之后的特征,输出为标签向量,
Figure BDA00032454839900000312
Figure BDA00032454839900000313
为对j的数学期望,
Figure BDA00032454839900000315
为Sm+1对应的特征变换网络,
Figure BDA00032454839900000316
为Sm+1的第j个样本,j=1,2,...,|Sm+1|,
Figure BDA00032454839900000317
为示性函数;
Figure BDA00032454839900000318
为Tk的分类对抗损失,
Figure BDA00032454839900000319
Figure BDA00032454839900000320
Figure BDA00032454839900000321
的分类网络,
Figure BDA00032454839900000322
为各特征视图对应的
Figure BDA00032454839900000323
损失,
Figure BDA00032454839900000324
为Tk经过
Figure BDA00032454839900000325
变换后特征的数学期望与
Figure BDA00032454839900000326
变换后待预测标签样本集合特征的数学期望的欧式距离,
Figure BDA00032454839900000327
为根据经验设置的超参数;
根据所述损失函数进行神经网络训练后,得到特征变换网络
Figure BDA00032454839900000328
Figure BDA0003245483990000041
Tk经过特征变换网络
Figure BDA0003245483990000042
以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络
Figure BDA0003245483990000043
得到m个新待预测标签样本集合Vk,k=1,2,...,m,|Vk|为对应集合的样本总数。
进一步地,所述基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括:
利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵;
基于所述m个新训练集和所述m个新待预测标签样本集合,计算权重系数;
基于输出矩阵和权重系数,计算标签矩阵,实现所述待预测标签样本集合的标签预测。
进一步地,所述利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵的过程为:
将第k个新训练集和第k个新待预测标签样本集合输入分类器
Figure BDA0003245483990000044
得到Vk对应的输出矩阵ok
Figure BDA0003245483990000045
k=1,...,m,
Figure BDA0003245483990000046
|Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,
Figure BDA0003245483990000047
为Vk第一个样本对应的高维特征,
Figure BDA0003245483990000048
为Vk最后一个样本对应的高维特征,βk为输出权重矩阵。
进一步地,所述权重系数的计算公式为:
Figure BDA0003245483990000049
其中,
Figure BDA0003245483990000051
为集合
Figure BDA0003245483990000052
里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,
Figure BDA0003245483990000053
为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,...,l,wk为Uk的权重系数,l为近邻集合的个数,
Figure BDA0003245483990000054
为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。
进一步地,所述标签矩阵的计算公式为:
Figure BDA0003245483990000055
Figure BDA0003245483990000056
其中,
Figure BDA0003245483990000057
Figure BDA0003245483990000058
中最大值所在的索引,
Figure BDA0003245483990000059
为标签矩阵的第j行,j=1,2,...,|Sm+1|,Yt为m个输出矩阵的加权和输出矩阵,
Figure BDA00032454839900000510
为Sm+1中第j个待预测样本的预测标签值。
另一方面,采用一种多特征视图数据标签预测系统,包括数据获取模块、样本筛选模块、训练模块和标签预测模块,其中:
数据获取模块用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
样本筛选模块用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm
训练模块用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
标签预测模块用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
再一方面,采用一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述多特征视图数据标签预测方法的步骤。
与现有技术相比,本发明存在以下技术效果:本发明通过多视图分组特征变换,减少个别特征差异过大对结果的影响;能够缩小源域和目标域样本集合的分布差异,在样本集合分布差异较大时也适用;能够利用多个分布差异较大的源域样本集合,融合多样本集合包含的信息,对未标记的样本集合的标签进行准确预测。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种多特征视图数据标签预测方法的流程图;
图2是一种多特征视图数据标签预测系统的结构图。
图3是一种多特征视图数据特征变换网络结构示意图
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种多特征视图数据标签预测方法,包括如下步骤S1至S4:
S1、获取多特征视图数据的样本集合,该样本集合包括m个有标签样本集合和一个无标签样本集合,m个有标签样本集合记为S1,S2,...,Sm,无标签样本集合记为Sm+1
需要说明的是,本实施例获取多口井的测井数据,多口井每个深度上的所有测井值组成一个特征向量,即样本。所述测井值包括但不限于自然伽马、自然电位、井径、声波时差、密度、补偿中子、深侧向电阻率及浅侧向电阻率。
样本集合中一个样本表达为
Figure BDA0003245483990000071
其中
Figure BDA0003245483990000072
表示实数域,d为样本维度;测井数据构成的样本集合为
Figure BDA0003245483990000073
n为样本总数。本实施例共获取m+1组样本集合记为
Figure BDA0003245483990000074
其中m组样本有岩性标签,标签y∈{1,2,...,c},则这m组样本对应的标签为
Figure BDA0003245483990000075
c为类别总数,则m组有标签的样本集合为
Figure BDA0003245483990000076
记为S1,S2,...,Sm,无标签的样本集合为
Figure BDA0003245483990000077
记为Sm+1,|S1|,...,|Sm+1|表示对应集合样本总数。这里x,y的上标1,…,m+1表明其所属样本集合组号。
S2、对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm
S3、利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
S4、基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
作为进一步优选的技术方案,上述步骤S2:对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
将每一组样本集合归一化到区间[-1,1],对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
min πkCk
Figure BDA0003245483990000081
Figure BDA0003245483990000082
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素
Figure BDA0003245483990000083
为Sk的第i个样本
Figure BDA0003245483990000084
和Sm+1的第j个样本
Figure BDA0003245483990000085
的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素
Figure BDA0003245483990000086
表明Sk的第i个样本
Figure BDA0003245483990000087
被分配到Sm+1的第j个样本
Figure BDA0003245483990000088
则不做分配;
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm
具体为:将第k组样本集合Sk
Figure BDA00032454839900000810
的有标签样本提取出来构成第k组训练集
Figure BDA00032454839900000811
即可得到m个训练集
Figure BDA00032454839900000812
记为T1,T2,...,Tm,|T1|,...,|Tm|表示对应集合样本总数,与一个待预测标签样本集合
Figure BDA00032454839900000813
这里的x,y的上标s用于指明该变量属于训练集。
作为进一步优选的技术方案,上述步骤S3:利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按声测井、电测井以及核测井将所述新训练集和新待预测标签样本集合中的特征分别分成三组特征,每一次将一个训练集和待预测标签样本集合分别放如图3所示的神经网络中,得到多组用于训练所述神经网络的训练子集和测试子集,即:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
具体地,第k组所述训练集
Figure BDA0003245483990000091
与待预测标签样本集合
Figure BDA0003245483990000092
的神经网络损失为:
Figure BDA0003245483990000093
其中,
Figure BDA0003245483990000094
为样本岩性分类的交叉熵损失,
Figure BDA0003245483990000095
为对第i个样本的数学期望,
Figure BDA0003245483990000096
为第k组训练集Tk的特征变换网络,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,
Figure BDA0003245483990000097
为Tk的第i个样本,
Figure BDA0003245483990000098
为样本
Figure BDA0003245483990000099
的标签,
Figure BDA00032454839900000910
为示性函数;
Figure BDA00032454839900000911
为Tk在特征变换之后的的岩性分类网络,输入为变换之后的特征,输出为岩性标签向量,其中,
Figure BDA00032454839900000912
为对j的数学期望,
Figure BDA00032454839900000914
为Sm+1对应的特征变换网络,
Figure BDA00032454839900000915
为Sm+1的第j个样本,j=1,2,...,|Sm+1|,
Figure BDA00032454839900000916
为Tk的分类对抗损失,
Figure BDA00032454839900000917
为声测井、电测井、核测井三组特征对应的
Figure BDA00032454839900000918
损失,
Figure BDA00032454839900000919
为Tk经过
Figure BDA00032454839900000920
变换后特征的数学期望与
Figure BDA00032454839900000921
变换后待预测标签样本集合特征的数学期望的欧式距离,
Figure BDA00032454839900000922
为根据经验设置的超参数;
在对神经网络参数初始化后,神经网络网络分为两个部分交替进行训练优化:(1)在将Tk,Sm+1中的所有样本分别放入
Figure BDA0003245483990000101
得到Fs(xk,s),Ft(xm+1),计算
Figure BDA0003245483990000102
再将Fs(xk,s)输入到
Figure BDA0003245483990000103
得到预测结果与训练集标签
Figure BDA0003245483990000104
计算
Figure BDA0003245483990000105
以损失之和
Figure BDA0003245483990000106
Figure BDA0003245483990000107
优化
Figure BDA0003245483990000108
以及Fs;(2)在将Tk,Sm+1中的所有样本分别放入
Figure BDA0003245483990000109
得到Fs(xk,s),Ft(xm+1),将其输入到
Figure BDA00032454839900001010
计算
Figure BDA00032454839900001011
Ft(xm+1)与xm+1计算
Figure BDA00032454839900001012
以损失之和
Figure BDA00032454839900001013
的形式优化
Figure BDA00032454839900001014
与Ft;两种方式交替直至网络收敛;
根据上述损失函数进行神经网络训练后,得到特征变换网络
Figure BDA00032454839900001015
Figure BDA00032454839900001016
Tk经过特征变换网络
Figure BDA00032454839900001017
以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络
Figure BDA00032454839900001018
得到m个新待预测标签样本集合Vk,k=1,2,...,m,|Vk|为对应集合的样本总数。
具体地,训练m组网络以后,得到m个经由特征变换网络特征变换后的新训练集
Figure BDA00032454839900001019
记为U1,U2,...,Um,|Uk|为集合Uk的样本总数,k=1,...,m,第k组新训练集
Figure BDA00032454839900001020
的矩阵表示为
Figure BDA00032454839900001021
可得m组训练集以矩阵表示为
Figure BDA00032454839900001022
与m个由原来一个待预测标签样本集合特征变换后的新待预测标签样本集合
Figure BDA00032454839900001023
记为V1,V2,...,Vm,|Vk|为集合Vk的样本总数,k=1,...,m,以矩阵表示为
Figure BDA0003245483990000111
作为进一步优选的技术方案,上述步骤S4:基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括如下细分步骤S41至S43:
S41、利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵,具体为:
S411、设置Zk=[Zk,s;Zk,t],Zk为矩阵Zk,s与Zk,t的纵向拼接,k=1,...,m,根据经验设置超参数qk,tuak
S412、随机生成权重矩阵
Figure BDA0003245483990000112
随机生成偏置向量
Figure BDA0003245483990000113
然后构造高维特征矩阵
Figure BDA0003245483990000114
Hk的第k列为φ(ZkWk+Bk),φ为激活函数,Nh为设置的高维特征矩阵维度;
S413、计算Yk对应的one-hot编码标签矩阵
Figure BDA0003245483990000115
Figure BDA0003245483990000116
为第k组训练集的标签集合,
Figure BDA0003245483990000117
为第i个标签:
Figure BDA0003245483990000118
S414、计算类别损失权重矩阵
Figure BDA0003245483990000119
Figure BDA00032454839900001110
Figure BDA00032454839900001111
为Uk中属于第j类岩性的样本个数,j∈{1,2,...,c},
Figure BDA00032454839900001113
为维度为|Vk|×1的0向量,diag为对角矩阵;
S415、计算输出权重矩阵:
if
Figure BDA00032454839900001115
Figure BDA0003245483990000121
Else:
Figure BDA0003245483990000122
Figure BDA0003245483990000123
为Nh×Nh维的单位矩阵,
Figure BDA0003245483990000124
为(|Uk|+|Vk|)×(|Uk|+|Vk|)维的单位矩阵;
S416、将第k个新训练集和第k个新待预测标签样本集合输入分类器
Figure BDA0003245483990000125
得到Vk对应的输出矩阵ok
Figure BDA0003245483990000126
k=1,...,m,从而得到到m个输出矩阵o1,o2,…,om
Figure BDA0003245483990000127
|Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,
Figure BDA0003245483990000128
为Vk第一个样本对应的高维特征,
Figure BDA0003245483990000129
为Vk最后一个样本对应的高维特征,βk为输出权重矩阵。
S42、基于所述新训练集和所述新待预测标签样本集合,计算权重系数,具体为:
S421、计算新训练集与新待预测标签样本集合的分布差异项
Figure BDA00032454839900001210
k=1,2,…,m;
S422、以欧式距离为评价标准,计算新待预测标签样本集合样本在新训练集上的l个近邻,即以欧式距离最小的样本为第1个近邻,次小的为第2个近邻,以此类推,得到新待预测标签样本集合上的每一个样本的第1近邻、第2近邻、…、第1近邻的集合
Figure BDA00032454839900001211
Figure BDA00032454839900001213
每一个样本在Uk上的第i近邻的集合;
S423、计算权重系数
Figure BDA00032454839900001214
Figure BDA0003245483990000131
其中,
Figure BDA0003245483990000132
为集合
Figure BDA0003245483990000133
里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,
Figure BDA0003245483990000134
为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,...,l,wk为Uk的权重系数,l为近邻集合的个数,
Figure BDA0003245483990000135
为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。
S43、基于输出矩阵和权重系数,计算标签矩阵,实现数据标签预测,标签矩阵的计算公式为:
Figure BDA0003245483990000136
Figure BDA0003245483990000137
其中,
Figure BDA0003245483990000138
Figure BDA0003245483990000139
中最大值所在的索引,
Figure BDA00032454839900001310
为标签矩阵的第j行,j=1,2,...,|Sm+1|,Yt为m个输出矩阵的加权和输出矩阵,
Figure BDA00032454839900001311
为预测的岩性标签。
如图2所示,本实施例公开了一种多特征视图数据标签预测系统,包括:数据获取模块10、样本筛选模块20、训练模块30和标签预测模块40,其中:
数据获取模块10用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
样本筛选模块20用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm
训练模块30用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
标签预测模块40用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
本发明实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上实施例所述多特征视图数据标签预测方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多特征视图数据标签预测方法,其特征在于,包括:
获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm
利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
2.如权利要求1所述的多特征视图数据标签预测方法,其特征在于,所述对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
minπkCk
Figure FDA0003245483980000011
Figure FDA0003245483980000012
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素
Figure FDA0003245483980000013
为Sk的第i个样本
Figure FDA0003245483980000014
和Sm+1的第j个样本
Figure FDA0003245483980000015
的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素
Figure FDA0003245483980000021
表明Sk的第i个样本
Figure FDA0003245483980000022
被分配到Sm+1的第j个样本
Figure FDA0003245483980000023
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm
3.如权利要求1所述的多特征视图数据标签预测方法,其特征在于,所述利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
4.如权利要求3所述的多特征视图数据标签预测方法,其特征在于,第k组所述训练集
Figure FDA0003245483980000024
Figure FDA0003245483980000025
的神经网络损失为:
Figure FDA0003245483980000026
其中,
Figure FDA0003245483980000027
为样本标签分类的交叉熵损失,
Figure FDA0003245483980000028
为对i的数学期望,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,
Figure FDA0003245483980000031
为Tk的第i个样本,
Figure FDA0003245483980000032
为样本
Figure FDA0003245483980000033
的标签,
Figure FDA0003245483980000034
为第k组训练集Tk的特征变换网络,
Figure FDA0003245483980000035
为Tk在特征变换之后的分类网络,其输入为变换之后的特征,输出为标签向量,
Figure FDA0003245483980000036
Figure FDA0003245483980000037
Figure FDA0003245483980000038
为对j的数学期望,
Figure FDA0003245483980000039
为Sm+1对应的特征变换网络,
Figure FDA00032454839800000310
为Sm+1的第j个样本,j=1,2,...,|Sm+1|,
Figure FDA00032454839800000311
为示性函数;
Figure FDA00032454839800000312
为Tk的分类对抗损失,
Figure FDA00032454839800000313
Figure FDA00032454839800000314
Figure FDA00032454839800000315
的分类网络,
Figure FDA00032454839800000316
为各特征视图对应的
Figure FDA00032454839800000317
损失,
Figure FDA00032454839800000318
为Tk经过
Figure FDA00032454839800000319
变换后特征的数学期望与
Figure FDA00032454839800000326
变换后待预测标签样本集合特征的数学期望的欧式距离,
Figure FDA00032454839800000321
为根据经验设置的超参数;
根据损失函数进行神经网络训练后,得到特征变换网络
Figure FDA00032454839800000322
Figure FDA00032454839800000323
Tk经过特征变换网络
Figure FDA00032454839800000324
以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络
Figure FDA00032454839800000325
得到m个新待预测标签样本集合Vk,k=1,2,...,m,|Vk|为对应集合的样本总数。
5.如权利要求4所述的多特征视图数据标签预测方法,其特征在于,所述基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括:
利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵;
基于所述m个新训练集和所述m个新待预测标签样本集合,计算权重系数;
基于输出矩阵和权重系数,计算标签矩阵,实现所述待预测标签样本集合的标签预测。
6.如权利要求5所述的多特征视图数据标签预测方法,其特征在于,所述利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵的过程为:
将第k个新训练集和第k个新待预测标签样本集合输入分类器
Figure FDA0003245483980000041
得到Vk对应的输出矩阵ok
Figure FDA0003245483980000042
Figure FDA0003245483980000043
|Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,
Figure FDA0003245483980000044
为Vk第一个样本对应的高维特征,
Figure FDA0003245483980000045
为Vk最后一个样本对应的高维特征,βk为输出权重矩阵。
7.如权利要求5所述的多特征视图数据标签预测方法,其特征在于,所述权重系数的计算公式为:
Figure FDA0003245483980000046
其中,
Figure FDA0003245483980000047
为集合
Figure FDA0003245483980000048
里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,
Figure FDA0003245483980000049
为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,...,l,wk为Uk的权重系数,l为近邻集合的个数,
Figure FDA00032454839800000410
为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。
8.如权利要求5所述的多特征视图数据标签预测方法,其特征在于,所述标签矩阵的计算公式为:
Figure FDA00032454839800000411
Figure FDA0003245483980000051
其中,
Figure FDA0003245483980000052
Figure FDA0003245483980000053
中最大值所在的索引,
Figure FDA0003245483980000054
为标签矩阵的第j行,j=1,2,...,|Sm+1|,Yt为m个输出矩阵的加权和输出矩阵,
Figure FDA0003245483980000055
为Sm+1中第j个待预测样本的预测标签值。
9.一种多特征视图数据标签预测系统,其特征在于,包括:数据获取模块、样本筛选模块、训练模块和标签预测模块,其中:
数据获取模块用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1
样本筛选模块用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm
训练模块用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm
标签预测模块用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述多特征视图数据标签预测方法的步骤。
CN202111031652.8A 2021-09-03 2021-09-03 多特征视图数据标签预测方法、系统与可读存储介质 Pending CN113837394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111031652.8A CN113837394A (zh) 2021-09-03 2021-09-03 多特征视图数据标签预测方法、系统与可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111031652.8A CN113837394A (zh) 2021-09-03 2021-09-03 多特征视图数据标签预测方法、系统与可读存储介质

Publications (1)

Publication Number Publication Date
CN113837394A true CN113837394A (zh) 2021-12-24

Family

ID=78962116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111031652.8A Pending CN113837394A (zh) 2021-09-03 2021-09-03 多特征视图数据标签预测方法、系统与可读存储介质

Country Status (1)

Country Link
CN (1) CN113837394A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN110688536A (zh) * 2019-09-25 2020-01-14 中国建设银行股份有限公司 一种标签预测方法、装置、设备和存储介质
US20200151578A1 (en) * 2017-11-20 2020-05-14 Alibaba Group Holding Limited Data sample label processing method and apparatus
US20200234116A1 (en) * 2017-02-17 2020-07-23 Curious Ai Oy Solution for training a neural network system
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN112633419A (zh) * 2021-03-09 2021-04-09 浙江宇视科技有限公司 小样本学习方法、装置、电子设备和存储介质
CN112836802A (zh) * 2021-02-03 2021-05-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种半监督学习方法、岩性预测方法及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200234116A1 (en) * 2017-02-17 2020-07-23 Curious Ai Oy Solution for training a neural network system
US20200151578A1 (en) * 2017-11-20 2020-05-14 Alibaba Group Holding Limited Data sample label processing method and apparatus
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN109447110A (zh) * 2018-09-17 2019-03-08 华中科技大学 综合邻居标签相关性特征和样本特征的多标签分类的方法
CN110688536A (zh) * 2019-09-25 2020-01-14 中国建设银行股份有限公司 一种标签预测方法、装置、设备和存储介质
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN112836802A (zh) * 2021-02-03 2021-05-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种半监督学习方法、岩性预测方法及存储介质
CN112633419A (zh) * 2021-03-09 2021-04-09 浙江宇视科技有限公司 小样本学习方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程康明;熊伟丽;: "一种自训练框架下的三优选半监督回归算法", 智能系统学报, no. 03 *

Similar Documents

Publication Publication Date Title
AU2019210306A1 (en) Systems and methods for preparing data for use by machine learning algorithms
US11829844B2 (en) Refining qubit calibration models using supervised learning
CN110659207B (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
Rahaman et al. An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm
CN110287983A (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN109766469A (zh) 一种基于深度哈希学习优化的图像检索方法
CN114332545B (zh) 一种基于低比特脉冲神经网络的图像数据分类方法和装置
CN113780346B (zh) 一种先验约束分类器调整方法、系统及可读存储介质
CN110324178B (zh) 一种基于多经验核学习的网络入侵检测方法
Bogatskiy et al. Explainable equivariant neural networks for particle physics: PELICAN
Cho et al. Genetic evolution processing of data structures for image classification
CN110197213A (zh) 基于神经网络的图像匹配方法、装置和设备
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
CN113837394A (zh) 多特征视图数据标签预测方法、系统与可读存储介质
CN111859947B (zh) 一种文本处理装置、方法、电子设备及存储介质
Topolski et al. Modification of the Principal Component Analysis Method Based on Feature Rotation by Class Centroids.
Zhang et al. Periodic time series data classification by deep neural network
Dong et al. Non-uniqueness phenomenon of object representation in modeling IT cortex by deep convolutional neural network (DCNN)
Halder et al. An unsupervised dynamic image segmentation using fuzzy Hopfield neural network based genetic algorithm
Chapman et al. Stratified-NMF for Heterogeneous Data
CN113537458B (zh) 一种有理式函数神经网络构建方法、系统及可读存储介质
Haluszczynski Prediction and control of nonlinear dynamical systems using machine learning
Jimenez Villalonga Uncovering Correlations Between Two UMAP Hyperparameters and the Input Dataset
Balamurugan et al. Analyse the Performance of Ensemble Classifiers using Sampling Techniques
Zervakis Multivariate analysis of the parameters in a handwritten digit recognition LSTM system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination