CN113837394A - 多特征视图数据标签预测方法、系统与可读存储介质 - Google Patents
多特征视图数据标签预测方法、系统与可读存储介质 Download PDFInfo
- Publication number
- CN113837394A CN113837394A CN202111031652.8A CN202111031652A CN113837394A CN 113837394 A CN113837394 A CN 113837394A CN 202111031652 A CN202111031652 A CN 202111031652A CN 113837394 A CN113837394 A CN 113837394A
- Authority
- CN
- China
- Prior art keywords
- label
- sample
- predicted
- training
- sets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 122
- 239000011159 matrix material Substances 0.000 claims abstract description 55
- 230000009466 transformation Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 229910002092 carbon dioxide Inorganic materials 0.000 claims description 3
- 239000001569 carbon dioxide Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000004615 ingredient Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多特征视图数据标签预测方法、系统与可读存储介质,属于数据处理技术领域,包括:获取多特征视图数据的样本集合,该样本集合包括m个有标签样本集合和一个待预测标签样本集合;对有标签样本集合和一个待预测标签样本集合进行处理,得到m个训练集;利用m个训练集和待预测标签样本集合对神经网络进行训练,得到经网络变换后的m个新训练集和m个新待预测标签样本集合;基于新训练集和新待预测标签样本集合,计算标签矩阵,实现待预测标签样本集合的标签预测。本发明可提高数据标签的准确性。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种多特征视图数据标签预测方法、系统与可读存储介质。
背景技术
如何利用海量的数据是当前机器学习面临的一个重要任务,例如,基于机器学习进行数据标签预测的方法,需要大量有标记的样本进行训练。但在实际应用中,由于能够使用的样本数据大部分是没有标签的,有标签的样本点较少,如果只利用这些较少的有标签的样本,会导致大量未知标签的样本中包含的信息被丢失掉,如果使用其他数据集进行训练,会因为数据分布差异造成预测不准。因此,在对样本数据进行标签预测时,传统的数据标签预测不能多维度考虑数据特征,且无法利用分布差异较大的有标签数据集,因此导致准确度不高。
发明内容
本发明的目的在于克服上述背景技术中的不足,提高数据标签预测准确度。
为实现以上目的,一方面,采用一种多特征视图数据标签预测方法,包括:
获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1;
对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm;
利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm;
基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
进一步地,所述对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
min πkCk
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素为Sk的第i个样本和Sm+1的第j个样本的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素表明Sk的第i个样本被分配到Sm+1的第j个样本
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm。
进一步地,所述利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm。
其中,为样本标签分类的交叉熵损失,为对i的数学期望,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,为Tk的第i个样本,为样本的标签,为第k组训练集Tk的特征变换网络,为Tk在特征变换之后的分类网络,其输入为变换之后的特征,输出为标签向量, 为对j的数学期望,为Sm+1对应的特征变换网络,为Sm+1的第j个样本,j=1,2,...,|Sm+1|,为示性函数;为Tk的分类对抗损失,为与的分类网络,为各特征视图对应的损失,为Tk经过变换后特征的数学期望与变换后待预测标签样本集合特征的数学期望的欧式距离,为根据经验设置的超参数;
根据所述损失函数进行神经网络训练后,得到特征变换网络和Tk经过特征变换网络以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络得到m个新待预测标签样本集合Vk,k=1,2,...,m,|Vk|为对应集合的样本总数。
进一步地,所述基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括:
利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵;
基于所述m个新训练集和所述m个新待预测标签样本集合,计算权重系数;
基于输出矩阵和权重系数,计算标签矩阵,实现所述待预测标签样本集合的标签预测。
进一步地,所述利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵的过程为:
将第k个新训练集和第k个新待预测标签样本集合输入分类器得到Vk对应的输出矩阵ok,k=1,...,m,|Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,为Vk第一个样本对应的高维特征,为Vk最后一个样本对应的高维特征,βk为输出权重矩阵。
进一步地,所述权重系数的计算公式为:
其中,为集合里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,...,l,wk为Uk的权重系数,l为近邻集合的个数,为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。
进一步地,所述标签矩阵的计算公式为:
另一方面,采用一种多特征视图数据标签预测系统,包括数据获取模块、样本筛选模块、训练模块和标签预测模块,其中:
数据获取模块用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1;
样本筛选模块用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm;
训练模块用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm;
标签预测模块用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
再一方面,采用一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述多特征视图数据标签预测方法的步骤。
与现有技术相比,本发明存在以下技术效果:本发明通过多视图分组特征变换,减少个别特征差异过大对结果的影响;能够缩小源域和目标域样本集合的分布差异,在样本集合分布差异较大时也适用;能够利用多个分布差异较大的源域样本集合,融合多样本集合包含的信息,对未标记的样本集合的标签进行准确预测。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种多特征视图数据标签预测方法的流程图;
图2是一种多特征视图数据标签预测系统的结构图。
图3是一种多特征视图数据特征变换网络结构示意图
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种多特征视图数据标签预测方法,包括如下步骤S1至S4:
S1、获取多特征视图数据的样本集合,该样本集合包括m个有标签样本集合和一个无标签样本集合,m个有标签样本集合记为S1,S2,...,Sm,无标签样本集合记为Sm+1;
需要说明的是,本实施例获取多口井的测井数据,多口井每个深度上的所有测井值组成一个特征向量,即样本。所述测井值包括但不限于自然伽马、自然电位、井径、声波时差、密度、补偿中子、深侧向电阻率及浅侧向电阻率。
样本集合中一个样本表达为其中表示实数域,d为样本维度;测井数据构成的样本集合为n为样本总数。本实施例共获取m+1组样本集合记为其中m组样本有岩性标签,标签y∈{1,2,...,c},则这m组样本对应的标签为c为类别总数,则m组有标签的样本集合为记为S1,S2,...,Sm,无标签的样本集合为记为Sm+1,|S1|,...,|Sm+1|表示对应集合样本总数。这里x,y的上标1,…,m+1表明其所属样本集合组号。
S2、对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm;
S3、利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm;
S4、基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
作为进一步优选的技术方案,上述步骤S2:对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
将每一组样本集合归一化到区间[-1,1],对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
min πkCk
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素为Sk的第i个样本和Sm+1的第j个样本的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素表明Sk的第i个样本被分配到Sm+1的第j个样本则不做分配;
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm。
具体为:将第k组样本集合Sk中的有标签样本提取出来构成第k组训练集即可得到m个训练集记为T1,T2,...,Tm,|T1|,...,|Tm|表示对应集合样本总数,与一个待预测标签样本集合这里的x,y的上标s用于指明该变量属于训练集。
作为进一步优选的技术方案,上述步骤S3:利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按声测井、电测井以及核测井将所述新训练集和新待预测标签样本集合中的特征分别分成三组特征,每一次将一个训练集和待预测标签样本集合分别放如图3所示的神经网络中,得到多组用于训练所述神经网络的训练子集和测试子集,即:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm。
其中,为样本岩性分类的交叉熵损失,为对第i个样本的数学期望,为第k组训练集Tk的特征变换网络,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,为Tk的第i个样本,为样本的标签,为示性函数;为Tk在特征变换之后的的岩性分类网络,输入为变换之后的特征,输出为岩性标签向量,其中,为对j的数学期望,为Sm+1对应的特征变换网络,为Sm+1的第j个样本,j=1,2,...,|Sm+1|,为Tk的分类对抗损失,为声测井、电测井、核测井三组特征对应的损失,为Tk经过变换后特征的数学期望与变换后待预测标签样本集合特征的数学期望的欧式距离,为根据经验设置的超参数;
在对神经网络参数初始化后,神经网络网络分为两个部分交替进行训练优化:(1)在将Tk,Sm+1中的所有样本分别放入得到Fs(xk,s),Ft(xm+1),计算再将Fs(xk,s)输入到得到预测结果与训练集标签计算以损失之和 优化以及Fs;(2)在将Tk,Sm+1中的所有样本分别放入得到Fs(xk,s),Ft(xm+1),将其输入到计算Ft(xm+1)与xm+1计算以损失之和的形式优化与Ft;两种方式交替直至网络收敛;
根据上述损失函数进行神经网络训练后,得到特征变换网络和Tk经过特征变换网络以后得到了新训练集Uk,|Uk|为对应集合的样本总数,Sm+1分别经过特征变换网络得到m个新待预测标签样本集合Vk,k=1,2,...,m,|Vk|为对应集合的样本总数。
具体地,训练m组网络以后,得到m个经由特征变换网络特征变换后的新训练集记为U1,U2,...,Um,|Uk|为集合Uk的样本总数,k=1,...,m,第k组新训练集的矩阵表示为可得m组训练集以矩阵表示为与m个由原来一个待预测标签样本集合特征变换后的新待预测标签样本集合记为V1,V2,...,Vm,|Vk|为集合Vk的样本总数,k=1,...,m,以矩阵表示为
作为进一步优选的技术方案,上述步骤S4:基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括如下细分步骤S41至S43:
S41、利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵,具体为:
S411、设置Zk=[Zk,s;Zk,t],Zk为矩阵Zk,s与Zk,t的纵向拼接,k=1,...,m,根据经验设置超参数qk,tuak;
S415、计算输出权重矩阵:
Else:
S416、将第k个新训练集和第k个新待预测标签样本集合输入分类器得到Vk对应的输出矩阵ok,k=1,...,m,从而得到到m个输出矩阵o1,o2,…,om,|Vk|为样本集合Vk的样本总数,|Uk|为样本集合Uk的样本总数,为Vk第一个样本对应的高维特征,为Vk最后一个样本对应的高维特征,βk为输出权重矩阵。
S42、基于所述新训练集和所述新待预测标签样本集合,计算权重系数,具体为:
S422、以欧式距离为评价标准,计算新待预测标签样本集合样本在新训练集上的l个近邻,即以欧式距离最小的样本为第1个近邻,次小的为第2个近邻,以此类推,得到新待预测标签样本集合上的每一个样本的第1近邻、第2近邻、…、第1近邻的集合为每一个样本在Uk上的第i近邻的集合;
其中,为集合里的元素个数,k=1,2,…,m,mk为Uk与Vk的分布差异项,为Vk中所有样本在Uk上的第q近邻的集合,q=1,2,...,l,wk为Uk的权重系数,l为近邻集合的个数,为归一化后的wk,wk为Uk的权重系数,mk为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。
S43、基于输出矩阵和权重系数,计算标签矩阵,实现数据标签预测,标签矩阵的计算公式为:
如图2所示,本实施例公开了一种多特征视图数据标签预测系统,包括:数据获取模块10、样本筛选模块20、训练模块30和标签预测模块40,其中:
数据获取模块10用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1;
样本筛选模块20用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm;
训练模块30用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm;
标签预测模块40用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
本发明实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上实施例所述多特征视图数据标签预测方法的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多特征视图数据标签预测方法,其特征在于,包括:
获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1;
对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm;
利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm;
基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
2.如权利要求1所述的多特征视图数据标签预测方法,其特征在于,所述对m个有标签样本集合S1,S2,...,Sm进行处理,得到m个训练集T1,T2,...,Tm,包括:
对所述有标签样本集合S1,S2,...,Sm和所述待预测标签样本集合Sm+1进行目标规划,目标函数为:
minπkCk
其中,πk为第k组有标签样本集合Sk与待预测标签样本集合Sm+1之间的代价矩阵,代价矩阵πk的第i行第j列元素为Sk的第i个样本和Sm+1的第j个样本的欧式距离,k=1,...,m,i=1,2,...,|Sk|,j=1,2,...,|Sm+1|,|Sk|和|Sm+1|分别表示Sk和Sm+1中的样本总数,Ck为Sk的分配矩阵,矩阵Ck的第i行第j列元素表明Sk的第i个样本被分配到Sm+1的第j个样本
将分配矩阵Ck中等于1的元素对应的Sk中的有标签样本提取出来构成第k个训练集Tk,从而可得到m个训练集T1,T2,...,Tm。
3.如权利要求1所述的多特征视图数据标签预测方法,其特征在于,所述利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm,包括:
按特征视图将所述训练集T1,T2,...,Tm和所述待预测标签样本集合Sm+1中的特征分别分成nc组特征,nc为样本的特征视图数量,得到nc组用于训练所述神经网络的训练子集和待预测标签样本集合子集;
利用训练子集和待预测标签样本集合子集对所述神经网络进行训练,得到所述m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm。
其中,为样本标签分类的交叉熵损失,为对i的数学期望,k=1,2,...,m,c为标签类别总数,|Tk|为Tk的样本总数,为Tk的第i个样本,为样本的标签,为第k组训练集Tk的特征变换网络,为Tk在特征变换之后的分类网络,其输入为变换之后的特征,输出为标签向量, 为对j的数学期望,为Sm+1对应的特征变换网络,为Sm+1的第j个样本,j=1,2,...,|Sm+1|,为示性函数;为Tk的分类对抗损失,为与的分类网络,为各特征视图对应的损失,为Tk经过变换后特征的数学期望与变换后待预测标签样本集合特征的数学期望的欧式距离,为根据经验设置的超参数;
5.如权利要求4所述的多特征视图数据标签预测方法,其特征在于,所述基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测,包括:
利用所述m个新训练集和所述m个新待预测标签样本集合,生成m个输出矩阵;
基于所述m个新训练集和所述m个新待预测标签样本集合,计算权重系数;
基于输出矩阵和权重系数,计算标签矩阵,实现所述待预测标签样本集合的标签预测。
9.一种多特征视图数据标签预测系统,其特征在于,包括:数据获取模块、样本筛选模块、训练模块和标签预测模块,其中:
数据获取模块用于获取多特征视图数据的样本集合,包括m个有标签样本集合S1,S2,...,Sm和一个待预测标签样本集合Sm+1;
样本筛选模块用于对m个有标签样本集合S1,S2,...,Sm进行处理,根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本,得到m个训练集T1,T2,...,Tm;
训练模块用于利用m个训练集T1,T2,...,Tm和待预测标签样本集合Sm+1对神经网络进行训练,得到经网络变换后的m个新训练集U1,U2,...,Um和m个新待预测标签样本集合V1,V2,...,Vm;
标签预测模块用于基于新训练集U1,U2,...,Um和新待预测标签样本集合V1,V2,...,Vm,计算标签矩阵,实现待预测标签样本集合的标签预测。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述多特征视图数据标签预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111031652.8A CN113837394A (zh) | 2021-09-03 | 2021-09-03 | 多特征视图数据标签预测方法、系统与可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111031652.8A CN113837394A (zh) | 2021-09-03 | 2021-09-03 | 多特征视图数据标签预测方法、系统与可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113837394A true CN113837394A (zh) | 2021-12-24 |
Family
ID=78962116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111031652.8A Pending CN113837394A (zh) | 2021-09-03 | 2021-09-03 | 多特征视图数据标签预测方法、系统与可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837394A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447110A (zh) * | 2018-09-17 | 2019-03-08 | 华中科技大学 | 综合邻居标签相关性特征和样本特征的多标签分类的方法 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110688536A (zh) * | 2019-09-25 | 2020-01-14 | 中国建设银行股份有限公司 | 一种标签预测方法、装置、设备和存储介质 |
US20200151578A1 (en) * | 2017-11-20 | 2020-05-14 | Alibaba Group Holding Limited | Data sample label processing method and apparatus |
US20200234116A1 (en) * | 2017-02-17 | 2020-07-23 | Curious Ai Oy | Solution for training a neural network system |
CN112232416A (zh) * | 2020-10-16 | 2021-01-15 | 浙江大学 | 一种基于伪标签加权的半监督学习方法 |
CN112633419A (zh) * | 2021-03-09 | 2021-04-09 | 浙江宇视科技有限公司 | 小样本学习方法、装置、电子设备和存储介质 |
CN112836802A (zh) * | 2021-02-03 | 2021-05-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半监督学习方法、岩性预测方法及存储介质 |
-
2021
- 2021-09-03 CN CN202111031652.8A patent/CN113837394A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200234116A1 (en) * | 2017-02-17 | 2020-07-23 | Curious Ai Oy | Solution for training a neural network system |
US20200151578A1 (en) * | 2017-11-20 | 2020-05-14 | Alibaba Group Holding Limited | Data sample label processing method and apparatus |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109447110A (zh) * | 2018-09-17 | 2019-03-08 | 华中科技大学 | 综合邻居标签相关性特征和样本特征的多标签分类的方法 |
CN110688536A (zh) * | 2019-09-25 | 2020-01-14 | 中国建设银行股份有限公司 | 一种标签预测方法、装置、设备和存储介质 |
CN112232416A (zh) * | 2020-10-16 | 2021-01-15 | 浙江大学 | 一种基于伪标签加权的半监督学习方法 |
CN112836802A (zh) * | 2021-02-03 | 2021-05-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半监督学习方法、岩性预测方法及存储介质 |
CN112633419A (zh) * | 2021-03-09 | 2021-04-09 | 浙江宇视科技有限公司 | 小样本学习方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
程康明;熊伟丽;: "一种自训练框架下的三优选半监督回归算法", 智能系统学报, no. 03 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019210306A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
US11829844B2 (en) | Refining qubit calibration models using supervised learning | |
CN110659207B (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
Rahaman et al. | An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm | |
CN110287983A (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN109766469A (zh) | 一种基于深度哈希学习优化的图像检索方法 | |
CN114332545B (zh) | 一种基于低比特脉冲神经网络的图像数据分类方法和装置 | |
CN113780346B (zh) | 一种先验约束分类器调整方法、系统及可读存储介质 | |
CN110324178B (zh) | 一种基于多经验核学习的网络入侵检测方法 | |
Bogatskiy et al. | Explainable equivariant neural networks for particle physics: PELICAN | |
Cho et al. | Genetic evolution processing of data structures for image classification | |
CN110197213A (zh) | 基于神经网络的图像匹配方法、装置和设备 | |
CN112541530B (zh) | 针对聚类模型的数据预处理方法及装置 | |
CN113837394A (zh) | 多特征视图数据标签预测方法、系统与可读存储介质 | |
CN111859947B (zh) | 一种文本处理装置、方法、电子设备及存储介质 | |
Topolski et al. | Modification of the Principal Component Analysis Method Based on Feature Rotation by Class Centroids. | |
Zhang et al. | Periodic time series data classification by deep neural network | |
Dong et al. | Non-uniqueness phenomenon of object representation in modeling IT cortex by deep convolutional neural network (DCNN) | |
Halder et al. | An unsupervised dynamic image segmentation using fuzzy Hopfield neural network based genetic algorithm | |
Chapman et al. | Stratified-NMF for Heterogeneous Data | |
CN113537458B (zh) | 一种有理式函数神经网络构建方法、系统及可读存储介质 | |
Haluszczynski | Prediction and control of nonlinear dynamical systems using machine learning | |
Jimenez Villalonga | Uncovering Correlations Between Two UMAP Hyperparameters and the Input Dataset | |
Balamurugan et al. | Analyse the Performance of Ensemble Classifiers using Sampling Techniques | |
Zervakis | Multivariate analysis of the parameters in a handwritten digit recognition LSTM system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |