CN113837394A

CN113837394A - 多特征视图数据标签预测方法、系统与可读存储介质

Info

Publication number: CN113837394A
Application number: CN202111031652.8A
Authority: CN
Inventors: 李泽瑞; 袁晨辉; 康宇; 吕文君
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-24

Abstract

本发明公开了一种多特征视图数据标签预测方法、系统与可读存储介质，属于数据处理技术领域，包括：获取多特征视图数据的样本集合，该样本集合包括m个有标签样本集合和一个待预测标签样本集合；对有标签样本集合和一个待预测标签样本集合进行处理，得到m个训练集；利用m个训练集和待预测标签样本集合对神经网络进行训练，得到经网络变换后的m个新训练集和m个新待预测标签样本集合；基于新训练集和新待预测标签样本集合，计算标签矩阵，实现待预测标签样本集合的标签预测。本发明可提高数据标签的准确性。

Description

多特征视图数据标签预测方法、系统与可读存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种多特征视图数据标签预测方法、系统与可读存储介质。

背景技术

如何利用海量的数据是当前机器学习面临的一个重要任务，例如，基于机器学习进行数据标签预测的方法，需要大量有标记的样本进行训练。但在实际应用中，由于能够使用的样本数据大部分是没有标签的，有标签的样本点较少，如果只利用这些较少的有标签的样本，会导致大量未知标签的样本中包含的信息被丢失掉，如果使用其他数据集进行训练，会因为数据分布差异造成预测不准。因此，在对样本数据进行标签预测时，传统的数据标签预测不能多维度考虑数据特征，且无法利用分布差异较大的有标签数据集，因此导致准确度不高。

发明内容

本发明的目的在于克服上述背景技术中的不足，提高数据标签预测准确度。

为实现以上目的，一方面，采用一种多特征视图数据标签预测方法，包括：

获取多特征视图数据的样本集合，包括m个有标签样本集合S₁，S₂，...，S_m和一个待预测标签样本集合S_m+1；

对m个有标签样本集合S₁，S₂，...，S_m进行处理，得到m个训练集T₁，T₂，...，T_m；

利用m个训练集T₁，T₂，...，T_m和待预测标签样本集合S_m+1对神经网络进行训练，得到经网络变换后的m个新训练集U₁，U₂，...，U_m和m个新待预测标签样本集合V₁，V₂，...，V_m；

基于新训练集U₁，U₂，...，U_m和新待预测标签样本集合V₁，V₂，...，V_m，计算标签矩阵，实现待预测标签样本集合的标签预测。

进一步地，所述对m个有标签样本集合S₁，S₂，...，S_m进行处理，得到m个训练集T₁，T₂，...，T_m，包括：

对所述有标签样本集合S₁，S₂，...，S_m和所述待预测标签样本集合S_m+1进行目标规划，目标函数为：

min π^kC^k

其中，π^k为第k组有标签样本集合S_k与待预测标签样本集合S_m+1之间的代价矩阵，代价矩阵π^k的第i行第j列元素

为S_k的第i个样本

和S_m+1的第j个样本

的欧式距离，k＝1，...，m，i＝1，2，...，|S_k|，j＝1，2，...，|S_m+1|，|S_k|和|S_m+1|分别表示S_k和S_m+1中的样本总数，C^k为S_k的分配矩阵，矩阵C^k的第i行第j列元素

表明S_k的第i个样本

被分配到S_m+1的第j个样本

将分配矩阵C^k中等于1的元素对应的S_k中的有标签样本提取出来构成第k个训练集T_k，从而可得到m个训练集T₁，T₂，...，T_m。

进一步地，所述利用m个训练集T₁，T₂，...，T_m和待预测标签样本集合S_m+1对神经网络进行训练，得到经网络变换后的m个新训练集U₁，U₂，...，U_m和m个新待预测标签样本集合V₁，V₂，...，V_m，包括：

按特征视图将所述训练集T₁，T₂，...，T_m和所述待预测标签样本集合S_m+1中的特征分别分成n_c组特征，n_c为样本的特征视图数量，得到n_c组用于训练所述神经网络的训练子集和待预测标签样本集合子集；

利用训练子集和待预测标签样本集合子集对所述神经网络进行训练，得到所述m个新训练集U₁，U₂，...，U_m和m个新待预测标签样本集合V₁，V₂，...，V_m。

进一步地，第k组所述训练集

与

的神经网络损失为：

其中，

为样本标签分类的交叉熵损失，

为对i的数学期望，k＝1，2，...，m，c为标签类别总数，|T_k|为T_k的样本总数，

为T_k的第i个样本，

为样本

的标签，

为第k组训练集T_k的特征变换网络，

为T_k在特征变换之后的分类网络，其输入为变换之后的特征，输出为标签向量，

为对j的数学期望，

为S_m+1对应的特征变换网络，

为S_m+1的第j个样本，j＝1，2，...，|S_m+1|，

为示性函数；

为T_k的分类对抗损失，

为

与

的分类网络，

为各特征视图对应的

损失，

为T_k经过

变换后特征的数学期望与

变换后待预测标签样本集合特征的数学期望的欧式距离，

为根据经验设置的超参数；

根据所述损失函数进行神经网络训练后，得到特征变换网络

和

T_k经过特征变换网络

以后得到了新训练集U_k，|U_k|为对应集合的样本总数，S_m+1分别经过特征变换网络

得到m个新待预测标签样本集合V_k，k＝1，2，...，m，|V_k|为对应集合的样本总数。

进一步地，所述基于新训练集U₁，U₂，...，U_m和新待预测标签样本集合V₁，V₂，...，V_m，计算标签矩阵，实现待预测标签样本集合的标签预测，包括：

利用所述m个新训练集和所述m个新待预测标签样本集合，生成m个输出矩阵；

基于所述m个新训练集和所述m个新待预测标签样本集合，计算权重系数；

基于输出矩阵和权重系数，计算标签矩阵，实现所述待预测标签样本集合的标签预测。

进一步地，所述利用所述m个新训练集和所述m个新待预测标签样本集合，生成m个输出矩阵的过程为：

将第k个新训练集和第k个新待预测标签样本集合输入分类器

得到V_k对应的输出矩阵o^k，

k＝1，...，m，

|V_k|为样本集合V_k的样本总数，|U_k|为样本集合U_k的样本总数，

为V_k第一个样本对应的高维特征，

为V_k最后一个样本对应的高维特征，β^k为输出权重矩阵。

进一步地，所述权重系数的计算公式为：

其中，

为集合

里的元素个数，k＝1，2，…，m，m^k为U_k与V_k的分布差异项，

为V_k中所有样本在U_k上的第q近邻的集合，q＝1，2，...，l，w_k为U_k的权重系数，l为近邻集合的个数，

为归一化后的w_k，w_k为U_k的权重系数，m^k为所述第k个新训练集与所述第k个新待预测标签样本集合的分布差异项。

进一步地，所述标签矩阵的计算公式为：

其中，

为

中最大值所在的索引，

为标签矩阵的第j行，j＝1，2，...，|S_m+1|，Y^t为m个输出矩阵的加权和输出矩阵，

为S_m+1中第j个待预测样本的预测标签值。

另一方面，采用一种多特征视图数据标签预测系统，包括数据获取模块、样本筛选模块、训练模块和标签预测模块，其中：

数据获取模块用于获取多特征视图数据的样本集合，包括m个有标签样本集合S₁，S₂，...，S_m和一个待预测标签样本集合S_m+1；

样本筛选模块用于对m个有标签样本集合S₁，S₂，...，S_m进行处理，根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本，得到m个训练集T₁，T₂，...，T_m；

训练模块用于利用m个训练集T₁，T₂，...，T_m和待预测标签样本集合S_m+1对神经网络进行训练，得到经网络变换后的m个新训练集U₁，U₂，...，U_m和m个新待预测标签样本集合V₁，V₂，...，V_m；

标签预测模块用于基于新训练集U₁，U₂，...，U_m和新待预测标签样本集合V₁，V₂，...，V_m，计算标签矩阵，实现待预测标签样本集合的标签预测。

再一方面，采用一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述多特征视图数据标签预测方法的步骤。

与现有技术相比，本发明存在以下技术效果：本发明通过多视图分组特征变换，减少个别特征差异过大对结果的影响；能够缩小源域和目标域样本集合的分布差异，在样本集合分布差异较大时也适用；能够利用多个分布差异较大的源域样本集合，融合多样本集合包含的信息，对未标记的样本集合的标签进行准确预测。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种多特征视图数据标签预测方法的流程图；

图2是一种多特征视图数据标签预测系统的结构图。

图3是一种多特征视图数据特征变换网络结构示意图

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种多特征视图数据标签预测方法，包括如下步骤S1至S4：

S1、获取多特征视图数据的样本集合，该样本集合包括m个有标签样本集合和一个无标签样本集合，m个有标签样本集合记为S₁，S₂，...，S_m，无标签样本集合记为S_m+1；

需要说明的是，本实施例获取多口井的测井数据，多口井每个深度上的所有测井值组成一个特征向量，即样本。所述测井值包括但不限于自然伽马、自然电位、井径、声波时差、密度、补偿中子、深侧向电阻率及浅侧向电阻率。

样本集合中一个样本表达为

其中

表示实数域，d为样本维度；测井数据构成的样本集合为

n为样本总数。本实施例共获取m+1组样本集合记为

其中m组样本有岩性标签，标签y∈{1，2，...，c}，则这m组样本对应的标签为

c为类别总数，则m组有标签的样本集合为

记为S₁，S₂，...，S_m，无标签的样本集合为

记为S_m+1，|S₁|，...，|S_m+1|表示对应集合样本总数。这里x，y的上标1，…，m+1表明其所属样本集合组号。

S2、对m个有标签样本集合S₁，S₂，...，S_m进行处理，得到m个训练集T₁，T₂，...，T_m；

S3、利用m个训练集T₁，T₂，...，T_m和待预测标签样本集合S_m+1对神经网络进行训练，得到经网络变换后的m个新训练集U₁，U₂，...，U_m和m个新待预测标签样本集合V₁，V₂，...，V_m；

S4、基于新训练集U₁，U₂，...，U_m和新待预测标签样本集合V₁，V₂，...，V_m，计算标签矩阵，实现待预测标签样本集合的标签预测。

作为进一步优选的技术方案，上述步骤S2：对m个有标签样本集合S₁，S₂，...，S_m进行处理，得到m个训练集T₁，T₂，...，T_m，包括：

将每一组样本集合归一化到区间[-1，1]，对所述有标签样本集合S₁，S₂，...，S_m和所述待预测标签样本集合S_m+1进行目标规划，目标函数为：

min π^kC^k

为S_k的第i个样本

和S_m+1的第j个样本

表明S_k的第i个样本

被分配到S_m+1的第j个样本

则不做分配；

具体为：将第k组样本集合S_k中

的有标签样本提取出来构成第k组训练集

即可得到m个训练集

记为T₁，T₂，...，T_m，|T₁|，...，|T_m|表示对应集合样本总数，与一个待预测标签样本集合

这里的x，y的上标s用于指明该变量属于训练集。

作为进一步优选的技术方案，上述步骤S3：利用m个训练集T₁，T₂，...，T_m和待预测标签样本集合S_m+1对神经网络进行训练，得到经网络变换后的m个新训练集U₁，U₂，...，U_m和m个新待预测标签样本集合V₁，V₂，...，V_m，包括：

按声测井、电测井以及核测井将所述新训练集和新待预测标签样本集合中的特征分别分成三组特征，每一次将一个训练集和待预测标签样本集合分别放如图3所示的神经网络中，得到多组用于训练所述神经网络的训练子集和测试子集，即：

具体地，第k组所述训练集

与待预测标签样本集合

的神经网络损失为：

其中，

为样本岩性分类的交叉熵损失，

为对第i个样本的数学期望，

为第k组训练集T_k的特征变换网络，k＝1，2，...，m，c为标签类别总数，|T_k|为T_k的样本总数，

为T_k的第i个样本，

为样本

的标签，

为示性函数；

为T_k在特征变换之后的的岩性分类网络，输入为变换之后的特征，输出为岩性标签向量，其中，

为对j的数学期望，

为S_m+1对应的特征变换网络，

为S_m+1的第j个样本，j＝1，2，...，|S_m+1|，

为T_k的分类对抗损失，

为声测井、电测井、核测井三组特征对应的

损失，

为T_k经过

变换后特征的数学期望与

变换后待预测标签样本集合特征的数学期望的欧式距离，

为根据经验设置的超参数；

在对神经网络参数初始化后，神经网络网络分为两个部分交替进行训练优化：(1)在将T_k，S_m+1中的所有样本分别放入

得到F_s(x^k，s)，F_t(x^m+1)，计算

再将F_s(x^k，s)输入到

得到预测结果与训练集标签

计算

以损失之和

优化

以及F_s；(2)在将T_k，S_m+1中的所有样本分别放入

得到F_s(x^k，s)，F_t(x^m+1)，将其输入到

计算

F_t(x^m+1)与x^m+1计算

以损失之和

的形式优化

与F_t；两种方式交替直至网络收敛；

根据上述损失函数进行神经网络训练后，得到特征变换网络

和

T_k经过特征变换网络

具体地，训练m组网络以后，得到m个经由特征变换网络特征变换后的新训练集

记为U₁，U₂，...，U_m，|U_k|为集合U_k的样本总数，k＝1，...，m，第k组新训练集

的矩阵表示为

可得m组训练集以矩阵表示为

与m个由原来一个待预测标签样本集合特征变换后的新待预测标签样本集合

记为V₁，V₂，...，V_m，|V_k|为集合V_k的样本总数，k＝1，...，m，以矩阵表示为

作为进一步优选的技术方案，上述步骤S4：基于新训练集U₁，U₂，...，U_m和新待预测标签样本集合V₁，V₂，...，V_m，计算标签矩阵，实现待预测标签样本集合的标签预测，包括如下细分步骤S41至S43：

S41、利用所述m个新训练集和所述m个新待预测标签样本集合，生成m个输出矩阵，具体为：

S411、设置Z^k＝[Z^k，s；Z^k，t]，Z^k为矩阵Z^k，s与Z^k，t的纵向拼接，k＝1，...，m，根据经验设置超参数q^k，tua^k；

S412、随机生成权重矩阵

随机生成偏置向量

然后构造高维特征矩阵

H^k的第k列为φ(Z^kW^k+B^k)，φ为激活函数，N_h为设置的高维特征矩阵维度；

S413、计算Y^k对应的one-hot编码标签矩阵

为第k组训练集的标签集合，

为第i个标签：

S414、计算类别损失权重矩阵

为U_k中属于第j类岩性的样本个数，j∈{1，2，...，c}，

为维度为|V_k|×1的0向量，diag为对角矩阵；

S415、计算输出权重矩阵：

if

Else：

为N_h×N_h维的单位矩阵，

为(|U_k|+|V_k|)×(|U_k|+|V_k|)维的单位矩阵；

S416、将第k个新训练集和第k个新待预测标签样本集合输入分类器

得到V_k对应的输出矩阵o^k，

k＝1，...，m，从而得到到m个输出矩阵o¹，o²，…，o^m，

为V_k第一个样本对应的高维特征，

为V_k最后一个样本对应的高维特征，β^k为输出权重矩阵。

S42、基于所述新训练集和所述新待预测标签样本集合，计算权重系数，具体为：

S421、计算新训练集与新待预测标签样本集合的分布差异项

k＝1，2，…，m；

S422、以欧式距离为评价标准，计算新待预测标签样本集合样本在新训练集上的l个近邻，即以欧式距离最小的样本为第1个近邻，次小的为第2个近邻，以此类推，得到新待预测标签样本集合上的每一个样本的第1近邻、第2近邻、…、第1近邻的集合

为

每一个样本在U_k上的第i近邻的集合；

S423、计算权重系数

其中，

为集合

里的元素个数，k＝1，2，…，m，m^k为U_k与V_k的分布差异项，

S43、基于输出矩阵和权重系数，计算标签矩阵，实现数据标签预测，标签矩阵的计算公式为：

其中，

为

中最大值所在的索引，

为预测的岩性标签。

如图2所示，本实施例公开了一种多特征视图数据标签预测系统，包括：数据获取模块10、样本筛选模块20、训练模块30和标签预测模块40，其中：

数据获取模块10用于获取多特征视图数据的样本集合，包括m个有标签样本集合S₁，S₂，...，S_m和一个待预测标签样本集合S_m+1；

样本筛选模块20用于对m个有标签样本集合S₁，S₂，...，S_m进行处理，根据所述待预测标签样本集合中的无标签样本与有标签样本集合中的有标签样本的距离筛选出有标签样本集合的部分样本，得到m个训练集T₁，T2，...，T_m；

训练模块30用于利用m个训练集T₁，T₂，...，T_m和待预测标签样本集合S_m+1对神经网络进行训练，得到经网络变换后的m个新训练集U₁，U₂，...，U_m和m个新待预测标签样本集合V₁，V₂，...，V_m；

标签预测模块40用于基于新训练集U₁，U₂，...，U_m和新待预测标签样本集合V₁，V₂，...，V_m，计算标签矩阵，实现待预测标签样本集合的标签预测。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

本实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上实施例所述多特征视图数据标签预测方法的步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。