CN111612164A

CN111612164A - 非迭代式大数据半监督学习方法、系统、存储介质及终端

Info

Publication number: CN111612164A
Application number: CN202010100021.6A
Authority: CN
Inventors: 徐计; 赵芳云; 路勇; 张仕学; 贺道德
Original assignee: Guizhou University of Engineering Science
Current assignee: Guizhou University of Engineering Science
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-09-01

Abstract

本发明提供一种非迭代式大数据半监督学习方法、系统、存储介质及终端，包括以下步骤：计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量，并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量；基于所述距离向量和所述下标向量构建最优引领森林；确定所述最优引领森林中每棵子树的各个节点的层次编号；基于所述层次编号在各棵子树上分三个阶段执行标签传播，以获取数据的回归结果或分类结果。本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端基于最优引领森林进行标签传播的半监督学习，从而保证了标签类别或数值的准确性，且极大地提高了半监督学习的效率，降低了算法的时间复杂度。

Description

非迭代式大数据半监督学习方法、系统、存储介质及终端

技术领域

本发明涉及大数据智能分析的技术领域，特别是涉及一种非迭代式大数据半监督学习方法、系统、存储介质及终端。

背景技术

在大数据时代，未标记数据从各行业不断采集得到或生成出来，但是数据的标签往往需要人工标注获得，费时费力，因而有标签的数据通常较为稀少。这就是近年来半监督学习 (Semi-Supervised Learning，SSL)一直备受关注的原因。半监督学习是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。当使用半监督学习时，将会要求尽量少的人员来从事工作，同时，又能够带来比较高的准确性，因此，半监督学习正越来越受到人们的重视。在半监督学习的诸多方法中，图半监督学习方法具有表示的直观性，并且便于通过研究矩阵运算来改善性能。

基于图的半监督学习(Graph-based Semi-Supervised Learning，GSSL)方法是半监督学习方法的一个重要范型。现有技术中，几乎所有的基于GSSL都将以下两个基础的假设作为问题描述的依据：(1)针对已标记样本，希望按照邻域内样本传播生成的标签与真实的标签误差尽量小，这一项称为“聚类假设”；(2)针对全体样本，希望相邻的样本生成的标签都尽量相似，这一项称为“流形假设”。一般通过最小化上述两项假设来实现标签传播。然而，现有技术中的GSSL方法存在两个明显的局限性：

(1)由于通过迭代优化的方式获得预设目标函数的最优解(或次优解)，导致训练的时间开销较大，学习效率低；

(2)由于求解过程依赖于给定的图结构，不便于构建增量式学习算法；当数据点发生新增或删除的情况时，整个学习过程需要从头运行。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种非迭代式大数据半监督学习方法、系统、存储介质及终端，基于最优引领森林(Optimal Leading Forest，OLeaF)进行标签传播的半监督学习，从而保证了标签类别或数值的准确性，且极大地提高了半监督学习的效率，降低了算法的时间复杂度。

为实现上述目的及其他相关目的，本发明提供一种非迭代式大数据半监督学习方法，包括以下步骤：计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量，并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量；基于所述距离向量和所述下标向量构建最优引领森林；确定所述最优引领森林中每棵子树的各个节点的层次编号；基于所述层次编号在各棵子树上分三个阶段执行标签传播，以获取数据的回归结果或分类结果。

于本发明一实施例中，还包括对数据集中的数据进行预处理，并针对预处理后的数据计算所述距离矩阵和所述局部密度向量。

于本发明一实施例中，所述预处理包括数据的合并、补齐中的一种或组合。

于本发明一实施例中，计算数据集的距离矩阵和局部密度向量，并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量包括以下步骤：

将所述数据集拆分成一定数量个大小均衡的子集；

计算每个子集到所述数据集的带状距离矩阵；

根据各个带状距离矩阵，计算各个子集中每个数据对应的局部密度子向量，将各个局部密度子向量依序拼接得到所述局部密度向量；

根据所述局部密度向量和各个带状距离矩阵并行计算子集中每个数据到引领节点的距离子向量和引领节点的下标子向量；将各个距离子向量依序拼接得到所述距离向量，将各个下标子向量依序拼接得到所述下标向量。

于本发明一实施例中，基于所述距离向量和所述下标向量构建最优引领森林包括以下步骤：

将所述引领节点的下标向量转换成一棵对应的引领树；

获取最优化函数

的最优解

其中H(·)用于将N_g变换到可以和DCost(·)函数值相比较的数量级上，Ω_i表示第i棵引领子树；

是第i棵引领子树中除根节点之外的所有节点的距离向量之和，R(Ω_i)表示第i棵引领子树的根节点，x_j表示第i棵引领子树中的第j个节点，δ_j表示第i棵引领子树的第j个节点的距离向量，α表示权重，N_g表示引领树子树数目；

设定γ＝ρ⊙δ，ρ表示所述局部密度向量，δ表示所述距离向量，⊙表示两个向量的逐元素对应相乘；将γ降序排序得到γ^S，选取γ^S中前N_g ^*个值对应的数据并剔除最大γ值对应的数据，将得到的N_g ^*-1数据对应的节点分别从它们的引领节点断开，以将所述引领树拆分为最优引领森林。

于本发明一实施例中，基于所述层次编号在各棵子树上分三个阶段执行标签传播包括以下步骤：

设定所述最优引领森林的目标函数；

基于所述目标函数依次执行三个阶段的标签传播，其中第一阶段进行子节点到父节点的传播，第二阶段进行根节点到根节点的传播，第三阶段进行父节点到子节点的传播。

于本发明一实施例中，所述最优引领森林的目标函数为

F_i表示数据的标签，i是父节点为p的所有子节点的下标；p表示根节点的样本序号，W_i表示下标为i的子节点到其父节点的连接强度，η(i) 表示子节点i的父节点的下标，ζ表示父节点的下标向量。

对应地，本发明提供一种非迭代式大数据半监督学习系统，包括计算模块、构建模块、确定模块和学习模块；

所述计算模块用于计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量，并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量；

所述构建模块用于基于所述距离向量和所述下标向量构建最优引领森林；

所述确定模块用于确定所述最优引领森林中每棵子树的各个节点的层次编号；

所述学习模块用于基于所述层次编号在各棵子树上分三个阶段执行标签传播，以获取数据的回归结果或分类结果。

本发明提供一种存储介质，其上存储有计算机程序，其特征在于，该所述计算机程序被处理器执行时实现上述的非迭代式大数据半监督学习方法。

最后，本发明提供一种终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的非迭代式大数据半监督学习方法。

如上所述，本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端，具有以下有益效果：

(1)基于最优引领森林进行标签传播的半监督学习，实现了标签类别或数值的确定；

(2)大幅提高了半监督学习的效率，特别在标签传播阶段，将算法的时间复杂度降低到 O(N)；

(3)便于对新到数据进行增量式学习，可以在O(N_e)的时间复杂度内学习到新数据的预测结果，其中N_e为已存在最优引领森林的节点数量；

(4)利用中间结果OLeaF可以追溯到最终学习结果的形成原因，使得学习过程和学习结果均具有很高的可解释性；

(5)解决了现有技术中的图半监督学习方法训练效率较低和不便于对新数据进行增量式学习的问题。

附图说明

图1显示为本发明的非迭代式大数据半监督学习方法于一实施例中的流程图；

图2显示为本发明中并行计算距离矩阵、局部密度向量、每个数据到引领节点的距离向量和引领节点的下标向量于一实施例中的流程图；

图3显示为本发明的非迭代式大数据半监督学习系统于一实施例中的结构示意图；

图4显示为本发明的终端于一实施例中的结构示意图。

元件标号说明

31 计算模块

32 构建模块

33 确定模块

34 学习模块

41 处理器

42 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端通过构建最优引领森林进行标签传播的半监督学习，从而未知类别或数值的样本确定类别标签或数值标签，并在不降低标签分类或回归准确率的前提下极大地提高了半监督学习的效率，降低了算法的时间复杂度，极具实用性。

如图1所示，于一实施例中，本发明的非迭代式大数据半监督学习方法包括以下步骤：

步骤S1、计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量，并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量。

具体地，设定数据集为

首先计算所述数据集

的距离矩阵 Dist＝{d_ij|1≤i≤N,1≤j≤N}，其中N表示数据集中数据的个数。接着，根据所述距离矩阵计算所述数据集中每个数据的局部密度向量ρ_i＝∑_j∈I\{i}exp(-(d_ij/d_c)²)，其中d_c为高斯核带宽参数，I表示数据集中全体数据的下标集合，即

然后，根据所述距离矩阵和所述局部密度向量计算关于最近更高密度数据点的信息，即引领节点的距离向量δ和下标向量ζ。

为了进一步提高计算效率，于本发明一实施例中，以矩阵运算为基础并行计算所述距离矩阵、所述局部密度向量、每个数据到引领节点的距离向量(即非根节点到其父节点的距离) 和引领节点的下标向量。如图2所示，具体包括以下步骤：

11)将所述数据集拆分成一定数量个大小均衡的子集。

具体地，将数据集

拆分成B个大小均衡的子集，每个子集的数据个数为N_i,故满足

12)计算每个子集到所述数据集的带状距离矩阵。

具体地，以矩阵计算为基础，针对每个子集计算其相对于所述数据集

的带状距离矩阵 D_i,i＝1,2,…,B，每个带状距离矩阵的大小为N_i×N。将各个带状距离矩阵根据其对应的子集的顺序依序拼接即可得到所述数据集

的距离矩阵。

13)根据各个带状距离矩阵，计算各个子集中每个数据对应的局部密度子向量，将各个局部密度子向量依序拼接得到所述局部密度向量。

具体地，针对每个带状距离矩阵，计算其中每个数据的局部密度子向量ρ_i。将各个局部密度子向量ρ_i按照对应的数据的顺序依序拼接即可得到所述数据集

的局部密度向量ρ。

14)根据所述局部密度向量和各个带状距离矩阵并行计算子集中每个数据到引领节点的距离子向量和引领节点的下标子向量；其中，所述下标子向量的计算根据

计算，所述距离子向量的计算根据δ_i＝d_i,η(i)计算，其中η(i)表示引领节点的下标。将各个距离子向量依序拼接得到所述距离向量，将各个下标子向量依序拼接得到所述下标向量。所述引领节点即父节点，表示局部密度最大的数据节点。

具体地，根据局部密度向量ρ和各个带状距离矩阵D_i并行计算子集中每个数据到引领节点的距离子向量δ_i和引领节点的下标子向量ζ_i。将各个下标子向量ζ_i和距离子向量δ_i按照对应的数据顺序依序拼接起来，即可得到整个数据集χ的引领节点的下标向量ζ和距离子向量 δ。

于本发明一实施例中，本发明的非迭代式大数据半监督学习方法还包括在进行步骤S1的计算之前，对数据集中的数据进行预处理，以针对预处理后的数据计算所述距离矩阵和所述局部密度向量。优选地，所述预处理包括数据的合并、补齐中的一种或组合。

步骤S2、基于所述距离向量和所述下标向量构建最优引领森林。

具体地，根据所述距离向量和所述下标向量，使用LoDOG算法(Local-Densitybased Optimal Granulation，基于局部密度的最优粒化方法)构建最优引领森林OleaF。具体地，使用LoDOG算法基于所述距离向量和所述下标向量构建最优引领森林包括以下步骤：

21)将所述引领节点的下标向量转换成一棵对应的引领树(Leading Tree，LT)。

22)获取最优化函数

的最优解N_g*，其中H(·) 用于将N_g变换到可以和DCost(·)函数值相比较的数量级上，Ω_i表示第i棵引领子树；

是第i棵引领子树中除根节点之外的所有节点的距离向量之和，R(Ω_i)表示第i棵引领子树的根节点，x_j表示第i棵引领子树中的第j个节点，δ_j表示第i棵引领子树的第j个节点的距离向量，α表示权重，N_g表示引领树子树数目。

具体地，通过一遍扫描可能的引领森林中子树的棵树，获取所述最优化函数的最优解N_g*，即最优的引领树子树数目。其中，H(·)是严格单调增加的函数。

23)设定γ＝ρ⊙δ，ρ表示所述局部密度向量，δ表示所述距离向量，⊙表示两个向量的逐元素对应相乘；将γ降序排序得到γ^S，选取γ^S中前N_g ^*个值对应的数据并剔除最大γ值对应的数据，将得到的N_g ^*-1数据对应的节点分别从它们的引领节点断开，以将所述引领树拆分为包含

棵子树的最优引领森林。

步骤S3、确定所述最优引领森林中每棵子树的各个节点的层次编号。

具体地，根据队列实现树的非递归层次遍历算法，确定最优引领森林中每棵子树的各个节点的层次编号。所述层次编号用于指导标签传播的方向。

步骤S4、基于所述层次编号在各棵子树上分三个阶段执行标签传播，以获取数据的回归结果或分类结果。

具体地，根据所述数据集

中少量(如5％～10％)的样本标签在所述最优引领森林中进行三个阶段的标签传播，完成半监督分类或者半监督回归任务，从而为未知类别或数值的数据确定类别标签或数值。其中，对于回归任务，传播得到的标签就是预测值；对于分类任务，标签向量中最大元素的位序即为分类的类别。

41)设定所述最优引领森林的目标函数。

具体地，所述最优引领森林的目标函数为

则可以证明

是该优化目标的解。

表示以p为根节点的原子树的标签平滑性，其值越小越平滑。p表示根节点的样本序号，F_i表示数据的标签，若是分类问题，F_i是一个向量；若是回归问题，F_i是一个标量。i的取值范围由η(i)＝p 限定，表示父节点为p的所有子节点的下标。W_i表示下标为i的子节点到其父节点的连接强度，使用1/δ_i来定义。η(i)表示子节点i的父节点的下标，ζ表示父节点的下标向量。

42)基于所述目标函数依次执行三个阶段的标签传播，其中第一阶段进行子节点到父节点的传播，第二阶段进行根节点到根节点的传播，第三阶段进行父节点到子节点的传播。

具体地，第一阶段-子节点到父节点(C2P)的传播

在该阶段，进行自底向上做标签传播，每个父节点的标签等于直接子节点标签的加权平均值。

第二阶段-根节点到根节点(R2R)的传播

由于已标记样本非常稀少，所述最优引领森林中难免会有一些子树没有标签信息。故通过R2R传播，从已有标记信息的密度更高、距离最近的根节点上“借用”标签信息到未标记子树的根节点上。

第三阶段-父节点到子节点(P2C)的传播

具体地，进行自顶向下的标签传播。在一棵原子树(只包含根节点和所有直接子节点的树)中，如果所有子节点均未标记，则直接将父节点的标签赋给各个子节点；若有部分标记，部分未标记，则将已标记子节点和父节点(父节点一定是已标记的)合并成一个虚拟父节点，再将此虚拟父节点的标签赋给所有未标记子节点。其中虚拟父节点标签计算公式为：

其中，F_p是父节点的标签，m_l是已标记子节点数目，m是所有子节点数目，W_i表示层次编号为i的子节点到其父节点的连接强度，使用1/δ_i来定义。

因此，本发明的非迭代式大数据半监督学习方法利用了数据间由引领树刻画的偏序关系和由γ_i＝ρ_iδ_i(反映数据点x_i被选为子树根节点的潜力值)指示的全序关系，以一种非迭代优化的方式，求得预先定义的目标函数的最优解，从而在保证分类或回归准确率的前提下，大幅提高了学习效率。

下面通过具体实施例来进一步验证本发明的非迭代式大数据半监督学习方法。

在该实施例中，在一台图形工作站上进行验证。该图形工作站的配置为IntelXeon Silver 4110双颗处理器(2.1GHz，共32核)和16G内存，实验软件环境为MATLAB2018b。

具体地，采用人类活动识别(Human Activity Recognition，HAR)数据集Activity，对原始数据进行合并、补齐等预处理操作，并且针对高频采用的时域数据，提取其经验累积分布函数(Empirical Cumulative Distribution Function，ECDF)特征。其中，数据共分为六个类别：站立、行走、坐、上楼梯、下楼梯、骑自行车。从每种数据总随机抽取100条(约占总数据的2％)作为已标记样本，构建最优引领森林，然后按照顺序执行三阶段标签传播，得出未标记样本的分类结果。

对实验结果采用分类正确率(Correct Classification Percentages，CCPs)进行评判。分类正确率指的是训练集和测试集在匹配过程中，被正确分类的样本总数和未标记样本总数的比值。

在经过ECDF特征提取后，Activity数据规模为30348条记录。从每个类别中随机抽取100 条已标记样本，在构建好的最优引领森林上进行标签传播实验，共抽取50次。最终获得的分类准确率为94.04％±1.61％。因此，本发明的非迭代式大数据半监督学习方法的显著优势是效率高。通过理论分析可知，除了最优引领森林构建需要O(N²)时间复杂度(而这点可以通过并行矩阵运算得到缓解)，标签传播阶段仅需要O(N)时间复杂度。本该实施例中，执行50次标签传播仅需3.1秒时间。

如图3所示，于一实施例中，本发明的非迭代式大数据半监督学习系统包括计算模块31、构建模块32、确定模块33和学习模块34。

所述计算模块31用于计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量，并根据所述距离矩阵和所述局部密度向量计算所述数据集的引领节点的距离向量和下标向量。

所述构建模块32与所述计算模块31相连，用于基于所述距离向量和所述下标向量构建最优引领森林。

所述确定模块33与所述构建模块32相连，用于确定所述最优引领森林中每棵子树的各个节点的层次编号。

所述学习模块34与所述确定模块33相连，用于基于所述层次编号在各棵子树上分三个阶段执行标签传播，以获取数据的回归结果或分类结果。

其中，计算模块31、构建模块32、确定模块33和学习模块34的结构和原理与上述非迭代式大数据半监督学习方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该所述计算机程序被处理器执行时实现上述的非迭代式大数据半监督学习方法。优选地，所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图4所示，于一实施例中，本发明的终端包括：处理器41及存储器42。

所述存储器42用于存储计算机程序。

所述存储器42包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器41与所述存储器42相连，用于执行所述存储器42存储的计算机程序，以使所述终端执行上述的非迭代式大数据半监督学习方法。

优选地，所述处理器41可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称 ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端基于最优引领森林进行标签传播的半监督学习，实现了标签类别或数值的确定；大幅提高了半监督学习的效率，特别在标签传播阶段，将算法的时间复杂度降低到O(N)；便于对新到数据进行增量式学习，可以在O(N_e)的时间复杂度内学习到新数据的预测结果，其中N_e为已存在最优引领森林的节点数量；利用中间结果OLeaF可以追溯到最终学习结果的形成原因，使得学习过程和学习结果均具有很高的可解释性；解决了现有技术中的图半监督学习方法训练效率较低和不便于对新数据进行增量式学习的问题。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种非迭代式大数据半监督学习方法，其特征在于：包括以下步骤：

计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量，并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量；

基于所述距离向量和所述下标向量构建最优引领森林；

确定所述最优引领森林中每棵子树的各个节点的层次编号；

基于所述层次编号在各棵子树上分三个阶段执行标签传播，以获取数据的回归结果或分类结果。

2.根据权利要求1所述的非迭代式大数据半监督学习方法，其特征在于：还包括对数据集中的数据进行预处理，并针对预处理后的数据计算所述距离矩阵和所述局部密度向量。

3.根据权利要求2所述的非迭代式大数据半监督学习方法，其特征在于：所述预处理包括数据的合并、补齐中的一种或组合。

4.根据权利要求1所述的非迭代式大数据半监督学习方法，其特征在于：计算数据集的距离矩阵和局部密度向量，并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量包括以下步骤：

将所述数据集拆分成一定数量个大小均衡的子集；

计算每个子集到所述数据集的带状距离矩阵；

5.根据权利要求1所述的非迭代式大数据半监督学习方法，其特征在于：基于所述距离向量和所述下标向量构建最优引领森林包括以下步骤：

将所述引领节点的下标向量转换成一棵对应的引领树；

获取最优化函数

的最优解N_g ^*，其中H(·)用于将N_g变换到可以和DCost(·)函数值相比较的数量级上，Ω_i表示第i棵引领子树；

6.根据权利要求1所述的非迭代式大数据半监督学习方法，其特征在于：基于所述层次编号在各棵子树上分三个阶段执行标签传播包括以下步骤：

设定所述最优引领森林的目标函数；

7.根据权利要求6所述的非迭代式大数据半监督学习方法，其特征在于：所述最优引领森林的目标函数为

F_i表示数据的标签，i是父节点为p的所有子节点的下标；p表示根节点的样本序号，W_i表示下标为i的子节点到其父节点的连接强度，η(i)表示子节点i的父节点的下标，ζ表示父节点的下标向量。

8.一种非迭代式大数据半监督学习系统，其特征在于：包括计算模块、构建模块、确定模块和学习模块；

9.一种存储介质，其上存储有计算机程序，其特征在于，该所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的非迭代式大数据半监督学习方法。

10.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的非迭代式大数据半监督学习方法。