CN111612164A - 非迭代式大数据半监督学习方法、系统、存储介质及终端 - Google Patents

非迭代式大数据半监督学习方法、系统、存储介质及终端 Download PDF

Info

Publication number
CN111612164A
CN111612164A CN202010100021.6A CN202010100021A CN111612164A CN 111612164 A CN111612164 A CN 111612164A CN 202010100021 A CN202010100021 A CN 202010100021A CN 111612164 A CN111612164 A CN 111612164A
Authority
CN
China
Prior art keywords
vector
data
leading
node
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010100021.6A
Other languages
English (en)
Inventor
徐计
赵芳云
路勇
张仕学
贺道德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University of Engineering Science
Original Assignee
Guizhou University of Engineering Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University of Engineering Science filed Critical Guizhou University of Engineering Science
Priority to CN202010100021.6A priority Critical patent/CN111612164A/zh
Publication of CN111612164A publication Critical patent/CN111612164A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种非迭代式大数据半监督学习方法、系统、存储介质及终端,包括以下步骤:计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量;基于所述距离向量和所述下标向量构建最优引领森林;确定所述最优引领森林中每棵子树的各个节点的层次编号;基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数据的回归结果或分类结果。本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端基于最优引领森林进行标签传播的半监督学习,从而保证了标签类别或数值的准确性,且极大地提高了半监督学习的效率,降低了算法的时间复杂度。

Description

非迭代式大数据半监督学习方法、系统、存储介质及终端
技术领域
本发明涉及大数据智能分析的技术领域,特别是涉及一种非迭代式大数据半监督学习方 法、系统、存储介质及终端。
背景技术
在大数据时代,未标记数据从各行业不断采集得到或生成出来,但是数据的标签往往需 要人工标注获得,费时费力,因而有标签的数据通常较为稀少。这就是近年来半监督学习 (Semi-Supervised Learning,SSL)一直备受关注的原因。半监督学习是模式识别和机器学习 领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大 量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将 会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正 越来越受到人们的重视。在半监督学习的诸多方法中,图半监督学习方法具有表示的直观 性,并且便于通过研究矩阵运算来改善性能。
基于图的半监督学习(Graph-based Semi-Supervised Learning,GSSL)方法是半监督学习 方法的一个重要范型。现有技术中,几乎所有的基于GSSL都将以下两个基础的假设作为问 题描述的依据:(1)针对已标记样本,希望按照邻域内样本传播生成的标签与真实的标签误 差尽量小,这一项称为“聚类假设”;(2)针对全体样本,希望相邻的样本生成的标签都尽 量相似,这一项称为“流形假设”。一般通过最小化上述两项假设来实现标签传播。然而, 现有技术中的GSSL方法存在两个明显的局限性:
(1)由于通过迭代优化的方式获得预设目标函数的最优解(或次优解),导致训练的时 间开销较大,学习效率低;
(2)由于求解过程依赖于给定的图结构,不便于构建增量式学习算法;当数据点发生新 增或删除的情况时,整个学习过程需要从头运行。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种非迭代式大数据半监督学习 方法、系统、存储介质及终端,基于最优引领森林(Optimal Leading Forest,OLeaF)进行标 签传播的半监督学习,从而保证了标签类别或数值的准确性,且极大地提高了半监督学习的 效率,降低了算法的时间复杂度。
为实现上述目的及其他相关目的,本发明提供一种非迭代式大数据半监督学习方法,包 括以下步骤:计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并根据所述 距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量; 基于所述距离向量和所述下标向量构建最优引领森林;确定所述最优引领森林中每棵子树的 各个节点的层次编号;基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数 据的回归结果或分类结果。
于本发明一实施例中,还包括对数据集中的数据进行预处理,并针对预处理后的数据计 算所述距离矩阵和所述局部密度向量。
于本发明一实施例中,所述预处理包括数据的合并、补齐中的一种或组合。
于本发明一实施例中,计算数据集的距离矩阵和局部密度向量,并根据所述距离矩阵和 所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量包括以下步 骤:
将所述数据集拆分成一定数量个大小均衡的子集;
计算每个子集到所述数据集的带状距离矩阵;
根据各个带状距离矩阵,计算各个子集中每个数据对应的局部密度子向量,将各个局部 密度子向量依序拼接得到所述局部密度向量;
根据所述局部密度向量和各个带状距离矩阵并行计算子集中每个数据到引领节点的距离 子向量和引领节点的下标子向量;将各个距离子向量依序拼接得到所述距离向量,将各个下 标子向量依序拼接得到所述下标向量。
于本发明一实施例中,基于所述距离向量和所述下标向量构建最优引领森林包括以下步 骤:
将所述引领节点的下标向量转换成一棵对应的引领树;
获取最优化函数
Figure BDA0002386638200000021
的最优解
Figure BDA0002386638200000022
其中H(·)用 于将Ng变换到可以和DCost(·)函数值相比较的数量级上,Ωi表示第i棵引领子树;
Figure BDA0002386638200000023
是第i棵引领子树中除根节点之外的所有节点的距离向 量之和,R(Ωi)表示第i棵引领子树的根节点,xj表示第i棵引领子树中的第j个节点,δj表 示第i棵引领子树的第j个节点的距离向量,α表示权重,Ng表示引领树子树数目;
设定γ=ρ⊙δ,ρ表示所述局部密度向量,δ表示所述距离向量,⊙表示两个向量的逐元 素对应相乘;将γ降序排序得到γS,选取γS中前Ng *个值对应的数据并剔除最大γ值对应的数 据,将得到的Ng *-1数据对应的节点分别从它们的引领节点断开,以将所述引领树拆分为最 优引领森林。
于本发明一实施例中,基于所述层次编号在各棵子树上分三个阶段执行标签传播包括以 下步骤:
设定所述最优引领森林的目标函数;
基于所述目标函数依次执行三个阶段的标签传播,其中第一阶段进行子节点到父节点的 传播,第二阶段进行根节点到根节点的传播,第三阶段进行父节点到子节点的传播。
于本发明一实施例中,所述最优引领森林的目标函数为
Figure BDA0002386638200000031
Figure BDA0002386638200000032
Fi表示数据的标签,i是父节点为p的所有子节点的下标;p表示根节点的样本序号,Wi表示下标为i的子节点到其父节点的连接强度,η(i) 表示子节点i的父节点的下标,ζ表示父节点的下标向量。
对应地,本发明提供一种非迭代式大数据半监督学习系统,包括计算模块、构建模块、 确定模块和学习模块;
所述计算模块用于计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并 根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下 标向量;
所述构建模块用于基于所述距离向量和所述下标向量构建最优引领森林;
所述确定模块用于确定所述最优引领森林中每棵子树的各个节点的层次编号;
所述学习模块用于基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数 据的回归结果或分类结果。
本发明提供一种存储介质,其上存储有计算机程序,其特征在于,该所述计算机程序被 处理器执行时实现上述的非迭代式大数据半监督学习方法。
最后,本发明提供一种终端,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的非迭代式 大数据半监督学习方法。
如上所述,本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端,具有以 下有益效果:
(1)基于最优引领森林进行标签传播的半监督学习,实现了标签类别或数值的确定;
(2)大幅提高了半监督学习的效率,特别在标签传播阶段,将算法的时间复杂度降低到 O(N);
(3)便于对新到数据进行增量式学习,可以在O(Ne)的时间复杂度内学习到新数据的预 测结果,其中Ne为已存在最优引领森林的节点数量;
(4)利用中间结果OLeaF可以追溯到最终学习结果的形成原因,使得学习过程和学习 结果均具有很高的可解释性;
(5)解决了现有技术中的图半监督学习方法训练效率较低和不便于对新数据进行增量式 学习的问题。
附图说明
图1显示为本发明的非迭代式大数据半监督学习方法于一实施例中的流程图;
图2显示为本发明中并行计算距离矩阵、局部密度向量、每个数据到引领节点的距离向 量和引领节点的下标向量于一实施例中的流程图;
图3显示为本发明的非迭代式大数据半监督学习系统于一实施例中的结构示意图;
图4显示为本发明的终端于一实施例中的结构示意图。
元件标号说明
31 计算模块
32 构建模块
33 确定模块
34 学习模块
41 处理器
42 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精 神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征 可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图 式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实 际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复 杂。
本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端通过构建最优引领森 林进行标签传播的半监督学习,从而未知类别或数值的样本确定类别标签或数值标签,并在 不降低标签分类或回归准确率的前提下极大地提高了半监督学习的效率,降低了算法的时间 复杂度,极具实用性。
如图1所示,于一实施例中,本发明的非迭代式大数据半监督学习方法包括以下步骤:
步骤S1、计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并根据所述 距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量。
具体地,设定数据集为
Figure BDA0002386638200000051
首先计算所述数据集
Figure BDA0002386638200000052
的距离矩阵 Dist={dij|1≤i≤N,1≤j≤N},其中N表示数据集中数据的个数。接着,根据所述距离矩阵计 算所述数据集中每个数据的局部密度向量ρi=∑j∈I\{i}exp(-(dij/dc)2),其中dc为高斯核带宽 参数,I表示数据集中全体数据的下标集合,即
Figure BDA0002386638200000053
然后,根据所述距离矩阵和所述 局部密度向量计算关于最近更高密度数据点的信息,即引领节点的距离向量δ和下标向量ζ。
为了进一步提高计算效率,于本发明一实施例中,以矩阵运算为基础并行计算所述距离 矩阵、所述局部密度向量、每个数据到引领节点的距离向量(即非根节点到其父节点的距离) 和引领节点的下标向量。如图2所示,具体包括以下步骤:
11)将所述数据集拆分成一定数量个大小均衡的子集。
具体地,将数据集
Figure BDA0002386638200000054
拆分成B个大小均衡的子集,每个子集的数据个数为Ni,故满足
Figure BDA0002386638200000055
12)计算每个子集到所述数据集的带状距离矩阵。
具体地,以矩阵计算为基础,针对每个子集计算其相对于所述数据集
Figure BDA0002386638200000057
的带状距离矩阵 Di,i=1,2,…,B,每个带状距离矩阵的大小为Ni×N。将各个带状距离矩阵根据其对应的子集的 顺序依序拼接即可得到所述数据集
Figure BDA0002386638200000056
的距离矩阵。
13)根据各个带状距离矩阵,计算各个子集中每个数据对应的局部密度子向量,将各个 局部密度子向量依序拼接得到所述局部密度向量。
具体地,针对每个带状距离矩阵,计算其中每个数据的局部密度子向量ρi。将各个局部 密度子向量ρi按照对应的数据的顺序依序拼接即可得到所述数据集
Figure BDA0002386638200000064
的局部密度向量ρ。
14)根据所述局部密度向量和各个带状距离矩阵并行计算子集中每个数据到引领节点的 距离子向量和引领节点的下标子向量;其中,所述下标子向量的计算根据
Figure RE-GDA0002440183950000061
计算,所述距离子向量的计算根据δi=di,η(i)计算,其中η(i)表示 引领节点的下标。将各个距离子向量依序拼接得到所述距离向量,将各个下标子向量依序拼 接得到所述下标向量。所述引领节点即父节点,表示局部密度最大的数据节点。
具体地,根据局部密度向量ρ和各个带状距离矩阵Di并行计算子集中每个数据到引领节 点的距离子向量δi和引领节点的下标子向量ζi。将各个下标子向量ζi和距离子向量δi按照对 应的数据顺序依序拼接起来,即可得到整个数据集χ的引领节点的下标向量ζ和距离子向量 δ。
于本发明一实施例中,本发明的非迭代式大数据半监督学习方法还包括在进行步骤S1的 计算之前,对数据集中的数据进行预处理,以针对预处理后的数据计算所述距离矩阵和所述 局部密度向量。优选地,所述预处理包括数据的合并、补齐中的一种或组合。
步骤S2、基于所述距离向量和所述下标向量构建最优引领森林。
具体地,根据所述距离向量和所述下标向量,使用LoDOG算法(Local-Densitybased Optimal Granulation,基于局部密度的最优粒化方法)构建最优引领森林OleaF。具体地,使 用LoDOG算法基于所述距离向量和所述下标向量构建最优引领森林包括以下步骤:
21)将所述引领节点的下标向量转换成一棵对应的引领树(Leading Tree,LT)。
22)获取最优化函数
Figure BDA0002386638200000062
的最优解Ng*,其中H(·) 用于将Ng变换到可以和DCost(·)函数值相比较的数量级上,Ωi表示第i棵引领子树;
Figure BDA0002386638200000063
是第i棵引领子树中除根节点之外的所有节点的距离向 量之和,R(Ωi)表示第i棵引领子树的根节点,xj表示第i棵引领子树中的第j个节点,δj表 示第i棵引领子树的第j个节点的距离向量,α表示权重,Ng表示引领树子树数目。
具体地,通过一遍扫描可能的引领森林中子树的棵树,获取所述最优化函数的最优解Ng*, 即最优的引领树子树数目。其中,H(·)是严格单调增加的函数。
23)设定γ=ρ⊙δ,ρ表示所述局部密度向量,δ表示所述距离向量,⊙表示两个向量的 逐元素对应相乘;将γ降序排序得到γS,选取γS中前Ng *个值对应的数据并剔除最大γ值对应 的数据,将得到的Ng *-1数据对应的节点分别从它们的引领节点断开,以将所述引领树拆分 为包含
Figure BDA0002386638200000075
棵子树的最优引领森林。
步骤S3、确定所述最优引领森林中每棵子树的各个节点的层次编号。
具体地,根据队列实现树的非递归层次遍历算法,确定最优引领森林中每棵子树的各个 节点的层次编号。所述层次编号用于指导标签传播的方向。
步骤S4、基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数据的回归 结果或分类结果。
具体地,根据所述数据集
Figure BDA0002386638200000076
中少量(如5%~10%)的样本标签在所述最优引领森林中进行 三个阶段的标签传播,完成半监督分类或者半监督回归任务,从而为未知类别或数值的数据 确定类别标签或数值。其中,对于回归任务,传播得到的标签就是预测值;对于分类任务, 标签向量中最大元素的位序即为分类的类别。
于本发明一实施例中,基于所述层次编号在各棵子树上分三个阶段执行标签传播包括以 下步骤:
41)设定所述最优引领森林的目标函数。
具体地,所述最优引领森林的目标函数为
Figure BDA0002386638200000071
Figure BDA0002386638200000072
则可以证明
Figure BDA0002386638200000073
是该优化目标的解。
Figure BDA0002386638200000074
表示以p为根节点的原子树的标签平滑性,其值越小越平滑。p表示根节点的样本序号,Fi表示数据的标签,若是分类问题,Fi是一个向量;若是回归问题,Fi是一个标量。i的取值范围由η(i)=p 限定,表示父节点为p的所有子节点的下标。Wi表示下标为i的子节点到其父节点的连接强 度,使用1/δi来定义。η(i)表示子节点i的父节点的下标,ζ表示父节点的下标向量。
42)基于所述目标函数依次执行三个阶段的标签传播,其中第一阶段进行子节点到父节 点的传播,第二阶段进行根节点到根节点的传播,第三阶段进行父节点到子节点的传播。
具体地,第一阶段-子节点到父节点(C2P)的传播
在该阶段,进行自底向上做标签传播,每个父节点的标签等于直接子节点标签的加权平 均值。
第二阶段-根节点到根节点(R2R)的传播
由于已标记样本非常稀少,所述最优引领森林中难免会有一些子树没有标签信息。故通 过R2R传播,从已有标记信息的密度更高、距离最近的根节点上“借用”标签信息到未标记 子树的根节点上。
第三阶段-父节点到子节点(P2C)的传播
具体地,进行自顶向下的标签传播。在一棵原子树(只包含根节点和所有直接子节点的 树)中,如果所有子节点均未标记,则直接将父节点的标签赋给各个子节点;若有部分标记, 部分未标记,则将已标记子节点和父节点(父节点一定是已标记的)合并成一个虚拟父节点, 再将此虚拟父节点的标签赋给所有未标记子节点。其中虚拟父节点标签计算公式为:
Figure BDA0002386638200000081
其中,Fp是父节点的标签,ml是已标记子节点数目,m是所有子节点数 目,Wi表示层次编号为i的子节点到其父节点的连接强度,使用1/δi来定义。
因此,本发明的非迭代式大数据半监督学习方法利用了数据间由引领树刻画的偏序关系 和由γi=ρiδi(反映数据点xi被选为子树根节点的潜力值)指示的全序关系,以一种非迭代优 化的方式,求得预先定义的目标函数的最优解,从而在保证分类或回归准确率的前提下,大 幅提高了学习效率。
下面通过具体实施例来进一步验证本发明的非迭代式大数据半监督学习方法。
在该实施例中,在一台图形工作站上进行验证。该图形工作站的配置为IntelXeon Silver 4110双颗处理器(2.1GHz,共32核)和16G内存,实验软件环境为MATLAB2018b。
具体地,采用人类活动识别(Human Activity Recognition,HAR)数据集Activity,对原 始数据进行合并、补齐等预处理操作,并且针对高频采用的时域数据,提取其经验累积分布 函数(Empirical Cumulative Distribution Function,ECDF)特征。其中,数据共分为六个类别: 站立、行走、坐、上楼梯、下楼梯、骑自行车。从每种数据总随机抽取100条(约占总数据 的2%)作为已标记样本,构建最优引领森林,然后按照顺序执行三阶段标签传播,得出未标 记样本的分类结果。
对实验结果采用分类正确率(Correct Classification Percentages,CCPs)进行评判。分类 正确率指的是训练集和测试集在匹配过程中,被正确分类的样本总数和未标记样本总数的比 值。
在经过ECDF特征提取后,Activity数据规模为30348条记录。从每个类别中随机抽取100 条已标记样本,在构建好的最优引领森林上进行标签传播实验,共抽取50次。最终获得的分 类准确率为94.04%±1.61%。因此,本发明的非迭代式大数据半监督学习方法的显著优势是 效率高。通过理论分析可知,除了最优引领森林构建需要O(N2)时间复杂度(而这点可以通过 并行矩阵运算得到缓解),标签传播阶段仅需要O(N)时间复杂度。本该实施例中,执行50次 标签传播仅需3.1秒时间。
如图3所示,于一实施例中,本发明的非迭代式大数据半监督学习系统包括计算模块31、 构建模块32、确定模块33和学习模块34。
所述计算模块31用于计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量, 并根据所述距离矩阵和所述局部密度向量计算所述数据集的引领节点的距离向量和下标向 量。
所述构建模块32与所述计算模块31相连,用于基于所述距离向量和所述下标向量构建 最优引领森林。
所述确定模块33与所述构建模块32相连,用于确定所述最优引领森林中每棵子树的各 个节点的层次编号。
所述学习模块34与所述确定模块33相连,用于基于所述层次编号在各棵子树上分三个 阶段执行标签传播,以获取数据的回归结果或分类结果。
其中,计算模块31、构建模块32、确定模块33和学习模块34的结构和原理与上述非迭 代式大数据半监督学习方法中的步骤一一对应,故在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实 现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软 件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理 元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的 处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存 储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其 它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里 所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各 步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完 成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个 或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微 处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代 码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit, 简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系 统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该所述计算机程序被处理器执行时实现上述的 非迭代式大数据半监督学习方法。优选地,所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图4所示,于一实施例中,本发明的终端包括:处理器41及存储器42。
所述存储器42用于存储计算机程序。
所述存储器42包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序 代码的介质。
所述处理器41与所述存储器42相连,用于执行所述存储器42存储的计算机程序,以使 所述终端执行上述的非迭代式大数据半监督学习方法。
优选地,所述处理器41可以是通用处理器,包括中央处理器(Central ProcessingUnit,简 称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称 ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑 器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端基于最优 引领森林进行标签传播的半监督学习,实现了标签类别或数值的确定;大幅提高了半监督学 习的效率,特别在标签传播阶段,将算法的时间复杂度降低到O(N);便于对新到数据进行 增量式学习,可以在O(Ne)的时间复杂度内学习到新数据的预测结果,其中Ne为已存在最优 引领森林的节点数量;利用中间结果OLeaF可以追溯到最终学习结果的形成原因,使得学习 过程和学习结果均具有很高的可解释性;解决了现有技术中的图半监督学习方法训练效率较 低和不便于对新数据进行增量式学习的问题。所以,本发明有效克服了现有技术中的种种缺 点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技 术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等 效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种非迭代式大数据半监督学习方法,其特征在于:包括以下步骤:
计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量;
基于所述距离向量和所述下标向量构建最优引领森林;
确定所述最优引领森林中每棵子树的各个节点的层次编号;
基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数据的回归结果或分类结果。
2.根据权利要求1所述的非迭代式大数据半监督学习方法,其特征在于:还包括对数据集中的数据进行预处理,并针对预处理后的数据计算所述距离矩阵和所述局部密度向量。
3.根据权利要求2所述的非迭代式大数据半监督学习方法,其特征在于:所述预处理包括数据的合并、补齐中的一种或组合。
4.根据权利要求1所述的非迭代式大数据半监督学习方法,其特征在于:计算数据集的距离矩阵和局部密度向量,并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量包括以下步骤:
将所述数据集拆分成一定数量个大小均衡的子集;
计算每个子集到所述数据集的带状距离矩阵;
根据各个带状距离矩阵,计算各个子集中每个数据对应的局部密度子向量,将各个局部密度子向量依序拼接得到所述局部密度向量;
根据所述局部密度向量和各个带状距离矩阵并行计算子集中每个数据到引领节点的距离子向量和引领节点的下标子向量;将各个距离子向量依序拼接得到所述距离向量,将各个下标子向量依序拼接得到所述下标向量。
5.根据权利要求1所述的非迭代式大数据半监督学习方法,其特征在于:基于所述距离向量和所述下标向量构建最优引领森林包括以下步骤:
将所述引领节点的下标向量转换成一棵对应的引领树;
获取最优化函数
Figure FDA0002386638190000011
的最优解Ng *,其中H(·)用于将Ng变换到可以和DCost(·)函数值相比较的数量级上,Ωi表示第i棵引领子树;
Figure FDA0002386638190000021
是第i棵引领子树中除根节点之外的所有节点的距离向量之和,R(Ωi)表示第i棵引领子树的根节点,xj表示第i棵引领子树中的第j个节点,δj表示第i棵引领子树的第j个节点的距离向量,α表示权重,Ng表示引领树子树数目;
设定γ=ρ⊙δ,ρ表示所述局部密度向量,δ表示所述距离向量,⊙表示两个向量的逐元素对应相乘;将γ降序排序得到γS,选取γS中前Ng *个值对应的数据并剔除最大γ值对应的数据,将得到的Ng *-1数据对应的节点分别从它们的引领节点断开,以将所述引领树拆分为最优引领森林。
6.根据权利要求1所述的非迭代式大数据半监督学习方法,其特征在于:基于所述层次编号在各棵子树上分三个阶段执行标签传播包括以下步骤:
设定所述最优引领森林的目标函数;
基于所述目标函数依次执行三个阶段的标签传播,其中第一阶段进行子节点到父节点的传播,第二阶段进行根节点到根节点的传播,第三阶段进行父节点到子节点的传播。
7.根据权利要求6所述的非迭代式大数据半监督学习方法,其特征在于:所述最优引领森林的目标函数为
Figure FDA0002386638190000022
Figure FDA0002386638190000023
Fi表示数据的标签,i是父节点为p的所有子节点的下标;p表示根节点的样本序号,Wi表示下标为i的子节点到其父节点的连接强度,η(i)表示子节点i的父节点的下标,ζ表示父节点的下标向量。
8.一种非迭代式大数据半监督学习系统,其特征在于:包括计算模块、构建模块、确定模块和学习模块;
所述计算模块用于计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量;
所述构建模块用于基于所述距离向量和所述下标向量构建最优引领森林;
所述确定模块用于确定所述最优引领森林中每棵子树的各个节点的层次编号;
所述学习模块用于基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数据的回归结果或分类结果。
9.一种存储介质,其上存储有计算机程序,其特征在于,该所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的非迭代式大数据半监督学习方法。
10.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至7中任一项所述的非迭代式大数据半监督学习方法。
CN202010100021.6A 2020-02-18 2020-02-18 非迭代式大数据半监督学习方法、系统、存储介质及终端 Pending CN111612164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010100021.6A CN111612164A (zh) 2020-02-18 2020-02-18 非迭代式大数据半监督学习方法、系统、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010100021.6A CN111612164A (zh) 2020-02-18 2020-02-18 非迭代式大数据半监督学习方法、系统、存储介质及终端

Publications (1)

Publication Number Publication Date
CN111612164A true CN111612164A (zh) 2020-09-01

Family

ID=72201135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010100021.6A Pending CN111612164A (zh) 2020-02-18 2020-02-18 非迭代式大数据半监督学习方法、系统、存储介质及终端

Country Status (1)

Country Link
CN (1) CN111612164A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113640675A (zh) * 2021-07-29 2021-11-12 南京航空航天大学 基于Snippets特征提取的航空锂电池异常检测方法
CN113837252A (zh) * 2021-09-14 2021-12-24 支付宝(杭州)信息技术有限公司 聚类处理方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113640675A (zh) * 2021-07-29 2021-11-12 南京航空航天大学 基于Snippets特征提取的航空锂电池异常检测方法
CN113640675B (zh) * 2021-07-29 2022-05-20 南京航空航天大学 基于Snippets特征提取的航空锂电池异常检测方法
CN113837252A (zh) * 2021-09-14 2021-12-24 支付宝(杭州)信息技术有限公司 聚类处理方法和装置
CN113837252B (zh) * 2021-09-14 2024-03-26 支付宝(杭州)信息技术有限公司 聚类处理方法和装置

Similar Documents

Publication Publication Date Title
Zhao et al. A recursive regularization based feature selection framework for hierarchical classification
US7725409B2 (en) Gene expression programming based on Hidden Markov Models
US20210287069A1 (en) Name matching engine boosted by machine learning
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN113064586B (zh) 一种基于抽象语法树增广图模型的代码补全方法
CN110175235A (zh) 基于神经网络的智能商品税分类编码方法及系统
CN114579430A (zh) 一种基于预训练语言模型的测试用例推荐系统及方法
Eremeev On proportions of fit individuals in population of mutation-based evolutionary algorithm with tournament selection
CN111612164A (zh) 非迭代式大数据半监督学习方法、系统、存储介质及终端
CN115859302A (zh) 源代码漏洞检测方法、装置、设备及存储介质
CN115935983A (zh) 事件抽取方法、装置、电子设备及存储介质
CN117349311A (zh) 一种基于改进RetNet的数据库自然语言查询方法
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN116662991A (zh) 基于人工智能的智能合约意图检测方法
CN114139636B (zh) 异常作业处理方法及装置
CN110796381A (zh) 建模数据评价指标的处理方法、装置、终端设备及介质
CN113076089B (zh) 一种基于对象类型的api补全方法
CN111950602B (zh) 一种基于随机梯度下降和多示例多标签学习的图像标引方法
CN112182211B (zh) 文本分类方法及装置
Ko et al. Deep model compression and inference speedup of sum–product networks on tensor trains
CN113517045A (zh) 一种基于路径生成的电子病历icd代码预测方法及预测系统
CN117591969B (zh) 一种基于ipc标签共现的规则检核方法及系统
JP7187065B1 (ja) 計算手法決定システム、計算手法決定方法、及び、計算手法決定プログラム
Du et al. Minimum-Mapping based Connected Components Algorithm
CN114706927B (zh) 基于人工智能的数据批量标注方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901

RJ01 Rejection of invention patent application after publication