CN116186522A - 大数据核心特征提取方法、电子设备及存储介质 - Google Patents

大数据核心特征提取方法、电子设备及存储介质 Download PDF

Info

Publication number
CN116186522A
CN116186522A CN202310347597.6A CN202310347597A CN116186522A CN 116186522 A CN116186522 A CN 116186522A CN 202310347597 A CN202310347597 A CN 202310347597A CN 116186522 A CN116186522 A CN 116186522A
Authority
CN
China
Prior art keywords
tensor
data
updating
dimensional data
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310347597.6A
Other languages
English (en)
Other versions
CN116186522B (zh
Inventor
符蕴芳
张艮山
符瑞毅
陈永肖
祁瑞丽
方明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Linghe Computer Information Technology Co ltd
Original Assignee
Shijiazhuang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang University filed Critical Shijiazhuang University
Priority to CN202310347597.6A priority Critical patent/CN116186522B/zh
Publication of CN116186522A publication Critical patent/CN116186522A/zh
Application granted granted Critical
Publication of CN116186522B publication Critical patent/CN116186522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种大数据核心特征提取方法、电子设备及存储介质,首先获取待提取数据,并根据待提取数据构建张量表示的高维数据;对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1‑正则化项和流形正则化框架。通过对高维数据正交Tucker分解后,将产生的核张量,结合流形正则化嵌入约束和l 1‑正则化项,从而提高低维子空间的特征区分性,有效保持高维数据的几何信息,避免信息丢失,保证大数据核心特征提取的有效性。

Description

大数据核心特征提取方法、电子设备及存储介质
技术领域
本发明属于数据处理技术领域,尤其涉及一种大数据核心特征提取方法、电子设备及存储介质。
背景技术
随着互联网、物联网、云计算等科学技术的飞速发展,智能产品、社交媒体、网络通信和感知设备等产生的大数据汇集在信息-物理-社会系统(CPSS,Cyber Physical SocialSystem)中,这些大数据数据具备多源、异构、高维、混杂等特点。直接对CPSS大数据进行处理与分析,会给计算机带来巨大的存储与计算开销,并且由于大数据具有的低秩性,导致产生的冗余效果会较大影响各类机器学习、模式识别等任务的精度与效率。为了解决高维数据的维度灾难问题,在保留重要信息的前提下,需要对高维数据进行降维来提取特征。
通过降维处理不仅减少数据存储空间,还可以通过降低数据特征空间的维度来提取数据的有效特征,进而更好地完成各种学习任务。现有技术中,常用的降维方法有两种:第一种是基于向量或矩阵的数据表示的降维方法,例如主成分分析、核主成分分析、独立成分分析、线性判别分析和小波变换等,但其首先需要对原始数据进行向量化处理而导致空间结构信息丢失,而且会因为维数过高而产生小样本与维数灾难问题。第二种是基于张量表示的数据降维方法,即将数据用高阶张量表示,充分保留高维数据的空间结构与自然存储信息,通过张量分解算法有效实现高维数据有效降维。但其没有充分考虑在低维张量空间保持高维数据的几何信息,导致低维子空间的特征区分性不够理想。
发明内容
有鉴于此,本发明提供了一种大数据核心特征提取方法、电子设备及存储介质,旨在解决现有技术中大数据核心特征提取信息丢失的问题。
本发明实施例的第一方面提供了一种大数据核心特征提取方法,包括:
获取待提取数据,并根据待提取数据构建张量表示的高维数据;
对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;
将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
本发明实施例的第二方面提供了一种大数据核心特征提取装置,包括:
获取模块,用于获取待提取数据,并根据待提取数据构建张量表示的高维数据;
分解模块,用于对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;
提取模块,用于将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
本发明实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上第一方面的大数据核心特征提取方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上第一方面的大数据核心特征提取方法的步骤。
本发明实施例提供的大数据核心特征提取方法、电子设备及存储介质,首先获取待提取数据,并根据待提取数据构建张量表示的高维数据;对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。通过对高维数据正交Tucker分解后,将产生的核张量,结合流形正则化嵌入约束和l 1正则化项,从而提高低维子空间的特征区分性,有效保持高维数据的几何信息,避免信息丢失,保证大数据核心特征提取的有效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的大数据核心特征提取方法的应用场景图;
图2是本发明实施例提供的大数据核心特征提取方法的实现流程图;
图3是本发明另一实施例提供的大数据核心特征提取方法的实现流程图;
图4是本发明实施例提供的大数据核心特征提取装置的结构示意图;
图5是本发明实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1是本发明实施例提供的大数据核心特征提取方法的应用场景图。如图1所示,在一些实施例中,本发明实施例提供的大数据核心特征提取方法可以但不限于应用于该应用场景。在该发明实施例中,该系统包括:物理信息系统11和电子设备12。
物理信息系统11可以是人脸识别系统、电力物理信息系统等,在此不作限定。电子设备12可以是终端、服务器等,终端可以是电脑、MCU等,服务器可以是物理服务器、云服务器等,在此不作限定。物理信息系统11首先向电子设备12上报待提取数据,电子设备12对待提取数据的低维特征进行提取,并发送给物理信息系统11。
图2是本发明实施例提供的大数据核心特征提取方法的实现流程图。如图2所示,在一些实施例中,大数据核心特征提取方法,应用于图1中所示的电子设备12,该方法包括:
S210,获取待提取数据,并根据待提取数据构建张量表示的高维数据。
在本发明实施例中,首先,获取社会物理信息系统中的
Figure SMS_3
个/>
Figure SMS_4
阶高维数据,
Figure SMS_6
,用来自然存储所有高维数据的特征信息,其中,/>
Figure SMS_2
表示/>
Figure SMS_5
个特征空间的维度,R k<I k。构建的/>
Figure SMS_7
阶张量/>
Figure SMS_8
是高维的,因此,需要一种张量降维技术将构建的
Figure SMS_1
阶张量正交投影到一个张量子空间中,并转化为更紧凑的表示,即生成相应的核张量。
S220,对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵。
在本发明实施例中,对高维数据进行正交Tucker分解,即可得到核张量
Figure SMS_9
和各模对应的因子矩阵/>
Figure SMS_10
S230,将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
在本发明实施例中,需要对构建的高维数据的进行正交Tucker分解降维,找到一组较小规模的核张量。因此可以采用
Figure SMS_11
的正交Tucker分解,借助l 1-正则化项得到核张量/>
Figure SMS_12
上的稀疏性,然后利用流形正则化框架,在/>
Figure SMS_13
投影到低维张量/>
Figure SMS_14
时尽可能保留/>
Figure SMS_15
几何信息,即在低维张量空间利用流形结构约束来实现高维数据的几何信息的保持,避免信息丢失,保证大数据核心特征提取的有效性。
在一些实施例中,S230可以包括:在张量优化模型的约束下对核张量和各模对应的因子矩阵进行迭代更新,并在每次迭代更新完成后,根据更新前的核张量、更新前各模对应的因子矩阵、更新后的核张量、更新后各模对应的因子矩阵和高维数据,确定更新后的核张量是否满足预设规则;若更新后的核张量满足预设规则,则将其作为待提取数据的低维特征;若更新后的核张量满足不预设规则,则在张量优化模型的约束下进行下一次迭代更新。
在本发明实施例中,块坐标下降算法的输入为M个张量
Figure SMS_16
、第一参数β、平衡参数γ,输出为/>
Figure SMS_17
。块坐标下降算法的步骤为:
1.随机初始化
Figure SMS_18
,/>
Figure SMS_19
,设置i=0。
2.更新因子矩阵,得到
Figure SMS_20
3.更新核张量,得到
Figure SMS_21
4.判断是否满足预设规则,若满足预设规则,则将
Figure SMS_22
作为待提取数据的低维特征,若满足预设规则,则i=i+1,跳转至步骤2。
在一些实施例中,张量优化模型为:
Figure SMS_23
(1)/>
Figure SMS_24
(2)
其中,平衡参数γ>0用于控制核张量的稀疏性,β>0为第一参数,用于控制张量几何信息保留,
Figure SMS_27
为第iN维的高维数据,i∈(1,M),/>
Figure SMS_28
为/>
Figure SMS_31
个/>
Figure SMS_26
阶张量数据,/>
Figure SMS_29
为核张量的集合/>
Figure SMS_32
中的第i项,U n为第n模的因子矩阵,/>
Figure SMS_34
W ij是一个大小为M* M的矩阵,/>
Figure SMS_25
,/>
Figure SMS_30
为张量/>
Figure SMS_33
k最近邻组成的集合,/>
Figure SMS_35
是Stiefel流形,I n为第n个特征空间的维度,R n为核张量的第n模的维数。
在本发明实施例中,如果任意两个张量
Figure SMS_37
和/>
Figure SMS_39
在张量/>
Figure SMS_40
的集合中是几何关系密切,则张量优化模型可以通过选择一些适当的权重/>
Figure SMS_38
,以保持张量/>
Figure SMS_42
和/>
Figure SMS_43
的低维投影/>
Figure SMS_44
和/>
Figure SMS_36
在张量/>
Figure SMS_41
的集合中也几何关系密切。
本发明采用块坐标下降(Block Coordinate Descent,BCD)算法来对张量优化模型进行求解。BCD方案将含有多变量且不易处理的优化问题,将张量优化模型分块为易于解决的小问题并进行迭代求解。其特点是:(1)分块函数是凸函数,或凸函数的组合函数,其中,一个是光滑的可微的凸函数,另一个是不光滑不可微的凸函数;(2)目标函数产生的迭代序列是不上升的。本发明引入指示函数
Figure SMS_45
,并定义为:
Figure SMS_46
(3)
因此,可以将张量优化模型写为如下的非光滑张量优化问题:
Figure SMS_47
(4)
Figure SMS_50
为非光滑张量优化问题的目标函数。可以看出/>
Figure SMS_51
中所涉及的非光滑项在/>
Figure SMS_53
和/>
Figure SMS_49
中是可分离的。为了简单起见,将从所有变量/>
Figure SMS_52
和/>
Figure SMS_54
中删除迭代k和k+1,并使用/>
Figure SMS_55
和/>
Figure SMS_48
进行更新。
在一些实施例中,每次迭代更新的步骤为:根据更新前的核张量和高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵;根据更新后各模对应的因子矩阵和高维数据对更新前的核张量进行更新,得到更新后的核张量。
在一些实施例中,根据更新前的核张量和高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵,包括:
Figure SMS_56
(5)
其中,
Figure SMS_58
为更新后的第n模因子矩阵,U n为第n模的因子矩阵,/>
Figure SMS_65
为第iN维的高维数据的n模展开,i∈(1,M),/>
Figure SMS_66
为指示函数,/>
Figure SMS_59
Figure SMS_60
,/>
Figure SMS_63
,/>
Figure SMS_64
,/>
Figure SMS_57
I n为第n个特征空间的维度,R n为核张量的第n模的维数,/>
Figure SMS_61
表示/>
Figure SMS_62
的乘积矩阵。
在本发明实施例中,在因子矩阵
Figure SMS_67
的优化中,/>
Figure SMS_68
和/>
Figure SMS_69
分别是矩阵/>
Figure SMS_70
进行奇异值分解后的左、右奇异矩阵,上述的公式(5)中的最后一个等式来自于von Neumann的迹不等式,即:
Figure SMS_71
(6)
当两个任意矩阵
Figure SMS_72
有相同的左、右奇异矩阵时,上式的迹不等式的等式成立。
在一些实施例中,根据更新后各模对应的因子矩阵和高维数据对更新前的核张量进行更新,得到更新后的核张量,包括:
Figure SMS_73
(7)
其中,
Figure SMS_74
为更新后的第i项核张量,/>
Figure SMS_75
为更新前的第j项核张量,/>
Figure SMS_76
为张量软阈值算子,β为第一参数,/>
Figure SMS_77
为第iN维的高维数据,i∈(1,M),/>
Figure SMS_78
为更新后的第n模因子矩阵,W ij是一个大小为M*M的矩阵,/>
Figure SMS_79
在本发明实施例中,更新
Figure SMS_80
的子问题的形式为:/>
Figure SMS_81
(8)
其中,
Figure SMS_82
,/>
Figure SMS_83
,/>
Figure SMS_84
并且,
Figure SMS_85
为与函数/>
Figure SMS_86
相关的逼近映射,定义为:
Figure SMS_87
(9)
其中,
Figure SMS_88
用于更新/>
Figure SMS_89
Figure SMS_90
(10)
通过上述的式(8)-(10),即可得到核张量的更新表达式,即上述的式(7)。
在一些实施例中,预设规则为:
Figure SMS_91
(11)
其中,k为迭代次数,
Figure SMS_92
为预设精度参数。
在本发明实施例中,预设精度参数可以设置为1e -4
在一些实施例中,在S220之后,还包括:根据预设优选方案设置核张量的各模的维数;其中,预设优选方案为:
Figure SMS_93
(12)
其中,R n为核张量第n模的维数,,λ j
Figure SMS_94
j个最大特征值,/>
Figure SMS_95
为第i个高维数据的第/>
Figure SMS_96
模展开值,而σ n是截断精度的阈值,n∈(1,N)。
在本发明实施例中,σ n可以设置为0.90。
图3是本发明另一实施例提供的大数据核心特征提取方法的实现流程图。如图3所示,本发明的大数据核心特征提取方法的步骤可以为:
Ⅰ.构建用于张量表示的高维数据。
Ⅱ.根据预设优选方案设置核张量的各模的维数。
Ⅲ.根据高维数据构建基于张量表示的流形正则化嵌入优化问题模型,即上述的张量优化模型。
Ⅳ.求解基于张量表示的流形正则化嵌入优化问题模型,得到高维数据降维后的低维特征,即更新后的核张量。
Ⅴ.判断是否满足预设规则,若满足则将得到的核张量作为最终提取出的低维特征。若不满足则跳转至步骤Ⅳ重新迭代求解更新后的核张量。
综上,本发明的有益效果具体为:
通过对高维数据正交Tucker分解后,将产生的核张量,结合流形正则化嵌入约束和l 1-正则化项,从而提高低维子空间的特征区分性,有效保持高维数据的几何信息,避免信息丢失,保证大数据核心特征提取的有效性。
通过将分解产生的因子矩阵的低秩结构和核张量的结构稀疏性来构建重构张量,从而刻画高维数据的各维度之间的低秩性,来对高维数据进行补全,实现空气质量的精准监测。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图4是本发明实施例提供的大数据核心特征提取装置的结构示意图。如图4所示,在一些实施例中,大数据核心特征提取装置4,包括:
获取模块410,用于获取待提取数据,并根据待提取数据构建张量表示的高维数据。
分解模块420,用于对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵。
提取模块430,用于将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
可选的,提取模块430,具体用于:在张量优化模型的约束下对核张量和各模对应的因子矩阵进行迭代更新,并在每次迭代更新完成后,根据更新前的核张量、更新前各模对应的因子矩阵、更新后的核张量、更新后各模对应的因子矩阵和高维数据,确定更新后的核张量是否满足预设规则;若更新后的核张量满足预设规则,则将其作为待提取数据的低维特征;若更新后的核张量满足不预设规则,则在张量优化模型的约束下进行下一次迭代更新。
可选的,每次迭代更新的步骤为:根据更新前的核张量和高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵;根据更新后各模对应的因子矩阵和高维数据对更新前的核张量进行更新,得到更新后的核张量。
可选的,提取模块430,具体用于:
Figure SMS_97
其中,
Figure SMS_100
为更新后的第n模因子矩阵,U n为第n模的因子矩阵,/>
Figure SMS_104
为第iN维的高维数据的第n模展开,i∈(1,M),/>
Figure SMS_107
为指示函数,/>
Figure SMS_99
Figure SMS_103
,/>
Figure SMS_105
,/>
Figure SMS_106
,/>
Figure SMS_98
I n为第n个特征空间的维度,R n为核张量的第n模的维数,/>
Figure SMS_101
表示/>
Figure SMS_102
的乘积矩阵。
可选的,提取模块430,具体用于:
Figure SMS_108
其中,
Figure SMS_109
为更新后的第i项核张量,/>
Figure SMS_110
为更新前的第j项核张量,/>
Figure SMS_111
为张量软阈值算子,β为第一参数,/>
Figure SMS_112
为第iN维的高维数据,i∈(1,M),/>
Figure SMS_113
为更新后的第n模因子矩阵,W ij是一个大小为M*M的矩阵,/>
Figure SMS_114
可选的,张量优化模型为:
Figure SMS_115
其中:
Figure SMS_116
其中,平衡参数γ>0用于控制核张量的稀疏性,β>0为第一参数,用于控制张量几何信息保留,
Figure SMS_118
为第iN维的高维数据,i∈(1,M),/>
Figure SMS_120
为/>
Figure SMS_123
个/>
Figure SMS_119
阶张量数据,/>
Figure SMS_121
为核张量的集合/>
Figure SMS_124
中的第i项,U n为第n模的因子矩阵,/>
Figure SMS_125
W ij是一个大小为M* M的矩阵,/>
Figure SMS_117
,/>
Figure SMS_122
是Stiefel流形,I n为第n个特征空间的维度,R n为核张量的第n模的维数。
可选的,预设规则为:
Figure SMS_126
其中,k为迭代次数,
Figure SMS_127
为预设精度参数。
可选的,大数据核心特征提取装置还包括:维数优选模块,用于根据预设优选方案设置核张量的各模的维数;
其中,预设优选方案为:
Figure SMS_128
其中,R n为核张量第n模的维数,,λ j
Figure SMS_129
j个最大特征值,/>
Figure SMS_130
为第i个高维数据的第/>
Figure SMS_131
模展开值,而σ n是截断精度的阈值,n∈(1,N)。
本实施例提供的大数据核心特征提取装置,可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图5是本发明实施例提供的电子设备的结构示意图。如图5所示,本发明的一个实施例提供的电子设备5,该实施例的电子设备5包括:处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。处理器50执行计算机程序52时实现上述各个大数据核心特征提取方法实施例中的步骤,例如图2所示的步骤210至步骤250。或者,处理器50执行计算机程序52时实现上述各系统实施例中各模块/单元的功能,例如图4所示模块410至450的功能。
示例性的,计算机程序52可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器51中,并由处理器50执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序52在电子设备5中的执行过程。
电子设备5可以是可以为终端、服务器等,在此不作限定,服务器可以是物理服务器、云服务器等,在此不作限定。电子设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器51可以是电子设备5的内部存储单元,例如电子设备5的硬盘或内存。存储器51也可以是电子设备5的外部存储设备,例如电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器51还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器51用于存储计算机程序以及电子设备所需的其他程序和数据。存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述大数据核心特征提取方法实施例中的步骤。
计算机可读存储介质存储有计算机程序52,计算机程序52包括程序指令,程序指令被处理器50执行时实现上述实施例方法中的全部或部分流程,也可以通过计算机程序52来指令相关的硬件来完成,计算机程序52可存储于一计算机可读存储介质中,该计算机程序52在被处理器50执行时,可实现上述各个方法实施例的步骤。其中,计算机程序52包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
计算机可读存储介质可以是前述任一实施例的电子设备的内部存储单元,例如电子设备的硬盘或内存。计算机可读存储介质也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括电子设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及电子设备所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大数据核心特征提取方法,其特征在于,包括:
获取待提取数据,并根据所述待提取数据构建张量表示的高维数据;
对所述高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;
将所述核张量、所述各模对应的因子矩阵、所述高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对所述张量优化模型进行求解,得到所述待提取数据的低维特征;其中,所述张量优化模型中设置有l 1-正则化项和流形正则化框架。
2.根据权利要求1所述的大数据核心特征提取方法,其特征在于,将所述核张量、所述各模对应的因子矩阵、所述高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对所述张量优化模型进行求解,得到所述待提取数据的低维特征,包括:
在所述张量优化模型的约束下对核张量和各模对应的因子矩阵进行迭代更新,并在每次迭代更新完成后,根据更新前的核张量、更新前各模对应的因子矩阵、更新后的核张量、更新后各模对应的因子矩阵和所述高维数据,确定更新后的核张量是否满足预设规则;
若更新后的核张量满足预设规则,则将其作为所述待提取数据的低维特征;
若更新后的核张量满足不预设规则,则在所述张量优化模型的约束下进行下一次迭代更新。
3.根据权利要求2所述的大数据核心特征提取方法,其特征在于,每次迭代更新的步骤为:
根据更新前的核张量和所述高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵;
根据更新后各模对应的因子矩阵和所述高维数据对更新前的核张量进行更新,得到更新后的核张量。
4.根据权利要求3所述的大数据核心特征提取方法,其特征在于,所述根据更新前的核张量和所述高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵,包括:
Figure QLYQS_1
其中,
Figure QLYQS_3
为更新后的第n模因子矩阵,U n为第n模的因子矩阵,/>
Figure QLYQS_6
为第iN维的高维数据的n模展开,i∈(1,M),/>
Figure QLYQS_9
为指示函数,/>
Figure QLYQS_4
Figure QLYQS_7
,/>
Figure QLYQS_10
,/>
Figure QLYQS_11
,/>
Figure QLYQS_2
I n为第n个特征空间的维度,R n为核张量的第n模的维数,/>
Figure QLYQS_5
表示/>
Figure QLYQS_8
的乘积矩阵。
5.根据权利要求3所述的大数据核心特征提取方法,其特征在于,根据更新后各模对应的因子矩阵和所述高维数据对更新前的核张量进行更新,得到更新后的核张量,包括:
Figure QLYQS_12
其中,
Figure QLYQS_13
为更新后的第i项核张量,/>
Figure QLYQS_17
为更新前的第j项核张量,/>
Figure QLYQS_19
为张量软阈值算子,β为第一参数,/>
Figure QLYQS_15
为第iN维的高维数据,i∈(1,M),/>
Figure QLYQS_16
为更新后的第n模因子矩阵,W ij是一个大小为M*M的矩阵,/>
Figure QLYQS_18
,其中/>
Figure QLYQS_20
是一个张量/>
Figure QLYQS_14
k最近邻组成的集合。
6.根据权利要求2所述的大数据核心特征提取方法,其特征在于,所述张量优化模型为:
Figure QLYQS_21
其中:
Figure QLYQS_22
平衡参数
Figure QLYQS_23
用于控制核张量的稀疏性,第一参数/>
Figure QLYQS_26
用于控制张量几何信息保留,
Figure QLYQS_29
为第iN维的高维数据,i∈(1,M),/>
Figure QLYQS_25
,/>
Figure QLYQS_27
为所述核张量的集合/>
Figure QLYQS_30
中的第i项,U n为第n模的因子矩阵,/>
Figure QLYQS_32
W ij是一个大小为M*M的矩阵,
Figure QLYQS_24
,/>
Figure QLYQS_28
为张量/>
Figure QLYQS_31
k最近邻组成的集合,/>
Figure QLYQS_33
是Stiefel流形,I n为第n个特征空间的维度,R n为核张量的第n模的维数。
7.根据权利要求6所述的大数据核心特征提取方法,其特征在于,所述预设规则为:
Figure QLYQS_34
其中,k为迭代次数,
Figure QLYQS_35
为预设精度参数。
8.根据权利要求1-7任一项所述的大数据核心特征提取方法,其特征在于,在对所述高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵之后,所述方法还包括:
根据预设优选方案设置所述核张量的各模的维数;
其中,所述预设优选方案为:
Figure QLYQS_36
其中,R n为核张量第n模的维数,,λ j
Figure QLYQS_37
j个最大特征值,/>
Figure QLYQS_38
为第i个高维数据的第/>
Figure QLYQS_39
模展开值,而σ n是截断精度的阈值,n∈(1,N)。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至8中任一项所述大数据核心特征提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上的权利要求1至8中任一项所述大数据核心特征提取方法的步骤。
CN202310347597.6A 2023-04-04 2023-04-04 大数据核心特征提取方法、电子设备及存储介质 Active CN116186522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310347597.6A CN116186522B (zh) 2023-04-04 2023-04-04 大数据核心特征提取方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310347597.6A CN116186522B (zh) 2023-04-04 2023-04-04 大数据核心特征提取方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116186522A true CN116186522A (zh) 2023-05-30
CN116186522B CN116186522B (zh) 2023-07-18

Family

ID=86449034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310347597.6A Active CN116186522B (zh) 2023-04-04 2023-04-04 大数据核心特征提取方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116186522B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451058A (zh) * 2023-06-20 2023-07-18 石家庄学院 基于张量补全的多源异构数据特征提取方法、设备及介质
CN116738214A (zh) * 2023-08-03 2023-09-12 石家庄学院 一种基于高阶张量的数据降维预处理方法
CN117473303A (zh) * 2023-12-27 2024-01-30 小舟科技有限公司 基于脑电信号的个性化动态意图特征提取方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260554A (zh) * 2015-10-27 2016-01-20 武汉大学 一种基于gpu集群的多维大数据因子化方法
CN111209530A (zh) * 2020-01-14 2020-05-29 华中科技大学鄂州工业技术研究院 基于张量分解的异构大数据因子特征提取的方法及系统
CN111209974A (zh) * 2020-01-14 2020-05-29 华中科技大学鄂州工业技术研究院 基于张量分解的异构大数据核心特征提取的方法及系统
CN112307352A (zh) * 2020-11-26 2021-02-02 腾讯科技(深圳)有限公司 内容推荐方法、系统、装置和存储介质
CN114707011A (zh) * 2022-03-04 2022-07-05 中国科学院上海微系统与信息技术研究所 一种基于张量分解的多源异构数据特征融合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260554A (zh) * 2015-10-27 2016-01-20 武汉大学 一种基于gpu集群的多维大数据因子化方法
CN111209530A (zh) * 2020-01-14 2020-05-29 华中科技大学鄂州工业技术研究院 基于张量分解的异构大数据因子特征提取的方法及系统
CN111209974A (zh) * 2020-01-14 2020-05-29 华中科技大学鄂州工业技术研究院 基于张量分解的异构大数据核心特征提取的方法及系统
CN112307352A (zh) * 2020-11-26 2021-02-02 腾讯科技(深圳)有限公司 内容推荐方法、系统、装置和存储介质
CN114707011A (zh) * 2022-03-04 2022-07-05 中国科学院上海微系统与信息技术研究所 一种基于张量分解的多源异构数据特征融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭伟等: "基于张量的智能电网大数据降维研究", 《信息技术》, pages 115 - 120 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451058A (zh) * 2023-06-20 2023-07-18 石家庄学院 基于张量补全的多源异构数据特征提取方法、设备及介质
CN116738214A (zh) * 2023-08-03 2023-09-12 石家庄学院 一种基于高阶张量的数据降维预处理方法
CN116738214B (zh) * 2023-08-03 2023-11-14 石家庄学院 一种基于高阶张量的数据降维预处理方法
CN117473303A (zh) * 2023-12-27 2024-01-30 小舟科技有限公司 基于脑电信号的个性化动态意图特征提取方法及相关装置
CN117473303B (zh) * 2023-12-27 2024-03-19 小舟科技有限公司 基于脑电信号的个性化动态意图特征提取方法及相关装置

Also Published As

Publication number Publication date
CN116186522B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN116186522B (zh) 大数据核心特征提取方法、电子设备及存储介质
CN106980623B (zh) 一种数据模型的确定方法及装置
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN116109121B (zh) 基于大数据分析的用户需求挖掘方法及系统
CN104933445A (zh) 一种基于分布式K-means的海量图像分类方法
CN110288605A (zh) 细胞图像分割方法和装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110689045A (zh) 一种深度学习模型的分布式训练方法及装置
Zhang et al. Enabling in-situ data analysis for large protein-folding trajectory datasets
CN113743650B (zh) 电力负荷预测方法、装置、设备与存储介质
CN116662839A (zh) 基于多维智能采集的关联大数据聚类分析方法及装置
Han et al. Efficient neural network approximation of robust pca for automated analysis of calcium imaging data
CN109325167B (zh) 特征分析方法、装置、设备、计算机可读存储介质
CN116087435B (zh) 空气质量监测方法、电子设备及存储介质
Dai et al. MDC-Net: A multi-directional constrained and prior assisted neural network for wood and leaf separation from terrestrial laser scanning
CN111209530A (zh) 基于张量分解的异构大数据因子特征提取的方法及系统
CN115995011A (zh) 基于图正则化的非线性正交非负矩阵分解图像聚类方法
Mizera et al. GPU-accelerated steady-state computation of large probabilistic Boolean networks
Liang et al. A parallel probabilistic latent semantic analysis method on MapReduce platform
DE102021129862A1 (de) Verfahren und Einrichtung zum Identifizieren von Hardwareperformanzzählereignissen zum Detektieren und Klassifizieren von Malware oder Arbeitslast unter Verwendung künstlicher Intelligenz
CN113850632A (zh) 用户类别确定方法、装置、设备及存储介质
Li et al. CUSNTF: A scalable sparse non-negative tensor factorization model for large-scale industrial applications on multi-GPU
Hashimoto et al. BFL: a node and edge betweenness based fast layout algorithm for large scale networks
Arge et al. Fast generation of multiple resolution instances of raster data sets
CN112257323B (zh) 基于电磁暂态并行计算的自动分网方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230728

Address after: 050051 Floor 5, No. 2, Xiangyi Road, Xinhua District, Shijiazhuang City, Hebei Province

Patentee after: Hebei Linghe Computer Information Technology Co.,Ltd.

Address before: 050035 Shijiazhuang University, No. 288, Zhufeng street, high tech Zone, Shijiazhuang City, Hebei Province

Patentee before: SHIJIAZHUANG University