CN116186522A - 大数据核心特征提取方法、电子设备及存储介质 - Google Patents
大数据核心特征提取方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116186522A CN116186522A CN202310347597.6A CN202310347597A CN116186522A CN 116186522 A CN116186522 A CN 116186522A CN 202310347597 A CN202310347597 A CN 202310347597A CN 116186522 A CN116186522 A CN 116186522A
- Authority
- CN
- China
- Prior art keywords
- tensor
- data
- updating
- dimensional data
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 238000005457 optimization Methods 0.000 claims abstract description 44
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 16
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- ODKSFYDXXFIFQN-BYPYZUCNSA-N L-arginine Chemical compound OC(=O)[C@@H](N)CCCN=C(N)N ODKSFYDXXFIFQN-BYPYZUCNSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种大数据核心特征提取方法、电子设备及存储介质,首先获取待提取数据,并根据待提取数据构建张量表示的高维数据;对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1‑正则化项和流形正则化框架。通过对高维数据正交Tucker分解后,将产生的核张量,结合流形正则化嵌入约束和l 1‑正则化项,从而提高低维子空间的特征区分性,有效保持高维数据的几何信息,避免信息丢失,保证大数据核心特征提取的有效性。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种大数据核心特征提取方法、电子设备及存储介质。
背景技术
随着互联网、物联网、云计算等科学技术的飞速发展,智能产品、社交媒体、网络通信和感知设备等产生的大数据汇集在信息-物理-社会系统(CPSS,Cyber Physical SocialSystem)中,这些大数据数据具备多源、异构、高维、混杂等特点。直接对CPSS大数据进行处理与分析,会给计算机带来巨大的存储与计算开销,并且由于大数据具有的低秩性,导致产生的冗余效果会较大影响各类机器学习、模式识别等任务的精度与效率。为了解决高维数据的维度灾难问题,在保留重要信息的前提下,需要对高维数据进行降维来提取特征。
通过降维处理不仅减少数据存储空间,还可以通过降低数据特征空间的维度来提取数据的有效特征,进而更好地完成各种学习任务。现有技术中,常用的降维方法有两种:第一种是基于向量或矩阵的数据表示的降维方法,例如主成分分析、核主成分分析、独立成分分析、线性判别分析和小波变换等,但其首先需要对原始数据进行向量化处理而导致空间结构信息丢失,而且会因为维数过高而产生小样本与维数灾难问题。第二种是基于张量表示的数据降维方法,即将数据用高阶张量表示,充分保留高维数据的空间结构与自然存储信息,通过张量分解算法有效实现高维数据有效降维。但其没有充分考虑在低维张量空间保持高维数据的几何信息,导致低维子空间的特征区分性不够理想。
发明内容
有鉴于此,本发明提供了一种大数据核心特征提取方法、电子设备及存储介质,旨在解决现有技术中大数据核心特征提取信息丢失的问题。
本发明实施例的第一方面提供了一种大数据核心特征提取方法,包括:
获取待提取数据,并根据待提取数据构建张量表示的高维数据;
对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;
将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
本发明实施例的第二方面提供了一种大数据核心特征提取装置,包括:
获取模块,用于获取待提取数据,并根据待提取数据构建张量表示的高维数据;
分解模块,用于对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;
提取模块,用于将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
本发明实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上第一方面的大数据核心特征提取方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上第一方面的大数据核心特征提取方法的步骤。
本发明实施例提供的大数据核心特征提取方法、电子设备及存储介质,首先获取待提取数据,并根据待提取数据构建张量表示的高维数据;对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。通过对高维数据正交Tucker分解后,将产生的核张量,结合流形正则化嵌入约束和l 1正则化项,从而提高低维子空间的特征区分性,有效保持高维数据的几何信息,避免信息丢失,保证大数据核心特征提取的有效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的大数据核心特征提取方法的应用场景图;
图2是本发明实施例提供的大数据核心特征提取方法的实现流程图;
图3是本发明另一实施例提供的大数据核心特征提取方法的实现流程图;
图4是本发明实施例提供的大数据核心特征提取装置的结构示意图;
图5是本发明实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1是本发明实施例提供的大数据核心特征提取方法的应用场景图。如图1所示,在一些实施例中,本发明实施例提供的大数据核心特征提取方法可以但不限于应用于该应用场景。在该发明实施例中,该系统包括:物理信息系统11和电子设备12。
物理信息系统11可以是人脸识别系统、电力物理信息系统等,在此不作限定。电子设备12可以是终端、服务器等,终端可以是电脑、MCU等,服务器可以是物理服务器、云服务器等,在此不作限定。物理信息系统11首先向电子设备12上报待提取数据,电子设备12对待提取数据的低维特征进行提取,并发送给物理信息系统11。
图2是本发明实施例提供的大数据核心特征提取方法的实现流程图。如图2所示,在一些实施例中,大数据核心特征提取方法,应用于图1中所示的电子设备12,该方法包括:
S210,获取待提取数据,并根据待提取数据构建张量表示的高维数据。
在本发明实施例中,首先,获取社会物理信息系统中的个/>阶高维数据,,用来自然存储所有高维数据的特征信息,其中,/>表示/>个特征空间的维度,R k<I k。构建的/>阶张量/>是高维的,因此,需要一种张量降维技术将构建的阶张量正交投影到一个张量子空间中,并转化为更紧凑的表示,即生成相应的核张量。
S220,对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵。
S230,将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
在本发明实施例中,需要对构建的高维数据的进行正交Tucker分解降维,找到一组较小规模的核张量。因此可以采用的正交Tucker分解,借助l 1-正则化项得到核张量/>上的稀疏性,然后利用流形正则化框架,在/>投影到低维张量/>时尽可能保留/>几何信息,即在低维张量空间利用流形结构约束来实现高维数据的几何信息的保持,避免信息丢失,保证大数据核心特征提取的有效性。
在一些实施例中,S230可以包括:在张量优化模型的约束下对核张量和各模对应的因子矩阵进行迭代更新,并在每次迭代更新完成后,根据更新前的核张量、更新前各模对应的因子矩阵、更新后的核张量、更新后各模对应的因子矩阵和高维数据,确定更新后的核张量是否满足预设规则;若更新后的核张量满足预设规则,则将其作为待提取数据的低维特征;若更新后的核张量满足不预设规则,则在张量优化模型的约束下进行下一次迭代更新。
在一些实施例中,张量优化模型为:
其中,平衡参数γ>0用于控制核张量的稀疏性,β>0为第一参数,用于控制张量几何信息保留,为第i个N维的高维数据,i∈(1,M),/>为/>个/>阶张量数据,/>为核张量的集合/>中的第i项,U n为第n模的因子矩阵,/>,W ij是一个大小为M* M的矩阵,/>,/>为张量/>的k最近邻组成的集合,/>是Stiefel流形,I n为第n个特征空间的维度,R n为核张量的第n模的维数。
本发明采用块坐标下降(Block Coordinate Descent,BCD)算法来对张量优化模型进行求解。BCD方案将含有多变量且不易处理的优化问题,将张量优化模型分块为易于解决的小问题并进行迭代求解。其特点是:(1)分块函数是凸函数,或凸函数的组合函数,其中,一个是光滑的可微的凸函数,另一个是不光滑不可微的凸函数;(2)目标函数产生的迭代序列是不上升的。本发明引入指示函数,并定义为:
因此,可以将张量优化模型写为如下的非光滑张量优化问题:
在一些实施例中,每次迭代更新的步骤为:根据更新前的核张量和高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵;根据更新后各模对应的因子矩阵和高维数据对更新前的核张量进行更新,得到更新后的核张量。
在一些实施例中,根据更新前的核张量和高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵,包括:
其中,为更新后的第n模因子矩阵,U n为第n模的因子矩阵,/>为第i个N维的高维数据的n模展开,i∈(1,M),/>为指示函数,/>,,/>,/>,/>,I n为第n个特征空间的维度,R n为核张量的第n模的维数,/>表示/>的乘积矩阵。
在一些实施例中,根据更新后各模对应的因子矩阵和高维数据对更新前的核张量进行更新,得到更新后的核张量,包括:
其中,为更新后的第i项核张量,/>为更新前的第j项核张量,/>为张量软阈值算子,β为第一参数,/>为第i个N维的高维数据,i∈(1,M),/>为更新后的第n模因子矩阵,W ij是一个大小为M*M的矩阵,/>。
通过上述的式(8)-(10),即可得到核张量的更新表达式,即上述的式(7)。
在一些实施例中,预设规则为:
在本发明实施例中,预设精度参数可以设置为1e -4。
在一些实施例中,在S220之后,还包括:根据预设优选方案设置核张量的各模的维数;其中,预设优选方案为:
在本发明实施例中,σ n可以设置为0.90。
图3是本发明另一实施例提供的大数据核心特征提取方法的实现流程图。如图3所示,本发明的大数据核心特征提取方法的步骤可以为:
Ⅰ.构建用于张量表示的高维数据。
Ⅱ.根据预设优选方案设置核张量的各模的维数。
Ⅲ.根据高维数据构建基于张量表示的流形正则化嵌入优化问题模型,即上述的张量优化模型。
Ⅳ.求解基于张量表示的流形正则化嵌入优化问题模型,得到高维数据降维后的低维特征,即更新后的核张量。
Ⅴ.判断是否满足预设规则,若满足则将得到的核张量作为最终提取出的低维特征。若不满足则跳转至步骤Ⅳ重新迭代求解更新后的核张量。
综上,本发明的有益效果具体为:
通过对高维数据正交Tucker分解后,将产生的核张量,结合流形正则化嵌入约束和l 1-正则化项,从而提高低维子空间的特征区分性,有效保持高维数据的几何信息,避免信息丢失,保证大数据核心特征提取的有效性。
通过将分解产生的因子矩阵的低秩结构和核张量的结构稀疏性来构建重构张量,从而刻画高维数据的各维度之间的低秩性,来对高维数据进行补全,实现空气质量的精准监测。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图4是本发明实施例提供的大数据核心特征提取装置的结构示意图。如图4所示,在一些实施例中,大数据核心特征提取装置4,包括:
获取模块410,用于获取待提取数据,并根据待提取数据构建张量表示的高维数据。
分解模块420,用于对高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵。
提取模块430,用于将核张量、各模对应的因子矩阵、高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对张量优化模型进行求解,得到待提取数据的低维特征;其中,张量优化模型中设置有l 1-正则化项和流形正则化框架。
可选的,提取模块430,具体用于:在张量优化模型的约束下对核张量和各模对应的因子矩阵进行迭代更新,并在每次迭代更新完成后,根据更新前的核张量、更新前各模对应的因子矩阵、更新后的核张量、更新后各模对应的因子矩阵和高维数据,确定更新后的核张量是否满足预设规则;若更新后的核张量满足预设规则,则将其作为待提取数据的低维特征;若更新后的核张量满足不预设规则,则在张量优化模型的约束下进行下一次迭代更新。
可选的,每次迭代更新的步骤为:根据更新前的核张量和高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵;根据更新后各模对应的因子矩阵和高维数据对更新前的核张量进行更新,得到更新后的核张量。
可选的,提取模块430,具体用于:
其中,为更新后的第n模因子矩阵,U n为第n模的因子矩阵,/>为第i个N维的高维数据的第n模展开,i∈(1,M),/>为指示函数,/>,,/>,/>,/>,I n为第n个特征空间的维度,R n为核张量的第n模的维数,/>表示/>的乘积矩阵。
可选的,提取模块430,具体用于:
其中,为更新后的第i项核张量,/>为更新前的第j项核张量,/>为张量软阈值算子,β为第一参数,/>为第i个N维的高维数据,i∈(1,M),/>为更新后的第n模因子矩阵,W ij是一个大小为M*M的矩阵,/>。
可选的,张量优化模型为:
其中,平衡参数γ>0用于控制核张量的稀疏性,β>0为第一参数,用于控制张量几何信息保留,为第i个N维的高维数据,i∈(1,M),/>为/>个/>阶张量数据,/>为核张量的集合/>中的第i项,U n为第n模的因子矩阵,/>,W ij是一个大小为M* M的矩阵,/>,/>是Stiefel流形,I n为第n个特征空间的维度,R n为核张量的第n模的维数。
可选的,预设规则为:
可选的,大数据核心特征提取装置还包括:维数优选模块,用于根据预设优选方案设置核张量的各模的维数;
其中,预设优选方案为:
本实施例提供的大数据核心特征提取装置,可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图5是本发明实施例提供的电子设备的结构示意图。如图5所示,本发明的一个实施例提供的电子设备5,该实施例的电子设备5包括:处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。处理器50执行计算机程序52时实现上述各个大数据核心特征提取方法实施例中的步骤,例如图2所示的步骤210至步骤250。或者,处理器50执行计算机程序52时实现上述各系统实施例中各模块/单元的功能,例如图4所示模块410至450的功能。
示例性的,计算机程序52可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器51中,并由处理器50执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序52在电子设备5中的执行过程。
电子设备5可以是可以为终端、服务器等,在此不作限定,服务器可以是物理服务器、云服务器等,在此不作限定。电子设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器51可以是电子设备5的内部存储单元,例如电子设备5的硬盘或内存。存储器51也可以是电子设备5的外部存储设备,例如电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器51还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器51用于存储计算机程序以及电子设备所需的其他程序和数据。存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述大数据核心特征提取方法实施例中的步骤。
计算机可读存储介质存储有计算机程序52,计算机程序52包括程序指令,程序指令被处理器50执行时实现上述实施例方法中的全部或部分流程,也可以通过计算机程序52来指令相关的硬件来完成,计算机程序52可存储于一计算机可读存储介质中,该计算机程序52在被处理器50执行时,可实现上述各个方法实施例的步骤。其中,计算机程序52包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
计算机可读存储介质可以是前述任一实施例的电子设备的内部存储单元,例如电子设备的硬盘或内存。计算机可读存储介质也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括电子设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及电子设备所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种大数据核心特征提取方法,其特征在于,包括:
获取待提取数据,并根据所述待提取数据构建张量表示的高维数据;
对所述高维数据进行正交Tucker分解,得到核张量和各模对应的因子矩阵;
将所述核张量、所述各模对应的因子矩阵、所述高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对所述张量优化模型进行求解,得到所述待提取数据的低维特征;其中,所述张量优化模型中设置有l 1-正则化项和流形正则化框架。
2.根据权利要求1所述的大数据核心特征提取方法,其特征在于,将所述核张量、所述各模对应的因子矩阵、所述高维数据输入到预先建立的张量优化模型中,采用块坐标下降算法对所述张量优化模型进行求解,得到所述待提取数据的低维特征,包括:
在所述张量优化模型的约束下对核张量和各模对应的因子矩阵进行迭代更新,并在每次迭代更新完成后,根据更新前的核张量、更新前各模对应的因子矩阵、更新后的核张量、更新后各模对应的因子矩阵和所述高维数据,确定更新后的核张量是否满足预设规则;
若更新后的核张量满足预设规则,则将其作为所述待提取数据的低维特征;
若更新后的核张量满足不预设规则,则在所述张量优化模型的约束下进行下一次迭代更新。
3.根据权利要求2所述的大数据核心特征提取方法,其特征在于,每次迭代更新的步骤为:
根据更新前的核张量和所述高维数据对更新前各模的因子矩阵进行更新,得到更新后各模对应的因子矩阵;
根据更新后各模对应的因子矩阵和所述高维数据对更新前的核张量进行更新,得到更新后的核张量。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至8中任一项所述大数据核心特征提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上的权利要求1至8中任一项所述大数据核心特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347597.6A CN116186522B (zh) | 2023-04-04 | 2023-04-04 | 大数据核心特征提取方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347597.6A CN116186522B (zh) | 2023-04-04 | 2023-04-04 | 大数据核心特征提取方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116186522A true CN116186522A (zh) | 2023-05-30 |
CN116186522B CN116186522B (zh) | 2023-07-18 |
Family
ID=86449034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310347597.6A Active CN116186522B (zh) | 2023-04-04 | 2023-04-04 | 大数据核心特征提取方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186522B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116451058A (zh) * | 2023-06-20 | 2023-07-18 | 石家庄学院 | 基于张量补全的多源异构数据特征提取方法、设备及介质 |
CN116738214A (zh) * | 2023-08-03 | 2023-09-12 | 石家庄学院 | 一种基于高阶张量的数据降维预处理方法 |
CN117473303A (zh) * | 2023-12-27 | 2024-01-30 | 小舟科技有限公司 | 基于脑电信号的个性化动态意图特征提取方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260554A (zh) * | 2015-10-27 | 2016-01-20 | 武汉大学 | 一种基于gpu集群的多维大数据因子化方法 |
CN111209530A (zh) * | 2020-01-14 | 2020-05-29 | 华中科技大学鄂州工业技术研究院 | 基于张量分解的异构大数据因子特征提取的方法及系统 |
CN111209974A (zh) * | 2020-01-14 | 2020-05-29 | 华中科技大学鄂州工业技术研究院 | 基于张量分解的异构大数据核心特征提取的方法及系统 |
CN112307352A (zh) * | 2020-11-26 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 内容推荐方法、系统、装置和存储介质 |
CN114707011A (zh) * | 2022-03-04 | 2022-07-05 | 中国科学院上海微系统与信息技术研究所 | 一种基于张量分解的多源异构数据特征融合方法 |
-
2023
- 2023-04-04 CN CN202310347597.6A patent/CN116186522B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260554A (zh) * | 2015-10-27 | 2016-01-20 | 武汉大学 | 一种基于gpu集群的多维大数据因子化方法 |
CN111209530A (zh) * | 2020-01-14 | 2020-05-29 | 华中科技大学鄂州工业技术研究院 | 基于张量分解的异构大数据因子特征提取的方法及系统 |
CN111209974A (zh) * | 2020-01-14 | 2020-05-29 | 华中科技大学鄂州工业技术研究院 | 基于张量分解的异构大数据核心特征提取的方法及系统 |
CN112307352A (zh) * | 2020-11-26 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 内容推荐方法、系统、装置和存储介质 |
CN114707011A (zh) * | 2022-03-04 | 2022-07-05 | 中国科学院上海微系统与信息技术研究所 | 一种基于张量分解的多源异构数据特征融合方法 |
Non-Patent Citations (1)
Title |
---|
郭伟等: "基于张量的智能电网大数据降维研究", 《信息技术》, pages 115 - 120 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116451058A (zh) * | 2023-06-20 | 2023-07-18 | 石家庄学院 | 基于张量补全的多源异构数据特征提取方法、设备及介质 |
CN116738214A (zh) * | 2023-08-03 | 2023-09-12 | 石家庄学院 | 一种基于高阶张量的数据降维预处理方法 |
CN116738214B (zh) * | 2023-08-03 | 2023-11-14 | 石家庄学院 | 一种基于高阶张量的数据降维预处理方法 |
CN117473303A (zh) * | 2023-12-27 | 2024-01-30 | 小舟科技有限公司 | 基于脑电信号的个性化动态意图特征提取方法及相关装置 |
CN117473303B (zh) * | 2023-12-27 | 2024-03-19 | 小舟科技有限公司 | 基于脑电信号的个性化动态意图特征提取方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116186522B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116186522B (zh) | 大数据核心特征提取方法、电子设备及存储介质 | |
CN106980623B (zh) | 一种数据模型的确定方法及装置 | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN116109121B (zh) | 基于大数据分析的用户需求挖掘方法及系统 | |
CN104933445A (zh) | 一种基于分布式K-means的海量图像分类方法 | |
CN110288605A (zh) | 细胞图像分割方法和装置 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN110689045A (zh) | 一种深度学习模型的分布式训练方法及装置 | |
Zhang et al. | Enabling in-situ data analysis for large protein-folding trajectory datasets | |
CN113743650B (zh) | 电力负荷预测方法、装置、设备与存储介质 | |
CN116662839A (zh) | 基于多维智能采集的关联大数据聚类分析方法及装置 | |
Han et al. | Efficient neural network approximation of robust pca for automated analysis of calcium imaging data | |
CN109325167B (zh) | 特征分析方法、装置、设备、计算机可读存储介质 | |
CN116087435B (zh) | 空气质量监测方法、电子设备及存储介质 | |
Dai et al. | MDC-Net: A multi-directional constrained and prior assisted neural network for wood and leaf separation from terrestrial laser scanning | |
CN111209530A (zh) | 基于张量分解的异构大数据因子特征提取的方法及系统 | |
CN115995011A (zh) | 基于图正则化的非线性正交非负矩阵分解图像聚类方法 | |
Mizera et al. | GPU-accelerated steady-state computation of large probabilistic Boolean networks | |
Liang et al. | A parallel probabilistic latent semantic analysis method on MapReduce platform | |
DE102021129862A1 (de) | Verfahren und Einrichtung zum Identifizieren von Hardwareperformanzzählereignissen zum Detektieren und Klassifizieren von Malware oder Arbeitslast unter Verwendung künstlicher Intelligenz | |
CN113850632A (zh) | 用户类别确定方法、装置、设备及存储介质 | |
Li et al. | CUSNTF: A scalable sparse non-negative tensor factorization model for large-scale industrial applications on multi-GPU | |
Hashimoto et al. | BFL: a node and edge betweenness based fast layout algorithm for large scale networks | |
Arge et al. | Fast generation of multiple resolution instances of raster data sets | |
CN112257323B (zh) | 基于电磁暂态并行计算的自动分网方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230728 Address after: 050051 Floor 5, No. 2, Xiangyi Road, Xinhua District, Shijiazhuang City, Hebei Province Patentee after: Hebei Linghe Computer Information Technology Co.,Ltd. Address before: 050035 Shijiazhuang University, No. 288, Zhufeng street, high tech Zone, Shijiazhuang City, Hebei Province Patentee before: SHIJIAZHUANG University |