CN105913085A - 一种基于张量模式的多源数据分类优化方法及系统 - Google Patents
一种基于张量模式的多源数据分类优化方法及系统 Download PDFInfo
- Publication number
- CN105913085A CN105913085A CN201610223152.7A CN201610223152A CN105913085A CN 105913085 A CN105913085 A CN 105913085A CN 201610223152 A CN201610223152 A CN 201610223152A CN 105913085 A CN105913085 A CN 105913085A
- Authority
- CN
- China
- Prior art keywords
- tensor
- data
- classification model
- features
- subscript
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013145 classification model Methods 0.000 claims abstract description 96
- 239000013598 vector Substances 0.000 claims abstract description 79
- 238000005457 optimization Methods 0.000 claims abstract description 35
- 230000008030 elimination Effects 0.000 claims abstract description 34
- 238000003379 elimination reaction Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 25
- 230000000717 retained effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 description 8
- 238000003909 pattern recognition Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于张量模式的多源数据分类优化方法及系统,包括:步骤a:在Map‑reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;步骤d:将测试样本输入到支持张量机分类模型进行分类。本发明可以有效提高分类模型的分类精度;且计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
Description
技术领域
本发明属于模式识别技术领域,尤其涉及一种基于张量模式的多源数据分类优化方法及系统。
背景技术
模式识别(Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别,这是模式识别的两个重要方面。
随着计算机技术的不断发展,模式识别技术逐渐由向量数据向多维模型转变,问题描述的支持数据也由单视角数据过渡到多个视角数据,如医学科学,基于临床、免疫、影像、血常规、尿常规和个体/群体的基因组组等数据评价病人或居民的健康状况,这些数据之间相互信息补充。通常将描述同一个问题的多个视角的数据统称为多视角数据。
大数据时代的环境下,描述问题的数据愈发丰富多元,常常从多个不同角度描述问题,如描述病人的健康状况,有影像数据,基因组数据,血常规数据,尿常规数据等等。根据不同视角数据之间存在信息互补作用的原理,有机整合这些多视角数据能够更全面地描述问题,进而提高疾病诊断的精度。由于张量模型能够有效表达数据的结构信息,数据的表达逐渐由传统的向量模式过渡到张量模式。在模式识别、计算机可视化和图像处理等研究领域,数据经常以张量模式储存,譬如,灰度图像是二阶张量(矩阵)、彩色图像是三阶张量等。不同于向量模式表示方法,张量模式表示能够储存更多向量模式无法表示的信息,如原始数据的结构信息、内在依赖性等。但是,现有张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高,且计算效率不高。
发明内容
本发明提供了一种基于张量模式的多源数据分类优化方法及系统,旨在解决现有的张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高,且计算效率不高的技术问题。
本发明实现方式如下,一种基于张量模式的多源数据分类优化方法,包括以下步骤:
步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;
步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
步骤d:将测试样本输入到支持张量机分类模型进行分类。
本发明实施例采取的技术方案还包括:在所述步骤a中,所述在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据的运算方式包括以下步骤:
步骤a1:确定Map过程中向量模式数据x(1)和维数为I的向量特征&张量模式数据X(2)的键值对;
步骤a2:执行Map过程,输出x(1)和X(2)的键值对;
步骤a3:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;
步骤a4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值对;
步骤a5:reduce过程中,并行计算向量x(1)与X(2)的张量积运算:输出的键值对即为高阶张量的键值对。
本发明实施例采取的技术方案还包括:所述步骤b还包括:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
本发明实施例采取的技术方案还包括:所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤:
步骤b10:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
步骤b11:确定第N阶投影向量的(key-value);
步骤b12:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;
步骤b13:确定第N-1阶投影向量的(key-value);
步骤b14:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;
步骤b15:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;
步骤b16:循环步骤b10至步骤b15,直到支持张量机分类模型收敛,获得支持张量机分类模型的投影张量和偏移标量。
本发明实施例采取的技术方案还包括:在所述步骤b中,所述以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据具体包括以下步骤:
步骤b20:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;
步骤b21:确定保留特征的总数p(v);
步骤b22:计算保留特征对应的权值数据
步骤b23:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分
步骤b24:在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分
步骤b25:在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);
步骤b26:循环步骤b20至步骤b25,直到
步骤b27:输出保留特征对应的下标数据
本发明实施例采取的技术方案还包括:所述步骤c还包括:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
本发明实施例采取的另一技术方案为:一种基于张量模式的多源数据分类优化系统,包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块;
所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;
所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型;
所述特征消除模块用于以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。
本发明实施例采取的技术方案还包括:还包括交替投影算法模块,所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
本发明实施例采取的技术方案还包括:所述特征消除模块以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消除方式为:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;确定保留特征的总数p(v);计算保留特征对应的权值数据对保留特征的秩确定(key-value),并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);并循环处理直到后,输出保留特征对应的下标数据
本发明实施例采取的技术方案还包括:还包括信息剔除模块,所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
与现有技术相比,本发明的有益效果在于:本发明实施例的基于张量模式的多源数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证大数据计算过程的高效性;采用原始数据为不同数据源的多视角数据,有效提高分类模型的分类精度;选择支持张量机作为构建的初始分类模型,提高分类精度的同时,更加适合小样本问题,避免过学习等问题;并通过利用支持向量机递归特征消除算法在原始空间进行特征选择,计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
附图说明
图1是本发明实施例的基于张量模式的多源数据分类优化方法的流程图;
图2是本发明实施例构建的高阶张量数据的规模效果图;
图3是本发明实施例的基于张量模式的多源数据分类优化系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,是本发明实施例的基于张量模式的多源数据分类优化方法的流程图。本发明实施例的基于张量模式的多源数据分类优化方法包括以下步骤:
步骤100:将多视角数据引入统一的张量积空间,并在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;
在步骤100中,Map-Reduce是Google开发的一种并行分布式计算模型,用于大规模数据集(大于1TB)的并行运算,概念"Map(映射)"和"Reduce(归约)"和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。Map-Reduce极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。本发明通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证大数据计算过程的高效性;本发明实施例中,采用原始数据为不同数据源的多视角数据,分别从不同的角度描述目标问题,而且各个视角数据之间存在信息互补的效果,所以所收集的原始多视角数据的信息量特别丰富,全面综合描述目标问题,有效提高分类模型的分类精度。
为了清楚说明步骤100,本发明实施例以2源多视角数据(向量模式数据x(1):维数为I的向量特征&张量模式数据X(2):J×K矩阵特征)为例,在Map-reduce分布式框架下构建高阶张量数据的方法包括以下步骤:
步骤101:确定Map过程中x(1)和X(2)的键值对(key-value)。其中:x(1)的索引(key)为i∈{1,2,...,I},对应着x(1)中元素的数值value:X(2)的索引(key)为[(k-1)*M+j],对应着X(2)中元素的数值value:
步骤102:执行Map过程,输出x(1)和X(2)的键值对(key-value);此时,x(1)的key变为i与数值以字符串的形式链接:(i,),value不变,同理,X(2)的key变为([(k-1)*M+j],),value不变;
步骤103:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;
步骤104:确定reduce过程中的键值对;其中,reduce的输入键值对为Map的输出键值对;
步骤105:reduce过程中,并行计算向量x(1)与X(2)的张量积(外积)运算:输出的键值对即为高阶张量的键值对;
在步骤105中,若I=3,J=3,K=4,则构建所述的高阶张量数据的规模为三阶张量数据(3x3x4),具体如图2所示,是本发明实施例构建的高阶张量数据的规模效果图。
步骤200:以高阶张量数据为输入,构建初始的支持张量机(Support TensorMachine,STM)分类模型;
在步骤200中,本发明选择支持张量机作为构建的初始分类模型,该模型能够直接在张量领域处理张量数据,有效分析利用结构信息,提高分类精度,同时,相比向量分类模型,其参数较少,更加适合小样本问题,避免过学习等问题;例如,将256*256的二阶张量数据转化为向量数据,其维数256*256=65536,同时丢失了各个mode之间的内在相关性。支持张量积直接处理张量数据,其模型参数为256+256=512个,而支持向量机处理后的数据,对应的模型参数为65536个,而现实中能够采集的样本量较少,难免出现小样本问题。
步骤300:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数;
具体地,本发明实施例的根据交替投影算法迭代优化得出支持张量机分类模型的最优参数的方法包括以下步骤:
步骤301:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
步骤302:确定第N阶投影向量的(key-value);
步骤303:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;
步骤304:确定第N-1阶投影向量的(key-value);
步骤305:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;
步骤306:以此类推,在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;
步骤307:循环步骤301至步骤306,直到支持张量机分类模型收敛为止,获得支持张量机分类模型的投影张量和偏移标量。
步骤400:在Map-reduce分布式框架下,以支持向量递归特征消除算法(SMV-RFE)在原始空间进行各个视角数据的特征消除,并输出各视角数据保留特征的下标数据
在步骤400中,支持向量机递归特征消除算法的主要思想是根据支持向量机(SVM)在训练过程输出的权值向量w来构造特征排序系数,每次迭代删去一个排序系数最小的特征,最后得到前k个最大排序系数的特征子集。本发明通过利用支持向量机递归特征消除算法在原始空间进行特征选择,相比在张量积空间进行特征选择,参数更少,计算复杂度较低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
假设正在循环的某维视角数据为N阶张量数据以支持向量递归特征消除算法在各个视角数据v迭代循环过程包括以下步骤:
步骤401:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征(与规模、类型一致);
步骤402:确定保留特征的总数p(v);
步骤403:计算保留特征对应的权值数据
步骤404:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分
步骤405:在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分
步骤406:在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);
步骤407:循环步骤402至步骤406,直到
步骤408:输出保留特征对应的下标数据
步骤500:根据各视角数据保留特征的下标数据进一步优化初始的支持张量机分类模型参数,并确定最终的支持张量机分类模型;
在步骤500中,根据各视角数据保留特征的下标数据剔除冗余特征对应的参数,得到各视角数据分别对应的最终的投影从而得到最终的支持张量机分类模型;决策函数为其中第v视角数据x(v)若为向量,其投影w(v)亦为向量,同理x(v)若为张量,其投影w(v)亦为张量。
步骤600:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息;
步骤700:将剔除冗余信息的测试样本输入到支持张量机分类模型,通过支持张量机分类模型对测试样本进行分类。
请参阅图3,是本发明实施例的基于张量模式的多源数据分类优化系统的结构示意图。本发明实施例的基于张量模式的多源数据分类优化系统包括张量积运算模块、分类模型构建模块、交替投影算法模块、特征消除模块、分类模型优化模块、信息剔除模块和数据分类模块;
张量积运算模块用于将多视角数据引入统一的张量积空间,并在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;其中,本发明实施例以2源多视角数据(向量模式数据x(1):维数为I的向量特征&张量模式数据X(2):J×K矩阵特征)为例,在Map-reduce分布式框架下构建高阶张量数据的方式具体为:确定Map过程中x(1)和X(2)的键值对(key-value);x(1)的索引(key)为i∈{1,2,...,I},对应着x(1)中元素的数值value:X(2)的索引(key)为[(k-1)*M+j],对应着X(2)中元素的数值value:执行Map过程,输出x(1)和X(2)的键值对(key-value);此时,x(1)的key变为i与数值以字符串的形式链接:(i,),value不变,同理,X(2)的key变为([(k-1)*M+j],),value不变;将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;确定reduce过程中的键值对;其中,reduce的输入键值对为Map的输出键值对;reduce过程中,并行计算向量x(1)与X(2)的张量积(外积)运算:输出的键值对即为高阶张量的键值对。
分类模型构建模块用于以高阶张量数据为输入,构建初始的支持张量机分类模型;其中,本发明选择支持张量机作为构建的初始分类模型,该模型能够直接在张量领域处理张量数据,有效分析利用结构信息,提高分类精度,同时,相比向量分类模型,其参数较少,更加适合小样本问题,避免过学习等问题;例如,将256*256的二阶张量数据转化为向量数据,其维数256*256=65536,同时丢失了各个mode之间的内在相关性。支持张量积直接处理张量数据,其模型参数为256+256=512个,而支持向量机处理后的数据,对应的模型参数为65536个,而现实中能够采集的样本量较少,难免出现小样本问题。
交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数;其中,本发明实施例的根据交替投影算法迭代优化得出支持张量机分类模型的最优参数的方式为:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;确定第N阶投影向量的(key-value);在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;确定第N-1阶投影向量的(key-value);在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;以此类推,在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量,并循环至支持张量机分类模型收敛为止,获得支持张量机分类模型的投影张量和偏移标量。
特征消除模块用于在Map-reduce分布式框架下,以支持向量递归特征消除算法(SMV-RFE)在原始空间进行各个视角数据的特征消除,并输出各视角数据保留特征的下标数据其中,假设正在循环的某维视角数据为N阶张量数据以支持向量递归特征消除算法在各个视角数据v迭代循环方式为:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征(与规模、类型一致);确定保留特征的总数p(v);计算保留特征对应的权值数据对保留特征的秩确定(key-value),并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);并循环处理直到后,输出保留特征对应的下标数据
分类模型优化模块用于根据各视角数据保留特征的下标数据进一步优化初始的支持张量机分类模型参数,并确定最终的支持张量机分类模型;其中,根据各视角数据保留特征的下标数据剔除冗余特征对应的参数,得到各视角数据分别对应的最终的投影从而得到最终的支持张量机分类模型;决策函数为其中第v视角数据x(v)若为向量,其投影w(v)亦为向量,同理x(v)若为张量,其投影w(v)亦为张量。
信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息;
数据分类模块用于将剔除冗余信息的测试样本输入到支持张量机分类模型,通过支持张量机分类模型对测试样本进行分类。
本发明实施例的基于张量模式的多源数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证大数据计算过程的高效性;采用原始数据为不同数据源的多视角数据,有效提高分类模型的分类精度;选择支持张量机作为构建的初始分类模型,提高分类精度的同时,更加适合小样本问题,避免过学习等问题;并通过利用支持向量机递归特征消除算法在原始空间进行特征选择,计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之。
Claims (10)
1.一种基于张量模式的多源数据分类优化方法,包括以下步骤:
步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;
步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
步骤d:将测试样本输入到支持张量机分类模型进行分类。
2.根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,在所述步骤a中,所述在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据的运算方式包括以下步骤:
步骤a1:确定Map过程中向量模式数据x(1)和维数为I的向量特征&张量模式数据X(2)的键值对;
步骤a2:执行Map过程,输出x(1)和X(2)的键值对;
步骤a3:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;
步骤a4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值对;
步骤a5:reduce过程中,并行计算向量x(1)与X(2)的张量积运算:输出的键值对即为高阶张量的键值对。
3.根据权利要求2所述的基于张量模式的多源数据分类优化方法,其特征在于,所述步骤b还包括:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
4.根据权利要求3所述的基于张量模式的多源数据分类优化方法,其特征在于,所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤:
步骤b10:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
步骤b11:确定第N阶投影向量的(key-value);
步骤b12:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;
步骤b13:确定第N-1阶投影向量的(key-value);
步骤b14:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;
步骤b15:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;
步骤b16:循环步骤b10至步骤b15,直到支持张量机分类模型收敛,获得支持张量机分类模型的投影张量和偏移标量。
5.根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,在所述步骤b中,所述以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据具体包括以下步骤:
步骤b20:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;
步骤b21:确定保留特征的总数p(v);
步骤b22:计算保留特征对应的权值数据
步骤b23:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分
步骤b24:在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分
步骤b25:在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);
步骤b26:循环步骤b20至步骤b25,直到
步骤b27:输出保留特征对应的下标数据
6.根据权利要求5所述的基于张量模式的多源数据分类优化方法,其特征在于,所述步骤c还包括:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
7.一种基于张量模式的多源数据分类优化系统,其特征在于,包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块;
所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;
所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型;
所述特征消除模块用于以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。
8.根据权利要求7所述的基于张量模式的多源数据分类优化系统,其特征在于,还包括交替投影算法模块,所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
9.根据权利要求8所述的基于张量模式的多源数据分类优化系统,其特征在于,所述特征消除模块以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消除方式为:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;确定保留特征的总数p(v);计算保留特征对应的权值数据对保留特征的秩确定(key-value),并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);并循环处理直到后,输出保留特征对应的下标数据
10.根据权利要求9所述的基于张量模式的多源数据分类优化系统,其特征在于,还包括信息剔除模块,所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610223152.7A CN105913085A (zh) | 2016-04-12 | 2016-04-12 | 一种基于张量模式的多源数据分类优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610223152.7A CN105913085A (zh) | 2016-04-12 | 2016-04-12 | 一种基于张量模式的多源数据分类优化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105913085A true CN105913085A (zh) | 2016-08-31 |
Family
ID=56745831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610223152.7A Pending CN105913085A (zh) | 2016-04-12 | 2016-04-12 | 一种基于张量模式的多源数据分类优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105913085A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506415A (zh) * | 2017-08-11 | 2017-12-22 | 北明智通(北京)科技有限公司 | 基于内容的大文本高阶语义张量化分类方法和系统 |
CN108170639A (zh) * | 2017-12-26 | 2018-06-15 | 云南大学 | 基于分布式环境的张量cp分解实现方法 |
CN112085704A (zh) * | 2020-08-07 | 2020-12-15 | 深圳先进技术研究院 | 医学图像分类方法、装置、终端设备及存储介质 |
US11107100B2 (en) | 2019-08-09 | 2021-08-31 | International Business Machines Corporation | Distributing computational workload according to tensor optimization |
-
2016
- 2016-04-12 CN CN201610223152.7A patent/CN105913085A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506415A (zh) * | 2017-08-11 | 2017-12-22 | 北明智通(北京)科技有限公司 | 基于内容的大文本高阶语义张量化分类方法和系统 |
CN107506415B (zh) * | 2017-08-11 | 2020-07-21 | 北京智通云联科技有限公司 | 基于内容的大文本高阶语义张量化分类方法和系统 |
CN108170639A (zh) * | 2017-12-26 | 2018-06-15 | 云南大学 | 基于分布式环境的张量cp分解实现方法 |
CN108170639B (zh) * | 2017-12-26 | 2021-08-17 | 云南大学 | 基于分布式环境的张量cp分解实现方法 |
US11107100B2 (en) | 2019-08-09 | 2021-08-31 | International Business Machines Corporation | Distributing computational workload according to tensor optimization |
CN112085704A (zh) * | 2020-08-07 | 2020-12-15 | 深圳先进技术研究院 | 医学图像分类方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175168B (zh) | 一种基于生成对抗网络的时间序列数据填补方法及系统 | |
CN110276442A (zh) | 一种神经网络架构的搜索方法及装置 | |
JP7522936B2 (ja) | グラフニューラルネットワークに基づく遺伝子表現型予測 | |
CN112861752B (zh) | 一种基于dcgan与rdn的作物病害识别方法及系统 | |
CN114841257A (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN108280236B (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN105913085A (zh) | 一种基于张量模式的多源数据分类优化方法及系统 | |
Bakhshi et al. | Fast evolution of CNN architecture for image classification | |
CN110188812A (zh) | 一种快速处理缺失异构数据的多核聚类方法 | |
CN107133626B (zh) | 一种基于部分平均随机优化模型的医学影像分类方法 | |
CN104103042A (zh) | 一种基于局部相似性和局部选择的非凸压缩感知图像重构方法 | |
WO2023122854A1 (zh) | 数据处理的方法和装置 | |
CN116843970A (zh) | 基于任务特定通道重构网络的细粒度小样本分类方法 | |
WO2023273934A1 (zh) | 一种模型超参数的选择方法及相关装置 | |
CN110415339B (zh) | 计算输入三维形体间的匹配关系的方法和装置 | |
Gao et al. | Protein2Vec: aligning multiple PPI networks with representation learning | |
CN114612535A (zh) | 基于偏微分对抗学习的图像配准方法、系统、设备和介质 | |
Anthony et al. | Efficient training of semantic image segmentation on summit using horovod and mvapich2-gdr | |
CN117933345B (zh) | 一种医学图像分割模型的训练方法 | |
CN114121296A (zh) | 基于数据驱动的临床信息规则提取方法、存储介质及设备 | |
CN111080517B (zh) | 基于改进蝴蝶优化算法的三维点云拼接方法 | |
CN113272646B (zh) | 关联复杂数据 | |
Yan et al. | Evolutionary multiobjective neural architecture search for organ medical image classification | |
Verma et al. | A novel framework for neural architecture search in the hill climbing domain | |
JP2018073285A (ja) | L1グラフ計算装置、l1グラフ計算方法及びl1グラフ計算プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160831 |
|
RJ01 | Rejection of invention patent application after publication |