CN105913085A - 一种基于张量模式的多源数据分类优化方法及系统 - Google Patents

一种基于张量模式的多源数据分类优化方法及系统 Download PDF

Info

Publication number
CN105913085A
CN105913085A CN201610223152.7A CN201610223152A CN105913085A CN 105913085 A CN105913085 A CN 105913085A CN 201610223152 A CN201610223152 A CN 201610223152A CN 105913085 A CN105913085 A CN 105913085A
Authority
CN
China
Prior art keywords
tensor
data
disaggregated model
keeping characteristics
support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610223152.7A
Other languages
English (en)
Inventor
王书强
刘志华
胡勇
郭毅可
曾德威
卢哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201610223152.7A priority Critical patent/CN105913085A/zh
Publication of CN105913085A publication Critical patent/CN105913085A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于张量模式的多源数据分类优化方法及系统,包括:步骤a:在Map‑reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;步骤d:将测试样本输入到支持张量机分类模型进行分类。本发明可以有效提高分类模型的分类精度;且计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。

Description

一种基于张量模式的多源数据分类优化方法及系统
技术领域
本发明属于模式识别技术领域,尤其涉及一种基于张量模式的多源数据分类优化方法及系统。
背景技术
模式识别(Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别,这是模式识别的两个重要方面。
随着计算机技术的不断发展,模式识别技术逐渐由向量数据向多维模型转变,问题描述的支持数据也由单视角数据过渡到多个视角数据,如医学科学,基于临床、免疫、影像、血常规、尿常规和个体/群体的基因组组等数据评价病人或居民的健康状况,这些数据之间相互信息补充。通常将描述同一个问题的多个视角的数据统称为多视角数据。
大数据时代的环境下,描述问题的数据愈发丰富多元,常常从多个不同角度描述问题,如描述病人的健康状况,有影像数据,基因组数据,血常规数据,尿常规数据等等。根据不同视角数据之间存在信息互补作用的原理,有机整合这些多视角数据能够更全面地描述问题,进而提高疾病诊断的精度。由于张量模型能够有效表达数据的结构信息,数据的表达逐渐由传统的向量模式过渡到张量模式。在模式识别、计算机可视化和图像处理等研究领域,数据经常以张量模式储存,譬如,灰度图像是二阶张量(矩阵)、彩色图像是三阶张量等。不同于向量模式表示方法,张量模式表示能够储存更多向量模式无法表示的信息,如原始数据的结构信息、内在依赖性等。但是,现有张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高,且计算效率不高。
发明内容
本发明提供了一种基于张量模式的多源数据分类优化方法及系统,旨在解决现有的张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高,且计算效率不高的技术问题。
本发明实现方式如下,一种基于张量模式的多源数据分类优化方法,包括以下步骤:
步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;
步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
步骤d:将测试样本输入到支持张量机分类模型进行分类。
本发明实施例采取的技术方案还包括:在所述步骤a中,所述在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据的运算方式包括以下步骤:
步骤a1:确定Map过程中向量模式数据x(1)和维数为I的向量特征&张量模式数据X(2)的键值对;
步骤a2:执行Map过程,输出x(1)和X(2)的键值对;
步骤a3:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;
步骤a4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值对;
步骤a5:reduce过程中,并行计算向量x(1)与X(2)的张量积运算:输出的键值对即为高阶张量的键值对。
本发明实施例采取的技术方案还包括:所述步骤b还包括:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
本发明实施例采取的技术方案还包括:所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤:
步骤b10:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
步骤b11:确定第N阶投影向量的(key-value);
步骤b12:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;
步骤b13:确定第N-1阶投影向量的(key-value);
步骤b14:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;
步骤b15:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;
步骤b16:循环步骤b10至步骤b15,直到支持张量机分类模型收敛,获得支持张量机分类模型的投影张量和偏移标量。
本发明实施例采取的技术方案还包括:在所述步骤b中,所述以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据具体包括以下步骤:
步骤b20:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;
步骤b21:确定保留特征的总数p(v)
步骤b22:计算保留特征对应的权值数据
步骤b23:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分
步骤b24:在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分
步骤b25:在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);
步骤b26:循环步骤b20至步骤b25,直到
步骤b27:输出保留特征对应的下标数据
本发明实施例采取的技术方案还包括:所述步骤c还包括:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
本发明实施例采取的另一技术方案为:一种基于张量模式的多源数据分类优化系统,包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块;
所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;
所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型;
所述特征消除模块用于以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。
本发明实施例采取的技术方案还包括:还包括交替投影算法模块,所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
本发明实施例采取的技术方案还包括:所述特征消除模块以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消除方式为:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;确定保留特征的总数p(v);计算保留特征对应的权值数据对保留特征的秩确定(key-value),并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);并循环处理直到后,输出保留特征对应的下标数据
本发明实施例采取的技术方案还包括:还包括信息剔除模块,所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
与现有技术相比,本发明的有益效果在于:本发明实施例的基于张量模式的多源数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证大数据计算过程的高效性;采用原始数据为不同数据源的多视角数据,有效提高分类模型的分类精度;选择支持张量机作为构建的初始分类模型,提高分类精度的同时,更加适合小样本问题,避免过学习等问题;并通过利用支持向量机递归特征消除算法在原始空间进行特征选择,计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
附图说明
图1是本发明实施例的基于张量模式的多源数据分类优化方法的流程图;
图2是本发明实施例构建的高阶张量数据的规模效果图;
图3是本发明实施例的基于张量模式的多源数据分类优化系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,是本发明实施例的基于张量模式的多源数据分类优化方法的流程图。本发明实施例的基于张量模式的多源数据分类优化方法包括以下步骤:
步骤100:将多视角数据引入统一的张量积空间,并在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;
在步骤100中,Map-Reduce是Google开发的一种并行分布式计算模型,用于大规模数据集(大于1TB)的并行运算,概念"Map(映射)"和"Reduce(归约)"和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。Map-Reduce极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。本发明通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证大数据计算过程的高效性;本发明实施例中,采用原始数据为不同数据源的多视角数据,分别从不同的角度描述目标问题,而且各个视角数据之间存在信息互补的效果,所以所收集的原始多视角数据的信息量特别丰富,全面综合描述目标问题,有效提高分类模型的分类精度。
为了清楚说明步骤100,本发明实施例以2源多视角数据(向量模式数据x(1):维数为I的向量特征&张量模式数据X(2):J×K矩阵特征)为例,在Map-reduce分布式框架下构建高阶张量数据的方法包括以下步骤:
步骤101:确定Map过程中x(1)和X(2)的键值对(key-value)。其中:x(1)的索引(key)为i∈{1,2,...,I},对应着x(1)中元素的数值value:X(2)的索引(key)为[(k-1)*M+j],对应着X(2)中元素的数值value:
步骤102:执行Map过程,输出x(1)和X(2)的键值对(key-value);此时,x(1)的key变为i与数值以字符串的形式链接:(i,),value不变,同理,X(2)的key变为([(k-1)*M+j],),value不变;
步骤103:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;
步骤104:确定reduce过程中的键值对;其中,reduce的输入键值对为Map的输出键值对;
步骤105:reduce过程中,并行计算向量x(1)与X(2)的张量积(外积)运算:输出的键值对即为高阶张量的键值对;
在步骤105中,若I=3,J=3,K=4,则构建所述的高阶张量数据的规模为三阶张量数据(3x3x4),具体如图2所示,是本发明实施例构建的高阶张量数据的规模效果图。
步骤200:以高阶张量数据为输入,构建初始的支持张量机(Support TensorMachine,STM)分类模型;
在步骤200中,本发明选择支持张量机作为构建的初始分类模型,该模型能够直接在张量领域处理张量数据,有效分析利用结构信息,提高分类精度,同时,相比向量分类模型,其参数较少,更加适合小样本问题,避免过学习等问题;例如,将256*256的二阶张量数据转化为向量数据,其维数256*256=65536,同时丢失了各个mode之间的内在相关性。支持张量积直接处理张量数据,其模型参数为256+256=512个,而支持向量机处理后的数据,对应的模型参数为65536个,而现实中能够采集的样本量较少,难免出现小样本问题。
步骤300:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数;
具体地,本发明实施例的根据交替投影算法迭代优化得出支持张量机分类模型的最优参数的方法包括以下步骤:
步骤301:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
步骤302:确定第N阶投影向量的(key-value);
步骤303:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;
步骤304:确定第N-1阶投影向量的(key-value);
步骤305:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;
步骤306:以此类推,在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;
步骤307:循环步骤301至步骤306,直到支持张量机分类模型收敛为止,获得支持张量机分类模型的投影张量和偏移标量。
步骤400:在Map-reduce分布式框架下,以支持向量递归特征消除算法(SMV-RFE)在原始空间进行各个视角数据的特征消除,并输出各视角数据保留特征的下标数据
在步骤400中,支持向量机递归特征消除算法的主要思想是根据支持向量机(SVM)在训练过程输出的权值向量w来构造特征排序系数,每次迭代删去一个排序系数最小的特征,最后得到前k个最大排序系数的特征子集。本发明通过利用支持向量机递归特征消除算法在原始空间进行特征选择,相比在张量积空间进行特征选择,参数更少,计算复杂度较低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
假设正在循环的某维视角数据为N阶张量数据以支持向量递归特征消除算法在各个视角数据v迭代循环过程包括以下步骤:
步骤401:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征(规模、类型一致);
步骤402:确定保留特征的总数p(v)
步骤403:计算保留特征对应的权值数据
步骤404:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分
步骤405:在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分
步骤406:在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);
步骤407:循环步骤402至步骤406,直到
步骤408:输出保留特征对应的下标数据
步骤500:根据各视角数据保留特征的下标数据进一步优化初始的支持张量机分类模型参数,并确定最终的支持张量机分类模型;
在步骤500中,根据各视角数据保留特征的下标数据剔除冗余特征对应的参数,得到各视角数据分别对应的最终的投影从而得到最终的支持张量机分类模型;决策函数为其中第v视角数据x(v)若为向量,其投影w(v)亦为向量,同理x(v)若为张量,其投影w(v)亦为张量。
步骤600:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息;
步骤700:将剔除冗余信息的测试样本输入到支持张量机分类模型,通过支持张量机分类模型对测试样本进行分类。
请参阅图3,是本发明实施例的基于张量模式的多源数据分类优化系统的结构示意图。本发明实施例的基于张量模式的多源数据分类优化系统包括张量积运算模块、分类模型构建模块、交替投影算法模块、特征消除模块、分类模型优化模块、信息剔除模块和数据分类模块;
张量积运算模块用于将多视角数据引入统一的张量积空间,并在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;其中,本发明实施例以2源多视角数据(向量模式数据x(1):维数为I的向量特征&张量模式数据X(2):J×K矩阵特征)为例,在Map-reduce分布式框架下构建高阶张量数据的方式具体为:确定Map过程中x(1)和X(2)的键值对(key-value);x(1)的索引(key)为i∈{1,2,...,I},对应着x(1)中元素的数值value:X(2)的索引(key)为[(k-1)*M+j],对应着X(2)中元素的数值value:执行Map过程,输出x(1)和X(2)的键值对(key-value);此时,x(1)的key变为i与数值以字符串的形式链接:(i,),value不变,同理,X(2)的key变为([(k-1)*M+j],),value不变;将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;确定reduce过程中的键值对;其中,reduce的输入键值对为Map的输出键值对;reduce过程中,并行计算向量x(1)与X(2)的张量积(外积)运算:输出的键值对即为高阶张量的键值对。
分类模型构建模块用于以高阶张量数据为输入,构建初始的支持张量机分类模型;其中,本发明选择支持张量机作为构建的初始分类模型,该模型能够直接在张量领域处理张量数据,有效分析利用结构信息,提高分类精度,同时,相比向量分类模型,其参数较少,更加适合小样本问题,避免过学习等问题;例如,将256*256的二阶张量数据转化为向量数据,其维数256*256=65536,同时丢失了各个mode之间的内在相关性。支持张量积直接处理张量数据,其模型参数为256+256=512个,而支持向量机处理后的数据,对应的模型参数为65536个,而现实中能够采集的样本量较少,难免出现小样本问题。
交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数;其中,本发明实施例的根据交替投影算法迭代优化得出支持张量机分类模型的最优参数的方式为:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;确定第N阶投影向量的(key-value);在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;确定第N-1阶投影向量的(key-value);在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;以此类推,在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量,并循环至支持张量机分类模型收敛为止,获得支持张量机分类模型的投影张量和偏移标量。
特征消除模块用于在Map-reduce分布式框架下,以支持向量递归特征消除算法(SMV-RFE)在原始空间进行各个视角数据的特征消除,并输出各视角数据保留特征的下标数据其中,假设正在循环的某维视角数据为N阶张量数据以支持向量递归特征消除算法在各个视角数据v迭代循环方式为:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征(规模、类型一致);确定保留特征的总数p(v);计算保留特征对应的权值数据对保留特征的秩确定(key-value),并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);并循环处理直到后,输出保留特征对应的下标数据
分类模型优化模块用于根据各视角数据保留特征的下标数据进一步优化初始的支持张量机分类模型参数,并确定最终的支持张量机分类模型;其中,根据各视角数据保留特征的下标数据剔除冗余特征对应的参数,得到各视角数据分别对应的最终的投影从而得到最终的支持张量机分类模型;决策函数为其中第v视角数据x(v)若为向量,其投影w(v)亦为向量,同理x(v)若为张量,其投影w(v)亦为张量。
信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息;
数据分类模块用于将剔除冗余信息的测试样本输入到支持张量机分类模型,通过支持张量机分类模型对测试样本进行分类。
本发明实施例的基于张量模式的多源数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据,从而快速计算高阶张量数据,保证大数据计算过程的高效性;采用原始数据为不同数据源的多视角数据,有效提高分类模型的分类精度;选择支持张量机作为构建的初始分类模型,提高分类精度的同时,更加适合小样本问题,避免过学习等问题;并通过利用支持向量机递归特征消除算法在原始空间进行特征选择,计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之。

Claims (10)

1.一种基于张量模式的多源数据分类优化方法,包括以下步骤:
步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;
步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
步骤d:将测试样本输入到支持张量机分类模型进行分类。
2.根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,在所述步骤a中,所述在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据的运算方式包括以下步骤:
步骤a1:确定Map过程中向量模式数据x(1)和维数为I的向量特征&张量模式数据X(2)的键值对;
步骤a2:执行Map过程,输出x(1)和X(2)的键值对;
步骤a3:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;
步骤a4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值对;
步骤a5:reduce过程中,并行计算向量x(1)与X(2)的张量积运算:输出的键值对即为高阶张量的键值对。
3.根据权利要求2所述的基于张量模式的多源数据分类优化方法,其特征在于,所述步骤b还包括:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
4.根据权利要求3所述的基于张量模式的多源数据分类优化方法,其特征在于,所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤:
步骤b10:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;
步骤b11:确定第N阶投影向量的(key-value);
步骤b12:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;
步骤b13:确定第N-1阶投影向量的(key-value);
步骤b14:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;
步骤b15:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;
步骤b16:循环步骤b10至步骤b15,直到支持张量机分类模型收敛,获得支持张量机分类模型的投影张量和偏移标量。
5.根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,在所述步骤b中,所述以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据具体包括以下步骤:
步骤b20:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;
步骤b21:确定保留特征的总数p(v)
步骤b22:计算保留特征对应的权值数据
步骤b23:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分
步骤b24:在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分
步骤b25:在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);
步骤b26:循环步骤b20至步骤b25,直到
步骤b27:输出保留特征对应的下标数据
6.根据权利要求5所述的基于张量模式的多源数据分类优化方法,其特征在于,所述步骤c还包括:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
7.一种基于张量模式的多源数据分类优化系统,其特征在于,包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块;
所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;
所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型;
所述特征消除模块用于以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;
所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;
所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。
8.根据权利要求7所述的基于张量模式的多源数据分类优化系统,其特征在于,还包括交替投影算法模块,所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。
9.根据权利要求8所述的基于张量模式的多源数据分类优化系统,其特征在于,所述特征消除模块以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消除方式为:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;确定保留特征的总数p(v);计算保留特征对应的权值数据对保留特征的秩确定(key-value),并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);并循环处理直到后,输出保留特征对应的下标数据
10.根据权利要求9所述的基于张量模式的多源数据分类优化系统,其特征在于,还包括信息剔除模块,所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。
CN201610223152.7A 2016-04-12 2016-04-12 一种基于张量模式的多源数据分类优化方法及系统 Pending CN105913085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610223152.7A CN105913085A (zh) 2016-04-12 2016-04-12 一种基于张量模式的多源数据分类优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610223152.7A CN105913085A (zh) 2016-04-12 2016-04-12 一种基于张量模式的多源数据分类优化方法及系统

Publications (1)

Publication Number Publication Date
CN105913085A true CN105913085A (zh) 2016-08-31

Family

ID=56745831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610223152.7A Pending CN105913085A (zh) 2016-04-12 2016-04-12 一种基于张量模式的多源数据分类优化方法及系统

Country Status (1)

Country Link
CN (1) CN105913085A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506415A (zh) * 2017-08-11 2017-12-22 北明智通(北京)科技有限公司 基于内容的大文本高阶语义张量化分类方法和系统
CN108170639A (zh) * 2017-12-26 2018-06-15 云南大学 基于分布式环境的张量cp分解实现方法
CN112085704A (zh) * 2020-08-07 2020-12-15 深圳先进技术研究院 医学图像分类方法、装置、终端设备及存储介质
US11107100B2 (en) 2019-08-09 2021-08-31 International Business Machines Corporation Distributing computational workload according to tensor optimization

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506415A (zh) * 2017-08-11 2017-12-22 北明智通(北京)科技有限公司 基于内容的大文本高阶语义张量化分类方法和系统
CN107506415B (zh) * 2017-08-11 2020-07-21 北京智通云联科技有限公司 基于内容的大文本高阶语义张量化分类方法和系统
CN108170639A (zh) * 2017-12-26 2018-06-15 云南大学 基于分布式环境的张量cp分解实现方法
CN108170639B (zh) * 2017-12-26 2021-08-17 云南大学 基于分布式环境的张量cp分解实现方法
US11107100B2 (en) 2019-08-09 2021-08-31 International Business Machines Corporation Distributing computational workload according to tensor optimization
CN112085704A (zh) * 2020-08-07 2020-12-15 深圳先进技术研究院 医学图像分类方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
Chakraborty et al. A transfer learning-based approach with deep cnn for covid-19-and pneumonia-affected chest x-ray image classification
Ohata et al. A novel transfer learning approach for the classification of histological images of colorectal cancer
CN106537422B (zh) 用于捕获信息内的关系的系统和方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN107169974A (zh) 一种基于多监督全卷积神经网络的图像分割方法
WO2023217290A1 (zh) 基于图神经网络的基因表型预测
CN105913085A (zh) 一种基于张量模式的多源数据分类优化方法及系统
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
CN108108762A (zh) 一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
Daoudi et al. Parallel diffrential evolution clustering algorithm based on mapreduce
Yi et al. Automatic detection of cervical cells using dense-cascade R-CNN
Fang et al. Identification of apple leaf diseases based on convolutional neural network
Hariri et al. COVID-19 and pneumonia diagnosis from chest X-ray images using convolutional neural networks
Costa et al. Demonstrating the evolution of GANs through t-SNE
CN117611974B (zh) 基于多种群交替进化神经结构搜索的图像识别方法及系统
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
Cui et al. Quantum-inspired moth-flame optimizer with enhanced local search strategy for cluster analysis
Guo et al. Siamese Network-Based Few-Shot Learning for Classification of Human Peripheral Blood Leukocyte
Gharehchopogh et al. Automatic data clustering using farmland fertility metaheuristic algorithm
Liu et al. High-performance medical data processing technology based on distributed parallel machine learning algorithm
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
Salunkhe et al. Rapid tri-net: breast cancer classification from histology images using rapid tri-attention network
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831