CN105913085A

CN105913085A - 一种基于张量模式的多源数据分类优化方法及系统

Info

Publication number: CN105913085A
Application number: CN201610223152.7A
Authority: CN
Inventors: 王书强; 刘志华; 胡勇; 郭毅可; 曾德威; 卢哲
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2016-04-12
Filing date: 2016-04-12
Publication date: 2016-08-31

Abstract

本发明涉及一种基于张量模式的多源数据分类优化方法及系统，包括：步骤a：在Map‑reduce分布式框架下对多视角数据进行张量积运算，得到高阶张量数据，并根据高阶张量数据构建初始的支持张量机分类模型；步骤b：以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除，输出各视角数据保留特征的下标数据；步骤c：根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化，确定最终的支持张量机分类模型；步骤d：将测试样本输入到支持张量机分类模型进行分类。本发明可以有效提高分类模型的分类精度；且计算复杂度更低，保证分类模型能够识别张量数据中的冗余信息，进一步提高分类模型的分类速度。

Description

一种基于张量模式的多源数据分类优化方法及系统

技术领域

本发明属于模式识别技术领域，尤其涉及一种基于张量模式的多源数据分类优化方法及系统。

背景技术

模式识别(Pattern Recognition)，就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别，这是模式识别的两个重要方面。

随着计算机技术的不断发展，模式识别技术逐渐由向量数据向多维模型转变，问题描述的支持数据也由单视角数据过渡到多个视角数据，如医学科学，基于临床、免疫、影像、血常规、尿常规和个体/群体的基因组组等数据评价病人或居民的健康状况，这些数据之间相互信息补充。通常将描述同一个问题的多个视角的数据统称为多视角数据。

大数据时代的环境下，描述问题的数据愈发丰富多元，常常从多个不同角度描述问题，如描述病人的健康状况，有影像数据，基因组数据，血常规数据，尿常规数据等等。根据不同视角数据之间存在信息互补作用的原理，有机整合这些多视角数据能够更全面地描述问题，进而提高疾病诊断的精度。由于张量模型能够有效表达数据的结构信息，数据的表达逐渐由传统的向量模式过渡到张量模式。在模式识别、计算机可视化和图像处理等研究领域，数据经常以张量模式储存，譬如，灰度图像是二阶张量(矩阵)、彩色图像是三阶张量等。不同于向量模式表示方法，张量模式表示能够储存更多向量模式无法表示的信息，如原始数据的结构信息、内在依赖性等。但是，现有张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高，且计算效率不高。

发明内容

本发明提供了一种基于张量模式的多源数据分类优化方法及系统，旨在解决现有的张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高，且计算效率不高的技术问题。

本发明实现方式如下，一种基于张量模式的多源数据分类优化方法，包括以下步骤：

步骤a：在Map-reduce分布式框架下对多视角数据进行张量积运算，得到高阶张量数据，并根据高阶张量数据构建初始的支持张量机分类模型；

步骤b：以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除，输出各视角数据保留特征的下标数据；

步骤c：根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化，确定最终的支持张量机分类模型；

步骤d：将测试样本输入到支持张量机分类模型进行分类。

本发明实施例采取的技术方案还包括：在所述步骤a中，所述在Map-reduce分布式框架下对多视角数据进行张量积运算，得到高阶张量数据的运算方式包括以下步骤：

步骤a1：确定Map过程中向量模式数据x(1)和维数为I的向量特征&张量模式数据X(2)的键值对；

步骤a2：执行Map过程，输出x(1)和X(2)的键值对；

步骤a3：将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段；

步骤a4：确定reduce过程中的键值对；所述reduce的输入键值对为Map的输出键值对；

步骤a5：reduce过程中，并行计算向量x(1)与X(2)的张量积运算：输出的键值对即为高阶张量的键值对。

本发明实施例采取的技术方案还包括：所述步骤b还包括：在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。

本发明实施例采取的技术方案还包括：所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤：

步骤b10：在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量，根据支持张量机分类模型求张量的第N阶投影向量；其中，N为高阶张量数据的阶数；

步骤b11：确定第N阶投影向量的(key-value)；

步骤b12：在Map-reduce分布式框架下更新张量的第N阶投影向量，根据支持张量机分类模型求张量的第(N-1)阶投影向量；

步骤b13：确定第N-1阶投影向量的(key-value)；

步骤b14：在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量，根据支持张量机分类模型求张量的第(N-2)阶投影向量；

步骤b15：在Map-reduce分布式框架下更新张量的第2阶投影向量，根据支持张量机分类模型求张量的第1阶投影向量；

步骤b16：循环步骤b10至步骤b15，直到支持张量机分类模型收敛，获得支持张量机分类模型的投影张量和偏移标量。

本发明实施例采取的技术方案还包括：在所述步骤b中，所述以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除，输出各视角数据保留特征的下标数据具体包括以下步骤：

步骤b20：初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征；

步骤b21：确定保留特征的总数p^(v)；

步骤b22：计算保留特征对应的权值数据

步骤b23：对保留特征的秩确定(key-value)，并计算各个保留特征的秩得分

步骤b24：在Map-reduce分布式框架下遍历各秩的得分，寻找最小的秩得分

步骤b25：在保留特征的下标数据中剔除秩得分最低特征对应的下标(i₁,i₂,…i_N)；

步骤b26：循环步骤b20至步骤b25，直到

步骤b27：输出保留特征对应的下标数据

本发明实施例采取的技术方案还包括：所述步骤c还包括：根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。

本发明实施例采取的另一技术方案为：一种基于张量模式的多源数据分类优化系统，包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块；

所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积运算，得到高阶张量数据；

所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型；

所述特征消除模块用于以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除，输出各视角数据保留特征的下标数据；

所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化，确定最终的支持张量机分类模型；

所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。

本发明实施例采取的技术方案还包括：还包括交替投影算法模块，所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。

本发明实施例采取的技术方案还包括：所述特征消除模块以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消除方式为：初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征；确定保留特征的总数p^(v)；计算保留特征对应的权值数据对保留特征的秩确定(key-value)，并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分，寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i₁,i₂,…i_N)；并循环处理直到后，输出保留特征对应的下标数据

本发明实施例采取的技术方案还包括：还包括信息剔除模块，所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。

与现有技术相比，本发明的有益效果在于：本发明实施例的基于张量模式的多源数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据，从而快速计算高阶张量数据，保证大数据计算过程的高效性；采用原始数据为不同数据源的多视角数据，有效提高分类模型的分类精度；选择支持张量机作为构建的初始分类模型，提高分类精度的同时，更加适合小样本问题，避免过学习等问题；并通过利用支持向量机递归特征消除算法在原始空间进行特征选择，计算复杂度更低，保证分类模型能够识别张量数据中的冗余信息，进一步提高分类模型的分类速度。

附图说明

图1是本发明实施例的基于张量模式的多源数据分类优化方法的流程图；

图2是本发明实施例构建的高阶张量数据的规模效果图；

图3是本发明实施例的基于张量模式的多源数据分类优化系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，是本发明实施例的基于张量模式的多源数据分类优化方法的流程图。本发明实施例的基于张量模式的多源数据分类优化方法包括以下步骤：

步骤100：将多视角数据引入统一的张量积空间，并在Map-reduce分布式框架下对多视角数据进行张量积运算，得到高阶张量数据；

在步骤100中，Map-Reduce是Google开发的一种并行分布式计算模型，用于大规模数据集(大于1TB)的并行运算，概念"Map(映射)"和"Reduce(归约)"和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。Map-Reduce极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。本发明通过在Map-reduce分布式框架下构建高阶张量数据，从而快速计算高阶张量数据，保证大数据计算过程的高效性；本发明实施例中，采用原始数据为不同数据源的多视角数据，分别从不同的角度描述目标问题，而且各个视角数据之间存在信息互补的效果，所以所收集的原始多视角数据的信息量特别丰富，全面综合描述目标问题，有效提高分类模型的分类精度。

为了清楚说明步骤100，本发明实施例以2源多视角数据(向量模式数据x(1)：维数为I的向量特征&张量模式数据X(2)：J×K矩阵特征)为例，在Map-reduce分布式框架下构建高阶张量数据的方法包括以下步骤：

步骤101：确定Map过程中x(1)和X(2)的键值对(key-value)。其中：x(1)的索引(key)为i∈{1,2,...,I}，对应着x(1)中元素的数值value:X(2)的索引(key)为[(k-1)*M+j]，对应着X(2)中元素的数值value:

步骤102：执行Map过程，输出x(1)和X(2)的键值对(key-value)；此时，x(1)的key变为i与数值以字符串的形式链接:(i,)，value不变，同理，X(2)的key变为([(k-1)*M+j]，),value不变；

步骤103：将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段；

步骤104：确定reduce过程中的键值对；其中，reduce的输入键值对为Map的输出键值对；

步骤105：reduce过程中，并行计算向量x(1)与X(2)的张量积(外积)运算：输出的键值对即为高阶张量的键值对；

在步骤105中，若I＝3，J＝3，K＝4，则构建所述的高阶张量数据的规模为三阶张量数据(3x3x4)，具体如图2所示，是本发明实施例构建的高阶张量数据的规模效果图。

步骤200：以高阶张量数据为输入，构建初始的支持张量机(Support TensorMachine,STM)分类模型；

在步骤200中，本发明选择支持张量机作为构建的初始分类模型，该模型能够直接在张量领域处理张量数据，有效分析利用结构信息，提高分类精度，同时，相比向量分类模型，其参数较少，更加适合小样本问题，避免过学习等问题；例如，将256*256的二阶张量数据转化为向量数据，其维数256*256＝65536，同时丢失了各个mode之间的内在相关性。支持张量积直接处理张量数据，其模型参数为256+256＝512个，而支持向量机处理后的数据，对应的模型参数为65536个，而现实中能够采集的样本量较少，难免出现小样本问题。

步骤300：在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数；

具体地，本发明实施例的根据交替投影算法迭代优化得出支持张量机分类模型的最优参数的方法包括以下步骤：

步骤301：在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量，根据支持张量机分类模型求张量的第N阶投影向量；其中，N为高阶张量数据的阶数；

步骤302：确定第N阶投影向量的(key-value)；

步骤303：在Map-reduce分布式框架下更新张量的第N阶投影向量，根据支持张量机分类模型求张量的第(N-1)阶投影向量；

步骤304：确定第N-1阶投影向量的(key-value)；

步骤305：在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量，根据支持张量机分类模型求张量的第(N-2)阶投影向量；

步骤306：以此类推，在Map-reduce分布式框架下更新张量的第2阶投影向量，根据支持张量机分类模型求张量的第1阶投影向量；

步骤307：循环步骤301至步骤306，直到支持张量机分类模型收敛为止，获得支持张量机分类模型的投影张量和偏移标量。

步骤400：在Map-reduce分布式框架下，以支持向量递归特征消除算法(SMV-RFE)在原始空间进行各个视角数据的特征消除，并输出各视角数据保留特征的下标数据

在步骤400中，支持向量机递归特征消除算法的主要思想是根据支持向量机(SVM)在训练过程输出的权值向量w来构造特征排序系数，每次迭代删去一个排序系数最小的特征，最后得到前k个最大排序系数的特征子集。本发明通过利用支持向量机递归特征消除算法在原始空间进行特征选择，相比在张量积空间进行特征选择，参数更少，计算复杂度较低，保证分类模型能够识别张量数据中的冗余信息，进一步提高分类模型的分类速度。

假设正在循环的某维视角数据为N阶张量数据以支持向量递归特征消除算法在各个视角数据v迭代循环过程包括以下步骤：

步骤401：初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征(与规模、类型一致)；

步骤402：确定保留特征的总数p^(v)；

步骤403：计算保留特征对应的权值数据

步骤404：对保留特征的秩确定(key-value)，并计算各个保留特征的秩得分

步骤405：在Map-reduce分布式框架下遍历各秩的得分，寻找最小的秩得分

步骤406：在保留特征的下标数据中剔除秩得分最低特征对应的下标(i₁,i₂,…i_N)；

步骤407：循环步骤402至步骤406，直到

步骤408：输出保留特征对应的下标数据

步骤500：根据各视角数据保留特征的下标数据进一步优化初始的支持张量机分类模型参数，并确定最终的支持张量机分类模型；

在步骤500中，根据各视角数据保留特征的下标数据剔除冗余特征对应的参数，得到各视角数据分别对应的最终的投影从而得到最终的支持张量机分类模型；决策函数为其中第v视角数据x^(v)若为向量，其投影w^(v)亦为向量，同理x^(v)若为张量，其投影w^(v)亦为张量。

步骤600：根据各视角数据保留特征的下标数据剔除测试样本的冗余信息；

步骤700：将剔除冗余信息的测试样本输入到支持张量机分类模型，通过支持张量机分类模型对测试样本进行分类。

请参阅图3，是本发明实施例的基于张量模式的多源数据分类优化系统的结构示意图。本发明实施例的基于张量模式的多源数据分类优化系统包括张量积运算模块、分类模型构建模块、交替投影算法模块、特征消除模块、分类模型优化模块、信息剔除模块和数据分类模块；

张量积运算模块用于将多视角数据引入统一的张量积空间，并在Map-reduce分布式框架下对多视角数据进行张量积运算，得到高阶张量数据；其中，本发明实施例以2源多视角数据(向量模式数据x(1)：维数为I的向量特征&张量模式数据X(2)：J×K矩阵特征)为例，在Map-reduce分布式框架下构建高阶张量数据的方式具体为：确定Map过程中x(1)和X(2)的键值对(key-value)；x(1)的索引(key)为i∈{1,2,...,I}，对应着x(1)中元素的数值value:X(2)的索引(key)为[(k-1)*M+j]，对应着X(2)中元素的数值value:执行Map过程，输出x(1)和X(2)的键值对(key-value)；此时，x(1)的key变为i与数值以字符串的形式链接:(i,)，value不变，同理，X(2)的key变为([(k-1)*M+j]，),value不变；将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段；确定reduce过程中的键值对；其中，reduce的输入键值对为Map的输出键值对；reduce过程中，并行计算向量x(1)与X(2)的张量积(外积)运算：输出的键值对即为高阶张量的键值对。

分类模型构建模块用于以高阶张量数据为输入，构建初始的支持张量机分类模型；其中，本发明选择支持张量机作为构建的初始分类模型，该模型能够直接在张量领域处理张量数据，有效分析利用结构信息，提高分类精度，同时，相比向量分类模型，其参数较少，更加适合小样本问题，避免过学习等问题；例如，将256*256的二阶张量数据转化为向量数据，其维数256*256＝65536，同时丢失了各个mode之间的内在相关性。支持张量积直接处理张量数据，其模型参数为256+256＝512个，而支持向量机处理后的数据，对应的模型参数为65536个，而现实中能够采集的样本量较少，难免出现小样本问题。

交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数；其中，本发明实施例的根据交替投影算法迭代优化得出支持张量机分类模型的最优参数的方式为：在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量，根据支持张量机分类模型求张量的第N阶投影向量；其中，N为高阶张量数据的阶数；确定第N阶投影向量的(key-value)；在Map-reduce分布式框架下更新张量的第N阶投影向量，根据支持张量机分类模型求张量的第(N-1)阶投影向量；确定第N-1阶投影向量的(key-value)；在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量，根据支持张量机分类模型求张量的第(N-2)阶投影向量；以此类推，在Map-reduce分布式框架下更新张量的第2阶投影向量，根据支持张量机分类模型求张量的第1阶投影向量，并循环至支持张量机分类模型收敛为止，获得支持张量机分类模型的投影张量和偏移标量。

特征消除模块用于在Map-reduce分布式框架下，以支持向量递归特征消除算法(SMV-RFE)在原始空间进行各个视角数据的特征消除，并输出各视角数据保留特征的下标数据其中，假设正在循环的某维视角数据为N阶张量数据以支持向量递归特征消除算法在各个视角数据v迭代循环方式为：初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征(与规模、类型一致)；确定保留特征的总数p^(v)；计算保留特征对应的权值数据对保留特征的秩确定(key-value)，并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分，寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i₁,i₂,…i_N)；并循环处理直到后，输出保留特征对应的下标数据

分类模型优化模块用于根据各视角数据保留特征的下标数据进一步优化初始的支持张量机分类模型参数，并确定最终的支持张量机分类模型；其中，根据各视角数据保留特征的下标数据剔除冗余特征对应的参数，得到各视角数据分别对应的最终的投影从而得到最终的支持张量机分类模型；决策函数为其中第v视角数据x^(v)若为向量，其投影w^(v)亦为向量，同理x^(v)若为张量，其投影w^(v)亦为张量。

信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息；

数据分类模块用于将剔除冗余信息的测试样本输入到支持张量机分类模型，通过支持张量机分类模型对测试样本进行分类。

本发明实施例的基于张量模式的多源数据分类优化方法及系统通过在Map-reduce分布式框架下构建高阶张量数据，从而快速计算高阶张量数据，保证大数据计算过程的高效性；采用原始数据为不同数据源的多视角数据，有效提高分类模型的分类精度；选择支持张量机作为构建的初始分类模型，提高分类精度的同时，更加适合小样本问题，避免过学习等问题；并通过利用支持向量机递归特征消除算法在原始空间进行特征选择，计算复杂度更低，保证分类模型能够识别张量数据中的冗余信息，进一步提高分类模型的分类速度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之。

Claims

1.一种基于张量模式的多源数据分类优化方法，包括以下步骤：

步骤d：将测试样本输入到支持张量机分类模型进行分类。

2.根据权利要求1所述的基于张量模式的多源数据分类优化方法，其特征在于，在所述步骤a中，所述在Map-reduce分布式框架下对多视角数据进行张量积运算，得到高阶张量数据的运算方式包括以下步骤：

步骤a2：执行Map过程，输出x(1)和X(2)的键值对；

3.根据权利要求2所述的基于张量模式的多源数据分类优化方法，其特征在于，所述步骤b还包括：在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。

4.根据权利要求3所述的基于张量模式的多源数据分类优化方法，其特征在于，所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤：

步骤b11：确定第N阶投影向量的(key-value)；

步骤b13：确定第N-1阶投影向量的(key-value)；

5.根据权利要求1所述的基于张量模式的多源数据分类优化方法，其特征在于，在所述步骤b中，所述以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除，输出各视角数据保留特征的下标数据具体包括以下步骤：

步骤b21：确定保留特征的总数p^(v)；

步骤b22：计算保留特征对应的权值数据

步骤b26：循环步骤b20至步骤b25，直到

步骤b27：输出保留特征对应的下标数据

6.根据权利要求5所述的基于张量模式的多源数据分类优化方法，其特征在于，所述步骤c还包括：根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。

7.一种基于张量模式的多源数据分类优化系统，其特征在于，包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块；

8.根据权利要求7所述的基于张量模式的多源数据分类优化系统，其特征在于，还包括交替投影算法模块，所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。

9.根据权利要求8所述的基于张量模式的多源数据分类优化系统，其特征在于，所述特征消除模块以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消除方式为：初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征；确定保留特征的总数p^(v)；计算保留特征对应的权值数据对保留特征的秩确定(key-value)，并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分，寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i₁,i₂,…i_N)；并循环处理直到后，输出保留特征对应的下标数据

10.根据权利要求9所述的基于张量模式的多源数据分类优化系统，其特征在于，还包括信息剔除模块，所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。