CN111276183A

CN111276183A - 一种基于参数估计的张量分解处理海量基因序列的方法

Info

Publication number: CN111276183A
Application number: CN202010114706.6A
Authority: CN
Inventors: 周维; 何伟; 吴子锋; 贺胜红; 姚绍文
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-12
Anticipated expiration: 2040-02-25
Also published as: CN111276183B

Abstract

本发明提供了一种基于参数估计的张量分解处理海量基因序列的方法，涉及混合模型参数估计领域，其特征在于，提出了块张量分解算法PTD，包括锚张量的选取、子张量的划分、并行非负张量分解和置换矩阵的计算，通过张量对数据建模，提出了锚张量的概念，将待分解的张量分解为多个子张量，通过锚张量在多个子张量中的共享与联系，并通过分解结果中锚张量对应的值，计算每一个子张量的置换矩阵，通过该置换矩阵，将所有子张量的分解结果合并到一起，在非负张量分解的过程中添加了负值置0和添加极小正数的操作既保证了张量分解结果的有效性，又增加了该算法的鲁棒性，进一步基于MapReduce思想在spark平台上实现了该算法，解决了参数估计中的张量分解处理高维数据时中速度慢、效率低的问题，使得该算法具有应对大规模数据的能力。

Description

一种基于参数估计的张量分解处理海量基因序列的方法

技术领域

本发明涉及混合模型参数估计领域，特别是涉及一种基于参数估计的张量分解处理海量基因序列的方法。

背景技术

近年来，数据都呈现爆炸式增长。在生物领域，随着第二代测序技术的成熟，各种组学(基因组、转录组、表观遗传组等)数据呈现爆炸式增长，基于高维度空间建模的生物数据大量出现。迫切需要一种能够描述高维生物数据中的高阶关系的工具。

面对如此巨大的数据，传统软件在数据分析、处理上已经越来越不能满足人们的需求。与此同时，分布式存储，分布式计算等大数据技术日渐成熟。得益于这些大数据技术，使得我们可以在普通的PC机上也能处理大数据。各领域对大数据技术的需求不断增大，也促使很多公司在大数据技术上投入更多的研发精力。

在传统的张量分解来解决混合参数估计问题时，会有两个难点：第一个难点是算法的计算和空间复杂度。如LVM算法，当给定维变量时，其参数推导时需要分解空间复杂度为的张量。当变量的维度的很大时，其空间复杂度将会陡然上升，同时也会有巨大的计算量，在目前海量基因序列数据的背景下，空间复杂度依然很高。第二个难点是样本矩中负值的存在。无论是高斯分布、狄利克雷分布、泊松分布还是其它分布，很多分布的参数都是正值，若参数为负值将毫无意义。很多经典的张量分解算法，没有保证分解结果非负性的必要，许多针对混合模型而改进的张量分解算法，如TPM(Tensor Power Method)算法和HALS(Hierarchical Alternating Least Squares)算法，通过对迭代公式的变换和初始条件的限制，能够保证其分解结果的非负性。然而，由于变分抽样和数据噪声的存在，根据实际的数据计算得到的样本矩张量中仍然会有负值的存在，尤其当样本数量较少且样本数据的至非常接近于0的时候，样本矩张量中会有大量的负值存在，会严重影响参数的近似和求解。

对隐变量模型进行估计，传统方法如EM或variational EM算法，通常只能获得局部最优解。矩估计的思想，用已知数据的样本矩代替数据的真实矩，从而估计得到未知参数。经典的矩估计思想来估计参数的步骤：

1.根据已知样本的样本矩来近似数据分布的真实矩，根据不同的阶数可以获得一组代求解的方程；

2.根据不同分布的特征，将这组方程构建成一个高阶张量；

3.对该张量进行分解，求得张量每一个维的因子矩阵；

4.根据求得的因子矩阵来求得分布的参数。

在深入调研了HALS、MELD(Moment Estimation for latent Dirichlet models)和 TPM算法，研究张量分解在参数估计中的应用，提出了本方法的PTD算法，提出了锚张量的概念，并改进了张量非负分解算法，保证了张量分解结果的有效性，增加了算法的鲁棒性，并在Spark平台实现了MapReduce版本从而使得该算法能够较好的应对目前海量基因序列数据下超高维度的数据。

发明内容

本发明提供了基于参数估计的张量分解处理海量基因序列的方法，基于张量分解技术提出了PTD(Partition Tensor Decomposition)算法旨在通过并行解决海量基因序列数据下非负张量分解问题，并应用到混合模型参数估计领域，相对于现有技术的算法来说，提高了结果的有效性，增加了算法的鲁棒性拥有了更好的抗噪能力，能够对海量基因数据进行快速处理、分析并保证结果的准确度。

本发明还提供了PTD分解算法在大数据方面的应用，使用Python语言在pyspark中实现代码逻辑，基于MapReduce的思想在spark平台上实现，减少了算法的中间数据，减少了MapReduce的shuffle操作，减少了读写硬盘的次数，将复杂操作解耦，降低或移除了算法中的线性依赖关系，是算法能够在spark平台对高维张量进行并行化处理，加速参数估计，满足了业界对算法的高效性、扩展性的要求。

本发明提出了锚张量的概念：在给定的p维的n个基因序列样本中，从p维特征中选定3M(M≥1)个维度作为锚张量的索引，并将其它的维度平均划分为r个部分，将3M维度的特征分别拼到每一个部分特征中，再根据狄利克雷的公式，将每一部分的特征构建成一个子张量。其中每一个子张量中锚张量的索引对应的张量部分，即为锚张量。

本发明提出的基本块张量的PTD分解算法主要根据锚张量的选取和共享，包括以下步骤：

1.从原张量中选取出锚张量，并将除去锚张量的剩余张量划分r等份；

2.将选取出的锚张量复制r份并与剩余的r等份张量拼接；

3.将拼接好的张量进行非负张量分解获得参数矩阵；

4.将参数矩阵进行计算得到置换矩阵，再将分解计算后的结果合并。

优选的，通过确定锚张量的下标索引π^u，π^v和π^w，选取锚张量π^u∪π^v∪π^w，锚张量的选取原则是保证选取的锚张量满秩。并将除去锚张量的其他变量[p]\(π^u∪π^v∪π^w)平均划分为r个子张量，将锚张量复制r份，与每一个划分得到的子张量拼接。

优选的，根据狄利克雷隐变量的公式，将划分得到的r个子变量变形，构建成对应的二阶或三阶子张量，之后对每一个子张量进行非负张量分解，得到其分解结果，即为待求的参数矩阵，参考并行二次正定分解，将该过程可以并行分解，提高效率。

优选的，非负张量分解中添加了“负值置0”和“添加极小正数”两个操作使分解结果非负，保证参数的有效性。

优选的，将锚张量对应的参数矩阵

进行归一化，并用匹配算法，求得每一个子张量中锚张量部分对应的置换矩阵，根据置换矩阵，将每一个子张量的分解结果进行合并，得到对应混合模型的待求参数。

上述方法降低了空间复杂度减少了计算量，又避免了无意义的负值参数，保证了数据的有效性同时提高了结果的准确性。

附图说明

图1是核心算法的整个流程；

图2是基本块张量划分的PTD分解算法分解过程；

图3是锚张量示意图；

图4是划分得到的子张量；

图5是基于Mapreduce思想的PTD算法中锚张量的选取；

图6是基于Mapreduce思想的PTD算法中子张量的划分；

图7是基于Mapreduce思想的PTD算法中锚张量和对应的子张量拼接

图8是基于Mapreduce思想的PTD算法中并行非负张量分解过程

图9是基于Mapreduce思想的PTD算法中每个worker节点参数求解过程

具体实施方式

在下面的描述中对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1中提供了基于参数估计的张量分解处理海量基因序列的方法，如图1所示包括以下步骤：

1.将基因序列样本数据建模为张量；

2.锚张量的选取；

3.子张量的划分；

4.并行非负张量的分解；

5.置换矩阵的计算；

如图2所示的张量分解过程，令π^j，π^s，π^t分别为观测变量p的索引下标P([1，2，3，...，p] 的子集，即

且

其中每个子集的元素个数|π^j|＝p_j， |π^s|＝p_s，|π^t|＝p_t，考虑一个p_j×p_s×p_t的子张量

其中第(u，v，w)个元素是

根据CP分解公式，子张量M可以进行以下的分解：

子张量

的分解结果，也能够对应到原张量分解的结果。如果扩展满秩张量

来构建一个新的张量

可以通过公式

的索引扩展来得到新的张量

分解算法的核心是首先确定锚张量，以三阶张量为例，先从变量p的索引[1,2，3，…,p] 中，选定3个维度的索引π^u、π^v和π^w，确保3个维度的索引在原张量M中子张量

是满秩矩阵，如图3所示，然后将索引[1，2，3，…，p]中除去π^u、π^v和π^w剩下的变量均分为k 份，即可以得到k个对应的子张量，根据公式π^j′＝π^j∪π^u，π^s′＝π^s∪π^v，π^t′＝π^t∪π^w的方式，将锚张量

与每个子张量组合在一起，即锚张量

在每一个子张量中共享。在进行子张量分解时，通过锚张量，将所有的张量串联起来，从而保证整个张量的信息的在所有的子张量中共享，得到如图4所示的划分得到的子张量。

张量分解的过程中即使被分解的张量M中不存在负值，分解得到的参数矩阵也会出现负值，本发明算法的分解过程中加入了负值置0和添加极小正值的操作，考虑忽略

中的负值，将负值表示为缺失值并用一个标识矩阵来做标记，目标函数表示为

其中

W＝A，H＝(C⊙B)^T，公式中的Ω定义为Ω_uv：＝Y_uv≥1。通过引入一个极小的正数∈，将上述的迭代公式改进为

在分子和分母中引入∈，能够给收敛的方向带入极小的偏差，提高了算法的鲁棒性。

本发明实施例2中提供了一种PTD分解算法在大数据应用的方法，如图1所示步骤如下：

1.划分锚张量索引和其他张量索引。给定锚张量的索引anchor_index，该索引以元组([idx]_A,[idx]_B,[idx]_C)的形式给出，该索引的给定，要保证其对应的张量为满秩，将该索引发布到每一个工作节点中，然后通过过滤器操作，在每一个过滤器操作中，以IndexedRow的index是否等于anchor_index为条件，将原始基本数据划分为如图5所示的锚张量对应的变量anchor_variable和其他变量other_variable两部分。

2.如图6所示，将其他变量other_variable平均划分为r份π_1,π_2,..,π_r，本实施例以三阶张量为例，为保证能够对应到张量的三个维度，其中每份至少包含三个变量，首先声明一个索引数组indices＝[1,2,3,…,p]，并将锚张量对应的索引剔除，即 indices＝

[[idx]_A,[idx]_B,[idx]_C]，在主节点将该索引数组indices划分为r 份，同样将indices数组发布到每一个节点，同时用map操作实现过滤器的功能，根据索引数组指示，将其他变量other_variable划分为r个部分。

3.如图7所示，将锚张量对应的变量拼接到每一个划分的其他变量中。通过map操作，将划分得到的anchor_variable复制r份，然后通过zip操作，将anchor_variable拼接到每一份other_variable中，即完成子张量的划分。

4.如图8所示，将张量分解的算法打包成库，并在每一个节点中加载该库，直接在map 部分中调用该算法，将每一个子张量对应的变量传入算法中进行计算，得到其对应的狄利克雷张量，同时用Python实现非负张量分解算法，同样在每一个节点中加载该库，将第二部分构建的张量分解为三个维度的因子矩阵φ_1,φ_2,φ_3，三个矩阵都有k行，对应了k 隐变量的参数，其中φ_1＝[P_A,P_i,P_j,…]，φ_2＝[P_B,P_k,P_l,…]，φ_3＝[P_C,P_m,P_n,…]，即P_A，P_B，P_C对应了锚张量索引所对应的参数矩阵中的值，每一份子张量均会求得一份P_A，P_B，P_C的值，每一份子张量中共享锚张量的分解结果。

5.如图9所示，将每一个通过子张量分解得到的对应因子矩阵的锚张量部分通过过滤器操作筛选出，选择其中一个因子矩阵，以该因子矩阵为标准矩阵base_matrix，即将其他因子矩阵中的锚索引对应的变量都调整到与该base_matrix的锚索引对应的变量保持一致。通过collect操作将base_matrix拉取到master节点的内存中，并将该因子矩阵发布到每一个工作节点中，使用最小角度匹配算法，将base_matrix与每一个共享索引所在变量的因子矩阵进行乘积操作，同时，令乘积后的矩阵中，每一行最大的值设为1，其他设为0，求得每一个子张量的置换矩阵。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于参数估计的张量分解处理海量基因序列的方法，其特征在于，包括样本数据建模和基本块张量的PTD分解算法，所述样本数据建模是通过矩估计方法将从数据库中提取的基因序列样本数据建模为张量，所述PTD分解算法包括以下四个模块：

A：锚张量的选取模块，根据锚张量的选取和共享，使得原始张量可以划分为多个子张量；

B：并行非负张量的分解模块，根据狄利克雷隐变量的公式，将划分得到的子变量变形并进行非负张量分解，得到的分解结果为待求的参数矩阵；

C：置换矩阵的计算模块：将锚张量对应的参数矩阵进行归一化，并用匹配算法求得每一个子张量中锚张量部分对应的置换矩阵，根据置换矩阵，将每一个子张量的分解结果进行合并，得到对应混合模型的待求参数。

2.如权利要求1所述的基于参数估计的张量分解处理海量基因序列的方法，其特征在于，所述模块A在原始张量中通过确定锚张量的下标索引来选取锚张量，锚张量的选取原则是保证选取的锚张量满秩，锚张量选取后，将原始张量中去除锚张量的其它变量平均划分为r个子张量，并将锚张量复制r份与每一个划分得到的子张量拼接。

3.如权利要求2所述的基于参数估计的张量分解处理海量基因序列的方法，其特征在于，所述模块B在非负张量分解的过程中通过将结果中的负值置0和在计算公式的分子分母上引入一个极小正数。

4.如权利要求4所述的基于参数估计的张量分解处理海量基因序列的方法，其特征在于，所述模块C在子张量经过非负张量分解后的到的对应的因子矩阵中选择一个因子矩阵为标准矩阵，通过最小角度匹配算法将标准矩阵与每一个共享索引所在变量的因子矩阵进行乘积操作，令乘积后的矩阵中每一行最大的值设为1，其它值设为0，得到每一个子张量的置换矩阵。

5.一种权利要求1-4任一项所述的基于参数估计的张量分解处理海量基因序列的方法在大数据的应用。