CN110648723A

CN110648723A - 一种基于云架构平台的基因数据分析方法

Info

Publication number: CN110648723A
Application number: CN201910931181.2A
Authority: CN
Inventors: 阚苏立; 陶德晶; 卢清瑶
Original assignee: Jiangsu Healthcare Big Data Protection And Development Co Ltd
Current assignee: Jiangsu Healthcare Big Data Protection And Development Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-03

Abstract

本发明涉及基因数据分析技术领域，具体地说，涉及一种基于云架构平台的基因数据分析方法。其方法步骤如下：建立云架构平台的基因数据库，以云架构平台为框架，将基因序列数据存储于基因数据库；优化基因序列区域，对基因序列区域进行全局和局部优化；基于流形学习算法对基因序列数据进行挖掘；该基于云架构平台的基因数据分析方法中，以云架构平台为框架，将基因序列数据存储于基因数据库内，形成了不再单一的大数据，提高数据处理的效率，通过全局优化模块和局部优化模块，实现基因序列的对比和拼接，基于流形学习算法对基因序列数据进行挖掘，便于提取序列数据中的重要数据。

Description

一种基于云架构平台的基因数据分析方法

技术领域

本发明涉及基因数据分析技术领域，具体地说，涉及一种基于云架构平台的基因数据分析方法。

背景技术

近年来，基因数据的分析研究在不断深入，人们也充分意识到了研究基因活动信息的重要性，由于基因数据庞大、具有不完全性且随机性强，难以对基因数据进行分析。

发明内容

本发明的目的在于提供一种基于云架构平台的基因数据分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供一种基于云架构平台的基因数据分析方法，其方法步骤如下：

S1、建立云架构平台的基因数据库，以云架构平台为框架，将基因序列数据存储于基因数据库；

S2、优化基因序列区域，对基因序列区域进行全局和局部优化；

S3、基于流形学习算法对基因序列数据进行挖掘；

S4、基于HMM方法聚类基因。

作为优选，S1中，建立云架构平台的基因数据库具体流程如下：

S11、下载和安装JDK；

S12、配置环境变量；

S13、验证JDK是否安装成功；

S14、分别设置/etc/hosts和/etc/hostname；

S15、安装OpenSSH，并配置SSH免密码登录；

S16、配置两台主机的Hadoop文件；

S17、输入命令格式化，格式化hadoop的文件系统HDFS，输入启动所有进程命令。

作为优选，优化基于序列区域包括全局优化模块和局部优化模块，全局优化模块用于根据整个序列区域尝试找出最佳匹配，局部优化模块用于在两个成对的序列中识别相似区域，完成序列比对或拼接。

作为优选，全局优化模块采用Needleman-Wunsch比对算法找出最佳匹配，其算法公式如下：

S_ijmax{S_i-1，j-1+S(a_ib_j)，

max

x≥1(S_i-1，j-w_x)，

max

y≥1(S_i，j-1-w_y)

}

其中，S_ij时序列a在位置i和序列b在位置j的分值，S(a_ib_j)是位置i和j上比对分值，w_x是在序列a中长度为x的间隔罚分，w_y是序列b中长度为y的间隔罚分。

作为优选，局部优化模块基于Smith-Waterman算法实现局部比对优化，其算法公式如下：

作为优选，S3中，基于流形学习算法对基因序列数据进行挖掘具体流程如下：

S31、对DNA序列进行数字化表示；

S32、提取一部分数据作为训练数据，并对训练数据设置区别标记；

S33、将训练数据与待测样本作为一个数据集X进行DNA序列降维计算，得出各类不同的低维嵌入Y；

S34、对低维嵌人Y中不同向量进行距离和夹角计算，得出DNA低维距离相似性参数d_ij’和DNA低维夹角相似性参数cosθ_ij’；

S35、根据S34中数据进行识别和分类。

作为优选，基于HMM方法聚类基因公式为：给定n个序列S₁，索引集合为I＝{1，2，……，n}，指定的整数K，计算一个I的分配C(C₁，C₂，……，C_K)，以及K个HMM模型M₁，M₂，……，M_K，使得目标函数取得最大值：

其中，L(S_i|M_k)是似然函数，即，在模型M_K下生成序列S_i的概率密度。

与现有技术相比，本发明的有益效果：

1、该基于云架构平台的基因数据分析方法中，以云架构平台为框架，将基因序列数据存储于基因数据库内，使得基因数据从零散变的统一，形成了不再单一的大数据，提高数据处理的效率。

2、该基于云架构平台的基因数据分析方法中，通过全局优化模块根据整个序列区域尝试找出最佳匹配，通过局部优化在两个成对的序列中识别相似区域，实现基因序列的对比和拼接。

3、该基于云架构平台的基因数据分析方法中，基于流形学习算法对基因序列数据进行挖掘，便于提取序列数据中的重要数据。

附图说明

图1为本发明的整体流程图；

图2为本发明的建立云架构平台流程图；

图3为本发明的云架构平台网络拓补图；

图4为本发明的优化基于序列区域模块图；

图5为本发明的基因序列数据进行挖掘流程图；

图6为本发明的HMM方法聚类基因流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图6所示，本发明提供一种技术方案：

本发明提供一种基于云架构平台的基因数据分析方法，其方法步骤如下：

S3、基于流形学习算法对基因序列数据进行挖掘；

S4、基于HMM方法聚类基因。

本实施例中，S1中，建立云架构平台的基因数据库具体流程如下：

S11、下载和安装JDK，具体步骤如下：

①、JDK的安装目录为/usr/lib/jvm，创建此文件夹，在终端输入命令：

mkdir/usr/lib/jvm；

②、移动jdk到/usr/lib/jvm，并解压，然后为了节省空间删除安装包，命令：

mv jdk--7u51-linux-x64.tar.gz/usr/lib/jvm；

tar–zxvfjdk--7u51-linux-x64.tar.gz；

rm–rf jdk--7u51-linux-x64.tar.gz；

S12、配置环境变量，配置命名为：sudogedit/etc/profile；

S13、验证JDK是否安装成功，其步骤如下：

①、输入命令：java–version，如出现java版本信息，则进行下一步骤；

②、手动设置需输入以下命令：

sudoupdate-alternatives–install/usr/bin/java java/usr/lib/jvm/jdk1.7.0-51/bin/java 300

sudoupdatealternativesinstall/usr/bin/javacjavac/usr/lib/jvm/jdk1.7.0_51/javac300

sudo update-alternatives–config java

S14、分别在三台主机上设置/etc/hosts和/etc/hostname；

S15、安装OpenSSH，并配置SSH免密码登录，其步骤如下：

①、确认已经连接上网，输入命令：sudo apt-get install ssh；

②、配置为可以免密码登录本机，输入命令：ssh-keygen–t dsa–P‘’–f～/.ssh/id_dsa；

③、验证ssh是否已经安装成功，输入命令：ssh–version；

S16、配置两台主机的Hadoop文件；

具体的，优化基于序列区域包括全局优化模块和局部优化模块，全局优化模块用于根据整个序列区域尝试找出最佳匹配，局部优化模块用于在两个成对的序列中识别相似区域，完成序列比对或拼接。

值得说明的是，全局优化模块采用Needleman-Wunsch比对算法找出最佳匹配，其算法公式如下：

S_ijmax{S_i-1，j-1+S(a_ib_j)，

max

x≥1(S_i-1，j-w_x)，

max

y≥1(S_i，j-1-w_y)

}

Needleman-Wunsch算法是一种整体联配算法，最佳联配中包括了全部的最短匹配序列，将两条联配的序列沿双向表的轴放置，两条序列的所有可能的联配方式都将在它们所形成的方形图中，从任一碱基对，联配可延三种可能的方式延伸：如果碱基不匹配，则每一序列加上一个碱基，并给其增加一个规定的距离权重；或在一个序列中增加一个碱基而在另一序列中增加一个空位或反之亦然。引入一个空位时也将增加一个规定的距离权重。因此，表中的一个单元可以从(至多)三个相邻的单元达到。由此所产生的路径将给出具有最短距离的列联配。

设具有碱基ai和bi的两个序列a和b，这两个序列间距离为d(a，b)，通过评价序列a中前i个位置和序列b前j位置的距离，递归地得到距离d(aⁱ，b^j)。如果a和b的长度为m和n，则其期望距离为d(a^m，bⁿ)，在单元(i，j)内，使到达该单元距离增加的三种可能实践为：

①、从单元(i-1，j)向(j)的垂直移动，相当于在b序列中插入一个空位使相似序列延伸，这一事件的权重记作w_(a_i)；

②、从单元(i-1，j-1)向(j)的对角线移动，相当于增加碱基a和b使相似序列延伸，这一事件的权重记作w_(a_i，b_i)；

③、从单元(i，j-1)向(j)的水平移动，相当于在序列b中插入一个空位使相似序列延伸，这一事件权重记作w₊(b_i)。

因此，单元(i，j)的距离可看成三个相邻单元的距离加上相应权重后的最小者即：

且初始条件为：

d(a⁰，b⁰)＝0

当两个序列被联配时，通过计算其重排序列的联配距离，可以得到这两个序列间的最小距离估计。如果实际得到的联配距离小于重排序列距离的95％，表明实际的联配距离达到了5％的显著水平，是不可能由机误造成的。

进一步的，局部优化模块基于Smith-Waterman算法实现局部比对优化，其算法公式如下：

Smith-Waterman算法描述了一种查找具有最高相似性片段的算法，对于序列A＝(a₁,a₂,a₃,…a_m)和B＝(b₁,b₂,b₃,…b_m)，H_ij被定义为以a_j和b_j碱基对结束的片段的相似值，相似性计算值S(a_i,b_i)和空位权重w_k＝v+uk(k为空位长度)，Smith-Waterman算法可以给出两条序列的最大相似性值，以a_i，b_j碱基对结束的片段可以由以a_i-1，b_j-1结束片段增加碱基因子来获得，或者a_i可以删除k长度的碱基片段，b_j可删除I长度碱基片段，具体算法如下：

P_ij＝max(H_i-1,j-w₁,P_i-1,j-u)

Q_ij＝max(H_i,j-1-w₁,P_i,j-1-u)

则

其中，P_0,0＝P_0,j＝Q_0,0＝Q_i,0＝0；

该算法可以确保具有最大H_ij值的序列片段是相似性最好的，从(a_i,b_j)为起点，向后H_ij追踪矩阵，直到到达某一负值。对于具有最大相似性片段以为部分的差异不会影响到该片段的H值。

再进一步的的，S3中，基于流形学习算法对基因序列数据进行挖掘具体流程如下：

S31、对DNA序列进行数字化表示；

S35、根据S34中数据进行识别和分类。

其中，流形学习算法解释如下：假设存在于R^d欧氏空间中的d维域，令f:Y→R^D为该空间中的一个光滑嵌人映射，令d<D。数据点y_i包含于Y在随机的过程中生成，再经f映射形成空间数据{x_i＝f(y_i)}包含于R^D，称Y＝{y₁，y₂，……y_N}为低维嵌人，y₁(i＝1，2，…N)为低维嵌人向量，X＝(x₁，x₂，……x_N)为给定的高维观测数据集，从高维观测数据点x_i中重构f和低维向量y_i均为流形学习的目标。

同时，DNA序列是由4个碱基单元CGAT组合所形成的序列，即胞嘧啶核苷酸C(胞苷酸，CMP)、鸟嘌呤核苷酸G(鸟苷酸，GMP)、腺嘌呤核苷酸A(腺苷酸，AMP)、胸腺嘧啶核苷酸T(胸苷酸，TMP)，根据核苷酸转化公式将C、G、A、T、O分别映射为g_i(i＝1，2，……，N)，实现对每个碱基的数字化，其中英文字母“O”表示没有核苷酸，核苷酸转化公式为：

其中，序列数据降维具体为：将N个具有D个碱基单元的DNA序列视为一个D维样本集X[x₁，x₂，……x_N]，假设有足够的数据点，并且认为每个数据点可以用其K个近邻线性表示，求近邻点，采用ε邻域，比较每个x_i与x_j的距离d_ij，其计算公式如下：

将权重向量代入函数Φ(Y)，再利用拉格朗日乘子法计算Φ(Y)取最小值时所对应的低纬嵌入Y＝{y₁，y₂，……y_N}，y_i∈R^d，

其中，2个DNA序列向量之间的欧氏距离d_ij，称为DNA距离相似性参数；2个DNA序列向量之间的夹角cosθ_ij，称为DNA夹角相似性参数；2个低维嵌人向量之间的欧氏距离d_ij’称为DNA低维距离相似性参数；2个低维嵌人向量之间的夹角cosθ_ij’称为DNA低维夹角相似性参数，各算法如下：

此外，基于HMM方法聚类基因公式为：给定n个序列S₁，索引集合为I＝{1，2，……，n}，指定的整数K，计算一个I的分配C(C₁，C₂，……，C_K)，以及K个HMM模型M₁，M₂，……，M_K，使得目标函数取得最大值：

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。