CN110648723A - 一种基于云架构平台的基因数据分析方法 - Google Patents

一种基于云架构平台的基因数据分析方法 Download PDF

Info

Publication number
CN110648723A
CN110648723A CN201910931181.2A CN201910931181A CN110648723A CN 110648723 A CN110648723 A CN 110648723A CN 201910931181 A CN201910931181 A CN 201910931181A CN 110648723 A CN110648723 A CN 110648723A
Authority
CN
China
Prior art keywords
gene
sequence
cloud architecture
data
architecture platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910931181.2A
Other languages
English (en)
Inventor
阚苏立
陶德晶
卢清瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Healthcare Big Data Protection And Development Co Ltd
Original Assignee
Jiangsu Healthcare Big Data Protection And Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Healthcare Big Data Protection And Development Co Ltd filed Critical Jiangsu Healthcare Big Data Protection And Development Co Ltd
Priority to CN201910931181.2A priority Critical patent/CN110648723A/zh
Publication of CN110648723A publication Critical patent/CN110648723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基因数据分析技术领域,具体地说,涉及一种基于云架构平台的基因数据分析方法。其方法步骤如下:建立云架构平台的基因数据库,以云架构平台为框架,将基因序列数据存储于基因数据库;优化基因序列区域,对基因序列区域进行全局和局部优化;基于流形学习算法对基因序列数据进行挖掘;该基于云架构平台的基因数据分析方法中,以云架构平台为框架,将基因序列数据存储于基因数据库内,形成了不再单一的大数据,提高数据处理的效率,通过全局优化模块和局部优化模块,实现基因序列的对比和拼接,基于流形学习算法对基因序列数据进行挖掘,便于提取序列数据中的重要数据。

Description

一种基于云架构平台的基因数据分析方法
技术领域
本发明涉及基因数据分析技术领域,具体地说,涉及一种基于云架构平台的基因数据分析方法。
背景技术
近年来,基因数据的分析研究在不断深入,人们也充分意识到了研究基因活动信息的重要性,由于基因数据庞大、具有不完全性且随机性强,难以对基因数据进行分析。
发明内容
本发明的目的在于提供一种基于云架构平台的基因数据分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种基于云架构平台的基因数据分析方法,其方法步骤如下:
S1、建立云架构平台的基因数据库,以云架构平台为框架,将基因序列数据存储于基因数据库;
S2、优化基因序列区域,对基因序列区域进行全局和局部优化;
S3、基于流形学习算法对基因序列数据进行挖掘;
S4、基于HMM方法聚类基因。
作为优选,S1中,建立云架构平台的基因数据库具体流程如下:
S11、下载和安装JDK;
S12、配置环境变量;
S13、验证JDK是否安装成功;
S14、分别设置/etc/hosts和/etc/hostname;
S15、安装OpenSSH,并配置SSH免密码登录;
S16、配置两台主机的Hadoop文件;
S17、输入命令格式化,格式化hadoop的文件系统HDFS,输入启动所有进程命令。
作为优选,优化基于序列区域包括全局优化模块和局部优化模块,全局优化模块用于根据整个序列区域尝试找出最佳匹配,局部优化模块用于在两个成对的序列中识别相似区域,完成序列比对或拼接。
作为优选,全局优化模块采用Needleman-Wunsch比对算法找出最佳匹配,其算法公式如下:
Sijmax{Si-1,j-1+S(aibj),
max
x≥1(Si-1,j-wx),
max
y≥1(Si,j-1-wy)
}
其中,Sij时序列a在位置i和序列b在位置j的分值,S(aibj)是位置i和j上比对分值,wx是在序列a中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分。
作为优选,局部优化模块基于Smith-Waterman算法实现局部比对优化,其算法公式如下:
Figure BDA0002220334510000021
作为优选,S3中,基于流形学习算法对基因序列数据进行挖掘具体流程如下:
S31、对DNA序列进行数字化表示;
S32、提取一部分数据作为训练数据,并对训练数据设置区别标记;
S33、将训练数据与待测样本作为一个数据集X进行DNA序列降维计算,得出各类不同的低维嵌入Y;
S34、对低维嵌人Y中不同向量进行距离和夹角计算,得出DNA低维距离相似性参数dij’和DNA低维夹角相似性参数cosθij’;
S35、根据S34中数据进行识别和分类。
作为优选,基于HMM方法聚类基因公式为:给定n个序列S1,索引集合为I={1,2,……,n},指定的整数K,计算一个I的分配C(C1,C2,……,CK),以及K个HMM模型M1,M2,……,MK,使得目标函数取得最大值:
Figure BDA0002220334510000031
其中,L(Si|Mk)是似然函数,即,在模型MK下生成序列Si的概率密度。
与现有技术相比,本发明的有益效果:
1、该基于云架构平台的基因数据分析方法中,以云架构平台为框架,将基因序列数据存储于基因数据库内,使得基因数据从零散变的统一,形成了不再单一的大数据,提高数据处理的效率。
2、该基于云架构平台的基因数据分析方法中,通过全局优化模块根据整个序列区域尝试找出最佳匹配,通过局部优化在两个成对的序列中识别相似区域,实现基因序列的对比和拼接。
3、该基于云架构平台的基因数据分析方法中,基于流形学习算法对基因序列数据进行挖掘,便于提取序列数据中的重要数据。
附图说明
图1为本发明的整体流程图;
图2为本发明的建立云架构平台流程图;
图3为本发明的云架构平台网络拓补图;
图4为本发明的优化基于序列区域模块图;
图5为本发明的基因序列数据进行挖掘流程图;
图6为本发明的HMM方法聚类基因流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图6所示,本发明提供一种技术方案:
本发明提供一种基于云架构平台的基因数据分析方法,其方法步骤如下:
S1、建立云架构平台的基因数据库,以云架构平台为框架,将基因序列数据存储于基因数据库;
S2、优化基因序列区域,对基因序列区域进行全局和局部优化;
S3、基于流形学习算法对基因序列数据进行挖掘;
S4、基于HMM方法聚类基因。
本实施例中,S1中,建立云架构平台的基因数据库具体流程如下:
S11、下载和安装JDK,具体步骤如下:
①、JDK的安装目录为/usr/lib/jvm,创建此文件夹,在终端输入命令:
mkdir/usr/lib/jvm;
②、移动jdk到/usr/lib/jvm,并解压,然后为了节省空间删除安装包,命令:
mv jdk--7u51-linux-x64.tar.gz/usr/lib/jvm;
tar–zxvfjdk--7u51-linux-x64.tar.gz;
rm–rf jdk--7u51-linux-x64.tar.gz;
S12、配置环境变量,配置命名为:sudogedit/etc/profile;
S13、验证JDK是否安装成功,其步骤如下:
①、输入命令:java–version,如出现java版本信息,则进行下一步骤;
②、手动设置需输入以下命令:
sudoupdate-alternatives–install/usr/bin/java java/usr/lib/jvm/jdk1.7.0-51/bin/java 300
sudoupdatealternativesinstall/usr/bin/javacjavac/usr/lib/jvm/jdk1.7.0_51/javac300
sudo update-alternatives–config java
S14、分别在三台主机上设置/etc/hosts和/etc/hostname;
S15、安装OpenSSH,并配置SSH免密码登录,其步骤如下:
①、确认已经连接上网,输入命令:sudo apt-get install ssh;
②、配置为可以免密码登录本机,输入命令:ssh-keygen–t dsa–P‘’–f~/.ssh/id_dsa;
③、验证ssh是否已经安装成功,输入命令:ssh–version;
S16、配置两台主机的Hadoop文件;
S17、输入命令格式化,格式化hadoop的文件系统HDFS,输入启动所有进程命令。
具体的,优化基于序列区域包括全局优化模块和局部优化模块,全局优化模块用于根据整个序列区域尝试找出最佳匹配,局部优化模块用于在两个成对的序列中识别相似区域,完成序列比对或拼接。
值得说明的是,全局优化模块采用Needleman-Wunsch比对算法找出最佳匹配,其算法公式如下:
Sijmax{Si-1,j-1+S(aibj),
max
x≥1(Si-1,j-wx),
max
y≥1(Si,j-1-wy)
}
其中,Sij时序列a在位置i和序列b在位置j的分值,S(aibj)是位置i和j上比对分值,wx是在序列a中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分。
Needleman-Wunsch算法是一种整体联配算法,最佳联配中包括了全部的最短匹配序列,将两条联配的序列沿双向表的轴放置,两条序列的所有可能的联配方式都将在它们所形成的方形图中,从任一碱基对,联配可延三种可能的方式延伸:如果碱基不匹配,则每一序列加上一个碱基,并给其增加一个规定的距离权重;或在一个序列中增加一个碱基而在另一序列中增加一个空位或反之亦然。引入一个空位时也将增加一个规定的距离权重。因此,表中的一个单元可以从(至多)三个相邻的单元达到。由此所产生的路径将给出具有最短距离的列联配。
设具有碱基ai和bi的两个序列a和b,这两个序列间距离为d(a,b),通过评价序列a中前i个位置和序列b前j位置的距离,递归地得到距离d(ai,bj)。如果a和b的长度为m和n,则其期望距离为d(am,bn),在单元(i,j)内,使到达该单元距离增加的三种可能实践为:
①、从单元(i-1,j)向(j)的垂直移动,相当于在b序列中插入一个空位使相似序列延伸,这一事件的权重记作w_(ai);
②、从单元(i-1,j-1)向(j)的对角线移动,相当于增加碱基a和b使相似序列延伸,这一事件的权重记作w_(ai,bi);
③、从单元(i,j-1)向(j)的水平移动,相当于在序列b中插入一个空位使相似序列延伸,这一事件权重记作w+(bi)。
因此,单元(i,j)的距离可看成三个相邻单元的距离加上相应权重后的最小者即:
Figure BDA0002220334510000061
且初始条件为:
d(a0,b0)=0
Figure BDA0002220334510000071
Figure BDA0002220334510000072
当两个序列被联配时,通过计算其重排序列的联配距离,可以得到这两个序列间的最小距离估计。如果实际得到的联配距离小于重排序列距离的95%,表明实际的联配距离达到了5%的显著水平,是不可能由机误造成的。
进一步的,局部优化模块基于Smith-Waterman算法实现局部比对优化,其算法公式如下:
Figure BDA0002220334510000073
Smith-Waterman算法描述了一种查找具有最高相似性片段的算法,对于序列A=(a1,a2,a3,…am)和B=(b1,b2,b3,…bm),Hij被定义为以aj和bj碱基对结束的片段的相似值,相似性计算值S(ai,bi)和空位权重wk=v+uk(k为空位长度),Smith-Waterman算法可以给出两条序列的最大相似性值,以ai,bj碱基对结束的片段可以由以ai-1,bj-1结束片段增加碱基因子来获得,或者ai可以删除k长度的碱基片段,bj可删除I长度碱基片段,具体算法如下:
Pij=max(Hi-1,j-w1,Pi-1,j-u)
Qij=max(Hi,j-1-w1,Pi,j-1-u)
Figure BDA0002220334510000074
其中,P0,0=P0,j=Q0,0=Qi,0=0;
该算法可以确保具有最大Hij值的序列片段是相似性最好的,从(ai,bj)为起点,向后Hij追踪矩阵,直到到达某一负值。对于具有最大相似性片段以为部分的差异不会影响到该片段的H值。
再进一步的的,S3中,基于流形学习算法对基因序列数据进行挖掘具体流程如下:
S31、对DNA序列进行数字化表示;
S32、提取一部分数据作为训练数据,并对训练数据设置区别标记;
S33、将训练数据与待测样本作为一个数据集X进行DNA序列降维计算,得出各类不同的低维嵌入Y;
S34、对低维嵌人Y中不同向量进行距离和夹角计算,得出DNA低维距离相似性参数dij’和DNA低维夹角相似性参数cosθij’;
S35、根据S34中数据进行识别和分类。
其中,流形学习算法解释如下:假设存在于Rd欧氏空间中的d维域,令f:Y→RD为该空间中的一个光滑嵌人映射,令d<D。数据点yi包含于Y在随机的过程中生成,再经f映射形成空间数据{xi=f(yi)}包含于RD,称Y={y1,y2,……yN}为低维嵌人,y1(i=1,2,…N)为低维嵌人向量,X=(x1,x2,……xN)为给定的高维观测数据集,从高维观测数据点xi中重构f和低维向量yi均为流形学习的目标。
同时,DNA序列是由4个碱基单元CGAT组合所形成的序列,即胞嘧啶核苷酸C(胞苷酸,CMP)、鸟嘌呤核苷酸G(鸟苷酸,GMP)、腺嘌呤核苷酸A(腺苷酸,AMP)、胸腺嘧啶核苷酸T(胸苷酸,TMP),根据核苷酸转化公式将C、G、A、T、O分别映射为g_i(i=1,2,……,N),实现对每个碱基的数字化,其中英文字母“O”表示没有核苷酸,核苷酸转化公式为:
Figure BDA0002220334510000081
其中,序列数据降维具体为:将N个具有D个碱基单元的DNA序列视为一个D维样本集X[x1,x2,……xN],假设有足够的数据点,并且认为每个数据点可以用其K个近邻线性表示,求近邻点,采用ε邻域,比较每个xi与xj的距离dij,其计算公式如下:
将权重向量代入函数Φ(Y),再利用拉格朗日乘子法计算Φ(Y)取最小值时所对应的低纬嵌入Y={y1,y2,……yN},yi∈Rd
Figure BDA0002220334510000093
其中,2个DNA序列向量之间的欧氏距离dij,称为DNA距离相似性参数;2个DNA序列向量之间的夹角cosθij,称为DNA夹角相似性参数;2个低维嵌人向量之间的欧氏距离dij’称为DNA低维距离相似性参数;2个低维嵌人向量之间的夹角cosθij’称为DNA低维夹角相似性参数,各算法如下:
Figure BDA0002220334510000094
Figure BDA0002220334510000095
Figure BDA0002220334510000096
Figure BDA0002220334510000101
此外,基于HMM方法聚类基因公式为:给定n个序列S1,索引集合为I={1,2,……,n},指定的整数K,计算一个I的分配C(C1,C2,……,CK),以及K个HMM模型M1,M2,……,MK,使得目标函数取得最大值:
Figure BDA0002220334510000102
其中,L(Si|Mk)是似然函数,即,在模型MK下生成序列Si的概率密度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于云架构平台的基因数据分析方法,其方法步骤如下:
S1、建立云架构平台的基因数据库,以云架构平台为框架,将基因序列数据存储于基因数据库;
S2、优化基因序列区域,对基因序列区域进行全局和局部优化;
S3、基于流形学习算法对基因序列数据进行挖掘;
S4、基于HMM方法聚类基因。
2.根据权利要求1所述的基于云架构平台的基因数据分析方法,其特征在于:S1中,建立云架构平台的基因数据库具体流程如下:
S11、下载和安装JDK;
S12、配置环境变量;
S13、验证JDK是否安装成功;
S14、分别设置/etc/hosts和/etc/hostname;
S15、安装OpenSSH,并配置SSH免密码登录;
S16、配置两台主机的Hadoop文件;
S17、输入命令格式化,格式化hadoop的文件系统HDFS,输入启动所有进程命令。
3.根据权利要求1所述的基于云架构平台的基因数据分析方法,其特征在于:优化基于序列区域包括全局优化模块和局部优化模块,全局优化模块用于根据整个序列区域尝试找出最佳匹配,局部优化模块用于在两个成对的序列中识别相似区域,完成序列比对或拼接。
4.根据权利要求3所述的基于云架构平台的基因数据分析方法,其特征在于:全局优化模块采用Needleman-Wunsch比对算法找出最佳匹配,其算法公式如下:
Figure FDA0002220334500000011
Figure FDA0002220334500000022
其中,Sij时序列a在位置i和序列b在位置j的分值,S(aibj)是位置i和j上比对分值,wx是在序列a中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分。
5.根据权利要求4所述的基于云架构平台的基因数据分析方法,其特征在于:局部优化模块基于Smith-Waterman算法实现局部比对优化,其算法公式如下:
Figure FDA0002220334500000021
6.根据权利要求1所述的基于云架构平台的基因数据分析方法,其特征在于:S3中,基于流形学习算法对基因序列数据进行挖掘具体流程如下:
S31、对DNA序列进行数字化表示;
S32、提取一部分数据作为训练数据,并对训练数据设置区别标记;
S33、将训练数据与待测样本作为一个数据集X进行DNA序列降维计算,得出各类不同的低维嵌入Y;
S34、对低维嵌人Y中不同向量进行距离和夹角计算,得出DNA低维距离相似性参数dij’和DNA低维夹角相似性参数cosθij’;
S35、根据S34中数据进行识别和分类。
7.根据权利要求1所述的基于云架构平台的基因数据分析方法,其特征在于:基于HMM方法聚类基因公式为:给定n个序列S1,索引集合为I={1,2,……,n},指定的整数K,计算一个I的分配C(C1,C2,……,CK),以及K个HMM模型M1,M2,……,MK,使得目标函数取得最大值:
Figure FDA0002220334500000031
其中,L(Si|Mk)是似然函数,即,在模型MK下生成序列Si的概率密度。
CN201910931181.2A 2019-09-29 2019-09-29 一种基于云架构平台的基因数据分析方法 Pending CN110648723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910931181.2A CN110648723A (zh) 2019-09-29 2019-09-29 一种基于云架构平台的基因数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910931181.2A CN110648723A (zh) 2019-09-29 2019-09-29 一种基于云架构平台的基因数据分析方法

Publications (1)

Publication Number Publication Date
CN110648723A true CN110648723A (zh) 2020-01-03

Family

ID=68993074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910931181.2A Pending CN110648723A (zh) 2019-09-29 2019-09-29 一种基于云架构平台的基因数据分析方法

Country Status (1)

Country Link
CN (1) CN110648723A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599195A (zh) * 2020-11-30 2021-04-02 中国科学院深圳先进技术研究院 一种基因序列拼接方法及应用
CN112650204A (zh) * 2020-12-30 2021-04-13 中南大学 一种智慧轨道无人驾驶车辆故障基因识别方法及系统
CN113380330A (zh) * 2021-06-30 2021-09-10 北京航空航天大学 一种基于phmm模型的差分可辨性基因序列聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609350A (zh) * 2017-09-08 2018-01-19 厦门极元科技有限公司 一种二代测序数据分析平台的数据处理方法
CN108604260A (zh) * 2016-01-11 2018-09-28 艾迪科基因组公司 用于现场或基于云的dna和rna处理和分析的基因组学基础架构
CN108920900A (zh) * 2018-06-21 2018-11-30 福州大学 基因表达谱数据的无监督极限学习机特征提取系统及方法
CN109887545A (zh) * 2019-01-25 2019-06-14 江苏华生基因数据科技股份有限公司 一种基于云架构的基因数据服务系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108604260A (zh) * 2016-01-11 2018-09-28 艾迪科基因组公司 用于现场或基于云的dna和rna处理和分析的基因组学基础架构
CN107609350A (zh) * 2017-09-08 2018-01-19 厦门极元科技有限公司 一种二代测序数据分析平台的数据处理方法
CN108920900A (zh) * 2018-06-21 2018-11-30 福州大学 基因表达谱数据的无监督极限学习机特征提取系统及方法
CN109887545A (zh) * 2019-01-25 2019-06-14 江苏华生基因数据科技股份有限公司 一种基于云架构的基因数据服务系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
如果一切再重来: "Hadoop2.7.3完全分布式集群搭建和测试", 《HTTPS://BLOG.CSDN.NET/XIAOXIANGZI222/ARTICLE/DETAILS/52757168/》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599195A (zh) * 2020-11-30 2021-04-02 中国科学院深圳先进技术研究院 一种基因序列拼接方法及应用
CN112599195B (zh) * 2020-11-30 2024-04-19 中国科学院深圳先进技术研究院 一种基因序列拼接方法及应用
CN112650204A (zh) * 2020-12-30 2021-04-13 中南大学 一种智慧轨道无人驾驶车辆故障基因识别方法及系统
CN113380330A (zh) * 2021-06-30 2021-09-10 北京航空航天大学 一种基于phmm模型的差分可辨性基因序列聚类方法
CN113380330B (zh) * 2021-06-30 2022-07-26 北京航空航天大学 一种基于phmm模型的差分可辨性基因序列聚类方法

Similar Documents

Publication Publication Date Title
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
CN110648723A (zh) 一种基于云架构平台的基因数据分析方法
Burton et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions
US10192026B2 (en) Systems and methods for genomic pattern analysis
US10262102B2 (en) Systems and methods for genotyping with graph reference
Givoni et al. Hierarchical affinity propagation
Ali et al. Alignment-free protein interaction network comparison
WO2017120128A1 (en) Systems and methods for adaptive local alignment for graph genomes
Prezza et al. SNPs detection by eBWT positional clustering
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
US20210317523A1 (en) Deepsimulator method and system for mimicking nanopore sequencing
US20200350037A1 (en) System, method and computer accessible-medium for multiplexing base calling and/or alignment
CN113555062A (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN106055928A (zh) 一种宏基因组重叠群的分类方法
Langmead A tandem simulation framework for predicting mapping quality
Wei et al. CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data
Brinda Novel computational techniques for mapping and classification of Next-Generation Sequencing data
Wu et al. Network-based integrative analysis of single-cell transcriptomic and epigenomic data for cell types
CN108256291A (zh) 一种生成具有较高可信度基因突变检测结果的方法
García-Pareja et al. Exact simulation of coupled Wright–Fisher diffusions
US8639445B2 (en) Identification of related residues in biomolecular sequences by multiple sequence alignment and phylogenetic analysis
CN112446492B (zh) 基于遗传算法的生物网络比对方法
He et al. Inference of RNA structural contacts by direct coupling analysis
Corne et al. On fitness distributions and expected fitness gain of mutation rates in parallel evolutionary algorithms
Ma et al. ricME: Long-Read Based Mobile Element Variant Detection Using Sequence Realignment and Identity Calculation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103

RJ01 Rejection of invention patent application after publication