CN113241121A - 一种基于mpi的基因序列精确匹配的方法 - Google Patents
一种基于mpi的基因序列精确匹配的方法 Download PDFInfo
- Publication number
- CN113241121A CN113241121A CN202110454140.6A CN202110454140A CN113241121A CN 113241121 A CN113241121 A CN 113241121A CN 202110454140 A CN202110454140 A CN 202110454140A CN 113241121 A CN113241121 A CN 113241121A
- Authority
- CN
- China
- Prior art keywords
- gene sequence
- matching
- text
- gene
- main process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 57
- 230000006835 compression Effects 0.000 claims abstract description 7
- 238000007906 compression Methods 0.000 claims abstract description 7
- 238000004891 communication Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000000903 blocking effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 abstract description 2
- 238000012300 Sequence Analysis Methods 0.000 abstract 1
- 238000005192 partition Methods 0.000 abstract 1
- 108020004414 DNA Proteins 0.000 description 6
- 230000002068 genetic effect Effects 0.000 description 6
- 229920002477 rna polymer Polymers 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 108020004705 Codon Proteins 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 108091081024 Start codon Proteins 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000011081 inoculation Methods 0.000 description 2
- 229940029329 intrinsic factor Drugs 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 229920001184 polypeptide Polymers 0.000 description 2
- 102000004196 processed proteins & peptides Human genes 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 150000001413 amino acids Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5017—Task decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
Abstract
本发明涉及一种基于MPI的基因序列精确匹配的方法,属于串匹配算法和MPI并行计算基数领域,本发明旨在快速匹配基因序列中的特定序列片段。针对此问题,本文提出了主进程使用N‑gram分割重叠预处理文本,再使用压缩替换技术压缩文本,并且构建多模式串匹配WM算法需要的三个表SHIFT表,HASH表和PREFIX表。最后将处理后的文本分发给子进程,进行WM并行串匹配。快速得到匹配结果,主进程再进行匹配结果汇总,该发明能极大程度的提高了匹配速度,为大数据下的基因序列分析做好基础准备工作。
Description
技术领域
本申请涉及串匹配领域,尤其涉及一种基于MPI的基因序列精确匹配的方法。
背景技术
基因(遗传因子)是产生一条多肽链或功能RNA所需的全部核苷酸序列,基因支持着生命的基本构造和性能,储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息,生物体的生、长、衰、病、老、死等一切生命现象都与基因有关,它也是决定生命健康的内在因素,带有遗传信息的DNA片段称为基因,碱基对可看成是DNA的基本单位,其中的碱基包括A腺嘌呤,T胸腺嘧啶,C胞嘧啶,G鸟嘌呤,匹配规则是A-T,G-C。
遗传密码子是三联体密码:一个密码子由信使核糖核酸(mRNA)上相邻的三个碱基组成,有起始密码子和终止密码子,起始密码子有两种,一种是甲硫氨酸(AUG),一种是缬氨酸(GUG),而终止密码子(有3个,分别是UAA、UAG、UGA)没有相应的转运核糖核酸(tRNA)存在,只供释放因子识别来实现翻译的终止。
分裂基因中能实现遗传信息表达的部分称为外显子,而不表达的部分称作为内含子,一个基因的内含子可能是另外一个基因的外显子。
基因数据匹配是基因数据分析的第一步,也是最重要的一步,其本质是字符串匹配问题,分为近似匹配和精确匹配,待匹配的基因序列称为待匹配文本,已知的要寻找的基因序列集合称为模式串集合,在精确匹配算法上,有串行WM算法和AC算法,在近似匹配上有BLAST。
在基因序列的匹配上,主流的都是用BLAST进行近似匹配得出一个匹配的分数。
N-grams分割法是一种将句子分割成由N个字符组成的片段序列的方法,每个片段称作一个N-gram,N的取值通常为2或3,N=1时称作uni-gram(一元gram),N=2时称作bi-gram(二元gram),N=3时称作tri-gram(三元gram)。
WM算法一般由三个表构成,SHIFT,HASH,PREFIX:SHIFT表就相当于BM算法中的坏字符表,其构建过程有如下几点需要关注我们对模式集合中所有模式的前m个字符构建SHIFT表,其中的m,是模式集合中最短模式的长度值,对于字符块的长度B的选择,我们一般选择2个字节。
在构建SHIFT表的时候,对一个模式p的前m个字符,我们要处理其所有长度为B的子串,并填充对应的SHIFT值,假设字符块大小为B,当前字符快的尾字符与模式前缀的末尾距离为n,则SHIFT[p]=n,HASH表就是对应字符块B,所有SHIFT[B]=0的模式与B的映射关系,比如模式串ATGCT,GCTCT,对于块CT,他们的SHIFT值都是0,所以他们都由CT索引,如果多个模式串前缀,或者同一模式前缀中,有相同的字符块,则保留其中SHIFT值的最小者,WM算法同时截取了模式串的一个长度为2或者3的前缀,构建PREFIX表,在执行中缀查找的基础之上,再执行前缀查找,缩小备选模式集,提高匹配效率。
发明内容
本申请实施例提供了一种基于MPI的基因序列精确匹配的方法。
有鉴于此,本发明第一方面提供了一种基于MPI的基因序列精确匹配的方法,包括:先将基因文本与待匹配的模式串集合使用N-grams分割法进行预处理。
所述MPI的主进程从文档中读取预处理后待匹配的基因序列和基因序列模式串集合,所述的待匹配基因序列的长度为t,模式串基因序列的最大长度为M,最小长度为m。
结合本申请实施例第一方面的第一种实施方式,所述的算法包括以下两种:N-grams分割,WM算法。
所述MPI的主进程从模式串基因序列集合中先构建三个表SHIFT,HASH,PREFIX表,其中SHIFT表是一个跳转表,对模式集合中所有的前m个字符构建SHIFT表,选择三个字符为一个字符块。
所述的主进程将待匹配基因序列划分成2(n-1)份任务,每份任务要处理的基因序列长度为t/(2(n-1))+M-1,这里的M-1是偏移量,防止在划分任务的过程中将断点间的匹配遗漏了,并且将处理好的三个表一起发给子进程。
所述的主进程将n-1个任务发送给子进程,然后等待接收每个子进程的匹配结果。
所述的子进程从分配的基因序列中找到模式串基因集合中所对应的位置的模式串基因序列和位置信息。
所述的进程间信息的传递均使用非阻塞通信,利用计算来隐藏其中的通信消耗。
所述的子进程在接收到主进程发送的任务后,开始进行匹配。
所述的子进程在匹配完成之后,将匹配结果发送给主进程并且请求分发新的任务。
所述的子进程在完成匹配任务并没有再次得到主进程的分发的任务之后,停止工作。
所述的主进程接收到子进程发送的匹配结果之后,根据当前所剩下的未完成的任务数,继续分发给子进程,直至任务全部分发结束。
所述的主进程在完成所有任务分发,并且接收到所有匹配结果后,去除断点间的重复匹配数据,汇总出最后的匹配结果。
结合本申请实施例第一方面的第一种实施方式,本申请实施例第一方面的第二种实施式中,所述方法还包括:在任务划分时,主进程在等待子进程匹配结果时,也可以自主划分部分匹配任务。
在进行精确匹配时,每个子进程也可以自行判断匹配结果最终是否会重复而来舍去会重复的结果。
本发明通过MPI的主进程进行任务划分,根据子进程完成的速度来动态划分任务,让本就高效的并行体系更加充分的利用计算资源,尽可能的达到负载均衡。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例,但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明一种基于MPI的基因序列精确匹配的方法的流程示意图。
图2是本发明一种基于MPI的基因序列精确匹配系统的预处理流程的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例,相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员,在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行,例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
本发明实施例中,MPI(Message Passing Interface)是一个用于进程间信息传递的并行编程接口标准,它提供让相关进程之间进行通信,同步等操作的接口,一个MPI程序包含若干个进程,每个MPI进程都运行一份相同的代码,进程的行为由通讯域(communication world)和该通讯域下的id(rank id)所决定,MPI采用将同一程序运行在众多进程上的方式来实现,这些进程不仅可以处于同一个共享内存架构的计算机中,也可以寻找在众多进程上的方式来实现,每个进程都拥有各种的数据,在不需要通讯时,各个进程异步地运行相同的代码,对不同的数据进行相似的处理,在需要访问其他进程上的数据时,通过MPI标准中定义的数据通讯函数对数据进行迁移和处理,也可以对操作进行同步。
生物信息学是一个广泛而丰富的研究领域,目前大部分工作集中在基因序列比对上,这在几乎所有基因组学研究中都需要进行,它是两个基因序列的定位(脱氧核糖核酸(DNA)、核糖核酸(RNA)、肽序列等)使它们的相似区域相匹配。
生物信息学的多学科领域利用计算机科学进行生物研究,它包括存储、组织、管理、装载和处理诸如核酸序列、氨基酸结构、蛋白质结构等生物数据,利用计算机编程实现自动化分析。
基因(遗传因子)是产生一条多肽链或功能RNA所需的全部核苷酸序列,基因支持着生命的基本构造和性能,储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息,生物体的生、长、衰、病、老、死等一切生命现象都与基因有关,它也是决定生命健康的内在因素,带有遗传信息的DNA片段称为基因,碱基对可看成是DNA的基本单位,其中的碱基包括A腺嘌呤,T胸腺嘧啶,C胞嘧啶,G鸟嘌呤,匹配规则是A-T,G-C。
MPICH是MPI的一个重要实现,通过安装MPICH构建MPI编程环境,从而进行并行程序的开发,MPICH包括MPICH、MPICH2、MPICH3、IntelMPI、MVAPICH、MVAPICH2。
MSMPI是MPI在windows下的一个重要实现,微软基于MPICH向windows上的移植,实现了很多新的MPI特性。
请参阅图1,图1是本发明提供的一种基于MPI的基因序列精确匹配方法的流程图,其中,如图1所示,所述方法包括,S1:预处理,对基因序列文本和模式串文本使用N-gram重叠分割,再进行压缩替换,再进行WM算法的预处理。
使用三元分割重叠处理,将每一个字节里代表的含义为三个连续的碱基对,正好三个碱基对又对应一个密码子或者其他生物信息。
预处理阶段先将基因文本数据以及模式串文本使用N-grams分割重叠处理,再使用压缩替换的思想将文本替换为新文本,比如AAGATGG使用N-grams分割,以3个字节为分割重叠处理后转换为AAGAGAATGTGG再使用替换,用’c’,’i’等在基因文本中未出现的字符代替AAG与AGA等,即文本可转换为”ciKgB”。
主进程对基因序列文本和模式串集合进行预处理获取SHIFT表,HASH表和PREFIX表。
其中,构建过程有如下几点需要关注我们对模式集合中所有模式的前m个字符构建SHIFT表,其中的m,是模式集合中最短模式的长度值,对于字符块的长度B的选择,我们一般选择2,3个字节,在构建SHIFT表的时候,对一个模式p的前m个字符,我们要处理其所有长度为B的子串,并填充对应的SHIFT值,假设字符块大小为B,当前字符快的尾字符与模式前缀的末尾距离为n,则SHIFT[p]=n。
HASH表就是对应字符块B,所有SHIFT[B]=0的模式与B的映射关系,比如模式串ATGCT,GCTCT,对于块CT,他们的SHIFT值都是0,所以他们都由CT索引,如果多个模式串前缀,或者同一模式前缀中,有相同的字符块,则保留其中SHIFT值的最小者。
WM算法同时截取了模式串的一个长度为2或者3的前缀,构建PREFIX表,在执行中缀查找的基础之上,再执行前缀查找,缩小备选模式集,提高匹配效率。
S3:主进程将文本划分为2*(n-1)个任务,使用非阻塞通信分发给n-1个子进程。
其中,MPI在此通信域中总共有n个进程,一个作为主进程,其余n-1个为子进程,不论是在一台主机上的多个进程还是在一个MPI集群中的多个节点均一致。
S4:子进程接收任务并进行匹配,搜索结束后返回结果发送给主进程,并询问是否还有未完成的任务。
其中,上述的通信均使用非阻塞通信,非阻塞通信能通过计算隐藏通信消耗,极大提高效率。
S5:主进程接收子进程的搜索结果,并且继续分发任务直至任务全部完成,主进程再进行结果去重,按匹配位置输出匹配结果。
其中,主进程会根据全局变量任务量来决定是否结束,并且根据子进程的搜索结果进行去重处理。
请参阅图2,图2是本发明提供的一种基于MPI的基因序列精确匹配预处理流程的示意图,所述包括:S1:获取基因文本序列和模式串集合的序列。
S2:使用N-grams对文本进行分割重叠处理。
S3:使用文本替换压缩,以三个碱基对为一组,用未出现过的字符来代替。
S4:对模式串集合进行预处理得到WM算法需要的SHIFT,HASH,PREFIX表。
下面将以在基因序列”ATTAAAGGTTTATACCTTC”中匹配多模式集合”ATACC”,”GGTTT”为例,讲述具体实施时匹配的过程。
对文本进行N-gram三元重叠分割法得到ATTTTATAAAAAAAGAGGGGTGTTTTTTTATATATATACACCCCTCTTTTC和模式集合ATATACACC,GGTGTTTTT。
对文本进行替换压缩得到”fuqackSOvuretp$5xl&”和模式集合”etp”和”SOv”。
主进程分发任务给子进程,子进程匹配,由于将基因文本中的4个字符扩展为了64个字符,所以跳转的距离极大的提高了,匹配的速度更加迅捷,主进程汇总匹配结果得到匹配结果。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如C++和面向过程语言C,程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行,在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (8)
1.一种基于MPI的基因序列精确匹配的方法,其特征在于,先将基因文本与待匹配的模式串集合进行预处理,再使用MPI将匹配任务划分给多个进程,将WM算法并行化在多个进程上。
2.根据权利1所述的方法,其特征在于,预处理阶段先将基因文本数据以及模式串文本使用N-gram分割重叠处理,再使用压缩替换的思想将文本替换为新文本,比如ATGC使用N-gram分割,以3个字节为分割重叠处理后转换为ATGTGC再使用压缩替换,用’b’,’d’等在基因文本中未出现的字符代替ATG与TGC,即文本可转换为bd。
3.根据权利1所述的方法,其特征在于,所述根据所述主进程将待匹配基因划分成多个任务,并且根据子进程的完成速度来分发后续的任务,包括:所述的子进程从分配的基因序列中找到模式串基因集合中所对应的位置的模式串基因序列和位置信息;所述的进程间信息的传递均使用非阻塞通信,利用计算来隐藏其中的通信消耗。
4.根据权利1所述的方法,其特征在于,进程数为n,从主进程中读取待匹配基因序列和模式串基因序列集合,待匹配基因序列的长度为t,模式串基因序列的最大长度为M,最小长度为m,所述MPI的主进程从模式串基因序列集合中先构建三个表SHIFT,HASH,PREFIX表,其中SHIFT表是一个坏字符表,对模式集合中所有的前m个字符构建SHIFT表,选择三个字符为一个字符块,所述的主进程将待匹配基因序列划分成2(n-1)份任务,每份任务要处理的基因序列长度为t/(2(n-1))+M-1,所述的主进程将n-1个任务发送给子进程,然后等待接收每个子进程的匹配结果。
5.根据权利要求1所述的方法,其特征在于,所述的算法包括:WM算法,N-gram分割法。
6.根据权利要求1所述的方法,其特征在于,所述的方法还包括:所述的子进程在接收到主进程发送的任务后,开始进行匹配,所述的子进程在匹配完成之后,将匹配结果发送给主进程并且请求分发新的任务。
7.根据权利要求1所述的方法,其特征在于,所述的方法还包括:所述的子进程在完成匹配任务并没有再次得到主进程的分发的任务之后,停止工作。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述的主进程接收到子进程发送的匹配结果之后,根据当前所剩下的未完成的任务数,继续分发给子进程,直至任务全部分发结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110454140.6A CN113241121A (zh) | 2021-04-26 | 2021-04-26 | 一种基于mpi的基因序列精确匹配的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110454140.6A CN113241121A (zh) | 2021-04-26 | 2021-04-26 | 一种基于mpi的基因序列精确匹配的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113241121A true CN113241121A (zh) | 2021-08-10 |
Family
ID=77129339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110454140.6A Pending CN113241121A (zh) | 2021-04-26 | 2021-04-26 | 一种基于mpi的基因序列精确匹配的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113241121A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668527A (zh) * | 2024-01-31 | 2024-03-08 | 国网湖北省电力有限公司信息通信公司 | 一种大流量模型下的多特征识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251845A (zh) * | 2008-03-13 | 2008-08-27 | 苏州爱迪比科技有限公司 | 利用改进的Wu-Manber算法进行多模式串匹配的方法 |
CN101739431A (zh) * | 2008-11-24 | 2010-06-16 | 中国科学院计算技术研究所 | 一种可自调参数的串匹配方法和系统 |
CN102521529A (zh) * | 2011-12-09 | 2012-06-27 | 北京市计算中心 | 基于blast的分布式基因序列比对方法 |
CN110021349A (zh) * | 2017-07-31 | 2019-07-16 | 北京哲源科技有限责任公司 | 基因数据的编码方法 |
-
2021
- 2021-04-26 CN CN202110454140.6A patent/CN113241121A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251845A (zh) * | 2008-03-13 | 2008-08-27 | 苏州爱迪比科技有限公司 | 利用改进的Wu-Manber算法进行多模式串匹配的方法 |
CN101739431A (zh) * | 2008-11-24 | 2010-06-16 | 中国科学院计算技术研究所 | 一种可自调参数的串匹配方法和系统 |
CN102521529A (zh) * | 2011-12-09 | 2012-06-27 | 北京市计算中心 | 基于blast的分布式基因序列比对方法 |
CN110021349A (zh) * | 2017-07-31 | 2019-07-16 | 北京哲源科技有限责任公司 | 基因数据的编码方法 |
Non-Patent Citations (1)
Title |
---|
CHARALAMPOS S. KOUZINOPOULOS等: "A Hybrid Parallel Implementation of the Aho-Corasick and Wu-Manber Algorithms Using NVIDIA CUDA and MPI Evaluated on a Biological Sequence Database", WSPC/INSTRUCTION FILE, pages 1 - 33 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668527A (zh) * | 2024-01-31 | 2024-03-08 | 国网湖北省电力有限公司信息通信公司 | 一种大流量模型下的多特征识别方法及系统 |
CN117668527B (zh) * | 2024-01-31 | 2024-04-26 | 国网湖北省电力有限公司信息通信公司 | 一种大流量模型下的多特征识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240096450A1 (en) | Systems and methods for adaptive local alignment for graph genomes | |
US20220261384A1 (en) | Biological graph or sequence serialization | |
Huang et al. | Short read alignment with populations of genomes | |
CN108985008B (zh) | 一种快速比对基因数据的方法和比对系统 | |
KR20160062127A (ko) | 서열 변이체 검출 방법 및 시스템 | |
CN112735528A (zh) | 一种基因序列比对方法及系统 | |
KR20160073406A (ko) | 방향성 비순환 구조에서 쌍형성된-말단 데이터를 사용하기 위한 시스템 및 방법 | |
KR20160068953A (ko) | 질환-유도된 돌연변이를 확인하기 위한 방법 및 시스템 | |
Misra et al. | Anatomy of a hash-based long read sequence mapping algorithm for next generation DNA sequencing | |
Chen et al. | Recent advances in sequence assembly: principles and applications | |
CN113241121A (zh) | 一种基于mpi的基因序列精确匹配的方法 | |
Nakaya et al. | Extraction of correlated gene clusters by multiple graph comparison | |
Schulz et al. | The generalised k-Truncated Suffix Tree for time-and space-efficient searches in multiple DNA or protein sequences | |
WO2005096208A1 (ja) | 塩基配列検索装置及び塩基配列検索方法 | |
CN105069325B (zh) | 一种对核酸序列信息进行匹配的方法 | |
Makris et al. | An intelligent grammar-based platform for RNA H-type pseudoknot prediction | |
CN116153402A (zh) | 基于深度学习模型进行密码子序列设计的方法和装置 | |
Matar et al. | SpCLUST: Towards a fast and reliable clustering for potentially divergent biological sequences | |
JP2003256433A (ja) | 遺伝子構造解析方法およびその装置 | |
Bautista et al. | Bit-vector-based hardware accelerator for dna alignment tools | |
US20040096827A1 (en) | Method for search based character optimization | |
CN110892401A (zh) | 生成用于k个不匹配搜索的过滤器的系统和方法 | |
Chen et al. | Constructing large suffix trees on a computational grid | |
Tang et al. | Integration of hybrid and self-correction method improves the quality of long-read sequencing data | |
RU2796915C1 (ru) | Гибкое удлинение затравки для геномного картирования на основе хеш-таблицы |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210810 |