CN110085284B - 一种面向ssd的基因对比方法及系统 - Google Patents
一种面向ssd的基因对比方法及系统 Download PDFInfo
- Publication number
- CN110085284B CN110085284B CN201910354585.XA CN201910354585A CN110085284B CN 110085284 B CN110085284 B CN 110085284B CN 201910354585 A CN201910354585 A CN 201910354585A CN 110085284 B CN110085284 B CN 110085284B
- Authority
- CN
- China
- Prior art keywords
- data
- dna fragments
- dna
- scale
- dna fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0679—Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向SSD的基因对比方法及基于此方法的比对系统。本发明所述的方法主要包括获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。本发明结合SSD,一方面减少了数据读写次数;另一方面通过对齐,递进式对比等手段将数据作了一个粗略的筛选,大大减少了需要编辑距离计算的数据的比例,提升了效率,缩短了计算时间。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种面向SSD的基因对比方法及系统。
背景技术
在生物学中,基因序列分析是非常关键的一部分。就目前的技术来说,测出某DNA片段的序列已非常高效,目前的基因序列分析瓶颈在于read mapping环节,亦就是基因序列对比环节。而在基因序列对比中,一般使用编辑距离来判断两个DNA的相似度,但是编辑距离的计算非常耗费时间。
其次,DNA片段数据量非常庞大,当某个DNA片段需要和百万级别或以上的DNA片段进行对比时,频繁的DNA数据读写所耗费的时间非常庞大。
在DNA基因对比这方面,已经有前人提出了过滤算法,如GRIM-Filters,他们旨在先通过一个简单算法过滤掉一些不需要进行编辑距离计算的DNA片段,通过减少编辑距离的计算次数来达到加速DNA对比的目的。
因此开发一种新的基因比对方法解决原有方法对基因数据处理效率低时间长的问题具有十分重要的意义。
发明内容
本发明的主要目的在于提供一种面向SSD的基因对比方法,旨在解决现有技术中对基因数据处理效率低、时间长的技术问题。
为实现上述目的,本发明第一方面提供面向SSD的基因对比方法,包括:
获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
为实现上述目的,本发明第二方面提供一种面向SSD的基因对比系统,所述系统包括:
DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
本发明结合SSD,一方面减少了数据读写次数;另一方面通过对齐策略,递进式对比等手段将数据先进行一个粗略的筛选,大大减少了需要编辑辑距离计算的数据的比例,提升了效率,缩短了计算时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中面向SSD的基因对比方法的流程示意图;
图2为本发明实施例中面向SSD的基因对比系统的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,为本发明实施例面向SSD的基因对比方法的流程示意图,该方法包括:
步骤101、获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
本发明实施例中,具体的可以获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;
对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部;
其中总页数的计算公式为:num_total_page=(N-1)*num_each_block+num_final_page
num_each_block为每个物理块的页数;
若该物理块被放满则将剩余数据放入下一块空闲物理块,直至某一块未放满执行上述操作。
步骤102、从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
本发明实施例中,具体的可以从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length;
比较所述两个DNA片段大小,得到最小值dna_min_length;
确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示;
其中compare_times=dna_min_length*scale_1;
dna_length=num_total_page*每页的大小。
精度参数scale_1、scale_2、scale_3在0-1之间。
步骤103、基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果;
本发明实施例中,具体的可以从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;
若count<C*scale_2则两个DNA片段相似度低于阈值;;
若count≥C*scale_2则将compare_times调整为2倍,若2C≤dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C>dna_min_length*scale_3则回到本步骤的第一步。直到判定出两个DNA片段的相似度。
步骤104、若结果高于或等于相似度阈值则进行编辑距离计算以得到精确结果;若结果低于相似度阈值则无需进行编辑距离计算。通过前三个步骤可以筛选出差别较大的DNA,最后一步通过准确度更高的距离编辑计算最终确定数据的准确性。
请参阅图2,为本发明实施例中面向SSD的基因对比系统的结构示意图,包括:
DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果;
编辑距离计算模块,用于对高于或等于相似度阈值的两个DNA片段进行进编辑距离计算。
需要说明的是,图2所示实施例中各个模块的内容与图1所示实施例中各个步骤的内容相似,具体可参阅图1所示实施例中的内容,此处不做赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种基于极限学习机的极限TS模糊规则推理方法及系统的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种面向SSD的基因对比方法,其特征在于,所述方法包括:
获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理,获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;
对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部,若第n个物理块被放满,则令n=n+1,回执行所述将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满的步骤
从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数,具体包括:
从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length,
比较所述两个DNA片段大小,得到最小值dna_min_length;
确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示,
其中compare_times=dna_min_length*scale_1,
dna_length=num_total_page*每页的大小,
精度参数scale_1、scale_2、scale_3在0-1之间;
基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果,具体包括:
从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;
若count<C*scale_2则两个DNA片段相似度低于阈值;
若count≥C*scale_2则将compare_times调整为2倍,若2C≤dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C>dna_min_length*scale_3,则回执行所述从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count的步骤。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若结果高于或等于相似度阈值则进行编辑距离计算以得到精确结果;若结果低于相似度阈值则无需进行编辑距离计算。
3.一种面向SSD的基因对比系统,其特征在于,所述系统包括:
DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理,获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;
对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,DNA标号DNAid,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部,若第n个物理块被放满,则令n=n+1,回执行所述将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满的步骤;
参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数,具体包括:
从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length,
比较所述两个DNA片段大小,得到最小值dna_min_length;
确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示,
其中compare_times=dna_min_length*scale_1,
dna_length=num_total_page*每页的大小,
精度参数scale_1、scale_2、scale_3在0-1之间;
递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果,具体包括:
从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;
若count<C*scale_2则两个DNA片段相似度低于阈值;
若count≥C*scale_2则将C调整为2倍,若2C≤dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C>dna_min_length*scale_3,则回执行所述从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count的步骤。
4.根据权利要求3所述的系统,其特征在于,所述系统还包括:
编辑距离计算模块,用于对高于或等于相似度阈值的两个DNA片段进行进编辑距离计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354585.XA CN110085284B (zh) | 2019-04-29 | 2019-04-29 | 一种面向ssd的基因对比方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354585.XA CN110085284B (zh) | 2019-04-29 | 2019-04-29 | 一种面向ssd的基因对比方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110085284A CN110085284A (zh) | 2019-08-02 |
CN110085284B true CN110085284B (zh) | 2021-02-26 |
Family
ID=67417666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354585.XA Active CN110085284B (zh) | 2019-04-29 | 2019-04-29 | 一种面向ssd的基因对比方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085284B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115188421A (zh) * | 2022-09-08 | 2022-10-14 | 杭州联川生物技术股份有限公司 | 基于高通量测序的基因聚类数据预处理方法、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2609479T3 (es) * | 2005-11-09 | 2017-04-20 | Smartgene Gmbh | Procedimiento implementado por ordenador y sistema informático para la identificación de organismos |
CN106295250B (zh) * | 2016-07-28 | 2019-03-29 | 北京百迈客医学检验所有限公司 | 二代测序短序列快速比对分析方法及装置 |
US11473137B2 (en) * | 2017-06-12 | 2022-10-18 | Grail, Llc | Alignment free filtering for identifying fusions |
CN108073791B (zh) * | 2017-12-12 | 2019-02-05 | 元码基因科技(苏州)有限公司 | 基于二代测序数据检测目标基因结构变异的方法 |
-
2019
- 2019-04-29 CN CN201910354585.XA patent/CN110085284B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110085284A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597153B (zh) | 一种基于区块链的数据存储方法、装置及存储介质 | |
JP7457125B2 (ja) | 翻訳方法、装置、電子機器及びコンピュータプログラム | |
CN111324303B (zh) | Ssd垃圾回收方法、装置、计算机设备及存储介质 | |
CN107992492B (zh) | 一种数据区块的存储方法、读取方法、其装置及区块链 | |
WO2019052162A1 (zh) | 提高数据清洗效率的方法、装置、设备及可读存储介质 | |
CN104516828A (zh) | 用于移除缓存数据的方法和设备 | |
CN109408468A (zh) | 文件处理方法和装置、计算设备及存储介质 | |
CN107977346A (zh) | 一种pdf文档编辑方法及终端设备 | |
CN111061758A (zh) | 数据存储方法、装置及存储介质 | |
WO2023143095A1 (en) | Method and system for data query | |
CN111210004B (zh) | 卷积计算方法、卷积计算装置及终端设备 | |
CN110085284B (zh) | 一种面向ssd的基因对比方法及系统 | |
CN105528183A (zh) | 一种存储数据的方法及存储设备 | |
US8954838B2 (en) | Presenting data in a tabular format | |
CN117235069A (zh) | 索引创建方法、数据查询方法、装置、设备及存储介质 | |
CN112464609A (zh) | 一种集成电路相对位置布局优化方法、装置及存储介质 | |
CN113590581B (zh) | 数据传输方法、装置、设备及存储介质 | |
CN115422293A (zh) | 一种分布式数据库及其数据检索方法 | |
CN109408873B (zh) | 一种多维阵列信号控制方法、装置及计算机可读存储介质 | |
CN114564501A (zh) | 一种数据库数据存储、查询方法、装置、设备及介质 | |
CN110895520B (zh) | 一种文件迁移方法、相关装置及设备 | |
CN102414567A (zh) | 校正装置、概率密度函数测量装置、抖动测量装置、抖动分离装置、电子器件、校正方法、程序以及记录介质 | |
CN113128574A (zh) | 场景缩减方法、装置及终端设备 | |
CN110955515A (zh) | 一种文件的处理方法、装置、电子设备及存储介质 | |
CN115579054B (zh) | 单细胞拷贝数变异探测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |