CN110085284A - 一种面向ssd的基因对比方法及系统 - Google Patents

一种面向ssd的基因对比方法及系统 Download PDF

Info

Publication number
CN110085284A
CN110085284A CN201910354585.XA CN201910354585A CN110085284A CN 110085284 A CN110085284 A CN 110085284A CN 201910354585 A CN201910354585 A CN 201910354585A CN 110085284 A CN110085284 A CN 110085284A
Authority
CN
China
Prior art keywords
dna
scale
data
dna fragmentation
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910354585.XA
Other languages
English (en)
Other versions
CN110085284B (zh
Inventor
王毅
林观泉
陈炜轩
黄江帆
毛睿
廖好
周池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910354585.XA priority Critical patent/CN110085284B/zh
Publication of CN110085284A publication Critical patent/CN110085284A/zh
Application granted granted Critical
Publication of CN110085284B publication Critical patent/CN110085284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0679Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向SSD的基因对比方法及基于此方法的比对系统。本发明所述的方法主要包括获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。本发明结合SSD,一方面减少了数据读写次数;另一方面通过对齐,递进式对比等手段将数据作了一个粗略的筛选,大大减少了需要编辑距离计算的数据的比例,提升了效率,缩短了计算时间。

Description

一种面向SSD的基因对比方法及系统
技术领域
本发明涉及数据处理领域,尤其涉及一种面向SSD的基因对比方法及系统。
背景技术
在生物学中,基因序列分析是非常关键的一部分。就目前的技术来说,测出某DNA片段的序列已非常高效,目前的基因序列分析瓶颈在于read mapping环节,亦就是基因序列对比环节。而在基因序列对比中,一般使用编辑距离来判断两个DNA的相似度,但是编辑距离的计算非常耗费时间。
其次,DNA片段数据量非常庞大,当某个DNA片段需要和百万级别或以上的DNA片段进行对比时,频繁的DNA数据读写所耗费的时间非常庞大。
在DNA基因对比这方面,已经有前人提出了过滤算法,如GRIM-Filters,他们旨在先通过一个简单算法过滤掉一些不需要进行编辑距离计算的DNA片段,通过减少编辑距离的计算次数来达到加速DNA对比的目的。
因此开发一种新的基因比对方法解决原有方法对基因数据处理效率低时间长的问题具有十分重要的意义。
发明内容
本发明的主要目的在于提供一种面向SSD的基因对比方法,旨在解决现有技术中对基因数据处理效率低、时间长的技术问题。
为实现上述目的,本发明第一方面提供面向SSD的基因对比方法,包括:
获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
为实现上述目的,本发明第二方面提供一种面向SSD的基因对比系统,所述系统包括:
DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
本发明结合SSD,一方面减少了数据读写次数;另一方面通过对齐策略,递进式对比等手段将数据先进行一个粗略的筛选,大大减少了需要编辑辑距离计算的数据的比例,提升了效率,缩短了计算时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中面向SSD的基因对比方法的流程示意图;
图2为本发明实施例中面向SSD的基因对比系统的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,为本发明实施例面向SSD的基因对比方法的流程示意图,该方法包括:
步骤101、获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
本发明实施例中,具体的可以获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;
对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部;
其中总页数的计算公式为:num_total_page=(N-1)*num_each_block+num_final_page
num_each_block为每个物理块的页数;
若该物理块被放满则将剩余数据放入下一块空闲物理块,直至某一块未放满执行上述操作。
步骤102、从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
本发明实施例中,具体的可以从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length;
比较所述两个DNA片段大小,得到最小值dna_min_length;
确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示;
其中compare_times=dna_min_length*scale_1;
dna_length=num_total_page*每页的大小。
精度参数scale_1、scale_2、scale_3在0-1之间。
步骤103、基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果;
本发明实施例中,具体的可以从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;
若count<C*scale_2则两个DNA片段相似度低于阈值;;
若count≥C*scale_2则将compare_times调整为2倍,若2C≤dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C>dna_min_length*scale_3则回到本步骤的第一步。直到判定出两个DNA片段的相似度。
步骤104、若结果高于或等于相似度阈值则进行编辑距离计算以得到精确结果;若结果低于相似度阈值则无需进行编辑距离计算。通过前三个步骤可以筛选出差别较大的DNA,最后一步通过准确度更高的距离编辑计算最终确定数据的准确性。
请参阅图2,为本发明实施例中面向SSD的基因对比系统的结构示意图,包括:
DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果;
编辑距离计算模块,用于对高于或等于相似度阈值的两个DNA片段进行进编辑距离计算。
需要说明的是,图2所示实施例中各个模块的内容与图1所示实施例中各个步骤的内容相似,具体可参阅图1所示实施例中的内容,此处不做赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种基于极限学习机的极限TS模糊规则推理方法及系统的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种面向SSD的基因对比方法,其特征在于,所述方法包括:
获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若结果高于或等于相似度阈值则进行编辑距离计算以得到精确结果;若结果低于相似度阈值则无需进行编辑距离计算。
3.根据权利要求1所述的方法,其特征在于,所述步骤A中具体包括:
获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;
对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部;
若该物理块被放满则将剩余数据放入下一块空闲物理块,直至某一块未放满执行上述操作。
4.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:
从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length;
比较所述两个DNA片段大小,得到最小值dna_min_length;
确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示;
其中compare_times=dna_min_length*scale_1;
dna_length=num_total_page*每页的大小。
精度参数scale_1、scale_2、scale_3在0-1之间。
5.根据权利要求1所述的方法,其特征在于,所述步骤C具体包括:
从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;
若count<C*scale_2则两个DNA片段相似度低于阈值;
若count≥C*scale_2则将compare_times调整为2倍,若2C≤dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C>dna_min_length*scale_3则回到本步骤的第一步。
6.一种面向SSD的基因对比系统,其特征在于,所述系统包括:
DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
编辑距离计算模块,用于对高于或等于相似度阈值的两个DNA片段进行进编辑距离计算。
8.根据权利要求6所述的系统,其特征在于,DNA数据对齐模块具体用于:获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;
对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部;
若该物理块被放满则将剩余数据放入下一块空闲物理块,直至某一块未放满执行上述操作。
9.根据权利要求6所述的系统,其特征在于,参数确定模块具体用于:
从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length;
比较所述两个DNA片段大小,得到最小值dna_min_length;
确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示;
其中compare_times=dna_min_length*scale_1;
dna_length=num_total_page*每页的大小。
精度参数scale_1、scale_2、scale_3在0-1之间。
10.根据权利要求6所述的系统,其特征在于,递进式对比模块具体用于:
从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;
若count<C*scale_2则两个DNA片段相似度低于阈值;;
若count≥C*scale_2则将compare_times调整为2倍,若2C>dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C≤dna_min_length*scale_3则回到本步骤的第一步。
CN201910354585.XA 2019-04-29 2019-04-29 一种面向ssd的基因对比方法及系统 Active CN110085284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354585.XA CN110085284B (zh) 2019-04-29 2019-04-29 一种面向ssd的基因对比方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354585.XA CN110085284B (zh) 2019-04-29 2019-04-29 一种面向ssd的基因对比方法及系统

Publications (2)

Publication Number Publication Date
CN110085284A true CN110085284A (zh) 2019-08-02
CN110085284B CN110085284B (zh) 2021-02-26

Family

ID=67417666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354585.XA Active CN110085284B (zh) 2019-04-29 2019-04-29 一种面向ssd的基因对比方法及系统

Country Status (1)

Country Link
CN (1) CN110085284B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188421A (zh) * 2022-09-08 2022-10-14 杭州联川生物技术股份有限公司 基于高通量测序的基因聚类数据预处理方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007053962A1 (en) * 2005-11-09 2007-05-18 Smartgene Gmbh Computer-implemented method and computer system for identifying organisms
CN106295250A (zh) * 2016-07-28 2017-01-04 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置
CN108073791A (zh) * 2017-12-12 2018-05-25 元码基因科技(北京)股份有限公司 基于二代测序数据检测目标基因结构变异的方法
US20180355423A1 (en) * 2017-06-12 2018-12-13 Grail, Inc. Alignment free filtering for identifying fusions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007053962A1 (en) * 2005-11-09 2007-05-18 Smartgene Gmbh Computer-implemented method and computer system for identifying organisms
CN106295250A (zh) * 2016-07-28 2017-01-04 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置
US20180355423A1 (en) * 2017-06-12 2018-12-13 Grail, Inc. Alignment free filtering for identifying fusions
CN108073791A (zh) * 2017-12-12 2018-05-25 元码基因科技(北京)股份有限公司 基于二代测序数据检测目标基因结构变异的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188421A (zh) * 2022-09-08 2022-10-14 杭州联川生物技术股份有限公司 基于高通量测序的基因聚类数据预处理方法、设备及介质

Also Published As

Publication number Publication date
CN110085284B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN110348571B (zh) 一种神经网络模型训练方法、装置、芯片和系统
CN109919315B (zh) 一种神经网络的前向推理方法、装置、设备及存储介质
CN108876024B (zh) 路径规划、路径实时优化方法及装置、存储介质
CN109656366B (zh) 一种情感状态识别方法、装置、计算机设备及存储介质
CN105631519A (zh) 一种基于预决策的卷积神经网络加速方法及系统
CN109829162A (zh) 一种文本分词方法及装置
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN108875826B (zh) 一种基于粗细粒度复合卷积的多分支对象检测方法
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
CN110109975A (zh) 数据聚类方法及装置
CN113011337A (zh) 一种基于深度元学习的汉字字库生成方法及系统
CN111242286A (zh) 一种数据格式变换方法、装置及计算机可读存储介质
CN110085284A (zh) 一种面向ssd的基因对比方法及系统
CN110704424B (zh) 一种应用于数据库的排序方法、装置及相关设备
US7131085B2 (en) Distributed BDD reordering
CN102722557A (zh) 一种相同数据块的自适应识别方法
CN112199407A (zh) 一种数据分组排序方法、装置、设备及存储介质
CN106844533A (zh) 一种数据分组聚集方法及装置
CN110738016A (zh) 一种电力电子电路暂态仿真插值计算方法
CN105260423A (zh) 电子名片去重方法及装置
CN106445960A (zh) 一种数据聚类方法和装置
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
Akutsu et al. On the complexity of finding a largest common subtree of bounded degree
CN113742991A (zh) 模型和数据联合优化方法及相关装置
CN113344626A (zh) 一种基于广告推送的数据特征优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant