CN110060737B - 一种基于最大频率虚拟个体的str快速比对方法及系统 - Google Patents
一种基于最大频率虚拟个体的str快速比对方法及系统 Download PDFInfo
- Publication number
- CN110060737B CN110060737B CN201910359751.5A CN201910359751A CN110060737B CN 110060737 B CN110060737 B CN 110060737B CN 201910359751 A CN201910359751 A CN 201910359751A CN 110060737 B CN110060737 B CN 110060737B
- Authority
- CN
- China
- Prior art keywords
- compared
- ystr
- kit
- maximum frequency
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于最大频率虚拟个体的STR快速比对方法及系统,该方法包括:步骤S1,建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中建立相应的索引集合;步骤S2,获取待比对人员的YSTR数据,找出所有能被该待比对人员位点所包含的试剂盒,进入相应的试剂盒子库;步骤S3,根据待比对人员的数据与最大频率虚拟个体计算出各试剂盒的总遗传距离,并逐个利用总遗传距离作为各试剂盒子库内的键值进行查找,获取相应的索引集合;步骤S4,将待比对人员的YSTR数据与相应的索引集合中的YSTR数据进行比对。
Description
技术领域
本发明涉及DNA片段比对技术领域,特别是涉及一种基于最大频率虚拟个体的STR快速比对方法及系统。
背景技术
STR,(short tandem repeat,短串联重复序列),又称为微卫星DNA,是核心序列为2-6个碱基的短串联重复结构,从20世纪90年代起就开始就作为一种重要的遗传标记应用于人类亲权鉴定,STR基因位点长度一般在100~300bp之间.因个体间DNA片断长度或DNA序列差异而成高度多态性,在基因传递过程中遵循孟德尔共显性方式遗传。STR,因其基因片段短、扩增效率高、判型准确等特点,已广泛应用于法医学个体识别和亲子鉴定等领域。
YSTR即Y染色体上的STR,因为Y染色体为男性特有,且不存在下一代自由组合的问题,是父系遗传的唯一性标记,具有极强的家族分辨能力,同时在3代内遗传的稳定性较强且突变程度可控,能通过直系父系、叔侄、堂兄弟等关系来寻找或反推目标人,目前已经成为法医物证学的重点发展方向。
目前所有的DNA片段比对现有技术(包括常染色体或者Y)大多是利用更新的计算机技术来进行加速或者优化,比如使用CPU或者GPU并行比对,甚至于利用Hadoop或者Spark等云计算技术来进行加速。但这种非具体比对方法上的优化始终只是靠资源的堆砌来完成加速,当数据量越来越大时,付出的额外资源代价也会越来越大。
目前常用的比对方式是典型的穷举式全库扫描,那么一千万的数据必然就是比对1千万个大循环,然后根据设定的容错参数等来进行筛选,同样以上述1千万数据的情况来说,假设其中有超过一半的位点是相同的,那么最多将会有:
5个试剂盒
PowerPlex Y(11个位点)
Yfiler(16个位点)
PowerPlex Y23(23个位点)
Yfiler Plus(25个位点)
Maximal(27个位点)
(11+16+23+25+27)/5/2*1千万=1.02亿次数据碰撞
如果待比对的样本数量更多,这将是个一个天文数字,而且在法医物证领域,一个实验室一天的现场样本或者建库样本的量就可能达到数百份,其他的各类查询需求也十分旺盛,因此采用穷举式全库扫描的比对方式将存在如下问题:
(1)比对速度慢。
(2)当待比对数据量膨胀到一定数量时(千万级以上),需要更多的设备资源投入才能满足高并发甚至实时比对要求。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于最大频率虚拟个体的STR快速比对方法及系统,以提高比对速度,避免无意义的多余比对操作,减少资源浪费。
为达上述目的,本发明提出一种基于最大频率虚拟个体的STR快速比对方法,包括如下步骤:
步骤S1,建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据该待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离为KEY值建立相应的索引集合;
步骤S2,获取待比对人员的YSTR数据,根据该待比对人员的YSTR数据找出所有能被该待比对人员位点所包含的试剂盒,进入相应的试剂盒子库;
步骤S3,根据该待比对人员的YSTR数据与最大频率虚拟个体分别计算出各试剂盒的总遗传距离,然后逐个利用总遗传距离作为各试剂盒子库内的KEY值进行查找,以获取相应的索引集合;
步骤S4,将该待比对人员的YSTR数据与相应的索引集合中的各人员的YSTR数据进行比对,对比对结果进行记录。
优选地,步骤S1进一步包括:
步骤S100,建立以最大频率虚拟个体为参照物的YSTR数据库;
步骤S101,获取待比对样本的YSTR数据,根据该待比对样本的位点进行试剂盒判断,找出所有能被待比人员位点所包含的试剂盒,建立以试剂盒为标识的子库;
步骤S102,将该待比对样本的各位点与以最大频率虚拟个体为参照物的YSTR数据库中的最大频率虚拟个体计算遗传距离,从而计算出该待比对样本与该YSTR数据库中最大频率虚拟个体之间的总遗传距离;
步骤S103,根据该总遗传距离于相应的试剂盒子库下建立以该总遗传距离为KEY值的索引集合。
优选地,于步骤S101中,将该待比对样本的位点集合与既有试剂盒进行碰撞,若位点集合中的位点匹配该既有试剂盒,则建立一个以该既有试剂盒为标识的试剂盒子库,否则若位点集合中的位点与现有的试剂盒均不匹配,则将该位点集合临时组成一个新的试剂盒,给与唯一性的编号,并建立以新的试剂盒子库。
优选地,于步骤S102中,将该待比对样本的YSTR数据与最大频率虚拟个体的YSTR数据进行诸位点的遗传距离计算,并根据各位点的遗传距离计算出该待比对样本与最大频率虚拟个体之间的总遗传距离。
优选地,于步骤S2中,将该待比对人员的位点集合与既有试剂盒进行碰撞,若匹配到既有试剂盒,则进入相应的试剂盒子库。
优选地,步骤S4进一步包括:
步骤S400,将该待比对人员与索引集合中的各人员逐位点进行碰撞;
步骤S402,若碰撞结果为碰撞成功,则将对应的索引集合中的人员加入比中队列,若碰撞结果为失败,则跳至下一人员进行碰撞,若碰撞结果为待定,则将对应的索引集合中的人员加入候选队列,并计算出两者之间的遗传距离。
优选地,于步骤S402中,依次比对该待比对人员与索引集合中人员相应位点的值,并对位点值不相等的位点数进行计数,根据计数结果确定碰撞结果。
优选地,若计数结果为0,则表示碰撞成功,将该索引集合中的人员加入比中队列;若计数结果大于设定值,则表示碰撞结果失败,跳至下一人员进行碰撞;若计数结果小于或等于设定值而大于0,则碰撞结果为待定,计算两者的遗传距离,并将对应的索引集合中的人员加入候选队列。
优选地,于步骤S4后,还包括如下步骤:
对比对结果进行序,其中对所述候选队列根据总遗传距离值进行排序。
为达到上述目的,本发明还提供一种基于最大频率虚拟个体的STR快速比对系统,包括:
索引集合形成单元,用于建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据该待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离为KEY值建立相应的索引集合;
试剂盒判断单元,用于获取待比对人员的YSTR数据,根据该待比对人员的YSTR数据找出所有能被该待比对人员位点所包含的试剂盒,进入相应的试剂盒子库;
索引集合获取单元,用于根据该待比对人员的YSTR数据与最大频率虚拟个体分别计算出各试剂盒的总遗传距离,然后逐个利用总遗传距离作为各试剂盒子库内的KEY值进行查找,以获取相应的索引集合;
比对单元,用于将该待比对人员的YSTR数据与相应的索引集合中的各人员的YSTR数据进行比对,对比对结果进行记录。
与现有技术相比,本发明本发明一种基于最大频率虚拟个体的STR快速比对方法及系统通过建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离建立相应的索引集合,于正式比对时,根据待比对人员的YSTR数据分别算出相应试剂盒的总遗传距离,然后逐个用总遗传距离作为子库内的KEY值于相应的子库中进行查找,获得最后的比对结果,本发明可适应所有试剂盒的YSTR数据库,不受特定位点或位点数量的限制,可提高比对速度,避免无意义的多余比对操作,本发明还可避免二次计算进行后期排序,在比对阶段就解决排序所需的遗传距离数值。
附图说明
图1为本发明一种基于最大频率虚拟个体的STR快速比对方法的步骤流程图。;
图2为本发明具体实施例中步骤S1的细部流程图;
图3为本发明具体实施例中步骤S101的流程图;
图4为本发明具体实施例中步骤S103的流程图;
图5为本发明实施例中步骤一的流程图;
图6为本发明实施例中步骤三的流程图;
图7为本发明一种基于最大频率虚拟个体的STR快速比对系统的系统架构图;
图8为本发明具体实施例中索引集合形成单元701的细部结构图;
图9为本发明具体实施例中比对单元704的细部结构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
YHRD(Y-STR Haplotype Reference Database,Y-STR单倍型参考数据库)项目是柏林夏洛特医科大学自2000年开始创立的国际性项目,目前已经有来自5大洲135个国家1200多个种群的超过79万的典型数据,其中来自中国的汉族人群就占21%左右,是目前全世界范围最具权威性的学术参考数据库,因此,本发明以此参考数据库作为本发明的YSTR频率参照指标。
以目前最多YSTR位点的选型为基础,共包含以下27个位点:
DYS19 DYS389I DYS389II DYS390 DYS391 DYS392 DYS393 DYS385 DYS438DYS439 DYS437 DYS448 DYS456 DYS458 DYS635 YGATAH4 DYS481 DYS533 DYS549 DYS570DYS576 DYS643 DYF387S1 DYS449 DYS460 DYS518 DYS627。具体地,各位点频率表如下表1-表27所示:
表1
表2
表3
表4
表5
表6
表7
表8
表9
表10
表11
表12
表13
表14
表15
表16
表17
表18
表19
表20
表21
表22
表23
表24
表25
表26
表27
根据以上27个Y位点的最大频率值,可以得到以下最大频率虚拟个体的YSTR数据库,如表28示:
表28
以上为目前YSTR位点的最大集合,其他的试剂盒都是这些位点的不同组合,比如最小的YSTR只有8个位点,典型的如PowerPlex Y、Yfiler、PowerPlex Y23、Yfiler Plus都是世界范围内用量较大的YSTR试剂盒。
图1为本发明一种基于最大频率虚拟个体的STR快速比对方法的步骤流程图。如图1所示,本发明一种基于最大频率虚拟个体的STR快速比对方法,包括如下步骤:
步骤S1,建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离建立相应的索引集合。
具体地,如图2所示,步骤S1进一步包括:
步骤S100,建立以最大频率虚拟个体为参照物的YSTR数据库。在本发明具体实施例中,所建立的以最大频率虚拟个体为参照物的YSTR数据库如上述表1所示。
步骤S101,获取待比对样本的YSTR数据,根据该待比对样本的位点进行试剂盒判断,找出所有能被待比人员位点所包含的试剂盒,建立以试剂盒为标识的子库。
在本发明具体实施例中,将该待比对样本的位点集合与既有试剂盒进行碰撞,若位点集合中的位点匹配该既有试剂盒,则建立一个以该既有试剂盒为标识的试剂盒子库,否则若位点集合中的位点与现有的试剂盒均不匹配,则将该位点集合临时组成一个新的试剂盒,给与一个唯一性的编号,并建立以该新的试剂盒为标识的试剂盒子库。
在本发明具体实施例中,待比对样本以一个男性的YSTR数据为例,其YSTR数据如下表29示:
表29
如图3所示,首先将该待比对样本的位点集合与既有试剂盒进行碰撞,如上表29的示范数据就属于典型的Yfiler试剂盒,其与既有的Yfiler试剂盒匹配,则此时可以建立一个标识为Yfile试剂盒的子库,接下来所有符合该位点集合的数据都会进入该子库;如果没有既定的试剂盒,则把这个新的位点集合临时组成一个新的试剂盒,并给与一个唯一性的编号。
步骤S102,将待比对样本的各位点与以最大频率虚拟个体为参照物的YSTR数据库中的最大频率虚拟个体计算遗传距离,从而计算出该待比对样本与该YSTR数据库中最大频率虚拟个体之间的总遗传距离。
在本发明具体实施例中,将表29中的该待比对样本的YSTR数据与最大频率虚拟个体的YSTR进行诸位点的遗传距离计算,以DYS456位点为例,该待比对样本的值为13,最大频率虚拟个体的值为15,那么这两个位点的差值的绝对值为ABS(13-15)=2,本发明将把这个差值定位为遗传距离(非学术含义),以此类推,则可以计算出该待比对样本与最大频率虚拟个体之间的总遗传距离。详细计算见下表30:
表30
步骤S103,根据该总遗传距离于相应的试剂盒子库下建立以该总遗传距离为KEY值的索引集合。
在本发明具体实施例中,如图4所示,根据步骤S102,得到了一个待比对样本的总遗传距离值为12.1,那么则在当前这个试剂盒子库(即Yfiler试剂盒)下建立一个KEY为12.1的集合,之后所有待比对样本与最大频率虚拟个体之间遗传距离值为12.1的个体都会进入这个索引集合,如果根据其他待比对样本获得其他的总遗传距离值,则再建立一个以其他总遗传距离值为KEY的索引集合。
至此,可以把所有的待比对样本按照试剂盒(位点组合)分为多个子库,然后在多个子库中又可以根据总遗传距离的差距形成更多的离散型集合。除了把数据归纳得更有序之外,实际上遗传距离值本身也是有价值的,虽然这个遗传距离会受很多因素的影响,但是从宏观角度来说,遗传距离值越接近,往往意味着两个集合之间的亲缘距离也更接近。从法医物证学的应用出发,两个相邻集合之间的人员实际的出生地从空间距离可能更近,或者更能体现两个族群之间的迁移关系。
步骤S2,获取待比对人员的YSTR数据,根据该待比对人员的位点进行试剂盒判断,找出所有能被待比人员位点所包含的试剂盒,进入相应的试剂盒子库。
具体地,将该待比对人员的位点集合与既有试剂盒进行碰撞,若匹配到既有试剂盒,则进入包含该待比对人员位点的所有试剂盒子库。以最大27个位点的待比对数据为例,假设现在有5个匹配的试剂盒,则进入5个子库,由于每个子库包含的位点集合不同,那么接下来就需要对待比对人员分别针对5个不同的试剂盒计算出各自的总遗传距离。
步骤S3,根据待比对人员的YSTR数据与最大频率虚拟个体分别计算出各试剂盒的总遗传距离,然后逐个利用总遗传距离作为各试剂盒子库内的KEY值进行查找,以获取相应的索引集合。该索引集合即为总遗传距离与其相同的人员集合。
步骤S4,将该待比对人员的YSTR数据与相应的索引集合中的各人员的YSTR数据进行比对,对比对结果进行记录。
具体地,步骤S4进一步包括:
步骤S400,将该待比对人员与索引集合中的各人员逐位点进行碰撞;
步骤S402,若碰撞结果为碰撞成功,则将对应的索引集合中的人员加入比中队列,若碰撞结果为失败,则跳至下一人员进行碰撞,若碰撞结果为待定,则将对应的索引集合中的人员加入候选队列,并计算出两者之间的遗传距离。
具体地,于步骤S402中,依次比对该待比对人员与索引集合中人员相应位点的值,并对位点值不相等的位点数进行计数,若计数结果为0,即表示两者的位点完全一样,此时碰撞成功,将该索引集合中的人员加入比中队列;若计数结果大于设定值(例如2),则表示碰撞结果失败,跳至下一人员进行碰撞,而若计数结果小于或等于设定值而大于0,则碰撞结果为待定,计算两者的遗传距离,并将对应的索引集合中的人员加入候选队列。
以下将通过一实施例来说明本发明的STR快速比对过程:
假设现在建立了一个1000万级人员的YSTR数据库,且有5种不同类型的试剂盒子库,基本呈现20%左右均布,即每种试剂盒子库大概200万人左右。
步骤一,假设现在有一个新的待比对人员的YSTR数据,如图5所示,先根据该待比对人员的位点进行试剂盒判断,找出所有能被该待比对人员位点所包含的试剂盒,并进入包含该待比对人员位点的所有试剂盒子库。具体地,将待比对人员的位点集合与既有试剂盒进行碰撞,根据碰撞结果进入包含该待比对人员位点的所有试剂盒子库。以两个极端的情况来举例,如果待比对人员的YSTR数据只包含最小的Minimal试剂盒8个YSTR位点DYS19DYS389I DYS389II DYS390 DYS391 DYS392 DYS393 DYS385,那么可能只有一个试剂盒有比对的价值,以上述数据库而言,只需要比对200万的那个子库即可;如果是最大的包含完整27位点的试剂盒,则仍然需要比对包含1000万数据的所有子库。
步骤二,以最大27个位点的待比对数据为例,现在有5个子库,每个子库包含的位点集合不同,那么待比对数据就需要分别针对5个不同的试剂盒分别计算出各自的总遗传距离。
虽然最大频率虚拟个体的每个值已经取了单个位点中的最大概率值,但有多达27个位点,因此一个真实个体与最大频率虚拟个体完全重合的概率仍然极低,以当前的最大频率表来计算,完全重合的概率也只有3.2471E-13,全世界范围内的男性也不一定就有1个。因此几乎所有的人员一定以这个虚拟个体为起点,以遗传距离不断放大的集合为载体散列存在。
步骤三,利用总遗传距离作为各试剂盒子库内的KEY值进行查找,以获取相应的索引集合,获得的索引集合即为总遗传距离与其相同的人员集合,如图6所示。
在本发明具体实施例中,用的是总的绝对值遗传距离作为集合的KEY。任何一个位点的单1距离都存在正负两种可能,所以一个集合内的单1距离的可能性就是位点数的2倍,以27各位点为例,则单1距离就会有54个可能性;如果再加上2个以上的距离,这种可能性更大。这种类似聚类的方式可以保证单一集合内数据不至于太少从而使得分类失去价值,同时又可以最大概率把亲缘关系最近的人员放在一个集合内。
根据待比对人员的数据分别算出5个试剂盒的总遗传距离,然后逐个用总遗传距离作为子库内的KEY进行查找,伪代码如下:
当所有的子库中的符合遗传距离的集合比完之后,Results集合(比中队列)内的数据就是最终的比中结果,Candidates集合(候选列表)中则存放只有一个位点不相符的候选数据。
优选地,于步骤S4后,还包括如下步骤:
对比对结果进行排序。
具体地,对于1千万级以上的数据库,YSTR在位点数不多的情况下,还是存在较高的相符性(所有同源的男性YSTR具有很高的匹配性),或者当容错参数比较大的时候(比如容错3个以上,这个时候候选集合内的数据就会更多)因此,当比对结果集合和候选集合内的数据较多时,排序就显得非常重要。
(1)对于完全匹配的集合(即碰撞结果为碰撞成功)
因为数据都完全一样,对于YSTR而言,位点数越多,就说明这个集合内的男性亲缘关系越近。到了一定的数量,基本上就可以确认这个集合内以及比对源属于直系亲属,并且代际关系非常近。因此,这个集合内的数据数量必然很少,排序的主要依据是其本身的身份信息,比如年龄从大到小等,如果没有背景信息则按照比对的次序来进行自然排序。
(2)对于只有1-2个位点差异的集合(即碰撞结果为待定)
相比较而言,更大的概率是1-2个位点差异的情况,这种差异本身可能就是存在的天然差异,还有更大的可能性就是代际的遗传突变造成的。按照目前的统计数据,3代的直系父系代际遗传突变的概率大概0.5%,因此1-2个左右位点差异的情况很可能代表了一个大的族群(经过多代遗传后逐步形成的差异),这种情况以一些密集居住的村落为典型代表,中原地区大量的马家屯、刘家村等就是高度符合这种情况的真实案例。对于候选集合的排序,则以总遗传距离值的大小进行排序。
图7为本发明一种基于最大频率虚拟个体的STR快速比对系统的系统架构图。如图7所示,本发明一种一种基于最大频率虚拟个体的STR快速比对系统,包括如下步骤:
索引集合形成单元701,用于建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离建立相应的索引集合。
具体地,如图8所示,索引集合形成单元701进一步包括:
YSTR数据库建立单元7011,用于建立以最大频率虚拟个体为参照物的YSTR数据库。在本发明具体实施例中,所建立的以最大频率虚拟个体为参照物的YSTR数据库如上述表1所示。
试剂盒子库建立单元7012,用于获取待比对样本的YSTR数据,根据该待比对样本的位点进行试剂盒判断,找出所有能被待比人员位点所包含的试剂盒,建立以试剂盒为标识的子库。
在本发明具体实施例中,将该待比对样本的位点集合与既有试剂盒进行碰撞,若位点集合中的位点匹配该既有试剂盒,则建立一个以该既有试剂盒为标识的试剂盒子库,否则若位点集合中的位点与现有的试剂盒均不匹配,则将该位点集合临时组成一个新的试剂盒,给与一个唯一性的编号,并建立以该新的试剂盒标识的试剂盒子库。
总遗传距离计算单元7013,用于将待比对样本的各位点与以最大频率虚拟个体为参照物的YSTR数据库中的最大频率虚拟个体计算遗传距离,从而计算出该待比对样本与该YSTR数据库中最大频率虚拟个体之间的总遗传距离。
在本发明具体实施例中,将该待比对样本的YSTR数据与最大频率虚拟个体的YSTR进行诸位点的遗传距离计算,以DYS456位点为例,该待比对样本的值为13,最大频率虚拟个体的值为15,那么这两个位点的差值的绝对值为ABS(13-15)=2,本发明将把这个差值定位为遗传距离(非学术含义),以此类推,则可以计算出该待比对样本与最大频率虚拟个体之间的总遗传距离。
索引集合建立单元7014,用于根据该总遗传距离于相应的试剂盒子库下建立以该总遗传距离为KEY(关键)值的索引集合。
在本发明具体实施例中,假设根据总遗传距离计算单元7013,得到了一个待比对样本的总遗传距离值为12.1,那么则在当前这个试剂盒子库(即Yfiler试剂盒)下建立一个KEY为12.1的集合,之后所有待比对样本与最大频率虚拟个体之间遗传距离值为12.1的个体都会进入这个索引集合,如果根据其他待比对样本获得其他的总遗传距离值,则再建立一个以其他总遗传距离值为KEY的索引集合。
至此,可以把所有的待比对样本按照试剂盒(位点组合)分为多个子库,然后在多个子库中又可以根据总遗传距离的差距形成更多的离散型集合。除了把数据归纳得更有序之外,实际上遗传距离值本身也是有价值的,虽然这个遗传距离会受很多因素的影响,但是从宏观角度来说,遗传距离值越接近,往往意味着两个集合之间的亲缘距离也更接近。从法医物证学的应用出发,两个相邻集合之间的人员实际的出生地从空间距离可能更近,或者更能体现两个族群之间的迁移关系。
试剂盒判断单元702,用于获取待比对人员的YSTR数据,根据该待比对人员的位点进行试剂盒判断,找出所有能被待比人员位点所包含的试剂盒,进入相应的试剂盒子库。
具体地,试剂盒判断单元702将该待比对人员的位点集合与既有试剂盒进行碰撞,若匹配到既有试剂盒,则进入包含该待比对人员位点的所有试剂盒子库。以最大27个位点的待比对数据为例,假设现在有5个匹配的试剂盒,则进入5个子库,由于每个子库包含的位点集合不同,那么接下来就需要对待比对人员分别针对5个不同的试剂盒计算出各自的总遗传距离。
索引集合获取单元703,用于根据待比对人员的YSTR数据与最大频率虚拟个体分别计算出各试剂盒的总遗传距离,然后逐个利用总遗传距离作为各试剂盒子库内的KEY值于索引集合形成单元701中相应的子库中进行查找,以获取相应的索引集合。该索引集合即为总遗传距离与其相同的人员集合。
比对单元704,用于将该待比对人员的YSTR数据与相应的索引集合中的各人员的YSTR数据进行比对,对比对结果进行记录。
具体地,如图9所示,比对单元704进一步包括:
碰撞单元7041,用于将该待比对人员与索引集合中的各人员逐位点进行碰撞;
碰撞结果处理单元7042,若碰撞结果为碰撞成功,将对应的索引集合中的人员加入比中队列,若碰撞结果为失败,则跳至下一人员进行碰撞,若碰撞结果为待定,则将对应的索引集合中的人员加入候选队列,并计算出两者之间的遗传距离。
具体地,于碰撞结果处理单元7042中,依次比对该待比对人员与索引集合中人员相应位点的值,并对位点值不相等的位点数进行计数,若计数结果为0,即表示两者的位点完全一样,此时碰撞成功,将该索引集合中的人员加入比中队列;若计数结果大于设定值(例如2),则表示碰撞结果失败,跳至下一人员进行碰撞,而若计数结果小于或等于设定值而大于0,则碰撞结果为待定,计算两者的遗传距离,并将对应的索引集合中的人员加入候选队列。
对于现有的穷举式全库扫描,一千万的数据必然就是比对1千万个大循环,然后根据设定的容错参数等来进行筛选,同样以上述1千万数据的情况来说,假设其中有超过1半的位点是相同的,那么最多将会有:
5个试剂盒
PowerPlex Y(11个位点)
Yfiler(16个位点)
PowerPlex Y23(23个位点)
Yfiler Plus(25个位点)
Maximal(27个位点)
(11+16+23+25+27)/5/2*1千万=1.02亿次数据碰撞
如果待比对的样本数量更多,这就是个一个天文数字,而在法医物证领域,一个实验室一天的现场样本或者建库样本的量就可能达到数百份,其他的各类查询需求也十分旺盛,因此,更加快速高效的片段比对技术有着十分积极的意义
本发明主要的计算放在数据入库时,同样以上述1千万为例,入库时的计算次数为
(11+16+23+25+27)/5*1千万=2.04亿次主要为数据减法和取绝对值
但这个工作是一次性的,入库完成后就无需再次进行计算。
在真正进行比对计算时,符合单一样本的子库最多是5个,每个子库中最多只会有一个集合符合(也有可能没有),而每个位点的基因分型值都非常多,这就给每个子库中的子集带来很多种差异组合。把所有27个位点的基因分型值数量做一个平均值为25个,忽略所有的位点差异可能性组合来平衡基因型分布的不均衡性。
此时,每次比对的计算次数为
(11+16+23+25+27)/5/2*1千万/5/25=81.6万次数据碰撞
可见,速度整整提升了125倍,而当试剂盒的种类越多,基因分型值的分布越多,比对速度的提升幅度也会进一步增大。
综上所述,本发明一种基于最大频率虚拟个体的STR快速比对方法及系统通过建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离建立相应的索引集合,于正式比对时,根据待比对人员的YSTR数据分别算出相应试剂盒的总遗传距离,然后逐个用总遗传距离作为子库内的KEY值于相应的子库中进行查找,获得最后的比对结果,本发明可适应所有试剂盒的YSTR数据库,不受特定位点或位点数量的限制,可提高比对速度,避免无意义的多余比对操作,本发明还可避免二次计算进行后期排序,在比对阶段就解决排序所需的遗传距离数值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (8)
1.一种基于最大频率虚拟个体的STR快速比对方法,包括如下步骤:
步骤S1,建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据该待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离为KEY值建立相应的索引集合;步骤S1进一步包括:
步骤S100,建立以最大频率虚拟个体为参照物的YSTR数据库;
步骤S101,获取待比对样本的YSTR数据,根据该待比对样本的位点进行试剂盒判断,找出所有能被待比人员位点所包含的试剂盒,建立以试剂盒为标识的子库;
步骤S102,将该待比对样本的各位点与以最大频率虚拟个体为参照物的YSTR数据库中的最大频率虚拟个体计算遗传距离,从而计算出该待比对样本与该YSTR数据库中最大频率虚拟个体之间的总遗传距离;计算方法为:将该待比对样本的YSTR数据与最大频率虚拟个体的YSTR数据进行诸位点的遗传距离计算,并根据各位点的遗传距离计算出该待比对样本与最大频率虚拟个体之间的总遗传距离;
步骤S103,根据该总遗传距离于相应的试剂盒子库下建立以该总遗传距离为KEY值的索引集合;
步骤S2,获取待比对人员的YSTR数据,根据该待比对人员的YSTR数据找出所有能被该待比对人员位点所包含的试剂盒,进入相应的试剂盒子库;
步骤S3,根据该待比对人员的YSTR数据与最大频率虚拟个体分别计算出各试剂盒的总遗传距离,然后逐个利用总遗传距离作为各试剂盒子库内的KEY值进行查找,以获取相应的索引集合;
步骤S4,将该待比对人员的YSTR数据与相应的索引集合中的各人员的YSTR数据进行比对,对比对结果进行记录。
2.如权利要求1所述的一种基于最大频率虚拟个体的STR快速比对方法,其特征在于:于步骤S101中,将该待比对样本的位点集合与既有试剂盒进行碰撞,若位点集合中的位点匹配该既有试剂盒,则建立一个以该既有试剂盒为标识的试剂盒子库,否则若位点集合中的位点与现有的试剂盒均不匹配,则将该位点集合临时组成一个新的试剂盒,给与唯一性的编号,并建立以新的试剂盒子库。
3.如权利要求1所述的一种基于最大频率虚拟个体的STR快速比对方法,其特征在于:于步骤S2中,将该待比对人员的位点集合与既有试剂盒进行碰撞,若匹配到既有试剂盒,则进入相应的试剂盒子库。
4.如权利要求1所述的一种基于最大频率虚拟个体的STR快速比对方法,其特征在于,步骤S4进一步包括:
步骤S400,将该待比对人员与索引集合中的各人员逐位点进行碰撞;
步骤S402,若碰撞结果为碰撞成功,则将对应的索引集合中的人员加入比中队列,若碰撞结果为失败,则跳至下一人员进行碰撞,若碰撞结果为待定,则将对应的索引集合中的人员加入候选队列,并计算出两者之间的遗传距离。
5.如权利要求4所述的一种基于最大频率虚拟个体的STR快速比对方法,其特征在于:于步骤S402中,依次比对该待比对人员与索引集合中人员相应位点的值,并对位点值不相等的位点数进行计数,根据计数结果确定碰撞结果。
6.如权利要求5所述的一种基于最大频率虚拟个体的STR快速比对方法,其特征在于:若计数结果为0,则表示碰撞成功,将该索引集合中的人员加入比中队列;若计数结果大于设定值,则表示碰撞结果失败,跳至下一人员进行碰撞;若计数结果小于或等于设定值而大于0,则碰撞结果为待定,计算两者的遗传距离,并将对应的索引集合中的人员加入候选队列。
7.如权利要求6所述的一种基于最大频率虚拟个体的STR快速比对方法,其特征在于,于步骤S4后,还包括如下步骤:
对比对结果进行序,其中对所述候选队列根据总遗传距离值进行排序。
8.一种基于最大频率虚拟个体的STR快速比对系统,包括:
索引集合形成单元,用于建立以最大频率虚拟个体为参照物的YSTR数据库,根据待比对样本的YSTR数据找出所有能被该待比对样本位点所包含的试剂盒,建立以试剂盒为标识的子库,并于子库中根据该待比对样本的YSTR数据与最大频率虚拟个体之间的总遗传距离为KEY值建立相应的索引集合;索引集合形成单元进一步包括:
YSTR数据库建立单元,用于建立以最大频率虚拟个体为参照物的YSTR数据库;
试剂盒子库建立单元,用于获取待比对样本的YSTR数据,根据该待比对样本的位点进行试剂盒判断,找出所有能被待比人员位点所包含的试剂盒,建立以试剂盒为标识的子库;
将该待比对样本的位点集合与既有试剂盒进行碰撞,若位点集合中的位点匹配该既有试剂盒,则建立一个以该既有试剂盒为标识的试剂盒子库,否则若位点集合中的位点与现有的试剂盒均不匹配,则将该位点集合临时组成一个新的试剂盒,给与一个唯一性的编号,并建立以该新的试剂盒标识的试剂盒子库;
总遗传距离计算单元,用于将待比对样本的各位点与以最大频率虚拟个体为参照物的YSTR数据库中的最大频率虚拟个体计算遗传距离,从而计算出该待比对样本与该YSTR数据库中最大频率虚拟个体之间的总遗传距离;计算方法为:将该待比对样本的YSTR数据与最大频率虚拟个体的YSTR数据进行诸位点的遗传距离计算,并根据各位点的遗传距离计算出该待比对样本与最大频率虚拟个体之间的总遗传距离;
索引集合建立单元,用于根据该总遗传距离于相应的试剂盒子库下建立以该总遗传距离为KEY(关键)值的索引集合;
试剂盒判断单元,用于获取待比对人员的YSTR数据,根据该待比对人员的YSTR数据找出所有能被该待比对人员位点所包含的试剂盒,进入相应的试剂盒子库;
索引集合获取单元,用于根据该待比对人员的YSTR数据与最大频率虚拟个体分别计算出各试剂盒的总遗传距离,然后逐个利用总遗传距离作为各试剂盒子库内的KEY值进行查找,以获取相应的索引集合;
比对单元,用于将该待比对人员的YSTR数据与相应的索引集合中的各人员的YSTR数据进行比对,对比对结果进行记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359751.5A CN110060737B (zh) | 2019-04-30 | 2019-04-30 | 一种基于最大频率虚拟个体的str快速比对方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359751.5A CN110060737B (zh) | 2019-04-30 | 2019-04-30 | 一种基于最大频率虚拟个体的str快速比对方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110060737A CN110060737A (zh) | 2019-07-26 |
CN110060737B true CN110060737B (zh) | 2023-04-18 |
Family
ID=67321787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910359751.5A Active CN110060737B (zh) | 2019-04-30 | 2019-04-30 | 一种基于最大频率虚拟个体的str快速比对方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110060737B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706746B (zh) * | 2019-11-27 | 2021-09-17 | 北京博安智联科技有限公司 | 一种dna混合分型数据库比对算法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003256433A (ja) * | 2002-02-27 | 2003-09-12 | Japan Science & Technology Corp | 遺伝子構造解析方法およびその装置 |
KR100590541B1 (ko) * | 2004-02-21 | 2006-06-19 | 삼성전자주식회사 | 누락된 유전자형 데이터 대체 방법 및 그 시스템 |
KR20160062763A (ko) * | 2013-10-18 | 2016-06-02 | 세븐 브릿지스 지노믹스 인크. | 유전자 샘플을 유전자형 결정하기 위한 방법 및 시스템 |
AU2014353667A1 (en) * | 2013-11-19 | 2016-06-16 | Norlin Genalice Limited | A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure |
CN106202995A (zh) * | 2016-07-13 | 2016-12-07 | 北京麦美瑞生物科技有限公司 | 小麦BSR‑Seq基因定位的方法 |
CN108197433A (zh) * | 2017-12-29 | 2018-06-22 | 厦门极元科技有限公司 | 快速dna测序数据分析平台的数据内存和硬盘分流存储方法 |
CN108624669A (zh) * | 2018-06-27 | 2018-10-09 | 厦门胜芨科技有限公司 | 一种快速微生物dna基因组测序比对检测鉴定的方法 |
CN108690871A (zh) * | 2018-03-29 | 2018-10-23 | 深圳裕策生物科技有限公司 | 基于二代测序的插入缺失突变检测方法、装置和存储介质 |
CN109033755A (zh) * | 2018-07-27 | 2018-12-18 | 泰山医学院 | 基于大数据的融合基因数据检测方法、计算机程序、终端 |
CN109182535A (zh) * | 2018-09-20 | 2019-01-11 | 广西壮族自治区畜牧研究所 | 一种鸡育种素材的筛选方法 |
WO2019051238A1 (en) * | 2017-09-07 | 2019-03-14 | Regeneron Pharmaceuticals, Inc. | SYSTEMS AND METHODS OF OPERATING PARENTAL IN GENOMIC DATA ANALYSIS |
-
2019
- 2019-04-30 CN CN201910359751.5A patent/CN110060737B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003256433A (ja) * | 2002-02-27 | 2003-09-12 | Japan Science & Technology Corp | 遺伝子構造解析方法およびその装置 |
KR100590541B1 (ko) * | 2004-02-21 | 2006-06-19 | 삼성전자주식회사 | 누락된 유전자형 데이터 대체 방법 및 그 시스템 |
KR20160062763A (ko) * | 2013-10-18 | 2016-06-02 | 세븐 브릿지스 지노믹스 인크. | 유전자 샘플을 유전자형 결정하기 위한 방법 및 시스템 |
AU2014353667A1 (en) * | 2013-11-19 | 2016-06-16 | Norlin Genalice Limited | A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure |
CN106202995A (zh) * | 2016-07-13 | 2016-12-07 | 北京麦美瑞生物科技有限公司 | 小麦BSR‑Seq基因定位的方法 |
WO2019051238A1 (en) * | 2017-09-07 | 2019-03-14 | Regeneron Pharmaceuticals, Inc. | SYSTEMS AND METHODS OF OPERATING PARENTAL IN GENOMIC DATA ANALYSIS |
CN108197433A (zh) * | 2017-12-29 | 2018-06-22 | 厦门极元科技有限公司 | 快速dna测序数据分析平台的数据内存和硬盘分流存储方法 |
CN108690871A (zh) * | 2018-03-29 | 2018-10-23 | 深圳裕策生物科技有限公司 | 基于二代测序的插入缺失突变检测方法、装置和存储介质 |
CN108624669A (zh) * | 2018-06-27 | 2018-10-09 | 厦门胜芨科技有限公司 | 一种快速微生物dna基因组测序比对检测鉴定的方法 |
CN109033755A (zh) * | 2018-07-27 | 2018-12-18 | 泰山医学院 | 基于大数据的融合基因数据检测方法、计算机程序、终端 |
CN109182535A (zh) * | 2018-09-20 | 2019-01-11 | 广西壮族自治区畜牧研究所 | 一种鸡育种素材的筛选方法 |
Non-Patent Citations (2)
Title |
---|
Fast individual ancestry inference from DNA sequence data leveraging allele frequencies;Vikas Bansal 等;《BMC Bioinformatics》;20150116;第1-11页 * |
基于BWT的快速DNA比对系统的设计与实现;周渝东;《中国优秀硕士学位论文全文数据库,基础科技辑》;20150215;第A006-63页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110060737A (zh) | 2019-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20040126803A1 (en) | Method for profiling and identifying persons by using data samples | |
de Oliveira et al. | Comparing co-evolution methods and their application to template-free protein structure prediction | |
Bazin et al. | panRGP: a pangenome-based method to predict genomic islands and explore their diversity | |
CN110111843B (zh) | 对核酸序列进行聚类的方法、设备及存储介质 | |
CN109192316B (zh) | 一种基于基因网络分析的疾病亚型预测系统 | |
Bhadra et al. | Identification of multiview gene modules using mutual information-based hypograph mining | |
Kalyanaraman et al. | Space and time efficient parallel algorithms and software for EST clustering | |
Chen et al. | Multiple classifier integration for the prediction of protein structural classes | |
CN110060737B (zh) | 一种基于最大频率虚拟个体的str快速比对方法及系统 | |
Weber et al. | Reference-based comparison of adaptive immune receptor repertoires | |
Ju et al. | Fleximer: accurate quantification of RNA-Seq via variable-length k-mers | |
Ta et al. | A novel method for assigning functional linkages to proteins using enhanced phylogenetic trees | |
Sun et al. | Tree-structured algorithm for long weak motif discovery | |
Prezza et al. | Detecting mutations by ebwt | |
Garrels | Yeast genomic databases and the challenge of the post-genomic era | |
Esmat et al. | A parallel hash‐based method for local sequence alignment | |
Lee et al. | Protein secondary structure prediction using BLAST and exhaustive RT-RICO, the search for optimal segment length and threshold | |
Merschmann et al. | A lazy data mining approach for protein classification | |
Shortle | Structure prediction: Folding proteins by pattern recognition | |
Pérez et al. | A computational strategy for protein function assignment which addresses the multidomain problem | |
Popic et al. | GATTACA: lightweight metagenomic binning with compact indexing of kmer counts and minhash-based panel selection | |
Semwal et al. | Pr [m]: An algorithm for protein motif discovery | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
Mei et al. | Remote protein homology detection using a modularity-based approach | |
Peng et al. | Identification of personalized driver genes for individuals using graph convolution network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |