CN115346607A - Dna样本查重方法及装置 - Google Patents

Dna样本查重方法及装置 Download PDF

Info

Publication number
CN115346607A
CN115346607A CN202211283632.4A CN202211283632A CN115346607A CN 115346607 A CN115346607 A CN 115346607A CN 202211283632 A CN202211283632 A CN 202211283632A CN 115346607 A CN115346607 A CN 115346607A
Authority
CN
China
Prior art keywords
dna sample
sample data
locus
value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211283632.4A
Other languages
English (en)
Other versions
CN115346607B (zh
Inventor
蒿杰
冉凌飞
刘甲乾
曹秀珍
马金帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biotech Original Biotechnology Beijing Co ltd
Original Assignee
Biotech Original Biotechnology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biotech Original Biotechnology Beijing Co ltd filed Critical Biotech Original Biotechnology Beijing Co ltd
Priority to CN202211283632.4A priority Critical patent/CN115346607B/zh
Publication of CN115346607A publication Critical patent/CN115346607A/zh
Application granted granted Critical
Publication of CN115346607B publication Critical patent/CN115346607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明实施例提供一种DNA样本查重方法及装置,该方法包括:获取DNA样本数据;其中,DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值;将DNA样本数据中的基因座名称进行排序,并将排序后的基因座名称对应的基因座分型值组合成字符串,将字符串进行MD5加密,得到DNA样本数据对应的加密MD5基因座分型值;基于样本编号及加密MD5基因座分型值对DNA样本数据进行比对分析,获取DNA样本查重结果。本发明实施例提供的DNA样本查重方法及装置,实现了自动化DNA样本数据查重分析,显著提高了DNA数据查重效率。

Description

DNA样本查重方法及装置
技术领域
本发明实施例涉及计算机及生物技术领域,具体涉及一种DNA样本查重方法及装置。
背景技术
DNA数据库建设首先需要进行血样采取,在血样采取过程中由于采血系统误差或人为误差,极少数血样出现污染、错采等各类问题,导致后期建库所得的实验数据出现重复的现象,需要进行高效的筛选、排查。另外,由于人类基因的特性问题,也需要进行重复性血样的筛选,以用于集中分析。
目前,上述重复性排查工作都是由人工比对完成,效率很低,极大地影响了DNA建库等应用场景的实施进度。
发明内容
针对现有技术存在的缺陷,本发明实施例提供一种DNA样本查重方法及装置。
本发明实施例提供一种DNA样本查重方法,包括:获取DNA样本数据;其中,所述DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值;将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;根据所述同型DNA样本数据,将所述样本编号不同的所述同型DNA样本数据筛选出来,得到同型异号DNA样本数据。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;根据所述同型DNA样本数据,将所述样本编号相同的所述同型DNA样本数据筛选出来,得到同型同号DNA样本数据。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:将所述样本编号相同的所述DNA样本数据筛选出来,得到同号DNA样本数据;根据所述同号DNA样本数据,将具有不同所述加密MD5基因座分型值的所述同号DNA样本数据筛选出来,得到同号异型DNA样本数据。
根据本发明实施例提供的一种DNA样本查重方法,所述方法还包括:记录所述基因座名称对应的所述基因座分型值是否为空值。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:获取存在所述基因座名称对应的所述基因座分型值为空值的第一DNA样本数据;获取所述第一DNA样本数据中所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值;获取包含所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值,且所述加密MD5基因座分型值与所述第一DNA样本数据不同的至少一个样本的第二DNA样本数据;确认所述第二DNA样本数据与所述第一DNA样本数据为同型包含DNA样本数据。
根据本发明实施例提供的一种DNA样本查重方法,所述获取DNA样本数据,包括:新建比对分析项目,确定所述试剂盒种类;基于所述比对分析项目,通过导入与所述试剂盒种类对应的样本文件,获取所述DNA样本数据。
根据本发明实施例提供的一种DNA样本查重方法,所述方法还包括:展示和/或导出所述DNA样本查重结果。
本发明实施例还提供一种DNA样本查重装置,包括:数据获取模块,用于:获取DNA样本数据;其中,所述DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值;数据处理模块,用于:将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;数据分析模块,用于:基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述DNA样本查重方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述DNA样本查重方法的步骤。
本发明实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述DNA样本查重方法的步骤。
本发明实施例提供的DNA样本查重方法及装置,通过获取DNA样本数据;其中,DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值,将DNA样本数据中的基因座名称进行排序,并将排序后的基因座名称对应的基因座分型值组合成字符串,将字符串进行MD5加密,得到DNA样本数据对应的加密MD5基因座分型值,基于样本编号及加密MD5基因座分型值对DNA样本数据进行比对分析,获取DNA样本查重结果,实现了自动化DNA样本数据查重分析,显著提高了DNA数据查重效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种DNA样本查重方法的流程示意图;
图2是本发明实施例提供的DNA样本查重装置的结构示意图;
图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种DNA样本查重方法的流程示意图。如图1所示,该方法包括:
步骤S1、获取DNA样本数据;其中,所述DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值。
以DNA建库场景为例,首先,获取用于DNA建库的DNA样本数据。DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值。其中,不同的试剂盒种类采集不同类型的DNA样本,因此,试剂盒种类表征不同的样本数据类型。对于一个DNA样本数据,包括至少一个基因座,基因座用基因座名称进行标识,对于一个基因座,通常情况下可以有1到2个基因座分型值。
由于不同试剂盒种类对应的DNA样本数据的样本数据类型不同,不同类型的试剂盒采集不同类型的DNA样本。需要对同种类型的试剂盒采集的DNA样本数据进行分析比对。因此,在对DNA样本数据比对分析之前,首先确定试剂盒种类。可以基于整体数据,通过筛选确定试剂盒种类下的样本数据获取待分析的DNA样本数据。
步骤S2、将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序。
可以从导入的文件获取确定试剂盒种类的DNA样本数据。对于获取的DNA样本数据,可以按照标准格式存入到SQLite数据库中。其中,获取的DNA样本数据包括样本编号(也可以称为样本名称)、基因座名称、基因座分型值,经过算法处理后存入到数据库中的字段包括:Id(自动生成的序号),文件ID,文件路径,DNA MD5加密信息,样本编号,基因座信息。其中,基因座信息包括基因座名称和基因座分型值。DNA MD5加密信息即加密MD5基因座分型值,主要获取过程如下:将每个DNA样本数据对应的基因座名称进行排序,然后将该DNA样本排序后的基因座名称所对应的基因座分型值组合成字符串,并将该字符串进行MD5加密得到一个32位的字符串,即得到加密MD5基因座分型值,将加密MD5基因座分型值和样本编号对应存储。其中,基因座名称所对应的基因座分型值有多个时,在获取加密MD5基因座分型值之前,需要将基因座名称对应的多个基因座分型值按照预设顺序进行排序,如按照由小到大或由大到小进行排序。
步骤S3、基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
针对确定类型的试剂盒采集的DNA样本数据,基于样本编号及加密MD5基因座分型值对相应的DNA样本数据进行比对分析,获取DNA样本查重结果。其中,样本编号是否相同用于表示在样本的编号上是否出现了重复现象,加密MD5基因座分型值是否相同,用于表示至少两条DNA样本数据的基因座名称及对应的基因座分型值是否完全相同。
需要说明的,对于不同类型试剂盒采集的DNA样本数据,也可以采用本发明实施例提供的DNA样本查重方法进行分析,但是由于不同类型试剂盒采集的DNA样本数据的数据类型本身即不同,查重比对分析没有实际意义。
本发明实施例提供的DNA样本查重方法,通过获取DNA样本数据;其中,DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值,将DNA样本数据中的基因座名称进行排序,并将排序后的基因座名称对应的基因座分型值组合成字符串,将字符串进行MD5加密,得到DNA样本数据对应的加密MD5基因座分型值,基于样本编号及加密MD5基因座分型值对DNA样本数据进行比对分析,获取DNA样本查重结果,实现了自动化DNA样本数据查重分析,显著提高了DNA数据查重效率。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;根据所述同型DNA样本数据,将所述样本编号不同的所述同型DNA样本数据筛选出来,得到同型异号DNA样本数据。
DNA建库在数据分析时,需要分析出同型异号DNA样本数据。同型异号DNA样本数据是指加密MD5基因座分型值相同,样本编号不同的DNA样本数据。
比如,在Y染色体DNA数据比对中,同一个家系所有的男性的Y-STR试剂盒DNA分型几乎都是同一类分型,如果在Y-STR试剂盒DNA分型数据分析中出现若干样本编号不同,但分型相同的同型异号数据,需要将所有此类数据智能归为同一家系等情况,并在比对结果中重点标注,以方便进行后期排查验证。
在常染色体DNA数据比对中,如果在常染色体STR鉴定试剂盒中不同样本编号的样本DNA分型数据相同,则将此类数据智能归为同卵双生类,或一血多涂等情况,并在比对结果中重点标注,以方便进行后期排查验证。
此方法也可验证其他类型染色体如X染色体数据的智能归类,和线粒体DNA数据的智能归类。
在同型异号DNA样本数据的获取中,本发明实施例通过利用数据库查询语句,将具有相同加密MD5基因座分型值的DNA样本数据筛选出来,得到同型DNA样本数据;根据同型DNA样本数据,将样本编号不同的同型DNA样本数据筛选出来,得到同型异号DNA样本数据。也即,通过数据库查询语句,根据加密MD5基因座分型值,将各样本对应的加密MD5基因座分型值相同的查出来并且只保留样本编号不同的样本。
本发明实施例提供的DNA样本查重方法,通过将具有相同加密MD5基因座分型值的DNA样本数据筛选出来,得到同型DNA样本数据,根据同型DNA样本数据,将样本编号不同的同型DNA样本数据筛选出来,得到同型异号DNA样本数据,实现了同型异号DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;根据所述同型DNA样本数据,将所述样本编号相同的所述同型DNA样本数据筛选出来,得到同型同号DNA样本数据。
DNA建库在数据分析时,需要分析出同型同号DNA样本数据。同型同号DNA样本数据是指加密MD5基因座分型值相同,样本编号也相同的DNA样本数据。这种数据很大可能是由于失误出现了重复。
例如,在对某一类染色体(常染色体、Y染色体或X染色体)STR数据,或线粒体DNA进行智能分析,若出现样本编号相同的样本的基因座分型值完全相同,则可以归类为重复采血等问题,并进行重点标注,以便后续对样本进行问题溯源和排查。
在同型同号DNA样本数据的获取中,本发明实施例通过利用数据库查询语句,将具有相同加密MD5基因座分型值的DNA样本数据筛选出来,得到同型DNA样本数据;根据同型DNA样本数据,将样本编号相同的同型DNA样本数据筛选出来,得到同型同号DNA样本数据。也即,通过数据库查询语句,根据加密MD5基因座分型值,将各样本对应的加密MD5基因座分型值相同的查出来并且只保留样本编号相同的样本。
本发明实施例提供的DNA样本查重方法,通过将具有相同加密MD5基因座分型值的DNA样本数据筛选出来,得到同型DNA样本数据,根据同型DNA样本数据,将样本编号相同的同型DNA样本数据筛选出来,得到同型同号DNA样本数据,实现了同型同号DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:将所述样本编号相同的所述DNA样本数据筛选出来,得到同号DNA样本数据;根据所述同号DNA样本数据,将具有不同所述加密MD5基因座分型值的所述同号DNA样本数据筛选出来,得到同号异型DNA样本数据。
DNA建库在数据分析时,需要分析出同号异型DNA样本数据,这种数据很大可能是出现了失误。同号异型DNA样本数据是指样本编号相同,加密MD5基因座分型值不同的DNA样本数据。
例如,在某一类染色体(常染色体、Y染色体或X染色体)STR数据,或线粒体DNA进行智能分析,若出现样本编号相同的样本的基因座分型值不同,则可以归类为样本编号错误等问题,并进行重点标注,以便后续对样本进行问题溯源和排查。在同号异型DNA样本数据的获取中,本发明实施例通过利用数据库查询语句,将样本编号相同的DNA样本数据筛选出来,得到同号DNA样本数据;根据同号DNA样本数据,将具有不同加密MD5基因座分型值的同号DNA样本数据筛选出来,得到同号异型DNA样本数据。也即,通过数据库查询语句,查询出所有样本编号相同的样本,然后保留加密MD5基因座分型值不同的样本。
本发明实施例提供的DNA样本查重方法,通过将样本编号相同的DNA样本数据筛选出来,得到同号DNA样本数据,根据同号DNA样本数据,将具有不同加密MD5基因座分型值的同号DNA样本数据筛选出来,得到同号异型DNA样本数据,实现了同号异型DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重方法,所述方法还包括:记录所述基因座名称对应的所述基因座分型值是否为空值。
对于获取的DNA样本数据,可以按照标准格式存入到SQLite数据库中。其中,获取的DNA样本数据包括样本编号、基因座名称、基因座分型值,经过算法处理后存入到数据库中的字段包括:Id(自动生成的序号),文件ID,文件路径,DNA MD5加密信息,样本编号,基因座信息。其中,基因座信息包括基因座名称、基因座分型值及基因座分型值是否为空。其中,基因座分型值是否为空是对应于基因座而言的,用于表示对应一个基因座名称,其基因座分型值是否为空。若基因座分型值为空,则相应的“基因座分型值是否为空”字段设置为1;若不为空,则相应的“基因座分型值是否为空”字段设置为0。
本发明实施例提供的DNA样本查重方法,通过记录基因座名称对应的基因座分型值是否为空值,为基于基因座分型值是否出现空值进行查重分析提供了基础。
根据本发明实施例提供的一种DNA样本查重方法,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:获取存在所述基因座名称对应的所述基因座分型值为空值的第一DNA样本数据;获取所述第一DNA样本数据中所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值;获取包含所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值,且所述加密MD5基因座分型值与所述第一DNA样本数据不同的至少一个样本的第二DNA样本数据;确认所述第二DNA样本数据与所述第一DNA样本数据为同型包含DNA样本数据。
DNA建库在数据分析时,需要分析出同型包含DNA样本数据。其中,同型包含DNA样本数据基因座数量多的样本向下包含基因座数量少的样本。
假设在Y染色体中,父子二联体的Y染色体基因分型理论上是一致的,但在实际检测中其中一个样本一定数量内的基因座在遗传过程中发生重复或丢失、或者在实验过程中污染等情况而被剔除,此父子二联体基因分型比对结果不一致,故基因座少的样本不会被归到其家系中。如果使用同型包含功能则可使剔除一定数量内基因座的样本归到未剔除基因座的全基因座分型的家系中,并且单独列出,供检测人员进一步的核查。如果没有此功能的帮助,这些数据均会被归类为废弃数据,需要实验室技术人员重新进行实验操作,甚至需要重新采集血样,非常耽误时间。
又如在某一类染色体(常染色体或X染色体)STR数据,或线粒体DNA检测中,由于其中一个样本一定数量内的基因座在实验过程中污染被剔除,此时如果将此缺少一定数量基因座的样本数据对比此样本已有的完整数据,将会出现基因分型比对结果不一致,而被误认为是不同样本。
同型包含是指两个DNA样本数据的基因座的值除了缺失的部分,其他剩余基因座的基因座分型值都相同。比如A样本4个基因座的值(每个基因座的值之间用分隔号分隔)为:a(13,13)\b(9,20)\c(31.2,33,)\d(10,11);B样本只出3个基因座的基因座分型值,另外一个为空值,如为a(13,13)\b(9,20)\c(31.2,33,)\d(null),此时样本A包含样本B。
将原始数据经过处理存入到数据库中后,针对数据库的记录,做同型包含查询操作。在同型包含DNA样本数据的获取中,本发明实施例通过查询数据库表记录中“基因座分型值是否为空”字段值为1的所有数据,获取存在基因座名称对应的基因座分型值为空值的第一DNA样本数据。第一DNA样本数据可能包括多条数据,对应每条第一DNA样本数据存在至少一个基因座的基因座分型值为空。对于一个基因座,通常情况下可以有1到2个基因座分型值,基因座的基因座分型值为空是指该基因座的基因座分型值均为空值。
分别对每条第一DNA样本数据进行处理。获取第一DNA样本数据中基因座分型值不为空值的基因座名称及对应的基因座分型值,也即获取其他的基因座分型值不为空的基因座名称及对应的基因座分型值。以获取到的基因座分型值不为空的基因座名称及对应的基因座分型值作为查询条件,如果查询到包含基因座分型值不为空的基因座名称及对应的基因座分型值,且加密MD5基因座分型值与第一DNA样本数据不同的第二DNA样本数据(第二DNA样本数据的基因座数量大于第一DNA样本数据的基因座数量),则确认第二DNA样本数据与第一DNA样本数据为同型包含关系,即第二DNA样本数据与第一DNA样本数据为同型包含DNA样本数据。其中,第二DNA样本数据包含第一DNA样本数据。第二DNA样本数据可以为多个。
可以将得到的第二DNA样本数据的字段信息插入到一个新表中,包含以下字段:id,文件路径,样本编号,基因座信息,可以将新表中的数据进行展示。
比如,某条样本数据应该包含a,b,c,d基因座。其中b基因座的数据为空,此时该样本中b基因座的 “基因座分型值是否为空” 字段的值会被置为1,则该样本数据存在空值。包含数据a,c,d。查询所有数据中a,c,d的值与该条数据相等且加密MD5基因座分型值不同的数据,这些数据就是包含该条数据的数据。
本发明实施例提供的DNA样本查重方法,通过获取存在基因座名称对应的基因座分型值为空值的第一DNA样本数据,获取第一DNA样本数据中基因座分型值不为空值的基因座名称及对应的基因座分型值,获取包含基因座分型值不为空值的基因座名称及对应的基因座分型值,且加密MD5基因座分型值与第一DNA样本数据不同的至少一个样本的第二DNA样本数据,确认第二DNA样本数据与第一DNA样本数据为同型包含DNA样本数据,实现了同型包含DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重方法,所述获取DNA样本数据,包括:新建比对分析项目,确定所述试剂盒种类;基于所述比对分析项目,通过导入与所述试剂盒种类对应的样本文件,获取所述DNA样本数据。
新建一个比对分析项目,需要给比对分析项目起名,并且选择特定的试剂盒名称(也即确定试剂盒种类),可以对比对项目进行管理,如删除、打开操作。导入需要对比的样本文件,将需要比对的相应种类试剂盒采集的样本数据存储的文件导入到系统中,支持导入DAT格式文件,可一次导入数十万条DNA样本数据信息,并且可同时分析一次导入的所有数据,通过用户导入到软件端的DAT文件获取确定试剂盒种类的DNA样本数据。
本发明实施例中,对DNA样本数据进行分析的过程包括同型异号、同型同号、同号异型、同型包含,软件默认包括以上全部分析,用户可个性化选择进行其中任意N项分析。
本发明实施例提供的DNA样本查重方法,通过新建比对分析项目,确定试剂盒种类,基于比对分析项目,通过导入与试剂盒种类对应的样本文件,获取确定试剂盒种类的DNA样本数据,实现了DNA样本数据的快速获取。
根据本发明实施例提供的一种DNA样本查重方法,所述方法还包括:展示和/或导出所述DNA样本查重结果。
在数据分析完成后,用户可直接在软件里查看DNA样本查重结果或导出Excel格式的DNA样本查重结果。其中,本发明实施例可以获取到同型异号DNA样本数据、同型同号DNA样本数据、同号异型DNA样本数据及同型包含DNA样本数据四种DNA样本查重结果。
本发明实施例提供的DNA样本查重方法,通过展示和/或导出DNA样本查重结果,提高了查重结果展示的可视化。
本发明实施例提供的DNA样本查重方法,可协助人工高效准确的完成数据库建设等过程中存在的部分重复性工作,提高用户工作效率,同时可减少因人为因素而导致的重复错误,可以大大节省比对时间和提高比对准确率,是建库等工作重要的辅助工具。
需要说明的是,本实施例所给出的多个优选实施方式,在逻辑或结构相互不冲突的前提下,可以自由组合,本发明对此不做限定。
下面对本发明实施例提供的DNA样本查重装置进行描述,下文描述的DNA样本查重装置与上文描述的DNA样本查重方法可相互对应参照。
图2是本发明实施例提供的DNA样本查重装置的结构示意图。如图2所示,该装置包括数据获取模块10、数据处理模块20及数据分析模块30,其中:数据获取模块10用于:获取DNA样本数据;其中,所述DNA样本数据包括所述试剂盒种类、样本编号、基因座名称及基因座分型值;数据处理模块20用于:将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;数据分析模块30用于:基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
本发明实施例提供的DNA样本查重装置,通过获取DNA样本数据;其中,DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值,将DNA样本数据中的基因座名称进行排序,并将排序后的基因座名称对应的基因座分型值组合成字符串,将字符串进行MD5加密,得到DNA样本数据对应的加密MD5基因座分型值,基于样本编号及加密MD5基因座分型值对DNA样本数据进行比对分析,获取DNA样本查重结果,实现了自动化DNA样本数据查重分析,显著提高了DNA数据查重效率。
根据本发明实施例提供的一种DNA样本查重装置,数据分析模块30在用于基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果时,具体用于:将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;根据所述同型DNA样本数据,将所述样本编号不同的所述同型DNA样本数据筛选出来,得到同型异号DNA样本数据。
本发明实施例提供的DNA样本查重装置,通过将具有相同加密MD5基因座分型值的DNA样本数据筛选出来,得到同型DNA样本数据,根据同型DNA样本数据,将样本编号不同的同型DNA样本数据筛选出来,得到同型异号DNA样本数据,实现了同型异号DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重装置,数据分析模块30在用于基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果时,具体用于:将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;根据所述同型DNA样本数据,将所述样本编号相同的所述同型DNA样本数据筛选出来,得到同型同号DNA样本数据。
本发明实施例提供的DNA样本查重装置,通过将具有相同加密MD5基因座分型值的DNA样本数据筛选出来,得到同型DNA样本数据,根据同型DNA样本数据,将样本编号相同的同型DNA样本数据筛选出来,得到同型同号DNA样本数据,实现了同型同号DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重装置,数据分析模块30在用于基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果时,具体用于:将所述样本编号相同的所述DNA样本数据筛选出来,得到同号DNA样本数据;根据所述同号DNA样本数据,将具有不同所述加密MD5基因座分型值的所述同号DNA样本数据筛选出来,得到同号异型DNA样本数据。
本发明实施例提供的DNA样本查重装置,通过将样本编号相同的DNA样本数据筛选出来,得到同号DNA样本数据,根据同号DNA样本数据,将具有不同加密MD5基因座分型值的同号DNA样本数据筛选出来,得到同号异型DNA样本数据,实现了同号异型DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重装置,数据处理模块20还用于:记录所述基因座名称对应的所述基因座分型值是否为空值。
本发明实施例提供的DNA样本查重装置,通过记录基因座名称对应的基因座分型值是否为空值,为基于基因座分型值是否出现空值进行查重分析提供了基础。
根据本发明实施例提供的一种DNA样本查重装置,数据分析模块30在用于基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果时,具体用于:获取存在所述基因座名称对应的所述基因座分型值为空值的第一DNA样本数据;获取所述第一DNA样本数据中所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值;获取包含所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值,且所述加密MD5基因座分型值与所述第一DNA样本数据不同的至少一个样本的第二DNA样本数据;确认所述第二DNA样本数据与所述第一DNA样本数据为同型包含DNA样本数据。
本发明实施例提供的DNA样本查重装置,通过获取存在基因座名称对应的基因座分型值为空值的第一DNA样本数据,获取第一DNA样本数据中基因座分型值不为空值的基因座名称及对应的基因座分型值,获取包含基因座分型值不为空值的基因座名称及对应的基因座分型值,且加密MD5基因座分型值与第一DNA样本数据不同的至少一个样本的第二DNA样本数据,确认第二DNA样本数据与第一DNA样本数据为同型包含DNA样本数据,实现了同型包含DNA样本数据的自动化获取。
根据本发明实施例提供的一种DNA样本查重装置,数据获取模块10在用于获取DNA样本数据时,具体用于:新建比对分析项目,确定所述试剂盒种类;基于所述比对分析项目,通过导入与所述试剂盒种类对应的样本文件,获取所述DNA样本数据。
本发明实施例提供的DNA样本查重装置,通过新建比对分析项目,确定试剂盒种类,基于比对分析项目,通过导入与试剂盒种类对应的样本文件,获取确定试剂盒种类的DNA样本数据,实现了DNA样本数据的快速获取。
根据本发明实施例提供的一种DNA样本查重装置,所述装置还包括输出模块,所示输出模块用于:展示和/或导出所述DNA样本查重结果。
本发明实施例提供的DNA样本查重装置,通过展示和/或导出DNA样本查重结果,提高了查重结果展示的可视化。
图3是本发明实施例提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行DNA样本查重方法,该方法包括:获取DNA样本数据;其中,所述DNA样本数据包括所述试剂盒种类、样本编号、基因座名称及基因座分型值;将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的DNA样本查重方法,该方法包括:获取DNA样本数据;其中,所述DNA样本数据包括所述试剂盒种类、样本编号、基因座名称及基因座分型值;将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的DNA样本查重方法,该方法包括:获取DNA样本数据;其中,所述DNA样本数据包括所述试剂盒种类、样本编号、基因座名称及基因座分型值;将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种DNA样本查重方法,其特征在于,包括:
获取DNA样本数据;其中,所述DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值;
将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;
基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
2.根据权利要求1所述的DNA样本查重方法,其特征在于,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:
将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;
根据所述同型DNA样本数据,将所述样本编号不同的所述同型DNA样本数据筛选出来,得到同型异号DNA样本数据。
3.根据权利要求1所述的DNA样本查重方法,其特征在于,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:
将具有相同所述加密MD5基因座分型值的所述DNA样本数据筛选出来,得到同型DNA样本数据;
根据所述同型DNA样本数据,将所述样本编号相同的所述同型DNA样本数据筛选出来,得到同型同号DNA样本数据。
4.根据权利要求1所述的DNA样本查重方法,其特征在于,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:
将所述样本编号相同的所述DNA样本数据筛选出来,得到同号DNA样本数据;
根据所述同号DNA样本数据,将具有不同所述加密MD5基因座分型值的所述同号DNA样本数据筛选出来,得到同号异型DNA样本数据。
5.根据权利要求1所述的DNA样本查重方法,其特征在于,所述方法还包括:
记录所述基因座名称对应的所述基因座分型值是否为空值。
6.根据权利要求5所述的DNA样本查重方法,其特征在于,所述基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果,包括:
获取存在所述基因座名称对应的所述基因座分型值为空值的第一DNA样本数据;
获取所述第一DNA样本数据中所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值;
获取包含所述基因座分型值不为空值的所述基因座名称及对应的所述基因座分型值且所述加密MD5基因座分型值与所述第一DNA样本数据不同的至少一个样本的第二DNA样本数据;
确认所述第二DNA样本数据与所述第一DNA样本数据为同型包含DNA样本数据。
7.根据权利要求1所述的DNA样本查重方法,其特征在于,所述获取DNA样本数据,包括:
新建比对分析项目,确定所述试剂盒种类;
基于所述比对分析项目,通过导入与所述试剂盒种类对应的样本文件,获取所述DNA样本数据。
8.根据权利要求1所述的DNA样本查重方法,其特征在于,所述方法还包括:
展示和/或导出所述DNA样本查重结果。
9.一种DNA样本查重装置,其特征在于,包括:
数据获取模块,用于:获取DNA样本数据;其中,所述DNA样本数据包括试剂盒种类、样本编号、基因座名称及基因座分型值;
数据处理模块,用于:将所述DNA样本数据中的所述基因座名称进行排序,并将排序后的所述基因座名称对应的所述基因座分型值组合成字符串,将所述字符串进行MD5加密,得到所述DNA样本数据对应的加密MD5基因座分型值;其中,所述基因座名称对应的所述基因座分型值具有预设顺序;
数据分析模块,用于:基于所述样本编号及所述加密MD5基因座分型值对所述DNA样本数据进行比对分析,获取DNA样本查重结果。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述DNA样本查重方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述DNA样本查重方法的步骤。
CN202211283632.4A 2022-10-20 2022-10-20 Dna样本查重方法及装置 Active CN115346607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211283632.4A CN115346607B (zh) 2022-10-20 2022-10-20 Dna样本查重方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211283632.4A CN115346607B (zh) 2022-10-20 2022-10-20 Dna样本查重方法及装置

Publications (2)

Publication Number Publication Date
CN115346607A true CN115346607A (zh) 2022-11-15
CN115346607B CN115346607B (zh) 2023-02-10

Family

ID=83957671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211283632.4A Active CN115346607B (zh) 2022-10-20 2022-10-20 Dna样本查重方法及装置

Country Status (1)

Country Link
CN (1) CN115346607B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711495A (zh) * 2023-12-16 2024-03-15 广州精检生物技术有限公司 基于dna测序数据的样本查重和存储方法、系统及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105602940A (zh) * 2016-01-29 2016-05-25 公安部第一研究所 一种利用定点突变技术制备人类基因短串联重复序列等位基因分型标准物的方法
WO2020138995A1 (ko) * 2018-12-27 2020-07-02 주식회사 엔젠바이오 멀티플렉스 시스템을 이용한 인간 객체의 y str 유전좌위 분석방법 및 이를 이용한 분석 키트
CN111415704A (zh) * 2020-05-18 2020-07-14 北京博安智联科技有限公司 一种str基因数据分析的方法
CN114373507A (zh) * 2022-01-27 2022-04-19 中国科学院北京基因组研究所(国家生物信息中心) 一种混合dna图谱的分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105602940A (zh) * 2016-01-29 2016-05-25 公安部第一研究所 一种利用定点突变技术制备人类基因短串联重复序列等位基因分型标准物的方法
WO2020138995A1 (ko) * 2018-12-27 2020-07-02 주식회사 엔젠바이오 멀티플렉스 시스템을 이용한 인간 객체의 y str 유전좌위 분석방법 및 이를 이용한 분석 키트
CN111415704A (zh) * 2020-05-18 2020-07-14 北京博安智联科技有限公司 一种str基因数据分析的方法
CN114373507A (zh) * 2022-01-27 2022-04-19 中国科学院北京基因组研究所(国家生物信息中心) 一种混合dna图谱的分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711495A (zh) * 2023-12-16 2024-03-15 广州精检生物技术有限公司 基于dna测序数据的样本查重和存储方法、系统及电子设备

Also Published As

Publication number Publication date
CN115346607B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
CN110491441B (zh) 一种模拟人群背景信息的基因测序数据仿真系统及方法
CN115346607B (zh) Dna样本查重方法及装置
Stephan et al. Towards a taxonomy for simulink model mutations
GB2378534A (en) SQL execution analysis
CN116467171A (zh) 自动化测试用例构建装置、方法、电子设备及存储介质
CN110570901B (zh) 一种基于测序数据进行ssr分型的方法及系统
CN109933798B (zh) 一种审计日志分析方法及装置
CN112596851A (zh) 仿真平台的多源异构数据批量抽取方法和分析方法
CN110148443B (zh) 一种临床检验样本的标识方法及系统
CN106776704B (zh) 统计信息收集方法和装置
CN112035308A (zh) 系统接口测试表格的生成方法及装置
KR102118322B1 (ko) 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법
CN115346604B (zh) Dna样本均衡性分析方法及装置
CN112433943A (zh) 基于抽象语法树的环境变量检测方法、装置、设备及介质
CN115359841A (zh) Dna检测试剂盒质检方法及装置
CN110504006A (zh) 一种处理扩增子数据的方法、系统、平台及存储介质
CN112559195B (zh) 数据库死锁的检测方法、装置、测试终端及介质
CN113793641B (zh) 一种从fastq文件中快速判断样本性别的方法
CN113342861B (zh) 业务场景下数据治理方法及装置
CN113535707B (zh) 一种基于大数据进行人员信息数据治理的方法
KR100515347B1 (ko) 단백질 정보 데이터 전처리 장치 및 방법
CN115455921A (zh) 批量报表计算用报表单元格计算次序的确定方法及装置
CN113626615A (zh) 一种在非结构化医疗文本中提取疾病及其病理指标的方法、系统及装置
CN116386719A (zh) 基因融合的检测方法、装置、设备及存储介质
CN112966101A (zh) 语句聚类方法、事务聚类方法、语句聚类装置与事务聚类装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant