CN115394357A - 用于判断样本配对或污染的位点组合及其筛选方法和应用 - Google Patents

用于判断样本配对或污染的位点组合及其筛选方法和应用 Download PDF

Info

Publication number
CN115394357A
CN115394357A CN202211064680.4A CN202211064680A CN115394357A CN 115394357 A CN115394357 A CN 115394357A CN 202211064680 A CN202211064680 A CN 202211064680A CN 115394357 A CN115394357 A CN 115394357A
Authority
CN
China
Prior art keywords
sample
site
samples
pollution
mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211064680.4A
Other languages
English (en)
Other versions
CN115394357B (zh
Inventor
严自创
周雍
蔡庆乐
郎秋蕾
张梦莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Link Care Medical Laboratory Co ltd
Original Assignee
Hangzhou Link Care Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Link Care Medical Laboratory Co ltd filed Critical Hangzhou Link Care Medical Laboratory Co ltd
Priority to CN202310671710.6A priority Critical patent/CN116798512A/zh
Priority to CN202211064680.4A priority patent/CN115394357B/zh
Priority to CN202310673464.8A priority patent/CN116805510A/zh
Publication of CN115394357A publication Critical patent/CN115394357A/zh
Application granted granted Critical
Publication of CN115394357B publication Critical patent/CN115394357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了用于判断样本是否配对和/或是否存在污染的位点及其筛选方法和应用。其中,所述筛选方法包括以下步骤:获得待判断样本来源物种的SNP位点数据;将获得的SNP位点进行HWE检验,筛选出HWE检验的SNP位点;筛选出符合以下条件的位点:①在至少20%的样本中检出该SNP位点对应的突变型;②在具有该SNP位点对应的突变型的样本中,至少70%的样本其突变频率分布于0.4至0.6之间。利用本发明的位点,即可用于判断样本的配对情况,又可用于判断疾病单样本的污染情况,从而可以实现疾病‑正常样本均受到污染时能够预测其污染情况的功能。

Description

用于判断样本配对或污染的位点组合及其筛选方法和应用
技术领域
本发明属于生物信息技术领域,具体地,涉及用于判断样本配对和/或污染的位点组合及其筛选方法和应用。
背景技术
随着高通量测序成本的降低,分析样本数量逐渐增多,导致样品混淆和污染的机会增大。典型的肿瘤样本检测工作流程复杂,从样本信息录入,湿实验各步骤,到最终的数据分析都可能引起样本污染。癌症研究经常联合分析匹配的“肿瘤-正常”样本,以检测肿瘤中存在的体细胞突变。即使在肿瘤样本中出现非常低的跨个体污染,也可能引入许多低等位基因频率的等位基因变异,这些变异会被体细胞变异调用算法解释为体细胞变异,导致特异性大大降低。检测样本混淆和污染是关键的质量控制步骤,会影响肿瘤检测的准确性,应在每个体细胞分析之前进行。
目前的评估样本污染的方法包括VerifyBamID、ContEst、Conpair等,这些方法均只适用于配对样,其中Conpair方法可评估低至0.1%的污染。配对样本均污染时,不能准确评估是否污染。
发明内容
为了解决上述技术问题中的至少一个,本发明采用的技术方案如下:
本发明第一方面提供一种用于判断样本是否配对和/或是否存在污染的位点的筛选方法,包括以下步骤:
S11,获得待判断样本来源物种的突变位点数据;
S12,将步骤S1获得的突变位点进行哈代-温伯格定律检验,筛选出符合哈代-温伯格定律检验的突变位点;
S13,利用第一群体样本测序数据从步骤S2获得的突变位点中筛选出符合以下条件的位点:①在至少20%的样本中检出该突变位点对应的突变型;②在具有该突变位点对应的突变型的样本中,至少70%的样本其突变频率分布于0.4至0.6之间,
获得的全部突变位点即为用于判断样本数据是否存在污染的位点。
在本发明的一些实施方案中,所述待判断样本来源物种是人。进一步地,所述突变位点为SNP位点,再进一步地,所述获得SNP位点是指获取千人计划的东亚人群常染色体SNP位点(vcf文件)。当然,本领域技术人员也可能利用其他已经公开SNP位点数据,进一步地,本领域也可以利用测序的技术进一步获得人的SNP位点数据。例如,如果已经存在大panel测序结果,可根据panel的检测范围筛选panel范围内的SNP位点。
在本发明的一些实施方案中,所述第一群体样本的数量不低于100,例如100、120、140、150、160、180、200、300、500或更多。
在本发明的一些实施方案中,进一步剔除10000bp范围内出现3次以上的突变位点。
本发明的第二方面提供利用本发明第一方面所述的筛选方法得到的所述待判断样本来源物种为人的位点组合。优选地,所述位点组合包括如下SNP位点:
rs2234161、rs13429049、rs3796164、rs2240780、rs1526083、rs466994、rs648387、rs17655、rs11574480、rs2240308、rs1057079、rs2228014、rs2335052、rs740750、rs76436625、rs2070113、rs3758862、rs12853546、rs2291011、rs2302233、rs12063905、rs13387241、rs1573858、rs3830032、rs10263573、rs1056171、rs79978663、rs3742210、rs3825941、rs1042667、rs3754334、rs4444457、rs635721、rs3830035、rs3815221、rs1076160、rs10895417、rs9604573、rs1560975、rs2071654、rs12059454、rs4954672、rs7644369、rs1966265、rs7794637、rs75802666、rs501413、rs1130409、rs17273206、rs3744037、rs2067053、rs78366782、rs3732567、rs351855、rs6977407、rs1805352、rs3740942、rs1049564、rs3815003、rs901065、rs3917981、rs4954852、rs1042787、rs28580074、rs6959712、rs1536475、rs664677、rs1130650、rs2227933、rs2306690、rs2275471、rs13382825、rs2270881、rs9392904、rs3829814、rs1805343、rs562780、rs2284651、rs2227934、rs12944923、rs3219489、rs17575847、rs11717042、rs1050775、rs740949、rs75842134、rs2298650、rs7157716、rs1063147、rs4969429、rs785468、rs1429365、rs2305268、rs16871074、rs2072407、rs2229971、rs521102、rs2069540、rs2293117、rs3829572、rs1707303、rs13007735、rs2227931、rs3734404、rs2302427、rs62579232、rs35195224、rs2230505、rs2593053、rs3751945、rs12030928、rs13413663、rs77504578、rs16871236、rs10274535、rs7852970、rs2229351、rs2273813、rs2301522、rs3751936、rs1048771、rs9973397、rs2699896、rs3752418、rs28723387、rs2229360、rs11062385、rs8904、rs1805105、rs28722141、rs1137100、rs4264514、rs3729679、rs3752416、rs17635434、rs12267460、rs4980885、rs1957106、rs7187438、rs3786348、rs13306519、rs12990449、rs796406、rs9405048、rs66628686、rs7073837、rs3759371、rs11624339、rs3810812、rs3737378、rs3736909、rs1375610、rs11925959、rs1051130、rs3757422、rs7896005、rs6413436、rs79519281、rs129982、rs1042769、rs2735594、rs3106796、rs3732577、rs3024997、rs6464211、rs2273773、rs7303748、rs2230499、rs12051375、rs1791235、rs7556439、rs788023、rs59852126、rs3025000、rs10252263、rs714887、rs11611479、rs2230500、rs254942、rs73454598、rs1627787、rs3769823、rs266720、rs1130809、rs7834206、rs1058932、rs17210957、rs2230501、rs1799801、rs3819162、rs2066411、rs1045487、rs1056932、rs345730、rs4733376、rs2275622、rs17847788、rs1088680、rs2280764、rs8095411、rs1800601、rs3769818、rs28673064、rs901455、rs1488935、rs3740066、rs11044057、rs2057482、rs2075514、rs2229080、rs6334、rs231775、rs1345186、rs345713、rs16887325、rs3824756、rs11044211、rs2277500、rs11644832、rs2276204、rs1801274、rs13002712、rs3135890、rs1010273、rs4647907、rs2001389、rs2306283、rs17834971、rs2272552、rs2298654、rs4466634、rs6757068、rs6811325、rs3778650、rs2305558、rs17114803、rs7956824、rs56104115、rs249954、rs2298606、rs2290854、rs16852600、rs999020、rs1033572、rs11545077、rs12414407、rs6488091、rs8023214、rs7193297、rs1431195、rs747659、rs2229571、rs1008658、rs6907567、rs1800909、rs10883841、rs10772008、rs2239610、rs2279349、rs1502229、rs1136410、rs2070096、rs2219471、rs714368、rs34854177、rs77961654、rs2271194、rs2241119、rs1800355、rs2270952、rs907187、rs13010249、rs7655964、rs3730353、rs12544121、rs1047057、rs2292238、rs2075179、rs11076620、rs2270953、rs2230656、rs4673993、rs7349683、rs581235、rs4260880、rs2278202、rs2271189、rs3783942、rs17232910、rs57115850、rs1188474、rs12720063、rs2198104、rs9481703、rs1160174、rs12252、rs697221、rs3783941、rs2074963、rs28740963、rs10802607、rs11686067、rs2231157、rs2243384、rs3793379、rs12628、rs2069502、rs1991517、rs2304906、rs11663656、rs10925391、rs1801123、rs1982965、rs1535330、rs3829023、rs3213225、rs2270777、rs2297730、rs2285579、rs3764640、rs10754602、rs2227982、rs2303740、rs2243、rs61753704、rs760419、rs547497、rs2494748、rs8067806、rs2075606、rs2618713、rs3856806、rs13167280、rs3799488、rs940664、rs204930、rs2071629、rs2494749、rs2952976、rs3815308、rs2779430、rs1870134、rs2736098、rs661561、rs940665、rs2303972、rs2301610、rs2280738、rs2905880、rs2302061、rs10802626、rs1155705、rs2287584、rs3924871、rs3750225、rs1799937、rs11066315、rs73376010、rs2285892、rs3746132、rs12563366、rs11466512、rs6885959、rs3798761、rs3750227、rs16754、rs7971249、rs12595504、rs2066736、rs3746130、rs684923、rs2228048、rs3763075、rs12174349、rs2292781、rs2295081、rs1076205、rs7182445、rs9894648、rs4807017、rs1042034、rs6599230、rs7735863、rs2077647、rs2279776、rs2234585、rs2285679、rs3751526、rs2285894、rs4807703、rs676210、rs4135385、rs16901229、rs1801132、rs1359118、rs1799925、rs1179441、rs61149329、rs964288、rs2252673、rs673548、rs2385867、rs2043112、rs2228480、rs7031287、rs4756196、rs28660993、rs2289332、rs2525574、rs3745544、rs4589708、rs6768722、rs6868087、rs3734440、rs7026388、rs12577824、rs2275234、rs45457497、rs9901455、rs2290684、rs2256376、rs4082155、rs2303808、rs3734441、rs3763653、rs2856650、rs4073630、rs17677991、rs1810132、rs16999593、rs2246745、rs6767907、rs832567、rs5746094、rs10758978、rs521950、rs1933437、rs550239、rs4252627、rs11545829、rs1056827、rs2878628、rs832575、rs316003、rs666478、rs2959656、rs3751395、rs2602141、rs903506、rs1048290、rs10012、rs2251219、rs706713、rs316018、rs639225、rs2071313、rs2274019、rs690367、rs1058808、rs2288842、rs10153761、rs17264436、rs706714、rs316016、rs638203、rs9344、rs2280059、rs689647、rs471692、rs2288841、rs1126497、rs3733045、rs72757662、rs3765475、rs1111782、rs2073464、rs1799943、rs560191、rs2293158、rs2075021、rs4399765、rs3755806、rs2302974、rs1801474、rs10121367、rs7932320、rs144848、rs2439831、rs2293152、rs6413504、rs7584256、rs2590846、rs3730089、rs3735295、rs2273715、rs2725832、rs1799955、rs3825962、rs1799966、rs14158、rs2303426、rs2037474、rs1105524、rs2303364、rs2297105、rs562939、rs9534262、rs2303502、rs799905、rs4926222、rs3732182、rs3792572、rs1650697、rs10215655、rs1342017、rs1014666、rs3751436、rs11853943、rs2242598、rs3815188、rs2303428、rs35124509、rs1805355、rs3213661、rs3739959、rs610611、rs3092904、rs140598、rs2271959、rs3746187、rs2303424、rs11713094、rs26279、rs1050171、rs2278275、rs11021065、rs4883918、rs55699652、rs9900627、rs59045002、rs1042821、rs16854713、rs3734000、rs2293347、rs158689、rs10831316、rs1751034、rs2413907、rs2257205、rs757115、rs2305156、rs2278911、rs3752862、rs1949972、rs2404457、rs583928、rs1751005、rs12442826、rs3744093、rs2238658、rs2166975、rs12108149、rs2229992、rs2272351、rs4647534、rs4753658、rs2274403、rs2289261、rs12946397、rs3218066、rs2278211、rs60174052、rs351771、rs1058425、rs357564、rs484389、rs4148437、rs2289790、rs4988351、rs3218068、rs2278208、rs860224、rs17166050、rs2272348、rs11568778、rs500760、rs9556466、rs3759825、rs4988344、rs2229139、rs2278206、rs820463、rs17166112、rs2301557、rs334354、rs657936、rs4150299、rs3759826、rs2070776、rs77592501、rs2230388、rs1254392、rs246395、rs2242480、rs2236599、rs586592、rs4150360、rs937724、rs35285779、rs6508806、rs75797287、rs4591267、rs3218760、rs2295454、rs2076244、rs10485805、rs41309367、rs1051296、rs5751738、rs3761426、rs2304189、rs1799782、rs2445837、rs6018257、rs41279262、rs1800900、rs1056892、rs12659、rs2070457、rs3747142、rs10411012、rs238417、rs2288528、rs722898、rs2425516、rs1800905、rs2836346、rs914231、rs5762749、rs2530664、rs2304234、rs3212955、rs157816、rs1569548、rs6030462、rs7121、rs2836359、rs2298434、rs1033667、rs1064498、rs2304232、rs11615、rs41275620、rs2076248、rs16998248、rs2297437、rs2836441、rs5760030、rs4820804、rs9610684、rs2239769、rs5758235、rs3818120、rs2294976、rs2076578和rs1135840。
本发明的第三方面提供一种判断疾病样本和正常样本是否配对的方法,包括以下步骤:
S21,获得待判断疾病样本和正常样本中相关位点的基因型,所述相关位点是利用本发明第一方面所述的筛选方法获得的,优选地,所述相关位点选自本发明第二方面所述的位点组合;
S22,利用公式(2-1)计算待判断疾病样本和正常样本的位点相似性,利用公式(2-2)计算待判断疾病样本和正常样本变异等位基因频率的差异:
Figure BDA0003827220690000061
Figure BDA0003827220690000062
其中,SS表示位点相似性,n表示待判断疾病样本中和正常样本中基因型一致位点数目,N表示所述相关位点的数目,Difference表示变异等位基因频率的差异,NAFi表示正常样本第i位点的变异等位基因频率,TAFi表示疾病样本第i位点的变异等位基因频率;
S23,判断样本是否配对:若疾病样本和正常样本中SS高于0.35且Difference低于0.25,则认为是配对样本,否则是非配对样本。
在本发明的一些实施方案中,所述疾病为肿瘤。所述正常样本又可称为配对样本。
在本发明的一些实施方案中,进一步包括利用conpair判断的步骤。
本发明第四方面提供一种判断样本数据是否存在污染的方法,包括以下步骤:
S31,利用公式(3-1)计算相关位点的变异系数,利用公式(3-2)计算相关位点的变异等位基因频率距离0.5的距离:
Figure BDA0003827220690000063
Figure BDA0003827220690000064
所述相关位点是利用本发明第一方面所述的筛选方法获得的,优选地,所述相关位点选自本发明第二方面所述的位点组合,
公式(3-1)中,CV表示相关位点的变异系数,σ表示所有相关位点的变异等位基因频率的标准差,μ表示所有相关位点的变异等位基因频率的平均值,
公式(3-2)中,het表示所述相关位点变异等位基因频率距离0.5的距离,AFi表示样本第i位点的变异等位基因频率,N表示所述相关位点的数目;
S32,利用公式(3-3)进行计算污染预测值:
perdict=coef*het+intercept (3-3)
其中,perdict是指污染预测值,coef是指相关系数,intercept是指截距,所述coeft和intercept是利用第二群体样本数据训练得到的,在训练时,将理论污染比作为perdict;
S33,判断样本是否存在污染:若样本predict低于0.15且CV值小于0.35,则可判断样本不存在污染,否则样本存在污染。
在本发明的一些实施方案中,所述第二群体的数量不低于5,例如5、7、9、10、12、15、20或更多。
在本发明的一些实施方案中,若待判断样本是配对样本,则在步骤S31之前,首先利用conpair判断样本是否存在污染。
本发明第五方面提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如本发明第一方面至第四方面任一所述方法的步骤。
本发明第六方面提供一种计算机可读存储介质,
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面至第四方面所述方法的步骤。
本发明的有益效果
相对于现有技术,本发明的有益效果如下:
利用本发明的位点,可能通过计算位点相似性和VAF差异来判断疾病样本和正常样本是否是配对样本,并可进一步通过计算变异系数和污染比例预测样本的污染情况。由此可获取所述簇的中心集合,由于只是将所述每个簇的中心集合的每一读长与参考基因序列对比,判断每个簇的基因组类别,因此,与现有技术相比,本发明提供的技术方案可进行污染和配对判断的代表性位点筛选;既实现了正常样本的配对情况,又实现了单疾病样本的污染判断,从而可以实现疾病-正常样本均受到污染时能够预测其污染情况的功能。
附图说明
图1示出了等位基因偏差分布情况。
图2示出了本发明实施例1中筛选位点的流程示意图。
图3示出了本发明实施例2判断样本是否配对的流程示意图。
图4示出了本发明实施例3判断样本是否存在污染的流程示意图。
具体实施方式
除非另有说明、从上下文暗示或属于现有技术的惯例,否则本申请中所有的份数和百分比都基于重量,且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下,本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考,且其等价的同族专利也引入作为参考,特别这些文献所披露的关于本领域中的合成技术、产物和加工设计、聚合物、共聚单体、引发剂或催化剂等的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致,则以本申请中提供的术语定义为准。
本申请中的数字范围是近似值,因此除非另有说明,否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值,条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。例如,如果记载组分、物理或其它性质(如分子量,熔体指数等)是100至1000,意味着明确列举了所有的单个数值,例如100,101,102等,以及所有的子范围,例如100到166,155到170,198到200等。对于包含小于1的数值或者包含大于1的分数(例如1.1,1.5等)的范围,则适当地将1个单位看作0.0001,0.001,0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围,通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例,并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。
术语“包含”,“包括”,“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在,且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问,除非明确说明,否则本申请中所有使用术语“包含”,“包括”,或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反,出来对操作性能所必要的那些,术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明,否则术语“或”指列出的单独成员或其任何组合。
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
实施例
以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
实施例1肿瘤污染判断位点筛选
等位基因偏差(Allele Balance,AB)指的是一个杂合位点上,参考碱基(REF)或突变碱基(ALT)的测序深度与该位点的总测序深度之间的比值。在测序过程中(二倍体),一个位点的等位基因(allele)总会被测到多次。对于杂合子来说,支持REF和ALT的读长(read)数理论上比例应该接近于1。由于测序错误、比对错误、嵌合,拷贝数事件等,这个值可能会出现一些偏差,但总体应该服从均值为0.5的正态分布(如图1所示)。
不同个体间往往有大量不同的基因型,相同位点间不同的突变会导致AB分布的变化。纯合位点引入不同的基因型会导致计算AB时将该位点按照杂合来统计,造成杂合位点的增多;杂合位点引入纯合突变会导致该位点AB值偏高。
由此,发明人设想可以通过样本的位点分布特性来区分污染的情况。
本实施例提供一种位点筛选的方法,具体地,详细包括以下步骤(如图2所示):
(1)获得SNP位点:从千人基因组计划下载人群VCF文件,并筛选出东亚人群的SNP位点(11266366个)生成VCF文件。
(2)HWE检测:将获得的SNP位点进行HWE检验,筛选出符合HWE检验的SNP位点(27889个)。
(3)利用144个样本测序数据从步骤(2)获得的SNP位点中筛选SNP位点:①在至少20%的样本中检出该SNP位点对应的突变型;②在具有该SNP位点对应的突变型的样本中,至少70%的样本其突变频率分布于0.4至0.6之间,保证大多数样本其突变型杂合突变且不同样本间突变频率差异不大。如此得到1471个SNP位点符合上述要求。
(4)进一步,剔除10000bp范围内出现3次以上的SNP位点,得到最终的666个SNP位点,如表1所示:
表1筛选得到的SNP位点
Figure BDA0003827220690000101
Figure BDA0003827220690000111
Figure BDA0003827220690000121
实施例2判断样本配对与否的方法
本实施提供判断样本是否配对的方法,如图3所示,详细步骤如下:
1.利用conpair软件判断样本配对与否
(1)获取包含实施例1筛选出的SNP位点的20对配对-肿瘤样本bam文件,20对样本主要来源肺癌,并使用Novaseq进行测序得到的测序数据,然后使用bwa软件把fastq序列进行比对生成bam文件。
(2)利用conpair软件判断配对样本的一致性,输入文件格式为bam格式。如果肿瘤和配对样本均未发生污染,其conpair一致性在90%以上;如果肿瘤样本发生污染,但是配对样本未发生污染,不会影响conpair判断样本配对与否;如果肿瘤样本发生污染,且随着污染比例的增加,conpair计算配对样本的一致性会逐渐降低,甚至在污染比例至20%以上时,conpair计算的一致性低至60%以下,与非配对样本计算出的一致性值混淆,无法判断其是否配对。
2.通过位点相似性和样本变异等位基因频率的差异来判断样本配对与否
使用GATK的HaplotypeCaller检出肿瘤-配对样本中实施例1筛选得到所有位点的基因型(gvcf),然后分别计算样本的位点相似性(Site Similar,SS)和样本变异等位基因频率(Variant Allele Frequency,VAF)的差异(Difference)。
(1)位点相似性计算
统计肿瘤和配对样本基因型一致的位点n以及检出的所有位点N:
Figure BDA0003827220690000131
(2)VAF的差异计算(不考虑基因型)
Figure BDA0003827220690000132
其中,NAFi代表配对样本第i位点的VAF,TAFi代表肿瘤样本第i位点的VAF。
结果如表2所示:
表2样本配对情况
Figure BDA0003827220690000133
Figure BDA0003827220690000141
Figure BDA0003827220690000151
Figure BDA0003827220690000161
上述结果显示,配对样本位点相似性最低值高于0.35,而非配对样本的位点相似性最高值低于0.35,也就是说,0.35可以作为位点相似性判断样本是否配对的阈值;Difference结果显示,配对样本(包括污染样本)位点Difference最低值低于0.25,而非配对样本的位点Difference最低值高于0.25,也就是说,0.25可以作为位点Differe nce判断样本是否配对的阈值。
综上,为了配对样本与否的判断更加敏感,可结合上述方法计算的conpair一致性和位点相似性与Difference来进行最终的判断。如果conpair一致性高于90%,则认为是配对样本,否则如果位点相似性高于0.35且Difference低于0.25则认为是配对样本,否则是非配对样本。
实施例3样本肿瘤污染的评估
本实施例提供样本肿瘤污染的评估判断方法,如图4所示。
利用实施例2的数据,抓取每个样本包含实施例1位点的序列重新生成fastq,设置污染比例从0.01到0.5,每2个样本之间根据污染比例挑选fastq序列生成污染样本。
例如:样本1的污染比例为0.01,污染来源于样本2,首先,统计样本1的fastq序列数,通过样本1的fastq序列数*污染比0.01则为需从样本2中提取的序列数目,把从样本2提取的序列数目随机替换到样本1的fastq序列中,就生成了污染样本。
1.变异系数计算:
变异系数(Coefficient of Variation,CV),又称“离散系数”,是概率分布离散程度的一个归一化量度,其定义为标准差σ与平均值μ之比:
Figure BDA0003827220690000171
其中标准差σ为所有位点的等位频率的标准差,平均值μ为所有位点的等位频率的平均值。
2.位点VAF距离0.5的距离(het):
Figure BDA0003827220690000172
其中,AFi代表样本第i位点的VAF。
使用6960个混样数据进行线性回归分析(80%训练,20%预测),对以下公式使用训练数据进行训练,然后使用预测数据进行预测和判断:
perdict=coef*het+intercept
其中,perdict是指污染预测值,coef是指相关系数,intercept是指截距。
训练时,首先计算每个样本的位点杂合度het值,然后根据每个样本的理论污染比和het值拟合predict曲线,最终得到predict计算公式:predict=1.3976*het-0.0701。
如果是配对样本,首先使用conpair评估样本的污染比例,但是,conpair可准确预测1%以上污染。并且,如果肿瘤和配对样本均受到来自同一样本的污染,则无法判断样本是否污染。本实施例中,利用conpair评估污染情况的结果如表3所示:
表3conpair评估污染情况
Figure BDA0003827220690000173
Figure BDA0003827220690000181
然而,使用上述方法,无论样本配对与否,计算CV以及污染predict值可进一步判断样本是否存在污染,结果如表4所示:
表4利用CV和predict判断污染情况
Figure BDA0003827220690000191
Figure BDA0003827220690000201
如果predict值低于0.15且CV值小于0.35则可判断样本不存在污染,进一步地,为了样本污染判断更敏感,可结合conpair的预测结果,如果是配对样本,copair的污染比例大于1%则认为样本存在污染,其次,如果样本predict值低于0.15且CV值小于0.35则可判断样本不存在污染。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (10)

1.一种用于判断样本是否配对和/或是否存在污染的位点的筛选方法,其特征在于,包括以下步骤:
S11,获得待判断样本来源物种的突变位点数据;
S12,将步骤S1获得的突变位点进行哈代-温伯格定律检验,筛选出符合哈代-温伯格定律检验的突变位点;
S13,利用第一群体样本测序数据从步骤S2获得的突变位点中筛选出符合以下条件的位点:①在至少20%的样本中检出该突变位点对应的突变型;②在具有该突变位点对应的突变型的样本中,至少70%的样本其突变频率分布于0.4至0.6之间,
获得的全部突变位点即为用于判断样本数据是否存在污染的位点。
2.根据权利要求1所述的筛选方法,其特征在于,所述待判断样本来源物种是人。
3.根据权利要求1或2所述的筛选方法,其特征在于,所述第一群体样本的数量不低于100。
4.利用权利要求1所述的筛选方法得到的所述待判断样本来源物种为人的位点组合,其特征在于,所述突变位点为SNP位点。
5.一种判断疾病样本和正常样本是否配对的方法,其特征在于,包括以下步骤:
S21,获得待判断疾病样本和正常样本中相关位点的基因型,所述相关位点是利用权利要求1所述的筛选方法获得的;
S22,利用公式(2-1)计算待判断疾病样本和正常样本的位点相似性,利用公式(2-2)计算待判断疾病样本和正常样本变异等位基因频率的差异:
Figure FDA0003827220680000011
Figure FDA0003827220680000012
其中,SS表示位点相似性,n表示待判断疾病样本中和正常样本中基因型一致位点数目,N表示所述相关位点的数目,Difference表示变异等位基因频率的差异,NAFi表示正常样本第i位点的变异等位基因频率,TAFi表示疾病样本第i位点的变异等位基因频率;
S23,判断样本是否配对:若疾病样本和正常样本中SS高于0.35且Difference低于0.25,则认为是配对样本,否则是非配对样本。
6.根据权利要求5所述的判断疾病样本和正常样本是否配对的方法,其特征在于,进一步包括利用conpair判断的步骤。
7.一种判断样本数据是否存在污染的方法,其特征在于,包括以下步骤:
S31,利用公式(3-1)计算相关位点的变异系数,利用公式(3-2)计算相关位点的变异等位基因频率距离0.5的距离:
Figure FDA0003827220680000021
Figure FDA0003827220680000022
所述相关位点是利用权利要求1所述的筛选方法获得的,
公式(3-1)中,CV表示相关位点的变异系数,σ表示所有相关位点的变异等位基因频率的标准差,μ表示所有相关位点的变异等位基因频率的平均值,
公式(3-2)中,het表示所述相关位点变异等位基因频率距离0.5的距离,AFi表示样本第i位点的变异等位基因频率,N表示所述相关位点的数目;
S32,利用公式(3-3)进行计算污染预测值:
perdict=coef*het+intercept (3-3)
其中,perdict是指污染预测值,coef是指相关系数,intercept是指截距,所述coeft和intercept是利用第二群体样本数据训练得到的,在训练时,将理论污染比作为perdict;
S33,判断样本是否存在污染:若样本predict低于0.15且CV值小于0.35,则可判断样本不存在污染,否则样本存在污染。
8.根据权利要求7所述的判断样本数据是否存在污染的方法,若待判断样本是配对样本,则在步骤S31之前,首先利用conpair判断样本是否存在污染。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。
CN202211064680.4A 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其筛选方法和应用 Active CN115394357B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202310671710.6A CN116798512A (zh) 2022-09-01 2022-09-01 一种判断样本数据是否存在污染的方法、设备和介质
CN202211064680.4A CN115394357B (zh) 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN202310673464.8A CN116805510A (zh) 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211064680.4A CN115394357B (zh) 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其筛选方法和应用

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202310673464.8A Division CN116805510A (zh) 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其应用
CN202310671710.6A Division CN116798512A (zh) 2022-09-01 2022-09-01 一种判断样本数据是否存在污染的方法、设备和介质

Publications (2)

Publication Number Publication Date
CN115394357A true CN115394357A (zh) 2022-11-25
CN115394357B CN115394357B (zh) 2023-06-30

Family

ID=84125337

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202211064680.4A Active CN115394357B (zh) 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN202310673464.8A Pending CN116805510A (zh) 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其应用
CN202310671710.6A Pending CN116798512A (zh) 2022-09-01 2022-09-01 一种判断样本数据是否存在污染的方法、设备和介质

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202310673464.8A Pending CN116805510A (zh) 2022-09-01 2022-09-01 用于判断样本配对或污染的位点组合及其应用
CN202310671710.6A Pending CN116798512A (zh) 2022-09-01 2022-09-01 一种判断样本数据是否存在污染的方法、设备和介质

Country Status (1)

Country Link
CN (3) CN115394357B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116153400A (zh) * 2022-12-20 2023-05-23 深圳吉因加信息科技有限公司 一种用于检测同源污染的模型构建方法与装置
CN117253539A (zh) * 2023-11-20 2023-12-19 北京求臻医学检验实验室有限公司 基于胚系突变检测高通量测序中样本污染的方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115394357B (zh) * 2022-09-01 2023-06-30 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491666A (zh) * 2017-09-01 2017-12-19 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
CN107523563A (zh) * 2017-09-08 2017-12-29 杭州和壹基因科技有限公司 一种用于循环肿瘤dna分析的生物信息处理方法
CN110211630A (zh) * 2019-06-06 2019-09-06 广州金域医学检验中心有限公司 致病性单亲二倍体的筛查装置及存储介质和处理器
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN113564266A (zh) * 2021-09-24 2021-10-29 上海仁东医学检验所有限公司 Snp分型遗传标记组合、检测试剂盒及用途
CN114517223A (zh) * 2020-11-20 2022-05-20 福建和瑞基因科技有限公司 一种用于筛选snp位点的方法及其应用
CN114530198A (zh) * 2020-11-23 2022-05-24 福建和瑞基因科技有限公司 一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法
CN114694749A (zh) * 2022-03-01 2022-07-01 至本医疗科技(上海)有限公司 基因数据处理方法、装置、计算机设备和存储介质
CN114913919A (zh) * 2022-03-16 2022-08-16 右江民族医学院附属医院 一种单基因病遗传变异智能解读及报告的方法、系统及服务器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009094592A2 (en) * 2008-01-23 2009-07-30 Perlegen Sciences, Inc. Genetic basis of alzheimer's disease and diagnosis and treatment thereof
WO2009134774A1 (en) * 2008-04-28 2009-11-05 Expression Analysis Methods and systems for simultaneous allelic contrast and copy number association in genome-wide association studies
AU2015249846B2 (en) * 2014-04-21 2021-07-22 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
AU2017209330B2 (en) * 2016-01-22 2023-05-04 Grail, Llc Variant based disease diagnostics and tracking
US20180373832A1 (en) * 2017-06-27 2018-12-27 Grail, Inc. Detecting cross-contamination in sequencing data
CN110444255B (zh) * 2019-08-30 2023-06-13 深圳裕策生物科技有限公司 基于二代测序的生物信息质控方法、装置和存储介质
WO2022027212A1 (zh) * 2020-08-04 2022-02-10 广州金域医学检验中心有限公司 基于NGS-trio的单亲二倍体检测方法及应用
CN115394357B (zh) * 2022-09-01 2023-06-30 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491666A (zh) * 2017-09-01 2017-12-19 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
CN107523563A (zh) * 2017-09-08 2017-12-29 杭州和壹基因科技有限公司 一种用于循环肿瘤dna分析的生物信息处理方法
CN110211630A (zh) * 2019-06-06 2019-09-06 广州金域医学检验中心有限公司 致病性单亲二倍体的筛查装置及存储介质和处理器
CN114517223A (zh) * 2020-11-20 2022-05-20 福建和瑞基因科技有限公司 一种用于筛选snp位点的方法及其应用
CN114530198A (zh) * 2020-11-23 2022-05-24 福建和瑞基因科技有限公司 一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN113564266A (zh) * 2021-09-24 2021-10-29 上海仁东医学检验所有限公司 Snp分型遗传标记组合、检测试剂盒及用途
CN114694749A (zh) * 2022-03-01 2022-07-01 至本医疗科技(上海)有限公司 基因数据处理方法、装置、计算机设备和存储介质
CN114913919A (zh) * 2022-03-16 2022-08-16 右江民族医学院附属医院 一种单基因病遗传变异智能解读及报告的方法、系统及服务器

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANDREAS RECKE等: "Hardy-Weinberg equilibrium revisited for inferences on genotypes featuring allele and copy-number variations", 《SCIENTIFIC REPORTS》, pages 1 - 9 *
BOWANG CHEN等: "Departure from Hardy Weinberg Equilibrium and Genotyping Error", 《FRONTIERS IN GENETICS》, pages 1 - 6 *
HELMUT FINNER等: "How to link call rate and p-values for Hardy–Weinberg equilibrium as measures of genome-wide SNP data quality", 《STATISTICS IN MEDICINE》, pages 2347 - 2358 *
J GRAFFELMAN等: "Testing for Hardy–Weinberg equilibrium at biallelic genetic markers on the X chromosome", 《HEREDITY》, pages 558 - 568 *
颜文锦: "京海黄鸡Myostatin基因单核苷酸多态性与相关性状的关系研究", 《中国优秀硕士学位论文全文数据库农业科技辑》, pages 050 - 242 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116153400A (zh) * 2022-12-20 2023-05-23 深圳吉因加信息科技有限公司 一种用于检测同源污染的模型构建方法与装置
CN116153400B (zh) * 2022-12-20 2023-11-21 深圳吉因加信息科技有限公司 一种用于检测同源污染的模型构建方法与装置
CN117253539A (zh) * 2023-11-20 2023-12-19 北京求臻医学检验实验室有限公司 基于胚系突变检测高通量测序中样本污染的方法和系统
CN117253539B (zh) * 2023-11-20 2024-02-06 北京求臻医学检验实验室有限公司 基于胚系突变检测高通量测序中样本污染的方法和系统

Also Published As

Publication number Publication date
CN115394357B (zh) 2023-06-30
CN116798512A (zh) 2023-09-22
CN116805510A (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN115394357A (zh) 用于判断样本配对或污染的位点组合及其筛选方法和应用
Chatterjee et al. Developing and evaluating polygenic risk prediction models for stratified disease prevention
Perry et al. Application of a genetic risk score to racially diverse type 1 diabetes populations demonstrates the need for diversity in risk-modeling
Goodrich et al. Determinants of penetrance and variable expressivity in monogenic metabolic conditions across 77,184 exomes
King et al. A novel method for detecting uniparental disomy from trio genotypes identifies a significant excess in children with developmental disorders
CN111304303B (zh) 微卫星不稳定的预测方法及其应用
CN109074426B (zh) 用于检测异常核型的方法和系统
Vangenechten et al. A comparative analysis of different automated von Willebrand factor glycoprotein Ib‐binding activity assays in well typed von Willebrand disease patients
CN113450871B (zh) 基于低深度测序的鉴定样本同一性的方法
MacDonald et al. SMA carrier testing: a meta‐analysis of differences in test performance by ethnic group
Weedon et al. Very rare pathogenic genetic variants detected by SNP-chips are usually false positives: implications for direct-to-consumer genetic testing
KR101795662B1 (ko) 대사 이상 질환 진단 장치 및 그 방법
Demidov et al. ClinCNV: novel method for allele-specific somatic copy-number alterations detection
Weedon et al. Assessing the analytical validity of SNP-chips for detecting very rare pathogenic variants: implications for direct-to-consumer genetic testing
Fardo et al. Recovering unused information in genome-wide association studies: the benefit of analyzing SNPs out of Hardy–Weinberg equilibrium
Panoutsopoulou et al. Quality control of common and rare variants
Chen et al. Comprehensive assessment of somatic copy number variation calling using next-generation sequencing data
WO2003074739A2 (en) Automated allele determination using fluorometric genotyping
CN116312779A (zh) 检测样本污染和识别样本错配的方法和装置
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
De Andrade et al. Evaluating the influence of quality control decisions and software algorithms on SNP calling for the affymetrix 6.0 SNP array platform
US20210057054A1 (en) Method for the harmonization of assay results
US20160265051A1 (en) Methods for Detection of Fetal Chromosomal Abnormality Using High Throughput Sequencing
KR20150137283A (ko) 생물학적 샘플 분석 시스템 및 방법
CN115662507B (zh) 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant