CN117219162B - 针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法 - Google Patents
针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法 Download PDFInfo
- Publication number
- CN117219162B CN117219162B CN202311173273.1A CN202311173273A CN117219162B CN 117219162 B CN117219162 B CN 117219162B CN 202311173273 A CN202311173273 A CN 202311173273A CN 117219162 B CN117219162 B CN 117219162B
- Authority
- CN
- China
- Prior art keywords
- tumor tissue
- genotype
- cell population
- allele
- proposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims abstract description 37
- 108091092878 Microsatellite Proteins 0.000 title description 60
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 210000004027 cell Anatomy 0.000 claims description 141
- 108700028369 Alleles Proteins 0.000 claims description 119
- 210000004881 tumor cell Anatomy 0.000 claims description 70
- 230000035772 mutation Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 239000012634 fragment Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 15
- 238000007476 Maximum Likelihood Methods 0.000 claims description 14
- 238000009827 uniform distribution Methods 0.000 claims description 12
- 230000015556 catabolic process Effects 0.000 claims description 10
- 238000006731 degradation reaction Methods 0.000 claims description 10
- 230000002068 genetic effect Effects 0.000 claims description 10
- 108090000623 proteins and genes Proteins 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000003205 genotyping method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000005251 capillar electrophoresis Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 4
- 238000007865 diluting Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000007490 hematoxylin and eosin (H&E) staining Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 abstract description 9
- 239000000523 sample Substances 0.000 description 29
- 108020004414 DNA Proteins 0.000 description 22
- 239000000463 material Substances 0.000 description 8
- 239000000047 product Substances 0.000 description 8
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 5
- 239000013074 reference sample Substances 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 4
- 230000001575 pathological effect Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- WZUVPPKBWHMQCE-UHFFFAOYSA-N Haematoxylin Chemical compound C12=CC(O)=C(O)C=C2CC2(O)C1C1=CC=C(O)C(O)=C1OC2 WZUVPPKBWHMQCE-UHFFFAOYSA-N 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- YQGOJNYOYNNSMM-UHFFFAOYSA-N eosin Chemical compound [Na+].OC(=O)C1=CC=CC=C1C1=C2C=C(Br)C(=O)C(Br)=C2OC2=C(Br)C(O)=C(Br)C=C21 YQGOJNYOYNNSMM-UHFFFAOYSA-N 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及法医物证学技术领域,具体公开了一种针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法。本发明建立了分析肿瘤组织这一混合物的gamma模型,并在模型中考虑STR变异的概率,以生物学模型和统计学原理为基础,通过设定和两个互斥假设命题,计算证据权重LR的置信区间,推断构成肿瘤组织混合物的所有可能的细胞群的基因型组合,并对这些可能的组合进行排序,达到肿瘤组织个人识别的目的。
Description
技术领域
本发明涉及法医物证学技术领域,更具体地说涉及针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法。
背景技术
在司法鉴定过程中,个人识别是法医物证的基本任务。通过鉴定物证检材的遗传标记,判断物证检材是否来源于一个参考个体。肿瘤组织常成为检材样本来源。例如在医疗纠纷中患者要求鉴定医院所提供的“患者肿瘤组织”是否来源于原告自身等。但肿瘤组织的个人识别问题一直是法医物证领域的难点。这是由于同一认定在DNA水平上展开,首先在肿瘤发生过程中,细胞基因组不断发生并积累变异。在肿瘤细胞中已经观察到常规使用的短串联重复序列(short tandem repeats,STR)遗传标记相较于正常细胞发生变化,表现为等位基因的缺失和增加。其次肿瘤组织是肿瘤细胞和正常细胞的混合物,不能将其视作单一来源DNA进行处理。这导致肿瘤组织样本的基因分型结果与来自同一个体的正常组织或血液样本不一致,对同一认定产生影响。此外,个人识别数据分析中使用的等位基因频率通常不考虑肿瘤等病理状态的影响。这些都对利用肿瘤组织样本进行个体识别带来了困难。
同时,肿瘤组织作为一种物证检材,属于法庭科学证据。为实现法治公平,在法庭诉讼中应评估和考虑肿瘤组织DNA证据的科学性和可靠性。需要通过科学的方法和原则量化DNA证据的效力,客观传达DNA证据的科学鉴定结论。量化证据效力的常用方法是计算似然比(likelihood ratio, LR)。LR是在两个互斥假设或命题下,衡量“DNA分型结果支持参考个体作为DNA混合物贡献者的程度”的指标。它通过比较在不同情况下观察到证据的可能性,客观评估证据的证明价值。似然比允许对证据进行标准化和定量化的评估,提高法庭证据的客观性和准确性,有助于实现司法公正。
目前的研究方案会将肿瘤组织中的肿瘤细胞和正常细胞视为具有一定“遗传关系”的独立个体。这种“遗传关系”预计比父母/子女及全同胞更密切,等于或略低于同卵双胞胎。基于这一假设,状态同源(identity by state,IBS)分析被应用于肿瘤组织的身源鉴定中。其具体步骤是针对肿瘤组织样本和参考样本的STR分型结果,对其共有等位基因座数和共有等位基因数进行计数,通过判别函数和阈值判断所鉴定的肿瘤组织是否来源于参考个体。
利用单核苷酸多态性(single nucleotide polymorphism,SNP)遗传标记的肿瘤组织身源鉴定研究中,仅观察到等位基因缺失这一现象。通过判断肿瘤组织样本中正常细胞的占比,以及仅发生等位基因缺失的肿瘤细胞基因型,可以推导出正常细胞占比与主要等位基因信号占比理论值之间的关系。并以此正常细胞占比为阈值条件,划分三个区间,判定此时肿瘤组织样本和参考样本分型是否一致,来进行肿瘤的身源鉴定。
现有的肿瘤组织身源鉴定研究方案还存在以下不足:
利用STR遗传标记的肿瘤组织身源鉴定方法,并未考虑肿瘤细胞STR变异的原因和模式。仅考虑与参考样本的共有等位基因、共有基因座计数,通过阈值设定的方式进行个人识别,仅能给出了“不能排除”的结论,不足以评估肿瘤组织样本在DNA分析过程中的证据强度。
利用SNP遗传标记的肿瘤组织身源鉴定方法,需要利用二代测序的技术,且存在重复实验的可能,成本昂贵,在一线公安并不普及,不能及时对肿瘤组织身源进行鉴定。并且只能给出定性的判定,无法给出定量的证据强度指标。
因此,本发明为肿瘤这一病理状态下的组织身源鉴定问题,提供量化的证据强度指标,具有非常重要的现实意义。
发明内容
为了克服上述现有技术中存在的缺陷和不足,本发明提供了一种针对肿瘤组织样本STR图谱进行身源鉴定的证据强度评估方法。本发明的发明目的在于针对肿瘤这一病理状态下的组织,实现其身源鉴定,并给出LR值。本发明建立了分析肿瘤组织这一混合物的gamma模型,并在模型中考虑STR变异的概率,以生物学模型和统计学原理为基础,通过设定 和 两个互斥假设命题,推断构成肿瘤组织混合物的所有可能的细胞群的基因型组合,计算证据权重LR,达到肿瘤组织个人识别的目的。
为了解决上述现有技术中存在的问题,本发明是通过下述技术方案实现的。
本发明提供了一种针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,包括以下步骤:
步骤S1、分别提取待测肿瘤组织样本的细胞DNA和可疑身源正常组织样本的细胞DNA,将提取到的DNA进行定量、稀释后,用毛细管电泳技术进行STR分型,获取基因座、等位基因和峰高;
步骤S2、显微镜下观察待测肿瘤组织样本蜡块HE染色切片,判断肿瘤细胞占比,正常细胞占比为,收集待测肿瘤组织样本的STR基因座变异率,作为先验参数;
步骤S3、根据待测肿瘤组织样本的STR图谱数据,使用最大等位基因计数法,确定待测肿瘤组织样本中细胞群总数K,K≥2;
步骤S4、设置互斥假设命题、,其中假设命题为肿瘤组织由一个已知个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;假设命题为肿瘤组织由一个随机无关个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
步骤S5、根据细胞群总数K,每个基因座均生成候选基因型组合的集合;
步骤S6、每个基因座上,针对每种基因型组合,利用gamma模型计算出现该峰高组合的概率;利用变异率模型计算给定假设命题/下,出现该基因型组合的概率;
步骤S7、联合所有基因座,写出给定假设命题和对应参数下LR的似然函数;
步骤S8、求取假设命题和假设命题下的似然值最大时对应的参数取值以及最大似然值,计算LR;
步骤S9、固定假设命题下优化寻参结果,计算每个基因座上包含参考图谱基因型的基因型组合的后验概率,并排序;
步骤S10、在[±10%]的范围内均匀取21个点作为先验参数;重复S6-S9步骤,分别计算在不同下的LR值以及基因型组合的后验概率,并进行排序;
步骤S11、设立以下两种互斥假设命题,重复S6-S10步骤,分别计算在不同下的LR值;
:肿瘤组织由一个已知个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
:肿瘤组织由已知个体的亲子对的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
:肿瘤组织由一个已知个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
:肿瘤组织由已知个体的全同胞对的正常细胞群及其突变而来的K-1个肿瘤细胞群组成。
进一步优选的,S5步骤中,根据细胞群总数,每个基因座均生成候选基因型组合的集合,具体包括以下步骤:
步骤S501、读取该基因座上的等位基因集合,表示等位基因集合中第个等位基因;该集合与可能丢失的等位基因集合{Q}取并集,得到集合;
步骤S502、以集合内元素以有放回抽样的方式生成指定长度为2的组合,组合内元素可重复;即生成基因型集合;
步骤S503、读取细胞群总数K,生成基因型集合自身的笛卡尔积,元素可以重复出现的最大次数与细胞群总数K相同;即生成基因型组合集合;
步骤S504、对基因型组合集合内的每个基因型组合进行以下判定:若等位基因集合中的每个元素都能在基因型组合中找到,则该保留,否则删去;基因型组合中除去第一个元素,其余每个元素只能包含一个Q元素,否则删去;最终得到有序的候选基因型组合集合。
进一步优选的,S6步骤中,任一常染色体基因座上,来自某一细胞群k的等位基因的峰高y m,a,k 服从(α,β)的gamma分布,参数α,β由峰高期望和峰高变异系数计算得到:
;
且来自不同细胞群的等位基因服从的gamma分布具有可加性,则有:
;
其中:为第k个细胞群所占的比例;为第k个细胞群等位基因的数目;表示概率密度函数;y m,a表示不同细胞群的等位基因的峰高。
更进一步优选地,来自某一细胞群k的等位基因的峰高y m,a,k 与等位基因的片段长度呈对数线性相关,则有:
其中,为该肿瘤组织样本的STR图谱所有的基因座在人群中片段长度最小的等位基因长度,为降解参数。
更进一步优选的,当基因型组合正常细胞群基因型分型包含元素Q,则有该元素代表的等位基因丢失概率为:
;
;
其中,AT为STR图谱的分析阈值;y m,Q为不同细胞群的等位基因Q的峰高;为等位基因Q的片段长度,其数值为基因座上最长的等位基因对应的片段长度;n Q,k为第k个细胞群等位基因Q的数目;为分布函数;为降解参数。
更进一步优选的,S6步骤中,任一常染色体基因座上,在给定假设命题H和变异率 条件下,观察到基因型组合的概率为:
;
其中,;
为正常细胞群的基因型;为在给定假设命题H和给定变异率条件下,正常细胞群基因型概率;
杂合子基因型概率为两个等位基因频率的乘积乘2;纯合子基因型概率为该等位基因频率的平方;若基因型中存在可能丢失的等位基因Q,则该等位基因频率为1-该基因座上的等位基因频率之和;
为肿瘤细胞群的基因型向量;
为第k个肿瘤细胞群的等位基因向量;
为在给定假设命题H和给定变异率条件下,观察到第k个肿瘤细胞群基因型的条件概率;
表示特定基因座上的肿瘤细胞群基因型条件概率的乘积;
为在给定假设命题H和给定变异率条件下,肿瘤细胞来源等位基因的概率。
进一步优选的,S7步骤中,联合所有基因座,则有在给定假设命题H和给定参数条件下,观察到STR图谱的概率为:
;
其中,,为正常细胞群DNA模板所占比例;为所有常染色体基因座STR变异发生率的向量;为待估参数向量;为K-1个肿瘤细胞群DNA模板量所占比例的向量,服从(K-1,1-)的狄利克雷分布;为降解参数,具体为等位基因峰高随着片段大小增大而下降的程度参数,服从(0,1)的均匀分布;为峰高期望,具体为=1时,杂合子中单个等位基因对应的峰高期望参数;服从[0,20000]的均匀分布;为峰高变异系数,具体为=1时,杂合子中单个等位基因对应的峰高变异系数参数;服从[0,1]的均匀分布;在给定参数和给定基因型组合的条件下,观察到基因座上等位基因的峰高的条件概率;为基因座总数。
进一步优选的,S7步骤中,似然值LR为:
;
其中,;
为方便寻参同时取对数,则有:
;
;
其中,为常染色体基因座的数目;为所观察到肿瘤组织样本的STR分型图谱;
表示在假设命题和给定参数条件下,观察到该STR分型图谱的条件概率;
表示在假设命题和给定参数条件下,观察到该STR分型图谱的条件概率;
表示在假设命题和给定参数条件下,观察到第i个基因座峰高的条件概率;
表示在假设命题和给定参数条件下,观察到第i个基因座峰高的条件概率。
更进一步优选的,S8步骤中,分别对假设命题和假设命题下的未知参数进行最大似然估计,并求取最大似然值,计算公式为:
;
其中,表示在假设命题和给定STR图谱条件下,参数的似然
函数;表示在假设命题和给定STR图谱条件下,参数的似然函数;
当LR>1或log10LR大于0时,支持假设命题,即支持肿瘤组织由一个已知个体
的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织来源于参考个体;
当LR<1或log10LR小于0时,支持假设命题,即支持肿瘤组织由一个随机无关
个体的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织不来源于参考个体。
进一步优选的,S9步骤中,固定假设命题下优化寻参结果,计算每个
常染色体基因座上包含参考图谱基因型的基因型组合的后验概率,然后进行排序,计
算公式为:
;
其中,表示经过最大似然估计后的参数值。
进一步优选的,S11步骤中,在假设命题下涉及亲缘关系时,在给定假设命题和参数条件下,观察到STR图谱的概率为:
;
其中,为不同亲缘关系下,调整基因型概率的向量;时,; 时,。
当LR>1或log10LR大于0时,支持假设命题,即支持肿瘤组织由一个已知个体
的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织来源于参考个体;
当LR<1或log10LR小于0时,支持假设命题,即支持肿瘤组织由已知个体的亲
子对或全同胞对的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织不来源
于参考个体,而来源于其亲属。
与现有技术相比,本发明所带来的有益的技术效果表现在:
1、 本发明将肿瘤组织视作肿瘤细胞和正常细胞的混合,建立了分析肿瘤组织这
一混合物的gamma模型,将变异率作为先验参数,调整等位基因出现概率。解决了病理状
态组织的等位基因出现概率与正常群体中等位基因出现概率不同这一难题;
2、 本发明以生物学模型和统计学原理为基础,在LR的框架下,通过设定和两个互斥假设命题,并推断构成肿瘤组织混合物的所有可能的细胞群的基因型组合,
计算证据权重,给出量化的证据强度指标,可以达到肿瘤组织个人识别的目的;
3、 本发明将正常细胞占比作为先验参数纳入模型算法。并在区间范围内取值,最后给出LR的置信区间,使得LR结果更加全面、可靠;
4、 本发明在假设命题下考虑亲缘关系的影响,精确区分与肿瘤组织的真实
贡献者有亲缘关系的个体;
5、 本发明提出的肿瘤组织身源推断方法具有普适性,可以针对任何STR试剂盒,针对任何类型的肿瘤进行LR计算,且无需针对肿瘤组织中正常细胞占比进行分类处理,简便快捷;
6、 本发明仍利用广泛使用的STR-CE平台技术,无需测序,技术路线便捷可操作,同时成本低,并可以快速获得鉴定结果,满足司法鉴定的即时需求。
附图说明
图1为本发明的一项实施例的分析方法流程图。
图2为某特定基因座处生成候选基因型组合的集合的方法流程图。
实施方式
以下是结合附图的以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例,其中所述特定细节将仅被视为示例性的,而不限制本发明的范围。因此,本领域普通技术人员可在不脱离本发明的范围和精神的情况下,对实施例进行各种改变和修改。
实施例1
作为本发明一较佳实施例,参照说明书附图1所示,本实施例公开了一种针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,包括以下步骤:
步骤S1、分别提取待测肿瘤组织样本的细胞DNA和可疑身源正常组织样本的细胞DNA,将提取到的DNA进行定量、稀释后,用毛细管电泳技术进行STR分型,获取基因座、等位基因和峰高;
步骤S2、显微镜下观察待测肿瘤组织样本蜡块HE染色切片,判断肿瘤细胞占比,正常细胞占比为,收集待测肿瘤组织样本的STR基因座变异率,作
为先验参数;
步骤S3、根据待测肿瘤组织样本的STR图谱数据,使用最大等位基因计数法,确定待测肿瘤组织样本中细胞群总数K,K≥2;
步骤S4、设置互斥假设命题、,其中假设命题为肿瘤组织由一个已知
个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;假设命题为肿瘤组织由一
个随机无关个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
步骤S5、根据细胞群总数K,每个基因座均生成候选基因型组合的集合;
步骤S6、每个基因座上,针对每种基因型组合,利用gamma模型计算出现该峰高组
合的概率;利用变异率模型计算给定假设命题/下,出现该基因型组合的概率;
步骤S7、联合所有基因座,写出给定假设命题和对应参数下LR的似然函数;
步骤S8、求取假设命题和假设命题下的似然值最大时对应的参数取值以
及最大似然值,计算LR;
步骤S9、固定假设命题下优化寻参结果,计算每个基因座上包含参考图谱基
因型的基因型组合的后验概率,并排序;
步骤S10、在[±10%]的范围内均匀取21个点作为先验参数;重复S6-S9步骤,分别计算在不同下的LR值以及基因型组合的后验概率,并进行排序;
步骤S11、设立以下两种互斥假设命题,重复S6-S10步骤,分别计算在不同下的LR值;
:肿瘤组织由一个已知个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
:肿瘤组织由已知个体的亲子对的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
:肿瘤组织由一个已知个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
:肿瘤组织由已知个体的全同胞对的正常细胞群及其突变而来的K-1个肿瘤细胞群组成。
实施例2
作为本发明又一较佳实施例,本实施例是在上述实施例1的基础上,对本发明的技术方案做出的进一步详细的补充和阐述。参照说明书附图2所示,S5步骤中,根据细胞群总数,每个基因座均生成候选基因型组合的集合,具体包括以下步骤:
步骤S501、读取该基因座上的等位基因集合,表示等位基因集合中第个等位基因;该集合与可能丢失的等位基因集合{Q}取并集,得到集合;
步骤S502、以集合内元素以有放回抽样的方式生成指定长度为2的组合,组合内元素可重复;即生成基因型集合;
步骤S503、读取细胞群总数K,生成基因型集合自身的笛卡尔积,元素可以重复出现的最大次数与细胞群总数K相同;即生成基因型组合集合;
步骤S504、对基因型组合集合内的每个基因型组合进行以下判定:若
等位基因集合中的每个元素都能在基因型组合中找到,则该保留,否则删
去;基因型组合中除去第一个元素,其余每个元素只能包含一个Q元素,否则删去;最终
得到有序的候选基因型组合集合。
实施例3
作为本发明又一较佳实施例,本实施例是在上述实施例1或实施例2的基础上,对
本发明的技术方案做出的进一步详细地补充和阐述。在本实施例中,任一常染色体基因座上,来自某一细胞群k的等位基因的峰高y m,a,k 服从(α,β)的gamma分布,参数α,β由峰
高期望和峰高变异系数计算得到:
;
;
且来自不同细胞群的等位基因服从的gamma分布具有可加性,则有:
;
其中:为第k个细胞群所占的比例;为第k个细胞群等位基因的数
目;表示概率密度函数;y m,a表示不同细胞群的等位基因的峰高。
来自某一细胞群k的等位基因的峰高y m,a,k 与等位基因的片段长度呈
对数线性相关,则有:
;
其中,为该肿瘤组织样本的STR图谱所有的基因座在人群中片段长度最小的等位基因长度,为降解参数。
当基因型组合正常细胞群基因型分型包含元素Q,则有该元素代表的等位基
因丢失概率为:
;
其中,AT为STR图谱的分析阈值;y m,Q为不同细胞群的等位基因Q的峰高;为等位基因Q的片段长度,其数值为基因座上最长的等位基因对应的片段长度;n Q,k为第k个细胞群等位基因Q的数目;为分布函数;为降解参数。
任一常染色体基因座上,在给定假设命题H和变异率 条件下,观察到基因型组合的概率为:
;
其中,;为正常细胞群的基因型;为在给定假设命题H和给定变异率条件下,正常细胞群基因型概率。
杂合子基因型概率为两个等位基因频率的乘积乘2;纯合子基因型概率为该等位基因频率的平方;若基因型中存在可能丢失的等位基因Q,则该等位基因频率为1-该基因座上的等位基因频率之和;
为肿瘤细胞群的基因型向量;
为第k个肿瘤细胞群的等位基因向量;
为在给定假设命题H和给定变异率条件下,观察到第k个肿瘤细胞群基因型的条件概率;
表示特定基因座上的肿瘤细胞群基因型条件概率的乘积;
为在给定假设命题H和给定变异率条件下,肿瘤细胞来源等位
基因的概率。
实施例4
作为本发明又一较佳实施例,本实施例是在上述实施例1、实施例2或实施例3的基
础上,对本发明的技术方案做出的进一步详细的补充和阐述。在本实施例中,S7步骤中,联
合所有基因座,则有在给定假设命题H和给定参数条件下,观察到STR图谱的概率为:
;
其中,,为正常细胞群DNA模板所占比
例;为所有常染色体基因座STR变异发生率的向量;为待估参数向量;为K-1个肿瘤细胞
群DNA模板量所占比例的向量,服从(K-1,1-)的狄利克雷分布;为降解参数,具体
为等位基因峰高随着片段大小增大而下降的程度参数,服从(0,1)的均匀分布;为峰高期
望,具体为=1时,杂合子中单个等位基因对应的峰高期望参数;服从[0,20000]的均匀分
布;为峰高变异系数,具体为=1时,杂合子中单个等位基因对应的峰高变异系数参数;
服从[0,1]的均匀分布;在给定参数和给定基因型
组合的条件下,观察到基因座上等位基因的峰高的条件概率;为基因座总
数。
似然值LR为:
;
其中,;
为方便寻参同时取对数,则有:
;
;
其中,为常染色体基因座的数目;为所观察到肿瘤组织样本的STR分型图谱;
表示在假设命题和给定参数条件下,观察到该STR分型图谱的条件概率;
表示在假设命题和给定参数条件下,观察到该STR分型图谱的条件概率;
表示在假设命题和给定参数条件下,观察到第i个基因座峰高的条件概率;
表示在假设命题和给定参数条件下,观察到第i个基因座峰高的条件概率。
S8步骤中,分别对假设命题和假设命题下的未知参数进行最大似然估计,并求取最大似然值,计算公式为:
;
其中,表示在假设命题和给定STR图谱条件下,参数的似然函数;表示在假设命题和给定STR图谱条件下,参数的似然函数;
当LR>1或log10LR大于0时,支持假设命题,即支持肿瘤组织由一个已知个体的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织来源于参考个体;
当LR<1或log10LR小于0时,支持假设命题,即支持肿瘤组织由一个随机无关个体的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织不来源于参考个体。
S9步骤中,固定假设命题下优化寻参结果,计算每个常染色体基因座上包含参考图谱基因型的基因型组合的后验概率,然后进行排序,计算公式为:
;
其中,表示经过最大似然估计后的参数值。
S11步骤中,在假设命题下涉及亲缘关系时,在给定假设命题和参数条件下,观察到STR图谱的概率为:
;时,; 时,;
当LR>1或log10LR大于0时,支持假设命题,即支持肿瘤组织由一个已知个体的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织来源于参考个体;
当LR<1或log10LR小于0时,支持假设命题,即支持肿瘤组织由已知个体的亲子对或全同胞对的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织不来源于参考个体,而来源于其亲属。
实施例5
作为本发明又一较佳实施例,本实施例提供了一种针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法:一位结直肠肿瘤患者在术后诉医院对其肿瘤组织蜡块管理不当,导致调错误诊,要求鉴定存档的肿瘤组织蜡块是否来源于患者自身,包括以下步骤:
以肿瘤组织样本蜡块5-8张10μm切片为肿瘤组织样本,以癌症患者外周血0.2ml为参考样本,使用QIAamp® DNA Mini提取试剂盒提取两种样本的DNA;经过定量稀释,使用GlobalFiler™ PCR扩增试剂盒进行STR靶向扩增;利用毛细管电泳平台3500基因分析仪,及其配套分析软件GeneMapper ID-X 1.5进行STR分型,分析阈值AT=175RFU。获取肿瘤组织样本基因座、等位基因、峰高信息,获取参考样本基因座、等位基因信息。
利用肿瘤组织样本蜡块制作苏木精伊红(hematoxylin-eosin staining,HE)染色
切片,切片置于显微镜下观察,由病理学专家按相关操作指南进行肿瘤细胞占比(Mx)估计,
为60%,则正常细胞占比为40%;通过文献回顾,获取结直肠癌样本STR相关位点的变异率(),肿瘤组织样本、参考样本各常染色体基因座位点详细信息如表1所示。
表1 一例结直肠癌肿瘤组织样本的STR图谱信息
。
根据肿瘤组织STR图谱信息,基因座D1S1656上具有最多的等位基因数为3,按照最大等位基因计数法,确定细胞群总数K为2;
设置互斥假设命题和以计算LR:
:肿瘤组织由一个已知个体的正常细胞群及其突变而来的1个肿瘤细胞群组成;
:肿瘤组织由一个随机无关个体的正常细胞群及其突变而来的1个肿瘤细胞群组成;
根据STR图谱各个基因座的等位基因集合,生成各个基因座的基因型组合的集合;以常染色体基因座D3S1358为例:
在该基因座处生成候选基因型组合的集合具体包括以下步骤:
读取该基因座上的等位基因集合,该集合与可能丢失的等位基因集
合取并集,得到集合;
以集合内元素以有放回抽样的方式生成指定长度为2的组合,组合内元素可重
复。即生成基因型集合;
读取细胞群总数2,生成基因型集合自身的笛卡尔积,元素可以重复出现的
次数为2。即生成基因型组合集合;
对基因型组合集合内的每个基因型组合进行以下判定:若等位基因
集合中的每个元素都能在基因型组合中找到,则该保留,否则删去;每个基
因型组合中除去第一个元素,其余每个元素只能包含一个Q,否则删去。最终得到有序
的候选基因型组合集合。
以基因座D3S1358,基因型组合集合中基因型组合
为例:
来自正常细胞群的基因型为16,16;同时,来自肿瘤细胞群的基因型为16,16;则等位基因16的峰高y 16服从(α,β)的gamma分布,且其峰高与等位基因16的片段长度S 16呈对数线性相关,则有:
;
该位点的变异率为0.093,则在给定假设命题和变异率条件下,观察到基
因型组合的概率为:
;
;
则有:
;
。
以基因座D3S1358,基因型组合集合中基因型组合为例:
来自正常细胞群的基因型为16,Q; 同时,来自肿瘤细胞群的基因型为16,Q;则等位基因16的峰高y 16服从(α,β)的gamma分布,且其峰高与等位基因16的片段长度S 16呈对数线性相关,则有:
;
基因型组合正常细胞群基因型分型包含元素Q,则有该元素代表的等位基因丢失概率为:
;
该位点的变异率为0.093,则在给定假设命题H和变异率条件下,观察到基因
型组合的概率为:
;
;
则有:
;
。
根据STR图谱各个基因座的等位基因集合,生成各个基因座的基因型组合的集合;以常染色体基因座vWA为例:
在该基因座处生成候选基因型组合的集合具体包括以下步骤:
读取该基因座上的等位基因集合,该集合与可能丢失的等位基因集
合取并集,得到集合;
以集合内元素以有放回抽样的方式生成指定长度为2的组合,组合内元素可重复,即生成基因型集合。
读取细胞群总数2,生成基因型集合自身的笛卡尔积,元素可以重复出现的次数为2。即生成基因型组合集合;
对基因型组合集合内的每个基因型组合进行以下判定:若等位基因集
合中的每个元素都能在基因型组合中找到,则该保留,否则删去;每个基因
型组合中除去第一个元素,其余每个元素只能包含一个Q,否则删去,最终得到有序的
候选基因型组合集合 。
以基因座vWA,基因型组合集合中基因型组合= (QQ;18/19)为例:
来自正常细胞群的基因型为Q,Q;同时,来自肿瘤细胞群的基因型为18,19;则等位基因18、19的峰高y 18 、y 19分别服从(α,β)的gamma分布,且其峰高与等位基因18、19的片段长度S 18 、S 19呈对数线性相关,则有:
;
;
基因型组合正常细胞群基因型分型包含元素Q,则有该元素代表的等位基因丢失概率为:
。
该位点的变异率为0.1667,则在给定假设命题和变异率 条件下,观察
到基因型组合的概率为:
;
;
则有:
;
。
根据STR图谱各个基因座的等位基因集合,生成各个基因座的基因型组合的集合;以常染色体基因座D1S1656为例:
在该基因座处生成候选基因型组合的集合具体包括以下步骤:
读取该基因座上的等位基因集合,该集合与可能丢失的等位
基因集合取并集,得到集合;
以集合内元素以有放回抽样的方式生成指定长度为2的组合,组合内元素可重复,生成基因型集合为:;
读取细胞群总数2,生成基因型集合自身的笛卡尔积,元素可以重复出现的次
数为2,即生成基因型组合集合为:。
对基因型组合集合内的每个基因型组合进行以下判定:若等位基因集
合中的每个元素都能在基因型组合中找到,则该保留,否则删去;每个基因型
组合中除去第一个元素,其余每个元素只能包含一个Q,否则删去;最终得到有序的候
选基因型组合集合。
以基因座D1S1656,基因型组合集合中基因型组合= (15/15;17/18)为
例:
来自正常细胞群的基因型为15,15;同时,来自肿瘤细胞群的基因型为17,18;则等位基因15、17、18的峰高y 15 、y 17 、y 18分别服从(α,β)的gamma分布,且其峰高与等位基因15、17、18的片段长度S 15 、S 17 、S 18呈对数线性相关,则有:
;
;
;
该位点的变异率为0.1685,则在给定假设命题H和变异率条件下,观察到基因
型组合的概率为:
;
;
则有:
;
。
联合STR图谱所有常染色体基因座,则有在假设命题H和给定参数条件下,观察
到STR图谱的概率为:
;
预设的样本参数的含义及其先验分布具体为:
K为细胞群总数,该值为固定值,K=2。
为正常细胞群DNA模板所占比例,该值为固定值,由病理学家显微镜下观察
评估得出为40%。
为所有常染色体基因座STR变异发生率的向量,从针对特定
肿瘤类型STR变异的频率调查研究中获得,如表1所示。为待估参数
向量;为K-1个肿瘤细胞群DNA模板量所占比例的向量,服从(K-1,
1-)的狄利克雷分布。此例中只涉及1个肿瘤细胞群,因此 = 0.6。为降解参
数,具体为等位基因峰高随着片段大小增大而下降的程度参数。服从(0,1)的均匀分布;
为峰高期望,具体为=1时,杂合子中单个等位基因对应的峰高期望参数;服从[0,20000]
的均匀分布;为峰高变异系数,具体为=1时,杂合子中单个等位基因对应的峰高变异
系数参数;服从[0,1]的均匀分布。
似然值LR计算公式为:
;
其中:;
为方便寻参同时取对数,则有:
;
;
其中,为常染色体基因座的数目;E为所观察到肿瘤组织样本的STR分型图谱;
表示在假设命题和给定参数条件下,观察到该STR分型图
谱的条件概率;
表示在假设命题和给定参数条件下,观察到该STR分型图
谱的条件概率;
表示在假设命题和给定参数条件下,观察到第i个基因
座峰高的条件概率;
表示在假设命题和给定参数条件下,观察到第i个基因座
峰高的条件概率。
对假设命题和假设命题下的未知参数进行最大似然估计,似然函数的计
算公式为:
:在假设命题和给定STR图谱条件下,参数的似然函数;
:在假设命题和给定STR图谱条件下,参数的似然函数;
使用变步长搜索算法进行寻参,具体包括以下步骤:
给定参数范围与精度阈值:∈(0-20000] ;∈(0-1];∈(0-1];精度阈值δ=
0.0001。
迭代计算:在参数空间范围内以步长λ均匀采点取值,得到参数值
矩阵,另令k=0,计算似然值,其中 所对应的参数为。在下次
迭代中,缩短步长λ,并在附近的参数空间范围内均匀采样取值,依次迭代更新;
迭代停止:若步长λ范数小于精度阈值δ,则停止迭代,输出结果为全局最优点。否
则 k=k+1,转至迭代计算步骤。使用变步长搜索算法进行寻参,计算结果为:,,,。则当=0.4
时,LR=2.6571E+26,log10LR=26.4244。
固定假设命题下优化寻参结果,计算每个常染色体基因座上包含参
考图谱基因型的基因型组合的后验概率,然后进行排序,计算公式为:
,其中,表示经过最大似然估计后的参数值。
在[±10%]的范围内均匀取21个点,重复上述步骤,分别计算在不同
下的LR值以及基因型组合的后验概率,并进行排序。计算结果如表2所示.在区
间范围内,log10LR均大于0,支持假设命题,即支持肿瘤组织由一个已知个体的正常细
胞群及其突变而来的1个肿瘤细胞群组成。认定肿瘤组织来源于参考个体。
表2 一例结直肠癌肿瘤组织样本的LR结果
。
设立以下两种互斥假设命题,重复上述步骤,分别计算在不同下的LR值:
:肿瘤组织由一个已知个体的正常细胞群及其突变而来的1个肿瘤细胞群组成;
:肿瘤组织由已知个体的亲子对的正常细胞群及其突变而来的1个肿瘤细胞群组成;
:肿瘤组织由一个已知个体的正常细胞群及其突变而来的1个肿瘤细胞群组成;
:肿瘤组织由已知个体的全同胞对的正常细胞群及其突变而来的1个肿瘤细胞群组成;
其中,在假设命题下涉及亲缘关系时,在给定假设命题和参数条件下,
观察到STR图谱的概率为:
;
其中:为不同亲缘关系下,调整基因型概率的向量。据文献报
道,时,;时,。计算结果如表3所示。
两种假设命题下,Log10LR均大于0,支持命题,即支持肿瘤组织由一个已知个体的正常
细胞群及其突变而来的1个肿瘤细胞群组成。认定肿瘤组织来源于参考个体,而非参考个体
的亲子对或全同胞对。
表3 在不同假设命题命题下,一例结直肠癌肿瘤组织样本的LR结果
。
尽管已经参照本发明的示例性实施例具体显示和描述了本发明构思,但是本领域的技术人员应该理解,在不脱离权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。
Claims (10)
1.针对肿瘤组织STR图谱进行身源鉴定的证据强度评估万法,其特征在于:包括以下步骤:
步骤S1、分别提取待测肿瘤组织样本的细胞DNA和可疑身源正常组织样本的细胞DNA,将提取到的DNA进行定量、稀释后,用毛细管电泳技术进行STR分型,获取基因座、等位基因和峰高;
步骤S2、显微镜下观察待测肿瘤组织样本蜡块HE染色切片,判断肿瘤细胞占比Mx,正常细胞占比为mx1=1-Mx,收集待测肿瘤组织样本的STR基因座变异率,作为先验参数;
步骤S3、根据待测肿瘤组织样本的STR图谱数据,使用最大等位基因计数法,确定待测肿瘤组织样本中细胞群总数K,K≥2;
步骤S4、设置互斥假设命题Hp、Hd,其中假设命题Hp为肿瘤组织由一个已知个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;假设命题Hd为肿瘤组织由一个随机无关个体的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
步骤S5、根据细胞群总数K,每个基因座均生成候选基因型组合的集合;
步骤S6、每个基因座上,针对每种基因型组合,利用gamma模型计算出现该峰高组合的概率;利用变异率模型计算给定假设命题Hp/Hd下,出现该基因型组合的概率,具体地,
任一常染色体基因座m上,在给定假设命题H和变异率条件下,观察到基因型组合gm的概率为:
其中,
gn为正常细胞群的基因型;P(gn|H)为在给定假设命题H和给定变异率条件下,正常细胞群基因型概率;
杂合子基因型概率为两个等位基因频率的乘积乘2;纯合子基因型概率为该等位基因频率的平方;若基因型中存在可能丢失的等位基因Q,则该等位基因频率为1-该基因座上的等位基因频率之和;
gt=(gt,1,...,gt,k)为肿瘤细胞群的基因型向量;
gt,k,a=(gt,k,a1,gt,k,a2)为第k个肿瘤细胞群的等位基因向量;
为在给定假设命题H和给定变异率条件下,观察到第k个肿瘤细胞群基因型的条件概率;
表示特定基因座m上的肿瘤细胞群基因型条件概率的乘积;
为在给定假设命题H和给定变异率条件下,肿瘤细胞来源等位基因a的概率;
步骤S7、联合所有基因座,写出给定假设命题和对应参数下LR的似然函数;
步骤S8、求取假设命题Hp和假设命题Hd下的似然值最大时对应的参数取值以及最大似然值,计算LR;
步骤S9、固定假设命题Hd下优化寻参结果,计算每个基因座上包含参考图谱基因型的基因型组合的后验概率,并排序;
步骤S10、在[mx1±10%]的范围内均匀取21个点作为先验参数;重复S6-S9步骤,分别计算在不同mx1下的LR值以及基因型组合的后验概率,并进行排序;
步骤S11、设立以下两种Hd假设命题,重复S6-S10步骤,分别计算在不同mx1下的LR值;
HdPO:肿瘤组织由已知个体的亲子对的正常细胞群及其突变而来的K-1个肿瘤细胞群组成;
HdFS:肿瘤组织由已知个体的全同胞对的正常细胞群及其突变而来的K-1个肿瘤细胞群组成。
2.如权利要求1所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:S5步骤中,根据细胞群总数,每个基因座均生成候选基因型组合的集合,具体包括以下步骤:
步骤S501、读取该基因座上的等位基因集合Am={a1,a2...ai},ai表示等位基因集合Am中第i个等位基因;该集合与可能丢失的等位基因集合{Q}取并集,得到集合Am′={a1,a2,...,ai,Q};
步骤S502、以集合Am′内元素以有放回抽样的方式生成指定长度为2的组合,即生成基因型集合Gm={a1a1,a1a2...QQ};
步骤S503、读取细胞群总数K,生成基因型集合Gm自身的笛卡尔积,元素重复出现的最大次数与细胞群总数K相同;即生成基因型组合集合
GCm={(a1a1,a1a1),...,(QQ,QQ)};
步骤S504、对基因型组合集合GCm内的每个基因型组合gm进行以下判定:若等位基因集合Am中的每个元素都能在基因型组合gm中找到,则该gm保留,否则删去;基因型组合gm中除去第一个元素,其余每个元素只能包含一个Q元素,否则删去;最终得到有序的候选基因型组合的集合GCm′。
3.如权利要求1或2所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:S6步骤中,任一常染色体基因座m上,来自某一细胞群k的等位基因a的峰高ym,a,k服从(α,β)的gamma分布,参数α,β由峰高期望μ和峰高变异系数ω计算得到:
β=μω2;
且来自不同细胞群的等位基因服从的gamma分布具有可加性,则有:
f(ym,a|α,β)=gamma(ym,a|ω-2∑k∈Kmxkna,k,μω2);
其中:mxk为第k个细胞群所占的比例;na,k为第k个细胞群等位基因a的数目;f(ym,a|α,β)表示概率密度函数;ym,a表示不同细胞群的等位基因a的峰高。
4.如权利要求3所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:来自某一细胞群k的等位基因a的峰高ym,a,k与等位基因a的片段长度Sm,a呈对数线性相关,则有:
其中,Smin为该肿瘤组织样本的STR图谱所有的基因座在人群中片段长度最小的等位基因长度,ε为降解参数。
5.如权利要求3所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:当基因型组合gm正常细胞群基因型分型包含元素Q,则有该元素代表的等位基因Q丢失概率为:
其中,AT为STR图谱的分析阈值;ym,Q为不同细胞群的等位基因Q的峰高;Sm,Q为等位基因Q的片段长度,其数值为基因座m上最长的等位基因对应的片段长度;nQ,k为第k个细胞群等位基因Q的数目;f(ym,Q<AT|α,β)为分布函数;ε为降解参数。
6.如权利要求1或2所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:S7步骤中,联合所有基因座,则有在给定假设命题H和给定参数θ条件下,观察到STR图谱的概率为:
其中,mx=(mx1,mx2,...,mxk),mx1为正常细胞群DNA模板所占比例;为所有常染色体基因座STR变异发生率的向量;θ=(Mxt,μ,ω,ε)为待估参数向量;Mxt=(mx2,...,mxk)为K-1个肿瘤细胞群DNA模板量所占比例的向量,服从(K-1,1-mx1)的狄利克雷分布;ε为降解参数,具体为等位基因峰高随着片段大小增大而下降的程度参数,服从(0,1)的均匀分布;μ为峰高期望,具体为ε=1时,杂合子中单个等位基因对应的峰高期望参数,μ服从[0,20000]的均匀分布;ω为峰高变异系数,具体为ε=1时,杂合子中单个等位基因对应的峰高变异系数参数,ω服从[0,1]的均匀分布;P(ym,a|gm,mx,μ,ω,ε)在给定参数mx,μ,ω,ε和给定基因型组合gm的条件下,观察到基因座m上等位基因a的峰高的条件概率;M为基因座总数。
7.如权利要求6所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:S7步骤中,似然值LR为:
其中,
同时取对数,则有:
其中,nm为常染色体基因座的数目;E为所观察到肿瘤组织样本的STR分型图谱;
P(E|Hp,θp)表示在假设命题Hp和给定参数θp条件下,观察到该STR分型图谱的条件概率;
P(E|Hd,θd)表示在假设命题Hd和给定参数θd条件下,观察到该STR分型图谱的条件概率;
P(yi|Hp,θp)表示在假设命题Hp和给定参数θp条件下,观察到第i个基因座峰高的条件概率;
P(yi|Hd,θd)表示在假设命题Hd和给定参数θd条件下,观察到第i个基因座峰高的条件概率。
8.如权利要求7所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:S8步骤中,分别对假设命题Hp和假设命题Hd下的未知参数θ进行最大似然估计,并求取最大似然值,计算公式为:
其中,L(θp|E,Hp)表示在假设命题Hp和给定STR图谱条件下,参数θp的似然函数;L(θd|E,Hd)表示在假设命题Hd和给定STR图谱条件下,参数θd的似然函数;
其中,LR>1或log10LR大于0时,支持假设命题Hp,即支持肿瘤组织由一个已知个体的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织来源于参考个体;
LR<1或log10LR小于0时,支持假设命题Hd,即支持肿瘤组织由一个随机无关个体的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织不来源于参考个体。
9.如权利要求1或2所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:S9步骤中,固定假设命题Hd下优化寻参结果maxθd,计算每个常染色体基因座上包含参考图谱基因型的基因型组合gm′的后验概率,然后进行排序,计算公式为:
maxθd表示经过最大似然估计后的参数θ值。
10.如权利要求1或2所述的针对肿瘤组织STR图谱进行身源鉴定的证据强度评估方法,其特征在于:S11步骤中,在假设命题Hd下涉及亲缘关系时,在给定假设命题Hd和参数θ条件下,观察到STR图谱的概率为:
其中,k=[k0,k1,k2]为不同亲缘关系下,调整基因型概率的向量;
HdPO时,k=[0,1,0];HdFS时,k=[1/4,1/2,1/4];
LR>1或log10LR大于0时,支持假设命题Hp,即支持肿瘤组织由一个已知个体的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织来源于参考个体;
LR<1或log10LR小于0时,支持假设命题Hd,即支持肿瘤组织由已知个体的亲子对或全同胞对的正常细胞群及其突变而来的1个肿瘤细胞群组成,认定肿瘤组织不来源于参考个体,而来源于其亲属。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311173273.1A CN117219162B (zh) | 2023-09-12 | 2023-09-12 | 针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311173273.1A CN117219162B (zh) | 2023-09-12 | 2023-09-12 | 针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117219162A CN117219162A (zh) | 2023-12-12 |
CN117219162B true CN117219162B (zh) | 2024-07-02 |
Family
ID=89040015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311173273.1A Active CN117219162B (zh) | 2023-09-12 | 2023-09-12 | 针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117219162B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101921851A (zh) * | 2010-08-13 | 2010-12-22 | 司法部司法鉴定科学技术研究所 | 一种基于Identifiler系统的肿瘤组织身源的认定方法 |
CN112236535A (zh) * | 2018-04-14 | 2021-01-15 | 纳特拉公司 | 用于借助于循环肿瘤dna的个人化检测的癌症检测和监测的方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8898021B2 (en) * | 2001-02-02 | 2014-11-25 | Mark W. Perlin | Method and system for DNA mixture analysis |
US20080108057A1 (en) * | 2004-06-22 | 2008-05-08 | Griffith Jeffrey K | Allelic imbalance in the diagnosis and prognosis of cancer |
US20090270264A1 (en) * | 2008-04-09 | 2009-10-29 | United States Army As Represenfed By The Secretary Of The Army, On Behalf Of Usacidc | System and method for the deconvolution of mixed dna profiles using a proportionately shared allele approach |
AU2012272910A1 (en) * | 2011-06-22 | 2014-02-06 | Vor Data Systems, Inc. | Systems and methods for identifying a contributor's STR genotype based on a DNA sample having multiple contributors |
EP3766986B1 (en) * | 2014-12-31 | 2022-06-01 | Guardant Health, Inc. | Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results |
US11929145B2 (en) * | 2017-01-20 | 2024-03-12 | Sequenom, Inc | Methods for non-invasive assessment of genetic alterations |
CN109273046B (zh) * | 2018-10-19 | 2022-04-22 | 江苏东南证据科学研究院有限公司 | 一种基于概率统计模型的生物学全同胞鉴定方法 |
CN115428087A (zh) * | 2020-01-31 | 2022-12-02 | 夸登特健康公司 | 克隆水平缺乏靶变体的显著性建模 |
EP4315340A1 (en) * | 2021-03-26 | 2024-02-07 | Genome International Corporation | A precision medicine portal for human diseases |
WO2023011723A1 (en) * | 2021-08-05 | 2023-02-09 | Genome Research Limited | Identification of somatic variants |
CN114373507B (zh) * | 2022-01-27 | 2022-07-05 | 中国科学院北京基因组研究所(国家生物信息中心) | 一种混合dna图谱的分析方法 |
CN116515991A (zh) * | 2023-05-30 | 2023-08-01 | 复旦大学附属妇产科医院 | 一种基于多组织来源的str分型分析个体嵌合发生的鉴定方法及其应用 |
-
2023
- 2023-09-12 CN CN202311173273.1A patent/CN117219162B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101921851A (zh) * | 2010-08-13 | 2010-12-22 | 司法部司法鉴定科学技术研究所 | 一种基于Identifiler系统的肿瘤组织身源的认定方法 |
CN112236535A (zh) * | 2018-04-14 | 2021-01-15 | 纳特拉公司 | 用于借助于循环肿瘤dna的个人化检测的癌症检测和监测的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117219162A (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lähnemann et al. | Eleven grand challenges in single-cell data science | |
CN108292326B (zh) | 用于识别功能性患者特异性体细胞畸变的整合方法和系统 | |
CN103201744B (zh) | 用于估算全基因组拷贝数变异的方法 | |
CN109949861B (zh) | 肿瘤突变负荷检测方法、装置和存储介质 | |
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
CN108920899B (zh) | 一种基于目标区域测序的单个外显子拷贝数变异预测方法 | |
CN112750502B (zh) | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN110808081B (zh) | 一种鉴定肿瘤纯度样本的模型构建方法及应用 | |
US20130030713A1 (en) | Methods of associating an unkown biological specimen with a family | |
CN111755068B (zh) | 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置 | |
CN113373236B (zh) | 一种获得中国人群个体年龄的方法 | |
CN113517073B (zh) | 肺癌手术后生存率预测模型构建方法和预测模型系统 | |
CN113096728B (zh) | 一种微小残余病灶的检测方法、装置、存储介质及设备 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN110714078A (zh) | 一种用于ii期结直肠癌复发预测的标记基因及应用 | |
Demidov et al. | ClinCNV: novel method for allele-specific somatic copy-number alterations detection | |
CN115035950A (zh) | 基因型检测方法、样本污染检测方法、装置、设备及介质 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN109712671B (zh) | 基于ctDNA的基因检测装置、存储介质及计算机系统 | |
CN107451422A (zh) | 一种基因序列数据分析与在线交互可视化的方法 | |
CN117219162B (zh) | 针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法 | |
CN117106870B (zh) | 胎儿浓度的确定方法及装置 | |
Chauhan et al. | Exploring genetic-histologic relationships in breast cancer | |
CN114627963B (zh) | 蛋白数据填充方法、系统、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |