CN117423382A - 一种基于SNP多态性的单细胞barcode身份识别方法 - Google Patents

一种基于SNP多态性的单细胞barcode身份识别方法 Download PDF

Info

Publication number
CN117423382A
CN117423382A CN202311367366.8A CN202311367366A CN117423382A CN 117423382 A CN117423382 A CN 117423382A CN 202311367366 A CN202311367366 A CN 202311367366A CN 117423382 A CN117423382 A CN 117423382A
Authority
CN
China
Prior art keywords
snp
genotype
cell
loci
identity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311367366.8A
Other languages
English (en)
Other versions
CN117423382B (zh
Inventor
吴声鹏
杨文哲
李强
黄海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunzhun Pharmaceutical Technology Guangzhou Co ltd
Original Assignee
Yunzhun Pharmaceutical Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunzhun Pharmaceutical Technology Guangzhou Co ltd filed Critical Yunzhun Pharmaceutical Technology Guangzhou Co ltd
Priority to CN202311367366.8A priority Critical patent/CN117423382B/zh
Publication of CN117423382A publication Critical patent/CN117423382A/zh
Application granted granted Critical
Publication of CN117423382B publication Critical patent/CN117423382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及单细胞的混样拆分技术领域,公开了一种基于SNP多态性的单细胞barcode身份识别方法,使用人类的SNP变异位点数据库进行位点的确定进行验证和识别,在本申请中,SNP能很好的在减少实验环节方面的干扰,通过不同人的SNP位点直接在fastq层面识别差异,最终通过位点的差异权重进行身份的识别,很好的降低了人为的干扰,提高多样本的单细胞拆分的准确性。

Description

一种基于SNP多态性的单细胞barcode身份识别方法
技术领域
本申请涉及单细胞的混样拆分技术领域,具体是一种基于SNP多态性的单细胞barcode身份识别方法。
背景技术
目前单细胞的拆分,多使用细胞表面蛋白进行标记拆分,容易出现实验方面的认为干预导致的细胞拆分问题以及文库建库方面影响。
发明内容
本申请的目的在于提供一种基于SNP多态性的单细胞barcode身份识别方法,以解决上述背景技术中提出的技术问题。
为实现上述目的,本申请公开了以下技术方案:
一种基于SNP多态性的单细胞barcode身份识别方法,使用人类的SNP变异位点数据库进行位点的确定进行验证和识别;具体包括:
S1:通过STAR将原始fastq数据的比对回基因组,通过k-mer标签,在参考基因组上快速定位可能的比对位置,获取比对bam文件;
S2:使用samtools的mpileup提取SNP的位点信息,过滤低覆盖度低于20的位点,去除基因型0/1的杂合位点的信息,并计算该位点的基因型0/0和基因型1/1的比例;
S3:将基于所述S1和所述S2获取结果与人类的SNP变异位点数据库进行同点位比较,获取权重值weight,其中,PL为人类的SNP变异位点数据库中的基因型0/0、基因型1/0和基因型1/1的质量值,site-number为检测到的所有相同位点的数量,coverage为检测到该位点的覆盖率;
S4:获取每一个细胞对应的SNP位点的权重值矩阵,使用sklearn的机器学习的梯度优化算法进行分类,最终获取每一个barcode最可能属于的供体。
有益效果:本申请的基于SNP多态性的单细胞barcode身份识别方法,基于人单核苷酸多态性(SNP)拆分多样本单细胞测序数据,SNP能很好的在减少实验环节方面的干扰,通过不同人的SNP位点直接在fastq层面识别差异,最终通过位点的差异权重进行身份的识别,很好的降低了人为的干扰,提高多样本的单细胞拆分的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于SNP多态性的单细胞barcode身份识别方法的流程示意图。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本文中,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
申请人发现,目前单细胞的拆分,多使用细胞表面蛋白进行标记拆分,容易出现实验方面的认为干预导致的细胞拆分问题以及文库建库方面影响。
介于此,本实施例公开了如图1所示的基于SNP多态性的单细胞barcode身份识别方法,是一种基于人单核苷酸多态性(SNP)拆分多样本单细胞测序数据的技术,使用人类的SNP变异位点数据库(vcf)进行位点的确定进行验证和识别,技术考虑到测试数据染色体SNP位点的真实性和位点的覆盖度,基于机器学习中的梯度下降算法进行最优求解。具体的,该方法包括以下步骤:
S1:通过STAR将原始fastq数据的比对回基因组,通过k-mer标签,在参考基因组上快速定位可能的比对位置,获取比对bam文件;
S2:使用samtools的mpileup提取SNP的位点信息,过滤低覆盖度低于20的位点,去除基因型0/1的杂合位点的信息,并计算该位点的基因型0/0和基因型1/1的比例;
S3:将基于所述S1和所述S2获取结果与人类的SNP变异位点数据库进行同点位比较,获取权重值weight,其中,PL为人类的SNP变异位点数据库中的基因型0/0、基因型1/0和基因型1/1的质量值,site-number为检测到的所有相同位点的数量,coverage为检测到该位点的覆盖率;
S4:获取每一个细胞对应的SNP位点的权重值矩阵,使用sklearn的机器学习的梯度优化算法进行分类,最终获取每一个barcode最可能属于的供体。
本实施例的基于SNP多态性的单细胞barcode身份识别方法,基于人单核苷酸多态性(SNP)拆分多样本单细胞测序数据,SNP能很好的在减少实验环节方面的干扰,通过不同人的SNP位点直接在fastq层面识别差异,最终通过位点的差异权重进行身份的识别,很好的降低了人为的干扰,提高多样本的单细胞拆分的准确性。
最后应说明的是:以上所述仅为本申请的优选实施例而已,并不用于限制本申请,尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (1)

1.一种基于SNP多态性的单细胞barcode身份识别方法,其特征在于,使用人类的SNP变异位点数据库进行位点的确定进行验证和识别;具体包括:
S1:通过STAR将原始fastq数据的比对回基因组,通过k-mer标签,在参考基因组上快速定位可能的比对位置,获取比对bam文件;
S2:使用samtools的mpileup提取SNP的位点信息,过滤低覆盖度低于20的位点,去除基因型0/1的杂合位点的信息,并计算该位点的基因型0/0和基因型1/1的比例;
S3:将基于所述S1和所述S2获取结果与人类的SNP变异位点数据库进行同点位比较,获取权重值weight,其中,PL为人类的SNP变异位点数据库中的基因型0/0、基因型1/0和基因型1/1的质量值,site-number为检测到的所有相同位点的数量,coverage为检测到该位点的覆盖率;
S4:获取每一个细胞对应的SNP位点的权重值矩阵,使用sklearn的机器学习的梯度优化算法进行分类,最终获取每一个barcode最可能属于的供体。
CN202311367366.8A 2023-10-21 2023-10-21 一种基于SNP多态性的单细胞barcode身份识别方法 Active CN117423382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311367366.8A CN117423382B (zh) 2023-10-21 2023-10-21 一种基于SNP多态性的单细胞barcode身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311367366.8A CN117423382B (zh) 2023-10-21 2023-10-21 一种基于SNP多态性的单细胞barcode身份识别方法

Publications (2)

Publication Number Publication Date
CN117423382A true CN117423382A (zh) 2024-01-19
CN117423382B CN117423382B (zh) 2024-05-10

Family

ID=89524175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311367366.8A Active CN117423382B (zh) 2023-10-21 2023-10-21 一种基于SNP多态性的单细胞barcode身份识别方法

Country Status (1)

Country Link
CN (1) CN117423382B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
US20140206006A1 (en) * 2011-08-25 2014-07-24 Bgi Shenzhen Single cell classification method, gene screening method and device thereof
WO2016049993A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因科技有限公司 用于鉴定多个生物样本之间身份关系的方法和系统
CN108647495A (zh) * 2018-05-21 2018-10-12 广州金域医学检验中心有限公司 身份关系鉴定方法、装置、设备及存储介质
CN112086127A (zh) * 2020-09-17 2020-12-15 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法
CN112466395A (zh) * 2020-10-30 2021-03-09 苏州赛美科基因科技有限公司 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法
US20210230667A1 (en) * 2018-05-08 2021-07-29 President And Fellows Of Harvard College Droplet-based single cell genomic dna sequencing
CN114047334A (zh) * 2021-11-12 2022-02-15 云准医药科技(上海)有限公司 一种人肺癌免疫多标及空间转录组检测组合方法
US20230061214A1 (en) * 2020-01-20 2023-03-02 Koninklijke Philips N.V. Guided analysis of single cell sequencing data using bulk sequencing data
CN116612817A (zh) * 2023-05-22 2023-08-18 上海交通大学医学院附属仁济医院 一种对多样本混合的单细胞数据混样拆分的方法
US20230317204A1 (en) * 2020-04-30 2023-10-05 Hoffmann-La Roche Inc. Cell-type identification
WO2023196928A2 (en) * 2022-04-06 2023-10-12 Mission Bio, Inc. True variant identification via multianalyte and multisample correlation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
US20140206006A1 (en) * 2011-08-25 2014-07-24 Bgi Shenzhen Single cell classification method, gene screening method and device thereof
WO2016049993A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因科技有限公司 用于鉴定多个生物样本之间身份关系的方法和系统
US20210230667A1 (en) * 2018-05-08 2021-07-29 President And Fellows Of Harvard College Droplet-based single cell genomic dna sequencing
CN108647495A (zh) * 2018-05-21 2018-10-12 广州金域医学检验中心有限公司 身份关系鉴定方法、装置、设备及存储介质
US20230061214A1 (en) * 2020-01-20 2023-03-02 Koninklijke Philips N.V. Guided analysis of single cell sequencing data using bulk sequencing data
US20230317204A1 (en) * 2020-04-30 2023-10-05 Hoffmann-La Roche Inc. Cell-type identification
CN112086127A (zh) * 2020-09-17 2020-12-15 中南大学湘雅医院 一种基于突变功能的群体遗传差异比较方法
CN112466395A (zh) * 2020-10-30 2021-03-09 苏州赛美科基因科技有限公司 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法
CN114047334A (zh) * 2021-11-12 2022-02-15 云准医药科技(上海)有限公司 一种人肺癌免疫多标及空间转录组检测组合方法
WO2023196928A2 (en) * 2022-04-06 2023-10-12 Mission Bio, Inc. True variant identification via multianalyte and multisample correlation
CN116612817A (zh) * 2023-05-22 2023-08-18 上海交通大学医学院附属仁济医院 一种对多样本混合的单细胞数据混样拆分的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANJIE HUANG, ET.AL: "Cellsnp-lite: an efficient tool for genotyping single cells", BIOINFORMATICS, vol. 37, no. 23, 7 December 2021 (2021-12-07), pages 4569 - 4571 *
张敏, 等: "小细胞肺癌患者铂类化疗 所致周围神经毒性与SNP相关性", 中国微生态学杂志, vol. 30, no. 12, 31 December 2018 (2018-12-31), pages 1475 - 1478 *

Also Published As

Publication number Publication date
CN117423382B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
Wang et al. An integrative variant analysis pipeline for accurate genotype/haplotype inference in population NGS data
NZ759804A (en) Deep learning-based techniques for training deep convolutional neural networks
CN111292802A (zh) 用于检测突变的方法、电子设备和计算机存储介质
CN109448787B (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN113344272B (zh) 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法
Morris et al. Sampling strategies for using female gametophytes to estimate heterozygosity in conifers
CN110265085A (zh) 一种蛋白质相互作用位点识别方法
US20130237435A1 (en) Gene cluster, gene searching/identification method, and apparatus for the method
CN117423382B (zh) 一种基于SNP多态性的单细胞barcode身份识别方法
Artiguenave et al. Genomic exploration of the hemiascomycetous yeasts: 2. Data generation and processing
CN113823356B (zh) 一种甲基化位点识别方法及装置
Wiehe et al. Identification of selective sweeps using a dynamically adjusted number of linked microsatellites
CN111798924B (zh) 一种人类白细胞抗原分型方法及装置
CN107977550A (zh) 一种基于压缩的快速分析致病基因算法
CN112233722B (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN110718270A (zh) 基因测序结果类型的检测方法、装置、设备及存储介质
CN116994647A (zh) 用于分析变异检测结果的模型的构建方法
CN110942806A (zh) 一种血型基因分型方法和装置及存储介质
CN102154452B (zh) 一种鉴定顺式和反式调控作用的方法和系统
CN114863163A (zh) 一种基于细胞图像进行细胞分类的方法及系统
CN108009401B (zh) 一种筛选指纹图谱遗传标记的方法
CN115066503A (zh) 使用批量测序数据指导单细胞测序数据的分析
CN107301329A (zh) 一种微生物识别方法及系统
CN109741788A (zh) 一种snp位点分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant