CN117423382B - 一种基于SNP多态性的单细胞barcode身份识别方法 - Google Patents
一种基于SNP多态性的单细胞barcode身份识别方法 Download PDFInfo
- Publication number
- CN117423382B CN117423382B CN202311367366.8A CN202311367366A CN117423382B CN 117423382 B CN117423382 B CN 117423382B CN 202311367366 A CN202311367366 A CN 202311367366A CN 117423382 B CN117423382 B CN 117423382B
- Authority
- CN
- China
- Prior art keywords
- snp
- genotype
- cell
- identity recognition
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 241000282414 Homo sapiens Species 0.000 claims description 11
- 230000035772 mutation Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 description 5
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 102000018697 Membrane Proteins Human genes 0.000 description 2
- 108010052285 Membrane Proteins Proteins 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请涉及单细胞的混样拆分技术领域,公开了一种基于SNP多态性的单细胞barcode身份识别方法,使用人类的SNP变异位点数据库进行位点的确定进行验证和识别,在本申请中,SNP能很好的在减少实验环节方面的干扰,通过不同人的SNP位点直接在fastq层面识别差异,最终通过位点的差异权重进行身份的识别,很好的降低了人为的干扰,提高多样本的单细胞拆分的准确性。
Description
技术领域
本申请涉及单细胞的混样拆分技术领域,具体是一种基于SNP多态性的单细胞barcode身份识别方法。
背景技术
目前单细胞的拆分,多使用细胞表面蛋白进行标记拆分,容易出现实验方面的认为干预导致的细胞拆分问题以及文库建库方面影响。
发明内容
本申请的目的在于提供一种基于SNP多态性的单细胞barcode身份识别方法,以解决上述背景技术中提出的技术问题。
为实现上述目的,本申请公开了以下技术方案:
一种基于SNP多态性的单细胞barcode身份识别方法,使用人类的SNP变异位点数据库进行位点的确定进行验证和识别;具体包括:
S1:通过STAR将原始fastq数据与参考基因进行比对,通过k-mer标签,在参考基因组上快速定位可能的比对位置,获取比对bam文件;
S2:使用samtools的mpileup提取SNP的位点信息,过滤低覆盖度低于20的位点,去除基因型0/1的杂合位点的信息,并计算该位点的基因型0/0和基因型1/1的比例;
S3:将基于所述S1和所述S2获取结果与人类的SNP变异位点数据库进行同点位比较,获取权重值weight,其中,PL为人类的SNP变异位点数据库中的基因型0/0、基因型1/0和基因型1/1的比例,site-number为检测到的所有相同位点的数量,coverage为检测到该位点的覆盖率;
S4:获取每一个细胞对应的SNP位点的权重值矩阵,使用sklearn的机器学习的梯度优化算法进行分类,最终获取每一个barcode最可能属于的供体。
有益效果:本申请的基于SNP多态性的单细胞barcode身份识别方法,基于人单核苷酸多态性(SNP)拆分多样本单细胞测序数据,SNP能很好的在减少实验环节方面的干扰,通过不同人的SNP位点直接在fastq层面识别差异,最终通过位点的差异权重进行身份的识别,很好的降低了人为的干扰,提高多样本的单细胞拆分的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于SNP多态性的单细胞barcode身份识别方法的流程示意图。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本文中,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
申请人发现,目前单细胞的拆分,多使用细胞表面蛋白进行标记拆分,容易出现实验方面的认为干预导致的细胞拆分问题以及文库建库方面影响。
介于此,本实施例公开了如图1所示的基于SNP多态性的单细胞barcode身份识别方法,是一种基于人单核苷酸多态性(SNP)拆分多样本单细胞测序数据的技术,使用人类的SNP变异位点数据库(vcf)进行位点的确定进行验证和识别,技术考虑到测试数据染色体SNP位点的真实性和位点的覆盖度,基于机器学习中的梯度下降算法进行最优求解。具体的,该方法包括以下步骤:
S1:通过STAR将原始fastq数据与参考基因进行比对,通过k-mer标签,在参考基因组上快速定位可能的比对位置,获取比对bam文件;
S2:使用samtools的mpileup提取SNP的位点信息,过滤低覆盖度低于20的位点,去除基因型0/1的杂合位点的信息,并计算该位点的基因型0/0和基因型1/1的比例;
S3:将基于所述S1和所述S2获取结果与人类的SNP变异位点数据库进行同点位比较,获取权重值weight,其中,PL为人类的SNP变异位点数据库中的基因型0/0、基因型1/0和基因型1/1的比例,site-number为检测到的所有相同位点的数量,coverage为检测到该位点的覆盖率;
S4:获取每一个细胞对应的SNP位点的权重值矩阵,使用sklearn的机器学习的梯度优化算法进行分类,最终获取每一个barcode最可能属于的供体。
本实施例的基于SNP多态性的单细胞barcode身份识别方法,基于人单核苷酸多态性(SNP)拆分多样本单细胞测序数据,SNP能很好的在减少实验环节方面的干扰,通过不同人的SNP位点直接在fastq层面识别差异,最终通过位点的差异权重进行身份的识别,很好的降低了人为的干扰,提高多样本的单细胞拆分的准确性。
最后应说明的是:以上所述仅为本申请的优选实施例而已,并不用于限制本申请,尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (1)
1.一种基于SNP多态性的单细胞barcode身份识别方法,其特征在于,使用人类的SNP变异位点数据库进行位点的确定进行验证和识别;具体包括:
S1:通过STAR将原始fastq数据与参考基因组进行比对,通过k-mer标签,在参考基因组上快速定位可能的比对位置,获取比对bam文件;
S2:使用samtools的mpileup提取SNP的位点信息,过滤低覆盖度低于20的位点,去除基因型0/1的杂合位点的信息,并计算该位点的基因型0/0和基因型1/1的比例;
S3:将基于所述S1和所述S2获取结果与人类的SNP变异位点数据库进行同点位比较,获取权重值weight,其中,PL为人类的SNP变异位点数据库中的基因型0/0、基因型1/0和基因型1/1的比例,site-number为检测到的所有相同位点的数量,coverage为检测到该位点的覆盖率;
S4:获取每一个细胞对应的SNP位点的权重值矩阵,使用sklearn的机器学习的梯度优化算法进行分类,最终获取每一个barcode最可能属于的供体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311367366.8A CN117423382B (zh) | 2023-10-21 | 2023-10-21 | 一种基于SNP多态性的单细胞barcode身份识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311367366.8A CN117423382B (zh) | 2023-10-21 | 2023-10-21 | 一种基于SNP多态性的单细胞barcode身份识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117423382A CN117423382A (zh) | 2024-01-19 |
CN117423382B true CN117423382B (zh) | 2024-05-10 |
Family
ID=89524175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311367366.8A Active CN117423382B (zh) | 2023-10-21 | 2023-10-21 | 一种基于SNP多态性的单细胞barcode身份识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423382B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101914628A (zh) * | 2010-09-02 | 2010-12-15 | 深圳华大基因科技有限公司 | 检测基因组目标区域多态性位点的方法及 系统 |
WO2016049993A1 (zh) * | 2014-09-30 | 2016-04-07 | 深圳华大基因科技有限公司 | 用于鉴定多个生物样本之间身份关系的方法和系统 |
CN108647495A (zh) * | 2018-05-21 | 2018-10-12 | 广州金域医学检验中心有限公司 | 身份关系鉴定方法、装置、设备及存储介质 |
CN112086127A (zh) * | 2020-09-17 | 2020-12-15 | 中南大学湘雅医院 | 一种基于突变功能的群体遗传差异比较方法 |
CN112466395A (zh) * | 2020-10-30 | 2021-03-09 | 苏州赛美科基因科技有限公司 | 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法 |
CN114047334A (zh) * | 2021-11-12 | 2022-02-15 | 云准医药科技(上海)有限公司 | 一种人肺癌免疫多标及空间转录组检测组合方法 |
CN116612817A (zh) * | 2023-05-22 | 2023-08-18 | 上海交通大学医学院附属仁济医院 | 一种对多样本混合的单细胞数据混样拆分的方法 |
WO2023196928A2 (en) * | 2022-04-06 | 2023-10-12 | Mission Bio, Inc. | True variant identification via multianalyte and multisample correlation |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952854B (zh) * | 2011-08-25 | 2015-01-14 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
US11649482B2 (en) * | 2018-05-08 | 2023-05-16 | President And Fellows Of Harvard College | Droplet-based single cell genomic DNA sequencing |
WO2021148283A1 (en) * | 2020-01-20 | 2021-07-29 | Koninklijke Philips N.V. | Guided analysis of single cell sequencing data using bulk sequencing data |
EP4143831A1 (en) * | 2020-04-30 | 2023-03-08 | F. Hoffmann-La Roche AG | Cell-type identification |
-
2023
- 2023-10-21 CN CN202311367366.8A patent/CN117423382B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101914628A (zh) * | 2010-09-02 | 2010-12-15 | 深圳华大基因科技有限公司 | 检测基因组目标区域多态性位点的方法及 系统 |
WO2016049993A1 (zh) * | 2014-09-30 | 2016-04-07 | 深圳华大基因科技有限公司 | 用于鉴定多个生物样本之间身份关系的方法和系统 |
CN108647495A (zh) * | 2018-05-21 | 2018-10-12 | 广州金域医学检验中心有限公司 | 身份关系鉴定方法、装置、设备及存储介质 |
CN112086127A (zh) * | 2020-09-17 | 2020-12-15 | 中南大学湘雅医院 | 一种基于突变功能的群体遗传差异比较方法 |
CN112466395A (zh) * | 2020-10-30 | 2021-03-09 | 苏州赛美科基因科技有限公司 | 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法 |
CN114047334A (zh) * | 2021-11-12 | 2022-02-15 | 云准医药科技(上海)有限公司 | 一种人肺癌免疫多标及空间转录组检测组合方法 |
WO2023196928A2 (en) * | 2022-04-06 | 2023-10-12 | Mission Bio, Inc. | True variant identification via multianalyte and multisample correlation |
CN116612817A (zh) * | 2023-05-22 | 2023-08-18 | 上海交通大学医学院附属仁济医院 | 一种对多样本混合的单细胞数据混样拆分的方法 |
Non-Patent Citations (2)
Title |
---|
Cellsnp-lite: an efficient tool for genotyping single cells;Xianjie Huang, et.al;Bioinformatics;20211207;第37卷(第23期);4569-4571 * |
小细胞肺癌患者铂类化疗 所致周围神经毒性与SNP相关性;张敏, 等;中国微生态学杂志;20181231;第30卷(第12期);1475-1478 * |
Also Published As
Publication number | Publication date |
---|---|
CN117423382A (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | An integrative variant analysis pipeline for accurate genotype/haplotype inference in population NGS data | |
Browning et al. | Haplotype phasing: existing methods and new developments | |
Shah et al. | optiCall: a robust genotype-calling algorithm for rare, low-frequency and common variants | |
CN111292802B (zh) | 用于检测突变的方法、电子设备和计算机存储介质 | |
US6950755B2 (en) | Genotype pattern recognition and classification | |
Yin et al. | Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype | |
KR102447812B1 (ko) | 서열-특정 오류(sse)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크 | |
CN109448787B (zh) | 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法 | |
CN112233722B (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
EP2171626A2 (en) | Allelic determination | |
CN113344272A (zh) | 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法 | |
Morris et al. | Sampling strategies for using female gametophytes to estimate heterozygosity in conifers | |
CN113344076B (zh) | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 | |
CN110265085A (zh) | 一种蛋白质相互作用位点识别方法 | |
US20130237435A1 (en) | Gene cluster, gene searching/identification method, and apparatus for the method | |
Liu et al. | Context-specific infinite mixtures for clustering gene expression profiles across diverse microarray dataset | |
Artiguenave et al. | Genomic exploration of the hemiascomycetous yeasts: 2. Data generation and processing | |
CN117423382B (zh) | 一种基于SNP多态性的单细胞barcode身份识别方法 | |
CN117594123A (zh) | 一种基于掩码语言模型的基因型补全方法及相关设备 | |
CN114627964B (zh) | 一种基于多核学习预测增强子及其强度分类方法及分类设备 | |
AU2023261122A1 (en) | Construction method for model for analyzing variation detection result | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
Lalrinmawii et al. | An Overview of the Workflow of Next-Generation Sequencing Data Analysis | |
CN109741788A (zh) | 一种snp位点分析方法及系统 | |
CN113284552B (zh) | 一种微单倍型的筛选方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |