CN115331733A - 空间转录组芯片的测序数据的分析方法及装置 - Google Patents

空间转录组芯片的测序数据的分析方法及装置 Download PDF

Info

Publication number
CN115331733A
CN115331733A CN202211256237.7A CN202211256237A CN115331733A CN 115331733 A CN115331733 A CN 115331733A CN 202211256237 A CN202211256237 A CN 202211256237A CN 115331733 A CN115331733 A CN 115331733A
Authority
CN
China
Prior art keywords
sequencing
sequence
barcode
sequencing sequence
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211256237.7A
Other languages
English (en)
Other versions
CN115331733B (zh
Inventor
郑洪坤
刘敏
欧阳峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Baichuang Intelligent Manufacturing Technology Co ltd
Original Assignee
Qingdao Baichuang Intelligent Manufacturing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Baichuang Intelligent Manufacturing Technology Co ltd filed Critical Qingdao Baichuang Intelligent Manufacturing Technology Co ltd
Priority to CN202211256237.7A priority Critical patent/CN115331733B/zh
Publication of CN115331733A publication Critical patent/CN115331733A/zh
Application granted granted Critical
Publication of CN115331733B publication Critical patent/CN115331733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种空间转录组芯片的测序数据的分析方法及装置,涉及生物信息领域,该方法包括:针对空间转录组芯片的测序数据中的每条测序序列,对测序序列的read1进行kmer识别,得到测序序列的多个条形码子序列,并获得测序序列的唯一分子标识符序列;基于荧光解码文件确定测序序列的多个条形码子序列在空间转录组芯片上的空间位点;将测序序列的read2与参考基因组进行比对,得到测序序列的基因结果;基于测序数据中的多条测序序列的唯一分子标识符序列、基因结果以及空间位点,生成基因表达矩阵;基于基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。本发明可以对百创空间转录组芯片的测序数据进行分析。

Description

空间转录组芯片的测序数据的分析方法及装置
技术领域
本发明涉及生物信息技术领域,尤其涉及一种空间转录组芯片的测序数据的分析方法及装置。
背景技术
组织中空间的原始位置上的基因表达模式,对于了解其中细胞的类型和功能非常重要。近些年来,空间转录组技术飞速发展,广泛应用于肿瘤、疾病、神经系统和器官发育等不同领域。
目前,空间转录组的主流分析技术为10X genomics Visium技术,其条形码(barcode)固定在空间转录组芯片上,可以达到100μm的分辨率,芯片数据可以使用SpaceRanger软件进行分析。
然而,百创空间转录组芯片的barcode结构不同于Visium芯片,且将分辨率提高到5μm的亚细胞水平,因此现有的分析技术并不适合分析百创空间转录组芯片的芯片数据。
发明内容
本发明提供一种空间转录组芯片的测序数据的分析方法及装置,用以解决现有技术中百创空间转录组芯片的barcode结构不同于Visium芯片,且将分辨率提高到5μm的亚细胞水平,因此现有的分析技术并不适合分析百创空间转录组芯片的芯片数据的缺陷,实现对百创空间转录组芯片的测序数据进行分析的目的。
本发明提供一种空间转录组芯片的测序数据的分析方法,包括:
针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;
基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,包括:
将所述空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库;其中,所述固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列;
对所述测序序列的read1进行kmer识别,得到所述测序序列的多个kmer;
针对所述kmer库中每种条形码序列种类,若所述测序序列的多个kmer中存在至少预设数量的kmer,与所述条形码序列种类下的目标条形码子序列对应的kmer匹配,且位置偏差不超过预设偏差,则将所述目标条形码子序列确定为所述测序序列的条形码子序列;
若所述测序序列的所有条形码子序列对应的条形码序列种类为所述预设种类数量的条形码序列种类,则保留所述测序序列的所有条形码子序列。
根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列,包括:
基于所述测序序列的多个条形码子序列的识别位置,推断出所述测序序列的唯一分子标识符序列的位置;
基于所述测序序列的唯一分子标识符序列的位置,获得所述测序序列的唯一分子标识符序列。
根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点,包括:
基于荧光解码文件,识别出所述空间转录组芯片上每个位置的条形码子序列;
若所述空间转录组芯片上不同位置的条形码子序列相同,则去除所述不同位置的条形码子序列;
将所述空间转录组芯片上剩余位置的各条形码子序列与所述测序序列的多个条形码子序列进行对比,保留同时识别出的条形码子序列;
确定保留的条形码子序列在所述空间转录组芯片上的空间位点。
根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果,包括:
将所述测序序列的read2剪切为第一测序序列和第二测序序列;其中,所述第一测序序列为所述测序序列的read2的前设定长度的序列;
将所述第一测序序列与参考基因组进行比对,若所述第一测序序列的比对位置与参考基因组的基因位置重叠,则将所述参考基因组的基因位置的基因结果确定为所述测序序列的基因结果。
根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果,包括:
基于所述基因表达矩阵,提取若干所述基因结果和若干所述基因结果对应的所述空间位点;
将若干所述基因结果对应的所述空间位点进行分级聚类,得到不同分辨率下的所述基因结果;
基于HE染色图像,识别出组织在所述空间转录组芯片上的空间位点;
将所述组织在所述空间转录组芯片上的空间位点对应的不同分辨率下的所述基因结果,确定为所述组织不同部位不同分辨率下的基因表达结果。
根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述方法还包括:
基于所述空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告。
本发明还提供一种空间转录组芯片的测序数据的分析装置,包括:
识别模块,用于针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
确定模块,用于基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
比对模块,用于将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
生成模块,用于基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;
获得模块,用于基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的空间转录组芯片的测序数据的分析方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的空间转录组芯片的测序数据的分析方法的步骤。
本发明提供空间转录组芯片的测序数据的分析方法及装置,首先,由于百创空间转录组芯片的条形码没有固定在芯片上,针对空间转录组芯片的测序数据中的每条测序序列,对测序序列的read1进行kmer识别,得到测序序列的多个条形码子序列,并获得测序序列的唯一分子标识符序列;基于荧光解码文件,确定测序序列的多个条形码子序列在空间转录组芯片上的空间位点;而后,将测序序列的read2与参考基因组进行比对,得到测序序列的基因结果;接着,基于测序数据中的多条测序序列的唯一分子标识符序列、基因结果以及空间位点,生成基因表达矩阵;最后,由于百创空间转录组芯片将分辨率提高到5μm的亚细胞水平,可以基于基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果,可以对百创空间转录组芯片的测序数据进行分析。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的空间转录组芯片的测序数据的分析方法的流程示意图;
图2是本发明提供的分级聚类的示意图;
图3是本发明提供的空间转录组芯片的测序数据的分析装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图4描述本发明的空间转录组芯片的测序数据的分析方法。
请参照图1,图1是本发明提供的空间转录组芯片的测序数据的分析方法的流程示意图。如图1所示,本发明提供的空间转录组芯片的测序数据的分析方法可以包括如下步骤:
步骤101、针对空间转录组芯片的测序数据中的每条测序序列,对测序序列的read1进行kmer识别,得到测序序列的多个条形码子序列,并基于测序序列的多个条形码子序列的识别位置获得测序序列的唯一分子标识符序列;
步骤102、基于荧光解码文件,确定测序序列的多个条形码子序列在空间转录组芯片上的空间位点;
步骤103、将测序序列的read2与参考基因组进行比对,得到测序序列的基因结果;
步骤104、基于测序数据中的多条测序序列的唯一分子标识符序列、基因结果以及所述空间位点,生成基因表达矩阵;
步骤105、基于基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
在步骤101中,空间转录组芯片可以为百创S1000空间转录组芯片。
空间转录组芯片的测序数据中包括若干条测序序列,每条测序序列为bc1-link1-bc2-bc3-UMI-polyT-CDNA。其中,百创空间转录组芯片使用三段式条形码,即 bc1、bc2、bc3,百创空间转录组芯片的测序数据使用的条形码由17bp的bc1+19bp的bc2+19bp的bc3组成。
以测序序列为bc1-link1-bc2-bc3-UMI-polyT-CDNA为例,测序序列的read1包括bc1-link1-bc2-bc3-UMI-polyT,测序序列的read2包括CDNA(互补脱氧核糖核酸,complementary DNA)。
在本步骤中,将空间转录组芯片的测序数据中的每条测序序列的read1进行kmer识别,得到该测序序列的多个条形码子序列。并且,由于测序序列的格式是固定的,可以基于该测序序列的多个条形码子序列的识别位置获得该测序序列的唯一分子标识符序列。
可选地,步骤101中,对测序序列的read1进行kmer识别,得到测序序列的多个条形码子序列,包括以下子步骤:
步骤1011、将空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库;其中,固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列;
步骤1012、对测序序列的read1进行kmer识别,得到测序序列的多个kmer;
步骤1013、针对kmer库中每种条形码序列种类,若测序序列的多个kmer中存在至少预设数量的kmer,与该条形码序列种类下的目标条形码子序列对应的kmer匹配,且位置偏差不超过预设偏差,则将目标条形码子序列确定为测序序列的条形码子序列;
步骤1014、若测序序列的所有条形码子序列对应的条形码序列种类为预设种类数量的条形码序列种类,则保留测序序列的所有条形码子序列。
在步骤1011中,固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列,以百创空间转录组芯片为例,固定条形码集合包括三种条形码序列种类(即barcode1、barcode2、barcode3)下的条形码子序列,每种条形码包括多个条形码子序列。
例如:barcode1可以包括:
bc1_100(ACTACTTCGTTCATGAG);
bc1_101(ATGTTGACCTTCACGTT);
bc1_102(GCGCATGACTTGCCCAA);
bc1_103(CATGGGAATAAGGCCTT);
bc1_104(CAAGTCGATCTCCGGGA);
bc1_105(CAGCTTGTTCAGGGCGT);
等多个条形码子序列。
barcode2可以包括:
bc2_100(AACGCGCTGTGACGTTTGG);
bc2_101(GTGTTGTTACCTCCACGAG);
bc2_102(TGCATCCGACATAGTCTCA);
bc2_103(TTTCGAGGTCTCACCGTCG);
bc2_104(CACTTCGCCAGTAGTCTAT);
bc2_105(ATAAAGTCGGATAGCCGAG);
等多个条形码子序列。
barcode3可以包括:
bc3_100(AACGGTAAAGAGCCATGCC);
bc3_101(GCACTTATTCATCTCCCGG);
bc3_102(ACCTAGCGCAAACAGGGCT);
bc3_103(TCAGCCCTGATAGAGAACA);
bc3_104(TTAGGGCGTTCCTTCTACG);
bc3_105(CAACCCTAGCTACTGTGTT);
等多个条形码子序列。
将空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库。
以bc1_100(ACTACTTCGTTCATGAG)为例,将其按照9bp长度的kmer进行遍历,可以得到以下kemer:
ACTACTTCG
CTACTTCGT
TACTTCGTT
ACTTCGTTC
CTTCGTTCA
TTCGTTCAT
TCGTTCATG
CGTTCATGA
GTTCATGAG
同理,将空间转录组芯片的固定条形码集合中的其他条形码子序列,按照9bp长度的kmer进行遍历,得到如表1所示的kmer库。
表1 kmer库
Figure 41189DEST_PATH_IMAGE001
需要说明的是,上述表1仅展示了kmer库中的一部分。
在步骤1012中,以测序序列为bc1-link1-bc2-bc3-UMI-polyT-CDNA为例,测序序列的read1包括bc1-link1-bc2-bc3-UMI-polyT,将测序序列的read1,按照9bp长度的kmer进行遍历,可以得到测序序列的多个kmer。
在步骤1013中,下面以测序数据中的其中一条测序序列为例,确定该测序序列的条形码子序列。
针对kmer库中的barcode1,若测序序列的多个kmer中存在至少3个kmer,与barcode1中的bc1_201匹配,且位置偏差不超过5bp,则将bc1_201确定为测序序列的条形码子序列。如果位置偏差少于5bp的匹配kmer数量少于3个,测序序列的条形码子序列中不存在barcode1对应的条形码子序列。
针对kmer库中的barcode2,若测序序列的多个kmer中存在至少3个kmer,与barcode2中的bc2_212匹配,且位置偏差不超过5bp,则将bc2_212确定为测序序列的条形码子序列。如果位置偏差小于5bp的匹配kmer数量少于3个,测序序列的条形码子序列中不存在barcode2对应的条形码子序列。
针对kmer库中的barcode3,若测序序列的多个kmer中存在至少3个kmer,与barcode3中的bc3_326匹配,且位置偏差不超过5bp,则将bc3_326确定为测序序列的条形码子序列。如果位置偏差小于5bp的匹配kmer数量少于3个,测序序列的条形码子序列中不存在barcode3对应的条形码子序列。
同理,针对测序数据中的其他测序序列,采用相同的方式确定其他测序序列的条形码子序列。
在步骤1014中,针对测序数据中的每条测序序列,若测序序列的所有条形码子序列对应的条形码序列种类为3种条形码序列种类(即barcode1、barcode2、barcode3),则保留该测序序列的所有条形码子序列。若测序序列的所有条形码子序列对应的条形码序列种类低于三种条形码序列种类,则丢弃该测序序列的所有条形码子序列。
在本实施例中,仅保留条形码序列种类完整的测序序列的所有条形码子序列,也即丢弃条形码序列种类不完整的测序序列的所有条形码子序列。
可选地,步骤101中,基于测序序列的多个条形码子序列的识别位置获得测序序列的唯一分子标识符序列,包括:
步骤1015、基于测序序列的多个条形码子序列的识别位置,推断出测序序列的唯一分子标识符序列的位置;
步骤1016、基于测序序列的唯一分子标识符序列的位置,获得测序序列的唯一分子标识符序列。
在步骤1015中,由于测序序列的格式是固定的,可以基于该测序序列的多个条形码子序列的识别位置,推测出测序序列的唯一分子标识符序列的位置。
在步骤1016中,在得到测序序列的唯一分子标识符序列的位置后,从测序序列中获得该位置对应的序列,即测序序列的唯一分子标识符序列。
在本实施例中,可以基于该测序序列的多个条形码子序列的识别位置获得该测序序列的唯一分子标识符序列。
表2 多条测序序列的条形码子序列和唯一分子标识符序列
Figure 839381DEST_PATH_IMAGE002
如表2所示,为识别到的测序数据中多条测序序列的多个条形码子序列和唯一分子标识符序列。可以看出,大多数测序序列都能找到完整条形码序列种类的条形码子序列,且条形码子序列的位置与参考位置的偏差不大。
在步骤102中,由于荧光解码文件包括空间转录组芯片的荧光图像中的各空间位点的荧光信息的编码信息,在获得测序序列的多个条形码子序列之后,结合荧光解码文件,可以确定测序序列的多个条形码子序列在空间转录组芯片上的空间位点。
可选地,步骤102包括以下子步骤:
步骤1021、基于荧光解码文件,识别出空间转录组芯片上每个位置的条形码子序列;
步骤1022、若空间转录组芯片上不同位置的条形码子序列相同,则去除不同位置的条形码子序列;
步骤1023、将空间转录组芯片上剩余位置的各条形码子序列与测序序列的多个条形码子序列进行对比,保留同时识别出的条形码子序列;
步骤1024、确定保留的条形码子序列在空间转录组芯片上的空间位点。
在步骤1021中,由于荧光解码文件包括空间转录组芯片的荧光图像中的各空间位点的荧光信息的编码信息,将荧光解码文件识别为空间转录组芯片上每个位置的条形码子序列。
在步骤1022中,若识别到空间转录组芯片上不同位置的条形码子序列相同,则说明该不同位置的条形码子序列有误,可以去除不同位置的条形码子序列。
在步骤1023中,在去除不同位置的条形码子序列之后,将空间转录组芯片上剩余位置的各条形码子序列与测序序列的多个条形码子序列进行对比,将两者同时识别出的条形码子序列进行保留,也即对未被两者同时识别出的条形码子序列进行剔除,可以对测序序列的多个条形码子序列进行纠错。
在步骤1024中,在对测序序列的多个条形码子序列进行纠错之后,如表3所示,获取保留的多条测序序列的条形码子序列在空间转录组芯片上的空间位点,可以提升条形码子序列在空间转录组芯片上的空间位点的准确性。
表3 条形码子序列在空间转录组芯片上的空间位点
Figure 116910DEST_PATH_IMAGE003
在本实施例中,若基于荧光解码文件识别到空间转录组芯片上不同位置的条形码子序列相同,则去除不同位置的条形码子序列,可以说去除有误的该不同位置的条形码子序列;将空间转录组芯片上剩余位置的各条形码子序列与测序序列的多个条形码子序列进行对比,将两者同时识别出的条形码子序列进行保留,也即对未被两者同时识别出的条形码子序列进行剔除,可以对测序序列的多个条形码子序列进行纠错;获取保留的多条测序序列的条形码子序列在空间转录组芯片上的空间位点,可以提升条形码子序列在空间转录组芯片上的空间位点的准确性。
在步骤103中,以测序序列为bc1-link1-bc2-bc3-UMI-polyT-CDNA为例,测序序列的read2包括CDNA序列。将测序序列的CDNA序列与参考基因组进行比对,将测序序列的CDNA序列定位到参考基因组中相应的基因上,得到测序序列的基因结果。
可选地,步骤103包括以下子步骤:
步骤1031、将测序序列的read2剪切为第一测序序列和第二测序序列;其中,第一测序序列为测序序列的read2的前设定长度的序列;
步骤1032、将第一测序序列与参考基因组进行比对,若第一测序序列的比对位置与参考基因组的基因位置重叠,则将参考基因组的基因位置的基因结果确定为测序序列的基因结果。
在步骤1031中,前设定长度可以为前90bp长度,第一测序序列为测序序列的read2的前90bp长度的序列。将测序序列的read2剪切为第一测序序列和第二测序序列,并保留前90bp长度的第一测序序列。
在步骤1032中,可以采用STAR算法,将第一测序序列与参考基因组进行比对,并判断第一测序序列的比对位置与参考基因组的基因位置的重叠情况。若重叠,则将参考基因组的基因位置的基因结果确定为测序序列的基因结果。如表4所示,为多条测序序列的基因结果。
表4 测序序列的基因结果
Figure 520209DEST_PATH_IMAGE004
在本实施例中,保留前设定长度的第一测序序列,将第一测序序列与参考基因组进行比对,可以减少数据处理量。
在步骤104中,基于测序数据中的多条测序序列的唯一分子标识符序列、基因结果以及空间位点,生成下所示的基因表达矩阵:
Figure 841469DEST_PATH_IMAGE005
,本实施例不限于此。
在步骤105中,将基因表达矩阵和HE染色图像进行结合,可获得组织不同部位不同分辨率下的基因表达结果。
可选地,步骤105包括以下子步骤:
步骤1051、基于基因表达矩阵,提取若干基因结果和若干基因结果对应的空间位点;
步骤1052、将若干基因结果对应的空间位点进行分级聚类,得到不同分辨率下的基因结果;
步骤1053、基于HE(hematoxylin-eosin,苏木精-伊红)染色图像,识别出组织在空间转录组芯片上的空间位点;
步骤1054、将组织在空间转录组芯片上的空间位点对应的不同分辨率下的基因结果,确定为组织不同部位不同分辨率下的基因表达结果。
在步骤1052中,如图2所示,将若干基因结果对应的空间位点按不同级别进行分级聚类,得到不同分辨率下的基因结果。其中,2表示超级斑点的水平为2级,3表示超级斑点的水平为3级,4表示超级斑点的水平为4级,5表示超级斑点的水平为5级,7表示超级斑点的水平为7级。
具体地,以一个空间位点为中心,对与其距离为1、2、3、4、5、6和12的空间位点分别合并为一个空间位点,以此得到不同分辨率下的基因结果。
在步骤1053中,基于HE染色图像,识别出组织在空间转录组芯片上的空间位点。
在步骤1054中,将组织在空间转录组芯片上的空间位点与不同分辨率下的基因结果对应的空间位点进行匹配,将组织在空间转录组芯片上的空间位点匹配到的不同分辨率下的基因结果,确定为组织不同部位不同分辨率下的基因表达结果,最高分辨率可达到5µm亚细胞水平。
在本实施例中,将若干基因结果对应的空间位点按不同级别进行分级聚类,可得到不同分辨率下的基因结果,基于组织在空间转录组芯片上的空间位点匹配到的不同分辨率下的基因结果,可确定组织不同部位不同分辨率下的基因表达结果,最高分辨率可达到5µm亚细胞水平。
可选地,该方法还包括:基于空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告。
网页版分析报告的内容可以包括:通过上述任意一种空间转录组芯片的测序数据的分析方法的分析过程和分析数据,例如:测序数据统计结果、比对结果统计等。
在本实施例中,基于空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告,可以便于快速了解空间转录组芯片的测序数据的分析过程和分析数据。
下面对本发明提供的空间转录组芯片的测序数据的分析装置进行描述,下文描述的空间转录组芯片的测序数据的分析装置与上文描述的空间转录组芯片的测序数据的分析方法可相互对应参照。
请参照图3,图3是本发明提供的空间转录组芯片的测序数据的分析装置的结构示意图。如图3所示,本发明提供的空间转录组芯片的测序数据的分析装置可以包括:
识别模块10,用于针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
确定模块20,用于基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
比对模块30,用于将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
生成模块40,用于基于所述测序数据中的多条测序序列的多个条形码子序列、基因结果以及所述空间位点,生成基因表达矩阵;
获得模块50,用于基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
可选地,所述识别模块10具体用于:
将所述空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库;其中,所述固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列;
对所述测序序列的read1进行kmer识别,得到所述测序序列的多个kmer;
针对所述kmer库中每种条形码序列种类,若所述测序序列的多个kmer中存在至少预设数量的kmer,与所述条形码序列种类下的目标条形码子序列对应的kmer匹配,且位置偏差不超过预设偏差,则将所述目标条形码子序列确定为所述测序序列的条形码子序列;
若所述测序序列的所有条形码子序列对应的条形码序列种类为所述预设种类数量的条形码序列种类,则保留所述测序序列的所有条形码子序列。
可选地,所述识别模块10具体用于:
基于所述测序序列的多个条形码子序列的识别位置,推断出所述测序序列的唯一分子标识符序列的位置;
基于所述测序序列的唯一分子标识符序列的位置,获得所述测序序列的唯一分子标识符序列。
可选地,所述确定模块20具体用于:
基于荧光解码文件,识别出所述空间转录组芯片上每个位置的条形码子序列;
若所述空间转录组芯片上不同位置的条形码子序列相同,则去除所述不同位置的条形码子序列;
将所述空间转录组芯片上剩余位置的各条形码子序列与所述测序序列的多个条形码子序列进行对比,保留同时识别出的条形码子序列;
确定保留的条形码子序列在所述空间转录组芯片上的空间位点。
可选地,所述比对模块30具体用于:
将所述测序序列的read2剪切为第一测序序列和第二测序序列;其中,所述第一测序序列为所述测序序列的read2的前设定长度的序列;
将所述第一测序序列与参考基因组进行比对,若所述第一测序序列的比对位置与参考基因组的基因位置重叠,则将所述参考基因组的基因位置的基因结果确定为所述测序序列的基因结果。
可选地,所述获得模块50具体用于:
基于所述基因表达矩阵,提取若干所述基因结果和若干所述基因结果对应的所述空间位点;
将若干所述基因结果对应的所述空间位点进行分级聚类,得到不同分辨率下的所述基因结果;
基于HE染色图像,识别出组织在所述空间转录组芯片上的空间位点;
将所述组织在所述空间转录组芯片上的空间位点对应的不同分辨率下的所述基因结果,确定为所述组织不同部位不同分辨率下的基因表达结果。
可选地,所述装置还包括:报告生成模块,所述报告生成模块具体用于:
基于所述空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行空间转录组芯片的测序数据的分析方法,该方法包括:
针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;
基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的空间转录组芯片的测序数据的分析方法,该方法包括:
针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;
基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的空间转录组芯片的测序数据的分析方法,该方法包括:
针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;
基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种空间转录组芯片的测序数据的分析方法,其特征在于,包括:
针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;
基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
2.根据权利要求1所述的空间转录组芯片的测序数据的分析方法,其特征在于,所述对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,包括:
将所述空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库;其中,所述固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列;
对所述测序序列的read1进行kmer识别,得到所述测序序列的多个kmer;
针对所述kmer库中每种条形码序列种类,若所述测序序列的多个kmer中存在至少预设数量的kmer,与所述条形码序列种类下的目标条形码子序列对应的kmer匹配,且位置偏差不超过预设偏差,则将所述目标条形码子序列确定为所述测序序列的条形码子序列;
若所述测序序列的所有条形码子序列对应的条形码序列种类为所述预设种类数量的条形码序列种类,则保留所述测序序列的所有条形码子序列。
3.根据权利要求1所述的空间转录组芯片的测序数据的分析方法,其特征在于,所述基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列,包括:
基于所述测序序列的多个条形码子序列的识别位置,推断出所述测序序列的唯一分子标识符序列的位置;
基于所述测序序列的唯一分子标识符序列的位置,获得所述测序序列的唯一分子标识符序列。
4.根据权利要求1所述的空间转录组芯片的测序数据的分析方法,其特征在于,所述基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点,包括:
基于荧光解码文件,识别出所述空间转录组芯片上每个位置的条形码子序列;
若所述空间转录组芯片上不同位置的条形码子序列相同,则去除所述不同位置的条形码子序列;
将所述空间转录组芯片上剩余位置的各条形码子序列与所述测序序列的多个条形码子序列进行对比,保留同时识别出的条形码子序列;
确定保留的条形码子序列在所述空间转录组芯片上的空间位点。
5.根据权利要求1所述的空间转录组芯片的测序数据的分析方法,其特征在于,所述将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果,包括:
将所述测序序列的read2剪切为第一测序序列和第二测序序列;其中,所述第一测序序列为所述测序序列的read2的前设定长度的序列;
将所述第一测序序列与参考基因组进行比对,若所述第一测序序列的比对位置与参考基因组的基因位置重叠,则将所述参考基因组的基因位置的基因结果确定为所述测序序列的基因结果。
6.根据权利要求1所述的空间转录组芯片的测序数据的分析方法,其特征在于,所述基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果,包括:
基于所述基因表达矩阵,提取若干所述基因结果和若干所述基因结果对应的所述空间位点;
将若干所述基因结果对应的所述空间位点进行分级聚类,得到不同分辨率下的所述基因结果;
基于HE染色图像,识别出组织在所述空间转录组芯片上的空间位点;
将所述组织在所述空间转录组芯片上的空间位点对应的不同分辨率下的所述基因结果,确定为所述组织不同部位不同分辨率下的基因表达结果。
7.根据权利要求1所述的空间转录组芯片的测序数据的分析方法,其特征在于,所述方法还包括:
基于所述空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告。
8.一种空间转录组芯片的测序数据的分析装置,其特征在于,包括:
识别模块,用于针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;
确定模块,用于基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;
比对模块,用于将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;
生成模块,用于基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;
获得模块,用于基于所述基因表达矩阵和HE染色图像,获得组织不同部位不同分辨率下的基因表达结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的空间转录组芯片的测序数据的分析方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的空间转录组芯片的测序数据的分析方法的步骤。
CN202211256237.7A 2022-10-14 2022-10-14 空间转录组芯片的测序数据的分析方法及装置 Active CN115331733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211256237.7A CN115331733B (zh) 2022-10-14 2022-10-14 空间转录组芯片的测序数据的分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211256237.7A CN115331733B (zh) 2022-10-14 2022-10-14 空间转录组芯片的测序数据的分析方法及装置

Publications (2)

Publication Number Publication Date
CN115331733A true CN115331733A (zh) 2022-11-11
CN115331733B CN115331733B (zh) 2023-03-24

Family

ID=83914776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211256237.7A Active CN115331733B (zh) 2022-10-14 2022-10-14 空间转录组芯片的测序数据的分析方法及装置

Country Status (1)

Country Link
CN (1) CN115331733B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018037289A2 (en) * 2016-02-10 2018-03-01 Energin.R Technologies 2009 Ltd. Systems and methods for computational demultiplexing of genomic barcoded sequences
CN107937500A (zh) * 2017-11-17 2018-04-20 深圳华大生命科学研究院 批量获得高精度昆虫coi基因条形码的方法和试剂盒
CN111081318A (zh) * 2019-12-06 2020-04-28 人和未来生物科技(长沙)有限公司 一种融合基因检测方法、系统和介质
CN111128303A (zh) * 2018-10-31 2020-05-08 深圳华大生命科学研究院 基于已知序列确定目标物种中对应序列的方法和系统
CN111926063A (zh) * 2020-08-21 2020-11-13 中国人民解放军陆军军医大学第一附属医院 一种利用3d条形码的dna分子检测方法
CN112522371A (zh) * 2020-12-21 2021-03-19 广州基迪奥生物科技有限公司 一种空间转录组测序数据的分析方法
CN112927757A (zh) * 2021-02-24 2021-06-08 河南大学 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
WO2021174210A1 (en) * 2020-02-28 2021-09-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for determining spatial accumulation of signaling molecules within tissue samples
CN114540482A (zh) * 2022-01-28 2022-05-27 中国中医科学院广安门医院 基于空间转录组技术的芪珀生脉组合物改善房颤心肌纤维化的分析装置、方法
US20220180975A1 (en) * 2019-01-28 2022-06-09 The Broad Institute, Inc. Methods and systems for determining gene expression profiles and cell identities from multi-omic imaging data
CN216712064U (zh) * 2022-04-25 2022-06-10 北京百迈客生物科技有限公司 空间转录组芯片
CN114724632A (zh) * 2022-04-21 2022-07-08 内江师范学院 评估基因组组装完整度方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018037289A2 (en) * 2016-02-10 2018-03-01 Energin.R Technologies 2009 Ltd. Systems and methods for computational demultiplexing of genomic barcoded sequences
CN107937500A (zh) * 2017-11-17 2018-04-20 深圳华大生命科学研究院 批量获得高精度昆虫coi基因条形码的方法和试剂盒
CN111128303A (zh) * 2018-10-31 2020-05-08 深圳华大生命科学研究院 基于已知序列确定目标物种中对应序列的方法和系统
US20220180975A1 (en) * 2019-01-28 2022-06-09 The Broad Institute, Inc. Methods and systems for determining gene expression profiles and cell identities from multi-omic imaging data
CN111081318A (zh) * 2019-12-06 2020-04-28 人和未来生物科技(长沙)有限公司 一种融合基因检测方法、系统和介质
WO2021174210A1 (en) * 2020-02-28 2021-09-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for determining spatial accumulation of signaling molecules within tissue samples
CN111926063A (zh) * 2020-08-21 2020-11-13 中国人民解放军陆军军医大学第一附属医院 一种利用3d条形码的dna分子检测方法
CN112522371A (zh) * 2020-12-21 2021-03-19 广州基迪奥生物科技有限公司 一种空间转录组测序数据的分析方法
CN112927757A (zh) * 2021-02-24 2021-06-08 河南大学 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN114540482A (zh) * 2022-01-28 2022-05-27 中国中医科学院广安门医院 基于空间转录组技术的芪珀生脉组合物改善房颤心肌纤维化的分析装置、方法
CN114724632A (zh) * 2022-04-21 2022-07-08 内江师范学院 评估基因组组装完整度方法及装置
CN216712064U (zh) * 2022-04-25 2022-06-10 北京百迈客生物科技有限公司 空间转录组芯片

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAN HU ET AL: "SpaGCN: Integrating gene expression, spatial location and histology to identify spatial domains and spatially variable genes by graph convolutional network", 《NATURE》 *
RAN WANG ET AL: "Integration of Computational Analysis and Spatial Transcriptomics in Single-cell Study", 《GENOMICS, PROTEOMICS & BIOINFORMATICS》 *
WILLIAM H.HUDSON ET AL: "Localization of T cell clonotypes using the Visium spatial transcriptomics platform", 《STAR PROTOCOLS》 *
杜玲等: "高通量测序技术的发展及其在生命科学中的应用", 《中国畜牧兽医》 *

Also Published As

Publication number Publication date
CN115331733B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US10204207B2 (en) Systems and methods for transcriptome analysis
Siepel et al. Computational identification of evolutionarily conserved exons
Batzoglou et al. Human and mouse gene structure: comparative analysis and application to exon prediction
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
US11769073B2 (en) Methods and systems for producing an expanded training set for machine learning using biological sequences
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
CN108629156B (zh) 三代测序数据纠错的方法、装置和计算机可读存储介质
CN108595915B (zh) 一种基于dna变异检测的三代数据校正方法
CN112270953A (zh) 基于bd单细胞转录组测序数据的分析方法、装置及设备
US20110295977A1 (en) Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence information
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
EP2602734A1 (en) Robust variant identification and validation
CN115331733B (zh) 空间转录组芯片的测序数据的分析方法及装置
KR20190136765A (ko) 유전자 분석 장치 및 이를 이용한 유전자 분석 방법
KR20160039386A (ko) Itd 검출 장치 및 방법
Molinari et al. Transcriptome analysis using RNA-Seq fromexperiments with and without biological replicates: areview
CN110111847A (zh) 基于its2鉴定植物物种的方法及设备
CN114005489B (zh) 基于三代测序数据检测点突变的分析方法和装置
Carter et al. Vertebrate gene finding from multiple-species alignments using a two-level strategy
US9348968B2 (en) System and method for processing genome sequence in consideration of seed length
Xia et al. Distance-based phylogenetic methods
US10937523B2 (en) Methods, systems and computer readable storage media for generating accurate nucleotide sequences
CN112687339A (zh) 一种统计血浆dna片段测序数据中序列错误的方法和装置
CN114627964A (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
US20200194099A1 (en) Machine learning-based variant calling using sequencing data collected from different subjects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant