CN113409885B - 一种自动化数据处理以及作图方法及系统 - Google Patents

一种自动化数据处理以及作图方法及系统 Download PDF

Info

Publication number
CN113409885B
CN113409885B CN202110684169.3A CN202110684169A CN113409885B CN 113409885 B CN113409885 B CN 113409885B CN 202110684169 A CN202110684169 A CN 202110684169A CN 113409885 B CN113409885 B CN 113409885B
Authority
CN
China
Prior art keywords
chromosomes
chromosome
data
group
annotation file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110684169.3A
Other languages
English (en)
Other versions
CN113409885A (zh
Inventor
李冬梅
喻长顺
蔡春泉
舒剑波
陈建春
贾晓冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinyu Medical Laboratory Co ltd
Original Assignee
Tianjin Jinyu Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinyu Medical Laboratory Co ltd filed Critical Tianjin Jinyu Medical Laboratory Co ltd
Priority to CN202110684169.3A priority Critical patent/CN113409885B/zh
Publication of CN113409885A publication Critical patent/CN113409885A/zh
Application granted granted Critical
Publication of CN113409885B publication Critical patent/CN113409885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

本发明提出了一种自动化数据处理以及作图方法及系统,包括:步骤S1,采用计算机编程语言对数据的自动化处理预设逻辑,包括:(1)根据预设的CNV变异类型拆分数据;(2)获取注释文件,所述注释文件中记载有待处理的目标数据,对注释文件中目标数据的归一化值z得分大于第一预设值的绝对值,自定义致病性风险的变异;(3)获取注释文件,所述注释文件中记载有待处理的目标数据,对注释文件中目标数据的拷贝数CopyNum小于等于第二预设值,自定义致病性风险的变异;(4)删除预设列名的列;(5)根据染色体对文件进行拆分:为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分,并分别命名;步骤S2,自动化绘制svg格式的矢量图和pdf图。

Description

一种自动化数据处理以及作图方法及系统
技术领域
本发明涉及图像数据处理技术领域,特别涉及一种自动化数据处理以及作图方法及系统。
背景技术
高通量测序技术(High-Throughput Sequencing)又称为下一代测序技术(Next-Generation Sequencing)是基因测序技术的一种,其典型特点是一次可以检测成千上万个基因,与一代测序即Sanger测序一次只能测几百个碱基相比,通过大大增加,同时会产生大量的数据。将产生的数据通过生物信息学的方法注释,即可产生变异注释表。目前,高通量测序技术应用较广的是全外显子组测序,检测大约2万个基因,其中拷贝数变异(CopyNumber Variation,CNV)是基因结构变异(StructuralVariant,SV)的重要组成部分,由基因组发生重排而导致,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失(deletion)和重复(duplication)。每个临床样本分析需要从不同的角度分析两种变异,面对大量的临床样本人工分析需要耗费大量的时间和精力。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种自动化数据处理以及作图方法。
为了实现上述目的,本发明的实施例提供一种自动化数据处理以及作图方法,包括如下步骤:
步骤S1,采用计算机编程语言对数据的自动化处理预设逻辑,包括:
(1)根据预设的CNV变异类型拆分数据;
(2)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中目标数据的归一化值z得分大于第一预设值的绝对值,自定义致病性风险的变异;
(3)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中目标数据的拷贝数CopyNum小于等于第二预设值,自定义致病性风险的变异;其中,人类基因组中拷贝数最高为4个拷贝;
(4)删除预设列名的列;
(5)根据染色体对文件进行拆分:为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分,并分别命名;
步骤S2,自动化绘制svg格式的矢量图和pdf图。
进一步,所述预设的CNV变异类型包括:缺失变异和重复变异。
进一步,所述预设列名包括:“CnvName”,“start_bin”,“end_bin”,“cnv_length”,“continue_bin_num”,“bin_num”,“raito”,“z-score”,“Tag”,“cytoBand”,“gene”,“OMIM”,“decipher”,“DGV”。
进一步,匹配R程序需要将重复变异类型按染色体进行拆分,以“dup1.txt”的形式命名,将缺失变异类型按染色体进行拆分,以“indel1.txt”的形式命名。
进一步,在所述步骤S2中,首先将多条染色体分组放置,其中,第一组为1-3号染色体,第二组为4-5号染色体,第三组为6-12号染色体,第四组为13-15号染色体,第五组为16-18号染色体,第六组为19-20号染色体,第七组为21-22号染色体,第八组为女性X染色体/男性X-Y染色体;
然后对染色体进行等比例缩放;根据染色体条带新型标记条带颜色及条带编号,根据染色体着丝粒位置标记丝粒位点;在染色体右侧绘制标尺,将重复变异类型和缺失变异类型的数据分别代入到图中,生成svg格式的矢量图和pdf图;
男性样本绘制24条染色体,包括:22条常染色体+X染色体+Y染色体;
女性样本绘制23条染色体,包括:22条常染色体+X染色体,女性样本X染色体没有dup。
本发明的实施例还提供一种自动化数据处理及作图系统,包括:数据自动化处理模块和自动化绘图模块,其中,
所述数据自动化处理模块用于采用计算机编程语言对数据的自动化处理预设逻辑,包括:(1)根据预设的CNV变异类型拆分数据;
(2)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中目标数据的归一化值,z得分大于第一预设值的绝对值,自定义致病性风险的变异;
(3)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中目标数据的拷贝数CopyNum小于等于第二预设值,自定义致病性风险的变异;其中,人类基因组中拷贝数最高为4个拷贝;
(4)删除预设列名的列;
(5)根据染色体对文件进行拆分:为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分,并分别命名;
所述自动化绘图模块用于自动化绘制svg格式的矢量图和pdf图。
进一步,所述数据自动化处理模块设置预设的CNV变异类型包括:缺失变异和重复变异。
进一步,所述预设列名包括:“CnvName”,“start_bin”,“end_bin”,“cnv_length”,“continue_bin_num”,“bin_num”,“raito”,“z-score”,“Tag”,“cytoBand”,“gene”,“OMIM”,“decipher”,“DGV”。
进一步,所述数据自动化处理模块匹配R程序需要将重复变异类型按染色体进行拆分,以“dup1.txt”的形式命名,将缺失变异类型按染色体进行拆分,以“indel1.txt”的形式命名。
进一步,所述自动化绘图模块首先将多条染色体分组放置,其中,第一组为1-3号染色体,第二组为4-5号染色体,第三组为6-12号染色体,第四组为13-15号染色体,第五组为16-18号染色体,第六组为19-20号染色体,第七组为21-22号染色体,第八组为女性X染色体/男性X-Y染色体;
然后对染色体进行等比例缩放;根据染色体条带新型标记条带颜色及条带编号,根据染色体着丝粒位置标记丝粒位点;在染色体右侧绘制标尺,将重复变异类型和缺失变异类型的数据分别代入到图中,生成svg格式的矢量图和pdf图;
男性样本绘制24条染色体,包括:22条常染色体+X染色体+Y染色体;
女性样本绘制23条染色体,包括:22条常染色体+X染色体,女性样本X染色体没有dup。
根据本发明实施例的自动化数据处理以及作图方法及系统,其核心是采用计算机编程语言(例如python程序等)对数据的自动化处理以及自动化绘制svg格式的矢量图以及pdf图。具体通过python程序数据处理结合R程序可视化作图可实现几分钟内处理完一个临床样本,快速准确的找到大片段的重复以及缺失变异位于染色体的位置以及重复缺失的片段大小,并且可以一目了然所有的重复以及缺失变异,大大提高了工作效率,可以更好的服务于临床解读。本发明开发的一款可以快速处理数据并作图的软件,通过预设的逻辑可以在1分钟内快速准确的实现对临床样本的过滤及拆分,大大提高了效率,通过将处理后的数据带入到R程序中可实现2分钟内自动绘制svg格式的矢量图以及pdf图,大大提高了临床解读人员的工作效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的自动化数据处理以及作图方法的流程图;
图2为根据本发明实施例的自动化数据处理以及作图系统的结构图;
图3为采用本发明的作图方法实现的男性X-Y染色体的svg格式的矢量图;
图4为采用本发明的作图方法实现的女性X染色体的svg格式的矢量图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例的自动化数据处理以及作图方法设定的逻辑分别考虑了缺失和重复两种变异,创新性的采用了python处理数据以及R作图的方式分析CNV的数据。
具体的,本发明的自动化数据处理以及作图方法,包括如下步骤:
步骤S1,采用计算机编程语言对数据的自动化处理预设逻辑,包括:
(1)根据预设的CNV变异类型拆分数据;
在本发明的实施例中,预设的CNV变异类型包括:缺失变异和重复变异。其中,计算机编程语言可以采用python程序或c++等编程语言。
(2)获取注释文件,所述注释文件中记载有待处理的目标数据,对注释文件中目标数据的归一化值z得分(标准值z-score)大于第一预设值的绝对值,实验室自定义的综合考虑为致病性风险的变异。
优先的,该第一预设值为3。需要说明的是,上述数值选择仅是出于示例的目的,而不是为了限制本发明,根据需要还可以选择其他数值。
(3)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中目标数据的拷贝数CopyNum小于等于第二预设值,自定义致病性风险的变异;其中,第二预设值为4,人类基因组中拷贝数最高为4个拷贝。
(4)删除预设列名的列;
在本发明的实施例中,预设列名包括:“CnvName”,“start_bin”,“end_bin”,“cnv_length”,“continue_bin_num”,“bin_num”,“raito”,“z-score”,“Tag”,“cytoBand”,“gene”,“OMIM”,“decipher”,“DGV”的列。
(5)根据染色体对文件进行拆分:为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分,并分别命名。
具体的,匹配R程序需要将重复变异类型按染色体进行拆分,以“dup1.txt”的形式命名,将缺失变异类型按染色体进行拆分,以“indel1.txt”的形式命名。
步骤S2,自动化绘制svg格式的矢量图和pdf图。
在本发明的实施例中,可以采用R程序绘制。
首先将多条染色体分组放置,其中,第一组为1-3号染色体,第二组为4-5号染色体,第三组为6-12号染色体,第四组为13-15号染色体,第五组为16-18号染色体,第六组为19-20号染色体,第七组为21-22号染色体,第八组为女性X染色体/男性X-Y染色体。
然后对染色体进行等比例缩放;根据染色体条带新型标记条带颜色及条带编号,根据染色体着丝粒位置标记丝粒位点;在染色体右侧绘制标尺,将重复变异类型和缺失变异类型的数据分别代入到图中,生成svg格式的矢量图和pdf图。
下面结合具体实施例对采用R程序自动化绘制svg格式的矢量图和pdf图的过程进行说明。
1、将24条染色体分组放置,第一组为1-3号染色体,第二组为4-5号染色体,第三组为6-12号染色体,第四组为13-15号染色体,第五组为16-18号染色体,第六组为19-20号染色体,第七组为21-22号染色体,第八组为女性X染色体/男性X-Y染色体。
2、根据A4纸的比例对24条染色体等比例缩放。
3、根据染色体条带信息标记条带颜色及条带编号。
4、根据染色体着丝粒位置标记着丝粒位点。
5、在染色体右侧绘制标尺,标记为“0”,“1”,“2”,“3”,“4”,其中“0”代表0个拷贝数,“1”代表1个拷贝数,“2”代表2个拷贝数,“3”代表3个拷贝数,“4”代表4个拷贝数。女性X染色体标记为“0”,“1”,“2”,“3”,“4”;男性X染色体标记为“0”,“1”,“2”,Y染色体标记为“0”,“1”,“2”。
6、将重复变异类型的数据带入到图中,横向代表拷贝数大小,纵向代表重复变异在染色体上的具体位置以为CNV长度,蓝色代表重复(Duplication)。
7、将缺失变异类型的数据带入到图中,横向代表拷贝数大小,纵向代表重复变异在染色体上的具体位置以为CNV长度,红色代表缺失(Deletion)。
8、其中男性样本性染色体包含“X”,“Y”,且拷贝数小于等于2,女性样本性染色体只包含“X”且拷贝数小于等于4。
生成文件格式为svg格式的矢量图以及pdf图。图3为采用本发明的作图方法实现的男性X-Y染色体的svg格式的矢量图;图4为采用本发明的作图方法实现的女性X染色体的svg格式的矢量图。
男性样本绘制24条染色体,包括:22条常染色体+X染色体+Y染色体;
女性样本绘制23条染色体,包括:22条常染色体+X染色体,女性样本X染色体没有dup。
目前解读人员都是根据CNV的注释文件来分析临床数据,几千万行的数据需要花费很多时间和精力,通过可视化图的方式可以快速找到大片段的重复以及缺失变异位于染色体的位置以及重复缺失的片段大小,并且可以一目了然所有的重复以及缺失变异,大大提高了工作效率。
如图2所示,本发明实施例还提供一种自动化数据处理及作图系统,包括:数据自动化处理模块100和自动化绘图模块200。
数据自动化处理模块100用于采计算机编程语言对数据的自动化处理预设逻辑,包括:
(1)根据预设的CNV变异类型拆分数据。
在本发明的实施例中,数据自动化处理模块100设置预设的CNV变异类型包括:缺失变异和重复变异。其中,计算机编程语言可以采用python程序或c++等编程语言。
(2)获取注释文件,所述注释文件中记载有待处理的目标数据,对注释文件中目标数据的归一化值z得分(标准值z-score)z得分大于第一预设值的绝对值,自定义致病性风险的变异;
优先的,该第一预设值为3。需要说明的是,上述数值选择仅是出于示例的目的,而不是为了限制本发明,根据需要还可以选择其他数值。
(3)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中目标数据的拷贝数CopyNum小于等于第二预设值,自定义致病性风险的变异;其中,第二预设值为4,人类基因组中拷贝数最高为4个拷贝
(4)删除预设列名的列。
在本发明的实施例中,预设列名包括:“CnvName”,“start_bin”,“end_bin”,“cnv_length”,“continue_bin_num”,“bin_num”,“raito”,“z-score”,“Tag”,“cytoBand”,“gene”,“OMIM”,“decipher”,“DGV”的列。
(5)根据染色体对文件进行拆分:为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分,并分别命名。
具体的,数据自动化处理模块100匹配R程序需要将重复变异类型按染色体进行拆分,以“dup1.txt”的形式命名,将缺失变异类型按染色体进行拆分,以“indel1.txt”的形式命名。
自动化绘图模块200用于采用R程序自动化绘制svg格式的矢量图和pdf图。在本发明的实施例中,可以采用R程序绘制。
具体的,自动化绘图模块200首先将多条染色体分组放置,其中,第一组为1-3号染色体,第二组为4-5号染色体,第三组为6-12号染色体,第四组为13-15号染色体,第五组为16-18号染色体,第六组为19-20号染色体,第七组为21-22号染色体,第八组为女性X染色体/男性X-Y染色体。然后对染色体进行等比例缩放;根据染色体条带新型标记条带颜色及条带编号,根据染色体着丝粒位置标记丝粒位点;在染色体右侧绘制标尺,将重复变异类型和缺失变异类型的数据分别代入到图中,生成svg格式的矢量图和pdf图。男性样本绘制24条染色体,包括:22条常染色体+X染色体+Y染色体;
女性样本绘制23条染色体,包括:22条常染色体+X染色体,女性样本X染色体没有dup。
目前解读人员都是根据CNV的注释文件来分析临床数据,几千万行的数据需要花费很多时间和精力,通过可视化图的方式可以快速找到大片段的重复以及缺失变异位于染色体的位置以及重复缺失的片段大小,并且可以一目了然所有的重复以及缺失变异,大大提高了工作效率。
根据本发明实施例的自动化数据处理以及作图方法及系统,其核心是python程序对数据的自动化处理以及R程序自动化绘制svg格式的矢量图以及pdf图。具体通过python程序数据处理结合R程序可视化作图可实现几分钟内处理完一个临床样本,快速准确的找到大片段的重复以及缺失变异位于染色体的位置以及重复缺失的片段大小,并且可以一目了然所有的重复以及缺失变异,大大提高了工作效率,可以更好的服务于临床解读。本发明基于Python和R开发的一款可以快速处理数据并作图的软件,通过python程序预设的逻辑可以在1分钟内快速准确的实现对临床样本的过滤及拆分,大大提高了效率,通过将python程序处理后的数据带入到R程序中可实现2分钟内自动绘制svg格式的矢量图以及pdf图,大大提高了临床解读人员的工作效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (8)

1.一种自动化数据处理以及作图方法,其特征在于,包括如下步骤:
步骤S1,采用计算机编程语言对数据的自动化处理预设逻辑,包括:
(1)根据预设的CNV变异类型拆分数据;
(2)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中归一化值z得分大于第一预设值的绝对值的目标数据,自定义致病性风险的变异;
(3)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中拷贝数CopyNum小于等于第二预设值的目标数据,自定义致病性风险的变异;其中,人类基因组中拷贝数最高为4个拷贝;
(4)删除注释文件中的预设列名的列;
(5)根据染色体对经过(2)、(3)和(4)处理后的注释文件进行拆分:为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分,并分别命名;
步骤S2,自动化绘制svg格式的矢量图和pdf图,其中,首先将多条染色体分组放置,其中,第一组为1-3号染色体,第二组为4-5号染色体,第三组为6-12号染色体,第四组为13-15号染色体,第五组为16-18号染色体,第六组为19-20号染色体,第七组为21-22号染色体,第八组为女性X染色体/男性X-Y染色体;
然后对染色体进行等比例缩放;根据染色体条带新型标记条带颜色及条带编号,根据染色体着丝粒位置标记丝粒位点;在染色体右侧绘制标尺,将重复变异类型和缺失变异类型的数据分别代入到图中,生成svg格式的矢量图和pdf图;
男性样本绘制24条染色体,包括:22条常染色体+X染色体+Y染色体;
女性样本绘制23条染色体,包括:22条常染色体+X染色体,女性样本X染色体没有dup。
2.如权利要求1所述的自动化数据处理以及作图方法,其特征在于,所述预设的CNV变异类型包括:缺失变异和重复变异。
3.如权利要求1所述的自动化数据处理以及作图方法,其特征在于,所述预设列名包括:“CnvName”,“start_bin”,“end_bin”,“cnv_length”,“continue_bin_num”,“bin_num”,“raito”,“z-score”,“Tag”,“cytoBand”,“gene”,“OMIM”,“decipher”,“DGV”。
4.如权利要求1所述的自动化数据处理以及作图方法,其特征在于,匹配R程序需要将重复变异类型按染色体进行拆分,以“dup1.txt”的形式命名,将缺失变异类型按染色体进行拆分,以“indel1.txt”的形式命名。
5.一种自动化数据处理及作图系统,其特征在于,包括:数据自动化处理模块和自动化绘图模块,其中,
所述数据自动化处理模块用于采用计算机编程语言对数据的自动化处理预设逻辑,包括:(1)根据预设的CNV变异类型拆分数据;
(2)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中归一化值z得分大于第一预设值的绝对值的目标数据,自定义致病性风险的变异;
(3)获取注释文件,所述注释文件中记载有待处理的目标数据,对所述注释文件中拷贝数CopyNum小于等于第二预设值的目标数据,自定义致病性风险的变异;其中,人类基因组中拷贝数最高为4个拷贝;
(4)删除注释文件中的预设列名的列;
(5)根据染色体对经过(2)、(3)和(4)处理后的注释文件进行拆分:为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分,并分别命名;
所述自动化绘图模块用于自动化绘制svg格式的矢量图和pdf图,其中,首先将多条染色体分组放置,其中,第一组为1-3号染色体,第二组为4-5号染色体,第三组为6-12号染色体,第四组为13-15号染色体,第五组为16-18号染色体,第六组为19-20号染色体,第七组为21-22号染色体,第八组为女性X染色体/男性X-Y染色体;
然后对染色体进行等比例缩放;根据染色体条带新型标记条带颜色及条带编号,根据染色体着丝粒位置标记丝粒位点;在染色体右侧绘制标尺,将重复变异类型和缺失变异类型的数据分别代入到图中,生成svg格式的矢量图和pdf图;
男性样本绘制24条染色体,包括:22条常染色体+X染色体+Y染色体;
女性样本绘制23条染色体,包括:22条常染色体+X染色体,女性样本X染色体没有dup。
6.如权利要求5所述的自动化数据处理及作图系统,其特征在于,所述数据自动化处理模块设置预设的CNV变异类型包括:缺失变异和重复变异。
7.如权利要求5所述的自动化数据处理及作图系统,其特征在于,所述预设列名包括:“CnvName”,“start_bin”,“end_bin”,“cnv_length”,“continue_bin_num”,“bin_num”,“raito”,“z-score”,“Tag”,“cytoBand”,“gene”,“OMIM”,“decipher”,“DGV”。
8.如权利要求5所述的自动化数据处理及作图系统,其特征在于,所述数据自动化处理模块匹配R程序需要将重复变异类型按染色体进行拆分,以“dup1.txt”的形式命名,将缺失变异类型按染色体进行拆分,以“indel1.txt”的形式命名。
CN202110684169.3A 2021-06-21 2021-06-21 一种自动化数据处理以及作图方法及系统 Active CN113409885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110684169.3A CN113409885B (zh) 2021-06-21 2021-06-21 一种自动化数据处理以及作图方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110684169.3A CN113409885B (zh) 2021-06-21 2021-06-21 一种自动化数据处理以及作图方法及系统

Publications (2)

Publication Number Publication Date
CN113409885A CN113409885A (zh) 2021-09-17
CN113409885B true CN113409885B (zh) 2022-09-20

Family

ID=77681924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110684169.3A Active CN113409885B (zh) 2021-06-21 2021-06-21 一种自动化数据处理以及作图方法及系统

Country Status (1)

Country Link
CN (1) CN113409885B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105722994A (zh) * 2013-06-17 2016-06-29 维里纳塔健康公司 用于确定性染色体中的拷贝数变异的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7702468B2 (en) * 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
EP2984598A1 (en) * 2013-03-06 2016-02-17 Life Technologies Corporation Systems and methods for determining copy number variation
CN106055923A (zh) * 2016-05-13 2016-10-26 万康源(天津)基因科技有限公司 一种基因拷贝数变异分析方法
TW201816645A (zh) * 2016-09-23 2018-05-01 美商德萊福公司 用於生物樣本的自動化處理及分析、臨床資訊處理及臨床試驗配對之整合系統及方法
CN109192246B (zh) * 2018-06-22 2020-10-16 深圳市达仁基因科技有限公司 检测染色体拷贝数异常的方法、装置和存储介质
AU2020274091A1 (en) * 2019-05-14 2021-12-09 Tempus Ai, Inc. Systems and methods for multi-label cancer classification
CA3110884A1 (en) * 2019-08-16 2021-02-25 The Chinese University Of Hong Kong Determination of base modifications of nucleic acids

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105722994A (zh) * 2013-06-17 2016-06-29 维里纳塔健康公司 用于确定性染色体中的拷贝数变异的方法

Also Published As

Publication number Publication date
CN113409885A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
Nelson et al. McClintock: an integrated pipeline for detecting transposable element insertions in whole-genome shotgun sequencing data
CN101984445B (zh) 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
CN107944228B (zh) 一种基因测序变异位点的可视化方法
CN111009286A (zh) 对宿主样本进行微生物分析的方法和装置
CN112133368A (zh) 一种基于三代测序技术的宏基因组测序数据的自动化分析方法
KR101015765B1 (ko) 래스터 일러스트레이트된 부품 이미지를 인텔리전트벡터-레이어된 파일로 변환하기 위한 장치 및 방법
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN112487930A (zh) 自动染色体核型分析方法、系统和存储介质
CN113488106A (zh) 一种快速获取目标基因组区域比对结果数据的方法
Hamidinekoo et al. DeepPod: a convolutional neural network based quantification of fruit number in Arabidopsis
Appel et al. Computer analysis of 2-D images
CN115458052A (zh) 基于一代测序的基因突变分析方法、设备和存储介质
CN113409885B (zh) 一种自动化数据处理以及作图方法及系统
Batut et al. Hands-on: Hands-on: Reference-based RNA-Seq data analysis
CN112614541A (zh) 基因编辑位点的自动筛选方法、系统、装置及存储介质
CN114203259A (zh) 一种多组学数据整合分析方法和在线交互式综合分析平台
JP3469542B2 (ja) cDNA配列とゲノム配列との対応表示方法、記録媒体、シーケンサ装置及びプライマ設計方法
US6994965B2 (en) Method for displaying results of hybridization experiment
JP2008226095A (ja) 遺伝子発現変動解析方法及びシステム、並びにプログラム
US20030211484A1 (en) Sequence lineage evaluation interface
JPH11338903A (ja) 機器データ抽出方法、装置及び記録媒体
Videm Hands-on: Hands-on: Pre-processing of 10X Single-Cell ATAC-seq Datasets
CN114333994B (zh) 基于无参转录组测序来确定差异基因通路的方法及系统
CN110232952B (zh) 一种批量分析微卫星数据的生物信息学方法
CN117218655A (zh) 图像中的结构化信息提取方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant