CN113409885B

CN113409885B - 一种自动化数据处理以及作图方法及系统

Info

Publication number: CN113409885B
Application number: CN202110684169.3A
Authority: CN
Inventors: 李冬梅; 喻长顺; 蔡春泉; 舒剑波; 陈建春; 贾晓冬
Original assignee: Tianjin Jinyu Medical Laboratory Co ltd
Current assignee: Tianjin Jinyu Medical Laboratory Co ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-09-20
Anticipated expiration: 2041-06-21
Also published as: CN113409885A

Abstract

本发明提出了一种自动化数据处理以及作图方法及系统，包括：步骤S1，采用计算机编程语言对数据的自动化处理预设逻辑，包括：(1)根据预设的CNV变异类型拆分数据；(2)获取注释文件，所述注释文件中记载有待处理的目标数据，对注释文件中目标数据的归一化值z得分大于第一预设值的绝对值，自定义致病性风险的变异；(3)获取注释文件，所述注释文件中记载有待处理的目标数据，对注释文件中目标数据的拷贝数CopyNum小于等于第二预设值，自定义致病性风险的变异；(4)删除预设列名的列；(5)根据染色体对文件进行拆分：为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分，并分别命名；步骤S2，自动化绘制svg格式的矢量图和pdf图。

Description

一种自动化数据处理以及作图方法及系统

技术领域

本发明涉及图像数据处理技术领域，特别涉及一种自动化数据处理以及作图方法及系统。

背景技术

高通量测序技术(High-Throughput Sequencing)又称为下一代测序技术(Next-Generation Sequencing)是基因测序技术的一种，其典型特点是一次可以检测成千上万个基因，与一代测序即Sanger测序一次只能测几百个碱基相比，通过大大增加，同时会产生大量的数据。将产生的数据通过生物信息学的方法注释，即可产生变异注释表。目前，高通量测序技术应用较广的是全外显子组测序，检测大约2万个基因，其中拷贝数变异(CopyNumber Variation,CNV)是基因结构变异(StructuralVariant,SV)的重要组成部分，由基因组发生重排而导致,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失(deletion)和重复(duplication)。每个临床样本分析需要从不同的角度分析两种变异，面对大量的临床样本人工分析需要耗费大量的时间和精力。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种自动化数据处理以及作图方法。

为了实现上述目的，本发明的实施例提供一种自动化数据处理以及作图方法，包括如下步骤：

步骤S1，采用计算机编程语言对数据的自动化处理预设逻辑，包括：

(1)根据预设的CNV变异类型拆分数据；

(2)获取注释文件，所述注释文件中记载有待处理的目标数据，对所述注释文件中目标数据的归一化值z得分大于第一预设值的绝对值，自定义致病性风险的变异；

(3)获取注释文件，所述注释文件中记载有待处理的目标数据，对所述注释文件中目标数据的拷贝数CopyNum小于等于第二预设值，自定义致病性风险的变异；其中，人类基因组中拷贝数最高为4个拷贝；

(4)删除预设列名的列；

(5)根据染色体对文件进行拆分：为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分，并分别命名；

步骤S2，自动化绘制svg格式的矢量图和pdf图。

进一步，所述预设的CNV变异类型包括：缺失变异和重复变异。

进一步，所述预设列名包括：“CnvName”，“start_bin”，“end_bin”，“cnv_length”,“continue_bin_num”,“bin_num”，“raito”，“z-score”，“Tag”，“cytoBand”，“gene”，“OMIM”，“decipher”，“DGV”。

进一步，匹配R程序需要将重复变异类型按染色体进行拆分，以“dup1.txt”的形式命名，将缺失变异类型按染色体进行拆分，以“indel1.txt”的形式命名。

进一步，在所述步骤S2中，首先将多条染色体分组放置，其中，第一组为1-3号染色体，第二组为4-5号染色体，第三组为6-12号染色体，第四组为13-15号染色体，第五组为16-18号染色体，第六组为19-20号染色体，第七组为21-22号染色体，第八组为女性X染色体/男性X-Y染色体；

然后对染色体进行等比例缩放；根据染色体条带新型标记条带颜色及条带编号，根据染色体着丝粒位置标记丝粒位点；在染色体右侧绘制标尺，将重复变异类型和缺失变异类型的数据分别代入到图中，生成svg格式的矢量图和pdf图；

男性样本绘制24条染色体，包括：22条常染色体+X染色体+Y染色体；

女性样本绘制23条染色体，包括：22条常染色体+X染色体，女性样本X染色体没有dup。

本发明的实施例还提供一种自动化数据处理及作图系统，包括：数据自动化处理模块和自动化绘图模块，其中，

所述数据自动化处理模块用于采用计算机编程语言对数据的自动化处理预设逻辑，包括：(1)根据预设的CNV变异类型拆分数据；

(2)获取注释文件，所述注释文件中记载有待处理的目标数据，对所述注释文件中目标数据的归一化值，z得分大于第一预设值的绝对值，自定义致病性风险的变异；

(4)删除预设列名的列；

所述自动化绘图模块用于自动化绘制svg格式的矢量图和pdf图。

进一步，所述数据自动化处理模块设置预设的CNV变异类型包括：缺失变异和重复变异。

进一步，所述数据自动化处理模块匹配R程序需要将重复变异类型按染色体进行拆分，以“dup1.txt”的形式命名，将缺失变异类型按染色体进行拆分，以“indel1.txt”的形式命名。

进一步，所述自动化绘图模块首先将多条染色体分组放置，其中，第一组为1-3号染色体，第二组为4-5号染色体，第三组为6-12号染色体，第四组为13-15号染色体，第五组为16-18号染色体，第六组为19-20号染色体，第七组为21-22号染色体，第八组为女性X染色体/男性X-Y染色体；

根据本发明实施例的自动化数据处理以及作图方法及系统，其核心是采用计算机编程语言(例如python程序等)对数据的自动化处理以及自动化绘制svg格式的矢量图以及pdf图。具体通过python程序数据处理结合R程序可视化作图可实现几分钟内处理完一个临床样本，快速准确的找到大片段的重复以及缺失变异位于染色体的位置以及重复缺失的片段大小，并且可以一目了然所有的重复以及缺失变异，大大提高了工作效率，可以更好的服务于临床解读。本发明开发的一款可以快速处理数据并作图的软件，通过预设的逻辑可以在1分钟内快速准确的实现对临床样本的过滤及拆分，大大提高了效率，通过将处理后的数据带入到R程序中可实现2分钟内自动绘制svg格式的矢量图以及pdf图，大大提高了临床解读人员的工作效率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的自动化数据处理以及作图方法的流程图；

图2为根据本发明实施例的自动化数据处理以及作图系统的结构图；

图3为采用本发明的作图方法实现的男性X-Y染色体的svg格式的矢量图；

图4为采用本发明的作图方法实现的女性X染色体的svg格式的矢量图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明实施例的自动化数据处理以及作图方法设定的逻辑分别考虑了缺失和重复两种变异，创新性的采用了python处理数据以及R作图的方式分析CNV的数据。

具体的，本发明的自动化数据处理以及作图方法，包括如下步骤：

(1)根据预设的CNV变异类型拆分数据；

在本发明的实施例中，预设的CNV变异类型包括：缺失变异和重复变异。其中，计算机编程语言可以采用python程序或c++等编程语言。

(2)获取注释文件，所述注释文件中记载有待处理的目标数据，对注释文件中目标数据的归一化值z得分(标准值z-score)大于第一预设值的绝对值，实验室自定义的综合考虑为致病性风险的变异。

优先的，该第一预设值为3。需要说明的是，上述数值选择仅是出于示例的目的，而不是为了限制本发明，根据需要还可以选择其他数值。

(3)获取注释文件，所述注释文件中记载有待处理的目标数据，对所述注释文件中目标数据的拷贝数CopyNum小于等于第二预设值，自定义致病性风险的变异；其中，第二预设值为4，人类基因组中拷贝数最高为4个拷贝。

(4)删除预设列名的列；

在本发明的实施例中，预设列名包括：“CnvName”，“start_bin”，“end_bin”，“cnv_length”,“continue_bin_num”,“bin_num”，“raito”，“z-score”，“Tag”，“cytoBand”，“gene”，“OMIM”，“decipher”，“DGV”的列。

(5)根据染色体对文件进行拆分：为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分，并分别命名。

具体的，匹配R程序需要将重复变异类型按染色体进行拆分，以“dup1.txt”的形式命名，将缺失变异类型按染色体进行拆分，以“indel1.txt”的形式命名。

步骤S2，自动化绘制svg格式的矢量图和pdf图。

在本发明的实施例中，可以采用R程序绘制。

首先将多条染色体分组放置，其中，第一组为1-3号染色体，第二组为4-5号染色体，第三组为6-12号染色体，第四组为13-15号染色体，第五组为16-18号染色体，第六组为19-20号染色体，第七组为21-22号染色体，第八组为女性X染色体/男性X-Y染色体。

然后对染色体进行等比例缩放；根据染色体条带新型标记条带颜色及条带编号，根据染色体着丝粒位置标记丝粒位点；在染色体右侧绘制标尺，将重复变异类型和缺失变异类型的数据分别代入到图中，生成svg格式的矢量图和pdf图。

下面结合具体实施例对采用R程序自动化绘制svg格式的矢量图和pdf图的过程进行说明。

1、将24条染色体分组放置，第一组为1-3号染色体，第二组为4-5号染色体，第三组为6-12号染色体，第四组为13-15号染色体，第五组为16-18号染色体，第六组为19-20号染色体，第七组为21-22号染色体，第八组为女性X染色体/男性X-Y染色体。

2、根据A4纸的比例对24条染色体等比例缩放。

3、根据染色体条带信息标记条带颜色及条带编号。

4、根据染色体着丝粒位置标记着丝粒位点。

5、在染色体右侧绘制标尺，标记为“0”，“1”，“2”，“3”，“4”，其中“0”代表0个拷贝数，“1”代表1个拷贝数，“2”代表2个拷贝数，“3”代表3个拷贝数，“4”代表4个拷贝数。女性X染色体标记为“0”，“1”，“2”，“3”，“4”；男性X染色体标记为“0”，“1”，“2”，Y染色体标记为“0”，“1”，“2”。

6、将重复变异类型的数据带入到图中，横向代表拷贝数大小，纵向代表重复变异在染色体上的具体位置以为CNV长度，蓝色代表重复(Duplication)。

7、将缺失变异类型的数据带入到图中，横向代表拷贝数大小，纵向代表重复变异在染色体上的具体位置以为CNV长度，红色代表缺失(Deletion)。

8、其中男性样本性染色体包含“X”，“Y”，且拷贝数小于等于2，女性样本性染色体只包含“X”且拷贝数小于等于4。

生成文件格式为svg格式的矢量图以及pdf图。图3为采用本发明的作图方法实现的男性X-Y染色体的svg格式的矢量图；图4为采用本发明的作图方法实现的女性X染色体的svg格式的矢量图。

目前解读人员都是根据CNV的注释文件来分析临床数据，几千万行的数据需要花费很多时间和精力，通过可视化图的方式可以快速找到大片段的重复以及缺失变异位于染色体的位置以及重复缺失的片段大小，并且可以一目了然所有的重复以及缺失变异，大大提高了工作效率。

如图2所示，本发明实施例还提供一种自动化数据处理及作图系统，包括：数据自动化处理模块100和自动化绘图模块200。

数据自动化处理模块100用于采计算机编程语言对数据的自动化处理预设逻辑，包括：

(1)根据预设的CNV变异类型拆分数据。

在本发明的实施例中，数据自动化处理模块100设置预设的CNV变异类型包括：缺失变异和重复变异。其中，计算机编程语言可以采用python程序或c++等编程语言。

(2)获取注释文件，所述注释文件中记载有待处理的目标数据，对注释文件中目标数据的归一化值z得分(标准值z-score)z得分大于第一预设值的绝对值，自定义致病性风险的变异；

(3)获取注释文件，所述注释文件中记载有待处理的目标数据，对所述注释文件中目标数据的拷贝数CopyNum小于等于第二预设值，自定义致病性风险的变异；其中，第二预设值为4，人类基因组中拷贝数最高为4个拷贝

(4)删除预设列名的列。

具体的，数据自动化处理模块100匹配R程序需要将重复变异类型按染色体进行拆分，以“dup1.txt”的形式命名，将缺失变异类型按染色体进行拆分，以“indel1.txt”的形式命名。

自动化绘图模块200用于采用R程序自动化绘制svg格式的矢量图和pdf图。在本发明的实施例中，可以采用R程序绘制。

具体的，自动化绘图模块200首先将多条染色体分组放置，其中，第一组为1-3号染色体，第二组为4-5号染色体，第三组为6-12号染色体，第四组为13-15号染色体，第五组为16-18号染色体，第六组为19-20号染色体，第七组为21-22号染色体，第八组为女性X染色体/男性X-Y染色体。然后对染色体进行等比例缩放；根据染色体条带新型标记条带颜色及条带编号，根据染色体着丝粒位置标记丝粒位点；在染色体右侧绘制标尺，将重复变异类型和缺失变异类型的数据分别代入到图中，生成svg格式的矢量图和pdf图。男性样本绘制24条染色体，包括：22条常染色体+X染色体+Y染色体；

根据本发明实施例的自动化数据处理以及作图方法及系统，其核心是python程序对数据的自动化处理以及R程序自动化绘制svg格式的矢量图以及pdf图。具体通过python程序数据处理结合R程序可视化作图可实现几分钟内处理完一个临床样本，快速准确的找到大片段的重复以及缺失变异位于染色体的位置以及重复缺失的片段大小，并且可以一目了然所有的重复以及缺失变异，大大提高了工作效率，可以更好的服务于临床解读。本发明基于Python和R开发的一款可以快速处理数据并作图的软件，通过python程序预设的逻辑可以在1分钟内快速准确的实现对临床样本的过滤及拆分，大大提高了效率，通过将python程序处理后的数据带入到R程序中可实现2分钟内自动绘制svg格式的矢量图以及pdf图，大大提高了临床解读人员的工作效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种自动化数据处理以及作图方法，其特征在于，包括如下步骤：

(1)根据预设的CNV变异类型拆分数据；

(2)获取注释文件，所述注释文件中记载有待处理的目标数据，对所述注释文件中归一化值z得分大于第一预设值的绝对值的目标数据，自定义致病性风险的变异；

(3)获取注释文件，所述注释文件中记载有待处理的目标数据，对所述注释文件中拷贝数CopyNum小于等于第二预设值的目标数据，自定义致病性风险的变异；其中，人类基因组中拷贝数最高为4个拷贝；

(4)删除注释文件中的预设列名的列；

(5)根据染色体对经过(2)、(3)和(4)处理后的注释文件进行拆分：为匹配R程序将重复变异类型和缺失变异类型分别按照染色体进行拆分，并分别命名；

步骤S2，自动化绘制svg格式的矢量图和pdf图，其中，首先将多条染色体分组放置，其中，第一组为1-3号染色体，第二组为4-5号染色体，第三组为6-12号染色体，第四组为13-15号染色体，第五组为16-18号染色体，第六组为19-20号染色体，第七组为21-22号染色体，第八组为女性X染色体/男性X-Y染色体；

2.如权利要求1所述的自动化数据处理以及作图方法，其特征在于，所述预设的CNV变异类型包括：缺失变异和重复变异。

3.如权利要求1所述的自动化数据处理以及作图方法，其特征在于，所述预设列名包括：“CnvName”，“start_bin”，“end_bin”，“cnv_length”,“continue_bin_num”,“bin_num”，“raito”，“z-score”，“Tag”，“cytoBand”，“gene”，“OMIM”，“decipher”，“DGV”。

4.如权利要求1所述的自动化数据处理以及作图方法，其特征在于，匹配R程序需要将重复变异类型按染色体进行拆分，以“dup1.txt”的形式命名，将缺失变异类型按染色体进行拆分，以“indel1.txt”的形式命名。

5.一种自动化数据处理及作图系统，其特征在于，包括：数据自动化处理模块和自动化绘图模块，其中，

(4)删除注释文件中的预设列名的列；

所述自动化绘图模块用于自动化绘制svg格式的矢量图和pdf图，其中，首先将多条染色体分组放置，其中，第一组为1-3号染色体，第二组为4-5号染色体，第三组为6-12号染色体，第四组为13-15号染色体，第五组为16-18号染色体，第六组为19-20号染色体，第七组为21-22号染色体，第八组为女性X染色体/男性X-Y染色体；

6.如权利要求5所述的自动化数据处理及作图系统，其特征在于，所述数据自动化处理模块设置预设的CNV变异类型包括：缺失变异和重复变异。

7.如权利要求5所述的自动化数据处理及作图系统，其特征在于，所述预设列名包括：“CnvName”，“start_bin”，“end_bin”，“cnv_length”,“continue_bin_num”,“bin_num”，“raito”，“z-score”，“Tag”，“cytoBand”，“gene”，“OMIM”，“decipher”，“DGV”。

8.如权利要求5所述的自动化数据处理及作图系统，其特征在于，所述数据自动化处理模块匹配R程序需要将重复变异类型按染色体进行拆分，以“dup1.txt”的形式命名，将缺失变异类型按染色体进行拆分，以“indel1.txt”的形式命名。