CN116246715A

CN116246715A - 多样本基因突变数据存储方法、装置、设备及介质

Info

Publication number: CN116246715A
Application number: CN202310465531.7A
Authority: CN
Inventors: 卓频
Original assignee: Becoway Tianjin Biotechnology Co ltd
Current assignee: Becoway Tianjin Biotechnology Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-06-09
Anticipated expiration: 2043-04-27
Also published as: CN116246715B

Abstract

本申请涉及一种多样本基因突变数据存储方法、装置、设备及介质，应用于数据存储的技术领域，其方法包括：获取待存储的包含多个基因突变的样本；将预设数量的样本划分为至少一个样本组；对于任一样本组，为样本组创建一背景图片；基于染色体的数量和长度将背景图片划分为多个染色体区域；基于预设算法对样本组中的每个样本的突变ID对应的样本关联特征进行字符转换，生成每个突变ID对应的样本字符；基于样本组的样本顺序和样本字符生成字符串；基于字符串对突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片；将样本组特征图片存储至样本突变数据总库的样本关联特征子库内。本申请具有减少数据冗余，优化数据库存储空间的效果。

Description

多样本基因突变数据存储方法、装置、设备及介质

技术领域

本申请涉及数据存储的技术领域，尤其是涉及一种多样本基因突变数据存储方法、装置、设备及介质。

背景技术

近年来，随着测序成本的降低，通过测序检测基因突变在辅助临床诊断方法的作用日益显著，相应的，大量的测序数据也随之产生，如何正确分析与解读是测序技术应用于临床诊断的一个不可或缺的环节。

然而，由于基因突变的偶然性以及临床的不确定性，基因突变与临床之间的关系显得十分复杂，而且目前许多疾病的致病机制和致病突变仍不清楚，在这种情况下，判断测序检测到的突变是否具有实际意义很大程度上依赖于疾病-突变数据库的注释信息，即根据数据库中该突变的发生概率和其他信息进行判断。

由于每个个体均存在多个突变，这些数据的存储大多采用MySQL等数据库将样本信息存储为主表，将代表每个个体的样本的突变信息存储为对应的子表。然而，在数据库中，一方面，来自于数据库的大量注释信息往往占据数据库中大量的存储空间；另一方面，基于样本进行存储的方式在样本量达到一定数量级后，由于不同样本中往往会存在很多相同的突变，这些突变在不同子表中反复出现，也会造成大量的数据冗余，占据大量的存储空间。

发明内容

为了减少数据冗余，优化数据库的存储空间，本申请提供一种多样本基因突变数据存储方法、装置、设备及介质。

第一方面，本申请提供一种多样本基因突变数据存储方法，采用如下的技术方案：

一种多样本基因突变数据存储方法，包括：

获取待存储的包含多个基因突变的样本，其中，每个所述基因突变的样本均包括至少一个突变ID对应的样本关联特征；

将预设数量的样本划分为至少一个样本组；

对于任一所述样本组，为所述样本组创建一背景图片，所述背景图片为空白的图片；

基于染色体的数量和长度将所述背景图片划分为多个染色体区域，其中，所述染色体区域与染色体一一对应；

基于预设算法对所述样本组中的每个样本的所述突变ID对应的所述样本关联特征进行字符转换，生成每个所述突变ID对应的样本字符；

基于所述样本组的样本顺序和所述样本字符生成字符串；

基于所述字符串对所述突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片；

将所述样本组特征图片存储至样本突变数据总库的样本关联特征子库内。

通过采用上述技术方案，当需要对生物分析之后的基因突变信息进行存储时，首先按照样本组的形式对待存储的样本进行划分,然后再通过预设算法将样本组中的样本关联特征进行字符转换,生成对应的样本字符,根据样本组中的样本顺序和样本字符生成对应的字符串,通过将字符串转换为对应的像素点颜色,并对创建的背景图片进行颜色设置,生成样本组特征图片,再将样本组特征图片存储至样本关联特征子库内,将样本组中多个样本的样本关联特征合成至一张样本组特征图片进行存储，能够减少数据冗余,降低存储空间，优化数据库。

可选的，所述基于预设算法对所述样本组中的每个样本的所述突变ID对应的所述样本关联特征进行字符转换，生成每个所述突变ID对应的样本字符包括：

获取每个所述样本中所述突变ID对应的样本关联特征；

基于所述样本关联特征设置基础值；

根据预设算法对所述基础值进行数据计算，得到计算结果；

基于所述计算结果进行字符转换，得到样本字符。

可选的，所述根据预设算法对所述基础值进行数据计算，得到计算结果包括：

获取所述突变ID对应的样本关联特征种类，所述样本关联特征种类包括突变携带方式、突变质量和/或突变深度；

基于所述突变携带方式确定第一基础附加值；和/或，

基于其他样本关联特征确定第二基础附加值，其中，所述突变质量和/或突变深度为其他样本关联特征；

根据所述基础值、第一基础附加值和/或第二基础附加值按照数学运算法则进行数据计算，得到计算结果。

可选的，所述将预设数量的样本划分为至少一个样本组包括：

获取样本关联特征概况，所述样本关联特征概况包括数量和种类；

基于所述样本关联特征概况确定颜色编码进制；

根据所述颜色编码进制确定每个所述样本组的预设数量；

获取所述样本组的样本顺序；

基于所述预设数量的样本和所述样本顺序对所述待存储的包含多个基因突变的样本进行划分，得到至少一个样本组。

可选的，所述基于所述字符串对所述突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片包括：

获取当前颜色编码进制；

判断所述当前颜色编码进制是否为预设颜色编码进制；

若所述当前颜色编码进制为预设颜色编码进制，则基于预设进制对所述字符串进行颜色编码转换，得到所述每个突变ID对应的颜色代码；

基于所述每个突变ID对应的颜色代码设置所述突变ID对应的染色体区域中的像素点颜色；

基于所述不同颜色的像素点生成样本组特征图片；

若所述当前颜色编码进制不为预设颜色编码进制，则将所述当前颜色编码进制转换为预设颜色编码进制，并重复基于预设进制对所述字符串进行颜色编码转换，得到所述每个突变ID对应的颜色代码的步骤。

可选的，在所述将所述样本组特征图片存储至样本突变数据总库的样本关联特征子库内之后，所述方法还包括：

响应于查询样本命令，获取所述样本关联特征子库内的样本组特征图片；

基于所述突变ID获取所述样本组特征图片中与所述突变ID对应的像素点颜色代码；

对所述像素点颜色代码进行解码，得到解码结果；

基于所述解码结果、样本信息子库和普通突变特征子库还原待查询的包含多个样本基因的样本信息。

可选的，在所述将所述样本组特征图片存储至样本突变数据总库的样本关联特征子库内之前，所述方法还包括：建立样本突变数据总库，所述样本突变数据总库包括样本信息子库、普通突变特征子库和样本关联特征子库；

基于所述数据类型对所述待存储的包含多个基因突变的样本进行分表处理，得到样本关联特征表和普通突变特征表；

基于所述突变ID对所述普通突变特征表进行去重处理，得到最新普通突变特征表；

基于所述突变ID对所述普通突变特征子库进行去重，得到最新普通突变特征子库；

基于所述最新普通突变特征子库、样本信息子库和所述样本关联特征子库生成最新样本突变数据总库。

第二方面，本申请提供一种多样本基因突变数据存储装置，采用如下的技术方案：

一种多样本基因突变数据存储装置，包括：

获取模块，用于获取待存储的包含多个基因突变的样本，其中，每个所述基因突变的样本均包括至少一个突变ID对应的样本关联特征，所述突变ID用于标识基因突变的基因位点；

第一划分模块，用于将预设数量的样本划分为至少一个样本组；

创建模块，用于对于任一所述样本组，为所述样本组创建一背景图片，所述背景图片为空白的图片；

第二划分模块，用于基于染色体的数量和长度将所述背景图片划分为多个染色体区域，其中，所述染色体区域与染色体一一对应；

第一生成模块，用于基于预设算法对所述样本组中的每个样本的所述突变ID对应的所述样本关联特征进行字符转换，生成每个所述突变ID对应的样本字符；

第二生成模块，用于基于所述样本组的样本顺序和所述样本字符生成字符串；

第三生成模块，用于基于所述字符串对所述突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片；

存储模块，用于将所述样本组特征图片存储至样本突变数据总库的样本关联特征子库内。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一种电子设备，包括处理器，所述处理器与存储器耦合；

所述存储器上存储有能够被处理器加载并执行第一方面任一项所述的多样本基因突变数据存储方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行第一方面任一项所述的多样本基因突变数据存储方法的计算机程序。

附图说明

图1是本申请实施例提供的一种多样本基因突变数据存储方法的流程示意图。

图2是本申请实施例提供的一种多样本基因突变数据存储装置的结构框图。

图3是本申请实施例提供的电子设备的结构框图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本申请实施例提供一种多样本基因突变数据存储方法，该多样本基因突变数据存储方法可由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中该服务器可以使独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、台式计算机等，但并不局限于此。

如图1所示，一种多样本基因突变数据存储方法，该方法主要流程描述如下（步骤S101～S108）：

步骤S101，获取待存储的包含多个基因突变的样本，其中，每个基因突变的样本均包括至少一个突变ID对应的样本关联特征。

在本实施例中，在对个体进行基因突变的分析时，通常通过一些生信分析方法对个体进行基因分析，目前，首先采用全外显子测序、靶向测序或全基因组测序中的任一种方式对样本进行基因测序，然后经过一系列的生信分析和注释得到结果文件，最后根据结果文件能够得到样本的基因突变信息。

在本实施例中，结果文件可划分为普通突变特征表和样本关联特征表，普通突变特征表包括基因突变自身的属性，即结果文件中经过注释的信息，与样本无关，不随样本不同而不同，即已经登记在预设突变信息库中的基因突变，例如该基因突变在人群中的突变频率，普通突变特征存在普遍性；样本关联特征表为基因突变在不同样本中的不同表现，即结果文件中非突变注释信息，例如该基因突变的突变深度等。

在本实施例中，可以通过网络或通过人工查找的方式获取待存储的包含多个基因突变的样本。

在本实施例中，每个基因突变的样本均包括至少一个突变ID，利用突变ID能够对普通突变特征表和样本关联特征表进行索引，查找相同的普通突变特征和与普通突变特征关联的样本关联特征。即通过突变ID快捷查找对应的普通突变特征和样本关联特征。

其中，突变ID包括染色体序号-突变起始位点-突变后核苷酸-参考基因组核苷酸。

在本实施例中，由于在经过生信分析之后，得到的结果文件中普通突变特征表和样本关联特征表均以突变ID为基础进行记载，例如，普通突变特征表包括突变ID和普通突变特征，其中普通突变特征包括突变所在的基因，突变会造成怎样的氨基酸变化和外显子变化和等。样本关联特征表包括突变ID、携带方式、突变质量和突变深度等。其中，以突变ID为chr1-7978191-C-T举例，代表1号染色体的第7978191位本该是胞嘧啶（C），但发生了突变，胞嘧啶（C）突变成了胸腺嘧啶（T）。

步骤S102，将预设数量的样本划分为至少一个样本组。

具体的，将预设数量的样本划分为至少一个样本组包括：获取样本关联特征概况，样本关联特征概况包括数量和种类；基于样本关联特征概况确定颜色编码进制；根据颜色编码进制确定每个样本组的预设数量；获取样本组的样本顺序；基于预设数量的样本和样本顺序对待存储的包含多个基因突变的样本进行划分，得到至少一个样本组。

在本实施例中，在对样本组进行划分时，通常按照样本信息表中的样本顺序进行排序，然后按照预设数量对样本进行组别划分。其中，由于预设数量与样本的样本关联特征概况有关，所以需要根据样本关联特征概况确定样本组中具体包括多少个样本，即确定样本组中样本的预设数量。

由于样本关联特征表中包含多种样本关联特征，不仅存在携带方式种类的不同，还存在样本关联特征其他类别的不同，而且为了适应存储需求，还需要根据样本关联特征概况确定颜色编码进制颜色编码进制，以便后续对样本关联特征的保存，例如，当样本关联特征的种类为三个时，此时的颜色编码进制可以采用十六进制进行存储；当样本关联特征的数量大于三个时，为了更好地进行存储，可以采用六十四进制、二百五十六进制等颜色编码进制进行数据存储。

对于不同的颜色编码进制对应的字符数量是不同的，颜色编码进制越高，代表着涉及的样本关联特征的种类越多，每个字符代表的样本的关联相关属性越多。在本实施例中，若颜色编码进制为二百五十六进制时，则对应的样本组中样本字符的数量为3个；若颜色编码进制为六十四进制时，则对应的样本组中样本字符的数量为4个；若颜色编码进制为十六进制时，则对应的样本组中样本字符的数量为6个；若颜色编码进制为四进制，则对应的样本组中样本字符的数量为12个；若颜色编码进制为二进制，则对应的样本组中样本字符的数量为24个。

步骤S103，对于任一样本组，为样本组创建一背景图片，背景图片为空白的图片。

在本实施例中，为了更好地对样本组中的样本关联特征进行存储，对于任一样本组，根据每一个样本组创建一个背景图片，背景图片为空白的图片，其中没有任何内容，为便于理解，可以将背景图片看为指定大小的画布，需要根据样本组中的样本关联特征对背景图片的内容进行填充。

步骤S104，基于染色体的数量和长度将背景图片划分为多个染色体区域，其中，染色体区域与染色体一一对应。

在本实施例中，根据染色体的数量和长度对背景图片进行区域划分，得到若干个染色体区域，其中，人类染色体包括1-22条常染色体、X染色体、Y染色体和M线粒体等，其中还包括其他已知的病毒序列，例如EBV人类疱疹病毒序列，在此不再一一列举。且，染色体区域的数量与染色体数量一一对应。

值得说明的是，对背景图片的区域划分为样本的染色体数量和长度进行划分，当然若样本的染色体中存在病毒，则还需要在背景图片中单独划分出病毒序列。

步骤S105，基于预设算法对样本组中的每个样本的突变ID对应的样本关联特征进行字符转换，生成每个突变ID对应的样本字符。

具体的，基于预设算法对样本组中的每个样本的突变ID对应的样本关联特征进行字符转换，生成每个突变ID对应的样本字符包括：获取每个样本中突变ID对应的样本关联特征；基于样本关联特征设置基础值；根据预设算法对基础值进行数据计算，得到计算结果；基于计算结果进行字符转换，得到样本字符。

若此时的样本组为6个，分别为第一样本、第二样本、第三样本、第四样本、第五样本和第六样本，根据上述突变ID依次判断第一样本中1号染色体的第7978191位是否存在该突变，当第一样本的1号染色体存在该突变ID代表的突变时，则基于突变ID对该样本进行基础值设置，之后在基于预设算法对基础值进行处理，得到计算结果，然后根据计算结果进行字符转换，得到样本字符。

在本实施例中，每个样本组包括多个样本，每个样本包括多个突变ID，每个样本的每个突变ID对应字符串中的一个字符，样本组中所有样本的同一个突变ID对应的突变情况对应一个字符串。

进一步的，根据预设算法对基础值进行数据计算，得到计算结果包括：获取突变ID对应的样本关联特征种类，样本关联特征种类包括突变携带方式、突变质量和/或突变深度；基于突变携带方式确定第一基础附加值；和/或，基于其他样本关联特征确定第二基础附加值，其中，突变质量和/或突变深度为其他样本关联特征；根据基础值、第一基础附加值和/或第二基础附加值按照数学运算法则进行数据计算，得到计算结果。

在本实施例中，在根据预设算法对基础值进行计算时，需要根据该样本的样本关联特征去决定计算的方式，其中，样本关联特征包括携带方式和其他类别。例如，当该样本的携带方式为纯合突变时，此时第一基础附加值为4，当该样本的携带方式为杂合突变时，此时第一基础附加值为2。

值得说明的是，在本实施例中，当样本中存在突变ID代表时，此时的基础值设置为1，当样本不存在突变ID代表的突变时，将基础值设置为0，而且由于不存在突变ID代表的突变，所以也没有关联特征属性，第一基础附加值和/或第二基础附加值均为0。

在本实施例中，以该样本的其他样本关联特征种类包括突变质量和/或突变深度为例，需要根据突变质量和/或突变深度确定不同的第二基础附加值，例如，当样本关联特征仅包括突变质量时，根据突变质量不同的阈值分别三类，对应的第二基础附加值分别为3、6和9；当样本关联特征种类包括突变深度时，可以根据不同的突变深度设置不同的第二基础附加值，即当突变深度为1-100的范围时，第二基础附加值可以与突变深度一一对应设置，当突变深度为1时，第二基础附加值为1，当突变深度为100时，第二基础附加值为100；还可以将突变深度按照阈值进行划分，例如分为三类，分别为1-30、31-70和71-100，其中当突变深度处于1-30区间时，第二基础附加值为3，当突变深度为31-70时，第二基础附加值为6，当突变深度为71-100时，第二基础附加值为9，在此不做限定。

以该样本存在突变ID为chr1-7978191-C-T的突变为例，此时该突变的携带方式为纯合，此时的基础值为1，第一基础附加值为4，第二基础附加值为6，则此时的计算结果为1+4+6=11，该样本的计算结果为11，其余样本的计算结果按照数学加法法则进行计算。

值得说明的是，在本实施例中仅仅只是按照数学加法法则进行的计算，还可以采用数学运算法则的其他法则，例如数学乘法运算、数学除法运算、数学指数运算等，在此只是用数学加法举例，既可以上述每一种单独的运算法则，还可以是上述任意运算法则的结合，包括但不限于两种，还可以是三种或四种。

在得到计算结果之后，需要按照当前计算机语言的进制对计算结果进行转换，以十六进制为例，当计算结果为12时，对应计算机语言中的“B”；当就算结果为16时，对应计算机语言中的“F”，在此不再多做赘述。

步骤S106，基于样本组的样本顺序和样本字符生成字符串。

具体的，在确定好样本组的预设数量和样本顺序之后，根据样本组的样本顺序和样本组中样本对应的突变ID对应的样本字符生成字符串。

步骤S107，基于字符串对突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片。

具体的，基于字符串对突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片包括：获取当前颜色编码进制；判断当前颜色编码进制是否为预设颜色编码进制；若当前颜色编码进制为预设颜色编码进制，则基于预设进制对字符串进行颜色编码转换，得到每个突变ID对应的颜色代码；基于每个突变ID对应的颜色代码设置突变ID对应的染色体区域中的像素点颜色；基于像素点颜色生成样本组特征图片；若当前颜色编码进制不为预设颜色编码进制，则将当前颜色编码进制转换为预设颜色编码进制，并重复基于预设进制对字符串进行颜色编码转换，得到每个突变ID对应的颜色代码的步骤。

在本实施例中，在确定好字符串的字符数量之后，需要根据字符串进行颜色编码，用颜色对突变ID进行区分，从而更加方便对突变进行存储。

在计算机语言中，可以通过RGB模式对颜色进行区分和存储，即需要将字符串转换为RGB模式的颜色代码，然后通过颜色代码进行信息存储。

在采用RGB模式的颜色代码时，通常采用“（r，g，b）”的语言表示颜色，在计算机上的格式为“#000000-#FFFFFF”，即需要六个字符完成颜色编码，为了便于解释和说明，在本申请中,将十六进制设置为预设颜色编码进制。

例如，当样本组的计算结果为“0、12、6、12、6、6”时，则对应的样本字符串为“0B6B66”，此时对应的颜色代码为“#0B6B66”。

当获取到的预设颜色编码进制为预设颜色编码进制时，即样本中存在三个样本关联特征的种类时，此时仅需要将得到的字符串转换为计算机能够识别的颜色代码即可。

当获取到的当前颜色编码进制不是默认进制时，需要进行进制转换，将确定好的字符串转换为十六进制下的字符串，得到转换字符串，然后根据转换字符串进行颜色编码，将转换字符串转换为RGB模式下的颜色代码，得到每个突变ID对应的颜色代码，然后根据突变ID对应的颜色代码在染色体区域中对应的像素点进行颜色设置。

例如，当突变ID为chr1-7978191-C-T时，该样本组中的预设数量为六个，采用十六进制，根据上述计算规则得到的字符串为0B6B66，则此时在染色体区域中突变ID对应的像素点的颜色为“#0B6B66”的颜色。

由于样本突变数据库中包含大量的样本，而每个样本包括多个突变，所以样本突变数据库中包含大量的突变，故通过每个像素点代表一个样本组，一个样本组包括六个样本，可以压缩存储容量，优化存储结构，为了适应优化需求，每个字符串所代表的颜色为一个像素点的颜色，一个图片区域代表一条染色体，一个像素点代表六个样本的突变，完成突变向图片存储的转换。

步骤S108，将样本组特征图片存储至样本突变数据总库的样本关联特征子库内。

具体的，为了便于对包含多个基因突变的样本进行存储，建立样本突变数据总库，样本突变数据总库包括样本信息子库、普通突变特征子库和样本关联特征子库。

将上述生成的样本组特征图片存储至样本关联特征子库内，方便存储的同时还能减少数据冗余，优化数据库存储空间。

进一步的，在将样本组特征图片存储至样本突变数据总库的样本关联特征子库内之前，方法还包括：建立样本突变数据总库，样本突变数据总库包括样本信息子库、普通突变特征子库和样本关联特征子库；基于数据类型对待存储的包含多个基因突变的样本进行分表处理，得到样本信息表和普通突变特征表；基于突变ID对普通突变特征表进行去重处理，得到最新普通突变特征表；基于最新普通突变特征表对普通突变特征子库进行去重，得到最新普通突变特征子库；基于最新普通突变特征子库、样本信息子库和样本关联特征子库生成最新样本突变数据总库。

在本实施例中，由于在得到结果文件之后，普通关联特征表之中的内容存在大量的数据冗余，可以根据突变ID查找普通突变特征表中找到对应的普通突变特征，然后将查询到的相同的普通突变特征进行去重合并，即只需要保留一条突变ID对应的普通突变特征即可，从而减少数据冗余，优化数据库的存储空间。

同时，在得到最新的普通关联特征表之后，将普通关联特征表中的数据存储至普通突变特征子库内，然后再根据突变ID对普通突变特征子库进行去重，减少普通突变特征子库的数据冗余，优化数据库的存储空间。

在得到普通突变特征子库之后，需要根据最新样本关联特征子库、普通突变特征子库和样本信息子库对样本数据总库进行更新，得到最新样本数据总库。

进一步的，在将样本组特征图片存储至样本突变数据总库的样本关联特征子库内之后，方法还包括：响应于查询样本命令，获取样本关联特征子库内的样本组特征图片；基于突变ID获取样本组特征图片中与突变ID对应的像素点颜色代码；对像素点颜色进行重塑，得到重塑结果；基于解码结果、样本信息子库和普通突变特征子库还原待查询的包含多个样本基因的样本信息。

在本实施例中，在将样本组特征图片存储进样本关联特征子库之后，如果工作人员想要查询包含多个基因突变的样本信息时，通过python的OpenCV模块读取每个样本组特征图片中每个像素点的颜色，然后在通过上述的预设算法进行逆向恢复或重塑，得到待查询的包含多个样本基因的样本信息，更加方便。

图2为本申请实施例提供的一种多样本基因突变数据存储装置200的结构框图。

如图2所示，多样本基因突变数据存储装置200主要包括：

获取模块201，用于获取待存储的包含多个基因突变的样本，其中，每个基因突变的样本均包括至少一个突变ID对应的样本关联特征，突变ID用于标识基因突变的基因位点；

第一划分模块202，用于将预设数量的样本划分为至少一个样本组；

创建模块203，用于对于任一样本组，为样本组创建一背景图片，背景图片为空白的图片；

第二划分模块204，用于基于染色体的数量和长度将背景图片划分为多个染色体区域，其中，染色体区域与染色体一一对应；

第一生成模块205，用于基于预设算法对样本组中的每个样本的突变ID对应的样本关联特征进行字符转换，生成每个突变ID对应的样本字符；

第二生成模块206，用于基于样本组的样本顺序和样本字符生成字符串；

第三生成模块207，用于基于字符串对突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片；

存储模块208，用于将样本组特征图片存储至样本突变数据总库的样本关联特征子库内。

作为本实施例的一种可选实施方式，第一生成模块205还具体用于基于预设算法对样本组中的每个样本的突变ID对应的样本关联特征进行字符转换，生成每个突变ID对应的样本字符包括：获取每个样本中突变ID对应的样本关联特征；基于样本关联特征设置基础值；根据预设算法对基础值进行数据计算，得到计算结果；基于计算结果进行字符转换，得到样本字符。

作为本实施例的一种可选实施方式，第一生成模块205还具体用于根据预设算法对基础值进行数据计算，得到计算结果包括：获取突变ID对应的样本关联特征种类，样本关联特征种类包括突变携带方式、突变质量和/或突变深度等；基于突变携带方式确定第一基础附加值；和/或，基于其他样本关联特征确定第二基础附加值，其中，突变质量和/或突变深度为其他样本关联特征；根据基础值、第一基础附加值和/或第二基础附加值按照数学运算法则进行数据计算，得到计算结果。

作为本实施例的一种可选实施方式，第一划分模块202还具体用于将预设数量的样本划分为至少一个样本组包括：获取样本关联特征概况，样本关联特征概况包括数量和种类；基于样本关联特征概况确定颜色编码进制；根据颜色编码进制确定每个样本组的预设数量；获取样本组的样本顺序；基于预设数量的样本和样本顺序对待存储的包含多个基因突变的样本进行划分，得到至少一个样本组。

作为本实施例的一种可选实施方式，编码模块205还具体用于基于字符串进行颜色编码，得到颜色代码包括：判断颜色编码进制是否为默认进制；若颜色编码进制不为默认进制，则对字符串进行转换，得到转换字符串；基于转换字符串进行RGB颜色编码，得到转换字符串对应的颜色代码。

作为本实施例的一种可选实施方式，第三生成模块207还具体用于基于字符串对突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片包括：获取当前颜色编码进制；判断当前颜色编码进制是否为预设颜色编码进制；若当前颜色编码进制为预设颜色编码进制，则基于预设进制对字符串进行颜色编码转换，得到每个突变ID对应的颜色代码；基于每个突变ID对应的颜色代码设置突变ID对应的染色体区域中的像素点颜色；基于不同颜色的像素点生成样本组特征图片；若当前颜色编码进制不为预设颜色编码进制，则将当前颜色编码进制转换为预设颜色编码进制，并重复基于预设进制对字符串进行颜色编码转换，得到每个突变ID对应的颜色代码的步骤。

作为本实施例的一种可选实施方式，存储模块208还具体用于在将样本组特征图片存储至样本突变数据总库的样本关联特征子库内之后，方法还包括：响应于查询样本命令，获取样本关联特征子库内的样本组特征图片；基于突变ID获取样本组特征图片中与突变ID对应的像素点颜色代码；对像素点颜色代码进行解码，得到解码结果；基于解码结果、样本信息子库和普通突变特征子库还原待查询的包含多个样本基因的样本信息。

作为本实施例的一种可选实施方式，存储模块208还具体用于在将样本组特征图片存储至样本突变数据总库的样本关联特征子库内之前，方法还包括：建立样本突变数据总库，样本突变数据总库包括样本信息子库、普通突变特征子库和样本关联特征子库；基于数据类型对待存储的包含多个基因突变的样本进行分表处理，得到样本关联特征表和普通突变特征表；基于突变ID对普通突变特征表进行去重处理，得到最新普通突变特征表；基于突变ID对普通突变特征子库进行去重，得到最新普通突变特征子库；基于最新普通突变特征子库、样本信息子库和样本关联特征子库生成最新样本突变数据总库。

在一个例子中，以上任一装置中的模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个专用集成电路(application specificintegratedcircuit，ASIC)，或，一个或多个数字信号处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)，或这些集成电路形式中至少两种的组合。

再如，当装置中的模块可以通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，CPU)或其它可以调用程序的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图3为本申请实施例提供的电子设备300的结构框图。

如图3所示，电子设备300包括处理器301和存储器302，还可以进一步包括信息输入/信息输出(I/O)接口303、通信组件304中的一种或多种以及通信总线305。

其中，处理器301用于控制电子设备300的整体操作，以完成上述的多样本基因突变数据存储方法的全部或部分步骤；存储器302用于存储各种类型的数据以支持在电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。

I/O接口303为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件304用于电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearField Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件304可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备300可以被一个或多个应用专用集成电路 (Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例给出的多样本基因突变数据存储方法。

通信总线305可包括一通路，在上述组件之间传送信息。通信总线305可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA (ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。通信总线305可以分为地址总线、数据总线、控制总线等。

电子设备300可以包括但不限于移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，还可以为服务器等。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的多样本基因数据存储方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器 (R ead-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种多样本基因突变数据存储方法，其特征在于，包括：

将预设数量的样本划分为至少一个样本组；

基于所述样本组的样本顺序和所述样本字符生成字符串；

2.根据权利要求1所述的方法，其特征在于，所述基于预设算法对所述样本组中的每个样本的所述突变ID对应的所述样本关联特征进行字符转换，生成每个所述突变ID对应的样本字符包括：

获取每个所述样本中所述突变ID对应的样本关联特征；

基于所述样本关联特征设置基础值；

根据预设算法对所述基础值进行数据计算，得到计算结果；

基于所述计算结果进行字符转换，得到样本字符。

3.根据权利要求2所述的方法，其特征在于，所述根据预设算法对所述基础值进行数据计算，得到计算结果包括：

获取所述突变ID对应的样本关联特征种类，所述样本关联特征种类包括突变携带方式、突变质量和/或突变深度等；

基于所述突变携带方式确定第一基础附加值；和/或，

4.根据权利要求1所述的方法，其特征在于，所述将预设数量的样本划分为至少一个样本组包括：

基于所述样本关联特征概况确定颜色编码进制；

根据所述颜色编码进制确定每个所述样本组的预设数量；

获取所述样本组的样本顺序；

5.根据权利要求1所述的方法，其特征在于，所述基于所述字符串对所述突变ID对应的染色体区域中的像素点进行颜色设置，生成样本组特征图片包括：

获取当前颜色编码进制；

判断所述当前颜色编码进制是否为预设颜色编码进制；

基于不同颜色的像素点生成样本组特征图片；

6.根据权利要求1所述的方法，其特征在于，在所述将所述样本组特征图片存储至样本突变数据总库的样本关联特征子库内之后，所述方法还包括：

对所述像素点颜色代码进行解码，得到解码结果；

7.根据权利要求1所述的方法，其特征在于，在所述将所述样本组特征图片存储至样本突变数据总库的样本关联特征子库内之前，所述方法还包括：

建立样本突变数据总库，所述样本突变数据总库包括样本信息子库、普通突变特征子库和样本关联特征子库；

8.一种多样本基因突变数据存储装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器，所述处理器与存储器耦合；

所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得所述计算机执行如权利要求1至7任一项所述的方法。