CN117711501A

CN117711501A - 一种基因测序数据管理系统

Info

Publication number: CN117711501A
Application number: CN202311405461.2A
Authority: CN
Inventors: 陈功俊; 石国玉; 张俊
Original assignee: Anhui Suyuan Analytical Instrument Co ltd
Current assignee: Anhui Suyuan Analytical Instrument Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-03-15
Anticipated expiration: 2043-10-26
Also published as: CN117711501B

Abstract

本发明公开了一种基因测序数据管理系统，包括基因测序数据获取单元、数据自适应处理单元和数据信息输出单元，本发明涉及数据管理技术领域，解决了加密方式存在单一导致数据存在泄露的可能性，在对数据进行存储管理的时候存在存储混乱的技术问题，本发明通过获取到的数据进行异常判断分类，并对分类后的数据按照自身的特征来进行不同方式的加密，采用不同方式的加密提高了数据整体的安全性，降低数据泄露的可能性，其次针对不同的数据类型，结合数据的容量来对其进行存储，在存储的过程中针对数据中存在的重复数据进行替换，从而能够减小整体的容量大小，提高数据存储的效率，进一步地提高存储空间的利用率。

Description

一种基因测序数据管理系统

技术领域

本发明涉及数据管理技术领域，具体为一种基因测序数据管理系统。

背景技术

随着高通量测序技术的发展与广泛应用，基因检测数据量正以TB级的速度增长，基因数据计算和分析所要解决的问题也越来越复杂。基因数据的特异性和复杂性需要一个基因检测数据管理系统进行基础的数据处理和分析来为科研和临床提供便捷。

根据申请号为CN202211041199.3的专利显示，该专利系统包括用户登录模块、权限管理模块、基因数据储存模块、临床信息对接模块、基因数据质控模块、基因注释模块、差异分析模块和基因数据查询模块。本发明通过用户登录模块、权限管理模块、基因数据储存模块、临床信息对接模块、基因数据质控模块、基因注释模块、差异分析模块和基因数据查询等模块进行人类遗传资源基因数据管理系统构建的方法实现本地化高效的存储和管理高通量DNA测序数据、处理分析及应用基因数据，为科研和临床提供了很大的便捷服务。

由于基因测序数据管理系统在基因组研究和临床实践中发挥着重要的作用，当涉及基因测序数据管理系统时，数据安全是非常重要的，部分现有的数据管理系统在对数据进行加密管理的时候，加密的方式存在单一，导致了数据存在泄露的可能性，其次在对数据进行存储管理的时候，不能根据不同数据的特性来进行合理的存储，导致了数据在后续读取的时候存在混乱的情况。

发明内容

针对现有技术的不足，本发明提供了一种基因测序数据管理系统，解决了加密方式存在单一导致数据存在泄露的可能性，在对数据进行存储管理的时候存在存储混乱的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基因测序数据管理系统，包括：

基础测序数据获取单元，用于获取目标对象基础信息，并将其传输到数据自适应处理单元，其中目标对象为基因测序数据，基础信息包括：数据容量；

数据自适应处理单元，用于获取到传输的目标对象基础信息并对其进行分析和分类处理得到目标对象分类信息，具体包括：正常目标对象和异常目标对象，接着对正常目标对象的特征数据进行分析得到正常目标对象分类信息，具体包括：特征目标对象和无特征目标对象，同时将正常目标对象分类信息和异常目标对象传输到数据加密处理单元、数据存储单元和数据信息输出单元，对目标对象进行分析的方式如下：

S1：获取到所有的目标对象同时判断目标对象是否存在异常，并将存在异常的目标对象分类为异常目标对象，将不存在异常的目标对象分类为正常目标对象；具体地，此处判断是否存在异常表示为是否存在基因突变或者是存在疾病。

S2：获取到数据库中的所有正常目标对象并对其进行标号处理且记作为i，且i＝1、2、…、j，接着将正常目标对象中的“Y染色体”标记为特征数据；此处需要说明的是：Y染色体为区分男、女的标识性因素，通过判断是否存在Y染色体对其进行分类处理。

S3：获取到标号为i的正常目标对象，并集合特征数据对其进行分析，将存在特征数据的正常目标对象记作为有特征目标对象且记作为a，且a＝1、2、…、b，反之将不存在特征数据的正常目标对象记作为无特征目标对象且记作为o，且o＝1、2、…、p，且o+p＝j；

数据加密处理单元，用于获取到传输的正常目标对象和异常目标对象对应的基础信息，同时分别对二者进行分析，并通过将二者进行二进制转换，接着对转换成二进制后的目标对象进行加密生成加密信息，其中加密信息包括：正常对象加密信息和异常对象加密信息；

正常目标对象分析生成正常加密信息的方式为：

P1：获取到任意一组特征目标对象，同时获取到其特征数据的位置并将其利用数值进行表示且记作为特征数值，接着对特征目标对象进行二进制转换，并根据特征数值对特征目标对象进行分割生成多个字符段，同时将字符段进行首尾闭环处理得到多个字符环；具体的，此处特征数值表示为“Y染色体”的位置，然后将其位置采用数字的形式表示，例如为18，然后将特征目标对象转换成二进制后的整体以18个字符进行分割生成多个字符段，最后将字符段闭合生成字符环。

P2：接着获取到特征数据的特征数值并对其进行二进制转换，同时将其作为键点，并以键点作为相邻两个字符环的连接点对其进行整合加密生成加密信息；具体的，此处需要说明的是：将“Y”的数值进行二进制，具体的就是将数值18进行二进制转换，然后将18转换为二进制后作为连接点，最后将按照分割顺序分割形成的字符环以连接点进行连接从而对其进行加密。

P3：获取到任意一组无特征目标对象同时对其进行二进制转换，接着以k为字符分割周期对其进行分割生成多组字符段，且k＝12×h，h＝1、2、…、5，并根据生成的字符段尾数来对其进行加密处理；

P4：当字符段尾数为1时对该字符段进行倒序同时生成加密信息，当字符段尾数为0时对该字符段进行旋转处理，具体的旋转方式为：若尾数为0的字符段的第一个字符也为0时，则将其进行顺时针旋转加密，若第一个字符为1时，则将其进行逆时针旋转加密；具体的，此处需要说明的是，先将无特征目标对象整体进行二进制转换，然后以字符个数k对其进行分割处理，若分割后字符段尾数为1，则将对应尾数为1的字符段进行倒序生成，如果尾数为0则对其进行旋转，并根据第一个字符数字来确定旋转方式。

对异常目标对象分析生成异常加密信息的方式为：

A1：获取到任意一组异常目标对象同时对异常目标对象中的异常基因测序数据进行标号处理，同时对该异常基因测序数据进行二进制转换；

A2：获取到异常基因测序数据转换为二进制后的字符个数，并对字符个数进行判断，当字符个数为奇数时，则将异常基因测序数据进行倒序处理，同时将其对应的异常目标对象进行倒序处理，当字符个数为偶数时，则将异常基因测序数据进行字符颠倒处理，同时其对应的异常目标对象进行倒序处理。

数据存储处理单元，用于获取到传输的正常目标对象分类信息和异常目标信息，并分别对二者进行分析，通过对其容量进行分析来生成存储信息，其中存储信息包括：正常存储信息和异常存储信息，同时将存储信息传输到数据信息输出单元；

对正常目标对象进行存储生成存储信息的方式为：

B1：先将正常目标对象进行二进制转换，同时对转换后生成的二进制字符中的重复字符进行分析，并获取到所有重复字符的个数同时判断重复字符个数；具体的，此处需要说明的是，重复字符具体表示为00和11，对重复字符个数进行判断的时候按照顺序来进行获取。

B2：当重复字符的个数为奇数时，则将所有的重复字符用二进制1进行替换，当重复字符的个数为偶数时，则将所有的重复字符用二进制0进行替换，接着对替换后的二进制字符重组并将其记作为重组字符；具体的，此处需要说明的是，重复字符个数为00和11总的个数总和，如果为偶数则将二者替换成0，如果为奇数则替换为1。

B3：获取到目标对象传输的通量，同时计算其平均通量并将其作为数据存储标准容量记作为Rc，接着获取到所有的重组字符并对其进行标号处理记作为t，且t＝1、2、…、u，同时获取到重组字符t的容量记作为Rt，并按照容量Rt对其进行排序；

B4：接着按照排序顺序获取相邻两个重组字符的容量之和记作为Rz，并将其与Rc进行比较，当Rz≥Rc时，则表示相邻两个重组字符超过存储标准容量，并对其分别进行存储生成存储信息，反之当Rz<Rc时，则表示相邻两个重组字符未超过存储标准容量，并将该相邻两个重复字符进行整合同时进行存储生成存储信息。具体的，此处需要说明的是，按照排序顺序表示为先将第一个和第二个进行组合，如果这两个容量之和超过存储标准容量，则对二者进行单独存储，接着判断第三个和第四个容量之和，如果第一个和第二个容量之和未超过存储标准容量，则将二者进行整合再对其进行存储，以此类推对所有的重组字符进行存储。

对异常目标对象进行存储生成存储信息方式为：

Q1：对所有的异常目标对象进行标号处理且记作为y，且y＝1、2、…x，接着获取到异常目标对象y对应的容量记作为Ry，并根据容量Ry判断能否进行均分处理；

Q2：若容量Ry能够进行均分，则获取到其偶数最大公约数，并按照偶数最大公约数对其进行均分，同时对均分后的异常目标对象进行存储生成存储信息，若容量Ry不能进行均分，则获取到其奇数最大公约数，并按照奇数最大公约数对其进行均分，同时进行存储生成存储信息。

数据信息输出单元，用于获取到传输的加密信息和存储信息，并将其进行存储。

有益效果

本发明提供了一种基因测序数据管理系统。与现有技术相比具备以下有益效果：

本发明通过对获取到的数据进行异常判断分类，并对分类后的数据按照自身的特征来进行不同方式的加密，采用不同方式的加密提高了数据整体的安全性，降低数据泄露的可能性，其次针对不同的数据类型，结合数据的容量来对其进行存储，在存储的过程中针对数据中存在的重复数据进行替换，从而能够减小整体的容量大小，提高数据存储的效率，进一步地提高存储空间的利用率。

附图说明

图1为本发明系统流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一，请参阅图1，本申请提供了一种基因测序数据管理系统，包括：

基础测序数据获取单元，用于获取目标对象基础信息，并将其传输到数据自适应处理单元，其中目标对象为基因测序数据，基础信息包括：数据容量。

数据自适应处理单元，用于获取到传输的目标对象基础信息并对其进行分析，并通过判断目标对象是否存在异常将其分类为正常目标对象和异常目标对象，接着对正常目标对象的特征数据进行分析并对其进行分类处理得到正常目标对象分类信息，且正常目标对象分类信息包括：特征目标对象和无特征目标对象，同时将正常目标对象分类信息和异常目标对象传输到数据加密处理单元、数据存储单元和数据信息输出单元，且生成正常目标对象分类信息的具体方式为：

S3：获取到标号为i的正常目标对象，并集合特征数据对其进行分析，将存在特征数据的正常目标对象记作为有特征目标对象且记作为a，且a＝1、2、…、b，反之将不存在特征数据的正常目标对象记作为无特征目标对象且记作为o，且o＝1、2、…、p，且o+p＝j。

数据加密处理单元，用于获取到传输的正常目标对象和异常目标对象对应的基础信息，同时分别对二者进行分析，并通过将二者进行二进制转换，接着对转换成二进制后的目标对象进行加密生成加密信息，其中加密信息包括：正常对象加密信息和异常对象加密信息，且生成加密信息的具体方式如下：

对正常目标对象进行分析生成正常加密信息的具体方式如下：

对异常目标对象进行分析生成异常加密信息的具体方式如下：

A2：获取到异常基因测序数据转换为二进制后的字符个数，并对字符个数进行判断，当字符个数为奇数时，则将异常基因测序数据进行倒序处理，同时将其对应的异常目标对象进行倒序处理，当字符个数为偶数时，则将异常基因测序数据进行字符颠倒处理，同时其对应的异常目标对象进行倒序处理。具体地，此处需要说明的是，先将异常基因测序数据进行二进制转换，然后判断转换后的二进制字符个数，针对字符个数为偶数的情况，将对应的异常基因测序数据按照首尾互相对应的字符进行颠倒生成，例如字符整体为1011010100，颠倒后则表示为：0010101101，然后对整体的异常目标对象进行倒序处理。

数据信息输出单元，用于获取到传输的加密信息并将其进行存储。

实施例二，作为本发明的实施例二，与实施例一的区别之处在于，数据存储处理单元，用于获取到传输的正常目标对象分类信息和异常目标信息并对其进行分析。

数据存储处理单元，用于获取到传输的正常目标对象分类信息和异常目标信息，并分别对二者进行分析，通过对其容量进行分析来生成存储信息，其中存储信息包括：正常存储信息和异常存储信息，同时将存储信息传输到数据信息输出单元，且生成存储信息的具体方式如下：

获取到正常目标对象并对其进行存储，生成存储信息的方式为：

获取到异常目标对象并对其进行分析，生成存储信息的方式为：

Q2：若容量Ry能够进行均分，则获取到其偶数最大公约数，并按照偶数最大公约数对其进行均分，同时对均分后的异常目标对象进行存储生成存储信息，若容量Ry不能进行均分，则获取到其奇数最大公约数，并按照奇数最大公约数对其进行均分，同时进行存储生成存储信息。具体地，此处需要说明的是，如果容量能够进行均分，按照偶数最大公约数进行分割，且最大公约数为10以内的偶数，按照2、4、6和8来分别对容量进行分析判断能否进行均分处理，其次如果容量不能够进行均分，则获取到3、5、7和9来依次对容量进行均分，最后对均分后的数据进行存储。

数据信息输出单元，用于获取到传输的存储信息并将其存储到云端。

实施例三，作为本发明的实施例三，重点在于将实施例一和实施例二的实施过程结合实施。

上述公式中的部分数据均是去其纲量进行数值计算，同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种基因测序数据管理系统，其特征在于，包括：

数据自适应处理单元，用于获取到传输的目标对象基础信息并对其进行分析和分类处理得到目标对象分类信息，具体包括：正常目标对象和异常目标对象，接着对正常目标对象的特征数据进行分析得到正常目标对象分类信息，具体包括：特征目标对象和无特征目标对象，同时将正常目标对象分类信息和异常目标对象传输到数据加密处理单元、数据存储单元和数据信息输出单元；

2.根据权利要求1所述的一种基因测序数据管理系统，其特征在于，数据自适应处理单元对目标对象进行分析的方式如下：

S1：获取到所有的目标对象同时判断目标对象是否存在异常，若存在异常则将其分类为异常目标对象，反之则将其分类为正常目标对象；

S2：获取到数据库中的所有正常目标对象并对其进行标号处理且记作为i，且i＝1、2、…、j，接着将正常目标对象中的“Y染色体”标记为特征数据；

3.根据权利要求1所述的一种基因测序数据管理系统，其特征在于，数据加密处理单元对正常目标对象分析生成正常加密信息的方式为：

P1：获取到任意一组特征目标对象，同时获取到其特征数据的位置并将其利用数值进行表示且记作为特征数值，接着对特征目标对象进行二进制转换，并根据特征数值对特征目标对象进行分割生成多个字符段，同时将字符段进行首尾闭环处理得到多个字符环；

P2：接着获取到特征数据的特征数值并对其进行二进制转换，同时将其作为键点，并以键点作为相邻两个字符环的连接点对其进行整合加密生成加密信息；

P4：当字符段尾数为1时对该字符段进行倒序同时生成加密信息，当字符段尾数为0时对该字符段进行旋转处理，具体的旋转方式为：若尾数为0的字符段的第一个字符也为0时，则将其进行顺时针旋转加密，若第一个字符为1时，则将其进行逆时针旋转加密。

4.根据权利要求1所述的一种基因测序数据管理系统，其特征在于，数据加密单元对异常目标对象分析生成异常加密信息的方式为：

A2：获取到异常基因测序数据转换为二进制后的字符个数，当字符个数为奇数时，则将异常基因测序数据进行倒序处理，同时将其对应的异常目标对象进行倒序处理，当字符个数为偶数时，则将异常基因测序数据进行字符颠倒处理，同时其对应的异常目标对象进行倒序处理。

5.根据权利要求1所述的一种基因测序数据管理系统，其特征在于，数据存储单元对正常目标对象进行存储生成存储信息的方式为：

B1：先将正常目标对象进行二进制转换，同时对转换后生成的二进制字符中的重复字符进行分析，并获取到所有重复字符的个数同时判断重复字符个数；

B2：当重复字符的个数为奇数时，则将所有的重复字符用二进制1进行替换，当重复字符的个数为偶数时，则将所有的重复字符用二进制0进行替换，接着对替换后的二进制字符重组并将其记作为重组字符；

B4：接着按照排序顺序获取相邻两个重组字符的容量之和记作为Rz，并将其与Rc进行比较，当Rz≥Rc时，则表示相邻两个重组字符超过存储标准容量，并对其分别进行存储生成存储信息，反之当Rz<Rc时，则表示相邻两个重组字符未超过存储标准容量，并将该相邻两个重复字符进行整合同时进行存储生成存储信息。

6.根据权利要求1所述的一种基因测序数据管理系统，其特征在于，数据存储处理单元对异常目标对象进行存储生成存储信息方式为：