CN109635026A

CN109635026A - 一种生物样本库数据分散式节点共享方法、系统及装置

Info

Publication number: CN109635026A
Application number: CN201811447402.0A
Authority: CN
Inventors: 黄杰玞; 黄晓
Original assignee: Baosheng (guangzhou) Bioinformatics Technology Co Ltd
Current assignee: Baosheng (guangzhou) Bioinformatics Technology Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-04-16
Also published as: CN115221152A

Abstract

本发明公开了一种生物样本库数据分散式节点共享方法、系统及装置，方法包括：将各个生物样品库同步到云端服务器中，并进行合并处理，得到合并后的数据库；对合并后的数据库中的数据进行标准化处理，得到处理后标准化数据；将标准化数据同步至云端分散节点数据库中。本发明通过将标准化数据同步至云端分散节点数据库中，降低了服务器的数据交互压力，而且可以有效确保生物样本库共享平台中的每一条数据以及每一个节点具备公开可验证性、可追溯性、以及高透明度的特点。本发明可广泛应用于数据处理领域中。

Description

一种生物样本库数据分散式节点共享方法、系统及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种生物样本库数据分散式节点共享方法、系统及装置。

背景技术

生物样本库又被称为生物银行，其作用在于对各类生物样本的收集、处理、存储和应用过程进行标准化管理，同时对与样本相关各类信息进行管理，如样本的临床信息、病人随访信息、样本质量管理信息等。上个世纪以来，越来越多的生物样本库被建立，这些生物样本库在基因组学研究和精准医疗研究红扮演着越来越重要的角色。

随着生物样本库的不断发展状态，对于生物样本的管理工作愈显繁重，传统的人工管理方式难以满足对当前生物样本库的管理工作。同时，其获取数据信息一般通过客户端直接连接至服务器或通过局域网终端连接至服务器，这样容易导致服务器的数据交互压力过大，客户端终端获取数据信息的效率取决于主网的信道通信质量。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能降低服务器数据交互压力的生物样本库数据分散式节点共享方法、系统及装置。

本发明所采取的技术方案是：

一种生物样本库数据分散式节点共享方法，包括以下步骤：

将各个生物样品库同步到云端服务器中，并进行合并处理，得到合并后的数据库；

对合并后的数据库中的数据进行标准化处理，得到处理后标准化数据；

将标准化数据同步至云端分散节点数据库中。

作为所述的一种生物样本库数据分散式节点共享方法的进一步改进，还包括以下步骤：

对标准化数据进行建模和预测，得到预测结果；

对预测结果进行可视化处理。

作为所述的一种生物样本库数据分散式节点共享方法的进一步改进，所述的对合并后的数据库中的数据进行标准化处理，得到处理后标准化数据，这一步骤具体包括：

将合并后的数据库中的数据转换成文本数据，得到样本数据，并将其导入后台进行处理；

对样本数据进行数据清洗处理，得到标准化数据。

作为所述的一种生物样本库数据分散式节点共享方法的进一步改进，所述的对样本数据进行数据清洗处理，得到标准化数据，这一步骤具体包括：

将样本数据进行特征工程处理，得到处理后的样本数据；

根据处理后的样本数据的数据类型和需要进行的清除种类，进行对应方式的数据清理处理。

本发明所采用的另一个技术方案是：

一种生物样本库数据分散式节点共享系统，包括：

合并单元，用于将各个生物样品库同步到云端服务器中，并进行合并处理，得到合并后的数据库；

标准化单元，用于对合并后的数据库中的数据进行标准化处理，得到处理后标准化数据；

节点同步单元，用于将标准化数据同步至云端分散节点数据库中。

作为所述的一种生物样本库数据分散式节点共享系统的进一步改进，还包括：

预测单元，用于对标准化数据进行建模和预测，得到预测结果；

可视化单元，用于对预测结果进行可视化处理。

作为所述的一种生物样本库数据分散式节点共享系统的进一步改进，所述的标准化单元具体包括：

转化单元，用于将合并后的数据库中的数据转换成文本数据，得到样本数据，并将其导入后台进行处理；

清洗单元，用于对样本数据进行数据清洗处理，得到标准化数据。

作为所述的一种生物样本库数据分散式节点共享系统的进一步改进，所述的清洗单元具体包括：

特征处理单元，用于将样本数据进行特征工程处理，得到处理后的样本数据；

数据清除单元，用于根据处理后的样本数据的数据类型和需要进行的清除种类，进行对应方式的数据清理处理。

本发明所采用的再一个技术方案是：

一种生物样本库数据分散式节点共享装置，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，所述程序使得所述处理器执行所述的生物样本库数据分散式节点共享方法。

本发明的有益效果是：

本发明一种生物样本库数据分散式节点共享方法、系统及装置通过将标准化数据同步至云端分散节点数据库中，降低了服务器的数据交互压力，而且可以有效确保生物样本库共享平台中的每一条数据以及每一个节点具备公开可验证性、可追溯性、以及高透明度的特点。

附图说明

图1是本发明一种生物样本库数据分散式节点共享方法的步骤流程图；

图2是本发明一种生物样本库数据分散式节点共享系统的模块方框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

参考图1，本发明一种生物样本库数据分散式节点共享方法，包括以下步骤：

将标准化数据同步至云端分散节点数据库中。

其中，各所述的生物样品库布置于医院和研究机构中，将各个生物样品库同步到云端服务器中并进行合并，从而为后续的数据处理做统一数据的准备。此步骤将成为共享生物样品库平台得以实现的大前提，通过统一化部署数据库节点进行数据采集，将会极大提高数据库列表一致性、数据利用率以及降低了后续数据处理的空间以及时间成本。

进一步作为优先的实施方式，还包括以下步骤：

对标准化数据进行建模和预测，得到预测结果；

对预测结果进行可视化处理。

本实施例中，对标准化数据的建模基于不同的数据库类型以及访问用户的目的，并制定出不同的指向性问题然后针对此问题进行专门的数据变量抓取与处理。在初步的方案制定中，由于生物样本库多于疾病种类相关，常用的算法多为分类算法，例如朴素贝叶斯、Adaboost迭代算法、支持向量机等算法处理，在完成一系列的初步建模后，对以上三种模型进行多次K-折叠交叉验证以取得最佳精确性。本发明通过建模进行深度学习反馈使得人工智能在生命科学领域变为可能并大大改善了人工成本和人物判断的错误率。最后针对用户需求，可视化地输出各种经过统计分析处理过的预测结果，从而方便用户进行结果比对、检验以及用于研究上的成果展现。

进一步作为优先的实施方式，所述的对合并后的数据库中的数据进行标准化处理，得到处理后标准化数据，这一步骤具体包括：

对样本数据进行数据清洗处理，得到标准化数据。

进一步作为优先的实施方式，所述的对样本数据进行数据清洗处理，得到标准化数据，这一步骤具体包括：

将样本数据进行特征工程处理，得到处理后的样本数据；

本发明实施例中，样本数据可分为定值编码数据与自由正文数据。

所述定值编码数据，此类数据的清理种类为数据异常和数据缺失。针对不同类型的变量，本发明采用对应算法对其进行处理。

所述清除种类分为数据缺失和数据异常；

当清除种类为数据缺失时，若对象为年龄、身高等随机数值化数据，则使用平均值、中位值、平均值与随机标准差的和进行赋值填充。

若对象为血型、性别等分类型数据，则使用出现频率对其进行归类化赋值填充。

当清除种类为数据异常时，若对象为单位数值异常，则使用对其进行简单的朴素贝叶斯和决策二叉树对其进行单位转换。若对象为异常点数据，则使用核密度估计算法以及主成分分析异常点数据进行排除。

所述自由正文数据，针对此类数据，本实施例中对其先是进行初步关键字抓取，并创建新变量纵列并对其进行初步编码赋值。具体值将取决于具体样本库的代码词典。

参考图2，本发明一种生物样本库数据分散式节点共享系统，包括：

进一步作为优先的实施方式，还包括：

可视化单元，用于对预测结果进行可视化处理。

进一步作为优先的实施方式，所述的标准化单元具体包括：

进一步作为优先的实施方式，所述的清洗单元具体包括：

一种生物样本库数据分散式节点共享装置，包括：

存储器，用于存放程序；

从上述内容可知，本发明通过将标准化数据同步至云端分散节点数据库中，降低了服务器的数据交互压力，而且可以有效确保生物样本库共享平台中的每一条数据以及每一个节点具备公开可验证性、可追溯性、以及高透明度的特点。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种生物样本库数据分散式节点共享方法，其特征在于，包括以下步骤：

将标准化数据同步至云端分散节点数据库中。

2.根据权利要求1所述的一种生物样本库数据分散式节点共享方法，其特征在于，还包括以下步骤：

对标准化数据进行建模和预测，得到预测结果；

对预测结果进行可视化处理。

3.根据权利要求1所述的一种生物样本库数据分散式节点共享方法，其特征在于：所述的对合并后的数据库中的数据进行标准化处理，得到处理后标准化数据，这一步骤具体包括：

对样本数据进行数据清洗处理，得到标准化数据。

4.根据权利要求3所述的一种生物样本库数据分散式节点共享方法，其特征在于：所述的对样本数据进行数据清洗处理，得到标准化数据，这一步骤具体包括：

将样本数据进行特征工程处理，得到处理后的样本数据；

5.一种生物样本库数据分散式节点共享系统，其特征在于，包括：

6.根据权利要求5所述的一种生物样本库数据分散式节点共享系统，其特征在于，还包括：

可视化单元，用于对预测结果进行可视化处理。

7.根据权利要求5所述的一种生物样本库数据分散式节点共享系统，其特征在于：所述的标准化单元具体包括：

8.根据权利要求7所述的一种生物样本库数据分散式节点共享系统，其特征在于：所述的清洗单元具体包括：

9.一种生物样本库数据分散式节点共享装置，其特征在于，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，所述程序使得所述处理器执行如权利要求1～4任一项所述的生物样本库数据分散式节点共享方法。