CN109635026A - 一种生物样本库数据分散式节点共享方法、系统及装置 - Google Patents
一种生物样本库数据分散式节点共享方法、系统及装置 Download PDFInfo
- Publication number
- CN109635026A CN109635026A CN201811447402.0A CN201811447402A CN109635026A CN 109635026 A CN109635026 A CN 109635026A CN 201811447402 A CN201811447402 A CN 201811447402A CN 109635026 A CN109635026 A CN 109635026A
- Authority
- CN
- China
- Prior art keywords
- data
- biological sample
- standardized
- database
- nodes sharing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种生物样本库数据分散式节点共享方法、系统及装置,方法包括:将各个生物样品库同步到云端服务器中,并进行合并处理,得到合并后的数据库;对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据;将标准化数据同步至云端分散节点数据库中。本发明通过将标准化数据同步至云端分散节点数据库中,降低了服务器的数据交互压力,而且可以有效确保生物样本库共享平台中的每一条数据以及每一个节点具备公开可验证性、可追溯性、以及高透明度的特点。本发明可广泛应用于数据处理领域中。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种生物样本库数据分散式节点共享方法、系统及装置。
背景技术
生物样本库又被称为生物银行,其作用在于对各类生物样本的收集、处理、存储和应用过程进行标准化管理,同时对与样本相关各类信息进行管理,如样本的临床信息、病人随访信息、样本质量管理信息等。上个世纪以来,越来越多的生物样本库被建立,这些生物样本库在基因组学研究和精准医疗研究红扮演着越来越重要的角色。
随着生物样本库的不断发展状态,对于生物样本的管理工作愈显繁重,传统的人工管理方式难以满足对当前生物样本库的管理工作。同时,其获取数据信息一般通过客户端直接连接至服务器或通过局域网终端连接至服务器,这样容易导致服务器的数据交互压力过大,客户端终端获取数据信息的效率取决于主网的信道通信质量。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能降低服务器数据交互压力的生物样本库数据分散式节点共享方法、系统及装置。
本发明所采取的技术方案是:
一种生物样本库数据分散式节点共享方法,包括以下步骤:
将各个生物样品库同步到云端服务器中,并进行合并处理,得到合并后的数据库;
对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据;
将标准化数据同步至云端分散节点数据库中。
作为所述的一种生物样本库数据分散式节点共享方法的进一步改进,还包括以下步骤:
对标准化数据进行建模和预测,得到预测结果;
对预测结果进行可视化处理。
作为所述的一种生物样本库数据分散式节点共享方法的进一步改进,所述的对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据,这一步骤具体包括:
将合并后的数据库中的数据转换成文本数据,得到样本数据,并将其导入后台进行处理;
对样本数据进行数据清洗处理,得到标准化数据。
作为所述的一种生物样本库数据分散式节点共享方法的进一步改进,所述的对样本数据进行数据清洗处理,得到标准化数据,这一步骤具体包括:
将样本数据进行特征工程处理,得到处理后的样本数据;
根据处理后的样本数据的数据类型和需要进行的清除种类,进行对应方式的数据清理处理。
本发明所采用的另一个技术方案是:
一种生物样本库数据分散式节点共享系统,包括:
合并单元,用于将各个生物样品库同步到云端服务器中,并进行合并处理,得到合并后的数据库;
标准化单元,用于对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据;
节点同步单元,用于将标准化数据同步至云端分散节点数据库中。
作为所述的一种生物样本库数据分散式节点共享系统的进一步改进,还包括:
预测单元,用于对标准化数据进行建模和预测,得到预测结果;
可视化单元,用于对预测结果进行可视化处理。
作为所述的一种生物样本库数据分散式节点共享系统的进一步改进,所述的标准化单元具体包括:
转化单元,用于将合并后的数据库中的数据转换成文本数据,得到样本数据,并将其导入后台进行处理;
清洗单元,用于对样本数据进行数据清洗处理,得到标准化数据。
作为所述的一种生物样本库数据分散式节点共享系统的进一步改进,所述的清洗单元具体包括:
特征处理单元,用于将样本数据进行特征工程处理,得到处理后的样本数据;
数据清除单元,用于根据处理后的样本数据的数据类型和需要进行的清除种类,进行对应方式的数据清理处理。
本发明所采用的再一个技术方案是:
一种生物样本库数据分散式节点共享装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的生物样本库数据分散式节点共享方法。
本发明的有益效果是:
本发明一种生物样本库数据分散式节点共享方法、系统及装置通过将标准化数据同步至云端分散节点数据库中,降低了服务器的数据交互压力,而且可以有效确保生物样本库共享平台中的每一条数据以及每一个节点具备公开可验证性、可追溯性、以及高透明度的特点。
附图说明
图1是本发明一种生物样本库数据分散式节点共享方法的步骤流程图;
图2是本发明一种生物样本库数据分散式节点共享系统的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明一种生物样本库数据分散式节点共享方法,包括以下步骤:
将各个生物样品库同步到云端服务器中,并进行合并处理,得到合并后的数据库;
对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据;
将标准化数据同步至云端分散节点数据库中。
其中,各所述的生物样品库布置于医院和研究机构中,将各个生物样品库同步到云端服务器中并进行合并,从而为后续的数据处理做统一数据的准备。此步骤将成为共享生物样品库平台得以实现的大前提,通过统一化部署数据库节点进行数据采集,将会极大提高数据库列表一致性、数据利用率以及降低了后续数据处理的空间以及时间成本。
进一步作为优先的实施方式,还包括以下步骤:
对标准化数据进行建模和预测,得到预测结果;
对预测结果进行可视化处理。
本实施例中,对标准化数据的建模基于不同的数据库类型以及访问用户的目的,并制定出不同的指向性问题然后针对此问题进行专门的数据变量抓取与处理。在初步的方案制定中,由于生物样本库多于疾病种类相关,常用的算法多为分类算法,例如朴素贝叶斯、Adaboost迭代算法、支持向量机等算法处理,在完成一系列的初步建模后,对以上三种模型进行多次K-折叠交叉验证以取得最佳精确性。本发明通过建模进行深度学习反馈使得人工智能在生命科学领域变为可能并大大改善了人工成本和人物判断的错误率。最后针对用户需求,可视化地输出各种经过统计分析处理过的预测结果,从而方便用户进行结果比对、检验以及用于研究上的成果展现。
进一步作为优先的实施方式,所述的对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据,这一步骤具体包括:
将合并后的数据库中的数据转换成文本数据,得到样本数据,并将其导入后台进行处理;
对样本数据进行数据清洗处理,得到标准化数据。
进一步作为优先的实施方式,所述的对样本数据进行数据清洗处理,得到标准化数据,这一步骤具体包括:
将样本数据进行特征工程处理,得到处理后的样本数据;
根据处理后的样本数据的数据类型和需要进行的清除种类,进行对应方式的数据清理处理。
本发明实施例中,样本数据可分为定值编码数据与自由正文数据。
所述定值编码数据,此类数据的清理种类为数据异常和数据缺失。针对不同类型的变量,本发明采用对应算法对其进行处理。
所述清除种类分为数据缺失和数据异常;
当清除种类为数据缺失时,若对象为年龄、身高等随机数值化数据,则使用平均值、中位值、平均值与随机标准差的和进行赋值填充。
若对象为血型、性别等分类型数据,则使用出现频率对其进行归类化赋值填充。
当清除种类为数据异常时,若对象为单位数值异常,则使用对其进行简单的朴素贝叶斯和决策二叉树对其进行单位转换。若对象为异常点数据,则使用核密度估计算法以及主成分分析异常点数据进行排除。
所述自由正文数据,针对此类数据,本实施例中对其先是进行初步关键字抓取,并创建新变量纵列并对其进行初步编码赋值。具体值将取决于具体样本库的代码词典。
参考图2,本发明一种生物样本库数据分散式节点共享系统,包括:
合并单元,用于将各个生物样品库同步到云端服务器中,并进行合并处理,得到合并后的数据库;
标准化单元,用于对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据;
节点同步单元,用于将标准化数据同步至云端分散节点数据库中。
进一步作为优先的实施方式,还包括:
预测单元,用于对标准化数据进行建模和预测,得到预测结果;
可视化单元,用于对预测结果进行可视化处理。
进一步作为优先的实施方式,所述的标准化单元具体包括:
转化单元,用于将合并后的数据库中的数据转换成文本数据,得到样本数据,并将其导入后台进行处理;
清洗单元,用于对样本数据进行数据清洗处理,得到标准化数据。
进一步作为优先的实施方式,所述的清洗单元具体包括:
特征处理单元,用于将样本数据进行特征工程处理,得到处理后的样本数据;
数据清除单元,用于根据处理后的样本数据的数据类型和需要进行的清除种类,进行对应方式的数据清理处理。
一种生物样本库数据分散式节点共享装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的生物样本库数据分散式节点共享方法。
从上述内容可知,本发明通过将标准化数据同步至云端分散节点数据库中,降低了服务器的数据交互压力,而且可以有效确保生物样本库共享平台中的每一条数据以及每一个节点具备公开可验证性、可追溯性、以及高透明度的特点。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种生物样本库数据分散式节点共享方法,其特征在于,包括以下步骤:
将各个生物样品库同步到云端服务器中,并进行合并处理,得到合并后的数据库;
对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据;
将标准化数据同步至云端分散节点数据库中。
2.根据权利要求1所述的一种生物样本库数据分散式节点共享方法,其特征在于,还包括以下步骤:
对标准化数据进行建模和预测,得到预测结果;
对预测结果进行可视化处理。
3.根据权利要求1所述的一种生物样本库数据分散式节点共享方法,其特征在于:所述的对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据,这一步骤具体包括:
将合并后的数据库中的数据转换成文本数据,得到样本数据,并将其导入后台进行处理;
对样本数据进行数据清洗处理,得到标准化数据。
4.根据权利要求3所述的一种生物样本库数据分散式节点共享方法,其特征在于:所述的对样本数据进行数据清洗处理,得到标准化数据,这一步骤具体包括:
将样本数据进行特征工程处理,得到处理后的样本数据;
根据处理后的样本数据的数据类型和需要进行的清除种类,进行对应方式的数据清理处理。
5.一种生物样本库数据分散式节点共享系统,其特征在于,包括:
合并单元,用于将各个生物样品库同步到云端服务器中,并进行合并处理,得到合并后的数据库;
标准化单元,用于对合并后的数据库中的数据进行标准化处理,得到处理后标准化数据;
节点同步单元,用于将标准化数据同步至云端分散节点数据库中。
6.根据权利要求5所述的一种生物样本库数据分散式节点共享系统,其特征在于,还包括:
预测单元,用于对标准化数据进行建模和预测,得到预测结果;
可视化单元,用于对预测结果进行可视化处理。
7.根据权利要求5所述的一种生物样本库数据分散式节点共享系统,其特征在于:所述的标准化单元具体包括:
转化单元,用于将合并后的数据库中的数据转换成文本数据,得到样本数据,并将其导入后台进行处理;
清洗单元,用于对样本数据进行数据清洗处理,得到标准化数据。
8.根据权利要求7所述的一种生物样本库数据分散式节点共享系统,其特征在于:所述的清洗单元具体包括:
特征处理单元,用于将样本数据进行特征工程处理,得到处理后的样本数据;
数据清除单元,用于根据处理后的样本数据的数据类型和需要进行的清除种类,进行对应方式的数据清理处理。
9.一种生物样本库数据分散式节点共享装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行如权利要求1~4任一项所述的生物样本库数据分散式节点共享方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811447402.0A CN109635026A (zh) | 2018-11-29 | 2018-11-29 | 一种生物样本库数据分散式节点共享方法、系统及装置 |
CN202210840621.5A CN115221152A (zh) | 2018-11-29 | 2018-11-29 | 一种生物样本库数据分散式节点共享方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811447402.0A CN109635026A (zh) | 2018-11-29 | 2018-11-29 | 一种生物样本库数据分散式节点共享方法、系统及装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210840621.5A Division CN115221152A (zh) | 2018-11-29 | 2018-11-29 | 一种生物样本库数据分散式节点共享方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635026A true CN109635026A (zh) | 2019-04-16 |
Family
ID=66069944
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811447402.0A Pending CN109635026A (zh) | 2018-11-29 | 2018-11-29 | 一种生物样本库数据分散式节点共享方法、系统及装置 |
CN202210840621.5A Pending CN115221152A (zh) | 2018-11-29 | 2018-11-29 | 一种生物样本库数据分散式节点共享方法及系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210840621.5A Pending CN115221152A (zh) | 2018-11-29 | 2018-11-29 | 一种生物样本库数据分散式节点共享方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN109635026A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150181A1 (en) * | 2007-12-07 | 2009-06-11 | Roche Diagnostics Operations, Inc. | Method and system for personal medical data database merging |
CN103150304A (zh) * | 2011-12-06 | 2013-06-12 | 郑红云 | 云数据库系统 |
CN104809590A (zh) * | 2015-05-05 | 2015-07-29 | 赣州市明豪信息技术有限公司 | 一种智能云同步医疗信息共享系统 |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
CN106777930A (zh) * | 2016-11-30 | 2017-05-31 | 南京大学 | 基于心电图统一标准化的中央网络平台 |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
-
2018
- 2018-11-29 CN CN201811447402.0A patent/CN109635026A/zh active Pending
- 2018-11-29 CN CN202210840621.5A patent/CN115221152A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150181A1 (en) * | 2007-12-07 | 2009-06-11 | Roche Diagnostics Operations, Inc. | Method and system for personal medical data database merging |
CN103150304A (zh) * | 2011-12-06 | 2013-06-12 | 郑红云 | 云数据库系统 |
CN104809590A (zh) * | 2015-05-05 | 2015-07-29 | 赣州市明豪信息技术有限公司 | 一种智能云同步医疗信息共享系统 |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
CN106777930A (zh) * | 2016-11-30 | 2017-05-31 | 南京大学 | 基于心电图统一标准化的中央网络平台 |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115221152A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647249A (zh) | 舆情数据预测方法、装置、终端及存储介质 | |
CN109873425B (zh) | 基于深度学习和用户行为的电力系统调整潮流方法及系统 | |
CN105868222A (zh) | 一种任务调度方法及装置 | |
CN111666494A (zh) | 分群决策模型生成、分群处理方法、装置、设备及介质 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN113723535A (zh) | 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质 | |
CN114187979A (zh) | 数据处理、模型训练、分子预测和筛选方法及其装置 | |
Babichev et al. | An effectiveness evaluation of information technology of gene expression profiles processing for gene networks reconstruction | |
CN116245019A (zh) | 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质 | |
CN112215398A (zh) | 电力用户负荷预测模型建立方法、装置、设备及存储介质 | |
CN111062511A (zh) | 基于决策树与神经网络的水产养殖病害预测方法及系统 | |
CN113345564B (zh) | 一种基于图神经网络的患者住院时长早期预测方法及装置 | |
CN114118401A (zh) | 基于神经网络的配电网络流量预测方法、系统、装置及存储介质 | |
CN108921287A (zh) | 一种神经网络模型的优化方法及系统 | |
CN109635026A (zh) | 一种生物样本库数据分散式节点共享方法、系统及装置 | |
CN115938600A (zh) | 一种基于关联分析的心理健康状态预测方法与系统 | |
CN115238583B (zh) | 一种支持增量日志的业务流程剩余时间预测方法与系统 | |
Dulhare et al. | An efficient hybrid clustering to predict the risk of customer churn | |
Cattinelli et al. | Computational intelligence for the Balanced Scorecard: Studying performance trends of hemodialysis clinics | |
CN115185804A (zh) | 服务器性能预测方法、系统、终端及存储介质 | |
CN115187312A (zh) | 基于深度学习的客户流失预测方法及系统 | |
CN115525927A (zh) | 基于人工智能的科技成果转化数据智能监测方法及系统 | |
CN112070200B (zh) | 一种谐波群优化方法及其应用 | |
CN113679393A (zh) | 基于对比预测编码的ecg数据特征生成模型 | |
CN113010917B (zh) | 面向同期线损管理系统具有隐私保护的降损分析处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |
|
RJ01 | Rejection of invention patent application after publication |