CN113077839A - 基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台 - Google Patents
基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台 Download PDFInfo
- Publication number
- CN113077839A CN113077839A CN202110409978.3A CN202110409978A CN113077839A CN 113077839 A CN113077839 A CN 113077839A CN 202110409978 A CN202110409978 A CN 202110409978A CN 113077839 A CN113077839 A CN 113077839A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- gene
- big
- health
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/67—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Biotechnology (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及医疗大数据技术领域,具体地说,涉及基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台。包括应用支持单元、数据处理单元、功能应用单元和服务管理单元;应用支持单元用于提供支持平台系统运行的应用终端设备、应用平台及智能技术;数据处理单元用于对数据库中的基因大数据进行筛选、聚类、分析等处理以获取结果作为预测疾病的依据;功能应用单元用于根据数据处理的结果延伸出各种功能性的应用;服务管理单元用于以数据处理结果和功能应用为基础给用户提供智能的健康管理服务。本发明设计可以消除信息孤岛、获取海量医疗数据,同时有利于开展个体化医学,另外可以实现生物和公共卫生的监测,此外还可提供个性化健康监测服务。
Description
技术领域
本发明涉及医疗大数据技术领域,具体地说,涉及基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台。
背景技术
医疗是民生领域最重要的行业之一,随着科技的不断发展及医改、医疗大数据、医疗人工智能时代的到来,搭建线上的医疗健康管理服务平台的需求呼声越来越高。但是,很多医疗机构基于利益、法律及隐私等各种顾虑,不会将医疗信息对外公开,而可靠数据的缺乏,必然阻碍以大数据为基础的智能疾病预测及健康管理平台的发展。如何通过可信的数据共享来消除信息孤岛是亟待解决的问题,同时,医疗大数据中存在大量的基因数据,基因是人类及其他生物学发展中必不可避免的研究项目,通过基因学的研究,可以为疾病的发生、预防和治疗提供很好的基础依据,而目前大多医疗大数据中却没有着重对基因大数据进行研究分析的。
发明内容
本发明的目的在于提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,包括
应用支持单元、数据处理单元、功能应用单元和服务管理单元;所述应用支持单元的信号输出端与所述数据处理单元的信号输入端连接,所述数据处理单元的信号输出端与所述功能应用单元的信号输入端连接,所述功能应用单元的信号输出端与所述服务管理单元的信号输入端连接;所述应用支持单元用于提供支持平台系统运行的应用终端设备、应用平台及智能技术;所述数据处理单元用于对数据库中的基因大数据进行筛选、聚类、分析等处理以获取结果作为预测疾病的依据;所述功能应用单元用于根据数据处理的结果延伸出各种功能性的应用;所述服务管理单元用于以数据处理结果和功能应用为基础给用户提供智能的健康管理服务;
所述应用支持单元包括智能终端模块、医疗区块模块、大数据库模块和网络通信模块;
所述数据处理单元包括数据预处理模块、基因聚类模块、综合分析模块和数据挖掘模块;
所述功能应用单元包括关联研究模块、识别标志模块、药物研发模块和筛检病原模块;
所述服务管理单元包括生物监测模块、公共监测模块、病谱改变模块和健康管理模块。
作为本技术方案的进一步改进,所述智能终端模块、所述医疗区块模块与所述大数据库模块依次通过以太网通讯连接并独立运行;所述智能终端模块用于通过各种智能终端设备给平台系统提供访问通道、数据采集传输及信息反馈等功能;所述医疗区块模块用于接入多个医疗科研系统并将各医疗科研系统作为区域节点连接起来形成医疗区块链;所述大数据库模块用于获取医疗区块链中各节点处的医疗信息资源并汇总成存储在云端的大数据库以供调用查阅;所述网络通信模块用于在平台系统的各层面之间建立信息连接及数据传输的通道。
其中,智能终端包括但不限于处理器、PC、手机、智能手环、智能医疗监测仪器等。
其中,医疗区块链节点的医疗机构包括但不限于公立医院、私立医院、卫生监管部门、医学科研中心等。
其中,网络通信技术包括但不限于有线通信、无线WiFi、局域网、以太网、数据流量、5G模块等。
作为本技术方案的进一步改进,所述数据预处理模块的信号输出端与所述基因聚类模块的信号输入端连接,所述基因聚类模块的信号输出端与所述综合分析模块的信号输入端连接,所述综合分析模块的信号输出端与所述数据挖掘模块的信号输入端连接;所述数据预处理模块用于对基因表达数据进行清理、融合、检索及交换等预处理以便提取出一些对目标输出有重要影响的属性,达到降低原始数据维度、消除噪声或不一致数据、融合多种数据源数据、改善实例数据质量和提高数据挖掘速度的目的;所述基因聚类模块用于通过密度峰值聚类算法对基因大数据进行聚类获取基因之间的相关性以便作为疾病预测的依据基础;所述综合分析模块用于根据基因数据的聚类及其他相关医疗数据的综合统计、分析来进行影响健康因素的分析并输出结果;所述数据挖掘模块用于以数据处理的结果为基础来实时更强大的数据挖掘以增加数据挖掘的把握度及发现弱关联的能力。
其中,数据挖掘的任务包括但不限于关联分析、聚类分析、分类分析、异常分析等。
作为本技术方案的进一步改进,所述数据预处理模块包括数据清洗模块、数据转换模块、看家基因模块、方差分析模块和相关系数模块;所述数据清洗模块的信号输出端与所述数据转换模块的信号输入端连接,所述数据转换模块的信号输出端与所述看家基因模块的信号输入端连接,所述看家基因模块的信号输出端与所述方差分析模块的信号输出端连接,所述方差分析模块的信号输出端与所述相关系数模块的信号输入端连接;所述数据清洗模块用于在数据分析前对基因表达数据进行清筛以去除表达水平是负值或很小的数据、明显的噪声数据并处理缺失数据;所述数据转换模块用于将数据变换为适合数据挖掘的形式,如根据需要构造处新的数据属性或者将数据规范化;所述看家基因模块用于筛选出不大受环境变动且细胞或生物体整个生命中持续需要的必不可少的一类基因表达并固定存储;所述方差分析模块用于通过对基因表达数据进行方差分析以区分出由于实验原因或由于基因内部发生变化而导致的数据不一致以便提高预测疾病的准确性;所述相关系数模块用于通过Pearson相关系数的方式来使相同的相似度量、聚类算法不能因为预处理手段的不同而导致最后得到的聚类结果差异很大。
其中,另一种相关系数的度量准则为欧几里德距离。
此外,基因数据预处理的方法还包括基于粗糙集理论的约简方法、基于概念树的数据浓缩方法、主成分分析法、遗传算法等。
作为本技术方案的进一步改进,所述数据转换模块包括对数转换和标准化两个过程,其中,标准化的计算表达式如下:
通过标准化,使得每个基因表达谱的平均值为0,标准差为1;如果要求所有的数据x分布在[0,1]之间,还需要进行如下转换:
x′=(x-xmin)/(xmax-xmin);
其中,xmin=min{x1,x2,...,xN},xmax=max{x1,x2,...,xN),而要求数据满足分布在[a,b]区间,则变换如下:
作为本技术方案的进一步改进,所述相关系数模块的计算表达式如下:
先给定两个基因组的表达:Xi(X1,X2,...,Xn)和Yi(Y1,Y2,...,Yn);
其中,如果所有点都分布在一条直线上,则Pearson相关系数是+1,,否则-1,取决于自线的斜角是正还是负;如Pearson相关系数为0,则x和y间无相关性。
其中,定义Pearson相关距离为dp=1-r,由于Pearson相关系数值在-1和+1之间,所述Pearson相关距离的值在0和2之间;Pearson相关系数通过减去平均值而自动地将数据往中间靠拢,并且通过除以标准偏差使得这些数据规范化。
作为本技术方案的进一步改进,所述基因聚类模块采用密度峰值的聚类算法,该算法包括本身密度大和与其他密度更大的数据点之间的距离相对更大两个特点,其计算表达式如下:
局部密度ρi:
其中,函数:
参数dc为截断距离,需事先指定;其中,由定义易知,ρi表示的时S钟与xi之间的距离小于dc的数据点的个数;
距离δi:
由上式定义可知:当xi具有最大局部密度时,δi表示S中与xi距离最大的数据点到xi之间的距离;否则,δi表示在所有的局部密度大于xi的数据点中,与xi距离最小的那个数据点到xi之间的距离。
作为本技术方案的进一步改进,所述关联研究模块、所述识别标志模块、所述药物研发模块与所述筛检病原模块依次通过以太网通讯连接且并列运行;所述关联研究模块用于根据基因大数据开展组学研究及不同组学间的关联研究并可以根据各组学的综合及整合开展个体化医学;所述识别标志模块用于利用某种疾病患者人群的组学数据快速识别有关疾病发生、预后或治疗效果的生物标志物;所述药物研发模块用于根据组学数据及识别的生物标志物来帮助识别生物靶点及研发药物,并可以利用海量组学数据、已有药物的研究数据和高通量药物筛选来加速药物筛选过程;所述筛检病原模块用于通过采集未知病原或可疑致病微生物样本、对病原进行测序、将未知病原与已知病原的基因序列进行比对,从而判断其为已知病原或与其最接近的病原类型,并以此推测其来源和传播路线、开展药物筛选和相应的疾病防治。
其中,组学研究的内容包括环境、个体生活方式行为等暴露组学,个体细胞分子水平上的基因组学、表观组学、转录组学、蛋白组学、代谢组学、宏基因组学,个体健康和疾病状态的表型组学等。
作为本技术方案的进一步改进,所述生物监测模块、所述公共监测模块、所述病谱改变模块与所述健康管理模块依次通过以太网通讯连接且并列运行;所述生物监测模块用于根据各类基因大数据及组学分析结果开展生物监测;所述公共监测模块用于根据生物监测、覆盖全国的患者电子病历数据库、社交媒体或网络上频繁检索的词条来进行疫情监测及预测某些传染病的流行;所述病谱改变模块用语根据综合统析结果了解人群疾病谱的改变以便于制定新的疾病防治策略;所述健康管理模块用于通过各种智能体征监测仪器对个体体征数据进行实时、连续的监测,从而可以提供实时健康指导与建议,从而更好地实施健康管理。
其中,公共卫生监测包括传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测(如出生缺陷监测、食品安全风险监测等)。
其中,个体体征数据包括心率、脉率、呼吸频率、体温、热消耗量、血压、血糖、血氧、体脂含量等。
本发明的目的之二在于,提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台的运行方法,包括如下步骤:
S1、以区域内各大小医疗科研中心平台系统为节点建立医疗区块链,获取各节点的公开医疗数据,通过可信的数据共享交换通道,将不同渠道的数据汇总成大数据库并存储在云端;
S2、平台系统自动对数据库中的数据,尤其是基因大数据进行预处理、聚类、综合分析及深度挖掘;
S3、用户通过网络应用访问平台系统,并可以进行信息咨询及上传相关病原数据;
S4、平台系统以基因大数据及组学分析为基础,对用户的病原数据进行分析并输出解析结果及疾病预测;
S5、平台系统对确诊的病原及疾病提出相关的防治指导;
S6、平台系统实时进行生物监测及公共卫生监测,并实时监测媒体及网络相关动态,及时获取并预测传染性疾病的疫情流行情况,并及时制定防治策略;
S7、平台系统还可以通过用户佩戴的具有传感功能的智能体征监测终端获取用户的个人体征信息,给用户提供个性化的健康管理服务,并实时提供健康指导。
本发明的目的之三在于,提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台的系统运行装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台。
本发明的目的之四在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台。
与现有技术相比,本发明的有益效果:该基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台中,通过以各大小医疗研究机构的信息管理系统为节点搭建医疗区块链,提供可信的数据共享交换、灵活的数据控制,消除信息孤岛,从而可以获取海量的医疗数据,同时着重对基因大数据进行聚类分析,从而开展大量组学研究,可以为疾病发生、预防和治疗提供全面、全新的认识,也有利于开展个体化医学、更准确地预测个体患病风险和预后,另外可以通过生物和公共卫生的监测,实现流行性传染性或非传染性疾病的预测和防治,提高公共安全性,此外还可给广大居民提供个体的个性化健康监测服务,提高疾病预测的效率及准确率,提高国民的健康程度。
附图说明
图1为本发明的示例性产品架构图;
图2为本发明的整体系统装置结构图;
图3为本发明的局部系统装置结构图之一;
图4为本发明的局部系统装置结构图之二;
图5为本发明的局部系统装置结构图之三;
图6为本发明的局部系统装置结构图之四;
图7为本发明的局部系统装置结构图之五;
图8为本发明的示例性计算机程序产品结构图。
图中各个标号意义为:
1、处理器;2、显示器;3、云端数库;4、医疗科研系统;5、健康服务应用平台;6、智能终端;
100、应用支持单元;101、智能终端模块;102、医疗区块模块;103、大数据库模块;104、网络通信模块;
200、数据处理单元;201、数据预处理模块;2011、数据清洗模块;2012、数据转换模块;2013、看家基因模块;2014、方差分析模块;2015、相关系数模块;202、基因聚类模块;203、综合分析模块;204、数据挖掘模块;
300、功能应用单元;301、关联研究模块;302、识别标志模块;303、药物研发模块;304、筛检病原模块;
400、服务管理单元;401、生物监测模块;402、公共监测模块;403、病谱改变模块;404、健康管理模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-图8所示,本实施例提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,包括
应用支持单元100、数据处理单元200、功能应用单元300和服务管理单元400;应用支持单元100的信号输出端与数据处理单元200的信号输入端连接,数据处理单元200的信号输出端与功能应用单元300的信号输入端连接,功能应用单元300的信号输出端与服务管理单元400的信号输入端连接;应用支持单元100用于提供支持平台系统运行的应用终端设备、应用平台及智能技术;数据处理单元200用于对数据库中的基因大数据进行筛选、聚类、分析等处理以获取结果作为预测疾病的依据;功能应用单元300用于根据数据处理的结果延伸出各种功能性的应用;服务管理单元400用于以数据处理结果和功能应用为基础给用户提供智能的健康管理服务;
应用支持单元100包括智能终端模块101、医疗区块模块102、大数据库模块103和网络通信模块104;
数据处理单元200包括数据预处理模块201、基因聚类模块202、综合分析模块203和数据挖掘模块204;
功能应用单元300包括关联研究模块301、识别标志模块302、药物研发模块303和筛检病原模块304;
服务管理单元400包括生物监测模块401、公共监测模块402、病谱改变模块403和健康管理模块404。
本实施例中,智能终端模块101、医疗区块模块102与大数据库模块103依次通过以太网通讯连接并独立运行;智能终端模块101用于通过各种智能终端设备给平台系统提供访问通道、数据采集传输及信息反馈等功能;医疗区块模块102用于接入多个医疗科研系统并将各医疗科研系统作为区域节点连接起来形成医疗区块链;大数据库模块103用于获取医疗区块链中各节点处的医疗信息资源并汇总成存储在云端的大数据库以供调用查阅;网络通信模块104用于在平台系统的各层面之间建立信息连接及数据传输的通道。
其中,智能终端包括但不限于处理器、PC、手机、智能手环、智能医疗监测仪器等。
其中,医疗区块链节点的医疗机构包括但不限于公立医院、私立医院、卫生监管部门、医学科研中心等。
其中,网络通信技术包括但不限于有线通信、无线WiFi、局域网、以太网、数据流量、5G模块等。
本实施例中,数据预处理模块201的信号输出端与基因聚类模块202的信号输入端连接,基因聚类模块202的信号输出端与综合分析模块203的信号输入端连接,综合分析模块203的信号输出端与数据挖掘模块204的信号输入端连接;数据预处理模块201用于对基因表达数据进行清理、融合、检索及交换等预处理以便提取出一些对目标输出有重要影响的属性,达到降低原始数据维度、消除噪声或不一致数据、融合多种数据源数据、改善实例数据质量和提高数据挖掘速度的目的;基因聚类模块202用于通过密度峰值聚类算法对基因大数据进行聚类获取基因之间的相关性以便作为疾病预测的依据基础;综合分析模块203用于根据基因数据的聚类及其他相关医疗数据的综合统计、分析来进行影响健康因素的分析并输出结果;数据挖掘模块204用于以数据处理的结果为基础来实时更强大的数据挖掘以增加数据挖掘的把握度及发现弱关联的能力。
其中,数据挖掘的任务包括但不限于关联分析、聚类分析、分类分析、异常分析等。
进一步地,数据预处理模块201包括数据清洗模块2011、数据转换模块2012、看家基因模块2013、方差分析模块2014和相关系数模块2015;数据清洗模块2011的信号输出端与数据转换模块2012的信号输入端连接,数据转换模块2012的信号输出端与看家基因模块2013的信号输入端连接,看家基因模块2013的信号输出端与方差分析模块2014的信号输出端连接,方差分析模块2014的信号输出端与相关系数模块2015的信号输入端连接;数据清洗模块2011用于在数据分析前对基因表达数据进行清筛以去除表达水平是负值或很小的数据、明显的噪声数据并处理缺失数据;数据转换模块2012用于将数据变换为适合数据挖掘的形式,如根据需要构造处新的数据属性或者将数据规范化;看家基因模块2013用于筛选出不大受环境变动且细胞或生物体整个生命中持续需要的必不可少的一类基因表达并固定存储;方差分析模块2014用于通过对基因表达数据进行方差分析以区分出由于实验原因或由于基因内部发生变化而导致的数据不一致以便提高预测疾病的准确性;相关系数模块2015用于通过Pearson相关系数的方式来使相同的相似度量、聚类算法不能因为预处理手段的不同而导致最后得到的聚类结果差异很大。
其中,另一种相关系数的度量准则为欧几里德距离。
此外,基因数据预处理的方法还包括基于粗糙集理论的约简方法、基于概念树的数据浓缩方法、主成分分析法、遗传算法等。
具体地,数据转换模块2012包括对数转换和标准化两个过程,其中,标准化的计算表达式如下:
通过标准化,使得每个基因表达谱的平均值为0,标准差为1;如果要求所有的数据x分布在[0,1]之间,还需要进行如下转换:
x′=(x-xmin)/(xmax-xmin);
其中,xmin=min{x1,x2,...,xN},xmax=max{x1,x2,...,xN},而要求数据满足分布在[a,b]区间,则变换如下:
具体地,相关系数模块2015的计算表达式如下:
先给定两个基因组的表达:Xi(X1,X2,...,Xn)和Yi(Y1,Y2,...,Yn);
其中,如果所有点都分布在一条直线上,则Pearson相关系数是+1,,否则-1,取决于自线的斜角是正还是负;如Pearson相关系数为0,则x和y间无相关性。
其中,定义Pearson相关距离为dp=1-r,由于Pearson相关系数值在-1和+1之间,Pearson相关距离的值在0和2之间;Pearson相关系数通过减去平均值而自动地将数据往中间靠拢,并且通过除以标准偏差使得这些数据规范化。
具体地,基因聚类模块202采用密度峰值的聚类算法,该算法包括本身密度大和与其他密度更大的数据点之间的距离相对更大两个特点,其计算表达式如下:
局部密度ρi:
其中,函数:
参数dc为截断距离,需事先指定;其中,由定义易知,ρi表示的时S钟与xi之间的距离小于dc的数据点的个数;
距离δi:
由上式定义可知:当xi具有最大局部密度时,δi表示S中与xi距离最大的数据点到xi之间的距离;否则,δi表示在所有的局部密度大于xi的数据点中,与xi距离最小的那个数据点到xi之间的距离。
本实施例中,关联研究模块301、识别标志模块302、药物研发模块303与筛检病原模块304依次通过以太网通讯连接且并列运行;关联研究模块301用于根据基因大数据开展组学研究及不同组学间的关联研究并可以根据各组学的综合及整合开展个体化医学;识别标志模块302用于利用某种疾病患者人群的组学数据快速识别有关疾病发生、预后或治疗效果的生物标志物;药物研发模块303用于根据组学数据及识别的生物标志物来帮助识别生物靶点及研发药物,并可以利用海量组学数据、已有药物的研究数据和高通量药物筛选来加速药物筛选过程;筛检病原模块304用于通过采集未知病原或可疑致病微生物样本、对病原进行测序、将未知病原与已知病原的基因序列进行比对,从而判断其为已知病原或与其最接近的病原类型,并以此推测其来源和传播路线、开展药物筛选和相应的疾病防治。
其中,组学研究的内容包括环境、个体生活方式行为等暴露组学,个体细胞分子水平上的基因组学、表观组学、转录组学、蛋白组学、代谢组学、宏基因组学,个体健康和疾病状态的表型组学等。
本实施例中,生物监测模块401、公共监测模块402、病谱改变模块403与健康管理模块404依次通过以太网通讯连接且并列运行;生物监测模块401用于根据各类基因大数据及组学分析结果开展生物监测;公共监测模块402用于根据生物监测、覆盖全国的患者电子病历数据库、社交媒体或网络上频繁检索的词条来进行疫情监测及预测某些传染病的流行;病谱改变模块403用语根据综合统析结果了解人群疾病谱的改变以便于制定新的疾病防治策略;健康管理模块404用于通过各种智能体征监测仪器对个体体征数据进行实时、连续的监测,从而可以提供实时健康指导与建议,从而更好地实施健康管理。
健康管理模块404可将智能体征监测仪器监测到的个体体征数据以图像形式划分为一个个粒子,粒子的波动以轨迹形式测算,测算公式如下:
vid=ω*vid+c1r1(pid-xid)+c2r2(pgd-xid)
xid=xid+vid
w为惯性权重,反映粒子自身惯性的影响程度,c1,c2为学习因子;r2,r2为[0,1]的随机数,与c1,c2共同作用,反映粒子对局部最优解和全局最优解的一个倾向这些参数都是作为超参数自行设置Pid为个体极值,是单个粒子截止现在时刻搜索到的最优位置,Pgd为全局极值,是整个粒子群截止现在时刻搜索到的最优位置。
其中,公共卫生监测包括传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测(如出生缺陷监测、食品安全风险监测等)。
其中,个体体征数据包括心率、脉率、呼吸频率、体温、热消耗量、血压、血糖、血氧、体脂含量等。
本实施例还提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台的运行方法,包括如下步骤:
S1、以区域内各大小医疗科研中心平台系统为节点建立医疗区块链,获取各节点的公开医疗数据,通过可信的数据共享交换通道,将不同渠道的数据汇总成大数据库并存储在云端;
S2、平台系统自动对数据库中的数据,尤其是基因大数据进行预处理、聚类、综合分析及深度挖掘;
S3、用户通过网络应用访问平台系统,并可以进行信息咨询及上传相关病原数据;
S4、平台系统以基因大数据及组学分析为基础,对用户的病原数据进行分析并输出解析结果及疾病预测;
S5、平台系统对确诊的病原及疾病提出相关的防治指导;
S6、平台系统实时进行生物监测及公共卫生监测,并实时监测媒体及网络相关动态,及时获取并预测传染性疾病的疫情流行情况,并及时制定防治策略;
S7、平台系统还可以通过用户佩戴的具有传感功能的智能体征监测终端获取用户的个人体征信息,给用户提供个性化的健康管理服务,并实时提供健康指导。
参阅图1,本实施例还提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台的示例性产品架构,包括处理器1及其配套的显示器2,处理器1外通过以太网通讯连接有云端数库3,云端数库3外通过以太网通讯连接有若干医疗科研系统4,若干医疗科研系统4作为节点依次连接并形成医疗区块链,处理器1内装载有健康服务应用平台5的系统,处理器1外通过无线通讯连接有若干智能终端6,智能终端6泛指具有传感功能的智能体征监测装置。
参阅图8,本实施例还提供了基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台的示例性系统装置结构示意图,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
处理器包括一个或一个以上处理核心,处理器通过总线与处理器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明还提供了计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台。
可选的,本发明还提供了包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,其特征在于:包括
应用支持单元(100)、数据处理单元(200)、功能应用单元(300)和服务管理单元(400);所述应用支持单元(100)的信号输出端与所述数据处理单元(200)的信号输入端连接,所述数据处理单元(200)的信号输出端与所述功能应用单元(300)的信号输入端连接,所述功能应用单元(300)的信号输出端与所述服务管理单元(400)的信号输入端连接;所述应用支持单元(100)用于提供支持平台系统运行的应用终端设备、应用平台及智能技术;所述数据处理单元(200)用于对数据库中的基因大数据进行筛选、聚类、分析等处理以获取结果作为预测疾病的依据;所述功能应用单元(300)用于根据数据处理的结果延伸出各种功能性的应用;所述服务管理单元(400)用于以数据处理结果和功能应用为基础给用户提供智能的健康管理服务;
所述应用支持单元(100)包括智能终端模块(101)、医疗区块模块(102)、大数据库模块(103)和网络通信模块(104);
所述数据处理单元(200)包括数据预处理模块(201)、基因聚类模块(202)、综合分析模块(203)和数据挖掘模块(204);
所述功能应用单元(300)包括关联研究模块(301)、识别标志模块(302)、药物研发模块(303)和筛检病原模块(304);
所述服务管理单元(400)包括生物监测模块(401)、公共监测模块(402)、病谱改变模块(403)和健康管理模块(404)。
2.根据权利要求1所述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,其特征在于:所述智能终端模块(101)、所述医疗区块模块(102)与所述大数据库模块(103)依次通过以太网通讯连接并独立运行;所述智能终端模块(101)用于通过各种智能终端设备给平台系统提供访问通道、数据采集传输及信息反馈等功能;所述医疗区块模块(102)用于接入多个医疗科研系统并将各医疗科研系统作为区域节点连接起来形成医疗区块链;所述大数据库模块(103)用于获取医疗区块链中各节点处的医疗信息资源并汇总成存储在云端的大数据库以供调用查阅;所述网络通信模块(104)用于在平台系统的各层面之间建立信息连接及数据传输的通道。
3.根据权利要求1所述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,其特征在于:所述数据预处理模块(201)的信号输出端与所述基因聚类模块(202)的信号输入端连接,所述基因聚类模块(202)的信号输出端与所述综合分析模块(203)的信号输入端连接,所述综合分析模块(203)的信号输出端与所述数据挖掘模块(204)的信号输入端连接;所述数据预处理模块(201)用于对基因表达数据进行清理、融合、检索及交换等预处理以便提取出一些对目标输出有重要影响的属性,达到降低原始数据维度、消除噪声或不一致数据、融合多种数据源数据、改善实例数据质量和提高数据挖掘速度的目的;所述基因聚类模块(202)用于通过密度峰值聚类算法对基因大数据进行聚类获取基因之间的相关性以便作为疾病预测的依据基础;所述综合分析模块(203)用于根据基因数据的聚类及其他相关医疗数据的综合统计、分析来进行影响健康因素的分析并输出结果;所述数据挖掘模块(204)用于以数据处理的结果为基础来实时更强大的数据挖掘以增加数据挖掘的把握度及发现弱关联的能力。
4.根据权利要求3所述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,其特征在于:所述数据预处理模块(201)包括数据清洗模块(2011)、数据转换模块(2012)、看家基因模块(2013)、方差分析模块(2014)和相关系数模块(2015);所述数据清洗模块(2011)的信号输出端与所述数据转换模块(2012)的信号输入端连接,所述数据转换模块(2012)的信号输出端与所述看家基因模块(2013)的信号输入端连接,所述看家基因模块(2013)的信号输出端与所述方差分析模块(2014)的信号输出端连接,所述方差分析模块(2014)的信号输出端与所述相关系数模块(2015)的信号输入端连接;所述数据清洗模块(2011)用于在数据分析前对基因表达数据进行清筛以去除表达水平是负值或很小的数据、明显的噪声数据并处理缺失数据;所述数据转换模块(2012)用于将数据变换为适合数据挖掘的形式,如根据需要构造处新的数据属性或者将数据规范化;所述看家基因模块(2013)用于筛选出不大受环境变动且细胞或生物体整个生命中持续需要的必不可少的一类基因表达并固定存储;所述方差分析模块(2014)用于通过对基因表达数据进行方差分析以区分出由于实验原因或由于基因内部发生变化而导致的数据不一致以便提高预测疾病的准确性;所述相关系数模块(2015)用于通过Pearson相关系数的方式来使相同的相似度量、聚类算法不能因为预处理手段的不同而导致最后得到的聚类结果差异很大。
8.根据权利要求1所述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,其特征在于:所述关联研究模块(301)、所述识别标志模块(302)、所述药物研发模块(303)与所述筛检病原模块(304)依次通过以太网通讯连接且并列运行;所述关联研究模块(301)用于根据基因大数据开展组学研究及不同组学间的关联研究并可以根据各组学的综合及整合开展个体化医学;所述识别标志模块(302)用于利用某种疾病患者人群的组学数据快速识别有关疾病发生、预后或治疗效果的生物标志物;所述药物研发模块(303)用于根据组学数据及识别的生物标志物来帮助识别生物靶点及研发药物,并可以利用海量组学数据、已有药物的研究数据和高通量药物筛选来加速药物筛选过程;所述筛检病原模块(304)用于通过采集未知病原或可疑致病微生物样本、对病原进行测序、将未知病原与已知病原的基因序列进行比对,从而判断其为已知病原或与其最接近的病原类型,并以此推测其来源和传播路线、开展药物筛选和相应的疾病防治。
9.根据权利要求1所述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,其特征在于:所述生物监测模块(401)、所述公共监测模块(402)、所述病谱改变模块(403)与所述健康管理模块(404)依次通过以太网通讯连接且并列运行;所述生物监测模块(401)用于根据各类基因大数据及组学分析结果开展生物监测;所述公共监测模块(402)用于根据生物监测、覆盖全国的患者电子病历数据库、社交媒体或网络上频繁检索的词条来进行疫情监测及预测某些传染病的流行;所述病谱改变模块(403)用语根据综合统析结果了解人群疾病谱的改变以便于制定新的疾病防治策略;所述健康管理模块(404)用于通过各种智能体征监测仪器对个体体征数据进行实时、连续的监测,从而可以提供实时健康指导与建议,从而更好地实施健康管理。
10.根据权利要求1所述的基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台,其特征在于:所述健康管理服务平台的运行方法包括如下步骤:
S1、以区域内各大小医疗科研中心平台系统为节点建立医疗区块链,获取各节点的公开医疗数据,通过可信的数据共享交换通道,将不同渠道的数据汇总成大数据库并存储在云端;
S2、平台系统自动对数据库中的数据,尤其是基因大数据进行预处理、聚类、综合分析及深度挖掘;
S3、用户通过网络应用访问平台系统,并可以进行信息咨询及上传相关病原数据;
S4、平台系统以基因大数据及组学分析为基础,对用户的病原数据进行分析并输出解析结果及疾病预测;
S5、平台系统对确诊的病原及疾病提出相关的防治指导;
S6、平台系统实时进行生物监测及公共卫生监测,并实时监测媒体及网络相关动态,及时获取并预测传染性疾病的疫情流行情况,并及时制定防治策略;
S7、平台系统还可以通过用户佩戴的具有传感功能的智能体征监测终端获取用户的个人体征信息,给用户提供个性化的健康管理服务,并实时提供健康指导。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110409978.3A CN113077839A (zh) | 2021-04-19 | 2021-04-19 | 基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110409978.3A CN113077839A (zh) | 2021-04-19 | 2021-04-19 | 基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113077839A true CN113077839A (zh) | 2021-07-06 |
Family
ID=76617719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110409978.3A Pending CN113077839A (zh) | 2021-04-19 | 2021-04-19 | 基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077839A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610748A (zh) * | 2022-03-16 | 2022-06-10 | 云南升玥信息技术有限公司 | 基于人工智能的医疗疾病数据的安全快速精准有效管理系统及应用 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778049A (zh) * | 2017-03-13 | 2017-05-31 | 成都育芽科技有限公司 | 一种基于大数据平台的社区精准医疗救助及其方法 |
CN108597571A (zh) * | 2018-05-07 | 2018-09-28 | 亿嘉久康(北京)健康科技有限公司 | 一种健康私助系统及方法 |
CN108986905A (zh) * | 2018-06-21 | 2018-12-11 | 广州普世医学科技有限公司 | 基于区块链的精准智能医疗数字系统 |
US20200013501A1 (en) * | 2018-07-09 | 2020-01-09 | General Electric Company | Predictive medical equipment maintenance management |
CN111125061A (zh) * | 2019-12-18 | 2020-05-08 | 甘肃省卫生健康统计信息中心(西北人口信息中心) | 一种规范和促进健康医疗大数据的方法 |
CN112104692A (zh) * | 2020-06-29 | 2020-12-18 | 黑龙江省医院 | 一种医疗物联网健康监测方法 |
-
2021
- 2021-04-19 CN CN202110409978.3A patent/CN113077839A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778049A (zh) * | 2017-03-13 | 2017-05-31 | 成都育芽科技有限公司 | 一种基于大数据平台的社区精准医疗救助及其方法 |
CN108597571A (zh) * | 2018-05-07 | 2018-09-28 | 亿嘉久康(北京)健康科技有限公司 | 一种健康私助系统及方法 |
CN108986905A (zh) * | 2018-06-21 | 2018-12-11 | 广州普世医学科技有限公司 | 基于区块链的精准智能医疗数字系统 |
US20200013501A1 (en) * | 2018-07-09 | 2020-01-09 | General Electric Company | Predictive medical equipment maintenance management |
CN111125061A (zh) * | 2019-12-18 | 2020-05-08 | 甘肃省卫生健康统计信息中心(西北人口信息中心) | 一种规范和促进健康医疗大数据的方法 |
CN112104692A (zh) * | 2020-06-29 | 2020-12-18 | 黑龙江省医院 | 一种医疗物联网健康监测方法 |
Non-Patent Citations (1)
Title |
---|
高倩倩: "基因表达数据的聚类算法研究及其实现", 《万方数据知识服务平台》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610748A (zh) * | 2022-03-16 | 2022-06-10 | 云南升玥信息技术有限公司 | 基于人工智能的医疗疾病数据的安全快速精准有效管理系统及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gkoutos et al. | The anatomy of phenotype ontologies: principles, properties and applications | |
Azadifar et al. | Graph-based relevancy-redundancy gene selection method for cancer diagnosis | |
Veloso et al. | A clustering approach for predicting readmissions in intensive medicine | |
US7660709B2 (en) | Bioinformatics research and analysis system and methods associated therewith | |
JP2021525411A (ja) | 先を見越した健康監視及び管理のための個別化されたデバイス推奨 | |
US8972406B2 (en) | Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters | |
US20210174906A1 (en) | Systems And Methods For Prioritizing The Selection Of Targeted Genes Associated With Diseases For Drug Discovery Based On Human Data | |
EP3832487A1 (en) | Systems and methods driven by link-specific numeric information for predicting associations based on predicate types | |
Arowolo et al. | Optimized hybrid investigative based dimensionality reduction methods for malaria vector using KNN classifier | |
CN111913999A (zh) | 基于多组学与临床数据的统计分析方法、系统和存储介质 | |
CN113077839A (zh) | 基于基因大数据的疾病预测、生物靶点、药物研发一体化大健康平台 | |
Patil et al. | Approaches for network analysis in protein interaction network | |
Wang et al. | An ontology-driven clustering method for supporting gene expression analysis | |
Adigun et al. | Classification of Diabetes Types using Machine Learning | |
Li et al. | SEPA: signaling entropy-based algorithm to evaluate personalized pathway activation for survival analysis on pan-cancer data | |
Cousins et al. | Gene set proximity analysis: expanding gene set enrichment analysis through learned geometric embeddings, with drug-repurposing applications in COVID-19 | |
CN115798601A (zh) | 肿瘤特征基因识别方法、装置、设备及存储介质 | |
Joehanes | Network analysis of gene expression | |
Onoja | An integrated interpretable machine learning framework for high-dimensional multi-omics datasets | |
Wu et al. | Be-1DCNN: a neural network model for chromatin loop prediction based on bagging ensemble learning | |
Zheng et al. | Multiscale computing in systems medicine: a brief reflection | |
KR20180090680A (ko) | 유전체 분석 시스템 | |
Castelo et al. | Inference of regulatory networks from microarray data with R and the Bioconductor package qpgraph | |
Gabr et al. | Signal reachability facilitates characterization of probabilistic signaling networks | |
US20220301713A1 (en) | Systems and methods for disease and trait prediction through genomic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210706 |
|
RJ01 | Rejection of invention patent application after publication |