CN117219284A - 一种具有时序性智慧医疗大数据管理的系统 - Google Patents

一种具有时序性智慧医疗大数据管理的系统 Download PDF

Info

Publication number
CN117219284A
CN117219284A CN202311170606.5A CN202311170606A CN117219284A CN 117219284 A CN117219284 A CN 117219284A CN 202311170606 A CN202311170606 A CN 202311170606A CN 117219284 A CN117219284 A CN 117219284A
Authority
CN
China
Prior art keywords
data
function
big data
model
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311170606.5A
Other languages
English (en)
Other versions
CN117219284B (zh
Inventor
王洪平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Yinuo Technology Co ltd
Hubei College of Chinese Medicine
Original Assignee
Guangdong Deao Smart Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Deao Smart Medical Technology Co ltd filed Critical Guangdong Deao Smart Medical Technology Co ltd
Priority to CN202311170606.5A priority Critical patent/CN117219284B/zh
Publication of CN117219284A publication Critical patent/CN117219284A/zh
Application granted granted Critical
Publication of CN117219284B publication Critical patent/CN117219284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种具有时序性智慧医疗大数据管理的系统,包括医疗大数据存储模块、医疗大数据处理模块、时序分析模块和机器学习模块,该智慧医疗大数据管理平台能够满足医疗大数据的存储、筛选、更新数据库,并且根据患者医疗数据的时序性,推测出患者下一个时间节点病症的数据值,并通过机器学习模块,结合贝叶斯算法,进一步降低预测误差,得到神经网络最好的权值和偏置值。本发明的有益效果:结合患者病症数据的时序性,有效预防疾病的发生,及时检测和监测潜在的疾病。

Description

一种具有时序性智慧医疗大数据管理的系统
技术领域
本发明涉及一种医疗数据管理平台,具体地说,涉及一种具有时序性智慧医疗大数据管理的系统。
背景技术
根据国际著名分析机构Gartner给出的定义:大数据就是那些具有规模大、速度快、种类多三大特征的数据资产。大数据分析从海量数据中筛选出有用的信息,然后通过各种手段将信息转化为洞察力,从而做出正确决策,并最终推动业务发展。通过一系列分析处理,大数据可以帮助企业制定明智且切实可行的战略,获取前所未有的客户洞察,支持客户购买行为,并构建新的业务模式,进而赢得竞争优势。随着人们的生活水平不断提高,健康也越来越受到家庭的关注。同时,随着国家积极倡导医疗系统建设,我国医疗领域信息化程度得到了很大的提高,预计在全国会出现上百个医疗数据中心,每个数据中心都将承载近1000万人口的医疗数据,数量多、更新快且类型繁杂,使医院数据库的信息容量不断膨胀,这就产生了医疗大数据。医疗大数据通常具有以下特征:(1)数据巨量化:区域医疗数据通常是来自于拥有上百万人口和上百家医疗机构的区域,并且数据呈持续增长的趋势。依照医疗行业的相关规定,患者的数据通常至少需要保留50年。(2)服务实时性:医疗信息服务中会存在大量在线或实时数据分析处理的需求。例如:临床中的诊断和用药建议、健康指标预警等。(3)存储形式多样化:医疗数据的存储形式多种多样,例如各种结构化数据表、非(半)结构化文本文档、医疗影像等。(4)高价值性:医疗数据对国家乃至全球的疾病防控、新药研发和顽疾攻克都有着巨大的作用。因此,如何在海量的医疗大数据中提取信息的能力正快速成为战略性发展的方向,通过大数据分析挖掘出有价值的信息,将对疾病的管理、控制和医疗研究都有着非常高的价值。
发明内容
针对上述问题,本发明旨在提供一种基于人工智能的医疗数据分析与管理方法。
本发明创造的目的通过以下技术方案实现:
本实施例提出的一种具有时序性智慧医疗大数据管理的系统包括医疗大数据存储模块、医疗大数据处理模块、时序分析模块和机器学习模块,其中医疗大数据存储模块用来对接数据源,获取医疗大数据,定位数据中心,整合区域内不同医疗机构中患者的各种临床诊疗数据,在院区内,构建一个以存储和处理患者诊疗信息为核心,覆盖多学科多领域的信息资源共享机制,存储相关的患者诊疗信息,并以一定的周期进行更新;医疗大数据处理模块主要完成对医疗数据库中,存储数据的辨析、抽取、清洗等操作,目的是将数据按统一的格式提取出来,对数据进行过滤去噪操作,从而提取出有效数据,然后再转化、集成、载入到时序分析模块,通过时序分析模块根据患者医疗大数据的时序性,每个患者的病症特征都是随时间按照一定规律变化的,为了探索这种变化规律建立了ARIMA-SVM模型,预测疾病特征的走势,为了进一步降低误差,通过机器学习模块,采用了贝叶斯算法,搭建两层贝叶斯网络,能有效降低网络的误差,得到预测性能更好、更精准神经网络模型。
进一步的,所述医疗大数据存储模块通过搭建非关系型数据库NoSQL,对医疗数据进行存储,其中,非关系型数据库NoSQL包括:键值数据库、文档数据库、列式数据库、图型数据库,每个种类的NoSQL数据库都有适用的不同类型的应用程序和用例,这就涉及到一个NoSQL社区常用的一个话题,即多样持久性,或者说根据数据库处理应用程序需求的不同,使用不同的数据库系统,用于不同的应用程序和用例。
进一步的,所述医疗大数据存储模块主要完成对医疗数据库中存储数据的辨析、抽取、清洗等操作,根据置信度值判断患者医疗数据是否可信,如果低于信任阈值,那么该数据需要由医疗人员重新核验,对于某一类数据的特征分析,还需要满足数据从数据库中抽取的功能,以保证数据源的灵活性,通过数据的清洗操作,剔除掉低置信度、重复、缺省以及不满足时效性的患者数据,以优化医疗数据库的缓存,接着将数据按统一的格式提取出来,对数据进行过滤去噪操作,从而提取出有效数据,然后再转化、集成、载入到时序分析模块。
进一步的,所述时序分析模块,为了分析时序性智慧医疗大数据,构建了时间序列数学模型对现有智慧医疗大数据进行预测,为了保证医疗数据的平稳性,通过对序列进行差分运算可以化为平稳序列,为此,需要先对数据进行差分处理,将其转换为平稳的时间序列后再进行建模,搭建ARIMA(p,d,q)模型:
式中,t为时间变量,yt是待分析的平稳时间序列,ε为白噪声序列,B为I阶差分后的时间序列,αi和βi均为拟合参数,通过对序列自相关系数图以及偏自相关系数图的观察可以确定自回归阶数p和移动平均阶数q,其中,相关系数称为输入训练集x和目标输出集y的相关系数,Cov(·)表示协方差,Var(·)表示方差;自相关系数度量的是同一事件在两个不同时期之间的相关程度,记为/>
偏自相关系数是消除中间变量的影响后xt与xt-s的相关系数函数,称为s阶滞后偏自相关函数;
自相关系数和偏自相关系数为ARIMA(p,d,q)的阶数选择提供了参考,为了防止过拟合现象,选用赤池信息准则和贝叶斯信息准则对时间序列做进一步分析,具体为:
(1)赤池信息AIC准则:
AIC=2length(x)-2ln(θ)
其中,length(x)表示模型中参数的个数,θ表示模型的极大似然函数值;
(2)贝叶斯信息BIC准则:
BIC=ln(T)length(x)-2ln(θ)
其中:时序周期用T表示,模型中参数的个数length(x)反映模型的复杂程度,模型的极大似然函数值反映模型对于数据拟合程度;
每一个p,q阶数都对应了一个AIC和BIC的值,要选择AIC和BIC最小值所对应的阶数来完成ARIMA(p,d,q)模型的搭建,通过AIC和BIC准则,可以有效防止过拟合问题。
进一步的,模型完成定阶后,可确定系数αi、βi,为了实现时序性的智慧医疗大数据的线性回归,结合SVM算法,设训练集定义SVM回归方程为f(x)=ωφ(x)+b,其中,ω表示权向量,b表示拟合偏差,f(x)是输入训练集x的非线性函数,f(x)是φ(x)的线性函数,把问题由原本空间的非线性回归转化为了高维空间的线性回归,为了减少计算量,引入核函数取代高维空间中的内积运算,将其转化为原样本空间运算,得到SVM的非线性拟合函数:/>其中,根据MERCER定理可知,K(xi,xj)是满足K(xi,xj)=φ(xi)φ(xj)的核函数,xi表示第i个输入训练集,xj表示第j个输入训练集。
进一步的,对医疗大数据yt进行ARIMA-SVM建模,得到预测结果以及残差Rt对残差Rt进行SVM建模得到残差的预测结果/>把两个模型的预测结果相加可以得到ARIMA-SVM组合模型的预测结果:/>将SVM中局部核函数和全局核函数结合起来可以得到混合核函数,具体为:
Kmix=λKpoly+(1-λ)Krbf,λ∈[0,1]
Kpoly=[(x·xi)+1]q
其中,Kmix表示混合核函数,Krbf表示RBF核函数,Kpoly表示多项式核函数,λ为调节因子,紧接着对模型进行欠拟合分析,需要对残差进行白噪声检验,如果残差是白噪声,则说明选取的模型能完全识别出时间序列数据的规律,即模型可接受;如果残差不是白噪声,则说明还有部分信息没有被模型所识别,需要修正模型来识别这一部分信息,防止数据欠拟合。
进一步的,所述机器学习模块将神经网络的训练置于贝叶斯统计框架,该贝叶斯算法分为两层,对于第一层贝叶斯框架,假设神经网络的权值为随机变量,对于给定的数据集,选取能够最大化权值的条件概率权值,通过贝叶斯算法计算如下概率函数:
其中,x是包含网络所有权值和偏置值的向量,D表示训练数据集,α表示与密度函数P(x|α,M)相关的函数,β表示与密度函数P(x,β,M)相关的函数,M表示神经网络结构,P(D|α,β,M)表示定权值的集合x、参数β以及神经网络结构M下训练数据的概率密度,假设数据的噪声是相互独立且服从高斯分布,有似然函数:
其中, 是ε中每个元素的方差,ED是误差平方和,如果噪声方差越大,那么β值越小,且正则化比率α/β的值越大,将使得到的网络权值变小,网络函数变得平滑,上式是关于网络权值x的似然函数,描述了对于特定网络权值集合,给定数据集出现的可能性,此外满足:/>其中,N为目标个数。
进一步的,对于先验密度P(x|α,M),含义为在收集数据前对于网络权值的了解,有:
其中, 是每个权值的方差,Ew是权值平方和,并且有:
其中,n是网络中权值和偏置值数量,对于P(D|α,β,M)定义为证据,为归一化项,则P(x|D,α,β,M)中后验密度项转化后原式可写为:
其中,UNIT表示归一化因子,ZF(α,β)为α和β的函数,F(x)为正则化后的性能指标,为了求出权值最可能的取值,需要最大化后验密度P(x|D,α,β,M)的权值x,相当于最小化正则化性能指标F(x)=αEw+βED,假设训练集含有高斯噪声并且已知网络权值的高斯先验密度,正则化性能指标可以通过贝叶斯算法求出,定义x*为最大化后验密度的权值,参数α与网络权值先验分布的方差成反比,如果方差很大,那么对于网络权值的取值就会变得模糊,如果参数α很小,正则化比率α/β也很小,网络权值会变大。
进一步的,对于第二层贝叶斯框架,概率密度P(α,β|D,M)可写为:
其中,P(D|α,β,M)是似然函数,P(α,β,M)为先验密度,如果假设正则化参数α和β均具有均匀先验密度P(α,β|M),通过贝叶斯算法有:
其中,Zw(α),ZD(β)均为已知常量,ZF(α,β)为α和β的联合函数,对于F(x)使用泰勒级数展开式进行估计,由于目标函数在极小点附近区域具有二次形式,因此可将F(x)在极小点x*附近以二阶泰勒级数展开:
其中,是F(x)的海塞矩阵,H*为H在x*初的估计,代入上式后,后验密度可写作:
则高斯密度的标准形式为:
联立上式,则ZF(α,β)为:
其中,det(·)表示矩阵的行列式,(H*)-1表示H*的求逆,通过求导可求出α和β在极小点处的最优值:
其中,γ=NT-2α*tr(H)-1表示有效参数数量,tr(·)表示矩阵的秩,NT代表网络全部参数数量,γ衡量了神经网络中权值和偏置值被有效地用于减少误差函数,且0≤γ≤NT。
本发明的有益效果:本发明提出了一种具有时序性智慧医疗大数据管理的系统,为了能够根据患者的病症数据及时推断、预测疾病,考虑到患者数据的时序性,采用了ARIMA模型,ARIMA模型最重要的地方在于时序数据的平稳性,平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去,即数据的均值、方差理论上不应有过大的变化。平稳性可以分为严平稳与弱平稳两类。严平稳指的是数据的分布不随着时间的改变而改变;而弱平稳指的是数据的期望与向关系数(即依赖性)不发生改变。在实际应用的过程中,严平稳过于理想化与理论化,绝大多数的情况应该属于弱平稳。对于不平稳的数据,应当对数据进行平稳化处理。最常用的手段便是差分法,计算时间序列中,当前时刻与上一时刻的差值,从而得到一个新的、更平稳的时间序列。ARIMA模型结合了支持向量机算法(SVM),它的基本模型是定义在特征空间上的间隔最大的线性分类器,具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面,在线性不可分时,加入松弛变量并通过非线性映射将低维输入空间的样本映射到高维空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面,能够解决当患者医疗数据不足情况下的机器学习。由于使用核函数方法克服了维数灾难和非线性可分的问题,所以向高维空间映射时没有增加计算的复杂度。由于支持向量机算法的最终决策函数只由少数的支持向量所确定,所以计算的复杂性取决于支持向量的数目,而不是整个样本空间的维数。之后结合了贝叶斯算法,使多层神经网络具有良好的泛化能力,通过调整网络的复杂度来适应数据的复杂度,并且可以在不改变实际自由参数数量的前提下对有效自由参数数量进行调整,得到最优的网络权值和偏置值,从而降低病症估计值的预测误差,提升模型的可靠度,有效预防疾病的发生,及时检测和监测潜在的疾病。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种具有时序性智慧医疗大数据管理的系统包括医疗大数据存储模块、医疗大数据处理模块、时序分析模块和机器学习模块,其中医疗大数据存储模块用来对接数据源,获取医疗大数据,定位数据中心,整合区域内不同医疗机构中患者的各种临床诊疗数据,在院区内,构建一个以存储和处理患者诊疗信息为核心,覆盖多学科多领域的信息资源共享机制,存储相关的患者诊疗信息,并以一定的周期进行更新;医疗大数据处理模块主要完成对医疗数据库中,存储数据的辨析、抽取、清洗等操作,目的是将数据按统一的格式提取出来,对数据进行过滤去噪操作,从而提取出有效数据,然后再转化、集成、载入到时序分析模块,通过时序分析模块根据患者医疗大数据的时序性,每个患者的病症特征都是随时间按照一定规律变化的,为了探索这种变化规律建立了ARIMA-SVM模型,预测疾病特征的走势,为了进一步降低误差,通过机器学习模块,采用了贝叶斯算法,搭建两层贝叶斯网络,能有效降低网络的误差,得到预测性能更好、更精准神经网络模型。
具体的,所述医疗大数据存储模块通过搭建非关系型数据库NoSQL,对医疗数据进行存储,其中,非关系型数据库NoSQL包括:
(1)键值数据库:当数据以键的形式访问时,必须知道键才能查询,值是加密的数据,读取之后必须经过解密才能读取;
(2)文档数据库:该数据库以文档的形式管理和存储数据,类似于键值数据库,但文档数据库中的数据有结构,与键值数据库中加密数据不同,文档数据库中数据以文档的结构被描述,文档存储数据库中的数据可以通过定义的任何模式进行查询,但键值数据库只能通过它的键进行查询;
(3)列式数据库:在传统关系型数据库中,数据经常以行来访问,以列式管理记录的NoSQL数据库可以管理大规模的动态列,因为没有固定的模式,所以列名和键可以变换,列式数据库适用于不经常写的情况,满足原子性、一致性、隔离性和持久性的要求,而且模式是变化的;
(4)图型数据库:图型数据库关注值与值之间的关系,用图型的数学概念存储数据,图型数据库用带有点、边缘和属性的图的结构表示和存储数据,在图型数据库中,每一个元素都包含一个直接的指向它毗邻元素的点,所以也就不需要索引查找;
每个种类的NoSQL数据库都有适用的不同类型的应用程序和用例,这就涉及到一个NoSQL社区常用的一个话题,即多样持久性,或者说根据数据库处理应用程序需求的不同,使用不同的数据库系统,用于不同的应用程序和用例。
具体的,所述医疗大数据存储模块主要完成对医疗数据库中存储数据的辨析、抽取、清洗等操作,根据置信度值判断患者医疗数据是否可信,如果低于信任阈值,那么该数据需要由医疗人员重新核验,对于某一类数据的特征分析,还需要满足数据从数据库中抽取的功能,以保证数据源的灵活性,通过数据的清洗操作,剔除掉低置信度、重复、缺省以及不满足时效性的患者数据,以优化医疗数据库的缓存,接着将数据按统一的格式提取出来,对数据进行过滤去噪操作,从而提取出有效数据,然后再转化、集成、载入到时序分析模块。
优选的,所述时序分析模块,为了分析时序性智慧医疗大数据,构建了时间序列数学模型对现有智慧医疗大数据进行预测,为了保证医疗数据的平稳性,通过对序列进行差分运算可以化为平稳序列,为此,需要先对数据进行差分处理,将其转换为平稳的时间序列后再进行建模,搭建ARIMA(p,d,q)模型:
式中,t为时间变量,yt是待分析的平稳时间序列,εt为白噪声序列,B为I阶差分后的时间序列,αi和βi均为拟合参数,通过对序列自相关系数图以及偏自相关系数图的观察可以确定自回归阶数p和移动平均阶数q,其中,相关系数称为输入训练集x和目标输出集y的相关系数,Cov(·)表示协方差,Var(·)表示方差;自相关系数度量的是同一事件在两个不同时期之间的相关程度,记为/>
偏自相关系数是消除中间变量的影响后xt与xt-s的相关系数函数,称为s阶滞后偏自相关函数;
自相关系数和偏自相关系数为ARIMA(p,d,q)的阶数选择提供了参考,为了防止过拟合现象,选用赤池信息准则和贝叶斯信息准则对时间序列做进一步分析,具体为:
(1)赤池信息AIC准则:
AIC=2length(x)-2ln(θ)
其中,length(x)表示模型中参数的个数,θ表示模型的极大似然函数值;
(2)贝叶斯信息BIC准则:
BIC=ln(T)length(x)-2ln(θ)
其中:时序周期用T表示,模型中参数的个数length(x)反映模型的复杂程度,模型的极大似然函数值反映模型对于数据拟合程度。
每一个p,q阶数都对应了一个AIC和BIC的值,要选择AIC和BIC最小值所对应的阶数来完成ARIMA(p,d,q)模型的搭建,通过AIC和BIC准则,可以有效防止过拟合问题。
具体的,模型完成定阶后,可确定系数αi、βi,为了实现时序性的智慧医疗大数据的线性回归,结合SVM算法,设训练集定义SVM回归方程为f(x)=ωφ(x)+b,其中,ω表示权向量,b表示拟合偏差,f(x)是输入训练集x的非线性函数,f(x)是φ(x)的线性函数,把问题由原本空间的非线性回归转化为了高维空间的线性回归,为了减少计算量,引入核函数取代高维空间中的内积运算,将其转化为原样本空间运算,得到SVM的非线性拟合函数:/>其中,根据MERCER定理可知,K(xi,xj)是满足K(xi,xj)=φ(xi)φ(xj)的核函数,xi表示第i个输入训练集,xj表示第j个输入训练集。
优选的,对医疗大数据yt进行ARIMA-SVM建模,得到预测结果以及残差Rt对残差Rt进行SVM建模得到残差的预测结果/>把两个模型的预测结果相加可以得到ARIMA-SVM组合模型的预测结果:/>将SVM中局部核函数和全局核函数结合起来可以得到混合核函数,具体为:
Kmix=λKpoly+(1-λ)Krbf,λ∈[0,1]
Kpoly=[(x·xi)+1]q
其中,Kmix表示混合核函数,Krbf表示RBF核函数,Kpoly表示多项式核函数,λ为调节因子,紧接着对模型进行欠拟合分析,需要对残差进行白噪声检验,如果残差是白噪声,则说明选取的模型能完全识别出时间序列数据的规律,即模型可接受;如果残差不是白噪声,则说明还有部分信息没有被模型所识别,需要修正模型来识别这一部分信息,防止数据欠拟合。
优选的,所述机器学习模块将神经网络的训练置于贝叶斯统计框架,该贝叶斯算法分为两层,对于第一层贝叶斯框架,假设神经网络的权值为随机变量,对于给定的数据集,选取能够最大化权值的条件概率权值,通过贝叶斯算法计算如下概率函数:
其中,x是包含网络所有权值和偏置值的向量,D表示训练数据集,α表示与密度函数P(x|α,M)相关的函数,β表示与密度函数P(x,β,M)相关的函数,M表示神经网络结构,P(D|α,β,M)表示定权值的集合x、参数β以及神经网络结构M下训练数据的概率密度,假设数据的噪声是相互独立且服从高斯分布,有似然函数:
其中, 是ε中每个元素的方差,ED是误差平方和,如果噪声方差越大,那么β值越小,且正则化比率α/β的值越大,将使得到的网络权值变小,网络函数变得平滑,上式是关于网络权值x的似然函数,描述了对于特定网络权值集合,给定数据集出现的可能性,此外满足:/>其中,N为目标个数。
具体的,对于先验密度P(x|α,M),含义为在收集数据前对于网络权值的了解,有:
其中, 是每个权值的方差,Ew是权值平方和,并且有:
其中,n是网络中权值和偏置值数量,对于P(D|α,β,M)定义为证据,为归一化项,则P(x|D,α,β,M)中后验密度项转化后原式可写为:
其中,UNIT表示归一化因子,ZF(α,β)为α和β的函数,F(x)为正则化后的性能指标,为了求出权值最可能的取值,需要最大化后验密度P(x|D,α,β,M)的权值x,相当于最小化正则化性能指标F(x)=αEw+βED,假设训练集含有高斯噪声并且已知网络权值的高斯先验密度,正则化性能指标可以通过贝叶斯算法求出,定义x*为最大化后验密度的权值,参数α与网络权值先验分布的方差成反比,如果方差很大,那么对于网络权值的取值就会变得模糊,如果参数α很小,正则化比率α/β也很小,网络权值会变大。
具体的,对于第二层贝叶斯框架,概率密度P(α,β|D,M)可写为:
其中,P(D|α,β,M)是似然函数,P(α,β,M)为先验密度,如果假设正则化参数α和β均具有均匀先验密度P(α,β|M),通过贝叶斯算法有:
其中,Zw(α),ZD(β)均为已知常量,ZF(α,β)为α和β的联合函数,对于F(x)使用泰勒级数展开式进行估计,由于目标函数在极小点附近区域具有二次形式,因此可将F(x)在极小点x*附近以二阶泰勒级数展开:
其中,是F(x)的海塞矩阵,H*为H在x*初的估计,代入上式后,后验密度可写作:
则高斯密度的标准形式为:
联立上式,则ZF(α,β)为:
其中,det(·)表示矩阵的行列式,(H*)-1表示H*的求逆,通过求导可求出α和β在极小点处的最优值:
其中,γ=NT-2α*tr(H)-1表示有效参数数量,tr(·)表示矩阵的秩,NT代表网络全部参数数量,γ衡量了神经网络中权值和偏置值被有效地用于减少误差函数,且0≤γ≤NT。
本发明的有益效果:本发明提出了一种具有时序性智慧医疗大数据管理的系统,为了能够根据患者的病症数据及时推断、预测疾病,考虑到患者数据的时序性,采用了ARIMA模型,ARIMA模型最重要的地方在于时序数据的平稳性,平稳性可以分为严平稳与弱平稳两类。严平稳指的是数据的分布不随着时间的改变而改变;而弱平稳指的是数据的期望与向关系数(即依赖性)不发生改变。在实际应用的过程中,严平稳过于理想化与理论化,绝大多数的情况应该属于弱平稳。对于不平稳的数据,应当对数据进行平稳化处理。最常用的手段便是差分法,计算时间序列中,当前时刻与上一时刻的差值,从而得到一个新的、更平稳的时间序列。ARIMA模型结合了支持向量机算法(SVM),它的基本模型是定义在特征空间上的间隔最大的线性分类器,具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面,在线性不可分时,加入松弛变量并通过非线性映射将低维输入空间的样本映射到高维空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面,能够解决当患者医疗数据不足情况下的机器学习。由于使用核函数方法克服了维数灾难和非线性可分的问题,所以向高维空间映射时没有增加计算的复杂度。由于支持向量机算法的最终决策函数只由少数的支持向量所确定,所以计算的复杂性取决于支持向量的数目,而不是整个样本空间的维数。之后结合了贝叶斯算法,使多层神经网络具有良好的泛化能力,通过调整网络的复杂度来适应数据的复杂度,并且可以在不改变实际自由参数数量的前提下对有效自由参数数量进行调整,得到最优的网络权值和偏置值,从而降低病症估计值的预测误差,提升模型的可靠度,有效预防疾病的发生,及时检测和监测潜在的疾病。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (8)

1.一种具有时序性智慧医疗大数据管理的系统,包括医疗大数据存储模块、医疗大数据处理模块、时序分析模块和机器学习模块,其中医疗大数据存储模块用来对接数据源,获取医疗大数据,定位数据中心,整合区域内不同医疗机构中患者的各种临床诊疗数据,在院区内,构建一个以存储和处理患者诊疗信息为核心,覆盖多学科多领域的信息资源共享机制,存储相关的患者诊疗信息,并以一定的周期进行更新;医疗大数据处理模块主要完成对医疗数据库中,存储数据的辨析、抽取、清洗等操作,目的是将数据按统一的格式提取出来,对数据进行过滤去噪操作,从而提取出有效数据,然后再转化、集成、载入到时序分析模块,通过时序分析模块根据患者医疗大数据的时序性,每个患者的病症特征都是随时间按照一定规律变化的,为了探索这种变化规律建立了ARIMA-SVM模型,预测疾病特征的走势,为了进一步降低误差,通过机器学习模块,采用了贝叶斯算法,搭建两层贝叶斯网络,能有效降低网络的误差,得到预测性能更好、更精准神经网络模型。
2.根据权利要求1所述的一种具有时序性智慧医疗大数据管理的系统,其特征在于,所述医疗大数据存储模块通过搭建非关系型数据库NoSQL,对医疗数据进行存储,其中,非关系型数据库NoSQL包括:键值数据库、文档数据库、列式数据库、图型数据库,每个种类的NoSQL数据库都有适用的不同类型的应用程序和用例,这就涉及到一个NoSQL社区常用的一个话题,即多样持久性,或者说根据数据库处理应用程序需求的不同,使用不同的数据库系统,用于不同的应用程序和用例。
3.根据权利要求1所述的一种具有时序性智慧医疗大数据管理的系统,其特征在于,所述医疗大数据存储模块主要完成对医疗数据库中存储数据的辨析、抽取、清洗等操作,根据置信度值判断患者医疗数据是否可信,如果低于信任阈值,那么该数据需要由医疗人员重新核验,对于某一类数据的特征分析,还需要满足数据从数据库中抽取的功能,以保证数据源的灵活性,通过数据的清洗操作,剔除掉低置信度、重复、缺省以及不满足时效性的患者数据,以优化医疗数据库的缓存,接着将数据按统一的格式提取出来,对数据进行过滤去噪操作,从而提取出有效数据,然后再转化、集成、载入到时序分析模块。
4.根据权利要求1所述的一种具有时序性智慧医疗大数据管理的系统,其特征在于,所述时序分析模块,为了分析时序性智慧医疗大数据,构建了时间序列数学模型对现有智慧医疗大数据进行预测,为了保证医疗数据的平稳性,通过对序列进行差分运算可以化为平稳序列,为此,需要先对数据进行差分处理,将其转换为平稳的时间序列后再进行建模,搭建ARIMA(p,d,q)模型:
式中,t为时间变量,yt是待分析的平稳时间序列,εt为白噪声序列,B为I阶差分后的时间序列,αi和βi均为拟合参数,通过对序列自相关系数图以及偏自相关系数图的观察可以确定自回归阶数p和移动平均阶数q,其中,相关系数称为输入训练集x和目标输出集y的相关系数,Cov(·)表示协方差,Var(·)表示方差;自相关系数度量的是同一事件在两个不同时期之间的相关程度,记为/>
偏自相关系数是消除中间变量的影响后xt与xt-s的相关系数函数,称为s阶滞后偏自相关函数;
自相关系数和偏自相关系数为ARIMA(p,d,q)的阶数选择提供了参考,为了防止过拟合现象,选用赤池信息准则和贝叶斯信息准则对时间序列做进一步分析,具体为:
(1)赤池信息AIC准则:
AIC=21engt2(x)-21n(0)
其中,length(x)表示模型中参数的个数,θ表示模型的极大似然函数值;
(2)贝叶斯信息BIC准则:
BIC=ln(T)length(x)-2ln(0)
其中,时序周期用T表示,模型中参数的个数length(x)反映模型的复杂程度,模型的极大似然函数值反映模型对于数据拟合程度;
每一个p,q阶数都对应了一个AIC和BIC的值,要选择AIC和BIC最小值所对应的阶数来完成ARIMA(p,d,q)模型的搭建,通过AIC和BIC准则,可以有效防止过拟合问题。
5.根据权利要求4所述的一种具有时序性智慧医疗大数据管理的系统,其特征在于,模型完成定阶后,可确定系数αi、βi,为了实现时序性的智慧医疗大数据的线性回归,结合SVM算法,设训练集定义SVM回归方程为f(x)=ωφ(x)+b,其中,ω表示权向量,b表示拟合偏差,f(x)是输入训练集x的非线性函数,f(x)是φ(x)的线性函数,把问题由原本空间的非线性回归转化为了高维空间的线性回归,为了减少计算量,引入核函数取代高维空间中的内积运算,将其转化为原样本空间运算,得到SVM的非线性拟合函数:/>其中,根据MERCER定理可知,K(xi,xj)是满足K(xi,xj)=φ(xi)φ(xj)的核函数,xi表示第i个输入训练集,xj表示第j个输入训练集。
6.根据权利要求5所述的一种具有时序性智慧医疗大数据管理的系统,其特征在于,对医疗大数据yt进行ARIMA-SVM建模,得到预测结果以及残差Rt:/>对残差Rt进行SVM建模得到残差的预测结果/>把两个模型的预测结果相加可以得到ARIMA-SVM组合模型的预测结果:/>将SVM中局部核函数和全局核函数结合起来可以得到混合核函数,具体为:
Kmix=λKpoly+(1-λ)Krbf,λ∈[0,1]
Kpoly=[(x·xi)+1]q
其中,Kmix表示混合核函数,Krbf表示RBF核函数,Kpoly表示多项式核函数,λ为调节因子,紧接着对模型进行欠拟合分析,需要对残差进行白噪声检验,如果残差是白噪声,则说明选取的模型能完全识别出时间序列数据的规律,即模型可接受;如果残差不是白噪声,则说明还有部分信息没有被模型所识别,需要修正模型来识别这一部分信息,防止数据欠拟合。
7.根据权利要求1所述的一种具有时序性智慧医疗大数据管理的系统,其特征在于,所述机器学习模块将神经网络的训练置于贝叶斯统计框架,该贝叶斯算法分为两层,对于第一层贝叶斯框架,假设神经网络的权值为随机变量,对于给定的数据集,选取能够最大化权值的条件概率权值,通过贝叶斯算法计算如下概率函数:
其中,x是包含网络所有权值和偏置值的向量,D表示训练数据集,α表示与密度函数P(x|α,M)相关的函数,β表示与密度函数P(x,β,M)相关的函数,M表示神经网络结构,P(D|α,β,M)表示定权值的集合x、参数β以及神经网络结构M下训练数据的概率密度,假设数据的噪声是相互独立且服从高斯分布,有似然函数:
其中, 是ε中每个元素的方差,ED是误差平方和,如果噪声方差越大,那么β值越小,且正则化比率α/β的值越大,将使得到的网络权值变小,网络函数变得平滑,上式是关于网络权值x的似然函数,描述了对于特定网络权值集合,给定数据集出现的可能性,此外满足:/>其中,N为目标个数,对于先验密度P(x|α,M),含义为在收集数据前对于网络权值的了解,有:
其中, 是每个权值的方差,Ew是权值平方和,并且有:
其中,n是网络中权值和偏置值数量,对于P(D|α,β,M)定义为证据,为归一化项,则P(x|D,α,β,M)中后验密度项转化后原式可写为:
其中,UNIT表示归一化因子,ZF(α,β)为α和β的函数,F(x)为正则化后的性能指标,为了求出权值最可能的取值,需要最大化后验密度P(x|D,α,β,M)的权值x,相当于最小化正则化性能指标F(x)=αEw+βED,假设训练集含有高斯噪声并且已知网络权值的高斯先验密度,正则化性能指标可以通过贝叶斯算法求出,定义x*为最大化后验密度的权值,参数α与网络权值先验分布的方差成反比,如果方差很大,那么对于网络权值的取值就会变得模糊,如果参数α很小,正则化比率α/β也很小,网络权值会变大。
8.根据权利要求7所述的一种具有时序性智慧医疗大数据管理的系统,其特征在于,对于第二层贝叶斯框架,概率密度P(α,β|D,M)可写为:
其中,P(D|α,β,M)是似然函数,P(α,β,M)为先验密度,如果假设正则化参数α和β均具有均匀先验密度P(α,β|M),通过贝叶斯算法有:
其中,Zw(α),ZD(β)均为已知常量,ZF(α,β)为α和β的联合函数,对于F(x)使用泰勒级数展开式进行估计,由于目标函数在极小点附近区域具有二次形式,因此可将F(x)在极小点x*附近以二阶泰勒级数展开:
其中,是F(x)的海塞矩阵,H*为H在x*初的估计,代入上式后,后验密度可写作:
则高斯密度的标准形式为:
联立上式,则ZF(α,β)为:
其中,det(·)表示矩阵的行列式,(H*)-1表示H*的求逆,通过求导可求出α和β在极小点处的最优值:
其中,γ=NT-2α*tr(H)-1表示有效参数数量,tr(·)表示矩阵的秩,NT代表网络全部参数数量,γ衡量了神经网络中权值和偏置值被有效地用于减少误差函数,且0≤γ≤NT。
CN202311170606.5A 2023-09-11 2023-09-11 一种具有时序性智慧医疗大数据管理的系统 Active CN117219284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311170606.5A CN117219284B (zh) 2023-09-11 2023-09-11 一种具有时序性智慧医疗大数据管理的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311170606.5A CN117219284B (zh) 2023-09-11 2023-09-11 一种具有时序性智慧医疗大数据管理的系统

Publications (2)

Publication Number Publication Date
CN117219284A true CN117219284A (zh) 2023-12-12
CN117219284B CN117219284B (zh) 2024-05-07

Family

ID=89036431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311170606.5A Active CN117219284B (zh) 2023-09-11 2023-09-11 一种具有时序性智慧医疗大数据管理的系统

Country Status (1)

Country Link
CN (1) CN117219284B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080731A1 (en) * 2007-09-26 2009-03-26 Siemens Medical Solutions Usa, Inc. System and Method for Multiple-Instance Learning for Computer Aided Diagnosis
CN102788976A (zh) * 2012-06-27 2012-11-21 北京理工大学 高量级扩展卡尔曼滤波方法
WO2014075108A2 (en) * 2012-11-09 2014-05-15 The Trustees Of Columbia University In The City Of New York Forecasting system using machine learning and ensemble methods
CN108512787A (zh) * 2018-04-13 2018-09-07 电子科技大学 大规模mimo系统的超精细信道估计方法
CN109119130A (zh) * 2018-07-11 2019-01-01 上海夏先机电科技发展有限公司 一种基于云计算的大数据健康管理系统及方法
CN109493979A (zh) * 2018-10-23 2019-03-19 平安科技(深圳)有限公司 一种基于智能决策的疾病预测方法和装置
CN110136842A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 急性传染病的发病预测方法、装置及计算机可读存储介质
CN110675960A (zh) * 2019-09-10 2020-01-10 北京大学 基于时间序列分析的呼吸运动预测建模方法
CN111143768A (zh) * 2019-11-08 2020-05-12 昆明理工大学 一种基于arima-svm组合模型的空气质量预测算法
CN112634171A (zh) * 2020-12-31 2021-04-09 上海海事大学 基于贝叶斯卷积神经网络的图像去雾方法及存储介质
CN112927797A (zh) * 2021-03-25 2021-06-08 重庆医科大学附属第一医院 一种基于贝叶斯概率推断的急诊临床诊断分析系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080731A1 (en) * 2007-09-26 2009-03-26 Siemens Medical Solutions Usa, Inc. System and Method for Multiple-Instance Learning for Computer Aided Diagnosis
CN102788976A (zh) * 2012-06-27 2012-11-21 北京理工大学 高量级扩展卡尔曼滤波方法
WO2014075108A2 (en) * 2012-11-09 2014-05-15 The Trustees Of Columbia University In The City Of New York Forecasting system using machine learning and ensemble methods
CN108512787A (zh) * 2018-04-13 2018-09-07 电子科技大学 大规模mimo系统的超精细信道估计方法
CN109119130A (zh) * 2018-07-11 2019-01-01 上海夏先机电科技发展有限公司 一种基于云计算的大数据健康管理系统及方法
CN109493979A (zh) * 2018-10-23 2019-03-19 平安科技(深圳)有限公司 一种基于智能决策的疾病预测方法和装置
CN110136842A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 急性传染病的发病预测方法、装置及计算机可读存储介质
CN110675960A (zh) * 2019-09-10 2020-01-10 北京大学 基于时间序列分析的呼吸运动预测建模方法
CN111143768A (zh) * 2019-11-08 2020-05-12 昆明理工大学 一种基于arima-svm组合模型的空气质量预测算法
CN112634171A (zh) * 2020-12-31 2021-04-09 上海海事大学 基于贝叶斯卷积神经网络的图像去雾方法及存储介质
CN112927797A (zh) * 2021-03-25 2021-06-08 重庆医科大学附属第一医院 一种基于贝叶斯概率推断的急诊临床诊断分析系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周明璋等: "利用ARIMA-GRNN组合模型预测新疆维吾尔自治区手足口病发病率", 《环境卫生学杂志》, vol. 9, no. 6, 31 December 2019 (2019-12-31), pages 527 - 531 *
李薛莎: "基于A/B检验的社交媒体数据分析", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》, no. 03, 15 March 2023 (2023-03-15), pages 1 - 65 *
熊明俐: "基于ARIMA-SVM组合的人口死亡率预测模型及其应用", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》, no. 12, 15 December 2022 (2022-12-15), pages 002 - 242 *

Also Published As

Publication number Publication date
CN117219284B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
Shickel et al. DeepSOFA: a continuous acuity score for critically ill patients using clinically interpretable deep learning
Bair Semi‐supervised clustering methods
Xu et al. A Bayesian nonparametric approach for estimating individualized treatment-response curves
Lappenschaar et al. Multilevel Bayesian networks for the analysis of hierarchical health care data
El Morr et al. Descriptive, predictive, and prescriptive analytics
Größer et al. Copulae: An overview and recent developments
Zhang et al. A rough set-based multiple criteria linear programming approach for the medical diagnosis and prognosis
Liu et al. Fuzzy mutual information-based multilabel feature selection with label dependency and streaming labels
Wu et al. Research on evaluation model of hospital informatization level based on decision tree algorithm
Ramesh et al. Exploring big data analytics in health care
Leevy et al. Investigating the relationship between time and predictive model maintenance
Zeng et al. Muformer: A long sequence time-series forecasting model based on modified multi-head attention
Zhang et al. Time-dependent survival neural network for remaining useful life prediction
Settipalli et al. WMTDBC: An unsupervised multivariate analysis model for fraud detection in health insurance claims
Zeng Length of stay prediction model of indoor patients based on light gradient boosting machine
Yu et al. Temporal case matching with information value maximization for predicting physiological states
Li et al. Study of E-business applications based on big data analysis in modern hospital health management
CN113161004A (zh) 一种疫情预测系统及方法
CN117219284B (zh) 一种具有时序性智慧医疗大数据管理的系统
Pramanik et al. Applications of big data in clinical applications
Herzog et al. Deep transformation models for functional outcome prediction after acute ischemic stroke
Mukherjee et al. Towards mental wellbeing in cities: A data-driven learning from mental health—Environment Nexus
Perner Concepts for novelty detection and handling based on a case-based reasoning process scheme
Ieva et al. Network analysis of comorbidity patterns in heart failure patients using administrative data
Nsofor Comparative analysis of predictive data-mining techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Hai

Inventor after: Ma Danfeng

Inventor after: Wang Hongping

Inventor before: Wang Hongping

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240415

Address after: 430000, No.16, Huangjiahu West Road, Hongshan District, Wuhan City, Hubei Province

Applicant after: HUBEI University OF CHINESE MEDICINE

Country or region after: China

Applicant after: Wuhan Yinuo Technology Co.,Ltd.

Address before: Room 501, Room 502, room 503, room 504, room 505, floor 5, building 10, Industrialization Center, No.19 Alishan Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province 523000

Applicant before: Guangdong deao smart Medical Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant