CN111180070A - 病历数据分析方法及装置 - Google Patents

病历数据分析方法及装置 Download PDF

Info

Publication number
CN111180070A
CN111180070A CN201911403991.7A CN201911403991A CN111180070A CN 111180070 A CN111180070 A CN 111180070A CN 201911403991 A CN201911403991 A CN 201911403991A CN 111180070 A CN111180070 A CN 111180070A
Authority
CN
China
Prior art keywords
user
target disease
disease
medical record
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911403991.7A
Other languages
English (en)
Inventor
孙继超
刘羽
赵博
赵瑞辉
赖盛章
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911403991.7A priority Critical patent/CN111180070A/zh
Publication of CN111180070A publication Critical patent/CN111180070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种病历数据分析方法及装置,获取待检测用户的电子病历;根据所述电子病历,提取与目标疾病相关的特征信息;基于已训练的疾病风险评估模型,以所述与目标疾病相关的特征信息为输入参数,获得所述待检测用户的目标疾病发生的风险评估结果,其中,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历,这样,基于电子病历和疾病风险评估模型风险评估结果,不需要主动采集信息,节省成本,提高了效率,并提高了风险评估准确性。

Description

病历数据分析方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种病历数据分析方法及装置。
背景技术
目前,心脑血管疾病,例如脑卒中是一种严重威胁人类健康的常见病,能够准确预测并提早预防是非常必要的,现有技术中的心脑血管疾病风险评估方案主要依赖于用户主动输入信息,需要人工主动采集用户的疾病相关信息,例如改良的弗明汉脑卒中评分量表、汇集队列方程、卒中风险计算器等方法,这些方法的模型依赖于简单的评分卡形式。
但是现有技术的这种方法,需要人工主动采集用户信息,耗费大量的人力、物力和财力,效率也较低,采集到的用户信息数量和维度有限,使用简单的线性统计模型,并且在实施过程中受主动采集信息准确率等因素限制,降低了最终疾病风险评估的准确性。
发明内容
本申请实施例提供一种病历数据分析方法及装置,以提高疾病风险评估的准确性,降低成本,提高效率。
本申请实施例提供的具体技术方案如下:
本申请一个实施例提供了一种病历数据分析方法,包括:
获取待检测用户的电子病历;
根据所述电子病历,提取与目标疾病相关的特征信息;
基于已训练的疾病风险评估模型,以所述与目标疾病相关的特征信息为输入参数,获得所述待检测用户的目标疾病发生的风险评估结果,其中,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历。
本申请另一个实施例提供了一种病历数据分析方法,包括:
向服务器发送目标疾病风险评估请求,其中,所述目标疾病风险评估请求中至少包括待检测用户的授权身份标识;
接收所述服务器返回的所述目标疾病发生的风险评估结果,其中,所述目标疾病发生的风险评估结果是所述服务器根据所述授权身份标识获取到所述待检测用户的电子病历后,根据所述电子病历,提取与所述目标疾病相关的特征信息,并基于已训练的疾病风险评估模型,以所述与所述目标疾病相关的特征信息为输入参数获得的,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历;
展示所述风险评估结果。
本申请另一个实施例提供了一种病历数据分析装置,包括:
获取模块,用于获取待检测用户的电子病历;
特征提取模块,用于根据所述电子病历,提取与目标疾病相关的特征信息;
评估模块,用于基于已训练的疾病风险评估模型,以所述与目标疾病相关的特征信息为输入参数,获得所述待检测用户的目标疾病发生的风险评估结果,其中,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历。
本申请另一个实施例提供了一种病历数据分析装置,包括:
发送模块,用于向服务器发送目标疾病风险评估请求,其中,所述目标疾病风险评估请求中至少包括待检测用户的授权身份标识;
接收模块,用于接收所述服务器返回的所述目标疾病发生的风险评估结果,其中,所述目标疾病发生的风险评估结果是所述服务器根据所述授权身份标识获取到所述待检测用户的电子病历后,根据所述电子病历,提取与所述目标疾病相关的特征信息,并基于已训练的疾病风险评估模型,以所述与所述目标疾病相关的特征信息为输入参数获得的,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历;
展示模块,用于展示所述风险评估结果。
本申请另一个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种病历数据分析方法的步骤。
本申请另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种病历数据分析方法的步骤。
本申请实施例中,获取待检测用户的电子病历,并提取与目标疾病相关的特征信息,基于已训练的疾病风险评估模型,以与目标疾病相关的特征信息为输入参数,获得待检测用户的目标疾病发生的风险评估结果,其中,疾病风险评估模型也是基于电子病历训练获得,这样,该疾病风险评估模型不依赖于用户额外输入个人信息,而是采用在就医过程中被动产生的电子病历,从而节省了资源成本,提高了效率,并且由于基于电子病历训练和应用检测,获取更加方便效率更高,因此,获取到的用户信息数量和维度都有极大提高,也更加可靠准确,从而提高了风险评估的准确率,从而基于电子病历和疾病风险评估模型确定待检测用户的风险评估结果,更加准确可靠,能够实现及早发现疾病,从而可以及时治疗和预防。
附图说明
图1为本申请实施例中病历数据分析方法的应用架构示意图;
图2为本申请实施例中一种病历数据分析方法流程图;
图3为本申请实施例中疾病风险评估模型的训练过程示意图;
图4为本申请实施例中数据结构化划分示意图;
图5为本申请实施例中结构化标准数据转换示意图;
图6为本申请实施例中疾病风险评估模型和传统改良的弗明汉脑卒中评分量表的准确性对比效果示意图;
图7为本申请实施例中另一种病历数据分析方法流程图;
图8为本申请实施例中另一种病历数据分析方法流程图;
图9为本申请实施例中一种风险评估结果展示界面效果示意图;
图10为本申请实施例中另一种风险评估结果展示界面效果示意图;
图11为本申请实施例中一种病历数据分析装置结构示意图;
图12为本申请实施例中另一种病历数据分析装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本申请实施例的理解,下面先对几个概念进行简单介绍:
脑卒中:脑卒中又称“中风”、“脑血管意外”,是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病,包括缺血性和出血性卒中。
巢式病例对照研究(Nested case-control study):旨在结合队列研究和病例对照研究的优势,在事先确定好的队列设计的基础上再进行病例对照研究,和普通病例对照研究相比,巢式病例对照研究可最小化选择偏倚,降低甚至消除回忆偏倚,提高统计效能和检验效率,可用于低发病率疾病的研究。
极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型:是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器,XGBoost是一种提升树模型,它是将许多树模型集成在一起,形成一个很强的分类器。
电子病历:表示计算机化的病案系统或称基于计算机的病人记录,它是用电子设备保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历,它的内容包括纸张病历的所有信息。
心脑血管疾病,例如脑卒中是一种严重威胁人类健康并高发的常见病,能够准确预测并提早预防是非常必要的,现有技术中的心脑血管疾病风险评估方案,例如改良的弗明汉脑卒中评分量表、汇集队列方程、卒中风险计算器,这些方法主要都是依赖用户主动输入个人临床信息、家族史或现场对用户进行检查以获取信息,模型依赖于简单的评分卡形式。但是现有技术中的方法,具有以下缺点:1)不同人群模型通用性较差,现有大多模型是基于西方高加索人群建立,但是不同人群的遗传差异导致疾病的危险因素并不完全一致,许多国外建立的模型在中国人群的适用性较差;2)需要主动采集用户信息,例如通过问卷调查和身体检查获得,但是主动采集信息需要花费大量人力、物力和财力,全人群筛查受到很大局限;3)准确性较差:仅涵盖几个到十几个健康静态特征,使用简单的线性统计模型,大量与脑卒中发病存在潜在相关关系的健康医疗特征未能纳入考虑,并且简单线性统计模型也无法挖掘用户海量而复杂的动态特征,因此准确率和个体化程度都较差。问卷评估量表进行居民脑卒中早期筛查往往要耗费巨大的人力、物力和财力,而在实施过程中由于问卷调查的信息准确率等因素限制,降低了风险评估的准确性。同时还受限于资源投入限制,脑卒中筛查基本都是人群抽样调查,无法应用于城市或地区全量居民。
针对上述问题,本申请实施例中提供了一种病历数据分析方法,主要是基于电子病历构建与目标疾病关联的特征信息和疾病风险评估模型,进而针对待检测用户,可以根据待检测用户的电子病历,提取与目标疾病关联的特征信息,基于已训练的疾病风险评估模型,以与目标疾病关联的特征信息为输入参数,获得待检测用户的目标疾病发生的风险评估结果,这样,基于用户在就医过程中被动产生的数据即电子病历,通过大数据整合和挖掘技术,构建特征信息来预测目标疾病的发病风险,不需要用户额外输入信息,也无需人工主动采集用户信息,节省了资源投入和成本,扩大了风险评估的覆盖人群,获取到的用户信息数量和维度都有极大提高,用户信息也更加可靠准确,从而提高了风险评估的准确率,实现目标疾病发生风险的早期发现,可以及时治疗和预防,防止疾病不良后果的发生。
参阅图1所示,为本申请实施例中病历数据分析方法的应用架构示意图,包括服务器100、终端设备200。
终端设备200可以是智能手机、平板电脑、便携式个人计算机等任何智能设备,终端设备200上可以安装有各种应用程序(Application,APP),例如,本申请实施例中用户可以通过终端设备200上的APP,例如网页、具有病历数据分析功能的APP或为某APP的子应用等,输入用户的身份标识,并同意系统授权,进而服务器100接收到该用户的授权身份标识,根据授权身份标识,获取其电子病历,并进行与目标疾病相关的特征信息提取,基于疾病风险评估模型,获得该用户目标疾病发生的风险评估结果,进而服务器100可以将风险评估结果返回给终端设备200,终端设备200在界面上进行展示,以告知该用户,这样用户就可以获知自己某目标疾病发生的风险和其它相关信息。
终端设备200与服务器100之间可以通过互联网相连,实现相互之间的通信。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(VirtualPrivate Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
服务器100可以为终端设备200提供各种网络服务,其中,服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。
具体地,服务器100可以包括处理器110(Center Processing Unit,CPU)、存储器120、输入设备130和输出设备140等,输入设备130可以包括键盘、鼠标、触摸屏等,输出设备140可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器110提供存储器120中存储的程序指令和数据。在本申请实施例中,存储器120可以用于存储本申请实施例中任一种病历数据分析方法的程序。
处理器110通过调用存储器120存储的程序指令,处理器110用于按照获得的程序指令执行本申请实施例中任一种病历数据分析方法的步骤。
需要说明的是,本申请实施例中,病历数据分析方法和疾病风险评估模型训练主要由服务器100侧执行,其中,在训练阶段,服务器100可以从目标区域内各医院或诊所等医疗机构获取多个用户的电子病历,构建正样本集和负样本集,并进行与目标疾病相关的特征信息抽取,进而迭代训练获得疾病风险评估模型。在应用阶段,服务器100接收到终端设备200的目标疾病风险评估请求,目标疾病风险评估请求中携带用户的授权身份标识,进而可以返回该用户的风险评估结果。
本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案,并不构成对本申请实施例提供的技术方案的限制,当然,也并不仅限于脑卒中疾病应用,对于其它的应用架构和疾病应用,例如其它心脑血管疾病如冠心病等,本申请实施例提供的技术方案对于类似的问题,同样适用。
本申请各个实施例以应用于图1所示的应用架构图为例进行示意性说明。
基于上述实施例,参阅图2所示,为本申请实施例中一种病历数据分析方法流程图,主要应用于服务器侧,该方法包括:
步骤200:获取待检测用户的电子病历。
本申请实施例中,用户可以通过终端设备授权,从而服务器可以从电子病历数据库中检索该用户所有的门急诊和住院相关的电子病历,具体地执行步骤200时包括:
S1、接收待检测用户的授权身份标识。
S2、根据授权身份标识,获取待检测用户的电子病历。
例如,用户通过终端设备中的某APP,该APP具有病历数据分析的功能,点击获取目标疾病的风险评估结果并授权后,即向服务器提交了目标疾病风险评估请求,进而服务器可以根据该授权身份标识,获取该待检测用户的电子病历。
步骤210:根据电子病历,提取与目标疾病相关的特征信息。
执行步骤210时,具体包括:
S1、根据预设医疗知识库和医疗实体词库,从电子病历中提取与目标疾病关联的文本描述信息。
其中,电子病历中包括疾病名称、疾病生理表现症状描述信息、疾病检验结果描述信息、疾病检查结果描述信息、用药信息。疾病检验结果描述信息表示血常规、血糖、血脂、甘油三酯等检验结果,疾病检查结果描述信息表示B超、CT等检查结果。
本申请实施例中,医疗知识库包括疾病各种检验或检查指标正常范围的判断标准,和其它检查或检验结果对应的诊断结论,可以用于确定疾病检查结果描述信息是否正常的判断结果,例如医疗知识库中描述了心电图正常情况下的表现特征,则可以基于医疗知识库判断待检测用户的心电图是否正常和对应的诊断结论。又例如,描述了血压正常范围的判断标准,则可以基于该医疗知识库判断待检测用户的血压是否正常。
医疗实体词库表示包括各种医疗相关词语的数据库,可以用于从电子病历中抽取相关医疗信息,例如,疾病生理表现症状描述信息为:昨天早上突然四肢无力、头昏,则基于医疗实体词库,并可以结合自然语言处理技术,进行分词抽取医疗相关词语,症状为“四肢无力”“头昏”。
S2、按照预设的结构化标准数据格式,将提取到与目标疾病关联的文本描述信息,转换为结构化标准数据格式的特征信息。
实际中,由于通过电子病历中是一些非结构化或半结构化数据,并且不同医院或门诊的电子病历的数据格式也不统一,因此本申请实施例中为便于统一描述和后续处理,将非结构化的电子病历转换为结构化标准的数据格式,这样,将电子病历的数据划分为疾病名称、疾病生理表现症状描述信息、疾病检验结果描述信息、疾病检查结果描述信息、用药信息几部分,还可以包括用户基本信息,例如,年龄、性别、所在城市等,基于医疗知识库和医疗实体词库,从非结构化电子病历中抽取与疾病相关的发病特征,进行数据结构标准化转换,例如检验指标的转换、疾病的映射、对不同医院的特征进行归一化与标准化,从而获得结构化标准数据格式的特征信息。
进一步地,若获取到待检测用户的电子病历有多个,则可以分别将各个电子病历进行结构化标准数据格式的转换,并按照时间进行排序,可以获得待检测用户的具有时间序列的特征信息,可以将这些具有时间序列的特征信息输入到疾病风险评估模型,获得风险评估结果,这样,可以综合考虑待检测用户的动态特征信息,来预测其将来目标疾病的发病风险。
步骤220:基于已训练的疾病风险评估模型,以与目标疾病相关的特征信息为输入参数,获得待检测用户的目标疾病发生的风险评估结果。
其中,疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,正样本集为目标疾病发生的电子病历,负样本集为非目标疾病的其它疾病发生的电子病历。疾病风险评估模型可以采用XGBoost二分类模型,本申请实施例中并不进行限制,输入为结构化标准数据格式的与目标疾病相关的特征信息,输出为目标疾病发生的风险评估结果。其中,风险评估结果至少包括待检测用户的目标疾病发生的风险值,例如,目标疾病为脑卒中,则基于疾病风险评估模型可以输出待检测用户的脑卒中发病的风险值。
而通常目标疾病发生的风险值直接提示给用户,可能不够直观不便于用户理解,因此,本申请实施例中还可以将风险值转换为器官年龄,具体地提供了一种可能的实施方式,将待检测用户的目标疾病发生的风险值,转换为与目标疾病相关的器官年龄。以目标疾病为脑卒中为例,则器官年龄为心脏年龄,脑卒中为一种脑血管疾病,脑血管健康是整体心血管健康的重要部分,脑卒中风险可以直接反映个人的心血管健康,这样将输出的脑卒中的风险值转换为心脏年龄,可以使得疾病风险评估模型的评估结果更易于理解。
具体地,将待检测用户的目标疾病发生的风险值,转换为与目标疾病相关的器官年龄,本申请实施例中提供了一种可能的实施方式:
S1、确定与待检测用户属于同一目标区域内的各用户的目标疾病发生的风险值。
具体包括:S1.1、获取目标区域内的各用户的电子病历。
例如,可以从该检测用户的电子病历中获取待检测用户的所在城市,则可以将目标区域确定为该城市,可以获取该城市内所有医院和门诊内各个用户的电子病历,其中,目标区域还可以为与待检测用户属于同一省、市、县等区域,本申请实施例中并不进行限制。
S1.2、根据各用户的电子病历,提取各用户的与所述目标疾病相关的特征信息。
具体地也可以根据医疗知识库和医疗实体词库,提取出各用户的结构化标准数据格式的特征信息。
S1.3、基于疾病风险评估模型,分别以各用户的与目标疾病相关的特征信息为输入参数,获得各用户的目标疾病发生的风险值。
这样,获取与待检测用户相关的目标区域内各个用户的电子病历后,可以计算该目标区域内全量人群的目标疾病发生的风险值。
S2、根据各用户的目标疾病发生的风险值和各用户的性别,分别确定不同性别下按照预设年龄间隔各用户在不同年龄对应的平均风险值。
本申请实施例中,为了实现将风险值转换为器官年龄,计算出目标区域内全量人群的目标疾病发生的风险值后,并且由于男性和女性会有表现差异,因此为了更加准确,可以按照性别和年龄进行划分,分别计算不同性别和不同年龄下的平均风险值。
例如,筛选出该目标区域内男性用户的目标疾病发生的风险值,按照年龄间隔,如年龄间隔为1岁,并不进行限制,分别计算在不同年龄下的平均风险值,例如男性30岁脑卒中发病平均风险值为A1,男性31岁脑卒中发病平均风险值为A2等,并筛选出该目标区域内女性用户的目标疾病发生的风险值,按照年龄间隔,分别计算在不同年龄下的平均风险值,例如,女性30岁脑卒中发病平均风险值为B1,女性31岁脑卒中发病平均风险值为B2等。
S3、在与待检测用户的性别相同下的各平均风险值中,匹配确定与待检测用户的目标疾病发生的风险值相差最小的平均风险值。
S4、将匹配出的平均风险值对应的年龄,作为与目标疾病相关的器官年龄。
本申请实施例中,可以将转换后的器官年龄返回给终端设备,作为风险评估结果提示给用户。
例如,待检测用户为男性,则从确定的男性用户下各平均风险值中,匹配与待检测用户的风险值最接近的平均风险值,如匹配出最接近的平均风险值为A2,对应的年龄为31岁,则可以确定该待检测用户的器官年龄为31岁。
需要说明的是,本申请实施例中,确定与待检测用户属于同一目标区域内的各用户的目标疾病发生的风险值,以及分性别和年龄的平均风险值的计算,可以在预先进行确定,例如,目标区域以城市为单位,可以针对各个城市获取到的电子病历,分别计算目标疾病发生的风险值和不同性别年龄下的平均风险值,并可以不断更新,例如每隔一定时间,根据最新获取到的电子病历进行计算并更新。
进而在对待检测用户进行目标疾病的风险评估时,确定该待检测用户的目标疾病发生的风险值后,从预先计算并保存的与该待检测用户属于同一目标区域内的平均风险值中进行匹配,从而确定该待检测用户的器官年龄。
另外本申请实施例中还可以预先计算出待检测用户的风险值,例如之前该待检测用户已经授权过,在计算目标区域内全量用户的目标疾病发生的风险值时,已经计算过该待检测用户的风险值了,这时,待检测用户请求获取风险评估结果时,服务器可以直接根据该待检测用户的授权身份标识,查找该待检测用户的风险值和对应的器官年龄,就无需实时计算了,提高了效率和实时性,可以快速向终端设备返回结果。
进一步地,本申请实施例中还可以根据不正常指标和因素,确定个性化的风险提示和建议,具体地本申请实施例中提供了一种可能的实施方式,风险评估结果还包括导致待检测用户的目标疾病发生对应的不正常的特征信息;则进一步包括:获得待检测用户的实际自然年龄,若确定待检测用户的实际自然年龄小于器官年龄,则根据不正常的特征信息和器官年龄,确定相应的健康提示信息,其中,健康提示信息至少包括造成器官年龄增高的原因和相应的健康策略信息。
例如,目标疾病为脑卒中,器官年龄为心脏年龄,待检测用户的实际自然年龄为45岁,确定出的其心脏年龄为50岁,则可以根据检验或检查出的与脑卒中相关的不正常的特征信息,即导致心脏年龄偏高的因素,进行健康提示,例如确定出血压高,健康提示信息可以为心脏年龄偏高,血压高是造成您风险增高的主要原因,并可以针对血压高提供相应的健康策略信息,如应减少钠盐摄入,增加钾盐摄入,每月测量血压等信息。
本申请实施例中,获取待检测用户的电子病历,根据电子病历,提取待检测用户的与目标疾病相关的特征信息,基于已训练的疾病风险评估模型,获得待检测用户的目标疾病发生的风险评估结果,这样,基于电子病历构建与目标疾病相关的特征信息,并通过机器学习的疾病风险评估模型输出目标疾病发生的风险评估结果,不需要用户额外输入个人信息,疾病风险评估模型的训练也是基于电子病历,节省了资源投入,并且由于电子病历的获取更加方便,因此也可以扩大风险评估的覆盖人群,得到的信息也更加准确,从而提升了风险评估准确性。
基于上述实施例,下面对本申请实施例中的疾病风险评估模型进行简单介绍。参阅图3所示,为本申请实施例中疾病风险评估模型的训练过程示意图,具体可以分为以下几个部分。
1)样本集构建模块。
步骤300:获取正样本集和负样本集。
其中,正样本集包括各用户目标疾病发生的电子病历,负样本集包括各用户非目标疾病的其它疾病发生的电子病历。
本申请实施例中,主要基于电子病历进行大数据整合和挖掘,因此负样本也即一些发生疾病但不是研究的目标疾病的电子病历。
例如,目标疾病为脑卒中,正样本为脑卒中发病病例,可以根据疾病诊断ICD-10或诊断描述确定正样本,负样本可以采用巢式病例对照方法,选取同一医院同一时间就诊的其它疾病病例,并可以按照正负样本1:N的比例匹配选取负样本,从而构建正样本集和负样本集,其中,训练时选取同一医院同一时间的其它疾病病例,是为了进一步提高准确性和简便性,减少其它因素干扰,当然也可以选取同一城市内所有医院的电子病历,从中选取正样本集和负样本集。
2)特征提取模块。
步骤301:提取正样本集和负样本集中各用户的与目标疾病相关的特征信息。
具体地,根据医疗知识库和医疗实体词库,分别从各用户的电子病历中提取结构化标准数据格式的特征信息。
本申请实施例中,可以将电子病历中信息划分为基本信息、疾病名称、疾病生理表现症状描述信息、疾病检验结果描述信息、疾病检查结果描述信息、用药信息,从而将电子病历中信息进行数据清洗和结构化,参阅图4所示,为本申请实施例中数据结构化划分示意图,如图4所示,以疾病名称、疾病生理表现症状描述信息、疾病检验结果描述信息、用药信息几部分为例,用药信息可以分为循环系统用药、解热镇痛药物、抗生素类抗感染药物等,疾病名称也可以根据不同疾病类别进行划分,例如循环系统类疾病,包括高血压、高血脂、冠心病、脑卒中等,疾病生理表现症状描述信息也可以根据身体不同部位进行划分,例如,头部包括头昏、头痛、头疼、偏头痛等,疾病检验结果描述信息也可以根据不同检验样本进行划分,例如血生化,包括血糖、糖化血红蛋白、总胆固醇等,另外图4中未示出,针对疾病检查结果描述信息也可以根据不同的检查项目进行划分,例如CT扫描结果、B超结果等。
进而可以构建疾病特征标准化模块,对各个与目标疾病关联的文本描述信息进行归一与标准化,例如,参阅图5所示,为本申请实施例中结构化标准数据转换示意图,可以预先设定这几部分信息对应的结构化标准数据格式,从而基于医疗知识库和医疗实体词库,从电子病历中分别提取相关信息,按照对应的结构化标准数据格式进行转换,例如,本申请实施例主要针对心脑血管疾病研究,则可以只针对某几种疾病和这几种疾病相关的因素进行研究,疾病名称(图5中简称“疾病”)的结构化标准数据格式为(高血压,糖尿病,高脂血症,冠心病,脑卒中),用药信息(图5中简称“用药”)的构化标准数据格式为(利尿剂,β受体阻滞剂,钙阻滞剂,血管紧张素转化酶抑制剂(angiotensin converting enzymeinhibitors,ACEI),血管紧张素受体阻滞剂(Angiotensin Receptor Blocker,ARB),双胍、叶酸),疾病检验结果描述信息(图5中简称“检验”)为(血糖,总胆固醇、甘油三酯、谷氨酰转肽酶(GGT)、天门冬氨酸氨基转移酶(AST)、谷丙转氨酶(ALT)、尿蛋白、尿肌酐),其中可以标准化各指标的单位,例如血糖单位标准化为mmol/L,疾病检查结果描述信息(图5中简称“检查”)为(心律不齐,早搏,脂肪肝,胆囊结石,颈动脉内中膜厚度(Carotid Artery IntimaMedia Thickness,CIMT),斑块个数),疾病生理表现症状描述信息(图5中简称“症状”)为(发烧,头痛,胸闷/胸痛,反胃,消化不良,肢体麻木,呼吸困难),其中,标识(identification,ID)表示用户的身份标识,这样,可以从电子病历中提取相关信息,按照预设的结构化标准数据格式进行转换,例如电子病历中针对疾病名称的原始数据描述为:门诊诊断高血压心脏病,住院诊断急性冠脉综合征(acute coronary syndromes,ACS),可以进行疾病的映射,映射为预设的疾病类别,确定ACS属于冠心病,从而确定该用户患有高血压和冠心病,则疾病名称的疾病特征向量表示为(10010),同理可以分别得到各疾病相关信息对应的疾病特征向量,综合即为该用户的特征信息的结构化标准数据格式的向量表示。
需要说明的是,图5中所示的结构化标准数据格式仅是一种示例,可以包括其它更多或不同指标,也可以设置其它指标顺序等,本申请实施例中并不进行限制,目的是为了将非结构化的电子病历,转换为结构化标准数据格式的数据,便于分析和研究。
3)模型训练模块。
步骤302:根据正样本集和负样本集中各用户的与目标疾病相关的特征信息,迭代训练疾病风险评估模型。
本申请实施例中可以对全部正样本集按照8:2随机拆分构建训练集和验证集,其中,疾病风险评估模型可以采用XGBoost模型,本申请实施例中并不进行限制,下面对XGBoost模型的训练原理进行简单说明。XGBoost算法的原理是将许多弱分类器集成在一起形成一个强分类器,即将许多树模型集成在一起,形成一个很强的分类器,所用到的树模型是分类与回归树(Classification andRegression Trees,CART)模型,对于输入的样本特征,训练得到一个最优的CART回归树,XGBoost模型不断地添加树,不断地进行特征分裂来生长一棵树,去拟合上次预测的残差,训练完成得到k棵树,对于一个新的样本,通过样本的特征在每棵树中落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只将每棵树对应的分数加起来就是该样本的预测值。XGBoost算法通过泰勒展开式将损失函数展开为具有二阶导的平方函数进行算法的优化。
4)最优模型选择模块。
步骤303:优化疾病风险评估模型,确定最佳迭代次数和超参数。
具体地,可以通过5-fold交叉验证和逐次增加迭代次数选择最佳迭代次数(即树个数),然后通过网格搜索(Grid search)寻找最佳的超参数,例如包括:max_depth(树最大深度)和min_child_weight(子节点中最小的样本权重和),进而通过优化训练,最终获得训练完成的疾病风险评估模型。
本申请实施例中,基于电子病历构建正样本集和负样本集,并提取结构化标准数据格式的特征信息,进而通过不断迭代学习,训练获得疾病风险评估模型,这样,可以对任何目标区域内用户的电子病历进行多重关联和特征提取,构建带有时间信息的目标疾病发病标签与相关的特征信息,例如,疾病、用药信息、检查、症状等,进一步地还可以获取一些其它信息例如手术、费用、家庭关系、行为、生活等信息,用于目标疾病的风险预测,基于用户在日常生活和就医过程中被动产生的数据,来预测目标疾病的发病风险,不需要主动采集用户信息,极大节省了人力、物力和财力投入,也提高了用户信息的数量和维度,提高了疾病风险评估模型的准确性,从而可以实现疾病的尽早发现,及时预防和治疗,降低发病的可能性。
例如,参阅图6所示,为本申请实施例中疾病风险评估模型和传统改良的弗明汉脑卒中评分量表的准确性对比效果示意图,采用受试者工作特征曲线(receiver operatingcharacteristic curve,ROC曲线),ROC曲线就是以假阳性概率(False positive rate)为横轴,真阳性(True positive rate)为纵轴所组成的坐标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线,可以通过ROC曲线下的面积(AreaUnder Curve,AUC)比较结果,AUC较大的效果更好,本申请实施例中疾病风险评估模型以脑卒中风险评估模型为例,在某地区进行应用,脑卒中预测的准确性约为86%(AUC=0.86),其中,传统的改良的弗明汉脑卒中评分量表的脑卒中风险评估准确性为75%(AUC=0.75),可知本申请实施例中疾病风险评估模型的准确性有显著提升。
基于上述实施例,下面采用具体应用场景对本申请实施例中病历数据分析方法进行说明,以目标疾病为脑卒中,器官年龄为心脏年龄为例,参阅图7所示,为本申请实施例中另一种病历数据分析方法流程图,主要应用于服务器侧,具体可以分为以下几个部分。
1)电子病历获取模块。
步骤700:根据待检测用户的授权身份标识,获取待检测用户的电子病历。
例如,用户通过终端设备授权其个人身份标识,进而服务器可以根据授权身份标识,从电子病历数据库中检索该待检测用户的电子病历。
2)特征提取模块。
步骤701:根据电子病历,提取与目标疾病相关的特征信息。
其中,该特征提取模块包括医疗知识库和医疗实体词库,将电子病历输入到特征提取模块,可以输出与心脑血管疾病关联的结构化标准数据格式的特征信息。
3)风险评估模块。
步骤702:基于已训练的疾病风险评估模型,以与目标疾病相关的特征信息为输入参数,获得待检测用户的脑卒中发生的风险值。
其中,疾病风险评估模型可以为XGBoost模型,本申请实施例中并不进行限制。
4)风险转换与输出模块。
步骤703:将风险值转换为与心脏年龄。
具体地,1)确定与待检测用户属于同一目标区域内的各用户的脑卒中发生的风险值;2)根据各用户的脑卒中发生的风险值和各用户的性别,分别确定不同性别下按照预设年龄间隔各用户在不同年龄对应的平均风险值;3)在与待检测用户的性别相同下的各平均风险值中,匹配确定与待检测用户的脑卒中发生的风险值相差最小的平均风险值;4)将匹配出的平均风险值对应的年龄作为心脏年龄。
进一步地,风险转换与输出模块还可以用于输出个性化的健康提示信息,具体地,获得待检测用户的实际自然年龄,若确定待检测用户的实际自然年龄小于心脏年龄,则根据不正常的特征信息和心脏年龄,确定相应的健康提示信息,其中,健康提示信息至少包括造成心脏年龄增高的原因和相应的健康策略信息。
本申请实施例中,待检测用户通过授权请求,获取待检测用户的电子病历,提取与目标疾病相关的特征信息,并基于疾病风险评估模型输出疾病发生的风险值,将风险值转换为与目标疾病关联的器官年龄,并且还可以确定相应的健康提示信息,从而可以将器官年龄、健康提示信息等返回给终端设备,终端设备提示给用户,这样,基于电子病历,风险评估更加准确,并且还可以转换为器官年龄,便于用于理解更加直观简单,还可以提示用户相关健康提示信息,以使用户能够及时预防。
基于上述实施例,参阅图8所示,为本申请实施例中另一种病历数据分析方法流程图,主要应用于终端设备侧,该方法包括:
步骤800:向服务器发送目标疾病风险评估请求,其中,目标疾病风险评估请求中至少包括待检测用户的授权身份标识。
步骤810:接收服务器返回的目标疾病发生的风险评估结果。
其中,目标疾病发生的风险评估结果是服务器根据授权身份标识获取到待检测用户的电子病历后,根据电子病历,提取与目标疾病相关的特征信息,并基于已训练的疾病风险评估模型,以与目标疾病相关的特征信息为输入参数获得的。
其中,风险评估结果至少包括待检测用户的目标疾病发生的风险值和导致待检测用户的目标疾病发生对应的不正常的特征信息。
进一步地,终端设备还可以接收服务器返回的根据风险值转换后的器官年龄和健康提示信息。
这里,针对风险值、器官年龄和健康提示信息获得的具体实施方式和上述实施例中相同,这里就不再进行赘述了。
步骤820:展示风险评估结果。
进一步地,终端设备还可以展示服务器返回的器官年龄和健康提示信息。
具体地,终端设备接收服务器返回的器官年龄,并展示器官年龄,其中,器官年龄是服务器将风险值转换的与目标疾病相关的器官年龄。
进一步,终端设备接收服务器返回的健康提示信息,并展示健康提示信息,其中,健康提示信息为服务器确定待检测用户的实际自然年龄小于器官年龄时,根据不正常的特征信息和器官年龄的,健康提示信息至少包括造成器官年龄增高的原因和相应的健康策略信息。
这样,本申请实施例中,用户通过终端设备发送目标疾病风险评估请求,即可以获得服务器返回的目标疾病发生的风险评估结果,并且还可以获得易于用户理解的器官年龄,以及具有指导和建议意义的健康提示信息,终端设备可以展示服务器返回的信息,以供用户查看,服务器根据电子病历和疾病风险评估模型获得风险评估结果,节省资源成本,也更加准确,从而用户通过终端设备可以获得根据准确的风险评估结果,可以及早发现及早预防。
基于上述实施例,下面从产品实现侧对本申请实施例中病历数据分析方法进行说明,主要针对终端设备的界面展示的产品实现,以应用于脑卒中疾病场景,并目标区域为与待检测用户属于同一市为例。
本申请实施例中,服务器基于疾病风险评估模型计算目标区域内各用户的脑卒中发生的风险值,并分别确定不同性别下按照预设年龄间隔各用户在不同年龄对应的平均风险值,并匹配确定与待检测用户的脑卒中发生的风险值相差最小的平均风险值,从而确定待检测用户的心脏年龄。这样,当用户通过终端设备授权并发送目标疾病风险评估请求,即可以获取其风险评估结果和健康提示信息。
例如,参阅图9所示,为本申请实施例中一种风险评估结果展示界面效果示意图,如图9所示,在终端设备中展示心脏年龄:“您的心脏年龄为52岁”,以及评估结果和健康提示信息,例如“还不错您的心血管健康超过全市同龄60%的男性小伙伴”,“血压高是造成您风险增高的主要原因”,并展示关于血压高的健康提示信息。
又例如参阅图10所示,为本申请实施例中另一种风险评估结果展示界面效果示意图,展示“您的心脏年龄为78岁”,“很遗憾您的心血管健康超过全市同龄20%的男性小伙伴”,“心脏病、血压高是造成您风险增高的主要原因”,并展示关于心脏病和血压高相关的健康提示信息。
这样,服务器可以根据电子病历和疾病风险评估模型,确定出风险值,更加准确,并还可以转换为心脏年龄,确定出相应的健康提示信息,从而用户通过终端设备可以获知其心脏年龄、造成风险增高的原因和心脏年龄等,进一步地,终端设备也可以同时展示风险值等,并不进行限制,便于用户了解其关于目标疾病的风险评估结果,更加方便准确。
需要说明的是,上述界面效果图仅是一种可能的示例,不应对本申请实施例进行限制。
基于同一发明构思,本申请实施例中还提供了一种病历数据分析装置,该病历数据分析装置例如可以是前述实施例中的服务器,该病历数据分析装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图11所示,本申请实施例中一种病历数据分析装置,具体包括:
获取模块1100,用于获取待检测用户的电子病历;
特征提取模块1110,用于根据电子病历,提取与目标疾病相关的特征信息;
评估模块1120,用于基于已训练的疾病风险评估模型,以与目标疾病相关的特征信息为输入参数,获得待检测用户的目标疾病发生的风险评估结果,其中,疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,正样本集为目标疾病发生的电子病历,负样本集为非目标疾病的其它疾病发生的电子病历。
可选的,获取待检测用户的电子病历时,获取模块1100具体用于:
接收待检测用户的授权身份标识;
根据授权身份标识,获取待检测用户的电子病历。
可选的,根据电子病历,提取与目标疾病相关的特征信息时,特征提取模块1110具体用于:
根据预设医疗知识库和医疗实体词库,从电子病历中提取与目标疾病关联的文本描述信息,其中,电子病历中包括疾病名称、疾病生理表现症状描述信息、疾病检验结果描述信息、疾病检查结果描述信息、用药信息;
按照预设的结构化标准数据格式,将提取到与目标疾病关联的文本描述信息,转换为结构化标准数据格式的特征信息。
可选的,风险评估结果至少包括待检测用户的目标疾病发生的风险值;则进一步包括:
风险转换模块1130,用于将待检测用户的目标疾病发生的风险值,转换为与目标疾病相关的器官年龄。
可选的,将待检测用户的目标疾病发生的风险值,转换为与目标疾病相关的器官年龄时,风险转换模块1130具体用于:
确定与待检测用户属于同一目标区域内的各用户的目标疾病发生的风险值;
根据各用户的目标疾病发生的风险值和各用户的性别,分别确定不同性别下按照预设年龄间隔各用户在不同年龄对应的平均风险值;
在与待检测用户的性别相同下的各平均风险值中,匹配确定与待检测用户的目标疾病发生的风险值相差最小的平均风险值;
将匹配出的平均风险值对应的年龄,作为与目标疾病相关的器官年龄。
可选的,确定与待检测用户属于同一目标区域内的各用户的目标疾病发生的风险值时,风险转换模块1130具体用于:
获取目标区域内的各用户的电子病历;
根据各用户的电子病历,提取各用户的与目标疾病相关的特征信息;
基于疾病风险评估模型,分别以各用户的与目标疾病相关的特征信息为输入参数,获得各用户的目标疾病发生的风险值。
可选的,风险评估结果还包括导致待检测用户的目标疾病发生对应的不正常的特征信息;则风险转换模块1130进一步用于:
获得待检测用户的实际自然年龄,若确定待检测用户的实际自然年龄小于器官年龄,则根据不正常的特征信息和器官年龄,确定相应的健康提示信息,其中,健康提示信息至少包括造成器官年龄增高的原因和相应的健康策略信息。
可选的,若目标疾病为脑卒中,则器官年龄为心脏年龄。
需要说明的是,上述各模块包括获取模块1100、特征提取模块1110、评估模块1120、风险转换模块1130的具体执行操作的实施方式,和上述实施例中服务器侧的病历数据分析方法中相应部分相同,这里就不再进行赘述了。
基于同一发明构思,本申请实施例中还提供了另一种病历数据分析装置,该病历数据分析装置例如可以是前述实施例中的终端设备,该病历数据分析装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图12所示,本申请实施例中另一种病历数据分析装置,具体包括:
发送模块1200,用于向服务器发送目标疾病风险评估请求,其中,目标疾病风险评估请求中至少包括待检测用户的授权身份标识;
接收模块1210,用于接收服务器返回的目标疾病发生的风险评估结果,其中,目标疾病发生的风险评估结果是服务器根据授权身份标识获取到待检测用户的电子病历后,根据电子病历,提取与目标疾病相关的特征信息,并基于已训练的疾病风险评估模型,以与目标疾病相关的特征信息为输入参数获得的,疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,正样本集为目标疾病发生的电子病历,负样本集为非目标疾病的其它疾病发生的电子病历;
展示模块1220,用于展示风险评估结果。
可选的,风险评估结果至少包括待检测用户的目标疾病发生的风险值,则接收模块1210进一步用于:接收服务器返回的器官年龄;
展示模块1220进一步用于展示器官年龄,其中,器官年龄是服务器将风险值转换的与目标疾病相关的器官年龄。
可选的,风险评估结果还包括导致待检测用户的目标疾病发生对应的不正常的特征信息,则接收模块1210进一步用于:接收服务器返回的健康提示信息;
展示模块1220进一步用于展示健康提示信息,其中,健康提示信息为服务器确定待检测用户的实际自然年龄小于器官年龄时,根据不正常的特征信息和器官年龄的,健康提示信息至少包括造成器官年龄增高的原因和相应的健康策略信息。
需要说明的是,上述发送模块1200、接收模块1210、展示模块1220的具体执行操作的实施方式,和上述实施例中终端设备侧的病历数据分析方法中相应部分相同,这里就不再进行赘述了。
基于上述实施例,本申请实施例中还提供了另一示例性实施方式的电子设备,在一些可能的实施方式中,本申请实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行程序时可以实现上述实施例中病历数据分析方法的步骤。
例如,以电子设备为本申请图1中的服务器100为例进行说明,则该电子设备中的处理器即为服务器100中的处理器110,该电子设备中的存储器即为服务器100中的存储器120。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意方法实施例中的病历数据分析方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种病历数据分析装置,其特征在于,包括:
获取模块,用于获取待检测用户的电子病历;
特征提取模块,用于根据所述电子病历,提取与目标疾病相关的特征信息;
评估模块,用于基于已训练的疾病风险评估模型,以所述与目标疾病相关的特征信息为输入参数,获得所述待检测用户的目标疾病发生的风险评估结果,其中,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历。
2.如权利要求1所述的装置,其特征在于,所述获取待检测用户的电子病历时,所述获取模块用于:
接收所述待检测用户的授权身份标识;
根据所述授权身份标识,获取所述待检测用户的电子病历。
3.如权利要求1所述的装置,其特征在于,根据所述电子病历,提取与目标疾病相关的特征信息时,所述特征提取模块具体用于:
根据预设医疗知识库和医疗实体词库,从所述电子病历中提取与目标疾病关联的文本描述信息,其中,所述电子病历中包括疾病名称、疾病生理表现症状描述信息、疾病检验结果描述信息、疾病检查结果描述信息、用药信息;
按照预设的结构化标准数据格式,将提取到与所述目标疾病关联的文本描述信息,转换为结构化标准数据格式的特征信息。
4.如权利要求1-3任一项所述的装置,其特征在于,所述风险评估结果至少包括所述待检测用户的目标疾病发生的风险值;则进一步包括:
风险转换模块,用于将所述待检测用户的目标疾病发生的风险值,转换为与所述目标疾病相关的器官年龄。
5.如权利要求4所述的装置,其特征在于,将所述待检测用户的目标疾病发生的风险值,转换为与所述目标疾病相关的器官年龄时,所述风险转换模块具体用于:
确定与所述待检测用户属于同一目标区域内的各用户的所述目标疾病发生的风险值;
根据所述各用户的所述目标疾病发生的风险值和所述各用户的性别,分别确定不同性别下按照预设年龄间隔各用户在不同年龄对应的平均风险值;
在与所述待检测用户的性别相同下的各平均风险值中,匹配确定与所述待检测用户的目标疾病发生的风险值相差最小的平均风险值;
将匹配出的平均风险值对应的年龄,作为与所述目标疾病相关的器官年龄。
6.如权利要求5所述的装置,其特征在于,确定与所述待检测用户属于同一目标区域内的各用户的所述目标疾病发生的风险值时,所述风险转换模块具体用于:
获取所述目标区域内的各用户的电子病历;
根据所述各用户的电子病历,提取所述各用户的与所述目标疾病相关的特征信息;
基于所述疾病风险评估模型,分别以所述各用户的与所述目标疾病相关的特征信息为输入参数,获得所述各用户的目标疾病发生的风险值。
7.如权利要求4所述的装置,其特征在于,所述风险评估结果还包括导致所述待检测用户的目标疾病发生对应的不正常的特征信息;则所述风险转换模块进一步用于:
获得所述待检测用户的实际自然年龄,若确定所述待检测用户的实际自然年龄小于所述器官年龄,则根据所述不正常的特征信息和所述器官年龄,确定相应的健康提示信息,其中,所述健康提示信息至少包括造成所述器官年龄增高的原因和相应的健康策略信息。
8.如权利要求4所述的装置,其特征在于,若所述目标疾病为脑卒中,则所述器官年龄为心脏年龄。
9.一种病历数据分析装置,其特征在于,包括:
发送模块,用于向服务器发送目标疾病风险评估请求,其中,所述目标疾病风险评估请求中至少包括待检测用户的授权身份标识;
接收模块,用于接收所述服务器返回的所述目标疾病发生的风险评估结果,其中,所述目标疾病发生的风险评估结果是所述服务器根据所述授权身份标识获取到所述待检测用户的电子病历后,根据所述电子病历,提取与所述目标疾病相关的特征信息,并基于已训练的疾病风险评估模型,以所述与所述目标疾病相关的特征信息为输入参数获得的,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历;
展示模块,用于展示所述风险评估结果。
10.如权利要求9所述的装置,其特征在于,所述风险评估结果至少包括所述待检测用户的目标疾病发生的风险值,则所述接收模块进一步用于:接收所述服务器返回的器官年龄;
所述展示模块进一步用于展示所述器官年龄,其中,所述器官年龄是所述服务器将风险值转换的与所述目标疾病相关的器官年龄。
11.如权利要求10所述的装置,其特征在于,所述风险评估结果还包括导致所述待检测用户的目标疾病发生对应的不正常的特征信息,则所述接收模块进一步用于:接收所述服务器返回的健康提示信息;
所述展示模块进一步用于展示所述健康提示信息,其中,所述健康提示信息为所述服务器确定所述待检测用户的实际自然年龄小于所述器官年龄时,根据所述不正常的特征信息和所述器官年龄的,所述健康提示信息至少包括造成所述器官年龄增高的原因和相应的健康策略信息。
12.一种病历数据分析方法,其特征在于,包括:
获取待检测用户的电子病历;
根据所述电子病历,提取与目标疾病相关的特征信息;
基于已训练的疾病风险评估模型,以所述与目标疾病相关的特征信息为输入参数,获得所述待检测用户的目标疾病发生的风险评估结果,其中,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历。
13.一种病历数据分析方法,其特征在于,包括:
向服务器发送目标疾病风险评估请求,其中,所述目标疾病风险评估请求中至少包括待检测用户的授权身份标识;
接收所述服务器返回的所述目标疾病发生的风险评估结果,其中,所述目标疾病发生的风险评估结果是所述服务器根据所述授权身份标识获取到所述待检测用户的电子病历后,根据所述电子病历,提取与所述目标疾病相关的特征信息,并基于已训练的疾病风险评估模型,以所述与所述目标疾病相关的特征信息为输入参数获得的,所述疾病风险评估模型为根据正样本集和负样本集进行迭代训练获得的,所述正样本集为所述目标疾病发生的电子病历,所述负样本集为非所述目标疾病的其它疾病发生的电子病历;
展示所述风险评估结果。
14.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求12或13任一项所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求12或13任一项所述方法的步骤。
CN201911403991.7A 2019-12-30 2019-12-30 病历数据分析方法及装置 Pending CN111180070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911403991.7A CN111180070A (zh) 2019-12-30 2019-12-30 病历数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911403991.7A CN111180070A (zh) 2019-12-30 2019-12-30 病历数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN111180070A true CN111180070A (zh) 2020-05-19

Family

ID=70646595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911403991.7A Pending CN111180070A (zh) 2019-12-30 2019-12-30 病历数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN111180070A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816304A (zh) * 2020-07-22 2020-10-23 北京聚道科技有限公司 一种遗传性疾病辅助决策的建立方法和系统
CN111899837A (zh) * 2020-08-17 2020-11-06 江苏达实久信数字医疗科技有限公司 一种基于数字化手术室的手术报告协同方法及系统
CN111914562A (zh) * 2020-08-21 2020-11-10 腾讯科技(深圳)有限公司 电子信息分析方法、装置、设备及可读存储介质
CN111916215A (zh) * 2020-06-17 2020-11-10 扬州大学附属医院 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统
CN112069783A (zh) * 2020-09-10 2020-12-11 卫宁健康科技集团股份有限公司 一种病历输入法及其输入系统
CN112132218A (zh) * 2020-09-23 2020-12-25 平安国际智慧城市科技股份有限公司 图像处理方法、装置、电子设备及存储介质
CN112216402A (zh) * 2020-10-16 2021-01-12 平安国际智慧城市科技股份有限公司 基于人工智能的疫情预测方法、装置、计算机设备及介质
CN112613313A (zh) * 2020-12-28 2021-04-06 北京百度网讯科技有限公司 医嘱质控的方法、装置、设备、存储介质以及程序产品
CN112949685A (zh) * 2021-01-28 2021-06-11 中南大学湘雅二医院 一种基于提升树模型的主动脉夹层手术风险预测方法
CN113299400A (zh) * 2021-06-23 2021-08-24 复旦大学附属儿科医院 新生儿危重症遗传风险评估方法、装置及设备
CN113784292A (zh) * 2021-08-24 2021-12-10 同济大学 一种基于手机信令数据的城市疫情风险评估方法
CN114334065A (zh) * 2022-03-07 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 病历处理方法、计算机可读存储介质及计算机设备
CN114446474A (zh) * 2021-12-25 2022-05-06 新瑞鹏宠物医疗集团有限公司 宠物疾病预警装置、方法、电子设备及存储介质
CN115359916A (zh) * 2022-10-19 2022-11-18 四川大学华西医院 糖尿病风险评估方法及系统
CN116417150A (zh) * 2023-04-27 2023-07-11 国科赛赋河北医药技术有限公司 基因治疗药物毒性长期风险评估方法及应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506602A (zh) * 2017-09-07 2017-12-22 北京海融兴通信息安全技术有限公司 一种大数据健康预测系统
CN107680676A (zh) * 2017-09-26 2018-02-09 电子科技大学 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
WO2019035125A1 (en) * 2017-08-15 2019-02-21 Medial Research Ltd. SYSTEMS AND METHODS FOR IDENTIFYING CLINICALLY SIMILAR INDIVIDUALS, AND INTERPRETATIONS OF A TARGET INDIVIDUAL
CN109545378A (zh) * 2018-10-23 2019-03-29 平安医疗健康管理股份有限公司 基于数据分析的健康计划管理方法、装置、服务器及介质
CN109712712A (zh) * 2018-12-13 2019-05-03 平安医疗健康管理股份有限公司 一种健康评估方法、健康评估装置及计算机可读存储介质
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019035125A1 (en) * 2017-08-15 2019-02-21 Medial Research Ltd. SYSTEMS AND METHODS FOR IDENTIFYING CLINICALLY SIMILAR INDIVIDUALS, AND INTERPRETATIONS OF A TARGET INDIVIDUAL
CN107506602A (zh) * 2017-09-07 2017-12-22 北京海融兴通信息安全技术有限公司 一种大数据健康预测系统
CN107680676A (zh) * 2017-09-26 2018-02-09 电子科技大学 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
CN109545378A (zh) * 2018-10-23 2019-03-29 平安医疗健康管理股份有限公司 基于数据分析的健康计划管理方法、装置、服务器及介质
CN109712712A (zh) * 2018-12-13 2019-05-03 平安医疗健康管理股份有限公司 一种健康评估方法、健康评估装置及计算机可读存储介质
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916215A (zh) * 2020-06-17 2020-11-10 扬州大学附属医院 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统
CN111816304A (zh) * 2020-07-22 2020-10-23 北京聚道科技有限公司 一种遗传性疾病辅助决策的建立方法和系统
CN111899837A (zh) * 2020-08-17 2020-11-06 江苏达实久信数字医疗科技有限公司 一种基于数字化手术室的手术报告协同方法及系统
CN111914562A (zh) * 2020-08-21 2020-11-10 腾讯科技(深圳)有限公司 电子信息分析方法、装置、设备及可读存储介质
CN112069783A (zh) * 2020-09-10 2020-12-11 卫宁健康科技集团股份有限公司 一种病历输入法及其输入系统
CN112132218A (zh) * 2020-09-23 2020-12-25 平安国际智慧城市科技股份有限公司 图像处理方法、装置、电子设备及存储介质
CN112132218B (zh) * 2020-09-23 2024-04-16 平安国际智慧城市科技股份有限公司 图像处理方法、装置、电子设备及存储介质
CN112216402A (zh) * 2020-10-16 2021-01-12 平安国际智慧城市科技股份有限公司 基于人工智能的疫情预测方法、装置、计算机设备及介质
CN112613313A (zh) * 2020-12-28 2021-04-06 北京百度网讯科技有限公司 医嘱质控的方法、装置、设备、存储介质以及程序产品
CN112613313B (zh) * 2020-12-28 2024-03-12 北京百度网讯科技有限公司 医嘱质控的方法、装置、设备、存储介质以及程序产品
CN112949685A (zh) * 2021-01-28 2021-06-11 中南大学湘雅二医院 一种基于提升树模型的主动脉夹层手术风险预测方法
CN112949685B (zh) * 2021-01-28 2022-04-22 中南大学湘雅二医院 一种基于提升树模型的主动脉夹层手术风险预测方法
CN113299400A (zh) * 2021-06-23 2021-08-24 复旦大学附属儿科医院 新生儿危重症遗传风险评估方法、装置及设备
CN113299400B (zh) * 2021-06-23 2023-02-21 复旦大学附属儿科医院 新生儿危重症遗传风险评估方法、装置及设备
CN113784292A (zh) * 2021-08-24 2021-12-10 同济大学 一种基于手机信令数据的城市疫情风险评估方法
CN114446474A (zh) * 2021-12-25 2022-05-06 新瑞鹏宠物医疗集团有限公司 宠物疾病预警装置、方法、电子设备及存储介质
CN114334065B (zh) * 2022-03-07 2022-06-28 阿里巴巴达摩院(杭州)科技有限公司 病历处理方法、计算机可读存储介质及计算机设备
CN114334065A (zh) * 2022-03-07 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 病历处理方法、计算机可读存储介质及计算机设备
CN115359916A (zh) * 2022-10-19 2022-11-18 四川大学华西医院 糖尿病风险评估方法及系统
CN116417150A (zh) * 2023-04-27 2023-07-11 国科赛赋河北医药技术有限公司 基因治疗药物毒性长期风险评估方法及应用

Similar Documents

Publication Publication Date Title
CN111180070A (zh) 病历数据分析方法及装置
US20170147777A1 (en) Method and apparatus for predicting health data value through generation of health data pattern
Aggrawal et al. Sequential feature selection and machine learning algorithm-based patient’s death events prediction and diagnosis in heart disease
US20200250554A1 (en) Method and storage medium for predicting the dosage based on human physiological parameters
WO2021227511A1 (zh) 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质
KR102131973B1 (ko) 개인 건강관리 방법 및 시스템
CN111666477A (zh) 一种数据处理方法、装置、智能设备及介质
CN111145909B (zh) 诊疗数据处理方法与装置、存储介质、电子设备
Yèche et al. HiRID-ICU-Benchmark--A Comprehensive Machine Learning Benchmark on High-resolution ICU Data
CN112786203A (zh) 一种机器学习糖尿病视网膜病变发病风险预测方法及应用
US20230359868A1 (en) Federated learning method and apparatus based on graph neural network, and federated learning system
Pavithra et al. Hybrid feature selection technique for prediction of cardiovascular diseases
CN111553478A (zh) 基于大数据的社区老年人心血管疾病预测系统与方法
D’Addio et al. Extracting features from Poincare plots to distinguish congestive heart failure patients according to NYHA classes
CN115579104A (zh) 一种基于人工智能的肝癌全病程数字化管理方法及系统
Baghdadi et al. Advanced machine learning techniques for cardiovascular disease early detection and diagnosis
CN116864139A (zh) 疾病风险评估方法、装置、计算机设备及可读存储介质
US11335461B1 (en) Predicting glycogen storage diseases (Pompe disease) and decision support
Krishnan et al. Characteristics of hospitalizations for cardiogenic shock after acute myocardial infarction in the United States
Kumar et al. A Clinical Data Analysis Based Diagnostic Systems for Heart Disease Prediction Using Ensemble Method
JP2024510425A (ja) 診断、治療、及び主要な日付を抽出するための機械学習モデル
Kazi et al. Smart cardiowatch system for patients with cardiovascular diseases who live alone
Al-Shanableh et al. Predicting the number of multiple chronic conditions in arizona state using data mining algorithms
Aamir et al. Artificial Intelligence in Enhancing Syncope Management-An Update
Naseer et al. An improved hybrid model for cardiovascular disease detection using machine learning in IoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519