CN116453637A - 一种基于区域大数据的健康数据治理方法和系统 - Google Patents
一种基于区域大数据的健康数据治理方法和系统 Download PDFInfo
- Publication number
- CN116453637A CN116453637A CN202310271040.9A CN202310271040A CN116453637A CN 116453637 A CN116453637 A CN 116453637A CN 202310271040 A CN202310271040 A CN 202310271040A CN 116453637 A CN116453637 A CN 116453637A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- rule
- health
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013523 data management Methods 0.000 title claims abstract description 21
- 230000003203 everyday effect Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 208000024891 symptom Diseases 0.000 claims description 15
- 238000007726 management method Methods 0.000 claims description 14
- 239000003814 drug Substances 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 12
- 201000010099 disease Diseases 0.000 claims description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 12
- 238000003745 diagnosis Methods 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 10
- 229940079593 drug Drugs 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000036772 blood pressure Effects 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012821 model calculation Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 206010003658 Atrial Fibrillation Diseases 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000007689 inspection Methods 0.000 description 8
- 208000035473 Communicable disease Diseases 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000028571 Occupational disease Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005548 health behavior Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于区域大数据的健康数据治理方法,该方法包括以下步骤:步骤一:将系统中大数据中心每天汇聚的海量数据进行挂载处理;步骤二:对挂载的引擎数据进行智能化治理;步骤三:根据医疗业务需要和业务逻辑制订相应的引擎规则;步骤四:基于治理后的数据通过配置的规则处置后,生成消息数据并对这些消息数据解析分类存储,形成以人为维度的医疗健康事件消息;步骤五:基于个人医疗健康事件驱动的应用分发或者数据协同;步骤六:根据目标应用系统或应用场景定义的业务规则,对引擎数据库中的数据进行分析,将结果数据推送至目标应用或管理人员,本发明,具有提升数据利用深度和利用时效性的特点。
Description
技术领域
本发明涉及健康数据治理技术领域,具体为一种基于区域大数据的健康数据治理方法和系统。
背景技术
现有对卫生医疗大数据进行治理和利用的主要方法途径是:按各卫生健康管理部门工作需求构建相关的主题数据仓库进行有效利用,但针对医疗卫生事件处理时效性要求的提高,现有的中心主题数据仓库利用模式严重制约了业务响应速度,业务人员提出来的业务规则在主题库数仓中依赖开发商工程师做需求调查、业务场景理解后才能进入到代码开发、测试、业务验证等环节,数据利用人员不能自由、随时、可视化地制订业务规则,缺乏业务规则制订的灵活性,且后期维护也要依托开发公司工程师来完成,缺可运维管理性,且主题库数仓ETL脚本不具备从非结构化数据中提取医学实体的算法能力,无法精准识别出医疗事件所需的医学数据,导致数据有效利用率较低,数据价值发挥不足的问题,因此,设计提升数据利用深度和利用时效性的一种基于区域大数据的健康数据治理方法和系统是很有必要的。
发明内容
本发明的目的在于提供一种基于区域大数据的健康数据治理方法和系统,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于区域大数据的健康数据治理方法,包括以下步骤:
步骤一:将系统中大数据中心每天汇聚的海量数据进行挂载处理;
步骤二:对挂载的引擎数据进行智能化治理;
步骤三:根据医疗业务需要和业务逻辑制订相应的引擎规则,由事实数据驱动,通过不断地遵循引擎规则分析得出数据结论;
步骤四:基于治理后的数据通过配置的规则处置后,生成一系列医疗事实库的消息数据,对这些消息数据解析分类并存储形成以人为维度的医疗健康事件消息;
步骤五:基于个人医疗健康事件驱动的应用分发或者数据协同;
步骤六:根据目标应用系统或应用场景定义的业务规则,对引擎数据库中的数据进行分析,将引擎算法生成的结果数据,推送至目标应用或管理人员。
根据上述技术方案,所述对海量数据进行挂载处理的步骤,包括:
采集系统中实时上传至数据中心的海量数据,通过数据归集任务监测程序,将个人健康引擎所需的数据同步、自动挂载进来。
根据上述技术方案,所述对挂载的引擎数据进行智能化治理的步骤,包括:
采用自然语言处理NLP中的实体归一化算法,参照医学术语规范,将病历中症状、体征、疾病、操作以及特征数据如持续时间、阴阳性、疾病的诊断等进行细化提取,并采用字符串编辑距离算法对提取的数据进行标准术语转换处理,实现包括全词匹配、组分对齐、编码版本对齐的功能;
将药品归一到药监局国药准字、诊断和手术归一到ICD-10编码上,实现医学术语的对齐,同时使用先检索再重排的归一化策略,并引入细粒度特征做模型融合;
将数据转换为HL7、ICD-10的国际标准,软件数据字典遵循国家数据字典、省部委数据字典、地区和用户数据字典规范,将处理的数据存储于分布式引擎数据库中形成结构化的数据。
根据上述技术方案,所述对挂载的引擎数据进行智能化治理的步骤,还包括:
进行医疗实体识别;采用基于BERT的边界增强神经网络分类算法,从文本数据中提取医疗实体,对医疗实体进行数据应用,通过将原始病历处理为以章节为单位、字段命名统一的标准病历形式,对篇章级、段落级、语句级文本进行多尺度拆解,实现关键字段和对应文本的实时抽取,并将抽取的数据存储于分布式引擎数据库中,通过医疗实体识别算法处理,从多条检查所见数据中提取出“斑块、阴影、房颤、血压异常”的阳性症状。
根据上述技术方案,所述根据医疗业务需要和业务逻辑制订相应的引擎规则的步骤,包括:
通过可视化界面进行引擎规则的自由定制;
采用基于知识的规则推理,解析数据表格、知识文本中的规则信息;
以分布式引擎数据库为基础,建立事实数据库和规则库,并将规则对象构成动态链表,形成规则逻辑单元。
根据上述技术方案,所述通过不断地遵循引擎规则分析得出数据结论的步骤,包括:
每次规则推理都会依次调用规则链中每个规则对象的推理函数,直到推理结束获得结论;
通过知识的整理形成基础的规则逻辑单元;
针对解析的规则逻辑单元,通过设定的最小元数据支持度和置信度阈值,得到频繁主题项集以及强关联规则;
利用规则的置信度高低来判断各个主题之间的亲疏远近;
构建主题业务逻辑规则为业务人员搭建文本描述的业务逻辑与数据库的桥梁,结合可视化交互设计实现规则开发的低代码自动化。
根据上述技术方案,所述对生成医疗事实库的消息数据解析的步骤,包括:
解析分类的规则支持自定义配置,配置要素;
根据以人为维度的医疗事件消息存储模型运行个人引擎计算规则,形成医疗健康事件消息,通过分发机制分发给各级需要数据人员。
根据上述技术方案,所述基于个人医疗健康事件驱动的应用分发或者数据协同的步骤,包括:
通过基于规则推理建立完成的规则模型,将医疗健康事件消息内容采用消息推送push方式,终端只需要和推送服务器之间保持一个长连接即可,终端用于推送的socket连接数量就与需要推送服务的应用数量无关,只需要维持一个终端与推送服务器之间的长连接即可,所有应用的服务端都是直接连接推送服务器并通过推送服务器来把消息推送到终端,而终端也只与推送服务器进行连接即可获得推送的通知消息。
根据上述技术方案,所述将引擎算法生成的结果数据,推送至目标应用或管理人员的步骤,包括:
结果数据通过消息推送、接口服务、短信等多种技术形式推送至目标应用系统或业务场景,触发个人健康事件管理或处理业务,针对触发的个人健康事件驱动目标应用系统,通过注册到统一的卫生数据交换平台,实现医疗事件数据的共享交换,医疗事件触发的目标应用系统产生的医疗数据又通过采集平台完成数据采集,并形成新的个人健康事件,将即时归集的数据,通过个人健康数据引擎完成医疗事件的实时、精准触发。
根据上述技术方案,一种基于区域大数据的健康数据治理系统包括:
健康数据智能分析模块,用于针对健康数据载入关联、数据治理以及医疗健康规则进行智能设置和分析传输;
医疗业务模型计算输出模块,用于根据制定的规则对引擎挂载的数据进行实时处理,输出以个人为主体的健康或医疗事件信息,并推送至指定目标系统或管理人员。
与现有技术相比,本发明所达到的有益效果是:本发明,通过设置有健康数据智能分析模块和医疗业务模型计算输出模块,将医疗文本数据进行后结构化分析,并使用非关系型存储为底层建立强大的健康数据引擎库,可实时实现健康数据载入、数据关联、数据处理和治理等功能,并通过可视化医疗健康规则设置即时实现医疗健康事件输出,将健康事件实时传送至对应的应用场景或相关业务系统或相关管理部门,实现数据自动、高效的流通,高效的实现数据一入库就自动按照健康事件规则筛选患者进入管控范围,保障相关业务系统即时掌握应该需要掌握的个人健康信息,为进一步推动数据及时利用发挥重要作用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一提供的一种基于区域大数据的健康数据治理方法的流程图;
图2为本发明实施例二提供的一种基于区域大数据的健康数据治理系统的模块组成示意图;
图3为本发明实施例一提供的个人健康数据引擎体系架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
图1为本发明实施例一提供的一种基于区域大数据的健康数据治理方法的流程图,本实施例可应用健康数据治理的场景,该方法可以由本实施例提供的一种基于区域大数据的健康数据治理系统来执行,如图1所示,该方法具体包括以下步骤:
步骤一:将系统中大数据中心每天汇聚的海量数据进行挂载处理;
在本发明实施例中,建立分布式引擎数据库,以国家、省、市级卫健委发布的相关诊疗规范为依据,对数据中心归集的实时数据进行数据关联、数据分析利用,实时将处理后数据进行数据入库处理,数据入库后自动按照健康事件规则筛选患者进入管控范围,采集系统中实时上传至数据中心的海量数据,通过数据归集任务监测程序,将个人健康引擎所需的数据同步、自动挂载进来,通过引擎提供的“以个人为单位的医疗健康数据”的数据挂载服务将数据抽取后推送给引擎,数据挂载到引擎上后进一步通过引擎触发个人医疗健康事件;
示例性的,分析个人健康领域的业务逻辑,数据挂载服务通过数据中心提供以个人为单位的医疗健康数据集,该数据集主要包含如下维度:
维度1:包括患者身份信息、年龄、住址的个人基本信息;
维度2:包括挂号、门诊病历、处方记录及明细、门诊费用结算、门诊检查检验报告、门诊体格检查的个人门诊/急诊相关信息;
维度3:包括病案首页、住院检查检验报告、住院医嘱、出院小结的个人住院相关信息;
维度4:包括体检报告记录、体检异常摘要信息的个人体检相关信息。
步骤二:对挂载的引擎数据进行智能化治理;
在本发明实施例中,通过数据挂载服务获取的各市级、区级医疗卫生机构和其他非医疗业务系统的原始数据,需经过数据智能化的治理后才能被引擎系统上的规则识别利用,以个人健康服务为目对数据进行完整性、标准化处理,对文本化数据进行后结构化处置,对医疗业务数据内容进行智能化挖掘,实现数据完整性和数据质量的提升,因此对挂载到引擎的数据进行智能化的治理;
示例性的,进行智能化数据治理的主要方法内容包括:医学术语的标准化处理,数据中心汇聚市属医院、社区等多家卫生服务中心、职业病防治院等相关医疗卫生健康数据,各家医院对结构化数据如症状描述、检查检验结果等字段命名有不同的描述,区域医疗健康数据的标准化、共享化是最大化医疗信息资源价值的主要点,因此为了对数据进行标准化处理,采用自然语言处理NLP中的实体归一化算法,参照医学术语规范,将病历中症状、体征、疾病、操作以及特征数据如持续时间、阴阳性、疾病的诊断等进行细化提取,并采用字符串编辑距离算法对提取的数据进行标准术语转换处理,可实现包括全词匹配、组分对齐、编码版本对齐等功能,同时保证了对知识的高可扩展性,整理药品、诊断、手术、检查、检验等归一术语表,如将药品归一到药监局国药准字、诊断和手术归一到ICD-10编码上,实现医学术语的对齐,同时使用先检索再重排的归一化策略,并引入细粒度特征做模型融合;
示例性的,将数据转换为HL7、ICD-10的国际标准,软件数据字典遵循国家数据字典、省部委数据字典、地区和用户数据字典规范,将处理的数据存储于分布式引擎数据库中形成结构化的数据,高效利用临床诊疗知识库,结合大数据中心的现有症状数据,将同一区域内指定周期下产生的所有不同症状的数据利用算法处理,生成符合标准化的有效症状数据,可以有效的支撑疾病症状监测预警的业务场景;同步将同一区域内指定周期下产生的检查检验项目数据,利用算法处理后生成符合标准化检查检验项目的项目数据;
在本发明实施例中,进一步进行医疗实体识别,由于医疗业务数据包含海量的文本段落,如病案首页、体格检查/专科检查,辅助检查/医技报告,既往史,入院出院记录,病程记录等多种文本类型数据等,业务规则大部分都藏在病程、入院录等文本段落中,如何快速、准确挖掘从海量的医学文本数据中挖掘出有价值的医学信息是大数据利用的关键,且在制定逻辑规则之前需要先对文本段落进行智能分析,形成逻辑规则所需的字段,才能进行后续处理;
示例性的,因此对文本类型数据,由于其中存在多嵌套复杂结构文本,采用基于BERT的边界增强神经网络分类算法,从文本数据中提取医疗实体,对医疗实体进行数据应用,通过将原始病历处理为以章节为单位、字段命名统一的标准病历形式,对篇章级、段落级、语句级文本进行多尺度拆解,实现关键字段和对应文本的实时抽取,并将抽取的数据存储于分布式引擎数据库中,通过医疗实体识别算法处理,从多条检查所见数据中提取出“斑块、阴影、房颤、血压异常”等阳性症状,可有效的支持面向慢病人群疾病的分析,实体识别处理,能准确的识别医学文本中的嵌套实体,极大的提高了数据利用深度和数据处理的精准度,为医疗事件推送打下基础。
步骤三:根据医疗业务需要和业务逻辑制订相应的引擎规则,由事实数据驱动,通过不断地遵循引擎规则分析得出数据结论;
在本发明实施例中,引擎规则制订的方法为:通过可视化界面进行引擎规则的自由定制,满足医务人员或管理部门自定义制订的需要,解决依赖程序开发人员规则代码编写才可获取业务结果的问题,采用基于知识的规则推理,解析数据表格、知识文本中的规则信息,以分布式引擎数据库为基础,建立事实数据库和规则库,并将规则对象构成动态链表,形成规则逻辑单元,具体处理步骤如下:
步骤a:根据数据治理后的基础数据,定义条件事实类,作为输入对象;
步骤b:将规则和推理关系定义成规则类,每一条规则都是根据规则库中的一个记录生成的规则类对象,把这些规则对象构建成动态链表形成规则链;
步骤c:根据基本事实的每条记录生成一个基本事实对象,再把这些对象建立成动态链表;
示例性的,规则1:如果是男性,年龄大于50,则纳入中老年男性人群;规则2:如果纳入了中老年男性人群,并且血压大于140,则纳入高血压高危人群;规则3:如果纳入了中老年男性人群,并且血糖大于一定指数,则纳入糖尿病高危人群,根据以上的规则建立包括事实编号和对应事实内容的事实库,以及包含规则编号、条件事实、条件事实、条件事实、条件事实和结论的规则库,例如:事实编号为SS1对应的事实内容为男性,事实编号为SS2对应的事实内容为年龄大于50,事实编号为SS3对应的事实内容为中老年男性人群,事实编号为SS4对应的事实内容为血压大于140,事实编号为SS5对应的事实内容为高血压高危人群,事实编号为SS6对应的事实内容为血糖大于一定指数,事实编号为SS7对应的事实内容为糖尿病高危人群;例如:规则编号为1、条件事实为SS1、条件事实为SS2、结论为SS3,规则编号为2、条件事实为SS3、条件事实为SS4、结论为SS5,规则编号为3、条件事实为SS3、条件事实为SS6、结论为SS7;
示例性的,每次规则推理,都会依次调用规则链中每个规则对象的推理函数,直到推理结束,获得结论,而该部分的事实和规则建立,来源于数据表格及医疗知识文本,通过知识的整理形成基础的规则逻辑单元,针对解析的规则逻辑单元,通过设定的最小元数据支持度和置信度阈值,得到频繁主题项集以及强关联规则,其中置信度的设定没有具体的算法,根据经验设定初始值再通过不断的实验,结合实验结果对阈值调整,将挖掘出的频繁项集和规则数量在一定程度上影响着阈值,一般置信度阈值要大于支持度阈值,并根据频繁项集和规则的多少适当升降阈值,以达到预期结果;
在本发明实施例中,挖掘出的规则以A→B表示,A是前因,B是后果,其内容都是元数据子句见的关系图谱,A和B以组合形式出现在诊疗记录和其他健康行为的概率越大,即支持度越高,则代表该组合在整体样本中可视为频繁模式,也就是用户所热点关注的信息,此时A和B可作为相关主题在推送过程中同时得到重视,在规则A→B中,A出现的前提下也出现的概率即置信度,当置信度高于所设定的临界值时,该规则称为强规则,说明A主题的出现对于B主题出现有着较为强烈地影响作用,可对A和B进行捆绑式推送,同时利用规则的置信度高低来判断各个主题之间的亲疏远近,从而构建主题业务逻辑规则,该方法将为业务人员搭建文本描述的业务逻辑与数据库的桥梁,结合可视化交互设计可实现规则开发的低代码自动化,提高工作效率。
步骤四:基于治理后的数据通过配置的规则处置后,生成一系列医疗事实库的消息数据,对这些消息数据解析分类并存储形成以人为维度的医疗健康事件消息;
在本发明实施例中,解析分类的规则支持自定义配置,配置要素包括“就诊类型、医疗类型、医疗项目、正常值域范围、单位、异常处置系统代码、规则生效起止时间”的信息;以人为维度的医疗事件消息存储模型如下:
患者A:
就诊事件1:门诊,2022年1月1日,就诊医院,诊断,症状,处方;
就诊事件2:住院,2022年1月2日,就诊医院,诊断,症状,处方、检验、检查;根据该存储模型运行个人引擎计算规则,形成医疗健康事件消息,通过分发机制分发给各级需要数据人员。
步骤五:基于个人医疗健康事件驱动的应用分发或者数据协同;
在本发明实施例中,通过基于规则推理建立完成的规则模型,将医疗健康事件消息内容采用消息推送push方式,终端只需要和推送服务器之间保持一个长连接即可,终端用于推送的socket连接数量就与需要推送服务的应用数量无关,只需要维持一个终端与推送服务器之间的长连接即可,所有应用的服务端都是直接连接推送服务器并通过推送服务器来把消息推送到终端,而终端也只与推送服务器进行连接即可获得推送的通知消息,实现比较高的实时性;
示例性的,实现相关数据驱动事件管理包括:
事件a:针对疾病症状的监测,监测来源于住院出院记录、住院入院记录、门诊/急诊病历记录、门诊/急诊挂号登记、基本信息、病历概要-患者基本信息在内的相关数据,为区域提供疾病及相关症状的监测;
事件b:针对合理用药的监测,监测重复用药情况,在同时间范围内多次用药进行预警,为管理人员提供用药监测;
事件c:针对传染病的监测,用户在医院确诊传染病的信息触发后,根据配置的规则,能够自动将“该用户确认了传染病”的数据封装通知疾控中心,疾控中心根据传染病的消息分配流调等级和流调任务。
步骤六:根据目标应用系统或应用场景定义的业务规则,对引擎数据库中的数据进行分析,将引擎算法生成的结果数据,推送至目标应用或管理人员。
示例性的,结果数据通过消息推送、接口服务、短信等多种技术形式推送至目标应用系统或业务场景,触发个人健康事件管理或处理业务,针对触发的个人健康事件驱动目标应用系统,通过注册到统一的卫生数据交换平台,实现医疗事件数据的共享交换,医疗事件触发的目标应用系统产生的医疗数据又通过采集平台完成数据采集,并形成新的个人健康事件,将即时归集的数据,通过个人健康数据引擎完成医疗事件的实时、精准触发,极大的提高了医疗处置事件的时效性,对比传统业务主题库定期处理数据在性能时效性上有极大的优势,通过个人健康数据引擎计算结果能够以各种形式进行输出到各个终端,包含引擎医疗消息、消息涉及到的具体医疗数据,并形成医疗引擎消息标准,各个获取终端根据预设规则对正在发生的医疗健康事件进行智能化调度与处置。
实施例二:
本发明实施例二提供了一种基于区域大数据的健康数据治理系统,图2为本发明实施例二提供的一种基于区域大数据的健康数据治理系统的模块组成示意图,如图2所示,该系统包括:
健康数据智能分析模块,用于针对健康数据载入关联、数据治理以及医疗健康规则进行智能设置和分析传输;
医疗业务模型计算输出模块,用于根据制定的规则对引擎挂载的数据进行实时处理,输出以个人为主体的健康或医疗事件信息,并推送至指定目标系统或管理人员。
在本发明的一些实施例中,健康数据智能分析模块包括:
引擎规则配置模块,用于医务人员或管理部门通过可视化界面,根据医疗业务需要和业务逻辑自定义制订相应的引擎规则;
数据逻辑关系配置模块,用于建立事实数据库和规则库,并将规则对象构成动态链表,形成规则逻辑单元;
业务驱动规则设定模块,用于设定业务的驱动规则实现数据自动推送至目标业务系统或管理系统和管理部门。
在本发明的一些实施例中,医疗业务模型计算输出模块包括:
健康数据治理模块,用于对数据中心实时上传的医疗健康多维度数据进行即时治理和利用;
即时数据驱动模块,用于对数据中心归集的实时数据进行数据关联、数据分析等利用;
引擎数据库构建模块,用于建立分布式引擎数据库,将实时处理后的数据入库;
健康业务规则自定义模块,用于分析个人健康领域的业务逻辑,根据多维健康数据自定义实现各种健康规则的配置;
引擎算法实现模块,用于根据配置的健康规则实现具体的业务逻辑算法;
个人健康事件触发模块,用于触发个人健康事件管理或处理业务。
在本发明的一些实施例中,健康数据治理模块包括:
医学术语标准化处理模块,用于采用自然语言处理NLP中的实体归一化算法对数据进行标准化处理;
医疗实体识别模块,用于采用基于BERT的边界增强神经网络分类算法,识别医学文本中的嵌套实体;
在本发明的一些实施例中,健康业务规则自定义模块包括:
引擎规则可视化制订模块,用于通过可视化界面实现引擎规则的自由定制;
引擎规则生效模块,用于采用基于知识的规则推理解析数据表格、知识文本中的规则信息,保证设置的引擎规则生效;
在本发明的一些实施例中,个人健康事件触发模块包括:
健康事件消息产生模块,用于对生成的医疗事实库的消息数据解析分类并存储形成以人为维度的医疗健康事件消息;
应用分发及数据协同模块,用于通过基于规则推理建立完成的规则模型,基于个人医疗健康事件驱动应用分发或者数据协同。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于区域大数据的健康数据治理方法,其特征在于:所述该方法包括以下步骤:
步骤一:将系统中大数据中心每天汇聚的海量数据进行挂载处理;
步骤二:对挂载的引擎数据进行智能化治理;
步骤三:根据医疗业务需要和业务逻辑制订相应的引擎规则,由事实数据驱动,通过不断地遵循引擎规则分析得出数据结论;
步骤四:基于治理后的数据通过配置的规则处置后,生成一系列医疗事实库的消息数据,对这些消息数据解析分类并存储形成以人为维度的医疗健康事件消息;
步骤五:基于个人医疗健康事件驱动的应用分发或者数据协同;
步骤六:根据目标应用系统或应用场景定义的业务规则,对引擎数据库中的数据进行分析,将引擎算法生成的结果数据,推送至目标应用或管理人员。
2.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述对海量数据进行挂载处理的步骤,包括:
采集系统中实时上传至数据中心的海量数据,通过数据归集任务监测程序,将个人健康引擎所需的数据同步、自动挂载进来。
3.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述对挂载的引擎数据进行智能化治理的步骤,包括:
采用自然语言处理NLP中的实体归一化算法,参照医学术语规范,将病历中症状、体征、疾病、操作以及特征数据如持续时间、阴阳性、疾病的诊断等进行细化提取,并采用字符串编辑距离算法对提取的数据进行标准术语转换处理,实现包括全词匹配、组分对齐、编码版本对齐的功能;
将药品归一到药监局国药准字、诊断和手术归一到ICD-10编码上,实现医学术语的对齐,同时使用先检索再重排的归一化策略,并引入细粒度特征做模型融合;
将数据转换为HL7、ICD-10的国际标准,软件数据字典遵循国家数据字典、省部委数据字典、地区和用户数据字典规范,将处理的数据存储于分布式引擎数据库中形成结构化的数据。
4.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述对挂载的引擎数据进行智能化治理的步骤,还包括:
进行医疗实体识别;采用基于BERT的边界增强神经网络分类算法,从文本数据中提取医疗实体,对医疗实体进行数据应用,通过将原始病历处理为以章节为单位、字段命名统一的标准病历形式,对篇章级、段落级、语句级文本进行多尺度拆解,实现关键字段和对应文本的实时抽取,并将抽取的数据存储于分布式引擎数据库中,通过医疗实体识别算法处理,从多条检查所见数据中提取出“斑块、阴影、房颤、血压异常”的阳性症状。
5.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述根据医疗业务需要和业务逻辑制订相应的引擎规则的步骤,包括:
通过可视化界面进行引擎规则的自由定制;
采用基于知识的规则推理,解析数据表格、知识文本中的规则信息;
以分布式引擎数据库为基础,建立事实数据库和规则库,并将规则对象构成动态链表,形成规则逻辑单元。
6.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述通过不断地遵循引擎规则分析得出数据结论的步骤,包括:
每次规则推理都会依次调用规则链中每个规则对象的推理函数,直到推理结束获得结论;
通过知识的整理形成基础的规则逻辑单元;
针对解析的规则逻辑单元,通过设定的最小元数据支持度和置信度阈值,得到频繁主题项集以及强关联规则;
利用规则的置信度高低来判断各个主题之间的亲疏远近;
构建主题业务逻辑规则为业务人员搭建文本描述的业务逻辑与数据库的桥梁,结合可视化交互设计实现规则开发的低代码自动化。
7.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述对生成医疗事实库的消息数据解析的步骤,包括:
解析分类的规则支持自定义配置,配置要素;
根据以人为维度的医疗事件消息存储模型运行个人引擎计算规则,形成医疗健康事件消息,通过分发机制分发给各级需要数据人员。
8.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述基于个人医疗健康事件驱动的应用分发或者数据协同的步骤,包括:
通过基于规则推理建立完成的规则模型,将医疗健康事件消息内容采用消息推送push方式,终端只需要和推送服务器之间保持一个长连接即可,终端用于推送的socket连接数量就与需要推送服务的应用数量无关,只需要维持一个终端与推送服务器之间的长连接即可,所有应用的服务端都是直接连接推送服务器并通过推送服务器来把消息推送到终端,而终端也只与推送服务器进行连接即可获得推送的通知消息。
9.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述将引擎算法生成的结果数据,推送至目标应用或管理人员的步骤,包括:
结果数据通过消息推送、接口服务、短信等多种技术形式推送至目标应用系统或业务场景,触发个人健康事件管理或处理业务,针对触发的个人健康事件驱动目标应用系统,通过注册到统一的卫生数据交换平台,实现医疗事件数据的共享交换,医疗事件触发的目标应用系统产生的医疗数据又通过采集平台完成数据采集,并形成新的个人健康事件,将即时归集的数据,通过个人健康数据引擎完成医疗事件的实时、精准触发。
10.一种基于区域大数据的健康数据治理系统,其特征在于:所述该系统包括:
健康数据智能分析模块,用于针对健康数据载入关联、数据治理以及医疗健康规则进行智能设置和分析传输;
医疗业务模型计算输出模块,用于根据制定的规则对引擎挂载的数据进行实时处理,输出以个人为主体的健康或医疗事件信息,并推送至指定目标系统或管理人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271040.9A CN116453637B (zh) | 2023-03-20 | 2023-03-20 | 一种基于区域大数据的健康数据治理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271040.9A CN116453637B (zh) | 2023-03-20 | 2023-03-20 | 一种基于区域大数据的健康数据治理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116453637A true CN116453637A (zh) | 2023-07-18 |
CN116453637B CN116453637B (zh) | 2023-11-07 |
Family
ID=87122945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310271040.9A Active CN116453637B (zh) | 2023-03-20 | 2023-03-20 | 一种基于区域大数据的健康数据治理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453637B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011116340A2 (en) * | 2010-03-18 | 2011-09-22 | Oregon Health & Science University | Context-management framework for telemedicine |
US20120046972A1 (en) * | 2009-04-30 | 2012-02-23 | Amid S.R.L. | Method and system for managing and displaying medical data |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
CN106909783A (zh) * | 2017-02-24 | 2017-06-30 | 北京交通大学 | 一种基于时间线的病历文本医学知识发现方法 |
CN110289058A (zh) * | 2019-06-06 | 2019-09-27 | 北京市天元网络技术股份有限公司 | 一种电子病历规范化匹配方法以及装置 |
CN110729028A (zh) * | 2019-10-15 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 一种健康数据处理方法、装置、电子设备及存储介质 |
CN111125061A (zh) * | 2019-12-18 | 2020-05-08 | 甘肃省卫生健康统计信息中心(西北人口信息中心) | 一种规范和促进健康医疗大数据的方法 |
CN111161815A (zh) * | 2019-12-27 | 2020-05-15 | 深圳中兴网信科技有限公司 | 医疗数据检测方法、装置、终端和计算机可读存储介质 |
US20200342056A1 (en) * | 2019-04-26 | 2020-10-29 | Tencent America LLC | Method and apparatus for natural language processing of medical text in chinese |
US20200411146A1 (en) * | 2018-08-06 | 2020-12-31 | Mirr Llc | Ehr database indexing and data retrieval |
CN112506405A (zh) * | 2020-12-03 | 2021-03-16 | 浪潮云信息技术股份公司 | 一种基于互联网监管领域的人工智能语音大屏指挥方法 |
CN112635007A (zh) * | 2020-12-21 | 2021-04-09 | 山东众阳健康科技集团有限公司 | 一种以病人为中心的医院一体化方法及系统 |
CN112685400A (zh) * | 2021-01-22 | 2021-04-20 | 浪潮云信息技术股份公司 | 基于sdk规则引擎进行健康医疗数据质量检测的方法及系统 |
CN112992370A (zh) * | 2021-05-06 | 2021-06-18 | 四川大学华西医院 | 一种无监督的基于电子病历的医疗行为合规性评估方法 |
CN113035308A (zh) * | 2021-04-19 | 2021-06-25 | 上海智赢健康科技有限公司 | 电子健康档案的质量评价方法和系统 |
CN113204942A (zh) * | 2021-04-16 | 2021-08-03 | 中译语通科技股份有限公司 | 病案编码方法、装置、终端设备及可读存储介质 |
CN113360530A (zh) * | 2021-06-07 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种事件筛选器系统 |
WO2022166859A1 (zh) * | 2021-02-07 | 2022-08-11 | 无锡慧方科技有限公司 | 一种医疗数据治理系统 |
-
2023
- 2023-03-20 CN CN202310271040.9A patent/CN116453637B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120046972A1 (en) * | 2009-04-30 | 2012-02-23 | Amid S.R.L. | Method and system for managing and displaying medical data |
WO2011116340A2 (en) * | 2010-03-18 | 2011-09-22 | Oregon Health & Science University | Context-management framework for telemedicine |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
CN106909783A (zh) * | 2017-02-24 | 2017-06-30 | 北京交通大学 | 一种基于时间线的病历文本医学知识发现方法 |
US20200411146A1 (en) * | 2018-08-06 | 2020-12-31 | Mirr Llc | Ehr database indexing and data retrieval |
US20200342056A1 (en) * | 2019-04-26 | 2020-10-29 | Tencent America LLC | Method and apparatus for natural language processing of medical text in chinese |
CN110289058A (zh) * | 2019-06-06 | 2019-09-27 | 北京市天元网络技术股份有限公司 | 一种电子病历规范化匹配方法以及装置 |
CN110729028A (zh) * | 2019-10-15 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 一种健康数据处理方法、装置、电子设备及存储介质 |
CN111125061A (zh) * | 2019-12-18 | 2020-05-08 | 甘肃省卫生健康统计信息中心(西北人口信息中心) | 一种规范和促进健康医疗大数据的方法 |
CN111161815A (zh) * | 2019-12-27 | 2020-05-15 | 深圳中兴网信科技有限公司 | 医疗数据检测方法、装置、终端和计算机可读存储介质 |
CN112506405A (zh) * | 2020-12-03 | 2021-03-16 | 浪潮云信息技术股份公司 | 一种基于互联网监管领域的人工智能语音大屏指挥方法 |
CN112635007A (zh) * | 2020-12-21 | 2021-04-09 | 山东众阳健康科技集团有限公司 | 一种以病人为中心的医院一体化方法及系统 |
CN112685400A (zh) * | 2021-01-22 | 2021-04-20 | 浪潮云信息技术股份公司 | 基于sdk规则引擎进行健康医疗数据质量检测的方法及系统 |
WO2022166859A1 (zh) * | 2021-02-07 | 2022-08-11 | 无锡慧方科技有限公司 | 一种医疗数据治理系统 |
CN113204942A (zh) * | 2021-04-16 | 2021-08-03 | 中译语通科技股份有限公司 | 病案编码方法、装置、终端设备及可读存储介质 |
CN113035308A (zh) * | 2021-04-19 | 2021-06-25 | 上海智赢健康科技有限公司 | 电子健康档案的质量评价方法和系统 |
CN112992370A (zh) * | 2021-05-06 | 2021-06-18 | 四川大学华西医院 | 一种无监督的基于电子病历的医疗行为合规性评估方法 |
CN113360530A (zh) * | 2021-06-07 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种事件筛选器系统 |
Non-Patent Citations (3)
Title |
---|
刘浏;王东波;: "命名实体识别研究综述", 情报学报, no. 03, pages 103 - 114 * |
常朝娣;陈敏;: "大数据时代医疗健康数据治理方法研究", 中国数字医学, no. 09, pages 7 - 10 * |
郑经纬: "基于数据挖掘的医疗分析系统研究", 中国优秀硕士学位论文全文数据库 (医药卫生科技辑), no. 01, pages 054 - 182 * |
Also Published As
Publication number | Publication date |
---|---|
CN116453637B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10818397B2 (en) | Clinical content analytics engine | |
CN111863267B (zh) | 数据信息获取方法、数据分析方法、装置以及存储介质 | |
CN111125061A (zh) | 一种规范和促进健康医疗大数据的方法 | |
US20230031792A1 (en) | Design Method of Oncological Computerized Physician Order Entry System with Intelligent Clinical Decision Recommendation Function | |
Duftschmid et al. | Extraction of standardized archetyped data from Electronic Health Record systems based on the Entity-Attribute-Value Model | |
CN110457425B (zh) | 一种案例存储方法、装置、设备及存储介质 | |
CN105095653A (zh) | 医疗大数据应用基础服务系统 | |
CN111552734A (zh) | 用户画像的生成方法及装置、计算机设备、存储介质 | |
CA2533224A1 (en) | Method for computerizing and standardizing medical information | |
CN109785927A (zh) | 基于互联网一体化医疗平台的临床文档结构化处理方法 | |
JP2018170004A (ja) | 新規患者の挙動を予測するためのシステムおよび方法 | |
CN111081329A (zh) | 临床数据自动录入方法及装置、电子设备、存储介质 | |
CN114649074A (zh) | 一种病历数据处理方法、平台和装置 | |
CN113094477B (zh) | 数据结构化方法、装置、计算机设备及存储介质 | |
CN111383726A (zh) | 电子病历数据处理方法、装置、电子设备及可读介质 | |
CN115938608A (zh) | 一种基于提示学习模型的临床决策预警的方法和系统 | |
Hazlehurst et al. | CER Hub: An informatics platform for conducting comparative effectiveness research using multi-institutional, heterogeneous, electronic clinical data | |
CN116453637B (zh) | 一种基于区域大数据的健康数据治理方法和系统 | |
KR20080042256A (ko) | 약물부작용감시 시스템 | |
CN116978526A (zh) | 指标库生成方法、装置、计算机设备和存储介质 | |
Hu | Research on monitoring system of daily statistical indexes through big data | |
Shakah | Modeling of Healthcare Monitoring System of Smart Cities | |
CN116779184A (zh) | 疫苗安全性准实时监测的方法、系统及设备和存储介质 | |
Neto et al. | Disease surveillance big data platform for large scale event processing | |
Swain et al. | Analysis of barriers of mHealth adoption in the context of sustainable operational practices in health care supply chains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |