CN111627552B - 一种医疗流式数据血缘关系分析、存储方法及装置 - Google Patents

一种医疗流式数据血缘关系分析、存储方法及装置 Download PDF

Info

Publication number
CN111627552B
CN111627552B CN202010277609.9A CN202010277609A CN111627552B CN 111627552 B CN111627552 B CN 111627552B CN 202010277609 A CN202010277609 A CN 202010277609A CN 111627552 B CN111627552 B CN 111627552B
Authority
CN
China
Prior art keywords
blood
data
streaming data
medical
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010277609.9A
Other languages
English (en)
Other versions
CN111627552A (zh
Inventor
唐文亮
郭涛
宋渴可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN GREATWALL MEDITECH CO Ltd
Original Assignee
HUNAN GREATWALL MEDITECH CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN GREATWALL MEDITECH CO Ltd filed Critical HUNAN GREATWALL MEDITECH CO Ltd
Priority to CN202010277609.9A priority Critical patent/CN111627552B/zh
Publication of CN111627552A publication Critical patent/CN111627552A/zh
Application granted granted Critical
Publication of CN111627552B publication Critical patent/CN111627552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提出了一种医疗流式数据血缘关系分析、存储方法及装置,所述血缘关系分析方法为:针对标准处理化后的医疗流式数据,进行语义分析,解析其中的业务字段作为目标字段;再迭代拆分解析目标字段的血缘关系,得到与之对应的表依赖关系和字段依赖关系;最后将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将血缘关系模型存储到血缘库。基于自学习过程,利用标准库存储的数据验证血缘库中血缘关系模型的正确性,并及时更新血缘关系模型。本发明能够正确分析出医疗流式数据之间的血缘关系,并基于血缘关系自动完成大批量医疗流式数据的结构化存储。

Description

一种医疗流式数据血缘关系分析、存储方法及装置
技术领域
本发明涉及到一种医疗流式数据血缘关系分析、存储方法及装置。
背景技术
早期,医疗数据以医院内部HIS(医院信息系统)、PACS(医学影像存档与 通讯系统)、LIS(实验室信息管理系统)三大系统的数据为核心,随着互联互 通的深入,医院的应用系统越来越多,日产生的数据量成指数级上升,数据关系 的复杂度也在不断上升,医疗数据采集面临着以下几类问题:医疗数据结构复杂, 海量、散落在不同的信息系统、医疗数据分析方法不完善、缺乏统一的数据模型。 同时,医疗监管部门对医院数据的监控、分析、决策的需求也在不断变化,业务标准也在不断的演进,对数据实时性、准确性要求越来越高,通过“定期ETL 抽取N+1天的结构化数据再加工存储的方式”已经满足不了医疗监管业务的需 要。为了解决数据及时性的问题,流式数据(流数据,又可被称为实时数据)上报系统可以快速地统计上报数据,并计算监管指标。但是,针对流式数据的关联 关系建模和流式数据的标准化(结构化)保存过程,存在非常大的处理难度。比 如,数据标准的变化,数据建模过程是否能快速的调整;医院业务系统的流式数 据到达存储系统,存在时间上的差异,需要一套完善的架构保障数据的一致性和 完整性;医疗异构系统的流式数据之间的关联关系种类繁多,且存在较多不确定 性,全部依靠人工分析几乎无法完成。流式数据是一套有顺序、快速、量大、连 续到达的数据序列,通常情况下,流式数据是可以被视为随时间延续而无限递增的一个动态数据集合,医疗业务(包括门急诊、检查检验、住院、缴费等业务) 的有序性和流式数据到达的无序性会导致想要流式数据与其他数据进行直接建 立血缘关系变得非常复杂和困难。而在现有系统中,往往为了满足业务要求,经 常会将多张表或临时表、中间表进行关联生成一张表,当业务表数据出现问题需 要对数据进行追根溯源或者需要通过数据的血缘关系智能生成业务数据时,数据间的血缘关系就显得格外的重要。
因此,有必要针对上述问题,提供一种新的医疗流式数据的血缘关系分析和 存储方法。
发明内容
针对现有技术存在的问题,本发明提出了一种医疗流式数据血缘关系分析、 存储方法及装置,能够正确分析出医疗流式数据之间的血缘关系,并基于血缘关 系自动完成大批量医疗流式数据的结构化存储。
本发明所提供的技术方案为:
一方面,提供一种医疗流式数据血缘关系分析方法,包括以下步骤:
第一步、针对标准化处理后的医疗流式数据进行语义分析,解析其中的业务 字段,将业务字段作为目标字段;
第二步、依据标准化处理后的医疗流式数据中包含的逻辑关系迭代拆分解析 目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关系;
第三步、将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将 血缘关系模型存储到血缘库。
另一方面,提供一种医疗流式数据存储方法,其特征在于,包括以下步骤:
步骤1、对采集到的医疗流式数据进行标准化处理;
步骤2、在血缘库中的血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中;其中血缘关系模型是指根据上述医疗流式数据血缘关系分析方法获得的 血缘关系模型。
进一步地,医疗流式数据的采集过程为:
Spark Streaming中的Job程序启动时,首先会初始化获取血缘关系模型,通 过Spark广播机制将血缘关系模型分发至各采集医疗流式数据的服务器节点,通 过广播机制有效防止了数据的冗余,提高了医疗流式数据的处理性能;
医疗流式数据的采集通过分布式、多线程应用程序设计并发作业,通过哈希 取模算法Hash(Field)%N将每条医疗流式数据的采集任务分配至医疗业务系统中 各个采集医疗流式数据的服务器节点,其中Field表示每条医疗流式数据的主键 值,N表示采集医疗流式数据的服务器节点数;每个采集医疗流式数据的服务器 节点,对分配给其的医疗流式数据采集任务,根据血缘关系模型中相应医疗流式数据对应的血缘关系,完成相应医疗流式数据的独立采集;然后,各采集医疗流 式数据的服务器节点把采集完成的医疗流式数据按照相应业务独立的业务逻辑 进行封装,然后发送至消息中间件Kafka集群中,最后由SparkStreaming从Kafka 集群中获取医疗流式数据。
进一步地,Spark Streaming每接获取一条医疗流式数据,就会对其进行标准 化处理,然后依据血缘关系模型中该医疗流式数据对应的血缘关系,对该医疗流 式数据进行血缘关系溯源,解析出该医疗流式数据整体的血缘关系;
Spark Streaming解析完医疗流式数据整体的血缘关系后,针对当前的医疗流 式数据,基于其整体的血缘关系自动匹配属于其的家族数据,得到一条完整的数 据脉,最后进行数据的持久化,即按以下两种情况递归判断血缘关系并进行结构 化存储,以保证数据的一致性和完整性:
情况一、父表的数据到达,则将相应数据存入标准库,并触发通知子表进行 存储动作,子表依次递归将相应数据从缓存库取出存储到标准库中;
情况二、子表的数据到达,依据血缘库血缘关系模型中的表依赖关系,在标 准库查看是否存在相应的上一级父表数据,若不存在则将数据暂存至缓存库备查; 若存在,则触发通知上一级父表查询是否存在更上一级父表数据,直至root节 点,如果已通知至root节点查询,则触发情况一执行。
进一步地,当新的一批数据到来后,启动自学习过程,具体地:
对于标准库中的数据,根据医疗业务数据的自身特点,提取每个数据的特征, 构建它们的特征向量,分别记为xi,i=1,2,…,n;
将标准库中的数据分为不同的类别(组别),在相同的类别中的数据对应的 特征向量之间的距离应该都很近(即它们的相似度很高),相似度越高的数据其 血缘关系匹配度越高。通过K-means聚类算法,将标准库中的数据分为k个类别, 这k个类别的中心记为μj,j=1,2,…,k;设经过聚类之后特征向量为xi的数据所属 的类别为ti,ti∈{1,2,…,k},K-means聚类算法即通过迭代找寻最佳的分类结果 ti,i=1,2,…,n,使损失函数L值最小,损失函数L定义为:
Figure SMS_1
将当前最佳的分类结果对应的L值记录在血缘库中;并计算当前最佳的分类 结果对应的L值与血缘库上一次记录的L值的差值。若差值高于特定值,说明数据模型修改较大,血缘库中血缘关系模型的正确性不够高,则按照上述的医疗流式 数据血缘关系分析方法更新血缘库中的血缘关系模型。
另一方面,提供一种医疗流式数据血缘关系分析装置,包括以下模块:
语义分析模块,用于针对标准化处理后的医疗流式数据进行语义分析,解析 其中的业务字段,将业务字段作为目标字段;
血缘关系解析模块,用于依据标准化处理后的医疗流式数据中包含的逻辑关 系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关 系,并将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
另一方面,提供一种医疗流式数据存储装置,包括以下模块:
标准化处理模块,用于对采集到的医疗流式数据进行标准化处理;
数据存储模块,用于在血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中;其中血缘关系模型是指根据上述的医疗流式数据血缘关系分析装置获得 的血缘关系模型。
另一方面,提供一种电子设备,包括存储器及处理器,所述存储器中存储有 计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述的 医疗流式数据血缘关系分析或存储方法。
另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计 算机程序被处理器执行时实现上述的医疗流式数据血缘关系分析或存储方法。
有益效果:
本发明提出了一种医疗流式数据血缘关系分析方法,针对标准处理化后的医 疗流式数据,进行语义分析,解析其中的业务字段作为目标字段;再迭代拆分解 析目标字段的血缘关系,得到与之对应的表依赖关系和字段依赖关系;最后将拆 解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将血缘关系模型存储 到血缘库。基于自学习过程,利用标准库存储的数据验证血缘库中血缘关系模型的正确性,并及时更新调整血缘关系模型,同时基于血缘关系自动完成大批量医 疗流式数据的结构化存储。本发明具有良好的效果,适用于医疗监管系统应对业 务标准变化和医疗数据类型增多的场景,能够快速、正确地分析出医疗流式数据 之间的血缘关系,并基于血缘关系自动完成大批量医疗流式数据的结构化存储, 极大降低了人工处理工作量,节省了时间,有效地提升了实施医疗流式数据的利 用效率,增强了所保存到的异构系统采集的医疗流式数据的一致性和完整性。
附图说明
图1为本发明实施例中一种医疗流式数据血缘关系分析方法流程图;
图2为本发明实施例中血缘关系模型结构图;
图3为本发明实施例中不同的表依赖关系,其中,图3(a)为一父一子, 图3(b)为一父两子,图3(c)为树形结构;
图4为本发明实施例中一种医疗流式数据存储方法流程图;
图5为本发明实施例中业务数据的持久化处理流程图。
具体实施方式
以下结合附图和具体实施例对本发明进行进一步具体说明。
实施例1:
本实施例提供一种医疗流式数据血缘关系分析方法,包括以下步骤:
第一步、针对标准化处理后的医疗流式数据,根据医疗业务系统的业务数据 模型(业务数据结构)、行业规范、医院数据集成平台标准进行语义分析,解析 其中的业务字段(即有业务意义的字段),例如门急诊业务中的患者诊疗卡号、 就诊时间、挂号费用、诊断标准和诊断结果等;将业务字段作为目标字段;
第二步、依据标准化处理后的医疗流式数据中包含的逻辑关系(即医疗数据 涉及的业务之间直接、间接或者潜在的逻辑关系)迭代拆分解析目标字段的血缘 关系(依赖关系),包括与之对应的表依赖关系(表与表之间的依赖关系)和字 段依赖关系(字段与字段之间的依赖关系);
第三步、将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将 血缘关系模型存储到血缘库。
其中第一步中的医疗流式数据是指各医疗业务系统(指医院内部原有的涉及 医疗数据的所有同构/异构的业务系统,包含但不限于HIS,LIS,PACS等)的医 疗流式数据。
图1为本发明分析医疗流式数据的血缘关系的流程图,图中,第一个方框表 示将各医疗业务系统的数据进行标准化处理后的SQL语句;第二个方框表示通 过对SQL语句进行语义分析后,得到目标字段来源于哪个表;第三个方框表示针对目标字段找到与之对应的表依赖关系和字段依赖关系;第四个方框表示将分 析得的依赖关系存入到血缘库中。
如图2所示,每条医疗流式数据在血缘关系模型中通过三个部分进行描述, 三个部分是指总约束、表依赖关系和字段依赖关系(字段血缘);其中总约束用于描述该医疗流式数据在医疗业务系统中的业务数据模型,在总约束中为医疗流 式数据设置一个主键值,不同的医疗流式数据主键值不同,表依赖关系和字段依 赖关系用于描述该医疗流式数据目标字段的血缘关系。通过构建血缘关系模型, 将医疗业务系统中的业务数据的元数据对应的规范、标准和约定等转换为固定描 述(结构化描述),为医疗流式数据的结构化存储奠定基础。在血缘关系模型中 查询某一条医疗流式数据对应的血缘关系的方法为:首先,根据总约束中设置的该医疗流式数据的主键值,然后,查找该医疗流式数据对应的表依赖关系和字段 依赖关系。在后续医疗流式数据的存储过程中,可以基于医疗流式数据对应的表依赖关系判断是父表的数据到达还是子表的数据到达。
如图3所示,表依赖关系包括以下几种情况:
1)一父一子:如图3(a)所示,表B依赖表A,类似SQL语句:Select*from A leftjoin B on A.id=B.id
2)一父两子:如图3(b)所示,表B和表C都依赖表A,类似SQL语句: Select*from Aleft join B on A.id=B.id left join C on A.xxx=C.xxx
3)树形结构,最顶层的表为父表,称作root节点:如图3(c)所示,表B 和表C都依赖表A表,D依赖表B,类似SQL语句:Select*from A Left join B on A.id=B.id Left joinC on A.xxx=C.xxx Left join D on B.yyy=D.yyyy。
实施例2:
本实施例提供一种医疗流式数据存储方法,如图4所示,包括以下步骤:
步骤1、对采集到的医疗流式数据进行标准化处理;
步骤2、在血缘库中的血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中。
进一步地,医疗流式数据的采集过程为:
Spark Streaming(实时医疗流式数据处理系统)中的Job(作业)程序启动 时,首先会初始化获取血缘关系模型数据,通过Spark广播机制将血缘关系模型 数据分发至各采集医疗流式数据的服务器节点,通过广播机制有效防止了数据的冗余,提高了医疗流式数据的处理性能;
医疗流式数据的采集通过分布式、多线程应用程序设计并发作业,通过哈希 取模算法Hash(Field)%N(Field表示每条医疗流式数据的主键值,N表示采集医 疗流式数据的服务器节点数)将每条医疗流式数据的采集任务分配(映射)至医 疗业务系统中各个采集医疗流式数据的服务器节点;每个采集医疗流式数据的服 务器节点,对分配给其的医疗流式数据采集任务,根据血缘关系模型中相应医疗 流式数据对应的血缘关系,完成相应医疗流式数据的独立采集;然后,各采集医 疗流式数据的服务器节点把采集完成的医疗流式数据按照每项业务独立的业务逻辑进行封装,然后发送至消息中间件Kafka集群中(kafka集群就相当于医疗 流式数据的管道,它保障了医疗流式数据的完整性与稳定性),最后由Spark Streaming从Kafka集群中获取并处理医疗流式数据。
进一步地,Spark Streaming每接收到一条医疗流式数据,就会对其进行标准 化处理,然后依据血缘关系模型中该医疗流式数据对应的血缘关系,对该医疗流 式数据进行血缘关系溯源,解析出该医疗流式数据整体的血缘关系。
Spark Streaming解析完医疗流式数据整体的血缘关系后,会针对当前的医疗 流式数据,通过血缘关系从缓存库中自动匹配属于自己的家族数据,完成一条完 整的数据脉,最后进行数据的持久化,如图5所示,在持久化过程中按以下两种情况递归判断血缘关系并进行结构化存储,以保证数据的一致性和完整性:
情况一、父表的数据到达,则将相应业务字段数据存入标准库,并触发通知 子表进行存储动作(即向下存储通知),子表依次递归将相应数据从缓存库取出 存储到标准库中;
情况二、子表的数据到达,依据血缘库血缘关系模型中的表依赖关系,在标 准库查看是否存在相应的上一级父表数据,若不存在则将数据暂存至缓存库备查; 若存在,则触发通知上一级父表查询是否存在更上一级父表数据(即向上递归查 询依赖广播),直至root节点,如果已通知至root节点查询,立即触发情况一执行。
进一步地,定期对标准库的数据进行检索、验证数据的一致性和完整性,从 而对血缘库中的血缘关系(表依赖关系和字段依赖关系)进行评分和自更新。
血缘库中的血缘关系模型,是不断优化和训练过程得出来的。本发明设定以 下迭代优化算法,确保血缘关系模型的更新。
当新的一批数据到来后,启动自学习过程。具体地,对于标准库中的数据, 根据医疗业务数据的自身特点,提取每个数据的特征,构建它们的特征向量,分 别记为xi,i=1,2,…,n;
将标准库中的数据分为不同的类别(组别),在相同的类别中的数据对应的 特征向量之间的距离应该都很近(即它们的相似度很高),相似度越高的数据其 血缘关系匹配度越高。通过K-means聚类算法,将标准库中的数据分为k个类别, 这k个类别的中心记为μj,j=1,2,…,k;设经过聚类之后特征向量为xi的数据所属 的类别为ti,ti∈{1,2,…,k},K-means聚类算法即通过迭代找寻最佳的分类结果 ti,i=1,2,…,n,使损失函数L值最小,损失函数L定义为:
Figure SMS_2
将当前最佳的分类结果对应的L值记录在血缘库中;并计算当前最佳的分类 结果对应的L值与血缘库上一次记录的L值的差值。若差值高于特定值,说明数据模型修改较大,则按照上述的医疗流式数据血缘关系分析方法更新血缘库中的血 缘关系模型。
实施例3:
本实施例提供一种医疗流式数据血缘关系分析装置,包括以下模块:
语义分析模块,用于针对标准化处理后的医疗流式数据进行语义分析,解析 其中的业务字段,将业务字段作为目标字段;
血缘关系解析模块,用于依据标准化处理后的医疗流式数据中包含的逻辑关 系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关 系,并将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
所述装置中各模块的工作原理参见上述方法实施例中相应步骤的具体实现 过程。
实施例4:
本实施例提供一种医疗流式数据存储装置,包括以下模块:
标准化处理模块,用于对采集到的医疗流式数据进行标准化处理;
数据存储模块,用于在血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中;其中血缘关系模型是指根据上述实施例中的医疗流式数据血缘关系分析 装置获得的血缘关系模型。
所述装置中各模块的工作原理参见上述方法实施例中相应步骤的具体实现 过程。
实施例5:
本实施例提供一种电子设备,包括存储器及处理器,所述存储器中存储有计 算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述实施 例中医疗流式数据血缘关系分析或存储方法。
实施例6:
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算 机程序被处理器执行时实现上述实施例中的医疗流式数据血缘关系分析或存储 方法。

Claims (5)

1.一种医疗流式数据存储方法,其特征在于,包括以下步骤:
步骤1、对采集到的医疗流式数据进行标准化处理;
其中,医疗流式数据的采集过程为:
Spark Streaming中的Job程序启动时,首先会初始化获取血缘关系模型,通过Spark广播机制将血缘关系模型分发至各采集医疗流式数据的服务器节点;
通过哈希取模算法将每条医疗流式数据的采集任务分配至医疗业务系统中各个采集医疗流式数据的服务器节点;每个采集医疗流式数据的服务器节点,对分配给其的医疗流式数据采集任务,根据血缘关系模型中相应医疗流式数据对应的血缘关系,完成相应医疗流式数据的独立采集;然后,各采集医疗流式数据的服务器节点把采集完成的医疗流式数据按照相应业务的业务逻辑进行封装,然后发送至Kafka集群中,最后由Spark Streaming从Kafka集群中获取医疗流式数据;
Spark Streaming每接收一条医疗流式数据,就会对其进行标准化处理,然后依据血缘关系模型中该医疗流式数据对应的血缘关系,对该医疗流式数据进行血缘关系溯源,解析出该医疗流式数据整体的血缘关系;
Spark Streaming解析完医疗流式数据整体的血缘关系后,针对当前的医疗流式数据,基于其整体的血缘关系自动匹配属于其的家族数据,得到一条完整的数据脉,最后进行数据的持久化,即按以下两种情况递归判断血缘关系并进行结构化存储:
情况一、父表的数据到达,则将相应数据存入标准库,并触发通知子表进行存储动作,子表依次递归将相应数据从缓存库取出存储到标准库中;
情况二、子表的数据到达,依据血缘关系模型中的表依赖关系,在标准库查看是否存在相应的上一级父表数据,若不存在则将数据暂存至缓存库备查;若存在,则触发通知上一级父表查询是否存在更上一级父表数据,直至root节点,如果已通知至root节点查询,则触发情况一执行;
步骤2、在血缘关系模型中通过比对检索医疗流式数据的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标准库中;其中血缘关系模型是指根据医疗流式数据血缘关系分析方法获得的血缘关系模型;所述医疗流式数据血缘关系分析方法包括以下步骤:
第一步、针对标准化处理后的医疗流式数据进行语义分析,解析其中的业务字段,将业务字段作为目标字段;
第二步、依据标准化处理后的医疗流式数据中包含的逻辑关系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关系;
第三步、将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
2.根据权利要求1所述的医疗流式数据存储方法,其特征在于,当新的一批数据到来后,启动自学习过程,具体地:
对于标准库中的数据,根据医疗业务数据的自身特点,提取每个数据的特征,构建它们的特征向量,分别记为xi,i=1,2,…,n;
通过K-means聚类算法,将标准库中的数据分为k个类别,这k个类别的中心记为μj,j=1,2,…,k;设经过聚类之后特征向量为xi的数据所属的类别为ti,ti∈{1,2,…,k},K-means聚类算法即通过迭代找寻最佳的分类结果ti,i=1,2,…,n,使损失函数L值最小,损失函数L定义为:
Figure QLYQS_1
记录当前最佳的分类结果对应的L值,并计算当前最佳的分类结果对应的L值与上一次记录的L值的差值;若差值高于特定值,则采用权利要求1所述的医疗流式数据血缘关系分析方法更新血缘库中的血缘关系模型。
3.一种医疗流式数据存储装置,其特征在于,包括以下模块:
标准化处理模块,用于对采集到的医疗流式数据进行标准化处理;
其中,医疗流式数据的采集过程为:
Spark Streaming中的Job程序启动时,首先会初始化获取血缘关系模型,通过Spark广播机制将血缘关系模型分发至各采集医疗流式数据的服务器节点;
通过哈希取模算法将每条医疗流式数据的采集任务分配至医疗业务系统中各个采集医疗流式数据的服务器节点;每个采集医疗流式数据的服务器节点,对分配给其的医疗流式数据采集任务,根据血缘关系模型中相应医疗流式数据对应的血缘关系,完成相应医疗流式数据的独立采集;然后,各采集医疗流式数据的服务器节点把采集完成的医疗流式数据按照相应业务的业务逻辑进行封装,然后发送至Kafka集群中,最后由Spark Streaming从Kafka集群中获取医疗流式数据;
Spark Streaming每接收一条医疗流式数据,就会对其进行标准化处理,然后依据血缘关系模型中该医疗流式数据对应的血缘关系,对该医疗流式数据进行血缘关系溯源,解析出该医疗流式数据整体的血缘关系;
Spark Streaming解析完医疗流式数据整体的血缘关系后,针对当前的医疗流式数据,基于其整体的血缘关系自动匹配属于其的家族数据,得到一条完整的数据脉,最后进行数据的持久化,即按以下两种情况递归判断血缘关系并进行结构化存储:
情况一、父表的数据到达,则将相应数据存入标准库,并触发通知子表进行存储动作,子表依次递归将相应数据从缓存库取出存储到标准库中;
情况二、子表的数据到达,依据血缘关系模型中的表依赖关系,在标准库查看是否存在相应的上一级父表数据,若不存在则将数据暂存至缓存库备查;若存在,则触发通知上一级父表查询是否存在更上一级父表数据,直至root节点,如果已通知至root节点查询,则触发情况一执行;
数据存储模块,用于在血缘关系模型中通过比对检索(解析)医疗流式数据的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标准库中;其中血缘关系模型是指根据医疗流式数据血缘关系分析装置获得的血缘关系模型;所述医疗流式数据血缘关系分析装置包括以下模块:
语义分析模块,用于针对标准化处理后的医疗流式数据进行语义分析,解析其中的业务字段,将业务字段作为目标字段;
血缘关系解析模块,用于依据标准化处理后的医疗流式数据中包含的逻辑关系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关系,并将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
4.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~2中任一项所述的方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~2中任一项所述的方法。
CN202010277609.9A 2020-04-08 2020-04-08 一种医疗流式数据血缘关系分析、存储方法及装置 Active CN111627552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277609.9A CN111627552B (zh) 2020-04-08 2020-04-08 一种医疗流式数据血缘关系分析、存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277609.9A CN111627552B (zh) 2020-04-08 2020-04-08 一种医疗流式数据血缘关系分析、存储方法及装置

Publications (2)

Publication Number Publication Date
CN111627552A CN111627552A (zh) 2020-09-04
CN111627552B true CN111627552B (zh) 2023-07-14

Family

ID=72272993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277609.9A Active CN111627552B (zh) 2020-04-08 2020-04-08 一种医疗流式数据血缘关系分析、存储方法及装置

Country Status (1)

Country Link
CN (1) CN111627552B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597154A (zh) * 2020-12-11 2021-04-02 广州橙行智动汽车科技有限公司 一种数据的存储方法、装置、电子设备、可读介质
CN112860811B (zh) * 2021-02-05 2023-07-18 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN114840531B (zh) * 2022-05-30 2024-05-28 中国平安财产保险股份有限公司 基于血缘关系的数据模型重构方法、装置、设备及介质
CN116484084B (zh) * 2023-06-21 2023-11-17 广州信安数据有限公司 基于应用信息挖掘的元数据血缘分析方法、介质及系统
CN117252555B (zh) * 2023-11-14 2024-04-09 之江实验室 一种基于车险场景的半自动化特征工程方法、系统和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582660A (zh) * 2018-12-06 2019-04-05 深圳前海微众银行股份有限公司 数据血缘分析方法、装置、设备、系统及可读存储介质
KR20190081268A (ko) * 2017-12-29 2019-07-09 주식회사 라이프시맨틱스 개인건강기록을 이용한 가족력 위험도 산출 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1783099A (zh) * 1996-07-12 2006-06-07 第一咨询公司 带网络存取的计算机化医疗诊断及治疗咨询系统
US9779147B1 (en) * 2014-08-15 2017-10-03 Tableau Software, Inc. Systems and methods to query and visualize data and relationships
US20170091391A1 (en) * 2015-09-30 2017-03-30 Parkland Center For Clinical Innovation Patient Protected Information De-Identification System and Method
CN106650188A (zh) * 2015-10-31 2017-05-10 长城信息产业股份有限公司 一种医院就诊流程消息推送的方法及装置
WO2019183286A1 (en) * 2018-03-20 2019-09-26 GenID Solutions, LLC Systems and methods for monitoring subjects for hereditary cancers
US10942926B2 (en) * 2018-09-05 2021-03-09 Sap Se Identification, and query, of semantically-related database tables
CN110083647A (zh) * 2019-03-31 2019-08-02 广州建皓信息技术有限公司 一种大数据管理平台
CN110083639B (zh) * 2019-04-25 2023-03-10 中电科嘉兴新型智慧城市科技发展有限公司 一种基于聚类分析的数据血缘智能溯源的方法及装置
CN110232056B (zh) * 2019-05-21 2022-02-25 苏宁云计算有限公司 一种结构化查询语言的血缘解析方法及其工具

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190081268A (ko) * 2017-12-29 2019-07-09 주식회사 라이프시맨틱스 개인건강기록을 이용한 가족력 위험도 산출 방법
CN109582660A (zh) * 2018-12-06 2019-04-05 深圳前海微众银行股份有限公司 数据血缘分析方法、装置、设备、系统及可读存储介质

Also Published As

Publication number Publication date
CN111627552A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111627552B (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
US7593927B2 (en) Unstructured data in a mining model language
US9646262B2 (en) Data intelligence using machine learning
WO2021159834A1 (zh) 异常信息处理节点分析方法、装置、介质及电子设备
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN107341210B (zh) Hadoop平台下的C-DBSCAN-K聚类算法
CN109871470B (zh) 一种电网设备数据标签化管理系统及实现方法
WO2023227012A1 (zh) 产品数据处理方法、装置及存储介质
CN112883125A (zh) 一种实体数据处理方法、装置、设备和存储介质
Lin et al. BigIN4: Instant, interactive insight identification for multi-dimensional big data
US20180225314A1 (en) Managing a single database management system
JP6642435B2 (ja) データ処理装置、データ処理方法、及び、プログラム
CN114417012A (zh) 一种生成知识图谱的方法和电子设备
CN116383238B (zh) 基于图结构的数据虚拟化系统、方法、装置、设备及介质
Babur et al. Towards statistical comparison and analysis of models
US10877998B2 (en) Highly atomized segmented and interrogatable data systems (HASIDS)
CN116010380A (zh) 一种基于可视化建模的数据仓库自动化管理方法
US20180150543A1 (en) Unified multiversioned processing of derived data
Büscher et al. VPI-FP: an integrative information system for factory planning
CN109086373B (zh) 一种构建公平的链接预测评估系统的方法
CN114648121A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN116226686B (zh) 一种表格相似性分析方法、装置、设备和存储介质
CN110096529B (zh) 一种基于多维矢量数据的网络数据挖掘方法和系统
Sarr et al. Data stream summary in big data context: challenges and opportunities
GB2575255A (en) System and method for regularizing data between data source and data destination

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant