CN111627552A - 一种医疗流式数据血缘关系分析、存储方法及装置 - Google Patents
一种医疗流式数据血缘关系分析、存储方法及装置 Download PDFInfo
- Publication number
- CN111627552A CN111627552A CN202010277609.9A CN202010277609A CN111627552A CN 111627552 A CN111627552 A CN 111627552A CN 202010277609 A CN202010277609 A CN 202010277609A CN 111627552 A CN111627552 A CN 111627552A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- streaming data
- blood relationship
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提出了一种医疗流式数据血缘关系分析、存储方法及装置,所述血缘关系分析方法为:针对标准处理化后的医疗流式数据,进行语义分析,解析其中的业务字段作为目标字段;再迭代拆分解析目标字段的血缘关系,得到与之对应的表依赖关系和字段依赖关系;最后将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将血缘关系模型存储到血缘库。基于自学习过程,利用标准库存储的数据验证血缘库中血缘关系模型的正确性,并及时更新血缘关系模型。本发明能够正确分析出医疗流式数据之间的血缘关系,并基于血缘关系自动完成大批量医疗流式数据的结构化存储。
Description
技术领域
本发明涉及到一种医疗流式数据血缘关系分析、存储方法及装置。
背景技术
早期,医疗数据以医院内部HIS(医院信息系统)、PACS(医学影像存档与 通讯系统)、LIS(实验室信息管理系统)三大系统的数据为核心,随着互联互 通的深入,医院的应用系统越来越多,日产生的数据量成指数级上升,数据关系 的复杂度也在不断上升,医疗数据采集面临着以下几类问题:医疗数据结构复杂, 海量、散落在不同的信息系统、医疗数据分析方法不完善、缺乏统一的数据模型。 同时,医疗监管部门对医院数据的监控、分析、决策的需求也在不断变化,业务 标准也在不断的演进,对数据实时性、准确性要求越来越高,通过“定期ETL 抽取N+1天的结构化数据再加工存储的方式”已经满足不了医疗监管业务的需 要。为了解决数据及时性的问题,流式数据(流数据,又可被称为实时数据)上 报系统可以快速地统计上报数据,并计算监管指标。但是,针对流式数据的关联 关系建模和流式数据的标准化(结构化)保存过程,存在非常大的处理难度。比 如,数据标准的变化,数据建模过程是否能快速的调整;医院业务系统的流式数 据到达存储系统,存在时间上的差异,需要一套完善的架构保障数据的一致性和 完整性;医疗异构系统的流式数据之间的关联关系种类繁多,且存在较多不确定 性,全部依靠人工分析几乎无法完成。流式数据是一套有顺序、快速、量大、连 续到达的数据序列,通常情况下,流式数据是可以被视为随时间延续而无限递增 的一个动态数据集合,医疗业务(包括门急诊、检查检验、住院、缴费等业务) 的有序性和流式数据到达的无序性会导致想要流式数据与其他数据进行直接建 立血缘关系变得非常复杂和困难。而在现有系统中,往往为了满足业务要求,经 常会将多张表或临时表、中间表进行关联生成一张表,当业务表数据出现问题需 要对数据进行追根溯源或者需要通过数据的血缘关系智能生成业务数据时,数据 间的血缘关系就显得格外的重要。
因此,有必要针对上述问题,提供一种新的医疗流式数据的血缘关系分析和 存储方法。
发明内容
针对现有技术存在的问题,本发明提出了一种医疗流式数据血缘关系分析、 存储方法及装置,能够正确分析出医疗流式数据之间的血缘关系,并基于血缘关 系自动完成大批量医疗流式数据的结构化存储。
本发明所提供的技术方案为:
一方面,提供一种医疗流式数据血缘关系分析方法,包括以下步骤:
第一步、针对标准化处理后的医疗流式数据进行语义分析,解析其中的业务 字段,将业务字段作为目标字段;
第二步、依据标准化处理后的医疗流式数据中包含的逻辑关系迭代拆分解析 目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关系;
第三步、将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将 血缘关系模型存储到血缘库。
另一方面,提供一种医疗流式数据存储方法,其特征在于,包括以下步骤:
步骤1、对采集到的医疗流式数据进行标准化处理;
步骤2、在血缘库中的血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中;其中血缘关系模型是指根据上述医疗流式数据血缘关系分析方法获得的 血缘关系模型。
进一步地,医疗流式数据的采集过程为:
Spark Streaming中的Job程序启动时,首先会初始化获取血缘关系模型,通 过Spark广播机制将血缘关系模型分发至各采集医疗流式数据的服务器节点,通 过广播机制有效防止了数据的冗余,提高了医疗流式数据的处理性能;
医疗流式数据的采集通过分布式、多线程应用程序设计并发作业,通过哈希 取模算法Hash(Field)%N将每条医疗流式数据的采集任务分配至医疗业务系统中 各个采集医疗流式数据的服务器节点,其中Field表示每条医疗流式数据的主键 值,N表示采集医疗流式数据的服务器节点数;每个采集医疗流式数据的服务器 节点,对分配给其的医疗流式数据采集任务,根据血缘关系模型中相应医疗流式 数据对应的血缘关系,完成相应医疗流式数据的独立采集;然后,各采集医疗流 式数据的服务器节点把采集完成的医疗流式数据按照相应业务独立的业务逻辑 进行封装,然后发送至消息中间件Kafka集群中,最后由SparkStreaming从Kafka 集群中获取医疗流式数据。
进一步地,Spark Streaming每接获取一条医疗流式数据,就会对其进行标准 化处理,然后依据血缘关系模型中该医疗流式数据对应的血缘关系,对该医疗流 式数据进行血缘关系溯源,解析出该医疗流式数据整体的血缘关系;
Spark Streaming解析完医疗流式数据整体的血缘关系后,针对当前的医疗流 式数据,基于其整体的血缘关系自动匹配属于其的家族数据,得到一条完整的数 据脉,最后进行数据的持久化,即按以下两种情况递归判断血缘关系并进行结构 化存储,以保证数据的一致性和完整性:
情况一、父表的数据到达,则将相应数据存入标准库,并触发通知子表进行 存储动作,子表依次递归将相应数据从缓存库取出存储到标准库中;
情况二、子表的数据到达,依据血缘库血缘关系模型中的表依赖关系,在标 准库查看是否存在相应的上一级父表数据,若不存在则将数据暂存至缓存库备查; 若存在,则触发通知上一级父表查询是否存在更上一级父表数据,直至root节 点,如果已通知至root节点查询,则触发情况一执行。
进一步地,当新的一批数据到来后,启动自学习过程,具体地:
对于标准库中的数据,根据医疗业务数据的自身特点,提取每个数据的特征, 构建它们的特征向量,分别记为xi,i=1,2,…,n;
将标准库中的数据分为不同的类别(组别),在相同的类别中的数据对应的 特征向量之间的距离应该都很近(即它们的相似度很高),相似度越高的数据其 血缘关系匹配度越高。通过K-means聚类算法,将标准库中的数据分为k个类别, 这k个类别的中心记为μj,j=1,2,…,k;设经过聚类之后特征向量为xi的数据所属 的类别为ti,ti∈{1,2,…,k},K-means聚类算法即通过迭代找寻最佳的分类结果 ti,i=1,2,…,n,使损失函数L值最小,损失函数L定义为:
将当前最佳的分类结果对应的L值记录在血缘库中;并计算当前最佳的分类 结果对应的L值与血缘库上一次记录的L值的差值。若差值高于特定值,说明数据 模型修改较大,血缘库中血缘关系模型的正确性不够高,则按照上述的医疗流式 数据血缘关系分析方法更新血缘库中的血缘关系模型。
另一方面,提供一种医疗流式数据血缘关系分析装置,包括以下模块:
语义分析模块,用于针对标准化处理后的医疗流式数据进行语义分析,解析 其中的业务字段,将业务字段作为目标字段;
血缘关系解析模块,用于依据标准化处理后的医疗流式数据中包含的逻辑关 系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关 系,并将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
另一方面,提供一种医疗流式数据存储装置,包括以下模块:
标准化处理模块,用于对采集到的医疗流式数据进行标准化处理;
数据存储模块,用于在血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中;其中血缘关系模型是指根据上述的医疗流式数据血缘关系分析装置获得 的血缘关系模型。
另一方面,提供一种电子设备,包括存储器及处理器,所述存储器中存储有 计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述的 医疗流式数据血缘关系分析或存储方法。
另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计 算机程序被处理器执行时实现上述的医疗流式数据血缘关系分析或存储方法。
有益效果:
本发明提出了一种医疗流式数据血缘关系分析方法,针对标准处理化后的医 疗流式数据,进行语义分析,解析其中的业务字段作为目标字段;再迭代拆分解 析目标字段的血缘关系,得到与之对应的表依赖关系和字段依赖关系;最后将拆 解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将血缘关系模型存储 到血缘库。基于自学习过程,利用标准库存储的数据验证血缘库中血缘关系模型 的正确性,并及时更新调整血缘关系模型,同时基于血缘关系自动完成大批量医 疗流式数据的结构化存储。本发明具有良好的效果,适用于医疗监管系统应对业 务标准变化和医疗数据类型增多的场景,能够快速、正确地分析出医疗流式数据 之间的血缘关系,并基于血缘关系自动完成大批量医疗流式数据的结构化存储, 极大降低了人工处理工作量,节省了时间,有效地提升了实施医疗流式数据的利 用效率,增强了所保存到的异构系统采集的医疗流式数据的一致性和完整性。
附图说明
图1为本发明实施例中一种医疗流式数据血缘关系分析方法流程图;
图2为本发明实施例中血缘关系模型结构图;
图3为本发明实施例中不同的表依赖关系,其中,图3(a)为一父一子, 图3(b)为一父两子,图3(c)为树形结构;
图4为本发明实施例中一种医疗流式数据存储方法流程图;
图5为本发明实施例中业务数据的持久化处理流程图。
具体实施方式
以下结合附图和具体实施例对本发明进行进一步具体说明。
实施例1:
本实施例提供一种医疗流式数据血缘关系分析方法,包括以下步骤:
第一步、针对标准化处理后的医疗流式数据,根据医疗业务系统的业务数据 模型(业务数据结构)、行业规范、医院数据集成平台标准进行语义分析,解析 其中的业务字段(即有业务意义的字段),例如门急诊业务中的患者诊疗卡号、 就诊时间、挂号费用、诊断标准和诊断结果等;将业务字段作为目标字段;
第二步、依据标准化处理后的医疗流式数据中包含的逻辑关系(即医疗数据 涉及的业务之间直接、间接或者潜在的逻辑关系)迭代拆分解析目标字段的血缘 关系(依赖关系),包括与之对应的表依赖关系(表与表之间的依赖关系)和字 段依赖关系(字段与字段之间的依赖关系);
第三步、将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型,并将 血缘关系模型存储到血缘库。
其中第一步中的医疗流式数据是指各医疗业务系统(指医院内部原有的涉及 医疗数据的所有同构/异构的业务系统,包含但不限于HIS,LIS,PACS等)的医 疗流式数据。
图1为本发明分析医疗流式数据的血缘关系的流程图,图中,第一个方框表 示将各医疗业务系统的数据进行标准化处理后的SQL语句;第二个方框表示通 过对SQL语句进行语义分析后,得到目标字段来源于哪个表;第三个方框表示 针对目标字段找到与之对应的表依赖关系和字段依赖关系;第四个方框表示将分 析得的依赖关系存入到血缘库中。
如图2所示,每条医疗流式数据在血缘关系模型中通过三个部分进行描述, 三个部分是指总约束、表依赖关系和字段依赖关系(字段血缘);其中总约束用 于描述该医疗流式数据在医疗业务系统中的业务数据模型,在总约束中为医疗流 式数据设置一个主键值,不同的医疗流式数据主键值不同,表依赖关系和字段依 赖关系用于描述该医疗流式数据目标字段的血缘关系。通过构建血缘关系模型, 将医疗业务系统中的业务数据的元数据对应的规范、标准和约定等转换为固定描 述(结构化描述),为医疗流式数据的结构化存储奠定基础。在血缘关系模型中 查询某一条医疗流式数据对应的血缘关系的方法为:首先,根据总约束中设置的 该医疗流式数据的主键值,然后,查找该医疗流式数据对应的表依赖关系和字段 依赖关系。在后续医疗流式数据的存储过程中,可以基于医疗流式数据对应的表依赖关系判断是父表的数据到达还是子表的数据到达。
如图3所示,表依赖关系包括以下几种情况:
1)一父一子:如图3(a)所示,表B依赖表A,类似SQL语句:Select*from A leftjoin B on A.id=B.id
2)一父两子:如图3(b)所示,表B和表C都依赖表A,类似SQL语句: Select*from Aleft join B on A.id=B.id left join C on A.xxx=C.xxx
3)树形结构,最顶层的表为父表,称作root节点:如图3(c)所示,表B 和表C都依赖表A表,D依赖表B,类似SQL语句:Select*from A Left join B on A.id=B.id Left joinC on A.xxx=C.xxx Left join D on B.yyy=D.yyyy。
实施例2:
本实施例提供一种医疗流式数据存储方法,如图4所示,包括以下步骤:
步骤1、对采集到的医疗流式数据进行标准化处理;
步骤2、在血缘库中的血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中。
进一步地,医疗流式数据的采集过程为:
Spark Streaming(实时医疗流式数据处理系统)中的Job(作业)程序启动 时,首先会初始化获取血缘关系模型数据,通过Spark广播机制将血缘关系模型 数据分发至各采集医疗流式数据的服务器节点,通过广播机制有效防止了数据的 冗余,提高了医疗流式数据的处理性能;
医疗流式数据的采集通过分布式、多线程应用程序设计并发作业,通过哈希 取模算法Hash(Field)%N(Field表示每条医疗流式数据的主键值,N表示采集医 疗流式数据的服务器节点数)将每条医疗流式数据的采集任务分配(映射)至医 疗业务系统中各个采集医疗流式数据的服务器节点;每个采集医疗流式数据的服 务器节点,对分配给其的医疗流式数据采集任务,根据血缘关系模型中相应医疗 流式数据对应的血缘关系,完成相应医疗流式数据的独立采集;然后,各采集医 疗流式数据的服务器节点把采集完成的医疗流式数据按照每项业务独立的业务 逻辑进行封装,然后发送至消息中间件Kafka集群中(kafka集群就相当于医疗 流式数据的管道,它保障了医疗流式数据的完整性与稳定性),最后由Spark Streaming从Kafka集群中获取并处理医疗流式数据。
进一步地,Spark Streaming每接收到一条医疗流式数据,就会对其进行标准 化处理,然后依据血缘关系模型中该医疗流式数据对应的血缘关系,对该医疗流 式数据进行血缘关系溯源,解析出该医疗流式数据整体的血缘关系。
Spark Streaming解析完医疗流式数据整体的血缘关系后,会针对当前的医疗 流式数据,通过血缘关系从缓存库中自动匹配属于自己的家族数据,完成一条完 整的数据脉,最后进行数据的持久化,如图5所示,在持久化过程中按以下两种 情况递归判断血缘关系并进行结构化存储,以保证数据的一致性和完整性:
情况一、父表的数据到达,则将相应业务字段数据存入标准库,并触发通知 子表进行存储动作(即向下存储通知),子表依次递归将相应数据从缓存库取出 存储到标准库中;
情况二、子表的数据到达,依据血缘库血缘关系模型中的表依赖关系,在标 准库查看是否存在相应的上一级父表数据,若不存在则将数据暂存至缓存库备查; 若存在,则触发通知上一级父表查询是否存在更上一级父表数据(即向上递归查 询依赖广播),直至root节点,如果已通知至root节点查询,立即触发情况一 执行。
进一步地,定期对标准库的数据进行检索、验证数据的一致性和完整性,从 而对血缘库中的血缘关系(表依赖关系和字段依赖关系)进行评分和自更新。
血缘库中的血缘关系模型,是不断优化和训练过程得出来的。本发明设定以 下迭代优化算法,确保血缘关系模型的更新。
当新的一批数据到来后,启动自学习过程。具体地,对于标准库中的数据, 根据医疗业务数据的自身特点,提取每个数据的特征,构建它们的特征向量,分 别记为xi,i=1,2,…,n;
将标准库中的数据分为不同的类别(组别),在相同的类别中的数据对应的 特征向量之间的距离应该都很近(即它们的相似度很高),相似度越高的数据其 血缘关系匹配度越高。通过K-means聚类算法,将标准库中的数据分为k个类别, 这k个类别的中心记为μj,j=1,2,…,k;设经过聚类之后特征向量为xi的数据所属 的类别为ti,ti∈{1,2,…,k},K-means聚类算法即通过迭代找寻最佳的分类结果 ti,i=1,2,…,n,使损失函数L值最小,损失函数L定义为:
将当前最佳的分类结果对应的L值记录在血缘库中;并计算当前最佳的分类 结果对应的L值与血缘库上一次记录的L值的差值。若差值高于特定值,说明数据 模型修改较大,则按照上述的医疗流式数据血缘关系分析方法更新血缘库中的血 缘关系模型。
实施例3:
本实施例提供一种医疗流式数据血缘关系分析装置,包括以下模块:
语义分析模块,用于针对标准化处理后的医疗流式数据进行语义分析,解析 其中的业务字段,将业务字段作为目标字段;
血缘关系解析模块,用于依据标准化处理后的医疗流式数据中包含的逻辑关 系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关 系,并将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
所述装置中各模块的工作原理参见上述方法实施例中相应步骤的具体实现 过程。
实施例4:
本实施例提供一种医疗流式数据存储装置,包括以下模块:
标准化处理模块,用于对采集到的医疗流式数据进行标准化处理;
数据存储模块,用于在血缘关系模型中通过比对检索(解析)医疗流式数据 的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标 准库中;其中血缘关系模型是指根据上述实施例中的医疗流式数据血缘关系分析 装置获得的血缘关系模型。
所述装置中各模块的工作原理参见上述方法实施例中相应步骤的具体实现 过程。
实施例5:
本实施例提供一种电子设备,包括存储器及处理器,所述存储器中存储有计 算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述实施 例中医疗流式数据血缘关系分析或存储方法。
实施例6:
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算 机程序被处理器执行时实现上述实施例中的医疗流式数据血缘关系分析或存储 方法。
Claims (9)
1.一种医疗流式数据血缘关系分析方法,其特征在于,包括以下步骤:
第一步、针对标准化处理后的医疗流式数据进行语义分析,解析其中的业务字段,将业务字段作为目标字段;
第二步、依据标准化处理后的医疗流式数据中包含的逻辑关系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关系;
第三步、将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
2.一种医疗流式数据存储方法,其特征在于,包括以下步骤:
步骤1、对采集到的医疗流式数据进行标准化处理;
步骤2、在血缘关系模型中通过比对检索医疗流式数据的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标准库中;其中血缘关系模型是指根据权利要求1所述的方法获得的血缘关系模型。
3.根据权利要求2所述的医疗流式数据存储方法,其特征在于,医疗流式数据的采集过程为:
Spark Streaming中的Job程序启动时,首先会初始化获取血缘关系模型,通过Spark广播机制将血缘关系模型分发至各采集医疗流式数据的服务器节点;
通过哈希取模算法将每条医疗流式数据的采集任务分配至医疗业务系统中各个采集医疗流式数据的服务器节点;每个采集医疗流式数据的服务器节点,对分配给其的医疗流式数据采集任务,根据血缘关系模型中相应医疗流式数据对应的血缘关系,完成相应医疗流式数据的独立采集;然后,各采集医疗流式数据的服务器节点把采集完成的医疗流式数据按照相应业务的业务逻辑进行封装,然后发送至Kafka集群中,最后由Spark Streaming从Kafka集群中获取医疗流式数据。
4.根据权利要求3所述的医疗流式数据存储方法,其特征在于,Spark Streaming每接获取一条医疗流式数据,就会对其进行标准化处理,然后依据血缘关系模型中该医疗流式数据对应的血缘关系,对该医疗流式数据进行血缘关系溯源,解析出该医疗流式数据整体的血缘关系;
Spark Streaming解析完医疗流式数据整体的血缘关系后,针对当前的医疗流式数据,基于其整体的血缘关系自动匹配属于其的家族数据,得到一条完整的数据脉,最后进行数据的持久化,即按以下两种情况递归判断血缘关系并进行结构化存储:
情况一、父表的数据到达,则将相应数据存入标准库,并触发通知子表进行存储动作,子表依次递归将相应数据从缓存库取出存储到标准库中;
情况二、子表的数据到达,依据血缘关系模型中的表依赖关系,在标准库查看是否存在相应的上一级父表数据,若不存在则将数据暂存至缓存库备查;若存在,则触发通知上一级父表查询是否存在更上一级父表数据,直至root节点,如果已通知至root节点查询,则触发情况一执行。
5.根据权利要求4所述的医疗流式数据存储方法,其特征在于,当新的一批数据到来后,启动自学习过程,具体地:
对于标准库中的数据,根据医疗业务数据的自身特点,提取每个数据的特征,构建它们的特征向量,分别记为xi,i=1,2,…,n;
通过K-means聚类算法,将标准库中的数据分为k个类别,这k个类别的中心记为μj,j=1,2,…,k;设经过聚类之后特征向量为xi的数据所属的类别为ti,ti∈{1,2,…,k},K-means聚类算法即通过迭代找寻最佳的分类结果ti,i=1,2,…,n,使损失函数L值最小,损失函数L定义为:
记录当前最佳的分类结果对应的L值,并计算当前最佳的分类结果对应的L值与上一次记录的L值的差值;若差值高于特定值,则采用权利要求1所述的医疗流式数据血缘关系分析方法更新血缘库中的血缘关系模型。
6.一种医疗流式数据血缘关系分析装置,其特征在于,包括以下模块:
语义分析模块,用于针对标准化处理后的医疗流式数据进行语义分析,解析其中的业务字段,将业务字段作为目标字段;
血缘关系解析模块,用于依据标准化处理后的医疗流式数据中包含的逻辑关系迭代拆分解析目标字段的血缘关系,包括与之对应的表依赖关系和字段依赖关系,并将拆解得到的表依赖关系和字段依赖关系存入血缘关系模型。
7.一种医疗流式数据存储装置,其特征在于,包括以下模块:
标准化处理模块,用于对采集到的医疗流式数据进行标准化处理;
数据存储模块,用于在血缘关系模型中通过比对检索(解析)医疗流式数据的血缘关系;根据医疗流式数据的血缘关系,将其标准处理化后的数据保存到标准库中;其中血缘关系模型是指根据权利要求6所述的装置获得的血缘关系模型。
8.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~2中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~2中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277609.9A CN111627552B (zh) | 2020-04-08 | 2020-04-08 | 一种医疗流式数据血缘关系分析、存储方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277609.9A CN111627552B (zh) | 2020-04-08 | 2020-04-08 | 一种医疗流式数据血缘关系分析、存储方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627552A true CN111627552A (zh) | 2020-09-04 |
CN111627552B CN111627552B (zh) | 2023-07-14 |
Family
ID=72272993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010277609.9A Active CN111627552B (zh) | 2020-04-08 | 2020-04-08 | 一种医疗流式数据血缘关系分析、存储方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627552B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597154A (zh) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | 一种数据的存储方法、装置、电子设备、可读介质 |
CN112860811A (zh) * | 2021-02-05 | 2021-05-28 | 北京百度网讯科技有限公司 | 数据血缘关系的确定方法、装置、电子设备和存储介质 |
CN114840531A (zh) * | 2022-05-30 | 2022-08-02 | 中国平安财产保险股份有限公司 | 基于血缘关系的数据模型重构方法、装置、设备及介质 |
CN116484084A (zh) * | 2023-06-21 | 2023-07-25 | 广州信安数据有限公司 | 基于应用信息挖掘的元数据血缘分析方法、介质及系统 |
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1783099A (zh) * | 1996-07-12 | 2006-06-07 | 第一咨询公司 | 带网络存取的计算机化医疗诊断及治疗咨询系统 |
US20170091391A1 (en) * | 2015-09-30 | 2017-03-30 | Parkland Center For Clinical Innovation | Patient Protected Information De-Identification System and Method |
CN106650188A (zh) * | 2015-10-31 | 2017-05-10 | 长城信息产业股份有限公司 | 一种医院就诊流程消息推送的方法及装置 |
US20180067998A1 (en) * | 2014-08-15 | 2018-03-08 | Tableau Software, Inc. | Systems and Methods of Arranging Displayed Elements in Data Visualizations that use Relationships |
CN109582660A (zh) * | 2018-12-06 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 数据血缘分析方法、装置、设备、系统及可读存储介质 |
KR20190081268A (ko) * | 2017-12-29 | 2019-07-09 | 주식회사 라이프시맨틱스 | 개인건강기록을 이용한 가족력 위험도 산출 방법 |
CN110083639A (zh) * | 2019-04-25 | 2019-08-02 | 中电科嘉兴新型智慧城市科技发展有限公司 | 一种基于聚类分析的数据血缘智能溯源的方法及装置 |
CN110083647A (zh) * | 2019-03-31 | 2019-08-02 | 广州建皓信息技术有限公司 | 一种大数据管理平台 |
CN110232056A (zh) * | 2019-05-21 | 2019-09-13 | 苏宁云计算有限公司 | 一种结构化查询语言的血缘解析方法及其工具 |
US20190295726A1 (en) * | 2018-03-20 | 2019-09-26 | GenID Solutions, LLC | Systems and methods for monitoring subjects for hereditary cancers |
US20200073989A1 (en) * | 2018-09-05 | 2020-03-05 | Sap Se | Identification, and query, of semantically-related database tables |
-
2020
- 2020-04-08 CN CN202010277609.9A patent/CN111627552B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1783099A (zh) * | 1996-07-12 | 2006-06-07 | 第一咨询公司 | 带网络存取的计算机化医疗诊断及治疗咨询系统 |
US20180067998A1 (en) * | 2014-08-15 | 2018-03-08 | Tableau Software, Inc. | Systems and Methods of Arranging Displayed Elements in Data Visualizations that use Relationships |
US20170091391A1 (en) * | 2015-09-30 | 2017-03-30 | Parkland Center For Clinical Innovation | Patient Protected Information De-Identification System and Method |
CN106650188A (zh) * | 2015-10-31 | 2017-05-10 | 长城信息产业股份有限公司 | 一种医院就诊流程消息推送的方法及装置 |
KR20190081268A (ko) * | 2017-12-29 | 2019-07-09 | 주식회사 라이프시맨틱스 | 개인건강기록을 이용한 가족력 위험도 산출 방법 |
US20190295726A1 (en) * | 2018-03-20 | 2019-09-26 | GenID Solutions, LLC | Systems and methods for monitoring subjects for hereditary cancers |
US20200073989A1 (en) * | 2018-09-05 | 2020-03-05 | Sap Se | Identification, and query, of semantically-related database tables |
CN109582660A (zh) * | 2018-12-06 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 数据血缘分析方法、装置、设备、系统及可读存储介质 |
CN110083647A (zh) * | 2019-03-31 | 2019-08-02 | 广州建皓信息技术有限公司 | 一种大数据管理平台 |
CN110083639A (zh) * | 2019-04-25 | 2019-08-02 | 中电科嘉兴新型智慧城市科技发展有限公司 | 一种基于聚类分析的数据血缘智能溯源的方法及装置 |
CN110232056A (zh) * | 2019-05-21 | 2019-09-13 | 苏宁云计算有限公司 | 一种结构化查询语言的血缘解析方法及其工具 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597154A (zh) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | 一种数据的存储方法、装置、电子设备、可读介质 |
CN112860811A (zh) * | 2021-02-05 | 2021-05-28 | 北京百度网讯科技有限公司 | 数据血缘关系的确定方法、装置、电子设备和存储介质 |
CN112860811B (zh) * | 2021-02-05 | 2023-07-18 | 北京百度网讯科技有限公司 | 数据血缘关系的确定方法、装置、电子设备和存储介质 |
CN114840531A (zh) * | 2022-05-30 | 2022-08-02 | 中国平安财产保险股份有限公司 | 基于血缘关系的数据模型重构方法、装置、设备及介质 |
CN114840531B (zh) * | 2022-05-30 | 2024-05-28 | 中国平安财产保险股份有限公司 | 基于血缘关系的数据模型重构方法、装置、设备及介质 |
CN116484084A (zh) * | 2023-06-21 | 2023-07-25 | 广州信安数据有限公司 | 基于应用信息挖掘的元数据血缘分析方法、介质及系统 |
CN116484084B (zh) * | 2023-06-21 | 2023-11-17 | 广州信安数据有限公司 | 基于应用信息挖掘的元数据血缘分析方法、介质及系统 |
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
CN117252555B (zh) * | 2023-11-14 | 2024-04-09 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111627552B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627552A (zh) | 一种医疗流式数据血缘关系分析、存储方法及装置 | |
US10055509B2 (en) | Constructing an in-memory representation of a graph | |
WO2015148304A1 (en) | Method and system for large scale data curation | |
WO2021159834A1 (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
US8046339B2 (en) | Example-driven design of efficient record matching queries | |
CN109213752A (zh) | 一种基于cim的数据清洗转换方法 | |
WO2019179408A1 (zh) | 机器学习模型的构建 | |
CN111125199B (zh) | 一种数据库访问方法、装置及电子设备 | |
US10628421B2 (en) | Managing a single database management system | |
JP6642435B2 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
WO2020117655A1 (en) | System and method for ingesting data | |
JP2003316811A (ja) | 異種データベース統合システムにおける問い合わせ最適化処理装置、方法、及びその方法をコンピュータに実行させるプログラム | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 | |
CN115391424A (zh) | 数据库查询的处理方法、存储介质与计算机设备 | |
US20180150543A1 (en) | Unified multiversioned processing of derived data | |
Abdallah et al. | Towards a GML-Enabled Knowledge Graph Platform | |
CN116226686B (zh) | 一种表格相似性分析方法、装置、设备和存储介质 | |
Sarr et al. | Data stream summary in big data context: challenges and opportunities | |
CN110096529B (zh) | 一种基于多维矢量数据的网络数据挖掘方法和系统 | |
CN117389908B (zh) | 接口自动化测试用例的依赖关系分析方法、系统及介质 | |
Cheng et al. | Evaluating probabilistic queries over uncertain matching | |
US20220405617A1 (en) | Artificial intelligence collectors | |
CN117992553A (zh) | 元数据管理方法、装置、电子设备及可读存储介质 | |
CN117743289A (zh) | Mbse模型库的构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |