CN118012860A - 基于Dolphinscheduler的自动化数据治理系统、方法及介质 - Google Patents

基于Dolphinscheduler的自动化数据治理系统、方法及介质 Download PDF

Info

Publication number
CN118012860A
CN118012860A CN202410412056.1A CN202410412056A CN118012860A CN 118012860 A CN118012860 A CN 118012860A CN 202410412056 A CN202410412056 A CN 202410412056A CN 118012860 A CN118012860 A CN 118012860A
Authority
CN
China
Prior art keywords
data
preset
quality control
task
detection rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410412056.1A
Other languages
English (en)
Inventor
刘保卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Health Medical Big Data Technology Co ltd
Original Assignee
North Health Medical Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Health Medical Big Data Technology Co ltd filed Critical North Health Medical Big Data Technology Co ltd
Priority to CN202410412056.1A priority Critical patent/CN118012860A/zh
Publication of CN118012860A publication Critical patent/CN118012860A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种基于Dolphinscheduler的自动化数据治理系统、方法及介质,主要涉及医疗数据治理技术领域,用以解决现有的Dolphinscheduler存在多源数据治理方式,不够灵活,不够标准化,存在治理脚本混乱,治理流程过长,治理过程不规范,治理过程难以追溯等问题。包括:数据映射组件,用于将各个来源的原始数据统一映射为第一标准层数据;数据质控组件,用于生成质控报告;值码归一组件,用于获得第一结构化数据;段落拆解组件,用于获得第二结构化数据;自动化脚本组件,用于获得第二标准层数据;再次获得质控报告;患者主索引组件,用于在对第二标准层数据进行患者主索引构建与合并,以生成患者信息表。

Description

基于Dolphinscheduler的自动化数据治理系统、方法及介质
技术领域
本申请涉及医疗数据治理技术领域,尤其涉及一种基于Dolphinscheduler的自动化数据治理系统、方法及介质。
背景技术
医疗数据由于其独特的属性,如数据多源异构,数据存储分散,数据治理难,数据治理过程复杂等问题,传统数据治理方式是使用ETL工具如kettle等配合脚本方式进行治理;还有一些治理甚至纯手工sql,python进行数据治理;随着大数据技术的发展,目前出现一些调度工具如dolphinsheceduler、azakaban等配合python,sql,spark,flink等技术进行一体化数据治理。
现有的,DolphinScheduler是一款分布式的、易扩展的、高可用的数据处理平台,主要包含调度中心、元数据管理、任务编排、任务调度、任务执行和告警等模块。它的技术架构基于 Spring Boot 和 Spring Cloud 技术栈,并且支持单机部署、分布式部署、容器化部署等多种方式。DolphinScheduler 的应用场景广泛,可用于大数据处理、定时任务和流程管理等领域。
但是,Dolphinscheduler只支持对自身的一些组件支持如,sql,python,spark,shell等,处理业务逻辑比较单一;另外,Dolphinscheduler平台是长连接方式,等待任务执行,占用资源链接,影响并发调度性能。另外,Dolphinscheduler存在多源数据治理方式,不够灵活,不够标准化,存在治理脚本混乱,治理流程过长,治理过程不规范,治理过程难以追溯等问题。
发明内容
针对现有技术的上述不足,本申请提供一种基于Dolphinscheduler的自动化数据治理系统、方法及介质,以解决现有的Dolphinscheduler存在多源数据治理方式,不够灵活,不够标准化,存在治理脚本混乱,治理流程过长,治理过程不规范,治理过程难以追溯等问题。
第一方面,本申请提供了一种基于Dolphinscheduler的自动化数据治理系统,系统包括:数据采集组件,用于根据预设数据源信息,进行数据采集,以获得原始数据;其中,原始数据包括就诊数据、诊断数据、手术数据、检验数据、药品数据和病历数据,且原始数据均包含预设唯一标识字段;数据映射组件,用于获取各个预设数据源信息的原始数据对应的预设数据映射任务,以将各个来源的原始数据统一映射为第一标准层数据;数据质控组件,用于配置预设质控检测规则程序,将第一标准层数据输入预设质控检测规则程序,以生成质控报告;值码归一组件,用于配置值码归一任务,以通过值码归一任务调用NLP算法,对就诊数据、诊断数据、手术数据、检验数据对应的第一标准层数据进行值码归一处理,以获得第一结构化数据;段落拆解组件,用于配置文本段落拆解任务,以调用文本拆解算法将病历数据对应的第一标准层数据进行拆分,进而获得对应的一诉五史;将一诉五史存入预设结构化数据表库字段中,以获得第二结构化数据;自动化脚本组件,用于获取预设标准层数据自动化运行脚本,以对第一结构化数据和第二结构化数据进行处理,获得第二标准层数据;调用数据质控组件中的预设质控检测规则程序,以再次获得质控报告;患者主索引组件,用于在接收到再次获得的质控报告满足预设处理标准后,基于患者的预设唯一标识字段,对第二标准层数据进行患者主索引构建与合并,以生成患者信息表;为每个患者生成EMPI值,并将EMPI值更新至患者信息表中。
进一步地,系统还包括开始任务配置组件,用于在根据预设数据源信息,进行数据采集,以获得原始数据之前,在Dolphinscheduler上配置一个开始任务;其中,开始任务至少包括:任务名称、开始时间、结束时间、任务描述。
进一步地,系统还包括结束任务组件;用于在操作界面接收到任务结束指令或到达结束时间后,自动登记开始任务对应的任务执行时长和任务执行状态。
进一步地,数据质控组件包括程序配置单元,用于通过预设界面获取预设质控检测规则程序;其中,预设质控检测规则程序至少包括:预设完整性检测规则程序,预设一致性检测规则程序、预设合理性检测规则程序、预设及时性检测规则程序、预设准确性检测规则程序、精确性检测规则程序。
进一步地,系统还包括:变量提取组件,用于通过预设需求获取界面获取需求关键字,将需求关键字和患者信息表作为预设提取算法的输入,以提取需求关键字在患者信息表中对应的具体数据。
第二方面,本申请提供了一种基于Dolphinscheduler的自动化数据治理方法,方法包括:根据预设数据源信息,进行数据采集,以获得原始数据;其中,原始数据包括就诊数据、诊断数据、手术数据、检验数据、药品数据和病历数据,且原始数据均包含预设唯一标识字段;获取各个预设数据源信息的原始数据对应的预设数据映射任务,以将各个来源的原始数据统一映射为第一标准层数据;配置预设质控检测规则程序,将第一标准层数据输入预设质控检测规则程序,以生成质控报告;配置值码归一任务,以通过值码归一任务调用NLP算法,对就诊数据、诊断数据、手术数据、检验数据对应的第一标准层数据进行值码归一处理,以获得第一结构化数据;配置文本段落拆解任务,以调用文本拆解算法将病历数据对应的第一标准层数据进行拆分,进而获得对应的一诉五史;将一诉五史存入预设结构化数据表库字段中,以获得第二结构化数据;获取预设标准层数据自动化运行脚本,以对第一结构化数据和第二结构化数据进行处理,获得第二标准层数据;调用预设质控检测规则程序,以再次获得质控报告;在接收到再次获得的质控报告满足预设处理标准后,基于患者的预设唯一标识字段,对第二标准层数据进行患者主索引构建与合并,以生成患者信息表;为每个患者生成EMPI值,并将EMPI值更新至患者信息表中。
进一步地,在根据预设数据源信息,进行数据采集,以获得原始数据之前,方法还包括:在Dolphinscheduler上配置一个开始任务;其中,开始任务至少包括:任务名称、开始时间、结束时间、任务描述。
进一步地,配置预设质控检测规则程序,具体包括:通过预设界面获取预设质控检测规则程序;其中,预设质控检测规则程序至少包括:预设完整性检测规则程序,预设一致性检测规则程序、预设合理性检测规则程序、预设及时性检测规则程序、预设准确性检测规则程序、精确性检测规则程序。
进一步地,在为每个患者生成EMPI值,并将EMPI值更新至患者信息表中之后,方法还包括:通过预设需求获取界面获取需求关键字,将需求关键字和患者信息表作为预设提取算法的输入,以提取需求关键字在患者信息表中对应的具体数据。
第三方面,本申请提供了一种非易失性计算机存储介质,其上存储有计算机指令,计算机指令在被执行时实现如上述任一项的一种基于Dolphinscheduler的自动化数据治理方法。
本领域技术人员能够理解的是,本申请至少具有如下有益效果:
1.平台Dolphinscheduler,只支持对自身的一些组件支持如,sql,python,spark,shell等,处理业务逻辑比较单一,本申请进行了优化升级,工具改造成可以支持任何服务组件,如数据采集组件,数据映射组件,数据质控组件等等,这些自定义组件可以是一个系统或者一个服务,复杂的业务逻辑在这些系统内处理,可以不限制语言和其他调用限制,这些组件更加灵活。
2.现有的Dolphinscheduler平台是长连接方式,等待任务执行,占用资源链接,影响并发调度性能,本申请修改成短连接方式,通过接口定时调用服务组件,来达到监听任务完成状态,这样节约了资源,还减少长连接等待造成的网络堵塞。
3.本申请实现了医疗数据治理过程的全自动,并支持增量数据的统一配置,只需要在开始任务时,配置好增量开始时间、结束时间等,则后续整个过程无需人工参与,节约了治理工程师工作量,提高了工作效率。
4.本申请提供了一套医疗数据治理的新思路,从数据的采集到标准的数据集的产生,各个步骤明确了数据处理的思路和流程,相较于传统的手工治理或者纯脚本治理,提高了生产率。
5.本申请由于每一步都是使用自己定义的系统服务完成的治理功能,这个过程可以把数据从源头到目标库的整个过程清晰的记录下来,为数据溯源提供更容易的实现方式。
附图说明
下面参照附图来描述本公开的部分实施例,附图中:
图1是本申请实施例提供的一种基于Dolphinscheduler的自动化数据治理系统内部结构示意图。
图2是本申请实施例提供的一种基于Dolphinscheduler的自动化数据治理方法流程图。
具体实施方式
本领域技术人员应当理解的是,下文所描述的实施例仅仅是本公开的优选实施例,并不表示本公开仅能通过该优选实施例实现,该优选实施例仅仅是用于解释本公开的技术原理,并非用于限制本公开的保护范围。基于本公开提供的优选实施例,本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例,仍应落入到本公开的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种基于Dolphinscheduler的自动化数据治理系统。如图1所示,本申请实施例提供的系统,主要包括:
数据采集组件110,用于根据预设数据源信息,进行数据采集,以获得原始数据。
需要说明的是,数据采集组件110可以为任意可行的支持多源异构的数据汇聚服务系统、能够进行数据采集的组件/程序/设备。原始数据包括就诊数据、诊断数据、手术数据、检验数据、药品数据和病历数据,且原始数据均包含预设唯一标识字段。其中,预设数据源信息可以根据本领域技术人员的需求自行调整。且预设数据源信息至少包括预设数据源地址、数据库类型、数据库名称。预设唯一标识字段可以为任意可行的具有区分功能的数据,例如身份证号码。
另外,本领域技术人员可以通过Dolphinscheduler平台,配置一个开始任务,任务配置上任务名称和任务属性,任务描述配置增量还是全量类型等配置项等。
作为示例地,系统还可以设置一个开始任务配置组件,在根据预设数据源信息,进行数据采集,以获得原始数据之前,在Dolphinscheduler上配置一个开始任务;其中,开始任务至少包括:任务名称、开始时间、结束时间、任务描述。
需要补充说明的是,任务描述对应的具体内容可由本领域技术人员根据实际情况确定。
数据映射组件120,用于获取各个预设数据源信息的原始数据对应的预设数据映射任务,以将各个来源的原始数据统一映射为第一标准层数据。
需要说明的是,数据映射组件120可以为任意可行的能够基于原始数据来源选择对应的预设数据映射任务,进而将原始数据映射为标准层数据(为了与后续数据进行区别,这里的标准层数据被称为第一标准层数据)的组件/程序/设备。这里以及后续的标准层数据均为符合预设标准格式的数据的意思。另外,由于数据来源于不同的医疗机构和不同源厂商的业务系统,同样的业务含义,不同数据源可能有不同的表达方式,数据映射组件120提供DWD层数据库表结构管理、标准值域管理等标准化基础数据治理功能,实现一套统一的库、表、字段的数据标准。由于不同来源的原始数据对应的数据格式并不相同,因此不同来源的原始数据对应的预设数据映射任务并不相同。这里的预设数据映射任务可以为预设好的格式处理程序。本领域技术人员可以根据实际需求编辑获得格式处理程序(预设数据映射任务)。
数据质控组件130,用于配置预设质控检测规则程序,将第一标准层数据输入预设质控检测规则程序,以生成质控报告。
需要说明的是,数据质控组件130可以为任意可行的能够获得质控程序,进而利用程序对第一标准层数据进行质控检测,进而生成质控报告的组件/程序/设备。预设质控检测规则程序的具体内容可由本领域技术人员根据实际需求自行确定,例如,可以是现有的能够对第一标准层数据进行完整性,一致性,合理性,及时性,准确性,唯一性,精确性,关联性等维度质控的程序。因此,数据质控组件130能够对平台数据中数据进行质量评估与干预,针对各级各类医疗机构采集或者上传的数据,采用定量、定性多维方法,为信息管理人员提供实时质量监控、问题预警、在线考评功能,以期发现平台收集的数据完整性,一致性,合理性,及时性,准确性,唯一性,精确性,关联性等问题。
作为示例的,数据质控组件130中的程序配置单元能够通过预设界面获取预设质控检测规则程序;其中,预设质控检测规则程序至少包括:预设完整性检测规则程序,预设一致性检测规则程序、预设合理性检测规则程序、预设及时性检测规则程序、预设准确性检测规则程序、精确性检测规则程序。
需要补充说明的是,预设完整性检测规则程序,预设一致性检测规则程序、预设合理性检测规则程序、预设及时性检测规则程序、预设准确性检测规则程序、精确性检测规则程序的具体内容可由本领域技术人员根据现有技术和实际需求自行确定。
值码归一组件140,用于配置值码归一任务,以通过值码归一任务调用NLP算法,对就诊数据、诊断数据、手术数据、检验数据对应的第一标准层数据进行值码归一处理,以获得第一结构化数据。
需要说明的是,值码归一组件140可以为任意可行的能够配置任务,进而调用NLP(Natural Language Processing自然语言处理算法)算法,对数据进行值码归一处理,进而获得输出数据的组件/程序/设备。这里的配置值码归一任务主要为确定具体的第一标准层数据,进而调用NLP算法的任务(程序)。另外,值码归一的主要目标是将各种医疗机构来源的数据字典,通过机器+人工的方式,对照成按照数据标准定义的统一的数据字典。
段落拆解组件150,用于配置文本段落拆解任务,以调用文本拆解算法将病历数据对应的第一标准层数据进行拆分,进而获得对应的一诉五史;将一诉五史存入预设结构化数据表库字段中,以获得第二结构化数据。
需要说明的是,段落拆解组件150可以为任意可行的能够配置任务,进而调用对应算法对第一标准层数据进行拆分,进而获得第二结构化数据的组件/程序/设备。这里的配置文本段落拆解任务主要为生成文本段落拆解任务,生成的文本段落拆解任务里有具体的病历数据,进而在配置完成后,能够通过文本段落拆解任务调用文本拆解算法将病历数据对应的第一标准层数据进行拆分。这里的一诉五史为现有知识,本申请为直接使用,这里的文本拆解算法可以为现有的任意可行的能够从病例数据中拆分出一诉五史的算法,例如,卷积神经网络算法。
自动化脚本组件160,用于获取预设标准层数据自动化运行脚本,以对第一结构化数据和第二结构化数据进行处理,获得第二标准层数据;调用数据质控组件130中的预设质控检测规则程序,以再次获得质控报告。
需要说明的是,自动化脚本组件160可以为任意可行的能够获取自动化运行脚本,进而获得第二标准层数据,以及调用预设质控检测规则程序,以再次获得质控报告的组件/程序/设备。预设标准层数据自动化运行脚本主要为执行一些数据清洗、转换、计算和需要特殊处理的sql或者shell脚本,其具体内容可由本领域技术人员根据现有技术和实际需求自行确定。
患者主索引组件170,用于在接收到再次获得的质控报告满足预设处理标准后,基于患者的预设唯一标识字段,对第二标准层数据进行患者主索引构建与合并,以生成患者信息表;为每个患者生成EMPI值,并将EMPI值更新至患者信息表中。
需要说明的是,患者主索引组件170可以为任意可行的能够进行患者主索引构建与合并,以生成患者信息表、为每个患者生成EMPI值,并将EMPI值更新至患者信息表中的组件/程序/设备。这里的患者主索引(Master Patient Index)为患者在各系统中的唯一标识,后续可以通过此标识可以找出各医院机构对应的患者的分健康档案信息。EMPI(Enterprise Master Patient Index 企业级患者主索引)值能够将来自多个系统的患者标识进行关联,实现同一病人多业务ID的关联和患者信息的统一或关联。其本质上是数据整合,整合后有效解决了多系统中识别病人身份的问题。
另外,本申请在上述组件构建完成后,还提供数据提取服务。具体过程可以为:
系统中的变量提取组件通过预设需求获取界面获取需求关键字,将需求关键字和患者信息表作为预设提取算法的输入,以提取需求关键字在患者信息表中对应的具体数据。
需要补充说明的是,本领域技术人员在获得具体数据后,可以将其存入到数据库表中,以供专病库或者其他医疗应用场景使用。
另外,系统还包括结束任务组件;在操作界面接收到任务结束指令或到达结束时间后,自动登记开始任务对应的任务执行时长和任务执行状态。
除此之外,本申请实施例还提供了一种基于Dolphinscheduler的自动化数据治理方法,如图2所示,本申请实施例提供的方法,主要包括以下步骤:
步骤210、根据预设数据源信息,进行数据采集,以获得原始数据。
需要说明的是,原始数据包括就诊数据、诊断数据、手术数据、检验数据、药品数据和病历数据,且原始数据均包含预设唯一标识字段。
在根据预设数据源信息,进行数据采集,以获得原始数据之前,方法还可以包括:
在Dolphinscheduler上配置一个开始任务;其中,开始任务至少包括:任务名称、开始时间、结束时间、任务描述。
步骤220、获取各个预设数据源信息的原始数据对应的预设数据映射任务,以将各个来源的原始数据统一映射为第一标准层数据。
步骤230、配置预设质控检测规则程序,将第一标准层数据输入预设质控检测规则程序,以生成质控报告。
其中,配置预设质控检测规则程序,具体可以为:
通过预设界面获取预设质控检测规则程序;其中,预设质控检测规则程序至少包括:预设完整性检测规则程序,预设一致性检测规则程序、预设合理性检测规则程序、预设及时性检测规则程序、预设准确性检测规则程序、精确性检测规则程序。
步骤240、配置值码归一任务,以通过值码归一任务调用NLP算法,对就诊数据、诊断数据、手术数据、检验数据对应的第一标准层数据进行值码归一处理,以获得第一结构化数据。
步骤250、配置文本段落拆解任务,以调用文本拆解算法将病历数据对应的第一标准层数据进行拆分,进而获得对应的一诉五史;将一诉五史存入预设结构化数据表库字段中,以获得第二结构化数据。
步骤260、获取预设标准层数据自动化运行脚本,以对第一结构化数据和第二结构化数据进行处理,获得第二标准层数据;调用预设质控检测规则程序,以再次获得质控报告。
步骤270、在接收到再次获得的质控报告满足预设处理标准后,基于患者的预设唯一标识字段,对第二标准层数据进行患者主索引构建与合并,以生成患者信息表;为每个患者生成EMPI值,并将EMPI值更新至患者信息表中。
其中,在为每个患者生成EMPI值,并将EMPI值更新至患者信息表中之后,方法还可以包括:
通过预设需求获取界面获取需求关键字,将需求关键字和患者信息表作为预设提取算法的输入,以提取需求关键字在患者信息表中对应的具体数据。
除此之外,本申请实施例还提供了一种非易失性计算机存储介质,其上存储有可执行指令,在该可执行指令被执行时,实现如上述的一种基于Dolphinscheduler的自动化数据治理方法。
至此,已经结合前文的多个实施例描述了本公开的技术方案,但是,本领域技术人员容易理解的是,本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下,本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合,也可以对相关技术特征作出等同的更改或替换,凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。

Claims (10)

1.一种基于Dolphinscheduler的自动化数据治理系统,其特征在于,所述系统包括:
数据采集组件,用于根据预设数据源信息,进行数据采集,以获得原始数据;其中,原始数据包括就诊数据、诊断数据、手术数据、检验数据、药品数据和病历数据,且原始数据均包含预设唯一标识字段;
数据映射组件,用于获取各个预设数据源信息的原始数据对应的预设数据映射任务,以将各个来源的原始数据统一映射为第一标准层数据;
数据质控组件,用于配置预设质控检测规则程序,将第一标准层数据输入预设质控检测规则程序,以生成质控报告;
值码归一组件,用于配置值码归一任务,以通过值码归一任务调用NLP算法,对就诊数据、诊断数据、手术数据、检验数据对应的第一标准层数据进行值码归一处理,以获得第一结构化数据;
段落拆解组件,用于配置文本段落拆解任务,以调用文本拆解算法将病历数据对应的第一标准层数据进行拆分,进而获得对应的一诉五史;将一诉五史存入预设结构化数据表库字段中,以获得第二结构化数据;
自动化脚本组件,用于获取预设标准层数据自动化运行脚本,以对第一结构化数据和第二结构化数据进行处理,获得第二标准层数据;调用数据质控组件中的预设质控检测规则程序,以再次获得质控报告;
患者主索引组件,用于在接收到再次获得的质控报告满足预设处理标准后,基于患者的预设唯一标识字段,对第二标准层数据进行患者主索引构建与合并,以生成患者信息表;为每个患者生成EMPI值,并将EMPI值更新至患者信息表中。
2.根据权利要求1所述的基于Dolphinscheduler的自动化数据治理系统,其特征在于,所述系统还包括开始任务配置组件,
用于在根据预设数据源信息,进行数据采集,以获得原始数据之前,在Dolphinscheduler上配置一个开始任务;其中,开始任务至少包括:任务名称、开始时间、结束时间、任务描述。
3.根据权利要求2所述的基于Dolphinscheduler的自动化数据治理系统,其特征在于,所述系统还包括结束任务组件;
用于在操作界面接收到任务结束指令或到达结束时间后,自动登记开始任务对应的任务执行时长和任务执行状态。
4.根据权利要求1所述的基于Dolphinscheduler的自动化数据治理系统,其特征在于,数据质控组件包括程序配置单元,
用于通过预设界面获取预设质控检测规则程序;其中,预设质控检测规则程序至少包括:预设完整性检测规则程序,预设一致性检测规则程序、预设合理性检测规则程序、预设及时性检测规则程序、预设准确性检测规则程序、精确性检测规则程序。
5.根据权利要求1所述的基于Dolphinscheduler的自动化数据治理系统,其特征在于,所述系统还包括:
变量提取组件,用于通过预设需求获取界面获取需求关键字,将需求关键字和患者信息表作为预设提取算法的输入,以提取需求关键字在患者信息表中对应的具体数据。
6.一种基于Dolphinscheduler的自动化数据治理方法,其特征在于,所述方法包括:
根据预设数据源信息,进行数据采集,以获得原始数据;其中,原始数据包括就诊数据、诊断数据、手术数据、检验数据、药品数据和病历数据,且原始数据均包含预设唯一标识字段;
获取各个预设数据源信息的原始数据对应的预设数据映射任务,以将各个来源的原始数据统一映射为第一标准层数据;
配置预设质控检测规则程序,将第一标准层数据输入预设质控检测规则程序,以生成质控报告;
配置值码归一任务,以通过值码归一任务调用NLP算法,对就诊数据、诊断数据、手术数据、检验数据对应的第一标准层数据进行值码归一处理,以获得第一结构化数据;
配置文本段落拆解任务,以调用文本拆解算法将病历数据对应的第一标准层数据进行拆分,进而获得对应的一诉五史;将一诉五史存入预设结构化数据表库字段中,以获得第二结构化数据;
获取预设标准层数据自动化运行脚本,以对第一结构化数据和第二结构化数据进行处理,获得第二标准层数据;调用预设质控检测规则程序,以再次获得质控报告;
在接收到再次获得的质控报告满足预设处理标准后,基于患者的预设唯一标识字段,对第二标准层数据进行患者主索引构建与合并,以生成患者信息表;为每个患者生成EMPI值,并将EMPI值更新至患者信息表中。
7.根据权利要求6所述的基于Dolphinscheduler的自动化数据治理方法,其特征在于,在根据预设数据源信息,进行数据采集,以获得原始数据之前,所述方法还包括:
在Dolphinscheduler上配置一个开始任务;其中,开始任务至少包括:任务名称、开始时间、结束时间、任务描述。
8.根据权利要求6所述的基于Dolphinscheduler的自动化数据治理方法,其特征在于,配置预设质控检测规则程序,具体包括:
通过预设界面获取预设质控检测规则程序;其中,预设质控检测规则程序至少包括:预设完整性检测规则程序,预设一致性检测规则程序、预设合理性检测规则程序、预设及时性检测规则程序、预设准确性检测规则程序、精确性检测规则程序。
9.根据权利要求6所述的基于Dolphinscheduler的自动化数据治理方法,其特征在于,在为每个患者生成EMPI值,并将EMPI值更新至患者信息表中之后,所述方法还包括:
通过预设需求获取界面获取需求关键字,将需求关键字和患者信息表作为预设提取算法的输入,以提取需求关键字在患者信息表中对应的具体数据。
10.一种非易失性计算机存储介质,其特征在于,其上存储有计算机指令,所述计算机指令在被执行时实现如权利要求6-9任一项所述的一种基于Dolphinscheduler的自动化数据治理方法。
CN202410412056.1A 2024-04-08 2024-04-08 基于Dolphinscheduler的自动化数据治理系统、方法及介质 Pending CN118012860A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410412056.1A CN118012860A (zh) 2024-04-08 2024-04-08 基于Dolphinscheduler的自动化数据治理系统、方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410412056.1A CN118012860A (zh) 2024-04-08 2024-04-08 基于Dolphinscheduler的自动化数据治理系统、方法及介质

Publications (1)

Publication Number Publication Date
CN118012860A true CN118012860A (zh) 2024-05-10

Family

ID=90954279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410412056.1A Pending CN118012860A (zh) 2024-04-08 2024-04-08 基于Dolphinscheduler的自动化数据治理系统、方法及介质

Country Status (1)

Country Link
CN (1) CN118012860A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台
CN113361230A (zh) * 2021-05-27 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于临床诊疗指南进行电子病历诊疗质控的方法
CN115033566A (zh) * 2022-05-23 2022-09-09 西安交通大学医学院第一附属医院 一种多源异构医疗大数据融合方法及系统
CN115391332A (zh) * 2022-07-15 2022-11-25 生命奇点(北京)科技有限公司 数据治理方法、装置及计算机存储介质
CN116564485A (zh) * 2023-05-31 2023-08-08 上海商汤智能科技有限公司 医疗数据的处理方法、装置、设备、存储介质和程序产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台
CN113361230A (zh) * 2021-05-27 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于临床诊疗指南进行电子病历诊疗质控的方法
CN115033566A (zh) * 2022-05-23 2022-09-09 西安交通大学医学院第一附属医院 一种多源异构医疗大数据融合方法及系统
CN115391332A (zh) * 2022-07-15 2022-11-25 生命奇点(北京)科技有限公司 数据治理方法、装置及计算机存储介质
CN116564485A (zh) * 2023-05-31 2023-08-08 上海商汤智能科技有限公司 医疗数据的处理方法、装置、设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
Taleb et al. Big data pre-processing: A quality framework
Clifford et al. Tracking provenance in a virtual data grid
EP3726375B1 (en) Source code translation
US9165049B2 (en) Translating business scenario definitions into corresponding database artifacts
US10430440B2 (en) Apparatus program and method for data property recognition
CN106104533A (zh) 处理大型数据储存库中的数据集
CN111752959B (zh) 一种实时数据库跨库sql交互方法和系统
CN111797157B (zh) 一种数据处理方法、系统及电子设备和存储介质
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
US20110238711A1 (en) Method and module for creating a relational database schema from an ontology
CN102110102A (zh) 数据处理方法及装置、文件识别方法及工具
CN115374102A (zh) 数据处理方法及系统
CN108108466A (zh) 一种分布式系统日志查询分析方法及装置
CN112507681A (zh) 基于模板设计模式的多源异构医疗数据采集方法
CN108665963A (zh) 一种影像数据分析方法及相关设备
CN112905323A (zh) 数据处理方法、装置、电子设备及存储介质
CN110955674A (zh) 基于java服务的异步导出方法及组件
CN114996288A (zh) 数据比对方法及装置、计算机存储介质、电子设备
CN114756629A (zh) 基于sql的多源异构数据交互分析引擎及方法
CN113254725A (zh) 一种面向图数据库的数据管理与检索增强的方法
CN118012860A (zh) 基于Dolphinscheduler的自动化数据治理系统、方法及介质
CN112487075A (zh) 一种集成关系型和非关系型数据库数据转换的算子
CN107818501B (zh) 精算方法和装置
Marotta et al. Managing source schema evolution in web warehouses
CN105320562A (zh) 一种基于作业特征指纹的分布式作业加速运行方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination