CN116434899A

CN116434899A - 一种基于多源数据的健康档案信息平台建立方法

Info

Publication number: CN116434899A
Application number: CN202211496677.XA
Authority: CN
Inventors: 宋小波; 张晓莹; 吴建沪; 王振; 谢留贺; 许尧飞
Original assignee: Hangzhou Half Cloud Technology Co ltd
Current assignee: Hangzhou Half Cloud Technology Co ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-07-14

Abstract

本发明公开了一种基于多源数据的健康档案信息平台建立方法，所述健康档案信息平台建立方法包括以下步骤：A1：基于eHR应用设计前置机数据模型：首先将整块的医疗数据进行数据录入，再结合各医疗结构的数据调研情况后，完善模型设计，约定数据上云的范围，A2：所述A1步骤中医疗数据上云分为结构化数据和非结构化数据，每日进行增量抽取，所述结构化数据首先由医疗机构配置CDC生成增量表。本发明健康档案第一层的服务，就是打通各医疗卫生机构，实现数据的共享，打通了医疗数据的壁垒，提供了一定了业务操作便利，而第二层的功能便是除了打通数据的便利，并且为医院、医生、各用户创造数据的新价值，更便捷高效的服务。

Description

一种基于多源数据的健康档案信息平台建立方法

技术领域

本发明涉及医疗技术领域，具体为一种基于多源数据的健康档案信息平台建立方法。

背景技术

随着医疗信息技术的进步，医疗信息统新模式、新技术、新架构的出现，医院的信息化水平大幅提升。目前要求医院准确把握新一轮科技革命和产业变革趋势，主动适应新兴技术、服务业态和发展形态，创新思维模式、管理模式和服务模式，以信息化为支撑，充分运用云计算、大数据、物联网及移动互联等技术，助推医院医疗模式创新和管理模式创新，促进病人就医便捷化、临床医疗智能化与医院管理精细化，努力建设适应“互联网+”时代背景和精准医疗发展。

健康档案是以个人的身心为核心，贯穿全生命周期，通过多种途径收集和记录各种健康数据，及时更新、保持个人健康信息的连续性和有效性，通过标准规范、科学地记录一个人一生中各项与健康相关的档案。健康档案不仅记录病史、病程、诊疗情况，进行客观展示，还将结合患者/居民的健康习惯、健康管理等信息，再基于大数据分析能力，将使医生会诊的时间大大缩短，质量大大提高；同时，上下级医院的信息交流更可以提高基层医院医疗水平。

基于健康档案的区域卫生信息平台的建设时间整体较早，只覆盖了个人基本信息或基本健康资料的收集，而个人的各类健康评估资料、保健资料、医疗资料等依然分散在各个医疗卫生业务系统中，无法为个人用户提供连续性、标准化的健康档案服务，也无法为医护人员提供全面性的医疗数据参考，更不能在急救、远程会诊、“互联网+”医疗、家庭医生服务等医疗业务场景下发挥协同作用，无法发挥健康档案的串联作用。此外由于健康档案方案储存的信息安全和隐私保护，阻碍了健康档案信息服务行业的发展，用户无法体会到健康管理的便利性和进一步的健康决策等服务。

同时，目前医患间信息同步仍重度依赖纸质病历本，造成医患间信息不对称。患者需要自行携带既往的检查检验报告，缺失漏拿情况时有发生，医生对于患者过往病史及治疗情况难以全面掌握，导致每去一家医院相同检验检查项重复做一遍，造成资源上的极大浪费，不仅造成患者负担，也对医生开具的诊断、处方等存疑，为此，我们提出一种基于多源数据的健康档案信息平台建立方法。

发明内容

本发明的目的在于提供一种基于多源数据的健康档案信息平台建立方法，以解决背景技术中解决的问题。

为实现上述目的，本发明提供如下技术方案：一种基于多源数据的健康档案信息平台建立方法，所述健康档案信息平台建立方法包括以下步骤：

A1：基于eHR应用设计前置机数据模型：首先将整块的医疗数据进行数据录入；

A2：所述A1步骤中医疗数据上云分为结构化数据和非结构化数据，每日进行增量抽取，所述结构化数据首先由医疗机构配置CDC生成增量表，其次医疗机构进行数据ETL准备好中间表数据，最后通过数据集成，根据记录更新时间过滤，抽取每日增量数据到RDS；所述非结构化数据根据报告附件增量表，使用调度程序每日抽取附件到OSS，同时生成运行日志，生成数据视图作数据统计展示；

A3：数据质量以A2步骤形成的数据集(DataSet)为监控对象，数据质量支持MaxCompute数据表的监控，当MaxCompute离线数据发生变化时，数据质量会对数据集进行校验，并且阻塞生产链路，以避免数据污染扩散，所述数据质量与业务相关，当患者的就诊数据，没有被完整的上传收集，字段数据存在缺失，相应数据无法相互关联，则均属于无效数据，并且将相应的无效数据以及有效数据形成圆饼图标，并将相应的符合与不符合相关规则无效数据以及有效数据的数据量百分比进行标识，最终形成一个整体数据质量评判表格，从而来表示数据质量的优劣；

A4：随后利用大数据分析技术和NLP医疗知识图谱，辅助医护人员能够从多组的辅助各类医疗数据集中对需要的数据等进行快速定位、获取各场景下的重点信息，便可以对患者进行诊断，同时，也可以为用户提供相应地医疗及健康服务，所述数据集中的快速定位是通过医护人员对相应的数据集进行系统查询，并对患者相关数据进行快速查询，从而便可以完成医疗数据的快速定位；而相应的数据集具有相应的数据集维护人员，通过相应的数据处理维护平台进行数据查看；

A5：通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行分析处理，形成算法模型，在医生访问患者的相关数据时提供相似性分析服务，进行检查项目相似性分析：医生在为患者诊治时，问诊完患者的相关信息后进行开立检查项目时，根据需要提示医生该患者在过往一段时间内所做的一些相似检查项目的报告，医生则可以根据情况判断是否需要继续开单检查；

A6：对就医患者进行就医信息以及相应的医疗数据进行相似关联度判断，在判断过程中需要考虑相同检查项目的类型，还需要考虑检查部位的包含关系，不同的部位的相似度相差较大，通过大量数据的算法训练后得出重复性和相似性提醒，从而可减少不必要的开单；

所述相似关联度的计算流程包括以下步骤：

计算搜索词与每篇文档之间的相关性分数；

Score(Q,d)＝sum_i ⁿW_i.R(q_i,d)

其中，Q为用户输入的搜索关键字；q_i表示用户输入的关键字解析之后的语素，其中关键词解析之后的语素为中文的时候，分词作为语素，每个分词为一个语素；

d：表示其中一组被搜索的相关医疗数据；

R(q_i,d)表示语素q_i与相关医疗数据d的相关性得分；

W_i表示语素与q_i的权重；

IDF(q_i)＝logfracN-n(q_i)+0.5n(q_i)+0.5

其中，N表示录入的所有医疗数据中的全部医疗数据数；

n(q_i)：表示为包含了q_i的医疗数据数；

R(q_i,d)＝fracf_i.(k₁+1)f_i+K.fracf_i.(k₂+1)qf_i+k₂

K＝k₁.(1-b+b.fracdlavg(dl))

其中，k₁、k₂、b属于调节因子，设置为k₁＝2,b＝0.75；

f_i：表示语素q_i在每篇相应医疗数据中出现的频率；

qf_i：表示语素q_i在搜索关键词中出现的频率；

dl：表示医疗数据的长度；

avg(dl)：表示所有医疗数据集中所有医疗数据的平均长度

A7：利用通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行分析处理进行检验项目相关性分析：利用多组医疗机构的各个科室的常检验项目族来确定各个科室和常检验项目族之间的关联关系，随后基于科室之间的相关性、检验项目归一或者检验项目之间的相关性，推荐就诊科室的医生关注历史的某些检验项目报告，医生查看患者既往健康信息时，可以通过相关度推荐查看相关度较高的检验项目报告；

A8：利用通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行分析处理进行检验项目相关性分析，进行某些特定健康指标或项目的健康风险评估计算，个人用户可观察自身长期健康的变化状况及评估当前的健康风险，进行自我健康监测及管理，从而形成相应的档案信息管理平台。

优选的，所述A1步骤中录入的医疗数据分为患者身份识别数据、门诊就诊纪录、急诊就诊记录、住院出院病历、药品处方西成药、药品处方中药、检查报告、手术报告、检验结果、药敏结果、细菌结果、过敏及药物不良反应、防疫接种、个人疾病史等模型，再结合各医疗结构的数据调研情况后，完善模型设计，约定数据上云的范围。

优选的，所述健康档案信息平台支持面向各类场景的健康档案智能化、个性化展示，包括医生工作台的调阅、用户手机端和web端。

优选的，所述医疗数据的存储采用分层存储的数据集合当前在MaxCompute上建立的数据仓库构架可分成数据缓冲层、数据清洗层、数据明细层、应用数据层和增量数据同步层；

数据缓冲层：在存储数据上云的原始数据，与医院内部系统的数据内容、数据结构保持一致，主要为了后续数据处理有源可查；

数据清洗层：对数据缓冲层的数据进行标准化处理，对相应数值、姓名、手机号、身份证号等数据进行数据的标准化，并且将相应的无效数据进行清洗去除；

数据明细层：对数据清洗层的数据进行整合、关联，处理为各类主题的完整的明细数据；

应用数据层：按照各类应用不同的需求，对数据明细层的数据进行组装，最终将组装完成后的数据进行归类整理，并将数据给到不同应用场景中进行使用；

增量数据同步层：各类应用数据层的结果数据进行同步，将数据从大数据平台同步到应用的数据库，供应用进行使用。

优选的，所述数据质量同时提供了历史校验结果管理，以便对数据质量进行分析和定级，所述校验结果是对A1步骤中输入的数据进行验证的结果，所述校验结果属于数据质量的明细数据。

优选的，所述约定上云范围包括数据量范围以及数据类别，所述数据量为相应时间段的相关传输数据量数据，当数据量到达一定阈值之后即可将数据量进行上云，所述数据类别约定为相应医院所存在的业务所产生的数据，比如近三个月的门诊、急诊就诊记录、药品处方、检查报告、检验报告等不同类型数据。

优选的，所述数据质量的分析和定级根据相应业务对数据质量进行分析和定级，所述数据质量的分析的密度是为了对现有的检测规则进行新增、修改和删除；所述数据质量的定级主要是为了给不同的规则做得分权重，来调整不同规则对于数据质量的关联程度。

优选的，所述相似关联度判断通过计算文本相似度来判断相似关联度，如文本检索、自动问答、文档分类聚类、文档查重、摘要；

所述相似关联度的判断在医疗数据的长度对相关性影响的中，长度越大，医疗数据的长度影响越大，而医疗数据的相对长度越长，值越大，相关性得分也相应越少，为此医疗数据越长包含的可能性就越大，相关性就要越弱；

为此，相似关联度得分公式为：

与现有技术相比，本发明具有以下有益效果：

1、本发明健康档案第一层的服务，就是打通各医疗卫生机构，实现数据的共享，打通了医疗数据的壁垒，提供了一定了业务操作便利，而第二层的功能便是除了打通数据的便利，并且为医院、医生、各用户创造数据的新价值，更便捷高效的服务。

2、并且本发明为医生以及卫生医疗机构提供实际智能化应用功能，真正将医疗机构上传的数据应用起来，将智能化功能辅助到医生的日常业务中，以辅助医生完成部分诊前、诊中、诊后的工作，从而形成良性的循环，医院上传数据更好、得到的产品应用效果更好。

3、健康档案以居民个人健康为核心，涵盖各种健康相关因素，包括基本信息、主要疾病和健康问题摘要、主要卫生服务记录等内容，健康档案信息主要来源于医疗卫生服务记录、健康体检记录和疾病调查记录等，在医院就诊和接受公共卫生服务产生的信息，包括诊断、用药、处方、检验检查、手术等与健康相关的信息，健康档案贯穿在居民的每一次就诊记录和卫生服务记录中。通过多源数据的健康档案信息展示，实现多场景健康档案资源共享，满足多个用户端不同的使用需求，有针对性地授权高相关性的健康档案信息，完成健康管理及进一步的健康决策推荐。

4、而通过健康档案建立和实施医疗机构检查检验结果互认机制，其依赖于建立在医院机构平台的整体水平提升乃至达到水平基本一致的基础上，根据目前的医疗卫生健康情况，建立诊前、诊中、诊后互认机制模式，控制不必要的检查，减轻患者经济负担，做到惠民利民，服务民生，同时根据智能算法模型，对不同医疗机构进行标准机构化识别，可以对由不同医疗机构的检查名称、检查设备、检查结果标准等不同引起的差异性识别，在诊疗的整个过程中，医师可收到检验检查报告的重复识别百分比，提出智能化的建议或决策。

5、并且通过用户个人健康档案的建设，面向个人用户开放记录，既满足了个人用户获取自身医疗健康信息的需求，提供了体系化、连续的档案管理，可以促进个人更了解自身的治疗，拥有参与感，特别是慢性长期病的用户，可以通过对个人健康信息的管理，全程参与自身数据才加的过程，观察自身长期健康的变化状况，进而更了解各项行为习惯对自身健康的影响，提升市民自我健康管理观念。

6、通过健康档案的健康管理及健康决策服务，可以帮助个人和医生之间的沟通：个人可以通过日常的跟踪补充，就诊医生、家庭医生可以更好了解个人用户的健康状况，更针对性的诊治或健康咨询。

附图说明

图1为本发明系统原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参阅图1，本发明提供一种技术方案：一种基于多源数据的健康档案信息平台建立方法，所述健康档案信息平台建立方法包括以下步骤：

A1：基于eHR应用设计前置机数据模型：首先将整块的医疗数据进行数据录入，并且将录入的医疗数据分为患者身份识别数据、门诊就诊纪录、急诊就诊记录、住院出院病历、药品处方西成药、药品处方中药、检查报告、手术报告、检验结果、药敏结果、细菌结果、过敏及药物不良反应、防疫接种、个人疾病史等模型，再结合各医疗结构的数据调研情况后，完善模型设计，约定数据上云的范围；

其中，就诊纪录的设置可以将患者的身份以及在不同医院进行的检测报告进行录入，这样的设置实现各医疗卫生机构的数据共享，数据共享打通了医疗数据的壁垒，提供了一定了业务操作便利，并且除了打通数据的便利，还为医院、医生、各用户创造数据的新价值，更便捷高效的服务。

其中，数据质量的实时表格可以及时对收集的就诊数据进行有效统计，并且可以通过圆饼图标的方式进行显示，这样可以使操作者可以及时通过数据质量来观测数据质量的优劣，并确保就诊数据的完整可利用性。

其中，大数据分析技术和NLP医疗知识图谱的设置，可以通过健康档案建立和实施医疗机构检查检验结果互认机制，其依赖于建立在医院机构平台的整体水平提升乃至达到水平基本一致的基础上，根据目前的医疗卫生健康情况，建立诊前、诊中、诊后互认机制模式，控制不必要的检查，减轻患者经济负担，做到惠民利民，服务民生，同时根据智能算法模型，对不同医疗机构进行标准机构化识别，可以对由不同医疗机构的检查名称、检查设备、检查结果标准等不同引起的差异性识别，在诊疗的整个过程中，医师可收到检验检查报告的重复识别百分比，提出智能化的建议或决策。

所述检查项目包括CT、MRI、超声、MRA。

所述检查部位包括腹部、头部、腹部、下肢、双下肢。

所述健康档案信息平台支持面向各类场景的健康档案智能化、个性化展示，包括医生工作台的调阅、用户手机端和web端。

所述医疗数据的存储采用分层存储的数据集合当前在MaxCompute上建立的数据仓库构架可分成数据缓冲层、数据清洗层、数据明细层、应用数据层和增量数据同步层；

所述数据质量同时提供了历史校验结果管理，以便对数据质量进行分析和定级，所述校验结果是对A1步骤中输入的数据进行验证的结果，所述校验结果属于数据质量的明细数据。

所述约定上云范围包括数据量范围以及数据类别，所述数据量为相应时间段的相关传输数据量数据，当数据量到达一定阈值之后即可将数据量进行上云，所述数据类别约定为相应医院所存在的业务所产生的数据，比如近三个月的门诊、急诊就诊记录、药品处方、检查报告、检验报告等不同类型数据。

所述数据质量的分析和定级根据相应业务对数据质量进行分析和定级，所述数据质量的分析的密度是为了对现有的检测规则进行新增、修改和删除；所述数据质量的定级主要是为了给不同的规则做得分权重，来调整不同规则对于数据质量的关联程度。

所述相似关联度判断通过计算文本相似度来判断相似关联度，如文本检索、自动问答、文档分类聚类、文档查重、摘要；

所述相似关联度的计算流程包括以下步骤：

计算搜索词与每篇文档之间的相关性分数；

d：表示其中一组被搜索的相关医疗数据；

R(q_i,d)表示语素q_i与相关医疗数据d的相关性得分；

W_i表示语素与q_i的权重；

IDF(q_i)＝logfracN-n(q_i)+0.5n(q_i)+0.5

其中，N表示录入的所有医疗数据中的全部医疗数据数；

n(q_i)：表示为包含了q_i的医疗数据数；

R(q_i,d)＝fracf_i.(k₁+1)f_i+K.fracf_i.(k₂+1)qf_i+k₂

K＝k₁.(1-b+b.fracdlavg(dl))

其中，k₁、k₂、b属于调节因子，设置为k₁＝2,b＝0.75；

f_i：表示语素q_i在每篇相应医疗数据中出现的频率；

qf_i：表示语素q_i在搜索关键词中出现的频率；

dl：表示医疗数据的长度；

avg(dl)：表示所有医疗数据集中所有医疗数据的平均长度；

而在医疗数据的长度对相关性影响的中，长度越大，医疗数据的长度影响越大，而医疗数据的相对长度越长，值越大，相关性得分也相应越少，为此医疗数据越长包含的可能性就越大，相关性就要越弱；

为此，相似关联度得分公式为：

其中，通过上述公式可以对就医患者的就医信息以及相应的医疗数据进行相似关联度的判断，在判断过程中可以避免就医患者对相同检查项目类型进行重复性检查，一定程度上也避免了重复开单。

并且，虽然每家医疗机构的科室字典可能不同，但各个科室有常检验项目族，各个科室和常检验项目族之间存在关联关系，基于科室之间的相关性、检验项目归一或者检验项目之间的相关性，推荐就诊科室的医生关注历史的某些检验项目报告。医生查看患者既往健康信息时，可以通过相关度推荐查看相关度较高的检验项目报告。

实施例二：

当就医患者就诊时未随身携带过往就诊病历，或历史就诊档案已遗失，根据患者的口头自述和回忆无法作为真实参考，此时健康档案可以通过就医患者的口头叙述，可以高效方便的是医生通过数据库中的医疗信息进行快速获取，这样的设置可以使医生获取患者客观真实的既往健康问题，根据健康档案构建的患者画像，为医生的问诊提供智能推荐。

实施例三：

其中，很多检查检验结果在正常范围，在一定时间内同样也具有参考价值，就诊医生可以通过健康档案中的数据内容将当前结果与历史结果做一个对比，来判断该指标的升高与降低情况，比如血清肌酐，可将之前正常结果值作为基线值，来判断肌酐升高程度，对于估计肾损伤程度具有一定参考价值。

使用时，首先，通过将就诊患者的医疗数据进行数据录入，随后录入的数据上云分为结构化数据和非结构化数据，随后通过数据集成将相应的医疗数据生成相应的数据视图作为数据统计展示，随后以数据集(DataSet)为监控对象，将相应的符合与不符合相关规则无效数据以及有效数据的数据量百分比进行标识，最终形成一个整体数据质量评判表格，从而来表示数据质量的优劣，而大数据分析技术和NLP医疗知识图谱可以对相应的数据的快速定位以及在医生访问患者的相关数据时提供相似性分析服务，进行检查项目相似性分析，随后对就医患者进行就医信息以及相应的医疗数据进行相似关联度判断，而利用通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行分析处理进行检验项目相关性分析，这样的设置医生查看患者既往健康信息时，可以通过相关度推荐查看相关度较高的检验项目报告，利用通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行分析处理进行检验项目相关性分析，进行某些特定健康指标或项目的健康风险评估计算，个人用户可观察自身长期健康的变化状况及评估当前的健康风险，进行自我健康监测及管理，从而形成相应的档案信息管理平台。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述健康档案信息平台建立方法包括以下步骤：

A2：所述A1步骤中医疗数据上云分为结构化数据和非结构化数据，将结构化数据和非结构化数据生成数据视图作数据统计展示；

A3：数据质量以A2步骤形成的数据集(DataSet)为监控对象，当离线数据发生变化时，数据质量会对数据集进行校验，并且阻塞生产链路，以避免数据污染扩散，并形成整体数据质量评判表格，从而来表示数据质量的优劣；

A4：利用大数据分析技术和NLP医疗知识图谱，辅助医护人员能够从多组的辅助各类医疗数据集中对需要的数据等进行快速定位、获取各场景下的重点信息；

A5：通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行分析处理，形成算法模型；

所述相似关联度的计算流程包括以下步骤：

计算搜索词与每篇文档之间的相关性分数；

Score(Q,d)＝sum_i ⁿW_i.R(q_i,d)

d：表示其中一组被搜索的相关医疗数据；

R(q_i,d)表示语素q_i与相关医疗数据d的相关性得分；

W_i表示语素与q_i的权重；

IDF(q_i)＝logfracN-n(q_i)+0.5n(q_i)+0.5

其中，N表示录入的所有医疗数据中的全部医疗数据数；

n(q_i)：表示为包含了q_i的医疗数据数；

R(q_i,d)＝fracf_i.(k₁+1)f_i+K.fracf_i.(k₂+1)qf_i+k₂

K＝k₁.(1-b+b.fracdlavg(dl))

其中，k₁、k₂、b属于调节因子，设置为k₁＝2,b＝0.75；

f_i：表示语素q_i在每篇相应医疗数据中出现的频率；

qf_i：表示语素q_i在搜索关键词中出现的频率；

dl：表示医疗数据的长度；

avg(dl)：表示所有医疗数据集中所有医疗数据的平均长度

A7：利用通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行分析处理，进行检验项目相关性分析：利用多组医疗机构的各个科室的常检验项目族来确定各个科室和常检验项目族之间的关联关系，通过相关度推荐查看相关度较高的检验项目报告；

A8：利用通过大数据分析技术和NLP医疗知识图谱对诊疗数据进行某些特定健康指标或项目的健康风险评估计算,个人用户可观察自身长期健康的变化状况及评估当前的健康风险，进行自我健康监测及管理，从而形成相应的档案信息管理平台。

2.根据权利要求1所述的一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述A1步骤中录入的医疗数据分为患者身份识别数据、门诊就诊纪录、急诊就诊记录、住院出院病历、药品处方西成药、药品处方中药、检查报告、手术报告、检验结果、药敏结果、细菌结果、过敏及药物不良反应、防疫接种、个人疾病史等模型，再结合各医疗结构的数据调研情况后，完善模型设计，约定数据上云的范围。

3.根据权利要求1所述的一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述健康档案信息平台支持面向各类场景的健康档案智能化、个性化展示，包括医生工作台的调阅、用户手机端和web端。

4.根据权利要求1所述的一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述医疗数据的存储采用分层存储的数据集合当前在MaxCompute上建立的数据仓库构架可分成数据缓冲层、数据清洗层、数据明细层、应用数据层和增量数据同步层；

5.根据权利要求1所述的一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述数据质量同时提供了历史校验结果管理，以便对数据质量进行分析和定级，所述校验结果是对A1步骤中输入的数据进行验证的结果，所述校验结果属于数据质量的明细数据。

6.根据权利要求1所述的一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述约定上云范围包括数据量范围以及数据类别，所述数据量为相应时间段的相关传输数据量数据，当数据量到达一定阈值之后即可将数据量进行上云，所述数据类别约定为相应医院所存在的业务所产生的数据，比如近三个月的门诊、急诊就诊记录、药品处方、检查报告、检验报告等不同类型数据。

7.根据权利要求5所述的一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述数据质量的分析和定级根据相应业务对数据质量进行分析和定级，所述数据质量的分析的密度是为了对现有的检测规则进行新增、修改和删除；所述数据质量的定级主要是为了给不同的规则做得分权重，来调整不同规则对于数据质量的关联程度。

8.根据权利要求4所述的一种基于多源数据的健康档案信息平台建立方法，其特征在于：所述相似关联度的判断在医疗数据的长度对相关性影响的中，长度越大，医疗数据的长度影响越大，而医疗数据的相对长度越长，值越大，相关性得分也相应越少，为此医疗数据越长包含的可能性就越大，相关性就要越弱；

为此，相似关联度得分公式为：