CN108986875A - 一种医疗数据质量确定方法及系统 - Google Patents

一种医疗数据质量确定方法及系统 Download PDF

Info

Publication number
CN108986875A
CN108986875A CN201810860428.1A CN201810860428A CN108986875A CN 108986875 A CN108986875 A CN 108986875A CN 201810860428 A CN201810860428 A CN 201810860428A CN 108986875 A CN108986875 A CN 108986875A
Authority
CN
China
Prior art keywords
record
data
constraint
constraint condition
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810860428.1A
Other languages
English (en)
Inventor
吴骋
贺佳
王志勇
秦宇辰
阮鸣
阮一鸣
郭轶斌
何倩
秦婴逸
郭威
金志超
赵艳芳
王睿
张新佶
叶小飞
郭晓晶
陈琪
许金芳
韩贺东
王蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Second Military Medical University SMMU
Original Assignee
Second Military Medical University SMMU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Second Military Medical University SMMU filed Critical Second Military Medical University SMMU
Priority to CN201810860428.1A priority Critical patent/CN108986875A/zh
Publication of CN108986875A publication Critical patent/CN108986875A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医疗数据质量确定方法及系统。该方法包括:获取表单列表数据和表单记录总数;依据多个完整性约束条件、多个规范性约束条件、多个逻辑性约束条件和多个数值准确性约束条件分别对异常数据进行筛查,得到多个第一记录数、多个第二记录数、多个第三记录数和多个第四记录数;确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数;确定所有完整性约束条件、所有规范性约束条件、所有逻辑性约束条件和所有数值准确性约束条件分别对应的数据的质量以及表单列表数据的整体质量。本发明从完整性、规范性、逻辑性和准确性四个维度综合确定数据的质量,能准确全面地发现和解决医疗数据中潜在的质量问题。

Description

一种医疗数据质量确定方法及系统
技术领域
本发明涉及医疗数据管理技术领域,特别是涉及一种医疗数据质量确定方法及系统。
背景技术
高质量的电子化医疗健康数据是后续深度分析挖掘利用的重要基础。在数据采集环节对医疗健康数据的数据质量进行质量控制、管理和评价具有重要意义。在采集、存储、传输过程中,现有医疗健康数据的数据管理和监测情况下,采集的数据质量不能得到很好的保证,缺乏专门的医疗健康数据质量管理系统,来全面支撑医疗行业的数据质量管理。因此,目前不能全面、准确地发现和解决医疗健康数据中可能存在的质量问题。
发明内容
基于此,有必要提供一种医疗数据质量确定方法及系统,以全面、准确地发现和解决医疗健康数据中可能存在的质量问题。
为实现上述目的,本发明提供了如下方案:
一种医疗数据质量确定方法,包括:
获取医疗数据;所述医疗数据包括表单列表数据和表单记录总数;
依据多个完整性约束条件,对所述表单列表数据中每个完整性约束条件对应的缺失数据进行筛查,得到多个第一记录数;所述第一记录数为每个完整性约束条件对应的缺失数据的记录总数;
依据多个规范性约束条件,对所述表单列表数据中每个规范性约束条件对应的超出预设规范项的数据进行筛查,得到多个第二记录数;所述第二记录数为每个规范性约束条件对应的超出预设规范项数据的记录总数;
依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数;所述第三记录数为每个逻辑性约束条件对应的逻辑异常数据的记录总数;
依据多个数值准确性约束条件,对所述表单列表数据中每个数值准确性约束条件对应的超出预设范围值的数据进行筛查,得到多个第四记录数;所述第四记录数为每个数值准确性约束条件对应的超出预设范围值的数据的记录总数;
依据所述表单记录总数,确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数;所述第一记录总数为每个完整性约束条件对应的筛查记录总数,所述第二记录总数为每个规范性约束条件对应的筛查记录总数,所述第三记录总数为每个逻辑性约束条件对应的筛查记录总数,所述第四记录总数为每个数值准确性约束条件对应的筛查记录总数;
依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。
可选的,依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量,具体包括:
依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度;所述完整度表示所有完整性约束条件对应的数据的质量;
依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度;所述规范度表示所有规范性约束条件对应的数据的质量;
依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度;所述逻辑正确度表示所有逻辑性约束条件对应的数据的质量;
依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度;所述准确度表示所有数值准确性约束条件对应的数据的质量。
可选的,所述依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度,具体包括:
确定每个所述第一记录数对应的完整性约束条件的权重;
依据多个所述第一记录数、每个所述第一记录数对应的完整性约束条件的权重和多个所述第一记录总数确定所述表单列表数据的完整度,具体为
其中S1表示完整度,X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数。
可选的,所述依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度,具体包括:
确定每个所述第二记录数对应的规范性约束条件的权重;
依据多个所述第二记录数、每个所述第二记录数对应的规范性约束条件的权重和多个所述第二记录总数确定所述表单列表数据的规范度,具体为
其中S2表示表规范度,X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数。
可选的,所述依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度,具体包括:
确定每个所述第三记录数对应的逻辑性约束条件的权重;
依据多个所述第三记录数、每个所述第三记录数对应的逻辑性约束条件的权重和多个所述第三记录总数确定所述表单列表数据的逻辑正确度,具体为
其中S3表示表逻辑正确度,X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数。
可选的,所述依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度,具体包括:
确定每个所述第四记录数对应的准确性约束条件的权重;
依据多个所述第四记录数、每个所述第四记录数对应的数值准确性约束条件的权重和多个所述第四记录总数确定所述表单列表数据的准确度,具体为
其中S4表示准确度,X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
可选的,依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数确定所述表单列表数据的整体质量,具体为:
其中,
其中S表示表单列表数据的整体质量,S越大,则表单列表数据的整体质量越好;X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数;X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数;X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数;X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
可选的,所述依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑性约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数,具体包括:
依据多个逻辑完备性约束条件,对所述表单列表数据中逻辑缺失数据进行筛查,得到逻辑缺失记录数;
依据多个逻辑吻合约束条件,对所述表单列表数据中逻辑矛盾数据进行筛查,得到逻辑矛盾记录数;
所述逻辑完备性约束条件和所述逻辑吻合约束条件均属于逻辑性约束条件;所述逻辑缺失记录数和所述逻辑矛盾记录数之和为第三记录数。
本发明还提供了一种医疗数据质量确定系统,所述系统包括:
数据获取模块,用于获取医疗数据;所述医疗数据包括表单列表数据和表单记录总数;
第一筛查模块,用于依据多个完整性约束条件,对所述表单列表数据中每个完整性约束条件对应的缺失数据进行筛查,得到多个第一记录数;所述第一记录数为每个完整性约束条件对应的缺失数据的记录总数;
第二筛查模块,用于依据多个规范性约束条件,对所述表单列表数据中每个规范性约束条件对应的超出预设规范项的数据进行筛查,得到多个第二记录数;所述第二记录数为每个规范性约束条件对应的超出预设规范项数据的记录总数;
第三筛查模块,用于依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑性约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数;所述第三记录数为每个逻辑性约束条件对应的逻辑异常数据的记录总数;
第四筛查模块,用于依据多个数值准确性约束条件,对所述表单列表数据中每个数值准确性约束条件对应的超出预设范围值的数据进行筛查,得到多个第四记录数;所述第四记录数为每个数值准确性约束条件对应的超出预设范围值的数据的记录总数;
记录总数确定模块,用于依据所述表单记录总数,确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数;所述第一记录总数为每个完整性约束条件对应的筛查记录总数,所述第二记录总数为每个规范性约束条件对应的筛查记录总数,所述第三记录总数为每个逻辑性约束条件对应的筛查记录总数,所述第四记录总数为每个数值准确性约束条件对应的筛查记录总数;
数据质量确定模块,用于依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。
可选的,所述数据质量确定模块,具体包括:
完整度确定单元,用于依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度;所述完整度表示所有完整性约束条件对应的数据的质量;
规范度确定单元,用于依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度;所述规范度表示所有规范性约束条件对应的数据的质量;
逻辑正确度确定单元,用于依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度;所述逻辑正确度表示所有逻辑性约束条件对应的数据的质量;
准确度确定单元,用于依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度;所述准确度表示所有数值准确性约束条件对应的数据的质量;
整体质量确定单元,用于依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数确定所述表单列表数据的整体质量,具体为:
其中,
S表示表单列表数据的整体质量,S越大,则表单列表数据的整体质量越好;X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数;X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数;X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数;X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
与现有技术相比,本发明的有益效果是:
本发明提出了一种医疗数据质量确定方法及系统,包括:获取表单列表数据和表单记录总数;依据多个完整性约束条件,对表单列表数据中每个完整性约束条件对应的缺失数据进行筛查,得到多个第一记录数;依据多个规范性约束条件,对表单列表数据中每个规范性约束条件对应的超出预设规范项的数据进行筛查,得到多个第二记录数;依据多个逻辑性约束条件,对表单列表数据中每个逻辑约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数;依据多个数值准确性约束条件,对表单列表数据中每个数值准确性约束条件对应的超出预设范围值的数据进行筛查,得到多个第四记录数;确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数;确定确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。本发明的方法或系统从完整性、规范性、逻辑性和准确性四个不同的维度综合确定数据的质量,囊括了所有潜在的数据问题,因此,能够全面、准确地发现和解决医疗健康数据中可能存在的质量问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种医疗数据质量确定方法的流程图;
图2为本发明实施例一种医疗数据质量确定系统的结构示意图;
图3为本发明的一个具体应用实例医疗数据质量确定方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种医疗数据质量确定方法的流程图。
参见图1,实施例的医疗数据质量确定方法,包括:
步骤S1:获取医疗数据;所述医疗数据包括表单列表数据和表单记录总数。
步骤S2:依据多个完整性约束条件,对所述表单列表数据中每个完整性约束条件对应的缺失数据进行筛查,得到多个第一记录数。
所述第一记录数为每个完整性约束条件对应的缺失数据的记录总数。
步骤S3:依据多个规范性约束条件,对所述表单列表数据中每个规范性约束条件对应的超出预设规范项的数据进行筛查,得到多个第二记录数。
所述第二记录数为每个规范性约束条件对应的超出预设规范项数据的记录总数。
步骤S4:依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数。所述第三记录数为每个逻辑性约束条件对应的逻辑异常数据的记录总数。
所述步骤S4具体包括:
依据多个逻辑完备性约束条件,对所述表单列表数据中逻辑缺失数据进行筛查,得到逻辑缺失记录数;
依据多个逻辑吻合约束条件,对所述表单列表数据中逻辑矛盾数据进行筛查,得到逻辑矛盾记录数;所述逻辑完备性约束条件和所述逻辑吻合约束条件均属于逻辑性约束条件;所述逻辑缺失记录数和所述逻辑矛盾记录数之和为第三记录数。
步骤S5:依据多个数值准确性约束条件,对所述表单列表数据中每个数值准确性约束条件对应的超出预设范围值的数据进行筛查,得到多个第四记录数。
所述第四记录数为每个数值准确性约束条件对应的超出预设范围值的数据的记录总数;
步骤S6:依据所述表单记录总数,确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数。
所述第一记录总数为每个完整性约束条件对应的筛查记录总数,所述第二记录总数为每个规范性约束条件对应的筛查记录总数,所述第三记录总数为每个逻辑性约束条件对应的筛查记录总数,所述第四记录总数为每个数值准确性约束条件对应的筛查记录总数。
步骤S7:确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。
依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。
所述步骤S7具体包括:
依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度;所述完整度表示所有完整性约束条件对应的数据的质量。具体为:
确定每个所述第一记录数对应的完整性约束条件的权重;
依据多个所述第一记录数、每个所述第一记录数对应的完整性约束条件的权重和多个所述第一记录总数确定所述表单列表数据的完整度,具体为
其中S1表示完整度,X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数。
依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度;所述规范度表示所有规范性约束条件对应的数据的质量。具体为:
确定每个所述第二记录数对应的规范性约束条件的权重;
依据多个所述第二记录数、每个所述第二记录数对应的规范性约束条件的权重和多个所述第二记录总数确定所述表单列表数据的规范度,具体为
其中S2表示表规范度,X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数。
依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度;所述逻辑正确度表示所有逻辑性约束条件对应的数据的质量。具体为:
确定每个所述第三记录数对应的逻辑性约束条件的权重;
依据多个所述第三记录数、每个所述第三记录数对应的逻辑性约束条件的权重和多个所述第三记录总数确定所述表单列表数据的逻辑正确度,具体为
其中S3表示表逻辑正确度,X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数。
依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度;所述准确度表示所有数值准确性约束条件对应的数据的质量。具体为:
确定每个所述第四记录数对应的准确性约束条件的权重;
依据多个所述第四记录数、每个所述第四记录数对应的数值准确性约束条件的权重和多个所述第四记录总数确定所述表单列表数据的准确度,具体为
其中S4表示准确度,X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数确定所述表单列表数据的整体质量,具体为:
其中,
其中S表示表单列表数据的整体质量,S越大,则表单列表数据的整体质量越好;X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数;X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数;X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数;X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
本实施例的医疗数据质量确定方法对数据质量在单维度上进行确定,例如完整性维度、规范性维度、逻辑性维度和准确性维度,针对性强;从完整性、规范性、逻辑性和准确性四个不同的维度综合确定数据的质量,囊括了所有潜在的数据问题,因此,能够全面、准确地发现和解决医疗健康数据中可能存在的质量问题。
图2为本发明实施例一种医疗数据质量确定系统的结构示意图。
参见图2,实施例的医疗数据质量确定系统包括:
数据获取模块201,用于获取医疗数据;所述医疗数据包括表单列表数据和表单记录总数。
第一筛查模块202,用于依据多个完整性约束条件,对所述表单列表数据中每个完整性约束条件对应的缺失数据进行筛查,得到多个第一记录数;所述第一记录数为每个完整性约束条件对应的缺失数据的记录总数。
第二筛查模块203,用于依据多个规范性约束条件,对所述表单列表数据中每个规范性约束条件对应的超出预设规范项的数据进行筛查,得到多个第二记录数;所述第二记录数为每个规范性约束条件对应的超出预设规范项数据的记录总数。
第三筛查模块204,用于依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑性约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数;所述第三记录数为每个逻辑性约束条件对应的逻辑异常数据的记录总数。
第四筛查模块205,用于依据多个数值准确性约束条件,对所述表单列表数据中每个数值准确性约束条件对应的超出预设范围值的数据进行筛查,得到第四记录数;所述第四记录数为每个数值准确性约束条件对应的超出预设范围值的数据的记录总数。
记录总数确定模块206,依据所述表单记录总数,确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数;所述第一记录总数为每个完整性约束条件对应的筛查记录总数,所述第二记录总数为每个规范性约束条件对应的筛查记录总数,所述第三记录总数为每个逻辑性约束条件对应的筛查记录总数,所述第四记录总数为每个数值准确性约束条件对应的筛查记录总数。
数据质量确定模块207,用于依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。
所述数据质量确定模块207,具体包括:
完整度确定单元,用于依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度;所述完整度表示所有完整性约束条件对应的数据的质量;
规范度确定单元,用于依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度;所述规范度表示所有规范性约束条件对应的数据的质量;
逻辑正确度确定单元,用于依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度;所述逻辑正确度表示所有逻辑性约束条件对应的数据的质量;
准确度确定单元,用于依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度;所述准确度表示所有数值准确性约束条件对应的数据的质量;
整体质量确定单元,用于依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数确定所述表单列表数据的整体质量,具体为:
其中,
S表示表单列表数据的整体质量,S越大,则表单列表数据的整体质量越好;X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数;X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数;X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数;X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
本实施例的医疗数据质量确定系统对数据质量在单维度上进行确定,例如完整性维度、规范性维度、逻辑性维度和准确性维度,针对性强;从完整性、规范性、逻辑性和准确性四个不同的维度综合确定数据的质量,囊括了所有潜在的数据问题,因此,能够全面、准确地发现和解决医疗健康数据中可能存在的质量问题。
图3为本发明的一个具体应用实例医疗数据质量确定方法的流程图。
参见图3,在具体应用实例中,医疗数据质量确定方法,包括以下步骤:
(1)医疗数据导入(主体:客户端)
该步骤主要实现对符合既定数据库元素结构、格式限定、文件命名规则的多个表单列表数据文件批量导入。具体为:在使用数据导入功能的时候,首先对数据的来源单位与时间(以月为单位)进行选择;用户能够将表单所存储的文件夹作为目标路径,将文件夹内按照固定命名的csv文件数据导入至数据库的表中;导入后显示缺失的表单名称以及导入数据的记录总数。
在导入过程中进行基础数据校验。在导入后弹出对话框,基础数据校验内容:导入的表单列表以及未导入的表单、导入记录的行数、上报数据查重、去除重复记录和空记录。
(2)数据查看与数据维护(主体:客户端)
在导入数据后或使用原有服务器内数据时,可以在主界面上按照单位、时间以及表单进行选择,对数据进行查看,如所选择的单位或时间点无数据,则给出提示。
普通用户可以对自己导入的数据进行管理与删除,在导入数据后可以对数据的属性(数据采集单位和时间)进行修改,或者对导入错误的数据进行删除。
(3)约束条件管理(主体:服务器)
筛查约束条件由执行度等级由低至高分为自定义约束条件、常见约束条件、默认执行约束条件。常见约束条件、默认执行约束条件为系统已建立好的约束条件,位于系统的约束条件数据库中,服务器可以查看系统存储的所有约束条件,服务器可以对所有不同等级的筛查约束条件进行添加、修改或删除。
三种执行等级约束条件说明:
自定义约束条件:用户或后台管理人员可以根据自身需要编写自定义约束条件(编写方法:可在界面通过点选方式或程序录入方式进行),暂时保存在缓存的约束条件库中,可以通过勾选选择是否添加进入本次数据质量筛查的约束条件。自定义约束条件可以升级为常见约束条件,否则将被清除。
常见约束条件:在某一维度的质量确定中通常需要执行的约束条件,可以通过勾选选择是否添加进入本次数据质量筛查的约束条件。该执行等级约束条件永久嵌入在软件数据库的约束条件库中,可由后台管理员进行添加、编辑或删除,或者普通用户可以将自定义约束条件的执行等级升级至常见约束条件,但不能随意删除常见约束条件。
默认执行约束条件:在某一维度的一般质量确定中必需要执行的约束条件,已经嵌入在软件数据库的约束条件库中,或由后台管理员进行添加、编辑或删除。执行数据筛查时,默认勾选,当用户进行特殊的部分条件筛查时可以不勾选。
本具体实施例中,从完整性、规范性、逻辑性和准确性四个维度对表单列表数据进行筛查,下面为各维度筛查过程的说明及举例:
A:完整性:即缺失数据筛查。完整性通过“必填变量”的缺失率反映。“必填变量”定义为必须填写的变量,没有填写则为缺失。例如:确定原始数据中“性别”变量为必填变量,如果该变量缺失则该完整性筛查约束条件状态激活。
缺失率计算方法:缺失率(%)=某必填变量的缺失数/该必填变量对应的记录总数*100%。
B:规范性:通过有取值字典的变量的不规范率反映。对于取值有对应字典规定的变量,其录入值不在字典规定的范围内,则为录入不规范。例如:确定原始数据中“性别”变量的允许取值仅为{男,女,未知},如果该变量的实际取值超出该范围则该规范性筛查约束条件状态激活。
不规范率的计算方法:不规范率(%)=存在录入不规范的记录数/有规范性定义的某变量对应的记录总数*100%。
C:逻辑性:医疗健康数据中,变量与变量间往往存在着一定的逻辑关系。对存在逻辑关系的变量间逻辑不吻合的现象进行筛查,包括逻辑缺失和逻辑矛盾两个方面。
a.逻辑缺失情况:一个变量取某些值或不为空时,与其相关联的一些变量录入值不应为空,否则为逻辑缺失。如:吸烟频率为“现在吸”但“日吸烟量”为空,即为逻辑缺失,该规范性筛查约束条件状态激活。
逻辑缺失率的计算方法:逻辑缺失率(%)=该关联中存在缺失情况的记录数/存在某项逻辑关联的两个变量所包含的记录总数*100%。
b.逻辑矛盾情况:某些变量的录入值之间存在一定的逻辑关系,如违背,则为逻辑矛盾。例如:确定原始数据中患者“年龄”变量与“出生日期”变量存在逻辑关联,如果系统依据“出生日期”变量计算出的患者现年龄与“年龄”变量无法对应则该逻辑矛盾筛查约束条件状态激活。
逻辑矛盾发生率的计算方法:逻辑矛盾发生率(%)=发生逻辑矛盾的记录数/存在某项逻辑关联的变量对应的记录总数*100%。
D:准确性:医疗健康数据中,某些变量的取值存在一个较合理的区间范围,超出范围的数据则提示可能存在取值准确性的问题。研究通过列出极端值的方法用来提示数据可能存在的准确性问题。例如,原始数据中的“年龄”变量取值小于0岁或者大于150岁则认为该变量此条观测值为极端值,该准确性筛查约束条件状态激活。
极端值占比的计算方法:极端值占比(%)=存在极端值的记录数/该变量对应的记录总数*100%。
本具体的实施例中,服务器可以添加新的约束条件,对约束条件的等级进行定义和调整。可以允许客户端添加的约束条件作为新约束条件直接纳入,也可以在后台直接新增、修改、删除约束条件,对约束条件的执行等级进行定义。
(4)自定义与部分常见约束条件管理(主体:客户端)
客户端可以添加新的自定义约束条件,可对所有自定义约束条件进行管理(新增、修改或删除),或根据自定义约束条件的重要程度选择将其进一步升级为常见约束条件。客户端无法对默认执行约束条件和初始设置的常见约束条件进行管理,但可以对客户端新添加后升级错误的常见约束条件进行停用。
(5)单维度数据质量确定(主体:客户端)
单维度数据质量确定可针对四个维度(完整性、规范性、逻辑性、准确性)分别进行。可对默认约束条件以及常见约束条件和自定义约束条件进行勾选,其中自定义约束条件的权重默认为1,作为某次横断面数据质量确定的约束条件,质量确定结果可以以图表的方式呈现。横断面质量确定的时间选择以某月上报的数据集为单位。报告结果可以Word形式下载并保存在用户本机。
(6)多维数据质量确定(主体:客户端)
筛查约束条件的选择与单维度数据质量确定相同,四个维度同时进行,最终输出各维度的加权综合评分,以及将四个维度作为指标的雷达图。加权综合评分,按照权重确定、计算各维度数据质量确定分数、计算多维数据质量确定总分的步骤,由系统直接输出。权重确定方法为德尔菲法,请专家对健康档案数据中的各个约束条件进行重要性(I)和熟悉度(F)的评价,评分均为1-5分,1分为最低,5分为最高。重要性即为该指标对数据质量的影响程度,例如“性别是否缺失”这一约束条件,如果健康数据中性别这一项目的取值缺失会对数据质量产生较为严重的影响,则该约束条件的重要性设置为较高。熟悉度为专家对该指标的了解程度,如专家对于“性别缺失”这一约束条件也较为熟悉,了解其含义,则该约束条件的专家熟悉度评分为较高。根据以上情况,该约束条件将被赋以较高的分数。
某一约束条件的权重(W)计算方法为:
其中,t为专家数量,Ii为第i个专家评定的重要性,Fi为第i个专家评定的熟悉度。
如针对“出生年月晚于入院时间”这一逻辑维度约束条件,有五个专家对其进行评分,重要性得分分别为4,3,2,5,3,而熟悉度评分分别为2,2,3,1,4。则确定该约束条件的权重为:
各约束条件评分(X)的计算方法为:
其中,N为约束条件对应的总记录数,x为出现该约束条件所定义的数据质量问题的记录数。
各维度数据质量确定分数(S)计算方法为:
其中,Sd为维度d的数据质量确定分数,p为维度d中筛查约束条件的数量,Wdj为维度d中第j个约束条件的权重,Xdj为维度d中第j个约束条件的评分。
例如有一组健康数据,包含了1000条记录,完整性维度中包涵了三个约束条件,分别是:姓名是否缺失,性别是否缺失和年龄是否缺失,权重分别为3、4、5,该健康数据检查出10条记录发生了姓名缺失,20条记录发生了性别缺失,30条记录发生了年龄缺失。则计算得出“姓名是否缺失”这一约束条件的评分为:
以此类推,性别缺失和年龄缺失的评分分别为0.98和0.97。而完整性维度的数据质量确定分数为:
多维数据质量确定总分(S)即为各维度数据质量确定分数的总和:
其中,各维度质量确定分数以及多维数据质量确定总分的最高分值为1,最低为0。某维度质量确定分数越高,说明该数据的该维度质量越好,多维数据质量确定总分越高则说明该数据整体质量越好。
本具体实施例中,系统允许高级用户对各单位的综合评分进行排名,并生成柱状图、雷达图以及排名表(单位排名的图表设置勾选框,高级用户可进行勾选,勾选后产生的报告页面上会附有单位排名情况)。
(7)数据上传管理(主体:客户端)
普通用户在数据上报管理中可进行上报功能,上报内容为某单位某时间自查修改后的数据。用户可对修改后的数据再次进行质量确定,生成各维度的质量确定报告,方便自查、自控数据质量。
高级用户可对上报数据进行管理。包括:①通过表格了解各单位(下设子单位)总体上报情况,包括上报次数、最近三次上报时间。②点选单位后按照上报的数据表单的单位进行显示。
(8)数据管理(主体:服务器)
可以添加数据,以及对已添加的数据进行管理,包括更改单位、时间信息,或删除、导出、存储、备份数据等。
(9)单位管理(主体:服务器)
单位分为两级,即大单位下存在小单位,大单位为管理者,对应高级用户账户,小单位为客户端和数据采集单位,对应普通用户账户。大单位可以对小单位进行管理,添加或者删除。
(10)账户与登录(主体:服务器)
账户类型分为普通用户账户、高级用户账户和后台管理员账户,分别设置固定的账号和密码。登录方式为对登录身份进行选择,然后输入账号、密码以及验证码。表1为各等级账户的功能权限表。
表1各等级账户的功能权限
本具体应用实施的医疗数据质量确定方法,具有以下优点:
1)利用上述步骤(3)和(4),体现了系统的交互性与个性化。应用系统内嵌的数据质量筛查约束条件可以满足健康数据质量确定的基本需求,同时提供了约束条件的设定、维护等功能,允许用户通过交互性界面,实现约束条件的自定义,满足用户特定的个性化数据质量确定需要。
2)完备性。本具体应用实施的医疗数据质量确定方法从完整性、规范性、逻辑性、准确性四个不同的维度对数据质量进行质量确定,因此质量确定所使用的核查约束条件涉及数据质量的各个方面。数据缺失、逻辑错误以及极端值的出现等常见的健康数据质量问题均在本本具体应用实施的考虑范围之内。上述步骤(5)在核查约束条件的建立过程中对所有可能出现的健康数据质量问题按照四个不同的维度进行了枚举,基本囊括了所有潜在的数据问题。且在出现了新的数据质量问题时,软件前后台均可以添加新约束条件对新出现的错误进行检查。
3)科学性。本具体应用实施的医疗数据质量确定方法除了采用四个不同维度的评价指标对数据质量进行综合质量确定外,在计算综合评价结果时,系统通过德尔菲法确定的各个约束条件的重要性程度,以权重的方式进行体现,根据内嵌的算法公式,系统可自动给出加权后的综合质量确定结果,充分考虑了不同指标对数据质量的影响程度,并以柱状图、雷达图的方式进行展现,便于发现每个维度下的数据质量问题,使用户改善、对比、评价数据质量。
本说明书中对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种医疗数据质量确定方法,其特征在于,包括:
获取医疗数据;所述医疗数据包括表单列表数据和表单记录总数;
依据多个完整性约束条件,对所述表单列表数据中每个完整性约束条件对应的缺失数据进行筛查,得到多个第一记录数;所述第一记录数为每个完整性约束条件对应的缺失数据的记录总数;
依据多个规范性约束条件,对所述表单列表数据中每个规范性约束条件对应的超出预设规范项的数据进行筛查,得到多个第二记录数;所述第二记录数为每个规范性约束条件对应的超出预设规范项数据的记录总数;
依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数;所述第三记录数为每个逻辑性约束条件对应的逻辑异常数据的记录总数;
依据多个数值准确性约束条件,对所述表单列表数据中每个数值准确性约束条件对应的超出预设范围值的数据进行筛查,得到多个第四记录数;所述第四记录数为每个数值准确性约束条件对应的超出预设范围值的数据的记录总数;
依据所述表单记录总数,确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数;所述第一记录总数为每个完整性约束条件对应的筛查记录总数,所述第二记录总数为每个规范性约束条件对应的筛查记录总数,所述第三记录总数为每个逻辑性约束条件对应的筛查记录总数,所述第四记录总数为每个数值准确性约束条件对应的筛查记录总数;
依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。
2.根据权利要求1所述的一种医疗数据质量确定方法,其特征在于,依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量,具体包括:
依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度;所述完整度表示所有完整性约束条件对应的数据的质量;
依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度;所述规范度表示所有规范性约束条件对应的数据的质量;
依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度;所述逻辑正确度表示所有逻辑性约束条件对应的数据的质量;
依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度;所述准确度表示所有数值准确性约束条件对应的数据的质量。
3.根据权利要求2所述的一种医疗数据质量确定方法,其特征在于,所述依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度,具体包括:
确定每个所述第一记录数对应的完整性约束条件的权重;
依据多个所述第一记录数、每个所述第一记录数对应的完整性约束条件的权重和多个所述第一记录总数确定所述表单列表数据的完整度,具体为
其中S1表示完整度,X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数。
4.根据权利要求2所述的一种医疗数据质量确定方法,其特征在于,所述依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度,具体包括:
确定每个所述第二记录数对应的规范性约束条件的权重;
依据多个所述第二记录数、每个所述第二记录数对应的规范性约束条件的权重和多个所述第二记录总数确定所述表单列表数据的规范度,具体为
其中S2表示表规范度,X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数。
5.根据权利要求2所述的一种医疗数据质量确定方法,其特征在于,所述依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度,具体包括:
确定每个所述第三记录数对应的逻辑性约束条件的权重;
依据多个所述第三记录数、每个所述第三记录数对应的逻辑性约束条件的权重和多个所述第三记录总数确定所述表单列表数据的逻辑正确度,具体为
其中S3表示表逻辑正确度,X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数。
6.根据权利要求2所述的一种医疗数据质量确定方法,其特征在于,所述依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度,具体包括:
确定每个所述第四记录数对应的准确性约束条件的权重;
依据多个所述第四记录数、每个所述第四记录数对应的数值准确性约束条件的权重和多个所述第四记录总数确定所述表单列表数据的准确度,具体为
其中S4表示准确度,X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
7.根据权利要求1所述的一种医疗数据质量确定方法,其特征在于,依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数确定所述表单列表数据的整体质量,具体为:
其中,
其中S表示表单列表数据的整体质量,S越大,则表单列表数据的整体质量越好;X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数;X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数;X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数;X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
8.根据权利要求1所述的一种医疗数据质量确定方法,其特征在于,所述依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑性约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数,具体包括:
依据多个逻辑完备性约束条件,对所述表单列表数据中逻辑缺失数据进行筛查,得到逻辑缺失记录数;
依据多个逻辑吻合约束条件,对所述表单列表数据中逻辑矛盾数据进行筛查,得到逻辑矛盾记录数;
所述逻辑完备性约束条件和所述逻辑吻合约束条件均属于逻辑性约束条件;所述逻辑缺失记录数和所述逻辑矛盾记录数之和为第三记录数。
9.一种医疗数据质量确定系统,其特征在于,所述系统包括:
数据获取模块,用于获取医疗数据;所述医疗数据包括表单列表数据和表单记录总数;
第一筛查模块,用于依据多个完整性约束条件,对所述表单列表数据中每个完整性约束条件对应的缺失数据进行筛查,得到多个第一记录数;所述第一记录数为每个完整性约束条件对应的缺失数据的记录总数;
第二筛查模块,用于依据多个规范性约束条件,对所述表单列表数据中每个规范性约束条件对应的超出预设规范项的数据进行筛查,得到多个第二记录数;所述第二记录数为每个规范性约束条件对应的超出预设规范项数据的记录总数;
第三筛查模块,用于依据多个逻辑性约束条件,对所述表单列表数据中每个逻辑性约束条件对应的逻辑异常的数据进行筛查,得到多个第三记录数;所述第三记录数为每个逻辑性约束条件对应的逻辑异常数据的记录总数;
第四筛查模块,用于依据多个数值准确性约束条件,对所述表单列表数据中每个数值准确性约束条件对应的超出预设范围值的数据进行筛查,得到多个第四记录数;所述第四记录数为每个数值准确性约束条件对应的超出预设范围值的数据的记录总数;
记录总数确定模块,用于依据所述表单记录总数,确定多个第一记录总数、多个第二记录总数、多个第三记录总数和多个第四记录总数;所述第一记录总数为每个完整性约束条件对应的筛查记录总数,所述第二记录总数为每个规范性约束条件对应的筛查记录总数,所述第三记录总数为每个逻辑性约束条件对应的筛查记录总数,所述第四记录总数为每个数值准确性约束条件对应的筛查记录总数;
数据质量确定模块,用于依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数分别确定所有完整性约束条件对应的数据的质量、所有规范性约束条件对应的数据的质量、所有逻辑性约束条件对应的数据的质量、所有数值准确性约束条件对应的数据的质量以及所述表单列表数据的整体质量。
10.根据权利要求9所述的一种医疗数据质量确定系统,其特征在于,所述数据质量确定模块,具体包括:
完整度确定单元,用于依据多个所述第一记录总数和多个所述第一记录数,确定所述表单列表数据的完整度;所述完整度表示所有完整性约束条件对应的数据的质量;
规范度确定单元,用于依据多个所述第二记录总数和多个所述第二记录数,确定所述表单列表数据的规范度;所述规范度表示所有规范性约束条件对应的数据的质量;
逻辑正确度确定单元,用于依据多个所述第三记录总数和多个所述第三记录数,确定所述表单列表数据的逻辑正确度;所述逻辑正确度表示所有逻辑性约束条件对应的数据的质量;
准确度确定单元,用于依据多个所述第四记录总数和多个所述第四记录数,确定所述表单列表数据的准确度;所述准确度表示所有数值准确性约束条件对应的数据的质量;
整体质量确定单元,用于依据多个所述第一记录数、多个所述第二记录数、多个所述第三记录数、多个所述第四记录数、多个所述第一记录总数、多个所述第二记录总数、多个所述第三记录总数和多个所述第四记录总数确定所述表单列表数据的整体质量,具体为:
其中,
S表示表单列表数据的整体质量,S越大,则表单列表数据的整体质量越好;X1j表示第j个完整性约束条件下表单列表数据的完整率,W1j表示第j个完整性约束条件的权重,m表示完整性约束条件的个数,x1j表示第j个完整性约束条件对应的缺失数据的记录总数,N1j表示第j个完整性约束条件对应的筛查记录总数;X2j表示第j个规范性约束条件下表单列表数据的规范率,W2j表示第j个规范性约束条件的权重,n表示规范性约束条件的个数,x2j表示第j个规范性约束条件对应的超出预设规范项数据的记录总数,N2j表示第j个规范性约束条件对应的筛查记录总数;X3j表示第j个逻辑约束条件下表单列表数据的逻辑正确率,W3j表示第j个逻辑性约束条件的权重,k表示逻辑性约束条件的个数,x3j表示第j个逻辑性约束条件对应的逻辑异常数据的记录总数,N3j表示第j个逻辑性约束条件对应的筛查记录总数;X4j表示第j个数值准确性约束条件下表单列表数据的准确率,W4j表示第j个数值准确性约束条件的权重,l表示数值准确性约束条件的个数,x4j表示第j个数值准确性约束条件对应的超出预设范围值的数据的记录总数,N4j表示第j个数值准确性约束条件对应的筛查记录总数。
CN201810860428.1A 2018-08-01 2018-08-01 一种医疗数据质量确定方法及系统 Pending CN108986875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810860428.1A CN108986875A (zh) 2018-08-01 2018-08-01 一种医疗数据质量确定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810860428.1A CN108986875A (zh) 2018-08-01 2018-08-01 一种医疗数据质量确定方法及系统

Publications (1)

Publication Number Publication Date
CN108986875A true CN108986875A (zh) 2018-12-11

Family

ID=64552524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810860428.1A Pending CN108986875A (zh) 2018-08-01 2018-08-01 一种医疗数据质量确定方法及系统

Country Status (1)

Country Link
CN (1) CN108986875A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905490A (zh) * 2021-03-31 2021-06-04 浙江太美医疗科技股份有限公司 一种临床试验电子数据采集系统及其测试方法
CN113806336A (zh) * 2021-09-30 2021-12-17 北京蓝海医信科技有限公司 一种数据质量评估方法及系统
CN114254384A (zh) * 2021-12-10 2022-03-29 卫宁健康科技集团股份有限公司 医疗数据调取方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414601A (zh) * 2013-07-19 2013-11-27 广东电网公司电力调度控制中心 用于通信资源管理系统的数据检测方法和系统
US8626570B2 (en) * 2004-12-22 2014-01-07 Bank Of America Corporation Method and system for data quality management
CN106485403A (zh) * 2016-09-27 2017-03-08 成都金盘电子科大多媒体技术有限公司 基于医疗大数据的医院评价系统及评价方法
CN107563665A (zh) * 2017-09-18 2018-01-09 安徽蓝杰鑫信息科技有限公司 一种电力设施分布与电网资源数据质量评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626570B2 (en) * 2004-12-22 2014-01-07 Bank Of America Corporation Method and system for data quality management
CN103414601A (zh) * 2013-07-19 2013-11-27 广东电网公司电力调度控制中心 用于通信资源管理系统的数据检测方法和系统
CN106485403A (zh) * 2016-09-27 2017-03-08 成都金盘电子科大多媒体技术有限公司 基于医疗大数据的医院评价系统及评价方法
CN107563665A (zh) * 2017-09-18 2018-01-09 安徽蓝杰鑫信息科技有限公司 一种电力设施分布与电网资源数据质量评价方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905490A (zh) * 2021-03-31 2021-06-04 浙江太美医疗科技股份有限公司 一种临床试验电子数据采集系统及其测试方法
CN113806336A (zh) * 2021-09-30 2021-12-17 北京蓝海医信科技有限公司 一种数据质量评估方法及系统
CN114254384A (zh) * 2021-12-10 2022-03-29 卫宁健康科技集团股份有限公司 医疗数据调取方法、装置和计算机设备
CN114254384B (zh) * 2021-12-10 2023-10-20 卫宁健康科技集团股份有限公司 医疗数据调取方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN110300963B (zh) 大规模数据储存库中的数据管理系统
CN110168515B (zh) 用于分析数据关系以支持查询执行的系统
CN102880780B (zh) 产生用于分析数据的直观背景的系统和方法
JP5306360B2 (ja) データ記録を一致させるシステムの分析のための方法およびシステム
CN104462169B (zh) 将数据导入到数据库表中的方法和系统
CN112396404A (zh) 一种数据中台系统
CN108986875A (zh) 一种医疗数据质量确定方法及系统
CN107810500A (zh) 数据质量分析
CN109376139A (zh) 数据库集中监控方法、计算机装置及存储介质
CN110019251A (zh) 一种数据处理系统、方法及设备
CN111143334A (zh) 一种数据质量闭环控制方法
CN102663008B (zh) 政府综合业务平台业务库和基础库的构建方法
CN114357088A (zh) 核电工业数据仓库系统
CN104281523B (zh) 一种需求可测性分析方法及系统
CN108280234A (zh) 数据查询方法及装置
CN114398669A (zh) 基于隐私保护计算和跨组织的联合信用评分方法及装置
CN108228390A (zh) 数据回档方法及装置
CN116662371A (zh) 一种跨域数据融合方法
CN108537243A (zh) 一种违规告警方法及装置
CN110262961A (zh) 工作流管理系统的测试方法、装置、存储介质及终端设备
CN108829578A (zh) 一种cdr关联回填准确性自动化测试方法及系统
EP2742443A1 (en) Database record repair
CN109656945A (zh) 一种信息处理方法
Liang et al. Data Mining of Students' Course Selection Based on Currency Rules and Decision Tree
Savitri et al. Study of localized data cleansing process for ETL performance improvement in independent datamart

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication