CN117275636A - 一种通用系统自动化质疑临床异常数据的方法 - Google Patents
一种通用系统自动化质疑临床异常数据的方法 Download PDFInfo
- Publication number
- CN117275636A CN117275636A CN202311202358.8A CN202311202358A CN117275636A CN 117275636 A CN117275636 A CN 117275636A CN 202311202358 A CN202311202358 A CN 202311202358A CN 117275636 A CN117275636 A CN 117275636A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- department
- confidence coefficient
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000003908 quality control method Methods 0.000 claims abstract description 13
- 125000004122 cyclic group Chemical group 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 10
- 238000007667 floating Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims 5
- 238000007689 inspection Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种通用系统自动化质疑临床数据的方法,具体涉及电子数据处理领域,用于解决现有自动化质疑方法难以界定专业性临床数据是否异常的问题,包括以下步骤:提炼数据质量控制规则,并建立规则库,计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,对异常数据进行定级,计算各科室热度指数,根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序,本发明能够判断临床数据异常与否,并对异常数据进行初步分类和定级,以合理安排人工检核的优先顺序。
Description
技术领域
本发明涉及电子数据处理领域,更具体地说,本发明时一种通用系统自动化质疑临床异常数据的方法。
背景技术
临床数据具有高度的专业化、试验性背景,获取准确可靠的临床数据,对医学研究、疾病治疗具有显著的价值,为了尽可能地降低数据获取过程中的错误率,合理的自动化质疑方法必不可少。
自动化质疑方法能够对所录入临床数据进行提前检核,降低数据审核过程中的人力成本投入,但受限于临床数据的专业化、试验性背景,自动化质疑方法的质疑规则指标难以界定,可能会错误拦截部分真实数据,进而导致数据的人工审核阶段承受压力,甚至会影响医学研究项目的推进。
为了解决上述缺陷,现提供一种技术方案。
发明内容
本发明的目的是提供一种通用系统自动化质疑临床异常数据的方法,以解决背景技术中的不足。
为了实现上述目的,本发明提供如下技术方案:所述方法包括以下步骤;
提炼数据质量控制规则,梳理用于数据质量控制的指标,并建立规则库;
根据规则库执行检核以计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,标记异常数据并反馈回数据提供方,根据反馈结果进行异常数据定级;
根据临床数据来源对定级为严重异常数据的条目进行分类,通过各科室数据处理状态信息计算各科室热度指数;
根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序。
在一个优选的实施方式中,数据质量控制规则的各个维度;
数据质量控制指标包括数据完整度、数据准确度、数据重复度、数据合理度、数据时效度;
数据完整度通过循环冗余校验检验数据字段值的完整度;
数据准确度通过数据值与标准浮动范围的一致程度验证;
数据重复度通过检验数据唯一标识符进行验证;
数据合理度通过检验数据的格式类型进行验证;
数据时效度通过计算jobs数据处理任务所耗时间进行检验。
在一个优选的实施方式中,置信系数的计算方法;
标定数据完整度为Fv,数据重复度为Uq,数据准确度为Ac,数据合理度为Ra,数据时效度为Ti,置信系数Co的表达式为式中,α为的比例系数,且α大于0;
当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值不同,则数据完整度取值为0,当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值相同,则数据完整度取值为1;
当数据值处于标准浮动范围之内,则数据准确度取值为1,当数据值超出标准浮动范围,则数据准确度取值为0;
在数据库中执行SQL查询,选择列并使用DISTINCT关键字对数据进行遍历,若数据重复值的结果集只包含一行,则数据重复度取值为1,若结果集超过一行,则数据重复度取值为0;
数据格式检验通过,则数据合理度取值为1;数据格式检验不通过,则数据合理度取值为0;
对jobs数据处理任务所耗时间进行计时,包括数据提取、清洗、转换、合并、分析、存储全流程所用时间为数据时效度Ti。
在一个优选的实施方式中,对数据进行分类和定级的逻辑;
当置信系数大于等于置信阈值时,数据质量质疑通过,标记所检核数据为正常数据;当置信系数小于置信阈值时,数据质量质疑不通过,标记所检核数据为异常数据;
将异常数据突出标记,并发送数据修改提示,待修改完成后再次计算数据置信系数,若数据质量质疑通过,则定级为普通异常数据,若数据质量质疑未通过,则定级为严重异常数据。
在一个优选的实施方式中,科室热度指数的计算方法;
科室热度指数He=β×Sh×Ro,式中,He为科室热度指数,Sh为科室数据份额,Ro为科室数据变化率,β为Sh×Ro的比例系数,且β大于0;
科室数据份额Sh为各科室数据量占总数据量比例,其表达式为式中,Dd为科室数据量,Nd为总数据量;
科室数据变化率Ro为周期时间内科室数据量的变化率,其表达式为式中,D(t)为t时刻的科室数据量,[t1,t2]为时间周期。
在一个优选的实施方式中,人工介入优先级排序值的计算逻辑;
根据严重异常数据的置信系数生成置信系数排序值c,根据科室热度指数生成科室热度指数排序值k,将置信系数排序值c和科室热度指数排序值k通过公式建立人工介入优先级排序值p,其表达式为p=γ1×c+γ2×k,式中,γ1、γ2分别为置信系数排序值c和科室热度指数排序值k的比例系数,且γ1、γ2均大于0,需要注意的是,γ1、γ2由本领域专业技术人员根据实际情况进行设定;
对n个严重异常数据进行排序,人工介入优先级排序编号为N,则N={1,2,3,…,n},人工介入优先级排序值越大,则编号越大。
在上述技术方案中,本发明提供的技术效果和优点有:
通过提炼数据质量控制规则并建立规则库,计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,对异常数据进行定级,计算各科室热度指数,根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序。
本发明能够客观判断临床数据异常与否,并对异常数据进行初步分类和定级,以合理安排人工检核的优先顺序。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明是一种通用系统自动化质疑临床异常数据的方法,所述方法包括以下步骤:
提炼数据质量控制规则,梳理用于数据质量控制的指标,核对检核对象与匹配规则,并建立规则库;
执行检核并计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,标记异常数据并反馈回数据提供方,根据反馈结果进行异常数据定级;
根据临床数据来源对严重异常数据进行分类,通过各科室数据处理状况计算各科室热度指数;
根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序。
实施例1:数据质量控制指标包括数据完整度、数据准确度、数据重复度、数据合理度、数据时效度。
数据完整度规则指标设定为字段值的完整度,字段值完整度通过循环冗余校验进行验证,通过计算数据的校验和,将校验和附加到数据中进行传输,数据接收端根据相同的循环冗余校验算法对所接收数据进行校验,当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值不同,则确定数据在传输过程中发生了错误损坏,数据完整度取值为0;当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值相同,则确定数据在传输过程中没有发生错误损坏,数据完整度取值为1。
数据准确度规则指标设定为数据值与标准浮动范围的一致程度,当数据值处于标准浮动范围之内,则数据准确度取值为1;当数据值超出标准浮动范围,则数据准确度取值为0,需要指出的是,数据的标准浮动范围由医学领域专业人员根据不同类型数据的实际情况进行自主设定。
数据重复度规则指标设定为数据的重复标识符,在数据库中通过使用主键约束确保数据值的重复,执行SQL查询,选择列并使用DISTINCT关键字对数据进行遍历,若数据重复值的结果集只包含一行,则该列数据符合重复度,数据重复度取值为1,若结果集超过一行,则该列数据不具备重复度,数据重复度取值为0。
数据合理度规则指标设定为数据的格式类型,对数据限定格式类型,在本实施例中,数据所限定的格式类型可以是有特定格式的日期,也可以是有特定格式的电子邮件地址,对于本实施例未列举的特定数据格式同样包括在内,格式检验通过,则数据合理度取值为1;格式检验不通过,则数据合理度取值为0。
数据时效度规则指标设定为jobs数据处理任务所耗时间,对数据处理任务包括数据提取、清洗、转换、合并、分析、存储全流程所用时间进行计时。
数据指标规则库能够为数据质量的统一检核建立基础,并且可根据检核要求对指标规则进行更新,为后续反馈环节提供修正路径。
按照上述规则指标建立规则库,根据规则要求计算临床录入数据各项指标的置信系数,标定数据完整度为Fv,数据重复度为Uq,数据准确度为Ac,数据合理度为Ra,数据时效度为Ti,置信系数Co的表达式为式中,α为的比例系数,且α大于0。
当置信系数Co大于等于置信阈值Ct时,数据质量质疑通过,标记所检核数据为正常数据;当置信系数Co小于置信阈值Ct时,数据质量质疑不通过,标记所检核数据为异常数据。
通过对数据质量各项指标的单独检验,筛选不符合数据质量标准的指标,将异常数据突出标记,并向数据录入者发送数据修改提示,待修改完成后再次收到数据录入请求,重新计算数据置信系数,若数据质量质疑通过,则接收数据并存储;若数据质量质疑未通过,则记录异常数据,将初次录入异常而二次录入正常的数据定级为普通异常数据,将初次录入异常且二次录入异常的数据定级为严重异常数据。
本实施例通过计算录入数据各指标的置信系数,并将置信系数与置信阈值进行对比,筛选录入数据中的异常数据,再将异常数据标记并发送至数据录入端,等待异常数据进行修改,经二次质疑后,将异常数据定级,分为普通异常数据和严重异常数据,二次质疑能够提示数据输入端对所录入数据进行自检,提高处理端的工作效率,能够简洁明了地初步筛除不符合数据质量标准的临床数据。
对临床数据来源进行梳理,以医疗机构内部下设各科室为分类标准,将临床数据来源分为内科、外科、儿科、妇产科和放射科,计算科室数据份额,同时记录各科室数据量随时间周期变化状态,计算科室热度指数He=β×Sh×Ro,式中,He为科室热度指数,Sh为科室数据份额,Ro为科室数据变化率,β为Sh×Ro的比例系数,且β大于0。
科室数据份额Sh为各科室数据量占总数据量比例,其表达式为式中,Dd为科室数据量,Nd为总数据量;
科室数据变化率Ro为周期时间内科室数据量的变化率,其表达式为式中,D(t)为t时刻的科室数据量,[t1,t2]为时间周期。
需要指出的是,对于本实施例未列举的数据来源对象,如其他临床科室数据也属于本发明保护范围之内。
本实施例以科室数据份额和科室数据量随时间周期的变化计算科室热度指数,科室热度指数越高,则科室的数据处理压力越大。
实施例2:在上述实施例1中,分别对临床数据自身数据质量和科室数据压力进行评估,对于严重异常数据,无法通过数据录入端自检方法进行检核,又由于临床数据本身具有科研试验性质,对数据质量的审查有一定的要求,最终数据质疑要依赖人工检核方和数据录入方的直接交流,而人工检核的效率和处理能力受限于人自身条件的限制,难以同时处理大量的临床专业数据,因为要对严重数据的介入处理进行优先级排序,以下为本实施例的排序方法:
对严重异常数据的置信系数建立排序值c,严重异常数据的置信系数越大,则置信系数排序值越高;对各科室的科室热度指数建立排序值k,科室热度指数越大,则科室热度指数排序值越高。
将置信系数排序值c和科室热度指数排序值k通过公式建立人工介入优先级排序值p,其表达式为p=γ1×c+γ2×k,式中,γ1、γ2分别为置信系数排序值c和科室热度指数排序值k的比例系数,且γ1、γ2均大于0,需要注意的是,γ1、γ2由本领域专业技术人员根据实际情况进行设定。
人工介入优先级排序值为处理严重异常数据时所遵循的人工介入次序,通过综合分析数据质量问题程度和科室数据处理压力,根据严重异常数据的置信系数和各科室的科室热度指数,对数据质量问题程度和科室数据处理压力分别进行排序,数据质量问题越严重,则置信系数排序值越大;科室数据处理压力越大,则科室热度指数排序值越大。
人工介入优先级排序值越高,则临床数据人工检核的紧迫性越强,对n个严重异常数据进行排序,人工介入优先级排序编号为N,N={1,2,3,…,n},人工介入优先级排序值越大,则编号越大。
本实施例通过公式综合处理置信系数排序值c和科室热度指数排序值k,建立人工介入优先级排序值p,根据排序值由大到小进行排列,能够合理进行人工介入次序分配。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序货物的形式实现。所述计算机程序货物包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的货物销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件货物的形式体现出来,该计算机软件货物存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种通用系统自动化质疑临床异常数据的方法,其特征在于:所述方法包括以下步骤;
提炼数据质量控制规则,梳理用于数据质量控制的指标,并建立规则库;
根据规则库执行检核以计算置信系数,根据置信系数与置信阈值的对比结果对数据进行分类,标记异常数据并反馈回数据提供方,根据反馈结果进行异常数据定级;
根据临床数据来源对定级为严重异常数据的条目进行分类,通过各科室数据处理状态信息计算各科室热度指数;
根据严重异常数据置信系数生成置信系数排序值,根据科室热度指数生成科室数据热度排序值,对置信系数排序值和科室热度指数进行加权求和生成人工介入优先级排序值,并根据人工介入优先级排序值安排人工检核次序。
2.根据权利要求1所述的一种通用系统自动化质疑临床异常数据的方法,其特征在于:数据质量控制规则的各个维度;
数据质量控制指标包括数据完整度、数据准确度、数据重复度、数据合理度、数据时效度;
数据完整度通过循环冗余校验检验数据字段值的完整度;
数据准确度通过数据值与标准浮动范围的一致程度验证;
数据重复度通过检验数据唯一标识符进行验证;
数据合理度通过检验数据的格式类型进行验证;
数据时效度通过计算jobs数据处理任务所耗时间进行检验。
3.根据权利要求1所述的一种通用系统自动化质疑临床异常数据的方法,其特征在于:置信系数的计算方法;
标定数据完整度为Fv,数据重复度为Uq,数据准确度为Ac,数据合理度为Ra,数据时效度为Ti,置信系数Co的表达式为式中,α为的比例系数,且α大于0;
当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值不同,则数据完整度取值为0,当数据接收端计算循环冗余校验值与数据发送端附加到数据中的循环冗余校验值相同,则数据完整度取值为1;
当数据值处于标准浮动范围之内,则数据准确度取值为1,当数据值超出标准浮动范围,则数据准确度取值为0;
在数据库中执行SQL查询,选择列并使用DISTINCT关键字对数据进行遍历,若数据重复值的结果集只包含一行,则数据重复度取值为1,若结果集超过一行,则数据重复度取值为0;
数据格式检验通过,则数据合理度取值为1;数据格式检验不通过,则数据合理度取值为0;
对jobs数据处理任务所耗时间进行计时,包括数据提取、清洗、转换、合并、分析、存储全流程所用时间为数据时效度Ti。
4.根据权利要求1所述的一种通用系统自动化质疑临床异常数据的方法,其特征在于:对数据进行分类和定级的逻辑;
当置信系数大于等于置信阈值时,数据质量质疑通过,标记所检核数据为正常数据;当置信系数小于置信阈值时,数据质量质疑不通过,标记所检核数据为异常数据;
将异常数据突出标记,并发送数据修改提示,待修改完成后再次计算数据置信系数,若数据质量质疑通过,则定级为普通异常数据,若数据质量质疑未通过,则定级为严重异常数据。
5.根据权利要求1所述的一种通用系统自动化质疑临床异常数据的方法,其特征在于:科室热度指数的计算方法;
科室热度指数He=β×Sh×Ro,式中,He为科室热度指数,Sh为科室数据份额,Ro为科室数据变化率,β为Sh×Ro的比例系数,且β大于0;
科室数据份额Sh为各科室数据量占总数据量比例,其表达式为式中,Dd为科室数据量,Nd为总数据量;
科室数据变化率Ro为周期时间内科室数据量的变化率,其表达式为式中,D(t)为t时刻的科室数据量,[t1,t2]为时间周期。
6.根据权利要求1所述的一种通用系统自动化质疑临床异常数据的方法,其特征在于:人工介入优先级排序值的计算逻辑;
根据严重异常数据的置信系数生成置信系数排序值c,根据科室热度指数生成科室热度指数排序值k,将置信系数排序值c和科室热度指数排序值k通过公式建立人工介入优先级排序值p,其表达式为p=γ1×c+γ2×k,式中,γ1、γ2分别为置信系数排序值c和科室热度指数排序值k的比例系数,且γ1、γ2均大于0,需要注意的是,γ1、γ2由本领域专业技术人员根据实际情况进行设定;
对n个严重异常数据进行排序,人工介入优先级排序编号为N,则N={1,2,3,…,n},人工介入优先级排序值越大,则编号越大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311202358.8A CN117275636B (zh) | 2023-09-18 | 2023-09-18 | 一种通用系统自动化质疑临床异常数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311202358.8A CN117275636B (zh) | 2023-09-18 | 2023-09-18 | 一种通用系统自动化质疑临床异常数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117275636A true CN117275636A (zh) | 2023-12-22 |
CN117275636B CN117275636B (zh) | 2024-05-28 |
Family
ID=89209854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311202358.8A Active CN117275636B (zh) | 2023-09-18 | 2023-09-18 | 一种通用系统自动化质疑临床异常数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117275636B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126958A (zh) * | 2016-07-06 | 2016-11-16 | 温冬梅 | 医疗实验室临床生化检验自动审核方法及系统 |
CN108647891A (zh) * | 2018-05-14 | 2018-10-12 | 口口相传(北京)网络技术有限公司 | 数据异常归因分析方法及装置 |
US20180342023A1 (en) * | 2017-05-25 | 2018-11-29 | A Place for Mom, Inc. | System and method for identifying outlier data in indexed specialty property data |
CN111339126A (zh) * | 2020-02-27 | 2020-06-26 | 平安医疗健康管理股份有限公司 | 医疗数据筛选方法、装置、计算机设备和存储介质 |
CN113886116A (zh) * | 2021-09-09 | 2022-01-04 | 广东电网有限责任公司广州供电局 | 数据质量校验方法、装置、计算机设备和存储介质 |
CN114372681A (zh) * | 2021-12-27 | 2022-04-19 | 见知数据科技(上海)有限公司 | 基于流水数据的企业分类方法、装置、设备、介质和产品 |
CN114707608A (zh) * | 2021-04-14 | 2022-07-05 | 内蒙古卫数数据科技有限公司 | 医疗质控数据处理方法、装置、设备、介质及程序产品 |
US20220359087A1 (en) * | 2021-05-04 | 2022-11-10 | Flatiron Health, Inc. | Systems and methods for analyzing and validating patient information trends |
-
2023
- 2023-09-18 CN CN202311202358.8A patent/CN117275636B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126958A (zh) * | 2016-07-06 | 2016-11-16 | 温冬梅 | 医疗实验室临床生化检验自动审核方法及系统 |
US20180342023A1 (en) * | 2017-05-25 | 2018-11-29 | A Place for Mom, Inc. | System and method for identifying outlier data in indexed specialty property data |
CN108647891A (zh) * | 2018-05-14 | 2018-10-12 | 口口相传(北京)网络技术有限公司 | 数据异常归因分析方法及装置 |
CN111339126A (zh) * | 2020-02-27 | 2020-06-26 | 平安医疗健康管理股份有限公司 | 医疗数据筛选方法、装置、计算机设备和存储介质 |
CN114707608A (zh) * | 2021-04-14 | 2022-07-05 | 内蒙古卫数数据科技有限公司 | 医疗质控数据处理方法、装置、设备、介质及程序产品 |
US20220359087A1 (en) * | 2021-05-04 | 2022-11-10 | Flatiron Health, Inc. | Systems and methods for analyzing and validating patient information trends |
CN113886116A (zh) * | 2021-09-09 | 2022-01-04 | 广东电网有限责任公司广州供电局 | 数据质量校验方法、装置、计算机设备和存储介质 |
CN114372681A (zh) * | 2021-12-27 | 2022-04-19 | 见知数据科技(上海)有限公司 | 基于流水数据的企业分类方法、装置、设备、介质和产品 |
Non-Patent Citations (1)
Title |
---|
宋金玉;陈爽;郭大鹏;王内蒙;: "数据质量及数据清洗方法", 指挥信息系统与技术, no. 05, 28 October 2013 (2013-10-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN117275636B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Becker et al. | Big data, big data quality problem | |
CN109634941B (zh) | 医疗数据处理方法、装置、电子设备及存储介质 | |
CN103649960B (zh) | 用于确定即刻发布结果的最优qc策略的系统与方法 | |
CN111209274B (zh) | 一种数据质量检核方法、系统、设备及可读存储介质 | |
Deming et al. | Exploratory Data Analysis and Visualization for Business Analytics | |
CN116012178B (zh) | 一种基于人工智能的自动化财务对账方法 | |
Tan et al. | Data quality audit of a clinical quality registry: a generic framework and case study of the Australian and New Zealand Hip Fracture Registry | |
CN115185936B (zh) | 一种基于大数据的医疗临床数据质量分析系统 | |
CN114661705A (zh) | 一种基于云计算的大数据分析系统 | |
CN117275636B (zh) | 一种通用系统自动化质疑临床异常数据的方法 | |
US7225106B2 (en) | Data processing system and method for processing test orders | |
CN117275644B (zh) | 基于深度学习的检测结果互认方法、系统及存储介质 | |
CN111858236B (zh) | 知识图谱监控方法、装置、计算机设备及存储介质 | |
CN116663978A (zh) | 一种用于审计数据的质量评估方法和系统 | |
CN113127459B (zh) | 一种数据治理的实现方法、装置、可读介质及电子设备 | |
Weitzel et al. | Measurement uncertainty for the pharmaceutical industry | |
CN115511454A (zh) | 一种生成审核规则的方法、装置及相关产品 | |
CN109446192B (zh) | 数据测试方法及装置 | |
CN107622454A (zh) | 一种基于微服务的机会管理方法 | |
Jabour et al. | Monitoring public health reporting: data tracking in cancer registries | |
CN113487440A (zh) | 模型生成、健康险理赔的确定方法、装置、设备及介质 | |
CN116759099B (zh) | 一种医保基金审核系统数据处理方法、装置及设备 | |
CN116010349B (zh) | 基于元数据的数据检核方法和装置、电子设备和存储介质 | |
CN111737247B (zh) | 用于数据质量管控的实现方法 | |
CN116759099A (zh) | 一种医保基金审核系统数据处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |