CN111261298B - 一种医疗数据质量预判方法、装置、可读介质及电子设备 - Google Patents

一种医疗数据质量预判方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN111261298B
CN111261298B CN201911360670.3A CN201911360670A CN111261298B CN 111261298 B CN111261298 B CN 111261298B CN 201911360670 A CN201911360670 A CN 201911360670A CN 111261298 B CN111261298 B CN 111261298B
Authority
CN
China
Prior art keywords
target
data
quality
medical data
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911360670.3A
Other languages
English (en)
Other versions
CN111261298A (zh
Inventor
马莎
陈翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN201911360670.3A priority Critical patent/CN111261298B/zh
Publication of CN111261298A publication Critical patent/CN111261298A/zh
Application granted granted Critical
Publication of CN111261298B publication Critical patent/CN111261298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种医疗数据质量预判方法、装置、可读介质及电子设备,该方法包括:确定目标医疗数据对应的目标病种信息;根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型;通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果。本发明提供的技术方案通过机器学习算法建立以病种信息为维度的质量预判模型,实现对各种医疗数据自动的质量预判,在预判过程中无需人工参与,从而有效的提高医疗数据质量预判的准确性和效率。

Description

一种医疗数据质量预判方法、装置、可读介质及电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种医疗数据质量预判方法、装置、可读介质及电子设备。
背景技术
近年来,为了有效的利用医学资源而推进的医学资源数字化进程已有所成效,这使得大数据分析技术手段在医疗领域得到了实质的发展,越来越多的人开始利用大数据分析技术数据解决医疗数据的质量预判问题。
目前,在利用大数据分析技术进行医疗数据的质量预判时,通常是对医疗数据的从不同测试特性进行测试,其中测试特性包括字段空值率、数据类型、数据值域等,测试后以报表等可视化方式进行展示,提供给相关医疗人员进行二次判断。
由上可知,目前对医疗数据质量预判时,仍需要相关医疗人员进行二次判断,医疗数据质量预判结果依赖于相关医疗人员的经验水平,因此人工因素的存在,导致现有的医疗数据质量预判结果的准确性较低。
发明内容
本发明提供一种医疗数据质量预判方法、装置、计算机可读介质及电子设备,通过机器学习算法建立以病种信息为维度的质量预判模型,实现对各种医疗数据自动的质量预判,在预判过程中无需人工参与,从而有效的提高医疗数据质量预判的准确性和效率。
第一方面,本发明提供了一种医疗数据质量预判方法,包括:
确定目标医疗数据对应的目标病种信息;
根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型;
通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果。
第二方面,本发明提供了一种医疗数据质量预判装置,包括:
第一确定模块,用于确定目标医疗数据对应的目标病种信息;
第二确定模块,用于根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型;
质量预判模块,用于通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面所述的方法。
本发明提供了一种医疗数据质量预判方法、装置、可读介质及电子设备;该方法通过机器学习算法建立以病种信息为维度的质量预判模型,在确定了目标医疗数据对应的目标病种信息后,选取目标病种信息对应的目标质量预判模型,通过目标质量预判模型对目标医疗数据进行计算分析,确定目标医疗数据的质量预判结果,在对目标医疗数据进行质量预判过程中无需人工参与,有效提高医疗数据质量预判的准确性和效率。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的医疗数据质量预判方法的流程示意图;
图2为本发明又一实施例提供的医疗数据质量预判方法的流程示意图;
图3为本发明一实施例提供的医疗数据质量预判方法中一种建立质量预判模型的流程示意图;
图4为本发明一实施例提供的医疗数据质量预判方法中又一种建立质量预判模型的流程示意图;
图5为本发明一实施例提供的医疗数据质量预判方法中另一种建立质量预判模型的流程示意图;
图6为本发明一实施例提供的医疗数据质量预判装置的结构示意图;
图7为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现阶段利用大数据分析技术对医疗数据进行测试后,多以报表等可视化方式进行展示,然后还需提供给相关医疗人员进行二次判断,该判断结果依赖于相关医疗人员的经验水平,因人工因素的存在,导致现有的医疗数据质量预判结果的准确性较低。因此,本发明将通过机器学习算法建立质量预判模型,利用该质量预判模型对目标医疗数据进行质量预判,可以得到较为准确的质量预判结果。
参照图1所示,为本发明提供的医疗数据质量预判方法的一个具体实施例。本实施例中所述方法包括以下步骤:
步骤101,确定目标医疗数据对应的目标病种信息。
本实施例中,目标医疗数据为待进行质量预判的待测数据,目标病种信息是指待测数据对应的病种信息,其中病种信息可以是根据病种分类得到的疾病组合,如病种分类中的A类癌症,也可以是具体到某一种病症,如糖尿病,用户可以根据实际业务场景进行病种信息的确定。具体的,目标医疗数据为大量的真实临床诊疗数据,或是对真实的临床诊疗数据进行数据迭代产生的生产数据。
步骤102,根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型。
本实施例中,在进行医疗数据质量预判前,预先利用机器学习算法,建立质量预判模型,因不同的病种的医疗数据的质量预判规则差异较大,因此为了得到准确的质量预判结果,以病种信息为维度建立质量预判模型,即不同的病种信息对应不同的质量预判模型。在确定了目标病种信息后,在预先建立好的质量预判模型中确定出目标质量预判模型,目标质量预判模型为选取出的对目标医疗数据进行计算分析的质量预判模型。例如确定出目标病种信息为糖尿病,则确定出糖尿病对应的质量预判模型。
步骤103,通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果。
本实施例中,通过目标质量预判模型对目标医疗数据进行计算分析,可以确定出目标医疗数据的质量预判结果。具体的将目标医疗数据输入目标质量预判模型,得到相应的质量预判结果。
通过以上技术方案可知,本实施例所述方法存在的有益效果是:通过机器学习算法建立以病种信息为维度的质量预判模型,在确定了目标医疗数据对应的目标病种信息后,选取目标病种信息对应的目标质量预判模型,通过目标质量预判模型对目标医疗数据进行计算分析,确定目标医疗数据的质量预判结果,在对目标医疗数据进行质量预判过程中无需人工参与,有效提高医疗数据质量预判的准确性和效率。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明所述医疗数据质量预判方法的另一个具体实施例。本实施例中,医疗数据质量预判方法包括以下步骤:
步骤201,确定目标医疗数据对应的目标病种信息。
步骤202,根据所述目标医疗数据中至少一个字段对应的医学逻辑和命名规范,确定所述目标医疗数据中至少一个字段各自对应的目标数据库。
本实施例中,预先确定根据字段间的医学逻辑和命名规范进行数据库划分的规则,然后在确定了目标医疗数据后,根据目标医疗数据中字段间对应的医学逻辑和命名规范,确定目标医疗数据中各个字段各自对应的目标数据库。具体的,可以根据字段的医学逻辑和命名规范将医疗数据中的各字段划分为通用层数据库和疾病层数据库,如ABO血型字段将属于通用层数据库,心血管首诊名称将属于疾病层数据库。
步骤203,根据所述目标数据库和所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型。
本实施例中,因不同的数据库不同的病种信息,对应不同的质量预判模型,则在确定了目标医疗数据中各个字段对应的目标数据库后,根据目标数据库和目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定出目标质量预判模型,例如在疾病层中确定出糖尿病对应的目标质量预判模型。
步骤204,通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果。
本实施例中,将目标医疗数据中各个字段输入相应的目标质量预测模型中,以获取到对目标医疗数据的质量预判结果。具体的,可以通过目标质量预判模型对目标医疗数据分别进行空值率、数据类型和数据值域的计算分析,分别确定目标医疗数据的空值率质量预判结果、数据类型质量预判结果和数据值域质量预判结果。
步骤205,若所述目标医疗数据的质量预判结果表明所述目标医疗数据通过测试,则将所述目标医疗数据中至少一个字段各自加入对应的所述目标数据库中。
本实施例中,若目标医疗数据的质量预判结果表明目标医疗数据通过了测试,则证明目标医疗数据为正常医疗数据,从而将目标医疗数据中的各个字段各自加入对应的目标数据库中。
步骤206,根据所述目标数据库中当前医疗数据更新所述目标质量预判模型。
本实施例中,在将目标医疗数据中各字段加入各目标数据库中后,根据各目标数据库中的当前医疗数据更新目标质量预判模型,从而当下一批目标医疗数据需要进行质量预判时,利用更新后的目标质量预测模型进行预判,当有大量的医疗数据中的各字段加入到各目标数据库后,不断对各个质量预测模型进行更新,使得各质量预测模型的精度越高,对医疗数据的质量预判结果越准确。
在上述实施例中,通过对医疗数据中的各字段进行划分,可以构建出属于不同数据库的以病种信息为维度的质量预判模型,实现对医疗数据中的各字段的更为准确的质量预判;且将质量预判结果表明目标医疗数据通过测试后的目标医疗数据中的各字段添加到相应的目标数据库中,利用目标数据库中的当前医疗数据更新目标质量预判模型,使得目标质量预判模型的质量预测结果越来越准确。
如图3所示,为本发明所述医疗数据质量预判方法中对质量预判模型进行构建的一个具体实施例。本实施例中,所述方法包括以下步骤:
步骤301,获取至少一种病种信息各自对应的第一样本数据。
本实施例中,对于每一种需要利用质量预判模型进行质量预判的病种信息,获取该病种信息对应的第一样本数据。
步骤302,确定所述第一样本数据中至少两个目标字段的空值占比间的映射关系值和比例关系值,其中所述目标字段根据所述第一样本数据对应的病种信息确定。
本实施例中,为了准确的预判出医疗数据中的空值率,需要确定出每一个第一样本数据中目标字段的空值占比间的映射关系值和比例关系值,其中空值占比的映射关系值是指某一字段的空值占比与其依赖的上游字段空值占比间的关系。具体的,根据病种信息,预先确定出具有映射关系的目标字段及具有比例关系的目标字段,其中,具有映射关系的目标字段与具有比例关系的目标字段可以为不同的字段,然后确定出第一样本数据中各个目标字段的映射关系值和比例关系值。
步骤303,若所述映射关系值符合预设映射范围,且所述比例关系值符合预设比例范围,则根据符合所述预设映射范围及所述预设比例范围的第一样本数据建立对应病种信息的质量预判模型中的空值率预判模型,其中,所述预设映射范围及所述预设比例范围根据所述第一样本数据对应的病种信息确定。
本实施例中,若对于某第一样本数据中的各个目标字段间的映射关系值符合预设映射范围,比例关系值符合预设比例范围,则该第一样本数据正常,可以以该第一样本数据为训练数据进行机器学习,确定出该第一样本数据对应病种信息的空值率预判模型,若对于某第一样本数据存在某字段映射关系值和比例关系值中存在任意一个或两个不符合预设范围,则需要重新获取该第一样本数据对应病种信息的样本数据。具体的,在获取正常的第一样本数据进行机器学习时,以字段名称为横坐标、对应字段的空值占比为纵坐标,根据算法计算得到最优函数,以获取空值率预判模型。
举例来说,针对某病种信息对应的第一样本数据进行处理时,可以先根据该第一样本数据中各个字段的医学逻辑和命名规范,对各个字段进行划分,其中通用层的目标字段包括首诊年龄、就诊日期和出生日期,疾病层的目标字段包括是否使用胰岛素治疗与医嘱中包含胰岛素的药物药理分类。具体的,目标字段首诊年龄依赖于就诊日期、出生日期,由于出生日期填充率基本100%,则首诊年龄与就诊日期空值占比应该呈线性关系,设置首诊年龄与就诊日期空值占比间的映射关系的预设映射范围为1:0.9~1:1.1,当确定出首诊年龄与就诊日期空值占比间的映射关系值为1:1.2,该第一样本数据不能作为训练数据进行空值率预判模型的训练,当确定出首诊年龄与就诊日期空值占比间的映射关系值为1:1时,且该第一样本数据中其他数据正常时,则可以利用该第一样本数据建立对应病种信息在通用层的空值率预判模型。第一样本数据中目标字段是否使用胰岛素治疗与医嘱中包含胰岛素的药物药理分类(ATC分类3级)的空值占比呈线性关系,则设置1:0.95~1:1.05作为该映射关系的预设映射范围,当确定出映射关系值为1:0.98,且该第一样本数据中其他数据正常时,可以利用该第一样本数据建立对应病种信息在疾病层的空值率预判模型。其中,映射关系值是由相关医疗人员根据医疗逻辑和实际经验总结出的。
医疗数据对应字段间的空值占比还可能存在一定的比例关系值,举例来说,第一样本数据中通用层的目标字段检测报告、检测类型、检测日期三者间空值占比应该相近,设其比例关系的预设范围为1:0.9~1.1:0.9~1.1,当确定出比例关系值为1:0.9:1.1时,且该第一样本数据中其他数据正常时,则可以利用该第一样本数据建立对应病种信息在通用层的空值率预判模型。第一样本数据中疾病层的目标字段肿瘤部分、肿瘤最长径和肿瘤大体分型三者空值占比相近,设其比例关系的预设范围为1:0.95~1.05:0.95~1.05,当确定出比例关系值为1:0.85:1.02时,则不能利用该第一样本数据建立空值率预判模型。其中,占比关系是由相关医疗人员根据医学逻辑和实际经验总结出的。
需要说明的是,因不同的医院对应的医疗数据不同,因此在进行空值率预判模型的构建时,优选地使用来自同一家医院的医疗数据。在获取到多家医院各自对应的空值率预判模型后,建立医院与字段空值占比间的关系模型,以便利用该关系模型为新医院确定空值率预判模型。
在上述实施例中,通过确定第一样本数据中目标字段的空值占比间的映射关系值和比例关系值,并对该映射关系值和比例关系值是否符合预设映射范围和预设比例范围进行判断,若符合则证明该第一样本数据正常,利用该第一样本数据建立对应病种信息的空值率预判模型,如此根据不同病种信息对应的不同的第一样本数据,建立出以病种信息为维度的空值率质量预判模型,从而使得确定出的空值率预判模型可以对不同病种信息的医疗数据进行较为准确的空值率质量预判。
如图4所示,为本发明所述医疗数据质量预判方法中对质量预判模型进行构建的一个具体实施例。本实施例中,所述方法包括以下步骤:
步骤401,获取至少一种病种信息各自对应的第二样本数据。
步骤402,确定所述第二样本数据中至少一个字段的数据类型转换值及格式判定值。
本实施例中,数据类型也是在对医疗数据进行质量预判时一个测试特征,医疗数据的数据类型包括字符串类型、数值类型和布尔类型,为了准确的对医疗数据中数据类型进行预判,确定出第二样本数据中各个字段的数据类型转换值及格式判定值。具体的,当第二样本数据中某一字段对应的数据类型为字符串类型,则该字段的数据类型转换值为字符串类型数据可以转换为数值类数据的数量与该字段总数量的比值,例如存在10000条第二样本数据,某一字符串类型数据在10000条数据中有50个可以转换为数值数据,则该数据类型转换值为0.5%。布尔类型数据只有两个值,通常用来判断条件是否成立,例如某一字段的格式应为:%Y-%m-%d-%H:%M:%S即日期格式,则确定某一字段在10000条第二样本数据中是日期格式的数量,和不是日期格式的问题字段的数量,格式判定值为问题字段的数量与该字段样本总数量的比值。
步骤403,若所述数据类型转换值符合预设转换范围,且所述格式判定值符合预设判定范围,则根据符合所述预设转换范围及所述预设判定范围的第二样本数据建立对应病种信息的质量预判模型中的数据类型预判模型,其中,所述预设转换范围及所述预设判定范围根据所述第二样本数据对应的病种信息及对应的所述第二样本数据中的字段确定。
本实施例中,当第二样本数据中各个字段的数据类型转换值均符合预设转换范围,且格式判定值符合均预设判定范围时,表明该第二样本数据正常,此时可以利用该正常的第二样本数据建立对应病种信息的质量预判模型中的数据类型预判模型。具体的,以字段为横坐标,数据类型转化为编码后为纵坐标,例如字符串类型为0,数值类型为1,布尔类型为2等,学习出一个最优函数即为数据类型预判模型。
具体的,也可以将第二样本数据中各个字段根据医学逻辑和命名规范进行划分,即分别建立通用层的以病种信息为维度的数据类型预判模型和疾病层的以病种信息为维度的数据类型预判模型。
需要说明的是,因不同的医院对应的医疗数据可能不同,因此数据类型预判模型的构建时,优选地使用来自同一家医院的目标医疗数据。在获取到多家医院各自对应的数据类型预判模型后,建立医院与数据类型关系模型,以便利用该关系模型为新医院确定数据类型预判模型。
在上述实施例中,通过确定第二样本数据中字段的数据类型转换值及格式判定值,并判断该数据类型转换值是否符合预设转换范围,该格式判定值是否符合预设判定范围,若均符合则表明该第二样本数据正常,利用该第二样本数据进行对应病种信息的数据类型预判模型的建立,如此根据不同病种信息对应的不同的第二样本数据,建立出以病种信息为维度的数据类型预判模型,如此确定出的数据类型预判模型可以更为准确的对不同病种信息的医疗数据进行数据类型的质量预判。
如图5所示,为本发明所述医疗数据质量预判方法中对质量预判模型进行构建的一个具体实施例。本实施例中,所述方法包括以下步骤:
步骤501,获取至少一种病种信息各自对应的第三样本数据。
步骤502,确定所述第三样本数据中至少一个数值型字段的特征值,所述数值型字段包括数值字段及具有等级区分的文本字段。
本实施例中,数据值域也是医疗数据进行质量预判时的测试特征,其中值域问题需要考虑数值型字段与文本型字段的差异,在本实施例中将具有等级区分的文本字段和数值字段确定为数值型字段,例如心力衰竭NYHA具有等级区分(I级,II级,III级),通常对于具有等级区分的文本字段可经过处理转换为数值字段,例如,利用pandas进行处理,因此可以确定出第三样本数据中各个数值型字段的特征值。具体的,获取到数值型字段后,对数值型字段进行预处理,如归一化处理,即将第三样本数据的数值调整到0~1区间内,可以利用python中preprocessing预处理模块进行处理;还可以对第三样本数据进行离散处理,如既往舒张压最高值,很多患者的最高值是90-100,将这个区间划分为99个区间,用99维的向量代表每一个舒张压所处的区间实现数据的离散化,可以利用cut函数将数据进行划分。预处理的目的是获取更为准确的特征值,其中,特征值可以包括最小值、最大值、四分位数、中位数、均值、第三个四分位数、众数、标准差等,可以利用python中用pandas库序列化数据后,得到字段对应的统计值。在一种可能的实现方式中,可以根据不同字段医学含义分配特征值的权重进行计算后,得到新特征值。
步骤503,若所述特征值符合预设特征范围,则根据符合所述预设特征范围的第三样本数据建立对应病种信息的质量预判模型中的数值型字段的数据值域预判模型,其中,所述预设特征范围根据所述第三样本数据对应的病种信息及对应的所述第三样本数据中的字段确定。
本实施例中,若第三样本数据中各个数值型字段的特征值均符合预设特征范围,则证明该第三样本数据中的数值型数据正常,可以利用正常的第三样本数据进行机器学习,确定出数值型字段的数据值域预判模型,如此根据不同病种信息对应的不同的第三样本数据,建立出以病种信息为维度的数值型字段的数据值域预判模型,从而保证对医疗数据中的数值型字段的进行较为准确的质量预判。
举例来说,特征值为最大值,该最大值的预设特征范围为大于等于95%,在10000条的第三样本数据中某一字段的最大值不属于80~100间的数据为100个,即99%的第三样本数据在该字段的最大值都落入了预设范围内,比预设特征范围95%大,则证明第三样本数据在该字段处正常。
步骤504,确定所述第三样本数据中至少一个文本型字段的值域频率,所述文本型字段为不区分等级的文本字段。
本实施例中,当第三样本数据中的文本型字段为不区分等级的文本字段,则确定出该文本型字段的值域频率,例如冠心病类型中隐匿型冠心病、非阻塞性冠心病、猝死型冠心病等属于不区分等级的文本型字段,具体的,可以使用IF-IDF算法统计某一词频出现的值域频率。
步骤505,若所述值域频率符合预设频率范围,则根据符合所述预设频率范围的第三样本数据建立对应病种信息的质量预判模型中的文本型字段的数据值域预判模型,其中,所述预设值域频率范围根据所述第三样本数据对应的病种信息及对应的所述第三样本数据中的字段确定。
本实施例中,若第三样本数据中各个文本型字段的值域频率均符合预设频率范围,则表明该第三样本数据正常,可以利用该第三样本数据建立对应病种信息的文本型字段的数据值域预判模型,如此根据不同病种信息对应的不同的第三样本数据,建立出以病种信息为维度的文本型字段的数据值域预判模型,从而使得确定出文本型字段的数据值域预判模型可以对医疗数据中的文本型字段进行较为准确的质量预判。
具体的,也可以将第三样本数据中各个字段根据医学逻辑和命名规范进行划分,即分别建立通用层的以病种信息为维度的数值型字段的数据值域预判模型和文本型字段的数据值域预判模型和疾病层的以病种信息为维度的数值型字段的数据值域预判模型和文本型字段的数据值域预判模型。
需要说明的是,因不同的医院对应的医疗数据可能不同,因此在数据值域预判模型的构建时,优选地使用来自同一家医院的目标医疗数据。在获取到多家医院各自对应的数值型字段的数据值域预判模型和文本型字段的数据值域预判模型后,建立医院与数值型字段的数据值域的关系模型和医院与文本型字段的数据值域的关系,以便利用该关系模型为新医院确定数据值域预判模型。
在上述实施例中,通过分别对第三样本数据中的数值型字段和文本型字段的特征值和值域频率进行确定,并判断确定出各个字段的特征值是否符合预设特征范围,若是则利用该第三样本数据建立对应病种信息的数值型字段的数据值域预判模型;且判断确定出的值域频率是否符合预设频率范围,若是则利用该第三样本数据建立对应病种信息的文本型字段的数据值域预判模型的构建,如此可以准确的对医疗数据中的值域进行质量预判。
需要说明的是,因医疗数据质量预判的测试特性包括空值率、数据类型和值域,因此在需要对某一测试特性进行质量预判时,可以直接选取该测试特性对应的预判模型,如只需测试目标医疗数据中的空值率时,仅选择空值率预判模型即可。在对一批目标医疗数据进行质量预判时,可以根据病种信息确定出目标空值率预判模型、目标数据类型预判模型和数值型字段的目标数据值域预判模型和文本型字段的目标数据值域预判模型来对目标医疗数据进行质量预判模型。
如图6所示,为本发明所述医疗数据质量预判装置的一个具体实施例。本实施例所述装置,即用于执行图1~5所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
第一确定模块61,用于确定目标医疗数据对应的目标病种信息;
第二确定模块62,用于根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型;
质量预判模块63,用于通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果。
图7是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成医疗数据质量预判装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的医疗数据质量预判方法。
上述如本发明图7所示实施例提供的医疗数据质量预判装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的医疗数据质量预判方法,并具体用于执行如图1至图5任一所示的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种医疗数据质量预判方法,其特征在于,包括:
确定目标医疗数据对应的目标病种信息;所述目标医疗数据为待进行质量预判的待测数据,目标病种信息是指所述待测数据对应的病种信息;
根据所述目标医疗数据中至少一个字段对应的医学逻辑和命名规范将所述目标医疗数据中的各字段划分为通用层数据库和疾病层数据库,并确定所述目标医疗数据中至少一个字段各自对应的目标数据库;
根据所述目标数据库和所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型,所述目标质量预判模型包括空值率预判模型、数据类型预判模型和数据值域预判模型;其中,根据不同病种信息对应的不同的第一样本数据,建立出以病种信息为维度的空值率预判模型;根据不同病种信息对应的不同的第二样本数据,建立以病种信息为维度的数据类型预判模型;根据不同病种信息对应的不同的第三样本数据,建立以病种信息为维度的数值型字段的数据值域预判模型;
通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果;
若所述目标医疗数据的质量预判结果表明所述目标医疗数据通过测试,则将所述目标医疗数据中至少一个字段各自加入对应的所述目标数据库中;
根据所述目标数据库中当前医疗数据更新所述目标质量预判模型。
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果,包括:
通过所述目标质量预判模型对所述目标医疗数据分别进行空值率、数据类型和数据值域的计算分析,分别确定所述目标医疗数据的空值率质量预判结果、数据类型质量预判结果和数据值域质量预判结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型前,还包括:
获取至少一种病种信息各自对应的第一样本数据;
确定所述第一样本数据中至少两个目标字段的空值占比间的映射关系值和比例关系值,其中所述目标字段根据所述第一样本数据对应的病种信息确定;
若所述映射关系值符合预设映射范围,且所述比例关系值符合预设比例范围,则根据符合所述预设映射范围及所述预设比例范围的第一样本数据建立对应病种信息的质量预判模型中的空值率预判模型,其中,所述预设映射范围及所述预设比例范围根据所述第一样本数据对应的病种信息确定。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型前,还包括:
获取至少一种病种信息各自对应的第二样本数据;
确定所述第二样本数据中至少一个字段的数据类型转换值及格式判定值;
若所述数据类型转换值符合预设转换范围,且所述格式判定值符合预设判定范围,则根据符合所述预设转换范围及所述预设判定范围的第二样本数据建立对应病种信息的质量预判模型中的数据类型预判模型,其中,所述预设转换范围及所述预设判定范围根据所述第二样本数据对应的病种信息及对应的所述第二样本数据中的字段确定。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型前,还包括:
获取至少一种病种信息各自对应的第三样本数据;
确定所述第三样本数据中至少一个数值型字段的特征值,所述数值型字段包括数值字段及具有等级区分的文本字段;
若所述特征值符合预设特征范围,则根据符合所述预设特征范围的第三样本数据建立对应病种信息的质量预判模型中的数值型字段的数据值域预判模型,其中,所述预设特征范围根据所述第三样本数据对应的病种信息及对应的所述第三样本数据中的字段确定;
确定所述第三样本数据中至少一个文本型字段的值域频率,所述文本型字段为不区分等级的文本字段;
若所述值域频率符合预设频率范围,则根据符合所述预设频率范围的第三样本数据建立对应病种信息的质量预判模型中的文本型字段的数据值域预判模型,其中,所述预设频率范围根据所述第三样本数据对应的病种信息及对应的所述第三样本数据中的字段确定。
6.一种医疗数据质量预判装置,其特征在于,包括:
第一确定模块,用于确定目标医疗数据对应的目标病种信息;所述目标医疗数据为待进行质量预判的待测数据,目标病种信息是指所述待测数据对应的病种信息;
第二确定模块,用于根据所述目标医疗数据中至少一个字段对应的医学逻辑和命名规范将所述目标医疗数据中的各字段划分为通用层数据库和疾病层数据库,并确定所述目标医疗数据中至少一个字段各自对应的目标数据库;根据所述目标数据库和所述目标病种信息,在预先建立的以病种信息为维度的质量预判模型中确定目标质量预判模型;
质量预判模块,用于通过所述目标质量预判模型对所述目标医疗数据进行计算分析,确定所述目标医疗数据的质量预判结果,所述目标质量预判模型包括空值率预判模型、数据类型预判模型和数据值域预判模型;其中,根据不同病种信息对应的不同的第一样本数据,建立出以病种信息为维度的空值率预判模型;根据不同病种信息对应的不同的第二样本数据,建立以病种信息为维度的数据类型预判模型;根据不同病种信息对应的不同的第三样本数据,建立以病种信息为维度的数值型字段的数据值域预判模型;若所述目标医疗数据的质量预判结果表明所述目标医疗数据通过测试,则将所述目标医疗数据中至少一个字段各自加入对应的所述目标数据库中;根据所述目标数据库中当前医疗数据更新所述目标质量预判模型。
7.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至5中任一权项所述的医疗数据质量预判方法。
8.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至5中任一权项所述的医疗数据质量预判方法。
CN201911360670.3A 2019-12-25 2019-12-25 一种医疗数据质量预判方法、装置、可读介质及电子设备 Active CN111261298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911360670.3A CN111261298B (zh) 2019-12-25 2019-12-25 一种医疗数据质量预判方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911360670.3A CN111261298B (zh) 2019-12-25 2019-12-25 一种医疗数据质量预判方法、装置、可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN111261298A CN111261298A (zh) 2020-06-09
CN111261298B true CN111261298B (zh) 2024-02-23

Family

ID=70952275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911360670.3A Active CN111261298B (zh) 2019-12-25 2019-12-25 一种医疗数据质量预判方法、装置、可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111261298B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739648A (zh) * 2020-06-24 2020-10-02 平安医疗健康管理股份有限公司 数据异常检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109378065A (zh) * 2018-10-30 2019-02-22 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN109559243A (zh) * 2018-12-13 2019-04-02 泰康保险集团股份有限公司 保险核保方法、装置、介质及电子设备
CN110197724A (zh) * 2019-03-12 2019-09-03 平安科技(深圳)有限公司 预测糖尿病患病阶段的方法、装置及计算机设备
CN110379505A (zh) * 2019-06-10 2019-10-25 天津开心生活科技有限公司 一种疾病常见处理方式的识别方法、装置、可读介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109378065A (zh) * 2018-10-30 2019-02-22 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN109559243A (zh) * 2018-12-13 2019-04-02 泰康保险集团股份有限公司 保险核保方法、装置、介质及电子设备
CN110197724A (zh) * 2019-03-12 2019-09-03 平安科技(深圳)有限公司 预测糖尿病患病阶段的方法、装置及计算机设备
CN110379505A (zh) * 2019-06-10 2019-10-25 天津开心生活科技有限公司 一种疾病常见处理方式的识别方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
CN111261298A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN108091372B (zh) 医疗字段映射校验方法及装置
CN112562807B (zh) 医疗数据分析方法、装置、设备、存储介质和程序产品
CN108717867A (zh) 基于梯度迭代树的疾病预测模型建立方法及装置
CN110141219A (zh) 基于导联融合深度神经网络的心肌梗死自动检测方法
CN110141220A (zh) 基于多模态融合神经网络的心肌梗死自动检测方法
US20220122739A1 (en) Ai-based condition classification system for patients with novel coronavirus
CN115691722B (zh) 医疗数据检测的质控方法、装置、设备、介质及程序产品
Inácio et al. Nonparametric Bayesian estimation of the three‐way receiver operating characteristic surface
WO2008154058A1 (en) Systems and methods for data analysis
CN111261298B (zh) 一种医疗数据质量预判方法、装置、可读介质及电子设备
CN115205601A (zh) 一种基于人工智能与知识图谱的医学检验结果审核系统
CN107680686A (zh) 疾病预测概率的处理方法、装置、计算机设备以及存储介质
CN107506606A (zh) 常见疾病风险预测方法及系统
US20220215966A1 (en) Mining method for sample grouping
CN116189909B (zh) 基于推举算法的临床医学判别方法及系统
Fardy et al. Evaluation of diagnostic tests
US10973467B2 (en) Method and system for automated diagnostics of none-infectious illnesses
CN110991517A (zh) 一种面向脑卒中非平衡数据集的分类方法及系统
CN111383766A (zh) 计算机数据处理方法、装置、介质及电子设备
Khan Resilience family of receiver operating characteristic curves
CN114972273A (zh) 流水化产品数据集增强方法、系统、设备及存储介质
CN113990507A (zh) 数据处理方法、装置、可读介质及电子设备
CN113057588A (zh) 一种病症预警方法、装置、设备及介质
CN111427874A (zh) 医疗数据生产的质控方法、装置以及电子设备
CN115935138B (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230222

Address after: 100089 801, 8th floor, building 9, No.35 Huayuan North Road, Haidian District, Beijing

Applicant after: YIDU CLOUD Ltd.

Address before: Room 1502, 15 / F, Yangzi science and technology innovation center, 211 pubin Road, Jiangbei new district, Nanjing City, Jiangsu Province, 210000

Applicant before: Nanjing Yikang Technology Co.,Ltd.

Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant