CN113779011B - 基于机器学习的数据修复方法、装置及计算机设备 - Google Patents

基于机器学习的数据修复方法、装置及计算机设备 Download PDF

Info

Publication number
CN113779011B
CN113779011B CN202111086465.XA CN202111086465A CN113779011B CN 113779011 B CN113779011 B CN 113779011B CN 202111086465 A CN202111086465 A CN 202111086465A CN 113779011 B CN113779011 B CN 113779011B
Authority
CN
China
Prior art keywords
data
medical data
sets
attribute
repaired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111086465.XA
Other languages
English (en)
Other versions
CN113779011A (zh
Inventor
徐啸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111086465.XA priority Critical patent/CN113779011B/zh
Publication of CN113779011A publication Critical patent/CN113779011A/zh
Application granted granted Critical
Publication of CN113779011B publication Critical patent/CN113779011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于机器学习的数据修复方法、装置及计算机设备,主要在于能够提高修复后的数据集的数据质量,保证修复后的数据集对于后续的分类任务有切实的帮助,从而能够提高分类模型的分类精度。其中方法包括:获取用于模型训练的待修复数据集;对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。本发明涉及人工智能和数字医疗领域。

Description

基于机器学习的数据修复方法、装置及计算机设备
技术领域
本发明涉及人工智能领域,尤其是涉及一种基于机器学习的数据修复方法、装置及计算机设备。
背景技术
随着人工智能的飞速发展,数据分类已经成为计算机科学领域当之无愧最火热的机器学习任务,具有极其广泛的实际需求和应用场景。随着数据量的急速增长,产生了大量的脏数据,气严重阻碍了分类模型的学习和预测,因此有效地修复和清洗脏数据对于分类模型的训练有重要意义。
目前,通常是单独对脏数据进行清洗和修复。然而,这种方式只是考虑对脏数据的修复,并没有考虑修复后的数据对于分类任务的影响,从而导致修复后的数据质量较低,对于分类任务没有切实的帮助。
发明内容
本发明提供了一种基于机器学习的数据修复方法、装置及计算机设备,主要在于能够提高修复后的数据集的数据质量,保证修复后的数据集对于后续的分类任务有切实的帮助,从而能够提高分类模型的分类精度。
根据本发明的第一个方面,提供一种基于机器学习的数据修复方法,包括:
获取用于模型训练的待修复数据集;
对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
根据本发明的第二个方面,提供一种基于机器学习的数据修复装置,包括:
获取单元,用于获取用于模型训练的待修复数据集;
修复单元,用于对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
测试单元,用于构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
筛选单元,用于根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取用于模型训练的待修复数据集;
对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取用于模型训练的待修复数据集;
对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
本发明提供的一种基于机器学习的数据修复方法、装置及计算机设备,与目前单独对脏数据进行清洗和修复的方式相比,本发明能够获取用于模型训练的待修复数据集;并对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;与此同时,构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;最终根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集,由此通过将数据修复任务与分类模型训练任务相结合,两者相互指导,能够筛选出最有利于分类任务的目标修复集,即数据质量最高的修复集,进而利用该目标修复集构建预设分类模型,能够提高分类模型的分类精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种基于机器学习的数据修复方法流程图;
图2示出了本发明实施例提供的另一种基于机器学习的数据修复方法流程图;
图3示出了本发明实施例提供的一种基于机器学习的数据修复装置的结构示意图;
图4示出了本发明实施例提供的另一种基于机器学习的数据修复装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,通常是单独对脏数据进行清洗和修复。然而,这种方式只是考虑对脏数据的修复,并没有考虑修复后的数据对于分类任务的影响,从而导致修复后的数据质量较低,对于分类任务没有切实的帮助。
为了解决上述问题,本发明实施例提供了一种基于机器学习的数据修复方法,如图1所示,所述方法包括:
101、获取用于模型训练的待修复数据集。
其中,待修复数据集包括样本患者的多组医疗数据,每组医疗数据包括样本患者在多个属性维度下的属性数据,多个属性维度可以包括样本患者的性别、年龄、所在城市、症状、所使用的药品和耗材等。为了克服现有技术中数据修复任务与分类模型训练任务相独立,进而导致修复后的数据集对于后续的分类任务没有切实帮助的缺陷。本发明实施将数据修复任务与分类模型训练任务相结合,彼此相互指导,从而能够保证修复后的数据集对于分类任务有切实的帮助,提高了分类模型的分类精度。本发明实施例主要应用于对数据集进行修复的场景。本发明实施例的执行主体为能够对数据集进行修复的装置或者设备,具体可以设置在服务器一侧。
对于本发明实施例,为了训练分类模型,需要预先收集大量样本患者在多个属性维度下的属性数据,将每位样本患者在多个属性维度下的属性数据作为一组医疗数据,从而能够收集多组医疗数据,由于有些医疗数据之间可能存在错误或者冲突,如果直接使用收集到的医疗数据训练模型,会影响模型的分类精度,因此在收集到多组医疗数据之后,将多组医疗数据作为一个待修复数据集,对其进行修复和清洗,为了保证修复后的数据集对于后续的分类任务有切实的帮助,本发明实施例将数据修复任务与分类模型的训练任务相结合。
102、对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集。
其中,每个候选修复集不存在任何多余的修复操作,如果恢复其中任何一个修复操作都会使医疗数据之间存在错误或者冲突。对于本发明实施例,错误检测主要是为了检测多组医疗数据中存在冲突或者错误的目标医疗数据,以及目标医疗数据中存在错误或者冲突的属性数据。
具体地,可以利用预设规则约束来检测多组医疗数据中存在的错误和冲突,该预设规则约束具体可以包括多种规则约束,如函数依赖约束、距离依赖约束和拒绝依赖约束,每种依赖约束下面可以包括多条规则约束。例如,函数依赖约束中的一条规则约束是如果任意两组医疗数据中样本患者在属性维度A下的属性数据相等,则该任意两组医疗数据中样本患者在属性维度B下的属性数据必须相等,利用该条函数依赖约束对待修复数据中的多组医疗数据进行检测,发现医疗数据1中样本患者在属性维度A下的属性数据与医疗数据2中样本患者在属性维度A下的属性数据相等,但是医疗数据1中样本患者在属性维度B下的属性数据与医疗数据2中样本患者在属性维度B下的属性数据不相等,由此可以确定医疗数据1和医疗数据2不满足该条函数依赖约束,即医疗数据1中样本患者在属性维度A和属性维度B下的属性数据与医疗数据2中样本患者在属性维度A和属性维度B下的属性数据存在冲突。
进一步地,根据多种规则约束的检测结果,可以确定多种修复方案,紧接上面的例子,由于医疗数据1和医疗数据2在属性维度A和属性维度B下的属性数据存在冲突,那么可以修改医疗数据1中属性维度B下的属性数据,或者修改医疗数据2中属性维度B下的属性数据,使医疗数据1和医疗数据2中样本患者在属性维度B下的属性数据相等,除此之外,还可以修改医疗数据1中属性维度A下的属性数据,或者修改医疗数据2中属性维度A下的属性数据,使医疗数据1和医疗数据2中样本患者在属性维度A下的属性数据不相等,由此能够得到待修复数据集对应的多种修复方案。进一步地,基于该多种修复方案分别对待修复数据集进行修复,能够得到待修复数据集对应的多个候选修复集,每个候选修复集中不存在任何多余的修复操作,如果一旦恢复某个修复操作,候选修复集便不能满足预设规则约束。
103、构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果。
对于本发明实施例,为了将数据修复任务与分类模型训练任务相结合,使修复后的数据集对于分类任务有切实的帮助,可以利用每个候选修复集构建一个预设分类模型,该预设分类模型具体可以为多层感知器。进一步地,在构建多个候选修复集分别对应的预设分类模型之后,可以利用测试数据集分别对多个预设分类模型进行测试,其中,每个预设分类模型对应的测试数据集相同,且该测试数据集中数据满足预设规则约束,通过测试能够得到多个预设分类模型分别对应的分类准确率,进而得到每个预设分类模型对应的测试结果。
104、根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
其中,目标修复集为待修复数据集最终修复后的数据集,对于本发明实施例,在确定多个预设分类模型分别对应的分类准确率之后,通过该分类准确率能够筛选出一个分类精度最高的预设分类模型,将分类精度最高的预设分类模型对应的候选修复集确定为待修复数据对应的目标修复集。
本发明实施例提供的一种基于机器学习的数据修复方法,与目前单独对脏数据进行清洗和修复的方式相比,本发明能够获取用于模型训练的待修复数据集;并对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;与此同时,构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;最终根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集,由此通过将数据修复任务与分类模型训练任务相结合,两者相互指导,能够筛选出最有利于分类任务的目标修复集,即数据质量最高的修复集,进而利用该目标修复集构建预设分类模型,能够提高分类模型的分类精度。
进一步的,为了更好的说明上述对待修复数据集进行修复的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种基于机器学习的数据修复方法,如图2所示,所述方法包括:
201、获取用于模型训练的待修复数据集。
对于本发明实施例,为了训练分类模型,需要预先收集大量样本患者在多个属性维度下的属性数据,将每个样本患者在多个属性维度下的属性数据作为一组医疗数据,由此能够得到多组医疗数据,由于多组医疗数据可能存在冲突和错误,因此将多组医疗数据作为一个待修复数据集G={gi|i=1,...,n},gi=(gi[D1],...,gi[Dj],...,gi[Dm]),其中,gi表示待修复数据集中的第i组医疗数据,gi[Dj]表示为医疗数据gi中样本患者在第j个属性维度下的属性数据。
202、对所述待修复数据集中的多组医疗数据进行错误检测,确定所述多组医疗数据中存在冲突的目标医疗数据。
其中,所述多组医疗数据中的任意一组医疗数据包括样本患者在多个属性维度下的属性数据,对于本发明实施例,在错误检测的过程中,为了判定待修复数据集中的多组医疗数据是否满足函数依赖约束,步骤202具体包括:判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束;若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据。进一步地,所述判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束,包括:当所述任意两组医疗数据中样本患者在第一属性维度下的属性数据相等时,判定所述样本患者在第二属性维度下的属性数据是否相等;若所述样本患者在所述第二属性维度下的属性数据不相等,则确定所述任意两组医疗数据之间不满足所述函数依赖约束,与此同时,所述若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据,包括:若所述任意两组医疗数据之间不满足所述依赖函数约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第一属性维度下的属性数据和所述第二属性维度下的属性数据为目标属性数据。其中,第一属性维度和第二属性维度可以为多个属性维度中的任意一个维度
例如,函数依赖约束中的一条规则约束是如果任意两组医疗数据中样本患者在属性维度m下的属性数据相等,则该任意两组医疗数据中样本患者在属性维度j下的属性数据必须相等,利用该条函数依赖约束对待修复数据集中的多组医疗数据进行检测,发现医疗数据1中样本患者在属性维度m下的属性数据与医疗数据2中样本患者在属性维度m下的属性数据相等,但是医疗数据1中样本患者在属性维度j下的属性数据与医疗数据2中样本患者在属性维度j下的属性数据不相等,由此可以确定医疗数据1和医疗数据2不满足该条函数依赖约束,即医疗数据1中样本患者在属性维度j和属性维度m下的属性数据与医疗数据2中样本患者在属性维度j和属性维度m下的属性数据存在冲突。与此同时,将医疗数据1和医疗数据2确定为目标医疗数据,医疗数据1和医疗数据2中样本患者在属性维度j和属性维度m下的属性数据为目标属性数据。
进一步地,为了判定待修复数据集中的多组医疗数据是否满足拒绝依赖约束,步骤202具体包括:判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束;若不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据,进一步地,所述判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束,包括:计算所述任意两组医疗数据中样本患者在第三属性维度下的属性数据之间的第一距离,若所述第一距离小于第一预设距离,则判定所述样本患者在第四属性维度下的属性数据之间的第二距离是否大于或者等于第二预设距离;若所述第二距离大于或者等于所述第二预设距离,则确定所述任意两组医疗数据之间不满足所述距离依赖约束,与此同时,所述若不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据,包括:若所述任意两组医疗数据之间不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第三属性维度下的属性数据和所述第四属性维度下的属性数据为目标属性数据。其中,第三属性维度和第四属性维度可以为多个属性维度中的任意一个维度,第一预设距离和第二预设距离可以根据实际的业务需求进行设定。
例如,距离依赖约束中的一条规则约束是如果任意两组医疗数据中样本患者在属性维度a下的属性数据之间的第一距离小于第一预设距离,则该任意两组医疗数据中样本患者在属性维度s下的属性数据之间的第二距离必须小于第二预设距离,利用该条距离依赖约束对待修复数据中的多组医疗数据进行检测,计算医疗数据1中样本患者在属性维度a下的属性数据与医疗数据2中样本患者在属性维度a下的属性数据之间的第一距离。
具体地,如果属性维度a下的属性数据为文本,如药品、耗材等,可以确定医疗数据1中属性维度a下的属性数据对应的特征向量,以及医疗数据2中属性维度a下的属性数据对应的特征向量,如根据医疗数据1中样本患者所使用的药品,确定其对应的特征向量为(1,1,0,0,0,0,),前两位为1代表样本患者分别使用了红霉素和阿莫西林,没有使用的药品对应的分量为0,同理可以确定医疗数据2中样本患者所使用的药品对应的特征向量,进而根据确定的特征向量,可以计算医疗数据1和医疗数据2中样本患者在属性维度a下的属性数据之间的欧式距离(第一距离);如果属性维度a下的属性数据为字符串,如医疗项目编码abckm,可以计算两个字符串之间的编辑距离,将该编辑距离确定为医疗数据1和医疗数据2中属性维度a下的属性数据之间的第一距离,如医疗数据1中的医疗项目编码为abckm,医疗数据2中的医疗项目编码为bckm,这两个医疗项目编码之间的编辑距离为1,由此按照上述方式能够计算出医疗数据1和医疗数据2中属性维度a下的属性数据之间的第一距离,如果该第一距离小于第一预设距离,则判定医疗数据1和医疗数据2中样本患者在属性维度s下的属性数据之间的第二距离是否小于预设第二距离,该第二距离的计算方式与第一距离的计算方式完全相同,如果计算的第二距离大于或者等于第二预设距离,则确定医疗数据1和医疗数据2不满足距离依赖约束,即医疗数据1中样本患者在属性维度a和属性维度s下的属性数据与医疗数据2中样本患者在属性维度a和属性维度s下的属性数据存在冲突。与此同时,将医疗数据1和医疗数据2确定为目标医疗数据,医疗数据1和医疗数据2中样本患者在属性维度a和属性维度s下的属性数据为目标属性数据。
进一步地,为了判定待修复数据集中的多组医疗数据是否满足拒绝依赖约束,步骤202具体包括:判定所述多组医疗数据中任意两组医疗数据之间是否满足拒绝依赖约束;若不满足所述拒绝依赖约束,则确定所述任意两组医疗数据为目标医疗数据。
例如,拒绝依赖约束中的一条规则是如果医疗数据1中样本患者在属性维度z下的属性数据小于医疗数据2中样本患者在属性维度z下的属性数据,则不可能存在医疗数据1中样本患者在属性维度x下的属性数据大于医疗数据2中样本患者在属性维度x下的属性数据,利用该条拒绝依赖约束对待修复数据集中的多组医疗数据进行检测,能够发现多组医疗数据中不满足该拒绝依赖约束的目标医疗数据及其对应的目标属性数据。由此利用预设约束规则能够找到待修复数据中所有存在问题或者冲突的目标医疗数据及其对应的目标属性值。
203、基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,并利用所述多种修复方案分别对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集。
对于本发明实施例,步骤203具体包括:基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案。例如,如果医疗数据1和医疗数据2在属性维度A和属性维度B下的属性数据存在冲突,那么可以修改医疗数据1中属性维度B下的属性数据,或者修改医疗数据2中属性维度B下的属性数据,使医疗数据1和医疗数据2中样本患者在属性维度B下的属性数据相等,除此之外,还可以修改医疗数据1中属性维度A下的属性数据,或者修改医疗数据2中属性维度A下的属性数据,使医疗数据1和医疗数据2中样本患者在属性维度A下的属性数据不相等,由此能够得到待修复数据集对应的多种修复方案。进一步地,依据该多种修复方案,能够得到多个候选修复集。
204、构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果。
对于本发明实施例,为了挑选出质量最高的候选修复集,步骤204具体包括:构建所述多个候选修复集分别对应的初始多层感知器,并利用所述多个候选修复集分别对相应的初始多层感知器进行训练,构建所述多个候选修复集分别对应的预设分类模型;利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的分类准确率。
具体地,针对任意一个预设分类模型,可以利用测试数据集对该预设分类模型进行测试,得到测试数据集中分类结果正确的测试样本数量,将分类结果正确的测试样本数量除以测试数据集的总测试样本数量,得到该预设分类模型对应的分类准确率。
205、根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
对于本发明实施例,为了确定待修复数据集对应的目标修复集,步骤205具体包括:确定多个所述分类准确率中的最高分类准确率,并将所述最高分类准确率对应的候选修复集确定为所述待修复数据集对应的目标修复集。
进一步地,在确定待修复数据对应的目标修复集后,利用该目标修复集构建的预设分类模型为分类效果最好的模型,在利用该预设分类模型进行分类时,输入数据可以为待预测患者在多个属性维度下的属性数据,输出数据为待预测患者所属的疾病信息。其中,该预设分类模型可以为多层感知器,该多层感知器包括输入层、隐藏层和输出层。具体地,将待预测患者对应的属性数据输入至多层感知器中进行预测,得到待预测患者属于不同疾病信息的概率值,基于该概率值,确定待预测患者对应的疾病信息。
具体地,在预测患者的疾病信息的过程中,将待预测患者对应的属性数据通过多层感知器的输入层输入至隐藏层,通过该隐藏层输出的结果为:
f(W1x+b1)
其中,x为待预测患者对应的属性数据,W1为隐藏层的权重,也是多层感知器的连接系数,b1为隐藏层的偏置系数,f函数通常可以采用sigmoid函数或者tanh函数,如下所示:
sigmoid(x)=1/(1+e-x)
tanh(x)=(ex-e-x)/(ex+e-x)
进一步地,再将该结果输入至输出层,通过该输出层进行分类,得到的分类结果为:
softmax(W2f(W1x+b1)+b2)
其中,W2为输出层的权重系数,b2为输出层的偏置系数,通过预设感知器的输出层能够输出待预测患者属于不同疾病信息的概率值,将最大概率值对应的疾病信息,确定为待预测患者对应的预测疾病信息。
本发明实施例提供的另一种基于机器学习的数据修复方法,与目前单独对脏数据进行清洗和修复的方式相比,本发明能够获取用于模型训练的待修复数据集;并对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;与此同时,构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;最终根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集,由此通过将数据修复任务与分类模型训练任务相结合,两者相互指导,能够筛选出最有利于分类任务的目标修复集,即数据质量最高的修复集,进而利用该目标修复集构建预设分类模型,能够提高分类模型的分类精度。
进一步地,作为图1的具体实现,本发明实施例提供了一种基于机器学习的数据修复装置,如图3所示,所述装置包括:获取单元31、修复单元32、测试单元33和筛选单元34。
所述获取单元31,可以用于获取用于模型训练的待修复数据集。
所述修复单元32,可以用于对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集。
所述测试单元33,可以用于构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果。
所述筛选单元34,可以用于根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
在具体应用场景中,为了生成所述待修复数据集对应的多个候选修复集,所述修复单元32,如图4所示,包括:检测模块321和修复模块322。
所述检测模块321,可以用于对所述待修复数据集中的多组医疗数据进行错误检测,确定所述多组医疗数据中存在冲突的目标医疗数据。
所述修复模块322,可以用于基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,并利用所述多种修复方案分别对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集。
进一步地,为了确定存在冲突的目标医疗数据,所述检测模块321,包括:判定子模块和确定子模块。
所述判定子模块,可以用于判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束。
所述确定子模块,可以用于若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据。
所述判定子模块,还可以用于判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束。
所述确定子模块,还可以用于若不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据。
所述判定子模块,还可以用于判定所述多组医疗数据中任意两组医疗数据之间是否满足拒绝依赖约束。
所述确定子模块,还可以用于若不满足所述拒绝依赖约束,则确定所述任意两组医疗数据为目标医疗数据。
进一步地,所述判定子模块,可以具体用于当所述任意两组医疗数据中样本患者在第一属性维度下的属性数据相等时,判定所述样本患者在第二属性维度下的属性数据是否相等;若所述样本患者在所述第二属性维度下的属性数据不相等,则确定所述任意两组医疗数据之间不满足所述函数依赖约束。
所述确定子模块,可以具体用于若所述任意两组医疗数据之间不满足所述依赖函数约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第一属性维度下的属性数据和所述第二属性维度下的属性数据为目标属性数据。
所述修复模块322,具体可以用于基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案。
进一步地,所述判定子模块,还可以具体用于计算所述任意两组医疗数据中样本患者在第三属性维度下的属性数据之间的第一距离;若所述第一距离小于第一预设距离,则判定所述样本患者在第四属性维度下的属性数据之间的第二距离是否大于或者等于第二预设距离;若所述第二距离大于或者等于所述第二预设距离,则确定所述任意两组医疗数据之间不满足所述距离依赖约束。
所述确定子模块,还可以具体用于若所述任意两组医疗数据之间不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第三属性维度下的属性数据和所述第四属性维度下的属性数据为目标属性数据。
所述修复模块322,具体可以用于基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案。
在具体应用场景中,所述测试单元33,包括:构建模块331和测试模块332。
所述构建模块331,可以用于构建所述多个候选修复集分别对应的初始多层感知器,并利用所述多个候选修复集分别对相应的初始多层感知器进行训练,构建所述多个候选修复集分别对应的预设分类模型。
所述测试模块332,可以用于利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的分类准确率。
在具体应用场景中,所述筛选单元34,具体可以用于确定多个所述分类准确率中的最高分类准确率,并将所述最高分类准确率对应的候选修复集确定为所述待修复数据集对应的目标修复集。
需要说明的是,本发明实施例提供的一种基于机器学习的数据修复装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取用于模型训练的待修复数据集;对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取用于模型训练的待修复数据集;对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
通过本发明的技术方案,能够获取用于模型训练的待修复数据集;并对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;与此同时,构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;最终根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集,由此通过将数据修复任务与分类模型训练任务相结合,两者相互指导,能够筛选出最有利于分类任务的目标修复集,即数据质量最高的修复集,进而利用该目标修复集构建预设分类模型,能够提高分类模型的分类精度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (6)

1.一种基于机器学习的数据修复方法,其特征在于,包括:
获取用于模型训练的待修复数据集;
对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
所述对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集,包括:
对所述待修复数据集中的多组医疗数据进行错误检测,确定所述多组医疗数据中存在冲突的目标医疗数据;
基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,并利用所述多种修复方案分别对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
所述多组医疗数据中的任意一组医疗数据包括样本患者在多个属性维度下的属性数据,所述对所述待修复数据集中的多组医疗数据进行错误检测,确定所述多组医疗数据中存在冲突的目标医疗数据,包括:
判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束;
若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据;或者
判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束;
若不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据;或者
判定所述多组医疗数据中任意两组医疗数据之间是否满足拒绝依赖约束;
若不满足所述拒绝依赖约束,则确定所述任意两组医疗数据为目标医疗数据;
所述判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束,包括:
当所述任意两组医疗数据中样本患者在第一属性维度下的属性数据相等时,判定所述样本患者在第二属性维度下的属性数据是否相等;
若所述样本患者在所述第二属性维度下的属性数据不相等,则确定所述任意两组医疗数据之间不满足所述函数依赖约束;
所述若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据,包括:
若所述任意两组医疗数据之间不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第一属性维度下的属性数据和所述第二属性维度下的属性数据为目标属性数据;
所述基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,包括:
基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案;
所述判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束,包括:
计算所述任意两组医疗数据中样本患者在第三属性维度下的属性数据之间的第一距离;
若所述第一距离小于第一预设距离,则判定所述样本患者在第四属性维度下的属性数据之间的第二距离是否大于或者等于第二预设距离;
若所述第二距离大于或者等于所述第二预设距离,则确定所述任意两组医疗数据之间不满足所述距离依赖约束;
所述若不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据,包括:
若所述任意两组医疗数据之间不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第三属性维度下的属性数据和所述第四属性维度下的属性数据为目标属性数据;
所述基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,包括:
基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案;
构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
2.根据权利要求1所述的方法,其特征在于,所述构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果,包括:
构建所述多个候选修复集分别对应的初始多层感知器,并利用所述多个候选修复集分别对相应的初始多层感知器进行训练,构建所述多个候选修复集分别对应的预设分类模型;
利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的分类准确率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集,包括:
确定多个所述分类准确率中的最高分类准确率,并将所述最高分类准确率对应的候选修复集确定为所述待修复数据集对应的目标修复集。
4.一种基于机器学习的数据修复装置,其特征在于,包括:
获取单元,用于获取用于模型训练的待修复数据集;
修复单元,用于对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
所述修复单元包括:检测模块和修复模块;
所述检测模块,可以用于对所述待修复数据集中的多组医疗数据进行错误检测,确定所述多组医疗数据中存在冲突的目标医疗数据;
所述修复模块,可以用于基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,并利用所述多种修复方案分别对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
所述检测模块包括:判定子模块和确定子模块;
所述判定子模块,可以用于判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束;
所述确定子模块,可以用于若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据;
所述判定子模块,还可以用于判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束;
所述确定子模块,还可以用于若不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据;
所述判定子模块,还可以用于判定所述多组医疗数据中任意两组医疗数据之间是否满足拒绝依赖约束;
所述确定子模块,还可以用于若不满足所述拒绝依赖约束,则确定所述任意两组医疗数据为目标医疗数据;
所述判定子模块,可以具体用于当所述任意两组医疗数据中样本患者在第一属性维度下的属性数据相等时,判定所述样本患者在第二属性维度下的属性数据是否相等;若所述样本患者在所述第二属性维度下的属性数据不相等,则确定所述任意两组医疗数据之间不满足所述函数依赖约束;
所述确定子模块,可以具体用于若所述任意两组医疗数据之间不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第一属性维度下的属性数据和所述第二属性维度下的属性数据为目标属性数据;
所述修复模块,具体可以用于基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案;
所述判定子模块,还可以具体用于计算所述任意两组医疗数据中样本患者在第三属性维度下的属性数据之间的第一距离;若所述第一距离小于第一预设距离,则判定所述样本患者在第四属性维度下的属性数据之间的第二距离是否大于或者等于第二预设距离;若所述第二距离大于或者等于所述第二预设距离,则确定所述任意两组医疗数据之间不满足所述距离依赖约束;
所述确定子模块,还可以具体用于若所述任意两组医疗数据之间不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第三属性维度下的属性数据和所述第四属性维度下的属性数据为目标属性数据;
所述修复模块,具体可以用于基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案;
测试单元,用于构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
筛选单元,用于根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
CN202111086465.XA 2021-09-16 2021-09-16 基于机器学习的数据修复方法、装置及计算机设备 Active CN113779011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111086465.XA CN113779011B (zh) 2021-09-16 2021-09-16 基于机器学习的数据修复方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111086465.XA CN113779011B (zh) 2021-09-16 2021-09-16 基于机器学习的数据修复方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN113779011A CN113779011A (zh) 2021-12-10
CN113779011B true CN113779011B (zh) 2023-06-02

Family

ID=78851357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111086465.XA Active CN113779011B (zh) 2021-09-16 2021-09-16 基于机器学习的数据修复方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113779011B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000167666A (ja) * 1998-12-04 2000-06-20 Hitachi Ltd 自動溶接及び欠陥補修方法並びに自動溶接装置
CN109144968A (zh) * 2018-08-15 2019-01-04 深圳市诺信连接科技有限责任公司 一种数据分布管理系统
CN110084374A (zh) * 2019-04-24 2019-08-02 第四范式(北京)技术有限公司 构建基于pu学习的模型的方法、装置及预测方法、装置
CN110969263A (zh) * 2019-12-05 2020-04-07 彭喆 一种用于机器学习的高级分析基础构架
CN111738442A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 一种大数据修复模型的构建方法和模型构建装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000167666A (ja) * 1998-12-04 2000-06-20 Hitachi Ltd 自動溶接及び欠陥補修方法並びに自動溶接装置
CN109144968A (zh) * 2018-08-15 2019-01-04 深圳市诺信连接科技有限责任公司 一种数据分布管理系统
CN110084374A (zh) * 2019-04-24 2019-08-02 第四范式(北京)技术有限公司 构建基于pu学习的模型的方法、装置及预测方法、装置
CN110969263A (zh) * 2019-12-05 2020-04-07 彭喆 一种用于机器学习的高级分析基础构架
CN111738442A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 一种大数据修复模型的构建方法和模型构建装置

Also Published As

Publication number Publication date
CN113779011A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
AU2020260078B2 (en) Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers
US11861519B2 (en) System and method for semantics based probabilistic fault diagnosis
CN107066464A (zh) 语义自然语言向量空间
JP4557337B2 (ja) Xリストに基づく多重エラー及び故障を診断する方法並びにシステム
Gebregiorgis et al. Testing of neuromorphic circuits: Structural vs functional
WO2019176993A1 (ja) 検査システム、画像識別システム、識別システム、識別器生成システム、及び学習データ生成装置
US20210357680A1 (en) Machine learning classification system
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN113516417A (zh) 基于智能建模的业务评估方法、装置、电子设备及介质
CN110704668B (zh) 基于网格的协同注意力vqa方法和装置
CN113707322B (zh) 信息预测模型的训练方法、装置、计算机设备及存储介质
CN114218781B (zh) 系统功能与可靠性、安全性及测试性综合建模分析方法
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN113779011B (zh) 基于机器学习的数据修复方法、装置及计算机设备
CN116403728B (zh) 医疗就诊数据的数据处理装置和相关设备
JP2019158684A (ja) 検査システム、識別システム、及び識別器評価装置
CN116664928A (zh) 一种基于CNN与Transformer的糖尿病视网膜病变分级方法与系统
CN114429822A (zh) 病历质检方法、装置和存储介质
Adebayo Towards Effective Tools for Debugging Machine Learning Models
Bolchini et al. Machine learning-based techniques for incremental functional diagnosis: A comparative analysis
CN104424060B (zh) 一种用于确定故障的方法和装置
Biswas et al. A hybrid CBR classification model by integrating ANN into CBR
JP2003050631A (ja) 異常診断システムの学習データ生成方法、異常診断システムの構築プログラム、異常診断プログラム、異常診断システムの構築装置および異常診断システム
Ye et al. Information-theoretic syndrome evaluation, statistical root-cause analysis, and correlation-based feature selection for guiding board-level fault diagnosis
CN110880182A (zh) 图像分割模型训练方法、图像分割方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant