CN113792104B - 基于人工智能的医疗数据错误检测方法、装置及存储介质 - Google Patents

基于人工智能的医疗数据错误检测方法、装置及存储介质 Download PDF

Info

Publication number
CN113792104B
CN113792104B CN202111087567.3A CN202111087567A CN113792104B CN 113792104 B CN113792104 B CN 113792104B CN 202111087567 A CN202111087567 A CN 202111087567A CN 113792104 B CN113792104 B CN 113792104B
Authority
CN
China
Prior art keywords
attribute data
data
tuple
tuple attribute
error detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111087567.3A
Other languages
English (en)
Other versions
CN113792104A (zh
Inventor
徐啸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111087567.3A priority Critical patent/CN113792104B/zh
Publication of CN113792104A publication Critical patent/CN113792104A/zh
Application granted granted Critical
Publication of CN113792104B publication Critical patent/CN113792104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于人工智能的医疗数据错误检测方法、装置及存储介质,涉及人工智能技术领域。包括:确定样本病理数据对应的第一元组属性数据以及第二元组属性数据;依据第一元组属性数据和第二元组属性数据生成第一类标向量,利用第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;根据第一检测结果将符合预设类标更新条件的第二元组属性数据更新为第三元组属性数据,利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量;依据第二类标向量迭代训练第一错误检测模型,得到第二错误检测模型;将目标患者上传的患者病理数据输入第二错误检测模型,得到目标检测结果。

Description

基于人工智能的医疗数据错误检测方法、装置及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及到一种基于人工智能的医疗数据错误检测方法、装置及存储介质。
背景技术
随着计算机网络的飞速发展,数据量呈指数型增长,随之而来的是各种数据质量问题,脏数据严重阻碍了对其进一步的分析和应用。为了应对脏数据中的错误带来的影响,各种各样的错误检测方法被提出,以用来检测数据中存在的错误,从而对其进行进一步处理,如直接过滤掉错误数据或对其进行修复等。
已有的错误检测方法在模型训练时均要求用户提供足够多且数量相当的正例(错误)和负例(干净)数据,利用在这些数据上训练得到的模型来对其他无标数据进行错误检测的判断。然而在很多实际应用中,负例数据通常是很难得到的、且具有动态变化和多元化的性质,使得很难获得可靠的负例数据、以供模型训练使用。而往往只有少量的正例数据和大量的无标数据可用。因此,在诸如这种只有正例和无标数据的场景下,已有的基于均衡正例和负例数据的错误检测算法无法进行有效训练,也就不能用于检测医疗数据中的错误,进而导致医疗数据错误检测的准确率较低。
发明内容
有鉴于此,本申请提供了一种基于人工智能的医疗数据错误检测方法、装置及存储介质,可用于解决只有少量正例数据和大量无标数据的场景下,已有基于均衡正例和负例数据的错误检测算法无法进行有效训练,导致医疗数据错误检测的准确率较低的技术问题。
根据本申请的一个方面,提供了一种基于人工智能的医疗数据错误检测方法,该方法包括:
确定样本病理数据对应的元组数据,所述元组数据包括错误属性对应的第一元组属性数据以及无标属性对应的第二元组属性数据;
依据所述第一元组属性数据和所述第二元组属性数据生成第一类标向量,利用所述第一元组属性数据、所述第二元组属性数据以及所述第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;
根据所述第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用所述第一元组属性数据、未更新的第二元组属性数据以及所述第三元组属性数据生成第二类标向量;
依据所述第一元组属性数据、所述未更新的第二元组属性数据、所述第三元组属性数据以及所述第二类标向量迭代训练所述第一错误检测模型,得到第二错误检测模型;
获取目标患者上传的患者病理数据,将所述患者病理数据输入所述第二错误检测模型,得到目标检测结果。
根据本申请的另一个方面,提供了一种基于人工智能的医疗数据错误检测装置,该装置包括:
确定模块,用于确定样本病理数据对应的元组数据,所述元组数据包括错误属性对应的第一元组属性数据以及无标属性对应的第二元组属性数据;
第一训练模块,用于依据所述第一元组属性数据和所述第二元组属性数据生成第一类标向量,利用所述第一元组属性数据、所述第二元组属性数据以及所述第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;
第一生成模块,用于根据所述第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用所述第一元组属性数据、未更新的第二元组属性数据以及所述第三元组属性数据生成第二类标向量;
第二训练模块,用于依据所述第一元组属性数据、所述未更新的第二元组属性数据、所述第三元组属性数据以及所述第二类标向量迭代训练所述第一错误检测模型,得到第二错误检测模型;
输入模块,用于获取目标患者上传的患者病理数据,将所述患者病理数据输入所述第二错误检测模型,得到目标检测结果。
根据本申请的又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于人工智能的医疗数据错误检测方法。
根据本申请的再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于人工智能的医疗数据错误检测方法。
借由上述技术方案,本申请提供的一种基于人工智能的医疗数据错误检测方法、装置及存储介质,与目前对医疗数据的错误检测方式相比,本申请可在确定出样本病理数据对应的元组数据后,基于元组数据中的第一元组属性数据和第二元组属性数据生成第一类标向量,进而利用第一元组属性数据、第二元组属性数据以及第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;进一步的,可根据第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量;通过依据第一元组属性数据、未更新的第二元组属性数据、第三元组属性数据以及第二类标向量迭代训练第一错误检测模型,即可得到最终的第二错误检测模型;最后将目标患者上传的患者病理数据输入至第二错误检测模型,即可得到目标检测结果。相比于传统错误检测方法只适用于正例数据和负例数据均存在且均衡的场景,而忽略了无标数据的作用。在本申请中,可以在有效地在没有负例数据的限制下,应用更多的无标数据,以帮助训练得到更好的错误检测模型,从而能够准确地对医疗数据进行错误检测,提高数据质量。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于人工智能的医疗数据错误检测方法的流程示意图;
图2示出了本申请实施例提供的另一种基于人工智能的医疗数据错误检测方法的流程示意图;
图3示出了本申请实施例提供的一种基于人工智能的医疗数据错误检测装置的结构示意图;
图4示出了本申请实施例提供的另一种基于人工智能的医疗数据错误检测装置的结构示意图。
具体实施方式
本申请实施例可以基于人工智能技术实现对医疗数据的错误检测。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前只有少量正例数据和大量无标数据的场景下,已有基于均衡正例和负例数据的错误检测算法无法进行有效训练,导致医疗数据错误检测的准确率较低的技术问题,本申请提供了一种基于人工智能的医疗数据错误检测方法,如图1所示,该方法包括:
101、确定样本病理数据对应的元组数据,元组数据包括错误属性对应的第一元组属性数据以及无标属性对应的第二元组属性数据。
其中,样本病理数据为与待进行错误检测的患者病理数据对应相同数据类型的医疗数据;元组(tuple)是关系数据库中的基本概念,关系是一张表,表中的每行(即数据库中的每条记录)表示一个元组,每列对应一个属性。在二维表里,元组也称为行。对于本实施例,可基于数据关系将样本病理数据转化为元组数据形式,即可将对应同一患者、同一医院机构的医疗数据看作一张表,元组看成在整体医疗数据中的一行,如可包括验血化验数据、肝功能检测数据、放疗数据等,相应的,该元组对应的元组属性可为元组所对应行中的一列。如元组为验血化验数据,验血化验数据中的红细胞数据、白细胞数据等各种指标即对应该元组的不同元组属性;如元组为肝功能检测数据,肝功能检测数据中的谷丙转氨酶、谷草转氨酶、丙氨酰转肽酶以及总胆红素、直接胆红素和间接胆红素等即对应该元组的不同元组属性;第一元组属性数据为对应元组属性下数据明显出现错误的正例数据,第二元组属性数据为对应元组属性下数据无法准确判定是否为正例数据或负例数据的无标数据。
本申请的目的在于,利用少量正例数据以及大量无标数据实现对错误检测模型的迭代训练,即在负例数据缺失的情况下,首先将无标数据默认为负例数据,并依据错误检测模型的检测结果,实现无标数据向正例数据的转化,进而在判定不存在待转化的无标数据时,判定错误检测模型训练完成。最后将目标医疗数据输入至训练完成的错误检测模型中,利用错误检测模型输出针对目标医疗数据的错误属性值检测结果。
对于本申请的执行主体可为用于对医疗数据进行错误检测的装置,可配置在客户端侧或服务端侧,可在确定出样本病理数据对应的元组数据后,基于元组数据中的第一元组属性数据和第二元组属性数据生成第一类标向量,进而利用第一元组属性数据、第二元组属性数据以及第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;进而根据第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量;通过依据第一元组属性数据、未更新的第二元组属性数据、第三元组属性数据以及第二类标向量迭代训练第一错误检测模型,得到最终的第二错误检测模型;最后将目标患者上传的患者病理数据输入至第二错误检测模型,获取目标检测结果。
102、依据第一元组属性数据和第二元组属性数据生成第一类标向量,利用第一元组属性数据、第二元组属性数据以及第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果。
其中,第一错误检测模型可为任意一种二分类模型,如回归模型、分类树模型、神经网络模型等,具体可根据实际的应用场景而选择适合的模型,如计算机配置较低,可选择相对简单的模型;如存在大量的数据且存在较好的计算机配置,则可选择深度模型。
对于本实施例,在依据第一元组属性数据和第二元组属性数据生成第一类标向量时,可将第一元组属性数据标记为第一类标“1”,将其他无法确定是否错误的第二元组属性数据标记为第二类标“0”,进而通过组合第一类标和第二类标,生成元组数据对应的标签向量,即第一类标向量,其中,第一类标向量的向量维度与元组数据中包含的元组属性数量相同。
相应的,在生成第一类标向量后,可以第一类标向量作为标签数据进一步训练第一错误检测模型,并根据第一错误检测模型输出的训练检测结果与第一类标向量计算第一错误检测模型的检测精准度,当判定检测精准度大于预设阈值时,可判定第一错误检测模型预训练完成。进而可基于预训练完成的第一错误检测模型确定关于第二元组属性数据的第一检测结果。
103、根据第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量。
对于本实施例,鉴于第二元组属性数据为无标属性数据,故在初始训练得到第一错误检测模型后,可基于第一错误检测模型对第二元组属性数据进行错误检测,进而基于第一检测结果实现对第二元组属性数据由无标属性到正例属性的更新,对于第一检测结果中检测分值较高的第二属性数据可更新为正例属性数据,进而利用原第一元组属性数据、检测分值较低的第二属性数据(默认为负例数据,不进行无标属性到正例属性的更新),以及由检测分值较高的第二属性数据更新后的第三属性数据生成更新后的第二类标向量。具体可将第一元组属性数据和第三元组属性数据标记为第一类标“1”,将其他无法确定是否错误的第二元组属性数据标记为第二类标“0”,进而生成元组数据对应的标签向量,即第二类标向量。
104、依据第一元组属性数据、未更新的第二元组属性数据、第三元组属性数据以及第二类标向量迭代训练第一错误检测模型,得到第二错误检测模型。
对于本实施例,可将第一元组属性数据、未更新的第二元组属性数据、第三元组属性数据作为输入特征,将第二类标向量作为标签数据,在第一错误检测模型的训练基础上,通过动态更新的正例数据实现对第一错误检测模型的迭代训练,进一步得到符合预设训练标准的第二错误检测模型。通过迭代训练过程,可保证错误检测模型的检测精度不断得到优化,以帮助训练得到更好的错误检测模型,从而能够准确地对医疗数据进行错误检测。
105、获取目标患者上传的患者病理数据,将患者病理数据输入第二错误检测模型,得到目标检测结果。
其中,目标患者为待对患者病理数据进行错误检测的患者主体。
对于本实施例,可将第一错误检测模型经过迭代训练得到的第二错误检测模型,作为最终应用于实际医疗数据错误检测场景下的应用模型。具体可直接将目标患者上传的患者病理数据输入第二错误检测模型,第二错误检测模型即会输出患者病理数据对应的目标检测结果。
通过本实施例中基于人工智能的医疗数据错误检测方法,可在确定出样本病理数据对应的元组数据后,基于元组数据中的第一元组属性数据和第二元组属性数据生成第一类标向量,进而利用第一元组属性数据、第二元组属性数据以及第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;进一步的,可根据第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量;通过依据第一元组属性数据、未更新的第二元组属性数据、第三元组属性数据以及第二类标向量迭代训练第一错误检测模型,即可得到最终的第二错误检测模型;最后将目标患者上传的患者病理数据输入至第二错误检测模型,即可得到目标检测结果。相比于传统错误检测方法只适用于正例数据和负例数据均存在且均衡的场景,而忽略了无标数据的作用。在本申请中,可以在有效地在没有负例数据的限制下,应用更多的无标数据,以帮助训练得到更好的错误检测模型,从而能够准确地对医疗数据进行错误检测,提高数据质量。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于人工智能的医疗数据错误检测方法,如图2所示,该方法包括:
201、确定样本病理数据对应的元组数据,元组数据包括错误属性对应的第一元组属性数据以及无标属性对应的第二元组属性数据。
对于本实施例,在确定样本病理数据之后,首先需要将样本病理数据转换为元组数据,进而可按照各元组属性对应的数值区间,在元组数据中提取存在明显错误属性值的第一元组属性数据,并将第一元组属性数据之外的元组数据确定为第二元组属性数据,进而使样本病理数据对应的元组数据包括存在明显错误属性值的第一元组属性数据以及无法确定是否存在错误属性值的第二元组属性数据。
202、将第一元组属性数据标记为第一类标,将第二元组属性数据标记为第二类标,按照第一元组属性数据和第二元组属性数据在元组数据中的排列顺序,组合第一类标和第二类标,得到元组数据对应的第一类标向量。
对于本实施例,可将第一元组属性数据标记为第一类标“1”,将第二元组属性数据标记为第二类标“0”,进而按照第一元组属性数据和第二元组属性数据在元组数据中的排列顺序,对各个第一类标和各个第二类标进行组合处理,进一步得到与元组数据所包含元组属性数量相同的向量维度下的第一类标向量。
例如,对于每条元组数据ti由m个元组属性值(A1,A2,…,Am)组成的,即ti=(ti[A1],…,ti[Aj],…,ti[Am]),其中ti[Aj]表示为元组数据ti在其第j个元组属性上的值。相应的,通过对每个元组属性值的明显错误的初始识别,可得到m维第一类标向量,记为(l1,…,lj,…,lm),其中lj表示ti[Aj]是否为错误值,第一类标“1”表示为错误值,第二类标“0”表示无标注。
203、将第一元组属性数据和第二元组属性数据作为输入特征,将第一类标向量作为标签数据预训练第一错误检测模型,获取第一错误检测模型的训练检测结果。
对于本实施例,第一错误检测模型可为任意一种二分类模型,如回归模型、分类树模型、神经网络模型等。在对第一错误检测模型进行预训练时,可采用有监督学习的方式,将第一元组属性数据和第二元组属性数据作为输入特征,将第一类标向量作为标签数据预训练第一错误检测模型,在训练过程中,不断根据第一错误检测模型的检测结果和标签数据的差值确定检测误差,并基于检测误差不断调整第一错误检测模型的模型参数,使得误差越来越小,直至判断训练完成。
204、若判定训练检测结果中第一元组属性数据的检测准确度大于预设准确度阈值,则判定第一错误检测模型预训练完成。
对于本实施例,在第一错误检测模型训练过程中,鉴于第一元组属性数据是存在明显错误的正例数据,故具体可将第一类标向量中的第一类标作为标签数据,通过提取训练检测结果中针对第一元组属性数据的检测分值,并判断该检测分值是否大于预设阈值,进一步得到第一元组属性数据的检测准确度。具体的,如判断该检测分值大于预设阈值,可确定对应该第一元组属性的检测结果为“1”,即说明针对该第一元组属性的检测结果是正确的。进而通过统计对应检测结果是正确的第一元组属性的数量,并利用该数量与第一元组属性的总数的比值计算得到第一元组属性数据的检测准确度。若检测准确度大于预设准确度阈值,则可判定第一错误检测模型预训练完成,反之,则需要重复执行实施例步骤203中的训练过程,不断调整模型参数,直至预训练完成。其中,预设阈值和预设准确度阈值为0~1之间的数值,具体数值可根据实际数据表现以及经验系数进行确定,在此不进行具体的限定。在具体的应用场景中,设定的数值越接近于1,表示第一错误检测模型的检测精度越高。
205、若判定第一错误检测模型预训练完成,则在训练检测结果中提取关于第二元组属性数据的第一检测结果。
鉴于第一错误检测模型是基于少量的正例样本训练得到的,故为了保证错误检测模型的检测精度,对于本实施例,可通过将符合预设类标更新条件的无标数据(即第二元组属性数据)转化为正例数据(即第一元组属性数据),进而在不需要人工参与的情况下,在训练过程中实现对正例样本的扩充处理,以使错误检测模型在丰富的正例样本下能够训练达到较高检测精度。对于本实施例,在判定第一错误检测模型预训练完成后,可进一步在训练检测结果中提取关于第二元组属性数据的第一检测结果,以便通过对第一检测结果的分析,在第二元组属性数据中筛选出能够更新为错误属性的元组属性数据。
206、根据第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量。
在具体的应用场景中,在提取出关于第二元组属性数据的第一检测结果后,需要预先根据第一检测结果判断各个第二元组属性数据是否符合预设类标更新条件,当判定第二元组属性数据符合预设类标更新条件时,进一步执行本实施例中的步骤。相应的,在执行本实施例步骤之前,具体还包括:根据第一检测结果判断第二元组属性数据是否符合预设类标更新条件,其中预设类标更新条件为第二元组属性数据在第一检测结果中的检测分值大于预设阈值。
进一步的,对于本实施例,可将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据对第一类标向量进行更新,得到第二类标向量。相应的,对于本实施例,作为一种可选实施方式,在利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量时,实施例步骤206具体可以包括:将第一元组属性数据和第三元组属性数据标记为第一类标“1”,将第二元组属性数据标记为第二类标“0”;按照第一元组属性数据、第二元组属性数据和第三元组属性数据在元组数据中的排列顺序,组合第一类标和第二类标,得到元组数据对应的第二类标向量。
207、重复执行上述生成第二类标向量,并利用第二类标向量训练第一错误检测模型的过程,直至确定训练进程符合预设迭代终止条件,判定第一错误检测模型迭代训练完成,得到第二错误检测模型。
其中,预设迭代终止条件为未更新的第二元组属性数据中不存在符合预设类标更新条件的第二元组属性数据,即在第一检测结果中无法再找到对应检测分值大于预设阈值的第二元组属性数据。
对于本实施例,当判定训练进程符合预设迭代终止条件时,即可结束对第一错误检测模型迭代训练,将当前训练进程下的错误检测模型确定为最终可应用于实际医疗数据错误检测场景下的应用模型。
208、获取目标患者上传的患者病理数据,将患者病理数据输入第二错误检测模型,得到目标检测结果。
在具体的应用场景中,作为一种可选实施方式,在依据第二错误检测模型得到目标检测结果之后,可以根据实际应用需要生成对错误检测数据的推荐数据修复策略,如对这些含有错误属性值的元组可以直接丢掉,或利用其他已有的数据修复方法进行修复,再对这些清洗处理后的数据进行下游分析或应用等。相应的,实施例步骤还可包括:依据目标检测结果生成推荐数据修复策略;输出目标检测结果和推荐数据修复策略。
借由上述基于人工智能的医疗数据错误检测方法,可利用少量正例数据以及大量无标数据实现对错误检测模型的迭代训练,在负例数据缺失的情况下,首先将无标数据默认为负例数据,并依据错误检测模型的检测结果,实现无标数据向正例数据的转化,进而在缺乏负例数据的情况下也能保证良好的模型训练效果。相比于传统错误检测方法只适用于正例数据和负例数据均存在且均衡的场景,而忽略了无标数据的作用。在本申请中,可以应用更多的无标数据,以帮助训练得到更好的错误检测模型,从而能够准确地对医疗数据进行错误检测,提高数据质量。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种基于人工智能的医疗数据错误检测装置,如图3所示,该装置包括:确定模块31、第一训练模块32、第一生成模块33、第二训练模块34、输入模块35;
确定模块31,可用于确定样本病理数据对应的元组数据,元组数据包括错误属性对应的第一元组属性数据以及无标属性对应的第二元组属性数据;
第一训练模块32,可用于依据第一元组属性数据和第二元组属性数据生成第一类标向量,利用第一元组属性数据、第二元组属性数据以及第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;
第一生成模块33,可用于根据第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用第一元组属性数据、未更新的第二元组属性数据以及第三元组属性数据生成第二类标向量;
第二训练模块34,可用于依据第一元组属性数据、未更新的第二元组属性数据、第三元组属性数据以及第二类标向量迭代训练第一错误检测模型,得到第二错误检测模型;
输入模块35,可用于获取目标患者上传的患者病理数据,将患者病理数据输入第二错误检测模型,得到目标检测结果。
在具体的应用场景中,为了实现第一类标向量的生成,第一训练模块32,可用于将第一元组属性数据标记为第一类标,将第二元组属性数据标记为第二类标;按照第一元组属性数据和第二元组属性数据在元组数据中的排列顺序,组合第一类标和第二类标,得到元组数据对应的第一类标向量。
相应的,在利用第一元组属性数据、第二元组属性数据以及第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果时,第一训练模块32,可用于将第一元组属性数据和第二元组属性数据作为输入特征,将第一类标向量作为标签数据预训练第一错误检测模型,获取第一错误检测模型的训练检测结果;若判定训练检测结果中第一元组属性数据的检测准确度大于预设准确度阈值,则判定第一错误检测模型预训练完成;若判定第一错误检测模型预训练完成,则在训练检测结果中提取关于第二元组属性数据的第一检测结果。
在具体的应用场景中,如图4所示,该装置还包括:判断模块36;
判断模块36,可用于根据第一检测结果判断第二元组属性数据是否符合预设类标更新条件,预设类标更新条件为第二元组属性数据在第一检测结果中的检测分值大于预设阈值。
相应的,第一生成模块33,具体可用于将第一元组属性数据和第三元组属性数据标记为第一类标,将第二元组属性数据标记为第二类标;按照第一元组属性数据、第二元组属性数据和第三元组属性数据在元组数据中的排列顺序,组合第一类标和第二类标,得到元组数据对应的第二类标向量。
在具体的应用场景中,为了迭代训练得到第二错误检测模型,第二训练模块34,具体可用于重复执行上述生成第二类标向量,并利用第二类标向量训练第一错误检测模型的过程,直至确定训练进程符合预设迭代终止条件,判定第一错误检测模型迭代训练完成,得到第二错误检测模型。
相应的,为了在将患者病理数据输入第二错误检测模型,得到目标检测结果之后,根据目标检测结果生成推荐数据修复策略,如图4所示,该装置还包括:第二生成模块37、输出模块38;
第二生成模块37,可用于依据目标检测结果生成推荐数据修复策略;
输出模块38,可用于输出目标检测结果和推荐数据修复策略。
需要说明的是,本实施例提供的一种基于人工智能的医疗数据错误检测装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种存储介质,存储介质具体可为易失性或非易失性,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的基于人工智能的医疗数据错误检测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于人工智能的医疗数据错误检测方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可利用少量正例数据以及大量无标数据实现对错误检测模型的迭代训练,在负例数据缺失的情况下,首先将无标数据默认为负例数据,并依据错误检测模型的检测结果,实现无标数据向正例数据的转化,进而在缺乏负例数据的情况下也能保证良好的模型训练效果。相比于传统错误检测方法只适用于正例数据和负例数据均存在且均衡的场景,而忽略了无标数据的作用。在本申请中,可以应用更多的无标数据,以帮助训练得到更好的错误检测模型,从而能够准确地对医疗数据进行错误检测,提高数据质量。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (9)

1.一种基于人工智能的医疗数据错误检测方法,其特征在于,包括:
确定样本病理数据对应的元组数据,所述元组数据包括错误属性对应的第一元组属性数据以及无标属性对应的第二元组属性数据;
依据所述第一元组属性数据和所述第二元组属性数据生成第一类标向量,利用所述第一元组属性数据、所述第二元组属性数据以及所述第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;
根据所述第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用所述第一元组属性数据、未更新的第二元组属性数据以及所述第三元组属性数据生成第二类标向量;
依据所述第一元组属性数据、所述未更新的第二元组属性数据、所述第三元组属性数据以及所述第二类标向量迭代训练所述第一错误检测模型,得到第二错误检测模型;
获取目标患者上传的患者病理数据,将所述患者病理数据输入所述第二错误检测模型,得到目标检测结果;
其中,所述依据所述第一元组属性数据和所述第二元组属性数据生成第一类标向量,包括:
将所述第一元组属性数据标记为第一类标,将所述第二元组属性数据标记为第二类标;
按照所述第一元组属性数据和所述第二元组属性数据在所述元组数据中的排列顺序,组合所述第一类标和所述第二类标,得到所述元组数据对应的第一类标向量。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一元组属性数据、所述第二元组属性数据以及所述第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果,包括:
将所述第一元组属性数据和所述第二元组属性数据作为输入特征,将所述第一类标向量作为标签数据预训练第一错误检测模型,获取所述第一错误检测模型的训练检测结果;
若判定所述训练检测结果中第一元组属性数据的检测准确度大于预设准确度阈值,则判定所述第一错误检测模型预训练完成;
若判定所述第一错误检测模型预训练完成,则在所述训练检测结果中提取关于所述第二元组属性数据的第一检测结果。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据之前,还包括:
根据所述第一检测结果判断所述第二元组属性数据是否符合预设类标更新条件,所述预设类标更新条件为所述第二元组属性数据在所述第一检测结果中的检测分值大于预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述利用所述第一元组属性数据、未更新的第二元组属性数据以及所述第三元组属性数据生成第二类标向量,包括:
将所述第一元组属性数据和所述第三元组属性数据标记为第一类标,将所述第二元组属性数据标记为第二类标;
按照所述第一元组属性数据、所述第二元组属性数据和所述第三元组属性数据在所述元组数据中的排列顺序,组合所述第一类标和所述第二类标,得到所述元组数据对应的第二类标向量。
5.根据权利要求1所述的方法,其特征在于,所述依据所述第一元组属性数据、所述未更新的第二元组属性数据、所述第三元组属性数据以及所述第二类标向量迭代训练所述第一错误检测模型,得到第二错误检测模型,包括:
重复执行上述生成第二类标向量,并利用第二类标向量训练所述第一错误检测模型的过程,直至确定所述训练进程符合预设迭代终止条件,判定所述第一错误检测模型迭代训练完成,得到第二错误检测模型。
6.根据权利要求1所述的方法,其特征在于,在所述获取目标患者上传的患者病理数据,将所述患者病理数据输入所述第二错误检测模型,得到目标检测结果之后,还包括:
依据所述目标检测结果生成推荐数据修复策略;
输出所述目标检测结果和所述推荐数据修复策略。
7.一种基于人工智能的医疗数据错误检测装置,其特征在于,包括:
确定模块,用于确定样本病理数据对应的元组数据,所述元组数据包括错误属性对应的第一元组属性数据以及无标属性对应的第二元组属性数据;
第一训练模块,用于依据所述第一元组属性数据和所述第二元组属性数据生成第一类标向量,具体为,将所述第一元组属性数据标记为第一类标,将所述第二元组属性数据标记为第二类标;按照所述第一元组属性数据和所述第二元组属性数据在所述元组数据中的排列顺序,组合所述第一类标和所述第二类标,得到所述元组数据对应的第一类标向量;以及,利用所述第一元组属性数据、所述第二元组属性数据以及所述第一类标向量预训练第一错误检测模型,并基于预训练完成的第一错误检测模型确定第一检测结果;
第一生成模块,用于根据所述第一检测结果将符合预设类标更新条件的第二元组属性数据更新为错误属性对应的第三元组属性数据,并利用所述第一元组属性数据、未更新的第二元组属性数据以及所述第三元组属性数据生成第二类标向量;
第二训练模块,用于依据所述第一元组属性数据、所述未更新的第二元组属性数据、所述第三元组属性数据以及所述第二类标向量迭代训练所述第一错误检测模型,得到第二错误检测模型;
输入模块,用于获取目标患者上传的患者病理数据,将所述患者病理数据输入所述第二错误检测模型,得到目标检测结果。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6中任一项所述的基于人工智能的医疗数据错误检测方法。
9.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述的基于人工智能的医疗数据错误检测方法。
CN202111087567.3A 2021-09-16 2021-09-16 基于人工智能的医疗数据错误检测方法、装置及存储介质 Active CN113792104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111087567.3A CN113792104B (zh) 2021-09-16 2021-09-16 基于人工智能的医疗数据错误检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111087567.3A CN113792104B (zh) 2021-09-16 2021-09-16 基于人工智能的医疗数据错误检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113792104A CN113792104A (zh) 2021-12-14
CN113792104B true CN113792104B (zh) 2024-03-01

Family

ID=78878744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111087567.3A Active CN113792104B (zh) 2021-09-16 2021-09-16 基于人工智能的医疗数据错误检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113792104B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647937A (zh) * 2019-09-23 2020-01-03 北京百度网讯科技有限公司 标注模型训练方法及装置
CN110796482A (zh) * 2019-09-27 2020-02-14 北京淇瑀信息科技有限公司 用于机器学习模型的金融数据分类方法、装置及电子设备
CN111461151A (zh) * 2019-01-18 2020-07-28 搜狗(杭州)智能科技有限公司 一种多元组样本构建方法及装置
CN111542083A (zh) * 2020-03-24 2020-08-14 浙江中烟工业有限责任公司 一种通过工业无线网空口采集和分析的方法
CN111797080A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、数据回收方法、装置、存储介质及设备
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112242187A (zh) * 2020-10-26 2021-01-19 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112420205A (zh) * 2020-12-08 2021-02-26 医惠科技有限公司 实体识别模型生成方法、装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461151A (zh) * 2019-01-18 2020-07-28 搜狗(杭州)智能科技有限公司 一种多元组样本构建方法及装置
CN111797080A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、数据回收方法、装置、存储介质及设备
CN110647937A (zh) * 2019-09-23 2020-01-03 北京百度网讯科技有限公司 标注模型训练方法及装置
CN110796482A (zh) * 2019-09-27 2020-02-14 北京淇瑀信息科技有限公司 用于机器学习模型的金融数据分类方法、装置及电子设备
CN111542083A (zh) * 2020-03-24 2020-08-14 浙江中烟工业有限责任公司 一种通过工业无线网空口采集和分析的方法
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112242187A (zh) * 2020-10-26 2021-01-19 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112420205A (zh) * 2020-12-08 2021-02-26 医惠科技有限公司 实体识别模型生成方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林金钏 ; 艾浩军 ; .噪声可容忍的标记组合半监督学习算法.计算机工程.2018,(第04期),全文. *
面向众包数据清洗的主动学习技术;叶 晨;《软件学报》;第31卷(第4期);第1164页第1行-第1167页最后1行,附图2 *

Also Published As

Publication number Publication date
CN113792104A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN110765246B (zh) 基于智能机器人的问答方法、装置、存储介质和智能设备
CN112102237A (zh) 基于半监督学习的脑部肿瘤识别模型的训练方法及装置
CN108960269B (zh) 数据集的特征获取方法、装置及计算设备
CN110688471B (zh) 训练样本获取方法、装置及设备
CN111340233B (zh) 机器学习模型的训练方法及装置、样本处理方法及装置
CN111028203B (zh) 一种基于显著性的cnn盲图像质量评估方法
CN115546692A (zh) 一种远程教育数据采集分析方法、设备及计算机存储介质
CN111325212A (zh) 模型训练方法、装置、电子设备和计算机可读存储介质
CN113792104B (zh) 基于人工智能的医疗数据错误检测方法、装置及存储介质
CN115984956B (zh) 一种人机协同学生课堂投入度多模态可视分析系统
CN115719497A (zh) 一种学生专注度识别方法及系统
CN111967276B (zh) 翻译质量评估方法及装置、电子设备、存储介质
CN112818950B (zh) 一种基于生成对抗网络和时间卷积网络的唇语识别方法
CN115393241A (zh) 医学图像增强方法、装置、电子设备及可读存储介质
CN112365474A (zh) 血管提取方法、装置、电子设备和存储介质
CN113656279B (zh) 基于残差网络和度量注意机制的代码气味检测方法
CN116630724B (zh) 数据模型的生成方法和图像处理方法、装置及芯片
CN117251599B (zh) 一种视频语料智能测试优化方法、装置和存储介质
CN116776230B (zh) 一种基于特征压印与特征迁移识别信号的方法及系统
CN116612471A (zh) 一种用于类器官活力分析的明场成像检测分析方法和系统
CN118035284A (zh) 一种基于医学数据内容绘制四维内容的智能评价方法
CN118252500A (zh) 一种基于脑电信号和近红外信号的情绪评估模型训练方法
CN115100007A (zh) 基于人工智能的在线教学管理方法及系统
CN116932662A (zh) 一种基于池化网络的概念抽象方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant