CN113722306B - 基于实体相似度的医疗数据修复方法、装置及计算机设备 - Google Patents

基于实体相似度的医疗数据修复方法、装置及计算机设备 Download PDF

Info

Publication number
CN113722306B
CN113722306B CN202111017233.9A CN202111017233A CN113722306B CN 113722306 B CN113722306 B CN 113722306B CN 202111017233 A CN202111017233 A CN 202111017233A CN 113722306 B CN113722306 B CN 113722306B
Authority
CN
China
Prior art keywords
tuple
conflict
tuples
conflicting
medical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111017233.9A
Other languages
English (en)
Other versions
CN113722306A (zh
Inventor
徐啸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111017233.9A priority Critical patent/CN113722306B/zh
Publication of CN113722306A publication Critical patent/CN113722306A/zh
Application granted granted Critical
Publication of CN113722306B publication Critical patent/CN113722306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种基于实体相似度的医疗数据修复方法、装置及计算机设备,涉及大数据处理技术领域,可解决目前已有医疗数据的修复方式,可能会错误地去除了正确的医疗数据、而保留了真正错误的数据,导致数据的修复质量较差,严重阻碍医生的分析和诊断的技术问题。包括:根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;计算各个所述冲突元组与所述非冲突元组之间的特征距离;依据所述特征距离确定待剔除的目标冲突元组,并在所述医疗数据中剔除所述目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。本申请适用于对医疗数据的修复处理。

Description

基于实体相似度的医疗数据修复方法、装置及计算机设备
技术领域
本申请涉及大数据处理技术领域,尤其涉及到一种基于实体相似度的医疗数据修复方法、装置及计算机设备。
背景技术
随着医疗科技和计算机技术的发展,患者的就诊和病理数据信息呈指数增长。然而由于医疗设备传感器故障、网络传输等问题,随之产生了各种各样的低质病理数据。医生在低质的病理数据上对患者病情进行分析和确诊显然是不可行的,因此如何对这些低质数据进行清洗,保证医疗数据的质量,对于医生的诊疗尤为重要。为了应对医疗数据中存在的各种错误问题,一个直观而有效的方案就是准确地找到这些低质病理数据并进行数据修复,以提高病理数据的数据质量,进而保证医生诊疗的可靠性。
现有的子集修复方法主要是基于预设数据规范在医疗数据筛选出低质病理数据,并基于最小修复的规则找到个数最少的元组来识别为错误元组,通过将这些元组从原数据集中剔除,以实现对医疗数据的修复处理。
然而这种方法存在明显的缺陷。因为在实际的医疗数据中,最小修复规则通常并没有实际意义,甚至可能会错误地去除了正确的医疗数据、而保留了真正错误的数据,导致数据的修复质量较差,严重阻碍医生的分析和诊断。
发明内容
有鉴于此,本申请提供了一种基于实体相似度的医疗数据修复方法、装置及计算机设备,可用于解决目前已有医疗数据的修复方式,可能会错误地去除了正确的医疗数据、而保留了真正错误的数据,导致数据的修复质量较差,严重阻碍医生的分析和诊断的技术问题。
根据本申请的一个方面,提供了一种基于实体相似度的医疗数据修复方法,该方法包括:
根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;
计算各个所述冲突元组与所述非冲突元组之间的特征距离;
依据所述特征距离确定待剔除的目标冲突元组,并在所述医疗数据中剔除所述目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。
根据本申请的另一个方面,提供了一种基于实体相似度的医疗数据修复装置,该装置包括:
提取模块,用于根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;
计算模块,用于计算各个所述冲突元组与所述非冲突元组之间的特征距离;
处理模块,用于依据所述特征距离确定待剔除的目标冲突元组,并在所述医疗数据中剔除所述目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。
根据本申请的又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于实体相似度的医疗数据修复方法。
根据本申请的再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于实体相似度的医疗数据修复方法。
借由上述技术方案,本申请提供的一种基于实体相似度的医疗数据修复方法、装置及计算机设备,与目前已有医疗数据的修复方式相比,本申请可首先根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;进而计算各个冲突元组与非冲突元组之间的特征距离;最后依据特征距离确定待剔除的目标冲突元组,并在医疗数据中剔除目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。通过本申请中的技术方案,可克服最小修复原则无法判断一对冲突实体中到底哪个实体更有可能含有错误数据的弊端,从而能够得到一个全局最优的、最大化实体相似度的低质医疗数据子集修复结果,可以有效提高医疗数据质量,为医生的诊疗提供更可靠的依据和保障。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于实体相似度的医疗数据修复方法的流程示意图;
图2示出了本申请实施例提供的另一种基于实体相似度的医疗数据修复方法的流程示意图;
图3示出了本申请实施例提供的一种基于实体相似度的医疗数据修复装置的结构示意图;
图4示出了本申请实施例提供的另一种基于实体相似度的医疗数据修复装置的结构示意图。
具体实施方式
本申请实施例可以基于区块链技术实现对医疗数据的修复处理,具体可将医疗数据存储于区块链的节点中,以保证上述医疗数据的私密和安全性。本申请所指的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前已有医疗数据的修复方式,可能会错误地去除了正确的医疗数据、而保留了真正错误的数据,导致数据的修复质量较差,严重阻碍医生的分析和诊断的技术问题,本申请提供了一种基于实体相似度的医疗数据修复方法,如图1所示,该方法包括:
101、根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组。
其中,关系完整性约束是由专家指定或由已有规则挖掘方法得到的,为保证数据库中数据的正确性和相容性,提出的某种约束条件或规则,完整性约束主要有实体完整性约束、参照完整性约束、函数依赖约束、统计约束四类。对于本实施例,可应用函数依赖约束实现对冲突元组以及非冲突元组的提取;元组(tuple)是关系数据库中的基本概念,关系是一张表,表中的每行(即数据库中的每条记录)表示一个元组,每列对应一个属性。在二维表里,元组也称为行。对于本实施例,可将存在关联关系,或归属于同一患者、同一医院机构的医疗数据看作一张表,元组看成在整体医疗数据中的一行,如可包括验血化验数据、肝功能检测数据、放疗数据等,相应的,该元组对应的元组属性可为元组所对应行中的一列。如元组为验血化验数据,验血化验数据中的红细胞数据、白细胞数据等各种指标即对应该元组的不同元组属性;如元组为肝功能检测数据,肝功能检测数据中的谷丙转氨酶、谷草转氨酶、丙氨酰转肽酶以及总胆红素、直接胆红素和间接胆红素等即对应该元组的不同元组属性。对于本实施例,可基于关系完整性约束实现对医疗数据中各个元组之间的冲突关系进行检测,进一步提取出存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组。
对于本申请的执行主体可为用于对医疗数据进行修复处理的装置,可配置在客户端侧或服务端侧,可首先根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;进而计算各个冲突元组与非冲突元组之间的特征距离;最后依据特征距离确定待剔除的目标冲突元组,并在医疗数据中剔除目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。
102、计算各个冲突元组与非冲突元组之间的特征距离。
在基于关系完整性约束从医疗数据中提取出冲突元组与非冲突元组后,鉴于存在冲突关系的冲突元组对应为低质医疗数据的概率较大。故对于本实施例,可首先提取出存在冲突关系的冲突元组对以及不与当前冲突元组对中任一冲突元组存在冲突关系的非冲突元组,并利用非冲突元组构建和该冲突元组对对应的非冲突元组集,进而通过计算该冲突元组对中各个冲突元组与对应非冲突元组集中各个非冲突元组的特征距离,利用特征距离判定各个冲突元组与其他非冲突元组的特征相似度。当对应计算出的特征距离越小,反映对应的特征相似度越大。相应的,特征相似度越大,该冲突元组相较于冲突元组对中其他存在冲突关系的冲突元组具有越高的置信度,即越有可能为正确的元组;反之,特征相似度越小,该冲突元组相较于冲突元组对中其他存在冲突关系的冲突元组具有越低的置信度,即越有可能为低质的错误元组。
103、依据特征距离确定待剔除的目标冲突元组,并在医疗数据中剔除目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。
对于本实施例,在基于上述实施例步骤确定出各个冲突元组与非冲突元组之间的特征距离后,可进一步依据特征距离从存在冲突关系的冲突元组中确定待剔除的目标冲突元组。其中,目标冲突元组的约束条件为:剔除该目标冲突元组后,剩余的冲突元组以及非冲突元组之间的元组密度值最大。为保证最终的剔除结果满足上述条件,需要依据特征距离对冲突元组进行预剔除处理,并依据预剔除处理后计算得到的元组密度值的大小对比确定真正将要剔除的目标冲突元组。需要说明的是,目标冲突元组可包括一个冲突元组,还可包括存在冲突关系的多个冲突元组。
例如,依据实施例步骤102确定出冲突元组包括:a、b、c,与非冲突元组包括:d、e、f、g、h,其中,冲突元组a、b与非冲突元组d、e、f、g、h间的特征距离较大。对于本实施例,在依据特征距离对冲突元组进行预剔除处理时,鉴于冲突元组a、b对应的特征距离较大,故可优先对冲突元组a、b进行预剔除处理,即可对冲突元组a进行预剔除处理,进一步计算冲突元组b、c与非冲突元组d、e、f、g、h间的元组密度值,如为85%;还可对冲突元组b进行预剔除处理,进一步计算冲突元组a、c与非冲突元组d、e、f、g、h间的元组密度值,如为63%;相应的,还可同时对冲突元组a、b进行预剔除处理,进一步计算冲突元组c与非冲突元组d、e、f、g、h间的元组密度值,如为96%。通过对上述预剔除处理后所计算元组密度值的对比,可确定同时剔除冲突元组a、b后,对应得到的元组密度值最大,故可将冲突元组a、b同时确定为待剔除的目标冲突元组,并在医疗数据中剔除。
通过本实施例中基于实体相似度的医疗数据修复方法,可首先根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;进而计算各个冲突元组与非冲突元组之间的特征距离;最后依据特征距离确定待剔除的目标冲突元组,并在医疗数据中剔除目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。通过本申请中的技术方案,可克服最小修复原则无法判断一对冲突实体中到底哪个实体更有可能含有错误数据的弊端,从而能够得到一个全局最优的、最大化实体相似度的低质医疗数据子集修复结果,可以有效提高医疗数据质量,为医生的诊疗提供更可靠的依据和保障。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于实体相似度的医疗数据修复方法,如图2所示,该方法包括:
201、在医疗数据中随机提取存在相同第一属性的第一元组,并检测各个第一元组对应的第二属性是否相同,若是,则将第一元组确定为非冲突元组,若否,则将第一元组确定为冲突元组。
其中,第一属性和第二属性是根据预设函数依赖约束关系创建的。例如,第一属性为身份证号,第二属性对应可为身份信息,当第一属性下的身份证号相同时,第二属性对应的身份信息应相同;再例如,第一属性为患者身份标识(identification,ID),第二属性对应为患者就诊信息,当第一属性下的患者ID相同时,第二属性对应的患者就诊信息应相同。基于预设函数依赖约束关系创建存在约束关系的第一属性和第二属性,可在逻辑关系上,实现对医疗数据中错误元组的错误检测,能够保证更为深层次以及准确地进行低质医疗数据的检测,进而保证医疗数据的修复效果。
在具体的应用场景中,在执行本实施例步骤之前,实施例步骤还可包括,基于预设规则挖掘算法在医疗数据中提取满足函数依赖约束关系的第一属性和第二属性。示例性的,可采用基于分支筛选优化策略和数据库单次扫描技术的改进的Apriori算法来进行对医疗数据关联规则的挖掘,并依据数据关联规则确定出存在关联关系的第一属性和第二属性。其中,Apriori算法是一种挖掘关联规则的频繁项集算法,算法分为两个阶段:寻找频繁项集和由频繁项集挖掘关联规则。分别采用支持度和置信度来量化频繁项集和关联规则。其核心思想是通过候选集生成和情节的向下封闭检验检测两个阶段来挖掘频繁项集,即从数据集中寻找满足最小支持度的频繁项集,进而根据频繁项集产生关联规则。相应的,在利用Apriori算法进行对医疗数据关联规则的挖掘时,实施例步骤具体可以包括:(1)输入医疗数据X;(2)确定医疗数据所包含的所有元组;(3)进行第一次迭代,把每个元组中的数据单独扫描统计,将每个元组都作为候选1-频繁项集C1的成员,并计算每个元组的支持度;(4)设定最小支持度阈值α(如α=0.2),根据候选1-频繁项集C1的成员、支持度和最小支持度,采用扫描过滤的方式得候选2-频繁项集C2,候选集项需满足所有真子集的支持度都大于等于最小支持度;(5)保持最小支持度不变,重复进行第(4)步,直到没有办法再合并(即候选项集无法满足条件),形成新的候选项集,此时输出最终的频繁项集结果,并给出关联规则。进一步的,可依据关联规则,确定出存在关联关系的第一属性和第二属性。
对于本实施例,可根据预设规则挖掘算法确定出的关联规则,提取出存在关联关系的第一属性和第二属性,进而在医疗数据中随机提取存在相同第一属性的第一元组,并检测各个第一元组对应的第二属性是否相同,若判定相同第一属性的第一元组对应的第二属性也相同,即可判定该第一元组满足上述关联规则,则可将该第一元组确定为不存在冲突关系的非冲突元组;反之,若判定相同第一属性的第一元组对应的第二属性不同,即可判定该第一元组不满足上述关联规则,则可将该第一元组确定为存在冲突关系的冲突元组。
202、为各个冲突元组创建非冲突元组集,非冲突元组集中包含医疗数据中所有与冲突元组不存在冲突关系的非冲突元组。
对于本实施例,为了计算各个冲突元组与各个非冲突元组间的特征距离,对于本实施例,可为各个冲突元组创建非冲突元组集,以使非冲突元组集包含医疗数据中所有与冲突元组不存在冲突关系的非冲突元组。具体的,可在提取出存在冲突关系的冲突元组后,通过将冲突元组与医疗数据中所包含的各个元组进行冲突关系的提取,进一步确定出与该冲突元组不存在冲突关系的非冲突元组集。
203、按照第一预设距离计算公式计算各个冲突元组与非冲突元组集中任一非冲突元组的第一距离值。
在具体的应用场景中,鉴于对于一个真正存在错误的元组,其与其他元组的距离值越大,可信度越高。因此,在本实施例中,可计算各个冲突元组与非冲突元组集中任一非冲突元组的第一距离值,以便利用第一距离值实现对目标冲突元组的筛选预处理。其中,第一距离值的计算可以利用已有的任何距离方法,如适用于数值数据的绝对距离计算或者适用于字符数据的编辑距离计算等,其中,在计算距离值时,可采用任何适用于度量的距离函数,如可包括欧几里得距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、杰卡德距离(Jaccard Distance)、马氏距离(Mahalanobis distance)等,具体可根据元组对应的数据类型以及实际应用场景进行选择,在此不进行具体的限定。
204、根据第一距离值确定冲突元组与非冲突元组之间的特征距离。
对于本实施例,作为一种优选方式,可应用于K近邻的方法筛选出与各个冲突元组最相近的K个非冲突元组,具体可按照第一距离值由小到大(对应相似度由大到小)的顺序提取出K个非冲突元组,并计算当前冲突元组与该K个非冲突元组的第一距离值的累加和,进而将该累加和确定为该冲突元组与非冲突元组的特征距离。相应的,在根据第一距离值确定冲突元组与非冲突元组之间的特征距离时,实施例步骤204具体可以包括:按照距离值由小到大的顺序在第一距离值中筛选出预设数量个第二距离值;计算第二距离值的累加和,将累加和确定为冲突元组与非冲突元组的特征距离。其中,K(预设数量)的取值可根据实际应用场景进行设定,在此不进行具体的限定。
205、提取出对应特征距离大于或等于第一预设相似度阈值的第一冲突元组,将第一冲突元组在医疗数据中进行预剔除处理,并计算预剔除处理后的医疗数据的元组密度值。
在具体的应用场景中,为实现在进行数据修复的同时,考虑到数据的特征聚类效果,故在依据实施例步骤204确定出冲突元组与非冲突元组之间的特征距离时,可在冲突元组对中提取出对应特征距离大于或等于第一预设相似度阈值的第一冲突元组,进而将第一冲突元组在医疗数据中进行预剔除处理,并计算预剔除处理后的医疗数据的元组密度值,以便依据元组密度值筛选出能够带来最优修复效果以及最优聚类效果的目标冲突元组,进而利用目标冲突元组实现对医疗数据的修复处理。
对于本实施例,元组密度值具体可利用元组间距离小于预设距离阈值的元组数量来表示,当预填补元组与填补元组集和完整元组集的元组密度值越小,表示余下元组越能满足完整性约束,即当前预剔除结果对应的修复效果越好,反之则确定聚类效果不明显。相应的,实施例步骤205具体可以包括:按照第二预设距离计算公式,计算预剔除处理后的医疗数据中各个冲突元组和各个非冲突元组中任意两者之间的第三距离值;统计第三距离值小于第二预设距离阈值的元组个数,并作为预剔除处理后的医疗数据的元组密度值。其中,第二预设距离计算公式可与第一预设距离计算公式相同或不同,同样可包括欧几里得距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、杰卡德距离(JaccardDistance)、马氏距离(Mahalanobis distance)等,具体可根据元组对应的数据类型以及实际应用场景进行选择,在此不进行具体的限定。
206、将对应元组密度值大于预设密度阈值的第一冲突元组确定为待剔除的目标冲突元组,并对目标冲突元组进行剔除处理。
对于本实施例,对应的修复处理过程可为对冲突元组对中的冲突元组进行剔除处理,在进行剔除处理时,应遵循在消除原患者实体病理数据中存在的冲突和错误的同时,并保证未被剔除的冲突元组与非冲突元组之间不存在冲突,且特征距离最小,以得到全局相似度最大的结果的原则。本方案可应用于对冗余或无效患者病历数据的修复处理。
与实施例步骤205至206相对应,作为确定目标冲突元组的另一种可选方式,实施例步骤具体还可以包括:定义符合预设约束条件的整数规划形式;按照预设解线性规划工具对整数规划形式进行求解,得到目标冲突元组,并对目标冲突元组进行剔除处理。
其中,对于违反冲突的实体对为了在消除原医疗数据中存在的冲突和错误的同时,得到一个全局最优的子集修复方法,即最大化删除实体集后余下实体集的相似度,可将该解决方案表示为如下整数规划形式:
xi∈{0,1}
其中,pi为冲突元组对中的一个冲突元组,pj为冲突元组对中的另一个冲突元组,γ规定了在元组pi,pj的左值(第一属性值)相等pi[L]=pj[L]时,它们的右值(第二属性值)也一定要相等pi[R]=pj[R],这样满足函数依赖γ的规则约束的一对元组对将其表示为即元组pi,pj为彼此的非冲突元组。对于任意两个元组pi,pj,如果它们在满足左值相等pi[L]=pj[L]的条件下,而右值不相等pi[R]≠pj[R],则有冲突在这对元组对中产生,同理将其表示为/>即元组pi,pj为彼此的冲突元组。对于本实施例,可适用于/>即元组pi,pj为彼此的冲突元组的情况。si为冲突元组pi与最相近的k个非冲突元组的特征距离总和。/>为对所有冲突元组进行的枚举,表示全局最大化相似结果,目标在于保留对应较小si的冲突元组,并删除对应较大si的冲突元组;xi+xj≤1,/>表示第一条约束,即pi和pj中最多只有一条冲突元组被留下;xi∈{0,1}表示第二条约束,即xi的取值为0或1,当xi=0时表示实体pi被检测为错误实体并删除,当xi=1时表示实体pi被确认不含有错误数据。
对于上述整数规划形式,可通过利用已有的解线性规划工具,如Gurobi等即可得到以上规划问题的解并根据得到的解对其中xi=0所对应的目标冲突元组p删除。
对于本实施例,借由上述基于实体相似度的医疗数据修复方法,可首先根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;进而计算各个冲突元组与非冲突元组之间的特征距离;最后依据特征距离确定待剔除的目标冲突元组,并在医疗数据中剔除目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。通过本申请中的技术方案,可克服最小修复原则无法判断一对冲突实体中到底哪个实体更有可能含有错误数据的弊端,从而能够得到一个全局最优的、最大化实体相似度的低质医疗数据子集修复结果,可以有效提高医疗数据质量,为医生的诊疗提供更可靠的依据和保障。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种基于实体相似度的医疗数据修复装置,如图3所示,该装置包括:提取模块31、计算模块32、处理模块33;
提取模块31,可用于根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;
计算模块32,可用于计算各个冲突元组与非冲突元组之间的特征距离;
处理模块33,可用于依据特征距离确定待剔除的目标冲突元组,并在医疗数据中剔除目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。
在具体的应用场景中,在根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组时,提取模块31,具体可用于在医疗数据中随机提取存在相同第一属性的第一元组,并检测各个第一元组对应的第二属性是否相同,其中,第一属性和第二属性是根据预设函数依赖约束关系创建的;若是,则将第一元组确定为非冲突元组;若否,则将第一元组确定为冲突元组。
相应的,为了方便计算各个冲突元组与非冲突元组之间的特征距离,如图4所示,该装置还包括:创建模块34;
创建模块34,可用于为各个冲突元组创建非冲突元组集,非冲突元组集中包含医疗数据中所有与冲突元组不存在冲突关系的非冲突元组。
在具体的应用场景中,计算模块32,具体可用于按照第一预设距离计算公式计算各个冲突元组与非冲突元组集中任一非冲突元组的第一距离值;根据第一距离值确定冲突元组与非冲突元组之间的特征距离。
相应的,在根据第一距离值确定冲突元组与非冲突元组之间的特征距离时,计算模块32,具体可用于按照距离值由小到大的顺序在第一距离值中筛选出预设数量个第二距离值;计算第二距离值的累加和,将累加和确定为冲突元组与非冲突元组的特征距离。
在具体的应用场景中,处理模块33,具体可用于提取出对应特征距离大于或等于第一预设距离阈值的第一冲突元组;将第一冲突元组在医疗数据中进行预剔除处理,并计算预剔除处理后的医疗数据的元组密度值;将对应元组密度值大于预设密度阈值的第一冲突元组确定为待剔除的目标冲突元组,并对目标冲突元组进行剔除处理。
相应的,在计算预剔除处理后的医疗数据的元组密度值时,处理模块33,具体可用于按照第二预设距离计算公式,计算预剔除处理后的医疗数据中各个冲突元组和各个非冲突元组中任意两者之间的第三距离值;统计第三距离值小于第二预设距离阈值的元组个数,并作为预剔除处理后的医疗数据的元组密度值。
需要说明的是,本实施例提供的一种基于实体相似度的医疗数据修复装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种存储介质,存储介质具体可为易失性或非易失性,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的基于实体相似度的医疗数据修复方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于实体相似度的医疗数据修复方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可首先根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;进而计算各个冲突元组与非冲突元组之间的特征距离;最后依据特征距离确定待剔除的目标冲突元组,并在医疗数据中剔除目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大。通过本申请中的技术方案,可克服最小修复原则无法判断一对冲突实体中到底哪个实体更有可能含有错误数据的弊端,从而能够得到一个全局最优的、最大化实体相似度的低质医疗数据子集修复结果,可以有效提高医疗数据质量,为医生的诊疗提供更可靠的依据和保障。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于实体相似度的医疗数据修复方法,其特征在于,包括:
根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;
计算各个所述冲突元组与所述非冲突元组之间的特征距离;
依据所述特征距离确定待剔除的目标冲突元组,并在所述医疗数据中剔除所述目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大;
所述确定待剔除的目标冲突元组,还包括:定义符合预设约束条件的整数规划公式;按照预设解线性规划工具对整数规划形式进行求解,得到目标冲突元组,并对目标冲突元组进行剔除处理;
所述整数规划公式为:
其中,c表示所有冲突元组,为冲突元组对中的一个冲突元组,/>为冲突元组对中的另一个冲突元组,/>规定了在元组/>,/>的左值相等/>时,元组/>,/>的右值也相等/>,满足函数依赖/>的规则约束的一对元组对将其表示为,即元组/>,/>为彼此的非冲突元组;对于任意两个元组/>,/>,如果在满足左值相等/>的条件下,而右值不相等/>,则有冲突在这对元组对中产生,同理将其表示为/>,即元组/>,/>为彼此的冲突元组;si为冲突元组/>与最相近的k个非冲突元组的特征距离总和;/>为对所有冲突元组进行的枚举,表示全局最大化相似结果,目标在于保留对应较小/>的冲突元组,并删除对应较大/>的冲突元组;/>表示第一条约束,即/>中最多只有一条冲突元组被留下;/>表示第二条约束,即/>的取值为0或1,当/>时表示实体/>被检测为错误实体并删除,当/>时表示实体/>被确认不含有错误数据。
2.根据权利要求1所述的方法,其特征在于,所述根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组,包括:
在所述医疗数据中随机提取存在相同第一属性的第一元组,并检测各个所述第一元组对应的第二属性是否相同,其中,所述第一属性和所述第二属性是根据预设函数依赖约束关系创建的;
若是,则将所述第一元组确定为非冲突元组;
若否,则将所述第一元组确定为冲突元组。
3.根据权利要求1所述的方法,其特征在于,在所述计算各个所述冲突元组与所述非冲突元组之间的特征距离之前,还包括:
为各个所述冲突元组创建非冲突元组集,所述非冲突元组集中包含所述医疗数据中所有与所述冲突元组不存在冲突关系的非冲突元组。
4.根据权利要求3所述的方法,其特征在于,所述计算各个所述冲突元组与所述非冲突元组之间的特征距离,包括:
按照第一预设距离计算公式计算各个所述冲突元组与所述非冲突元组集中任一非冲突元组的第一距离值;
根据所述第一距离值确定所述冲突元组与所述非冲突元组之间的特征距离。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一距离值确定所述冲突元组与所述非冲突元组之间的特征距离,具体包括:
按照距离值由小到大的顺序在所述第一距离值中筛选出预设数量个第二距离值;
计算所述第二距离值的累加和,将所述累加和确定为所述冲突元组与所述非冲突元组的特征距离。
6.根据权利要求1所述的方法,其特征在于,所述依据所述特征距离确定待剔除的目标冲突元组,并在所述医疗数据中剔除所述目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大,包括:
提取出对应所述特征距离大于或等于第一预设距离阈值的第一冲突元组;
将所述第一冲突元组在所述医疗数据中进行预剔除处理,并计算预剔除处理后的医疗数据的元组密度值;
将对应所述元组密度值大于预设密度阈值的第一冲突元组确定为待剔除的目标冲突元组,并对所述目标冲突元组进行剔除处理。
7.根据权利要求6所述的方法,其特征在于,所述计算预剔除处理后的医疗数据的元组密度值,包括:
按照第二预设距离计算公式,计算预剔除处理后的医疗数据中各个冲突元组和各个非冲突元组中任意两者之间的第三距离值;
统计所述第三距离值小于第二预设距离阈值的元组个数,并作为预剔除处理后的医疗数据的元组密度值。
8.一种基于实体相似度的医疗数据修复装置,其特征在于,包括:
提取模块,用于根据关系完整性约束对医疗数据进行冲突检测,提取存在冲突关系的冲突元组以及不存在冲突关系的非冲突元组;
计算模块,用于计算各个所述冲突元组与所述非冲突元组之间的特征距离;
处理模块,用于依据所述特征距离确定待剔除的目标冲突元组,并在所述医疗数据中剔除所述目标冲突元组,以使剔除后的医疗数据对应的元组密度值最大;
所述处理模块,还用于:定义符合预设约束条件的整数规划公式;按照预设解线性规划工具对整数规划形式进行求解,得到目标冲突元组,并对目标冲突元组进行剔除处理;
所述整数规划公式为:
其中,c表示所有冲突元组,为冲突元组对中的一个冲突元组,/>为冲突元组对中的另一个冲突元组,/>规定了在元组/>,/>的左值相等/>时,元组/>,/>的右值也相等/>,满足函数依赖/>的规则约束的一对元组对将其表示为,即元组/>,/>为彼此的非冲突元组;对于任意两个元组/>,/>,如果在满足左值相等/>的条件下,而右值不相等/>,则有冲突在这对元组对中产生,同理将其表示为/>,即元组/>,/>为彼此的冲突元组;si与最相近的k个非冲突元组的特征距离总和;/>为对所有冲突元组进行的枚举,表示全局最大化相似结果,目标在于保留对应较小/>的冲突元组,并删除对应较大/>的冲突元组;/>表示第一条约束,即/>和/>中最多只有一条冲突元组被留下;/>表示第二条约束,即/>的取值为0或1,当/>时表示实体/>被检测为错误实体并删除,当/>时表示实体/>被确认不含有错误数据。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于实体相似度的医疗数据修复方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于实体相似度的医疗数据修复方法。
CN202111017233.9A 2021-08-31 2021-08-31 基于实体相似度的医疗数据修复方法、装置及计算机设备 Active CN113722306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017233.9A CN113722306B (zh) 2021-08-31 2021-08-31 基于实体相似度的医疗数据修复方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017233.9A CN113722306B (zh) 2021-08-31 2021-08-31 基于实体相似度的医疗数据修复方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN113722306A CN113722306A (zh) 2021-11-30
CN113722306B true CN113722306B (zh) 2023-08-11

Family

ID=78680237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017233.9A Active CN113722306B (zh) 2021-08-31 2021-08-31 基于实体相似度的医疗数据修复方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113722306B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114625875B (zh) * 2022-03-09 2024-03-29 平安科技(深圳)有限公司 多数据源信息的模式匹配方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451416A (zh) * 2017-08-28 2017-12-08 昆明理工大学 一种sle的辅助诊断装置及方法
CN110728699A (zh) * 2019-10-11 2020-01-24 智慧视通(杭州)科技发展有限公司 一种基于特征距离的轨迹后处理方法
CN111241079A (zh) * 2020-01-08 2020-06-05 哈尔滨工业大学 一种数据清洗方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131576B2 (en) * 2006-06-02 2012-03-06 International Business Machines Corporation Method and system for identifying conflicting constraints in mixed integer programs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451416A (zh) * 2017-08-28 2017-12-08 昆明理工大学 一种sle的辅助诊断装置及方法
CN110728699A (zh) * 2019-10-11 2020-01-24 智慧视通(杭州)科技发展有限公司 一种基于特征距离的轨迹后处理方法
CN111241079A (zh) * 2020-01-08 2020-06-05 哈尔滨工业大学 一种数据清洗方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DR-RDC:基于校准否定约束集的数据修复方法;卢菁 等;小型微型计算机系统;第5卷(第40期);第1083-1088页 *

Also Published As

Publication number Publication date
CN113722306A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
US20200357118A1 (en) Medical scan viewing system with enhanced training and methods for use therewith
Yuan et al. Prostate cancer classification with multiparametric MRI transfer learning model
Soltaninejad et al. Automated brain tumour detection and segmentation using superpixel-based extremely randomized trees in FLAIR MRI
US10339653B2 (en) Systems, methods and devices for analyzing quantitative information obtained from radiological images
CN112365987A (zh) 诊断数据异常检测方法、装置、计算机设备及存储介质
CN108352196A (zh) 没有明显的准标识符的去标识的健康护理数据库的医院匹配
CN106407443A (zh) 一种结构化医疗数据生成方法及装置
CN111341408B (zh) 影像报告模板的生成方法、计算机设备和存储介质
US12061994B2 (en) Inference process visualization system for medical scans
Shao et al. Using the maximum between-class variance for automatic gridding of cDNA microarray images
CN114596467A (zh) 基于证据深度学习的多模态影像分类方法
CN113722306B (zh) 基于实体相似度的医疗数据修复方法、装置及计算机设备
JP2023532292A (ja) 機械学習ベースの医療データチェッカ
CN118116611B (zh) 基于多源医养大数据融合集成的数据库构建方法
Tian et al. Radiomics and its clinical application: artificial intelligence and medical big data
Tusher et al. Early brain stroke prediction using machine learning
US20210397905A1 (en) Classification system
de França et al. A biclustering approach for classification with mislabeled data
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN112435745A (zh) 就诊策略推荐方法、装置、电子设备及存储介质
CN116168836A (zh) 一种融合fMRI影像和基因组学数据的阿尔茨海默症预测方法
Sharma et al. FDT− Dr2T: a unified Dense Radiology Report Generation Transformer framework for X-ray images
CN113111075B (zh) 投融资信息挖掘方法、装置、电子设备和存储介质
Vajpayee et al. An effective classification of Skin Disease using Deep Learning Techniques
CN113704697A (zh) 基于多元回归模型的医疗数据缺失处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant