CN109473149B - 数据质量评估方法、装置、电子设备及计算机可读介质 - Google Patents

数据质量评估方法、装置、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN109473149B
CN109473149B CN201811332061.2A CN201811332061A CN109473149B CN 109473149 B CN109473149 B CN 109473149B CN 201811332061 A CN201811332061 A CN 201811332061A CN 109473149 B CN109473149 B CN 109473149B
Authority
CN
China
Prior art keywords
data
data set
constructing
rule
clinical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811332061.2A
Other languages
English (en)
Other versions
CN109473149A (zh
Inventor
李文琪
闫峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Xinkaixin Life Technology Co ltd
Tianjin Happy Life Technology Co ltd
Original Assignee
Tianjin Xinkaixin Life Technology Co ltd
Tianjin Happy Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Xinkaixin Life Technology Co ltd, Tianjin Happy Life Technology Co ltd filed Critical Tianjin Xinkaixin Life Technology Co ltd
Priority to CN201811332061.2A priority Critical patent/CN109473149B/zh
Publication of CN109473149A publication Critical patent/CN109473149A/zh
Application granted granted Critical
Publication of CN109473149B publication Critical patent/CN109473149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Abstract

本公开涉及一种临床医学数据质量评估方法、装置、电子设备及计算机可读介质。该方法包括:根据第一规则与第一数据构建第一数据集合;根据第二规则与第二数据构建第二数据集合;将第一数据集合与第二数据集合中对应的元素进行关联,组建多维度数据集合;以及通过所述多维度数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。本公开的临床医学数据质量评估方法、装置、电子设备及计算机可读介质,能够高效高精度检验数据质量的完整性、相关性、准确性,达到高水平数据质量控制的目标。

Description

数据质量评估方法、装置、电子设备及计算机可读介质
技术领域
本公开涉及医疗大数据处理领域,具体而言,涉及一种临床医学数据质量评估方法、装置、电子设备及计算机可读介质。
背景技术
在临床研究的数据管理中,数据质量是举足轻重的问题,因为临床研究所需要的任何质量流程缺失都会导致试验结果的偏差、缺失或不准确。美国医学研究所指出高质量的数据“是指那些支持相同的结论且无差错的数据”。
然而,由于临床数据质量的评估包括诸多方面,如准确性、一致性、及时性、实用性、时效性、完整性、相关性、细致性、明确性、简明性和可溯源性等,数据质量的评估往往由一系列的评判标准构成。单个标准可以形容数据质量的一个方面,但当试图将不同的标准加以组合,标准与标准之间的优先级、权重和相互妥协则构成一个极其复杂的问题。同时,研究的设计缺陷、方案或病例报告表(CRF)严密程度不高,也会经常将数据质量中的问题放大并复杂化,导致该研究不能准确地回答其本身假设。
综上,目前在绝大多数实际的临床研究中,研究者除了尽力使所有数据所有指标达到100%之外,几乎没有办法评估某个指标的折扣如90%、80%,哪些是可以接受的。此类问题目前还无法被很好的分析综合加以解决,导致数据质量控制的实际结果往往也是相对的、范围局限的、难以外推的和难以相互比较的。
因此,需要一种新的临床医学数据质量评估方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种临床医学数据质量评估方法、装置、电子设备及计算机可读介质,能够高效高精度检验数据质量的完整性、相关性、准确性,达到高水平数据质量控制的目标。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种临床医学数据质量评估方法,该方法包括:根据第一规则与第一数据构建第一数据集合;根据第二规则与第二数据构建第二数据集合;将第一数据集合与第二数据集合中对应的元素进行关联,组建多维度数据集合;以及通过所述多维度数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。
在本公开的一种示例性实施例中,根据第一规则与第一数据构建第一数据集合包括:根据医学常识规则与医学基础数据构建所述第一数据集合,所述第一数据集合中包括疾病名称。
在本公开的一种示例性实施例中,根据第二规则与第二数据构建第二数据集合包括:根据临床教学规则与临床医学数据构建所述第二数据集合,所述第二数据集合中包括疾病名称。
在本公开的一种示例性实施例中,将第一数据集合与第二数据集合中对应的元素进行关联,组建多维度数据集合包括:将所述第一数据集合与所述第二数据集合中对应的疾病名称进行关联,生成第三数据集合;通过所述第三数据集合与多维度限制条件组建多维度数据集合。
在本公开的一种示例性实施例中,所述多维度限制条件包括:时间维度限制条件、机构维度限制条件、科室维度限制条件、以及就诊类型限制条件。
在本公开的一种示例性实施例中,通过所述多维度数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估包括:设定初始关联率与阈值;通过所述初始关联率与阈值检验所述多维度数据集合;以及通过检验结果与所述机器学习算法构建所述关联率模型,以对临床医学数据质量进行评估。
在本公开的一种示例性实施例中,通过检验结果与所述机器学习算法构建所述关联率模型包括:将不满足所述检验的多维度数据集合中的数据进行标注以生成标注数据集合;通过所述标注数据集合与所述机器学习算法构建所述关联率模型。
根据本公开的一方面,提出一种临床医学数据质量评估装置,该装置包括:第一数据模块,用于根据第一规则与第一数据构建第一数据集合;第二数据模块,用于根据第二规则与第二数据构建第二数据集合;关联模块,用于将第一数据集合与第二数据集合中对应的元素进行关联,组件多维度数据集合;以及模型训练模块,用于通过所述多维度数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的临床医学数据质量评估方法、装置、电子设备及计算机可读介质,通过构建疾病与检验数据、临床数据等等之间的理论关系,通过该关系生成评估数据质量的关联率模型的方式,能够高效高精度检验数据质量的完整性、相关性、准确性,达到高水平数据质量控制的目标。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种临床医学数据质量评估方法的流程图。
图2是根据另一示例性实施例示出的一种临床医学数据质量评估方法的流程图。
图3是根据另一示例性实施例示出的一种临床医学数据质量评估装置的流程图。
图4是根据一示例性实施例示出的一种电子设备的框图。
图5是根据一示例性实施例示出一种计算机可读存储介质示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
在制药企业和临床试验组织(Clinical Research Organization)中,用于临床研究的数据管理除质量控制(QC)即一系列的数据质量标准之外还有质量保证(QA)即一系列管理计划、标准流程来保证数据质量。目前行业通则是将重点放在“过程规范”和“内容稽查”两方面上,主要依赖人工数据写入流程控制和人工数据内容交叉核对来实现100%准确率的数据质量控制和管理。
本申请的发明人发现,目前的“过程规范”和“内容稽查”这种两方式成本巨大、项目之间无复用性、无法根本克服人为错误、无相对灵活高效的数据质量评价标准。用于特定的科研项目上尚可提供高水平的数据质量保障,但负担沉重、外推性不佳,用于平台级别的数据质控工作则变成十分不理想的选择。
另外,现有方式强调所收集数据的100%真实和100%准确,然而真实的和准确的不一定是“可用”的。现有质控标准中不包含与试验设计、试验本身的假设、医学常识相关联的部分,而后者往往是必要的。
本申请提出的临床医学数据质量评估方法,尝试在一批数据进入平台的时候,即科研项目确立之前、无具体应用目标的时刻即普适性地高效高精度检验数据质量的完整性、相关性、准确性,配合并借助数据平台天然提供的一致性、及时性、时效性、细致性、明确性、和可溯源性,达到高水平数据质量控制的目标。
本申请提出的临床医学数据质量评估方法,尝试使质控程度的评价标准灵活化,回答总体90%准确率、80%准确率是否可用,即是否影响回答研究的主要假设这个问题。
本申请提出的临床医学数据质量评估方法,尝试在传统思维重视数据具体内容准确性的基础上发展对数据关联性的关注,在数据以外的其它角度上寻找成本、收益、覆盖面、灵活性的新式均衡。
以下是对本申请的临床医学数据质量评估方法的具体说明:
图1是根据一示例性实施例示出的一种临床医学数据质量评估方法的流程图。如图1所述,本申请的临床医学数据质量评估方法10至少包括步骤S102至S108。
如图1所示,在S102中,根据第一规则与第一数据构建第一数据集合。可例如,根据医学常识规则与医学基础数据构建所述第一数据集合,所述第一数据集合中包括疾病名称。
在一个实施例中,第一规则可例如为医学常识规则,医学常识规则可例如通过临床医学指南类的数据中获得,第一数据可例如为临床医学指南类的数据中的疾病数据,确诊数据,治疗方案数据等等。具体可例如,从临床指南出发设立医学常识基础规则:以临床上有代表性的常见疾病为范围,从每个疾病对应指南上寻找的确诊所需的检查、检验、操作;治疗方案中必选的核心药物、手术;流行病学特征等;与特定疾病名称配成关系对,进而构成第一数据集合。
其中,第一数据集合可例如如下表所示:
Figure BDA0001860283950000061
在S104中,根据第二规则与第二数据构建第二数据集合。可例如,根据临床教学规则与临床医学数据构建所述第二数据集合,所述第二数据集合中包括疾病名称。
在一个实施例中,第二规则可例如为临床教学规则,临床教学规则可例如通过临床教学实践中获得,第二数据可例如为从临床教学数据中获得的疾病数据。疾病关联数据等等。从临床教材、鉴别诊断专著中寻找每个特定疾病与相关疾病之间的临床逻辑关联、流行病学关联、因为鉴别诊断需要而产生的“高共现概率”组合,与特定疾病名称配成关系对,以构成第二数据集合。
其中,第二数据集合可例如如下表所示:
Figure BDA0001860283950000071
在S106中,将第一数据集合与第二数据集合中对应的元素进行关联,组建多维度数据集合。可例如,将所述第一数据集合与所述第二数据集合中对应的疾病名称进行关联,生成第三数据集合;通过所述第三数据集合与多维度限制条件组建多维度数据集合。
在一个实施例中,第一数据集合与第二数据集合这两类基本关系对的基础上组合产生一部分符合医学常识的复杂关系对,生成第三数据集合。还可例如对第三数据集合加入多维度限制条件。多维度限制条件包括:时间维度限制条件、机构维度限制条件、科室维度限制条件、以及就诊类型限制条件,以构成多维度数据集合。
在一个实施例中,还可例如,将每个关系对扩展为一套基于医学常识的查询条件,用于检验每个关系对的实际关联率和在时间维度、机构维度、科室维度、就诊类型维度上的分布连续性。
根据本步骤中的方式,可以从疾病诊疗常识、流行病学和临床病历记录实况中寻找关联关系作为质控规则的技术方案
在S108中,通过所述多维度数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。可例如,通过多维度数据集合中的数据对机器学习算法中的模型进行训练,以获取关联率模型。关联率模型可用于对医疗大数据进行质量判断。关联率模型根据不同的疾病、不同的试验批次、不同的试验范围、不同的试验设计需要的数据的评估中,具有不同的参数,以使得关联率模型能适应于不同的数据需求,适应不同的应用场景。
根据本公开的临床医学数据质量评估方法,能够对基本质控规则进行复杂组合和多维度切分,对报警结果进行人工核实并借助机器学习算法确定单条规则在特定批次数据上的最适阈值的技术方案。
根据本公开的临床医学数据质量评估方法,通过构建疾病与检验数据、临床数据等等之间的理论关系,通过该关系生成评估数据质量的关联率模型的方式,使得构建出的关联率模型能够高效高精度检验数据质量的完整性、相关性、准确性,达到高水平数据质量控制的目标。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图2是根据另一示例性实施例示出的一种临床医学数据质量评估方法的流程图。图2是对图1的S108中的“通过所述多维度数据集合与机器学习算法构建关联率模型”的进一步详细描述。
如图2所示,在S202中,设定初始关联率与阈值。可例如,从临床经验出发指定每一个关系对的初始预期关联率。关联率与阈值初始也可以设置为任意值,关联率与其对应的阈值是的初始值会影响模型训练的效率,但不会影响最终结果。关联率与其对应的阈值越接近于实际数据,则在模型训练中需要进行判断整理的数据越少,一般情况下,关联率与其对应的阈值需要从临床经验中获得并制定。
在S204中,通过所述初始关联率与阈值检验所述多维度数据集合。关联率与阈值初始值制定之后,对多维度数据集合中的每一个关联数据组进行检验。具体可例如,对每批数据进行关联率的检查;初始定义低于预期50%的报警,低于预期25%的严重报警。
在S206中,将不满足所述检验的多维度数据集合中的数据进行标注以生成标注数据集合。对报警结果进行人工核实并形成标注数据集合,可例如,将根据该关联率与阈值进行判断之后,判断正确的数据经人工核实之后设置为“1”,将根据该关联率与阈值进行判断之后,判断错误的数据经人工核实之后设置为“0”,进而形成标注数据集合。
其中,关联率与阈值可例如如下表所示:
Figure BDA0001860283950000091
在S208中,通过所述标注数据集合与所述机器学习算法构建所述关联率模型。依据标注数据进行机器学习得到最适合的关联率预期和报警阈值,最终达成特定批次、特定范围、特定试验设计需要的数据在关联性方面的个性化质控结论并且发明基于关联性检查的智能质量数据质量管理工具。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
根据算法的功能和形式的类似性,机器学习算法可例如有回归算法、正则化方法、基于实例的算法、决策树算法、贝叶斯方法、基于核的算法、聚类算法、人工神经网络算法等等。本申请中的机器学习算法可例如包括以上算法中的一类或者几种相结合,本申请不限于此。
根据本公开的临床医学数据质量评估方法,能够在具体数据应用场景和相应质控需求到来前对全平台的数据进行适当力度的质控和报警,使数据问题早发现早处理。
根据本公开的临床医学数据质量评估方法,能够采取从临床医学常识出发构建的质控标准,使可发现问题的范围变得显著广泛,包括数据平台代码bug、数据模型设计缺陷、原始数据映射错误和原生医疗数据书写甚至临床诊疗过程的不规范点。问题核查结果可反哺多个环节的流程控制和数据质量。
根据本公开的临床医学数据质量评估方法,通过智能学习过程使质控标准的判读显著灵活,可达到场地特异性、批次特异性、任务特异性的精确化数据可用性评价体系。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据另一示例性实施例示出的一种临床医学数据质量评估装置的流程图。临床医学数据质量评估装置30包括:第一数据模块302,第二数据模块304,关联模块306,以及模型训练模块308。
第一数据模块302用于根据第一规则与第一数据构建第一数据集合。可例如,根据医学常识规则与医学基础数据构建所述第一数据集合,所述第一数据集合中包括疾病名称。
第二数据模块304用于根据第二规则与第二数据构建第二数据集合。可例如,根据临床教学规则与临床医学数据构建所述第二数据集合,所述第二数据集合中包括疾病名称。
关联模块306用于将第一数据集合与第二数据集合中对应的元素进行关联,组件多维度数据集合。可例如,将所述第一数据集合与所述第二数据集合中对应的疾病名称进行关联,生成第三数据集合;通过所述第三数据集合与多维度限制条件组建多维度数据集合。
模型训练模块308用于通过所述多维度数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。可例如,通过多维度数据集合中的数据对机器学习算法中的模型进行训练,以获取关联率模型。关联率模型可用于对医疗大数据进行质量判断。关联率模型根据不同的疾病、不同的试验批次、不同的试验范围、不同的试验设计需要的数据的评估中,具有不同的参数,以使得关联率模型能适应于不同的数据需求,适应不同的应用场景。
根据本公开的临床医学数据质量评估装置,通过构建疾病与检验数据、临床数据等等之间的理论关系,通过该关系生成评估数据质量的关联率模型的方式,使得构建出的关联率模型能够高效高精度检验数据质量的完整性、相关性、准确性,达到高水平数据质量控制的目标。
图4是根据一示例性实施例示出的一种电子设备的框图。
下面参照图4来描述根据本公开的这种实施方式的电子设备200。图4显示的电子设备200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图1,图2中所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
图5示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
参考图5所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:根据第一规则与第一数据构建第一数据集合;根据第二规则与第二数据构建第二数据集合;将第一数据集合与第二数据集合中对应的元素进行关联,组建多维度数据集合;以及通过所述多维度数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本公开可实施的范畴。

Claims (8)

1.一种临床医学数据质量评估方法,其特征在于,包括:
根据第一规则与第一数据构建第一数据集合;
根据第二规则与第二数据构建第二数据集合;
将第一数据集合与第二数据集合中对应的元素进行关联,组建多维度数据集合;以及
设定初始关联率与阈值;
通过所述初始关联率与阈值检验所述多维度数据集合;以及
将不满足所述检验的多维度数据集合中的数据进行标注以生成标注数据集合;
通过所述标注数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。
2.如权利要求1所述的方法,其特征在于,根据第一规则与第一数据构建第一数据集合包括:
根据医学常识规则与医学基础数据构建所述第一数据集合,所述第一数据集合中包括疾病名称。
3.如权利要求1所述的方法,其特征在于,根据第二规则与第二数据构建第二数据集合包括:
根据临床教学规则与临床医学数据构建所述第二数据集合,所述第二数据集合中包括疾病名称。
4.如权利要求1所述的方法,其特征在于,将第一数据集合与第二数据集合中对应的元素进行关联,组建多维度数据集合包括:
将所述第一数据集合与所述第二数据集合中对应的疾病名称进行关联,生成第三数据集合;
通过所述第三数据集合与多维度限制条件组建多维度数据集合。
5.如权利要求4所述的方法,其特征在于,所述多维度限制条件包括:
时间维度限制条件、机构维度限制条件、科室维度限制条件、以及就诊类型限制条件。
6.一种临床医学数据质量评估装置,其特征在于,包括:
第一数据模块,用于根据第一规则与第一数据构建第一数据集合;
第二数据模块,用于根据第二规则与第二数据构建第二数据集合;
关联模块,用于将第一数据集合与第二数据集合中对应的元素进行关联,组建 多维度数据集合;以及
模型训练模块,用于设定初始关联率与阈值;通过所述初始关联率与阈值检验所述多维度数据集合;以及将不满足所述检验的多维度数据集合中的数据进行标注以生成标注数据集合;通过所述标注数据集合与机器学习算法构建关联率模型,以对临床医学数据质量进行评估。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201811332061.2A 2018-11-09 2018-11-09 数据质量评估方法、装置、电子设备及计算机可读介质 Active CN109473149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811332061.2A CN109473149B (zh) 2018-11-09 2018-11-09 数据质量评估方法、装置、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811332061.2A CN109473149B (zh) 2018-11-09 2018-11-09 数据质量评估方法、装置、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN109473149A CN109473149A (zh) 2019-03-15
CN109473149B true CN109473149B (zh) 2021-01-15

Family

ID=65671868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811332061.2A Active CN109473149B (zh) 2018-11-09 2018-11-09 数据质量评估方法、装置、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN109473149B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362829B (zh) * 2019-07-16 2023-01-03 北京百度网讯科技有限公司 结构化病历数据的质量评估方法、装置及设备
CN110993079A (zh) * 2019-11-29 2020-04-10 重庆亚德科技股份有限公司 一种医疗质量控制管理平台
CN110909824B (zh) * 2019-12-09 2022-10-28 天津开心生活科技有限公司 试验数据的核查方法及装置、存储介质及电子设备
CN112270486A (zh) * 2020-11-04 2021-01-26 医渡云(北京)技术有限公司 数据质量评估方法、装置、电子设备及可读介质
CN115017221A (zh) * 2022-07-19 2022-09-06 深圳市指南针医疗科技有限公司 Ai数据云测质量的提升方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
CN106202891A (zh) * 2016-06-30 2016-12-07 电子科技大学 一种面向医疗质量评价的大数据挖掘方法
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008115405A2 (en) * 2007-03-16 2008-09-25 Sti Medicals Systems, Llc A method of image quality assessment to procuce standardized imaging data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
CN106202891A (zh) * 2016-06-30 2016-12-07 电子科技大学 一种面向医疗质量评价的大数据挖掘方法
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法

Also Published As

Publication number Publication date
CN109473149A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109473149B (zh) 数据质量评估方法、装置、电子设备及计算机可读介质
US10423519B2 (en) Proactive cognitive analysis for inferring test case dependencies
CN109670054B (zh) 知识图谱构建方法、装置、存储介质及电子设备
US9189542B2 (en) Evidence profiling
US20240053307A1 (en) Identifying Repetitive Portions of Clinical Notes and Generating Summaries Pertinent to Treatment of a Patient Based on the Identified Repetitive Portions
Davis et al. Identification of pneumonia and influenza deaths using the death certificate pipeline
US11237805B2 (en) Techniques for automatically detecting programming deficiencies
Walker et al. Evaluation of a semi-automated data extraction tool for public health literature-based reviews: Dextr
Winnenburg et al. Metrics for assessing the quality of value sets in clinical quality measures
US11837343B2 (en) Identifying repetitive portions of clinical notes and generating summaries pertinent to treatment of a patient based on the identified repetitive portions
Fischer et al. Towards interactive event log forensics: Detecting and quantifying timestamp imperfections
Li et al. The openVA toolkit for verbal autopsies
CN111737472A (zh) 文本分类模型的更新方法及系统、电子设备及存储介质
US20150339602A1 (en) System and method for modeling health care costs
US20230072155A1 (en) Method and system for incorporating patient information
White et al. Artefact relation graphs for unit test reuse recommendation
Cox et al. Croon’s bias-corrected estimation for multilevel structural equation models with latent interactions
Li et al. Applying Coding Behavior Features to Student Plagiarism Detection on Programming Assignments
Shrestha et al. Winnowing Algorithm: A Powerful Tool for Identifying Plagiarism in Assignments
CN117151247B (zh) 机器学习任务建模的方法、装置、计算机设备和存储介质
US20240078392A1 (en) Rules-based decision support system for assessment of digital content involving natural language
Handy et al. A nationwide deep learning pipeline to predict stroke and COVID-19 death in atrial fibrillation
Chen Assessing Software Maintainability in Systems by Leveraging Fuzzy Methods and Linguistic Analysis
Sawada et al. Intelligent requirement-to-test-case traceability system via Natural Language Processing and Machine Learning
CN116541764A (zh) 文本分类方法、装置、设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant