CN116501723A - 数据质量检查方法、装置、设备及存储介质 - Google Patents

数据质量检查方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116501723A
CN116501723A CN202310476268.1A CN202310476268A CN116501723A CN 116501723 A CN116501723 A CN 116501723A CN 202310476268 A CN202310476268 A CN 202310476268A CN 116501723 A CN116501723 A CN 116501723A
Authority
CN
China
Prior art keywords
data
medicine
clinical test
determining
test data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310476268.1A
Other languages
English (en)
Inventor
李康
宋永振
王柳滢
王鹤淞
曹勇
覃锐豪
华梦蕾
代燕燕
马晨景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Medical University
Original Assignee
Harbin Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Medical University filed Critical Harbin Medical University
Priority to CN202310476268.1A priority Critical patent/CN116501723A/zh
Publication of CN116501723A publication Critical patent/CN116501723A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种数据质量检查方法、装置、设备及存储介质,该方法包括:通过模式分类方法确定各药品的评审优先等级,并根据评审优先等级确定待评审药品;对待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;通过预设正态性检验方法获取标准临床试验数据的显著性检验值,并根据显著性检验值确定待评审药品对应的质量。本发明通过药品的评审优先等级确定待评审药品,并获取待评审药品的进行标准化转换后的标准临床试验数据,再根据标准临床试验数据的显著性检验值确定待评审药品的指令,从而解决了现有技术中药品审核的核查要点繁琐细致且工作量巨大,进行药品审核时容易发生疏漏且效率较低的技术问题。

Description

数据质量检查方法、装置、设备及存储介质
技术领域
本发明涉及药品监管技术领域,尤其涉及一种数据质量检查方法、装置、设备及存储介质。
背景技术
国家药品监督管理局药品审评中心(Center For Drug Evaluation,CDE)是国家药监局下属的药品技术审评部门,而现场核查通常由国家药品监督管理局食品药品审核查验中心(Center For Food And Drug Inspiration,CFDI)组织实施,目前在新药批准前需进行严格的临床试验并提供药品有关的有效性和安全性信息。
现有的方案中一般是CFDI检查员通过结合现场情况客观如实记录发现问题,并分辨可能影响临床试验结果判断的问题,并核对研究机构的原始记录和源数据与申报资料的一致性,但药品审核的核查要点繁琐细致且工作量巨大,通过这种方式进行药品审核易发生疏漏且效率较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种数据质量检查方法、装置、设备及存储介质,旨在解决现有技术中药品审核的核查要点繁琐细致且工作量巨大,进行药品审核时容易发生疏漏且效率较低的技术问题。
为实现上述目的,本发明提供了一种数据质量检查方法,所述方法包括以下步骤:
通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品;
对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;
通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量。
可选地,所述通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品的步骤之前,还包括:
基于预设数据仓库构建数据标准化转换工具,所述预设数据仓库中存储有结构化数据、半结构化数据和非结构化数据;
相应的,所述对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据的步骤,包括:
基于所述数据标准化转换工具和预设药品数据规范标准对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据。
可选地,所述对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据的步骤,包括:
根据预设非标准数据需求确定目标宏程序和预设参数表;
基于所述目标宏程序和所述预设参数表将所述待评审药品的目标临床试验数据进行变量名标准化重命名和数据结构标准化,以根据CDASH域生成CDASH数据集,所述CDASH数据集中存储有转换后的标准临床试验数据。
可选地,所述通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量的步骤之前,还包括:
获取若干个医院中各药品的临床试验数据的对数数值,并基于所述对数数值确定所述临床试验数据对应的均值和标准差;
将所述标准临床试验数据的目标对数数值与所述均值和所述标准差进行比对,并根据比对结果判断所述标准临床试验数据是否存在欺诈。
可选地,所述通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量的步骤之后,还包括:
获取所述临床试验数据的均值向量和协方差矩阵;
基于所述均值向量和所述协方差矩阵,通过预设距离计算公式确定所述标准临床试验数据与所述均值之间的距离;
根据所述距离确定所述待评审药品对应的质量;
其中,所述预设距离计算公式为:
式中,D为所述距离,X为所述均值向量,为所述均值,S为所述协方差矩阵。
可选地,所述通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量的步骤之后,还包括:
获取所述待评审药品对应的目标试验者的基线生化指标;
分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对所述基线生化指标进行聚类,并获取聚类结果。
可选地,所述分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对所述基线生化指标进行聚类,并获取聚类结果的步骤之后,还包括:
通过所述聚类结果获取所述目标试验者的试验特征;
基于所述试验特征和普通特征确定特征离群点,并通过预设降维方法对所述特征离群点进行可视化。
此外,为实现上述目的,本发明还提出一种数据质量检查装置,所述装置包括:
优先等级确定模块,用于通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品;
标准化转换模块,用于对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;
药品指令确定模块,用于通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量。
此外,为实现上述目的,本发明还提出一种数据质量检查设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量检查程序,所述数据质量检查程序配置为实现如上文所述的数据质量检查方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据质量检查程序,所述数据质量检查程序被处理器执行时实现如上文所述的数据质量检查方法的步骤。
在本发明中,公开了通过模式分类方法确定各药品的评审优先等级,并根据评审优先等级确定待评审药品;对待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;通过预设正态性检验方法获取标准临床试验数据的显著性检验值,并根据显著性检验值确定待评审药品对应的质量;相较于现有技术通过CFDI检查员对药品进行核查容易发生疏漏,由于本发明通过药品的评审优先等级确定待评审药品,并获取待评审药品的进行标准化转换后的标准临床试验数据,再根据标准临床试验数据的显著性检验值确定待评审药品的指令,从而解决了现有技术中药品审核的核查要点繁琐细致且工作量巨大,进行药品审核时容易发生疏漏且效率较低的技术问题。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的数据质量检查设备的结构示意图;
图2为本发明数据质量检查方法第一实施例的流程示意图;
图3为本发明数据质量检查方法第二实施例的流程示意图;
图4为本发明数据质量检查方法第三实施例的流程示意图;
图5为本发明数据质量检查装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的数据质量检查设备结构示意图。
如图1所示,该数据质量检查设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对数据质量检查设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据质量检查程序。
在图1所示的数据质量检查设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明数据质量检查设备中的处理器1001、存储器1005可以设置在数据质量检查设备中,所述数据质量检查设备通过处理器1001调用存储器1005中存储的数据质量检查程序,并执行本发明实施例提供的数据质量检查方法。
本发明实施例提供了一种数据质量检查方法,参照图2,图2为本发明数据质量检查方法第一实施例的流程示意图。
本实施例中,所述数据质量检查方法包括以下步骤:
步骤S10:通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品。
需要说明的是,本实施例的方法的执行主体可以为在新药批准前对药品的有效性和安全性进行检查的数据质量检查设备,或者是其他能够实现相同或相似功能的、包含了该数据质量检查设备的数据质量检查系统。此处以数据质量检查系统(以下简称系统)对本实施例和下述各实施例提供的数据质量检查方法进行具体说明。
应当理解的是,上述模式分类方法可以为基于定量和定性特征之间的关系完成分类任务的统计学方法,例如:朴素贝叶斯分类、K近邻法、决策树、聚类分析和人工神经网络分类等,本实施例对此不加以限制。实际应用中,模式发现可以指在对药品进行审查时隐含在数据中的各种规则或分类,包括数据中的一般规则和在少量数据中的例外规则、离群点,以及与监管相关的各种非常规分类。使用模式分类方法时可以先建立模型,从大量已批准的药品数据集中收集各药品的特征并进行特征学习,以输出预测结果。此外,通过模式分类方法除了可以确定各药品的评审优先等级外,还可以探测各药品的有效性可能存在的不同亚组以及相关的标志物,并预测药物可能出现的严重不良反应,从而可以协助早期规划、开展咨询和临床评估,以加快开发和及时批准药物,并提高药品评审工作的效率。
可以理解的是,上述评审优先级可以为对各药品进行评审时的药品的优先等级,一般而言,可以对评审优先等级较高的药品优先进行药品评审。其中,上述药品可以为还未经药品监督机构批准的新药。
需要说明的是,上述待评审药品可以为各药品中评审优先级最高的药品。实际应用中,可以将评审优先级最高的药品作为待评审药品,从而先验证评审优先级最高的待评审药品的有效性和安全性。
在具体实现中,首先可以从大量已批准的药品数据集中收集各药品的特征输入至分类模型中进行特征学习,获得学习后的分类模型,再将需要进行药品评审的新药数据输入至学习后的分类模型确定各药品进行评审时的优先等级,并将评审优先等级最高的药品确定为待评审药品。
步骤S20:对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据。
应当理解的是,上述目标临床试验数据可以为待评审药品进行临床试验时的数据,例如:研究者信息、受试者信息、样本记录号、样本信息、样本检测数据和样本检测结果等数据,本实施例对具体的临床试验数据不加以限制。
可以理解的是,由于待评审药品的目标临床试验数据是药品监督机构对药品进行审批的重要资料,因此规范地收集、整理、分析和呈现临床试验数据可以提高药品临床研发的效率和质量,同时提高评审效率,缩短评审时间。故本实施例可以对待评审药品的目标临床试验数据进行标准化转换,以获得对数据进行统一标准后的标准临床试验数据。
进一步地,为了对临床试验数据进行标准化转换,提高评审效率,所述步骤S10之前,所述方法还包括:基于预设数据仓库构建数据标准化转换工具,所述预设数据仓库中存储有结构化数据、半结构化数据和非结构化数据;相应的,所述步骤S20包括:基于所述数据标准化转换工具和预设药品数据规范标准对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据。
需要说明的是,上述预设数据仓库可以为存储有各药品数据的存储空间。
应当理解的是,上述数据标准化转换工具可以为将各药品的临床试验数据转换为标准的临床试验数据的工具。实际应用中,首先可以采集各药品对应的监管数据、企业数据和医院数据等,这些数据包括结构化数据、半结构化数据和非结构化数据多种数据形式,采集完成后,可以将结构化数据、半结构化数据和非结构化数据存储在预设数据仓库中,并围绕数据仓库构建基于语义的数据标准化转换工具。
可以理解的是,上述预设药品数据规范标准可以为各药品的临床试验数据的标准形式,例如:数据的拆分合并标准以及数据的添补标准等,本实施例对此不加以限制。相应的,对待评审药品的目标临床试验数据进行标准化转换即可以为将目标临床试验数据中试验人员做检查的数据由横向存储转换为纵向存储,或将各试验人员进行血常规检查后的数据合并到一个表格中。
应当理解的是,在进行药品监督评审过程中收集的药品临床试验数据具有多源异构、噪音大和语义模糊等特点,从而导致数据置信度低且可信度差。因此本实施例中还可以根据医学本体确定临床数据表示模型,按照医学本体包含的对象类型对数据信息进行切割,形成标准化的数据转换工具和临床数据标准,从而能够消除数据差异并对既往专项审评数据进行自动化与智能化的标准转换。
需要说明的是,所述步骤20还可以包括:根据预设非标准数据需求确定目标宏程序和预设参数表;基于所述目标宏程序和所述预设参数表将所述待评审药品的目标临床试验数据进行变量名标准化重命名和数据结构标准化,以根据CDASH域生成CDASH数据集,所述CDASH数据集中存储有转换后的标准临床试验数据。
可以理解的是,国家食品药品监督管理局和美国FDA(Food and DrugAdministration)及很多国家监管机构对递交的临床试验数据要求或鼓励遵从临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)标准的研究数据表格模型(Smdy Data Tabulation Model,SDTM)和分析数据模型ADaM(Analysis DataModel)。其中,CDISC提供了一整套用于临床试验的研究数据和元数据采集、交换、提交和存档的标准,包括临床数据获取协调标准(CDASH)、实验室数据模型(LAB)、操作数据模型(ODM)、研究数据表格模型(SDTM)、分析数据模型(ADaM),以及受控术语(ControlledTerminology)等。因此本实施例可以将待评审药品的目标临床试验数据转换为符合CDISC标准的标准临床试验数据。
应当理解的是,上述预设非标准数据需求可以为非标准数据对应的数据需求。相应的,目标宏程序可以为根据非标准数据需求编写的数据标准化程序。
需要说明的是,上述预设参数表可以为将预设非标准数据需求中的非标准数据填入表格中而形成的参数表。
可以理解的是,上述变量名标准化重命名可以为对非标准的临床试验数据的变量名称和标签进行修改。数据结构标准化可以将对临床试验数据中的横向数据结构转换为纵向数据结构,或其他结构标准化转换,本实施例对此不加以限制。
在具体实现中,可以根据非标准数据的需求编写数据标准化SAS宏程序,并将非标准数据填写至表格中获得预设参数表,在将待评审药品非标准的目标临床试验数据进行变量名标准化命名和数据结构标准化,并最终按域生成CDASH数据集。在生成CDASH数据集后,还可以根据CDASH数据集中的数据生成ADaM分析数据集,以按照ADaM标准要求调整药品的临床试验数据中的变量名称、变量数据类型等,从而获得进行标准化转换后的标准临床试验数据。
步骤S30:通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量。
需要说明的是,上述预设正态性检验方法可以为检验数据集的分布情况的方法,例如:正态分布、均匀分布、指数分布等分布。相应的,上述显著性检验值可以为判断数据集符合正态分布的概率值。
应当理解的是,根据标准临床试验数据的显著性检验值可以判断标准临床试验数据是否符合正态分布,从而可以根据标准临床试验数据的分布情况获取标准临床试验数据的分布比较和数字偏好性比较,并可以判断标准临床试验数据中是否存在异常值和缺失值,最后可以根据标准临床试验数据的数据分布比较、数字偏好性比较、异常值比较和缺失值比较确定待评审药品对应的质量。
在具体实现中,可以通过预设正态性检验方法获取标准临床试验数据的显著性检验值,以通过显著性检验值判断标准临床试验数据是否符合正态分布,从而可以根据标准临床试验数据的分布情况确定待评审药品对应的质量。
本实施例公开了通过模式分类方法确定各药品的评审优先等级,并根据评审优先等级确定待评审药品;对待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;通过预设正态性检验方法获取标准临床试验数据的显著性检验值,并根据显著性检验值确定待评审药品对应的质量;相较于现有技术通过CFDI检查员对药品进行核查容易发生疏漏,由于本实施例通过药品的评审优先等级确定待评审药品,并获取待评审药品的进行标准化转换后的标准临床试验数据,再根据标准临床试验数据的显著性检验值确定待评审药品的指令,从而解决了现有技术中药品审核的核查要点繁琐细致且工作量巨大,进行药品审核时容易发生疏漏且效率较低的技术问题。
参考图3,图3为本发明数据质量检查方法第二实施例的流程示意图。
基于上述第一实施例,为了判断标准临床试验数据中是否存在欺诈,本实施例中,所述步骤S30之前,所述方法还包括:
步骤S301:获取若干个医院中各药品的临床试验数据的对数数值,并基于所述对数数值确定所述临床试验数据对应的均值和标准差。
需要说明的是,上述临床试验数据可以为各药品在进行临床试验时对应的数据,相应的,临床试验数据的对数数值可以为对临床试验数据取对数后的值。
应当理解的是,临床试验数据对应的均值可以为临床试验数据对数尺度上的平均值,临床试验数据对应的标准差可以为临床试验数据对数尺度上的标准差。
步骤S302:将所述标准临床试验数据的目标对数数值与所述均值和所述标准差进行比对,并根据比对结果判断所述标准临床试验数据是否存在欺诈。
可以理解的是,上述目标对数数值可以为对标准临床试验数据取对数后的数值。
在具体实现中,首先可以获取若干个医院中各药品进行临床试验时的临床试验数据,并对临床试验数据取对数,获得临床试验数据对应的对数数值,并获取临床试验数据对数尺度上的平均值和标准差,再对标准临床试验数据取对数获得标准临床试验数据对应的目标对数数值,并将目标对数数值与临床试验数据对数尺度上的平均值和标准差进行比较,若目标对数数值低于均值2-3倍标准差,则表示标准临床试验数据中可能存在欺诈。
进一步地,所述步骤S30之后,所述方法还包括:获取所述临床试验数据的均值向量和协方差矩阵;基于所述均值向量和所述协方差矩阵,通过预设距离计算公式确定所述标准临床试验数据与所述均值之间的距离;根据所述距离确定所述待评审药品对应的质量;其中,所述预设距离计算公式为:
式中,D为所述距离,X为所述均值向量,为所述均值,S为所述协方差矩阵。
需要说明的是,上述预设距离计算公式可以为计算标准临床试验数据与其对应的均值之间的距离的公式。
在具体实现中,可以获取若干个医院中各药品进行临床试验时的临床试验数据的均值向量和协方差矩阵,并通过预设距离计算公式计算标准临床试验数据与临床试验数据均值之间的距离,在标准临床试验数据与临床试验数据均值之间的距离大于预设距离阈值时表示标准临床试验数据中存在异常值,其中,预设距离阈值可以更加具体情况进行设置,本实施例对此不加以限制。
本实施例通过若干个医院中各药品的临床试验数据的对数数值确定临床试验数据对应的均值和标准差,并根据标准临床试验数据的目标对数数值与均值和标准差的比对结果判断标准临床试验数据中是否存在欺诈,从而可以进一步提高药品评审的效率。
参考图4,图4为本发明数据质量检查方法第三实施例的流程示意图。
基于上述各实施例,本实施例中,所述步骤S30之后,所述方法还包括:
步骤S40:获取所述待评审药品对应的目标试验者的基线生化指标。
需要说明的是,上述目标试验者可以为参与药品的临床试验的试验者,本实施例对目标试验者的数量不做限制。
应当理解的是,上述基线生化指标可以为了解肝功能、肾功能、血脂、血糖、心肌酶以及血清电解质等的指标,可以通过基线生化指标了解人体器官的功能。
步骤S50:分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对所述基线生化指标进行聚类,并获取聚类结果。
可以理解的是,上述基于簇集的聚类方法可以为K-means聚类;密度聚类方法可以为DBSCAN聚类;谱聚类方法可以为Specter聚类,本实施例对各聚类方法的具体种类不加以限制。
在具体实现中,可以获取参与各药品的临床试验的试验者的基线生化指标,并分别通过K-means聚类、DBSCAN聚类和Specter聚类方法对基线生化指标进行聚类,获得各中聚类方法聚类后的结果。此外,还可以对三种聚类方法的聚类结果进行展示,可以更直观地观察试验者的特征,以根据这些特征判断试验者的器官功能是否出现异常,从而确定待评审药品可能出现的不良反应。
进一步地,所述步骤S50之后,所述方法还包括:通过所述聚类结果获取所述目标试验者的试验特征;基于所述试验特征和普通特征确定特征离群点,并通过预设降维方法对所述特征离群点进行可视化。
需要说明的是,上述试验特征可以为试验者进行试验后的各器官对应的特征,如试验者的血糖浓度等,本实施例对此不做限制。
应当理解的是,上述特征离群点可以为试验特征中低密度区域中的对象。
可以理解的是,上述预设降维方法可以为对试验特征进行降维的方法,例如:UMAP降维方法,其中,UMAP降维方法能最大程度保留原始数据特征的同时大幅度降低特征维数。
在具体实现中,在获取到目标试验者的试验特征后,可以观察试验特征与一般人群的普通特征是否不同,以获取低密度区域的特征离群点,同时通过UMAP降维方法对特征离群点进行判断和可视化,从而可以分析出现特征离群点的原因,使得确定的待评审药品可能出现的不良反应更加准确。
本实施例通过获取待评审药品对应的目标试验者的基线生化指标,分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对基线生化指标进行聚类,并获取聚类结果,同时基于目标试验者的试验特征和普通特征确定特征离群点,并通过预设降温方法对特征离群点进行可视化展示,从而可以使得确定的待评审药品可能出现的不良反应更加准确。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有数据质量检查程序,所述数据质量检查程序被处理器执行时实现如上文所述的数据质量检查方法的步骤。
参照图5,图5为本发明数据质量检查装置第一实施例的结构框图。
如图5所示,本发明实施例提出的数据质量检查装置包括:
优先等级确定模块501,用于通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品;
标准化转换模块502,用于对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;
药品指令确定模块503,用于通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量。
进一步地,所述优先等级确定模块501,还用于基于预设数据仓库构建数据标准化转换工具,所述预设数据仓库中存储有结构化数据、半结构化数据和非结构化数据;所述标准化转换模块502,还用于基于所述数据标准化转换工具和预设药品数据规范标准对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据。
进一步地,标准化转换模块502,还用于根据预设非标准数据需求确定目标宏程序和预设参数表;基于所述目标宏程序和所述预设参数表将所述待评审药品的目标临床试验数据进行变量名标准化重命名和数据结构标准化,以根据CDASH域生成CDASH数据集,所述CDASH数据集中存储有转换后的标准临床试验数据。
本实施例的数据质量检查装置公开了通过模式分类方法确定各药品的评审优先等级,并根据评审优先等级确定待评审药品;对待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;通过预设正态性检验方法获取标准临床试验数据的显著性检验值,并根据显著性检验值确定待评审药品对应的质量;相较于现有技术通过CFDI检查员对药品进行核查容易发生疏漏,由于本实施例通过药品的评审优先等级确定待评审药品,并获取待评审药品的进行标准化转换后的标准临床试验数据,再根据标准临床试验数据的显著性检验值确定待评审药品的指令,从而解决了现有技术中药品审核的核查要点繁琐细致且工作量巨大,进行药品审核时容易发生疏漏且效率较低的技术问题。
基于本发明上述数据质量检查装置第一实施例,提出本发明数据质量检查装置的第二实施例。
在本实施例中,所述药品指令确定模块503,还用于获取若干个医院中各药品的临床试验数据的对数数值,并基于所述对数数值确定所述临床试验数据对应的均值和标准差;将所述标准临床试验数据的目标对数数值与所述均值和所述标准差进行比对,并根据比对结果判断所述标准临床试验数据是否存在欺诈。
进一步地,所述药品指令确定模块503,还用于获取所述临床试验数据的均值向量和协方差矩阵;基于所述均值向量和所述协方差矩阵,通过预设距离计算公式确定所述标准临床试验数据与所述均值之间的距离;根据所述距离确定所述待评审药品对应的质量;其中,所述预设距离计算公式为:
式中,D为所述距离,X为所述均值向量,为所述均值,S为所述协方差矩阵。
本实施例通过若干个医院中各药品的临床试验数据的对数数值确定临床试验数据对应的均值和标准差,并根据标准临床试验数据的目标对数数值与均值和标准差的比对结果判断标准临床试验数据中是否存在欺诈,从而可以进一步提高药品评审的效率。
基于上述各装置实施例,提出本发明数据质量检查装置的第三实施例。
在本实施例中,所述药品指令确定模块503,还用于获取所述待评审药品对应的目标试验者的基线生化指标;分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对所述基线生化指标进行聚类,并获取聚类结果。
进一步地,所述药品指令确定模块503,还用于通过所述聚类结果获取所述目标试验者的试验特征;基于所述试验特征和普通特征确定特征离群点,并通过预设降维方法对所述特征离群点进行可视化。
本实施例通过获取待评审药品对应的目标试验者的基线生化指标,分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对基线生化指标进行聚类,并获取聚类结果,同时基于目标试验者的试验特征和普通特征确定特征离群点,并通过预设降温方法对特征离群点进行可视化展示,从而可以使得确定的待评审药品可能出现的不良反应更加准确。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据质量检查方法,其特征在于,所述数据质量检查方法包括:
通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品;
对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;
通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量。
2.如权利要求1所述的数据质量检查方法,其特征在于,所述通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品的步骤之前,还包括:
基于预设数据仓库构建数据标准化转换工具,所述预设数据仓库中存储有结构化数据、半结构化数据和非结构化数据;
相应的,所述对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据的步骤,包括:
基于所述数据标准化转换工具和预设药品数据规范标准对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据。
3.如权利要求1所述的数据质量检查方法,其特征在于,所述对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据的步骤,包括:
根据预设非标准数据需求确定目标宏程序和预设参数表;
基于所述目标宏程序和所述预设参数表将所述待评审药品的目标临床试验数据进行变量名标准化重命名和数据结构标准化,以根据CDASH域生成CDASH数据集,所述CDASH数据集中存储有转换后的标准临床试验数据。
4.如权利要求1所述的数据质量检查方法,其特征在于,所述通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量的步骤之前,还包括:
获取若干个医院中各药品的临床试验数据的对数数值,并基于所述对数数值确定所述临床试验数据对应的均值和标准差;
将所述标准临床试验数据的目标对数数值与所述均值和所述标准差进行比对,并根据比对结果判断所述标准临床试验数据是否存在欺诈。
5.如权利要求4所述的数据质量检查方法,其特征在于,所述通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量的步骤之后,还包括:
获取所述临床试验数据的均值向量和协方差矩阵;
基于所述均值向量和所述协方差矩阵,通过预设距离计算公式确定所述标准临床试验数据与所述均值之间的距离;
根据所述距离确定所述待评审药品对应的质量;
其中,所述预设距离计算公式为:
式中,D为所述距离,X为所述均值向量,为所述均值,S为所述协方差矩阵。
6.如权利要求1所述的数据质量检查方法,其特征在于,所述通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量的步骤之后,还包括:
获取所述待评审药品对应的目标试验者的基线生化指标;
分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对所述基线生化指标进行聚类,并获取聚类结果。
7.如权利要求6所述的数据质量检查方法,其特征在于,所述分别通过基于簇集的聚类方法、密度聚类方法和谱聚类方法对所述基线生化指标进行聚类,并获取聚类结果的步骤之后,还包括:
通过所述聚类结果获取所述目标试验者的试验特征;
基于所述试验特征和普通特征确定特征离群点,并通过预设降维方法对所述特征离群点进行可视化。
8.一种数据质量检查装置,其特征在于,所述装置包括:
优先等级确定模块,用于通过模式分类方法确定各药品的评审优先等级,并根据所述评审优先等级确定待评审药品;
标准化转换模块,用于对所述待评审药品的目标临床试验数据进行标准化转换,获得转换后的标准临床试验数据;
药品指令确定模块,用于通过预设正态性检验方法获取所述标准临床试验数据的显著性检验值,并根据所述显著性检验值确定所述待评审药品对应的质量。
9.一种数据质量检查设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量检查程序,所述数据质量检查配置为实现如权利要求1至7中任一项所述的数据质量检查方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有数据质量检查程序,所述数据质量检查程序被处理器执行时实现如权利要求1至7任一项所述的数据质量检查方法的步骤。
CN202310476268.1A 2023-04-27 2023-04-27 数据质量检查方法、装置、设备及存储介质 Withdrawn CN116501723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310476268.1A CN116501723A (zh) 2023-04-27 2023-04-27 数据质量检查方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310476268.1A CN116501723A (zh) 2023-04-27 2023-04-27 数据质量检查方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116501723A true CN116501723A (zh) 2023-07-28

Family

ID=87324413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310476268.1A Withdrawn CN116501723A (zh) 2023-04-27 2023-04-27 数据质量检查方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116501723A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352193A (zh) * 2023-12-05 2024-01-05 山东法默康医药咨询有限公司 基于药品长期试验的数据处理方法、系统、装置及介质
CN117830322A (zh) * 2024-03-06 2024-04-05 慧创科仪(北京)科技有限公司 用于对近红外数据进行显著性差异分析的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352193A (zh) * 2023-12-05 2024-01-05 山东法默康医药咨询有限公司 基于药品长期试验的数据处理方法、系统、装置及介质
CN117830322A (zh) * 2024-03-06 2024-04-05 慧创科仪(北京)科技有限公司 用于对近红外数据进行显著性差异分析的方法和装置

Similar Documents

Publication Publication Date Title
Wallach et al. Reproducible research practices, transparency, and open access data in the biomedical literature, 2015–2017
Fleuren et al. Machine learning for the prediction of sepsis: a systematic review and meta-analysis of diagnostic test accuracy
Faviez et al. Diagnosis support systems for rare diseases: a scoping review
CN116501723A (zh) 数据质量检查方法、装置、设备及存储介质
Geffre et al. Reference values: a review
JP2020516997A (ja) モデル支援コホート選択を行うシステム及び方法
JP7286863B2 (ja) 医療データの自動化された検証
Balkan et al. Evaluating ICU clinical severity scoring systems and machine learning applications: APACHE IV/IVa case study
EP4273868A1 (en) System for automatically issuing periodically updated genetic mutation test result report
Cave et al. Big data–how to realize the promise
Kocak et al. Assessment of RadiomIcS rEsearch (ARISE): a brief guide for authors, reviewers, and readers from the Scientific Editorial Board of European Radiology
Mohi Uddin et al. XML‐LightGBMDroid: A self‐driven interactive mobile application utilizing explainable machine learning for breast cancer diagnosis
Valik et al. Predicting sepsis onset using a machine learned causal probabilistic network algorithm based on electronic health records data
Welvaars et al. Implications of resampling data to address the class imbalance problem (IRCIP): an evaluation of impact on performance between classification algorithms in medical data
CN113628751A (zh) 胃癌预后预测方法、装置及电子设备
Baron Artificial Intelligence in the Clinical Laboratory: An Overview with Frequently Asked Questions
Plant et al. Reproducibility and replicability in science, a metrology perspective
Bitar et al. A machine learning algorithm using clinical and demographic data for all-cause preterm birth prediction
Ng et al. Recommendations for using artificial intelligence in clinical flow cytometry
Gruson et al. Artificial intelligence and thyroid disease management: considerations for thyroid function tests
Gu et al. Clinical prediction models: evaluation matters
Abad-Navarro et al. HURON: a quantitative framework for assessing human readability in ontologies
CN111737533B (zh) 一种检验项目的处理方法、装置、存储介质及设备
CN117524456A (zh) 辅助诊断方法及系统
Friedrichs et al. Reference intervals and decision limits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230728

WW01 Invention patent application withdrawn after publication