CN117312881B - 临床试验治疗效果评估方法、装置、设备及存储介质 - Google Patents

临床试验治疗效果评估方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117312881B
CN117312881B CN202311600090.3A CN202311600090A CN117312881B CN 117312881 B CN117312881 B CN 117312881B CN 202311600090 A CN202311600090 A CN 202311600090A CN 117312881 B CN117312881 B CN 117312881B
Authority
CN
China
Prior art keywords
data source
treatment effect
similarity distance
hierarchical clustering
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311600090.3A
Other languages
English (en)
Other versions
CN117312881A (zh
Inventor
侯艳
宋玉琴
龙美桦
米岚
荣志炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202311600090.3A priority Critical patent/CN117312881B/zh
Publication of CN117312881A publication Critical patent/CN117312881A/zh
Application granted granted Critical
Publication of CN117312881B publication Critical patent/CN117312881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Discrete Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种临床试验治疗效果评估方法、装置、设备及存储介质,该方法包括:确定用于表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分;基于倾向性评分和预设层次聚类模型构建层次聚类树;基于高斯过程方法、层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值。本发明基于倾向性评分和预设层次聚类模型构建层次聚类树,并基于层次聚类树和各真实世界数据源对应的借用信息确定临床治疗效果值,解决了获取真实世界数据中借用信息对应的治疗效果的方法不能扩展到多个RWD源,需要计算限制借用样本量,实用性不高的问题。

Description

临床试验治疗效果评估方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种临床试验治疗效果评估方法、装置、设备及存储介质。
背景技术
目前,为了便于药物的研究和开发,在药物或医疗产品的研究和开发过程中加入在临床试验环境之外收集的真实世界数据(Real World Data,RWD)呈现出持续的增长。其中,探索从真实世界的数据中借用信息,以提高临床试验中治疗效果估计精度的方法成为一个当前的研究重点。
现有的方案中可以构建基于RWD的治疗效果的先验分布来获取真实世界数据中借用信息对应的治疗效果。然而,该方法通常只考虑一个RWD源,不能扩展到具有多个RWD源的情况,同时,现有的技术方案一般需要计算限制借用样本量,导致实用性不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种临床试验治疗效果评估方法、装置、设备及存储介质,旨在解决现有技术中获取真实世界数据中借用信息对应的治疗效果的方法不能扩展到具有多个RWD源的情况,需要计算限制借用样本量,导致实用性不高的技术问题。
为实现上述目的,本发明提供了一种临床试验治疗效果评估方法,所述临床试验治疗效果评估方法包括:
确定倾向性评分,所述倾向性评分用于表征当前临床试验数据源和真实世界数据源之间的相似度;
基于所述倾向性评分和预设层次聚类模型构建层次聚类树;
基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值。
可选地,所述确定倾向性评分的步骤,包括:
通过预设相似度预测模型确定临床试验数据源中试验数据样本对应的试验样本倾向性评分,以及若干个真实世界数据源中真实数据样本对应的真实样本倾向性评分;
基于所述试验样本倾向性评分和所述真实样本倾向性评分确定倾向性评分。
可选地,所述预设层次聚类模型包括:层次聚类模型;所述基于所述倾向性评分和预设层次聚类模型构建层次聚类树的步骤,包括:
基于所述倾向性评分确定所述临床试验数据源和所述各真实世界数据源之间的数据源相似度距离;
基于所述数据源相似度距离和所述层次聚类模型构建层次聚类树。
可选地,所述基于所述数据源相似度距离和所述层次聚类模型构建层次聚类树的步骤,包括:
基于所述数据源相似度距离和所述层次聚类模型进行聚类对聚类;
在聚类完成时,根据所述数据源相似度距离确定目标相似度距离矩阵;
基于所述目标相似度距离矩阵和非加权对群方法构建层次聚类树。
可选地,所述基于所述数据源相似度距离和所述层次聚类模型进行聚类对聚类的步骤,包括:
通过预设排列方式对所述数据源相似度距离进行排序,获得数据源相似度距离序列;
基于所述预设排列方式和所述层次聚类模型,依次对所述数据源相似度距离序列中的所有数据源相似度距离对应的单例聚类进行聚类,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
可选地,所述基于所述预设排列方式和所述层次聚类模型,依次对所述数据源相似度距离序列中的所有数据源相似度距离对应的单例聚类进行聚类,直至所述所有数据源相似度距离对应的单例聚类均聚类完成的步骤,包括:
根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离;
从所述数据源相似度距离序列提取所述目标数据源相似度距离,并基于所述层次聚类模型对所述目标数据源相似度距离对应的目标单例聚类进行聚类;
在聚类完成时,返回至所述根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离的步骤,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
可选地,所述基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值的步骤,包括:
基于高斯过程方法将所述层次聚类树中聚类树节点与临床治疗效果值对应,以在高斯过程中根据所述各真实世界数据源对应的借用信息和所述聚类树节点确定所述临床治疗效果值。
此外,为实现上述目的,本发明还提出一种临床试验治疗效果评估装置,所述装置包括:
相似度评分确定模块,用于确定倾向性评分,所述倾向性评分用于表征当前临床试验数据源和真实世界数据源之间的相似度;
聚类树构建模块,用于基于所述倾向性评分和预设层次聚类模型构建层次聚类树;
疗效预估模块,用于基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值。
此外,为实现上述目的,本发明还提出一种临床试验治疗效果评估设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的临床试验治疗效果评估程序,所述临床试验治疗效果评估程序配置为实现如上文所述的临床试验治疗效果评估方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有临床试验治疗效果评估程序,所述临床试验治疗效果评估程序被处理器执行时实现如上文所述的临床试验治疗效果评估方法的步骤。
在本发明中,公开了确定用于表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分;基于倾向性评分和预设层次聚类模型构建层次聚类树;基于高斯过程方法、层次聚类树、和各真实世界数据源对应的借用信息确定临床治疗效果值;相较于现有技术通过构建基于RWD的治疗效果的先验分布来获取真实世界数据中借用信息对应的治疗效果,只考虑一个RWD源,实用性不高,由于本发明基于用于表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分和预设层次聚类模型构建层次聚类树,并基于层次聚类树和各真实世界数据源对应的借用信息确定临床治疗效果值,从而解决了现有技术中获取真实世界数据中借用信息对应的治疗效果的方法不能扩展到具有多个RWD源的情况,需要计算限制借用样本量,导致实用性不高的技术问题。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的临床试验治疗效果评估设备的结构示意图;
图2为本发明临床试验治疗效果评估方法第一实施例的流程示意图;
图3为本发明临床试验治疗效果评估方法第二实施例的流程示意图;
图4为本发明临床试验治疗效果评估方法第三实施例的流程示意图;
图5为本发明临床试验治疗效果评估方法第三实施例中治疗效果分层聚类示意图;
图6为本发明临床试验治疗效果评估方法第三实施例中各数据源之间的相似度距离示意图;
图7为本发明临床试验治疗效果评估方法第三实施例中第一步中的成对相似度矩阵示意图;
图8为本发明临床试验治疗效果评估方法第三实施例中第二步中的成对相似度矩阵示意图;
图9为本发明临床试验治疗效果评估装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的临床试验治疗效果评估设备结构示意图。
如图1所示,该临床试验治疗效果评估设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对临床试验治疗效果评估设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及临床试验治疗效果评估程序。
在图1所示的临床试验治疗效果评估设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明临床试验治疗效果评估设备中的处理器1001、存储器1005可以设置在临床试验治疗效果评估设备中,所述临床试验治疗效果评估设备通过处理器1001调用存储器1005中存储的临床试验治疗效果评估程序,并执行本发明实施例提供的临床试验治疗效果评估方法。
本发明实施例提供了一种临床试验治疗效果评估方法,参照图2,图2为本发明临床试验治疗效果评估方法第一实施例的流程示意图。
本实施例中,所述临床试验治疗效果评估方法包括以下步骤:
步骤S10:确定倾向性评分,所述倾向性评分用于表征当前临床试验数据源和真实世界数据源之间的相似度。
需要说明的是,本实施例的方法的执行主体可以为对药物或医疗产品的研究和开发过程中从真实世界数据中借用的信息的治疗效果进行评估的临床试验治疗效果评估设备,或者是其他能够实现相同或相似功能的、包含了该临床试验治疗效果评估设备的临床试验治疗效果评估系统。此处以临床试验治疗效果评估系统(以下简称系统)对本实施例和下述各实施例提供的临床试验治疗效果评估方法进行具体说明。
应当理解的是,上述当前临床试验数据源可以为临床试验中产生或记载的数据源,实际应用中,若本方案是针对胶质细胞瘤和卵巢癌对应的药物或医疗产品的研究,则本实施例中的当前临床试验数据源可以为临床试验中胶质细胞瘤和卵巢癌的相关数据,具体可以包括:病例临床基本信息,如基本资料、治疗进程、临床分期、肿瘤病理及生存状况等,本实施例对此不加以限制。
需要说明的是,上述真实世界数据源即从真实世界获取的数据源,本实施例中对真实世界数据源的数量不做限制。实际应用中,本实施例中真实世界数据源可以为真实世界中与胶质细胞瘤和卵巢癌相关的数据,其中,该真实世界数据源有利于胶质细胞瘤和卵巢癌相关药物或医疗产品的研究和开发。
可以理解的是,上述倾向性评分可以为用于表征当前临床试验数据源和真实世界数据源之间相似性的评分。实际应用中,倾向评分通常可以用于因果推理,以匹配来自治疗组和对照组的样本,以具有可比性或相似性,根据治疗组与对照组之间的样本分布相似,可以估计治疗效果。本实施例中倾向评分可以用于衡量当前临床试验数据和其他真实世界数据源之间的相似性。
应当理解的是,本实施例中系统可以通过logistic回归方法来计算当前临床试验数据源和各真实世界数据源之间的倾向性评分。此外,系统也可以通过其他机器学习模型计算倾向评分,本实施例对此不加以限制。
在具体实现中,系统首先可以获取当前临床试验中某一细胞瘤对应的基本资料、治疗进程、临床分期、肿瘤病理及生存状况等当前临床试验数据,以确定当前临床试验数据源,然后再从真实世界获取若干个真实世界数据源,并通过logistic回归方法计算当前临床试验数据源和各真实世界数据源之间的倾向性评分。
步骤S20:基于所述倾向性评分和预设层次聚类模型构建层次聚类树。
可以理解的是,上述预设层次聚类模型可以为基于数据之间的相似性或接近性将数据分组为相似度距离或子集的模型,例如:层次聚类模型、划分聚类模型、K-means聚类等,本实施例对此不加以限制。其中,层次聚类模型可以为基于相同原则构建的聚类模型,该模型首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止准则为止;划分聚类模型可以直接将数据集划分为相应的子集,每个子集为一个簇,其中,子集的个数通常是指定的。划分聚类的过程是一种从所有可能的划分方案中搜索一个最优方案的过程。
应当说明的是,上述层次聚类树可以为用于描述每个真实世界的数据源和临床试验数据之间的不同程度的相似性的树。
在具体实现中,为了描述不同数据源之间的相似性关系,本实施例可以采用预设层次聚类模型。具体地,由于本方案需要从真实世界数据源中借用信息,因此可以采用层次聚类模型构建层次聚类树,从而可以在参数推理过程中通过树的边来借用信息。在构建层次聚类树时,与临床试验数据更相似的数据源在层次聚类树上的临床试验路径更短,从而共享更多的信息;而与临床试验数据不太相似的数据源将有在层次聚类树上的临床试验路径更长,因此共享的信息更少,本实施例具体可以采用非加权对群方法(UPGMA)、算术平均数的加权对群方法(WPGMA),或邻接连接方法构建层次聚类树。
步骤S30:基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值。
需要说明的是,上述高斯过程方法可以为通过高斯过程和各真实世界数据源对应的借用信息推导出临床治疗效果值的方法。其中,高斯过程是一个随机过程,其中每个随机变量的有限集遵循多元正态分布,这些随机变量被时间或空间索引。为了在上述层次聚类树中实现该过程并推导出临床治疗效果值,本实施例可以将随机过程视为沿边缘作用的治疗效果。
应当理解的是,本实施例通过在层次聚类树中引入高斯过程,可以使治疗效果在随机过程中借用真实世界数据源的信息,从而该临床试验可以从层次聚类数据中共享同一父母的真实世界数据源中借用更多的信息,同时也可以推导出对应的临床效治疗果值。
进一步地,所述步骤S30具体可以包括:基于高斯过程方法将所述层次聚类树中聚类树节点与临床治疗效果值对应,以在高斯过程中根据所述各真实世界数据源对应的借用信息和所述聚类树节点确定所述临床治疗效果值。
可以理解的是,上述聚类树节点可以为层次聚类树中的内部节点,如层次聚类树的子节点和根节点。
应当说明的是,为了确定各真实世界数据源对应的临床治疗效果,本实施例可以构建一个贝叶斯模型以进行数据拟合,使得获得的数据更全面、更可靠。
在具体实现中,基于本实施例中的高斯过程,可以将各真实数据源对应的临床治疗效果值与层次聚类树的聚类树节点中的根节点进行对应,将其作为一个参数,层次聚类树的其他节点对应的参数均为随机变量。本实施例通过在层次聚类树中引入高斯过程,使得临床治疗效果在其随机过程中可以借用其他数据源的信息,同时可以通过与构建的贝叶斯模型进行数据拟合,推导出对应的临床治疗效果值。
本实施例公开了确定用于表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分;基于倾向性评分和预设层次聚类模型构建层次聚类树;基于高斯过程方法、层次聚类树、和各真实世界数据源对应的借用信息确定临床治疗效果值;相较于现有技术通过构建基于RWD的治疗效果的先验分布来获取真实世界数据中借用信息对应的治疗效果,只考虑一个RWD源,实用性不高,由于本实施例基于用于表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分和预设层次聚类模型构建层次聚类树,并基于层次聚类树和各真实世界数据源对应的借用信息确定临床治疗效果值,从而解决了现有技术中获取真实世界数据中借用信息对应的治疗效果的方法不能扩展到具有多个RWD源的情况,需要计算限制借用样本量,导致实用性不高的技术问题。同时,本实施例还可以解决现有的方案中一般需要对从真实事件获取的数据源的样本量做一个规定,导致部分数据被丢弃,造成数据的浪费的问题。
参考图3,图3为本发明临床试验治疗效果评估方法第二实施例的流程示意图。
基于上述第一实施例,为了提高确定的治疗效果的精确性,本实施例中,所述步骤S10包括:
步骤S101:通过预设相似度预测模型确定临床试验数据源中试验数据样本对应的试验样本倾向性评分,以及若干个真实世界数据源中真实数据样本对应的真实样本倾向性评分。
需要说明的是,上述预设相似度预测模型可以为用于计算同一数据源中各样本的倾向评分的函数,如:logistics模型,或其他与该模型具有相同或相似功能的模型,本实施例对此不加以限制。
应当理解的是,上述试验数据样本即临床试验数据源中的样本;相应的,试验样本倾向性评分可以为试验数据样本对应的倾向评分。
可以理解的是,上述真实数据样本即各真实世界数据源中的样本;相应的,真实样本倾向性评分可以为真实数据样本对应的倾向评分。
步骤S102:基于所述试验样本倾向性评分和所述真实样本倾向性评分确定倾向性评分。
应当说明的是,系统在获取到临床试验数据源中所有试验数据样本对应的倾向评分,以及各真实世界数据源中所有真实数据样本对应的倾向评分后,可以基于试验样本倾向性评分与真实样本倾向性评分计算获得表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分。
在具体实现中,本实施例可以假设i=1表示临床试验数据源和真实世界数据源,其中,,i = 1,2,...,I;j表示患者的数量,此时系统可以将数据源i中的患者j随机分配到治疗组和对照组,从而系统可以根据治疗组和对照组之间的样本分布相似估计治疗效果。
其中,原始倾向得分e(X)可以为当前样本X在给定的治疗组中的条件概率:
式中,若样本X在治疗组,则;若样本X不在治疗组,则/>
为了在实际应用中计算倾向评分,系统可以使用logistic回归来模拟样本在治疗组的概率作为观察到的协变量的函数。由于本方案中倾向评分被用来衡量当前临床试验数据源和其他真实世界数据源之间的相似性,因此可以对上述模型进行相应修改:
式中,若样本X在当前临床试验组,则;若样本X不在当前临床试验组,则
倾向评分预测了样本X在当前临床试验中的条件概率。为了描述每个数据源之间的相似性,系统将使用算术均值等预设相似度预测模型如logistics模型来总结同一数据源中每个样本的倾向评分,且后续可以利用每个数据源的平均倾向评分来构建一个相似度聚类树图,即上述层次聚类树。
本实施例通过预设相似度预测模型确定临床试验数据源中试验数据样本对应的试验样本倾向性评分,以及若干个真实世界数据源中真实数据样本对应的真实样本倾向性评分,并基于试验样本倾向性评分和真实样本倾向性评分确定倾向性评分,从而可以准确获取倾向性评分,使得可以准确获取当前临床试验数据和各真实世界数据之间的相似性,进而提高了确定的治疗效果的精确性。
参考图4,图4为本发明临床试验治疗效果评估方法第三实施例的流程示意图。
基于上述各实施例,为了构建层次聚类树以描述各真实世界数据源与临床试验数据源之间的相似性关系,本实施例中,所述预设层次聚类模型包括:层次聚类模型;所述步骤S20包括:
步骤S201:基于所述倾向性评分确定所述临床试验数据源和所述各真实世界数据源之间的数据源相似度距离。
需要说明的是,上述数据源相似度距离可以为临床试验数据源和各真实世界数据源在层次聚类树上的路径相似度距离。
步骤S202:基于所述数据源相似度距离和所述层次聚类模型构建层次聚类树。
应当理解的是,由于实际应用中,通常与临床试验数据源更相似的真实世界数据源在层次聚类树上的路径更短,从而共享更多的信息;与临床试验数据源不太相似的真实世界数据源在层次聚类树上有更长的路径,共享的信息更少。因此,本实施例可以基于临床试验数据源和各真实世界数据源之间的数据源相似度距离,通过层次聚类模型构建层次聚类树。
进一步地,所述步骤S202包括:
步骤S202a:基于所述数据源相似度距离和所述层次聚类模型进行聚类对聚类。
需要说明的是,层次聚类模型在进行聚类时可以将每个数据视为单例聚类,因此,上述聚类对聚类可以为将单例聚类两两进行聚类。实际应用中,系统可以通过层次聚类模型,基于临床试验数据源和各真实世界数据源之间的数据源相似度距离依次对数据源相似度距离最短的聚类对进行聚类。
具体地,所述步骤S202a包括:通过预设排列方式对所述数据源相似度距离进行排序,获得数据源相似度距离序列;基于所述预设排列方式和所述层次聚类模型,依次对所述数据源相似度距离序列中的所有数据源相似度距离对应的单例聚类进行聚类,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
可以理解的是,上述数据源相似度距离序列可以为按照预设排列方式对临床试验数据源和各真实世界数据源之间的数据源相似度距离进行排列后获得的序列。其中,预设排列方式可以为单调递增排列方式或单调递减排列方式,本实施例对此不加以限制。
所述基于所述预设排列方式和所述层次聚类模型,依次对所述数据源相似度距离序列中的所有数据源相似度距离对应的单例聚类进行聚类,直至所述所有数据源相似度距离对应的单例聚类均聚类完成的步骤,包括:根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离;从所述数据源相似度距离序列提取所述目标数据源相似度距离,并基于所述层次聚类模型对所述目标数据源相似度距离对应的目标单例聚类进行聚类;在聚类完成时,返回至所述根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离的步骤,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
应当说明的是,上述目标数据源相似度距离可以为数据源相似度距离序列中最短的数据源相似度距离;相应的,上述目标单例聚类可以为组成该目标数据源相似度距离的两个数据。
在具体实现中,由于数据源相似度距离序列是采用单调递增或单调递减排列的,因此系统可以根据数据源相似度距离序列中数据源相似度距离对应的排列方式确定数据源相似度距离序列中最短的目标数据源相似度距离,并对组成该目标数据源相似度距离的两个数据进行聚类。在这两个数据聚类完成时,可以继续对数据源相似度距离序列中的剩余数据源相似度距离中最短的数据源相似度距离对应的目标单例聚类进行聚类,直至数据源相似度距离序列中所有数据源相似度距离对应的单例聚类均聚类完成,从而实现所有聚类合并为包含所有数据的单个聚类。
步骤S202b:在聚类完成时,根据所述数据源相似度距离确定目标相似度距离矩阵。
需要说明的是,上述目标相似度距离矩阵可以为根据数据源相似度距离构成的成对的矩阵。
步骤S202c:基于所述目标相似度距离矩阵和非加权对群方法构建层次聚类树。
应当说明的是,上述非加权对群方法可以为将类间相似度距离定义为两个类的对象所有成对相似度距离的平均值的方法。实际应用中,系统在根据倾向评分确定数据之间的相似度距离后,可以形成成对的相似度距离矩阵,从而可以基于该相似度距离矩阵和非加权对群方法进行构建层次聚类树。
应当理解的是,参照图5,图5为本发明临床试验治疗效果评估方法第三实施例中治疗效果分层聚类示意图。图5中βn(n=1,…,7)均表示治疗效果,其中共有四个数据源,第一个表示当前临床试验数据源(Clinical trial),其他三个治疗效果是基于真实世界数据的。
在具体实现中,若本实施中包括四个数据源:当前临床试验数据源、真实世界数据源1(RWD1)、真实世界数据源2(RWD2)和真实世界数据源3(RWD3),其中,若当前临床试验数据源对应的第一倾向性评分为0.4509;真实世界数据源1对应的平均倾向评分为0.4482;真实世界数据源2对应的平均倾向评分为0.0480;真实世界数据源3对应的平均倾向评分为0.0529。然后,参照图6,图6为本发明临床试验治疗效果评估方法第三实施例中各数据源之间的相似度距离示意图,系统可以根据如图6所示的每个数据源之间的倾向评分确定的数据源相似度距离来计算成对的相似度矩阵。由于本实施例中采用非加权对群方法构建层次聚类树,在这种情况下,目前的临床试验数据和RWD1的相似度距离最小,故本实施例可以在第一步将临床试验数据和RWD1进行分组,获得更新后的成对相似度矩阵(参照图7,图7为本发明临床试验治疗效果评估方法第三实施例中第一步中的成对相似度矩阵示意图)。具体地,(当前临床试验,RWD1)与RWD2之间的相似度距离为D(当前临床试验,RWD1)、RWD2)=(D(当前临床试验,RWD2)×1+D(RWD1,RWD2)×1)/(1+1)=(0.4030+0.4003)/2=0.4017。同样,(当前临床试验,RWD1)与RWD3之间的相似度距离为D(当前临床试验,RWD1)、RWD3)=(D(当前临床试验,RWD3)×1+D(RWD1,RWD3)×1)/(1+1)=(0.3981+0.3954)/2=0.3968。此后,根据图7,系统在第二步中可以选择将RWD2和RWD3进行分组,与第一步的计算类似,获得更新后的成对相似度矩阵(参照图8,图8为本发明临床试验治疗效果评估方法第三实施例中第二步中的成对相似度矩阵示意图)。在最后一步中,系统可以将(当前的临床试验,RWD1)和(RWD2,RWD3)分组在一起,从而获得各数据源对应的平均倾向评分,其中,当前临床试验数据源、RWD1、RWD2和RWD3对应的平均倾向评分分别为0.4509、0.4482、0.0480和0.0529。
本实施例基于倾向性评分确定临床试验数据源和所述各真实世界数据源之间的数据源相似度距离,并基于数据源相似度距离和层次聚类模型构建层次聚类树,从而可以通过构建的层次聚类树描述各真实世界数据源与临床试验数据源之间的相似性关系,进而可以直接在层次聚类树中采用高斯过程方法根据各真实世界数据中借用信息对应的治疗效果,提高了数据处理效率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有临床试验治疗效果评估程序,所述临床试验治疗效果评估程序被处理器执行时实现如上文所述的临床试验治疗效果评估方法的步骤。
参照图9,图9为本发明临床试验治疗效果评估装置第一实施例的结构框图。
如图9所示,本发明实施例提出的临床试验治疗效果评估装置包括:
相似度评分确定模块901,用于确定倾向性评分,所述倾向性评分用于表征当前临床试验数据源和真实世界数据源之间的相似度;
聚类树构建模块902,用于基于所述倾向性评分和预设层次聚类模型构建层次聚类树;
疗效预估模块903,用于基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值。
进一步地,所述疗效预估模块903,还用于基于高斯过程方法将所述层次聚类树中聚类树节点与临床治疗效果值对应,以在高斯过程中根据所述各真实世界数据源对应的借用信息和所述聚类树节点确定所述临床治疗效果值。
本实施例的临床试验治疗效果评估装置公开了确定用于表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分;基于倾向性评分和预设层次聚类模型构建层次聚类树;基于高斯过程方法、层次聚类树、和各真实世界数据源对应的借用信息确定临床治疗效果值;相较于现有技术通过构建基于RWD的治疗效果的先验分布来获取真实世界数据中借用信息对应的治疗效果,只考虑一个RWD源,实用性不高,由于本实施例基于用于表征当前临床试验数据源和真实世界数据源之间的相似度的倾向性评分和预设层次聚类模型构建层次聚类树,并基于层次聚类树和各真实世界数据源对应的借用信息确定临床治疗效果值,从而解决了现有技术中获取真实世界数据中借用信息对应的治疗效果的方法不能扩展到具有多个RWD源的情况,需要计算限制借用样本量,导致实用性不高的技术问题。同时,本实施例还可以解决现有的方案中一般需要对从真实事件获取的数据源的样本量做一个规定,导致部分数据被丢弃,造成数据的浪费的问题。
基于本发明上述临床试验治疗效果评估装置第一实施例,提出本发明临床试验治疗效果评估装置的第二实施例。
在本实施例中,所述相似度评分确定模块901,还用于通过预设相似度预测模型确定临床试验数据源中试验数据样本对应的试验样本倾向性评分,以及若干个真实世界数据源中真实数据样本对应的真实样本倾向性评分;基于所述试验样本倾向性评分和所述真实样本倾向性评分确定各真实世界数据源对应的第二倾向性评分。
本实施例通过预设相似度预测模型确定临床试验数据源中试验数据样本对应的试验样本倾向性评分,以及若干个真实世界数据源中真实数据样本对应的真实样本倾向性评分,并基于试验样本倾向性评分和真实样本倾向性评分确定倾向性评分,从而可以准确获取倾向性评分,使得可以准确获取当前临床试验数据和各真实世界数据之间的相似性,进而提高了确定的治疗效果的精确性。
基于上述各装置实施例,提出本发明临床试验治疗效果评估装置的第三实施例。
在本实施例中,所述预设层次聚类模型包括:层次聚类模型;所述聚类树构建模块902,还用于基于所述倾向性评分确定所述临床试验数据源和所述各真实世界数据源之间的数据源相似度距离;基于所述数据源相似度距离和所述层次聚类模型构建层次聚类树。
进一步地,所述聚类树构建模块902,还用于基于所述数据源相似度距离和所述层次聚类模型进行聚类对聚类;在聚类完成时,根据所述数据源相似度距离确定目标相似度距离矩阵;基于所述目标相似度距离矩阵和非加权对群方法构建层次聚类树。
进一步地,所述聚类树构建模块902,还用于通过预设排列方式对所述数据源相似度距离进行排序,获得数据源相似度距离序列;基于所述预设排列方式和所述层次聚类模型,依次对所述数据源相似度距离序列中的所有数据源相似度距离对应的单例聚类进行聚类,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
进一步地,所述聚类树构建模块902,还用于根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离;从所述数据源相似度距离序列提取所述目标数据源相似度距离,并基于所述层次聚类模型对所述目标数据源相似度距离对应的目标单例聚类进行聚类;在聚类完成时,返回至所述根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离的步骤,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
本实施例基于倾向性评分确定临床试验数据源和所述各真实世界数据源之间的数据源相似度距离,并基于数据源相似度距离和层次聚类模型构建层次聚类树,从而可以通过构建的层次聚类树描述各真实世界数据源与临床试验数据源之间的相似性关系,进而可以直接在层次聚类树中采用高斯过程方法根据各真实世界数据中借用信息对应的治疗效果,提高了数据处理效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种临床试验治疗效果评估方法,其特征在于,所述临床试验治疗效果评估方法包括:
确定倾向性评分,所述倾向性评分用于表征当前临床试验数据源和真实世界数据源之间的相似度;
基于所述倾向性评分和预设层次聚类模型构建层次聚类树,所述预设层次聚类模型包括:层次聚类模型;
基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值;
所述基于所述倾向性评分和预设层次聚类模型构建层次聚类树的步骤,包括:
基于所述倾向性评分确定所述临床试验数据源和所述各真实世界数据源之间的数据源相似度距离;
基于所述数据源相似度距离和所述层次聚类模型进行聚类对聚类;
在聚类完成时,根据所述数据源相似度距离确定目标相似度距离矩阵;
基于所述目标相似度距离矩阵和非加权对群方法构建层次聚类树;
所述基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值的步骤,包括:
基于高斯过程方法将所述层次聚类树中聚类树节点与临床治疗效果值对应,以在高斯过程中根据所述各真实世界数据源对应的借用信息和所述聚类树节点确定所述临床治疗效果值。
2.如权利要求1所述的临床试验治疗效果评估方法,其特征在于,所述确定倾向性评分的步骤,包括:
通过预设相似度预测模型确定临床试验数据源中试验数据样本对应的试验样本倾向性评分,以及若干个真实世界数据源中真实数据样本对应的真实样本倾向性评分;
基于所述试验样本倾向性评分和所述真实样本倾向性评分确定倾向性评分。
3.如权利要求1所述的临床试验治疗效果评估方法,其特征在于,所述基于所述数据源相似度距离和所述层次聚类模型进行聚类对聚类的步骤,包括:
通过预设排列方式对所述数据源相似度距离进行排序,获得数据源相似度距离序列;
基于所述预设排列方式和所述层次聚类模型,依次对所述数据源相似度距离序列中的所有数据源相似度距离对应的单例聚类进行聚类,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
4.如权利要求3所述的临床试验治疗效果评估方法,其特征在于,所述基于所述预设排列方式和所述层次聚类模型,依次对所述数据源相似度距离序列中的所有数据源相似度距离对应的单例聚类进行聚类,直至所述所有数据源相似度距离对应的单例聚类均聚类完成的步骤,包括:
根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离;
从所述数据源相似度距离序列提取所述目标数据源相似度距离,并基于所述层次聚类模型对所述目标数据源相似度距离对应的目标单例聚类进行聚类;
在聚类完成时,返回至所述根据所述预设排列方式将所述数据源相似度距离序列中相似度距离最短的数据源相似度距离确定为目标数据源相似度距离的步骤,直至所述所有数据源相似度距离对应的单例聚类均聚类完成。
5.一种临床试验治疗效果评估装置,其特征在于,所述装置包括:
相似度评分确定模块,用于确定倾向性评分,所述倾向性评分用于表征当前临床试验数据源和真实世界数据源之间的相似度;
聚类树构建模块,用于基于所述倾向性评分和预设层次聚类模型构建层次聚类树,所述预设层次聚类模型包括:层次聚类模型;
疗效预估模块,用于基于高斯过程方法、所述层次聚类树以及各真实世界数据源对应的借用信息确定临床治疗效果值;
所述聚类树构建模块,还用于基于所述倾向性评分确定所述临床试验数据源和所述各真实世界数据源之间的数据源相似度距离;基于所述数据源相似度距离和所述层次聚类模型进行聚类对聚类;在聚类完成时,根据所述数据源相似度距离确定目标相似度距离矩阵;基于所述目标相似度距离矩阵和非加权对群方法构建层次聚类树;
所述疗效预估模块,还用于基于高斯过程方法将所述层次聚类树中聚类树节点与临床治疗效果值对应,以在高斯过程中根据所述各真实世界数据源对应的借用信息和所述聚类树节点确定所述临床治疗效果值。
6.一种临床试验治疗效果评估设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的临床试验治疗效果评估程序,所述临床试验治疗效果评估程序配置为实现如权利要求1至4中任一项所述的临床试验治疗效果评估方法的步骤。
7.一种存储介质,其特征在于,所述存储介质上存储有临床试验治疗效果评估程序,所述临床试验治疗效果评估程序被处理器执行时实现如权利要求1至4任一项所述的临床试验治疗效果评估方法的步骤。
CN202311600090.3A 2023-11-28 2023-11-28 临床试验治疗效果评估方法、装置、设备及存储介质 Active CN117312881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311600090.3A CN117312881B (zh) 2023-11-28 2023-11-28 临床试验治疗效果评估方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311600090.3A CN117312881B (zh) 2023-11-28 2023-11-28 临床试验治疗效果评估方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117312881A CN117312881A (zh) 2023-12-29
CN117312881B true CN117312881B (zh) 2024-03-22

Family

ID=89273992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311600090.3A Active CN117312881B (zh) 2023-11-28 2023-11-28 临床试验治疗效果评估方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117312881B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117954114A (zh) * 2024-03-26 2024-04-30 北京大学 基于倾向性评分和幂先验的真实世界数据借用方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802511A (zh) * 2009-06-12 2012-11-28 联合研究公司 医学治疗假设检验的系统和方法
CN112233810A (zh) * 2020-10-20 2021-01-15 武汉华大基因科技有限公司 一种基于真实世界临床数据的治疗方案综合疗效评估方法
CN112735542A (zh) * 2021-01-18 2021-04-30 北京大学 基于临床试验数据的数据处理方法及系统
CN112863622A (zh) * 2021-01-18 2021-05-28 北京大学 利用历史对照数据的双稳健临床试验数据处理方法及系统
CN114025253A (zh) * 2021-11-05 2022-02-08 杭州联众医疗科技股份有限公司 一种基于真实世界研究的药物疗效评估系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015101194A4 (en) * 2015-07-26 2015-10-08 Macau University Of Science And Technology Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient’s Survival Prediction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802511A (zh) * 2009-06-12 2012-11-28 联合研究公司 医学治疗假设检验的系统和方法
CN112233810A (zh) * 2020-10-20 2021-01-15 武汉华大基因科技有限公司 一种基于真实世界临床数据的治疗方案综合疗效评估方法
CN112735542A (zh) * 2021-01-18 2021-04-30 北京大学 基于临床试验数据的数据处理方法及系统
CN112863622A (zh) * 2021-01-18 2021-05-28 北京大学 利用历史对照数据的双稳健临床试验数据处理方法及系统
CN114025253A (zh) * 2021-11-05 2022-02-08 杭州联众医疗科技股份有限公司 一种基于真实世界研究的药物疗效评估系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于HIS"真实世界"数据仓库探索上市后中成药安全性评价方法;杨薇;谢雁鸣;庄严;;中国中药杂志(第20期);全文 *
基于倾向性评分法的真实世界中喜炎平注射液对肾功能影响的分析;杜立娟;谢雁鸣;王志飞;易丹辉;庄严;姜俊杰;;北京中医药(第03期);全文 *
基于真实世界研究的中医药临床数据挖掘方法浅探;许鸣;陆嘉惠;;中华中医药杂志(第04期);全文 *

Also Published As

Publication number Publication date
CN117312881A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
Zhao et al. A comprehensive overview and critical evaluation of gene regulatory network inference technologies
Barman et al. A Boolean network inference from time-series gene expression data using a genetic algorithm
Yin et al. ASTRAL-MP: scaling ASTRAL to very large datasets using randomization and parallelization
Wang et al. Exploiting ontology graph for predicting sparsely annotated gene function
Clark et al. A multiobjective memetic algorithm for PPI network alignment
Wang et al. Predicting protein–protein interactions from multimodal biological data sources via nonnegative matrix tri-factorization
Lai et al. Artificial intelligence and machine learning in bioinformatics
CN117312881B (zh) 临床试验治疗效果评估方法、装置、设备及存储介质
US20210174906A1 (en) Systems And Methods For Prioritizing The Selection Of Targeted Genes Associated With Diseases For Drug Discovery Based On Human Data
Crawford et al. ClueNet: Clustering a temporal network based on topological similarity rather than denseness
Zhang et al. Protein complexes discovery based on protein-protein interaction data via a regularized sparse generative network model
Böck et al. Hub-centered gene network reconstruction using automatic relevance determination
Singh et al. Towards probabilistic generative models harnessing graph neural networks for disease-gene prediction
Trivodaliev et al. Exploring function prediction in protein interaction networks via clustering methods
Handl et al. Weighted elastic net for unsupervised domain adaptation with application to age prediction from DNA methylation data
Dost et al. TCLUST: A fast method for clustering genome-scale expression data
Liebeskind et al. Ancestral reconstruction of protein interaction networks
Kuang et al. A systematic investigation of computation models for predicting Adverse Drug Reactions (ADRs)
Omranian et al. Computational identification of protein complexes from network interactions: present state, challenges, and the way forward
Bernaola et al. Learning massive interpretable gene regulatory networks of the human brain by merging Bayesian networks
Conard et al. A spectrum of explainable and interpretable machine learning approaches for genomic studies
Jurczuk et al. Fitness evaluation reuse for accelerating GPU-based evolutionary induction of decision trees
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
Woicik et al. Gemini: memory-efficient integration of hundreds of gene networks with high-order pooling
Minguez et al. Functional genomics and networks: new approaches in the extraction of complex gene modules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant