CN117954114A

CN117954114A - 基于倾向性评分和幂先验的真实世界数据借用方法及系统

Info

Publication number: CN117954114A
Application number: CN202410348651.3A
Authority: CN
Inventors: 侯艳; 钟欣雯
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117954114B

Abstract

本发明涉及数据处理技术领域，公开了一种基于倾向性评分和幂先验的真实世界数据借用方法及系统，该方法包括：获取随机对照试验和真实世界数据中患者的协变量数据；根据患者的倾向性评分对协变量数据建立分层，在每个分层内将真实世界数据整合到随机对照试验的对照组中；基于真实世界数据在每个分层与对照组的倾向性评分分布重叠系数，构建贝叶斯幂先验对真实世界数据进行降权处理，最终将真实世界数据整合到随机对照试验的对照组中。由于本发明通过倾向性评分分层可均衡真实世界数据和随机对照试验的对照组在协变量数据上的相似性，使得在每层内借用真实世界数据更为合理；再通过贝叶斯幂先验对真实世界数据进行降权，可实现动态的数据借用。

Description

基于倾向性评分和幂先验的真实世界数据借用方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于倾向性评分和幂先验的真实世界数据借用方法及系统。

背景技术

近年来，随着医疗大数据技术的崛起，真实世界数据（RWD）已经成为医疗研发领域的重要外部数据来源。这些数据包括电子健康记录、行政索赔记录、健康应用程序等多个来源，还涉及公共健康数据库等新兴渠道。经过筛选和处理，RWD可以为监管决策提供真实世界证据（RWE），对新药和医疗器械开发具有重要参考价值。通过利用RWD来增补（augment）随机对照试验（RCT）的对照组，可以实现在保证统计效能的前提下，有效降低研究成本，缩短研究周期，从而更快地为患者提供有效治疗方法。

在将RWD用于增补RCT对照组时，传统的倾向性评分方法被视为静态的外部数据借用模型，它利用外部RWD的全部信息进行分析，其作为一种控制混杂偏倚的方法越来越受欢迎。然而，当RWD提供的信息量过大时，则需要对RWD进行适当的“降权”或打折，这种情况对于传统的倾向性评分方法并不适用，难以确保数据借用的客观性和完整性。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种基于倾向性评分和幂先验的真实世界数据借用方法及系统，旨在解决当真实世界数据提供的信息量过大需要进行适当的“降权”或打折时，传统的倾向性评分方法并不适用，难以确保数据借用的客观性和完整性的技术问题。

为实现上述目的，本发明提供了一种基于倾向性评分和幂先验的真实世界数据借用方法，所述方法包括以下步骤：

获取随机对照试验和真实世界数据中患者对应的协变量数据；

根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中；

基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

可选地，所述根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中，包括：

确定所述协变量数据的多个基线协变量；

对所述多个基线协变量进行logistic回归估计，获得所述协变量数据中每例患者的倾向性评分；

根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

可选地，所述根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中，包括：

根据所述倾向性评分对所述协变量数据进行筛选，获得目标协变量数据；

基于所述多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；

在每个PS分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

可选地，所述基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用，包括：

以所述真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定所述真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数；

根据所述倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定所述贝叶斯幂先验的幂参数；

通过所述幂参数对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

可选地，所述获取随机对照试验和真实世界数据中患者对应的协变量数据，包括：

确定患者的初始样本量；

按预设比例将所述初始样本量随机分配到试验组和对照组，并将分配后的试验组和对照组作为随机对照试验和真实世界数据中患者对应的协变量数据。

此外，为实现上述目的，本发明还提出一种基于倾向性评分和幂先验的真实世界数据借用系统，所述系统包括：数据获取模块、PS分层模块以及PP降权模块；

所述数据获取模块，用于获取随机对照试验和真实世界数据中患者对应的协变量数据；

所述PS分层模块，用于根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中；

所述PP降权模块，用于基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

可选地，所述PS分层模块，还用于确定所述协变量数据的多个基线协变量；

所述PS分层模块，还用于对所述多个基线协变量进行logistic回归估计，获得所述协变量数据中每例患者的倾向性评分；

所述PS分层模块，还用于根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

可选地，所述PS分层模块，还用于根据所述倾向性评分对所述协变量数据进行筛选，获得目标协变量数据；

所述PS分层模块，还用于基于所述多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；

所述PS分层模块，还用于在每个PS分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

可选地，所述PP降权模块，还用于以所述真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定所述真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数；

所述PP降权模块，还用于根据所述倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定所述贝叶斯幂先验的幂参数；

所述PP降权模块，还用于通过所述幂参数对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

可选地，所述数据获取模块，还用于确定患者的初始样本量；

所述数据获取模块，还用于按预设比例将所述初始样本量随机分配到试验组和对照组，并将分配后的试验组和对照组作为随机对照试验和真实世界数据中患者对应的协变量数据。

本发明首先获取随机对照试验和真实世界数据中患者对应的协变量数据；然后根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中；最后基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，最终将真实世界数据整合到随机对照试验的对照组中，以完成所述真实世界数据的借用。由于本发明将倾向性评分分层和贝叶斯幂先验进行结合，通过倾向性评分分层可均衡真实世界数据和随机对照试验的对照组在协变量数据上的相似性，使得在每层内借用真实世界数据更为合理；再通过贝叶斯幂先验对真实世界数据进行降权，以考虑数据之间的异质性，可实现动态的数据借用，从而保障了数据研究的客观性和完整性。

附图说明

图1为本发明基于倾向性评分和幂先验的真实世界数据借用方法第一实施例的流程示意图；

图2为本发明基于倾向性评分和幂先验的真实世界数据借用方法第二实施例的流程示意图；

图3为本发明基于倾向性评分和幂先验的真实世界数据借用方法第二实施例中当前研究(Group=1)和外部数据(Group=0)协变量均衡性检验的示意图；

图4为本发明基于倾向性评分和幂先验的真实世界数据借用系统第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于倾向性评分和幂先验的真实世界数据借用方法，参照图1，图1为本发明基于倾向性评分和幂先验的真实世界数据借用方法第一实施例的流程示意图。

需要说明的是，在将真实世界数据（RWD）来增补（augment）随机对照试验（RCT）的对照组时，一般需要考虑两个重要的统计学问题：1) 外部数据与当前研究患者在基线协变量上的相似性；2) 外部数据对统计推断的信息贡献程度。如果RWD与RCT的患者基线特征不相似，RWD合理地整合到RCT的对照组可能会面临挑战。此外，由于RWD通常包含更多患者数据，需要解决如何降低RWD患者数据的权重，以确保它们不会对研究结果产生主导影响。

而倾向性评分（PS）作为一种控制混杂偏倚的方式在近十几年来越来越受欢迎。传统的PS方法被视为静态的外部数据借用模型，它利用外部RWD的全部信息进行分析。然而，当RWD提供的信息量过大时，需要对其进行适当的“降权”或打折，难以确保数据借用的完整性。为了解决这一问题，本发明实施例提出了一种基于倾向性评分和幂先验的真实世界数据借用方法，基于倾向性评分结合贝叶斯统计，以同时实现混杂偏倚的控制和对RWD的降权。

本实施例中，所述基于倾向性评分和幂先验的真实世界数据借用方法包括以下步骤：

步骤S10：获取随机对照试验和真实世界数据中患者对应的协变量数据。

需要说明的是，本实施例方法的执行主体可以是数据分层、降权处理以及数据借用功能的计算服务设备，例如个人电脑、服务器等，还可以是能够实现相同或相似功能的其他电子设备，本实施例对此不加以限制。

可理解的是，协变量数据是指在医学研究或临床试验中，用来描述患者特征和疾病情况的各种变量信息。这些变量可以包括但不限于患者的年龄、性别、体重、病史、症状、生理指标、实验室检查结果等，本实施例对此不加以限制。

应理解的是，随机对照试验（Randomized Controlled Trial，RCT）是一种通过随机分配患者到不同对照组中，比较不同治疗或干预方法效果的研究设计。在随机对照试验中，可将患者随机分配到试验组和对照组，在试验组接受新的治疗或干预措施，对照组接受传统治疗或安慰剂，然后比较两组的结果来评估新治疗的效果。通过随机对照试验，可以减少各种偏倚因素的影响，提高研究结果的可靠性。

在具体实现中，可先确定患者的初始样本量，对该样本量进行分配，随机分配到试验组和对照组，此时所有的协变量数据已收集到。

步骤S20：根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

需要说明的是，倾向性评分（Propensity Score，PS）是在患者的观察性研究中常用的一种统计方法。在上述观察研究中，由于通过随机分配试验组和对照组，可能存在选择偏差或混杂变量的问题。为了减少这种偏差，可通过倾向性评分解决。

而倾向性评分是一个单一数值，以描述每个患者被分配到接受干预（如治疗）的可能性。可用来估计每个患者接受干预的概率，从而提高研究的内部有效性和结果的可靠性。通过倾向性评分，可在研究中模拟随机对照试验的效果，减少干扰因素对研究结果的影响，以平衡观察性研究中由已知协变量数据导致的组间混杂。

具体的，在本实施例中，可定义倾向性评分PS为e(X)，在给定观察到的基线协变量向量为X的条件下，则一例患者被划入当前研究(Z= 1)而非外部数据(Z= 0)的条件概率为：

。

需要注意的是，基线协变量是在随机对照试验开始之前或处理实验的过程中，已经存在并且可能会对研究结果产生影响的因素，需要通过控制或考虑在内来减少混杂因素的影响。通过考虑基线协变量，可更准确地评估干预效果，减少混杂因素的影响，以确保试验组和对照组在这些因素上具有相似性，从而更准确地评估干预效果。

可理解的是，真实世界数据（Real-World Data，RWD）是在日常临床实践中收集到的各种数据，包括患者的健康状况、医疗护理过程、治疗效果、医疗费用等信息。这些数据源于真实的临床实践和健康管理环境，反映了日常生活中的医疗实践和患者经过。

真实世界数据通常来自医疗记录、医疗索赔数据、临床数据库、患者问卷调查和移动健康应用等多种来源。通过借用真实世界数据，在临床试验中可提供更加真实、全面和长期的医疗信息，有助于指导临床决策和优化医疗实践。

需要说明的是，PS主要用于解决外部数据（即真实世界数据）的相似性问题，通过患者的PS建立分层，然后在每个PS分层内将RWD整合到RCT的对照组。每个PS分层内来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。

在具体实现中，可根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。从而每个分层内来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。

步骤S30：基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

需要说明的是，贝叶斯幂先验（Power Prior，PP）是贝叶斯统计学中一种先验分布的选择方法。幂先验是一种特殊的先验选择方法，可通过设置一个参数来调整随机对照试验的数据中先验分布的形状，使其更灵活地适应数据的特点，并提高参数估计的效果。

具体的，在本实施例中，PP（幂先验）是一种贝叶斯层次方法，其思想是将外部数据（即真实世界数据）相对于当前数据降权使用，降权参数可以由研究者根据经验提前指定固定值，或根据研究数据估计，降权参数用来控制外部数据对最终后验结果的影响程度。例如，当前研究和外部数据分别用和/>表示，设/>为外部数据/>的似然函数，其中表示感兴趣的参数，通过以下公式可建立幂先验：

；

其中是幂参数（也即降权参数），/>是在历史数据/>使用之前关于/>的初始先验。同样地，倾向于适当地对RWD进行“折扣”（discount）或降权，因此在本实施例中/>的范围限制在0到1之间，即/>。/>可以控制从RWD中借用多少信息，/>即完全借用，即完全不借用。

可理解的是，倾向性评分分布重叠系数是倾向性评分匹配中用来评估匹配前后不同组之间的重叠程度。在倾向性评分匹配中，首先计算每个患者的倾向性评分，即被干预或接受处理的概率。接着，根据这些倾向性评分，将试验组和对照组之间具有相似倾向性评分的患者进行匹配，以减少混杂因素带来的影响，从而更准确地评估干预效果。而倾向性评分分布重叠系数就是用来衡量试验组和对照组在倾向性评分上的重叠程度的指标。重叠系数越高，表示试验组和对照组在倾向性评分上存在较大程度的重叠，匹配效果可能会更好；反之，如果重叠系数较低，说明试验组和对照组之间的倾向性评分分布差异较大，匹配效果可能会受到影响。

需要说明的是，PP方式可用于解决外部数据的贡献度问题，允许对外部数据进行降权，以考虑数据之间的异质性，实现动态的数据借用。本实施例中PS密度函数重叠区域面积可作为相似性的度量指标，用于确定PP中的幂参数，以实现考虑数据间异质性的动态借用。

在具体实现中，可基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。从而可解决外部数据的贡献度问题，允许对外部数据进行降权，以考虑数据之间的异质性，实现动态的数据借用。在上述方法中，PS分层确保了每层内可比较的RWD患者信息被充分利用，而贝叶斯幂先验允许在结果数据分析中整合从RWD获取的信息，通过上述“两阶段设计”的结合可实现“无结果设计”，确保对结果数据的盲态，从而保障研究的客观性和完整性。

本实施例可先确定患者的初始样本量，对该样本量进行分配，随机分配到试验组和对照组，此时所有的协变量数据已收集到。然后可根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。从而每个分层内来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。最后可基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，最终将真实世界数据整合到随机对照试验的对照组中，以完成所述真实世界数据的借用。从而可解决外部数据的贡献度问题，允许对外部数据进行降权，以考虑数据之间的异质性，实现动态的数据借用。在上述方法中，PS分层确保了每层内可比较的RWD患者信息被充分利用，而贝叶斯幂先验允许在结果数据分析中整合从RWD获取的信息，通过上述“两阶段设计”的结合可实现“无结果设计”，确保对结果数据的盲态，从而保障研究的客观性和完整性。由于本实施例将倾向性评分分层和贝叶斯幂先验进行结合，通过倾向性评分分层可均衡真实世界数据和随机对照试验的对照组在协变量数据上的相似性，使得在每层内借用真实世界数据更为合理；再通过贝叶斯幂先验对真实世界数据进行降权，以考虑数据之间的异质性，可实现动态的数据借用，从而保障了数据研究的客观性和完整性。

参考图2，图2为本发明基于倾向性评分和幂先验的真实世界数据借用方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S20包括：

步骤S21：确定所述协变量数据的多个基线协变量。

需要说明的是，基线协变量是在随机对照试验开始之前或处理实验的过程中，已经存在并且可能会对研究结果产生影响的因素，需要通过控制或考虑在内来减少混杂因素的影响。通过考虑基线协变量，可更准确地评估干预效果，减少混杂因素的影响，以确保试验组和对照组在这些因素上具有相似性，从而更准确地评估干预效果。

步骤S22：对所述多个基线协变量进行logistic回归估计，获得所述协变量数据中每例患者的倾向性评分。

需要说明的是，logistic回归估计是一种常用的统计学习方法，可用于处理多个基线协变量的分类问题。通过利用Logistic回归模型对多个基线协变量进行参数估计，可得到分类结果的过程。

步骤S23：根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

在具体实现中，首先可根据临床知识和经验确定所述协变量数据中可能影响临床结局的多个基线协变量；然后对多个基线协变量进行logistic回归估计，获得所述协变量数据中每例患者的倾向性评分。最后根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。以实现每个分层内来自RWD和RCT的患者在基线协变量上更加相似，使在层内借用RWD更为合理。

进一步地，本实施例中在步骤S23包括：根据所述倾向性评分对所述协变量数据进行筛选，获得目标协变量数据；基于所述多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；在每个PS分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

需要说明的是，目标协变量数据是根据倾向性评分对协变量数据进行筛选，从中选取合适的、具有潜在影响的变量保留用于研究设计和结果分析中需要考虑的协变量的数据。

可理解的是，PS分层是过患者的倾向性评分建立的分层。在每个PS分层内将RWD整合到RCT的对照组，确保来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。

在具体实现中，可根据倾向性评分对所述协变量数据进行筛选，从中选取合适的、具有潜在影响的变量保留用于研究设计和结果分析中需要考虑的目标协变量数据。然后基于多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；最后在每个PS分层内将RWD整合到RCT的对照组，确保来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。

进一步地，本实施例中在步骤S30包括：以所述真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定所述真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数；根据所述倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定所述贝叶斯幂先验的幂参数；通过所述幂参数对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

需要说明的是，倾向性评分密度函数重叠区域面积是指试验组和对照组在倾向性评分上的密度函数重叠部分的面积。在进行倾向性评分（Propensity Score）匹配时，为了评估匹配效果的好坏，通常会比较试验组（接受了某种处理或干预）和对照组（未接受处理或干预）的倾向性评分密度函数重叠区域面积来进行判断。重叠区域面积的大小反映了试验组和对照组在倾向性评分上的重叠程度，重叠区域面积越大，表示两组患者在倾向性评分上的分布重叠程度越高，匹配效果越好。

在具体实现中，首先以真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数。然后根据倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定贝叶斯幂先验的幂参数，最后通过所述幂参数对所述真实世界数据进行降权处理，从而可解决外部数据的贡献度问题，以实现考虑数据间异质性的动态借用。

进一步地，本实施例中在步骤S10包括：确定患者的初始样本量；按预设比例将所述初始样本量随机分配到试验组和对照组，并将分配后的试验组和对照组作为随机对照试验和真实世界数据中患者对应的协变量数据。

需要说明的是，预设比例是预先设置的将患者的初始样本量随机分配到试验组和对照组的比例，例如2:1或1:1等，可根据实际情况设置，本实施例对此不加以限制。

具体的，为便于理解，以下通过一个医疗器械案例进行说明，但并不对本方案进行限定。该案例是一项评价药物涂层球囊（DCB）用于外周动脉支架内再狭窄病变的经皮腔内血管成形术（PTA）的有效性及安全性的随机对照试验（当前研究），计划借用来源于登记数据库的RWD以增补当前研究的对照组，用于监管递交。具体实现过程如下：

(1) 第一设计阶段。该研究的主要目的是评价DCB用于外周动脉支架内再狭窄病变的PTA时主要终点指标12个月靶病变血运重建（TLR）是否优于标准治疗方法（对照组），该主要终点指标为二分类结局变量（低优指标），对应的统计学假设检验为：

；

是试验组和对照组的主要终点指标效应值/>和/>的差值，即。值得注意的是，本实施例中案例结局变量类型为二分类，但本实施例基于倾向性评分和幂先验的真实世界数据借用方法同样适用于连续型和时间-事件类结局变量。在第一设计阶段，可根据临床知识和经验确定可能影响临床结局的4个基线协变量，而这些协变量和结局信息也被收集在登记数据库中。与传统临床试验一样，第一设计阶段估算的“初始”样本量可由研究检验效能决定。之所以称该样本量为“初始”的，是因为该样本量是试验开始前由主要结局指标确定的符合统计学意义的样本量，最终的实际样本量（即当前研究和从RWD借用的总患者数）由多种因素决定，不等于“初始”样本量。具体的，例如为了确定“初始”样本量，根据预试验和文献报道数据，假设预期的/>和/>分别为0.10和0.24。考虑显著性水平/>为单侧0.025，在1:1随机化比下，检验效能/>为0.80，例如可估算所需总样本量约为224例。在确定“初始”样本量后，对该样本量进行“分配”。计划在当前的研究中招募168名患者，并将这些患者按2:1的比例随机分配到试验组和对照组。从登记数据库中借用的信息将相当于56名患者。换句话说，A的值设为56。需要注意的是，在实际操作中，借用患者数应根据临床判断和监管部门要求，具体情况具体分析。如下表1所示，为第一设计阶段的主要内容：

表1

(2) 第二设计阶段。当前研究168名患者入组完成后（其中112名患者分配到试验组，56名患者分配到对照组），此时所有的协变量数据已收集到，则可以开始第二阶段设计。根据预先指定的当前研究的纳入/排除标准，从登记数据库中可筛选1250名在给定时间范围内接受了与当前研究对照组相同的治疗的患者，这些患者被确定为潜在的待借用患者。

基于当前研究入组的168例患者和1250例外部患者，对4个基线协变量进行logistic回归估计每例患者的PS。经过筛选，1250例患者中有1195例被保留用于研究设计和结果分析。同时，所有患者（168+1195例）形成了5个PS分层，每层内包含几乎相同数量（约34例）的患者。在每层内，对当前研究和外部数据中每个协变量的分布进行均衡性检验。参考图3，图3为本发明基于倾向性评分和幂先验的真实世界数据借用方法第二实施例中当前研究(Group=1)和外部数据(Group=0)协变量均衡性检验的示意图，如图3所示，通过检查和比较可看到当前研究和外部数据源之间所有层（全组、分层1、...、分层5）的协变量都较为均衡。均衡性检验后，计算s层PS分布的重叠系数及外部患者的“名义”借用样本量。在第二设计阶段，将同时确定“名义”样本量大小与详细的统计分析计划。在这个阶段，由于只需要治疗分配和基线协变量数据，不需要任何临床结果数据和随访信息，独立统计师也不能获取这些信息，因此可以实现“无结果设计”。

(3) 结局分析阶段。最终的结局分析在当前研究中168例患者的临床结果均被收集后进行，对所有患者的临床结果进行统计推断。首先在每层内构建PP以获得对照组感兴趣参数特定分层后验分布，然后得到特定分层的后验分布，最后整合得到的后验分布。例如，在本案例中，基于A=56的分析，/>-0.10，/>的后验概率为98.0%，大于97.5%，结果表明研究器械12个月TLR低于对照组，优效性假设成立，符合研究成功标准。

本实施例可根据倾向性评分对所述协变量数据进行筛选，从中选取合适的、具有潜在影响的变量保留用于研究设计和结果分析中需要考虑的目标协变量数据。然后基于多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；最后在每个PS分层内将RWD整合到RCT的对照组，确保来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。进一步的，还可以真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数。然后根据所述倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定贝叶斯幂先验的幂参数，最后通过所述幂参数对所述真实世界数据进行降权处理，从而可解决外部数据的贡献度问题，以实现考虑数据间异质性的动态借用。本实施例将倾向性评分分层和贝叶斯幂先验方法进行结合，结合两种方法的优势，PS方法主要用于解决外部数据的相似性问题，通过根据患者的PS建立分层，然后在每个PS分层内将RWD整合到RCT的对照组。这种方法的理念在于，每个PS分层内来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。而PP方法主要用于解决外部数据的贡献度问题，允许对外部数据进行降权，以考虑数据之间的异质性，实现动态的数据借用。“两阶段设计”框架下的该结合方法可以实现“无结果设计”，确保对结果数据的盲态，从而保障研究的客观性和完整性。

参照图4，本发明基于倾向性评分和幂先验的真实世界数据借用方法应用于一种基于倾向性评分和幂先验的真实世界数据借用系统，图4为本发明基于倾向性评分和幂先验的真实世界数据借用系统第一实施例的结构框图。其系统包括：数据获取模块10、PS分层模块20以及PP降权模块30。

所述数据获取模块10，用于获取随机对照试验和真实世界数据中患者对应的协变量数据。

在具体实现中，数据获取模块可先确定患者的初始样本量，对该样本量进行分配，随机分配到试验组和对照组，此时所有的协变量数据已收集到。

所述PS分层模块20，用于根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

具体的，在本实施例中，可定义倾向性评分PS为e(X)，在给定观察到的基线协变量向量为X的条件下，一例患者被划入当前研究(Z= 1)而非外部数据(Z= 0)的条件概率为：

。

在具体实现中，PS分层模块可根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。从而每个分层内来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。

所述PP降权模块30，用于基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

；

在具体实现中，PP降权模块可基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。从而可解决外部数据的贡献度问题，允许对外部数据进行降权，以考虑数据之间的异质性，实现动态的数据借用。在上述系统中，PS分层确保了每层内可比较的RWD患者信息被充分利用，而贝叶斯幂先验允许在结果数据分析中整合从RWD获取的信息，通过上述“两阶段设计”的结合可实现“无结果设计”，确保对结果数据的盲态，从而保障研究的客观性和完整性。

本实施例数据获取模块可先确定患者的初始样本量，对该样本量进行分配，随机分配到试验组和对照组，此时所有的协变量数据已收集到。然后PS分层模块可根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。从而每个分层内来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。最后PP降权模块可基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，最终将真实世界数据整合到随机对照试验的对照组中，以完成所述真实世界数据的借用。从而可解决外部数据的贡献度问题，允许对外部数据进行降权，以考虑数据之间的异质性，实现动态的数据借用。在上述系统中，PS分层确保了每层内可比较的RWD患者信息被充分利用，而贝叶斯幂先验允许在结果数据分析中整合从RWD获取的信息，通过上述“两阶段设计”的结合可实现“无结果设计”，确保对结果数据的盲态，从而保障研究的客观性和完整性。由于本实施例将倾向性评分分层和贝叶斯幂先验进行结合，通过倾向性评分分层可均衡真实世界数据和随机对照试验的对照组在协变量数据上的相似性，使得在每层内借用真实世界数据更为合理；再通过贝叶斯幂先验对真实世界数据进行降权，以考虑数据之间的异质性，可实现动态的数据借用，从而保障了数据研究的客观性和完整性。

基于上述图4所示的实施例，提出本发明基于倾向性评分和幂先验的真实世界数据借用系统的第二实施例。

在本实施例中，所述PS分层模块20，还用于确定所述协变量数据的多个基线协变量；所述PS分层模块20，还用于对所述多个基线协变量进行logistic回归估计，获得所述协变量数据中每例患者的倾向性评分；所述PS分层模块20，还用于根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

可理解的是，logistic回归估计是一种常用的统计学习方法，可用于处理多个基线协变量的分类问题。通过利用Logistic回归模型对多个基线协变量进行参数估计，可得到分类结果的过程。

在具体实现中，PS分层模块首先可根据临床知识和经验确定所述协变量数据中可能影响临床结局的多个基线协变量；然后对多个基线协变量进行logistic回归估计，获得所述协变量数据中每例患者的倾向性评分。最后根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。以实现每个分层内来自RWD和RCT的患者在基线协变量上更加相似，使在层内借用RWD更为合理。

进一步地，所述PS分层模块20，还用于根据所述倾向性评分对所述协变量数据进行筛选，获得目标协变量数据；所述PS分层模块20，还用于基于所述多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；所述PS分层模块20，还用于在每个PS分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中。

在具体实现中，PS分层模块可根据倾向性评分对所述协变量数据进行筛选，从中选取合适的、具有潜在影响的变量保留用于研究设计和结果分析中需要考虑的目标协变量数据。然后基于多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；最后在每个PS分层内将RWD整合到RCT的对照组，确保来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。

进一步地，所述PP降权模块30，还用于以所述真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定所述真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数；所述PP降权模块30，还用于根据所述倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定所述贝叶斯幂先验的幂参数；所述PP降权模块30，还用于通过所述幂参数对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用。

在具体实现中，PP降权模块首先以真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数。然后根据倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定贝叶斯幂先验的幂参数，最后通过所述幂参数对所述真实世界数据进行降权处理，从而可解决外部数据的贡献度问题，以实现考虑数据间异质性的动态借用。

进一步地，所述数据获取模块10，还用于确定患者的初始样本量；所述数据获取模块10，还用于按预设比例将所述初始样本量随机分配到试验组和对照组，并将分配后的试验组和对照组作为随机对照试验和真实世界数据中患者对应的协变量数据。

本实施例PS分层模块可根据倾向性评分对所述协变量数据进行筛选，从中选取合适的、具有潜在影响的变量保留用于研究设计和结果分析中需要考虑的目标协变量数据。然后基于多个基线协变量对所述目标协变量数据建立分层，获得所述目标协变量数据对应的多个PS分层；最后在每个PS分层内将RWD整合到RCT的对照组，确保来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。进一步的，PP降权模块还可以真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数。然后根据倾向性评分分布重叠系数在每个PS分层内构建贝叶斯幂先验，并确定贝叶斯幂先验的幂参数，最后通过所述幂参数对所述真实世界数据进行降权处理，从而可解决外部数据的贡献度问题，以实现考虑数据间异质性的动态借用。本实施例将倾向性评分分层和贝叶斯幂先验方法进行结合，结合两种方法的优势，PS方法主要用于解决外部数据的相似性问题，通过根据患者的PS建立分层，然后在每个PS分层内将RWD整合到RCT的对照组。这种方法的理念在于，每个PS分层内来自RWD和RCT的患者在基线协变量上更加相似，因此在层内借用RWD更为合理。而PP方法主要用于解决外部数据的贡献度问题，允许对外部数据进行降权，以考虑数据之间的异质性，实现动态的数据借用。“两阶段设计”框架下的上述系统可以实现“无结果设计”，确保对结果数据的盲态，从而保障研究的客观性和完整性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于倾向性评分和幂先验的真实世界数据借用方法，其特征在于，所述基于倾向性评分和幂先验的真实世界数据借用方法包括：

2.如权利要求1所述的基于倾向性评分和幂先验的真实世界数据借用方法，其特征在于，所述根据所述患者的倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中，包括：

确定所述协变量数据的多个基线协变量；

3.如权利要求2所述的基于倾向性评分和幂先验的真实世界数据借用方法，其特征在于，所述根据所述倾向性评分对所述协变量数据建立分层，并在每个分层内将所述患者对应的真实世界数据整合到所述随机对照试验的对照组中，包括：

4.如权利要求3所述的基于倾向性评分和幂先验的真实世界数据借用方法，其特征在于，所述基于所述真实世界数据在每个分层与随机对照试验中对照组的倾向性评分分布重叠系数，在每个分层内构建贝叶斯幂先验对所述真实世界数据进行降权处理，以完成所述真实世界数据的借用，包括：

5.如权利要求4所述的基于倾向性评分和幂先验的真实世界数据借用方法，其特征在于，所述获取随机对照试验和真实世界数据中患者对应的协变量数据，包括：

确定患者的初始样本量；

6.一种基于倾向性评分和幂先验的真实世界数据借用系统，其特征在于，所述系统包括：数据获取模块、PS分层模块以及PP降权模块；

7.如权利要求6所述的基于倾向性评分和幂先验的真实世界数据借用系统，其特征在于，所述PS分层模块，还用于确定所述协变量数据的多个基线协变量；

8.如权利要求7所述的基于倾向性评分和幂先验的真实世界数据借用系统，其特征在于，所述PS分层模块，还用于根据所述倾向性评分对所述协变量数据进行筛选，获得目标协变量数据；

9.如权利要求8所述的基于倾向性评分和幂先验的真实世界数据借用系统，其特征在于，所述PP降权模块，还用于以所述真实世界数据在每个PS分层的倾向性评分密度函数重叠区域面积作为相似性的度量指标，确定所述真实世界数据在每个PS分层与随机对照试验中对照组的倾向性评分分布重叠系数；

10.如权利要求9所述的基于倾向性评分和幂先验的真实世界数据借用系统，其特征在于，所述数据获取模块，还用于确定患者的初始样本量；