CN118412142A

CN118412142A - 一种用于真实世界研究的软件机器人系统及运行方法

Info

Publication number: CN118412142A
Application number: CN202410789168.9A
Authority: CN
Inventors: 程宁涛; 俞凌燕
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2024-06-19
Filing date: 2024-06-19
Publication date: 2024-07-30

Abstract

本发明公开了一种用于真实世界研究的软件机器人系统及运行方法，涉及软件机器人技术领域。运行方法包括设定数据流，并执行数据提取操作；对数据进行预处理，并将预处理后的数据进行转换，对转换后的数据进行数据质控操作；对质控操作处理后的数据进行综合性分析。软件机器人系统包括数据输入模块、数据处理模块和数据分析模块；且数据输入模块将提取后的数据传输至数据处理模块进行处理，经处理后的数据传输至数据分析模块进行分析。本发明通过软件机器人系统能够流程化地从多种数据源中自动提取数据，降低手动数据录入的错误和时间消耗，又能基于这些数据自动分析并达到真实世界研究领域较高水平。

Description

一种用于真实世界研究的软件机器人系统及运行方法

技术领域

本发明涉及软件机器人技术领域，具体涉及一种用于真实世界研究的软件机器人系统及运行方法。

背景技术

随着电子病历系统和医疗信息化水平的提升，如何高效地采集、准确地处理和灵活地利用这些海量数据成为亟待解决的问题。常规数据采集及处理方法依赖于人工操作，不仅效率低下，而且容易出错，难以适应大数据时代的要求。软件机器人能够模拟人工操作，自动执行规则基础的任务，如：数据录入、格式转换等。然而，现有的软件机器人应用主要集中在简单的重复性任务上，对于需要复杂判断和医疗大数据采集、处理及分析任务支持不足，并且在数据工程流程优化方面也存在局限性。目前软件机器人操作流程通常是静态的，缺乏灵活性和适应性，不能根据实时反馈和持续变化的医疗环境进行优化。且其在真实环境中的应用仍面临环境适应性差、数据处理能力有限等问题。针对现有问题通常采用的解决方案是需要复杂的定制化开发，并且对于非标准化的健康医疗数据处理能力有限。

因此，需要提供一个既能有效利用大量多源异构健康医疗数据，又能基于这些数据进行真实世界研究（Real-World Research，RWR），并达到领域高级专家水平的流程自动智能化系统。真实世界研究通过分析在非随机化临床试验设置下收集的数据来评估干预措施（如药物、医疗设备等）在日常医疗实践中的效果。这些研究可为理解和改善健康结局提供真实世界证据和有价值参考。

发明内容

本发明针对现有技术存在的问题，提供了一种用于真实世界研究的软件机器人系统及运行方法。

为实现上述目的，本发明采用的技术方案如下：

一种用于真实世界研究的软件机器人系统的运行方法，包括以下步骤：步骤1、设定数据流，并执行数据提取操作：根据数据类型，配置数据流，并连接原始数据源；从原始数据源中提取关键信息；并将提取的信息用于数据预处理；步骤2、对数据进行预处理，并将预处理后的数据进行转换，对转换后的数据进行数据质控操作；步骤3、对质控操作处理后的数据进行综合性分析，根据分析结果运行，其中，第一步、进行描述性统计分析，对用户群体进行分组：根据关键信息，将用户分为不同亚组，有助于了解数据的关键信息和确定需要控制的潜在混杂因素；第二步、使用倾向评分匹配方法，控制潜在混杂因素：通过倾向评分匹配方法来控制混杂因素，确保各亚组之间在基线特征上的平衡；第三步、进行生存分析：采用Kaplan-Meier生存曲线和Cox比例风险回归模型方法进行生存分析，以评估不同亚组之间的生存情况或事件发生率；第四步、结合整合的数据进行安全性评估：对研究中收集到的安全性数据进行分析，评估不同治疗或干预措施的安全性；第五步、通过更改匹配标准和/或调整模型参数进行灵敏性分析，以验证结果的稳健性和可靠性；第六步、根据第一步至第五步各个角度的分析结果，得到分析的全面结果。

基于上述技术方案，更进一步地，步骤1中，所述数据提取的流程为：软件机器人系统通过采用自然语言处理和图像识别技术，从原始数据源中提取关键信息，其中，关键信息至少包括用户信息，主诉，现病史，既往史，实验室检验结果以及影像学检查结果。

基于上述技术方案，更进一步地，步骤2中，其中，数据质控操作包括异常值检测操作和数据纠正操作；数据质控操作中的异常值检测是利用预设的规则和算法分析数据，识别出数据集中不合逻辑或与已知模式不匹配的离群值、缺失值和不一致值；其中，离群值的检测流程为：使用统计方法或机器学习方法识别数值上超出偏离预设范围的数据点；缺失值的检测和处理流程为：分析数据缺失的模式，并采用相应的策略处理缺失值；不一致值的检测流程为：通过设置规则检查数据中的逻辑错误和不一致性。

基于上述技术方案，更进一步地，步骤2中，预处理流程为：采用自动化方式移除无关数据和重复记录，通过将数据转化为一致的格式或者编排形式进行数据规范化处理。数据转换流程为：将预处理后的数据通过内置的映射工具转为统一或预设的格式。其中，预设的规则包括：利用统计方法识别离群值，同时确定数据点的箱线位置和计算数据点Z-Score绝对值；规则一：如果一个数据点低于Q1-1.5IQR或高于Q3+1.5IQR，则为离群值，其中，IQR=Q3-Q1，Q3为上四分位数，Q1为下四分位数，IQR为四分位点内距；规则二：如果一个数据点的Z-Score的绝对值大于2，则为离群值，其中，Z-Score是测量单位；其中，如果采用规则一或规则二判定的结果为离群值，则该数据点即判定为离群值。

基于上述技术方案，更进一步地，步骤2中，数据质控操作中的数据纠正流程包括以下步骤：步骤21、数据清洗：对识别为离群、缺失或不一致的数据进行清洗；当异常值数量＜总数据的10%时，则用整个数据集的均值或中位数替换异常值；当异常值数量≥总数据的10%，剔除当前特征列，剩余特征进行KNN聚类，取K个邻居样本的平均值替换异常值；步骤22、数据验证：清洗后，重新进行数据验证，确保修改措施的有效性和数据的一致性；步骤23、数据记录：记录数据更新前和更新后的版本，确保数据纠正流程的可追溯性。

基于上述技术方案，更进一步地，步骤3中，综合性分析还包括机器学习分析，机器学习分析过程包括以下步骤：步骤31、进行数据获取、分类和预处理；其中，数据预处理过程包括数据清洗、数据标准化和归一化、数据集划分；步骤32、进行特征工程处理：包括特征选择处理和特征提取处理；步骤33、进行模型选择和模型训练，其中，使用k折交叉验证评估模型性能，进行交叉验证；步骤34、进行模型评估与优化：评估时，绘制混淆矩阵，计算性能指标并进行分析；优化时，基于特征选择与工程进行特征优化，基于模型调参进行模型参数优化；步骤35、根据评估和优化结果进行模型解释。

一种用于真实世界研究的软件机器人系统，采用一种用于真实世界研究的软件机器人系统的运行方法，包括数据输入模块、数据处理模块和数据分析模块；且数据输入模块将处理后的数据传输至数据处理模块进行处理，经提取后的数据传输至数据分析模块进行分析；数据输入模块用于设定数据流、数据提取和数据传输操作；数据处理模块用于数据预处理、数据转换和数据质控操作；数据分析模块用于综合性分析。

相对于现有技术，本发明具有以下有益效果：

（1）本发明通过软件机器人系统的自动化技术，其设定数据流以及预处理操作，从多种数据源中提取并处理不同来源的数据，降低手动数据录入的错误和时间消耗，显著减少人力资源的投入，提高了数据处理与整体工作效率，且更全面地分析干预措施在不同人群中的表现，其基于这些更为全面的数据自动分析并达到真实世界研究领域的专家水平。

（2）本发明通过数据质控操作，可以识别数据集中不合逻辑或与已知模式不匹配的离群值、缺失值和不一致值，进行实时监控用户状况和治疗效果，获取并进行即时数据分析，揭示不同用户群体对医疗干预措施的反应，从而为提高识别哪些治疗方法在实际应用中更有效提供一定的参考。且利用预设规则和算法对数据进行质控操作和错误纠正，降低了错误率，减少误操作，提升了数据的准确性和可靠性。

（3）本发明记载的运行方法和软件机器人系统对数据进行综合性分析，通过两种分析方式的分析数据，可应用在真实世界研究中收集、分析和管理与用户相关医疗信息；相较于传统的方式，真实世界研究提供更接近实际临床情境的证据，反映治疗方法在真实世界中的应用效果和安全性，更好地揭示治疗方法在不同人群和环境下的真实效果。

附图说明

图1为本发明管控方法的简易流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

实施例

结合图1所示，实施一种用于真实世界研究的软件机器人系统的运行方法，本方法前期需要明确研究的主要目标，例如评估治疗方案的效果、识别潜在的副作用，或评估不同人群对治疗的反应，基于预期目标，设定可验证的假设。最终以获得医药产品在真实世界中的使用价值、潜在获益或风险的临床证据，从而为决策者提供有力的证据支持，这不仅有助于优化治疗方案，也能在早期阶段识别潜在的风险，从而更好地保障用户安全和提高治疗效果，为确保分析的准确性和科学性。

具体方法包括以下步骤：步骤1、设定数据流，并执行数据提取操作：根据所需要的数据类型，配置数据流，并连接预设原始数据源，其中，数据源包括电子病历系统、实验室信息管理系统、医学影响数据库等。具体的，数据类型系指数据的种类或者格式，可以是结构化数据（如数据库表格）、半结构化数据（如XML文件）或非结构化数据（如文本文件、图像视频等）；根据数据类型，采取不同的提取和传输方式。数据流是指数据在系统中的传输路径，包括数据从源头提取到目标的整个传输流程；数据流定义了数据从原始数据源到目标系统之间的路径和流动方式。数据源是数据的来源，可以是各种数据库、文件系统、网络服务等。

举例说明如下：假设有一个针对某种新型药物的真实世界研究，该药物用于治疗高血压。其中数据类型、数据流和数据源之间的关系可以如下描述：（1）数据类型：结构化数据包括病人的基本信息（如年龄、身高、体重等）、药物治疗方案（如剂量、频率）、治疗期间的生理指标（如血压、心率）等。半结构化数据（如医生的处方信息、病历记录、实验室检查结果等）。（2）本方案中的数据流可以理解为从临床试验数据库中提取病人的基本信息、治疗方案以及生理指标数据，通过医院信息系统提取病人的医疗记录、处方信息以及实验室检查结果，通过电子健康记录系统收集病人在日常诊疗中的生理指标数据，通过问卷调查或电话访谈等方式收集患者的主观感受和药物依从性数据。（3）数据源是数据的来源，包括临床试验数据库、医院信息系统、电子健康记录系统等。其中，临床试验数据库中存储了来自临床试验的病人基本信息、治疗方案以及生理指标数据。医院信息系统中存储了病人的医疗记录、处方信息以及实验室检查结果等数据。电子健康记录系统中记录了病人在日常诊疗中的生理指标数据和其他医疗信息。进一步的，从原始数据源中提取关键信息，该数据提取的流程为：软件机器人系统通过采用自然语言处理（NLP）和图像识别技术（如：OCR），从复杂的原始数据源中提取关键信息，其中，关键信息至少包括用户信息（如：姓名、性别、年龄、籍贯、联系方式、职业等），主诉，现病史（如起病情况、患病时间、主要症状特点、病因与诱因、病情发展与演变、伴随症状、诊治经过等），既往史，实验室检验结果以及影像学检查结果等；并将提取的信息通过加密通道传输至下一步进行预处理，确保在传输中数据的安全性和隐私保护。其具体的实施流程包括：1、获取系统信息：可以通过获取系统信息来为输入数据增加系统内部的元信息，如系统时间。2、通过相应的表输入组件执行表输入操作：通过表输入基于SQL语句，引入想要查询和转换的数据内容。3、生成记录：将一部分文本数据变成数据行，每个字段作为一个数据行的一个列。将文本数据转换为数据行的列通常涉及到文本解析和数据结构化，可以通过编程语言中的字符串处理函数、正则表达式、文本解析库等工具来实现；具体实现方式取决于文本数据的格式和结构。假设有一段文本数据表示每位员工的基本信息，如：（1）姓名：张三，年龄：30，性别：男，职务：经理；（2）姓名：李四，年龄：25，性别：女，职务：技术员；（3）姓名：王五，年龄：35，性别：男，职务：销售员。可通过编写代码抓取指定字段（姓名、年龄、性别、职务）作为一个数据行的一个列，根据需求将对应数据转换为数据行的列，将其保存到Data Frame中，通过这种方式，文本数据就被转换为了数据行的列，并已Data Frame的格式存储。4、REST client：请求一个服务接口，请求体是一段JSON，服务接口响应数据，数据也是JSON形式，并解析响应体的JSON字段。5、Web服务查询：通过Web service获取网络信息。6、JSON Input：JSON对象文件输入，可以读取按照JSON标准编写数据的文件。

步骤2、对数据进行预处理，并将预处理后的数据进行转换，对转换后的数据进行数据质控操作；具体而言，预处理流程为：将初步接收到的原始数据经过预处理，采用自动化方式移除无关数据和重复记录，进行规范化处理，以提高数据质量；具体的，无关数据通常指的是不具有分析或处理意义的数据，这些数据可能是与研究或任务无关的数据，或者是与目标不符合的数据；例如，在一份销售报告中，与销售额无关的员工生日数据可能被视为无关数据；在文本数据中，可能存在着与主题无关的废话、噪音或者注释，这些也可以被认为是无关数据；冗余数据也可以被视为无关数据。在操作中，采用自动化方式移除无关数据，该自动化方式可以包括使用编程脚本、算法或者数据清洗工具来识别和删除无关数据，这些工具可能会根据预设的规则、模式或者机器学习算法来识别无关数据并进行删除。规范化处理是指将数据转化为一致的格式或者编排形式，使数据更易于理解、处理及分析，减少由于数据格式不一致而导致的错误或混淆，规范化的标准可能包括统一的格式（同类变量）、统一的单位（同类变量）、数值范围标准化等。数据转换流程为：将清洗后的数据通过内置的映射工具转为统一或预设的格式，例如：采用Pandas库的映射工具，将日期数据转换为统一格式；使用Scikit-learn库的标签编码工具，将类别数据转换为数字编码；利用NumPy库的向量化运算，将数据值范围标准化至0到1之间等多种方案。数据质控操作包括基于机器学习的异常值检测操作和自动化数据纠正操作，以提高数据质量，确保分析的基础数据准确无误。具体的，异常值检测是利用预设的规则和算法分析数据，识别出数据集中不合逻辑或与已知模式不匹配的离群值、缺失值和不一致值。其中，离群值的检测流程为：使用统计方法（如Z-Score、IQR方法）或机器学习方法（如基于聚类的异常检测）识别数值上超出预设范围的数据点；具体实施逻辑为：利用统计方法识别离群值，同时数据点的箱线位置和计算数据点Z-Score绝对值，任一方法判定为离群值，则该数据点判定为离群值；该判断规则包括：规则一：如果一个数据点低于Q1-1.5IQR或高于Q3+1.5IQR，则为离群值，其中，IQR=Q3-Q1，上四分位数Q3和下四分位数Q1是描述数据分布的统计量，用于将数据集分成四等份。具体来说，Q1是数据的第25百分位数，而Q3是数据的第75百分位数。在计算四分位数时，首先将数据值按照大小进行排序，然后找出预设的百分位处的值。即，将全部数据从小到大排列，正好排列在下1/4位置上的数就叫做下四分位数（按照百分比，也就是25%位置上的数值），也叫做第一四分位数Q1；排在上1/4位置上的数就叫上四分位数（按照百分比，也就是75%位置上的数），也叫做第三四分位数Q3。如果数据集的大小是偶数，则Q1和Q3通常取相邻两个位置的数据的平均值。四分位点内距（Inter-Quartile Range，IQR）是描述数据集中间50%数据分布范围的统计量。它是第三四分位数（Q3）和第一四分位数（Q1）之间的差值。在统计学中，它是用来衡量数据的离散程度或分散程度的一种方法。四分位点内距的计算方法如下：IQR=Q3-Q1。规则二：如果一个数据点的Z-Score的绝对值大于2，则为离群值；其中，采用规则一或规则二判定为离群值，则该数据点即判定为离群值。其中，Z-Score是测量单位，其表示数据点与平均值的距离，Z-Score=(x-µ)/σ。

缺失值的检测和处理流程为：分析数据缺失的模式，比如可以采用完全随机缺失模式、随机缺失模式或非随机缺失模式，其中，如果缺失变量观测值的缺失概率与它本身或其他纳入研究的变量均无关，则称缺失数据是完全随机缺失；如果缺失变量观测值的缺失概率与其他纳入研究的变量有关，且在控制纳入研究的变量情况下，与它本身无关，则称缺失数据是随机缺失；如果缺失数据既不是完全随机缺失的，也不是随机缺失的，则称它是非随机缺失；并采用相应的策略来处理缺失值，比如采用平均值填充、热卡填充、预测模型插补等计算方式。不一致值的检测流程为：通过设置规则检查数据中的逻辑错误和不一致性；例如，用户的治疗结束日期不应早于开始日期。

进一步地，数据质控操作包括基于机器学习的数据纠正操作，通过对检测到的错误或异常进行自动修正或标注，以便进一步审核和处理。其中，数据纠正流程包括识别错误后的修正步骤，具体该纠正流程包括以下步骤：步骤21、数据清洗：对识别为离群、缺失或不一致的数据进行清洗，采取适当的方法替换、修改或删除。具体实施为：当异常值数量＜总数据的10%时，则用整个数据集的均值或中位数替换异常值；当异常值数量≥总数据的10%，剔除当前特征列，剩余特征进行KNN聚类，取K个邻居样本的平均值替换异常值。步骤22、数据验证：清洗后，重新进行数据验证，确保修改措施的有效性和数据的一致性；具体的，重新进行数据验证流程仍是重复前述数据质控步骤进行验证。如果数据验证结果表明数据质量无法满足需求，则可以采用重新定义数据源、重新设定数据流或人工干预等方式进行调整，使之满足。步骤23、数据记录：记录数据更新前和更新后的版本，确保数据纠正流程的可追溯性。

步骤3、对质控操作处理后的数据进行综合性分析，根据分析结果运行。

例如，案例1：一种糖尿病治疗药物在实际使用中具有一定的效果和安全性，该药物在临床试验中显示了良好的疗效，为进一步了解它在更广泛的患者群体中的表现，具体的综合性分析中的统计分析流程如下：第一步、进行描述性统计分析，对用户群体进行分组：根据患者特征，也即是关键信息，如年龄、性别、病程、合并症等，将用户分为不同亚组，该用户也即是患者，该步骤有助于了解数据的关键信息和确定需要控制的潜在混杂因素。比较使用该药物的患者（也即是治疗组）与使用其他治疗方法的患者（也即是对照组）的关键信息，确保可比性。其中，“可比性”指的是治疗组（使用新药物的患者）和对照组（使用其他治疗方法的患者）在以下关键特征上应尽可能相似：比如，在年龄方面：两组患者的年龄分布应相似，以避免年龄对治疗效果的潜在影响。在性别方面：性别比例应相似，防止性别差异影响研究结果。在病程方面：患者糖尿病的病程（即糖尿病诊断的时长）应相似，因为病程长短可能影响治疗反应。在合并症方面：两组患者的合并症（如高血压、心脏病等）情况应相似，因为合并症可能影响糖尿病治疗的效果和安全性。其他可能影响治疗效果的特征：如体重指数（BMI）、血糖控制水平（如HbA1c值）、生活方式（如饮食和运动习惯）等。而确保“可比性”的方法包括：1、随机分组：通过随机分配患者到治疗组和对照组，减少已知和未知混杂因素的影响。2、匹配：根据基线特征匹配患者，使得两组在这些特征上尽可能相似。3、统计控制：在分析阶段使用统计方法（如多变量回归分析、倾向得分匹配等）控制基线特征的差异。而其他治疗方法可以选择标准治疗方案，在临床实践中，标准治疗方案是指针对特定疾病或症状的一套被广泛接受和认可的治疗程序和指导原则；这些方案通常基于最新的临床研究和证据，并由专业机构或组织发布和更新；标准治疗方案的制定旨在提供一致的治疗标准，以确保患者获得最佳的医疗护理，并帮助医生在临床实践中做出明智的治疗决策。标准治疗方案的内容通常包括药物治疗、手术治疗、康复计划、营养指导以及监测和随访等方面的建议；这些方案还可能考虑到特定患者群体的需求，比如儿童、老年人或孕妇等；标准治疗方案的制定是为了提高治疗的一致性和质量，并帮助医疗保健专业人员更好地为患者提供治疗服务。第二步、倾向评分匹配：使用倾向评分匹配方法，控制潜在混杂因素。在相同条件下，匹配使用新型药物的患者（治疗组）和使用其他治疗方法的患者（对照组），使两组在关键信息上尽可能相似。具体的，使用倾向评分匹配（Propensity Score Matching，PSM）方法可以有效控制这些混杂因素，通过控制混杂因素，倾向评分匹配方法能够提高研究的内部效度，使得对新型药物效果的评估更加准确和可靠，确保亚组之间在基线特征上的平衡，其中，该基线特征也即是关键信息。也可以采用其他方法，比如多变量调整方法来控制混杂因素。而该PSM的步骤包括：1、计算倾向评分：先进行变量选择，然后使用逻辑回归的统计方法，计算每个患者在已知混杂因素下接受新型药物治疗的概率，也即是倾向评分。其中，逻辑回归的统计方式为现有方式，此处不做过多赘述。2、进行匹配处理：根据倾向评分将治疗组和对照组的患者进行匹配，使两组在混杂因素上尽可能相似。例如，可以使用一对一匹配、卡尺匹配或其他匹配方法。其中，这些匹配方法为为现有方式，此处不做过多赘述。3、验证匹配效果：在匹配完成后，检查两组在混杂因素上的平衡情况，确保匹配成功。也即是这些混杂因素在两组中的分布比较相似，则可认为是匹配成功的，并在匹配后的数据集上进行治疗效果的比较和分析；其中，具体的匹配步骤和匹配是否成功的判断标准为：当前后显著减少（通常小于0.1被认为是可接受的）时，则说明匹配效果良好。使用平衡程度可视化比较分析（Love plot）匹配前后各个混杂因素的分布变化，如果匹配后大部分混杂因素的SMD接近零，表明平衡改善。对连续变量使用t检验，对分类变量使用卡方检验，来检查匹配前后组间差异是否显著。匹配成功后，这些检验应不显著（p值较大）。通过可视化方法比较匹配前后各混杂因素的分布，分布越接近说明平衡越好。如果验证结果显示匹配后两组在大多数混杂因素上均衡，且差异较小，则可以认为匹配成功。进一步的，在临床研究中，混杂因素（也称为混淆变量）是指那些既与暴露（如新型药物的使用）有关，又与结局（如治疗效果）有关的因素；混杂因素可能会影响研究结果的有效性和可靠性，因此需要在研究设计和分析中加以控制。对于该糖尿病治疗药物案例研究，可能的混杂因素包括：1、患者的年龄：不同年龄段的患者可能对治疗的反应不同。2、性别：男性和女性可能在疾病进展和治疗反应方面存在差异。3、病程长短：糖尿病诊断时间长短可能影响疾病的严重程度和对治疗的反应。4、合并症：如高血压、心脏病、肾病等，这些合并症可能影响治疗效果和安全性。5、基线血糖控制水平：如HbA1c值，血糖控制水平不同的患者可能对治疗的反应不同。6、体重指数（BMI）：肥胖或体重不足可能影响药物代谢和治疗效果。7、生活方式：如饮食习惯、运动量、吸烟和饮酒等，这些因素可能影响糖尿病的管理和治疗效果。8、药物依从性：患者是否按医嘱规律服药，依从性差可能影响治疗效果。9、社会经济因素：如收入、教育水平、医疗保险等，可能影响患者获得医疗资源和健康管理的能力。10、基线健康状况：如是否存在其他慢性病或健康问题，可能影响整体治疗反应。11、药物种类和剂量：对照组使用的治疗方法可能不同，因此需要控制使用的药物种类和剂量。第三步、进行生存分析：采用Kaplan-Meier生存曲线和Cox比例风险回归模型方法进行生存分析，以评估不同亚组之间的生存情况或事件发生率；在该糖尿病治疗药物研究中，可采用Kaplan-Meier生存曲线和Cox回归分析方法进行生存分析，评估新型药物对患者生存率的影响。具体的，采用Kaplan-Meier生存曲线可以用来分析以下变量：（1）治疗组：新型药物组与对照组。（2）年龄段：如<50岁、50-65岁、>65岁。（3）性别：男性与女性。（4）病程：短病程（如<5年）与长病程（如≥5年）。（5）合并症：有无特定合并症（如心脏病、高血压）。（6）基线血糖控制水平：如HbA1c低、中、高。（7）体重指数（BMI）：如正常体重、超重、肥胖。而采用Kaplan-Meier生存曲线分析的结果通常包括：（1）生存曲线：显示在研究期间不同时间点上各组患者的生存概率。（2）中位生存时间：各组的中位生存时间，即50%的患者仍存活的时间点。（3）生存概率：不同时间点上的生存概率，显示各组之间的差异。（4）对数秩检验（Log-rank test）：用于比较不同组之间的生存曲线是否有显著差异。进一步，还采用Cox回归分析方式进行分析。该Cox回归分析（比例风险模型）用于同时考虑多个变量的影响，以评估它们对生存率的独立效应。其可以分析的变量包括：（1）治疗组（主要变量）：新型药物组与对照组。（2）年龄：作为连续变量或分类变量（如不同年龄段）。（3）性别：男性与女性。（4）病程：作为连续变量或分类变量（如短病程与长病程）。（5）合并症：无特定合并症，或合并症的数量。（6）基线血糖控制水平：如HbA1c值。（7）体重指数（BMI）：作为连续变量或分类变量（如正常体重、超重、肥胖）。（8）其他潜在混杂因素：如生活方式（饮食、运动）、社会经济因素（收入、教育水平）等。该Cox回归分析的结果通常包括：（1）风险比（Hazard Ratio，HR）：每个变量对生存风险的影响。HR>1表示增加风险，HR<1表示降低风险。（2）95%置信区间：风险比的置信区间，显示估计值的准确性。（3）p值：评估每个变量对生存率影响的显著性，p<0.05通常表示显著。（4）调整后的生存曲线：根据回归模型调整后的生存曲线，反映多变量调整后的生存情况。

具体应用实例，假设研究结果如下：（1）基于Kaplan-Meier生存曲线分析，其中，治疗组的中位生存时间为5年，对照组为4年。对数秩检验显示两组生存曲线有显著差异（p<0.01）。分析不同年龄段，发现<50岁组的治疗效果显著优于对照组，而>65岁组无明显差异。（2）基于Cox回归分析，其中，治疗组的风险比为0.75（95% CI: 0.60-0.90，p=0.002），表示使用新型药物显著降低25%的死亡风险。年龄的风险比为1.03（95% CI: 1.01-1.05,p=0.01），表示每增加1岁，死亡风险增加3%。有合并症的患者风险比为1.50（95%CI: 1.20-1.80,p<0.001），表示合并症显著增加50%的死亡风险。通过上述分析，可以更全面地了解新型药物在不同患者群体中的疗效和安全性，为临床决策提供有力支持。

第四步、结合整合的数据进行安全性评估：对研究中收集到的安全性数据进行分析，评估不同治疗或干预措施的安全。比较新型药物与其他治疗方法的不良事件发生率。其中，“整合的数据”指的是从多个来源收集和汇总的数据。在药物安全性评估中，这可能包括来自临床试验、流行病学研究、药物监测数据库和其他相关资料的信息。这些数据被整合在一起，以便对药物的副作用和不良事件发生率进行全面评估。通过整合数据，研究人员可以更全面地了解药物的安全性特征，包括在不同人群中的反应情况、潜在的风险因素以及与其他治疗方法相比的优势和劣势。这有助于医疗专业人员和决策者更好地了解药物的安全性，并为患者提供更全面的治疗建议。第五步、灵敏性分析：通过更改匹配标准和/或根据实际情况适应性调整模型参数等方式进行灵敏性分析，测试各种假设对研究结果的影响，以验证结果的稳健性和可靠性。在该糖尿病治疗药物研究中，已经通过倾向评分匹配和生存分析得出了一些初步结论，即新型药物显著降低了患者的死亡风险。然而，为了确保这些结果的稳健性，需要进行灵敏性分析，测试各种假设对研究结果的影响。通过灵敏性分析，可以确保研究结果的稳健性，即使在不同假设和条件下，结果仍然可靠且有意义。

假设场景一、处理缺失值的方法：假设原始数据中存在一定比例的缺失值，在初步分析中采用了“均值填补”方法；为了测试结果的稳健性，采用另一种常见的处理缺失值的方法“多重插补”。其中，多重插补：生成多个填补缺失值的数据集，每个数据集都基于不同的假设，然后分别进行分析并综合结果。其对应的结果分析为：如果多重插补后的分析结果（风险比、p值等）与均值填补后的结果一致或变化不大（例如，风险比从0.75变为0.78，且仍显著），说明结果具有稳健性。如果结果变化较大或显著性消失（例如，风险比从0.75变为1.10，且不显著），说明结果的稳健性较差。

假设场景二、亚组分析：假设在初步分析中，发现新型药物在不同年龄段的效果不同。为了测试结果的稳健性，将患者分为不同亚组（如<50岁、50-65岁、>65岁），分别进行分析。亚组分析流程中分别计算每个年龄段的风险比和p值。其对应的结果分析为：如果每个亚组的分析结果与总体分析结果一致（例如，各年龄段的风险比都在0.70-0.80之间，且显著），说明结果具有稳健性。如果某些亚组的结果显著不同（例如，<50岁组的风险比为0.50，但>65岁组的风险比为1.20，且不显著），说明结果的稳健性可能存在问题，需要进一步探讨亚组间的异质性。

假设场景三、对照组选择的不同标准：假设初步分析中，选择了使用治疗方法的患者作为对照组。为了测试结果的稳健性，改变对照组的选择标准，例如，仅选择那些已经接受过一种特定标准治疗（如二甲双胍）的患者作为对照组。改变对照组标准，重新进行倾向评分匹配和生存分析。其对应的结果分析为：如果改变对照组标准后的分析结果与原始分析结果一致（例如，风险比仍在0.70-0.80之间，且显著），说明结果具有稳健性。如果结果变化较大（例如，风险比变为1.05，且不显著），说明结果的稳健性较差，可能是对照组选择标准对结果影响较大。

进一步综合性示例，假设在初步分析中，缺失值采用均值填补，得出的治疗组的风险比为0.75（95% CI: 0.60-0.90,p=0.002）。灵敏性分析流程为：采用多重插补法处理缺失值，重新进行倾向评分匹配和Cox回归分析。结果对比：多重插补法结果：风险比为0.78（95%CI: 0.62-0.94,p=0.003）。结果解释：（1）稳健性好：风险比从0.75变化到0.78，且仍显著（p<0.01），说明处理缺失值的方法对研究结果影响不大，结果具有较好的稳健性。（2）稳健性差：如果多重插补法结果显示风险比为1.05（95% CI: 0.85-1.25,p=0.25），则说明缺失值处理方法对结果有较大影响，结果的稳健性较差，需要重新审视分析方法和数据处理流程。

综合性分析还包括机器学习分析，该案例中利用机器学习分析的主要目标是利用机器学习模型预测不同药物治疗糖尿病的效果，从而优化治疗策略。次要目标是识别影响药物治疗效果的关键因素，为个性化治疗提供依据。具体分析过程为：步骤31、数据获取、分类和预处理，其过程如下：步骤311、获取所需数据：从相应的数据来源中获取所需要的数据。比如从电子健康记录（EHR）中可以获取患者的病历、实验室检测结果、影像学数据等；从临床试验数据中可以获取既往和正在进行的关于糖尿病的临床试验数据；从药物数据库中获取不同药物的治疗剂量、副作用、疗效等信息。步骤312、进行数据类型分类：比如，将年龄、性别、种族等数据归类于人口统计数据；将病史、家族史、生活习惯（饮食、吸烟、饮酒）、合并症等归类于临床数据；将病理诊断结果、影像学数据等归类于诊断数据；将用药方案、剂量、治疗持续时间、不良反应等归类于治疗数据；将治疗后的随访信息，包括疗效评估、复发情况、生活质量等归类于随访数据。步骤313、进行数据预处理。该预处理过程包括数据清洗、数据标准化和归一化、数据集划分的步骤。其中，数据清洗的步骤包括：①对缺失值的处理：删除含有大量缺失值的记录或特征，或使用均值、中位数、插值法填补缺失值，具体过程同步骤2，此处不做过多记载。②对异常值的处理：检测并处理异常值（如通过IQR方法、Z-score方法），具体过程同步骤2，此处不做过多记载。③数据类型转换：将类别型数据转换为数值型数据（如独热编码）。数据标准化和归一化的步骤包括：①标准化：对数值型特征进行标准化处理（如减去均值后除以标准差）。②归一化：将数据缩放到特定范围（如[0，1]）。数据集划分的过程为：通常按照70%（训练集）、15%（验证集）、15%（测试集）的比例进行训练集、验证集、测试集划分。步骤32、进行特征工程处理，其包括特征选择处理和特征提取处理；具体为：步骤321、特征选择：进行相关性分析，计算特征与目标变量的相关系数，剔除低相关特征。进行卡方检验，对于分类变量，使用卡方检验选择显著性特征。并采用递归特征消除（RFE），递归消除不重要的特征，保留重要特征。步骤322、特征提取：通过PCA降维，减少特征数量，保留主要信息，进行主成分分析（PCA）。通过因子分析提取潜在因子进行因子分析。步骤33、进行模型选择与训练：步骤331、在模型选择过程中，涉及到算法选择和基准模型的训练，具体的，算法选择过程为：选择适合的数据特征和研究目标的算法，如线性回归、逻辑回归、决策树、随机森林、支持向量机（SVM）、神经网络、XGBoost等。基准模型构建过程为：构建简单的基准模型（如线性回归、决策树）进行初步验证。步骤332、在模型训练过程中，涉及到交叉验证和超参数优化。具体的使用k折交叉验证评估模型性能，选择最佳参数，进行交叉验证。使用网格搜索或随机搜索优化模型超参数。步骤34、进行模型评估与优化：评估时，绘制混淆矩阵，计算性能指标并进行分析；优化时，基于特征选择与工程进行特征优化，基于模型调参进行模型参数优化。具体的，步骤341、在模型评估过程中，具体的，根据任务选择合适的性能指标，如分类问题使用准确率、精确率、召回率、F1值、AUROC，回归问题使用均方误差（MSE）、均方根误差（RMSE）、R²等。对于分类问题，绘制混淆矩阵，分析模型的分类错误类型。步骤342、在模型优化过程中，涉及到特征选择与工程、模型调参的过程，其中，特征选择与工程是为了进一步优化特征，可尝试组合特征、交互特征等。模型调参是根据验证集结果，继续优化模型参数。步骤35、进行模型解释：比如，使用SHAP值解释每个特征对预测结果的贡献。使用LIME技术解释局部模型预测结果。分析模型中的特征重要性排名，识别关键特征。

第六步、根据第一步至第五步各个角度的分析结果，得到分析的全面结果：结合该案例，通过以上各个角度的综合性分析，能够得到新型糖尿病药物在真实世界中的全面效果和安全性评估。例如，可能发现该药物在特定患者群体中显著降低了血糖水平，同时副作用发生率低于其他治疗方法。结果可用于指导临床实践和决策制定。

再比如，案例2：评估某种治疗胃癌前病变药物（药物W）在实际临床环境中的效果和安全性，进行对胃癌前病变治疗药物的真实世界研究。其选择的目标样本量为2000名患者，其中，使用本次药物进行治疗的治疗组为1000名患者，使用标准治疗方案进行治疗的对照组为1000名患者。这些患者的入组依据为：年龄在30-75岁之间，确诊为胃癌前病变（包括肠上皮化生、轻度或中度异型增生，通过胃镜检查和病理活检确认），设定近6个月内开始接受治疗，无确诊胃癌、严重肝肾功能不全、严重心血管疾病等其他重大疾病，无对研究药物过敏或有禁忌症，有完整的电子健康记录。其主要的健康结局为：胃癌前病变的改善或消退（通过胃镜检查和病理活检评估）和进展为胃癌的发生率。其次要的健康结局为：症状缓解（如胃痛、消化不良、食欲不振等）、总体生活质量（通过患者报告结果评估）和不良反应和副作用发生率。关键指标包括：基线和随访时的胃镜检查结果、病理活检结果（肠上皮化生和异型增生的程度）、症状评分（基于标准化问卷，如胃痛、消化不良、食欲不振等）、总体生活质量评分、不良反应发生率（如腹痛、腹泻、过敏反应等）。临床特征（关键信息）包括：年龄、性别、种族体重、身高、体质指数（BMI）、基线症状评分、既往病史（如幽门螺杆菌感染、胃溃疡病史）、合并用药情况。在这些数据的前提下，其综合性分析流程为：

第一步、描述性统计分析，对用户群体进行分组：描述患者的关键信息（如年龄、性别、基线症状评分等）；用均值、标准差、中位数、四分位数等统计量描述连续变量；用频数和百分比描述分类变量。具体的，连续变量是指那些可以取任意值的变量，通常是定量数据，例如：年龄（以年为单位）、体重（以公斤为单位）、身高（以厘米为单位）、体质指数（BMI）（体重除以身高的平方）、基线症状评分（如胃痛、消化不良、食欲不振的评分）、总体生活质量评分等等。分类变量是指那些可以分为不同类别的变量，通常是定性数据；例如：性别（男性、女性）、种族（如白色人种、黑色人种、亚洲区域的黑色人种、白色人种或黄色人种等）、既往病史（如有无幽门螺杆菌感染、胃溃疡病史）、合并用药情况（如有无其他药物的使用）、不良反应发生率（如有无腹痛、腹泻、过敏反应等）等等。而对于连续变量，常用的统计量包括均值、标准差、中位数和四分位数。具体描述如下：均值是变量的平均值，例如年龄的平均值等；标准差是数据的离散程度，比如通过标准差方式可以获知年龄的离散程度；中位数是数据的中间值，可以获知年龄、体重等连续变量的中间值。四分位数：将数据分为四部分的分位值（25th和75th百分位数）。而对于分类变量，常用的统计量包括频数和百分比。具体描述如下：频数是指每个类别的样本数量。百分比是指每个类别的样本数量占总样本的百分比。示例（假设有以下数据）：年龄的均值为55.2岁，标准差为10.5岁，中位数为56岁，四分位数为48岁和63岁。体重的均值为70.3公斤，标准差为12.1公斤，中位数为69公斤，四分位数为61公斤和78公斤。性别中的男性有1080名（54%），女性有920名（46%）。种族中的白色人种有1200名（60%），黑色人种有400名（20%），亚洲区域的黑色人种、白色人种或黄色人种有300名（15%），其他有100名（5%）。患有既往病史（幽门螺杆菌感染）的有1500名（75%），无500名（25%）。合并用药情况的有800名（40%），无1200名（60%）。不良反应发生率中腹痛200名（10%），腹泻150名（7.5%），过敏反应50名（2.5%），无不良反应1600名（80%）。通过这些描述性统计分析，可以全面了解患者的关键信息，并对用户群体进行分组，为后续的分析和比较提供基础数据。

第二步、倾向评分匹配（PSM）：使用倾向评分匹配方法，匹配治疗组和对照组的患者，控制潜在混杂因素，该混杂因素可包括年龄、性别、种族、体重、身高、体质指数（BMI）、基线症状评分（如胃痛、消化不良、食欲不振等评分）、既往病史（如幽门螺杆菌感染、胃溃疡病史）、合并用药情况、基线生活质量评分等；通过Logistic回归计算倾向评分，并进行1:1匹配。具体的，采用Logistic回归计算倾向评分的步骤如下：假设有一个数据集，包括2000名患者，其中1000名接受药物W治疗（治疗组），另1000名接受标准治疗（对照组）。具体匹配步骤为：1、计算倾向评分：先进行变量选择，选择提到的混杂因素作为自变量，治疗组（接受药物W治疗）与对照组（接受标准治疗）作为因变量（0和1）。构建逻辑回归模型，使用逻辑回归（Logistic Regression）方法来计算每个患者接受药物W治疗的倾向评分。2、进行匹配处理：基于逻辑回归模型计算得到的每个患者的倾向评分，按照倾向评分对治疗组和对照组的患者进行排序。根据倾向评分进行1:1匹配，使得治疗组和对照组在这些混杂因素上的分布尽可能相似（即将治疗组中每个患者与对照组中倾向评分最接近的患者进行匹配）。3、验证匹配结果：匹配完成后，需要验证匹配结果的有效性。可以通过比较匹配前后的基线特征分布（如年龄、性别、种族、BMI等）来评估匹配的效果。也可以使用标准化差异（Standardized Mean Difference，SMD）来评估匹配前后混杂因素的平衡程度，SMD值越小越表明匹配的效果越好。举例，假设有以下部分数据，如下表1所示，其中，表1中组别一列中的“1”代表治疗组，“0”代表对照组：

表1

结合表1数据，通过逻辑回归计算每个患者的倾向评分：患者1（治疗组）的倾向评分为0.65；患者2（对照组）的倾向评分为0.60；患者3（治疗组）的倾向评分为0.70；患者4（对照组）的倾向评分为0.66。然后对匹配倾向评分相似的患者进行治疗效果的比较和分析，结合该案例中的以上数据，可以进行以下匹配：首先匹配最接近的患者对，即患者1和患者4（差异0.01），患者1（治疗组，倾向评分0.65）和患者4（对照组，倾向评分0.66）匹配。患者3（治疗组，倾向评分0.70）和患者2（对照组，倾向评分0.60）匹配。

第三步、生存分析：使用Kaplan-Meier生存曲线分析进展为胃癌的发生率；使用Cox比例风险回归模型评估胃癌进展的风险。其用于评估不同亚组之间的生存情况或事件发生率。具体的分析思路与案例1相同，此处不做过多记载。第四步、结合整合的数据进行安全性评估：对研究中收集到的安全性数据进行分析，评估不同治疗或干预措施的安全。具体的，通过整合的数据，评估各组不良反应和副作用发生率的差异，该相关统计数据，可用于研究其在真实世界中的安全性；使用卡方检验或Fisher精确检验比较分类变量之间的差异。假设在研究中关注两组患者：治疗组（接受药物W治疗）和对照组（接受标准治疗），若评估两组患者在不良反应（分类变量）发生率上的差异。具体步骤为：步骤A、可设定以下两个分类变量：分类变量1、不良反应发生与否（是/否）：治疗组中有50例不良反应，对照组中有30例不良反应；分类变量2、副作用类型（轻微/严重）：治疗组中有20例严重副作用，对照组中有15例严重副作用。步骤B、使用卡方检验比较不良反应发生率的差异：①设置假设：（1）零假设（H₀）：治疗组和对照组的不良反应发生率相同；（2）备择假设（H₁）：治疗组和对照组的不良反应发生率不同。②计算卡方值：建立一个2x2的列联表，对应不良反应的发生与否和治疗组与对照组，如下表2，然后使用卡方检验公式计算卡方值。步骤C、检验假设：在显著性水平（通常为0.05）下，比较计算得到的卡方值与卡方分布表中对应自由度的临界值。如果卡方值大于临界值，则拒绝零假设，说明治疗组和对照组的不良反应发生率有显著差异。具体的，使用Fisher精确检验比较严重副作用发生率的差异的流程为：（1）设置假设：零假设（H₀）：治疗组和对照组的严重副作用发生率相同。备择假设（H₁）：治疗组和对照组的严重副作用发生率不同。（2）计算Fisher精确检验的p值：使用Fisher精确检验公式计算p值。（3）检验假设：在显著性水平下（通常为0.05），比较计算得到的p值与设定的显著性水平。如果p值小于显著性水平，则拒绝零假设，说明治疗组和对照组的严重副作用发生率有显著差异。步骤D、结果解释与安全性关系：如果卡方检验和Fisher精确检验的结果显示治疗组和对照组在不良反应或副作用发生率上存在显著差异，这可能意味着药物W在安全性方面存在一定的问题，因为更高的不良反应或严重副作用发生率可能会降低药物的安全性。另一方面，如果两组在不良反应或副作用发生率上没有显著差异，那么可以认为药物W在安全性方面与治疗方法相当，具有较高的安全性。总之，卡方检验和Fisher精确检验可以帮助评估不同组别之间的分类变量差异，这种差异与药物的安全性密切相关，差异较大可能意味着安全性较低，差异较小则安全性较高。

表2列联表

第五步、灵敏性分析：通过更改匹配标准和/或根据实际情况适应性调整模型参数等方式进行灵敏性分析，测试各种假设对研究结果的影响，以验证结果的稳健性和可靠性。本案例具体为：进行子组分析，评估不同亚组（如不同年龄段、不同基线症状评分）的治疗效果；测试不同假设对研究结果的影响，确保结果的稳健性和可靠性。假设1：年龄对药物W的治疗效果有影响。具体的，假设1对研究结果的影响：如果年龄对药物W的治疗效果有显著影响，那么在不同年龄段的患者中，药物W的治疗效果可能会有所差异，从而影响研究结果的稳健性。进行结果情景分析：（1）稳健性高的情况下：假设的研究结果显示，在不同年龄段的患者中，药物W的治疗效果都是显著的，差异不大。这种情况下，无论患者年龄是年轻还是年长，药物W的治疗效果都很好，研究结果具有高的稳健性。（2）稳健性低的情况下：假设的研究结果显示，在年轻患者中，药物W的治疗效果显著，但在年长患者中效果较差。这种情况下，年龄因素对研究结果的影响较大，研究结果的稳健性较低。具体的，灵敏性分析的流程包括以下步骤：1）数据准备：将样本按年龄段划分为不同子组，比如年轻组（30-50岁）、中年组（51-65岁）、老年组（66-75岁）等。2）子组分析：对每个年龄段的子组进行分析，比较药物W在不同年龄段的治疗效果，可以使用生存分析、症状改善分析等方法。3）测试不同假设：在子组分析中，测试不同的假设，比如年龄对药物W的治疗效果是否存在显著影响。可以通过比较不同年龄段子组的治疗效果差异来评估假设的影响。4）稳健性评估：根据子组分析和假设测试的结果，评估研究结果的稳健性。如果在不同年龄段子组中，药物W的治疗效果差异不大，则说明研究结果具有高的稳健性。示例：假设研究的药物W在年轻患者中和年长患者中的治疗效果差异较大。稳健性高的情况下：通过灵敏性分析，发现在不同年龄段的子组中，药物W的治疗效果都是显著的，差异不大。这种情况下，无论患者年龄是年轻还是年长，药物W的治疗效果都很好，研究结果具有高的稳健性。稳健性低的情况下：通过灵敏性分析，发现在年轻患者中，药物W的治疗效果显著，但在年长患者中效果较差。这种情况下，年龄因素对研究结果的影响较大，研究结果的稳健性较低。通过以上分析，可以评估年龄对药物W治疗效果的影响，并判断研究结果的稳健性。

综合性分析还包括机器学习分析，该案例中利用机器学习分析的主要目标是利用机器学习模型预测不同药物治疗胃癌前病变的效果，从而优化治疗策略。次要目标是识别影响药物治疗效果的关键因素，为个性化治疗提供依据。具体分析过程为：

步骤31、数据获取、分类和预处理，其过程如下：步骤311、获取所需数据：从相应的数据来源中获取所需要的数据。比如从电子健康记录（EHR）中可以获取患者的病历、实验室检测结果、影像学数据等；从临床试验数据中可以获取既往和正在进行的关于胃癌前病变的临床试验数据；从药物数据库中获取不同药物的治疗剂量、副作用、疗效等信息。步骤312、进行数据类型分类：比如，将年龄、性别、种族等数据归类于人口统计数据；将病史、家族史、生活习惯（饮食、吸烟、饮酒）、合并症等归类于临床数据；将病理诊断结果、胃镜检查结果、影像学数据等归类于诊断数据；将用药方案、剂量、治疗持续时间、不良反应等归类于治疗数据；将治疗后的随访信息，包括疗效评估、复发情况、生活质量等归类于随访数据。步骤313、进行数据预处理。该预处理过程包括数据清洗、数据标准化和归一化、数据集划分的步骤。其中，数据清洗的步骤包括：①对缺失值的处理：删除含有大量缺失值的记录或特征，或使用均值、中位数、插值法填补缺失值，具体过程同步骤2，此处不做过多记载。②对异常值的处理：检测并处理异常值（如通过IQR方法、Z-score方法），具体过程同步骤2，此处不做过多记载。③数据类型转换：将类别型数据转换为数值型数据（如独热编码）。数据标准化和归一化的步骤包括：①标准化：对数值型特征进行标准化处理（如减去均值后除以标准差）。②归一化：将数据缩放到特定范围（如[0，1]）。数据集划分的过程为：通常按照70%（训练集）、15%（验证集）、15%（测试集）的比例进行训练集、验证集、测试集划分。

步骤32、进行特征工程处理，其包括特征选择处理和特征提取处理；具体为：步骤321、特征选择：进行相关性分析，计算特征与目标变量的相关系数，剔除低相关特征。进行卡方检验，对于分类变量，使用卡方检验选择显著性特征。并采用递归特征消除（RFE），递归消除不重要的特征，保留重要特征。例如，关键特征（也即是自变量）包括年龄（患者的年龄）、性别（患者的性别）、吸烟史（是否有吸烟史）、饮酒史（是否有饮酒史）、家族史（是否有家族胃癌史）、饮食习惯（如高盐饮食）、病理指标（如肿瘤大小、浸润深度等）、生物标志物（如CEA（癌胚抗原）、CA 19-9等）。目标变量（也即是应变量）通常是患者的病情状态或预后情况，包括：疾病状态（如是否患有胃癌（0=否，1=是））、生存时间（从确诊到死亡的时间）、疾病进展（如肿瘤进展情况（进展/无进展））、治疗反应（对治疗的反应（好/中/差））。示例说明：假设有一个数据集，其中包含上述关键特征和目标变量。可以采用处理缺失值、标准化等对数据进行清洗和预处理，然后计算每个特征与目标变量之间的相关系数，以评估它们之间的关系。这里以“是否患有胃癌”为目标变量，使用Pearson相关系数为例。首先创建了一个包含虚拟数据的DataFrame，并对性别变量进行了数值化处理，也即是对数据进行预处理等操作。然后使用Pandas的corr()方法计算各个特征与目标变量之间的相关系数，计算相关系数矩阵。再使用pearsonr函数计算每个特征与目标变量之间的Pearson相关系数，也即是单独计算Pearson相关系数。最终通过相关系数矩阵和Pearson相关系数值，可以识别出与目标变量（是否患有胃癌）相关性较强的特征，从而在进一步的模型构建和特征选择中进行重点考虑，也即是，进行结果解读。步骤322、特征提取：进行主成分分析（PCA），降维，减少特征数量，保留主要信息。通过因子分析提取关键的潜在因子。其中，因子分析是一种多变量统计方法，用于识别和提取数据中的潜在因素或结构。这些潜在因素被称为“因子”，其解释了原始观测变量之间的相关模式。因子分析的分析结果主要包括以下几个方面：（1）因子载荷矩阵（Factor Loadings Matrix）：因子载荷矩阵显示了每个观测变量在每个因子上的载荷。因子载荷反映了变量与因子之间的相关性或贡献。载荷值通常在-1到1之间，值越大（无论正负），表明该变量在该因子上的解释力越强。也即是，其显示了每个变量在两个因子上的载荷。较高的载荷值表示该变量对该因子的贡献较大。（2）因子得分（FactorScores）：因子得分是每个观测值在提取的因子上的得分。这些得分表示每个观测值在不同因子维度上的位置。因子得分可以用于进一步的分析，如回归分析、聚类分析等。也即是，显示了每个观测值在两个因子上的得分。得分可以用于进一步的分析和可视化。（3）特征值（Eigen values）和解释的方差（Explained Variance）：特征值反映了每个因子的解释力。较大的特征值表示该因子能够解释更多的总方差，也即是，显示了每个因子的解释力，特征值较大表示该因子解释了更多的方差。累积解释的方差百分比用于评估提取的因子总共能解释原始数据方差的多少，也即是，显示了提取的因子解释了原始数据方差的比例。累积解释的方差用于评估因子的有效性。（4）因子旋转（Factor Rotation）：为了提高因子的可解释性，通常对因子载荷进行旋转。常见的旋转方法包括正交旋转（如Varimax）和斜交旋转（如Promax）。旋转后的因子载荷矩阵更容易解释，每个因子通常会有更明显的高载荷变量。（5）因子相关矩阵（Factor Correlation Matrix）：在斜交旋转中，因子之间可能相关，因子相关矩阵显示了因子之间的相关性。通过这些结果，研究人员可以理解数据中的潜在结构，识别关键的潜在因子，并在进一步的分析中使用这些因子。例如，在胃癌研究中，可以通过因子分析识别影响疾病进展的关键潜在因素，并基于这些因素进行风险评估和预后预测。

步骤33、进行模型选择与训练：步骤331、在模型选择过程中，涉及到算法选择和基准模型的训练，具体的，算法选择过程为：选择适合的数据特征和研究目标的算法，如线性回归、逻辑回归、决策树、随机森林、支持向量机（SVM）、神经网络、XGBoost等。基准模型构建过程为：构建简单的基准模型（如线性回归、决策树）进行初步验证。例如，采用一个简单的机器学习模型来初步验证上述特征对目标变量的预测能力。在胃癌案例中，可以使用逻辑回归（Logistic Regression）模型来预测患者是否患有胃癌（目标变量）。以下是具体的步骤和初步验证结果示例：假设已经有一个数据集，其中包含一些关键特征和目标变量。将使用这些数据来构建和验证相应的基准模型。首先对数据进行预处理，包括处理缺失值、标准化、将类别变量转化为数值变量等；使用逻辑回归模型作为基准模型。将数据分为训练集和测试集，训练基准模型并进行初步验证，计算模型的性能指标，如准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数（F1 score）。基于相应的代码，可以得到基准模型的初步验证结果；假设输出的准确率为0.70、精准率为0.67、召回率为0.60、F1分数为0.63；其中，准确率表示模型正确预测的样本占总样本的比例，0.70的准确率表示模型对70%的样本进行了正确分类。精确率表示模型预测为阳性样本中实际为阳性的比例，0.67的精确率表示在模型预测为阳性的样本中，有67%是实际阳性。召回率表示实际为阳性样本中被正确预测为阳性的比例，0.60的召回率表示实际为阳性的样本中，有60%被模型正确识别。F1分数为精确率和召回率的调和平均数，0.63的F1分数表示模型在精确率和召回率之间取得了相对平衡。这些初步验证结果表明，该基准模型在预测患者是否患有胃癌方面有一定的能力，但仍有改进空间。因此可以使用更复杂的模型和特征选择方法来进一步优化模型性能。步骤332、在模型训练过程中，涉及到交叉验证和超参数优化。具体的使用k折交叉验证评估模型性能，选择最佳参数，进行交叉验证。使用网格搜索或随机搜索优化模型超参数。其中，选择最佳参数是机器学习模型优化的重要步骤，常见的方法包括网格搜索、随机搜索和贝叶斯优化。以下是如何在胃癌案例中使用这些方法选择最佳参数的示例：假设采用逻辑回归算法建模，其常见的参数包括正则化强度和正则化类型：先定义需要调整的参数网格，定义逻辑回归模型（具体的定义程序代码不进行展示）；再初始化数据、执行网格搜索，以找到最佳参数组合（具体的定义程序代码不进行展示）；最终使用找到的最佳参数重新训练模型，并在测试集上进行验证，计算得到性能指标。假设最佳参数为C=1和penalty='l2'，模型的性能如下：Accuracy = 0.80， Precision = 0.78， Recall = 0.75， F1Score = 0.76。这些结果表明，通过使用网格搜索可以找到最佳参数，所建立的逻辑回归模型在预测胃癌患病状态方面表现更好。

步骤34、进行模型评估与优化：评估时，绘制混淆矩阵，计算性能指标并进行分析；优化时，基于特征选择与工程进行特征优化，基于模型调参进行模型参数优化。具体的，步骤341、在模型评估过程中，具体的，根据任务选择合适的性能指标，如分类问题使用准确率、精确率、召回率、F1值、AUROC，回归问题使用均方误差（MSE）、均方根误差（RMSE）、R²等。对于分类问题，绘制混淆矩阵，分析模型的分类错误类型。步骤342、在模型优化过程中，涉及到特征选择与工程、模型调参的过程，其中，特征选择与工程是为了进一步优化特征，可尝试组合特征、交互特征等。模型调参是根据验证集结果，继续优化模型参数。

步骤35、进行模型解释：比如，使用SHAP值解释每个特征对预测结果的贡献。使用LIME方法解释局部模型预测结果。分析模型中的特征重要性排名，识别关键特征。例如，使用SHAP值解释每个特征对预测结果的贡献：SHAP值基于博弈论中的Shapley值，用于解释每个特征对模型预测结果的贡献。SHAP值总结显示每个特征对模型预测结果的贡献，包括特征值的高低与贡献大小等信息。假设输出的结果显示以下特征的重要性：Tumor_Size，CEA， Age， Smoking_History， Gender。X轴表示SHAP值，表示每个特征对模型输出的影响。Y轴列出每个特征，点的分布表示该特征对预测的贡献变化范围。通过这个总结，可以直观地看到哪些特征对模型预测影响最大，以及每个特征是如何影响预测结果的。较宽的点分布表示该特征对预测结果的贡献具有较大的变化范围。使用LIME方法解释局部模型预测结果：LIME方法提供了具体样本的解释，使得理解模型在个别样本上的决策更加直观。可选择一个特定的样本，解释其预测结果。假设LIME解释结果显示样本1的特征贡献如下：Tumor_Size: +0.4， CEA: +0.3， Age: +0.2， Smoking_History: +0.1， Gender: -0.1。特征重要性排名：基于模型系数的绝对值，显示每个特征的重要性，排名靠前的特征对预测结果的影响更大，是关键特征。假设特征重要性排名（Feature Importance Ranking）如下：Tumor_Size: 2.4567， CEA: 1.9876， Age: 1.5678， Smoking_History: 1.2345，Gender: 0.9876。

第六步、根据第一步至第五步各个角度的分析结果，得到分析的全面结果：结合该案例，通过以上各个角度的综合性分析，能够得到在真实世界中的全面效果和安全性评估。

综上案例可知，通过这种综合性分析流程思路，其具体涉及到特征工程、各种分析等，能够大幅提升真实世界医疗研究的质量和效率，为用户提供更加精准和个性化的治疗方案。具体，特征工程的思路是通过引入自动化特征选择和优化算法，如基于模型的特征选择和遗传算法，以从原始数据中识别和提取有用的特征，用于后续的分析和模型建立。采用深度学习技术进行特征构造，以从原始数据中挖掘深层次的特征和潜在的交互效应，进一步增强模型的预测能力。统计分析的思路是运用描述性统计分析、假设检验、回归分析等方法来探索数据间的关系，评估治疗效果的差异性。具体是，根据探索后的数据关系，可以使用统计分析方法来评估治疗效果的差异性。使用描述性统计分析可以对数据的分布、中心趋势和变异程度进行总结和描述。通过比较不同治疗组或不同时间点的描述性统计量（如中位数等），可以初步评估治疗效果差异。例如，比较两个治疗组的平均值或中位数，如果其中一个组的平均值明显高于另一个组，可能暗示着该治疗组具有更好的治疗效果。假设检验可以用来验证治疗效果的差异是否具有统计显著性。常用的假设检验包括t检验等，例如，可以使用t检验来比较两组的平均值是否有显著性差异，如果t检验的p值小于预先设定的显著性水平（通常为0.05），则可以拒绝原假设，表明两组之间存在显著差异。回归分析是可以用来探索自变量与因变量之间的关系，并进一步评估治疗效果的差异性，例如，在比较两种治疗方案的效果时，可以建立一个回归模型，将治疗方案作为自变量，治疗效果作为因变量，然后评估自变量对因变量的影响程度。效应量分析中的效应量是用来描述两组之间差异大小的指标，不受样本大小的影响。常见的效应量包括Cohen's d、Pearson相关系数等，例如，通过计算Cohen's d，可以评估两组之间的效应大小，从而更直观地理解治疗效果的差异性。通过分析数据间的关系和统计显著性，可以确定不同治疗组之间是否存在显著差异，并进一步评估治疗效果的大小和临床意义。

机器学习的分析思路为：结合多种机器学习建模预测算法，包括但不限于随机森林、梯度提升机和深度神经网络，来识别数据中的模式和趋势，预测治疗效果，以及探索潜在的风险或益处。实施模型训练策略，如自适应学习率调整和模型集成技术，以提升模型的泛化能力和性能。其中，识别数据中的模式和趋势是为了理解数据的基本结构和规律，预测治疗效果是为了根据数据预测患者的治疗反应，而探索潜在的风险或益处则是为了评估不同治疗方案可能产生的风险和益处。这些任务密切相关，共同为医疗决策提供支持和指导。其中，识别数据中的模式和趋势通常指通过机器学习来发现数据的内在结构和规律；例如：采用随机森林、梯度提升机和深度神经网络等算法从大量的数据中学习，并发现其中的模式和关联关系。预测治疗效果时一旦识别了数据中的模式和趋势，可以利用这些信息来预测治疗效果；例如，根据患者的临床特征和用药情况，运用机器学习算法建模预测患者的治疗反应，如药物的疗效或副作用等。探索潜在的风险或益处是用建立的模型来分析患者数据，并评估不同治疗方案可能产生的风险和益处；例如，通过机器学习，可以评估某种治疗方案导致的相关副作用或并发症的风险（风险评分或似然性），以及治疗可能带来的益处。模型解释是应用模型解释和可视化工具，如SHAP值和LIME，以深入理解模型的预测行为和各特征对模型预测的贡献度，从而提高透明度和可解释性。综合模型分析结果，提出医药产品在真实世界应用中的潜在价值、获益和风险，以及不同用户群体可能的反应差异。其中，SHAP（Shapley Additive exPlanations）值和LIME（Local Interpretable Model-agnostic Explanations）是两种常用的模型解释和可视化工具。SHAP值是一种基于博弈论的方法，用于解释单个预测的模型结果。它通过分析每个特征对预测结果的贡献，为每个特征提供了一个重要性得分，从而解释了模型的预测行为。LIME则是一种针对单个预测实例的局部解释方法，通过在模型周围生成一些局部的近似模型，并解释这些近似模型的预测结果，来解释模型的预测行为。预测行为、特征、贡献度与透明度、可解释性之间的对应关系：预测行为是指模型在给定输入条件下所做的预测或判断。以SHAP和LIME为代表的解释和可视化工具可以帮助深入理解模型在预设的预测上的行为，即解释为什么模型会给出这样的预测结果。特征是模型预测的输入变量。贡献度表示每个特征对于模型预测结果的相对重要性或影响程度。透明度和可解释性是指模型的内部工作机制是否能被理解和解释。通过运用SHAP和LIME等工具方法，可以分析每个特征对模型预测结果的贡献程度，即了解每个特征对于模型预测行为的影响。SHAP值和LIME可以给出每个特征的贡献度分数，帮助理解模型对预测的依赖程度，进而提高模型的透明度和可解释性，使得复杂的模型也可以被解释和理解，从而增强对模型的信任和应用可靠性。

基于一种用于真实世界研究的软件机器人系统的运行方法，还可以实施一种用于真实世界研究的软件机器人系统，包括数据输入模块、数据处理模块和数据分析模块；且数据输入模块将处理后的数据传输至数据处理模块进行处理，经处理后的数据传输至数据分析模块进行分析；数据输入模块用于设定数据流、数据提取和数据传输操作；数据处理模块用于数据预处理、数据转换和数据质控操作；数据分析模块用于综合性分析。对实验后的结果可以编写详细的分析报告，包括研究方法、分析流程、结果解释及其临床意义。还可以基于API或看板形式输出结果，展示医药产品的真实世界研究证据。

最后应当说明的是，以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。

Claims

1.一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：包括以下步骤：

步骤1、设定数据流，并执行数据提取操作：根据数据类型，配置数据流，并连接原始数据源；从原始数据源中提取关键信息；并将提取的信息用于数据预处理；

步骤2、对数据进行预处理，并将预处理后的数据进行转换，对转换后的数据进行数据质控操作；

步骤3、对质控操作处理后的数据进行综合性分析，根据分析结果运行，其中，综合性分析包括统计分析流程，统计分析流程包括如下步骤：

第一步、进行描述性统计分析，对用户群体进行分组：根据关键信息，将用户分为不同亚组；

第二步、使用倾向评分匹配方法，控制潜在混杂因素，确保各亚组之间在关键信息上的平衡；

第三步、进行生存分析：采用Kaplan-Meier生存曲线和Cox比例风险回归模型方法进行生存分析，以评估不同亚组之间的生存情况或事件发生率；

第四步、结合整合的数据进行安全性评估：对研究中收集到的安全性数据进行分析，评估不同治疗或干预措施的安全性；

第五步、通过更改匹配标准和/或调整模型参数进行灵敏性分析，验证结果的稳健性和可靠性；

第六步、根据第一步至第五步各个角度的分析结果，得到分析的全面结果。

2.根据权利要求1所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：步骤1中，所述数据提取的流程为：软件机器人系统通过采用自然语言处理和图像识别技术，从原始数据源中提取关键信息，其中，关键信息至少包括用户信息、主诉、现病史、既往史、实验室检验结果以及影像学检查结果。

3.根据权利要求1所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：步骤2中，预处理流程为：采用自动化方式移除无关数据和重复记录，通过将数据转化为一致的格式或者编排形式进行数据规范化处理。

4.根据权利要求1所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：步骤2中，数据转换流程为：将预处理后的数据通过内置的映射工具转为统一或预设的格式。

5.根据权利要求1所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：步骤2中，数据质控操作包括异常值检测操作和数据纠正操作；数据质控操作中的异常值检测是利用预设的规则和算法分析数据，识别出数据集中不合逻辑或与已知模式不匹配的离群值、缺失值和不一致值；其中，

离群值的检测流程为：使用统计方法或机器学习方法识别数值上超出偏离预设范围的数据点；

缺失值的检测和处理流程为：分析数据缺失的模式，并采用相应的策略处理缺失值；

不一致值的检测流程为：通过设置规则检查数据中的逻辑错误和不一致性。

6.根据权利要求5所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：预设的规则包括：利用统计方法识别离群值，同时确定数据点的箱线位置和计算数据点Z-Score绝对值，

规则一：如果一个数据点低于Q1-1.5IQR或高于Q3+1.5IQR，则为离群值，其中，IQR=Q3-Q1，Q3为上四分位数，Q1为下四分位数，IQR为四分位点内距。

7.根据权利要求6所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：预设的规则包括：利用统计方法识别离群值，同时确定数据点的箱线位置和计算数据点Z-Score绝对值，

规则二：如果一个数据点的Z-Score绝对值大于2，则为离群值，其中，Z-Score是测量单位；

其中，如果采用规则一或规则二判定的结果为离群值，则该数据点即判定为离群值。

8.根据权利要求5所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：步骤2中，数据质控操作中的数据纠正流程包括以下步骤：

步骤21、数据清洗：对识别为离群、缺失或不一致的数据进行清洗；当异常值数量＜总数据的10%时，则用整个数据集的均值或中位数替换异常值；当异常值数量≥总数据的10%，剔除当前特征列，剩余特征进行KNN聚类，取K个邻居样本的平均值替换异常值；

步骤22、数据验证：清洗后，重新进行数据验证，确保修改措施的有效性和数据的一致性；

步骤23、数据记录：记录数据更新前和更新后的版本，确保数据纠正流程的可追溯性。

9.根据权利要求1所述的一种用于真实世界研究的软件机器人系统的运行方法，其特征在于：步骤3中，综合性分析还包括机器学习分析，机器学习分析过程包括以下步骤：

步骤31、进行数据获取、分类和预处理；其中，数据预处理过程包括数据清洗、数据标准化和归一化、数据集划分；

步骤32、进行特征工程处理：包括特征选择处理和特征提取处理；

步骤33、进行模型选择和模型训练，其中，使用k折交叉验证评估模型性能，进行交叉验证；

步骤34、进行模型评估与优化：评估时，绘制混淆矩阵，计算性能指标并进行分析；优化时，基于特征选择与工程进行特征优化，基于模型调参进行模型参数优化；

步骤35、根据评估和优化结果进行模型解释。

10.一种用于真实世界研究的软件机器人系统，其特征在于：采用权利要求1-9任一项所述的一种用于真实世界研究的软件机器人系统的运行方法，软件机器人系统包括数据输入模块、数据处理模块和数据分析模块；且数据输入模块将提取后的数据传输至数据处理模块进行处理，经处理后的数据传输至数据分析模块进行分析；

数据输入模块用于设定数据流、数据提取和数据传输操作；

数据处理模块用于数据预处理、数据转换和数据质控操作；

数据分析模块用于综合性分析。