CN107169259A

CN107169259A - 基于协同过滤和建议的个性化医学决定支持系统

Info

Publication number: CN107169259A
Application number: CN201611140089.7A
Authority: CN
Inventors: 郭栋梁; 连杰; 牟晓佳
Original assignee: Pioneer Biomedical Ltd
Current assignee: Pioneer Biomedical Ltd
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-09-15

Abstract

本发明提出了一种基于协同过滤和建议的个性化医学决定支持系统，其特征在于，包括病历原数据库、定义目标检索模块、建议和检索过滤系统；所述病历原数据库包含患者的治疗史文件、个人电子病例文件、其他相关文件，所述定义目标检索模块用于通过数据清理将所述病历原数据库中的数据生成患者特征矩阵并转化为检索特征矩阵；所述建议和检索过滤系统用于根据选择和设计治疗特定疾病，参考其他类似患者用于治疗副作用研究和/或其它目的。本发明其旨在支持肿瘤专家在各个决定结点选择最佳的治疗方案。

Description

基于协同过滤和建议的个性化医学决定支持系统

技术领域

本发明涉及数据检索技术领域，特别涉及一种基于协同过滤和建议的个性化医学决定支持系统。

背景技术

现今，医疗专业人员已经广泛认识到临床实践中使用信息技术的优势所在。但是，因为读者的知识工具有限和背景知识不足，可能很难从诊断报告获取更多的数据。

为了能够充分挖掘现有医疗保健信息，给医生提供改善的个性化支持工具，需要在医学决定支持系统中集成一些信息检索技术，例如建议系统。

如今建议服务已被广泛用于提供建议信息，例如通过电子商务网站采购的产品、租赁和订购等。为了运行此类服务，要提供项目或特征清单作为输入，可以生成与输入集总体类似或相关的顺序表。

随着电子病例(EMR)逐渐被采用，通过文本和数据挖掘发现健康、疾病和诊断已经成为趋势。从EMR中检索到的重要启示信息可进一步引导医生制定有效的治疗策略。由于医学术语的复杂性和模糊性，从EMR中搜索和查询相关信息通常很有挑战性。另一方面，各种类型的病例中存在大量相关信息，也会因用药证据不足而导致医学决定的不确定性和可变性。但是，通过挖掘EMR之间的关系，人们可以发现常见共现记录之间的联系。具体来讲，想象对患者主诉进行大范围差异诊断时，医生可以参考其他类似患者，从而可以权衡许多干预的相对风险和收益。尽管医生的要求(例如化验室、成像和用药)很具体，但以前的类似EMR可为临床决定提供更有力的支持。

在发病最早期识别疾病并非因为可能会有多种病因就毫无意义。化验室检验通常仅在医生听取患者主诉后才开方进行。因此，患者已出现疾病后才会进行医学干预，而且通常受到医生经验和知识的严重限制。

Davis(DavisDAC.N.,2008)等先锋人士早已使用患者临床史结合协同过滤方法进行疾病预测。Davis及其同事在其工作中创建了建议引擎，用诊断疾病表征每位患者。Steinhaeuser(SteinhaeuserK，2009)和Chawla对协作过滤和分类方法进行了组合，用于选择类似患者进行预测。Folino(FolinoFP.C.,2010IEEE23rd)等人引入使用关联分析的集群和用于疾病预测的模型；他们首先将类似患者组成一组，然后通过对比患者资料预测可能患有的疾病。Duan等人将建议系统用于协助护理计划。他们的模型可以基于用户交互提供序列建议，通过传统关联规则确定排序。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的一个目的在于提出一种基于协同过滤和建议的个性化医学决定支持系统，其旨在支持肿瘤专家在各个决定结点选择最佳的治疗方案

为了实现上述目的，本发明的实施例提供一种基于协同过滤和建议的个性化医学决定支持系统，其特征在于：包括病历原数据库、定义目标检索模块、建议和检索过滤系统；

所述病历原数据库包含患者的治疗史文件、个人电子病例文件、其他相关文件，所述治疗史文件、所述个人电子病例文件、所述其他相关文件组成高维数特征数据；

所述定义目标检索模块用于通过数据清理将所述病历原数据库中的数据生成患者特征矩阵并转化为检索特征矩阵，传递给建议和检索过滤系统；

所述建议和检索过滤系统将检索特征矩阵进行降维后，创建建议优先顺序表，用于根据选择和设计治疗特定疾病，参考其他类似患者用于治疗副作用研究和/或其它目的。

进一步的，所述个人电子病例文件包括每个患者的病例、病理信息和基因组特征信息，所述病理信息至少包括患者年龄、吸烟史、癌症分期和家族病史；所述基因组特征信息还包括基因组测序结果，用于为给定患者人群模拟不同治疗方案和优化治疗进度。

进一步的，所述其他相关文件至少包括抗癌药物数据库中的基因组学和药物基因组学数据、环境条件、微生物特征，用于搜索更多类似性案例，完善药物对特征数据的响应。

进一步的，所述定义目标检索模块的工作步骤如下：

首先，对病历原数据库内的高维数特征数据进行数据收集和预处理，估算丢失的数据和废弃冗余信息；

其次，生成建议系统后续培训和测试的特征集；

最后，生成检索对象特征矩阵，在检索对象特征矩阵中，每个检索对象都代表一位患者。

进一步的，所述定义目标检索模块对病历原数据库内的高维数特征数据进行数据收集和预处理的步骤如下：

首先，确定疾病模型；

接着，根据疾病模型，从病历原数据库中检索相关数据；

然后，对来自病历原数据库中的相关数据进行反规范化；

之后，对反规范化后的相关数据重新收集数据和进行分类；

其次，对重新收集和分类的数据进行必要的格式化和清理；

最后，进行特征设计。

进一步的，所述特征设计的步骤如下：

首先，理解任务和源数据，从而过滤有用信息；

接着，删除或合并不需要和冗余的特征；

然后，对现有特征进行混合处理，创建新特征；

之后，重新构建数值量；

最后，生成特征集。

进一步的，所述创建新特征的步骤如下：

首先，将现有特征进行分类，再将分类数据分解为数值数据；

接着，组合现有特征；

然后，将组合后的现有特征，转化为相关数据；

其次，从数据库中提取特征；

最后，将外部资源指定不同特征的权重系数后加入新特征中。

进一步的，所述特征设计的步骤中，重新构建数值量采用二值化和离散化的方法。

进一步的，所述降维包括以下步骤：

首先对检索对象特征矩阵进行降维，处理稀疏数据和获取有用信息，然后执行检测步骤；

如果是大数据集，则将大数据集形成项目群集或邻居，使大数据集变成低维数据；

如果不是大数据集，则判断为低维数据；

接着，计算检索目标与低维数据之间成对关联性；

然后，根据关联性结果，建立判定目标检索对象的类似患者顺序表；

最后，根据类似患者顺序表中的关联性得分提供建议。

进一步的，所述建议和检索过滤系统工作步骤如下：

根据拟定的临床问题将以前的设计特征进行分类和安排；

使用建议系统模型返回类似患者列表，从而查询他们的相关信息和文件；

对建议系统的输出进行严格评估和检查；

将建议系统推广至若干测试病情；

利用信息过滤和检索，用户可输入信息要求，系统通过识别与检索对象相关的信息来源提供响应；

根据预测能力、方法对建议系统进行评估，包括计算其预测准确度；

如果测试结果可接受，将接受和使用该模型；相反，如果结果不可接受，将拒绝该模型并根据反馈重新循环响应，以改进建议系统性能。

根据本发明实施例的一种基于协同过滤和建议的个性化医学决定支持系统，其旨在支持肿瘤专家在各个决定结点选择最佳的治疗方案(如本实施例后续描述的示例，我们聚焦于从数据库中发现有非小细胞肺癌的类似患者并为肿瘤专家建议此类信息)。本专利基于特定用户(此处称作“目标患者或检索对象”)的多种临床资料提供检索类似患者病例的方法。下面将介绍几种计算机实现的过程。这些过程可体现在建议引擎中，用于过滤信息和生成个性化建议。在基于用户的遗传信息和EMR为其建议个性化医学决定计划的系统环境下描述这些过程。还可以使用这些公开的过程建议其它类型的信息，这些公开流程可能不需要作为数据库或网站的一部分进行实施或与其组合实施。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明的在个性化医学决定支持系统中应用建议系统的示意图；

图2为本发明的系统流程图；

图3为本发明的数据收集和预处理的流程图；

图4为本发明的特征设计流程图；

图5为本发明的建议和检索过滤系统工作流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

建议服务概述

基于不同患者类似资料的建议治疗计划支持新兴的患者驱动型医疗保健模式，通过涵盖更深和更广的病情信息，卫生组织网络可以提供患者健康的综合视点。为了识别可能相关的病情，一些卫生组织网络已经使用了其它功能，例如自我跟踪和协作过滤，协作过滤通过使用其他人员的建议提取信息。基本假定是：在过去对某项目有类似想法的人们将来有可能再次达成一致。例如，如果患者想接受某位专家诊治，他/她可能会咨询有类似症状和该专家曾治疗过的朋友的意见。通过建议类似患者，提供商和医生会更快完成工作，使其能够基于特定患者的医治情况查看更多信息以及可以利用技术改进其患者的护理，同时还有助于更广泛地改善患者护理。另一方面，患者将更快速地获取有用信息，可方便输入各自病情、症状、治疗和整个经历的定性和定量数据。

稀疏性和高维数

为某特定患者生成支持信息时，希望获取大量数据，以了解分布或决定规则。尽管EMR(电子病例)维护的患者诊断和其它化验室检验很有用，但对其逐一对比来查找相似性会很麻烦。另一方面，临床和医学观察值可能是高维数的。如果有x个维度(或特征)，每种维度都有y水平，那么将会存在y^x总数据。从诊断报告收集的数据数量通常远未达到“足够”，该数据稀疏也被称作“维数灾难”。

协作过滤或建议系统有两块绊脚石：高维数数据和稀疏。从EMR检索的数据样本可能有高维数特征，其包含非基因组信息(年龄和病理结果)和基因组数据，通常涉及基因变异的成千上万种特征。已开发PCA实现大型离散数据采集的有效处理。

PCA(PrincipalComponentAnalysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

建议系统的一个主要任务是基于用户资料生成项目顺序表。但由于与预测准确度驱动相冲突，因此还开发了多样性、新颖性和意外发现等概念。由于人的期望受到各种因素驱动，相信划分过细的系统将在观点的自我增强循环中使用户陷入困扰，降低发现替代类型或观点的可能性。因此，为了处理意外发现，本发明加入了开发高维数医学数据的框架，该框架可实现帮助用户查找经过排序的建议结果的目标，用于查找意外发现。

如图1所示，本发明实施例的一种基于协同过滤和建议的个性化医学决定支持系统，包括病历原数据库、定义目标检索模块104、建议和检索过滤系统105；

病历原数据库包含患者的治疗史文件101、个人电子病例文件102、其他相关文件103，治疗史文件101、个人电子病例文件102、其他相关文件103组成高维数特征数据；

定义目标检索模块104用于通过数据清理将病历原数据库中的数据生成患者特征矩阵并转化为检索特征矩阵，传递给建议和检索过滤系统；

建议和检索过滤系统105将检索特征矩阵进行降维后，创建建议优先顺序表，用于根据选择和设计治疗特定疾病，参考其他类似患者用于治疗副作用研究和/或其它目的。

图1为在个性化医学决定支持系统中应用建议系统的示意图。该图呈现了三种典型场景，101、102和103框表示可以应用建议系统的三个领域。可以从如101框所示的1)-治疗史、从如102框所示的2)-包括病理和基因组测试结果等在内的患者个人病历、从103框所示的3)-其它相关文件检索中检索更多信息，用于搜索更多类似性，根据储存在我们的抗癌药物数据库中的基因组学和药物基因组学数据，使用药物响应对那些特征进行完善。如103框中的环境条件、微生物特征等其它信息也被考虑在内。第1个过程涉及到特征选择。为了将诊断发现转化为临床实践，必须确定关键特征。在104框中定义我们只感兴趣的目标检索对象。可通过数据清理生成患者特征矩阵并转化为矩阵，该矩阵被作为105框的输入，本实施例将105框称作建议和检索过滤系统。105框的输出为建议优先顺序表，可用于选择和设计治疗特定疾病(107框)，参考其他类似患者用于治疗副作用研究(108框)和/或其它目的(109框)。

在示范性实施例中，我们介绍了查找与患有非小细胞肺癌(NSCLC)疾病的目标患者(在本实施例中也被称作“检索对象”)有类似特征的患者的系统。本模型使用的数据包括病理和基因组测试结果。病理信息包括患者年龄、吸烟史、癌症分期和家族病史等。对于基因组特征，我们主要考虑患者的基因组测序结果，从基因检测获取的信息在疾病诊断、风险评估和潜在药物响应评估领域有广泛应用，因此可用于为给定患者人群模拟不同治疗方案和优化治疗进度。病理和基因组特征都只是疾病证据，但诊断证据和疾病之间的关联经常并不清晰。很多疾病为多基因性的，很多疾病具有类似症状，因此我们将收集尽可能多的信息，最终特征维数可能超过千位数。

本专利的过程示例如图2所示。从病历原数据库(201框)中检索患者的病理和基因组信息，将其分类为不同文件(202框)。在203框中进行数据收集和预处理，估算丢失的数据和废弃冗余信息，在图3中讨论其详情。然后设计203框的输出，生成建议系统后续培训和测试的特征集，如204框所示。领域知识对于确定和/或创建关键特征很关键，详情过程将在后续图4中说明。在204框中进行特征设计后，可在205框中生成检索对象特征矩阵。在该矩阵中，每个检索对象都代表一位患者，此处的特征指病理和基因组特征。我们已经注意到经常会遇到高维数特征空间中所描述的数据样本：特征数通常成千上万，因为测试的基因变异通常涉及成千上万个位置，这是很常见的。为了克服此类维数负担和能够有效收集大型数据，已经有许多计算机实施过程和特征公开发表，例如PCA等降维技术。在本发明中，206框中的1个过程涉及使用PCA处理稀疏数据和获取有用信息。在207框中，将执行检测步骤，以提高计算时间效率：如果数据集过大，将执行更多过程，形成208框所示的项目群集或邻居，其中的用户有更多相似性或爱好，这些群集用于降低后续搜索成本。207框的输出被称作“低维数据”，其被输送至209框。在210框中，使用成对关联计算呈现患者之间的相似性，将结果用于判定目标检索对象(患者)的类似患者顺序表。最后，在211框中通过相关/相似性得分的顺序表提供建议。

图3对图2所示的203框的数据收集和预处理进行了说明。数据收集和预处理的第一步是确定疾病模型，其如301框所示。不同疾病有影响治疗计划的不同关键因素。通过选取疾病模型，可以得出包括病理和基因组在内的一组关键特征。在本实施例中，我们使用NSCLC作为疾病模型。利用从疾病模型确定的关键因素，在302框中从EMR和其它文件中检索相关数据。该检索包括对来自相关数据库的数据进行反规范化，如303框所示。然后在304框中重新收集数据和进行分类。在305框中进行必要的格式化和清理。然后数据即可用于306框中的特征设计，该框与图2中的204框相连。

特征设计是成功开发决定系统或任何预测模型的关键因素之一。本实施例的详细特征设计过程如图4所示。在401框中的第一步，我们需要理解任务和源数据，从而过滤有用信息；因此在402框中，可以删除或合并不需要和冗余的特征。我们使用列表数据，这意味着要对现有特征进行聚集、组合和分解等混合处理，以形成403框所示的新特征。形成新特征的具体过程如404框所示，其包括：将分类数据分解为数值数据、组合现有特征、将特征转化为相关数据、提取特征和将外部资源加入新特征中。405框所示的外部资源包括特征相关的某些附加信息，有的可用于确定某些特征的重要性，因此可用于指定不同特征的权重。根据从抗癌药物基因组学研究得出的结论，癌症基因组变异可严重影响抗癌疗法的临床响应。因此，在本实施例的示例中，我们依据以下量度加入各基因组变异的药物响应作为权重系数：

5＝非常灵敏，该基因变异是抗癌药物的良好靶标；

4＝灵敏，该基因变异可作为抗癌药物的靶标；

0＝无药物响应信息；

-2＝抗药性，该基因变异会导致对临床药物产生抗药性；

-4＝强抗药性，该基因变异会导致对临床药物产生强抗药性，可能导致严重副作用。

在406框中的许多特征设计过程中，为了更好地显示数据结构，需要重新构建若干数值量。例如，如407框所述，使用一些有用的技术进行重新构建，包括二值化和离散化。在图4所示的408框中最终生成特征集，然后将其处理为与图2中的205框连接。

特征设计完成后，最重要的程序是培训和测试建议系统，如图5所示。在501框中，根据拟定的临床问题将以前的设计特征进行分类和安排。在502框中，使用建议系统模型返回类似患者列表，从而查询他们的相关信息(包括药物治疗史)和文件。在503框中，对建议系统的输出进行严格评估和检查。在504框中，将建议系统推广至若干测试病情，但使用时务必要小心。利用信息过滤和检索，用户可输入信息要求，系统通过识别与检索对象相关的信息来源提供响应。在505框中，根据预测能力、方法对建议系统进行评估，包括计算其预测准确度，将使用均方根误差(RMSE)法。如果测试结果可接受，如506框所示，将接受和使用该模型；相反，如果结果不可接受，如507框所示，将拒绝该模型并根据反馈重新循环响应，以改进建议系统性能。

如图6所示，网络服务器601根据从611的构件和612的EMR获取的目标患者611的风险因素为其建议类似患者。只有构件611才有患者的基本信息，包括年龄、疾病名称、性别等。构件612是指从611患者的EMR中提取的病理和基因组风险因素。在NSCLC中，病理风险因素是肿瘤期、吸烟史和家族病史等；基因组风险因素包括一些主要基因类别，其变异会明显导致NSCLC非小细胞(型)肺癌，包括EGFR表皮生长因子受体、BRAF、ALK自动薄层角膜切除术和KRAS等变异。类似地，还根据结构对数据库中的患者进行分类，其包括：1)基本资料，如621、631和641构件所示，2)从EMR和其它临床文件中提取的风险因素，如622、632和642构件所示。经过协作过滤和相似性计算后，为选择的每位患者分配目标患者建议值(611构件)，该建议值分别如623、633和643构件所示，其分别对应于621、631和641构件所示的所选患者。相关查询和当前建议的最终优先级得分如623、633和643构件所示，其中623表示621和611之间的相似性非常高(两个“翘拇指”)，因此621患者的治疗史将为制定611患者治疗方案提供有用的参考；相反，643构件(1个“向下拇指”)表示构件641所指患者与目标检索对象/患者611的相似性极低，并相应建议；同时也为肿瘤专家提供了一个挖掘意外发现的机会，正如许多参考文献已经广泛讨论的，这将拓宽药物发现范围。类似地，631构件所指的患者与目标患者有一定相似性，因此得到一个“翘拇指”。

本发明其旨在支持肿瘤专家在各个决定结点选择最佳的治疗方案(如本实施例后续描述的示例，我们聚焦于从数据库中发现有非小细胞肺癌的类似患者并为肿瘤专家建议此类信息)。本专利基于特定用户(此处称作“目标患者或检索对象”)的多种临床资料提供检索类似患者病例的方法。下面将介绍几种计算机实现的过程。这些过程可体现在建议引擎中，用于过滤信息和生成个性化建议。在基于用户的遗传信息和EMR为其建议个性化医学决定计划的系统环境下描述这些过程。还可以使用这些公开的过程建议其它类型的信息，这些公开流程可能不需要作为数据库或网站的一部分进行实施或与其组合实施。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于协同过滤和建议的个性化医学决定支持系统，其特征在于：包括病历原数据库、定义目标检索模块、建议和检索过滤系统；

2.如权利要求1所述的一种基于协同过滤和建议的个性化医学决定支持系统，其特征在于：所述个人电子病例文件包括每个患者的病例、病理信息和基因组特征信息，所述病理信息至少包括患者年龄、吸烟史、癌症分期和家族病史；所述基因组特征信息还包括基因组测序结果，用于为给定患者人群模拟不同治疗方案和优化治疗进度。

3.如权利要求1所述的一种基于协同过滤和建议的个性化医学决定支持系统，其特征在于：所述其他相关文件至少包括抗癌药物数据库中的基因组学和药物基因组学数据、环境条件、微生物特征，用于搜索更多类似性案例，完善药物对特征数据的响应。

4.如权利要求1所述的一种基于协同过滤和建议的个性化医学决定支持系统，其特征在于：所述定义目标检索模块的工作步骤如下：