CN106934235A

CN106934235A - 一种基于迁移学习的疾病领域间病人相似性度量迁移系统

Info

Publication number: CN106934235A
Application number: CN201710136858.4A
Authority: CN
Inventors: 刘杰; 倪嘉志; 马志柔; 吴怀林; 叶丹
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2017-07-07
Anticipated expiration: 2037-03-09
Also published as: CN106934235B

Abstract

本发明一种基于迁移学习的疾病领域间病人相似性度量迁移系统，属于计算机人工智能软件技术领域。本发明系统通过构建数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块、相似性度量迁移子模块四个子模块，完成疾病领域内病人相似性的度量和疾病领域间病人相似性的迁移。本发明目的在于克服在监督信息获取困难和特定疾病领域病人样本数量稀少的情况下传统度量学习无法有效工作的问题。此系统可以为当前精准医疗场景提供服务支持。

Description

一种基于迁移学习的疾病领域间病人相似性度量迁移系统

技术领域

本发明涉及一种基于迁移学习的疾病领域间病人相似性度量系统，属于计算机人工智能软件技术领域。

背景技术

随着医疗卫生服务的信息化进程推进，医院、体检中心等大型医疗机构产生了大量的医疗电子健康记录。数据内容主要来自医院的电子病历、区域卫生信息平台采集的居民健康档案等，包含大量非结构化/半结构化的数据。如何通过病人门诊、住院、用药及健康等相关数据给出具有临床意义的病人间相似度度量，是在临床决策支持和病人群体识别研究中的一个重要任务。基于病人相似度的案例查询可以成为医生的技术补充，医生根据此项技术可以对病人进行初步诊断，病人相似度还可以应用在病人群体识别及病人风险分级等诸多领域。

如何获得合适的病人相似度成了病人相似性度量系统的关键性问题，较早期的病人相似性度量系统是利用已知的度量公式来直接对系统中的病人向量进行相似性度量，例如使用欧氏距离、余弦相似度、皮尔逊相关系数等方法在向量上直接运算。采用这种方式的病人相似性度量系统因为不需要训练过程，在处理速度上相对于采用度量学习方法的系统会有很大程度的提高；但在计算准确度上也相应的会有一定的差距。

相对于上述利用公式直接计算的病人相似性度量系统，目前在医疗领域应用比较广泛的是利用度量学习的病人相似性度量系统，系统中将病人相似度问题转化成有监督的距离度量学习问题，从而合理利用医疗专家的反馈信息。Wang Fei等人提出了基于局部监督信息的病人相似度学习LSML算法(参见文献：J.Sun,F.Wang,J.Hu,Supervised patientsimilarity measure of heterogeneous patient records,ACM SIGKDD,2012,16–24)，该算法利用医疗专家对病人所打的标签作为监督信息，通过比较标签是否相等，来识别出以某个病人为中心的一定范围内的同构邻居和异构邻居，再通过拉近(pull)同构邻居，推远(push)异构邻居来学习出一种泛化的Mahalanobis距离。从局部进行计算的LSML算法是目前病人相似性度量领域准确率最高的算法，IBM Watson研究院也基于此算法开发出了一套基于病人相似性度量的辅助诊疗检索系统，通过查询相似病人，方便医生根据相似的病人进行诊断。

由于深度学习技术日趋成熟，各领域开始利用深度学习来试图取得更好的效果。目前在医疗领域，利用深度度量学习方法的病人相似性度量系统也取得了更高的准确率。相比于传统的度量学习，在利用深度度量学习的系统中病人向量不再被直接使用，而是利用自动编码机或卷积神经网络对向量进行进一步低维度处理，再在低维度空间中优化系统定义的损失函数，最终将得到的病人相似度提供给医生使用。当然，基于深度度量学习的系统在取得高准确度的同时，它的计算成本也会大大提高，所以系统对应的计算速度较前两类系统有着一定的差距。

上述三类的病人相似性度量系统可以在特定疾病领域中取得不错的效果，根据实际医疗需求在计算速度和准确度两方面来进行选择合适的系统构建方案，但是三类系统在医疗领域仍然存在以下两个共性的问题：

(1)病人相似性度量系统中病人监督信息的获取十分困难，这个过程需要领域专家人工地对病人进行判断，同时收集整理这些专家信息的操作也是一个耗时耗力的过程；

(2)在某些特殊疾病领域，病人样本的数量十分有限，无法有效利用现有系统中的方法得到病人样本集中的度量信息，这就直接导致了该疾病领域在病人相似性度量系统中是一个“灰色领域”，无法被使用和研究；

在医疗领域，上述两个局限性极大程度的限制了病人相似性度量系统的使用，因为缺少病人样本的未知疾病领域是医疗上的重点研究领域，但已有的几类系统都无法在这种特殊领域中取得好的效果，甚至无法进行学习或计算。显然，这样的病人相似性度量系统在当前的医疗大数据环境下是不可以接受的，而利用迁移学习技术可以有效的解决这类问题，通过迁移相关的已知疾病领域知识到目标疾病领域(未知疾病领域)上，完成系统在未知疾病领域上度量的计算。

目前在许多领域中，迁移学习技术的应用系统已经被成功开发，例如图像识别领域成功地通过迁移相关类别照片包含的知识来识别目标领域的照片内容。但在医疗领域中尚未开发出基于迁移学习的应用系统，所以本发明基于迁移学习的病人相似性度量系统可以有效解决当前系统中主要存在的两点问题。

发明内容

本发明的目的在于：克服在监督信息获取困难和特定疾病领域病人样本数量稀少的情况下已有的三类病人相似性度量系统无法有效工作的问题，提供一种能够将已知的源疾病领域中的度量迁移到目标疾病领域中的病人相似性度量系统，从而保证了对目标疾病领域中病人情况研究的顺利开展。

本发明技术解决方案：一种基于迁移学习的疾病领域间病人相似性度量迁移系统，包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块；

数据预处理子模块，完成病人健康数据预处理任务；从医院数据库得到病人的四类信息数据，所述四类信息数据为病人基本信息、用药信息、化验信息和诊断信息数据，将上述四类信息数据分别进行数据清洗、医疗规则检验、标准化、向量化处理，得到病人特征向量矩阵，为相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块提供支持；

相似性度量评价子模块，完成病人间相似性的评价任务；根据数据预处理子模块得到的病人特征向量矩阵，抽取所述矩阵中关于诊断信息的ICD10疾病编码，利用Jaccard系数来评价病人间的相似性，得到病人间相似性的评价结果，作为监督信息为相似性度量学习子模块和相似性迁移学习子模块提供支持；

相似性度量学习子模块，完成疾病领域内病人相似性的度量工作；将从数据预处理子模块和相似性度量评价子模块分别得到的病人特征向量矩阵和病人间相似性的评价结果，利用度量学习模型处理，得到疾病领域内的度量矩阵，为相似性迁移学习子模块提供支持；

相似性迁移学习子模块，完成疾病领域间病人相似性的迁移工作；根据预处理子模块得到的病人特征向量矩阵、相似性度量评价子模块得到的病人间相似性的评价结果和度量学习子模块得到的疾病领域内的度量矩阵，经过迁移学习模型处理，得到病人计算相似度适用的度量矩阵，完成在疾病领域间的病人相似性迁移工作。

所述数据预处理子模块具体实现过程如下：

(1)病人健康数据的数据清洗过程，是将数据中的缺失值、异常值、不一致值数据找到并进行相应的处理，丢弃缺失值、异常值、不一致值数据；

(2)在清洗后的数据上进行医疗规则检验，即查看数据是否满足规定的医疗数据结构标准，若不满足需要增补相应字段，转至步骤(1)；否则转至步骤(3)；

(3)经步骤(1)、(2)处理后的数据进行数据标准化操作，即对病人基本信息、用药信息、化验信息和诊断信息数据中的字段进行特征组合、离散化、归一化处理，转至步骤(4)；所述病人基本信息中主要包含性别、年龄、民族、血型四类特征；病人用药信息中主要包含用药种类、用药时间、用药剂量三类特征的组合；病人化验信息中主要包含化验类别、化验部位、化验结果三类特征的组合；病人诊断信息中主要包含ICD10疾病编码，并将该编码作为两个学习子模块的监督信息；

(4)将标准化后的病人健康数据根据病人唯一ID(身份证号)进行合并，整理得到病人特征向量矩阵。

所述相似性度量评价子模块具体实现过程如下：

(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息相关的病人ICD10疾病编码提取出来，构成病人唯一ID(身份证号)与其ICD10疾病编码序列的对应数组；

(2)处理每位病人的ICD10疾病编码序列，截取编码前n位作为病人诊断标签，对该病人的标签进行去重操作；

(3)在步骤(2)输出的病人标签基础上，利用公式(1)计算两两病人间相似度，得到病人相似度监督信息；

其中，y_a和y_b分别表示病人a和b的标签。

所述相似性度量学习子模块具体实现过程如下：

(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息无关的部分提取出来，构成新的病人特征向量矩阵，转至步骤(2)；

(2)计算新病人特征向量矩阵协方差矩阵作为病人度量矩阵的初始化值；

(3)通过病人度量矩阵计算每个病人的n个同构和异构邻居，通过监督信息计算所有病人同构邻居和异构邻居的距离误差值，进而得到平均距离误差；

(4)若平均距离误差值低于给定阈值，则说明满足了最大化间隔要求，转至步骤(6)；否则，转至步骤(5)；

(5)找到不满足条件的同构或异构邻居，使用梯度下降的方法更新度量矩阵中对应的参数值，转至步骤(3)；

(6)输出该疾病领域内病人度量矩阵Σ。

所述相似性迁移学习子模块具体实现过程如下：

(1)根据相似性度量学习子模块获取各个源疾病领域的度量矩阵∑_i,并将这些度量矩阵进行向量化表示，向量化结果为

(2)根据疾病领域数量构造领域间关系矩阵Ω，并满足约束tr(Ω)＝1；使用目标疾病领域病人特征向量矩阵的协方差矩阵初始化目标疾病领域病人度量矩阵∑_m；

(3)判断专家是否给出目标疾病领域病人相似性监督信息，若给出则使用PSM矩阵计算监督信息；否则使用病人诊断标签计算监督信息；

(4)根据Ω、∑_m等参数计算目标函数值(公式2)，若目标函数误差高于给定阈值则转至步骤(5)；否则转至步骤(6)；

(5)通过坐标下降交替优化的方式更新Ω、∑_m参数值，转至步骤(4)；

(6)输出目标疾病领域内病人度量矩阵∑_m；

Ω≥0

tr(Ω)＝1

其中，度量矩阵∑不需要满足半正定约束；代表判断目标领域中j和k两个病人的相似性；PSM代表专家评估矩阵，若病人p_j,p_k是专家进行评估的，则使用e()函数根据阈值判断两个病人相似与否，否则使用o()函数根据两病人的诊断信息来判断两个病人相似与否；是将所有领域的度量矩阵向量化表示；约束tr(Ω)≥1是为了保证疾病领域间关系矩阵的规模，以防止迁移学习算法得到退化解。

本发明与现有技术相比的优点在于：

(1)本发明解决了病人监督信息获取困难的问题，一方面通过评价子模块利用诊断信息作为监督信息，另一方面通过迁移学习子模块将已有专家监督信息进行迁移使用；

(2)本发明解决了原有系统在某些病人样本的数量有限的特殊疾病领域，无法有效得到病人度量信息的问题，使得对这类医疗“灰色领域”的研究成为可能；

(3)本发明有效的集成了现有系统的功能，这些功能通过迁移学习子模块可以更大限度的在医疗领域发挥作用。

总之，本发明中利用TML算法构建的病人相似性迁移学习子模块有效地与目前现有系统中的典型度量计算公式和LSML度量学习算法进行集成，使得病人相似性度量系统在医疗领域中完成了很多以前不可完成的研究工作，在系统工作功能性提升的同时，系统整体的工作效率也得到保持。

附图说明

图1为本发明系统架构图；

图2为本发明中相似性度量学习模型算法示意图；

图3为本发明中相似性度量学习子模块执行流程图；

图4为本发明中相似度疾病领域间迁移学习模型算法示意图；

图5为本发明中相似性迁移学习子模块执行流程图。

具体实施方式

以下结合具体实施例和附图对本发明进行详细说明。

本发明提出了一种基于迁移学习的疾病领域间病人相似性度量迁移系统，结合医疗领域的实际情况形成了一套在医疗领域适用且完整的医疗知识迁移的应用系统，其系统架构图如图1所示，图中说明了该系统在标准的病人健康数据上，利用度量学习子模块和迁移学习子模块完成病人健康数据相似度计算，进而应用于各个医疗场景，本发明会提供在相似度计算过程中各个过程的调用接口，最后在应用层，实现病人检索、病人聚类、用药推荐、疾病诊断预测等应用。

本发明实例以Java语言作为系统的主要开发语言，利用SpringMVC框架构建整个病人相似性度量系统；以R语言为算法编程语言，其中使用了机器学习包Caret；以Python语言作为数据预处理语言，单独构成数据预处理子模块；以多家三甲医院的住院数据分析作为应用场景；以缺血性心脏病领域和脑血管疾病领域作为本发明系统的实验性医疗疾病领域。

下面具体阐述每个子模块：

1、数据预处理子模块

数据预处理子模块中采取基于向量的方法对病人进行建模，将病人多次住院记录合并，对同一指征在多次住院记录中的值进行统计，主要通过其基本信息，用药信息，化验信息，诊断信息来提取特征表示该病人，具体描述如表1所示。

表1.数据预处理子模块病人特征说明

通常病人的原始医疗健康信息中的各种指征无法直接应用于特征向量，例如，红细胞是化验数据中的原始指征，不同的化验样本中红细胞就带有了不同的医疗信息且度量标准也不相同，血液样本中，需要检测血细胞浓度；而尿液样本中，只需检测血细胞出现与否。因此，原始指征红细胞无法作为单独的特征，需要与不同的样本结合。

该子模块针对不同特征的数据类型，采取不同的方式来记录其值。对于静态特征，如年龄，性别，种族等，用固定的值或编码来表示；对于时序的离散特征，比如血细胞在尿液样本中出现与否，对其进行统计计数；对于时序的数值特征，如血细胞在血液样本中的浓度，采用其统计值(平均值，方差，中位数，最大最小值)来表示。

该模块中数据清洗是指将病人健康数据中的空数据、异常值等数据进行处理；医疗规则检验是指对数据进行医疗数据结构标准化判定，因为本系统需要病人的数据满足相应的卫生信息标准，否则无法使用；数据标准化是指将数据按照统一的量纲处理，通过离散化、归一化等方式将数据转化为可以向量化的数据形式；向量化是指将上述的数据整理得到病人特征向量矩阵的过程。

数据预处理子模块具体过程如下：

(1)病人健康数据的数据清洗过程，主要是将数据中的缺失值、异常值、不一致值等数据找到并进行相应的处理，通常可以在后续步骤中丢弃这些数据，转至步骤(2)；

(2)在清洗后的数据上进行医疗规则的检验，即查看该数据是否满足本系统规定的医疗数据结构标准，若不满足需要增补相应字段，转至步骤(1)；否则转至步骤(3)；

(3)经步骤1、2处理后的数据可以进行数据标准化操作，主要是对系统规定的各信息表中的字段进行特征组合、离散化、归一化处理(具体字段见表1)，转至步骤(4)；

(4)将标准化后的病人健康数据根据病人唯一ID(身份证号)进行合并，整理得到该子模块最终输出结果病人特征向量矩阵，结束该模块工作。

2、相似性度量评价子模块

相似性度量评价子模块主要输出病人间的相似性监督信息，其中由两部分组成，一部分来自专家给出的评估结果(PSM矩阵)，另一部分来自根据诊断信息计算得到的病人相似度。前者就是对专家给出的结果的整理，这里对后者的计算方法进行详细说明。

病人健康数据中，诊断信息往往出现多次，即一个病人对应多种诊断。按照规范，诊断信息通常使用ICD10对疾病进行编码，该编码是唯一关于健康与疾病的诊断分类国际标准。ICD10疾病编码用英文字母加数字编码的形式，目前共有2036个类目，本发明系统中本发明中采用前3位ICD10疾病编码对病人进行细分类，并使用I2(缺血性心脏病)和I6(脑血管疾病)这两个疾病领域完成系统的实验。令C表示ICD10疾病编码全集。y_a和y_b分别表示病人a和b的标签，并且做出如公式1的假设。

由公式(1)看出，病人相似比较的复杂性不是单个标签就可以概括的，也无法简单的通过比较标签的相等性作为相似与否的先验条件，因为这丢失了病人的相似程度的重要信息；在病人更复杂的诊断标签信息表示下，可以计算病人标签的相似程度作为另外两个学习子模块的监督信息。评价模型在上述表示形式的标签下，采用如公式2所示的Jaccard系数来计算得到疾病领域内病人的相似度监督信息。

相似性度量评价子模块具体过程如下：

(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息相关的病人ICD10疾病编码提取出来，构成病人唯一ID(身份证号)与其ICD10疾病编码序列的对应数组，转至步骤(2)；

(2)处理每位病人的ICD10疾病编码序列，截取编码前n位作为病人诊断标签，对该病人的标签进行去重操作，转至步骤(3)；

(3)在步骤(2)输出的病人标签基础上，利用公式(2)计算两两病人间相似度，该子模块输出病人相似度监督信息，结束该模块工作。

3、相似性度量学习子模块

相似性度量学习子模块输出了各个疾病领域内病人相似性度量矩阵，为了在疾病领域得到精准的度量矩阵，摒弃无用的参数，本发明选用了度量学习领域内目前准确率最高的有监督的距离度量学习LSML算法来构建本模块中的度量学习模型，其中的算法思路见图2。在判断病人的邻居性质时候引入相似性度量评价子模块输出的病人间相似度作为监督信息，通过该模型来估计源疾病领域度量。相似性度量学习子模块的执行流程见图3。

该子模块中的病人度量学习模型在对原始病人向量做线性映射后，原始病人向量被映射到新的空间，在新空间上计算欧式距离，可以得到病人间新的距离度量，该度量可以表示为：

其中Σ是半正定矩阵，公式(3)是泛化的Mahalanobis度量。令来表示病人集合的特征矩阵；Y＝[y₁,y₂...y_n]^T来表示相应病人的疾病标签，其中表示病人对应的标签集合，需要强调的是y本身也是一个集合；PSM(PatientSimilarity Matirx)是一个n×n的矩阵，用于表示专家评估出的每两个病人间的相似度。该子模块的学习目标是学习出如公式(3)所示的泛化度量，定义1和定义2给出了同构邻居和异构邻居的定义

定义1同构邻居是与具有相同标签的、最近的个邻居。

定义2异构邻居是与不具有任何相同标签的、最近的个邻居。

在本发明实现过程中可以结合实际医疗领域数据对LSML算法进行相应的改进，主要是针对医疗领域中的病人相似性的监督信息，做出多个间隔的调整，而不是模型本身的同构异构邻居间的单个间隔，另外对原算法中矩阵求解的方法使用梯度下降的方式进行求解。如图2所示，该图中给出的是单个间隔情况下的算法示意图，在训练过程中对于某一个病人，将同构邻居拉近，将异构邻居推远，从而学习出一个间隔。在实际医疗场景中，可以使用多个间隔来代替单个间隔，相应的病人邻居的种类也会增多，采用间隔的数量可以通过实验来进行选择。

如图3所示，该图说明了度量学习子模块的执行流程，该模块首先从数据预处理子模块中得到病人特征向量矩阵，并利用通过其求解协方差矩阵得到病人度量矩阵的初始化值，通过识别同构和异构邻居来产生针对每个病人的间隔，通过不断迭代找到满足最大间隔的度量矩阵，最终输出该疾病领域内的度量矩阵。

如图3所示，相似性度量学习子模块具体过程如下：

(2)计算新病人特征向量矩阵协方差矩阵作为病人度量矩阵的初始化值，转至步骤(3)；

(3)通过病人度量矩阵计算每个病人的n个同构和异构邻居，通过监督信息计算所有病人同构邻居和异构邻居的距离误差值，进而得到平均距离误差，转至步骤(4)；

(4)若误差值低于给定阈值，则说明满足了最大化间隔要求，转至步骤(6)；否则，转至步骤(5)；

(6)输出该疾病领域内病人度量矩阵Σ。

4、相似性迁移学习子模块

相似性迁移学习子模块是本发明的核心内容，它基于TML算法(参见文献：ZhangY,Yeung D-Y，Transfer metric learning by learning task relationships.In:Proceedings of the 18th ACM SIGKDD conference on knowledge discovery and datamining,pp 1199–1207)构建了病人相似性度量迁移学习模型，结合源疾病领域度量矩阵和目标疾病领域已有数据，通过完成对领域间关联矩阵的不断更新，输出了病人样本有限的特殊疾病领域内的度量矩阵，该模型的算法示意图见图4。本模块最后所求的目标即为使目标函数(公式4)最小化的参数。在解决最优化问题时，本发明使用Stanford提供的CVX开源工具包来直接解决此问题。首先，对在医疗领域中迁移度量学习的几个基本概念进行定义。

定义3任务：记作T，表示医疗领域中某个特定的疾病领域。设有m个学习任务对第i个任务T_i，其训练集合D_i由n_i个病人构成，该任务中第j个病人表示为其中病人对应的疾病标签上标表示任务索引，下标表示任务中的病人索引，m表示任务数量。

定义4源任务：记作S，表示已知疾病领域，也称为源领域。

定义5目标任务：记作Tar，Tar＝T_m表示待计算疾病领域，也称为目标领域。

定义6度量矩阵：记作Σ，它是方阵，Σ_i表示从任务T_i学习得到的度量矩阵，其维度与病人的特征数目有关。

基于上述定义，迁移学习模型是从源任务S中获取度量矩阵∑，将其作为知识迁移到目标任务中得到目标任务Tar度量矩阵Σ_m的学习过程，根据度量学习模型可以在源疾病领域利用监督信息获得源领域的度量矩阵集合结合目标领域的数据P_m求得目标领域合适的度量矩阵∑_m。根据医疗领域的实际规则，引入疾病领域间的关系矩阵Ω即可完成源疾病领域的度量矩阵到目标疾病领域的迁移，引入Ω需要相关的任务独立和新问题满足凸函数定义，引入Ω后的最优化目标如公式(4)所示。

Ω≥0

tr(Ω)＝1

其中，度量矩阵∑不需要满足半正定约束，因为在上述的度量学习模型中得到的度量矩阵必然满足此条件；代表判断目标领域中j和k两个病人的相似性，PSM代表专家评估矩阵，若病人p_j,p_k是专家进行评估的，则使用e()函数根据阈值判断两个病人相似与否，否则使用o()函数根据两病人的诊断信息来判断两个病人相似与否；是将所有领域的度量矩阵向量化表示；约束tr(Ω)＝1是为了保证疾病领域间关系矩阵的规模，以防止迁移学习算法得到退化解。通过优化公式(4)可以得到全局最优解Σ_m，即目标疾病领域的度量方式。相似性度量迁移学习模型的执行流程见图5。

如图4所示，该图给出了疾病领域间迁移学习模型算法的示意图，通过度量学习子模块得到各个源疾病领域的度量矩阵，结合目标疾病领域的病例数据来学习得到目标领域的度量矩阵，在学习过程中以公式(4)作为该模型最终的求解目标。

如图5所示，说明了病人相似性迁移学习子模块的执行流程，该模块首先将度量学习子模块输出的各个疾病领域的度量矩阵进行向量化表示，再构造出疾病领域间关系矩阵，通过不断计算目标领域内病人间的相似度来找到满足公式4的最优解，即得到合适的疾病领域间关系矩阵和目标疾病领域度量矩阵。

如图5所示，相似性迁移学习子模块具体实现如下：

(1)根据相似性度量学习子模块获取各个源疾病领域的度量矩阵∑_i,并将这些度量矩阵进行向量化表示，向量化结果为转至步骤(2)；

(2)根据疾病领域数量构造领域间关系矩阵Ω，并满足约束tr(Ω)＝1；使用目标疾病领域病人特征向量矩阵的协方差矩阵初始化目标疾病领域病人度量矩阵∑_m，转至步骤(3)；

(3)判断专家是否给出目标疾病领域病人相似性监督信息，若给出则使用PSM矩阵计算监督信息；否则使用病人诊断标签计算监督信息，转至步骤(4)；

(4)根据Ω、∑_m等参数计算目标函数值(公式4)，若目标函数误差高于给定阈值则转至步骤(5)；否则转至步骤(6)；

(5)通过坐标下降交替优化的方式更新Ω、∑_m参数值(具体优化算法可以利用CVX开源工具包实现)，转至步骤(4)；

(6)输出目标疾病领域内病人度量矩阵∑_m。

为验证本发明系统迁移学习子模块的有效性，利用缺血性心脏病和脑血管病这两个疾病领域进行对比实验。实验中使用缺血性心脏病作为源疾病领域，脑血管病作为目标疾病领域，通过不断增加目标领域训练集规模来对比基于迁移学习、传统度量公式和度量学习的病人相似性度量系统的准确度。另外，实验中的直接迁移度量方法是指直接将源疾病领域的度量用于目标疾病领域，中间不经过学习过程，主要是为了与基于迁移学习子模块作对比；基于传统度量公式和度量学习的病人相似性度量系统的实验准确率不涉及源疾病领域，只与目标疾病领域有关。表2给出了各系统的准确率指标。

表2.病人相似性迁移学习子模块实验结果

从表2中可以看出，当目标疾病领域的数据量较小时，现有系统所提供的功能不能得到较好的准确率，而本发明基于迁移学习的病人相似度系统可以保证较高的准确率，准确率相对提高12.4％。随着目标领域训练数据量的增加，基于迁移学习的病人相似性度量系统准确率在逐渐上升，而直接迁移方法的准确率与领域间的关系直接相关，而无法通过目标领域的数据进行学习，所以这种方法因为其表现不稳定而受限。现实生活中，医生通常的做法就符合直接迁移的规律，迁移的好坏取决于医生的经验。直接迁移方法准确率较PSL算法相差2.73％，说明通过目标领域的病人健康数据与源疾病领域的度量结合学习的方式具有更高的准确率和稳定性。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于迁移学习的疾病领域间病人相似性度量迁移系统，其特征在于：包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块；

2.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统，其特征在于：所述数据预处理子模块具体实现过程如下：

(3)经步骤(1)、(2)处理后的数据进行数据标准化操作，即对病人基本信息、用药信息、化验信息和诊断信息数据中的字段进行特征组合、离散化、归一化处理，转至步骤(4)；所述病人基本信息包含性别、年龄、民族、血型四类特征；病人用药信息包含用药种类、用药时间、用药剂量三类特征的组合；病人化验信息包含化验类别、化验部位、化验结果三类特征的组合；病人诊断信息包含ICD10疾病编码，并将该编码作为两个学习子模块的监督信息；

(4)将标准化后的病人健康数据根据病人唯一身份证号ID进行合并，整理得到病人特征向量矩阵。

3.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统，其特征在于：所述相似性度量评价子模块具体实现过程如下：

(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息相关的病人ICD10疾病编码提取出来，构成病人唯一身份证号ID与其ICD10疾病编码序列的对应数组；

J a c c a r d (y_{a}, y_{b}) = \frac{| y_{a} \cap y_{b} |}{| y_{a} \cup y_{b} |} - - - (1)

其中，y_a和y_b分别表示病人a和b的标签。

4.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统，其特征在于：所述相似性度量学习子模块具体实现过程如下：

(6)输出该疾病领域内病人度量矩阵Σ。

5.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统，其特征在于：所述相似性迁移学习子模块具体实现过程如下：

(6)输出目标疾病领域内病人度量矩阵∑_m；

\underset{Ω, Σ_{m}}{m i n} \frac{2}{n_{m} (n_{m} - 1)} Σ_{j < k} g (y_{j, k}^{m} [1 - | | {\overset{&RightArrow;}{p}}_{i} - {\overset{&RightArrow;}{p}}_{j} | |_{Σ_{m}}^{2}]) + λ | | Σ_{m} | |_{F}^{2} + λ_{2} t r (\tilde{Σ} Ω^{- 1} {\tilde{Σ}}^{T}) - - - (2)

\begin{matrix} s . t . & \tilde{Σ} = [v e c (Σ_{1}), v e c (Σ_{2}) ..., v e c (Σ_{m - 1})] \end{matrix}

Ω≥0

tr(Ω)＝1

y_{j, k}^{m} = \{\begin{matrix} e (p_{j}, p_{k}) | p_{j}, p_{k} &Element; P S M \\ o (y_{j}, y_{k}) | e l s e \end{matrix}