CN108877880B

CN108877880B - 基于病历文本的病人相似性度量装置及方法

Info

Publication number: CN108877880B
Application number: CN201810697392.XA
Authority: CN
Inventors: 张学工; 陈文昌; 闾海荣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-11-20
Anticipated expiration: 2038-06-29
Also published as: CN108877880A

Abstract

本发明公开了一种基于病历文本的病人相似性度量装置及方法，包括病历向量样本库存储部，存储第一病历向量；标签标注部；预处理部，将第一病历向量转化为第一连续数值型病历向量；连续病历向量存储部，存储第一连续数值型病历向量；距离度量矩阵获得部，学习第一连续数值型病历向量，获得距离度量矩阵；病历向量提取部，提取第二病历向量；连续病历向量获得部，获得第二连续数值型病历向量；比较部，比较第一连续数值型病历向量和第二连续数值型病历向量的相似度；输出部，选取与第二病历文本的相似的一个或多个第一病历文本并输出。本发明可以得到不同评价指标下病人的相似性。

Description

基于病历文本的病人相似性度量装置及方法

技术领域

本发明涉及医疗领域，具体地，涉及一种基于病历文本的病人相似性度量装置及方法。

背景技术

电子病历的应用已经十分广泛，如何利用电子病历进行研究已经得到人们的重视。病历文本通常会先经过格式化，使每一份病历成为一个数值向量，这样病人之间的相似与不相似就转化为向量距离的问题。对于病人的相似性度量问题，现有技术中，通过手动设置相似性度量的方式来代替欧几里得距离，对病人数据中不同的属性进行单独的处理，如根据属性的特点设计不同的距离函数，最后将这些不同种类的属性的相似性度量计算方法结合起来，得到最终的病人相似性度量。这种通过手动设置的方法确实能够解决原本欧几里得距离或者其他简单距离函数的各种不适用的问题，但一方面这样的方法仅仅适用于病人数据属性较少的情况，如果相关的属性多、性质又复杂时，手动设置的方法工作量太大，最终综合而成的相似性度量的合理性也可能会存在问题。另一方面，手动设置的方法是完全依赖于数据的，病人数据的属性发生变化，就要进行修改，不适用于实际应用场景。现有对相似性度量的自动学习中，是在特定标签下的监督学习，对标签的依赖性太强，难以做到多个评价标准下的相似性度量学习。

发明内容

鉴于以上问题，本发明的目的是提供一种基于病历文本的病人相似性度量装置及方法，以解决现有技术中手动设置相似性度量使得工作量大且适用范围窄，自动学习中对标签的依赖性强的问题。

为了实现上述目的，本发明采用以下技术方案：

本发明的一个方面是提供一种基于病历文本的病人相似性度量装置，包括：病历向量样本库存储部，存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量；标签标注部，根据不同的评价指标对第一病历向量标注标签，包括第一标签和第二标签；预处理部，对第一病历向量进行预处理，根据所述第一标签将第一病历向量转化为第一连续数值型病历向量；连续病历向量存储部，存储所述第一连续数值型病历向量；距离度量矩阵获得部，学习所述连续病历向量存储部中的第一连续数值型病历向量，获得距离度量矩阵；病历向量提取部，提取第二病历文本经过结构化处理形成的第二病历向量；连续病历向量获得部，通过预处理部对所述第二病历向量进行预处理，获得第二连续数值型病历向量；比较部，比较第一连续数值型病历向量和第二连续数值型病历向量的相似度；输出部，根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。

优选地，所述装置还包括：判断部，判断获得的距离度量矩阵是否符合设定条件，若不符合设定条件，则继续学习第一连续数值型病历向量，若符合设定条件，则存储距离度量矩阵，其中，所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类，分类准确率相比于未应用所述距离度量矩阵时提升超过5％，或调整兰德系数(ARI，Adjusted Rand Index)提高超过0.2。

优选地，所述距离度量矩阵获得部包括：约束构建模块，根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束，

S＝{(x_r,x_s):x_r和x_s相似}(6)

D＝{(x_r,x_s):x_r和x_s不相似}(7)

W＝{(x_r,x_s,x_t):x_r和x_s相似度高于x_r和x_t}(8)

其中，S表示两个相似的第一病历向量的二元组约束集合，D表示两个不相似的第一病历向量的二元组约束集合，W表示三元组约束的集合，x表示第一病历向量，x_r表示第r个第一病历向量，x_s表示第s个第一病历向量，x_t表示第t个第一病历向量；

约束选择模块，选择二元组约束或三元组约束作为约束标准；

矩阵获取模块，获取满足所述约束标准和下式(9)的距离度量矩阵，

其中，L_a表示Lagrange函数，A表示距离度量矩阵，l(A,S,D,W)表示损失函数，λ是不满足约束标准时的惩罚项，λ≥0，V(A)表示距离度量矩阵A的正则项。

优选地，所述比较部包括：距离获得模块，根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离，

其中，x、z分别表示第一病历向量和第二病历向量，x_q、z_q分别表示第一病历向量和第二病历向量中的第q个向量元素，v_q表示第q个向量元素的取值，y表示第一病历向量的标签类别，w表示第二病历向量的标签类别，C表示第一病历向量和第二病历向量中标签类别的总数量，c表示类别数，P_q表示第q个向量元素取值v_q条件下分类到第c类的概率，D表示第一病历向量和第二病历向量中向量元素的总数，dist_A(x,z)表示在距离度量矩阵为A时，第一连续数值型病历向量和第二连续数值型病历向量之间的距离，l_i,cq表示非零向量L中的第i行，第cq列元素；

排序模块，对获得的距离进行大小排序。

本发明的另一个方面是提供一种基于病历文本的病人相似性度量方法，包括以下步骤：步骤S1，存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量；步骤S2，根据不同的评价指标对第一病历向量标注标签，包括第一标签和第二标签；步骤S3，对第一病历向量进行预处理，根据所述第一标签将第一病历向量转化为第一连续数值型病历向量；步骤S4，存储所述第一连续数值型病历向量；步骤S5，学习所述连续病历向量存储部中的第一连续数值型病历向量，获得距离度量矩阵；步骤S6，提取第二病历文本经过结构化处理形成的第二病历向量；步骤S7，对所述第二病历向量进行预处理，并获得第二连续数值型病历向量；步骤S8，比较第一连续数值型病历向量和第二连续数值型病历向量的相似度；步骤S9，根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。

优选地，所述步骤S5和所述步骤S6之间还包括判断步骤，判断获得的距离度量矩阵是否符合设定条件，若不符合设定条件，则进行所述步骤S5，若符合设定条件，则存储距离度量矩阵，并进行步骤S6，其中，所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类，分类准确率相比于未应用所述距离度量矩阵时提升超过5％，或调整兰德系数提高超过0.2。

优选地，所述步骤S3包括：

步骤S31，根据第一标签对病历向量样本库中的第一病历向量进行分类；

步骤S32，根据下式(2)将第一病历向量转化为第一连续数值型病历向量，

φ(x)＝[P₁(x₁＝v₁)；P₂(x₂＝v₂)；...；P_d(x_d＝v_d)](2)

其中，

x表示第一病历向量，i表示向量元素的索引，x_i表示第一病历向量中的第i个向量元素，v_i表示第i个向量元素x_i的取值，P_i表示第i个向量元素x_i取值v_i的概率向量，c表示类别总数，y表示类别，d表示第一病历向量中向量元素的总数，φ(x)表示第一连续数值型病历向量。

优选地，通过下式(4)或(5)计算概率向量的向量元素，

其中，N_i,c表示类别为c类的第一病历向量的x_i取值为v_i的数量，N_i表示病历向量样本库中的第一病历向量的x_i取值为v_i的总数量，N_c表示类别为c的第一病历向量的样本数量，j表示第一病历向量的索引，n表示第一病历向量的总样本数量，v_i,j表示第j个第一病历向量的第i个向量元素的取值，h_i是一个参数。

优选地，所述步骤S5包括：

步骤S51，根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束，

S＝{(x_r,x_s):x_r和x_s相似}(6)

D＝{(x_r,x_s):x_r和x_s不相似}(7)

W＝{(x_r,x_s,x_t):x_r和x_s相似度高于x_r和x_t}(8)

步骤S52，选择二元组约束或三元组约束作为约束标准；

步骤S53，获取满足所述约束标准和下式(9)的距离度量矩阵，

其中，L_a表示Lagrange函数，A表示距离度量矩阵，l(A,S,D,W)表示损失函数，λ是不满足约束标准时的惩罚项，λ≥0，V(A)表示距离度量矩阵A的正则项，是正则参数。

优选地，所述步骤S8包括：

步骤S81，根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离，

步骤S82，对获得的距离进行大小排序。

与现有技术相比，本发明具有以下优点和有益效果：

本发明基于病历文本对其结构化结果形成的病历向量进行处理和度量学习，从而对病人进行相似性度量，避免了获得结构化病人信息的高成本。本发明可以通过在不同的评价指标下标注标签信息，并基于少量的标签信息进行度量学习，得到在不同评价指标下病人之间的相似度，对于不同病历文本数据集以及多个不同的病人相似性评价指标有更好的适用性。

附图说明

图1是本发明所述基于病历文本的病人相似性度量装置构成框图的示意图；

图2是本发明所述基于病历文本的病人相似性度量方法流程示意图。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

下面结合图1-图2来详细说明本实施例。

图1是本发明所述基于病历文本的病人相似性度量装置构成框图的示意图，如图1所示，本发明所述基于病历文本的病人相似性度量装置，包括：

病历向量样本库存储部1，存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量，第一病历向量的向量元素是表征病人不同症状的各个属性指标，病历样本库中包含多个第一病历文本，选择病历样本库中已有的第一病历文本结构化后的第一病历向量作为训练样本进行后续的度量学习。

标签标注部2，根据不同的评价指标对第一病历向量标注标签，包括第一标签和第二标签，其中，评价指标即是对病人进行相似与否评价的标准，不同的医生会基于不同的评价指标对病人进行相似性评价，因此，针对同一个病历文本会有多个评价指标，例如，血常规和体表特征等都可以作为评价指标；对同一病历文本对应的第一病历向量进行评价时，针对不同的评价指标标注不同的标签，其中，第一标签是一些比较容易获取的标签，例如是否有癌症、属于哪个科室等，第二标签是表征两个病人之间是否相似的标签，包括“相似”标签和“不相似”标签，对于同一病历向量，由于具有多个不同的评价指标，针对不同的评价指标，可能会标注多个第二标签，且标注的第二标签可能相同或不同，例如，将病人血常规的情况作为评价指标时，两个血常规正常与否的结果相同的第一病历向量之间标注“相似”标签，两个血常规正常与否的结果不同的第一病历向量之间标注“不相似”标签，将病人体表特征作为评价指标时，两个体表特征正常与否的结果相同的第一病历向量之间标注“相似”标签，两个体表特征正常与否的结果不同的第一病历向量之间标注“不相似”标签，从而使得同一病历文本相对应的第一病历向量标注了多个第二标签信息。

预处理部3，对第一病历向量进行预处理，根据第一标签将第一病历向量转化为第一连续数值型病历向量，以便于对第一病历向量进行度量学习，得到距离度量矩阵。

本发明的一个实施例中，所述预处理部3包括：

分类模块31，根据第一标签对病历向量样本库中的第一病历向量进行分类，类别有c种，此分类是一种粗略的分类，是对病历文本相似性与否进行评价的辅助监督信息；

转化模块32，将公式(1)表示的第一病历向量转化为公式(2)表示的第一连续数值型病历向量，

x＝[x₁；x₂；...；x_d](1)

φ(x)＝[P₁(x₁＝v₁)；P₂(x₂＝v₂)；...；P_d(x_d＝v_d)](2)

其中，

式(1-3)中，x表示第一病历向量，i表示向量元素的索引，x_i表示第一病历向量中的第i个向量元素，v_i表示第i个向量元素x_i的取值，P_i表示第i个向量元素x_i取值v_i的概率向量，c表示类别数，y表示第一病历向量的标签类别，d表示第一病历向量中向量元素的总数，φ(x)表示第一连续数值型病历向量。

因此，将d×1的向量x就转化为了d×c的矩阵。

本发明的一个实施例中，式(3)中概率向量的向量元素可以通过下式(4)或(5)获得，其中，公式(4)适用于分类数据类型，公式(5)适用于定距变量和定比变量的数据类型。

式中，N_i,c表示类别为c类的第一病历向量的x_i取值为v_i的数量，N_i表示病历向量样本库中的第一病历向量的x_i取值为v_i的总数量。

式中，N_c表示类别为c类的第一病历向量的样本数量，j表示第一病历向量的索引，n表示第一病历向量的总样本数量，v_i,j表示第j个第一病历向量的第i个向量元素的取值，h_i是一个参数，取经验值h_i＝1.06σn^-1/5，其中，σ表示所有第一病历向量第i个向量元素的方差。

连续病历向量存储部4，存储预处理部3得到的第一连续数值型病历向量。

距离度量矩阵获得部5，学习连续病历向量存储部4中的第一连续数值型病历向量，获得距离度量矩阵，以便后续对病历文本进行相似性度量。

本发明的一个实施例中，所述距离度量矩阵获得部5包括：

约束构建模块51，根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束，

S＝{(x_r,x_s):x_r和x_s相似}(6)

D＝{(x_r,x_s):x_r和x_s不相似}(7)

W＝{(x_r,x_s,x_t):x_r和x_s相似度高于x_r和x_t}(8)

式中，S表示两个相似的第一病历向量的二元组约束集合，D表示两个不相似的第一病历向量的二元组约束集合，W表示三元组约束的集合，x表示第一病历向量，x_r表示第r个第一病历向量，x_s表示第s个第一病历向量，x_t表示第t个第一病历向量；其中，两个第一病历向量是否相似表征的是两个病人是否相似；

约束选择模块52，选择二元组约束或三元组约束作为约束标准，其中，二元组约束和三元组约束的选择取决于选取的约束使得第二标签的标签信息更容易获取；

矩阵获取模块53，获取满足上述约束标准和下式(9)的距离度量矩阵，使得损失函数的数值最小，利用此距离度量矩阵进行后续的相似性度量，

式中，L_a表示Lagrange函数，A表示距离度量矩阵，l(A,S,D,W)表示损失函数，λ是不满足约束标准时的惩罚项，λ≥0，V(A)表示距离度量矩阵A的正则项，是正则参数。

本发明的一个实施例中，所述相似性度量装置还包括：判断部6，判断获得的距离度量矩阵是否符合设定条件，若不符合设定条件，则继续学习第一连续数值型病历向量，若符合设定条件，则存储距离度量矩阵，其中，将获得的距离度量矩阵应用到病历样本库中对第一病历文本结构化形成的第一病历向量进行分类或聚类，与未应用所述距离度量矩阵的分类或聚类结果比较，当分类准确率提升超过5％，或作为聚类评价指标的ARI提高超过0.2，则认为是所获得的距离度量矩阵符合设定条件。对相似性度量的评价指标隐含在得到的距离度量矩阵中，从而可根据距离度量矩阵得到不同的评价指标下的病人之间的相似性。

本发明的一个实施例中，所述判断部6包括：

权重值获得模块61，根据下式(16)计算获得的距离度量矩阵A中每一维特征的权重值，以确定某一维特征上的数值的变化对表征相似性的距离的影响大小。

获得的距离度量矩阵A必须是半正定矩阵，以便于后续进行相似性度量的求解，将距离度量矩阵A作如下式(10)的分解，

A＝L^TL(10)

则：d² _A(x,x')＝(x-x')^TA(x-x')＝(x-x')^TL^TL(x-x')(11)

其中，L＝{l_IJ}(12)

x-x'＝[b₁,b₂,…,b_d]^T(13)

式(10-13)中，x、x’分别表示两个第一病历向量，d² _A(x,x')表示利用距离度量矩阵A求得的向量x、x’之间的距离平方，L表示任意的非零向量，L^T表示向量L的转置，l_IJ表示向量L中第I行第J列的向量元素，b₁,b₂,…,b_d分别表示第一病历向量x、x’在各个维度上的差值。

假设除了第k维特征，其他维特征对表征相似性的距离的影响都为0，即

Δx_k＝1,Δx_m＝0,m＝1,2,...,k-1,k+1,...,d(14)

式(14-16)中，Δx_m表示在x_m上的变化量，d² _A(x,x')表示利用距离度量矩阵A求得的向量x、x’之间的距离平方，Δd² _A(x,x')表示d² _A(x,x')的变化量，b_J表示第一病历向量x、x’的第J列向量元素的差值。

从而，确定距离度量矩阵A中每一维特征的变化对表征相似性的距离的影响大小。

特征选取模块62，选取权重值大于第二设定阈值的特征，即，选取对表征相似性的距离的影响较大的一个或多个特征。

进一步地，所述判断部6还包括判断模块63，判断选取的特征是否合理，若不合理，则继续学习第一连续数值型病历向量，若合理，则存储获得的距离度量矩阵。通过调取医学知识库，由多个医学专家根据医学知识对选取的特征进行判断，如果超过50％的医学专家认为选取的特征能够体现表征病人相似性的评价指标，则认为选取的特征合理。多个医学专家可以分别对选取的特征进行打分，根据打分值的高低判断其与评价指标的相关程度。作为距离度量学习结果的评估，确定合理的距离度量矩阵进行病历文本之间相似性度量的一个基础。

病历向量提取部7，提取第二病历文本经过结构化处理形成的第二病历向量，其中，第二病历文本是任意给定的一个新病人的病历文本，将新病人的病历文本进行结构化处理形成第二病历向量。

连续病历向量获得部8，通过预处理部对第二病历向量进行预处理，获得第二连续数值型病历向量，其中，预处理部对第二病历向量的预处理方法与对病历向量样本库中的第一病历向量的预处理方法相同。

比较部9，比较第一连续数值型病历向量和第二连续数值型病历向量的相似度，从而用相似度表示与第二连续数值型病历向量相对应的新给定的病人和与第一连续数值型病历向量相对应的样本库中的病人之间的相似程度。

本发明的一个实施例中，所述比较部9包括：

距离获得模块91，根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离，用两个向量之间的距离表征相似度，距离越小，越相似。

其中，x、z分别表示第一病历向量和第二病历向量，x_q、z_q分别表示第一病历向量和第二病历向量中的第q个向量元素，v_q表示第q个向量元素的取值，y表示第一病历向量的标签类别，w表示第二病历向量的标签类别，C表示第一病历向量和第二病历向量中标签类别的总数量，c表示类别数，P_q表示第q个向量元素取值v_q条件下分类到第c类的概率，φ(x)、φ(z)分别表示第一连续数值型病历向量和第二连续数值型病历向量，D表示第一病历向量和第二病历向量中向量元素的总数(二者相等)，dist_A(x,z)表示在距离度量矩阵为A时，第一连续数值型病历向量和第二连续数值型病历向量之间的距离，l_i,cq表示公式(12)中L向量中的第i行，第cq列元素；

排序模块92，对获得的距离进行大小排序。

输出部10，根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。根据比较部对距离进行的排序，从中提取与第二连续数值型病历向量之间距离较小的一个或多个第一连续数值型病历向量，并输出与此第一连续数值型病历向量相对应的第一病历文本，从而在已有的病历样本库中找到与新给定的病人病历相似的一个或多个病历。

图2是本发明所述基于病历文本的病人相似性度量方法流程示意图，如图2所示，所述基于病历文本的病人相似性度量方法，包括以下步骤：

步骤S1，存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量，病历样本库中包含多个第一病历文本，选择病历样本库中已有的第一病历文本结构化后的第一病历向量作为训练样本进行后续的度量学习，选择的训练样本的数量根据实际情况而定。

步骤S2，根据不同的评价指标对第一病历向量标注标签，包括第一标签和第二标签，其中，评价指标即是对病人进行相似与否评价的标准，不同的医生会基于不同的评价指标对病人进行相似性评价，因此，针对同一个病历文本会有多个评价指标，例如，血常规和体表特征等都可以作为评价指标；对同一病历文本对应的第一病历向量进行评价时，针对不同的评价指标标注不同的标签，其中，第一标签是一些比较容易获取的标签，例如是否有癌症、属于哪个科室等，第二标签是表征两个病人之间是否相似的标签，包括“相似”标签和“不相似”标签，对于同一病历向量，由于具有多个不同的评价指标，针对不同的评价指标，可能会标注多个第二标签，且标注的第二标签可能相同或不同，例如，将病人血常规的情况作为评价指标时，两个血常规正常与否的结果相同的第一病历向量之间标注“相似”标签，两个血常规正常与否的结果不同的第一病历向量之间标注“不相似”标签，将病人体表特征作为评价指标时，两个体表特征正常与否的结果相同的第一病历向量之间标注“相似”标签，两个体表特征正常与否的结果不同的第一病历向量之间标注“不相似”标签，从而使得同一病历文本相对应的第一病历向量标注了多个第二标签信息。

步骤S3，对第一病历向量进行预处理，根据所述第一标签将第一病历向量转化为第一连续数值型病历向量，以便于对第一病历向量进行度量学习，得到距离度量矩阵。

本发明的一个实施例中，所述步骤S3包括：

步骤S31，根据第一标签对第一病历向量进行分类，类别有c种，此分类是一种粗略的分类，是对病历文本相似性与否进行评价的辅助监督信息；

步骤S32，将公式(1)表示的第一病历向量转化为公式(2)表示的第一连续数值型病历向量，

x＝[x₁；x₂；...；x_d](1)

φ(x)＝[P₁(x₁＝v₁)；P₂(x₂＝v₂)；...；P_d(x_d＝v_d)](2)

其中，

因此，将d×1的向量x就转化为了d×c的矩阵。

步骤S4，存储第一连续数值型病历向量，将步骤S3预处理得到的第一连续数值型病历向量存储在一个数据库中。

步骤S5，学习数据库中存储的第一连续数值型病历向量，获得距离度量矩阵，以便后续对病历文本进行相似性度量。

本发明的一个实施例中，所述步骤S5包括：

S＝{(x_r,x_s):x_r和x_s相似}(6)

D＝{(x_r,x_s):x_r和x_s不相似}(7)

W＝{(x_r,x_s,x_t):x_r和x_s相似度高于x_r和x_t}(8)

式中，S表示两个相似的第一病历向量的二元组约束集合，D表示两个不相似的第一病历向量的二元组约束集合，W表示三元组约束的集合，x表示第一病历向量，x_r表示第r个第一病历向量，x_s表示第s个第一病历向量，x_t表示第t个第一病历向量；

步骤S52，选择二元组约束或三元组约束作为约束标准；

步骤S53，获取满足所述约束标准和下式(9)的距离度量矩阵，使得损失函数的数值最小，利用此距离度量矩阵进行后续的相似性度量，

步骤S6，提取第二病历文本经过结构化处理形成的第二病历向量，其中，第二病历文本是任意给定的一个新病人的病历文本，将新病人的病历文本进行结构化处理形成第二病历向量。

本发明的一个实施例中，在步骤S5和步骤S6之间还包括判断步骤：判断获得的距离度量矩阵是否符合设定条件，若不符合设定条件，则进行上述步骤S5，若符合设定条件，则存储距离度量矩阵，并进行步骤S6。其中，将获得的距离度量矩阵应用到病历样本库中对第一病历文本结构化形成的第一病历向量进行分类或聚类，与未应用所述距离度量矩阵的分类或聚类结果比较，当分类准确率提升超过5％，或作为聚类评价指标的ARI提高超过0.2，则认为是所获得的距离度量矩阵符合设定条件。

本发明的一个实施例中，所述判断步骤包括：

根据下式(16)计算获得的距离度量矩阵A中每一维特征的权重值，以确定某一维特征上的数值的变化，对表征相似性的距离的影响大小。

A＝L^TL(10)

则：d² _A(x,x')＝(x-x')^TA(x-x')＝(x-x')^TL^TL(x-x')(11)

其中，L＝{l_IJ}(12)

x-x'＝[b₁,b₂,…,b_d]^T(13)

Δx_k＝1,Δx_m＝0,m＝1,2,...,k-1,k+1,...,d(14)

选取权重值大于第二设定阈值的特征，即，选取对表征相似性的距离的影响较大的一个或多个特征。

进一步地，所述判断步骤还包括：判断选取的特征是否合理，若不合理，则继续学习第一连续数值型病历向量，若合理，则存储获得的距离度量矩阵。通过调取医学知识库，由多个医学专家根据医学知识对选取的特征进行判断，如果超过50％的医学专家认为选取的特征能够体现表征病人相似性的评价指标，则认为选取的特征合理。多个医学专家可以分别对选取的特征进行打分，根据打分值的高低判断其与评价指标的相关程度。作为距离度量学习结果的评估，确定合理的距离度量矩阵进行病历文本之间相似性度量的一个基础。

步骤S7，使用与步骤S3中相同的预处理方式对第二病历向量进行预处理，并获得与之相对应的第二连续数值型病历向量。

步骤S8，比较第一连续数值型病历向量和第二连续数值型病历向量的相似度，从而用相似度表示与第二连续数值型病历向量相对应的新给定的病人和与第一连续数值型病历向量相对应的样本库中的病人之间的相似程度。

本发明的一个实施例中，所述步骤S8包括：

步骤S81，根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离，用两个向量之间的距离表征相似度，距离越小，越相似；

步骤S82，对获得的距离进行大小排序。

步骤S9，输出结果，根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出。根据比较部对距离进行的排序，从中提取与第二连续数值型病历向量之间距离较小的一个或多个第一连续数值型病历向量，并输出与此第一连续数值型病历向量相对应的第一病历文本，从而在已有的病历样本库中找到与新给定的病人病历相似的一个或多个病历。

综上所述，本发明所述基于病历文本的病人相似性度量装置及方法，通过学习病历向量的距离度量，并根据需求选择不同的约束标准，得到满足约束标准和使得损失函数最小的距离度量矩阵，然后基于此约束标准下的距离度量矩阵，得到新给定病人的第二病历文本与样本库中已有病人的第一病历文本之间的距离，从而在病历样本库中找到一个或多个与新给定病人最相似的病人。不同科室、不同医生对病人的关注点不同，所选择的评价指标不同，给出的标签信息不同，从而确定的约束标准也不同。本发明能够通过给定的不同评价指标下对应的标签信息，学习出其背后隐含的相似性度量的评价指标，从而找到该评价指标下相似的病人。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于病历文本的病人相似性度量装置，其特征在于，包括：

病历向量样本库存储部，存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量；

标签标注部，根据不同的评价指标对第一病历向量标注标签，包括第一标签和第二标签；

预处理部，对第一病历向量进行预处理，根据所述第一标签将第一病历向量转化为第一连续数值型病历向量；

连续病历向量存储部，存储所述第一连续数值型病历向量；

距离度量矩阵获得部，学习所述连续病历向量存储部中的第一连续数值型病历向量，获得距离度量矩阵；

病历向量提取部，提取第二病历文本经过结构化处理形成的第二病历向量；

连续病历向量获得部，通过预处理部对所述第二病历向量进行预处理，获得第二连续数值型病历向量；

比较部，比较第一连续数值型病历向量和第二连续数值型病历向量的相似度；

输出部，根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出；

其中，所述距离度量矩阵获得部包括：

约束构建模块，根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束，

S＝{(x_r，x_s)：x_r和x_s相似} (6)

D＝{(x_r，x_s)：x_r和x_s不相似} (7)

W＝{(x_r，x_s，x_t)：x_r和x_s相似度高于x_r和x_t} (8)

其中，L_a表示Lagrange函数，A表示距离度量矩阵，l(A，S，D，W)表示损失函数，λ是不满足约束标准时的惩罚项，λ≥0，V(A)表示距离度量矩阵A的正则项。

2.根据权利要求1所述的基于病历文本的病人相似性度量装置，其特征在于，所述装置还包括：

判断部，判断获得的距离度量矩阵是否符合设定条件，若不符合设定条件，则继续学习第一连续数值型病历向量，若符合设定条件，则存储距离度量矩阵，其中，所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类，分类准确率相比于未应用所述距离度量矩阵时提升超过5％，或调整兰德系数提高超过0.2。

3.根据权利要求1所述的基于病历文本的病人相似性度量装置，其特征在于，所述比较部包括：

距离获得模块，根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离，

其中，x、z分别表示第一病历向量和第二病历向量，x_q、z_q分别表示第一病历向量和第二病历向量中的第q个向量元素，v_q表示第q个向量元素的取值，y表示第一病历向量的标签类别，w表示第二病历向量的标签类别，C表示第一病历向量和第二病历向量中标签类别的总数量，c表示类别数，P_q表示第q个向量元素取值v_q条件下分类到第c类的概率，D表示第一病历向量和第二病历向量中向量元素的总数，dist_A(x，z)表示在距离度量矩阵为A时，第一连续数值型病历向量和第二连续数值型病历向量之间的距离，l_i，cq表示非零向量L中的第i行，第cq列元素；

排序模块，对获得的距离进行大小排序。

4.一种基于病历文本的病人相似性度量方法，其特征在于，包括以下步骤：

步骤S1，存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量；

步骤S2，根据不同的评价指标对第一病历向量标注标签，包括第一标签和第二标签；

步骤S3，对第一病历向量进行预处理，根据所述第一标签将第一病历向量转化为第一连续数值型病历向量；

步骤S4，存储所述第一连续数值型病历向量；

步骤S5，学习连续病历向量存储部中的第一连续数值型病历向量，获得距离度量矩阵；

步骤S6，提取第二病历文本经过结构化处理形成的第二病历向量；

步骤S7，对所述第二病历向量进行预处理，并获得第二连续数值型病历向量；

步骤S8，比较第一连续数值型病历向量和第二连续数值型病历向量的相似度；

步骤S9，根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出；

其中，所述步骤S5包括：

S＝{(x_r，x_s)：x_r和x_s相似} (6)

D＝{(x_r，x_s)：x_r和x_s不相似} (7)

W＝{(x_r，x_s，x_t)：x_r和x_s相似度高于x_r和x_t} (8)

步骤S52，选择二元组约束或三元组约束作为约束标准；

步骤S53，获取满足所述约束标准和下式(9)的距离度量矩阵，

其中，L_a表示Lagrange函数，A表示距离度量矩阵，l(A，S，D，W)表示损失函数，λ是不满足约束标准时的惩罚项，λ≥0，V(A)表示距离度量矩阵A的正则项，是正则参数。

5.根据权利要求4所述的基于病历文本的病人相似性度量方法，其特征在于，所述步骤S5和所述步骤S6之间还包括判断步骤，判断获得的距离度量矩阵是否符合设定条件，若不符合设定条件，则进行所述步骤S5，若符合设定条件，则存储距离度量矩阵，并进行步骤S6，其中，所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类，分类准确率相比于未应用所述距离度量矩阵时提升超过5％，或调整兰德系数提高超过0.2。

6.根据权利要求4所述的基于病历文本的病人相似性度量方法，其特征在于，所述步骤S3包括：

φ(x)＝[P₁(x₁＝v₁)；P₂(x₂＝v₂)；...；P_d(x_d＝v_d)] (2)

其中，

7.根据权利要求6所述的基于病历文本的病人相似性度量方法，其特征在于，通过下式(4)或(5)计算概率向量的向量元素，

其中，N_i，c表示类别为c类的第一病历向量的x_i取值为v_i的数量，N_i表示病历向量样本库中的第一病历向量的x_i取值为v_i的总数量，N_c表示类别为c的第一病历向量的样本数量，j表示第一病历向量的索引，n表示第一病历向量的总样本数量，v_i，j表示第j个第一病历向量的第i个向量元素的取值，h_i是一个参数。

8.根据权利要求4所述的基于病历文本的病人相似性度量方法，其特征在于，所述步骤S8包括：

步骤S82，对获得的距离进行大小排序。