CN115036034B

CN115036034B - 一种基于患者表征图的相似患者识别方法及系统

Info

Publication number: CN115036034B
Application number: CN202210958286.9A
Authority: CN
Inventors: 周天舒; 蒋一帆; 李劲松; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-08
Anticipated expiration: 2042-08-11
Also published as: US20240054360A1; CN115036034A

Abstract

本发明公开了一种基于患者表征图的相似患者识别方法及系统，包括以下步骤：步骤S1：构建医疗健康知识图谱：通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱；步骤S2：构建医疗健康知识图谱空间向量库；步骤S3：构建患者个人医疗健康知识图谱空间向量数据集；步骤S4：绘制患者个人医疗健康表征图；步骤S5：基于图像相似度计算进行相似患者识别。本发明构建可视化的患者表征方式，将患者的医疗健康数据转化为可视化图像，从而医生可以直观感受不同患者的差异，以及相似患者的相同之处；基于图像相似度计算的方法，对患者的表征图像进行相似度计算，从而得到患者之间的相似度，构建一种不需要大量数据训练和标注的相似患者识别方法。

Description

一种基于患者表征图的相似患者识别方法及系统

技术领域

本发明涉及一种医疗信息技术领域，尤其涉及一种基于患者表征图的相似患者识别方法及系统。

背景技术

随着医疗信息系统的普遍应用，形成了大量的临床数据。在临床实践中，医生需要对患者作出诊疗决策，往往是依据临床指南或临床经验。如果能识别出大量临床数据中与当前患者相似的患者，构建相似患者队列，对其进行分析，将帮助医生更好地对当前患者作出诊疗决策。同时，在医保支付方式改革的背景下，医疗机构面临着控费需求，例如在疾病相关分组支付方式下，患者要在出院时才会确定最终分组，从而影响医院的医保报销比例，如果能在早期识别出与当前患者相似的患者队列，对这些相似患者的分组情况、诊疗路径、费用情况进行分析，从而进行准确的预分组，将帮助医院提升控费水平、优化临床路径和诊疗策略。

现有一些采用机器学习、深度学习识别相似患者的方法，但这些方法一方面需要大量的数据标注和训练才能提升准确率，另一方面，基于机器学习和深度学习的方法往往是黑盒模型，缺少可解释性，无法将患者的特征以直观可理解的方式呈现给医生，难以被医生理解及采信。

为此，我们提出一种基于患者表征图的相似患者识别方法及系统。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于患者表征图的相似患者识别方法及系统。

本发明采用的技术方案如下：

一种基于患者表征图的相似患者识别方法，包括以下步骤：

步骤S1：构建医疗健康知识图谱：通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱；

步骤S2：构建医疗健康知识图谱空间向量库：通过将所述医疗健康知识图谱中所有语义转换为空间向量，并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库；

步骤S3：构建患者个人医疗健康知识图谱空间向量数据集：通过从多个数据源获取患者个人医疗健康数据，对所述患者个人医疗健康数据进行匹配，抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库，完成患者个人医疗健康知识图谱空间向量数据集的构建；

步骤S4：绘制患者个人医疗健康表征图：通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间，从而生成患者个人医疗健康表征图；

步骤S5：基于图像相似度计算进行相似患者识别：通过利用图像相似度计算方法来计算不同患者之间的相似性，从所述患者个人医疗健康数据集中识别相似患者。

进一步地，所述步骤S1中所述知识来源包括相关研究文献、临床指南和/或真实世界数据。

进一步地，所述步骤S1中所述医疗健康知识图谱的数据结构设计为符合OWL语言格式规范的RDF三元组；每个所述三元组用于表示实体及实体之间的关系，包括两个实体，头实体和尾实体，以及两个实体之间的关系；所述实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。

进一步地，所述步骤S2具体包括以下子步骤：

步骤S21：以医疗健康标准术语集作为数据语义标识，对所述实体和所述实体之间的关系进行语义标识；

步骤S22：利用语义匹配RESCAL模型将所有语义转换为空间向量，得到医疗健康知识图谱空间向量库；

进一步地，所述步骤S22具体包括以下子步骤：

步骤S221：对所述空间向量进行随机初始化；

步骤S222：定义评分函数；

步骤S223：根据所述评分函数推导得出优化的损失函数；

步骤S224：通过优化器算法，利用优化的损失函数和网络搜索法训练初始化后的空间向量，完成医疗健康知识图谱空间向量库的构建。

进一步地，所述步骤S21中所述医疗健康标准术语集采用医学系统化命名-临床术语、国际疾病分类和/或统一医学语言系统构建。

进一步地，所述步骤S3中所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据；所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。

进一步地，所述步骤S4具体包括以下子步骤：

步骤S41：将所述患者个人医疗健康知识图谱空间向量数据集中随机一个所述患者个人医疗健康数据的特征进行零均值化；

步骤S42：计算所述患者个人医疗健康知识图谱空间向量数据集的协方差矩阵；

步骤S43：计算所述协方差矩阵的特征值以及特征向量，将所述特征值从大到小排序，取排序为前预设个数的所述特征值所对应的特征向量组成转换矩阵；

步骤S44：利用所述转换矩阵将所述患者个人医疗健康数据降维得到降维后的二维平面空间图像作为患者个人医疗健康表征图；

步骤S45：遍历步骤S41-步骤S44，直至得到所有患者的患者个人医疗健康表征图。

进一步地，所述步骤S5具体包括以下子步骤：

步骤S51：对所述患者个人医疗健康表征图进行预处理，得到像素点，并将每个像素点用灰度值表示；

步骤S52：对所述患者个人医疗健康表征图进行DCT离散余弦变换，得到DCT图；

步骤S53：计算所述DCT图的均值，并与每个像素点的灰度值作比较，得到哈希值；

步骤S54：计算不同所述患者个人医疗健康表征图的哈希值不同的位数，设定判断相似和不相似的阈值，通过计算汉明距离得出不同所述患者个人医疗健康表征图之间的相似度，从而从所述患者个人医疗健康知识图谱空间向量数据集中识别出相似患者。

本发明还提供一种基于患者表征图的相似患者识别系统，包括：

医疗健康知识图谱模块，用于通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱；

医疗健康知识图谱空间向量库模块，用于通过将所述医疗健康知识图谱中所有语义转换为空间向量，并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库；

患者个人医疗健康知识图谱空间向量数据集模块，用于通过从多个数据源获取患者个人医疗健康数据，对所述患者个人医疗健康数据进行匹配，抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库，完成患者个人医疗健康知识图谱空间向量数据集的构建；

患者个人医疗健康表征图模块，用于通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间，从而生成患者个人医疗健康表征图；

相似患者识别模块，用于通过利用图像相似度计算方法来计算不同患者之间的相似性，从所述患者个人医疗健康数据集中识别相似患者。

本发明的有益效果是：

1、本发明构建可视化的患者表征方式，将患者的医疗健康数据转化为可视化图像，从而医生可以直观感受不同患者的差异，以及相似患者的相同之处。在此基础上进行相似患者识别，使得方法具有可解释性，医生更能够理解和接受。

2、本发明基于图像相似度计算的方法，对患者的表征图像进行相似度计算，从而得到患者之间的相似度，构建一种不需要大量数据训练和标注的相似患者识别方法。

附图说明

图1为本发明一种基于患者表征图的相似患者识别方法的流程示意图；

图2为本发明一种基于患者表征图的相似患者识别系统的结构示意图；

图3为实施例的流程示意图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，一种基于患者表征图的相似患者识别方法，包括以下步骤：

所述知识来源包括相关研究文献、临床指南和/或真实世界数据；

所述医疗健康知识图谱的数据结构设计为符合OWL语言格式规范的RDF三元组；每个所述三元组用于表示实体及实体之间的关系，包括两个实体，头实体和尾实体，以及两个实体之间的关系；所述实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。

所述医疗健康标准术语集采用SNOMED CT（医学系统化命名-临床术语）、ICD-10（国际疾病分类）和/或UMLS（统一医学语言系统）构建；

步骤S221：对所述空间向量进行随机初始化；

步骤S222：定义评分函数；

步骤S223：根据所述评分函数推导得出优化的损失函数；

所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据；所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。

步骤S5：基于图像相似度计算进行相似患者识别：通过利用图像相似度计算方法来计算不同患者之间的相似性，从所述患者个人医疗健康数据集中识别相似患者；

参见图2，一种基于患者表征图的相似患者识别系统，包括：

实施例：参见图3，一种基于患者表征图的相似患者识别方法，包括以下步骤：

使用自然语言处理技术、归纳总结等方法将这些知识来源中的知识提取出来，构建实体及实体之间的关系，从而生成医疗健康知识图谱。

所述医疗健康知识图谱的数据结构设计为符合OWL（Web Ontology Language）语言格式规范的RDF（Resource Description Framework）三元组；每个所述三元组用于表示实体及实体之间的关系，包括两个实体，头实体和尾实体，以及两个实体之间的关系；所述实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。

以医疗健康标准术语集作为数据语义标识，用于标识实体及实体之间的关系的语义，具有唯一性。医疗健康标准术语集可以采用SNOMED CT（医学系统化命名-临床术语）、ICD-10（国际疾病分类）和/或UMLS（统一医学语言系统）构建。

语义匹配RESCAL模型是利用空间向量中的潜在语义特征进行实体集关系相似度的计算，从而评判三元组的置信度。

步骤S221：对所述空间向量进行随机初始化；

步骤S222：定义评分函数；

设表示实体及实体之间的关系的三元组为（h,r,t），其中h为头实体，t为尾实体，r为关系，使用维度都为d的空间向量，h和t分别表示头实体和尾实体，使用维度为d*d的矩阵M_r来表示关系。评分函数为：

其中，h^T为h的转置向量。

步骤S223：根据所述评分函数推导得出优化的损失函数；

其中，m为间隔超参数，h'为h的负样本，t'为t的负样本。

在使用优化的损失函数优化训练医疗健康知识图谱空间向量时，需要同时提供正样本和负样本，通过相应的优化器算法，尽可能将正样本和负样本的得分差距变大，从而最大化训练损失。一般来说，训练数据只有正样本的情况下，负样本可以通过负采样的方法生成。使用Adam算法作为优化器，基于网格搜索法进行训练优化，从而构建医疗健康知识图谱空间向量库。

所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据；

所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。

患者个人医疗健康知识图谱空间向量数据集采用的术语与医疗健康标准术语集保持一致。

患者个人医疗健康知识图谱空间向量数据集一般以结构化数据的方式存储，映射具体是指将结构化数据转换为空间向量的形式。患者个人相关医疗健康实体及实体之间的关系使用三元组表示，三元组中的实体及关系均用空间向量来表示。

PCA 是一种常用的用于高维数据降维的统计分析方法，它的原理是通过线性投影的方式，将高维的数据转换映射为低维空间的数据，其目标是找到使方差最大化的投影方法。

设患者个人医疗健康知识图谱空间向量数据集中某一个患者的数据集为

，每个患者个人医疗健康数据x_i是维度为d的空间向量，降维到低维空间维度为n，这里n取值为2。

对患者个人医疗健康数据的特征进行零均值化，即对每个患者个人医疗健康数据的每个特征，减去该特征在患者个人医疗健康知识图谱空间向量数据集中的均值。对于第i个患者个人医疗健康数据x_i的第j个特征：

其中，

为第j个特征在患者个人医疗健康知识图谱空间向量数据集中的均值，即

。

步骤S42：计算所述患者个人医疗健康知识图谱空间向量数据集的协方差矩阵：

；

取前n个特征值所对应的特征向量组成转换矩阵U；

将患者个人医疗健康数据转换到新的低维空间，设降维后的数据集为

，则：

；

基于pHash算法对患者个人医疗健康表征图进行相似度计算。pHash算法，又称感知哈希算法，对图像进行处理从而生成一种指纹，然后比较不同图像之间的指纹，从而计算图像的相似度。

对患者个人医疗健康表征图进行预处理，将患者个人医疗健康表征图全部缩小为32*32的尺寸，总共1024个像素，然后将每个像素点作灰度化处理，用灰度值表示。

对患者个人医疗健康表征图进行DCT变换，将患者个人医疗健康表征图从像素域变为频率域。DCT变换，又称离散余弦变换，是基于离散傅里叶变换演化出的一种变换方法。在离散傅里叶变换的基础上，对于实偶函数的傅里叶变换只包括实的余弦项，从而形成来针对实数域的DCT变换。二维DCT变换的公式如下：

其中，

是空间二维向量的元素，

是变换系数阵列的元素，N是时域序列点数，

和

为系数：

DCT转换后，得到DCT图，尺寸为32*32。

接下来进行二值化，也就是计算出一个哈希值。先求出DCT图的均值，然后对于每个像素点，与均值作比较，若大于等于均值，则取值为1，否则取值为0，从而得到一个1024位的哈希值。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于患者表征图的相似患者识别方法，其特征在于，包括以下步骤：

所述医疗健康知识图谱的数据结构设计为符合OWL语言格式规范的RDF三元组；每个所述三元组用于表示实体及实体之间的关系，包括两个实体，头实体和尾实体，以及两个实体之间的关系；所述头实体和所述尾实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术；

步骤S221：对所述空间向量进行随机初始化；

步骤S222：定义评分函数；

步骤S223：根据所述评分函数推导得出优化的损失函数；

步骤S224：通过优化器算法，利用优化的损失函数和网络搜索法训练初始化后的空间向量，完成医疗健康知识图谱空间向量库的构建；

步骤S45：遍历步骤S41-步骤S44，直至得到所有患者的患者个人医疗健康表征图；

2.如权利要求1所述的一种基于患者表征图的相似患者识别方法，其特征在于，所述步骤S1中所述知识来源包括文献、临床指南和/或真实世界数据。

3.如权利要求1所述的一种基于患者表征图的相似患者识别方法，其特征在于，所述步骤S21中所述医疗健康标准术语集采用医学系统化命名-临床术语、国际疾病分类和/或统一医学语言系统构建。

4.如权利要求1所述的一种基于患者表征图的相似患者识别方法，其特征在于，所述步骤S3中所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据；所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。

5.一种用于实现权利要求1-4任一项所述的基于患者表征图的相似患者识别方法的系统，其特征在于，包括：