CN115036034B - 一种基于患者表征图的相似患者识别方法及系统 - Google Patents
一种基于患者表征图的相似患者识别方法及系统 Download PDFInfo
- Publication number
- CN115036034B CN115036034B CN202210958286.9A CN202210958286A CN115036034B CN 115036034 B CN115036034 B CN 115036034B CN 202210958286 A CN202210958286 A CN 202210958286A CN 115036034 B CN115036034 B CN 115036034B
- Authority
- CN
- China
- Prior art keywords
- medical health
- patient
- personal medical
- knowledge map
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012512 characterization method Methods 0.000 title claims abstract description 35
- 230000036541 health Effects 0.000 claims abstract description 208
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 201000010099 disease Diseases 0.000 claims description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 229940079593 drug Drugs 0.000 claims description 8
- 239000003814 drug Substances 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 208000024891 symptom Diseases 0.000 claims description 8
- 238000012847 principal component analysis method Methods 0.000 claims description 7
- 238000001356 surgical procedure Methods 0.000 claims description 7
- 238000011282 treatment Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000003745 diagnosis Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000287196 Asthenes Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20052—Discrete cosine transform [DCT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于患者表征图的相似患者识别方法及系统,包括以下步骤:步骤S1:构建医疗健康知识图谱:通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;步骤S2:构建医疗健康知识图谱空间向量库;步骤S3:构建患者个人医疗健康知识图谱空间向量数据集;步骤S4:绘制患者个人医疗健康表征图;步骤S5:基于图像相似度计算进行相似患者识别。本发明构建可视化的患者表征方式,将患者的医疗健康数据转化为可视化图像,从而医生可以直观感受不同患者的差异,以及相似患者的相同之处;基于图像相似度计算的方法,对患者的表征图像进行相似度计算,从而得到患者之间的相似度,构建一种不需要大量数据训练和标注的相似患者识别方法。
Description
技术领域
本发明涉及一种医疗信息技术领域,尤其涉及一种基于患者表征图的相似患者识别方法及系统。
背景技术
随着医疗信息系统的普遍应用,形成了大量的临床数据。在临床实践中,医生需要对患者作出诊疗决策,往往是依据临床指南或临床经验。如果能识别出大量临床数据中与当前患者相似的患者,构建相似患者队列,对其进行分析,将帮助医生更好地对当前患者作出诊疗决策。同时,在医保支付方式改革的背景下,医疗机构面临着控费需求,例如在疾病相关分组支付方式下,患者要在出院时才会确定最终分组,从而影响医院的医保报销比例,如果能在早期识别出与当前患者相似的患者队列,对这些相似患者的分组情况、诊疗路径、费用情况进行分析,从而进行准确的预分组,将帮助医院提升控费水平、优化临床路径和诊疗策略。
现有一些采用机器学习、深度学习识别相似患者的方法,但这些方法一方面需要大量的数据标注和训练才能提升准确率,另一方面,基于机器学习和深度学习的方法往往是黑盒模型,缺少可解释性,无法将患者的特征以直观可理解的方式呈现给医生,难以被医生理解及采信。
为此,我们提出一种基于患者表征图的相似患者识别方法及系统。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于患者表征图的相似患者识别方法及系统。
本发明采用的技术方案如下:
一种基于患者表征图的相似患者识别方法,包括以下步骤:
步骤S1:构建医疗健康知识图谱:通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;
步骤S2:构建医疗健康知识图谱空间向量库:通过将所述医疗健康知识图谱中所有语义转换为空间向量,并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库;
步骤S3:构建患者个人医疗健康知识图谱空间向量数据集:通过从多个数据源获取患者个人医疗健康数据,对所述患者个人医疗健康数据进行匹配,抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库,完成患者个人医疗健康知识图谱空间向量数据集的构建;
步骤S4:绘制患者个人医疗健康表征图:通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间,从而生成患者个人医疗健康表征图;
步骤S5:基于图像相似度计算进行相似患者识别:通过利用图像相似度计算方法来计算不同患者之间的相似性,从所述患者个人医疗健康数据集中识别相似患者。
进一步地,所述步骤S1中所述知识来源包括相关研究文献、临床指南和/或真实世界数据。
进一步地,所述步骤S1中所述医疗健康知识图谱的数据结构设计为符合OWL语言格式规范的RDF三元组;每个所述三元组用于表示实体及实体之间的关系,包括两个实体,头实体和尾实体,以及两个实体之间的关系;所述实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。
进一步地,所述步骤S2具体包括以下子步骤:
步骤S21:以医疗健康标准术语集作为数据语义标识,对所述实体和所述实体之间的关系进行语义标识;
步骤S22:利用语义匹配RESCAL模型将所有语义转换为空间向量,得到医疗健康知识图谱空间向量库;
进一步地,所述步骤S22具体包括以下子步骤:
步骤S221:对所述空间向量进行随机初始化;
步骤S222:定义评分函数;
步骤S223:根据所述评分函数推导得出优化的损失函数;
步骤S224:通过优化器算法,利用优化的损失函数和网络搜索法训练初始化后的空间向量,完成医疗健康知识图谱空间向量库的构建。
进一步地,所述步骤S21中所述医疗健康标准术语集采用医学系统化命名-临床术语、国际疾病分类和/或统一医学语言系统构建。
进一步地,所述步骤S3中所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据;所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。
进一步地,所述步骤S4具体包括以下子步骤:
步骤S41:将所述患者个人医疗健康知识图谱空间向量数据集中随机一个所述患者个人医疗健康数据的特征进行零均值化;
步骤S42:计算所述患者个人医疗健康知识图谱空间向量数据集的协方差矩阵;
步骤S43:计算所述协方差矩阵的特征值以及特征向量,将所述特征值从大到小排序,取排序为前预设个数的所述特征值所对应的特征向量组成转换矩阵;
步骤S44:利用所述转换矩阵将所述患者个人医疗健康数据降维得到降维后的二维平面空间图像作为患者个人医疗健康表征图;
步骤S45:遍历步骤S41-步骤S44,直至得到所有患者的患者个人医疗健康表征图。
进一步地,所述步骤S5具体包括以下子步骤:
步骤S51:对所述患者个人医疗健康表征图进行预处理,得到像素点,并将每个像素点用灰度值表示;
步骤S52:对所述患者个人医疗健康表征图进行DCT离散余弦变换,得到DCT图;
步骤S53:计算所述DCT图的均值,并与每个像素点的灰度值作比较,得到哈希值;
步骤S54:计算不同所述患者个人医疗健康表征图的哈希值不同的位数,设定判断相似和不相似的阈值,通过计算汉明距离得出不同所述患者个人医疗健康表征图之间的相似度,从而从所述患者个人医疗健康知识图谱空间向量数据集中识别出相似患者。
本发明还提供一种基于患者表征图的相似患者识别系统,包括:
医疗健康知识图谱模块,用于通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;
医疗健康知识图谱空间向量库模块,用于通过将所述医疗健康知识图谱中所有语义转换为空间向量,并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库;
患者个人医疗健康知识图谱空间向量数据集模块,用于通过从多个数据源获取患者个人医疗健康数据,对所述患者个人医疗健康数据进行匹配,抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库,完成患者个人医疗健康知识图谱空间向量数据集的构建;
患者个人医疗健康表征图模块,用于通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间,从而生成患者个人医疗健康表征图;
相似患者识别模块,用于通过利用图像相似度计算方法来计算不同患者之间的相似性,从所述患者个人医疗健康数据集中识别相似患者。
本发明的有益效果是:
1、本发明构建可视化的患者表征方式,将患者的医疗健康数据转化为可视化图像,从而医生可以直观感受不同患者的差异,以及相似患者的相同之处。在此基础上进行相似患者识别,使得方法具有可解释性,医生更能够理解和接受。
2、本发明基于图像相似度计算的方法,对患者的表征图像进行相似度计算,从而得到患者之间的相似度,构建一种不需要大量数据训练和标注的相似患者识别方法。
附图说明
图1为本发明一种基于患者表征图的相似患者识别方法的流程示意图;
图2为本发明一种基于患者表征图的相似患者识别系统的结构示意图;
图3为实施例的流程示意图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,一种基于患者表征图的相似患者识别方法,包括以下步骤:
步骤S1:构建医疗健康知识图谱:通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;
所述知识来源包括相关研究文献、临床指南和/或真实世界数据;
所述医疗健康知识图谱的数据结构设计为符合OWL语言格式规范的RDF三元组;每个所述三元组用于表示实体及实体之间的关系,包括两个实体,头实体和尾实体,以及两个实体之间的关系;所述实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。
步骤S2:构建医疗健康知识图谱空间向量库:通过将所述医疗健康知识图谱中所有语义转换为空间向量,并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库;
步骤S21:以医疗健康标准术语集作为数据语义标识,对所述实体和所述实体之间的关系进行语义标识;
所述医疗健康标准术语集采用SNOMED CT(医学系统化命名-临床术语)、ICD-10(国际疾病分类)和/或UMLS(统一医学语言系统)构建;
步骤S22:利用语义匹配RESCAL模型将所有语义转换为空间向量,得到医疗健康知识图谱空间向量库;
步骤S221:对所述空间向量进行随机初始化;
步骤S222:定义评分函数;
步骤S223:根据所述评分函数推导得出优化的损失函数;
步骤S224:通过优化器算法,利用优化的损失函数和网络搜索法训练初始化后的空间向量,完成医疗健康知识图谱空间向量库的构建。
步骤S3:构建患者个人医疗健康知识图谱空间向量数据集:通过从多个数据源获取患者个人医疗健康数据,对所述患者个人医疗健康数据进行匹配,抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库,完成患者个人医疗健康知识图谱空间向量数据集的构建;
所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据;所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。
步骤S4:绘制患者个人医疗健康表征图:通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间,从而生成患者个人医疗健康表征图;
步骤S41:将所述患者个人医疗健康知识图谱空间向量数据集中随机一个所述患者个人医疗健康数据的特征进行零均值化;
步骤S42:计算所述患者个人医疗健康知识图谱空间向量数据集的协方差矩阵;
步骤S43:计算所述协方差矩阵的特征值以及特征向量,将所述特征值从大到小排序,取排序为前预设个数的所述特征值所对应的特征向量组成转换矩阵;
步骤S44:利用所述转换矩阵将所述患者个人医疗健康数据降维得到降维后的二维平面空间图像作为患者个人医疗健康表征图;
步骤S45:遍历步骤S41-步骤S44,直至得到所有患者的患者个人医疗健康表征图。
步骤S5:基于图像相似度计算进行相似患者识别:通过利用图像相似度计算方法来计算不同患者之间的相似性,从所述患者个人医疗健康数据集中识别相似患者;
步骤S51:对所述患者个人医疗健康表征图进行预处理,得到像素点,并将每个像素点用灰度值表示;
步骤S52:对所述患者个人医疗健康表征图进行DCT离散余弦变换,得到DCT图;
步骤S53:计算所述DCT图的均值,并与每个像素点的灰度值作比较,得到哈希值;
步骤S54:计算不同所述患者个人医疗健康表征图的哈希值不同的位数,设定判断相似和不相似的阈值,通过计算汉明距离得出不同所述患者个人医疗健康表征图之间的相似度,从而从所述患者个人医疗健康知识图谱空间向量数据集中识别出相似患者。
参见图2,一种基于患者表征图的相似患者识别系统,包括:
医疗健康知识图谱模块,用于通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;
医疗健康知识图谱空间向量库模块,用于通过将所述医疗健康知识图谱中所有语义转换为空间向量,并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库;
患者个人医疗健康知识图谱空间向量数据集模块,用于通过从多个数据源获取患者个人医疗健康数据,对所述患者个人医疗健康数据进行匹配,抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库,完成患者个人医疗健康知识图谱空间向量数据集的构建;
患者个人医疗健康表征图模块,用于通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间,从而生成患者个人医疗健康表征图;
相似患者识别模块,用于通过利用图像相似度计算方法来计算不同患者之间的相似性,从所述患者个人医疗健康数据集中识别相似患者。
实施例:参见图3,一种基于患者表征图的相似患者识别方法,包括以下步骤:
步骤S1:构建医疗健康知识图谱:通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;
所述知识来源包括相关研究文献、临床指南和/或真实世界数据;
使用自然语言处理技术、归纳总结等方法将这些知识来源中的知识提取出来,构建实体及实体之间的关系,从而生成医疗健康知识图谱。
所述医疗健康知识图谱的数据结构设计为符合OWL(Web Ontology Language)语言格式规范的RDF(Resource Description Framework)三元组;每个所述三元组用于表示实体及实体之间的关系,包括两个实体,头实体和尾实体,以及两个实体之间的关系;所述实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。
步骤S2:构建医疗健康知识图谱空间向量库:通过将所述医疗健康知识图谱中所有语义转换为空间向量,并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库;
步骤S21:以医疗健康标准术语集作为数据语义标识,对所述实体和所述实体之间的关系进行语义标识;
以医疗健康标准术语集作为数据语义标识,用于标识实体及实体之间的关系的语义,具有唯一性。医疗健康标准术语集可以采用SNOMED CT(医学系统化命名-临床术语)、ICD-10(国际疾病分类)和/或UMLS(统一医学语言系统)构建。
步骤S22:利用语义匹配RESCAL模型将所有语义转换为空间向量,得到医疗健康知识图谱空间向量库;
语义匹配RESCAL模型是利用空间向量中的潜在语义特征进行实体集关系相似度的计算,从而评判三元组的置信度。
步骤S221:对所述空间向量进行随机初始化;
步骤S222:定义评分函数;
设表示实体及实体之间的关系的三元组为(h,r,t),其中h为头实体,t为尾实体,r为关系,使用维度都为d的空间向量,h和t分别表示头实体和尾实体,使用维度为d*d的矩阵Mr来表示关系。评分函数为:
其中,hT为h的转置向量。
步骤S223:根据所述评分函数推导得出优化的损失函数;
其中,m为间隔超参数,h'为h的负样本,t'为t的负样本。
步骤S224:通过优化器算法,利用优化的损失函数和网络搜索法训练初始化后的空间向量,完成医疗健康知识图谱空间向量库的构建。
在使用优化的损失函数优化训练医疗健康知识图谱空间向量时,需要同时提供正样本和负样本,通过相应的优化器算法,尽可能将正样本和负样本的得分差距变大,从而最大化训练损失。一般来说,训练数据只有正样本的情况下,负样本可以通过负采样的方法生成。使用Adam算法作为优化器,基于网格搜索法进行训练优化,从而构建医疗健康知识图谱空间向量库。
步骤S3:构建患者个人医疗健康知识图谱空间向量数据集:通过从多个数据源获取患者个人医疗健康数据,对所述患者个人医疗健康数据进行匹配,抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库,完成患者个人医疗健康知识图谱空间向量数据集的构建;
所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据;
所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。
患者个人医疗健康知识图谱空间向量数据集采用的术语与医疗健康标准术语集保持一致。
患者个人医疗健康知识图谱空间向量数据集一般以结构化数据的方式存储,映射具体是指将结构化数据转换为空间向量的形式。患者个人相关医疗健康实体及实体之间的关系使用三元组表示,三元组中的实体及关系均用空间向量来表示。
步骤S4:绘制患者个人医疗健康表征图:通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间,从而生成患者个人医疗健康表征图;
PCA 是一种常用的用于高维数据降维的统计分析方法,它的原理是通过线性投影的方式,将高维的数据转换映射为低维空间的数据,其目标是找到使方差最大化的投影方法。
步骤S41:将所述患者个人医疗健康知识图谱空间向量数据集中随机一个所述患者个人医疗健康数据的特征进行零均值化;
对患者个人医疗健康数据的特征进行零均值化,即对每个患者个人医疗健康数据的每个特征,减去该特征在患者个人医疗健康知识图谱空间向量数据集中的均值。对于第i个患者个人医疗健康数据xi的第j个特征:
步骤S43:计算所述协方差矩阵的特征值以及特征向量,将所述特征值从大到小排序,取排序为前预设个数的所述特征值所对应的特征向量组成转换矩阵;
取前n个特征值所对应的特征向量组成转换矩阵U;
步骤S44:利用所述转换矩阵将所述患者个人医疗健康数据降维得到降维后的二维平面空间图像作为患者个人医疗健康表征图;
步骤S45:遍历步骤S41-步骤S44,直至得到所有患者的患者个人医疗健康表征图。
步骤S5:基于图像相似度计算进行相似患者识别:通过利用图像相似度计算方法来计算不同患者之间的相似性,从所述患者个人医疗健康数据集中识别相似患者。
基于pHash算法对患者个人医疗健康表征图进行相似度计算。pHash算法,又称感知哈希算法,对图像进行处理从而生成一种指纹,然后比较不同图像之间的指纹,从而计算图像的相似度。
步骤S51:对所述患者个人医疗健康表征图进行预处理,得到像素点,并将每个像素点用灰度值表示;
对患者个人医疗健康表征图进行预处理,将患者个人医疗健康表征图全部缩小为32*32的尺寸,总共1024个像素,然后将每个像素点作灰度化处理,用灰度值表示。
步骤S52:对所述患者个人医疗健康表征图进行DCT离散余弦变换,得到DCT图;
对患者个人医疗健康表征图进行DCT变换,将患者个人医疗健康表征图从像素域变为频率域。DCT变换,又称离散余弦变换,是基于离散傅里叶变换演化出的一种变换方法。在离散傅里叶变换的基础上,对于实偶函数的傅里叶变换只包括实的余弦项,从而形成来针对实数域的DCT变换。二维DCT变换的公式如下:
DCT转换后,得到DCT图,尺寸为32*32。
步骤S53:计算所述DCT图的均值,并与每个像素点的灰度值作比较,得到哈希值;
接下来进行二值化,也就是计算出一个哈希值。先求出DCT图的均值,然后对于每个像素点,与均值作比较,若大于等于均值,则取值为1,否则取值为0,从而得到一个1024位的哈希值。
步骤S54:计算不同所述患者个人医疗健康表征图的哈希值不同的位数,设定判断相似和不相似的阈值,通过计算汉明距离得出不同所述患者个人医疗健康表征图之间的相似度,从而从所述患者个人医疗健康知识图谱空间向量数据集中识别出相似患者。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于患者表征图的相似患者识别方法,其特征在于,包括以下步骤:
步骤S1:构建医疗健康知识图谱:通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;
所述医疗健康知识图谱的数据结构设计为符合OWL语言格式规范的RDF三元组;每个所述三元组用于表示实体及实体之间的关系,包括两个实体,头实体和尾实体,以及两个实体之间的关系;所述头实体和所述尾实体包括人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术;
步骤S2:构建医疗健康知识图谱空间向量库:通过将所述医疗健康知识图谱中所有语义转换为空间向量,并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库;
步骤S21:以医疗健康标准术语集作为数据语义标识,对所述实体和所述实体之间的关系进行语义标识;
步骤S22:利用语义匹配RESCAL模型将所有语义转换为空间向量,得到医疗健康知识图谱空间向量库;
步骤S221:对所述空间向量进行随机初始化;
步骤S222:定义评分函数;
步骤S223:根据所述评分函数推导得出优化的损失函数;
步骤S224:通过优化器算法,利用优化的损失函数和网络搜索法训练初始化后的空间向量,完成医疗健康知识图谱空间向量库的构建;
步骤S3:构建患者个人医疗健康知识图谱空间向量数据集:通过从多个数据源获取患者个人医疗健康数据,对所述患者个人医疗健康数据进行匹配,抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库,完成患者个人医疗健康知识图谱空间向量数据集的构建;
步骤S4:绘制患者个人医疗健康表征图:通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间,从而生成患者个人医疗健康表征图;
步骤S41:将所述患者个人医疗健康知识图谱空间向量数据集中随机一个所述患者个人医疗健康数据的特征进行零均值化;
步骤S42:计算所述患者个人医疗健康知识图谱空间向量数据集的协方差矩阵;
步骤S43:计算所述协方差矩阵的特征值以及特征向量,将所述特征值从大到小排序,取排序为前预设个数的所述特征值所对应的特征向量组成转换矩阵;
步骤S44:利用所述转换矩阵将所述患者个人医疗健康数据降维得到降维后的二维平面空间图像作为患者个人医疗健康表征图;
步骤S45:遍历步骤S41-步骤S44,直至得到所有患者的患者个人医疗健康表征图;
步骤S5:基于图像相似度计算进行相似患者识别:通过利用图像相似度计算方法来计算不同患者之间的相似性,从所述患者个人医疗健康数据集中识别相似患者;
步骤S51:对所述患者个人医疗健康表征图进行预处理,得到像素点,并将每个像素点用灰度值表示;
步骤S52:对所述患者个人医疗健康表征图进行DCT离散余弦变换,得到DCT图;
步骤S53:计算所述DCT图的均值,并与每个像素点的灰度值作比较,得到哈希值;
步骤S54:计算不同所述患者个人医疗健康表征图的哈希值不同的位数,设定判断相似和不相似的阈值,通过计算汉明距离得出不同所述患者个人医疗健康表征图之间的相似度,从而从所述患者个人医疗健康知识图谱空间向量数据集中识别出相似患者。
2.如权利要求1所述的一种基于患者表征图的相似患者识别方法,其特征在于,所述步骤S1中所述知识来源包括文献、临床指南和/或真实世界数据。
3.如权利要求1所述的一种基于患者表征图的相似患者识别方法,其特征在于,所述步骤S21中所述医疗健康标准术语集采用医学系统化命名-临床术语、国际疾病分类和/或统一医学语言系统构建。
4.如权利要求1所述的一种基于患者表征图的相似患者识别方法,其特征在于,所述步骤S3中所述数据源包括医疗机构的临床电子病历、个人健康档案和/或健康问卷数据;所述患者个人医疗健康数据包括个人基本信息、人口统计学信息、临床疾病、症状、检查、检验、药物和/或手术。
5.一种用于实现权利要求1-4任一项所述的基于患者表征图的相似患者识别方法的系统,其特征在于,包括:
医疗健康知识图谱模块,用于通过抽取知识来源中的实体与实体之间的关系生成医疗健康知识图谱;
医疗健康知识图谱空间向量库模块,用于通过将所述医疗健康知识图谱中所有语义转换为空间向量,并使用优化器算法基于网络搜索法进行训练优化得到医疗健康知识图谱空间向量库;
患者个人医疗健康知识图谱空间向量数据集模块,用于通过从多个数据源获取患者个人医疗健康数据,对所述患者个人医疗健康数据进行匹配,抽取、转换、加载后映射到所述医疗健康知识图谱空间向量库,完成患者个人医疗健康知识图谱空间向量数据集的构建;
患者个人医疗健康表征图模块,用于通过主成分分析法对所述患者个人医疗健康知识图谱空间向量数据集降维到二维平面空间,从而生成患者个人医疗健康表征图;
相似患者识别模块,用于通过利用图像相似度计算方法来计算不同患者之间的相似性,从所述患者个人医疗健康数据集中识别相似患者。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210958286.9A CN115036034B (zh) | 2022-08-11 | 2022-08-11 | 一种基于患者表征图的相似患者识别方法及系统 |
US18/358,051 US20240054360A1 (en) | 2022-08-11 | 2023-07-25 | Similar patients identification method and system based on patient representation image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210958286.9A CN115036034B (zh) | 2022-08-11 | 2022-08-11 | 一种基于患者表征图的相似患者识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115036034A CN115036034A (zh) | 2022-09-09 |
CN115036034B true CN115036034B (zh) | 2022-11-08 |
Family
ID=83131243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210958286.9A Active CN115036034B (zh) | 2022-08-11 | 2022-08-11 | 一种基于患者表征图的相似患者识别方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240054360A1 (zh) |
CN (1) | CN115036034B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012375B (zh) * | 2023-10-07 | 2024-03-26 | 之江实验室 | 一种基于患者拓扑特征相似性的临床决策支持方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670051A (zh) * | 2018-12-14 | 2019-04-23 | 北京百度网讯科技有限公司 | 知识图谱挖掘方法、装置、设备和存储介质 |
CN110472002A (zh) * | 2019-08-14 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种文本相似度获取方法和装置 |
CN112102937A (zh) * | 2020-11-13 | 2020-12-18 | 之江实验室 | 一种慢性病辅助决策的患者数据可视化方法及系统 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及系统 |
CN112786194A (zh) * | 2021-01-28 | 2021-05-11 | 北京一脉阳光医学信息技术有限公司 | 基于人工智能的医学影像导诊导检系统、方法及设备 |
CN112966123A (zh) * | 2021-03-02 | 2021-06-15 | 山东健康医疗大数据有限公司 | 一种面向特定疾病领域的医疗健康知识图谱系统 |
WO2021189971A1 (zh) * | 2020-10-26 | 2021-09-30 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN113486989A (zh) * | 2021-08-04 | 2021-10-08 | 北京字节跳动网络技术有限公司 | 基于知识图谱的对象识别方法、装置、可读介质和设备 |
CN113921141A (zh) * | 2021-12-14 | 2022-01-11 | 之江实验室 | 一种个体慢病演进风险可视化评估方法及系统 |
CN114639479A (zh) * | 2022-03-16 | 2022-06-17 | 南京海彬信息科技有限公司 | 一种基于医疗知识图谱的智能诊断辅助系统 |
CN114756663A (zh) * | 2022-03-29 | 2022-07-15 | 税友信息技术有限公司 | 一种智能问答方法、系统、设备及计算机可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5660176A (en) * | 1993-12-29 | 1997-08-26 | First Opinion Corporation | Computerized medical diagnostic and treatment advice system |
US7733224B2 (en) * | 2006-06-30 | 2010-06-08 | Bao Tran | Mesh network personal emergency response appliance |
US7558622B2 (en) * | 2006-05-24 | 2009-07-07 | Bao Tran | Mesh network stroke monitoring appliance |
US20130226616A1 (en) * | 2011-10-13 | 2013-08-29 | The Board of Trustees for the Leland Stanford, Junior, University | Method and System for Examining Practice-based Evidence |
US20200303074A1 (en) * | 2013-01-20 | 2020-09-24 | Martin Mueller-Wolf | Individualized and collaborative health care system, method and computer program |
US9997157B2 (en) * | 2014-05-16 | 2018-06-12 | Microsoft Technology Licensing, Llc | Knowledge source personalization to improve language models |
US20160378308A1 (en) * | 2015-06-26 | 2016-12-29 | Rovi Guides, Inc. | Systems and methods for identifying an optimal image for a media asset representation |
US11636949B2 (en) * | 2018-08-10 | 2023-04-25 | Kahun Medical Ltd. | Hybrid knowledge graph for healthcare applications |
EP3847555A4 (en) * | 2018-09-20 | 2021-11-10 | Huawei Technologies Co., Ltd. | KNOWLEDGE-BASED MANAGEMENT OF RECOGNITION MODELS IN ARTIFICIAL INTELLIGENCE SYSTEMS |
CN112420212B (zh) * | 2020-11-27 | 2023-12-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN112820371B (zh) * | 2021-04-22 | 2021-08-03 | 北京健康有益科技有限公司 | 一种基于医疗知识图谱的健康推荐系统及推荐方法 |
-
2022
- 2022-08-11 CN CN202210958286.9A patent/CN115036034B/zh active Active
-
2023
- 2023-07-25 US US18/358,051 patent/US20240054360A1/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670051A (zh) * | 2018-12-14 | 2019-04-23 | 北京百度网讯科技有限公司 | 知识图谱挖掘方法、装置、设备和存储介质 |
CN110472002A (zh) * | 2019-08-14 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种文本相似度获取方法和装置 |
CN112364174A (zh) * | 2020-10-21 | 2021-02-12 | 山东大学 | 基于知识图谱的病人病历相似度评估方法及系统 |
WO2021189971A1 (zh) * | 2020-10-26 | 2021-09-30 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN112102937A (zh) * | 2020-11-13 | 2020-12-18 | 之江实验室 | 一种慢性病辅助决策的患者数据可视化方法及系统 |
CN112786194A (zh) * | 2021-01-28 | 2021-05-11 | 北京一脉阳光医学信息技术有限公司 | 基于人工智能的医学影像导诊导检系统、方法及设备 |
CN112966123A (zh) * | 2021-03-02 | 2021-06-15 | 山东健康医疗大数据有限公司 | 一种面向特定疾病领域的医疗健康知识图谱系统 |
CN113486989A (zh) * | 2021-08-04 | 2021-10-08 | 北京字节跳动网络技术有限公司 | 基于知识图谱的对象识别方法、装置、可读介质和设备 |
CN113921141A (zh) * | 2021-12-14 | 2022-01-11 | 之江实验室 | 一种个体慢病演进风险可视化评估方法及系统 |
CN114639479A (zh) * | 2022-03-16 | 2022-06-17 | 南京海彬信息科技有限公司 | 一种基于医疗知识图谱的智能诊断辅助系统 |
CN114756663A (zh) * | 2022-03-29 | 2022-07-15 | 税友信息技术有限公司 | 一种智能问答方法、系统、设备及计算机可读存储介质 |
Non-Patent Citations (4)
Title |
---|
EHR-Oriented Knowledge Graph System: Toward Efficient Utilization of Non-Used Information Buried in Routine Clinical Practice;Yong Shang 等;《IEEE Journal of Biomedical and Health Informatics 》;20210731;第25卷(第7期);第2463-2475页 * |
Patient Similarity via Joint Embeddings of Medical Knowledge Graph and Medical Entity Descriptions;Zhihuang Lin 等;《IEEE Access》;20200909;第8卷;第156663-156676页 * |
基于司法案例知识图谱的类案推荐;黄治纲 等;《南京大学学报(自然科学)》;20211130;第57卷(第6期);第1053-1062页 * |
基于多数据源融合的医疗知识图谱框架构建研究;韩普等;《现代情报》;20190530(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20240054360A1 (en) | 2024-02-15 |
CN115036034A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220059229A1 (en) | Method and apparatus for analyzing medical treatment data based on deep learning | |
RU2703679C2 (ru) | Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов | |
Rairikar et al. | Heart disease prediction using data mining techniques | |
Clifton et al. | Novelty detection with multivariate extreme value statistics | |
JP5056695B2 (ja) | 類似画像提示装置及びプログラム | |
Karaca et al. | Computational methods for data analysis | |
CN112349369A (zh) | 医疗影像大数据智能分析方法、系统及存储介质 | |
RU2720363C2 (ru) | Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта | |
Sagayam et al. | A cognitive perception on content-based image retrieval using an advanced soft computing paradigm | |
CN115036034B (zh) | 一种基于患者表征图的相似患者识别方法及系统 | |
CN110164519B (zh) | 一种基于众智网络的用于处理电子病历混合数据的分类方法 | |
CN114191665A (zh) | 机械通气过程中人机异步现象的分类方法和分类装置 | |
CN117457192A (zh) | 智能远程诊断方法及系统 | |
CA3024258A1 (en) | Explaining semantic search | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 | |
CN115564756A (zh) | 医学图像病灶定位显示方法与系统 | |
Kharrat et al. | Brain tumour diagnostic segmentation based on optimal texture features and support vector machine classifier | |
US11809826B2 (en) | Assertion detection in multi-labelled clinical text using scope localization | |
Jai-Andaloussi et al. | Content Based Medical Image Retrieval based on BEMD: optimization of a similarity metric | |
Fekihal et al. | Self-organizing map approach for identifying mental disorders | |
Subasi | Applications of artificial intelligence in medical imaging | |
US9646138B2 (en) | Bioimaging grid | |
US20240028831A1 (en) | Apparatus and a method for detecting associations among datasets of different types | |
Demigha | Mining Knowledge of the Patient Record | |
Ojetunmibi et al. | Pneumonia disease detection and classification system using naive Bayesian technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |