CN116386801B - 基于聚类算法构建患者身份标识的方法、装置及电子设备 - Google Patents
基于聚类算法构建患者身份标识的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116386801B CN116386801B CN202310662401.2A CN202310662401A CN116386801B CN 116386801 B CN116386801 B CN 116386801B CN 202310662401 A CN202310662401 A CN 202310662401A CN 116386801 B CN116386801 B CN 116386801B
- Authority
- CN
- China
- Prior art keywords
- similarity
- clustering
- information
- characteristic
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000003064 k means clustering Methods 0.000 claims description 8
- 230000036541 health Effects 0.000 abstract description 5
- 238000013507 mapping Methods 0.000 abstract description 3
- 238000013523 data management Methods 0.000 abstract description 2
- 238000005192 partition Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据管理技术领域,涉及基于聚类算法构建患者身份标识的方法、装置及电子设备,包括:获取各个医疗系统中所有患者信息;利用音形码进行索引匹配;构建聚类算法模型,选择特征属性构建特征向量;根据相似度对各个特征属性进行聚类划分;评估生成目标聚类信息;构建特征属性的主索引信息;利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算,得到相似度分值;计算相似度总分值;筛选患者信息中所有特征属性的集合。本发明建立用于维护和管理患者的唯一身份标识,并建立患者在各个医疗信息化系统中的标识与该唯一身份标识之间的映射关系,将不同医疗系统关联,实现患者健康档案信息在多个医疗系统之间的信息共享。
Description
技术领域
本发明涉及数据管理技术领域,具体而言,涉及基于聚类算法构建患者身份标识的方法、装置及电子设备。
背景技术
患者主索引(Master Patient Index,简称MPI)是患者在各系统中的唯一标识,通过此标识可以找出各医院机构对应的患者的健康档案信息。
患者就诊会在相同或者不同的医疗系统建档办理多个病历卡,患者的医疗数据分散于不同的医疗系统中,不同医疗系统间无法进行数据共享,一方面导致了各个医疗系统存储了很多冗余信息,另一方面医生在临床决策时无法获取患者所有的健康档案信息而缺乏足够的数据作为支撑。
发明内容
为了解决上述技术问题,本发明提供基于聚类算法构建患者身份标识的方法、装置及电子设备。
第一方面,本发明提供了基于聚类算法构建患者身份标识的方法,包括:
获取各个医疗系统中的所有患者信息,每个所述患者信息包括若干个特征属性;
利用音形码对所述患者信息中的所述特征属性进行索引匹配,得到基础分数;
根据所述基础分数,构建聚类算法模型,选择所述特征属性构建特征向量;
根据所述聚类算法模型计算各个所述特征向量的相似度,根据所述相似度对各个所述特征属性进行聚类划分;
对聚类划分的结果进行评估,生成目标聚类信息;
在所述目标聚类信息中查询所述特征属性,构建所述特征属性的主索引信息;
对每一个查询到的所述特征属性,利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算,得到每一个所述特征属性与所述主索引信息的相似度分值;
对每一个所述目标聚类信息中各个所述特征属性对应的所述相似度分值进行相加,得到相似度总分值;
对所述相似度总分值进行筛选,判断是否存在所述相似度总分值大于设定阈值,若是则将大于设定阈值的所述相似度总分值作为目标相似度总分值,得到所述主索引信息对应的所述患者信息中所有所述特征属性的集合;否则若存在所述相似度总分值大于设定阈值,则重新构建所述特征属性中的所述主索引信息,进行相似度匹配计算。
第二方面,本发明提供了基于聚类算法构建患者身份标识的装置,包括获取单元、索引匹配单元、模型构建单元、聚类划分单元、生成单元、主索引信息构建单元、匹配计算单元、相加单元与筛选单元;
所述获取单元,用于获取各个医疗系统中的所有患者信息,每个所述患者信息包括若干个特征属性;
所述索引匹配单元,用于利用音形码对所述患者信息中的所述特征属性进行索引匹配,得到基础分数;
所述模型构建单元,用于根据所述基础分数,构建聚类算法模型,选择所述特征属性构建特征向量;
所述聚类划分单元,用于根据所述聚类算法模型计算各个所述特征向量的相似度,根据所述相似度对各个所述特征属性进行聚类划分;
所述生成单元,用于对聚类划分的结果进行评估,生成目标聚类信息;
所述主索引信息构建单元,用于在所述目标聚类信息中查询所述特征属性,构建所述特征属性的主索引信息;
所述匹配计算单元,用于对每一个查询到的所述特征属性,利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算,得到每一个所述特征属性与所述主索引信息的相似度分值;
所述相加单元,用于对每一个所述目标聚类信息中各个所述特征属性对应的所述相似度分值进行相加,得到相似度总分值;
所述筛选单元,用于对所述相似度总分值进行筛选,判断是否存在所述相似度总分值大于设定阈值,若是则将大于设定阈值的所述相似度总分值作为目标相似度总分值,得到所述主索引信息对应的所述患者信息中所有所述特征属性的集合;否则若存在所述相似度总分值大于设定阈值,则重新构建所述特征属性中的所述主索引信息,进行相似度匹配计算。
第三方面,本发明提供了一种电子设备,包括:
处理器和存储器;
所述存储器,用于存储计算机操作指令;
所述处理器,用于通过调用所述计算机操作指令,执行所述的基于聚类算法构建患者身份标识的方法。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码。
进一步,所述聚类算法模型为欧氏距离函数模型或K-Means聚类算法模型,根据所述欧氏距离函数模型或所述K-Means聚类算法模型计算各个所述特征向量的相似度。
进一步,对聚类划分的结果进行评估,生成目标聚类信息,包括:采用欧式距离函数计算所述特征向量之间的欧式距离,当所述欧式距离小于设定距离,则聚类划分有效,否则聚类划分无效,重新选择所述特征属性构建特征向量进行聚类划分。
进一步,对聚类划分的结果进行评估通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估,生成目标聚类信息,包括:
S1:为待聚类的样本寻找聚类中心;
S2:计算每个所述样本到各个所述聚类中心的距离作为所述特征向量,将每个所述样本聚类到离该所述样本最近的所述聚类中;
S3:计算各个所述聚类中所有所述样本的坐标平均值,并将所述平均值作为新的聚类中心;
S4:重复S1-S3,直到所述聚类中心移动范围小于设定值或者聚类次数达到设定次数。
进一步,对每一个查询到的所述特征属性,利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算,得到每一个所述特征属性与所述主索引信息的相似度分值,包括:
获取每一个查询到的所述特征属性的第一字符串与所述主索引信息的第二字符串,计算所述第一字符串与所述第二字符串的词频,得到词频向量;根据所述词频向量利用余弦相似度公式计算所述相似度分值,得到每一个所述特征属性与所述主索引信息的所述相似度分值。
本发明的有益效果是:本发明建立用于维护和管理患者的唯一身份标识,并建立患者在各个医疗信息化系统中的标识与该唯一身份标识之间的映射关系,从而能够将不同医疗系统关联起来,实现患者健康档案信息在多个医疗系统之间的信息共享。
附图说明
图1为本发明实施例1提供的基于聚类算法构建患者身份标识的方法的原理图;
图2为本发明实施例2提供的基于聚类算法构建患者身份标识的装置的原理图;
图3为一种电子设备的原理图。
图标:30-电子设备;310-处理器;320-总线;330-存储器;340-收发器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例1
作为一个实施例,如附图1所示,为解决上述技术问题,本实施例提供了基于聚类算法构建患者身份标识的方法,包括:
获取各个医疗系统中的所有患者信息,每个患者信息包括若干个特征属性;
利用音形码对患者信息中的特征属性进行索引匹配,得到基础分数;
根据基础分数,构建聚类算法模型,选择特征属性构建特征向量;
根据聚类算法模型计算各个特征向量的相似度,根据相似度对各个特征属性进行聚类划分;
对聚类划分的结果进行评估,生成目标聚类信息;
在目标聚类信息中查询特征属性,构建特征属性的主索引信息;
对每一个查询到的特征属性,利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算,得到每一个特征属性与主索引信息的相似度分值;
对每一个目标聚类信息中各个特征属性对应的相似度分值进行相加,得到相似度总分值;
对相似度总分值进行筛选,判断是否存在相似度总分值大于设定阈值,若是则将大于设定阈值的相似度总分值作为目标相似度总分值,得到主索引信息对应的患者信息中所有特征属性的集合;否则若存在相似度总分值大于设定阈值,则重新构建特征属性中的主索引信息,进行相似度匹配计算。
本发明建立用于维护和管理患者的唯一身份标识,并建立患者在各个医疗信息化系统中的标识与该唯一身份标识之间的映射关系,从而能够将不同医疗系统关联起来,实现患者健康档案信息在多个医疗系统之间的信息共享。
可选的,特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码。
利用特征属性对各个医疗信息系统中的患者信息进行识别,从而有利于确定该患者信息属于唯一患者。
可选的,聚类算法模型为欧氏距离函数模型或K-Means聚类算法模型,根据欧氏距离函数模型或K-Means聚类算法模型计算各个特征向量的相似度。
可选的,对聚类划分的结果进行评估,生成目标聚类信息,包括:采用欧式距离函数计算特征向量之间的欧式距离,当欧式距离小于设定距离,则聚类划分有效,否则聚类划分无效,重新选择特征属性构建特征向量进行聚类划分。
欧式距离越小,两个特征向量越相似。当两个特征向量之间的欧式距离小于设定值(一般的,该设定值大于0且小于1),则聚类划分有效。
可选的,对聚类划分的结果进行评估通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估,生成目标聚类信息,包括:
S1:为待聚类的样本寻找聚类中心;
S2:计算每个样本到各个聚类中心的距离作为特征向量,将每个样本聚类到离该样本最近的聚类中;
S3:计算各个聚类中所有样本的坐标平均值,并将平均值作为新的聚类中心;
S4:重复S1-S3,直到聚类中心移动范围小于设定值或者聚类次数达到设定次数。
样本与该样本所在的簇中的其他样本的相似度为,等于该样本与同一簇中所有其他样本之间的平均距离;样本与其他簇中的样本的相似度为/>,等于该样本与下一个最近的簇中的所有样本之间的平均距离;则单个样本的轮廓系数的计算方式为:
。
轮廓系数的取值范围为(-1,1),轮廓系数的取值越接近1则样本与该样本所在的簇中的样本的相似度越高,并且与其他簇中的样本的相似度越低,当样本与簇外的样本的相似度高时,轮廓系数为负,当轮廓系数为0时,则代表两个簇中的样本的相似度一致,两个簇为同一簇,即轮廓系数越接近1,样本相似度越高。如果一个簇中的大多数样本轮廓系数均大于设定值,则聚类有效。
可选的,对每一个查询到的特征属性,利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算,得到每一个特征属性与主索引信息的相似度分值,包括:
获取每一个查询到的特征属性的第一字符串与主索引信息的第二字符串,计算第一字符串与第二字符串的词频,得到词频向量;根据词频向量利用余弦相似度公式计算相似度分值,得到每一个特征属性与主索引信息的相似度分值。
在实际应用过程中,利用余弦相似度算法将查询到的特征属性与主索引信息进行匹配,得到每一个特征属性与主索引信息的相似度分值,若所有特征属性的相似度总分值大于设定阈值,则查询到的所有特征属性与主索引信息属于同一患者信息中的特征属性。
具体的,相似度分值计算的具体过程如下:
余弦相似度通过测量两个向量的夹角的余弦值来度量特征属性与主数据索引的相似性。若两个向量的夹角为0度,则余弦值为1,而除0度以外的角度的余弦值都小于1,最小值为-1,因而能够通过两个向量之间的夹角的余弦值确定两个向量是否指向相同的方向。若两个向量指向相同的方向,余弦相似度对应的余弦值为1;两个向量的夹角为90度时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。该结果与向量的长度无关,仅与向量的指向方向相关,余弦相似度的值的取值范围为-1到1。
两个向量间的余弦值通过欧几里得点积公式计算,设特征属性对应的特征向量为词频向量,主索引信息对应的特征向量为词频向量/>,两个词频向量间的夹角为/>,则:
。
即得到每一个特征属性与主索引信息的相似度分值。表示词频向量的模长。
实施例2
基于与本发明的实施例1中所示的方法相同的原理,如附图2所示,本发明的实施例中还提供了基于聚类算法构建患者身份标识的装置,包括获取单元、索引匹配单元、模型构建单元、聚类划分单元、生成单元、主索引信息构建单元、匹配计算单元、相加单元与筛选单元;
获取单元,用于获取各个医疗系统中的所有患者信息,每个患者信息包括若干个特征属性;
索引匹配单元,用于利用音形码对患者信息中的特征属性进行索引匹配,得到基础分数;
模型构建单元,用于根据基础分数,构建聚类算法模型,选择特征属性构建特征向量;
聚类划分单元,用于根据聚类算法模型计算各个特征向量的相似度,根据相似度对各个特征属性进行聚类划分;
生成单元,用于对聚类划分的结果进行评估,生成目标聚类信息;
主索引信息构建单元,用于在目标聚类信息中查询特征属性,构建特征属性的主索引信息;
匹配计算单元,用于对每一个查询到的特征属性,利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算,得到每一个特征属性与主索引信息的相似度分值;
相加单元,用于对每一个目标聚类信息中各个特征属性对应的相似度分值进行相加,得到相似度总分值;
筛选单元,用于对相似度总分值进行筛选,判断是否存在相似度总分值大于设定阈值,若是则将大于设定阈值的相似度总分值作为目标相似度总分值,得到主索引信息对应的患者信息中所有特征属性的集合;否则若存在相似度总分值大于设定阈值,则重新构建特征属性中的主索引信息,进行相似度匹配计算。
可选的,特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码。
可选的,聚类算法模型为欧氏距离函数模型或K-Means聚类算法模型,根据欧氏距离函数模型或K-Means聚类算法模型计算各个特征向量的相似度。
可选的,对聚类划分的结果进行评估,生成目标聚类信息,包括:采用欧式距离函数计算特征向量之间的欧式距离,当欧式距离小于设定距离,则聚类划分有效,否则聚类划分无效,重新选择特征属性构建特征向量进行聚类划分。
可选的,对聚类划分的结果进行评估通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估,生成目标聚类信息,包括:
S1:为待聚类的样本寻找聚类中心;
S2:计算每个样本到各个聚类中心的距离作为特征向量,将每个样本聚类到离该样本最近的聚类中;
S3:计算各个聚类中所有样本的坐标平均值,并将平均值作为新的聚类中心;
S4:重复S1-S3,直到聚类中心移动范围小于设定值或者聚类次数达到设定次数。
可选的,对每一个查询到的特征属性,利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算,得到每一个特征属性与主索引信息的相似度分值,包括:
获取每一个查询到的特征属性的第一字符串与主索引信息的第二字符串,计算第一字符串与第二字符串的词频,得到词频向量;根据词频向量利用余弦相似度公式计算相似度分值,得到每一个特征属性与主索引信息的相似度分值。
实施例3
基于与本发明的实施例中所示的方法相同的原理,本发明的实施例中还提供了一种电子设备,如附图3所示,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本发明实施例所示的基于聚类算法构建患者身份标识的方法。
在一个可选实施例中提供了一种电子设备,图3所示的电子设备30包括:处理器310和存储器330。其中,处理器310和存储器330相连,如通过总线320相连。
可选地,电子设备30还可以包括收发器340,收发器340可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器340不限于一个,该电子设备30的结构并不构成对本发明实施例的限定。
处理器310可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器310也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线320可包括一通路,在上述组件之间传送信息。总线320可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线320可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器330可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器330用于存储执行本发明方案的应用程序代码(计算机程序),并由处理器310来控制执行。处理器310用于执行存储器330中存储的应用程序代码,以实现前述方法实施例所示的内容。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于聚类算法构建患者身份标识的方法,其特征在于,包括:
获取各个医疗系统中的所有患者信息,每个所述患者信息包括若干个特征属性;所述特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码;
利用音形码对所述患者信息中的所述特征属性进行索引匹配,得到基础分数;
根据所述基础分数,构建聚类算法模型,选择所述特征属性构建特征向量;
根据所述聚类算法模型计算各个所述特征向量的相似度,根据所述相似度对各个所述特征属性进行聚类划分;
通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估,生成目标聚类信息,包括:S1:为待聚类的样本寻找聚类中心;S2:计算每个所述样本到各个所述聚类中心的距离作为所述特征向量,将每个所述样本聚类到离该所述样本最近的所述聚类中;S3:计算各个所述聚类中所有所述样本的坐标平均值,并将所述坐标平均值作为新的聚类中心;S4:重复S1-S3,直到所述聚类中心移动范围小于设定值或者聚类次数达到设定次数;
在所述目标聚类信息中查询所述特征属性,构建所述特征属性的主索引信息;
对每一个查询到的所述特征属性,利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算,得到每一个所述特征属性与所述主索引信息的相似度分值;
对每一个所述目标聚类信息中各个所述特征属性对应的所述相似度分值进行相加,得到相似度总分值;
对所述相似度总分值进行筛选,判断是否存在所述相似度总分值大于设定阈值,若是则将大于设定阈值的所述相似度总分值作为目标相似度总分值,得到所述主索引信息对应的所述患者信息中所有所述特征属性的集合;否则,则重新构建所述特征属性中的所述主索引信息,进行相似度匹配计算。
2.根据权利要求1所述基于聚类算法构建患者身份标识的方法,其特征在于,所述聚类算法模型为欧氏距离函数模型或K-Means聚类算法模型,根据所述欧氏距离函数模型或所述K-Means聚类算法模型计算各个所述特征向量的相似度。
3.根据权利要求2所述基于聚类算法构建患者身份标识的方法,其特征在于,对聚类划分的结果进行评估,生成目标聚类信息,包括:采用欧式距离函数计算所述特征向量之间的欧式距离,当所述欧式距离小于设定距离,则聚类划分有效,否则聚类划分无效,重新选择所述特征属性构建特征向量进行聚类划分。
4.根据权利要求1所述基于聚类算法构建患者身份标识的方法,其特征在于,对每一个查询到的所述特征属性,利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算,得到每一个所述特征属性与所述主索引信息的相似度分值,包括:
获取每一个查询到的所述特征属性的第一字符串与所述主索引信息的第二字符串,计算所述第一字符串与所述第二字符串的词频,得到词频向量;根据所述词频向量利用余弦相似度公式计算所述相似度分值,得到每一个所述特征属性与所述主索引信息的所述相似度分值。
5.基于聚类算法构建患者身份标识的装置,其特征在于,包括获取单元、索引匹配单元、模型构建单元、聚类划分单元、生成单元、主索引信息构建单元、匹配计算单元、相加单元与筛选单元;
所述获取单元,用于获取各个医疗系统中的所有患者信息,每个所述患者信息包括若干个特征属性;所述特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码;
所述索引匹配单元,用于利用音形码对所述患者信息中的所述特征属性进行索引匹配,得到基础分数;
所述模型构建单元,用于根据所述基础分数,构建聚类算法模型,选择所述特征属性构建特征向量;
所述聚类划分单元,用于根据所述聚类算法模型计算各个所述特征向量的相似度,根据所述相似度对各个所述特征属性进行聚类划分;
所述生成单元,用于通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估,生成目标聚类信息,包括:S1:为待聚类的样本寻找聚类中心;S2:计算每个所述样本到各个所述聚类中心的距离作为所述特征向量,将每个所述样本聚类到离该所述样本最近的所述聚类中;S3:计算各个所述聚类中所有所述样本的坐标平均值,并将所述坐标平均值作为新的聚类中心;S4:重复S1-S3,直到所述聚类中心移动范围小于设定值或者聚类次数达到设定次数;
所述主索引信息构建单元,用于在所述目标聚类信息中查询所述特征属性,构建所述特征属性的主索引信息;
所述匹配计算单元,用于对每一个查询到的所述特征属性,利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算,得到每一个所述特征属性与所述主索引信息的相似度分值;
所述相加单元,用于对每一个所述目标聚类信息中各个所述特征属性对应的所述相似度分值进行相加,得到相似度总分值;
所述筛选单元,用于对所述相似度总分值进行筛选,判断是否存在所述相似度总分值大于设定阈值,若是则将大于设定阈值的所述相似度总分值作为目标相似度总分值,得到所述主索引信息对应的所述患者信息中所有所述特征属性的集合;否则若存在所述相似度总分值大于设定阈值,则重新构建所述特征属性中的所述主索引信息,进行相似度匹配计算。
6.一种电子设备,其特征在于,包括:
处理器和存储器;
所述存储器,用于存储计算机操作指令;
所述处理器,用于通过调用所述计算机操作指令,执行权利要求1至4中任一项所述的基于聚类算法构建患者身份标识的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310662401.2A CN116386801B (zh) | 2023-06-06 | 2023-06-06 | 基于聚类算法构建患者身份标识的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310662401.2A CN116386801B (zh) | 2023-06-06 | 2023-06-06 | 基于聚类算法构建患者身份标识的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116386801A CN116386801A (zh) | 2023-07-04 |
CN116386801B true CN116386801B (zh) | 2023-08-11 |
Family
ID=86966074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310662401.2A Active CN116386801B (zh) | 2023-06-06 | 2023-06-06 | 基于聚类算法构建患者身份标识的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386801B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631561B (zh) * | 2023-07-21 | 2023-09-19 | 四川互慧软件有限公司 | 基于特征划分的患者身份信息匹配方法、装置及电子设备 |
CN116757189B (zh) * | 2023-08-11 | 2023-10-31 | 四川互慧软件有限公司 | 一种基于汉字特征的患者姓名消歧方法 |
CN116798646B (zh) * | 2023-08-17 | 2023-11-24 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
CN117062063A (zh) * | 2023-09-01 | 2023-11-14 | 唐人通信技术服务股份有限公司 | 无线网络的安全防护方法、装置、设备及介质 |
CN117542536B (zh) * | 2024-01-10 | 2024-04-12 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于体检数据的智能护理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295182A (zh) * | 2016-08-10 | 2017-01-04 | 依据数据(湖南)科技有限公司 | 一种基于患者生物信息的身份识别方法 |
CN107610779A (zh) * | 2017-10-25 | 2018-01-19 | 医渡云(北京)技术有限公司 | 疾病评价及患病风险评估方法及装置 |
US10109374B1 (en) * | 2013-01-02 | 2018-10-23 | Medivizor International Limited | Methods and systems and computer program for providing personalized medical information |
CN110600092A (zh) * | 2019-08-13 | 2019-12-20 | 万达信息股份有限公司 | 一种应用于医疗领域的人员主索引的生成方法和系统 |
CN113934895A (zh) * | 2021-09-29 | 2022-01-14 | 浪潮云信息技术股份公司 | 一种辅助建立患者主索引的方法 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN115295104A (zh) * | 2022-05-16 | 2022-11-04 | 江苏科技大学 | 一种患者身份信息匹配的相似度评价方法及系统 |
CN115688760A (zh) * | 2022-11-11 | 2023-02-03 | 深圳市蒲睿科技有限公司 | 一种智能化导诊方法、装置、设备及存储介质 |
-
2023
- 2023-06-06 CN CN202310662401.2A patent/CN116386801B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10109374B1 (en) * | 2013-01-02 | 2018-10-23 | Medivizor International Limited | Methods and systems and computer program for providing personalized medical information |
CN106295182A (zh) * | 2016-08-10 | 2017-01-04 | 依据数据(湖南)科技有限公司 | 一种基于患者生物信息的身份识别方法 |
CN107610779A (zh) * | 2017-10-25 | 2018-01-19 | 医渡云(北京)技术有限公司 | 疾病评价及患病风险评估方法及装置 |
CN110600092A (zh) * | 2019-08-13 | 2019-12-20 | 万达信息股份有限公司 | 一种应用于医疗领域的人员主索引的生成方法和系统 |
CN113934895A (zh) * | 2021-09-29 | 2022-01-14 | 浪潮云信息技术股份公司 | 一种辅助建立患者主索引的方法 |
CN115295104A (zh) * | 2022-05-16 | 2022-11-04 | 江苏科技大学 | 一种患者身份信息匹配的相似度评价方法及系统 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN115688760A (zh) * | 2022-11-11 | 2023-02-03 | 深圳市蒲睿科技有限公司 | 一种智能化导诊方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于K-Means的大数据相似重复记录检测;《现代信息科技》;第06卷(第08期);第89-91页,全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116386801A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116386801B (zh) | 基于聚类算法构建患者身份标识的方法、装置及电子设备 | |
Qi et al. | An effective and efficient hierarchical K-means clustering algorithm | |
Bolón-Canedo et al. | Feature selection for high-dimensional data | |
Deng et al. | On group nearest group query processing | |
CN106649696B (zh) | 信息分类方法及装置 | |
CN116631561B (zh) | 基于特征划分的患者身份信息匹配方法、装置及电子设备 | |
CN116798646B (zh) | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 | |
CN111785383B (zh) | 数据处理方法及相关设备 | |
CN116628560A (zh) | 基于聚类算法的蛇伤病例数据识别方法、装置及电子设备 | |
US11782991B2 (en) | Accelerated large-scale similarity calculation | |
CN113853599A (zh) | 有效的新鲜度爬行调度 | |
CN114706985A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
US20200301949A1 (en) | System and method for determining data patterns using data mining | |
CN113254673A (zh) | 一种基于知识图谱的数据管理方法、系统、设备和介质 | |
CN113314207A (zh) | 一种对象推荐方法、装置、存储介质及电子设备 | |
Bayasi et al. | Continual-GEN: Continual Group ensembling for domain-agnostic skin lesion classification | |
CN111190902A (zh) | 一种医疗数据的结构化方法、装置、设备及存储介质 | |
CN115661472A (zh) | 图像查重方法、装置、计算机设备及存储介质 | |
US20180276294A1 (en) | Information processing apparatus, information processing system, and information processing method | |
CN112101021B (zh) | 一种实现标准词映射的方法、装置及设备 | |
CN113283468A (zh) | 基于三维形状知识图谱的三维模型检索方法及装置 | |
CN113990514A (zh) | 医师诊疗行为的异常检测装置、计算机设备及存储介质 | |
CN113869455A (zh) | 无监督聚类方法、装置、电子设备及介质 | |
CN113704236A (zh) | 政务系统数据质量评估方法、装置、终端及存储介质 | |
CN111429232A (zh) | 产品推荐方法、装置和电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |