CN116386801B

CN116386801B - 基于聚类算法构建患者身份标识的方法、装置及电子设备

Info

Publication number: CN116386801B
Application number: CN202310662401.2A
Authority: CN
Inventors: 王涌军; 张平; 岳小波
Original assignee: Sichuan Huhui Software Co ltd
Current assignee: Sichuan Huhui Software Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-08-11
Anticipated expiration: 2043-06-06
Also published as: CN116386801A

Abstract

本发明属于数据管理技术领域，涉及基于聚类算法构建患者身份标识的方法、装置及电子设备，包括：获取各个医疗系统中所有患者信息；利用音形码进行索引匹配；构建聚类算法模型，选择特征属性构建特征向量；根据相似度对各个特征属性进行聚类划分；评估生成目标聚类信息；构建特征属性的主索引信息；利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算，得到相似度分值；计算相似度总分值；筛选患者信息中所有特征属性的集合。本发明建立用于维护和管理患者的唯一身份标识，并建立患者在各个医疗信息化系统中的标识与该唯一身份标识之间的映射关系，将不同医疗系统关联，实现患者健康档案信息在多个医疗系统之间的信息共享。

Description

基于聚类算法构建患者身份标识的方法、装置及电子设备

技术领域

本发明涉及数据管理技术领域，具体而言，涉及基于聚类算法构建患者身份标识的方法、装置及电子设备。

背景技术

患者主索引（Master Patient Index，简称MPI）是患者在各系统中的唯一标识，通过此标识可以找出各医院机构对应的患者的健康档案信息。

患者就诊会在相同或者不同的医疗系统建档办理多个病历卡，患者的医疗数据分散于不同的医疗系统中，不同医疗系统间无法进行数据共享，一方面导致了各个医疗系统存储了很多冗余信息，另一方面医生在临床决策时无法获取患者所有的健康档案信息而缺乏足够的数据作为支撑。

发明内容

为了解决上述技术问题，本发明提供基于聚类算法构建患者身份标识的方法、装置及电子设备。

第一方面，本发明提供了基于聚类算法构建患者身份标识的方法，包括：

获取各个医疗系统中的所有患者信息，每个所述患者信息包括若干个特征属性；

利用音形码对所述患者信息中的所述特征属性进行索引匹配，得到基础分数；

根据所述基础分数，构建聚类算法模型，选择所述特征属性构建特征向量；

根据所述聚类算法模型计算各个所述特征向量的相似度，根据所述相似度对各个所述特征属性进行聚类划分；

对聚类划分的结果进行评估，生成目标聚类信息；

在所述目标聚类信息中查询所述特征属性，构建所述特征属性的主索引信息；

对每一个查询到的所述特征属性，利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算，得到每一个所述特征属性与所述主索引信息的相似度分值；

对每一个所述目标聚类信息中各个所述特征属性对应的所述相似度分值进行相加，得到相似度总分值；

对所述相似度总分值进行筛选，判断是否存在所述相似度总分值大于设定阈值，若是则将大于设定阈值的所述相似度总分值作为目标相似度总分值，得到所述主索引信息对应的所述患者信息中所有所述特征属性的集合；否则若存在所述相似度总分值大于设定阈值，则重新构建所述特征属性中的所述主索引信息，进行相似度匹配计算。

第二方面，本发明提供了基于聚类算法构建患者身份标识的装置，包括获取单元、索引匹配单元、模型构建单元、聚类划分单元、生成单元、主索引信息构建单元、匹配计算单元、相加单元与筛选单元；

所述获取单元，用于获取各个医疗系统中的所有患者信息，每个所述患者信息包括若干个特征属性；

所述索引匹配单元，用于利用音形码对所述患者信息中的所述特征属性进行索引匹配，得到基础分数；

所述模型构建单元，用于根据所述基础分数，构建聚类算法模型，选择所述特征属性构建特征向量；

所述聚类划分单元，用于根据所述聚类算法模型计算各个所述特征向量的相似度，根据所述相似度对各个所述特征属性进行聚类划分；

所述生成单元，用于对聚类划分的结果进行评估，生成目标聚类信息；

所述主索引信息构建单元，用于在所述目标聚类信息中查询所述特征属性，构建所述特征属性的主索引信息；

所述匹配计算单元，用于对每一个查询到的所述特征属性，利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算，得到每一个所述特征属性与所述主索引信息的相似度分值；

所述相加单元，用于对每一个所述目标聚类信息中各个所述特征属性对应的所述相似度分值进行相加，得到相似度总分值；

所述筛选单元，用于对所述相似度总分值进行筛选，判断是否存在所述相似度总分值大于设定阈值，若是则将大于设定阈值的所述相似度总分值作为目标相似度总分值，得到所述主索引信息对应的所述患者信息中所有所述特征属性的集合；否则若存在所述相似度总分值大于设定阈值，则重新构建所述特征属性中的所述主索引信息，进行相似度匹配计算。

第三方面，本发明提供了一种电子设备，包括：

处理器和存储器；

所述存储器，用于存储计算机操作指令；

所述处理器，用于通过调用所述计算机操作指令，执行所述的基于聚类算法构建患者身份标识的方法。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码。

进一步，所述聚类算法模型为欧氏距离函数模型或K-Means聚类算法模型，根据所述欧氏距离函数模型或所述K-Means聚类算法模型计算各个所述特征向量的相似度。

进一步，对聚类划分的结果进行评估，生成目标聚类信息，包括：采用欧式距离函数计算所述特征向量之间的欧式距离，当所述欧式距离小于设定距离，则聚类划分有效，否则聚类划分无效，重新选择所述特征属性构建特征向量进行聚类划分。

进一步，对聚类划分的结果进行评估通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估，生成目标聚类信息，包括：

S1:为待聚类的样本寻找聚类中心；

S2:计算每个所述样本到各个所述聚类中心的距离作为所述特征向量，将每个所述样本聚类到离该所述样本最近的所述聚类中；

S3:计算各个所述聚类中所有所述样本的坐标平均值，并将所述平均值作为新的聚类中心；

S4:重复S1-S3，直到所述聚类中心移动范围小于设定值或者聚类次数达到设定次数。

进一步，对每一个查询到的所述特征属性，利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算，得到每一个所述特征属性与所述主索引信息的相似度分值，包括：

获取每一个查询到的所述特征属性的第一字符串与所述主索引信息的第二字符串，计算所述第一字符串与所述第二字符串的词频，得到词频向量；根据所述词频向量利用余弦相似度公式计算所述相似度分值，得到每一个所述特征属性与所述主索引信息的所述相似度分值。

本发明的有益效果是：本发明建立用于维护和管理患者的唯一身份标识，并建立患者在各个医疗信息化系统中的标识与该唯一身份标识之间的映射关系，从而能够将不同医疗系统关联起来，实现患者健康档案信息在多个医疗系统之间的信息共享。

附图说明

图1为本发明实施例1提供的基于聚类算法构建患者身份标识的方法的原理图；

图2为本发明实施例2提供的基于聚类算法构建患者身份标识的装置的原理图；

图3为一种电子设备的原理图。

图标：30-电子设备；310-处理器；320-总线；330-存储器；340-收发器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例1

作为一个实施例，如附图1所示，为解决上述技术问题，本实施例提供了基于聚类算法构建患者身份标识的方法，包括：

获取各个医疗系统中的所有患者信息，每个患者信息包括若干个特征属性；

利用音形码对患者信息中的特征属性进行索引匹配，得到基础分数；

根据基础分数，构建聚类算法模型，选择特征属性构建特征向量；

根据聚类算法模型计算各个特征向量的相似度，根据相似度对各个特征属性进行聚类划分；

对聚类划分的结果进行评估，生成目标聚类信息；

在目标聚类信息中查询特征属性，构建特征属性的主索引信息；

对每一个查询到的特征属性，利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算，得到每一个特征属性与主索引信息的相似度分值；

对每一个目标聚类信息中各个特征属性对应的相似度分值进行相加，得到相似度总分值；

对相似度总分值进行筛选，判断是否存在相似度总分值大于设定阈值，若是则将大于设定阈值的相似度总分值作为目标相似度总分值，得到主索引信息对应的患者信息中所有特征属性的集合；否则若存在相似度总分值大于设定阈值，则重新构建特征属性中的主索引信息，进行相似度匹配计算。

本发明建立用于维护和管理患者的唯一身份标识，并建立患者在各个医疗信息化系统中的标识与该唯一身份标识之间的映射关系，从而能够将不同医疗系统关联起来，实现患者健康档案信息在多个医疗系统之间的信息共享。

可选的，特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码。

利用特征属性对各个医疗信息系统中的患者信息进行识别，从而有利于确定该患者信息属于唯一患者。

可选的，聚类算法模型为欧氏距离函数模型或K-Means聚类算法模型，根据欧氏距离函数模型或K-Means聚类算法模型计算各个特征向量的相似度。

可选的，对聚类划分的结果进行评估，生成目标聚类信息，包括：采用欧式距离函数计算特征向量之间的欧式距离，当欧式距离小于设定距离，则聚类划分有效，否则聚类划分无效，重新选择特征属性构建特征向量进行聚类划分。

欧式距离越小，两个特征向量越相似。当两个特征向量之间的欧式距离小于设定值（一般的，该设定值大于0且小于1），则聚类划分有效。

可选的，对聚类划分的结果进行评估通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估，生成目标聚类信息，包括：

S1:为待聚类的样本寻找聚类中心；

S2:计算每个样本到各个聚类中心的距离作为特征向量，将每个样本聚类到离该样本最近的聚类中；

S3:计算各个聚类中所有样本的坐标平均值，并将平均值作为新的聚类中心；

S4:重复S1-S3，直到聚类中心移动范围小于设定值或者聚类次数达到设定次数。

样本与该样本所在的簇中的其他样本的相似度为，等于该样本与同一簇中所有其他样本之间的平均距离；样本与其他簇中的样本的相似度为/>，等于该样本与下一个最近的簇中的所有样本之间的平均距离；则单个样本的轮廓系数的计算方式为：

。

轮廓系数的取值范围为（-1，1），轮廓系数的取值越接近1则样本与该样本所在的簇中的样本的相似度越高，并且与其他簇中的样本的相似度越低，当样本与簇外的样本的相似度高时，轮廓系数为负，当轮廓系数为0时，则代表两个簇中的样本的相似度一致，两个簇为同一簇，即轮廓系数越接近1，样本相似度越高。如果一个簇中的大多数样本轮廓系数均大于设定值，则聚类有效。

可选的，对每一个查询到的特征属性，利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算，得到每一个特征属性与主索引信息的相似度分值，包括：

获取每一个查询到的特征属性的第一字符串与主索引信息的第二字符串，计算第一字符串与第二字符串的词频，得到词频向量；根据词频向量利用余弦相似度公式计算相似度分值，得到每一个特征属性与主索引信息的相似度分值。

在实际应用过程中，利用余弦相似度算法将查询到的特征属性与主索引信息进行匹配，得到每一个特征属性与主索引信息的相似度分值，若所有特征属性的相似度总分值大于设定阈值，则查询到的所有特征属性与主索引信息属于同一患者信息中的特征属性。

具体的，相似度分值计算的具体过程如下：

余弦相似度通过测量两个向量的夹角的余弦值来度量特征属性与主数据索引的相似性。若两个向量的夹角为0度，则余弦值为1，而除0度以外的角度的余弦值都小于1，最小值为-1，因而能够通过两个向量之间的夹角的余弦值确定两个向量是否指向相同的方向。若两个向量指向相同的方向，余弦相似度对应的余弦值为1；两个向量的夹角为90度时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。该结果与向量的长度无关，仅与向量的指向方向相关，余弦相似度的值的取值范围为-1到1。

两个向量间的余弦值通过欧几里得点积公式计算，设特征属性对应的特征向量为词频向量，主索引信息对应的特征向量为词频向量/>，两个词频向量间的夹角为/>，则：

。

即得到每一个特征属性与主索引信息的相似度分值。表示词频向量的模长。

实施例2

基于与本发明的实施例1中所示的方法相同的原理，如附图2所示，本发明的实施例中还提供了基于聚类算法构建患者身份标识的装置，包括获取单元、索引匹配单元、模型构建单元、聚类划分单元、生成单元、主索引信息构建单元、匹配计算单元、相加单元与筛选单元；

获取单元，用于获取各个医疗系统中的所有患者信息，每个患者信息包括若干个特征属性；

索引匹配单元，用于利用音形码对患者信息中的特征属性进行索引匹配，得到基础分数；

模型构建单元，用于根据基础分数，构建聚类算法模型，选择特征属性构建特征向量；

聚类划分单元，用于根据聚类算法模型计算各个特征向量的相似度，根据相似度对各个特征属性进行聚类划分；

生成单元，用于对聚类划分的结果进行评估，生成目标聚类信息；

主索引信息构建单元，用于在目标聚类信息中查询特征属性，构建特征属性的主索引信息；

匹配计算单元，用于对每一个查询到的特征属性，利用余弦相似度算法将查询到的特征属性与主索引信息进行相似度匹配计算，得到每一个特征属性与主索引信息的相似度分值；

相加单元，用于对每一个目标聚类信息中各个特征属性对应的相似度分值进行相加，得到相似度总分值；

筛选单元，用于对相似度总分值进行筛选，判断是否存在相似度总分值大于设定阈值，若是则将大于设定阈值的相似度总分值作为目标相似度总分值，得到主索引信息对应的患者信息中所有特征属性的集合；否则若存在相似度总分值大于设定阈值，则重新构建特征属性中的主索引信息，进行相似度匹配计算。

S1:为待聚类的样本寻找聚类中心；

实施例3

基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，如附图3所示，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明实施例所示的基于聚类算法构建患者身份标识的方法。

在一个可选实施例中提供了一种电子设备，图3所示的电子设备30包括：处理器310和存储器330。其中，处理器310和存储器330相连，如通过总线320相连。

可选地，电子设备30还可以包括收发器340，收发器340可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器340不限于一个，该电子设备30的结构并不构成对本发明实施例的限定。

处理器310可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器310也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线320可包括一通路，在上述组件之间传送信息。总线320可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线320可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器330可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器330用于存储执行本发明方案的应用程序代码（计算机程序），并由处理器310来控制执行。处理器310用于执行存储器330中存储的应用程序代码，以实现前述方法实施例所示的内容。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于聚类算法构建患者身份标识的方法，其特征在于，包括：

获取各个医疗系统中的所有患者信息，每个所述患者信息包括若干个特征属性；所述特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码；

通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估，生成目标聚类信息，包括：S1:为待聚类的样本寻找聚类中心；S2:计算每个所述样本到各个所述聚类中心的距离作为所述特征向量，将每个所述样本聚类到离该所述样本最近的所述聚类中；S3:计算各个所述聚类中所有所述样本的坐标平均值，并将所述坐标平均值作为新的聚类中心；S4:重复S1-S3，直到所述聚类中心移动范围小于设定值或者聚类次数达到设定次数；

对所述相似度总分值进行筛选，判断是否存在所述相似度总分值大于设定阈值，若是则将大于设定阈值的所述相似度总分值作为目标相似度总分值，得到所述主索引信息对应的所述患者信息中所有所述特征属性的集合；否则，则重新构建所述特征属性中的所述主索引信息，进行相似度匹配计算。

2.根据权利要求1所述基于聚类算法构建患者身份标识的方法，其特征在于，所述聚类算法模型为欧氏距离函数模型或K-Means聚类算法模型，根据所述欧氏距离函数模型或所述K-Means聚类算法模型计算各个所述特征向量的相似度。

3.根据权利要求2所述基于聚类算法构建患者身份标识的方法，其特征在于，对聚类划分的结果进行评估，生成目标聚类信息，包括：采用欧式距离函数计算所述特征向量之间的欧式距离，当所述欧式距离小于设定距离，则聚类划分有效，否则聚类划分无效，重新选择所述特征属性构建特征向量进行聚类划分。

4.根据权利要求1所述基于聚类算法构建患者身份标识的方法，其特征在于，对每一个查询到的所述特征属性，利用余弦相似度算法将查询到的所述特征属性与所述主索引信息进行相似度匹配计算，得到每一个所述特征属性与所述主索引信息的相似度分值，包括：

5.基于聚类算法构建患者身份标识的装置，其特征在于，包括获取单元、索引匹配单元、模型构建单元、聚类划分单元、生成单元、主索引信息构建单元、匹配计算单元、相加单元与筛选单元；

所述获取单元，用于获取各个医疗系统中的所有患者信息，每个所述患者信息包括若干个特征属性；所述特征属性包括姓名、性别、出生日期、身份证号码、居住地址、电话号码与手机号码；

所述生成单元，用于通过聚类划分的结果中样本的轮廓系数对聚类划分的结果进行评估，生成目标聚类信息，包括：S1:为待聚类的样本寻找聚类中心；S2:计算每个所述样本到各个所述聚类中心的距离作为所述特征向量，将每个所述样本聚类到离该所述样本最近的所述聚类中；S3:计算各个所述聚类中所有所述样本的坐标平均值，并将所述坐标平均值作为新的聚类中心；S4:重复S1-S3，直到所述聚类中心移动范围小于设定值或者聚类次数达到设定次数；

6.一种电子设备，其特征在于，包括：

处理器和存储器；

所述存储器，用于存储计算机操作指令；

所述处理器，用于通过调用所述计算机操作指令，执行权利要求1至4中任一项所述的基于聚类算法构建患者身份标识的方法。