CN111223568B

CN111223568B - 一种改进k-means聚类的糖尿病预警模型

Info

Publication number: CN111223568B
Application number: CN202010204998.2A
Authority: CN
Inventors: 高秀娥; 陈波; 桑海涛; 陈世峰; 谢文学
Original assignee: Lingnan Normal University
Current assignee: Lingnan Normal University
Priority date: 2019-04-18
Filing date: 2020-03-20
Publication date: 2024-03-26
Anticipated expiration: 2040-03-20
Also published as: CN110085322A; CN111223568A

Abstract

本发明涉及一种改进k‑means聚类的糖尿病预警系统，该系统包括存储设备；基于改进k‑means聚类的糖尿病预警模块，其耦合到所述存储设备并被配置为：基于第一个聚类中心点，得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型，其中，选定数据集，定义聚类簇数k、领域半径ε，选择样本点X_i与样本之间距离之和最大的点作为第一个聚类中心点，以使得第一个聚类中心点落在各簇类的中心部位。本发明所提出的糖尿病预警系统利用改进后的聚类中心方法建立了糖尿病分段函数预警模型，提高了糖尿病预警能力，为糖尿病不同阶段的诊断和治疗提供依据。

Description

一种改进k-means聚类的糖尿病预警模型

技术领域

本发明涉及医疗信息化技术领域，尤其涉及一种改进k-means聚类的糖尿病预警模型。

背景技术

电子病历已经是医院综合信息系统的主要部分，生物技术和健康科学的显着进步已经致使电子健康记录(EHR)产生了大量原始数据，如遗传数据和临床信息指标等。现有的医院信息系统虽有大量糖尿病诊断病例样本，然而只是单纯地做病例存储和简单的统计分析，并没有进一步挖掘其中的规律和知识，因此糖尿病诊断样本利用率较低；同时，已有糖尿病数据集仅有双标签，没有对未患病数据进行标记，难以实现健康人群的预警。

目前还没有根治糖尿病的方法，一般是采用一些治疗手段来控制病情的发展。但是糖尿病引起的并发症却是危害人们健康甚至导致死亡的杀手，糖尿病并发症有以下两个特点，一是并发症早期不易发现，且当前的糖尿病诊疗还是以医生的诊疗为主，从医人员根据患者的病征表现、各项身体指标的情况、历史治疗情况等结合医生的自身经验积累得出电子病历的诊疗方法，而且由于电子病历的个体特征存在差异，相似的病情使用相同的诊疗方法往往结果也是迥然不同；二是并发症一旦产生，药物治疗很难逆转，且造成的结果是很严重的，甚至导致死亡。因此强调尽早预防糖尿病并发症，及早发现、及早治疗。

目前研究人员在对糖尿病的各个方面(诊断、病理生理学、医治过程等)进行的广泛研究产生了大量相关数据。通过对不同研究中所使用的数据挖掘方法进行对比可以发现，大部分针对糖尿病相关方面的研究使用的是无监督学习的聚类分析方法。聚类的最终目的就是使同一类的数据对象之间相似度最大，彼此相似，而不同类的数据对象之间相似度最小，彼此相异。聚类算法是聚类分析的主要研究内容，基于划分的聚类算法是目前应用最广泛、最成熟的聚类算法，其中，K-Means聚类算法是最为经典，同时也是使用最为广泛的一种基于划分的聚类算法，它属于基于距离的聚类算法。

K-Means聚类算法作为数据挖掘的重要分支，通常以误差平方和函数作为聚类的准则函数。它是一种基于距离的典型的聚类算法，以距离来度量数据之间的相似性，两个数据的距离越小就越相似，该算法的最终目标是使每个类内密集，类与类之间相互独立，它的聚类效果越好。但K-Means也有一些不可避免的缺点，比如对初值的比较敏感，不同的初始聚类中心会导致不同的聚类结果，使得算法不稳定，容易陷入局部最优的情况。

如公开日为2017-11-28公开号为CN107403072A的专利文献所提供的一种基于机器学习的2型糖尿病预测预警方法，该方法通过K-means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型，对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级，在对糖尿病数据集使用K-means算法进行分析时，选取K值为2，将分析结果与数据集原始的分类标签进行比较，剔除错误的噪声数据，将剩余的数据集作为下一级Logistic Regression算法的输入。由于起初K-means算法的Seed值是随机选取的，在剔除数据过程中可能造成错误聚类数量过大，故在每次聚类分析结束后计算数据集剩余比(剩余数据项数量除以原始数据项数量)。若比值大于75％，则进入下一步；若比值小于75％，则进入循环重新选取新的Seed值开始聚类。

上述专利所提供的糖尿病预测预警方法采用K-means算法可以对数据集进行无标签的聚类分析，针对初始聚类中心的选择，该方法是通过引入分层算法——下一级Logistic Regression算法来寻求稳定的初始聚类中心，该方法将使得算法大大增加额外的计算量或是阈值设定的经验而破坏算法的收敛性，最终仍难以实现聚类结果的稳定性。

此外，上述专利所提供的糖尿病预测预警方法还提出了应用于糖尿病日常健康管理方面的日常管理模块，日常管理模块包含血糖记录和体征记录；血糖记录针对糖尿病用户，通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库；体征记录针对所有用户，管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比等数据；所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。

又如现有技术中如公开号为CN106845085A的专利文献所提供的一种糖尿病的在线监控系统及其使用方法，其包括用于录入病情数据的第一用户终端和第二用户终端；用于采集数据的云服务器；连接云服务器和医院服务器的前置机；医院服务器可对所述病情数据进行统计分析、并产生预警信息；以及若干第三用户终端，其用于接收所述病情数据、统计分析结果以及预警信息，并供糖尿病医生查看。本发明可实现糖尿病的在线监控，便于护士以及患者实时记录病情数据，并且可以对该病情数据进行统计分析，且产生预警信息，将所述病情数据以及预警信息直观的展现给医生查看，医生可根据所述病情数据以及预警信息制定治疗方案或给出建议，同时还可进行在线会诊以及进行学术研究，实现血糖数据与互联网数据的共享。

现有技术中无论是可穿戴智能设备还是上述专利文献中所提供的糖尿病患者专用的管理系统，由于其监测的目标始终是用户的生理信息，并在生理信息异常时即给出警报，生理信息的变化是由用户行为所引发的，因此此类系统均存在监测时刻滞后严重以及数据敏感性过高的问题，无法为用户提供更为及时可靠的糖尿病风险控制。尤其地，根据美国糖尿病协会《2016年ADA糖尿病诊疗标准》、2013年中华医学会糖尿病分会发布的《中国2型糖尿病防治指南》《中国糖尿病运动治疗指南》，上述文件中都明确了运动干预在糖尿病及糖尿病前期人群治疗中的重要地位，建议并鼓励对糖尿病前期人群制定个性化的运动治疗方案并贯穿治疗的全过程。

运动一方面是一种强有力的治疗和低成本有效的方式，可以通过提高胰岛素敏感性，同时改善胰岛β细胞功能来解决糖尿病这种慢性疾病。但另一方面，运动同时有诱发或加重一些并发症的危险：例如，诱发或加重心肌梗塞、脑中风、眼底出血等；使合并高血压患者的血压升高等。用户例如糖尿病早期患者，在医师的建议下可能自身具有主动运动的意识，但具体运动过程中，极其容易出现运动过量或是运动时间不当等引发潜在危险的情况。因此，现有技术中无论是可穿戴智能设备还是上述专利文献中所提供的糖尿病患者专用的管理系统均无法为对当前用户的糖尿病发生风险进行控制。

此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于发明人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

针对现有技术之不足，本发明提出了一种基于改进k-means聚类的糖尿病预警系统，尤其是对其由于运动过程所引起的糖尿病发生风险进行控制的系统，该系统包括至少一个处理器，耦合至所述至少一个处理器的存储设备，以及它们之间的接口。至少一个处理器包括智能电子设备、糖尿病预警模块、运动方案生成模块以及提示模块。该系统是由智能电子设备设定用于构建基于改进k-means聚类的糖尿病预警模型的至少一个初始参数，并通过接口将所述初始参数传向糖尿病预警模块，然后由糖尿病预警模块构建基于改进k-means聚类的糖尿病预警模型并分析确定关于当前用户的运动风险警告和/或运动引导建议，通过其与智能电子设备之间的接口，糖尿病预警模块将运行的中间结果和整个运行的最终结果传给智能电子设备进行存储或基于用户的指令进行显示。

如图4所示出的作为一个优选实施方式的该系统的通信链路，接口至少包括通信接口(如网络适配器)和I/O接口。该系统中的若干个处理器、接口、存储设备(图中未示出)通过诸如母板的通信总线(实线)互连。如糖尿病预警模块、运动方案生成模块、提示模块以及存储设备中的至少两个硬件之间通过诸如母板的通信总线(实线)互连。各处理器借助于通信接口可操作地耦合至计算机网络。计算机网络可以是因特网、互联网和/或外联网，或与因特网通信的内联网和/或外联网。从而各处理器通过计算机网络或通过直线连接(有线或无线)与智能电子设备通信。优选地，提示模块以及运动方案生成模块分别可以是通过计算机网络或通过直线连接(有线或无线)与通信链路上的各处理器进行通信，而不仅限于如图4所示各部件之间的连接关系。

优选地，糖尿病预警模块和至少一个智能电子设备将其处理后的信号发送给运动方案生成模块，运动方案生成模块缓存该信号并将其处理后的信号发送至至少一个智能电子设备或提示模块。在通信链路上，糖尿病预警模块或至少一个智能电子设备的数据接口连接至运动方案生成模块的数据接口。“连接”也可被称为计算机可读介质如通信介质。在收发数据时，糖尿病预警模块和至少一个智能电子设备的数据发送至运动方案生成模块的接口，来自接口的数据被运动方案生成模块处理后，发送至至少一个智能电子设备或提示模块。

作为一种优选实施方式，本发明所提供的系统包括：由当前用户所操作或佩戴的智能电子设备，智能电子设备上还设置有糖尿病预警模块、运动方案生成模块、提示模块、显示器以及其他处理器。设于由当前用户所操作或佩戴的智能电子设备上的若干处理器之间通过计算机网络与由当前用户/护理人员所操作或佩戴的智能电子设备进行通信。糖尿病预警模块、运动方案生成模块、提示模块、显示器以及其他处理器之间可以通过诸如母板的通信总线(实线)互连。

在本发明中，各处理器例如糖尿病预警模块、运动方案生成模块等可以使用“被配置为”来描述其执行一个或多个功能。一般来说，被配置为执行或被配置为用于执行一个功能的处理器能够执行该功能，或者适合执行该功能，或者可操作地执行该功能，或者是以其他方式例如驱使其他处理器执行该功能。此外，应当理解的是，“X、Y、Z中的至少一个”和“X、Y、Z中的一个或多个”可理解为只有X，只有Y，只有Z，或者X，Y，Z中的两个或多个的任意组合(例如，XYZ，XY，YZ，XZ，等等)。类似的逻辑也可应用于“至少一个……”和“一个或多个……”语句中出现的任何两个或多个对象。在本说明书中使用的，单数形式的“一”或“该”均包括复数的指代对象，除非该内容和上下文另外明确地指明。即例如，提及“系统”包括两个或更多个此类系统的组合，提及“处理器”包括两个或更多个处理器的组合。除非另外指明，“或”连接意图以其作为布尔逻辑算符的正确含义使用，包括择一性的特征选择(A或B)和合取性的特征选择(A或B)两者。

本发明所提出的系统包括至少一个处理器、存储设备以及至少一个计算机可读介质。计算机可读介质包括计算机存储介质和通信介质两者，包括促成计算机程序从一地向另一地转移的任何介质。所述至少一个计算机可读存储介质上载有用于使处理器实现本发明的各个方面的计算机可执行指令。至少一个处理器用于执行所述计算机可执行指令，以使所述系统执行如下所述的基于改进k-means聚类的糖尿病预警方法。例如，至少一个计算机可读存储介质上载有用于使处理器实现本发明的糖尿病预估的计算机可执行指令——基于所选择的第一个聚类中心点，得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型，其中，选定数据集，定义聚类簇数k、领域半径ε，选择样本点X_i与样本之间距离之和最大的点作为第一个聚类中心点，以使得第一个聚类中心点落在各簇类的中心部位，由糖尿病预警模块来执行该计算机可执行指令。例如，至少一个计算机可读存储介质上载有用于使处理器实现本发明的糖尿病预估的计算机可执行指令——通过一级风险预警对获取到的当前用户的当前运动数据进行比对分析；在当前用户的当前运动数据不满足一级风险预警条件的情况下执行二级风险预警分析，由运动方案生成模块来执行该计算机可执行指令。

上述计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他介质。计算机可读存储介质例如可以是但不限于是电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。“连接”也可被称为计算机可读介质。计算机通信介质可以包括同轴电缆、双绞线及光纤等有线通信介质或是无线电通信(利用空间电磁波实现站点之间的通信)。处理器是解释和执行指令的功能单元，也称为中央处理器或CPU，作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以是例如DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其它此类配置。

如附图中的流程图和框图，其显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。这里参照根据本发明实施例的方法、系统(装置)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这里所描述的计算机可执行指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可执行指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言诸如Smalltalk、C++等，以及常规的过程式编程语言诸如C语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

针对上述至少一个所述计算机可读存储介质上载有的用于使处理器实现本发明的各个方面的计算机可执行指令进一步具体说明：

基于改进k-means聚类的糖尿病预警系统，该系统包括存储设备；基于改进k-means聚类的糖尿病预警模块，其耦合至所述存储设备且被配置为：基于所选择的第一个聚类中心点，得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型，其中，选定数据集，定义聚类簇数k、领域半径ε，选择样本点X_i与样本之间距离之和最大的点作为第一个聚类中心点，以使得第一个聚类中心点落在各簇类的中心部位。

根据一种优选实施方式，样本点X_i与样本之间距离之和最大的点的选择是通过以下至少一个步骤来实现的：计算每一个点与第一个聚类中心点的距离dist(x)；选取dist(x)较大的点作为新的聚类中心；对每一个dist(x)求和；最大的Sum(dist(x))为第一个聚类中心点。

根据一种优选实施方式，，所述糖尿病预警模块还被配置为：选择得到新的聚类中心，其中，选择样本点X_i与第一个聚类中心点之间距离较大的点作为新的聚类中心。

根据一种优选实施方式，样本点X_i与第一个聚类中心点之间距离较大的点的选择是通过以下至少一个步骤来实现的：计算每一个点与第一个聚类中心点的距离dist(x)；选取dist(x)较大的点作为新的聚类中心；即对每一个dist(x)求和得到Sum(dist(x))；取一个在Sum(dist(x))内的随机值Random；重复通过公式计算，所述公式为：Random＝Random-dist(x)；直至Random≤0，则该点为下一个聚类中心点。

根据一种优选实施方式，所述糖尿病预警模块还被配置为：遍历操作，其中，重复上步骤2直至得到所需k个中心点，记为{μ_j，j＝1,...,k}。

根据一种优选实施方式，所述糖尿病预警模块还被配置为：标记样本簇，其中，计算每个样本X_i与聚类中心{μ_j，j＝1,...,k}的距离dist_od，根据其距离最近确定样本X_i的簇标记λ_i，并将样本X_i划入相应的簇：

根据一种优选实施方式，所述糖尿病预警模块还被配置为：更新操作，其中，更新所有聚类中心点，按以下公式计算所有新的聚类中心：

根据一种优选实施方式，所有聚类中心点的更新是通过以下至少一个步骤来实现的：计算并判断u_i'＝u_i是否成立；若成立，则保持当前中心不变；若不成立，则将当前u_i更新为u_i'。

根据一种优选实施方式，所述糖尿病预警模块还被配置为：判断所述聚类中心均未更新或迭代次数达到最大是否成立；若成立，得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型；若不成立，返回执行标记样本簇步骤以及更新操作步骤。

根据一种优选实施方式，所述糖尿病预警分段函数为：

其中，μ_i(i＝1,2,3)为第i个聚类中心，y＝0、y＝1、y＝2分别代表健康、I级预警和II级预警，以此可以利用该预警模型来预测是否患糖尿病及糖尿病所处阶段。

一种装置，该装置用于对当前用户的糖尿病发生风险进行控制，尤其是对其由于运动过程所引起的糖尿病发生风险进行控制，该装置至少包括存储设备和处理器，至少一个所述处理器耦合到所述存储设备并被配置为：基于所选择的第一个聚类中心点，得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型，其中，选定数据集，定义聚类簇数k、领域半径ε，选择样本点X_i与样本之间距离之和最大的点作为第一个聚类中心点，以使得第一个聚类中心点落在各簇类的中心部位；通过一级风险预警对获取到的当前用户的当前运动数据进行比对分析；在当前用户的当前运动数据不满足一级风险预警条件的情况下执行二级风险预警分析。

附图说明

图1是本发明实施例中k-means聚类糖尿病预警模型的改进方法算法流程图；

图2是本发明实施例中不同算法在新糖尿病数据集上平均收敛速度对比的线型图；

图3是本发明实施例中不同算法在新糖尿病数据集上多次聚类结果平均ARI对比的线型图；和

图4是本发明提供的糖尿病预警系统的简化模块连接关系示意图。

附图标记列表

1：糖尿病预警模块 2：运动方案生成模块 3：提示模块

4：智能电子设备 5：接口

具体实施方式

下面结合附图对本发明进行详细说明。

本发明针对k-means算法聚类结果不稳定的问题对k-means聚类算法进行了改进，并通过将改进后的k-means聚类算法和糖尿病分段函数相结合，提出了基于k-means聚类糖尿病预警模型的糖尿病预警模块以及糖尿病预警系统，无监督学习聚类算法的改进及应用不仅提高了糖尿病预警能力，为糖尿病不同阶段的诊断和治疗提供了依据；并且，借助于k-means聚类糖尿病预警模型的糖尿病预警能力，本发明所提供的糖尿病预警系统是在用户的生理信息异常之前就对用户行为是否存在潜在风险的情况进行监测，从运动干预的层面分级地控制糖尿病风险以提升治疗效果，消除了监测时刻滞后严重以及数据敏感性过高的问题。

实施例1

结合图1，首先采用Pima糖尿病数据集，因为现有k-means算法采用随机选取初始聚类中心，易导致聚类结果不稳定，因此需对初始聚类中心的选择进行改进，使其尽可能地落在各簇类的中心部位。其中，Pima糖尿病数据集指的是被广泛应用的University ofCalifornia，Irvine(UCI)机器学习数据库中的Pima Indian Diabetes数据集。

首先，本发明所提供的系统，用于构建糖尿病预测模型，所述系统包括存储设备和处理器，所述处理器耦合到所述存储设备并被配置为执行糖尿病预测模型的构建方法中的至少一个步骤。其中，糖尿病预测模型的构建方法至少包括如下至少一个步骤：

(1)第一个聚类中心点选择。选定数据集，定义聚类簇数k、领域半径ε，选择样本点x_i与样本之间距离之和最大的点作为第一个聚类中心点；

(1)选择新的聚类中心。计算每个样本点与其最近聚类中心的距离之和Sum(D(x))，在Sum(D(x))内取一个随机值Random，计算Random-＝D(x)，直到Random≤0，选择得到新的聚类中心；

(3)遍历操作。重复上一步骤直至得到所需k个中心点，记为{μ_j,j＝1,...,k}；

(4)簇标记。计算每个样本与聚类中心的距离，根据其距离最近确定样本的簇标记，并将样本划入相应的簇；

(5)更新操作。更新所有聚类中心点；

(6)糖尿病预警模型。得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型。

针对上述步骤，如下逐一进行详细说明：

首先定义聚类簇数k、领域半径ε，计算每一个点与第一个聚类中心点的距离dist(x)，选取dist(x)较大的点作为新的聚类中心，即对每一个dist(x)求和得到：sum_i＝sum_i+dist_i，i为聚类中心个数。

最大的Sum(dist(x))为的第一个聚类中心点，即：sum_max＝max(sumi)。

选择新的聚类中心，计算每一个点与第一个聚类中心点的距离为dist(x)，选取dist(x)较大的点作为新的聚类中心，即对每一个dist(x)求和得到Sum(dist(x))，取一个在Sum(dist(x))内的随机值Random，重复通过公式计算，所述公式为：Random＝Random-dist(x)。

直至Random≤0，则该点为下一个聚类中心点，保证距离较大的dist(x)被较大概率选中，并将所需k个中心点，记为{μ_j,j＝1,...,k}。

标记样本簇，是计算每个样本x_i与聚类中心{μj,j＝1,...,k}的距离dist_od，根据其距离最近确定样本x_i的簇标记λ_i，并将样本x_i划入相应的簇：

更新所有聚类中心点，是计算所有新的聚类中心，其公式为：

构建糖尿病预警模型，是根据上述步骤得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型，糖尿病预警分段函数为：

其中，μ_i(i＝1,2,3)为第i个聚类中心，0表示健康、1表示I级预警、2表示II级预警，利用该预警模型来预测是否患糖尿病及糖尿病所处阶段。

为进一步验证本发明所提出的模型的有效性，如下将对本发明提出改进k-means聚类糖尿病预警模型的改进方法与标准k-means聚类、背景技术提及的非专利文献[1]、非专利文献[2]等方法进行对比，以同质性、完整性、FMI、ARI均值、CHI、平均收敛速度、平均收敛次数和算法时间等为评判指标，通过这些指标及曲线进行对比分析。

其中，作为聚类效果的评价指标之一的ARI(Adjusted Rand Index(兰德指数)，ARI取值范围为[-1,1]，从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度，值越大说明聚类效果越好。其中，文献[1]指的是：刘荣凯,孙忠林.针对K-means初始聚类中心优化的PCA-TDKM算法[J].软件导刊,2018,17(09):85-87.提出了PCATDKM算法在传统的Kmeans算法中增加了PCA、TD与最大最小距离算法。PCA算法能够对数据对象集合进行降维，加速聚类过程。TD算法能够在选择初始聚类中心时根据数据对象的实际分布情况进行动态选择，使得通过聚类算法得到的初始k个聚类中心与实际聚类相对应。文献[2]指的是：Yuan Q L，Shi H B,Zhou X F.An optimized initialization center K-means clusteringalgorithm based on density[C]//IEEE International Conference on CyberTechnology in Automation,Control,and Intelligent Systems(CYBER),Shenyang,IEEE,2015:790-794.提出了一种优化K均值初始中心点的方法.该算法利用密度敏感的相似性度量来计算物体的密度.通过计算该点与其他密度较高的点之间的最小距离，选出候选点。然后，结合平均密度，筛选出离群点。最后筛选出K-均值算法的初始中心.实验结果表明，该算法获得的初始中心点精度高，能够有效地滤除异常。

结合图1，指出如何修改标准的k-means聚类算法，采用Pima糖尿病数据集，选用240例数据作为实验样本，其中训练集200例，测试集40例；使用python对算法进行编程，设计了不同算法的对比分析。

表1为标准k-means、改进k-means、文献[1]、文献[2]、Agglomerative等5种算法在糖尿病数据集上运行300次得到的ARI均值，从表1可以看出，使用改进k-means算法、文献[1]算法和文献[2]算法得到模型的ARI均值均明显高于使用标准k-means算法的，其中本文的改进k-means和文献[2]算法都结合了密度的思想，得到的模型ARI值要好于文献[1]算法的。但无论是标准k-means算法还是改进k-means算法，得到模型的表现都不如基于密度的聚类算法Agglomerative算法，这是由于基于密度的Agglomerative算法初始聚类中心在密度可达距离参数确定后，聚类结果很稳定，但是其实在处理高维数据时，由于算法本身的特点，没有k-means算法的扩展性好。

表1不同算法在新糖尿病数据集上的ARI均值

表2为标准k-means、改进k-means、文献[1]、文献[2]、Agglomerative等5种算法在新糖尿病数据集上在同质性、完整性、FMI、ARI均值、CHI等5个指标上的均值。从表2可以看出，本发明得到的模型在5种指标上的表现均好于使用标准的k-means算法，同时也好于使用文献[1]算法和Agglomerative算法得到的模型，略好于使用文献[2]算法得到的模型。可以发现在ARI和CHI使用另外4种算法的模型都较明显的好于使用标准k-menas算法的模型，但在同质性、完整性和FMI上5种算法的模型表现相差不大，这是因为这三种指标主要用来衡量聚类结果的准确率，可以看出使用标准k-means算法的模型在训练集上准确率并不是很差，但是由于算法的不稳定导致得到的模型分布较差，意味着模型的泛化性能较差。

表2不同算法的模型在新糖尿病数据集上在5个指标上的均值

图2为标准k-means、改进k-means、文献[1]、文献[2]等4种算法得到模型的平均收敛速度曲线对比，这里以一次聚类的ARI作为纵坐标，一次聚类中算法的迭代次数为纵坐标，运行300次求得一次聚类的迭代次数均值和ARI均值。从图2可以看出，本发明算法、文献[1]算法、文献[2]算法在开始迭代时ARI值更高，由于改进了初始中心选取方法，得到的初始聚类中心更准确，可知本发明算法、文献[1]和文献[2]算法一次聚类中迭代次数明显更少，其中本发明算法次数最少。

表3是标准k-means、改进k-means、文献[1]、文献[2]等4种算法得到模型的平均收敛次数和算法时间，可以看出使用标准k-means算法迭代次数基本上是其他改进算法的两倍。不过从平均一次的算法时间可以看出使用标准k-means算法求解模型时间并不是最长，文献[1]和[2]算法时间都超过它，这是由于文献[1]和[2]加了过多的数学计算，虽然减少了迭代次数，但是一次聚类算法时间却更长，本发明算法虽然也加了密度计算，但只是计算了一次，更多的是结合了概率的思想，不需重复计算整个数据集矩阵。

表3不同算法在新糖尿病数据集上平均收敛次数和算法时间

图3是标准k-means、改进k-means、文献[1]、文献[2]、Agglomerative等5种算法多次聚类求得的模型结果平均ARI曲线，纵坐标ARI值是5种数据集的每次结果ARI的均值，横坐标为聚类次数。从图3可以看出，Agglomerative算法因为算法本身特点，每次聚类结果是一样的，所以是一条直线；标准k-means算法求得的模型结果上下波动剧烈，本发明算法和文献[2]算法求得的模型结果都表现较好；通过计算曲线的方差得知，本发明算法为3.19*10^-5，文献[2]算法的为6.68*10^-5，文献[1]算法的为2.94*10^-4，而标准k-means算法的为2.78*10^-3，可见本发明算法得到的模型最为稳定，文献[2]算法次之，而标准k-means算法得到的模型最不稳定。

综上，本发明算法、文献[1]算法、文献[2]算法和Agglomerative算法得到的模型指标均优于标准k-means算法；本发明算法收敛情况和算法时间最好，文献[1]和文献[2]虽然收敛情况优于标准k-means算法，但算法时间要更长；本发明算法、文献[1]算法、文献[2]算法得到的模型比标准k-means算法更稳定，其中本发明算法得到的模型最为稳定。

基于此，本发明将改进k-means聚类算法和糖尿病分段函数相结合，发明了一种k-means聚类糖尿病预警模型的改进方法，克服了k-means算法聚类结果不稳定的问题，提高了预警模型的准确性和稳定性。

实施例2

针对实施例1所提出的糖尿病预警模块，本实施例对其作了进一步的改进，重复的内容不再赘述。具体地，结合图4，本实施例提出了一种糖尿病预警系统，该系统至少包括如前述实施例1所述的糖尿病预警模块。

针对用户例如糖尿病早期患者，在医师的建议下可能自身具有主动运动的意识，但具体运动过程中，极其容易出现运动过量或是运动时间不当等引发潜在危险的情况的问题。现有技术中无论是可穿戴智能设备还是专利文献中所提供的糖尿病患者专用的管理系统，由于其监测的目标始终是用户的生理信息，并在生理信息异常时即给出警报，生理信息的变化是由用户行为所引发的，因此此类系统均存在监测时刻滞后严重以及数据敏感性过高的问题，无法为用户提供更为及时可靠的糖尿病风险控制。区别于上述现有技术，本发明所提供的糖尿病预警系统是在用户的生理信息异常之前就对用户行为是否存在潜在风险的情况进行监测，基于与个体差异息息相关的用户行为，从运动干预的层面分级地控制糖尿病风险以提升治疗效果，消除了监测时刻滞后严重以及数据敏感性过高的问题。

该糖尿病预警系统用于对当前用户的糖尿病发生风险进行控制，尤其是对其由于运动过程所引起的糖尿病发生风险进行控制。其中，“当前用户”包括糖尿病早期患者和/或糖尿病患者。糖尿病早期患者指的是存在发展成糖尿病的前期倾向的个体。“糖尿病发生风险”包括从糖尿病早期发展为糖尿病的风险和/或引发糖尿病发病的风险。该糖尿病预警系统可以是可穿戴智能设备、智能移动终端等。

该糖尿病预警系统包括糖尿病预警模块，该糖尿病预警模块被配置为利用糖尿病预警模型来预测当前用户是否患糖尿病及糖尿病所处阶段。预测结果包括健康、I级预警、II级预警中之一。

该糖尿病预警系统还包括运动方案生成模块。运动方案生成模块用于获取关于当前用户的运动监测数据并根据用户数据执行一级风险预警，以确定关于当前用户的运动风险模型。“运动监测数据”至少包括久坐时长、运动强度、运动时间、运动时长、运动频率、运动类型等。运动监测数据是通过运动方案生成模块与其他智能电子设备进行信息交互来获取的。“用户数据”至少包括当前用户的糖尿病所处阶段、饮食监测数据、药物监测数据、就诊历史数据、地理位置信息、生理监测数据、身体素质评估数据等。用户数据可以是通过运动方案生成模块与其他智能电子设备进行信息交互来获取的。“饮食监测数据”可以是基于对当前用户所拍摄的饮食图片进行分析处理所获取到的，或是由当前用户记录于智能移动终端上的饮食时间及食物种类分量等获取到的。同样地，“药物监测数据”可以是基于该用户的药物治疗方案及由当前用户所记录的服药时间来获取的。“就诊历史数据”包括该用户患有的并发症、医师所推荐的运动治疗方案、药物治疗方案等。上述运动方案生成模块/智能电子设备可以是可穿戴智能设备如智能手环、智能移动终端如智能手机等。“身体素质评估数据”可以是身体质量指数或称BMI，BMI被定义为体重(以千克计)除以身高(以米计)的平方(单位kg/m2)。

以下通过对“一级风险预警”进行详细说明以进一步明确本发明为解决现有技术所存在的监测时刻滞后严重以及数据敏感性过高的问题所提出的解决方案：

一级风险预警是在运动方案生成模块分析确定当前用户的运动监测数据超出预设风险范围而其生理监测数据未超出预设风险范围的情况来执行的。换句话说，在生理监测数据未超出预设风险范围时，即当前用户的当前状态无法从生理信息来判断是否存在潜在风险的时候，运动方案生成模块持续地对当前用户的运动情况进行监测，并对获取到的运动监测数据以及生理监测数据进行分析处理。运动行为的监测在预防层面上优先于生理信息异常的监测。

在运动监测数据超出预设风险范围时，即当前用户的运动情况可能存在潜在风险时，执行一级风险预警，以确定与当前用户相适配的运动风险模型。其中，预设风险范围包括用餐时间、久坐时长、当天运动量、运动幅度分别对应的预先设置的阈值范围。预设风险范围可以是基于不同用户个体化差异分别设定的动态变化值。例如血糖异常情况多发的餐后1～2h，例如高强度身体锻炼也无法抵消负面影响的长时间久坐，例如不同运动类型各自对应的适宜运动时长或是统计当天该用户已完成的运动量，或是预先设定的身体活动幅度及持续进行时间，以对用户持续进行的幅度过大的身体活动及时地进行监测。预设风险范围是相对于当前用户而言可能后续引发糖尿病风险的限制条件，预设风险范围的超出不会引发警告，以此同时满足了糖尿病风险控制对监测及时性与数据敏感性的双重要求。

由于无论有氧运动还是无氧运动，只要糖尿病人进行运动，就会有降糖效果，随之而来的还有低血糖风险。特别是服用降糖药或注射胰岛素后，药物与运动两者的降糖作用同时叠加，最容易引发低血糖。尤其是在胰岛素刚注射完或降糖药服用半小时内就运动，会加快降糖药物的吸收，更易发生低血糖。此外，糖尿病患者除血糖升高外，常合并高血压、血脂紊乱等疾病，如果糖尿病及其合并症长期得不到控制，还会发生多种其他并发症，如肾病病变、神经病变、心血管病变、视网膜病变、肌肉骨骼病变等。以此在获取到当前用户合并有不同疾病的并发症时，需要因人制宜不同的运动风险模型/运动监测方案。如针对患有视网膜病变并发症的患者：轻度视网膜病变可选择中、低强度的有氧运动，且需避免举重等闭气活动；中度视网膜病变也可选择中、低强度的有氧运动，且需避免头部向下等用力活动；重度视网膜病变有眼底出血危险者，需严格限制运动，仅建议进行部分低强度运动。

对此本发明所提出的预警系统通过一级风险预警优先地对一级风险预警是指基于由用户数据尤其是就诊历史数据所确定的一级风险预警条件对获取到的当前用户的当前运动数据进行比对分析。一级风险预警条件是基于用户数据中与运动数据相关联的就诊历史数据所确定的。

就诊历史数据包括并发症发病史(例如并发症类型、并发症严重程度、并发症发病次数等)，药物治疗方案(例如降糖药服用时间、降糖药服用剂量、胰岛素注射时间、胰岛素注射剂量等)，以及由第一处理器所确定的糖尿病初步预测结果。该糖尿病风险预警系统的存储设备预先存储有包含至少一个属性的一级风险预警条件，基于一级风险预警条件的属性可调取预先存储的至少一个运动风险模型。若干个属性与至少一个特征相对应。

特征指的是用户数据的不同类型，如当前用户的糖尿病所处阶段、饮食监测数据、药物监测数据、就诊历史数据、地理位置信息、生理监测数据、身体素质评估数据中的一个或几个。属性指的是各个特征所对应的至少一个运动监测数据的限制条件。属性包括运动能力级别、运动方案级别。

如下针对上述特征与属性之间的关系举例说明：例如，为由第一处理器所确定的糖尿病初步预测结果的特征，其对应的是为运动方案级别的属性。如由第一处理器所确定的糖尿病初步预测结果为II级预警，其运动方案级别属性为甲级(或是数值型)。例如，为并发症类型的特征，其对应的是为运动方案级别的属性，针对如中度视网膜病变并发症的特征，其运动方案级别属性为乙级(或是数值型)。如存在某一特征所对应的属性的限制条件高于其他特征所对应的同一属性的限制条件，则以较高的限制条件为准，以全面性考虑该用户的潜在糖尿病风险或恶化风险。例如，针对如中度视网膜病变并发症的特征，其运动方案级别属性为乙级(或是数值型)，而药物治疗方案的特征，当该用户的降糖药服用时间未超出预设降糖药服用时长时，即药物降糖作用尚还有效的期间，其运动方案级别属性为甲级(或是数值型)，则最终采取甲级为该用户的运动方案级别。而针对如身体素质评估数据的特征，当该用户的身体素质评估数据为不达标时，其运动能力级别为丙级。

如下针对一级风险监测条件与运动风险模型之间的对应关系举例说明：如上述在确定该用户与包含丙级运动能力级别、甲级运动方案级别两个属性的一级风险监测条件相对应时，判断该用户当前情况适合常规运动强度的运动风险模型，常规运动强度的运动风险模型中包括若干个运动方案，例如站立、散步、做家务等运动方案，每个运动方案均包括久坐时长、运动强度、运动时间、运动时长、运动频率及各自对应的适宜控制范围。

至此，运动方案生成模块得到了符合当前用户情况的若干个运动方案，但针对用户个体性差异，不同用户采用不同运动方案时身体情况的适应能力不同，因此本发明继而采用二级风险预警分析对当前的运动方案作进一步地分析，充分考虑用户个体性差异问题，从运动干预的层面分级地控制糖尿病风险的方式为用户提供更为安全有效的运动治疗方案。

运动方案生成模块还被配置为在当前用户的当前运动数据不满足一级风险预警条件的情况下执行二级风险预警分析。具体地：运动方案生成模块还被配置为基于当前用户的历史生理信息与历史运动监测数据之间的统计变化趋势曲线来确定当前用户的当前运动监测数据与生理信息之间的关联关系，并获取由智能电子设备所提供的关于当前用户的当前生理信息，将其与所确定的关联关系之间进行趋势分析以预测持续进行该运动的情况下生理信息的预测值，根据趋势分析后得到的预测生理信息来确定运动风险模型在排除基于用户的预测生理信息所确定的限制运动方案的基础上所生成的至少一个运动风险警告和/或运动引导方案，并通过提示模块或是其他智能电子设备向当前用户发出运动风险警告和/或运动引导建议。

优选地，运动风险模型指的是根据用户数据所确定的其历史生理信息与历史运动监测数据之间的统计变化趋势曲线。该统计变化趋势曲线能够直观地反映该用户进行各类运动时生理信息的变化趋势，为用户接下来的运动提供分析预测依据。运动方案生成模块基于该运动风险模型来生成关于当前用户的运动干预信息。运动干预信息包括运动风险警告和/或运动引导建议。其中，运动干预信息从两个方向对当前用户的运动行为给出干预及预防建议，从运动风险警告可使当前用户明确哪些运动或是动作存在潜在风险，以此用户不仅是在接下来的运动过程中能够避免此类危险动作，更重要的是用户在此后的生活也能够明确需要避免此类危险动作，短期及长期上均有利于提升用户的治疗效果。运动风险警告和/或运动引导建议是在排除当前用户的限制运动方案的基础上来生成的。

限制运动方案是基于用户的预测生理信息所确定的。在分析确定限制运动方案的同时，即获取到不适用于当前用户的运动治疗方案或是运动能力级别及运动方案级别两个属性值。以此将上述获得的与当前用户相关的运动风险模型中满足限制运动方案的部分排除后，基于其与运动方案更新运动风险模型，继而将其反馈至当前用户进行查看或提示。预测生理信息是通过关于当前用户的当前生理信息与关联关系之间进行趋势分析所预测得到的。其中，预测生理信息指的是持续进行该运动的情况下生理信息的预测值。而关联关系是基于当前用户的历史生理信息与历史运动监测数据之间的统计变化趋势曲线来确定的。关联关系指的是当前用户的当前运动监测数据与生理信息之间变化趋势的预测。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种k-means聚类糖尿病预警模型的改进方法，其特征在于，包括如下步骤：

步骤1，第一个聚类中心点的选择；所述步骤1中第一个聚类中心点的选择，是对初始聚类中心的选择进行改进，使其落在各簇类的中心部位，定义聚类簇数为K、领域半径为ε，计算每一个点与第一个聚类中心点的距离dist(x)，选取dist(x)值大的点作为新的聚类中心，对每一个dist(x)求和得到Sum(dist(x))，将最大的Sum(dist(x))作为第一个聚类中心点，

步骤2，选择得到新的聚类中心；

步骤3，遍历操作，重复上述步骤2直至得到所需K个中心点；选择得到新的聚类中心的过程为：取一个在Sum(dist(x))内的随机值Random，重复通过公式计算，所述公式为：

Random＝Random-dist(x)，

直至Random≤0，选择当前dist(x)对应的样本点为下一个聚类中心点，否则Random减去下一样本点对应的dist(x)，保证距离较大的dist(x)被较大概率选中，并将所需K个中心点，记为{μ_j，j＝1，...，K}，如此重复执行，寻找所有聚类中心，

步骤4，簇标记；所述步骤4中标记样本簇，是计算每个样本x_i与聚类中心{μ_j，j＝1，...，K}的距离dist_od，根据其距离最近确定样本x_i的簇标记λ_i，并将样本x_i划入相应的簇：

表示簇标记λ_i对应的簇，

步骤5，更新操作，更新所有聚类中心点；所述步骤5更新所有聚类中心点，是计算所有新的聚类中心，

根据公式计算簇/>的中心向量，当μ′_j＝μ_j时，保持当前中心不变，当μ′_j≠μ_j时，将当前μ_j更新为μ′_j，其中/>表示聚类中心μ_j对应的簇，x表示所属簇/>的所有样本数据点，

步骤6，得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型，

所述糖尿病分段函数表示为：

式中，μ_i为第i个聚类中心，i＝1，2，3，0表示健康、1表示I级预警、2表示II级预警，x代表样本，dist_od(x-μ_i)代表样本与聚类中心μ_i的距离。

2.根据权利要求1所述k-means聚类糖尿病预警模型的改进方法，其特征在于，所述步骤6构建糖尿病预警模型，是根据步骤1到步骤5得到稳定的各簇中心，代入糖尿病分段函数，得到糖尿病的预警模型。