CN115798724B

CN115798724B - 一种基于人体无创采集数据的人体指标异常分析方法

Info

Publication number: CN115798724B
Application number: CN202310102057.1A
Authority: CN
Inventors: 陈鹰; 王小刚; 李伟锋
Original assignee: Shenzhen Sonka Electronic Medical Co ltd
Current assignee: Shenzhen Sonka Electronic Medical Co ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-04-11
Anticipated expiration: 2043-02-13
Also published as: CN115798724A

Abstract

本发明涉及数据异常识别技术领域，具体涉及一种基于人体无创采集数据的人体指标异常分析方法，包括：获取人体阻抗数据的初始聚簇，对初始聚簇进行收缩更新操作，根据每次收缩更新操作中每个初始聚簇包含的数据点的数量，获取每个初始聚簇的异常指标以及每个数据点在对应初始聚簇中的异常程度；对初始聚簇进行分散合并更新操作得到目标聚簇，根据初始聚簇与目标聚簇的异常指标以及数据点在初始聚簇中的异常程度与在目标聚簇中的异常程度获取数据点的异常水平，通过多次迭代获取数据点的多个异常水平，进一步得到异常特征值，从而筛选出异常数据。本发明避免了聚簇大小对异常特征值的影响，使得根据异常特征值筛选出的异常数据更加可信。

Description

一种基于人体无创采集数据的人体指标异常分析方法

技术领域

本发明涉数据异常识别技术领域，具体涉及一种基于人体无创采集数据的人体指标异常分析方法。

背景技术

随着医疗水平的发展，越来越多的人体监测技术应用到人体指标分析中，其中包括人体电阻抗分析技术，该技术通过低压电流通过人体，反应人体的健康指标，因其无创、便捷的特点，使其能够得到广泛的应用。人体电阻抗分析通过采集通过人体的低压电流强度分析人体阻抗，但是低压电流常常受静电与电力障碍，导致所测定的电流强度存在异常（粗差），从而导致人体阻抗分析不准确，所以一般在测定电流强度后，首先需要对测定数据进行异常识别，然后剔除异常数据，以便更准确的进行人体电阻抗分析。

对于数据的异常识别主要依据数据的离群特点，即数据之间的聚集关系，目前常常利用数据的聚类来识别异常数据，比如现有的CURE算法进行聚类分析，通过聚簇收缩判断聚簇的异常，但是现有的CURE算法仅针对聚簇本身进行异常分析，分析结果受聚簇本身大小的影响，且不能很好的反应出聚簇中数据点的异常。因此本发明在CURE算法的基础上，利用聚簇的分散与合并，反应数据点与所在聚簇之间的关系，从而识别数据点的异常水平，同时利用多次聚簇的分散与合并，减少异常结果对聚簇大小的依赖性，提高数据点异常检测的可信度。

发明内容

本发明提供一种基于人体无创采集数据的人体指标异常分析方法，以解决现有的问题。

本发明的一种基于人体无创采集数据的人体指标异常分析方法采用如下技术方案：

本发明一个实施例提供了一种基于人体无创采集数据的人体指标异常分析方法，该方法包括以下步骤：

S1：采集人体阻抗数据；对人体阻抗数据进行聚类，得到多个聚簇，记为初始聚簇；

S2：对所有初始聚簇进行收缩更新操作，包括：获取每个初始聚簇的代表点，对每个初始聚簇的代表点进行收缩，根据收缩后的代表点进行初始聚簇的更新；

S3：重复S2直到达到第一预设次数时停止，根据每次收缩更新操作中每个初始聚簇包含的数据点的数量，获取每个初始聚簇的异常指标；根据每个初始聚簇的异常指标获取每个数据点在对应初始聚簇中的异常程度；

S4：对所有初始聚簇进行分散合并更新操作，包括：将数据点数量小于第一预设阈值的初始聚簇中的数据点合并到其他初始聚簇中，将数据点数量大于第二预设阈值的初始聚簇分成两个初始聚簇；

S5：将分散合并更新操作后的初始聚簇作为目标聚簇，对目标聚簇执行步骤S2-S3，得到每个目标聚簇的异常指标以及每个数据点在对应目标聚簇中的异常程度；根据每个初始聚簇的异常指标、每个目标聚簇的异常指标、每个数据点在对应初始聚簇中的异常程度以及每个数据点在对应目标聚簇中的异常程度获取每个数据点的异常水平；

S6：将目标聚簇作为新的初始聚簇，重复S4-S5直到达到第二预设次数时停止迭代，每个数据点在每次迭代过程中均得到一个异常水平；

S7：根据每个数据点的所有异常水平获取每个数据点的异常特征值，根据异常特征值获取异常数据。

优选的，所述获取每个初始聚簇的代表点，对每个初始聚簇的代表点进行收缩，根据收缩后的代表点进行初始聚簇的更新包括：

选择初始聚簇中距离质心最远的数据点作为第一个点，然后依次选择距离已选到的数据点最远的数据点，直到选到预设数量个数据点时停止，将选择的所有数据点作为代表点，将每个代表点向初始聚簇质心按照预设比例进行收缩；将其余每个数据点分配给距离所述其余每个数据点最近的代表点所在的初始聚簇。

优选的，所述每个初始聚簇的异常指标的表达式为：

其中

为初始聚簇的异常指标；

为收缩更新操作的序号；

为第

次收缩更新操作前后初始聚簇中包含的数据点的数量差异；

为第

次收缩更新操作前后初始聚簇中包含的数据点的数量差异；

为第一预设次数。

优选的，所述每个数据点在对应初始聚簇中的异常程度的表达式为：

其中

为第

个数据点在对应初始聚簇中的异常程度；第

为第

个数据点所在的初始聚簇的异常指标；

为第

个数据点到其所在的初始聚簇的质心的距离；

为第一预设次数；

为收缩更新操作的序号；

为第

个数据点所在的初始聚簇中所有数据点对应的时间区间；

为第

个数据点的时间点；

为

到

的距离。

优选的，所述将数据点数量小于第一预设阈值的初始聚簇中的数据点合并到其他初始聚簇中，将数据点数量大于第二预设阈值的初始聚簇分成两个初始聚簇包括：

将数据点数量小于第一预设阈值的初始聚簇作为第一聚簇，将数据点数量大于或等于第一预设阈值的初始聚簇作为第二聚簇，将第一聚簇中的每个数据点合并到距离所述每个数据点最近的第二聚簇中；将大于第二预设阈值的聚簇作为第三聚簇，对每个第三聚簇中的所有数据点进行聚类，将每个第三聚簇分成两个初始聚簇。

优选的，所述每个数据点的异常水平的表达式为：

其中

为第

个数据点的异常水平；

为第

个数据点所在的初始聚簇的异常指标；

为第

个数据点所在的目标聚簇的异常指标；

为第

个数据点在对应初始聚簇中的异常程度；

为第

个数据点在对应目标聚簇中的异常程度。

优选的，所述每个数据点的异常特征值的表达式为：

其中为

为第

个数据点的异常特征值；

为第

次迭代时第

个数据点的异常水平；

为第

次迭代时第

个数据点所在的初始聚簇中数据点的集合；

为第

次迭代时第

个数据点所在的目标聚簇中数据点的集合；

为交集符号；

为

与

的交集中包含的数据点的数量；

为

中包含的数据点的数量；

为第二预设次数。

本发明的技术方案的有益效果是：本发明在聚簇收缩更新操作过程中根据收缩次序设置权值获取聚簇的异常指标，使得聚簇的异常指标在反应聚簇整体的异常情况时，同时能够体现引起聚簇异常的数据点的存在，从而便于聚簇中异常数据点的识别；聚簇大小对聚簇中数据点的异常识别有一定程度的影响，本发明通过分析聚簇分散合并更新操作过程中同一数据点所在不同聚簇之间的关系，根据聚簇分散合并更新操作过程中聚簇的变化所反映的聚簇稳定性，获取对应数据点的异常水平，避免了聚簇大小对聚簇中数据点异常识别的影响；本发明在计算数据点在对应的聚簇中的异常程度时，考虑了聚簇本身的聚集特点的同时引入数据点的时间序列相关性，加强了人体阻抗数据在时间序列上的关系对数据异常的影响，使得结果更加准确；本发明通过多次聚簇分散合并更新操作以及聚簇收缩更新操作，根据数据点在每次迭代过程中所在初始聚簇与目标聚簇包含的数据点的差异以及数据点在每次迭代过程中的异常水平获取数据点的异常特征值，避免了单次迭代得到的异常水平对聚簇大小的依赖性，通过多次迭代反应出数据点与聚簇的聚集关系，从而使得数据点的异常特征值更加准确，进一步使得根据异常特征值筛选出的异常数据更加可信，进一步使得人体电阻抗分析的结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于人体无创采集数据的人体指标异常分析方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于人体无创采集数据的人体指标异常分析方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于人体无创采集数据的人体指标异常分析方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于人体无创采集数据的人体指标异常分析方法的步骤流程图，该方法包括以下步骤：

S001．采集人体阻抗数据，对人体阻抗数据进行聚类，得到多个初始聚簇。

需要说明的是，在利用人体电阻抗分析确定人体的指标异常时，首先需要采集人体电阻抗分析所需的数据，人体电阻抗分析是通过皮肤和触觉电极之间的低压电流横穿人体的细胞质，评估人体局部和全身的电流传导后分布情况。人体电阻抗分析仪由双手检测电极板、双脚检测电极板、头部检测电机板、电极连线、标准USB连线、电阻抗分析软件组成。首先连接头部检测电机板与人体额头，由头部检测电机板发射低压电流，然后由双手检测电极板与双脚检测电极板检测电流，将检测电极板的电流数据传输到PC端利用电阻抗分析软件进行分析。

在本实施例中，通过人体电阻抗分析仪采集人体电阻抗分析所需的数据，并将其称为人体阻抗数据。

需要说明的是，人体电阻抗分析通过采集通过人体的低压电流强度分析人体阻抗，但是低压电流常常受静电与电力障碍，导致所测定的电流强度存在异常（粗差），从而导致人体阻抗分析不准确，所以在获得人体阻抗数据后，首先需要对人体阻抗数据进行异常识别，然后剔除异常数据，以便更准确的进行人体电阻抗分析。异常数据常常表现为数据集中的离群数据，因此需要分析人体阻抗数据的分布特点，根据数据分布关系来识别异常数据。而聚类可体现出数据的分布特点。

在本实施例中，利用均值漂移聚类算法对人体阻抗数据进行聚类，将人体阻抗数据分成多个聚簇。为便于后续分析，将每个聚簇作为初始聚簇。

至此，获取了多个初始聚簇。

S002．对初始聚簇进行收缩更新操作，获取初始聚簇的异常指标以及数据点在对应初始聚簇中的异常程度。

需要说明的是，由于数据的分布存在差异，因此步骤S001得到的初始聚簇之间的大小以及形状同样存在差异，为了在不同大小不同形状的初始聚簇中进行异常数据的识别，本实施例采用CURE算法进一步分析不同初始聚簇，从而实现异常数据的识别。

CURE算法可以对不同形状不同大小的聚簇进行异常数据的分析，其本质思想为采用聚簇中的多个代表点来表示一个簇，将多个代表点向聚簇的质心收缩，通过收缩区域的变化，来反应聚簇的异常。

在本实施例中，结合CURE算法的思想对初始聚簇进行收缩更新操作，具体为：

选择初始聚簇中距离质心最远的数据点作为第一个点，然后依次选择距离已选到的数据点最远的数据点，直到选到

个数据点时停止，将选择的所有数据点作为代表点，如此得到了

个代表点，这些代表点捕获了初始聚簇的形状和大小。将每个代表度按照预设比例

向初始聚簇的质心移动一段距离，实现每个代表度的收缩。将除代表点之外的每个数据点分配给距离该数据点最近的代表点所在的初始聚簇。

为预设数量，用来限制代表的个数，

为预设比例，即收缩参数。在本实施例中

，

，在其他实施例中，实施人员可根据需要设置

和

的值。

如此，对初始聚簇完成了一次收缩更新操作。重复收缩更新操作直到达到第一预设次数

时停止。在本实施例中第一预设次数

，在其他实施例中实施人员可根据需要设置

的值。

此时，可根据每次收缩更新操作过程中每个初始聚簇包含的数据点的数量，来获取每个初始聚簇的异常指标。初始聚簇的异常指标的表达式如下：

其中

为初始聚簇的异常指标；

为收缩更新操作的序号；

为第

次收缩更新操作前后初始聚簇中包含的数据点的数量差异；

为第

次收缩更新操作前后初始聚簇中包含的数据点的数量差异；

为第一预设次数；

越小，第

次收缩更新操作前后初始聚簇中包含的数据点的数量差异越小，说明代表点的收缩对初始聚簇的影响较小，此时代表点分布越稀疏，而代表点代表了初始聚簇的形状和大小，则对应的初始聚簇中的数据点分布也越稀疏，此时初始聚簇异常的可能性越大；随着收缩更新操作的重复迭代，每次收缩更新操作中的代表点越靠近初始聚簇的质心，此时

可反应的数据点的稀疏程度越小，即可反应的初始聚簇的异常情况越小，因此将收缩更新操作的序号

的倒数

作为

的权重，使得多次收缩更新操作过程对应初始聚簇中数据点数量的变化更能够体现初始聚簇外围分散点引起的聚簇异常。

为多次收缩更新操作过程初始聚簇的异常情况。

表示相邻两次收缩更新操作

和

的差异，

越大，初始聚簇的分布越不均匀，初始聚簇异常的可能性越大。

至此，获取了初始聚簇的异常指标。需要说明的是，本实施例在聚簇收缩更新操作过程中根据收缩次序设置权值获取聚簇的异常指标，使得聚簇的异常指标在反应聚簇整体的异常情况时，同时能够体现引起聚簇异常的数据点的存在，从而便于聚簇中异常数据点的识别。

步骤S001采集的人体阻抗数据，每条数据对应一个时间点，则对应的每个初始聚簇中每个数据点对应一个时间点。获取每个初始聚簇中所有数据点的时间点，将其中时间点的最大值

与最小值

组成该初始聚簇的时间区间

，用

来表示。将第

个数据点的时间点用

来表示，则第

个数据点在对应初始聚簇中的异常程度的计算表达式为：

其中

为第

个数据点在对应初始聚簇中的异常程度；第

为第

个数据点所在的初始聚簇的异常指标，

越大，初始聚簇的异常指标越大，对应初始聚簇中数据点的异常程度越大；

为第

个数据点到其所在的初始聚簇的质心的距离，

越大，对应数据点异常程度越大；

为第一预设次数；

为收缩更新操作的序号；

为第

个数据点所在的初始聚簇的时间区间；

为第

个数据点的时间点；

为

到

的距离，当

时，

，当

时，

为

到

的左边界的距离和到右边界的距离中的最小值，

反应第

个数据点与其所在的初始聚簇中所有数据点在时间序列上的相关性，

越大，第

个数据点与第

次收缩更新操作时第

个数据点所在的初始聚簇中所有数据点在时间序列上相关性越小，第

个数据点异常的可能性越大；

即表示在多次收缩更新操作过程中第

个数据点与其所在的初始聚类中所有数据点在时间序列上的相关性，其中

为计算稳定常数，防止

导致整个计算式为0。

至此，获取了每个数据点在对应初始聚簇中的异常程度。需要说明的是，本实施例在计算数据点在对应的聚簇中的异常程度时，考虑了聚簇本身的聚集特点的同时引入数据点的时间序列相关性，加强了人体阻抗数据在时间序列上的关系对数据异常的影响，使得结果更加准确。

S003．对初始聚簇进行分散合并更新操作。

需要说明的是，步骤S002对每个初始聚簇进行收缩更新操作，获取了每个初始聚簇的异常指标，以及每个数据点在对应初始聚簇中的异常程度。但以上结果对每个初始聚簇中数据点的数量的依赖性过高，导致不同大小的初始聚簇所获得的异常指标存在较大差异，进一步使得每个数据点在对应初始聚簇中的异常程度不准确，所以需要通过对初始聚簇进行分散合并更新操作，以便后续获得更加准确的聚簇的异常指标以及数据点的异常程度。

在本实施例中，对包含的数据点数量过多的初始聚簇进行分散，对包含的数据点数量过少的初始聚簇进行合并。对初始聚簇进行分散合并更新操作的过程具体为：

将数据点数量小于第一预设阈值

的初始聚簇作为第一聚簇，将数据点数量大于或等于第一预设阈值

的初始聚簇作为第二聚簇，将第一聚簇中的每个数据点合并到距离第一聚簇中每个数据点最近的第二聚簇中；将大于第二预设阈值

的初始聚簇作为第三聚簇，对每个第三聚簇中的所有数据点进行

聚类，将每个第三聚簇分成两个初始聚簇。

需要说明的是，距离第一聚簇中每个数据点最近的第二聚簇的获取方法为，计算第一聚簇中一个数据点到所有第二聚簇的质心的距离，将其中最小的距离对应的第二聚簇作为距离该数据点最近的第二聚簇。

特征地，在对初始聚簇进行分散合并更新操作的过程中，先进行所有第一聚簇中数据点到第二聚簇的合并，再获取所有第三聚簇，将每个第三聚簇分成两个初始聚簇。

在本实施例中

，在其他实施例中，实施人员可根据需要设置

的值。

至此，实现了对初始聚簇的分散合并更新操作。

S004．获取数据点的异常水平。

将经过分散合并更新操作之后的初始聚簇作为目标聚簇，利用步骤S002中的方法对目标聚簇进行收缩更新操作，获取每个目标聚簇的异常指标以及每个数据点在对应目标聚簇中的异常程度。

需要说明的是，对于一个数据点来说，同一个数据点所在初始聚簇和目标聚簇可能不同，或同一个数据点所在的初始聚簇与目标聚簇相同，但对应的初始聚簇的异常指标与目标聚簇的异常指标不同，进一步使得该数据点在对应初始聚簇中的异常程度与该数据点在对应目标聚簇中的异常程度不同。初始聚簇的异常指标与目标聚簇的异常指标之间的关系，以及数据点在对应初始聚簇中的异常程度与该数据点在对应目标聚簇中的异常程度之间的关系反应了数据点的整体的异常水平。

在本实施例中，数据点的异常水平的表达式为：

其中

为第

个数据点的异常水平；

为第

个数据点所在的初始聚簇的异常指标；

为第

个数据点所在的目标聚簇的异常指标；

为第

个数据点在对应初始聚簇中的异常程度；

为第

个数据点在对应目标聚簇中的异常程度；

表示第

个数据点所在的初始聚簇的异常指标与目标聚簇的异常指标之间的差异，

越大，表示第

个数据点在聚簇中越不稳定，此时第

个数据点的异常水平越大。

至此，获取了数据点的异常水平。需要说明的是，本实施例通过分析聚簇分散合并更新操作过程中同一数据点所在不同聚簇之间的关系，根据聚簇分散合并更新操作过程中聚簇的变化所反映的聚簇稳定性，获取对应数据点的异常水平，避免了聚簇大小对聚簇中数据点异常识别的影响。

S005．获取每个数据点的异常特征值，根据异常特征值获取异常数据。

需要说明的是，为了进一步分析分散合并更新操作对数据点异常水平的影响，需要进行多次迭代操作。

在本实施例中，将目标聚簇作为新的初始聚簇，对新的初始聚簇重复步骤S003、S004直到达到第二预设次数

时停止迭代，每个数据点在每次迭代过程中均得到一个异常水平。在本实施例中，第二预设次数

，在其他实施例中，实施人员可根据需要设置

的值。

根据每个数据点的所有异常水平获取每个数据点的异常特征值。数据点的异常特征值的表达式为：

其中为

为第

个数据点的异常特征值；

为第

次迭代时第

个数据点的异常水平；

为第

次迭代时第

个数据点所在的初始聚簇中数据点的集合；

为第

次迭代时第

个数据点所在的目标聚簇中数据点的集合；

为交集符号；

为

中包含的数据点的数量；

为第二预设次数；

为

与

的交集中包含的数据点的数量，即第

次迭代时第

个数据点所在目标聚簇中包含的第

个数据点所在初始聚簇中数据点的数量；所以

表示第

次迭代时第

个数据点所在目标聚簇保持第

个数据点所在初始聚簇的程度，

越大，表示第

次迭代对第

个数据点所在的聚簇的影响越小，说明第

个数据点与所在的聚簇的聚集关系越强，因此第

次迭代时第

个数据点异常水平的可信度较低，此时将

作为

的权重，

表示第

次迭代时第

个数据点的异常特征值，

则表示

次迭代之后第

个数据点的总的异常特征值，即对应第

个数据点的异常特征值

。

至此，获取了每个数据点的异常特征值。需要说明的是，本实施例通过多次聚簇分散合并更新操作以及聚簇收缩更新操作，根据数据点在每次迭代过程中所在初始聚簇与目标聚簇包含的数据点的差异以及数据点在每次迭代过程中的异常水平获取数据点的异常特征值，避免了单次迭代得到的异常水平对聚簇大小的依赖性，通过多次迭代反应出数据点与聚簇的聚集关系，从而使得数据点的异常特征值更加准确，进一步使得后续根据异常特征值筛选出的异常数据更加可信。

根据数据点的异常特征值识别人体阻抗数据中的异常数据，具体过程为：

首先将所有数据点的异常特征值利用最大值最小值归一化的方法进行归一化，得到每个数据点归一化后的异常特征值。当数据点归一化后的异常特征值大于第三预设阈值

时，该数据点为异常数据；当数据点归一化后的异常特征值小于或等于第三预设阈值

时，该数据点非异常数据。在本实施例中

，在其他实施例中实施人员可根据需要设置

的值。

至此，完成了人体阻抗数据中异常数据的识别。

需要说明的是，人体阻抗数据为人体电阻抗分析所需的数据，即测定的电流强度数据。此时为了利用电流强度数据准确的对人体电阻抗进行分析，需要排除异常值(粗差)的影响，在实施例中直接剔除所识别到的异常数据，然后利用剩余的正常数据进行人体电阻抗分析，进而根据人体电阻抗进行人体指标异常分析。

通过以上步骤，完成了人体阻抗数据的异常识别。

本发明实施例通过在聚簇收缩更新操作过程中根据收缩次序设置权值获取聚簇的异常指标，使得聚簇的异常指标在反应聚簇整体的异常情况时，同时能够体现引起聚簇异常的数据点的存在，从而便于聚簇中异常数据点的识别；聚簇大小对聚簇中数据点的异常识别有一定程度的影响，本发明通过分析聚簇分散合并更新操作过程中同一数据点所在不同聚簇之间的关系，根据聚簇分散合并更新操作过程中聚簇的变化所反映的聚簇稳定性，获取对应数据点的异常水平，避免了聚簇大小对聚簇中数据点异常识别的影响；本发明在计算数据点在对应的聚簇中的异常程度时，考虑了聚簇本身的聚集特点的同时引入数据点的时间序列相关性，加强了人体阻抗数据在时间序列上的关系对数据异常的影响，使得结果更加准确；本发明通过多次聚簇分散合并更新操作以及聚簇收缩更新操作，根据数据点在每次迭代过程中所在初始聚簇与目标聚簇包含的数据点的差异以及数据点在每次迭代过程中的异常水平获取数据点的异常特征值，避免了单次迭代得到的异常水平对聚簇大小的依赖性，通过多次迭代反应出数据点与聚簇的聚集关系，从而使得数据点的异常特征值更加准确，进一步使得根据异常特征值筛选出的异常数据更加可信，进一步使得人体电阻抗分析的结果更加准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。