CN113033407A

CN113033407A - 一种利用智能音箱的非接触式健身监测方法

Info

Publication number: CN113033407A
Application number: CN202110323719.9A
Authority: CN
Inventors: 李凡; 解亚东; 付乐萌; 吴玥
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-25
Anticipated expiration: 2041-03-26
Also published as: CN113033407B

Abstract

本发明涉及一种利用智能音箱的非接触式健身监测方法，属于移动计算应用技术领域。本发明仅依靠智能音箱中的扬声器发出超出人耳听力范围的高频声音，麦克风接收反射信号，即可实现对健身动作的识别，为在室内健身的用户提供细粒度的健身统计和评价。本发明方法成本低、抗干扰性强、不存在泄露隐私问题、用户体验好，适用于家庭、办公室等室内的监测环境。本发明采用的高频声音，超过了生活中大部分噪音的频率，不易受环境噪音的干扰，大大增强了本非接触式健身监测方法的环境鲁棒性。本发明可以对典型健身动作进行监测评价，结合深度学习技术和增量学习技术，在感知能力有限的智能音箱上获得准确的动作信息，具有很高的准确性。

Description

一种利用智能音箱的非接触式健身监测方法

技术领域

本发明涉及一种健身行为的监测方法，特别涉及一种利用智能音箱的健身行为监测方法，用于监测用户的健身类型、对用户的健身质量进行评价，属于移动计算应用技术领域。

背景技术

如今，越来越多的人开始关注自己的健康状况和体型，健身广泛地流行起来。有效的健身能带来很多好处，比如增加肌肉力量、改善体型、减少患心血管疾病的风险。然而，由于快节奏的生活，对许多人来说，去专门的健身房是不方便的。并且办理健身房会员和聘请私人教练通常需要高昂的花费。因此，许多人开始在家/办公室健身，这更有利于节省时间和金钱。但是，由于缺乏有效的监督和专业的效果评价，健身效果往往不理想。因此，开发一个可以在家/办公室监测健身活动，并给出健身质量评价的系统是非常有必要的。

目前，市场上存在一些可以提供指导的健身APP应用。但是，这些APP既不能实时监视健身过程，也无法提供细粒度的健身统计信息。为了方便人们在家 /办公室锻炼，研究人员提出了许多解决方案。

一种方案是利用摄像头来进行健身监测和活动识别。例如，通过使用微软“Kinect”提取用户的运动模型，从而监测和指导用户锻炼，通过一种基于隐式半马尔可夫模型的方法，从RGB-D相机获取的骨骼关节轨迹中提取特征来监测和评估康复训练过程中的身体运动。但是，这些方法高度依赖于良好的光照条件，并且出于隐私考虑，人们通常不愿意在家里或办公室部署摄像头。

使用可穿戴设备进行健身监测也是一种新趋势。例如，使用戴在前臂上的惯性传感器跟踪力量训练；通过使用带有惯性传感器的智能健身手套，可以识别用户运动类型并评估健身质量。或者，通过利用固定在上臂的智能手机或智能手表来实现细粒度的运动指导。还有研究实现了一种可提供关于脚部压力中心的反馈的智能鞋垫，可以帮助用户在深蹲和硬拉时保持正确的姿势。但是，这些方法通常要求用户一直佩戴设备，给用户增加了额外的负担，并且只能识别安装该设备的身体部位的健身状况。

因此，一些研究人员将RF信号用于非接触式健身监测。例如，通过贴在哑铃上的无源RFID标签来监测运动状况，并采用多普勒频移进行动作识别和评估，但是，这种方式只能监测使用哑铃的运动，并且用户需要准备专用的RFID 阅读器。通过使用Wi-Fi信号中的CSI波形形状作为特征，可以提取出用户的健身过程并为用户提供健身管理。但是，基于Wi-Fi的方法的缺点是通常需要一对天线，且用户需要在天线之间锻炼身体。此外，Wi-Fi信号很容易受到他人移动等环境因素的干扰。

综上所述，目前迫切需要开发一种非接触式的、易于部署的和抗干扰的健身监测方法，以提供细粒度的健身统计数据，帮助使用者提高健身效果。

发明内容

本发明的目的是为了克服现有技术的缺陷，针对目前缺乏一种非接触式的、易于部署的和抗干扰的健身监测方法，提出一种利用智能音箱的非接触式健身监测方法，尤其适用于家庭和办公室等室内的健身环境检测。

本发明的创新点在于：利用智能音箱发出人耳听不见的超声波信号，该信号经用户反射，再由麦克风阵列接收。之后，信号经过处理，提取出用户的健身统计数据。当用户进行健身活动时，其行为具有一定的规律性，通过充分利用全向扬声器和麦克风阵列，健身监测感知任何方向的运动。

本发明的目的是通过以下技术方案实现的。

一种利用智能音箱的非接触式健身监测方法，包括以下步骤：

步骤1：分析适用于健身监测的发射和接收信号。

为监测用户的健身过程，智能音箱主动发出高频信号，该信号经过用户身体的反射后会产生多普勒频移。通过分析反射信号中的多普勒频移，进一步检测用户运动。

多普勒效应内容为声源发出声音的频率受到声源和接收者的相对运动而产生变化。多普勒频移Δf由Δf＝(2v/c)·f决定，其中，f是发射频率，c是声速， v是相对运动速度。

宽带信号适用于家庭/办公室等室内环境，因此，考虑以下因素设计宽带发射信号：首先，信号是人们听不到的。研究表明，大多数人的听力上限不会超过18kHz。其次，由于奈奎斯特采样定理的局限性，且考虑到大多数麦克风支持的采样率为48kHz，最高频率要低于24kHz。第三，由于信号的多径效应，单个频率可能发生频率选择性衰落，这会极大地降低系统性能。通过发射两个以上频率的信号来减轻这种情况。

因此，本方法具体设计具有5个频率分量(即19kHz，19.5kHz，20kHz， 20.5kHz和21kHz)的发射信号，在t时刻的发射信号定义为

其中，f_n表示第n个频率分，A_n和φ_n分别是振幅和初始相位。在接收端，麦克风阵列可以以44.1kHz的采样率收集反射信号。

步骤2：分析区分健身活动与日常活动。

步骤2.1：首先，针对人们的日常活动进行实验，找到健身活动与日常活动的区别。

使用20kHz的高频信号和一个麦克风进行实验：用户先坐下，然后走到一个地方扫地，最后执行5个健身动作。从结果中观察到，健身运动比非健身运动更具重复性。

步骤2.2：进行活动检测，确定是否存在活动。

研究发现，当用户在运动时，反射信号中会包括多普勒频移。

具体地，为减少能量消耗，系统每10s发出1s的信号。当用户进行运动时，在每个频率分量的中心附近都有一个以上振幅值大于1的峰值。在每个频率分量的两侧各提取2个最接近频率分量的峰值，对于每个1s的信号，总共得到2 个峰值×2侧×5个频率分量×6个麦克风＝120个峰值。计算这些峰值的平均值，如果该值超过1，就认为存在活动。

步骤2.3：经过步骤2.2确认是否存在活动后，进一步通过重复性分析判断该活动是否为健身活动。一旦检测到运动，系统将开始发出连续的信号。

具体地，添加一个长度为13s的窗口，该窗口每次在反射信号上滑动1s，并在每个窗口上采用带通滤波器和频谱减法过滤掉所需频率之外的信号，仅保留多普勒频移部分。系统计算滤波后信号的自相关值，若2个连续窗口中的每个窗口均具有4个以上的峰，其峰值大于阈值(优选的，设置为0.1)，则认为存在健身动作。

步骤3：训练一个LSTM神经网络，对健身动作进行识别和分类。

具体如下：

步骤3.1：使用基于到达时间差(TDOA)方法，获取用户相对于智能音箱的方向。

设信号源位于阵列远场中，则所有麦克风的到达角(DOA)均相同。使用在步骤2.3中处理的麦克风的信号，并通过广义互相关函数时延估计算法(GCC- PHAT)估计每个信号对之间的相关性，并在每个相关性中找到最大的峰值。最后，通过最小二乘估计法算出用户的方位角和仰角。然后，使用时延波束形成算法，把所有麦克风的信号合成为1个信号。

步骤3.2：使用最小-最大归一化来归一化信号。

计算合成信号的短时能量(STE)，进一步基于STE的斜率进行信号分割。分别为开始和结束位置的斜率设置阈值sth和eth，把每个时间t的斜率与阈值比较，交替搜索健身动作的开始和结束时间直到结束，从而分割出每个动作。

本发明设计了一种时频特征提取方法，从反射信号中提取特征：将每个健身动作的信号分为8块，每块进行快速傅里叶变换(FFT)，具体地，采样点数为 4096，关注对应于19-21kHz的1765-1950点，每个块的相位被用于形成一个186 维特征向量，每个健身动作有8个特征向量。

步骤3.3：对健身动作进行分类。

由于一组中的健身动作通常是相同的，系统只对每组的前3个健身动作进行分类。设计的分类网络有2个LSTM层、2个全连接(FC)层和1个Soft-max 层。LSTM层将输入转换为压缩表示，压缩表示通过无监督的方式表征健身动作。在第t个timestep，LSTM层将输入数据p_t映射为一个压缩向量h_t，即，h_t＝σ(W[h_t-1,p_t]+b)·tanh(C_t)，其中，σ(·)是sigmoid函数，W和b分别表示权重和偏差，C_t表示第t个timestep的状态，h_t-1表示上一个timestep输出的压缩向量。然后，在最后1个timestep后添加两个FC层。Soft-max层计算一个类概率向量，然后将健身动作分配给具有最高概率的类。

步骤4：对用户的健身效果进行评估。

通过将用户数据与健身教练数据生成的模板相比较，从局部效果和全局效果两个方面来综合衡量健身质量。

局部效应侧重于评估每次健身动作的强度和持续时间，用STE的值来表示强度。将健身强度定义为BI＝α-I_e/I_r，一次健身动作可以分为伸展和收缩两部分，其中I_e和I_r分别表示伸展和收缩的强度，α表示从动作模板获得的标准强度。持续时间反映了每次健身动作花费的时间。设D是一个健身动作的持续时间， D_s是动作模板中相应的标准持续时间，计算它们的差值d＝D_s-D作为评价持续时间的标准。

全局效应侧重于每一组的整体表现，衡量指标包括连续性和平滑性。连续性反映了一组中两次重复之间休息间隔的一致性。为评价每组的连续性，采用峰度作为度量，设集合R＝[r₁,r₂,…,r_n]是一组健身动作r_i的休息间隔，峰度计算为：

其中，μ和θ是R的平均值和标准差。平滑度反映了一组强度的一致性。一组运动中每个健身动作的强度都比较相似表明用户对肌肉的控制力较强。将I_e和I_r的平均值作为每个健身动作的强度，计算一组的强度峰度。

有益效果

本发明对比现有技术，具有以下优点：

1.本发明不依赖于各类传感器和穿戴设备，仅依靠智能音箱中的扬声器发出超出人耳听力范围的高频声音，麦克风接收反射信号，就可以实现对健身动作的识别，从而为在室内健身的用户提供细粒度的健身统计和评价。因此，本发明成本低、抗干扰性强、不存在泄露隐私问题、用户体验好，适用于家庭、办公室等室内的监测环境。

2.本发明采用的高频声音，超过了生活中大部分噪音的频率，因此不易受环境噪音的干扰，大大增强了本非接触式健身监测方法的环境鲁棒性。本发明可以对十种典型健身动作进行监测评价，再结合深度学习技术和增量学习技术，可以在感知能力有限的智能音箱上获得准确的动作信息，从而具有很高的准确性。

附图说明

图1为本发明实施例健身监测方法原理图。

图2为本发明实施例的健身动作识别精确率率、召回率和F1分数。

图3为本发明实施例在5种不同干扰下的F1分数。

图4为本发明实施例在用户与智能音箱在不同距离下的F1分数。

图5为本发明实施例对不同水平用户的局部效果评价。

图6为本发明实施例对不同水平用户的全局效果评价。

具体实施方式

下面结合实施例和附图，对本发明方法做进一步详细说明。

如图1所示，一种利用智能音箱的非接触式健身监测方法，包括以下步骤：

步骤1：分析研究适用于健身监测的发射和接收信号。

为了监测用户的健身过程，智能音箱主动发出高频信号，并提取多普勒频移以检测用户的运动。多普勒效应的主要内容为声源发出声音的频率受到声源和接收者的相对运动而产生变化。多普勒频移Δf由Δf＝(2v/c)·f决定，其中f是发射频率，c是声速，v是相对运动速度。在本实施例中，智能音箱扬声器作为声源发出超声波，声音信号经物体的反射后被智能音箱的麦克风接收。因此，智能音箱既是声源又是接收者，而反射信号的用户可以被视为一个虚拟的声源。

宽带信号适用于家庭/办公室等室内环境，因此考虑以下几个因素来设计宽带发射信号：首先，信号应该是人们听不到的。研究表明，大多数人的听力上限不会超过18kHz。其次，较高频率的声音可以带来更明显的多普勒频移，但同时由于奈奎斯特采样定理的局限性，且考虑到大多数麦克风支持的采样率为48kHz，最高频率需要低于24kHz。第三，由于信号的多径效应，单个频率可能发生频率选择性衰落，这会极大地降低系统性能，可以通过发射多个频率的信号来减轻这种情况。

综上，本发明设计了一种具有5个频率分量的发射信号，包括了19kHz、 19.5kHz、20kHz、20.5kHz和21kHz的信号。信号定义为：

此处，选择5个频率分量有2个原因：首先，当用户运动时，他们的运动速度通常不会超过1.5m/s，这会在21kHz的声音下引起 185.2Hz的多普勒频移。由于185.2Hz小于选用的频率分量之间间隔的一半，因此它们的多普勒频移在频域中不会重叠；其次，实验发现，如果采用频率分量个数大于5个的信号，由于次谐波的产生会使信号中产生人耳可以听见的声音。在接收端，6个麦克风阵列的采样率设为44.1kHz。

步骤2：通过研究分析区分健身活动与日常活动。

步骤2.1、首先针对几种人们的日常活动进行初步实验，找到健身活动与日常活动的区别。使用20kHz的高频信号和一个麦克风进行实验：用户先坐下，然后走到一个地方扫地，最后执行5个健身动作。从结果中观察到，健身运动比非健身运动更具重复性。

步骤2.2、进行活动检测来确定是否存在活动。实验发现，当用户在运动时，反射信号中才会包括多普勒频移。为了减少能量消耗，系统每10s发出1s的信号。当用户进行运动时，在每个频率分量的中心附近都有几个振幅值大于1的峰值。在每个频率分量的每一侧提取2个最接近的峰值，对于每个1s的信号，总共得到2个峰值×2侧×5个频率分量×6个麦克风＝120个峰值。计算这些峰值的平均值，如果该值超过1，就认为存在活动。

步骤2.3、经过步骤2.2确认是否存在活动后，进一步通过重复性分析判断该活动是否为健身活动。一旦检测到运动，系统将开始发出连续的信号。添加一个长度为13s的窗口，该窗口每次在反射信号上滑动1s，并在每个窗口上采用带通滤波器和频谱减法过滤掉所需频率之外的信号，仅保留多普勒频移部分。系统计算滤波后信号的自相关值，若2个连续窗口中的每个窗口均具有4个以上的峰，其峰值均大于阈值(优选的，设置为0.1)，则认为存在健身动作。

步骤3：训练一个LSTM神经网络进行健身动作的识别和分类。

步骤3.1：招募4位健身教练完成不同的健身动作进行标准数据收集。室内放置的智能音箱发出连续的高频声音信号，经过正在运动的人体反射后产生多普勒频移，并被麦克风接收。

利用麦克风阵列定向增强健身用户的反射信号。反射信号在不同的时间到达每个麦克风，因此可以使用基于到达时间差(TDOA)的方法来获取用户相对于智能音箱的方向。假定信号源位于阵列远场中，则所有麦克风的到达角(DOA) 均相同。使用在步骤2.3中处理的6个麦克风的信号，并通过广义互相关函数时延估计算法(GCC-PHAT)估计每个信号对之间的相关性，并在每个相关性中找到最大的峰值。最后，通过最小二乘估计法算出用户的方位角和仰角。然后，使用时延波束形成算法来把6个麦克风的信号合成为1个信号，从而提高了来自用户反射的信噪比(SNR)。

步骤3.2：为了准确识别健身类型和提供健身效果评估，通过计算信号的短时能量(STE)来确定每个健身动作的开始时间和结束时间，然后分割出每个健身动作。此处注意，将完整的健身过程分为一个健身动作和一组。一组通常包含一定数量的健身动作。首先使用最小-最大归一化来归一化信号。然后应用长度为0.5s的滑动窗口，每次在信号上滑动0.1s。将t时刻的STE定义为:

其中，s(δ)是时间δ处的信号幅度，ω是汉宁窗口，l是窗口长度。

分别为起始位置和结束位置的斜率设置阈值sth和eth，交替搜索健身的开始和结束时间。用Θ_t＝(E_t+1-E_t)/△t计算t时刻的斜率，如果Θ_t大于sth，且 E_t+2>E_t+1，就认为时间t是开始时间。然后，在时间t之后搜索对应的结束时间，如果Θ_t+ψ小于eth，且E_t+ψ-1>E_t+ψ，则认为时间t+ψ为对应的结束时间。然后我们继续搜索下一次健身动作的开始和结束时间，直到用户完成健身。此处注意，如果两个健身动作的时间间隔大于7s，就认为它们属于不同的组。如果一个健身动作后90秒内没有出现下一个健身动作，就认为健身结束。

为了提取信号中的特征，将信号平均分为8个块，对每个块进行4096个点的快速傅立叶变换(FFT)处理。由于使用的频率主要在19kHz到21kHz之间，所以只需关注1765到1950点。每个块的相位被用于形成一个186维特征向量，每个健身动作获得8个特征向量。这样就得到了用于后续训练分类器所需的特征向量。

步骤3.3：对于经步骤3.2处理后所获取的每一个特征向量，我们使用深度学习方法对重复进行分类。传统的分类器通常将每个块视为独立的，而忽略时间的连续性。因此设计了一个利用了块内的时间相关性的长短期记忆人工神经 (LSTM)网络。它有8个timestep，每个timestep以1个块为输入，在最后1 个timestep后生成1个分类结果。

该网络具有2个LSTM层、2个全连接(FC)层和1个Soft-max层。LSTM层可以将输入转换为压缩表示，压缩表示可以通过一种无监督方式来特征化健身动作。在第t个timestep，LSTM层可以将输入p_t映射到一个压缩的矢量h_t，此处有:h_t＝σ(W[h_t-1,p_t]+b)·tanh(C_t)。其中σ(·)是sigmoid函数，W和b分别表示权重和偏差。C_t表示第t个timestep的状态。然后，在最后1个timestep后添加两个FC层。最后，Soft-max层计算一个类概率向量，然后将健身动作分配给具有最高概率的类。此外，在任意两层之间添加了一个BN层，用来防止过度拟合。

在实际应用中，首先，用户在室内健身时面对智能音箱，智能音箱扬声器连续发射设计好的高频声音信号，经用户人体反射后被智能音箱麦克风接收。智能音箱连续将接收到的信号送入带通滤波器进行滤波，对滤波后的信号再运用频谱减法去除多余的频率分量，只保留多普勒频移的部分。实施时延波束形成算法进行降噪，把6个麦克风的信号合成为1个信号。基于STE的斜率进行动作分割，最后经4096点的快速傅里叶变换得到关于相位的特征向量。然后将特征向量送入步骤3.3训练好的LSTM神经网络中，得到当前用户健身动作的类别。

该网络通过使用动作模板中的标准健身数据进行训练，能够区分模板中的动作。为了增强可用性，本方法允许用户在模板之外添加新的操作。利用增量学习的思想，令网络前3层的结构和参数保持不变，最后2层由新动作和所有的现有动作重新训练。这种方法可以在再训练过程中减少数据集的大小，用户只需要重复完成几次新动作即可。

步骤4：对用户的健身效果进行评估。

本方法通过将用户数据与健身教练数据生成的模板相比较，从局部效应和全局效应两个方面来综合衡量健身质量。

局部效应侧重于评估每次健身动作的强度和持续时间。用STE的值来表示强度。将强度平衡定义为BI＝α-I_e/I_r，其中I_e和I_r是伸展和收缩的强度，I_r代表从动作模板获得的标准平衡。α表示从动作模板获得的标准平衡。持续时间反映了每次健身动作花费的时间。假设D是健身动作的持续时间，D_s是动作模板中相应的标准持续时间，我们可以计算它们的差值d＝D_s-D作为评价持续时间的标准。

全局效果侧重于每一组的整体表现，衡量指标包括连续性和平滑性。连续性反映了一组中两次健身动作之间休息间隔的一致性。良好的连续性体现为稳定的健身节奏。为了评价每组的连续性，我们采用峰度作为度量，假设R＝ [r₁,r₂,…,r_n]是集合的剩余区间，峰度可以计算为:

其中μ和θ是R的平均值和标准差。Kurt越大，每组动作的连续性越好。平滑度反映了一组强度的一致性。一组运动中每个健身动作的强度相似表明用户对肌肉的控制力较强。把I_e和I_r的平均值作为每次健身动作的强度，计算一组的强度峰度，值越大表明平滑度越好。

实施例

使用1个树莓派4B、1个圆形的6个麦克风阵列和1个全向扬声器来组建一个智能音箱原型，从而对本方法的性能进行测试。招募了8位不同水平的健身用户(5名男性和3名女性)进行实验。选择了一个卧室、一个客厅、一个书房和一个办公室共4个不同的室内环境作为实验场地。

首先，测试本方法在各种情况下的总体准确率。8位志愿者在4种不同环境中分别执行10种健身动作，智能音箱对用户的健身活动进行分类。图3显示了所有分类的平均准确率、召回率和F1分数。由图可以看出，所有情况的准确率均不低于93.24％，召回率不低于93.80％，F1分数平均为96.61％，充分说明了本方法有着较高的准确性。

然后，测试本方法在5种不同干扰下的性能。用户的反射信号会受到周围人或宠物活动的影响。对他人在系统周围走路、打字、看电视、听音乐以及宠物在用户周围走动的情况对系统的影响进行了研究。图4显示了在这5种干扰下未去噪的和去噪后的F1分数，可以看出，当附近有行走的人时，F1分数相对较低，且行走的人越靠近用户，F1分数越低。但根据人际距离学，人与人之间的间距通常大于2米，因此影响很小。宠物活动和他人打字行为带来的影响也很轻微。看电视和听音乐的声音主要是低频信号，而本发明针对的均为高频信号。综上，每种干扰情况下都可以通过降噪这一步骤实现显著的性能提升，去噪后的 F1分数均在90％以上。

之后，测试智能音箱和用户之间的距离对本方法性能的影响。图5展示了所有健身动作在不同距离下的F1分数的平均值以及其中3种类型的健身在不同距离下的F1分数。可以看出，当距离小于2m时，本方法都具有良好的性能。哑铃弯举(Fitness b)的F1分数随距离的增大而下降的较快，这是因为这个动作只用到了前臂，而前臂反射信号相对较弱。此处请注意，并非距离越小而F1分数越高，因为如果距离太小，系统将无法捕捉到用户全身的反射信号。

最后，测试本方法对于不同水平的用户的局部效果和全局效果评价。本实验包括了3名分别为专业水平、普通水平和新手水平的用户，要求每人做4组深蹲，每组包括12个重复动作。图6显示了不同水平的3名志愿者的强度和一次健身动作用时。可以看出，专业用户在强度和用时上均能保持相对稳定；普通用户在最后几次动作中逐渐失去稳定；新手用户则具有最不稳定的强度且持续时间大多长于标准时间。

由于人在健身时不同的动作会产生不同的多普勒频移，通过分析收集到的多普勒频移中的相位信息，就能获得用户目前的运动类型，从而分析评价用户的运动效果。因此本方法使用智能音箱的扬声器和麦克风组成一个简易的多普勒雷达系统，收集用户健身运动产生的多普勒频移，并采取有效的算法保证了本方法较高的稳定性和准确性。

以上所述的具体实例是对本发明的进一步解释说明，并不用于限定本发明的保护范围，凡在本发明原则和精神之内，所做的更改和等同替换都应是本发明的保护范围之内。

Claims

1.一种利用智能音箱的非接触式健身监测方法，其特征在于，包括以下步骤：

步骤1：分析适用于健身监测的发射和接收信号；

为监测用户的健身过程，智能音箱主动发出高频信号，该信号经过用户身体的反射后会产生多普勒频移；通过分析反射信号中的多普勒频移，进一步检测用户运动；

多普勒效应内容为声源发出声音的频率受到声源和接收者的相对运动而产生变化；多普勒频移Δf由Δf＝(2v/c)·f决定，其中，f是发射频率，c是声速，v是相对运动速度；设计具有5个频率分量的发射信号，包括19kHz、19.5kHz、20kHz、20.5kHz和21kHz，在t时刻的发射信号定义为

其中，f_n表示第n个频率分，A_n和φ_n分别是振幅和初始相位；在接收端，麦克风阵列收集反射信号；

步骤2：分析区分健身活动与日常活动；

步骤2.1：针对人们的日常活动进行实验，找到健身活动与日常活动的区别；

步骤2.2：进行活动检测，确定是否存在活动；

步骤2.3：经过步骤2.2确认是否存在活动后，进一步通过重复性分析判断该活动是否为健身活动；一旦检测到运动，系统将开始发出连续的信号；

步骤3：训练一个LSTM神经网络，对健身动作进行识别和分类；

步骤3.1：使用基于到达时间差方法，获取用户相对于智能音箱的方向：

设信号源位于阵列远场中，则所有麦克风的到达角均相同，使用步骤2.3的信号，并通过广义互相关函数时延估计算法估计每个信号对之间的相关性，并在每个相关性中找到最大的峰值；最后，通过最小二乘估计法算出用户的方位角和仰角；使用时延波束形成算法，把所有麦克风的信号合成为1个信号；

步骤3.2：使用最小-最大归一化来归一化信号；

计算合成信号的短时能量，进一步基于STE的斜率进行信号分割，分别为开始和结束位置的斜率设置阈值sth和eth，把每个时间t的斜率与阈值比较，交替搜索健身动作的开始和结束时间直到结束，从而分割出每个动作；

步骤3.3：对健身动作进行分类；

对每组的前3个健身动作进行分类，设计的分类网络有2个LSTM层、2个全连接层和1个Soft-max层；LSTM层将输入转换为压缩表示，压缩表示通过无监督的方式表征健身动作；在第t个timestep，LSTM层将输入数据p_t映射为一个压缩向量h_t，即，h_t＝σ(W[h_t-1,p_t]+b)·tanh(C_t)，其中，σ(·)是sigmoid函数，W和b分别表示权重和偏差，C_t表示第t个timestep的状态，h_t-1表示上一个timestep输出的压缩向量；然后，在最后1个timestep后添加两个FC层；Soft-max层计算一个类概率向量，然后将健身动作分配给具有最高概率的类；

步骤4：对用户的健身效果进行评估，通过将用户数据与健身教练数据生成的模板相比较，从局部效果和全局效果两个方面来综合衡量健身质量；

局部效应侧重于评估每次健身动作的强度和持续时间，用STE的值来表示强度；将健身强度定义为BI＝α-I_e/I_r，一次健身动作分为伸展和收缩两部分，其中I_e和I_r分别表示伸展和收缩的强度，α表示从动作模板获得的标准强度；持续时间反映每次健身动作花费的时间，设D是一个健身动作的持续时间，D_s是动作模板中相应的标准持续时间，计算它们的差值d＝D_s-D作为评价持续时间的标准；

全局效应侧重于每一组的整体表现，衡量指标包括连续性和平滑性；连续性反映一组中两次重复之间休息间隔的一致性；为评价每组的连续性，采用峰度作为度量，设集合R＝[r₁,r₂,…,r_n]是一组健身动作r_i的休息间隔，峰度计算为：

其中，μ和θ是R的平均值和标准差；平滑度反映一组强度的一致性，将I_e和I_r的平均值作为每个健身动作的强度，计算一组的强度峰度。

2.如权利要求1所述的一种利用智能音箱的非接触式健身监测方法，其特征在于，步骤1中，在接收端，麦克风阵列以44.1kHz的采样率收集反射信号。

3.如权利要求1所述的一种利用智能音箱的非接触式健身监测方法，其特征在于，步骤2.2中，为减少能量消耗，系统每10s发出1s的信号；当用户进行运动时，在每个频率分量的两侧各提取2个最接近频率分量的峰值，对于每个1s的信号，总共得到2个峰值×2侧×5个频率分量×6个麦克风＝120个峰值；计算这些峰值的平均值，如果该值超过1，就认为存在活动。

4.如权利要求1所述的一种利用智能音箱的非接触式健身监测方法，其特征在于，步骤2.3的实现方法为，添加一个长度为13s的窗口，该窗口每次在反射信号上滑动1s，并在每个窗口上采用带通滤波器和频谱减法过滤掉所需频率之外的信号，仅保留多普勒频移部分；系统计算滤波后信号的自相关值，若2个连续窗口中的每个窗口均具有4个以上的峰，其峰值大于设定阈值，则认为存在健身动作。

5.如权利要求4所述的一种利用智能音箱的非接触式健身监测方法，其特征在于，阈值设定为0.1。

6.如权利要求1所述的一种利用智能音箱的非接触式健身监测方法，其特征在于，步骤3.2中，采用一种时频特征提取方法，从反射信号中提取特征：

将每个健身动作的信号分为8块，每块进行快速傅里叶变换，采样点数为4096，关注对应于19-21kHz的1765-1950点，每个块的相位被用于形成一个186维特征向量，每个健身动作有8个特征向量。