CN111643098A

CN111643098A - 一种基于智能声学设备的步态识别与情绪感知方法和系统

Info

Publication number: CN111643098A
Application number: CN202010517011.2A
Authority: CN
Inventors: 邹永攀; 洪史聪; 伍楷舜; 刘金源; 潘子健
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-11
Also published as: WO2021248916A1

Abstract

本发明公开了提供一种基于智能声学设备的步态识别与情绪感知方法和系统。该方法包括：以扬声器作为发送信号的波源，利用麦克风采集目标步行者反射的信号，获得音频数据；对所述音频数据进行处理，获得对应的能量图谱并切分出包含步态事件的信号；对于所述包含步态事件的信号，分别提取宏观步态特征、微观步态特征和多种神经网络的嵌入表示特征；以融合所述宏观步态特征、所述微观步态特征和所述多种神经网络的嵌入表示特征的特征向量作为输入，利用经训练的分类器，获得目标步行者的情绪分类结果。本发明能够应用在智能家居环境，在不侵犯个人隐私和要求用户携带额外设备的情况下，进行情绪识别。

Description

一种基于智能声学设备的步态识别与情绪感知方法和系统

技术领域

本发明涉及情境感知技术领域，更具体地，涉及一种基于智能声学设备的步态识别与情绪感知方法和系统。

背景技术

随着物联网智能设备的普及，面向智能家居场景下的自然人机交互变得越来越重要。由于智能家居的发展，物联网的情感计算有现实应用的场景需求，例如，通过人的步态来研究步行者的情绪，从而获得更好的人机交互。

在现有技术中，通常使用与相机相关的步行数据或使用与可穿戴设备相关的步行数据来进行步态识别和情绪感知。

例如，使用Kinect相机，采集人体关节节点的步态数据，对带有情绪标签的步态数据进行分析和分类，区分中立、愤怒、快乐三种情绪。又如，使用RGB视频，区分步行者快乐、悲伤、愤怒、中立四种步态情绪。与相机有关的步态研究，通常侧重于步态能否区分不同个体的问题，如将轮廓图像序列进行个体认证。

与可穿戴设备相关的研究，将VICON设备安装到步行者的关键身体部位，如髂前上肌、髂后上肌、膝外侧上髁、大腿表面三分之一的下外侧肌、外踝、胫骨、第二跖骨头和跟骨。根据采集的数据来研究情绪状态对步态启动时的影响。此外，现有技术还使用VICON采集关键人体节点的数据，研究如何对步态中快乐、悲伤、愤怒、恐惧、中立五种情绪进行分类。或者采集带有三轴加速度计的手环和脚环的数据，分析加速度数据并对情绪进行分类。

现有技术方案主要存在两个问题。第一，基于相机图像的步态认证及情绪识别系统，或多或少会捕捉到步行者的脸部信息，或者穿着等外在信息，进而导致个人隐私泄露，而家居场景下的用户隐私保护在近年来越来越受到关注。第二，基于可穿戴设备的步态认证及情绪识别系统，要求用户佩戴或者携带数据采集的装置，这增加了用户的不便捷性，尤其是基于VICON设备的系统，需要在用户身上安装较多的关键采集节点，从而对步行者的步态造成不便，并且也与用户日常的生活状况不相符合。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于智能声学设备的步态识别与情绪感知方法和系统，利用智能家居场景下的商用智能设备对用户情绪进行感知，从而实现更加自然的人机交互。

根据本发明的第一方面，提供一种基于智能声学设备的步态识别与情绪感知方法。该方法包括以下步骤：

以扬声器作为发送信号的波源，利用麦克风采集目标步行者反射的信号，获得音频数据；

对所述音频数据进行处理，获得对应的能量图谱并切分出包含步态事件的信号；

对于所述包含步态事件的信号，分别提取宏观步态特征、微观步态特征和多种神经网络的嵌入表示特征，其中，微观步态特征是基于能量图谱分析提取的多维特征，宏观步态特征相对于微观步态特征用于表征较大尺度的肢体运动步态，多种神经网络的嵌入表示特征是通过训练神经网络提取的步态特征；

以融合所述宏观步态特征、所述微观步态特征和所述多种神经网络的嵌入表示特征的特征向量作为输入，利用经训练的分类器，获得目标步行者的情绪分类结果。

在一个实施例中，对所述音频数据进行处理包括：

对所述音频数据进行带通滤波，获得目标频段信号；

对于所述目标频段信号，使用带阻滤波器消除主频段附近的噪声，获得去噪的目标频段信号；

通过分帧加窗和傅里叶变换获得所述去噪的目标频段信号的能量图谱；

将所获得的能量图谱的每一帧与设定阈值进行比较，确定每一步的起点和终点，进而切分出所述包含步态事件的信号。

在一个实施例中，提取宏观步态特征包括：

对切分出的所述包含步态事件的信号，通过时频变换获得各子带能量图谱；

基于获得的各子带能量图谱确定各帧最大的频率，进而根据多普勒频移计算出目标步行者的躯干的速度曲线；

基于所述躯干的速度曲线确定步伐中的加速阶段和减速阶段，获得一个完整的步伐；

根据时频图中每一帧的能量占比获得手臂、大腿、足部的多普勒频移，进而获得相应身体部分的速度曲线。

在一个实施例中，根据以下步骤获得所述多普勒频移；

建立扬声器、麦克风和目标步行者之间的物理模型；

确定由于多普勒效应产生的麦克风接收的声波频率与扬声器的振动频率之间的差值与目标步行者移动速度之间的关联关系，作为所述多普勒频移。

在一个实施例中，所述多普勒频移表示为：

其中，c是空气中声波速度，λ是空气中的声波波长，fs是扬声器的振动频率，Vr是目标步行者的移动速度。

在一个实施例中，提取微观步态特征包括：

将每一步分为加速阶段和减速阶段，针对所述加速阶段和所述减速阶段，分别通过在多个不同的频率下的傅里叶变换能量图谱的平均振幅提取出多维的能量特征，获得每一步对应的多维特征。

在一个实施例中，所述分类器的输入还包括卷积神经网络中间层输出的深度步态特征，该卷积神经网络是以步态的能量图谱作为输入经训练获得。

在一个实施例中，所述宏观步态特征包括目标步行者的躯干速度、四肢速度、单步的时间周期和步长中的一项或多项。

根据本发明的第二方面，提供一种基于智能声学设备的步态识别与情绪感知系统。该系统包括：

数据采集单元，用于以扬声器作为发送信号的波源，利用麦克风采集目标步行者反射的信号，获得音频数据；

数据处理单元，用于对所述音频数据进行处理，获得对应的能量图谱并切分出包含步态事件的信号；

特征提取单元：用于对于所述包含步态事件的信号，分别提取宏观步态特征、微观步态特征和多种神经网络的嵌入表示特征，其中，微观步态特征是基于能量图谱分析提取的多维特征，宏观步态特征相对于微观步态特征用于表征较大尺度的肢体运动步态，多种神经网络的嵌入表示特征是通过训练神经网络提取的步态特征；

情绪分类单元，用于以融合所述宏观步态特征、所述微观步态特征和所述多种神经网络的嵌入表示特征的特征向量作为输入，利用经训练的分类器，获得目标步行者的情绪分类结果。

与现有技术相比，本发明的优点在于，基于微多普勒效应，利用智能声学设备内置的麦克风和扬声器，借助机器学习或者深度学习模型，对用户步态进行分析，进而推断用户的情绪状态。本发明可应用于智能家居环境，在不侵犯个人隐私和要求用户携带额外设备的情况下，进行情感检测。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于智能声学设备的步态识别与情绪感知方法的流程图；

图2是根据本发明一个实施例的基于智能声学设备的步态识别与情绪感知方法的应用场景示例；

图3是根据本发明一个实施例的基于智能声学设备的步态识别与情绪感知方法的详细过程示意。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

参见图1所示，简言之，本发明实施例提供的基于智能声学设备的步态识别与情绪感知方法包括：步骤S110，以扬声器作为发送信号的波源，利用麦克风采集目标步行者反射的信号，获得音频数据；步骤S120，对所述音频数据进行处理，获得对应的能量图谱并切分出包含步态事件的信号；步骤S130，对于所述包含步态事件的信号，分别提取宏观步态特征、微观步态特征和多种神经网络的嵌入表示特征；步骤S140，以融合所述宏观步态特征、所述微观步态特征和所述多种神经网络的嵌入表示特征的特征向量作为输入，利用经训练的分类器，获得目标步行者的情绪分类结果。

在本文中，多种神经网络的嵌入表示特征包含了两部分：一部分是基于例如长短时记忆模型从反射信号的时间序列上提取的特征、另一部分是基于卷积神经网络从反射信号的时频域上提取的特征。而微观步态特征是基于能量图谱分析提取的多维特征，宏观步态特征相对于微观步态特征可用于表征较大尺度的肢体运动步态，例如，通过建立扬声器、麦克风和目标步行者之间的物理模型，确定由于多普勒效应产生的麦克风接收的声波频率与扬声器的振动频率之间的差值与目标步行者移动速度之间的关联关系，进而获得步行者躯干速度、四肢速度、单步的时间周期、步长等宏观步态特征。以下将具体介绍在设置智能声学设备的环境，步行者移动所体现的多普勒效应、步态特征提取和情绪识别等方面的详细内容。

参见图2所示，本发明可应用于智能家居环境，包括波源(扬声器)、观察者(麦克风)、移动物体(步行者)。基于多普勒效应(由于步行者较低的移动速度所导致的频移)，利用商用智能声学设备内置麦克风和扬声器，借助机器学习或者深度学习模型，对用户步态进行分析，进而推断用户的情绪状态。本文涉及的智能声学设备是指具有麦克风、扬声器以及运算单元等的设备，为清楚起见，在下文的某些描述中，以智能音箱为例进行具体说明。

1)关于多普勒效应

在本发明中，多普勒效应体现在，波在波源移向观察者时接收频率变高，而在波源远离观察者时接收频率变低。对于波源(扬声器)、观察者(麦克风)、移动物体(步行者)，可以将步行者分别当作扬声器的观察者和麦克风的波源。物理模型可参考图2的上半部分。

具体地，当步行者作为扬声器的观察者时，即声源静止，人相对于声源以速度Vr运动。此时，空气中的波长λ满足c＝fs*λ，其中，c为空气中声波速度，fs为声源(扬声器)的振动频率。人体接收的声波频率fr满足：c±Vr＝fr*λ。因此，

这表明：当人靠近扬声器时，接收的声波频率增大；远离扬声器时，接收的声波频率减小。

而当步行者作为麦克风的波源时，即观察者静止，人相对于观察者以速度Vs运动。此时，反射振动频率为fs的声波，则空气中的波长λ’满足

即

麦克风接收的声波频率fr’满足c＝fr’*λ’，结合上述公式，得到

这表明：当人靠近麦克风时，麦克风接收的声波频率增大；远离麦克风时，麦克风接收的声波频率减小。

结合以上两种情况，即第二个情况中的fs为第一个情况中的fr，此时，得到

假设扬声器和麦克风处于同一位置，考虑步行者靠近麦克风和扬声器组，此时，Vr＝Vs，统一用Vr来表示步行者的速度，得到：

当c＞＞Vr,为了简便计算,得到：

其中，多普勒频移为

后续将基于这种多普勒效应，进行步态特征提取。

2)步态特征提取

为了获得步行者的步态特征，本发明实施例提取宏观步态特征(简称宏观特征)和微观步态特征(简称微观特征)。宏观特征是带有现实意义的，可解释的特征，包括：步行者身体各个部分(如手臂、腿部、躯干、足部)的速度、单步步长等。速度特征的提取是通过对采集的音频数据进行时频变换，例如短时傅里叶变换(STFT)，可以在一定的时间分辨率下，获得某个时间下的频率谱。频率谱体现了不同身体部分对频移的影响。分析时频谱对应的能量谱，根据不同身体部分的频移占能量谱的百分比不同，进而近似获得身体各部分对应的多普勒频移的数值。

例如，在已知扬声器发出的声波频率fs、身体不同部分的频移数值fd、声波在空气中的波速c的情况下，根据上述的多普勒频移公式，即可获得各个身体部分的速度Vr。而单步的步长体现在：由于步行者单步的进程中，存在加速和减速的阶段，加速导致频移变大，产生波峰，而减速导致频移减小，产生波谷。因此，通过时频图中躯干部分的频率-时间曲线的波峰、波谷的判断，可以获得步行者单步的时间周期，然后与足部的速度相乘，即获得单步步长。

微观特征是从时频能量谱的各个频率段能量在所有步伐上的平均，微观特征补充了除宏观特征之外的多普勒频移特征。利用宏观特征和微观特征融合的特征向量，通过训练情绪感知分类器，可以识别被测目标的情绪状态。除了微观步态特征、宏观步态特征之外，优选地，还可以进一步结合卷积神经网络学习步态的时频图，提取更深度的步态特征，将宏观特征、微观特征和深度步态特征融合作为最终得到的步态特征，用于训练情绪感知分类器。通过结合不同方面的特征，能够互为补充，提高情绪识别的准确度。

3)情绪识别

在提取不同方面的步态特征之后，可以使用机器学习模型，如：SVM(支持向量机)或其他的深度学习模型来实现步态情绪识别。应理解是，本发明的情绪识别整体上包括分类器训练阶段和情绪识别阶段，训练阶段是利用已知的步态特征与情绪类别的对应关系训练构建的分类器，获取满足分类精度的模型参数；在情绪识别阶段，提取被测目标步行者的步态特征，输入到经训练的分类器，即可获得被测目标的情绪分类，本发明对分类级数不进行限制，可以根据不同的情绪分类模型将情绪进行不同的分类，例如，可分为快乐、悲伤、愤怒、恐惧、平静五种类别或更多、更少的类别。

为进一步理解本发明，以下结合图3详细说明进行情绪感知的过程。

步骤S1，打开麦克风和扬声器，采集步态信息。

该步骤执行音频数据采集。扬声器设备在发射声波时，应在声波能到达的有效范围内。同样，麦克风设备在采集音频信号时，应在有效范围内，以确保音频的正常接收。在硬件就绪时，开启麦克风和扬声器，扬声器发送信号，麦克风采集从步行者身体反射的信号。为了使扬声器不产生噪声，扬声器可发送高频近超声波比如频率为20KHz(通常表述为fKHz)的人类无法感知的声波。而为了覆盖由于多普勒频移导致的发射频率以上的声波，可将麦克风的采样率设置为48KHz或者44.1KHz。f KHz是人类无法感知的声波，其中，f尽可能应不小于20，而为了覆盖由于多普勒频移导致的f KHz以上的声波，将麦克风的采样率设置为不小于2f KHz，从而能够满足奈奎斯特采样定理。

步骤S2，信号处理。

对麦克风采集到的音频数据进行处理。例如，首先对采集到的信号进行滤波降噪处理，获得时频能量谱，再对所得到的信号使用端点检测算法，提取出完整的步态事件。具体包括：

步骤S21、首先，对采集的声波信号进行巴特沃斯带通滤波，获得目标频段的信号(例如f±n₀KHz,n₀为实际采用的目标频段大小)；然后，使用带阻滤波器消除主频段附近的、包含发送端直接到达接收端的噪声(例如f±n₁KHz,n₁为实际滤去主频段干扰的大小)，从而获得精确的目标信号。接下来，分帧加窗并通过快速傅里叶变换获得能量图谱；将计算所得的能量图谱的每一帧和设定阈值进行比较，确定步行的起点和终点，最终准确的提取出步态事件的信号。

步骤S22、对步态事件信号进行切分，获得步态声音信号，通过时频变换获得各个子带能量图谱。

步骤S23、对进行分帧加窗的每一个窗口计算短时能量分布。由于躯干部分导致的时频图能量最大，因此，基于步骤S22获得的能量图谱确定各个帧最大的频率，根据上述的多普勒频移公式，获得躯干的速度曲线，此时，躯干的速度曲线中可能有较多的波动，可以采用S-G滤波器对曲线进行平滑处理。由于步行者的一步中，存在加速和减速两个阶段，所以判断躯干速度曲线中的波谷-波峰-波谷的完整加速、减速阶段，即可获得一个完整的步伐。后续信号处理将以一步作为信号窗口为例进行介绍。

S3，特征提取和训练

将每一步的信号长度作为一个窗口进行特征提取。将特征分为宏观和微观特征，宏观特征包括步长、单步周期时间、身体各部分移动速度等肉眼可见的特征，微观特征将单步窗口进一步分割为两个阶段，每个阶段提取出多维度的特征。将微观特征和宏观特征进行组合，形成可用于分类的特征向量。

在一个实施例中，特征提取和训练过程包括以下步骤：

S31，结合步骤S2中所得到的音频信号，可以看到身体的不同部位运动而产生的多普勒频移。从频谱中提取出宏观特征和微观特征，宏观特征是指尺度较大的特征，包括单步步长、单步周期，以及身体各部分的速度的统计学上的数字特征(比如:均值、方差等)，总共m维的特征。

S32A，提取宏观的肢体运动步态特征，包括：躯干速度、四肢速度、单步的时间周期、步长等统计学特征。可以根据步骤S23的方式，获得平滑连续的躯干速度曲线。而其余身体部分的速度，则可根据时频图中每一帧的能量占比来划分。例如，f₀的能量分别达到x％、y％、z％时，f₀分别为手臂、大腿、足部的频率，据此获得对应身体各部分的速度曲线，其中，x、y、z属于可调参数。例如，f₀的能量分别达到30％、75％、95％时，分别为手臂、大腿、足部的频率。

S32B，提取微观的肢体运动步态特征。由于宏观特征的信息维度较低，可能会出现分辨率不足的情况，进一步地，结合微观特征对步态进行分类。以将两步作为一个周期为例，由于每一步的信号是相似的(无法区分左右躯干的差异)，因此按照一步(半个周期)来提取特征，每一步通常有两个阶段，加速阶段和减速阶段，也称为摆荡期和站立期，对这两个阶段分别通过在n个不同的频率下(如果步行者靠近智能音箱，n个不同频率取自大于fKHz的部分；反之，则取自小于fKHz的部分)的时频变换能量图谱的平均振幅提取出n维的能量特征，从而在每半个周期都得到了2n维的特征。其中，n的取值受到不同时频变换方法的影响。

S33A，融合步骤S32A和S32B中提取的宏观和微观特征，得到一个(2n+m)维的特征向量。

S33B，将步骤S22所得到的能量图谱作为卷积神经网络(CNN)的输入，训练模型，并将中间层的输出作为新的特征(或称深度步态特征)，用于提高分类性能。

S33C，将步骤S21所得到的时间序列作为长短时记忆模型(LSTM)的输入，训练模型，并将中间层的输出作为新的特征(或称深度步态特征)，用于提高分类性能。

S34，将宏观特征、微观特征和卷积神经网络中间层的输出特征结合，形成最终的步态特征向量，用于训练情绪感知分类器。

S35：将步骤S34所得到的特征作为机器学习分类器算法，比如：SVM(支持向量机)算法的输入，建立并训练情绪分类器。例如分类为五种基本情绪：快乐、悲伤、愤怒、恐惧和平静。目前，建构的情绪空间有：离散模型和维度模型，以离散模型为例，离散模型认为情绪为数量有限的离散的基本情绪组成，不同的研究者对基本情绪的认识并不一致。而多数研究倾向于认为至少存在：高兴、悲伤、惊讶、恐惧、愤怒和厌恶六种基本情绪。因此本发明对基本情绪的种类数并不作限定，仅举出一种情绪分类器例子。

S4、情绪分析

在此步骤中，根据步态特征匹配对应的情绪，从而实现步态情绪识别。例如，在实际应用中，训练情绪感知分类器之后，对于待测的步行者，将麦克风采集的声音信号进行上述的信号处理、特征提取过程，经最终的步态特征向量输入到已训练的分类器，根据其分类结果来分析当前个体的步态，确定其最可能的情绪。对待测步行者的情绪识别过程与训练过程类似，在此不再赘述。

需说明的是，本发明涉及的卷积神经网络模型或深度学习模型通常包括输入层、多个隐藏层(如多个卷积层、池化层、全连接层)和输出层等。而涉及的长短时记忆模型则包括多个隐藏层(如多个长短时记忆层)和输出层等。例如，上述提取深度步态特征，是指以已知的步态能量图谱作为输入，以情绪分类作为输出，训练满足分类精度要求的卷积神经网络模型，；同理，长短时记忆模型则是以已知的步态时间序列作为输入，以情绪分类作为输出来训练得到的。而在进行深度步态特征提取时，以被测者的步态能量谱/步态时间序列作为输入，去除最后用于分类的一层(如可利用全连接层用于分类)后，所输出的特征。本发明对神经网络模型的具体架构和层数不作限制。

相应地，本发明还提供一种基于智能声学设备的步态识别与情绪感知系统，用于实现上述方法的一个方面或多个方面。例如，该系统包括：数据采集单元，用于以扬声器作为发送信号的波源，利用麦克风采集目标步行者反射的信号，获得音频数据；数据处理单元，用于对所述音频数据进行处理，获得对应的能量图谱并切分出包含步态事件的信号；特征提取单元，用于对于所述包含步态事件的信号，分别提取宏观步态特征、微观步态特征和多种神经网络的嵌入表示特征；情绪分类单元，用于以融合所述宏观步态特征、所述微观步态特征和所述多种神经网络的嵌入表示特征的特征向量作为输入，利用经训练的分类器，获得目标步行者的情绪分类结果。该系统中的各单元可通过专用硬件或处理器等实现。

综上所述，本发明提供的步态识别与情绪感知技术方案，可以利用人耳无法听见的fKHz(例如20KHz)声波和多普勒效应，记录步行者的步态信息，通过提取步态特征，再结合深度学习，分析出步行者的步态中带有的情绪信息。本发明基于商用智能声学设备，实现了通过人走路时肢体运动反射扬声器发出的一定频段的声音信号识别步态，进而分类出对应的情绪。在获取到用户情绪分类后，进一步地，可以根据其情绪进行室内灯光、音乐等的相应改变以调节用户情绪。相对于现有技术，本发明不需要步行者身上携带设备，并且与商用设备兼容，成本较低且易于部署。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于智能声学设备的步态识别与情绪感知方法，包括以下步骤：

2.根据权利要求1所述的基于智能声学设备的步态识别与情绪感知方法，其中，对所述音频数据进行处理包括：

对所述音频数据进行带通滤波，获得目标频段信号；

3.根据权利要求2所述的基于智能声学设备的步态识别与情绪感知方法，其中，提取宏观步态特征包括：

4.根据权利要求3所述的基于智能声学设备的步态识别与情绪感知方法，其中，根据以下步骤获得所述多普勒频移；

建立扬声器、麦克风和目标步行者之间的物理模型；

5.根据权利要求4所述的基于智能声学设备的步态识别与情绪感知方法，其中，所述多普勒频移表示为：

6.根据权利要求1所述的基于智能声学设备的步态识别与情绪感知方法，其中，提取微观步态特征包括：

7.根据权利要求1所述的基于智能声学设备的步态识别与情绪感知方法，其中，所述分类器的输入还包括卷积神经网络中间层输出的深度步态特征，该卷积神经网络是以步态的能量图谱作为输入经训练获得。

8.根据权利要求1所述的基于智能声学设备的步态识别与情绪感知方法，其中，所述宏观步态特征包括目标步行者的躯干速度、四肢速度、单步的时间周期和步长中的一项或多项。

9.一种基于智能声学设备的步态识别与情绪感知系统，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1所述的基于智能声学设备的步态识别与情绪感知方法的步骤。