CN111227839B

CN111227839B - 一种行为识别方法及装置

Info

Publication number: CN111227839B
Application number: CN202010060754.1A
Authority: CN
Inventors: 王迎雪; 刘弋锋; 邹博超; 谢海永
Original assignee: China Academy of Electronic and Information Technology of CETC
Current assignee: China Academy of Electronic and Information Technology of CETC
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2023-08-18
Anticipated expiration: 2040-01-19
Also published as: CN111227839A

Abstract

本发明提供一种行为识别方法及装置，用以解决相关技术中行为识别精度较低的问题。该方法包括：控制声波发射器发射声波信号；采集目标对所述声波信号的反射信号；基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，其中，所述预设深度神经网络模型根据声波反射信号样本训练得到，所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波产生的反射信号。本发明有效提高了行为识别的精度。

Description

一种行为识别方法及装置

技术领域

本发明涉及行为识别技术领域，尤其涉及一种行为识别方法及装置。

背景技术

行为识别技术在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。目前，传统行为识别方式包括基于视频的行为识别、基于可穿戴传感器的行为识别、基于雷达的行为识别以及基于红外技术的行为。基于视频的行为识别技术是采用计算机视觉技术、图像处理技术对视频采集设备获取到的用户行为图像序列进行处理，进而对行为或手势进行识别。该行为识别技术计算量大，适合视距范围的识别，容易存在视觉无法观看到的死角，还会受到光照、障碍物等的影响，且数据存储时的空间复杂度大和处理时的时间复杂度较大，只能用于特定场所。而基于可穿戴传感器的行为识别方式是将加速度计等可穿戴传感器安装在用户身上或者放置在目标物体上，用户与物体互动，从而识别用户行为。这种方法需要所有的参与者主动配合的佩戴传感器设备，在实际的应用中，让被测对象主动佩戴传感器设备是不可能实现的。而基于雷达的方法识别率低，同时，超声波在传播过程中容易衰减，导致该方法识别范围有限，设备成本高，且只能用于特定场合。红外技术可在昏暗环境实现高精度的动作识别，代表性产品包括Leap Motion与微软的Kinect等。但红外技术只能识别特定区域内的活动，设备购买与部署的代价高。

发明内容

本发明的主要目的在于提供一种行为识别方法及装置，以解决相关技术中行为识别精度较低的问题。

本发明提供了一种行为识别方法，包括：控制声波发射器发射声波信号；采集目标对所述声波信号的反射信号；基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，其中，所述预设深度神经网络模型根据声波反射信号样本训练得到，所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。

可选地，所述方法还包括：在采集所述反射信号之后，对所述反射信号进行调制以及低通滤波；利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分；通过预加重因子对去除静音部分后的信号进行预加重处理；对预加重处理后的信号进行分帧处理以及加窗处理。可选地，所述基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，包括：获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱；将所述梅尔频谱作为所述预设深度神经网络模型的输入，得到与所述反射信号对应的行为类型。

可选地，所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层，所述多层卷积深度神经网络的输入与一层线性层相连，所述一层线性层与所述多层长短时记忆网络相连，所述多层长短时记忆网络的输出与所述全连接层相连。

可选地，所述行为类型至少包括以下一种：慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。

本发明还提供了一种行为识别装置，包括：控制模块，用于控制声波发射器发射声波信号；采集模块，用于采集目标对所述声波信号的反射信号；确定模块，用于基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，其中，所述预设深度神经网络模型根据声波反射信号样本训练得到，所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。

可选地，所述装置还包括：第一处理模块，用于在采集所述反射信号之后，对所述反射信号进行调制以及低通滤波；第二处理模块，用于利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分；第三处理模块，用于通过预加重因子对去除静音部分后的信号进行预加重处理；第四处理模块，用于对预加重处理后的信号进行分帧处理以及加窗处理。可选地，所述确定模块，包括：获取单元，用于获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱；输入单元，用于将所述梅尔频谱作为所述预设深度神经网络模型的输入，得到与所述反射信号对应的行为类型。

本发明有益效果如下：

本发明实施例提供的行为识别方法，采集目标对声波信号的反射信号，利用预设深度神经网络模型基于该反射信号对目标的行为进行识别，其中，由于预设深度神经网络模型基于反射信号样本进行训练得到，故可基于反射信号的特征有效的识别出目标行为，提高了行为识别的精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的一种行为识别方法的流程图；

图2是根据一示例性实施例示出的一种声学传感器的信号采集装置的示意图；

图3是根据一示例性实施例示出的通过声学传感器的信号采集装置实现行为识别方法的示意图；

图4是根据一示例性实施例示出的预设深度神经网络模型的示意图；

图5是根据一示例性实施例示出的一种行为识别装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的一种行为识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤101：控制声波发射器发射声波信号；

在该步骤101中，可通过控制器控制声波发射器发射声波信号。

步骤102：采集目标对所述声波信号的反射信号；

在该步骤102中，目标对声波信号的反射信号同样为声学信号，故可通过控制器控制声波接收器接收反射信号。

其中，上述目标例如人，当人在声学传感器前行走时，可将声波信号进行反射，从而产生反射信号，基于此，通过多普勒效应可将人的步态转换为不同的声学信号，以便利用不同的声学信号对用户的不同行为进行识别。其中，声波的多普勒效应指在声源(声学传感器)与目标(人)之间有相对运动时，反射信号的频率有所改变，该频率的变化称之为频移。假设声波发射器发出的声波为一正弦信号，即s(t)＝Asin(2πft)，目标距离声学传感器的距离为R(t)，目标以v(t)的速度走近/远离声学传感器，由多普勒效应得知，声波接收器接收到的反射信号为：

其中，A'和c分别为反射系数和光速。当目标与声学传感器之间的角度为θ时，上述公式(1)可以表达为：

由于人的步态是由人的胳膊、脚、小腿等多部位的综合表征，因此当人走向/远离声学传感器时，考虑人的j个部位对步态的影响，则反射信号为：

由于每个人走路的速度、重心等都不同，因此由上述公式(3)得知，每个人的反射信号不同。故不同的反射信号可以反应不同人的步态，进而可以用来识别人的身份和/行为。

步骤103：基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，其中，所述预设深度神经网络模型根据声波反射信号样本训练得到，所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。

在一种可实现方式中，预设深度神经网络模型可使用声波反射信号的特征来作为训练数据，例如，可利用声波反射信号的梅尔频谱作为训练数据，将人执行各种行为所产生的反射信号的梅尔频谱进行人工标注标签，其中，一类梅尔频谱对应一种行为类型，得到标注标签后的训练数据，通过对训练数据进行训练得到预设深度神经网络模型。

在一个例子中，本发明实施例的行为识别方法可通过基于声学传感器的信号采集装置实现，如图2所示，该装置可包括声波发射器、数模转换器、声波接收器以及计算机设备。声波发射器和声波接收器可为相同型号的声学传感器。例如，该声学传感器的中心频率为40kHz，灵敏度分别为-63dB和15dB，检测范围为0.5m-16.5m，输出声压为112dB。数模转换器可采用M-audio-M-track 8。通过声学传感器的信号采集装置实现上述行为识别方法如图3所示，可包括：首先，可通过Audacity软件生成采样率为96kHz、增益为20dB的正弦信号，即s(t)＝20sin(192πt)，该正弦信号的谐振频率为40kHz，最小频率和最大频率分别为38kHz和42kHz。随后正弦信号由计算机设备发送给数模转换设备M-audio-M-track 8，以将数字正弦信号转换为模拟信号。此后，转换后的模拟信号被发送给声波发射器，并由声波发射器以声波的形式发射出去。当目标在距离声波传感器0.5-15米的范围内行走时，声波将被目标反射，得到反射信号，反射信号被声波接收器接收，声波接收器将接收到的信号发送给数模转换设备M-audio-M-track 8。随后，M-audio-M-track 8将反射的模拟信号转换为数字反射信号，并将反射信号传输到计算机设备中。计算机设备可通过Audacity软件对所有数字反射信号(即，声学信号)以16位脉码调制(PCM)、波形音频文件格式的形式进行保存。

在一种可实现方式中，本发明实施例的行为识别方法还可包括：在采集所述反射信号之后，对所述反射信号进行调制以及低通滤波；利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分；通过预加重因子对去除静音部分后的信号进行预加重处理；对预加重处理后的信号进行分帧处理以及加窗处理。此处以上述例子中目标对声波发射器发射的声波信号的产生的反射信号为例进行说明，在对接收到反射信号进行调制并进行低通滤波后，可获得采样率为8kHz和16位精度的信号，调制后，信号的中心频率从40kHz变为2kHz。其次，利用端点检测算法来去除声学信号的静音部分。随后，用预加重因子对声信号进行预加重处理，以加强声学信号的高频分量。此后，对预加重后的信号进行分帧和加窗处理。分帧处理后，信号每帧的长度可为40-64ms，即每帧中的样本总数为N＝320-512(采样频率Fs＝8kHz)。帧与帧之间的重叠是20-32ms。其中，在对信号进行加窗处理时，可采用汉明窗。

在一种可实现方式中，基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型可包括：获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱；将所述梅尔频谱作为所述预设深度神经网络模型的输入，得到与所述反射信号对应的行为类型。其中，所述行为类型包括以下至少一种：慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。在训练深度神经网络模型时，可使用慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒这六种行为对应的大量声波反射信号样本进行训练，该声波反射信号样本例如该反射信号对应的时序声学特征向量梅尔频谱，使得基于训练得到的深度神经网络模型，输入采集到的声波反射信号的梅尔频谱后，该深度神经网络模型的输出，即为目标的行为类型。

图4是根据一示例性实施例示出的预设深度神经网络模型的示意图，如图4所示，所述预设深度神经网络模型包括多层卷积深度神经网络(CNN)、线性层(LE)、多层长短时记忆网络(LSTM)以及全连接层，所述多层卷积深度神经网络的输入与一层线性层(LE)相连，所述一层线性层与所述多层长短时记忆网络相连，所述多层长短时记忆网络层的输出与所述全连接层相连。其中，CNN用来减小声学信号在时域上的变化，线性层用来降低CNN输出的声学信号特征的维数，LSTM用来减小声学信号在频域上的变化，全连接层(FC)的目的是将特征空间映射到更容易分类的输出层。该预设深度神经网络模型集成了CNN和LSTM的优点，可以大幅度提高对目标的行为的识别率。

在训练上述预设深度神经网路模型时，可借鉴Hinton等在训练DBN(Deep BeliefNetwork，深度置信网络)时所采用的逐层优化的方法，在深度学习中使用逐层优化的思想及深度模型优化方法，即首先采用BPTT(Back Propagation Trough Time,基于时间的反向传播)算法训练出一个浅层LSTM网络，在此基础上，为模型添加新的LSTM层，继续训练，同时对低层参数进行微调；当添加新的LSTM层进行训练时，保留已训练好的LSTM层中的全连接层和目标函数，并将其与新的全连接层及目标函数一起进行优化。同时，为使得低层参数能够得到进一步优化，也为了避免模型陷入过拟合状态，可为模型增加额外的正则化信息，可使用多目标优化策略，在为LSTM网络添加新的层级时，可保留原有的分类层和目标函数。

目标优化时，其目标函数可定义为：

其中，f(·)为系统函数，x为训练样本,s为LSTM的训练样本，θ₁为CNN网络中的参数集合，θ₂为LSTM网络中的参数集合，为损失函数。整个系统的目标是寻找一组合适的θ₁和θ₂，使得/>最小。

在实际操作中，可将分为/>和/>两个部分,其中，/>表示CNN网络的损失函数，/>表示LSTM网络的损失函数。因此,/>可定义如下：

其中，K表示LSTM网络中所使用的总的阶段数，k表示在使用逐层多目标方式优化LSTM网络时的第k个阶段，则表示LSTM网络中第k个阶段的损失函数。/>中的两个部分都采用交叉熵进行计算，其计算过程分别由以下式(6)和式(7)完成：

在式(6)中，n表示一次迭代中训练所使用的总的声学帧数，y⁽ⁱ⁾表示第i帧的实际值(标签)，x⁽ⁱ⁾则表示CNN网络的输出。在式(7)中，r_j表示在第k阶段第j帧信号的参考值，表示在第k阶段第j帧信号对应的LSTM的网络输出。

图5是根据一示例性实施例示出的一种行为识别装置的框图，如图5所示，该装置50包括：

控制模块51，用于控制声波发射器发射声波信号；

采集模块52，用于采集目标对所述声波信号的反射信号；

确定模块53，用于基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，其中，所述预设深度神经网络模型根据声波反射信号样本训练得到，所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。

在一种可实现方式中，所述装置还可包括：第一处理模块，用于在采集所述反射信号之后，对所述反射信号进行调制以及低通滤波；第二处理模块，用于利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分；第三处理模块，用于通过预加重因子对去除静音部分后的信号进行预加重处理；第四处理模块，用于对预加重处理后的信号进行分帧处理以及加窗处理。

在一种可实现方式中，所述确定模块可包括：获取单元，用于获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱；输入单元，用于将所述梅尔频谱作为所述预设深度神经网络模型的输入，得到与所述反射信号对应的行为类型。

在一种可实现方式中，所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层，所述多层卷积深度神经网络的输入与一层线性层相连，所述一层线性层与所述多层长短时记忆网络相连，所述多层长短时记忆网络的输出与所述全连接层相连。

在一种可实现方式中，所述行为类型包括以下至少一种：慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

控制声波发射器发射声波信号；

采集目标对所述声波信号的反射信号；

基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，其中，所述预设深度神经网络模型根据声波反射信号样本训练得到，所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号；

其中，所述预设深度神经网络模型的训练过程，包括：

定义目标函数：

其中，f(·)为系统函数，x为训练样本,s为LSTM的训练样本，θ₁为CNN网络中的参数集合，θ₂为LSTM网络中的参数集合，为损失函数，整个系统的目标是寻找一组合适的θ₁和θ₂，使得/>最小；

将分为/>和/>两个部分，其中，/>表示CNN网络的损失函数，/>表示LSTM网络的损失函数，定义如下：

其中，K表示LSTM网络中所使用的总的阶段数，k表示在使用逐层多目标方式优化LSTM网络时的第k个阶段，则表示LSTM网络中第k个阶段的损失函数；/>中的两个部分都采用交叉熵进行计算，具体包括：

其中，n表示一次迭代中训练所使用的总的声学帧数，y⁽ⁱ⁾表示第i帧的实际值(标签)，x⁽ⁱ⁾则表示CNN网络的输出；

其中，r_j表示在第k阶段第j帧信号的参考值，(s_j)_k表示在第k阶段第j帧信号对应的LSTM的网络输出。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在采集所述反射信号之后，对所述反射信号进行调制以及低通滤波；

利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分；

通过预加重因子对去除静音部分后的信号进行预加重处理；

对预加重处理后的信号进行分帧处理以及加窗处理。

3.根据权利要求2所述的方法，其特征在于，所述基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，包括：

获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱；

将所述梅尔频谱作为所述预设深度神经网络模型的输入，得到与所述反射信号对应的行为类型。

4.根据权利要求1所述的方法，其特征在于，所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层，所述多层卷积深度神经网络的输入与一层线性层相连，所述一层线性层与所述多层长短时记忆网络相连，所述多层长短时记忆网络的输出与所述全连接层相连。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述行为类型包括以下至少一种：

慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。

6.一种行为识别装置，其特征在于，包括：

控制模块，用于控制声波发射器发射声波信号；

采集模块，用于采集目标对所述声波信号的反射信号；

确定模块，用于基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型，其中，所述预设深度神经网络模型根据声波反射信号样本训练得到，所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号；

其中，所述预设深度神经网络模型的训练过程，包括：

定义目标函数：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第一处理模块，用于在采集所述反射信号之后，对所述反射信号进行调制以及低通滤波；

第二处理模块，用于利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分；

第三处理模块，用于通过预加重因子对去除静音部分后的信号进行预加重处理；

第四处理模块，用于对预加重处理后的信号进行分帧处理以及加窗处理。

8.根据权利要求7所述的装置，其特征在于，所述确定模块，包括：

获取单元，用于获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱；

输入单元，用于将所述梅尔频谱作为所述预设深度神经网络模型的输入，得到与所述反射信号对应的行为类型。

9.根据权利要求6所述的装置，其特征在于，所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层，所述多层卷积深度神经网络的输入与一层线性层相连，所述一层线性层与所述多层长短时记忆网络相连，所述多层长短时记忆网络的输出与所述全连接层相连。

10.根据权利要求6至9任一项所述的装置，其特征在于，所述行为类型包括以下至少一种：

慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。