CN111227839B - 一种行为识别方法及装置 - Google Patents

一种行为识别方法及装置 Download PDF

Info

Publication number
CN111227839B
CN111227839B CN202010060754.1A CN202010060754A CN111227839B CN 111227839 B CN111227839 B CN 111227839B CN 202010060754 A CN202010060754 A CN 202010060754A CN 111227839 B CN111227839 B CN 111227839B
Authority
CN
China
Prior art keywords
signal
layer
reflected signal
neural network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010060754.1A
Other languages
English (en)
Other versions
CN111227839A (zh
Inventor
王迎雪
刘弋锋
邹博超
谢海永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Electronic and Information Technology of CETC
Original Assignee
China Academy of Electronic and Information Technology of CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Electronic and Information Technology of CETC filed Critical China Academy of Electronic and Information Technology of CETC
Priority to CN202010060754.1A priority Critical patent/CN111227839B/zh
Publication of CN111227839A publication Critical patent/CN111227839A/zh
Application granted granted Critical
Publication of CN111227839B publication Critical patent/CN111227839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/112Gait analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/50Systems of measurement, based on relative movement of the target
    • G01S15/58Velocity or trajectory determination systems; Sense-of-movement determination systems
    • G01S15/586Velocity or trajectory determination systems; Sense-of-movement determination systems using transmission of continuous unmodulated waves, amplitude-, frequency-, or phase-modulated waves and based upon the Doppler effect resulting from movement of targets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Physiology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Dentistry (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种行为识别方法及装置,用以解决相关技术中行为识别精度较低的问题。该方法包括:控制声波发射器发射声波信号;采集目标对所述声波信号的反射信号;基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,其中,所述预设深度神经网络模型根据声波反射信号样本训练得到,所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波产生的反射信号。本发明有效提高了行为识别的精度。

Description

一种行为识别方法及装置
技术领域
本发明涉及行为识别技术领域,尤其涉及一种行为识别方法及装置。
背景技术
行为识别技术在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。目前,传统行为识别方式包括基于视频的行为识别、基于可穿戴传感器的行为识别、基于雷达的行为识别以及基于红外技术的行为。基于视频的行为识别技术是采用计算机视觉技术、图像处理技术对视频采集设备获取到的用户行为图像序列进行处理,进而对行为或手势进行识别。该行为识别技术计算量大,适合视距范围的识别,容易存在视觉无法观看到的死角,还会受到光照、障碍物等的影响,且数据存储时的空间复杂度大和处理时的时间复杂度较大,只能用于特定场所。而基于可穿戴传感器的行为识别方式是将加速度计等可穿戴传感器安装在用户身上或者放置在目标物体上,用户与物体互动,从而识别用户行为。这种方法需要所有的参与者主动配合的佩戴传感器设备,在实际的应用中,让被测对象主动佩戴传感器设备是不可能实现的。而基于雷达的方法识别率低,同时,超声波在传播过程中容易衰减,导致该方法识别范围有限,设备成本高,且只能用于特定场合。红外技术可在昏暗环境实现高精度的动作识别,代表性产品包括Leap Motion与微软的Kinect等。但红外技术只能识别特定区域内的活动,设备购买与部署的代价高。
发明内容
本发明的主要目的在于提供一种行为识别方法及装置,以解决相关技术中行为识别精度较低的问题。
本发明提供了一种行为识别方法,包括:控制声波发射器发射声波信号;采集目标对所述声波信号的反射信号;基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,其中,所述预设深度神经网络模型根据声波反射信号样本训练得到,所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。
可选地,所述方法还包括:在采集所述反射信号之后,对所述反射信号进行调制以及低通滤波;利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分;通过预加重因子对去除静音部分后的信号进行预加重处理;对预加重处理后的信号进行分帧处理以及加窗处理。可选地,所述基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,包括:获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱;将所述梅尔频谱作为所述预设深度神经网络模型的输入,得到与所述反射信号对应的行为类型。
可选地,所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层,所述多层卷积深度神经网络的输入与一层线性层相连,所述一层线性层与所述多层长短时记忆网络相连,所述多层长短时记忆网络的输出与所述全连接层相连。
可选地,所述行为类型至少包括以下一种:慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。
本发明还提供了一种行为识别装置,包括:控制模块,用于控制声波发射器发射声波信号;采集模块,用于采集目标对所述声波信号的反射信号;确定模块,用于基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,其中,所述预设深度神经网络模型根据声波反射信号样本训练得到,所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。
可选地,所述装置还包括:第一处理模块,用于在采集所述反射信号之后,对所述反射信号进行调制以及低通滤波;第二处理模块,用于利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分;第三处理模块,用于通过预加重因子对去除静音部分后的信号进行预加重处理;第四处理模块,用于对预加重处理后的信号进行分帧处理以及加窗处理。可选地,所述确定模块,包括:获取单元,用于获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱;输入单元,用于将所述梅尔频谱作为所述预设深度神经网络模型的输入,得到与所述反射信号对应的行为类型。
可选地,所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层,所述多层卷积深度神经网络的输入与一层线性层相连,所述一层线性层与所述多层长短时记忆网络相连,所述多层长短时记忆网络的输出与所述全连接层相连。
可选地,所述行为类型至少包括以下一种:慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。
本发明有益效果如下:
本发明实施例提供的行为识别方法,采集目标对声波信号的反射信号,利用预设深度神经网络模型基于该反射信号对目标的行为进行识别,其中,由于预设深度神经网络模型基于反射信号样本进行训练得到,故可基于反射信号的特征有效的识别出目标行为,提高了行为识别的精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据一示例性实施例示出的一种行为识别方法的流程图;
图2是根据一示例性实施例示出的一种声学传感器的信号采集装置的示意图;
图3是根据一示例性实施例示出的通过声学传感器的信号采集装置实现行为识别方法的示意图;
图4是根据一示例性实施例示出的预设深度神经网络模型的示意图;
图5是根据一示例性实施例示出的一种行为识别装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据一示例性实施例示出的一种行为识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤101:控制声波发射器发射声波信号;
在该步骤101中,可通过控制器控制声波发射器发射声波信号。
步骤102:采集目标对所述声波信号的反射信号;
在该步骤102中,目标对声波信号的反射信号同样为声学信号,故可通过控制器控制声波接收器接收反射信号。
其中,上述目标例如人,当人在声学传感器前行走时,可将声波信号进行反射,从而产生反射信号,基于此,通过多普勒效应可将人的步态转换为不同的声学信号,以便利用不同的声学信号对用户的不同行为进行识别。其中,声波的多普勒效应指在声源(声学传感器)与目标(人)之间有相对运动时,反射信号的频率有所改变,该频率的变化称之为频移。假设声波发射器发出的声波为一正弦信号,即s(t)=Asin(2πft),目标距离声学传感器的距离为R(t),目标以v(t)的速度走近/远离声学传感器,由多普勒效应得知,声波接收器接收到的反射信号为:
其中,A'和c分别为反射系数和光速。当目标与声学传感器之间的角度为θ时,上述公式(1)可以表达为:
由于人的步态是由人的胳膊、脚、小腿等多部位的综合表征,因此当人走向/远离声学传感器时,考虑人的j个部位对步态的影响,则反射信号为:
由于每个人走路的速度、重心等都不同,因此由上述公式(3)得知,每个人的反射信号不同。故不同的反射信号可以反应不同人的步态,进而可以用来识别人的身份和/行为。
步骤103:基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,其中,所述预设深度神经网络模型根据声波反射信号样本训练得到,所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。
在一种可实现方式中,预设深度神经网络模型可使用声波反射信号的特征来作为训练数据,例如,可利用声波反射信号的梅尔频谱作为训练数据,将人执行各种行为所产生的反射信号的梅尔频谱进行人工标注标签,其中,一类梅尔频谱对应一种行为类型,得到标注标签后的训练数据,通过对训练数据进行训练得到预设深度神经网络模型。
本发明实施例提供的行为识别方法,采集目标对声波信号的反射信号,利用预设深度神经网络模型基于该反射信号对目标的行为进行识别,其中,由于预设深度神经网络模型基于反射信号样本进行训练得到,故可基于反射信号的特征有效的识别出目标行为,提高了行为识别的精度。
在一个例子中,本发明实施例的行为识别方法可通过基于声学传感器的信号采集装置实现,如图2所示,该装置可包括声波发射器、数模转换器、声波接收器以及计算机设备。声波发射器和声波接收器可为相同型号的声学传感器。例如,该声学传感器的中心频率为40kHz,灵敏度分别为-63dB和15dB,检测范围为0.5m-16.5m,输出声压为112dB。数模转换器可采用M-audio-M-track 8。通过声学传感器的信号采集装置实现上述行为识别方法如图3所示,可包括:首先,可通过Audacity软件生成采样率为96kHz、增益为20dB的正弦信号,即s(t)=20sin(192πt),该正弦信号的谐振频率为40kHz,最小频率和最大频率分别为38kHz和42kHz。随后正弦信号由计算机设备发送给数模转换设备M-audio-M-track 8,以将数字正弦信号转换为模拟信号。此后,转换后的模拟信号被发送给声波发射器,并由声波发射器以声波的形式发射出去。当目标在距离声波传感器0.5-15米的范围内行走时,声波将被目标反射,得到反射信号,反射信号被声波接收器接收,声波接收器将接收到的信号发送给数模转换设备M-audio-M-track 8。随后,M-audio-M-track 8将反射的模拟信号转换为数字反射信号,并将反射信号传输到计算机设备中。计算机设备可通过Audacity软件对所有数字反射信号(即,声学信号)以16位脉码调制(PCM)、波形音频文件格式的形式进行保存。
在一种可实现方式中,本发明实施例的行为识别方法还可包括:在采集所述反射信号之后,对所述反射信号进行调制以及低通滤波;利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分;通过预加重因子对去除静音部分后的信号进行预加重处理;对预加重处理后的信号进行分帧处理以及加窗处理。此处以上述例子中目标对声波发射器发射的声波信号的产生的反射信号为例进行说明,在对接收到反射信号进行调制并进行低通滤波后,可获得采样率为8kHz和16位精度的信号,调制后,信号的中心频率从40kHz变为2kHz。其次,利用端点检测算法来去除声学信号的静音部分。随后,用预加重因子对声信号进行预加重处理,以加强声学信号的高频分量。此后,对预加重后的信号进行分帧和加窗处理。分帧处理后,信号每帧的长度可为40-64ms,即每帧中的样本总数为N=320-512(采样频率Fs=8kHz)。帧与帧之间的重叠是20-32ms。其中,在对信号进行加窗处理时,可采用汉明窗。
在一种可实现方式中,基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型可包括:获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱;将所述梅尔频谱作为所述预设深度神经网络模型的输入,得到与所述反射信号对应的行为类型。其中,所述行为类型包括以下至少一种:慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。在训练深度神经网络模型时,可使用慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒这六种行为对应的大量声波反射信号样本进行训练,该声波反射信号样本例如该反射信号对应的时序声学特征向量梅尔频谱,使得基于训练得到的深度神经网络模型,输入采集到的声波反射信号的梅尔频谱后,该深度神经网络模型的输出,即为目标的行为类型。
图4是根据一示例性实施例示出的预设深度神经网络模型的示意图,如图4所示,所述预设深度神经网络模型包括多层卷积深度神经网络(CNN)、线性层(LE)、多层长短时记忆网络(LSTM)以及全连接层,所述多层卷积深度神经网络的输入与一层线性层(LE)相连,所述一层线性层与所述多层长短时记忆网络相连,所述多层长短时记忆网络层的输出与所述全连接层相连。其中,CNN用来减小声学信号在时域上的变化,线性层用来降低CNN输出的声学信号特征的维数,LSTM用来减小声学信号在频域上的变化,全连接层(FC)的目的是将特征空间映射到更容易分类的输出层。该预设深度神经网络模型集成了CNN和LSTM的优点,可以大幅度提高对目标的行为的识别率。
在训练上述预设深度神经网路模型时,可借鉴Hinton等在训练DBN(Deep BeliefNetwork,深度置信网络)时所采用的逐层优化的方法,在深度学习中使用逐层优化的思想及深度模型优化方法,即首先采用BPTT(Back Propagation Trough Time,基于时间的反向传播)算法训练出一个浅层LSTM网络,在此基础上,为模型添加新的LSTM层,继续训练,同时对低层参数进行微调;当添加新的LSTM层进行训练时,保留已训练好的LSTM层中的全连接层和目标函数,并将其与新的全连接层及目标函数一起进行优化。同时,为使得低层参数能够得到进一步优化,也为了避免模型陷入过拟合状态,可为模型增加额外的正则化信息,可使用多目标优化策略,在为LSTM网络添加新的层级时,可保留原有的分类层和目标函数。
目标优化时,其目标函数可定义为:
其中,f(·)为系统函数,x为训练样本,s为LSTM的训练样本,θ1为CNN网络中的参数集合,θ2为LSTM网络中的参数集合,为损失函数。整个系统的目标是寻找一组合适的θ1和θ2,使得/>最小。
在实际操作中,可将分为/>和/>两个部分,其中,/>表示CNN网络的损失函数,/>表示LSTM网络的损失函数。因此,/>可定义如下:
其中,K表示LSTM网络中所使用的总的阶段数,k表示在使用逐层多目标方式优化LSTM网络时的第k个阶段,则表示LSTM网络中第k个阶段的损失函数。/>中的两个部分都采用交叉熵进行计算,其计算过程分别由以下式(6)和式(7)完成:
在式(6)中,n表示一次迭代中训练所使用的总的声学帧数,y(i)表示第i帧的实际值(标签),x(i)则表示CNN网络的输出。在式(7)中,rj表示在第k阶段第j帧信号的参考值,表示在第k阶段第j帧信号对应的LSTM的网络输出。
图5是根据一示例性实施例示出的一种行为识别装置的框图,如图5所示,该装置50包括:
控制模块51,用于控制声波发射器发射声波信号;
采集模块52,用于采集目标对所述声波信号的反射信号;
确定模块53,用于基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,其中,所述预设深度神经网络模型根据声波反射信号样本训练得到,所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号。
在一种可实现方式中,所述装置还可包括:第一处理模块,用于在采集所述反射信号之后,对所述反射信号进行调制以及低通滤波;第二处理模块,用于利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分;第三处理模块,用于通过预加重因子对去除静音部分后的信号进行预加重处理;第四处理模块,用于对预加重处理后的信号进行分帧处理以及加窗处理。
在一种可实现方式中,所述确定模块可包括:获取单元,用于获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱;输入单元,用于将所述梅尔频谱作为所述预设深度神经网络模型的输入,得到与所述反射信号对应的行为类型。
在一种可实现方式中,所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层,所述多层卷积深度神经网络的输入与一层线性层相连,所述一层线性层与所述多层长短时记忆网络相连,所述多层长短时记忆网络的输出与所述全连接层相连。
在一种可实现方式中,所述行为类型包括以下至少一种:慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种行为识别方法,其特征在于,包括:
控制声波发射器发射声波信号;
采集目标对所述声波信号的反射信号;
基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,其中,所述预设深度神经网络模型根据声波反射信号样本训练得到,所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号;
其中,所述预设深度神经网络模型的训练过程,包括:
定义目标函数:
其中,f(·)为系统函数,x为训练样本,s为LSTM的训练样本,θ1为CNN网络中的参数集合,θ2为LSTM网络中的参数集合,为损失函数,整个系统的目标是寻找一组合适的θ1和θ2,使得/>最小;
分为/>和/>两个部分,其中,/>表示CNN网络的损失函数,/>表示LSTM网络的损失函数,定义如下:
其中,K表示LSTM网络中所使用的总的阶段数,k表示在使用逐层多目标方式优化LSTM网络时的第k个阶段,则表示LSTM网络中第k个阶段的损失函数;/>中的两个部分都采用交叉熵进行计算,具体包括:
其中,n表示一次迭代中训练所使用的总的声学帧数,y(i)表示第i帧的实际值(标签),x(i)则表示CNN网络的输出;
其中,rj表示在第k阶段第j帧信号的参考值,(sj)k表示在第k阶段第j帧信号对应的LSTM的网络输出。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在采集所述反射信号之后,对所述反射信号进行调制以及低通滤波;
利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分;
通过预加重因子对去除静音部分后的信号进行预加重处理;
对预加重处理后的信号进行分帧处理以及加窗处理。
3.根据权利要求2所述的方法,其特征在于,所述基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,包括:
获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱;
将所述梅尔频谱作为所述预设深度神经网络模型的输入,得到与所述反射信号对应的行为类型。
4.根据权利要求1所述的方法,其特征在于,所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层,所述多层卷积深度神经网络的输入与一层线性层相连,所述一层线性层与所述多层长短时记忆网络相连,所述多层长短时记忆网络的输出与所述全连接层相连。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述行为类型包括以下至少一种:
慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。
6.一种行为识别装置,其特征在于,包括:
控制模块,用于控制声波发射器发射声波信号;
采集模块,用于采集目标对所述声波信号的反射信号;
确定模块,用于基于所述反射信号利用预设深度神经网络模型确定与所述反射信号对应的行为类型,其中,所述预设深度神经网络模型根据声波反射信号样本训练得到,所述声波反射信号样本至少包括所述目标执行两种类型的行为对所述声波信号产生的反射信号;
其中,所述预设深度神经网络模型的训练过程,包括:
定义目标函数:
其中,f(·)为系统函数,x为训练样本,s为LSTM的训练样本,θ1为CNN网络中的参数集合,θ2为LSTM网络中的参数集合,为损失函数,整个系统的目标是寻找一组合适的θ1和θ2,使得/>最小;
分为/>和/>两个部分,其中,/>表示CNN网络的损失函数,/>表示LSTM网络的损失函数,定义如下:
其中,K表示LSTM网络中所使用的总的阶段数,k表示在使用逐层多目标方式优化LSTM网络时的第k个阶段,则表示LSTM网络中第k个阶段的损失函数;/>中的两个部分都采用交叉熵进行计算,具体包括:
其中,n表示一次迭代中训练所使用的总的声学帧数,y(i)表示第i帧的实际值(标签),x(i)则表示CNN网络的输出;
其中,rj表示在第k阶段第j帧信号的参考值,(sj)k表示在第k阶段第j帧信号对应的LSTM的网络输出。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一处理模块,用于在采集所述反射信号之后,对所述反射信号进行调制以及低通滤波;
第二处理模块,用于利用端点检测算法去除进行调制以及低通滤波后的信号的静音部分;
第三处理模块,用于通过预加重因子对去除静音部分后的信号进行预加重处理;
第四处理模块,用于对预加重处理后的信号进行分帧处理以及加窗处理。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,包括:
获取单元,用于获取进行分帧以及加窗处理后的信号的时序声学特征向量梅尔频谱;
输入单元,用于将所述梅尔频谱作为所述预设深度神经网络模型的输入,得到与所述反射信号对应的行为类型。
9.根据权利要求6所述的装置,其特征在于,所述预设深度神经网络模型包括多层卷积深度神经网络、线性层、多层长短时记忆网络以及全连接层,所述多层卷积深度神经网络的输入与一层线性层相连,所述一层线性层与所述多层长短时记忆网络相连,所述多层长短时记忆网络的输出与所述全连接层相连。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述行为类型包括以下至少一种:
慢走、慢跑、正常行走、上跳、快速奔跑以及跌倒。
CN202010060754.1A 2020-01-19 2020-01-19 一种行为识别方法及装置 Active CN111227839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010060754.1A CN111227839B (zh) 2020-01-19 2020-01-19 一种行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010060754.1A CN111227839B (zh) 2020-01-19 2020-01-19 一种行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN111227839A CN111227839A (zh) 2020-06-05
CN111227839B true CN111227839B (zh) 2023-08-18

Family

ID=70866794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010060754.1A Active CN111227839B (zh) 2020-01-19 2020-01-19 一种行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN111227839B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241776B (zh) * 2020-09-04 2022-06-10 浙江大学 一种凹槽型超宽带去极化无芯片rfid标签
CN114515146B (zh) * 2020-11-17 2024-03-22 北京机械设备研究所 基于电学测量的智能手势识别方法及系统
CN113208566B (zh) * 2021-05-17 2023-06-23 深圳大学 一种数据处理方法、装置、电子设备及存储介质
CN113450537B (zh) * 2021-06-25 2023-05-30 北京小米移动软件有限公司 跌倒检测方法、装置、电子设备和存储介质
CN113507331A (zh) * 2021-07-01 2021-10-15 西北工业大学 基于信道状态信息的视距与非视距传输识别方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809110A (zh) * 2016-02-24 2016-07-27 南京大学 一种基于无线信号强度的行为识别系统与方法
WO2017124816A1 (zh) * 2016-01-20 2017-07-27 北京大学 一种跌倒检测方法和系统
CN108549841A (zh) * 2018-03-21 2018-09-18 南京邮电大学 一种基于深度学习的老人跌倒行为的识别方法
CN109087668A (zh) * 2018-08-31 2018-12-25 中国电子科技集团公司电子科学研究院 一种步态识别的方法及装置
CN109271889A (zh) * 2018-08-29 2019-01-25 中山大学 一种基于双层lstm神经网络的动作识别方法
CN109394229A (zh) * 2018-11-22 2019-03-01 九牧厨卫股份有限公司 一种跌倒检测方法、装置及系统
WO2019043421A1 (en) * 2017-09-04 2019-03-07 Solecall Kft. SYSTEM FOR DETECTING SIGNAL BODY GESTURE AND METHOD FOR SYSTEM LEARNING
CN109473119A (zh) * 2017-09-07 2019-03-15 中国科学院声学研究所 一种声学目标事件监控方法
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质
CN110491416A (zh) * 2019-07-26 2019-11-22 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180064373A1 (en) * 2016-09-04 2018-03-08 Essence Smartcare Ltd. Detecting falls and near falls by ultrasound

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017124816A1 (zh) * 2016-01-20 2017-07-27 北京大学 一种跌倒检测方法和系统
CN105809110A (zh) * 2016-02-24 2016-07-27 南京大学 一种基于无线信号强度的行为识别系统与方法
WO2019043421A1 (en) * 2017-09-04 2019-03-07 Solecall Kft. SYSTEM FOR DETECTING SIGNAL BODY GESTURE AND METHOD FOR SYSTEM LEARNING
CN109473119A (zh) * 2017-09-07 2019-03-15 中国科学院声学研究所 一种声学目标事件监控方法
CN108549841A (zh) * 2018-03-21 2018-09-18 南京邮电大学 一种基于深度学习的老人跌倒行为的识别方法
CN109271889A (zh) * 2018-08-29 2019-01-25 中山大学 一种基于双层lstm神经网络的动作识别方法
CN109087668A (zh) * 2018-08-31 2018-12-25 中国电子科技集团公司电子科学研究院 一种步态识别的方法及装置
CN109394229A (zh) * 2018-11-22 2019-03-01 九牧厨卫股份有限公司 一种跌倒检测方法、装置及系统
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质
CN110491416A (zh) * 2019-07-26 2019-11-22 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多层独立子空间分析时空特征的人体行为识别方法;瞿涛;《武汉大学学报· 信息科学版》;第41卷(第4期);第468-473页 *

Also Published As

Publication number Publication date
CN111227839A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111227839B (zh) 一种行为识别方法及装置
US10403282B2 (en) Method and apparatus for providing voice service
CN111124108B (zh) 模型训练方法、手势控制方法、装置、介质及电子设备
CN101819758B (zh) 一种声音控制屏幕显示的系统及实现方法
WO2018164873A1 (en) Ultrasonic based gesture recognition
CN104965426A (zh) 基于人工智能的智能机器人控制系统、方法和装置
CN111856422B (zh) 基于宽带多通道毫米波雷达的唇语识别方法
CN105046880A (zh) 一种智能移动终端基于多普勒效应进行危险监测及预警的方法
CN105744434A (zh) 一种基于手势识别的智能音箱控制方法及系统
CN105760825A (zh) 一种基于切比雪夫前向神经网络的手势识别系统和方法
CN102135619A (zh) 一种生物声纳探测装置及其探测方法
CN102981615B (zh) 手势识别装置及识别方法
WO2021237958A1 (zh) 基于特征提取和神经网络的水声目标测距方法
CN109631104A (zh) 油烟机的风量自动调节方法、装置、设备及存储介质
CN104459703A (zh) 一种声纳测距方法和移动设备
CN108089702B (zh) 一种基于超声波的人机体感交互方法及系统
CN116959471A (zh) 语音增强方法、语音增强网络的训练方法及电子设备
CN109087668A (zh) 一种步态识别的方法及装置
CN111257890A (zh) 一种跌倒行为识别方法及装置
GB2406415A (en) Waveform analysis
CN111414843A (zh) 手势识别方法及终端设备
CN113989828A (zh) 基于便携式智能设备和超声信号的手势识别方法及系统
CN2645091Y (zh) 收发同体型超声测距仪
CN113160823A (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备
Zhang et al. A novel insect sound recognition algorithm based on MFCC and CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant