CN110059545A - 一种基于卷积神经网络的智能家居用户行为识别方法 - Google Patents
一种基于卷积神经网络的智能家居用户行为识别方法 Download PDFInfo
- Publication number
- CN110059545A CN110059545A CN201910176423.1A CN201910176423A CN110059545A CN 110059545 A CN110059545 A CN 110059545A CN 201910176423 A CN201910176423 A CN 201910176423A CN 110059545 A CN110059545 A CN 110059545A
- Authority
- CN
- China
- Prior art keywords
- convolution
- characteristic pattern
- time
- user behavior
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Abstract
一种基于卷积神经网络的智能家居用户行为识别方法,包括图像预处理(输入→H1);第一次3D卷积(H1→C2);第一次下采样(C2→S3);第二次3D卷积(S3→C4);第二次下采样(C4→S5);2D卷积(S5→C6);全连接层(C6→output):平铺展开与节点相连的全连接神经网络层,得到节点数目,根据节点数据判断用户行为数目。本发明提出一种基于卷积神经网络的智能家居用户行为识别方法,提升了家电产品对用户行为的识别能力和理解能力。
Description
技术领域
本发明涉及神经网络领域,尤其涉及一种基于卷积神经网络的智能家居用户行为识别方法。
背景技术
随着视觉技术的发展,各类家电产品都开始集成摄像头视觉模块,并对用户在家庭单位内的行为进行理解,以便更好地服务用户。当前图像处理中应用最多的是CNN卷积神经网络,效果显著,然而用户行为是时间轴上的连续动作,单帧图像无法反应时间尺度上的动作特征,因此CNN卷积神经网络并不能完美的应用于行为识别的场景中。
现今的大多数行为识别方法都有一个确定性的前提假设,例如小范围和观测点变化,而实际环境很难满足这些假设。此外这些方法使用传统模式进行识别,即从原始数据中提取特征,而特征提取难度也随着场景差异而不同。同时卷积神经网络在处理图像的过程中,随着网络深度的增加,提取的特征也越来越复杂,很容易对图像中的噪声数据进行拟合,从而造成实际的使用效果变差。
发明内容
本发明的目的在于针对背景技术中的缺陷,提出一种基于卷积神经网络的智能家居用户行为识别方法,提升了家电产品对用户行为的识别能力和理解能力。
为达此目的,本发明采用以下技术方案:
一种基于卷积神经网络的智能家居用户行为识别方法,具体步骤如下:
步骤A:图像预处理(输入→H1):将连续视频通过图像处理得到5个特征通道和原始特征图;
步骤B:第一次3D卷积(H1→C2):对步骤A中得到的5个特征通道的特征图进行第一次卷积,得到第一次卷积特征图然后输出;
步骤C:第一次下采样(C2→S3):对第一次卷积特征图进行池化和下采样操作,改变后的第一次卷积特征图的图像大小;
步骤D:第二次3D卷积(S3→C4):重复步骤B,对步骤C中改变了图像大小的第一次卷积特征图进行第二次3D卷积,得到第二次3D卷积特征图;
步骤E:第二次下采样(C4→S5):重复步骤C,对第二次3D卷积特征图进行池化和下采样;
步骤F:2D卷积(S5→C6):对进行两次3D卷积后得到的第二次3D卷积特征图进行2D卷积;
步骤G:全连接层(C6→output):平铺展开与节点相连的全连接神经网络层,得到节点数目,根据节点数据判断用户行为数目。
优选的,所述5个特征通道分别包括灰度图、x方向梯度图、y方向梯度图、x方向光流图和y方向光流图。
优选的,每个单帧的图像均存在对应的所述灰度图、x方向梯度图和y方向梯度图;
所述x方向光流图和y方向光流图分别对应至少两帧的图像。
优选的,在所述步骤B中,对步骤A中得到的5个特征通道的特征图进行第一次卷积的步骤如下:
步骤B1:使用多个3D卷积核分别对步骤A中得到的5个特征通道的特征图进行卷积,第一次卷积公式如下:
其中:v为卷积前的输入,卷积核大小为P*Q*R,m为卷积前的输入与卷积后的特征体连接的索引号,w为卷积后的第j个特征图位置(p,q,r)上的神经元和卷积前的第m个特征图之间的权值;
步骤B2:第一次卷积后得到多个系列及每个系列对应的5个特征通道的第一次卷积特征图,计算每个系列的5个特征通道的第一次卷积特征图数量和图像大小;
步骤B3:对步骤B2中得到的第一次卷积特征图进行输出。
优选的,在步骤B2中,计算每个系列的5个特征通道的第一次卷积特征图的数量包括:
使用公式一进行计算;
公式一:
第一次卷积特征图=原始特征图数量-3+1。
优选的,在步骤B2中,计算每个系列的5个特征通道的第一次卷积特征图的图像大小包括:
使用公式二进行计算;
公式二:
第一次卷积特征图大小=[(原始特征图大小-3D卷积核大小)/卷积步长]+1。
优选的,在步骤B3中,对步骤B2中得到的第一次卷积特征图进行输出包括在输出钱使用公式三进行计算后输出;
公式三:
其中x表示第一次卷积特征图的数量。
优选的,在步骤C中对第一次卷积特征图进行池化和下采样操作,改变后的第一次卷积特征图的图像大小的具体步骤如下:
使用公式四进行操作;
公式四:
改变后的第一次卷积特征图的图像大小=第一次卷积特征图图像大小/池化大小。
优选的,在步骤F中,包括使用公式五进行2D卷积;
公式五:
其中:D为卷积前的通道数,F是卷积核的大小,wd,m,n表示filter的第d层第m行第n列权重,xi,j表示图像的第i行第j列元素。
优选的,所述节点数目代表用户行为动作的种类。
附图说明
图1是本发明的智能家居用户行为识别流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本实施例的一种基于卷积神经网络的智能家居用户行为识别方法,具体步骤如下:
步骤A:图像预处理(输入→H1):将连续视频通过图像处理得到5个特征通道和原始特征图;
所述5个特征通道分别包括灰度图、x方向梯度图、y方向梯度图、x方向光流图和y方向光流图;
每个单帧的图像均存在对应的所述灰度图、x方向梯度图和y方向梯度图;
所述x方向光流图和y方向光流图分别对应至少两帧的图像。
将连续视频通过图像处理得到灰度图、x方向梯度图、y方向梯度图、x方向光流图、y方向光流图共5个特征通道,每个单帧的图像都有对应的灰度图、x方向梯度图和y方向梯度图,而x方向光流图和y方向光流图则必须至少有相邻的两帧才能计算,因此,比如输入的是7帧60*40大小的图像,则通过该预处理能得到33帧特征图,即7+7+7+6+6=33,即5个通道,33帧图像,灰度图7帧,x方向梯度图7帧,y方向梯度图7帧,而x方向梯度图为6帧,y方向梯度图也为6帧,每帧的大小为60*40不变。这些特征保留了原始视频图像信号中最重要的像素运动特征的同时去除了对于神经网络处理没用的图像信息,便于后续处理;
步骤B:第一次3D卷积(H1→C2):对步骤A中得到的5个特征通道的特征图进行第一次卷积,得到第一次卷积特征图然后输出;
具体步骤如下:
步骤B1:使用多个3D卷积核分别对步骤A中得到的5个特征通道的特征图进行卷积,第一次卷积公式如下:
其中:v为卷积前的输入,卷积核大小为P*Q*R,m为卷积前的输入与卷积后的特征体连接的索引号,w为卷积后的第j个特征图位置(p,q,r)上的神经元和卷积前的第m个特征图之间的权值;
比如用2个7*7*3(7*7代表像素卷积窗大小,3代表每3个帧做一次卷积)的3D卷积核,卷积步长为1分别对上述5个通道的特征图进行第一次卷积。
第一次卷积后得到多个系列及每个系列对应的5个特征通道的第一次卷积特征图,计算每个系列的5个特征通道的第一次卷积特征图数量和图像大小;
在步骤B1中用到了2种3D卷积核,则一种3D卷积核获得一个系列,总共获得两个系列,每个系列的5个通道共有23个特征图,根据公式一:第一次卷积特征图=原始特征图数量-3+1,计算如下,灰度图有7帧,每3帧做一次卷积,则得到7-3+1=5个特征图,另外4个特征通道计算同理,5个特征通道对应的特征数量为:5,5,5,4,4,加起来为23;第一次卷积后特征图大小为54*34,根据公式二:第一次卷积特征图大小=[(原始特征图大小-3D卷积核大小)/卷积步长]+1,计算如下,输入的每帧大小为60*40,卷积核为7*7,步长为1,则卷积后的大小为60-7+1=54,40-7=1=34。
步骤B3:对步骤B2中得到的第一次卷积特征图进行输出包括在输出前使用公式三进行计算后输出;
公式三:
其中x表示第一次卷积特征图的数量。
步骤C:第一次下采样(C2→S3):对第一次卷积特征图进行池化和下采样操作,改变后的第一次卷积特征图的图像大小;
进行2x2池化和下采样操作,该操作不会改变特征图的数量,但是会改变图像大小,根据公式四:(改变后的第一次卷积特征图的图像大小=第一次卷积特征图图像大小/池化大小)进行计算即54/2=27,34/2=17,27*17。
步骤D:第二次3D卷积(S3→C4):重复步骤B,对步骤C中改变了图像大小的第一次卷积特征图进行第二次3D卷积,得到第二次3D卷积特征图;
为了提取更多的图像特征,分别用三个大小为7*6*3,步长为1的3D卷积核对2个系列的各个通道进行第二次卷积,获得6个系列,每个系列特征图数量和特征图大小计算方法同上述,以第一个系列的第一个通道为例,有5个大小为27*17的特征图,经过7*6*3大小的3D卷积核第二次卷积后,特征图数量为(5-3+1)=3,大小为(27-7+1)*(17-6+1)=21*12,另外4个通道同理,数量分别为3,3,2,2,即第一个系列的5个通道经过一个卷积核后的数量为13,则总数量为2个系列*13*3个卷积核,即为2*13*3,再经过公式三:其中x表示第二次卷积特征图的数量,计算后输出。
步骤E:第二次下采样(C4→S5):重复步骤C,对第二次3D卷积特征图进行池化和下采样;
进行3X3池化和下采样操作,特征图数量不变,计算方法同上,根据公式四:(改变后的第二次卷积特征图的图像大小=第二次卷积特征图图像大小/池化大小)进行计算,即改变后的第二次卷积特征图的图像大小为:21/3*12/3=7*4;
步骤F:2D卷积(S5→C6):对进行两次3D卷积后得到的第二次3D卷积特征图进行2D卷积;
进行了两次3D卷积之后,时间上的维数已经被压缩得无法再次进行3D卷积,以第四通道为例,此时的特征图数量为2,而我们设定的3D卷积至少3帧,无法再进行3D卷积。此时对各个特征图用7*4的2D卷积核进行卷积,根据公式五:
进行计算,其中:D为卷积前的通道数,F是卷积核的大小,wd,m,n表示filter的第d层第m行第n列权重,xi,j表示图像的第i行第j列元素;
2D卷积后,重复步骤B1-B3,计算2D卷积特征图的图像大小,因此大小为1*1,经过公式三计算后输出。
步骤G:全连接层(C6→output):平铺展开与节点相连的全连接神经网络层,得到节点数目,根据节点数据判断用户行为数目。
C6层维度已经相当小,平铺展开与10个节点相连的全连接神经网络层,节点数目由实际的行为动作种类而定,假如我们要分别拥抱、笑脸、哭脸3个动作,节点数目就是3。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。
Claims (10)
1.一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:具体步骤如下:
步骤A:图像预处理:将连续视频通过图像处理得到5个特征通道和原始特征图;
步骤B:第一次3D卷积:对步骤A中得到的5个特征通道的特征图进行第一次卷积,得到第一次卷积特征图然后输出;
步骤C:第一次下采样:对第一次卷积特征图进行池化和下采样操作,改变后的第一次卷积特征图的图像大小;
步骤D:第二次3D卷积:重复步骤B,对步骤C中改变了图像大小的第一次卷积特征图进行第二次3D卷积,得到第二次3D卷积特征图;
步骤E:第二次下采样:重复步骤C,对第二次3D卷积特征图进行池化和下采样;
步骤F:2D卷积:对进行两次3D卷积后得到的第二次3D卷积特征图进行2D卷积;
步骤G:全连接层:平铺展开与节点相连的全连接神经网络层,得到节点数目,根据节点数据判断用户行为数目。
2.根据权利要求1所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
所述5个特征通道分别包括灰度图、x方向梯度图、y方向梯度图、x方向光流图和y方向光流图。
3.根据权利要求2所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
每个单帧的图像均存在对应的所述灰度图、x方向梯度图和y方向梯度图;
所述x方向光流图和y方向光流图分别对应至少两帧的图像。
4.根据权利要求1所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
在所述步骤B中,对步骤A中得到的5个特征通道的特征图进行第一次卷积的步骤如下:
步骤B1:使用多个3D卷积核分别对步骤A中得到的5个特征通道的特征图进行卷积,第一次卷积公式如下:
其中:v为卷积前的输入,卷积核大小为P*Q*R,m为卷积前的输入与卷积后的特征体连接的索引号,w为卷积后的第j个特征图位置(p,q,r)上的神经元和卷积前的第m个特征图之间的权值;
步骤B2:第一次卷积后得到多个系列及每个系列对应的5个特征通道的第一次卷积特征图,计算每个系列的5个特征通道的第一次卷积特征图数量和图像大小;
步骤B3:对步骤B2中得到的第一次卷积特征图进行输出。
5.根据权利要求4所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
在步骤B2中,计算每个系列的5个特征通道的第一次卷积特征图的数量包括:
使用公式一进行计算;
公式一:
第一次卷积特征图=原始特征图数量-3+1。
6.根据权利要求4中所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
在步骤B2中,计算每个系列的5个特征通道的第一次卷积特征图的图像大小包括:
使用公式二进行计算;
公式二:
第一次卷积特征图大小=[(原始特征图大小-3D卷积核大小)/卷积步长]+1。
7.根据权利要求4中所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
在步骤B3中,对步骤B2中得到的第一次卷积特征图进行输出包括在输出前使用公式三进行计算后输出;
公式三:
其中x表示第一次卷积特征图的数量。
8.根据权利要求1所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
在步骤C中对第一次卷积特征图进行池化和下采样操作,改变后的第一次卷积特征图的图像大小的具体步骤如下:
使用公式四进行操作;
公式四:
改变后的第一次卷积特征图的图像大小=第一次卷积特征图图像大小/池化大小。
9.根据权利要求1所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
在步骤F中,包括使用公式五进行2D卷积;
公式五:
其中:D为卷积前的通道数,F是卷积核的大小,wd,m,n表示filter的第d层第m行第n列权重,xi,j表示图像的第i行第j列元素。
10.根据权利要求1所述一种基于卷积神经网络的智能家居用户行为识别方法,其特征在于:
所述节点数目代表用户行为动作的种类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910176423.1A CN110059545A (zh) | 2019-03-08 | 2019-03-08 | 一种基于卷积神经网络的智能家居用户行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910176423.1A CN110059545A (zh) | 2019-03-08 | 2019-03-08 | 一种基于卷积神经网络的智能家居用户行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059545A true CN110059545A (zh) | 2019-07-26 |
Family
ID=67316701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910176423.1A Pending CN110059545A (zh) | 2019-03-08 | 2019-03-08 | 一种基于卷积神经网络的智能家居用户行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059545A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580559A (zh) * | 2020-12-25 | 2021-03-30 | 山东师范大学 | 基于骨架特征和视频表征结合的双流视频行为识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN104281853A (zh) * | 2014-09-02 | 2015-01-14 | 电子科技大学 | 一种基于3d卷积神经网络的行为识别方法 |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN108090403A (zh) * | 2016-11-22 | 2018-05-29 | 上海银晨智能识别科技有限公司 | 一种基于3d卷积神经网络的人脸动态识别方法及系统 |
CN108197580A (zh) * | 2018-01-09 | 2018-06-22 | 吉林大学 | 一种基于3d卷积神经网络的手势识别方法 |
-
2019
- 2019-03-08 CN CN201910176423.1A patent/CN110059545A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN104281853A (zh) * | 2014-09-02 | 2015-01-14 | 电子科技大学 | 一种基于3d卷积神经网络的行为识别方法 |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN108090403A (zh) * | 2016-11-22 | 2018-05-29 | 上海银晨智能识别科技有限公司 | 一种基于3d卷积神经网络的人脸动态识别方法及系统 |
CN108197580A (zh) * | 2018-01-09 | 2018-06-22 | 吉林大学 | 一种基于3d卷积神经网络的手势识别方法 |
Non-Patent Citations (1)
Title |
---|
SHUIWANG JI, WEI XU, MING YANG, KAI YU: "《3D Convolutional Neural Networksfor Human Action Recognition》", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580559A (zh) * | 2020-12-25 | 2021-03-30 | 山东师范大学 | 基于骨架特征和视频表征结合的双流视频行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298361B (zh) | 一种rgb-d图像的语义分割方法和系统 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN112149459B (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN105574827B (zh) | 一种图像去雾的方法、装置 | |
CN106780543B (zh) | 一种基于卷积神经网络的双框架估计深度和运动方法 | |
CN111242127B (zh) | 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 | |
CN110351511A (zh) | 基于场景深度估计的视频帧率上变换系统及方法 | |
CN107578436A (zh) | 一种基于全卷积神经网络fcn的单目图像深度估计方法 | |
CN110163813A (zh) | 一种图像去雨方法、装置、可读存储介质及终端设备 | |
US11200644B2 (en) | Video super resolution method | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN109272493A (zh) | 一种基于递归卷积神经网络的单目视觉里程计方法 | |
CN111402130A (zh) | 数据处理方法和数据处理装置 | |
CN110136144B (zh) | 一种图像分割方法、装置及终端设备 | |
CN108171249B (zh) | 一种基于rgbd数据的局部描述子学习方法 | |
CN110232361B (zh) | 基于三维残差稠密网络的人体行为意图识别方法与系统 | |
CN108875900A (zh) | 视频图像处理方法和装置、神经网络训练方法、存储介质 | |
CN107273894A (zh) | 车牌的识别方法、装置、存储介质及处理器 | |
CN103400386A (zh) | 一种用于视频中的交互式图像处理方法 | |
CN116206133B (zh) | 一种rgb-d显著性目标检测方法 | |
CN112489050A (zh) | 一种基于特征迁移的半监督实例分割算法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN110942037A (zh) | 一种用于视频分析中的动作识别方法 | |
CN113077505A (zh) | 一种基于对比学习的单目深度估计网络的优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190726 |
|
RJ01 | Rejection of invention patent application after publication |