CN111144363A - 一种基于场景和物体信息的第一视角下的行为识别方法 - Google Patents
一种基于场景和物体信息的第一视角下的行为识别方法 Download PDFInfo
- Publication number
- CN111144363A CN111144363A CN201911410530.2A CN201911410530A CN111144363A CN 111144363 A CN111144363 A CN 111144363A CN 201911410530 A CN201911410530 A CN 201911410530A CN 111144363 A CN111144363 A CN 111144363A
- Authority
- CN
- China
- Prior art keywords
- scene
- user
- neural network
- behavior
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Abstract
本发明涉及一种基于场景和物体信息的第一视角下的行为识别方法,属于计算机视觉及行为识别技术领域。第一视角下通过用户穿戴相机通常无法直接拍摄到用户本身,导致无法直接识别用户行为,而用户所在场景及场景中物体对用户的行为识别提供了重要的线索。所述方法通过深度神经网络,以第一视角下的图像作为输入,对用户所在场景进行分类,得到当前场景属于各个类别的概率向量作为场景特征向量;通过深度神经网络检测场景中的物体,得到场景中物体的类别以及位置和大小,形成物体特征向量。所述方法通过神经网络融合场景特征向量与物体特征向量进行用户行为的识别,能够快速且准确的得到识别结果。
Description
技术领域
本发明涉及一种基于场景和物体信息的第一视角下的行为识别方法,属于计算机视觉及行为识别技术领域。
背景技术
可穿戴相机的迅速发展为自动生活日志记录和分析提供了硬件条件。现有的可穿戴相机可以连续的拍摄图像或者视频来记录用户的生活,但是拍摄的数据量往往非常巨大,例如每隔3秒拍摄一帧的话,一天就是28800帧,用户无法从如此多的数据中直观的了解自己一天的行为和时间的分配。因此如果能够自动的对用户一天的行为进行识别,就可以使得用户直观的了解自己一天的行为和时间的分配,更好的帮助用户建立良好的生活习惯。
第一视角下的行为识别是指通过用户穿戴的相机拍摄的第一视角(用户视角)下的图像/视频数据,识别出用户自己的行为。由于第一视角下的数据是由用户穿戴的相机拍摄得到的,数据中可以看到用户所在的场景以及场景中的物体,但是通常无法直接看到用户本身,因此无法直接识别用户的行为,而用户所在的场景以及场景中的物体对于用户的行为识别提供了重要的线索。本发明致力于设计一种基于场景和物体信息的第一视角下的行为识别方法,从而实现更加自然和直观的生活日志分析。
发明内容
本发明的目的在于为了实现更加自然和直观的生活日志分析,提出了一种基于场景和物体信息的第一视角下的行为识别方法,通过融合场景信息和物体信息对用户的行为进行识别。
本发明的核心思想为:使用深度神经网络,以第一视角下的图像作为输入,对用户所在场景进行分类,得到当前场景属于各个类别的概率向量作为场景特征向量;通过深度神经网络检测场景中的物体,得到场景中物体的类别以及位置和大小,形成物体特征向量;通过神经网络融合场景特征向量与物体特征向量进行用户行为的识别,能够快速准确的得到识别结果。
所述行为识别方法,包括如下步骤:
步骤1、获取场景特征向量,具体为:
步骤1.1采用场景数据集训练深度神经网络A,得到训练好的深度神经网络模型A;
其中,深度神经网络A,包括但不限于ResNet以及VGGNet;
场景数据集,包括但不限于SUN;
步骤1.2使用步骤1.1训练好的深度神经网络模型A,以用户拍摄的第一视角下的图像作为输入,对用户所在的场景进行分类,得到当前场景属于各个类别的概率向量作为场景特征向量;
步骤2、获取物体特征向量,具体为:
步骤2.1采用物体数据集训练深度神经网络B,得到训练好的深度神经网络模型B;
步骤2.2使用步骤2.1训练好的深度神经网络模型B,以用户拍摄的第一视角下的图像作为输入,对图像中的物体进行检测,得到场景中物体的类别以及位置和大小,形成物体特征向量;
其中,深度神经网络B,包括但不限于Mask-RCNN和Faster-RCNN;物体数据集,包括但不限于COCO;
步骤3、融合场景特征与物体特征进行行为识别,具体为:
采用神经网络,融合步骤1和步骤2提取的场景特征向量和物体特征向量,对用户的行为进行识别,输出用户行为的类别。
有益效果
本发明为一种基于场景和物体信息的第一视角下的行为识别方法,与现有技术相比,具有如下有益效果:
1.所述方法通过提取场景特征和物体特征,并采用神经网络融合场景特征和物体特征进行第一视角下的用户行为的识别,有效的利用了场景先验和物体先验,解决了第一视角下通常无法直接看到用户自身的问题;
2.所述方法能够更加快速准确的识别出用户的行为。
附图说明
图1为本发明一种基于场景和物体信息的第一视角下的行为识别方法的流程图;
图2为本发明一种基于场景和物体信息的第一视角下的行为识别方法具体实施的示意图。
具体实施方式
下面结合附图及实施例对本发明一种基于场景和物体信息的第一视角下的行为识别方法进行具体阐述。
实施例1
所述方法的流程图如图1所示,包括如下步骤:
步骤A)使用深度神经网络,以第一视角下的图像作为输入,对用户所在场景进行分类,得到当前场景属于各个类别的概率向量作为场景特征向量;
步骤B)通过深度神经网络检测场景中的物体,得到场景中物体的类别以及位置和大小,形成物体特征向量;
步骤C)通过神经网络融合场景特征向量与物体特征向量进行用户行为的识别,得到快速准确的识别结果。
具体实施场景之一如图2所示。图2中输入的第一视角下的图像通过VGG16进行场景识别,得到场景特征向量(对应发明内容中的步骤1);通过Mask-RCNN检测物体得到物体特征向量,(对应发明内容中的步骤2);再将识别得到的场景特征向量和物体特征向量进行连接,并通过全连接层FC1、FC2以及Softmax层进行行为识别(对应发明内容中的步骤3)。
(1)获取场景特征向量
本发明所述方法步骤1,即根据用户所穿戴的相机拍摄的第一视角下的图像识别用户所在的场景;
具体实施时:使用VGG16网络在SUN数据集上进行训练,得到网络模型,进行场景特征向量的提取;
需要说明的是,此处VGG16网络也可以采用其他深度网络,包括但不限于ResNet及GoogleNet;在其他的场景数据上进行训练得到网络模型。
其中,VGG16网络包括13个卷积层,5个最大池化层,3个全连接层以及一个softmax层;
SUN数据集包括899个不同场景下的130519张场景图像;
采用SUN数据集中的训练数据训练VGG16网络;具体要识别的场景类别数目可根据实际需要来确定;
此处设需要识别的场景类别数目为Cs,则VGG16最后的Softmax层包括Cs+1个节点,对应Cs类场景加上一类背景,背景表示不属于这Cs类场景;
即网络最后的输出为一个Cs+1维的向量,向量的第i维表示了输入图片为第i类场景的概率,具体以网络最后输出的概率向量作为场景特征向量。
(2)获取物体特征向量
本发明所述方法步骤2,具体实施时,使用Mask-RCNN网络在COCO数据集上进行训练,得到网络模型,进行图像中的物体检测;
需要说明的是,此处Mask-RCNN网络也可以采用其它深度网络,包括但不限于Faster-RCNN,YOLO等,在其他物体检测数据上进行训练得到网络模型;
训练得到网络模型后实施步骤2.2,具体实施时,不仅考虑场景中包含的物体的类别信息,也要考虑物体的位置和大小。例如场景中包含显示器,如果显示器在图像的中间并且尺寸较大,则说明用户很有可能在看显示器;而如果显示器在图像的边界处且尺寸较小,则说明用户的行为跟显示器的关系不大。
其中,Mask-RCNN是一个两阶段网络,第一个阶段扫描图像并生成候选区域,第二阶段分类候选区域并生成边界框和掩码;
Mask R-CNN网络包括:主干架构、区域建议网络、ROI分类器、边界框回归器和分割掩码;COCO数据集包括80个类别,超过33万张图片,其中20万张有标注,整个数据集中个体的数目超过150万个;具体要检测的物体类别数目可根据实际需要来确定,此处设需要检测的物体类别数目为Co。
Mask-RCNN的输入为图片,输出包括三个分支,一个分支输出类别标签,即图片中包含的物体的类别,此分支的维度为Co+1,对应Co类物体加上一类背景物体;一个分支输出边界框,即每个物体的位置和大小;第三个分支为掩码分支,给出每个框中属于物体的像素。
图像中的物体特征表示为一个Co*4维的向量S,S(i-1)*4至S(i-1)*4+3表示第i类物体的中心点坐标及宽和高。例如S0至S3表示第1类物体的中心点坐标及宽和高,S4至S7表示第2类物体的中心点坐标及宽和高,以此类推。如果图像中包含第i类物体,则向量的第S(i-1)*4至S(i-1)*4+3维存放该物体的中心点坐标和宽高,否则为0。如果包含多个第i类物体,则取尺寸最大的一个物体。
(3)融合场景特征与物体特征进行行为识别
本发明所述方法步骤3,具体实施时,在得到图像中的场景特征向量和物体特征向量后,将场景特征向量和物体特征向量进行连接,形成混合特征向量,然后使用全连接层和Softmax层进行行为的识别。
此处使用两个全连接层和一个Softmax层,两个全连接层的节点数目分别为4096和1024,Softmax层的节点数根据需要识别的行为类别数目确定。也可以使用其他结构的神经网络对场景特征向量和物体特征向量进行融合并进行行为识别。
在识别用户的行为时,输入的是用户所穿戴的相机拍摄的第一视角下的图像,根据图像识别出用户的行为。然而,现有第一视角下的图像识别往往无法识别使用可穿戴相机用户本身的行为。本发明所述方法解决了这一难题。
现有的第一视角下的行为识别方法,大多是通过融合物体场景中的物体信息以及通过光流计算的运动信息进行行为的识别,但是使用光流计算运动信息需要帧率较高的视频数据,而现有的穿戴相机还无法长时间的连续拍摄视频并存储,因此无法使用光流来计算运动信息。而只通过物体信息进行行为识别的话,就忽略了场景信息对于行为识别的作用。而场景对于行为的识别有着重要的作用,例如在食堂场景中,行为就很可能是吃饭,而不太可能是运动。因此本发明融合物体和场景信息进行第一视角下的行为识别,可以充分的利用场景先验和物体先验,得到准确的行为识别结果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、局部改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于场景和物体信息的第一视角下的行为识别方法,其特征在于:包括如下步骤:
步骤1、获取场景特征向量,具体为:
步骤1.1采用场景数据集训练深度神经网络A,得到训练好的深度神经网络模型A;
步骤1.2使用步骤1.1训练好的深度神经网络模型A,以用户拍摄的第一视角下的图像作为输入,对用户所在的场景进行分类,得到当前场景属于各个类别的概率向量作为场景特征向量;
步骤2、获取物体特征向量,具体为:
步骤2.1采用物体数据集训练深度神经网络B,得到训练好的深度神经网络模型B;
步骤2.2使用步骤2.1训练好的深度神经网络模型B,以用户拍摄的第一视角下的图像作为输入,对图像中的物体进行检测,得到场景中物体的类别以及位置和大小,形成物体特征向量;
步骤3、融合场景特征与物体特征进行行为识别,具体为:
采用神经网络,融合步骤1和步骤2提取的场景特征向量和物体特征向量,对用户的行为进行识别,输出用户行为的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911410530.2A CN111144363B (zh) | 2019-12-31 | 2019-12-31 | 一种基于场景和物体信息的第一视角下的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911410530.2A CN111144363B (zh) | 2019-12-31 | 2019-12-31 | 一种基于场景和物体信息的第一视角下的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144363A true CN111144363A (zh) | 2020-05-12 |
CN111144363B CN111144363B (zh) | 2023-02-28 |
Family
ID=70522467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911410530.2A Active CN111144363B (zh) | 2019-12-31 | 2019-12-31 | 一种基于场景和物体信息的第一视角下的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144363B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1514399A (zh) * | 2002-11-25 | 2004-07-21 | ��˹���´﹫˾ | 用于健康监视和个人安全的成像方法和系统 |
CN106547880A (zh) * | 2016-10-26 | 2017-03-29 | 重庆邮电大学 | 一种融合地理区域知识的多维度地理场景识别方法 |
CN106910322A (zh) * | 2017-03-06 | 2017-06-30 | 北京理工大学 | 一种基于立体视觉和行为分析的头戴式预防近视装置 |
US20190163982A1 (en) * | 2017-11-28 | 2019-05-30 | Visual Semantics, Inc. | Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation |
CN109961037A (zh) * | 2019-03-20 | 2019-07-02 | 中共中央办公厅电子科技学院(北京电子科技学院) | 一种考场视频监控异常行为特征识别方法 |
US20190272425A1 (en) * | 2018-03-05 | 2019-09-05 | A9.Com, Inc. | Visual feedback of process state |
CN110221684A (zh) * | 2019-03-01 | 2019-09-10 | Oppo广东移动通信有限公司 | 装置控制方法、系统、电子装置及计算机可读存储介质 |
US10482334B1 (en) * | 2018-09-17 | 2019-11-19 | Honda Motor Co., Ltd. | Driver behavior recognition |
CN110503643A (zh) * | 2019-08-23 | 2019-11-26 | 闽江学院 | 一种基于多尺度快速场景检索的目标检测方法和装置 |
CN110619268A (zh) * | 2019-08-07 | 2019-12-27 | 北京市新技术应用研究所 | 基于时空分析与深度特征的行人再识别方法及装置 |
-
2019
- 2019-12-31 CN CN201911410530.2A patent/CN111144363B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1514399A (zh) * | 2002-11-25 | 2004-07-21 | ��˹���´﹫˾ | 用于健康监视和个人安全的成像方法和系统 |
CN106547880A (zh) * | 2016-10-26 | 2017-03-29 | 重庆邮电大学 | 一种融合地理区域知识的多维度地理场景识别方法 |
CN106910322A (zh) * | 2017-03-06 | 2017-06-30 | 北京理工大学 | 一种基于立体视觉和行为分析的头戴式预防近视装置 |
US20190163982A1 (en) * | 2017-11-28 | 2019-05-30 | Visual Semantics, Inc. | Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation |
US20190272425A1 (en) * | 2018-03-05 | 2019-09-05 | A9.Com, Inc. | Visual feedback of process state |
US10482334B1 (en) * | 2018-09-17 | 2019-11-19 | Honda Motor Co., Ltd. | Driver behavior recognition |
CN110221684A (zh) * | 2019-03-01 | 2019-09-10 | Oppo广东移动通信有限公司 | 装置控制方法、系统、电子装置及计算机可读存储介质 |
CN109961037A (zh) * | 2019-03-20 | 2019-07-02 | 中共中央办公厅电子科技学院(北京电子科技学院) | 一种考场视频监控异常行为特征识别方法 |
CN110619268A (zh) * | 2019-08-07 | 2019-12-27 | 北京市新技术应用研究所 | 基于时空分析与深度特征的行人再识别方法及装置 |
CN110503643A (zh) * | 2019-08-23 | 2019-11-26 | 闽江学院 | 一种基于多尺度快速场景检索的目标检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
PEI MINGTAO 等: "Video Events Recognition by Scene and Group Context", 《CHINA COMMUNICATIONS》 * |
董旭 等: "联合场景和行为特征的短视频行为识别", 《CNKI》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111144363B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163114B (zh) | 一种人脸角度及人脸模糊度分析方法、系统和计算机设备 | |
JP4898800B2 (ja) | イメージセグメンテーション | |
CN109697416B (zh) | 一种视频数据处理方法和相关装置 | |
CN110210276A (zh) | 一种移动轨迹获取方法及其设备、存储介质、终端 | |
CN108564052A (zh) | 基于mtcnn的多摄像头动态人脸识别系统与方法 | |
WO2019210555A1 (zh) | 一种基于深度神经网络的人数统计方法及装置、存储介质 | |
US9626585B2 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
Luo et al. | Saliency density maximization for efficient visual objects discovery | |
CN110807759B (zh) | 照片质量的评价方法及装置、电子设备、可读存储介质 | |
WO2022041830A1 (zh) | 行人重识别方法和装置 | |
CN106960175B (zh) | 基于深度卷积神经网络的第一视角动态手势检测方法 | |
WO2004095374A1 (ja) | 映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム | |
CN112954450A (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN113255685B (zh) | 一种图像处理方法、装置、计算机设备以及存储介质 | |
CN111724302A (zh) | 利用机器学习的纵横比转换 | |
CN110766645A (zh) | 基于人物识别与分割的目标人物复现图生成方法 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN111476314B (zh) | 一种融合光流算法与深度学习的模糊视频检测方法 | |
JP4369308B2 (ja) | 代表画像選択装置,代表画像選択方法および代表画像選択プログラム | |
CN111144363B (zh) | 一种基于场景和物体信息的第一视角下的行为识别方法 | |
Ghosal et al. | A geometry-sensitive approach for photographic style classification | |
CN110519509A (zh) | 构图评价方法、摄影方法、装置、电子设备、存储介质 | |
CN112507154B (zh) | 一种信息处理装置 | |
JP2014229092A (ja) | 画像処理装置、画像処理方法、および、そのプログラム | |
CN112507155A (zh) | 一种信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |