CN111587437B - 使用视频管的活动识别方法 - Google Patents
使用视频管的活动识别方法 Download PDFInfo
- Publication number
- CN111587437B CN111587437B CN201880085888.XA CN201880085888A CN111587437B CN 111587437 B CN111587437 B CN 111587437B CN 201880085888 A CN201880085888 A CN 201880085888A CN 111587437 B CN111587437 B CN 111587437B
- Authority
- CN
- China
- Prior art keywords
- image
- hand
- activity
- video
- image frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000694 effects Effects 0.000 title claims abstract description 280
- 238000000034 method Methods 0.000 title claims description 73
- 230000033001 locomotion Effects 0.000 claims abstract description 133
- 230000015654 memory Effects 0.000 claims abstract description 47
- 238000001514 detection method Methods 0.000 claims description 87
- 238000012545 processing Methods 0.000 claims description 43
- 238000013135 deep learning Methods 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000003384 imaging method Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 86
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 238000010801 machine learning Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 14
- 230000008707 rearrangement Effects 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000010606 normalization Methods 0.000 description 9
- 230000000306 recurrent effect Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000035622 drinking Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005057 finger movement Effects 0.000 description 2
- 244000144972 livestock Species 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 229940060587 alpha e Drugs 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60Y—INDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
- B60Y2302/00—Responses or measures related to driver conditions
- B60Y2302/03—Actuating a signal or alarm device
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
一种活动识别设备包括:端口,用于从视频源接收针对第一物体和第二物体的视频流;存储器,用于存储所述视频流的指令和图像帧;以及一个或多个处理器,其中,所述一个或多个处理器执行存储在所述存储器中的所述指令,所述一个或多个处理器用于:基于所述第一物体的存在选择所述图像帧的部分;确定所述图像帧的所述部分内的区域,其中,所述第一物体在所述视频帧中的位置被所述确定的区域限定;确定在所述图像帧的区域内所述第一物体的运动和所述第二物体的位置;以及根据所述确定的运动和所述第二物体的位置识别活动,并根据所述识别的活动生成警报。
Description
相关申请案交叉申请
本申请要求于2018年1月11日递交的名称为“使用视频管的活动识别方法”的美国专利申请15/867,932的在先申请优先权,该在先申请的内容以引入的方式并入本文本中。
技术领域
本发明涉及自动活动识别,尤其涉及一种自动驾驶员辅助系统。
背景技术
车辆感知涉及与车辆操作相关的车辆周围的感测信息。车辆感知作为车辆的眼睛,向车辆自身提供车辆周围正在发生的情况。因为驾驶员和乘客的状态和活动在帮助驾驶员安全驾驶和提供改进的人机界面(human machine interface,简称HMI)方面提供了关键的信息,所以车载感知是车辆感知的一个重要方面。在意识到驾驶员的活动时,车辆可以确定驾驶员是否分心、疲劳、苦恼、愤怒或注意力不集中,从而可以提供警报或支持机制,以确保驾驶员免受事故伤害并提高驾驶员的舒适度。自动活动识别是一项新兴技术。当前的活动识别方法在很大程度上依赖于强大的计算资源,其占用车辆大量空间的同时消耗大量能量。本发明的发明人已认识到需要改进车辆感知的活动检测。
发明内容
现描述各种示例以简化的形式引入概念的选择,这些概念将在以下具体实施方式中进行进一步的描述。本发明内容的目的不在于识别权利要求书保护的主题的关键或必要特征,也不在于限制权利要求书保护的主题的范围。
根据本发明的一个方面,提供了一种计算机实现的机器识别活动的方法。所述方法包括:通过视频源获取第一物体和第二物体的视频流;基于所述视频流的图像帧的部分中第一物体的存在,选择所述部分;确定所述图像帧的所述部分中限定所述第一物体的位置的区域;确定在所述确定的区域内所述第一物体的运动和所述第二物体的位置;使用确定的所述第一物体的运动和所述第二物体的位置识别活动;以及根据所述识别出的活动,生成可听警告和可视警告中的一个或两个。
可选地,在上述方面中,本方面的另一种实现方式提供了使用视频源获取图像的视频流,以及使用一个或多个处理器和所述视频流生成视频管。所述视频管包括所述图像帧的重排部分,其包括人手图像。所述视频管可通过活动活跃区域周围的给定视频流重建。活动活跃区域可以包括能够检测活动类型的手、物体和感兴趣像素的组合。所述视频管可以包括视频帧的多个窗口、处理和重排区域以及相应的特征,例如运动、梯度和物体热力图。所有这些区域和计算出的特征图像的组合可以归一化、缩放和重新排列为可扩展的张量视频结构和时间结构。所述方法还包括:使用所述手部图像确定手部运动、手势和热力图,使用确定的手部运动和热力图识别活动,以及根据识别的活动生成可听警报和可视警报中的一个或两个。
可选地,在上述任一方面,本方面的另一种实现方式提供:生成视频管包括:接收所述视频流的第一图像帧和后续的第二图像帧;确定所述第一图像帧的第一窗口部分和所述第二图像帧的所述第一窗口部分之间的相似度分数,其中,所述视频管位于所述图像帧的所述第一窗口部分中;当所述相似度分数大于指定的相似度阈值时,省略对所述第二图像帧的所述第一窗口部分的处理;当所述相似度分数小于所述指定的相似度阈值时,触发所述第二图像帧中的手部检测,以生成比所述图像帧的其它部分更可能包含所述手部图像的所述图像帧的第二窗口部分,并且包括所述视频管中的所述图像帧的所述第二窗口部分。
可选的,在上述任一方面,本方面的另一种实现方式提供:生成视频管包括循环确定所述视频管的窗口大小,其中,所述窗口大小最小化以完全包括所述手部图像。
可选地,在上述任一方面,本方面的另一种实现方式提供:确定所述视频管的手部区域中的手部运动包括:识别包括所述手部图像的像素,并跟踪所述包括所述手部图像的像素在所述视频流的所述图像帧之间的变化,其中,所述视频管包括手部运动信息。
可选地,在上述任一方面,本方面的另一种实现方式提供:生成所述视频管包括生成包括所述视频流的所述图像帧的重排部分的集合,所述重排部分包括手、感兴趣物体和对应的特征图。
可选的,在上述任一方面,本方面的另一种实现方式提供了一种方法,还包括确定所述视频管中的物体信息,所述物体信息包括所述物体的热力图;其中,关联所述活动包括使用所述物体信息和所述确定的手部运动来确定所述活动。
可选地,在上述任一方面,本方面的另一种实现方式提供:利用所述确定的手部运动或手势识别活动包括:将从所述视频管获取的所述物体信息和所述手部运动信息作为输入应用到由处理单元执行的机器学习过程中,以识别所述活动。
可选的,在上述任一方面,本方面的另一种实现方式提供:获取图像的视频流包括通过车辆的成像阵列获取车厢的图像的视频流;所述生成视频管包括:车辆处理单元使用所述车厢的图像的所述视频流生成视频管。
根据本发明的另一方面,一种活动识别设备包括:端口,用于从视频源接收视频流;存储器,用于存储所述视频流的图像帧;以及一个或多个处理器。所述一个或多个处理器执行所述存储器中存储的指令。所述指令配置所述一个或多个处理器基于第一物体的存在选择所述图像帧的部分;确定所述图像帧的所述部分内的区域,其中,所述第一物体在所述视频帧中的位置被所述确定的区域限定;确定在所述图像帧的所述区域内所述第一物体的运动和第二物体的位置;以及根据所述确定的运动和所述第二物体的位置识别活动,并根据所述识别的活动生成警报。
可选地,在上述任一方面,本方面的另一种实现方式提供了一个或多个处理器,包括全局感兴趣区域(region of interest,简称ROI)检测器组件,用于使用所述图像帧生成视频管;动态活动活跃区域(activity active area,简称AAA)生成器组件,用于检测包括人手的图像帧的部分,其中,所述视频管包括重新排列的AAA;关键特征生成器组件,用于使用所述手部区域确定手部运动和热力图;以及活动识别分类器组件,用于根据所述确定的手部运动识别活动,并根据所述识别活动生成警报。所述关键特征生成器组件可以使用识别出的物体的热力图来确定所述手部运动。
可选的,在上述任一方面,本方面的另一种实现方式提供了一种全局ROI检测器组件,用于:确定第一图像帧的第一窗口部分与第二图像帧的相同第一窗口部分之间的相似度分数,其中,所述视频管包括在所述第一图像帧和所述第二图像帧的所述第一窗口部分中;当所述相似度分数大于指定的相似度阈值时,省略对所述第二图像帧的所述第一窗口部分的处理;当所述相似度分数小于所述指定的相似度阈值时,在所述第二图像帧中进行手部检测,以生成所述视频流的所述图像帧中比所述图像帧的其它部分更有可能包含所述手部图像的第二窗口部分,并将所述图像的所述第二窗口部分包含在所述视频管中。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种动态活动活跃区域(activity active area,简称AAA)生成器组件,用于循环设置所述视频管的窗口大小,其中,所述窗口大小最小化以完全包括所述手部图像。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种动态AAA生成器组件,用于:确定包括所述手部图像的手部区域的中心;通过将所述手部区域的边界相对于所述确定的中心进行缩放来识别搜索区域;在识别出的搜索区域进行手部检测;并根据所述手部检测结果设置所述窗口大小。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种动态AAA生成器组件,用于:确定包括所述手部图像的手部区域的中心;通过将所述手部区域的边界相对于所述确定的中心进行缩放来识别搜索区域;在识别出的搜索区域进行手部检测;并根据所述手部检测结果设置所述窗口大小。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种动态AAA生成器组件,用于:使用所述确定的手部运动来预测下一窗口;使用所述下一窗口进行手部图像检测;当所述下一窗口包含检测到的手部图像的边界时,将当前窗口替换为所述下一窗口;当检测到的手部图像的边界超出所述下一窗口时,合并所述当前窗口和所述下一窗口;识别所述合并后的窗口中的手部图像;以及确定包含识别出的手部图像的新的最小化窗口大小。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种关键特征生成器组件,用于识别包括手部图像的所述手部区域中的像素;以及跟踪包括所述图像帧的窗口部分之间的手部图像的像素的变化,以确定所述手部运动。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种关键特征生成器组件,用于确定指尖和关节在所述图像帧中的位置;以及跟踪所述图像帧的窗口部分之间的指尖和关节的变化,以确定所述手部运动。
可选地,在上述任一方面,本方面的另一种实现方式提供了视频管,所述视频管包括所述视频流的所述图像帧的重排部分的集合,所述重排部分包括手、感兴趣物体和对应的特征图。
可选的,在上述任一方面,本方面的另一种实现方式提供了一种关键特征生成器组件,用于识别所述视频管中的物体;以及使用所述识别出的物体和所述确定出的手部运动来识别所述活动。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种活动识别分类器组件,用于将所述识别出的物体和所述确定出的手部运动的组合与存储在所述存储器中的物体和手部运动的一种或多种组合进行比较;并根据比较结果识别活动。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种活动识别分类器组件,用于:使用所述视频管的图像帧检测手部运动的序列;将检测到的手部运动序列与一个或多个指定活动的指定的手部运动序列进行比较;以及根据所述比较的结果,从所述一个或多个指定活动中选择活动。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种关键特征生成器组件,用于将视频管信息存储在所述存储器中作为可扩展的张量视频管;其中,所述活动识别分类器组件用于将所述可扩展的张量视频管作为输入应用到所述活动识别分类器组件执行的深度学习算法中以识别所述活动。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种活动识别分类器组件,用于根据人的标识选择所述可扩展的张量视频管内的AAA的按行配置,并将选择的所述AAA的按行配置作为输入应用到所述深度学习算法以识别所述人的活动。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种活动识别分类器组件,用于根据多个人的标识选择所述可扩展的张量视频管内的AAA的按列配置,并将选择的所述AAA的按列配置作为输入应用到所述深度学习算法以识别所述多个人之间的互动。
可选地,在上述任一方面,本方面的另一种实现方式提供了一种活动识别分类器组件,用于根据多组人的标识选择所述可扩展的张量视频管内的AAA的多个按列配置,并将选择的所述AAA的多个按列配置作为输入应用到所述深度学习算法以识别所述多组人之间的多组互动。
可选的,在上述任一方面,本方面的另一种实现方式提供了一种视频源,包括成像阵列,用于提供车厢图像的视频流;所述处理单元为车辆处理单元,用于使用所述车厢图像的所述视频流生成所述视频管。
根据本发明的另一方面,存在包括指令的计算机可读存储介质,当所述指令由活动识别设备的一个或多个处理器执行时,使得所述活动识别设备执行动作,包括:通过视频源获取图像的视频流;基于所述视频流的图像帧的部分中的第一物体的存在,选择所述部分;确定所述图像帧的所述部分中限定所述第一物体的位置的区域;确定在所述确定的区域内所述第一物体的运动和所述第二物体的位置;使用确定的所述第一物体的运动和所述第二物体的位置识别活动;以及根据所述识别出的活动,生成可听警告和可视警告中的一个或两个。可选的,所述计算机可读存储介质为非瞬时性的。
可选地,在上述任一方面,本方面的另一种实现方式包括计算机可读存储介质,包括使得所述活动识别设备执行动作的指令,所述动作包括:使用所述视频流生成视频管,其中,所述视频管包括包含手部图像的所述视频流的图像帧的重排部分;使用所述手部图像确定手部运动和热力图;将活动与所述确定的手部运动和热力图相关联;以及根据所述活动,生成可听警告和可视警告中的一个或两个。
可选地,在上述任一方面,本方面的另一种实现方式包括一种计算机可读存储介质,包括使得所述活动识别设备执行动作的指令,所述动作包括:循环确定所述视频管的窗口大小,其中,所述窗口大小最小化以完全包括所述手部图像。
可选地,在上述任一方面,本方面的另一种实现方式包括一种计算机可读存储介质,包括使得所述活动识别设备执行动作的指令,所述动作包括:使用所述确定的手部运动来预测下一窗口;使用所述下一窗口进行手部图像检测;当所述下一窗口包含检测到的手部图像的边界时,将当前窗口替换为所述下一窗口;当所述检测到的所述手部图像的边界超出所述下一窗口时,合并所述当前窗口和所述下一窗口;识别所述合并后的窗口中的手部图像;以及确定包含识别出的手部图像的新的最小化窗口大小。
附图说明
图1是示例性实施例提供的车厢中的乘员的图示;
图2是示例性实施例提供的机器识别活动的方法的流程图;
图3是示例性实施例提供的用于活动识别的系统的框图;
图4是示例性实施例提供的用于检测图像数据的全局感兴趣区域的机器或计算机实现方法的流程图;
图5是示例性实施例提供的用于成像处理窗口的图并比的图示;
图6是示例性实施例提供的一种计算机实现的检测图像数据中手部的方法的流程图;
图7A-7D示出了示例性实施例提供的设置手部检测的搜索窗口;
图8是示例性实施例提供的更详细的图像检测的图示;
图9是示例性实施例提供的动态窗口调整组件的框图;
图10是示例性实施例提供的动态窗口调整的触发过程的图示;
图11是示例性实施例提供的用于自动活动识别的系统部分的框图;
图12示出了示例性实施例提供的利用光流确定运动流信息的结果;
图13为示例性实施例提供的热力图生成图示;
图14为示例性实施例提供的示出视频管的关键特征的图示;
图15为示例性实施例提供的图像帧到空间维度的归一化的图示;
图16为示例性实施例提供的的视频管的归一化的图示;
图17为示例性实施例提供的两种不同视频管结构的关键特征的重排的流程图;
图18为示例性实施例提供的可扩展的张量视频管的图形三维表示的图示;
图19为示例性实施例提供的基于视频管的特定活动识别网络架构的示例的框图;
图20为示例性实施例提供的基于视频管的特定活动识别网络架构的另一示例的框图;
图21为示例性实施例提供的包括手部区域的图像帧的部分的图示;
图22为示例性实施例提供的用于执行方法的电路的框图。
具体实施方式
以下结合附图进行详细描述,所述附图是描述的一部分,并通过图解说明的方式示出可以实施本发明的具体实施例。这些实施例将充分详细描述使本领域技术人员能够实施本发明而且应该明白的是可以使用其它实施例并且在不脱离本发明的范围的情况下可以做出结构上、逻辑上、电学上的改变。因此,以下描述的示例性实施例并不当作限定,本发明的范围由所附权利要求界定。
在一实施例中,本文描述的功能或算法可以采用软件实现。该软件可包含计算机可执行指令,这些计算机可执行指令存储在计算机可读介质上或者计算机可读存储设备上,如一个或多个非瞬时性存储器或其它类型的本地或联网的硬件存储设备。此外,这些功能对应组件,这些组件可以是软件、硬件、固件或其任意组合。多个功能可根据需要在一个或多个组件中执行,所描述的实施例仅为示例。该软件可在数字信号处理器、专用集成电路(application-specific integrated circuit,简称ASIC)、现场可编程门阵列(fieldprogrammable gate array,简称FPGA)、微处理器上执行或者在个人计算机、服务器、或其它计算机系统等其它类型的计算机系统上运行的处理器上执行,从而将这些计算机系统转换成一个具体编程的机器。
如前文所解释的,为了提高车辆运行的安全性,需要对车辆感知等应用进行自动活动识别。当前的活动识别方法需要通过计算设备进行复杂的计算,这些计算设备使用车辆的大量能量和空间。
图1是一种车厢内的乘员图示。如图所示,车厢的乘员通常使用他们的手执行不同的活动,例如转向或操作车辆无线电。活动识别系统可以将手部区域用作需要关注的区域,以便识别乘员的活动。所述车厢包括成像设备105(例如,摄像头)或设备阵列,所述成像设备105或设备阵列提供所述车辆的内部视野的视频。从所述成像设备105的角度可以清楚地看到手部区域103和107。
图1的图像传感器阵列105与车辆处理单元(未示出)连接。所述车辆处理单元可以包括一个或多个视频处理器和存储器,所述车辆处理单元运行活动识别过程。所述图像传感器阵列105能够捕获所述车辆的整个车厢的视频。所述车辆处理单元的感兴趣区域(region of interest,简称ROI)组件接收所述图像传感器阵列捕获的视频流,并通过所述全图像搜索定位粗略的手部区域。该全局ROI检测器使用分类器/检测器,该分类器/检测器在功率和复杂度方面更快且更便宜,以使用相应的检测置信度粗略地识别检测物体是否实际上是人手。
视频管包含从所述成像设备105返回的原始视频图像生成的本地视频块和特征。视频管包括包含人手图像的图像帧的重排部分。所述视频管可通过活动活跃区域周围的给定视频流重建。活动活跃区域可以包括能够检测活动类型的手、物体和感兴趣像素的组合。视频管可以包括视频帧的多个窗口、处理和重排区域以及相应的特征,例如运动、梯度和物体热力图。所有这些区域和计算出的特征图像的组合可以归一化、缩放和重新排列为可扩展的张量视频结构和时间视频结构。
通过去除与驾驶员(或乘客)的活动无关的区域,从原始图像中产生视频管以用于自动活动识别。所述视频管可包含描述车辆内发生的活动的若干部分信息。车辆内部的活动通常涉及驾驶员和乘客的手。可生成包含原始图像的窗口部分的视频管,该窗口部分包含人手和与人手交互的物体。视频管还可以包含手的运动轮廓(例如,手部运动流或手部运动)。在一些实施例中,所述视频管可包括热力图。热力图可以定义为第一物体(例如,手)在确定的活跃活动区域内的位置。所述位置信息可以针对以活跃区域或图像帧为中心的坐标系统来表示。使用所述图像帧坐标能够捕获所述第一类型的多个物体(例如,给定图像中可见的多只手)的相对位置。在一些实施例中,视频管是视频流的图像帧的重排部分的集合,并且可以包括手的图像、其它感兴趣的物体以及对应的特征图。
在一些实施例中,视频管包含可以称为可扩展的张量视频管的数据结构,所述可扩展的张量视频管用于组织关于原始图像的部分的信息,所述部分包括手和物体、手部运动轮廓以及车厢内每个乘员使用的物体的热力图。
为了生成视频管,首先对原始视频流进行手部区域检测,以定位图像数据中的大概的手部区域。然后在所述大概的手部区域内运行更细粒度的手部探测器和面向活动的物体探测器。确定并合并这些手和物体位置的限界框以生成所述视频管。手和物体的全景包含在视频管中,而且保持视频管的规模尽可能小。例如,可以仅在手操作无线电的区域为图1生成视频管。保持视频管尽可能小减少识别活动所需的图像处理量。
在一些实施例中,可以使用仅在所述视频管上执行的光流处理来检测手部运动(例如,手势)。所述光流产生所述乘员的手的时间信息。可以将手部运动检测信息和检测到的物体信息馈入递归神经网络(或其它自动决策技术),以检测和识别乘员的活动。在其它实施例中,可将视频管的每个手部反馈入特征提取器。然后,可以将与提取的特征相关的时间信息反馈入基于深度学习的分类器以识别活动。
图2是一种机器识别活动的方法的概要流程图。所述方法200可以在使用车辆处理单元的车辆中执行,所述车辆处理单元可以包括一个或多个处理器。在操作205中,使用视频源获取或读取原始图像的视频流。所述视频源可以是车辆(例如,汽车、卡车、拖拉机、飞机等)的车厢中的成像设备。所述视频流包括第一物体和第二物体的图像。所述第一物体可以包括所述车辆的乘员的手,所述第二物体可以包括所述手正在交互的物体(例如,智能手机、喝水容器等)。
在操作210中,基于图像中的第一物体的存在来检测全局感兴趣区域(region ofinterest,简称ROI)。ROI检测器接收原始图像作为输入,输出粗略的感兴趣区域。对所述图像帧进行处理,以检测所述图像帧中的第一物体。为了检测活动,所述第一物体可以是手。机器学习可用于识别图像中代表人手的特征。所述ROI可以包含检测到的手部区域和所述手部区域的某个范围内的周围的物体。
在操作215中,确定所述图像帧的一部分内的活动活跃区域(activity activearea,简称AAA)。所述第一物体在所述视频帧中的位置被所述确定的区域限定。所述区域的大小被循环调整和最小化以减少所需的图像处理,但仍包括所述第一物体的整个图像。所述车辆处理单元包括活跃区生成器。所述活跃区域生成器尝试实现生成视频管的最小窗口尺寸,同时保持关于诸如手和活动相关物体的信息。用于设置包围图像的活跃区域的图像处理比用于识别ROI的图像处理更广泛。当所述第一物体为手时,通过提出不同比例和不同纵横比的搜索框,利用手和在手附近的物体的位置生成和更新所述AAA。所述AAA用于生成视频管。所述视频管是所述图像数据的特定组织,经过优化用于后续处理以识别活动。
使用图2的方法200的操作220至245执行视频管生成217。在操作220中,确定所述视频管(或多个视频管)的关键特征。所述车辆处理单元包括特征生成器。所述特征生成器确定在所述图像帧的活跃区域内所述第一物体的运动和第二物体的位置。确定运动可以包括跟踪所述第一物体在前一帧中的图像相对于当前帧的位置。若所述第一物体为人手,则所述特征生成器接收所述AAA作为输入,并可以输出所述第二物体的手部运动流信息和热力图等关键特征,所述第二物体可以是所述检测到的手正在交互的物体。由于通过循环窗口最小化优化活跃区域,因此减少了确定运动所需的图像处理。
在操作225中,执行空间归一化。在空间归一化中,使用在时间“T”处获得的关键特征信息确定特定时间“T”的视频管,然后将信息级联在一起并归一化到每个信息可以用作图像帧和特征数据的维度。
在操作230中,执行关键特征重排。在关键特征重排中,所述关键特征帧被组织成两个结构。第一结构存储所述车辆的多个乘员的关键特征信息。在操作235,所述方法可以包括标识分配,以将关键特征分配给不同的乘员。第二结构将所述关键特征帧组织成如下的可扩展的张量视频管。在特定时间“T”获得的关键特征信息可以是所述可扩展的张量视频管的一部分。在操作240中,第一和第二物体的图像信息(例如,手-物体信息)可用于重新优化所述AAA,称为AAA跟踪。
在操作245,执行时间归一化。在一些方面,可以将手-物体对和运动信息级联在一起,并且可以针对图像帧中的手等物体对视频管进行优化。但是,在所述生成的视频管能够馈入到活动识别过程之前,所述视频管应该被缩放到相同的维度。可以对所述视频管进行缩放(放大或缩小),以获得尺寸相同(时间归一化)的多个视频管流。
在操作250中,使用所述视频管执行活动识别。所述视频管可以输入到活动分类器中。所述活动分类器可以是基于深度学习的分类器,根据确定的所述第一物体的运动和所述第二物体的位置来识别活动。例如,可以将手部区域视频管输入到活动分类器中,并且可以使用手-物体信息来识别车厢的乘员的活动。由于所述视频管是一个减少的处理区域,所以需要更少的计算能量和时间来识别活动。
可以对车厢的乘员的识别活动进行监控。所述车辆处理单元可以根据识别的活动生成警报。例如,所述机器识别可以包括在自动驾驶员辅助系统中,且识别的活动可以指示驾驶员对车辆的操作不关心。所述警报可以是使用扬声器生成的可听警报,或者可以是使用车厢中存在的显示器生成的可视警报。然后,所述驾驶员可以采取纠正措施。
图2的方法可以由所述车辆处理单元的模块执行。所述模块可以包括或包括在所述一个或多个处理器中,例如微处理器、视频处理器、数字信号处理器、ASIC、FPGA或其它类型的处理器。所述模块可以包括软件、硬件、固件或其任意组合,以执行所述操作。
图3是用于自动活动识别的系统示例的框图。在图3的示例中,所述系统300包括活动识别设备310和视频源305,其可操作地耦合至所述活动识别设备310。所述视频源305可包括近红外(near infrared,简称NIR)摄像头或NIR摄像头阵列,并生成包括图像数据帧的视频流。
图3的示例中的所述系统300包括在车辆301中,所述活动识别设备310可以是车辆处理单元。在一些实施例中,所述活动识别设备310可包括一个或多个视频处理器。所述活动识别设备310包括接收所述视频流的端口315和存储所述视频流的图像帧的存储器320。所述活动识别设备310可包括一个或多个视频处理器处理所述图像帧,以使用所述视频流对活动进行机器识别。
所述活动识别设备310包括全局ROI检测器组件325、动态AAA检测器组件330、关键特征生成器组件335、空间归一化器组件340、关键特征重排组件345、时间归一化器组件350以及活动识别分类器组件355。所述组件可以包括或包括在一个或多个处理器中,例如微处理器、视频处理器、数字信号处理器、ASIC、FPGA或其它类型的处理器。所述组件可以包括软件、硬件、固件或软件、硬件和固件的任意组合。
图4是用于检测全局感兴趣区域(region of interest,简称ROI)的机器或计算机实现方法的一个示例的流程图。所述全局ROI是来自所述视频流的图像数据的大概或粗略手部区域。所述方法400可使用图3中的所述活动识别设备310的所述全局ROI检测器组件325执行。所述全局ROI检测器组件325基于第一物体例如手的存在来选择所述图像帧的部分。所述全局ROI检测器组件的检测为对所述第一物体的粗略或大概检测。将对所述第一物体的存在的粗略检测应用于所述图像帧的大部分。所述粗略图像检测可以是使用图像级相似度方法检测所述第一物体的存在的快速物体检测。所述全局ROI检测器组件325接收作为输入的原始图像数据并输出所述全局ROI。所述全局ROI可以包含手部区域和所述手部区域的某个范围内的周围物体。
在操作405中,从所述视频源接收或从所述存储器检索原始图像数据。所述原始图像可以是颜色、灰度、近红外、热红外等且从图像传感器阵列获取。所述图像数据包括所述视频流的第一图像帧和后续图像帧。
通过使用3D信息离线获取特定摄像机设置的全局感兴趣区域(region ofinterest,简称ROI)来掩蔽这些图像。所述全局ROI定义了所述图像帧的一个部分或多个部分,其中存在用于动作和活动识别的显著和重要物体,例如手、人体和物体。在车辆中,所述全局ROI是指在视频图像中,乘员(包括驾驶员和乘客)的手可能可见的车厢区域。换言之,所述全局ROI包含所有可能的手部区域和这些手部区域的某些范围内的周围物体。这使得车辆外部的手,即,在前挡风玻璃和后挡风玻璃的后面或远离侧窗的地方,被排除在识别活动的处理之外。
所述全局ROI用于选择将应用连续处理的区域。通过判断连续图像的全局ROI是否具有高相似度分数(例如,可以通过变化检测技术或逻辑回归方法获得该分数),也可以利用全局ROI跳过非常相似的图像,通过仅聚焦于不同的视频图像来加快所述活动识别过程。这种相似度阈值是手动设置的或从数据中自动得知的。该阈值可用于控制要跳过的帧数(这有助于更好地使用可用的计算资源)。还可以使用基于深度学习的物体检测器来提取所述全局ROI,该检测器也提取特征,以表示不同形状、颜色、比例和姿态的显著和重要物体。利用所述物体检测器和给定的训练数据集,获取所述训练图像中的所有图像像素的物体评分以及对应的限界框,并将其聚合为空间图,所述空间图用于设置所述全局ROI。
在操作410中,确定图像帧之间的相似度。在一些实施例中,所述全局ROI检测器组件325包括空间约束组件(未示出)。将所述原始图像帧馈入所述空间约束组件中,所述空间约束组件可以使用相似度估计算法来确定图像的相似度分数。在所述相似度估计中,相似图像的相似度评分更高。相似度分数可以反映第一图像与第二图像之间的全局相似度,也可以反映第一图像帧的第一窗口部分与第二图像帧的第一窗口部分的相似度。在某些实施例中,逻辑回归用于确定图像的相似度分数。在变型中,逻辑回归的输出为二进制,图像被视为相似或不相似。
在图4的操作415中,所述相似度估计跳过根据所述相似度评分指示的相似的图像,以加快所述图像中的手部检测。确定跳过图像的相似度评分阈值可以是手动指定的(例如,编程的),也可以是所述活动识别设备从训练数据中获知的。手部检测处理中跳过或省略的帧数由所述相似度分数阈值确定。初始相似度分数可以为空或设置为零,以便在接收到第一图像时,触发对所述第一物体的初始检测。
在操作420中,如果两个图像帧之间的相似度分数低于指定的相似度阈值,则在第二图像帧中触发并执行手部检测。所述全局ROI检测器可以包括机器学习组件,用于执行所述物体检测。所述机器学习组件可以利用深度学习技术(例如,卷积神经网络(convolutional neural network,简称CNN)、递归神经网络(recurrent neural network,简称RNN)或长短期记忆网络(long/short term memory,简称LSTM))来学习识别表示第一感兴趣物体的图像中的特征。在一些方面,这些图像特征可以包括指示手的不同形状、颜色、比例和运动。所述手部检测的输出可以是相对于类别和类型中的一个或两个的检测的置信度。检测的置信度可以是正确检测的概率。所述第一物体的检测输出也是定义所述物体检测的边界的限界框。所述限界框可用于计算所述图像区域中的交并比。图5是用于成像处理窗口的图并比(image over union,简称IoU)的图示,其中,IoU=(交区)/(并区)。
返回至图4,在操作425,IoU和置信度用于确定图像检测的结果是否可信。IoU和置信度的阈值可以手动指定,也可以像相似度评分阈值那样使用机器训练来确定。如果所述IoU或置信度中的任一个不满足所述阈值,则跳过所述图像,所述方法返回至405以获取用于分析的下一个图像。在435处,为所述图像数据的帧设置所述全局ROI。限界框的输出被视为所述视频管的所述初始全局ROI。
返回图3,所述活动识别设备310包括动态活动活跃区域检测器组件330,用于使用所述全局ROI检测器组件325确定的全局ROI来确定活动活跃区域(activity active area,简称AAA)。所述AAA用于确定所述实际视频管的图像区域。所述视频帧中的感兴趣物体(例如,手)的位置被所述确定的区域限定。所述动态AAA检测器组件330尝试实现所述视频管的最小窗口尺寸,同时保持与手和活动相关的物体相关的信息。
图6是确定所述AAA的方法的流程图。在操作605中,将所述全局ROI和之前的活动活跃区域(activity active area,简称AAA)进行合并,以找到每个AAA的本地感兴趣区域。所述本地ROI用于确定搜索区域,该搜索区域是在全局ROI内跟踪之前的AAA得到的。所述本地ROI的尺寸比AAA大,以确保对手和周围物体的全面检测。搜索区域或框可以用于定位所述全局ROI中感兴趣的物体。在一些实施例中,提出了不同比例和纵横比的搜索框作为搜索区域。基于确定的所述全局ROI的大概物体区域,生成不同比例和纵横比(或长宽比)的搜索区域。在一些方面,可以使用预定义的比例和长宽比的集合来乘以手部区域的限界框来生成搜索框。该预定义集合可以基于经验手动设置,也可以从原始数据自动获知,例如通过聚类方法。可以对生成的这些搜索区域执行手和物体检测。
图7A-D示出了确定用于手和物体检测的搜索窗口或搜索框。图7A示出了所述第一物体的初始识别的大概区域。在一些方面,确定所述初始手部区域的中心,并将所述手部区域的窗口的大小相对于所述中心进行缩放,以标识搜索区域。图7B是在改变缩放窗口的长度和宽度的同时减小初始搜索区域的比例的示例。窗口调整的比例减少1到n,n为正整数。图7C是保持初始搜索区域的比例的一个例子,图7D是扩展初始搜索区域的比例的一个例子。可以预先定义和手动指定使用的缩放比例,或者可以通过机器训练确定缩放比例。例如,所述缩放比例可以通过聚类方法从初始数据中通过机器获知。
返回图6,可以在所提议的搜索区域中执行操作610的检测,以识别所述第一物体的图像。在操作612中,可以基于手部检测的结果更新所述搜索区域。在操作612中,可以在所述搜索区域中执行操作612处的物体检测,以识别检测到的手可能与之交互的物体。所述第一物体的图像检测的迭代比前述的粗略搜索区域检测更为详细。基于所述图像检测的结果,通过减小窗口的大小,可以最小化所述视频管的窗口大小。在一些方面,在所述本地ROI中应用手部探测器来查找手在当前视频帧(图像)中的位置。每个AAA可以对应于单只手(例如,AAA基于手部区域)。
图8是更详细的图像检测的一个示例的图示。在一些方面,将手805的大概或粗略区域和所述调整大小的搜索区域窗口输入到深度卷积神经网络810中。所述深度卷积神经网络810可以是基于深度学习的图像检测器,其训练用于检测所述调整大小的窗口内的手和物体815。在某些实施例中,所述基于深度学习的图像检测器训练用于检测与在车厢中进行的活动相关的手和物体。
这种详细的手和物体检测版本可能需要大量计算。然而,所述详细的手部检测在所述搜索区域窗口的边界内操作,从而减少了识别手或物体的待处理图像的区域。这可以加快检测,但也会降低检测的焦点到包含手的概率较高的区域,从而降低误检测的可能性。此外,所述全局ROI检测器的所述空间约束组件可以基于图像相似度,确定(例如,使用逻辑回归)何时可以跳过图像处理。
所述全局ROI检测器组件使用的粗略或大概图像检测识别并选择可能包含第一类型物体(例如,车辆中的活动识别任务的人手)的图像的部分。接下来是所述AAA检测器组件进行更详细、更准确但可能更多计算量的物体检测。通过允许检测器聚焦于更可能包括手的区域,两阶段的手部检测过程降低了整体计算负载并提高了检测准确度。所述粗略图像检测是快速的,计算量较少,应用于所述图像的大部分,并且优选地具有较低的漏报率(即,所述粗略图像检测不会漏掉任何真实手部区域,但其可能错误地识别或选择非手部区域作为手部区域)。相比之下,所述详细物体检测的误报率低(即,所述详细物体检测正确识别可能被所述粗略图像检测错误识别的非手部区域)。此外,当涉及手部区域的窗口大小时,所述粗略图像检测可能不准确。
考虑到这些权衡,所述粗略图像检测可以是使用图像级相似度方法的快速物体(例如,人手)检测,例如逻辑回归、跟踪算法、传统分类器(使用简单的区域描述符和传统分类方法,例如支持向量机、提升、随机树等),以及基于深度学习的分类器中的一个或多个。所述详细物体检测可以是传统分类器以及基于深度学习的分类器。在所述粗略图像检测和所述详细物体检测都使用深度学习模型的情况下,所述粗略图像检测可以在较低的空间分辨率下运行,仅使用深度架构的初始层(例如,连接到完全连接层的前几个卷积层),训练成二进制分类器而不估计物体窗口大小,或者所有这些的组合。所述详细物体检测可以使用所述粗略图像检测生成的特征图,使用更深的处理层,并且除了用作二进制分类器之外,还可以恢复所述物体窗口大小。
详细的手部检测不一定总能保证结果正确。在一些实施例中,所述动态AAA检测器组件330可以将详细图像检测的结果应用于设计为去除误报和漏报检测的错误检测过滤器。这可以对检测到的同一只手和物体产生一致的类别,并为活动识别提供可靠的信息。根据有效的手和物体类别更新检测到的手和物体的新位置。
动态调整视频管的窗口大小,基于第一物体和第二物体检测更新搜索区域。检测到的第一位置可以用于更新搜索区域,以检测周围物体。对于不同的应用,AAA可以基于不同的物体,包括人体、面部、腿部、动物等。作为生成视频管的一部分,所述视频处理器尝试最小化所述视频管的分辨率,以最小化识别活动所需的图像处理量。循环确定所述视频管的窗口大小以查找最小化但仍包括识别出的所述第一物体区域的窗口大小。在一些实施例中,根据图7A-7D中所示的示例方法循环确定窗口大小。基于确定的大概区域,循环地更新窗口大小,并生成不同比例和长宽比的搜索区域或窗口。
返回图6,在操作617,可以为每个检测到的手计算对应的手框和每个周围物体之间的重叠分数。图5所示的IoU(交并比)可用于测量两个限界框之间的重叠区域。然而,周围物体通常被手遮挡,因此在许多情况下只能检测到部分物体,这会产生较低的IoU评分,并且可能被视为不相关的物体。两个限界框之间的距离是计算分数的另一种度量。但是,距离取决于限界框的大小。例如,限界框A和B与C的距离相同。只能将限界框A视为周围物体。因此,确定限界框的另一种方法是计算考虑限界框的距离和尺寸的重叠分数,同时能够测量被遮挡物体和手部图像之间的重叠。
计算重叠的公式示例如下:
其中,
和
分别是物体的限界框参数和手的限界框参数。相应地,所述重叠分数可计算为:
重叠分数=αe-βoverlaparea (2)
其中,α和β为预设系数。
当物体与手完全重叠时,重叠区域达到最小值0,重叠分数达到最高分值1。对于0到1之间的重叠区域,手与物体之间发生重叠。当物体与手的尺寸相同且相邻时,重叠面积等于1。对于大于1的重叠区域,重叠分数迅速降低到0。更新的AAA框参数方程定义为:
顶部=s*min(tophand,topobj)+(1-s)*tophand (3)
左侧=s*min(lefthand,leftobj)+(1-s)*lefthand (4)
底部=s*max(bothand,botobj)+(1-s)*bothand (5)
右侧=s*max(righthand,rightobj)+(1-s)*righthand (6),
(top,left,bot,right),
(tophand,lefthand,bothand,righthand)以及(topobj,leftobj,botobj,rightobj)分别是AAA框的参数、手部区域的参数和物体区域的参数的备选表示。变量s为等式(2)中的所述重叠分数。
没有高重叠分数的物体将被淘汰,之后所述更新的AAA将删除这些物体。对于重叠分数较高的物体,将其限界框合并到所述AAA中。
其它方法可以用于循环更新所述视频管的窗口大小。在一些实施例中,所述动态窗口大小调整包括对确定的所述手部运动轨迹的窗口跟踪。图9是可以包括在所述动态AAA检测器组件330中的动态窗口调整组件930的示例的框图。从当前窗口大小作为输入开始,所述动态窗口调整组件930使用所述手部运动轨迹来预测下一窗口大小和位置。在所述预测窗口内执行手和物体图像检测。生成限界窗口或框以验证所述预测的新窗口在大小和方向上是否正确演化以包含所述手部图像的边界。如果新预测窗口包含所有检测到的限界框,则动态窗口调整组件930输出新窗口大小作为下一窗口大小。所述新窗口大小替代了后续图像帧中所述视频管的当前窗口。否则,如果检测到的手部图像的边界延伸到下一窗口之外,则将触发再现过程(例如,通过开关932),该再现过程在当前窗口上应用一组预定义的长高比。
图10是使用所述动态窗口调整组件930执行的动态窗口调整的触发过程的示例的图示。该示例示出了被改变大小并合并以适应检测物体(例如,人脸)的大小以确保所有相关物体被完全检测的窗口。例如,图10中部分检测到的人脸在物体检测期间可能会丢失。检测整个物体,而不是部分物体,有助于防止在最小化窗口大小时丢失物体的跟踪。如果检测到物体的一部分,则所述动态窗口调整组件可以使用不同的纵横比和大小改变窗口以检测整个物体。通过将检测到的手和物体的所有限界框合并,生成包含手和感兴趣物体的最小窗口,作为所述视频管处理的下一帧。所述AAA包括所有重叠物体和手。
返回图6的620,使用所述窗口调整和第一物体检测生成所述AAA。所述AAA用于创建所述实际的视频管。在一些方面,所述视频流可以产生多个AAA,其可以通过手的标识组织。每只手可以生成一个AAA。每个AAA分配给其代表的手的标识。AAA中的物体分配有标识标签,标识标签是AAA的标识。每个物体可以被分配多个标识,因为在交互活动中物体频繁地交换或连接到多个人。关于物体类型和手标识的信息可以记录在注册表中,该注册表保留了整个视频流中的AAA之间的关系,这些关系在注册表的帮助下可以稍后在可扩展的张量视频管(以下结合图17描述)中恢复。
所述AAA可以设计为只关注人的活动,尤其是与手相关的活动。所述AAA的确定显著抑制了图像中的背景杂波和不相关的视觉信息。这使得所述活动识别对于杂波、噪声和无关细节具有更强的弹性和稳健性。它还提高了所述识别算法的运行速度,从而减少了对计算资源的需求,允许在低成本计算平台上进行处理。尽管多个AAA是视频中比图像帧小得多的部分,但是它们仍然保留所有关于目标活动的必要和显著信息,尤其是涉及手的信息。
AAA与所述ROI有几个不同之处。在计算机视觉和光学字符识别中,所述ROI定义了被考虑物体的边界。相反,所述AAA明确定义了显著且与所考虑的活动识别相关的物体簇的边界。所述AAA动态添加新物体或删除不相关物体,取决于所述重叠分数和与手的距离标准。ROI简单定义了图像块。然而,AAA的注册表除了物体簇的最小可用像素区域之外还包含信息。所述注册表记录来自整个视频流的不同AAA之间的关系,而ROI无法表示或记录这种知识。
然后在所述AAA中识别关键特征以提供所述视频管的内容。图3的所述关键特征生成器组件335确定所述关键特征。在一些方面,在为图像数据中的每一只手制定了感兴趣的手部区域之后,每一只手可以接收标识(手ID)。所述手ID也可以标识手属于哪一个乘员。所述关键特征生成器以AAA作为输入,以识别关键特征。
图11是示出用于自动活动识别的系统的动态AAA生成器组件1130、关键特征生成器组件1135和关键特征重排组件1145的框图。所述关键特征生成器组件1135可以包括运动流组件1137和热力图组件1139。
在一些方面,在确定每只手的所述AAA并且给每个AAA提供标识(例如,指示对应的手属于哪个乘员的手ID)之后,所述关键特征生成组件计算所述AAA的关键特征。所述特征可以包括原始图像(颜色、强度、近红外等)像素值、物体位置、物体运动流和物体热力图,并且可以为每个AAA排列成3D数据结构。这些特征也可以是深度神经网络,尤其是深度卷积网络的特征响应。在该3D数据中,前两个维度为空间(对应于图像区域),第三个维度具有多个层,每个层对应一个特征。这可以被认为是在第三维度上彼此级联的小AAA的颜色帧、运动帧和特征响应帧。
所述关键特征生成组件1135执行的进程不同。所述运动流组件1137生成在所述视频管中被跟踪的手的运动轮廓的关键特征。所述运动轮廓可以提供关于每只手的前一位置和当前位置(例如,前一帧与当前帧中的手位置)以及手移动的速度的信息。运动流的这些关键特征可以向系统提供有关手的时间信息。该时间信息可以使系统更好地推断被跟踪的手的活动。例如,乘员喝水可能具有全局运动的“整只手”类型,整只手握住杯子的同时将从杯子托架向上移动到人的脸上。相反地,使用智能手机打字可能涉及整只手的运动,但是打字可能并不总是涉及整只手的大的运动范围。相比于整只手的运动,打字可能与手指运动关联更大,如果运动轮廓指示手指运动多于整只手的运动,则可以推断出打字。所述运动流组件1137也可以确定所述手部运动的速度。知道手部运动和手的速度信息可以改进对手跟踪中的手轨迹的确定,因为该信息可以改善预测手最可能位于未来图像帧中的位置。
当确定所述视频管的AAA时,所述视频管包括来自所述视频流的图像帧的一个或多个窗口部分的图像序列。所述视频管的图像序列可用于确定运动轮廓特征。在一些实施例中,在所述视频管中识别包括所述手部图像的所述图像帧的像素。包括所述手部图像的像素的变化可以由所述运动流组件1137跟踪。跟踪包括所述序列的图像帧之间的手的像素的变化可以提供像素级的移动手的方向的信息。限制对所述视频管的跟踪减少跟踪像素变化所需的处理。该跟踪可称为光流。所述光流为每个指尖和关节提供信息,所述信息可以馈入活动识别网络以确定活动。
图12示出了使用光流确定运动流信息的结果的示例。左侧的图像表示以深度摄像头为图像源获得的原始手部图像。右侧的图像表示手向深度摄像机移动后的相同手部图像。所述右侧图像下方是运动中的手部图像的运动轮廓的表示。所述运动轮廓可用于预测所述移动手的轨迹。
返回图11,所述热力图组件1139生成与所述视频管中的空间位置和物体类型相关的热力图信息,所述热力图信息可用于确定所述乘员的活动。所述热力图组件1139的工作方式与直方图的工作方式类似。直方图显示数值数据的数值分布。同样地,本发明利用热力图来表示与车厢内的手交互的一个或多个物体的检测分布。在图11的示例中,AAA中检测到K只手和N个物体,其中,K和N为正整数。
假设K=6,且在连续的图像帧流中检测到六只手。在这六只手中,两只手与智能手机交互,一只手与水杯交互。因此,热力图表示将显示出智能手机比杯子的“热度”分布更高,因为在图像帧中检测到的智能手机比杯子多。所述热力图分布可以帮助本发明的系统通过系统能够检测的活动列表进行筛选。所述热力图分布可用于将概率分配给检测到的活动。智能手机的高热度签名意味着车厢内的活动与“打字”的关系比与“喝水”或“进食”的关系更紧密。分配更高的概率使得系统能够更好地检测出车辆内发生的活动。
物体热力图是二维(2D)图,表示以像素为中心的特定类物体的可能性。如果存在以像素为中心的物体,则其热力图值高。否则,所述热力图值较小。所述物体热力图的大小与所述AAA的大小相同。每个热力图是最终关键特征中的一个特征层。
图13是热力图生成的图示。热力图用于获取同一物体的多次检测后,得到所述物体所在位置的位置概率。手机热力图1305和手热力图1310如图13所示。所述热力图中的点是可以代表检测物体在执行多次检测后更有可能位于的位置的更热点。
热力图组件计算概率密度或直方图。直方图显示了数值数据的数值分布。同样地,本发明利用热力图来表示与车厢的手交互的一个或多个物体的检测分布。例如,假设在连续的帧流中检测到多只手。在这些手中,两只手与智能手机交互,一只手与杯子交互。因此,对于智能手机区域的像素,智能手机热力图将显示较高的热响应,即较大的热力图值,而对于杯子的像素,杯子热力图将显示较高的响应。
可以将多物体热力图嵌入为所述视频管的一部分,以便更好地跟踪和定位物体,以及帮助系统根据手附近的物体分配更有可能发生的活动的概率。热力图直接在手和物体探测器后获取。之后也只能在所述AAA内计算。
对应不同物体类别(包括手、脸、智能手机、书、水容器、食品等)的2D热力图可以排列成3D数据结构。所述活动识别系统不需要在一个时间间隔内收集信息,而是可以在特定时间捕获信息,然后构造表示瞬时信息的视频管。该信息包括检测到的手和物体、运动流信息和物体的热力图。
计算出的热力图特征通过将空间检测信息直接融合在外观特征中,显著增强了所述活动识别系统。这是将手和物体检测器的检测结果应用到活动分类方案中的非常有效的方式。这些热力图还允许系统筛选出系统中预定义的活动列表,或者系统已获知的活动列表。例如,智能手机热力图的热力图值越高,意味着相比“喝水”或“进食”,活动与“打字”的关系更紧密。此外,还使用热力图来理解手正在或将要与之交互的物体的位置分布。所述物体热力图允许所述系统理解所述多个物体相对于所述手位置的位置,并且允许所述系统基于所述物体位置、靠近所述手的物体以及所述物体标识来确定所述手将要执行的活动的可能性。
除了AAA和ROI的区别之外,AAA产生的关键特征也与ROI有不同的内容。ROI是指感兴趣区域的裁剪后的图像块。然而,AAA的关键特征是抽象的特征图,如运动流帧和物体热力图。此外,这些关键特征还提供了时间序列中手和物体的更多信息。
图14是视频管的原始关键特征的图示。所述视频管示例包括手一1305的图像和运动流、手二1410的图像和运动流以及热力图流1415的关键特征。所述原始关键特征信息用于生成所述视频管。
当使用关键特征生成器识别关键特征时,所述空间归一化器组件340使用在特定时间T获得的关键特征信息来生成该特定时间T的视频管。该关键特征信息包含检测到的手和物体、运动流信息以及系统能够检测到的物体的热力图。然后将该信息级联在一起并归一化到一个空间维度,其中,每个信息可以作为所述视频管的帧。
图15为图像帧到空间维度的归一化的图示。左侧是手数“K”的帧以及检测到的相应关键特征。所述关键特征帧包括手部图像帧1505或块、运动流信息1510和热力图信息1515。左侧上方的帧与左侧下方的帧的比例不同。右侧的帧表示归一化为相同比例的帧。
可以将不同乘员的标识信息分配给关键特征帧的手的部分。标识分配对于区分不同的手和手的活动是很重要的。标识分配有助于识别和区分驾驶员和乘客的活动。可以允许乘客进行一些分散注意力的活动且不产生警报。
当所有的手-物体对和每个帧的运动信息已经级联在一起并且为每只手创建了优化的视频管时,优化的视频管可以馈送到图3的所述活动识别分类器组件355中。然而,一些附加的伸缩和一些关键特征信息的重新排列可以提高活动识别计算的效率。
所述时间归一化器组件350将生成的所有视频管缩放到相同的维度以执行时间归一化。视频管应该被一致缩放的原因是,手不一定总是出现在每个帧的相同位置,并且在每个帧上的尺寸可能不同。在每个帧上,一些手可能比其它手更远离图像传感器。进一步地,多只手可以与所述图像传感器处于相同的距离,但是它们可以具有不同的尺寸(例如,成人的手与儿童的手)。因此,将所述视频管中的手部图像进行缩放(放大或缩小),以生成具有相同尺寸(时间归一化)的多个视频管的流。在所有图像上具有相同的尺寸,使得所述活动识别系统能够将随着时间的推移提取的所有视频管帧级联,然后形成新的视频数据,其中,所述新的视频数据包含在指定时间内(例如,编程的)从所有视频管中获取的所有帧。
图16为视频管归一化的图示。图16中左侧为四种不同比例的视频管。右侧显示的视频管的缩放为相同尺寸。在一些实施例中,所述时间归一化器组件350实现平均大小的视频管机制。在该机制中,当得到所有手的所有视频管时,确定所有视频管合并后的平均尺寸,并将所有视频管缩放到平均尺寸。
返回图3,所述活动识别设备310包括关键特征重排组件345,用于将所述关键特征信息重排为两种不同的视频管数据结构:时空视频管和可扩展的张量视频管,所述两种不同的视频管数据结构能够有效地进行活动识别处理。所述关键特征重排组件345可用于生成两种不同结构中的一种或两种。
图17是示出了两种结构的关键特征的重排的流程图。顶流用于时空视频管,底流用于可扩展的张量视频管。为了形成所述第一结构,所述关键特征重排组件345从所述车厢中的多个乘员中检索所有检测到的手部,并将它们级联在一起。每个手部包含关键特征帧,其包括检测到的一个或多个物体的手部图像部分、手部运动流和热力图。该结构存储多个乘员的信息,以最大限度地收集ROI信息。
所述时空视频管结构将同一AAA的关键特征安排在1705的3D卷中。然后对同一图像中的所有AAA进行空间归一化,使所有AAA具有相同的空间大小。在1710和1715中,针对AAA标识(例如,ID)依次级联所有AAA。对不同图像的3D数据进行时间归一化,得到最终的时空视频管。这种视频管的空间大小相同。在每个帧中,关键帧的长度可能随手,也即AAA,的数量而变化。也可以设置固定数目的AAA,缺失的AAA可以留空。
对于所述可扩展的张量视频管,所述关键特征重排组件345组织所述张量视频管的关键特征信息。所述可扩展的张量视频管可以被认为是单个原始图像的焦面像,所述单个原始图像仅包含所述活动识别过程所需的信息。
在1720中,针对其标识(例如,人、左手和右手),将每个单独的关键特征进行空间级联。该空间级联的图像包含图像的所有AAA的相同模态分量。例如,空间级联后的彩色图像包含该图像的AAA的所有彩色层。所述空间级联图像可以包含对应AAA图像的多行,其中,每行包括同一个人的特征(例如,颜色和运动流等),例如,一个人的两只手,而行数取决于视频中的人数,并且可按视频中的人数进行扩展。这可以实现因为AAA的标识是已知的。因此,空间级联后的图像捕获所有AAA。如果在一段时间内检测到的一个人少了一只手,则相应的部分可以为空(零),以指示手丢失的状态。然而,如果从未检测到所述乘员,所述空间级联图像可能不会为所述乘员创建新行。对于视频帧(图像),在1725处,将级联后的图像排列成3D卷,以保持每个视频帧的特征顺序相同。在1730中,所有视频帧的所有3D卷依次级联,得到视频流的张量视频管。
图18是可扩展的张量视频管的图形三维表示的图示。在图的y方向上,为车厢的每个乘员生成一行。在x方向上,为每个乘员的每只手形成两列。在z方向上,关键特征数据的帧(帧1至K)按乘员和乘员的手组织。不使用固定的一组监控信道,而是针对车厢内是否存在乘员,可以扩展关键特征组织的现有方法。焦面像的每一帧包括所述视频流的可扩展的张量视频管。
每个手部包含关键特征帧,如手部图像部分或块、手部运动流和物体的热力图。所有的手部部分都绑定在相同的原始图像帧上。焦面像允许同时监控车厢内所有乘员的所有手部。如果一个已经被检测了一段时间的乘员缺少手,则相应的手部分将被掩蔽(例如,空白或用黑色填充)以指示手的缺失状态。如果检测到先前未检测到的乘员,可以为该新乘员分配标识,并为该新乘员创建可扩展的张量视频管中的新行。此外,对应的运动轮廓和物体热力图可以包括并排列在该新乘员的可扩展的张量视频管中。
张量视频管是根据对人的手标识的了解而创建的,这使得查找特定人的特定手非常方便。这可以看成类似于在监控视频中寻找特定的信道。此外,由于所述可扩展的张量视频管的每一行对应于一个人,因此所述张量视频管的每一行可以直接馈入分类器以获取人的全部活动。它不需要检测单只手的活动,需要另一个分类器来确定个人的全部活动。
归一化的视频管或进一步缩放和重排的视频管输入活动分类器组件,以识别乘员的活动,例如,通过使用确定的运动和识别的活跃区域内的物体的位置。图19是基于视频管的特定活动识别网络架构示例的框图。归一化视频管1905输入到所述活动识别分类器。
视频管的每个手部被馈入单独的手特征提取器1910(例如,车辆中检测到的K只手中的每只手的一个提取器)。通过利用关键特征存储器机制的组织来跟踪ROI的时间信息,可以实现对视频管中信息的时间关注。所述手特征提取器和所述时间关注形成流水线。流水线相对于手部分是可扩展的。然后,可以将所有手部部分级联并馈送至基于深度学习的分类器1915中以识别活动。深度学习技术的一些示例包括递归神经网络(recurrentneural network,简称RNN)和长短期记忆网络(LSTM)。在所述RNN中,机器获知的手和物体的关键特征与手部运动信息进行级联。该级联信息依次输入LSTM以识别活动。可能需要预先向LSTM输入物体或手部运动的类别。
物体的热力图可用于预选高度相对活动,而手部图像部分和运动流信息用于进一步确认和识别活动的类型并识别活动对应的乘员。最终输出的特定活动识别网络是驾驶员1920的独立活动、乘客1925的独立活动以及驾驶员和乘客1930之间的交互活动的不同类别。
图20是基于张量视频管的特定活动识别网络架构的示例的框图。活动识别分类器是基于视频管的特定网络架构。张量视频管2005的每个AAA部分被馈入单独的关注机制中,或者按行2010、按列2012(包括对角线),或者作为一个整体。然后将对应的AAA级联并馈送到分类器2015中。所述分类器可以基于深度学习或其它机器学习方法。最终输出驾驶员2020的独立活动、乘客2025的独立活动以及驾驶员和乘客2030之间的交互活动的不同类别。
张量视频管的有组织性允许一种稳健、创新且更容易检测活动(单人和多人活动)的方式。由于张量视频管中的每一行标识一个人,因此本发明更容易跟踪每一个人以及每一个人执行的活动。如果关键特征不包含所学特征,则应用基于深度学习的卷积神经网络来根据需要提取这些特征。所述关键特征(物体热力图、手部块层和运动流等)表示高度相关的活动,为活动类型和相应的乘员提供更多的信息。
基于张量视频管的活动识别可以通过两种不同的方式实现:按行关注和按列关注。通过将张量视频管的每一行馈送至分类器,可以通过分类器识别个体活动(例如,驾驶员活动和乘客活动)。所述活动识别分类器组件根据人的标识选择所述可扩展的张量视频管内的AAA的按行配置,并将选择的所述AAA的按行配置用作所述机器深度学习的输入,以识别人的活动。
或者,所述张量视频管的馈送列使得所述分类器能够识别不同人之间的交互活动。每个AAA的注册表用于激活按列AAA。例如,将提取在同一物体下注册的两只手以识别交互活动。所述活动识别分类器组件根据多个人的标识选择所述可扩展的张量视频管内的AAA的按列配置,并将选择的所述AAA的按列配置用作所述机器深度学习的输入,以识别所述多个人之间的互动。
基于张量视频管的活动识别允许识别多个类别的个人活动。此外,它还可以区分驾驶员和乘客的活动,这对于安全来说至关重要,因为乘客允许的活动可能对驾驶员是危险的。通过简单地逐列查看张量视频管,所述活动识别系统可以再次使用AAA识别交互活动。类似地,通过在张量视频管内选择多个按列AAA配置,并且仅在张量视频管的选定部分应用活动识别分类器,可以识别多组人之间的多种互动(例如,驾驶员从坐在前座的乘客手中取一个水瓶,后座的两个乘客握手)。
多人活动通常很难被机器识别。传统方法倾向于分别处理人之间的多种活动。然而,人们可以同时进行多种活动,并列进行,或者相互进行。由于需要识别所有可能发生的活动,因此必须以便于系统分析数据的方式组织数据。目前的系统和方法试图解释可以同时执行多个活动的事实。由于张量视频管的多维性质,张量视频管允许系统以并行和连接的方式区分不同的活动。所述活动识别分类器组件可以根据多组人的标识选择所述可扩展的张量视频管内的AAA的多个按列配置,并将选择的所述AAA的多个按列配置用作所述机器深度学习的输入,以识别所述多组人之间的多个互动。
如前文所述,张量视频管包含手部像素信息、手部运动流信息以及物体热力图信息等。由于许多物体和手可能在每个视频管的几行中重叠,所以分类器能够检测到几只手(来自不同的人)与同一物体交互,或者这些手可能彼此交互。所有这些信息都可以在张量视频管中汇总,使得深度学习算法更容易获知这种关系和模式。这些属性和特征使得张量视频管不仅对于单人活动识别,而且对于多人活动识别,都是一种易于使用和高效的活动描述符。
现有的活动识别方法使用全部帧来识别人类的活动。他们看着整个屏幕,包括背景杂波不相关的身体部分,这涉及到大量的噪声的识别。另外,现有的方法没有每只手的活动的线索。当人们同时进行两种活动时,现有的方法可能不够高级,无法理解每只手的活动。在驾驶员一只手操作导航面板而另一只手处理方向盘的情况下,现有方法可能会混淆,而本发明的方法识别每只手的活动以了解人的全部活动。
附加的手部运动实施例
如前文所述,手势和手部运动流有助于理解驾驶者和乘客在车辆中的活动。当生成视频管时,其包括来自所述视频流的图像帧的一个或多个窗口部分的图像序列。所述视频管的图像序列可用于确定可被处理以识别活动的运动序列。
在一些实施例中,图11的所述运动流组件1137识别包括所述视频管中的手部图像的所述图像帧的像素,并跟踪包括所述手部图像的所述像素中的变化。跟踪包含所述帧序列的图像帧之间的手的像素的变化指示所述移动手在像素级的方向。限制对所述视频管的跟踪,减少跟踪像素变化和确定手部运动所需的处理。该跟踪可称为光流。所述光流为每个指尖和关节提供信息,所述信息可以馈入活动识别网络以确定活动。
在一些实施例中,所述运动流组件1137对视频管的识别出的手部区域执行手势检测以识别手部运动。图21是包括手部区域的图像帧的一部分的示例的图示。手势检测估计指尖和关节在图像块中的位置。跟踪所述图像帧之间的指尖和关节的变化可以确定手部运动。所述指尖和关节信息可以馈入活动识别网络以确定活动。
在一些实施例中,预训练的三维(three dimensional,简称3D)手模型加载到存储器中。所述3D模型可以存储为三个相互正交的轴中的每一个的手的物理方面的数据结构表示。所述3D模型可以是所有肤色、尺寸和形状的通用的手模型。在变型中,所述3D手模型是针对某些类别的人或仅针对一个特定人学习的特定手模型。所述运动流组件1137可以从视频管图像中捕获和分割手。所述运动流组件1137通过将所述手轮廓和所述二维(2D)帧的关键点与所述3D模型进行匹配,从所述视频管图像中生成3D手表示。与其它方法相比,随着时间的推移,所生成的3D手表示的变化包括关于手势和手部运动的更多信息。该运动流是可馈入所述活动识别网络以确定活动的信息的关键特征。
附加活动识别实施例
图3的所述活动识别分类器组件355使用机器提取的与识别的手部图像、物体、热力图和运动流相关的关键特征信息,直接或间接地识别乘员的活动。
在一些实施例中,所述活动识别分类器组件355直接使用基于规则的活动识别应用关键特征信息。在基于规则的活动识别中,将计算机检测到的一个或多个物体和手部运动的组合与存储在存储器中的物体和手部运动的一个或多个组合进行比较,以将活动与检测到的组合相关联。所述存储器可以存储不同物体和手部运动的组合。物体和运动按照明确的表示不同的活动规则组合。例如,如果系统检测到驾驶员手中的手机,并且检测到驾驶员正在进行触摸手机的手部运动,则系统识别到活动是驾驶员使用手机打字。所述系统使用所述存储器中存储的组合可能反映的预定义规则执行机器标识。
在一些实施例中,所述活动识别分类器组件355将为视频管获取的手部图像、物体、热力图和运动流的信息应用于机器学习技术以识别活动。机器学习技术的一些示例包括隐马尔可夫模型(Hidden Markov Model,简称HMM)或随机森林(Random Forest,简称RF)。在HMM机器学习中,将手部图像、物体和手部运动输入到马尔可夫过程中以识别活动。在随机森林(Random Forest,简称RF)机器学习中,手部图像、物体和手部运动应用于训练过程中构造的多个决策树,并且RF输出各决策树的类的模式以识别活动。所述活动识别分类器组件355将与通过视频管检测的手部运动序列相关的信息作为输入应用到机器学习技术中。通过机器学习技术从一个或多个指定的活动中选择活动。
在一些实施例中,所述活动识别分类器组件355将手部图像、物体和手部运动的信息应用于深度学习技术以识别活动。深度学习技术的一些示例包括递归神经网络(Recurrent Neural Network,简称RNN)和长短期记忆网络(Long/Short Term Memory,简称LSTM)。在所述RNN中,机器获知的物体特征与手部运动信息(例如光流)进行级联。该级联信息依次输入LSTM以识别活动。可能需要预先向LSTM输入物体或手部运动的类别。
在一些实施例中,生成级联的视频管,并且每只手视频管使用神经网络来识别每只手的活动。可以跳过创建所述可扩展的张量视频管,并且可以将每只手的每个视频管直接馈入神经网络进行处理。所述活动识别系统可以包括针对每个识别的手的神经网络,这些神经网络可以是在所述车辆处理单元中并行运行的进程(例如,每个神经网络可以作为单独的程序运行)。例如,所述神经网络可以使用LSTM架构,所述LSTM架构允许所述系统确定手在做什么,并使用所述信息对所述手对应的当前活动进行分类。例如,所述活动识别系统可以获知“手波”的手势与当前图像流中基于重复运动而移动的手相关联。
当系统正在学习而不使用视频管对活动区域进行聚焦时,可能需要大量的训练视频样本,以便系统将像素变化关联到特定活动。对于基于整个视频帧的机器学习,随着系统需要分析所有数据和像素,包括与活动无关的数据(例如,作为背景的物体和其它像素),处理速度和训练可能成为一个问题。可用内存的数量也有限制,硬件的速度也有限制。更强大的硬件可以提高系统的学习能力,但增加的能力也会增加系统的成本和功耗。非常深度的神经网络技术可以获知与活动相关的像素模式,但是这些网络还需要非常大量的训练样本、增加系统中的内存使用率以及需要微调的额外超参数。
无论机器学习方法如何,使用视频管的机器学习和活动检测比使用给定视频流的整个图像帧的机器学习和活动检测更加高效、方便和准确。使用视频管可以减少识别活动所需的处理时间和硬件能力。
尽管已描述了使用手部图像识别车厢中的人类活动的实施例,但是所描述的实施例可用于其它基于视频的活动识别任务,例如视频监控(包括物理安全、婴儿监控、老年人护理)、牲畜监控、生物和环境监控等。对于监控,处理可以聚焦在人脸或整个人体图像上,而不是聚焦在手部区域。所述人体图像可用于检测人体运动,所述图像和确定的运动可作为活动识别组件的输入。对于牲畜监控,处理可以聚焦在动物图像上。
视频管可被视为原始图像流的压缩版本,其允许活动识别系统仅关注用于检测和识别活动(例如,车辆乘员的活动)的图像部分。此处描述的实施例将这些分割或压缩版本的图像流馈送到活动识别过程中。提高了效率,降低了功耗。这意味着,实施例可以通过软件、硬件或软件和硬件的组合实现,例如通用计算机、智能手机、现场可编程门阵列以及各种其它嵌入式产品。进一步地,实施例提高了识别活动的准确性,因为用于检测感兴趣的活动的处理图像的区域减少了。此外,所述概念可以从车辆感知扩展到其它技术领域,包括机器人(例如,家庭机器人、医疗机器人)、军事应用以及监控和安全应用。
图22是示出了示例性实施例提供的用于执行方法的电路的框图。不需要在所述各实施例中使用所有组件。计算机2200形式的一个示例性计算设备可以包括一个或多个处理单元2202(例如,一个或多个视频处理器)、存储器2203、可移动存储器2210和不可移动存储器2212。所述电路可以包括全局ROI检测器组件、动态AAA检测器组件、关键特征生成器组件、空间归一化器组件、关键特征重排组件、时间归一化器组件以及活动识别分类器组件。
虽然示例性计算设备以计算机2200的形式示出和描述,但是在不同实施例中,计算设备可以是不同的形式。例如,所述计算设备可以替代为智能手机、平板电脑、智能手表或包括相同或相似元件的其它计算设备,如图22所示和描述。智能手机、平板电脑和智能手表等设备通常统称为移动设备或用户设备。进一步地,尽管各种数据存储元件被示为计算机2200的一部分,但存储器也可以包括通过网络可访问的基于云的存储器,例如基于互联网或基于服务器的存储器。
存储器2203可用于存储如本文所述的图像数据帧等数据结构。所述存储器2203可包括易失性存储器2214和非易失性存储器2208。所述计算机2200可包括或访问计算环境。该计算环境包括各种计算机可读介质,如易失性存储器2214和非易失性存储器2208、可移动存储器2210和不可移动存储器2212。计算机存储器包括随机存取存储器(random accessmemory,简称RAM)、只读存储器(read-only memory,简称ROM)、可擦除可编程只读存储器(erasable programmable read only memory,简称EPROM)和电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称EEPROM)、闪存或其它存储器技术、只读光盘(compact disc read-only memory,简称CD ROM)、数字多功能光盘(digital versatile disc,简称DVD)或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁存储设备,或者任何其它能够存储计算机可读指令的介质,包括用于配置处理单元2202以执行此处描述的网络桥接协议实施例的指令。
计算机2200可以包括或访问计算环境。该计算环境包括输入2206、输出2204和通信连接2216。输出2204可以包括显示设备,例如触摸屏,也可以用作输入设备。输入2206可以包括一个或多个触摸屏、触摸板、鼠标、键盘、摄像头、一个或多个设备专用按钮、一个或多个集成在计算机2200内或通过有线或无线数据连接耦合到计算机2200的传感器,以及其它输入设备。计算机可使用通信连接在联网环境中操作,以连接到数据库服务器等一个或多个远程计算机。远程计算机可包括个人计算机(personal computer,简称PC)、服务器、路由器、网络PC、对端设备或其它公共网络节点等。通信连接可包括局域网(Local AreaNetwork,简称LAN)、广域网(Wide Area Network,简称WAN)、蜂窝、WiFi、蓝牙或其它网络。
存储在计算机可读介质上的计算机可读指令可由计算机2200的处理单元2202执行。硬盘驱动器、CD-ROM和RAM是产品的一些示例,所述产品包括非瞬时性计算机可读介质,如存储设备。若认为载波过于短暂,则术语计算机可读介质和存储设备不包括载波。存储器也可包括联网存储器,例如2220处示出的存储区域网络(storage area network,简称SAN)。
虽然上文详细描述了几个实施例但是可能进行其它修改。例如为了获得期望的结果附图中描绘的逻辑流不需要按照所示的特定顺序或者先后顺序。可以提供其它步骤或者从所描述的流程中去除步骤,所描述的系统中可以添加或移除其它组件。其它实施例可以在所附权利要求书的范围内。
Claims (20)
1.一种活动识别设备,其特征在于,所述设备包括:
端口,用于从视频源接收视频流,所述视频流包括第一物体和第二物体的图像帧,所述第一物体包括车辆的乘员的手,所述第二物体包括所述手正在交互的物体;
存储器,用于存储所述视频流的指令和图像帧;
一个或多个处理器,所述一个或多个处理器执行所述存储器中存储的指令,所述一个或多个处理器用于:
在所述图像帧中使用代表人手的特征来检测识别所述第一物体,基于所述第一物体在所述图像帧中的存在来检测所述图像帧中的全局感兴趣区域,所述全局感兴趣区域包括检测到的第一物体区域和所述第一物体区域内围绕所述第一物体的周围物体;
确定所述全局感兴趣区域内的活跃区域,其中,所述第一物体在所述图像帧中的位置被所述活跃区域限定,所述活跃区域为经过循环调整仍包括所述第一物体的整个图像的最小化区域;确定在所述图像帧的所述活跃区域内的所述第一物体的运动和所述第二物体的位置;
根据所述确定的所述第一物体的运动和所述第二物体的位置识别活动,并根据所述识别的活动生成警报。
2.根据权利要求1所述的活动识别设备,其特征在于,所述一个或多个处理器用于:
确定第一图像帧的第一窗口部分与第二图像帧的相同第一窗口部分之间的相似度分数,其中,所述活跃区域包括在所述第一图像帧和所述第二图像帧的所述第一窗口部分中;
当所述相似度分数大于指定的相似度阈值时,省略对所述第二图像帧的所述第一窗口部分的处理;以及
当所述相似度分数小于所述的指定的相似度阈值时,在所述第二图像帧中对所述第一物体进行检测,以生成所述视频流的图像帧中比所述图像帧的其它部分更有可能包含所述第一物体的图像的第二窗口部分,并在包括所述视频流的图像帧的重排部分的集合的视频管中包含所述图像的所述第二窗口部分。
3.根据权利要求1所述的活动识别设备,其特征在于,所述一个或多个处理器用于循环设置所述活跃区域的窗口大小,其中,所述窗口大小设置为包括所述第一物体的图像。
4.根据权利要求3所述的活动识别设备,其特征在于,所述一个或多个处理器用于:确定所述活跃区域的中心;通过将所述活跃区域的边界相对于所述确定的中心进行缩放来识别搜索区域;
在识别出的搜索区域进行所述第一物体图像检测;以及
根据所述第一物体图像检测的结果设置所述窗口大小。
5.根据权利要求3所述的活动识别设备,其特征在于,所述一个或多个处理器用于:
利用所述确定的所述第一物体的运动预测下一窗口;
利用所述下一窗口对所述第一物体进行图像检测;
当所述下一窗口包含检测到的所述第一物体的图像的边界时,将当前窗口替换为所述下一窗口;以及
当检测到的所述第一物体的图像的边界超出所述下一窗口时:
合并当前窗口和所述下一窗口;
识别所述合并后的窗口中的所述第一物体的图像;以及
确定包含所述第一物体的识别图像的新的最小化窗口大小。
6.根据权利要求1所述的活动识别设备,其特征在于,所述一个或多个处理器用于:
识别所述确定的活跃区域的包括所述第一物体图像的像素;以及跟踪包括所述图像帧的窗口部分之间的所述第一物体图像的像素的变化,以确定所述第一物体的运动。
7.根据权利要求1所述的活动识别设备,其特征在于,所述一个或多个处理器用于:
确定所述图像帧中指尖和关节的位置;
跟踪所述图像帧的窗口部分之间的指尖和关节的变化,以确定所述第一物体的运动。
8.根据权利要求1所述的活动识别设备,其特征在于,所述一个或多个处理器用于:
确定所述第一物体的运动;
使用所述确定的所述第一物体的运动和所述第二物体识别所述活动。
9.根据权利要求8所述的活动识别设备,其特征在于,所述一个或多个处理器还用于:
将所述确定的所述第一物体的运动和所述第二物体的组合与存储在所述存储器中的所述第一物体的运动和物体的一种或多种组合进行比较;以及
基于比较结果识别所述活动。
10.根据权利要求8所述的活动识别设备,其特征在于,所述一个或多个处理器还用于:
使用所述图像帧的所述确定的活跃区域检测所述第一物体的运动的序列;
将所述检测到的所述第一物体运动的序列与一个或多个指定活动的指定的所述第一物体运动序列进行比较;以及
根据所述比较的结果,从所述一个或多个指定活动中选择活动。
11.根据权利要求1所述的活动识别设备,其特征在于,所述一个或多个处理器还用于生成视频管,所述视频管包括所述视频流的图像帧的重排部分的集合以及对应的特征图,所述重排部分包括所述第一物体和所述第二物体。
12.根据权利要求11所述的活动识别设备,其特征在于,所述一个或多个处理器用于将所述存储器中的视频管信息存储为可扩展的张量视频管;并将所述可扩展的张量视频管输入到活动分类器,以使所述活动分类器使用所述可扩展的张量视频管来识别所述乘员的活动,所述活动分类器为基于深度学习的分类器。
13.根据权利要求12所述的活动识别设备,其特征在于,所述一个或多个处理器用于根据所述车辆的乘员的标识选择所述可扩展的张量视频管内的所述图像帧的部分的按行配置,并将所述选择的按行配置作为输入应用于所述深度学习算法以识别所述乘员的活动。
14.根据权利要求12所述的活动识别设备,其特征在于,所述一个或多个处理器用于根据所述车辆的多个乘员的标识选择所述可扩展的张量视频管内的所述图像帧的部分的按列配置,并将所述选择的按列配置作为输入应用于所述深度学习算法以识别所述车辆的所述多个乘员之间的互动。
15.根据权利要求12所述的活动识别设备,其特征在于,所述一个或多个处理器用于根据所述车辆的多组乘员的标识选择所述可扩展的张量视频管内的所述图像帧的部分的多个按列配置,并将所述选择的多个按列配置作为输入应用于所述深度学习算法以识别所述车辆的所述多组乘员之间的多次互动。
16.根据权利要求1所述的活动识别设备,其特征在于,所述视频源包括成像阵列,用于提供车厢的图像的视频流;所述一个或多个处理器包括在车辆处理单元中,所述车辆处理单元用于使用所述车厢的所述图像的所述视频流来识别活动。
17.一种计算机实现的机器识别活动的方法,其特征在于,所述方法包括:
通过视频源获取视频流,所述视频流包括第一物体和第二物体的图像帧,所述第一物体包括车辆的乘员的手,所述第二物体包括所述手正在交互的物体;
在所述图像帧中使用代表人手的特征来检测识别所述第一物体,基于所述第一物体在所述图像帧中的存在来检测所述图像帧中的全局感兴趣区域,所述全局感兴趣区域包括检测到的第一物体区域和所述第一物体区域内围绕所述第一物体的周围物体;
确定所述全局感兴趣区域内的活跃区域,所述第一物体在所述图像帧中的位置被所述活跃区域限定,所述活跃区域为经过循环调整仍包括所述第一物体的整个图像的最小化区域;
确定在所述图像帧的所述活跃区域内的所述第一物体的运动和所述第二物体的位置;
根据所述确定的所述第一物体的运动和所述第二物体的位置识别活动,以及根据所述识别出的活动,生成可听警报和可视警报中的一个或两个。
18.根据权利要求17所述的方法,其特征在于,所述确定所述全局感兴趣区域内的活跃区域包括:
接收所述视频流的第一图像帧和后续的第二图像帧;
确定所述第一图像帧的第一窗口部分和所述第二图像帧的所述第一窗口部分之间的相似度分数,其中,所述第一物体的位置位于所述图像帧的所述第一窗口部分中;
当所述相似度分数大于指定的相似度阈值时,省略对所述第二图像帧的所述第一窗口部分的处理;以及
当所述相似度分数小于所述指定的相似度阈值时,触发在所述第二图像帧中检测所述第一物体,以生成比所述图像帧的其它部分更有可能包含所述第一物体的所述图像帧的第二窗口部分,且包含所述确定区域中的所述第二窗口部分。
19.一种包括指令的非瞬时性计算机可读存储介质,其特征在于,当所述指令由活动识别设备的一个或多个处理器执行时,使得所述活动识别设备执行动作,包括:通过视频源获取视频流,所述视频流包括第一物体和第二物体的图像帧,所述第一物体包括车辆的乘员的手,所述第二物体包括所述手正在交互的物体;
在所述图像帧中使用代表人手的特征来检测识别所述第一物体,基于所述第一物体在所述图像帧中的存在来检测所述图像帧中的全局感兴趣区域,所述全局感兴趣区域包括检测到的第一物体区域和所述第一物体区域内围绕所述第一物体的周围物体;
确定所述全局感兴趣区域内的活跃区域,所述第一物体在所述图像帧中的位置被所述活跃区域限定,所述活跃区域为经过循环调整仍包括所述第一物体的整个图像的最小化区域;
确定在所述图像帧的所述活跃区域内的所述第一物体的运动和所述第二物体的位置;
根据所述确定的所述第一物体的运动和所述第二物体的位置识别活动,以及根据所述识别出的活动,生成可听警告和可视警告中的一个或两个。
20.根据权利要求19所述的非瞬时性计算机可读存储介质,其特征在于,包括导致所述活动识别设备执行动作的指令,所述动作包括:
利用所述确定的所述第一物体的运动预测下一窗口;
利用所述下一窗口对所述第一物体进行图像检测;
当所述下一窗口包含检测到的所述第一物体的图像的边界时,将当前窗口替换为所述下一窗口;以及
当所述检测到的所述第一物体的图像的边界超出所述下一窗口时:
合并当前窗口和所述下一窗口;
识别所述合并后的窗口中的所述第一物体的图像;以及
确定包含所述第一物体的识别图像的新的最小化窗口大小。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/867,932 | 2018-01-11 | ||
US15/867,932 US10628667B2 (en) | 2018-01-11 | 2018-01-11 | Activity recognition method using videotubes |
PCT/CN2018/120397 WO2019137137A1 (en) | 2018-01-11 | 2018-12-11 | Activity recognition method using videotubes |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111587437A CN111587437A (zh) | 2020-08-25 |
CN111587437B true CN111587437B (zh) | 2023-10-24 |
Family
ID=67140805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880085888.XA Active CN111587437B (zh) | 2018-01-11 | 2018-12-11 | 使用视频管的活动识别方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10628667B2 (zh) |
EP (1) | EP3732617B1 (zh) |
JP (1) | JP7110359B2 (zh) |
KR (1) | KR102433216B1 (zh) |
CN (1) | CN111587437B (zh) |
BR (1) | BR112020014184A2 (zh) |
WO (1) | WO2019137137A1 (zh) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11935281B2 (en) * | 2010-06-07 | 2024-03-19 | Affectiva, Inc. | Vehicular in-cabin facial tracking using machine learning |
US10187343B2 (en) * | 2014-12-18 | 2019-01-22 | Facebook, Inc. | Location data for defining places and traffic |
US10222932B2 (en) | 2015-07-15 | 2019-03-05 | Fyusion, Inc. | Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations |
US10147211B2 (en) | 2015-07-15 | 2018-12-04 | Fyusion, Inc. | Artificially rendering images using viewpoint interpolation and extrapolation |
US11095869B2 (en) | 2015-09-22 | 2021-08-17 | Fyusion, Inc. | System and method for generating combined embedded multi-view interactive digital media representations |
US10242474B2 (en) | 2015-07-15 | 2019-03-26 | Fyusion, Inc. | Artificially rendering images using viewpoint interpolation and extrapolation |
US11783864B2 (en) | 2015-09-22 | 2023-10-10 | Fyusion, Inc. | Integration of audio into a multi-view interactive digital media representation |
US10437879B2 (en) | 2017-01-18 | 2019-10-08 | Fyusion, Inc. | Visual search using multi-view interactive digital media representations |
US10313651B2 (en) | 2017-05-22 | 2019-06-04 | Fyusion, Inc. | Snapshots at predefined intervals or angles |
US11069147B2 (en) | 2017-06-26 | 2021-07-20 | Fyusion, Inc. | Modification of multi-view interactive digital media representation |
EP3651114B1 (en) * | 2017-07-04 | 2022-06-08 | Nec Corporation | Analysis device, analysis method, and program |
EP3493116B1 (en) | 2017-12-04 | 2023-05-10 | Aptiv Technologies Limited | System and method for generating a confidence value for at least one state in the interior of a vehicle |
US10628667B2 (en) | 2018-01-11 | 2020-04-21 | Futurewei Technologies, Inc. | Activity recognition method using videotubes |
CN108537151A (zh) * | 2018-03-27 | 2018-09-14 | 上海小蚁科技有限公司 | 一种非极大值抑制运算装置及系统 |
US10592747B2 (en) * | 2018-04-26 | 2020-03-17 | Fyusion, Inc. | Method and apparatus for 3-D auto tagging |
US10706584B1 (en) * | 2018-05-18 | 2020-07-07 | Facebook Technologies, Llc | Hand tracking using a passive camera system |
US11482045B1 (en) | 2018-06-28 | 2022-10-25 | Amazon Technologies, Inc. | Associating events with actors using digital imagery and machine learning |
GB2577732B (en) * | 2018-10-04 | 2022-02-23 | Advanced Risc Mach Ltd | Processing data in a convolutional neural network |
US10922573B2 (en) * | 2018-10-22 | 2021-02-16 | Future Health Works Ltd. | Computer based object detection within a video or image |
TWI681343B (zh) * | 2018-12-14 | 2020-01-01 | 瑞昱半導體股份有限公司 | 物件追蹤系統、物件追蹤方法與非暫態電腦可讀取媒體 |
GB2582775B (en) * | 2019-04-02 | 2022-04-06 | Jaguar Land Rover Ltd | Attention level determination |
KR20210009458A (ko) * | 2019-07-16 | 2021-01-27 | 삼성전자주식회사 | 객체 검출 방법 및 객체 검출 장치 |
EP3796209A1 (en) * | 2019-09-17 | 2021-03-24 | Aptiv Technologies Limited | Method and system for determining an activity of an occupant of a vehicle |
US11043003B2 (en) | 2019-11-18 | 2021-06-22 | Waymo Llc | Interacted object detection neural network |
CN112292689B (zh) * | 2019-12-23 | 2024-07-19 | 商汤国际私人有限公司 | 样本图像的获取方法、装置和电子设备 |
SG10201913056VA (en) * | 2019-12-23 | 2021-04-29 | Sensetime Int Pte Ltd | Method and apparatus for obtaining sample images, and electronic device |
JP2022522551A (ja) | 2020-02-03 | 2022-04-20 | ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド | 画像処理方法及び装置、電子機器並びに記憶媒体 |
CN111310616B (zh) * | 2020-02-03 | 2023-11-28 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
US11222200B2 (en) | 2020-02-13 | 2022-01-11 | Tencent America LLC | Video-based 3D hand pose and mesh estimation based on temporal-aware self-supervised learning |
US20230103060A1 (en) * | 2020-03-13 | 2023-03-30 | Google Llc | Context-based speaker counter for a speaker diarization system |
CN111652114B (zh) * | 2020-05-29 | 2023-08-25 | 深圳市商汤科技有限公司 | 一种对象检测方法、装置、电子设备及存储介质 |
JP7494033B2 (ja) | 2020-07-07 | 2024-06-03 | 株式会社日立製作所 | アクティビティ検出装置、アクティビティ検出システム及びアクティビティ検出方法 |
US11842363B2 (en) * | 2020-07-16 | 2023-12-12 | Mehmet Yigit GUNEY | Method, system, and apparatus for organizing competing user content |
US11636694B2 (en) * | 2020-09-10 | 2023-04-25 | Qualcomm Incorporated | Video-based activity recognition |
US11514605B2 (en) * | 2020-09-29 | 2022-11-29 | International Business Machines Corporation | Computer automated interactive activity recognition based on keypoint detection |
DE102020129164A1 (de) * | 2020-11-05 | 2022-05-05 | Gestigon Gmbh | Verfahren und vorrichtung zur unterscheidung von verschiedenen konfigurationszuständen eines objekts auf der grundlage einer bildlichen darstellung des objekts |
DE102020214910A1 (de) * | 2020-11-27 | 2022-06-02 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zur Überwachung eines Fahrzeuginnenraums |
WO2022120669A1 (zh) * | 2020-12-10 | 2022-06-16 | 深圳市优必选科技股份有限公司 | 手势识别方法、计算机设备及存储介质 |
US11930302B2 (en) * | 2021-02-09 | 2024-03-12 | Ford Global Technologies, Llc | Enhanced sensor operation |
US11636663B2 (en) * | 2021-02-19 | 2023-04-25 | Microsoft Technology Licensing, Llc | Localizing relevant objects in multi-object images |
JP7548059B2 (ja) | 2021-02-25 | 2024-09-10 | 富士通株式会社 | 設定方法、設定プログラム及び設定装置 |
CN112966655A (zh) * | 2021-03-29 | 2021-06-15 | 高新兴科技集团股份有限公司 | 一种办公区玩手机行为识别方法、装置和计算设备 |
CN113033458B (zh) | 2021-04-09 | 2023-11-07 | 京东科技控股股份有限公司 | 动作识别方法和装置 |
WO2022232875A1 (en) * | 2021-05-05 | 2022-11-10 | Seeing Machines Limited | Systems and methods for detection of mobile device use by a vehicle driver |
KR20220170732A (ko) * | 2021-06-22 | 2022-12-30 | 센스타임 인터내셔널 피티이. 리미티드. | 인체와 손의 관련 방법, 장치, 기기 및 저장 매체 |
US20230004745A1 (en) * | 2021-06-30 | 2023-01-05 | Fotonation Limited | Vehicle occupant monitoring system and method |
CN113553938B (zh) * | 2021-07-19 | 2024-05-14 | 黑芝麻智能科技(上海)有限公司 | 安全带检测方法、装置、计算机设备和存储介质 |
WO2023058155A1 (ja) * | 2021-10-06 | 2023-04-13 | 日本電気株式会社 | 運転手監視装置、運転手監視方法及びプログラム |
KR102683444B1 (ko) * | 2021-12-16 | 2024-07-10 | 숭실대학교 산학협력단 | Cgam을 이용한 스포츠 동영상 내 활동 인식 장치 및 그 방법 |
US20230281749A1 (en) * | 2021-12-28 | 2023-09-07 | Viqi, Inc. | Efficient multi-dimensional storage of very large dense, sparse and semi-sparse image datasets with machine learning |
US20230206615A1 (en) * | 2021-12-29 | 2023-06-29 | Halliburton Energy Services, Inc. | Systems and methods to determine an activity associated with an object of interest |
CN114333067B (zh) * | 2021-12-31 | 2024-05-07 | 深圳市联洲国际技术有限公司 | 行为活动的检测方法、检测装置与计算机可读存储介质 |
CN114863336A (zh) * | 2022-05-06 | 2022-08-05 | 咪咕文化科技有限公司 | 一种信息确定方法、装置及电子设备 |
WO2024113364A1 (en) * | 2022-12-02 | 2024-06-06 | Harman International Industries, Incorporated | Method, apparatus and computer-readable storage medium for determining roi of a scene |
WO2024132157A1 (en) * | 2022-12-22 | 2024-06-27 | Brainlab Ag | Virtual camera sources showing regions of interest of devices |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8615108B1 (en) * | 2013-01-30 | 2013-12-24 | Imimtek, Inc. | Systems and methods for initializing motion tracking of human hands |
JP2015201174A (ja) * | 2014-04-03 | 2015-11-12 | 富士ゼロックス株式会社 | ユーザ認証方法、システム、及びプログラム |
CN105612473A (zh) * | 2013-09-12 | 2016-05-25 | 三菱电机株式会社 | 操作输入装置及方法以及程序和记录介质 |
CN105807912A (zh) * | 2015-01-21 | 2016-07-27 | 现代自动车株式会社 | 车辆、用于控制该车辆的方法和其中的手势识别装置 |
JP2017505477A (ja) * | 2013-12-30 | 2017-02-16 | アルカテル−ルーセント | ドライバ行動監視システムおよびドライバ行動監視のための方法 |
KR20170088319A (ko) * | 2017-07-19 | 2017-08-01 | 현대자동차주식회사 | 차량, 차량의 제어 방법 및 차량에 포함되는 동작 인식 장치 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5809437A (en) | 1995-06-07 | 1998-09-15 | Automotive Technologies International, Inc. | On board vehicle diagnostic module using pattern recognition |
US5454043A (en) | 1993-07-30 | 1995-09-26 | Mitsubishi Electric Research Laboratories, Inc. | Dynamic and static hand gesture recognition through low-level image analysis |
ATE232621T1 (de) | 1996-12-20 | 2003-02-15 | Hitachi Europ Ltd | Verfahren und system zur erkennung von handgesten |
JP3414683B2 (ja) | 1999-11-16 | 2003-06-09 | 株式会社国際電気通信基礎技術研究所 | 対象物の表面動き測定方法および装置、ならびに当該方法を実現するようコンピュータを動作させるためのプログラムを記憶したコンピュータ読取可能な記録媒体 |
CN1200397C (zh) | 2000-11-14 | 2005-05-04 | 三星电子株式会社 | 对象行为建模方法 |
AU2004233453B2 (en) | 2003-12-03 | 2011-02-17 | Envysion, Inc. | Recording a sequence of images |
KR20060070280A (ko) | 2004-12-20 | 2006-06-23 | 한국전자통신연구원 | 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법 |
JP5028751B2 (ja) | 2005-06-09 | 2012-09-19 | ソニー株式会社 | 行動認識装置 |
US8189866B1 (en) | 2008-08-26 | 2012-05-29 | Adobe Systems Incorporated | Human-action recognition in images and videos |
KR20100065480A (ko) | 2008-12-08 | 2010-06-17 | 한국전자통신연구원 | 일상행위 인식 시스템 |
JP5118620B2 (ja) | 2008-12-24 | 2013-01-16 | 日立Geニュークリア・エナジー株式会社 | 動態認識装置、動態認識システムおよび動態認識方法 |
KR101640077B1 (ko) | 2009-06-05 | 2016-07-15 | 삼성전자주식회사 | 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법 |
US8345984B2 (en) | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
US20120200486A1 (en) | 2011-02-09 | 2012-08-09 | Texas Instruments Incorporated | Infrared gesture recognition device and method |
US9278255B2 (en) | 2012-12-09 | 2016-03-08 | Arris Enterprises, Inc. | System and method for activity recognition |
US9701258B2 (en) * | 2013-07-09 | 2017-07-11 | Magna Electronics Inc. | Vehicle vision system |
US9501693B2 (en) | 2013-10-09 | 2016-11-22 | Honda Motor Co., Ltd. | Real-time multiclass driver action recognition using random forests |
KR101537936B1 (ko) * | 2013-11-08 | 2015-07-21 | 현대자동차주식회사 | 차량 및 그 제어방법 |
US9296421B2 (en) * | 2014-03-06 | 2016-03-29 | Ford Global Technologies, Llc | Vehicle target identification using human gesture recognition |
US9354711B2 (en) | 2014-09-30 | 2016-05-31 | Xerox Corporation | Dynamic hand-gesture-based region of interest localization |
US9778750B2 (en) | 2014-09-30 | 2017-10-03 | Xerox Corporation | Hand-gesture-based region of interest localization |
WO2017164835A1 (en) * | 2016-03-21 | 2017-09-28 | Ford Global Technologies, Llc | Virtual vehicle occupant rendering |
US10043084B2 (en) * | 2016-05-27 | 2018-08-07 | Toyota Jidosha Kabushiki Kaisha | Hierarchical context-aware extremity detection |
DE112016006922T5 (de) | 2016-06-02 | 2019-02-14 | Intel Corporation | Erkennung einer Aktivität in einer Videobildfolge anhand von Tiefeninformationen |
US10628667B2 (en) | 2018-01-11 | 2020-04-21 | Futurewei Technologies, Inc. | Activity recognition method using videotubes |
-
2018
- 2018-01-11 US US15/867,932 patent/US10628667B2/en active Active
- 2018-12-11 JP JP2020538568A patent/JP7110359B2/ja active Active
- 2018-12-11 CN CN201880085888.XA patent/CN111587437B/zh active Active
- 2018-12-11 BR BR112020014184-4A patent/BR112020014184A2/pt unknown
- 2018-12-11 WO PCT/CN2018/120397 patent/WO2019137137A1/en unknown
- 2018-12-11 KR KR1020207022695A patent/KR102433216B1/ko active IP Right Grant
- 2018-12-11 EP EP18899053.5A patent/EP3732617B1/en active Active
-
2020
- 2020-03-18 US US16/822,923 patent/US11100316B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8615108B1 (en) * | 2013-01-30 | 2013-12-24 | Imimtek, Inc. | Systems and methods for initializing motion tracking of human hands |
CN105612473A (zh) * | 2013-09-12 | 2016-05-25 | 三菱电机株式会社 | 操作输入装置及方法以及程序和记录介质 |
JP2017505477A (ja) * | 2013-12-30 | 2017-02-16 | アルカテル−ルーセント | ドライバ行動監視システムおよびドライバ行動監視のための方法 |
JP2015201174A (ja) * | 2014-04-03 | 2015-11-12 | 富士ゼロックス株式会社 | ユーザ認証方法、システム、及びプログラム |
CN105807912A (zh) * | 2015-01-21 | 2016-07-27 | 现代自动车株式会社 | 车辆、用于控制该车辆的方法和其中的手势识别装置 |
KR20170088319A (ko) * | 2017-07-19 | 2017-08-01 | 현대자동차주식회사 | 차량, 차량의 제어 방법 및 차량에 포함되는 동작 인식 장치 |
Non-Patent Citations (4)
Title |
---|
Amrit Sarkar.《Human Activity and Behavior Recognition in Videos. A Brief Review》.2014,第II章. * |
EROL 等.Vision一based hand pose estimation: A review.《Computer Vision and Image Understanding》.2007,第108卷(第1-2期),第52-73页. * |
Flores-Vázquez C, Aranda J.Human activity recognition from object interaction in domestic scenarios.《2016 IEEE Ecuador Technical Chapters Meeting (ETCM). IEEE》.2016,第1-6页. * |
Ohn-Bar E, Trivedi M M.Beyond just keeping hands on the wheel: Towards visual interpretation of driver hand motion patterns.17th International IEEE Conference on Intelligent Transportation Systems (ITSC)》.2014,第145-1250页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111587437A (zh) | 2020-08-25 |
JP2021510225A (ja) | 2021-04-15 |
KR20200106526A (ko) | 2020-09-14 |
US20200320287A1 (en) | 2020-10-08 |
US20190213406A1 (en) | 2019-07-11 |
US11100316B2 (en) | 2021-08-24 |
KR102433216B1 (ko) | 2022-08-18 |
EP3732617A1 (en) | 2020-11-04 |
BR112020014184A2 (pt) | 2020-12-01 |
WO2019137137A1 (en) | 2019-07-18 |
EP3732617B1 (en) | 2023-07-12 |
US10628667B2 (en) | 2020-04-21 |
JP7110359B2 (ja) | 2022-08-01 |
EP3732617A4 (en) | 2021-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111587437B (zh) | 使用视频管的活动识别方法 | |
US10235565B2 (en) | System and methodologies for occupant monitoring utilizing digital neuromorphic (NM) data and fovea tracking | |
Eraqi et al. | Driver distraction identification with an ensemble of convolutional neural networks | |
US11776083B2 (en) | Passenger-related item loss mitigation | |
KR102470680B1 (ko) | 동작 인식, 운전 동작 분석 방법 및 장치, 전자 기기 | |
Wang et al. | A survey on driver behavior analysis from in-vehicle cameras | |
EP3709134B1 (en) | Tool and method for annotating a human pose in 3d point cloud data | |
US11308722B2 (en) | Method and system for determining an activity of an occupant of a vehicle | |
WO2019136449A2 (en) | Error correction in convolutional neural networks | |
Yan et al. | Driving posture recognition by joint application of motion history image and pyramid histogram of oriented gradients | |
CN112200129A (zh) | 一种基于深度学习的三维目标检测方法、装置及终端设备 | |
CN108875456B (zh) | 目标检测方法、目标检测装置和计算机可读存储介质 | |
CN112487844A (zh) | 手势识别方法、电子设备、计算机可读存储介质和芯片 | |
Jegham et al. | Deep learning-based hard spatial attention for driver in-vehicle action monitoring | |
Juang et al. | Stereo-camera-based object detection using fuzzy color histograms and a fuzzy classifier with depth and shape estimations | |
US12033347B2 (en) | Image processing system for extending a range for image analytics | |
Jacob et al. | Iot based driver assist system with application of opencv and python | |
Ulhaq et al. | Deep actionlet proposals for driver's behavior monitoring | |
CN107871019B (zh) | 人车关联搜索方法及装置 | |
Jeong et al. | Comparison of Fall Detection Systems Based on YOLOPose and Long Short-Term Memory | |
US20230125410A1 (en) | Information processing apparatus, image capturing system, method, and non-transitory computer-readable storage medium | |
Kartik et al. | Human Detection using ROI of an Image | |
Pillay | Gaussian mixture model classifiers for detection and tracking in UAV video streams. | |
Panigrahi et al. | An Improved Vgg-16 Deep Learning Framework Induced Feature Extraction Framework for Moving Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |