JP2018538631A - シーン内のオブジェクトのアクションを検出する方法及びシステム - Google Patents
シーン内のオブジェクトのアクションを検出する方法及びシステム Download PDFInfo
- Publication number
- JP2018538631A JP2018538631A JP2018532185A JP2018532185A JP2018538631A JP 2018538631 A JP2018538631 A JP 2018538631A JP 2018532185 A JP2018532185 A JP 2018532185A JP 2018532185 A JP2018532185 A JP 2018532185A JP 2018538631 A JP2018538631 A JP 2018538631A
- Authority
- JP
- Japan
- Prior art keywords
- video
- trajectory
- cropped
- action
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000000306 recurrent effect Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 29
- 230000003287 optical effect Effects 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 230000007774 longterm Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 9
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006886 spatial memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
Description
リカレントニューラルネットワーク(RNN)は、データ駆動方式で長期シーケンス情報を学習することができるため、RNNは、アクション認識に用いられてきた。長期短期記憶(LSTM)分類器が後続する3D畳み込みニューラルネットワークを、アクション認識に用いることができる。LSTMは、アクション認識のために、2ストリームネットワークを上回って性能を改善することができる。3次元人体関節座標のシーケンスからアクションを認識するのに、双方向LSTMが用いられてきた。
本方法の様々な実施形態に含まれる特徴は、以下を含む。
ロケーションに無関係の独立した(クロップされた)外観及び運動ストリームのためにオブジェクトの周りのバウンディングボックスを提供するために、任意のオブジェクト追跡方法が用いられ得る。好ましい実施形態では、状態ベースのトラッカーを用いて、ビデオ内のアクションを空間的にロケーション特定する。追跡されるバウンディングボックスのサイズを固定したままにして、バウンディングボックスの位置を更新し、バウンディングボックス内のオプティカルフローの大きさが最大になるようにする。オプティカルフローの大きさが閾値を超える場合、バウンディングボックスのロケーションが、オプティカルフローの大きさを最大にするロケーションに一致するように更新される。そうでない場合、オブジェクトは、低速に動いているか又は全く動いていない。オブジェクトが過度に低速に動いているか又は動いていないとき、前のチャンクからのバウンディングボックスが用いられる。バウンディングボックスのロケーションは、チャンク101(例えば、6つの画像)が処理され、チャンクに対するフロー及び外観特徴が決定され、バウンディングボックスがチャンク内の全ての画像にわたって静止していることを確実にした後に初めて更新される。
オプティカルフローを深層ネットワークへの入力としてスタックすることが、運動ベースのネットワークをトレーニングするための従来の慣例であった。しかしながら、スタックオプティカルフローにおいて、シーン内の特定の移動点、例えば、指の先端に対応する運動ベクトルは、ピクセルロケーションを1つの画像から次の画像に変更する。このため、畳み込みニューラルネットワークは、アクションを分類するために、オプティカルフローの空間的動きを学習する必要がある。完全な運動情報は、より高次の層においてネットワークによって学習され得るが、これにはより多くのパラメーター及びデータを学習する必要がある。
ここで、リカレントニューラルネットワーク(RNN)及び長期短期記憶(LSTM)セルの簡単な説明を与える。入力シーケンスx=(x1,...,xT)を所与として、RNNは、隠れ状態表現h=(h1,...,hT)を用い、RNNが入力xを出力シーケンスy=(y1,...,yT)にマッピングできるようにする。
上記で説明したように、方法のトレーニング段階は、リカレントニューラルネットワーク(RNN)のトレーニングを含む。試験段階、すなわち、アクション検出において、オブジェクトのアクションを検出するために、既にトレーニングされたRNNが用いられる。
Claims (22)
- シーン内のオブジェクトのアクションを検出する方法であって、
前記シーンのビデオを画像のシーケンスとして取得するステップであって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、ステップと、
前記ビデオ内の前記オブジェクトを追跡するステップであって、前記ビデオの各オブジェクト及び各チャンクについて、
前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定するステップと、
前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成するステップと、
前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すステップと、
を更に含む、ステップと、
を含み、前記ステップはプロセッサにおいて実行される、方法。 - 前記RNNは、畳み込みニューラルネットワーク層及び1つ以上のリカレントニューラルネットワーク層を含む、請求項1に記載の方法。
- 前記畳み込みニューラルネットワーク層は、前記クロップされた軌道及び前記クロップされた画像、並びに前記ビデオの全空間範囲を有する軌道及び画像を含む複数のストリームに対し動作する、請求項2に記載の方法。
- 前記リカレントニューラルネットワーク層は、長期短期記憶(LSTM)セルを含む、請求項2に記載の方法。
- 前記リカレントニューラルネットワーク層は、双方向長期短期記憶(LSTM)セルを含む、請求項3に記載の方法。
- 前記軌道は、ピクセル軌道として符号化される、請求項1に記載の方法。
- 前記軌道は、スタックオプティカルフローとして符号化される、請求項1に記載の方法。
- 前記追跡するステップは、前記バウンディングボックス内部の前記スタックオプティカルフローの大きさを最大にするバウンディングボックスを選択するステップを含む、請求項1に記載の方法。
- 前記追跡するステップは、
前記バウンディングボックス内部の前記スタックオプティカルフローの大きさが閾値よりも大きい場合、前記バウンディングボックスのロケーションを更新するステップを更に含む、請求項8に記載の方法。 - 前記ピクセルの前記軌道は、前記チャンク内の中央画像から、K個の前の画像及びK個の後続の画像の各々まで決定される、請求項1に記載の方法。
- Kは3である、請求項10に記載の方法。
- 各ピクセルの運動パターンが1×2K畳み込みカーネルを用いて決定される、請求項10に記載の方法。
- 前記方法は、前記ビデオにおける精密アクション検出のために用いられる、請求項1に記載の方法。
- 前記方法は、前記検出するステップの前に前記RNNをトレーニングするステップを含む、請求項1に記載の方法。
- 前記RNNは、以前にトレーニングされている、請求項1に記載の方法。
- 前記検出するステップは、時間的アクション検出を含む、請求項1に記載の方法。
- 前記検出するステップは、時空間的アクション検出を含む、請求項1に記載の方法。
- 前記ビデオは、画像のシーケンス以外の何らかの形態で初期に取得され、画像のシーケンスに変換される、請求項1に記載の方法。
- 前記オブジェクトは、人物である、請求項1に記載の方法。
- 前記オブジェクトは、ロボットである、請求項1に記載の方法。
- 前記オブジェクトは、産業ロボットである、請求項1に記載の方法。
- シーン内のオブジェクトのアクションを検出するシステムであって、
前記シーンのビデオを画像のシーケンスとして取得する手段であって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、手段と、
前記ビデオ内の前記オブジェクトを追跡するように構成されるプロセッサであって、前記ビデオの各オブジェクト及び各チャンクについて、前記プロセッサは、前記ビデオの各オブジェクト及び各チャンクについて、前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定し、前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成し、前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すように更に構成される、プロセッサと、
を備える、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/058,264 US10242266B2 (en) | 2016-03-02 | 2016-03-02 | Method and system for detecting actions in videos |
US15/058,264 | 2016-03-02 | ||
PCT/JP2017/003079 WO2017150032A1 (en) | 2016-03-02 | 2017-01-24 | Method and system for detecting actions of object in scene |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018538631A true JP2018538631A (ja) | 2018-12-27 |
JP6625220B2 JP6625220B2 (ja) | 2019-12-25 |
Family
ID=58228512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018532185A Active JP6625220B2 (ja) | 2016-03-02 | 2017-01-24 | シーン内のオブジェクトのアクションを検出する方法及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10242266B2 (ja) |
JP (1) | JP6625220B2 (ja) |
WO (1) | WO2017150032A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514605B2 (en) | 2020-09-29 | 2022-11-29 | International Business Machines Corporation | Computer automated interactive activity recognition based on keypoint detection |
Families Citing this family (125)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769453B2 (en) * | 2017-05-16 | 2020-09-08 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling operation of vehicle |
CN110443351B (zh) | 2014-11-14 | 2021-05-28 | 谷歌有限责任公司 | 生成映像的自然语言描述 |
US10013640B1 (en) * | 2015-12-21 | 2018-07-03 | Google Llc | Object recognition from videos using recurrent neural networks |
US9928875B2 (en) * | 2016-03-22 | 2018-03-27 | Nec Corporation | Efficient video annotation with optical flow based estimation and suggestion |
US10007867B2 (en) * | 2016-04-04 | 2018-06-26 | Google Llc | Systems and methods for identifying entities directly from imagery |
US20170294091A1 (en) * | 2016-04-06 | 2017-10-12 | Nec Laboratories America, Inc. | Video-based action recognition security system |
US11055537B2 (en) * | 2016-04-26 | 2021-07-06 | Disney Enterprises, Inc. | Systems and methods for determining actions depicted in media contents based on attention weights of media content frames |
WO2017201023A1 (en) * | 2016-05-20 | 2017-11-23 | Google Llc | Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment |
US10019629B2 (en) * | 2016-05-31 | 2018-07-10 | Microsoft Technology Licensing, Llc | Skeleton-based action detection using recurrent neural network |
WO2017212459A1 (en) * | 2016-06-09 | 2017-12-14 | Sentient Technologies (Barbados) Limited | Content embedding using deep metric learning algorithms |
CN106210808B (zh) * | 2016-08-08 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 媒体信息投放方法、终端、服务器及系统 |
US10902343B2 (en) * | 2016-09-30 | 2021-01-26 | Disney Enterprises, Inc. | Deep-learning motion priors for full-body performance capture in real-time |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
US10366292B2 (en) * | 2016-11-03 | 2019-07-30 | Nec Corporation | Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction |
US10467274B1 (en) | 2016-11-10 | 2019-11-05 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
US10176388B1 (en) | 2016-11-14 | 2019-01-08 | Zoox, Inc. | Spatial and temporal information for semantic segmentation |
US10855550B2 (en) * | 2016-11-16 | 2020-12-01 | Cisco Technology, Inc. | Network traffic prediction using long short term memory neural networks |
EP3340103A1 (en) * | 2016-12-21 | 2018-06-27 | Axis AB | Method for identifying events in a motion video |
US11423548B2 (en) * | 2017-01-06 | 2022-08-23 | Board Of Regents, The University Of Texas System | Segmenting generic foreground objects in images and videos |
US10803323B2 (en) * | 2017-05-16 | 2020-10-13 | Samsung Electronics Co., Ltd. | Electronic device and method of detecting driving event of vehicle |
US11126854B1 (en) * | 2017-06-02 | 2021-09-21 | Amazon Technologies, Inc. | Efficient identification of objects in videos using motion information |
US10853951B2 (en) | 2017-08-04 | 2020-12-01 | Intel Corporation | Methods and apparatus to generate temporal representations for action recognition systems |
US10592786B2 (en) * | 2017-08-14 | 2020-03-17 | Huawei Technologies Co., Ltd. | Generating labeled data for deep object tracking |
US10755144B2 (en) | 2017-09-05 | 2020-08-25 | Cognizant Technology Solutions U.S. Corporation | Automated and unsupervised generation of real-world training data |
US10755142B2 (en) | 2017-09-05 | 2020-08-25 | Cognizant Technology Solutions U.S. Corporation | Automated and unsupervised generation of real-world training data |
US10452954B2 (en) * | 2017-09-14 | 2019-10-22 | Google Llc | Object detection and representation in images |
CN107644217B (zh) * | 2017-09-29 | 2020-06-26 | 中国科学技术大学 | 基于卷积神经网络和相关滤波器的目标跟踪方法 |
CN107807971A (zh) * | 2017-10-18 | 2018-03-16 | 北京信息科技大学 | 一种自动图像语义描述方法 |
US10762637B2 (en) * | 2017-10-27 | 2020-09-01 | Siemens Healthcare Gmbh | Vascular segmentation using fully convolutional and recurrent neural networks |
CN107679522B (zh) * | 2017-10-31 | 2020-10-13 | 内江师范学院 | 基于多流lstm的动作识别方法 |
CN107909014A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于深度学习的视频理解方法 |
DE102017219673A1 (de) * | 2017-11-06 | 2019-05-09 | Robert Bosch Gmbh | Verfahren, Vorrichtung und Computerprogram zur Detektion eines Objektes |
CN108205655B (zh) * | 2017-11-07 | 2020-08-11 | 北京市商汤科技开发有限公司 | 一种关键点预测方法、装置、电子设备及存储介质 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN107993255B (zh) * | 2017-11-29 | 2021-11-19 | 哈尔滨工程大学 | 一种基于卷积神经网络的稠密光流估计方法 |
EP3495988A1 (en) | 2017-12-05 | 2019-06-12 | Aptiv Technologies Limited | Method of processing image data in a connectionist network |
CN108062561B (zh) * | 2017-12-05 | 2020-01-14 | 华南理工大学 | 一种基于长短时记忆网络模型的短时数据流预测方法 |
US10373332B2 (en) | 2017-12-08 | 2019-08-06 | Nvidia Corporation | Systems and methods for dynamic facial analysis using a recurrent neural network |
CN107909602A (zh) * | 2017-12-08 | 2018-04-13 | 长沙全度影像科技有限公司 | 一种基于深度学习的运动边界估计方法 |
CN107967695B (zh) * | 2017-12-25 | 2018-11-13 | 北京航空航天大学 | 一种基于深度光流和形态学方法的运动目标检测方法 |
CN108288032B (zh) * | 2018-01-08 | 2020-11-10 | 深圳市腾讯计算机系统有限公司 | 动作特征获取方法、装置及存储介质 |
CN108154191B (zh) * | 2018-01-12 | 2021-08-10 | 北京经舆典网络科技有限公司 | 文档图像的识别方法和系统 |
CN108279692B (zh) * | 2018-01-17 | 2020-12-22 | 哈尔滨工程大学 | 一种基于lstm-rnn的uuv动态规划方法 |
CN110084356B (zh) * | 2018-01-26 | 2021-02-02 | 赛灵思电子科技(北京)有限公司 | 一种深度神经网络数据处理方法和装置 |
US10296102B1 (en) * | 2018-01-31 | 2019-05-21 | Piccolo Labs Inc. | Gesture and motion recognition using skeleton tracking |
US10241588B1 (en) | 2018-01-31 | 2019-03-26 | Piccolo Labs Inc. | System for localizing devices in a room |
CN108446594B (zh) * | 2018-02-11 | 2021-08-06 | 四川省北青数据技术有限公司 | 基于动作识别的应急反应能力测评方法 |
US10304208B1 (en) | 2018-02-12 | 2019-05-28 | Avodah Labs, Inc. | Automated gesture identification using neural networks |
US10346198B1 (en) | 2018-02-12 | 2019-07-09 | Avodah Labs, Inc. | Data processing architecture for improved data flow |
WO2019157344A1 (en) | 2018-02-12 | 2019-08-15 | Avodah Labs, Inc. | Real-time gesture recognition method and apparatus |
US10489639B2 (en) | 2018-02-12 | 2019-11-26 | Avodah Labs, Inc. | Automated sign language translation and communication using multiple input and output modalities |
US10289903B1 (en) | 2018-02-12 | 2019-05-14 | Avodah Labs, Inc. | Visual sign language translation training device and method |
CN108537818B (zh) * | 2018-03-07 | 2020-08-14 | 上海交通大学 | 基于集群压力lstm的人群轨迹预测方法 |
GB201804400D0 (en) * | 2018-03-20 | 2018-05-02 | Univ Of Essex Enterprise Limited | Localisation, mapping and network training |
CN108257158B (zh) * | 2018-03-27 | 2021-11-30 | 福州大学 | 一种基于循环神经网络的目标预测与跟踪方法 |
CN108573496B (zh) * | 2018-03-29 | 2020-08-11 | 淮阴工学院 | 基于lstm网络和深度增强学习的多目标跟踪方法 |
EP3547211B1 (en) | 2018-03-30 | 2021-11-17 | Naver Corporation | Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn |
CN108520530B (zh) * | 2018-04-12 | 2020-01-14 | 厦门大学 | 基于长短时记忆网络的目标跟踪方法 |
US11967127B2 (en) * | 2018-04-18 | 2024-04-23 | Sony Interactive Entertainment Inc. | Context embedding for capturing image dynamics |
EP3561726A1 (en) | 2018-04-23 | 2019-10-30 | Aptiv Technologies Limited | A device and a method for processing data sequences using a convolutional neural network |
EP3561727A1 (en) * | 2018-04-23 | 2019-10-30 | Aptiv Technologies Limited | A device and a method for extracting dynamic information on a scene using a convolutional neural network |
CN108647625A (zh) * | 2018-05-04 | 2018-10-12 | 北京邮电大学 | 一种表情识别方法及装置 |
CN108710904A (zh) * | 2018-05-10 | 2018-10-26 | 上海交通大学 | 基于递归神经网络的图像匹配方法及系统 |
US11521044B2 (en) | 2018-05-17 | 2022-12-06 | International Business Machines Corporation | Action detection by exploiting motion in receptive fields |
CN108710865B (zh) * | 2018-05-28 | 2022-04-22 | 电子科技大学 | 一种基于神经网络的司机异常行为检测方法 |
CN108921042B (zh) * | 2018-06-06 | 2019-08-23 | 四川大学 | 一种基于深度学习的人脸序列表情识别方法 |
US20190392591A1 (en) * | 2018-06-25 | 2019-12-26 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting moving object using optical flow prediction |
CN109033971A (zh) * | 2018-06-27 | 2018-12-18 | 中国石油大学(华东) | 一种基于残差网络思想的高效行人重识别方法 |
CN108960139A (zh) * | 2018-07-03 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 人物行为识别方法、装置及存储介质 |
CN109104620B (zh) * | 2018-07-26 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种短视频推荐方法、装置和可读介质 |
CN109190479A (zh) * | 2018-08-04 | 2019-01-11 | 台州学院 | 一种基于混合深度学习的视频序列表情识别方法 |
EP3608844A1 (en) * | 2018-08-10 | 2020-02-12 | Naver Corporation | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn |
KR102235745B1 (ko) * | 2018-08-10 | 2021-04-02 | 네이버 주식회사 | 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법 |
CN109064507B (zh) * | 2018-08-21 | 2021-06-22 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
US11017296B2 (en) | 2018-08-22 | 2021-05-25 | Ford Global Technologies, Llc | Classifying time series image data |
CN109272493A (zh) * | 2018-08-28 | 2019-01-25 | 中国人民解放军火箭军工程大学 | 一种基于递归卷积神经网络的单目视觉里程计方法 |
CN109344960A (zh) * | 2018-09-01 | 2019-02-15 | 哈尔滨工程大学 | 一种防止数据信息丢失的dgru神经网络及其预测模型建立方法 |
CN109255351B (zh) * | 2018-09-05 | 2020-08-18 | 华南理工大学 | 基于三维卷积神经网络的边界框回归方法、系统、设备及介质 |
CN109325430B (zh) * | 2018-09-11 | 2021-08-20 | 苏州飞搜科技有限公司 | 实时行为识别方法及系统 |
CN109559332B (zh) * | 2018-10-31 | 2021-06-18 | 浙江工业大学 | 一种结合双向LSTM和Itracker的视线跟踪方法 |
CN109447164B (zh) | 2018-11-01 | 2019-07-19 | 厦门大学 | 一种运动行为模式分类方法、系统以及装置 |
CN111209774B (zh) * | 2018-11-21 | 2024-03-26 | 杭州海康威视数字技术股份有限公司 | 目标行为识别及显示方法、装置、设备、可读介质 |
US20200196028A1 (en) * | 2018-12-13 | 2020-06-18 | FocusVision Worldwide, Inc. | Video highlight recognition and extraction tool |
CN109714322B (zh) * | 2018-12-14 | 2020-04-24 | 中国科学院声学研究所 | 一种检测网络异常流量的方法及其系统 |
CN109858514A (zh) * | 2018-12-20 | 2019-06-07 | 北京以萨技术股份有限公司 | 一种基于神经网络的视频行为分类方法 |
CN109753897B (zh) * | 2018-12-21 | 2022-05-27 | 西北工业大学 | 基于记忆单元强化-时序动态学习的行为识别方法 |
CN109726672B (zh) * | 2018-12-27 | 2020-08-04 | 哈尔滨工业大学 | 一种基于人体骨架序列和卷积神经网络的摔倒检测方法 |
CN109807887B (zh) * | 2019-01-18 | 2020-09-15 | 上海交通大学 | 基于深度神经网络的柔性臂智能感知与控制方法和系统 |
CN109784295B (zh) * | 2019-01-25 | 2020-12-25 | 佳都新太科技股份有限公司 | 视频流特征识别方法、装置、设备及存储介质 |
USD912139S1 (en) | 2019-01-28 | 2021-03-02 | Avodah, Inc. | Integrated dual display sensor |
CN109886206B (zh) * | 2019-02-21 | 2021-09-14 | 电子科技大学中山学院 | 一种三维物体识别方法及设备 |
US11094070B2 (en) * | 2019-04-23 | 2021-08-17 | Jiangnan University | Visual multi-object tracking based on multi-Bernoulli filter with YOLOv3 detection |
CN110084831B (zh) * | 2019-04-23 | 2021-08-24 | 江南大学 | 基于YOLOv3多伯努利视频多目标检测跟踪方法 |
CN110135352B (zh) * | 2019-05-16 | 2023-05-12 | 南京砺剑光电技术研究院有限公司 | 一种基于深度学习的战术动作评估方法 |
CN110110812B (zh) * | 2019-05-20 | 2022-08-19 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型构建方法 |
EP3792821A1 (en) * | 2019-09-11 | 2021-03-17 | Naver Corporation | Action recognition using implicit pose representations |
CN110223316B (zh) * | 2019-06-13 | 2021-01-29 | 哈尔滨工业大学 | 基于循环回归网络的快速目标跟踪方法 |
CN110414326B (zh) * | 2019-06-18 | 2024-05-07 | 平安科技(深圳)有限公司 | 样本数据处理方法、装置、计算机装置及存储介质 |
RU196355U1 (ru) * | 2019-06-26 | 2020-02-26 | Леся Николаевна Анищенко | Устройство для автоматизированного распознавания поведения с целью выявления агрессии |
US11151412B2 (en) * | 2019-07-01 | 2021-10-19 | Everseen Limited | Systems and methods for determining actions performed by objects within images |
CN110334654A (zh) * | 2019-07-08 | 2019-10-15 | 北京地平线机器人技术研发有限公司 | 视频预测方法和装置、视频预测模型的训练方法及车辆 |
CN110390294B (zh) * | 2019-07-19 | 2021-03-09 | 中国人民解放军国防科技大学 | 一种基于双向长短期记忆神经网络的目标跟踪方法 |
CN110555387B (zh) * | 2019-08-02 | 2022-07-19 | 华侨大学 | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 |
CN110472729B (zh) * | 2019-08-02 | 2020-05-26 | 中南大学 | 基于综合cnn-lstm的岩爆状态预测方法 |
US11113822B2 (en) | 2019-08-14 | 2021-09-07 | International Business Machines Corporation | Moving object identification from a video stream |
CN111027448B (zh) * | 2019-12-04 | 2023-05-05 | 成都考拉悠然科技有限公司 | 一种基于时域推理图的视频行为类别识别方法 |
CN111008596B (zh) * | 2019-12-05 | 2020-12-25 | 西安科技大学 | 基于特征期望子图校正分类的异常视频清洗方法 |
CN111027461B (zh) * | 2019-12-06 | 2022-04-29 | 长安大学 | 基于多维单步lstm网络的车辆轨迹预测方法 |
CN111046808B (zh) * | 2019-12-13 | 2024-03-22 | 江苏大学 | 采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法 |
CN111079655B (zh) * | 2019-12-18 | 2022-08-16 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
CN111191630B (zh) * | 2020-01-07 | 2024-01-09 | 中国传媒大学 | 适用于智能交互观演场景的演艺动作识别方法 |
WO2021201774A1 (en) * | 2020-03-31 | 2021-10-07 | Agency For Science, Technology And Research | Method and system for determining a trajectory of a target object |
CN111680543B (zh) * | 2020-04-23 | 2023-08-29 | 北京迈格威科技有限公司 | 动作识别方法、装置及电子设备 |
CN111428066B (zh) * | 2020-04-24 | 2021-08-24 | 南京图格医疗科技有限公司 | 一种基于卷积神经网络的病变图像的分类和分割方法 |
CN111524132B (zh) * | 2020-05-09 | 2022-10-18 | 腾讯医疗健康(深圳)有限公司 | 识别待检测样本中异常细胞的方法、装置和存储介质 |
CN111709301B (zh) * | 2020-05-21 | 2023-04-28 | 哈尔滨工业大学 | 一种冰壶球运动状态估计方法 |
CN111915573A (zh) * | 2020-07-14 | 2020-11-10 | 武汉楚精灵医疗科技有限公司 | 一种基于时序特征学习的消化内镜下病灶跟踪方法 |
EP3968281A1 (en) * | 2020-09-09 | 2022-03-16 | Tata Consultancy Services Limited | System and method for forecasting location of target in monocular first person view |
CN112347879B (zh) * | 2020-10-27 | 2021-06-29 | 中国搜索信息科技股份有限公司 | 一种针对视频运动目标的主题挖掘及行为分析方法 |
CN112633327B (zh) * | 2020-12-02 | 2023-06-30 | 西安电子科技大学 | 分阶段金属表面缺陷检测方法、系统、介质、设备及应用 |
CN112733595A (zh) * | 2020-12-02 | 2021-04-30 | 国网湖南省电力有限公司 | 一种基于时间分段网络的视频动作识别方法及存储介质 |
US20220351392A1 (en) * | 2021-04-30 | 2022-11-03 | Nvidia Corporation | Object tracking using optical flow |
US20220361834A1 (en) * | 2021-05-12 | 2022-11-17 | Angiowave Imaging, Llc | Motion-compensated wavelet angiography |
CN114022827B (zh) * | 2022-01-05 | 2022-06-17 | 阿里巴巴(中国)有限公司 | 产线作业管理与视频处理方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4481663B2 (ja) | 2004-01-15 | 2010-06-16 | キヤノン株式会社 | 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム |
US8345984B2 (en) | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
CN103593661B (zh) | 2013-11-27 | 2016-09-28 | 天津大学 | 一种基于排序方法的人体动作识别方法 |
US10706310B2 (en) * | 2016-02-29 | 2020-07-07 | Nec Corporation | Video camera device and system using recursive neural networks for future event prediction |
-
2016
- 2016-03-02 US US15/058,264 patent/US10242266B2/en active Active
-
2017
- 2017-01-24 JP JP2018532185A patent/JP6625220B2/ja active Active
- 2017-01-24 WO PCT/JP2017/003079 patent/WO2017150032A1/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514605B2 (en) | 2020-09-29 | 2022-11-29 | International Business Machines Corporation | Computer automated interactive activity recognition based on keypoint detection |
Also Published As
Publication number | Publication date |
---|---|
US20170255832A1 (en) | 2017-09-07 |
JP6625220B2 (ja) | 2019-12-25 |
US10242266B2 (en) | 2019-03-26 |
WO2017150032A1 (en) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6625220B2 (ja) | シーン内のオブジェクトのアクションを検出する方法及びシステム | |
JP6877630B2 (ja) | アクションを検出する方法及びシステム | |
Girdhar et al. | Detect-and-track: Efficient pose estimation in videos | |
Bera et al. | Realtime anomaly detection using trajectory-level crowd behavior learning | |
Li et al. | Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans | |
JP6018674B2 (ja) | 被写体再識別のためのシステム及び方法 | |
Ramanan et al. | Tracking people by learning their appearance | |
Kelley et al. | Understanding human intentions via hidden markov models in autonomous mobile robots | |
JP4208898B2 (ja) | 対象物追跡装置および対象物追跡方法 | |
Xu et al. | Deepmot: A differentiable framework for training multiple object trackers | |
CN110765906A (zh) | 一种基于关键点的行人检测算法 | |
US20100316298A1 (en) | Multiple view face tracking | |
Li et al. | Robust multiperson detection and tracking for mobile service and social robots | |
Manikandan et al. | Human object detection and tracking using background subtraction for sports applications | |
Hammam et al. | Real-time multiple spatiotemporal action localization and prediction approach using deep learning | |
CN113869274B (zh) | 基于城市管理的无人机智能跟踪监控方法及系统 | |
Pervaiz et al. | Artificial neural network for human object interaction system over Aerial images | |
Serpush et al. | Complex human action recognition in live videos using hybrid FR-DL method | |
JP7488674B2 (ja) | 物体認識装置、物体認識方法及び物体認識プログラム | |
Nikpour et al. | Deep reinforcement learning in human activity recognition: A survey | |
Mishra et al. | Automated detection of fighting styles using localized action features | |
Gonzàlez et al. | Hermes: A research project on human sequence evaluation | |
Lao et al. | Fast detection and modeling of human-body parts from monocular video | |
Ji et al. | Visual-based view-invariant human motion analysis: A review | |
Chuang et al. | Human Body Part Segmentation of Interacting People by Learning Blob Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180618 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6625220 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |