JP2017191501A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2017191501A
JP2017191501A JP2016081276A JP2016081276A JP2017191501A JP 2017191501 A JP2017191501 A JP 2017191501A JP 2016081276 A JP2016081276 A JP 2016081276A JP 2016081276 A JP2016081276 A JP 2016081276A JP 2017191501 A JP2017191501 A JP 2017191501A
Authority
JP
Japan
Prior art keywords
image
information processing
processing apparatus
images
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016081276A
Other languages
English (en)
Inventor
矢野 光太郎
Kotaro Yano
光太郎 矢野
一郎 梅田
Ichiro Umeda
一郎 梅田
睦凌 郭
Muling Guo
睦凌 郭
内山 寛之
Hiroyuki Uchiyama
寛之 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016081276A priority Critical patent/JP2017191501A/ja
Priority to PCT/JP2017/014555 priority patent/WO2017179511A1/en
Priority to US16/092,875 priority patent/US10872262B2/en
Publication of JP2017191501A publication Critical patent/JP2017191501A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)
  • Gyroscopes (AREA)

Abstract

【課題】多様な変形を行うオブジェクトの検出精度をより向上させることを目的とする。【解決手段】オブジェクトを含む入力画像を取得し、前記入力画像から、背景画像を用いて変化する領域の画像である変化領域画像を抽出し、前記入力画像と前記変化領域画像とを結合して畳込み型ニューラルネットワークを利用することにより複数の特徴画像を抽出し、前記複数の特徴画像からオブジェクトの位置を検出する。【選択図】図3

Description

本発明は、撮像装置により撮影された画像等からオブジェクトの位置を検出する情報処理装置、情報処理方法及びプログラムに関する。
近年、セキュリティのために店舗内への監視カメラの設置が急速に普及している。そのようなカメラを使って、映像を取得するだけでなく、映像中の人物を検出することによって混雑度を計測したり、人物の動線を解析したりすることで、店舗のマーケティング調査に使用することも提案されている。更に、マーケティング用途においては、カメラに映った人物の動作を解析し、解析した人物の動作から店舗に置かれた商品を手に取る等の興味行動を分析したいという要望もある。
このような映像解析を行うためには、画像中の人物の位置、又は、人物の頭、手等の部位や関節位置を自動的に検出する技術が求められる。画像から人物を検出する代表的な方法としては非特許文献1で提案されている方法が知られている。非特許文献1に記載の方法では画像から勾配方向ヒストグラム特徴を抽出し、抽出した特徴が人物か否かをサポートベクターマシンによって識別する。また、非特許文献2には、変形パーツモデルによって非特許文献1に記載の方法を拡張し、人物の部位の位置を推定する方法が提案されている。
一方、画像認識を行う技術として深層ニューラルネットワークが近年注目を浴びている。非特許文献3や非特許文献4には、画像から畳込み型ニューラルネットワークで特徴を抽出し、抽出した特徴から人物や車、鳥等の様々なオブジェクトを識別し、検出する方法が提案されている。また、非特許文献5や非特許文献6には、人物の関節位置を検出する方法が提案されている。このような深層ニューラルネットワークによる方法は、非特許文献1や非特許文献2で提案されている方法に比べ、特徴抽出に多様性を持たせている点に特徴がある。更に、特徴抽出と抽出した特徴の識別とを機械学習によって全体最適化できるので認識精度が飛躍的に向上するという効果がある。
Dalal and Triggs. Histograms of oriented gradients for human detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、 2005 Felzenszwalb、 McAllester、 and Ramanan. A Discriminatively Trained、 Multiscale、 Deformable Part Model. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、 2008 Girshick、 Donahue、 Darrell、 and Malik. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、 2014 He、 Zhang、 Ren、 and Sun. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. Computer Vision - ECCV 2014 Toshev and Szegedy. DeepPose: Human Pose Estimation via Deep Neural Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、 2014 Fan、 Zheng、 Lin、 and Wang. Combining local appearance and holistic view: Dual−source deep neural networks for human pose estimation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、 2015 鷲見、関、波部、物体検出−背景と検出対象のモデリング−.情報処理学会研究報告(CVIM)、 Vol.2005、No.88 Krizhevsky、 Sutskever、 and Hinton. ImageNet classificationwith deep convolutional neural networks. Advances in Neural Information Processing Systems 25 (NIPS 2012) Ren、 He、 Girshick、 and Sun. Faster R−CNN: Towards Real−Time Object Detection with Region Proposal Networks. arXiv:1506.01497、 2015 Li、 Carreira、 and Sminchisescu. Object Recognition as Ranking Holistic Figure−Ground Hypotheses. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、 2010
しかしながら、深層ニューラルネットワークによる画像認識を利用したオブジェクトの検出においても人物のような関節によって多様な変形を行うオブジェクトを検出するのは困難である。オブジェクトの変形によって画像に写る背景部分が変化し、その影響を受けるためである。特に背景が複雑な場合には検出精度が大幅に劣化する。
本発明は、多様な変形を行うオブジェクトの検出精度をより向上させることを目的とする。
本発明の情報処理装置は、オブジェクトを含む入力画像を取得する取得手段と、前記入力画像から、変化する領域の画像である変化領域画像を抽出する第1の抽出手段と、前記入力画像と前記変化領域画像とから複数の特徴画像を抽出する第2の抽出手段と、前記複数の特徴画像から前記オブジェクトの位置を検出する検出手段と、を有することを特徴とする。
本発明によれば、多様な変形を行うオブジェクトの検出精度をより向上させることができる。
情報処理装置のハードウェア構成の一例を示すブロック図である。 情報処理装置の機能構成の一例等を示すブロック図である。 情報処理装置の処理の一例を示すフローチャートである。 畳込み型ニューラルネットワークの処理を説明する図である。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
以下、本発明に係る実施形態について図面に基づいて説明する。図1は、本実施形態に係る情報処理装置101のハードウェア構成を示すブロック図である。情報処理装置101は、演算処理装置1、記憶装置2、入力装置3、出力装置4を含む。なお、情報処理装置101に含まれる各装置は、互いに通信可能に構成され、バス等により接続されている。
演算処理装置1は、情報処理装置101の動作をコントロールし、記憶装置2に格納されたプログラムの実行等を行う。また、演算処理装置1は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等で構成される。記憶装置2は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、演算処理装置1により実行されるプログラム、長時間記憶しなくてはならないデータ等を記憶する。本実施形態では、演算処理装置1が、記憶装置2に格納されたプログラムの手順に従って処理を行うことによって、図2で後述する情報処理装置101の機能及び図3で後述するフローチャートに係る処理が実現される。記憶装置2は、また、情報処理装置101が処理対象とする画像、検出結果等を記憶する。
入力装置3は、マウス、キーボード、タッチパネルデバイス、ボタン等の入力装置であり、各種の指示の入力に利用される。また、入力装置3は、カメラ等の撮影画像を情報処理装置101に入力する通信手段を含む。出力装置4は、液晶パネル、外部モニタ等であり、各種の情報の出力に利用される。
なお、情報処理装置101のハードウェア構成は、図1の構成に限られるものではない。例えば、情報処理装置101は、各種の装置間で通信を行うためのI/O装置を備えてもよい。例えば、I/O装置は、メモリーカード、USBケーブル等の入出力部、有線、無線等による送受信部等である。
図2は、本実施形態に係る情報処理装置101の機能構成の一例等を示すブロック図である。情報処理装置101は、取得部110、領域抽出部120、結合部130、特徴抽出部140、検出部150を含む。情報処理装置101の処理及び機能は、図2に示す機能構成要素110〜150により実現される。
本実施形態では、カメラ100により視野を固定して撮影された画像から認識対象として、監視対象の人物の頭部、手等の各部位を検出する処理について説明する。
カメラ100は、監視対象の人物を撮影する。
取得部110は、カメラ100から、カメラ100により撮影された画像を、不図示の通信手段を介して取得する。取得部110は、取得した画像を記憶装置2に記憶する。
領域抽出部120は、取得部110により取得された画像から変化する領域を変化領域画像として抽出する。
結合部130は、取得部110により取得された画像と領域抽出部120により抽出された変化領域画像とを結合する。
特徴抽出部140は、結合部130により結合された結果の画像から複数の特徴画像を抽出する。
検出部150は、特徴抽出部140により抽出された複数の特徴画像から認識対象とするオブジェクト(本実施形態では人物)の部位の位置を検出する。図1に示すように、検出部150は、候補抽出部160、特徴統合部170、位置推定部180を含む。
候補抽出部160は、特徴抽出部140により抽出された複数の特徴画像から人物の存在する領域である人物領域の候補となる領域の位置を抽出する。
特徴統合部170は、候補抽出部160により抽出された領域位置に基づいて、特徴抽出部140により抽出された複数の特徴画像から特徴を抽出して、抽出した特徴を統合し、統合特徴とする。
位置推定部180は、特徴統合部170により抽出された統合特徴から人物の部位の位置を推定する。
以下、本実施形態の処理について図3を用いて説明する。
図3は、本実施形態の情報処理装置101の処理の一例を示すフローチャートである。
S301において、取得部110は、カメラ100により撮影された画像をカメラ100から取得する。S301で取得される画像は、例えば、RGB各8ビットで表現されるビットマップデータである。カメラ100は、視野が固定されており、時系列上で設定された間隔で連続する画像である時系列画像を撮影する。視野が固定されているため、カメラ100により撮影される画像の背景は、類似したものとなる。取得部110は、カメラ100から略同一視野の時系列画像を取得する。取得部110は、取得した画像を設定された倍率で縮小処理をしてもよい。そうすることで、取得部110は、情報処理装置101が処理する演算量を削減する事ができる。取得部110は、取得した画像を記憶装置2に記憶する。
S302において、領域抽出部120は、S301で取得された画像から変化する領域を変化領域画像として抽出する。本実施形態では、領域抽出部120は、背景差分法を用いて変化領域画像を抽出する。領域抽出部120は、予め、カメラ100により撮影された、人物の写っていない背景のみの画像を複数フレーム分取得し、取得した画像から背景画像を作成しておく。領域抽出部120は、取得部110により取得された画像と予め作成された背景画像とを画素毎に比較し、画素毎の差分に基づいて、その画素が変化領域の画素か否かを決定する。
例えば、領域抽出部120は、取得部110により取得された画像と予め作成された背景画像との画素毎の差分の絶対値が設定された閾値以上であれば、その画素が変化領域の画素であると決定し、閾値未満であれば、変化領域の画素ではないと決定する。そして、領域抽出部120は、例えば、変化領域の画素の画素値を1、それ以外の画素の画素値を0とした2値画像を変化領域画像として抽出する。また、領域抽出部120は、変化領域の画素とそれ以外の画素とを区別した結果をもとに背景画像を更新してもよい。領域抽出部120は、以上のような背景差分による変化領域画像の抽出手法の他、非特許文献7に記載されている各種手法を用いてもよい。
S303において、結合部130は、S301で取得部110により取得された画像と、S302で領域抽出部120により抽出された変化領域画像と、を結合する。より具体的には、結合部130は、S301で取得されたRGBの3チャネルを有する画像に、変化領域画像の内容の1チャネルを含ませ、計4チャネルの画像を生成する。結合した画像はRGB各8ビットおよび変化領域画像1ビットの4つのチャネルからなり、各チャネルの画素は撮影したシーンの同一対象に対応付けられる。
S304において、特徴抽出部140は、S303で結合されて得られた画像から複数の特徴画像を抽出する。特徴抽出部140は、畳込み型ニューラルネットワークを利用して、特徴画像を抽出する。特徴抽出部140は、例えば、非特許文献8で提案されているニューラルネットワークの入力側の5層の畳込み型ニューラルネットワークを利用して特徴画像を抽出する。畳込み型ニューラルネットワークは、非特許文献3や非特許文献4にも開示されているものである。但し、本実施形態では、特徴抽出部140は、非特許文献4と同様、入力画像の大きさに合わせてニューラルネットワークによる処理を行い、特徴画像をプーリング(処理結果を記憶装置に一時的に記憶)する。更に、従来の方法とは異なり、本実施形態では、特徴抽出部140は、S303で得られた4つのチャネルからなる画像を畳込み型ニューラルネットワークの第1層へ入力するので、入力チャネル数は4となる。特徴抽出部140は、演算処理装置1のGPUを用いて、畳込み型ニューラルネットワークの処理を実行する。
図4は、畳込み型ニューラルネットワークの処理を説明する図である。図4を用いて、本実施形態のS304で特徴抽出部140が利用する畳込み型ニューラルネットワークの処理を説明する。図4中の、R、G、Bの夫々は、取得部110によりS301で取得された画像のR、G、Bチャネルの画像である。Oは、領域抽出部120によりS302で抽出された変化領域画像である。特徴抽出部140は、畳込み型ニューラルネットワークの入力側の第1層では、以下の処理を行う。即ち、特徴抽出部140は、R、G、B、Oの夫々の画像から同位置の部分領域Wに対して設定されたフィルタを用いて畳込み演算を行い、畳込み演算の出力の特徴画像における部分領域Wに対応する点Pの位置の値を得る。設定されたフィルタとして、例えば、サイズ11×11のカーネル係数等が用いられる。図4において、Nは出力チャネル数を表し、例えば、96チャネルである。畳込み演算のカーネル係数は、入出力チャネル毎に異なるものが用いられる。これらのカーネル係数は、予め学習により得られる。特徴抽出部140は、畳込み型ニューラルネットワークの第2層以降の入力として、前の層からの出力を用いる。
本実施形態では、特徴抽出部140は、畳込み型ニューラルネットワークに、S303で結合された画像の第4のチャネルとして、変化領域画素が1、それ以外の画素が0の変化領域画像を入力する。そのため、変化領域以外の画素から抽出した特徴に対して抑制効果を期待でき、特徴抽出部140は、背景部分の画像の影響を抑制することができる。本実施形態では、畳込み型ニューラルネットワークは、256チャネルの特徴画像を出力する。
S305において、候補抽出部160は、S304で特徴抽出部140により抽出された複数の特徴画像から人物領域の候補となる領域の位置を抽出する。候補抽出部160は、例えば、非特許文献9で提案されているRPN(Region Proposal Networks)を利用する。RPNは、識別スコアとして、物体らしさ、及び、非物体らしさを出力する手法であるが、本実施形態では、人らしさ、及び、非人らしさのスコアを出力するように予め学習されている。また、RPNは、3スケール×3アスペクト比の矩形座標を回帰によって出力するが、本実施形態では、人物立位の領域候補の出力を想定して縦長1:2のアスペクト比のみ出力するようにする。そして、候補抽出部160は、RPNにより人らしさ、及び、非人らしさの識別スコアを出力し、人らしさの識別スコアが設定された閾値以上となる領域候補の矩形座標を候補領域位置として記憶装置2に記憶する。
S306において、特徴統合部170は、S305で候補抽出部160により抽出された候補領域位置の夫々について、S304で特徴抽出部140により抽出された複数の特徴画像から特徴を抽出して統合する。特徴統合部170は、例えば、非特許文献4で提案されている空間ピラミッドプーリング(Spatial Pyramid Pooling)によって特徴の統合処理を行う。特徴統合部170は、S304で特徴抽出部140により抽出された256チャネルの特徴画像から、S305で候補抽出部160により抽出された領域位置における特徴を抽出する。そして、特徴統合部170は、抽出した特徴に基づいて、チャネル毎に、16分割した領域の特徴、4分割した領域の特徴、全領域の特徴の総和を求める。そして、特徴統合部170は、求めた値を成分とする特徴ベクトルを統合した特徴である統合特徴として出力する。
S307において、位置推定部180は、S306で特徴統合部170により抽出された統合特徴から、人物の部位の位置を推定する。本実施形態では、位置推定部180は、例えば、人物の頭部、左右の肩、肘、及び、手首の中心7か所の位置を推定する。位置推定部180は、例えば、非特許文献6で提案されているニューラルネットワークの第6層から第8層のような全結合ニューラルネットワークに対して、S306で特徴統合部170により抽出された統合特徴を入力する。位置推定部180は、夫々4096次元の特徴を出力する2層の全結合ニューラルネットワークと、出力した4096次元の特徴から位置座標を回帰するニューラルネットワークとを検出対象の人物の部位毎に設ける。また、位置推定部180は、部位毎に夫々の部位らしさを表すヒートマップを出力するようなニューラルネットワークを設ける。出力されるヒートマップは、検出対象のオブジェクトの出現確率を可視化したものとみなすことができるものであり、オブジェクトの出現確率を示す出現確率画像の一例である。位置推定部180が利用する全結合ニューラルネットワークは、大量の人物画像とその人物画像中の人物の部位の位置座標を用いて予め学習されている。
位置推定部180は、ヒートマップの出力が所定値以上の位置を、人物の部位毎の検出結果として出力する。例えば、位置推定部180は、出力装置4の表示部等に検出された部位を囲む矩形を画像に重畳して表示する。また、位置推定部180は、出力装置4の表示部等に、検出された部位の座標の値を表示してもよい。また、位置推定部180は、ヒートマップを示す出現確率画像を生成し、出力装置4の表示部等に出力してもよい。
また、位置推定部180は、検出したオブジェクトの各部位の領域を全て含む領域をオブジェクトの位置として検出することもできる。位置推定部180は、検出したオブジェクトの位置を出力してもよい。例えば、位置推定部180は、出力装置4の表示部等に検出されたオブジェクトを囲む矩形を画像に重畳して表示する。
S305での候補抽出部160によるRPNを用いた処理、及び、S307での位置推定部180による全結合ニューラルネットワークを用いた処理は、演算処理装置1のGPUにより実行される。
演算処理装置1は、S305で候補抽出部160により抽出された候補領域位置の夫々について、S306、及び、S307の処理を繰り返し行う。また、演算処理装置1は、S301で取得部110により取得された画像のそれぞれについて、S302〜S307の処理を繰り返し行う。そして、演算処理装置1は、入力装置3を介したユーザの操作に基づいて、処理終了の入力を受けた場合、図3の処理を終了する。
以上、本実施形態の処理により、情報処理装置101は、カメラ100により撮影された画像と変化領域画像とからニューラルネットワークで特徴抽出することにより、背景部分の画像の影響を抑制することが可能となる。そのため、情報処理装置101は、例え、背景が複雑な状況であっても高精度にオブジェクトの検出が可能となる。即ち、情報処理装置101は、オブジェクトの検出精度を向上させることができる。また、情報処理装置101は、特徴抽出部140により抽出された複数の特徴画像からオブジェクトの複数の部位の位置を検出することができる。
なお、本実施形態において、情報処理装置101は、変化領域画像の代わりに背景画像をニューラルネットワークに入力しても背景部分の画像の影響を抑制する効果は期待できる。しかしながら、特徴抽出部140が利用するニューラルネットワークへの入力チャネル数が変化領域画像に比べて多くなってしまうので特徴抽出部140の構成が複雑になってしまう。
本実施形態では、領域抽出部120は、S302で背景差分方式を用いて変化領域画像を抽出するようにしたが、背景差分法以外の方法で変化領域画像を抽出してもよい。例えば、領域抽出部120は、フレーム間差分を用いて変化領域画像を抽出してもよい。即ち、領域抽出部120は、S301で取得された時系列上で連続する複数の画像に含まれる画像同士を比較して、その差分の画像を変化領域画像として抽出するようにしてもよい。
また、領域抽出部120は、変化領域画像ではなく、画像中の人物領域を抽出し、人物領域画素を1、それ以外の画素を0とした2値画像を抽出するようにしてもよい。そして、特徴抽出部140は、カメラ100からの画像と人物領域の2値画像とから特徴画像を抽出することとしてもよい。これにより、情報処理装置101は、検出対象のオブジェクトである人物が動かない場合でも、検出精度への背景の影響を低減させることができる。人物領域を抽出する方法には、非特許文献10に提案されているような、画像をスーパーピクセルと呼ばれる類似画素に分割し、スーパーピクセル毎に特徴を抽出して人物領域か否かを識別する方法がある。また、人物領域を抽出する他の方法には、カメラ100と視野が重複する別のカメラで並行して人物を撮影し、撮影された2つの画像から距離画像を求め、距離画像から人物領域を抽出する方法等がある。
本実施形態では、情報処理装置101は、画像から検出対象のオブジェクトである人物の部位の位置を検出する処理について説明した。しかし、情報処理装置101は、人物以外の動物等のオブジェクトの部位を検出することもできる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置101の機能構成の一部又は全てをハードウェアとして情報処理装置101に実装してもよい。
100 カメラ
101 情報処理装置
1 演算処理装置

Claims (13)

  1. オブジェクトを含む入力画像を取得する取得手段と、
    前記入力画像から、変化する領域の画像である変化領域画像を抽出する第1の抽出手段と、
    前記入力画像と前記変化領域画像とから複数の特徴画像を抽出する第2の抽出手段と、
    前記複数の特徴画像から前記オブジェクトの位置を検出する検出手段と、
    を有することを特徴とする情報処理装置。
  2. 前記第1の抽出手段は、前記入力画像と背景画像とに基づいて、前記変化領域画像を抽出することを特徴とする請求項1記載の情報処理装置。
  3. 前記取得手段は、前記入力画像として時系列上で連続する複数の画像を取得し、
    前記第1の抽出手段は、前記時系列上で連続する複数の画像に基づいて、前記変化領域画像を抽出することを特徴とする請求項1記載の情報処理装置。
  4. 前記時系列上で連続する複数の画像は、固定された視野で撮影された画像であることを特徴とする請求項3記載の情報処理装置。
  5. 前記第1の抽出手段は、前記時系列上で連続する画像同士の差分に基づいて、前記変化領域画像を抽出することを特徴とする請求項3又は4記載の情報処理装置。
  6. 前記第2の抽出手段は、前記入力画像と前記変化領域画像とを結合して畳込み型ニューラルネットワークを利用することによって前記複数の特徴画像を抽出することを特徴とする請求項1乃至5の何れか1項記載の情報処理装置。
  7. 前記検出手段は、前記入力画像の中で前記オブジェクトが存在する領域の候補である候補領域を抽出し、前記候補領域に基づいて、前記複数の特徴画像の特徴を統合し、前記統合した特徴に基づいて、前記オブジェクトの位置を検出することを特徴とする請求項1乃至6の何れか1項記載の情報処理装置。
  8. 前記検出手段は、前記複数の特徴画像から、全結合ニューラルネットワークを利用して前記オブジェクトを検出することを特徴とする請求項1乃至7の何れか1項記載の情報処理装置。
  9. 前記検出手段は、前記オブジェクトの複数の部位の位置を検出することを特徴とする請求項1乃至8の何れか1項記載の情報処理装置。
  10. 前記検出手段による検出結果を出力する出力手段を更に有することを特徴とする請求項1乃至9の何れか1項記載の情報処理装置。
  11. 前記検出手段は、更に、前記複数の特徴画像から前記オブジェクトの出現確率を示す出現確率画像を生成し、
    前記出力手段は、更に、前記検出手段により生成された出現確率画像を出力することを特徴とする請求項10記載の情報処理装置。
  12. 情報処理装置が実行する情報処理方法であって、
    オブジェクトを含む入力画像を取得し、
    前記入力画像から、変化する領域の画像である変化領域画像を抽出し、
    前記入力画像と前記変化領域画像とから複数の特徴画像を抽出し、
    前記複数の特徴画像からオブジェクトの位置を検出することを特徴とする情報処理方法。
  13. コンピュータに、
    オブジェクトを含む入力画像を取得する取得ステップと、
    前記入力画像から、変化する領域の画像である変化領域画像を抽出する第1の抽出ステップと、
    前記入力画像と前記変化領域画像とから複数の特徴画像を抽出する第2の抽出ステップと、
    前記複数の特徴画像から前記オブジェクトの位置を検出する検出ステップと、
    を実行させるためのプログラム。
JP2016081276A 2016-04-14 2016-04-14 情報処理装置、情報処理方法及びプログラム Pending JP2017191501A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016081276A JP2017191501A (ja) 2016-04-14 2016-04-14 情報処理装置、情報処理方法及びプログラム
PCT/JP2017/014555 WO2017179511A1 (en) 2016-04-14 2017-04-07 Information processing apparatus and information processing method for detecting position of object
US16/092,875 US10872262B2 (en) 2016-04-14 2017-04-07 Information processing apparatus and information processing method for detecting position of object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016081276A JP2017191501A (ja) 2016-04-14 2016-04-14 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2017191501A true JP2017191501A (ja) 2017-10-19

Family

ID=58664760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016081276A Pending JP2017191501A (ja) 2016-04-14 2016-04-14 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US10872262B2 (ja)
JP (1) JP2017191501A (ja)
WO (1) WO2017179511A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019150649A1 (ja) * 2018-01-30 2019-08-08 株式会社日立国際電気 画像処理装置および画像処理方法
CN110298904A (zh) * 2019-07-01 2019-10-01 联想(北京)有限公司 一种信息处理方法及装置
JP2019220174A (ja) * 2018-06-21 2019-12-26 キヤノン株式会社 人工ニューラルネットワークを用いた画像処理
JP2020038619A (ja) * 2018-09-03 2020-03-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 物体検出方法、装置及び記憶媒体
JP2020064637A (ja) * 2018-10-18 2020-04-23 エヌエイチエヌ コーポレーション 畳み込みニューラルネットワークを介してイメージ偽変造を探知するシステム、方法、及びこれを利用して無補正探知サービスを提供する方法
WO2020137092A1 (ja) 2018-12-27 2020-07-02 富士フイルム株式会社 領域特定装置、方法およびプログラム
WO2020174770A1 (ja) 2019-02-28 2020-09-03 富士フイルム株式会社 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器
KR20210015225A (ko) * 2019-08-01 2021-02-10 금오공과대학교 산학협력단 학습을 위한 영상데이터 생성방법 및 장치
WO2021192682A1 (ja) * 2020-03-24 2021-09-30 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP2022532238A (ja) * 2019-05-17 2022-07-13 マジック リープ, インコーポレイテッド ニューラルネットワークおよび角検出器を使用した角検出のための方法および装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7077093B2 (ja) * 2018-03-26 2022-05-30 三菱重工業株式会社 領域検出装置、領域検出方法及びそのプログラム
WO2019215907A1 (ja) * 2018-05-11 2019-11-14 オリンパス株式会社 演算処理装置
CN109299688B (zh) * 2018-09-19 2021-10-01 厦门大学 基于可变形快速卷积神经网络的舰船检测方法
US10922573B2 (en) * 2018-10-22 2021-02-16 Future Health Works Ltd. Computer based object detection within a video or image
CN111192367B (zh) * 2020-01-03 2021-01-15 北京中科深智科技有限公司 一种可变形对象碰撞变形实时模拟方法及装置
US11575837B2 (en) * 2020-04-27 2023-02-07 Canon Kabushiki Kaisha Method, apparatus and computer program for generating and displaying a heatmap based on video surveillance data
TWI813181B (zh) * 2021-09-09 2023-08-21 大陸商星宸科技股份有限公司 影像處理電路與影像處理方法
JP2023064439A (ja) * 2021-10-26 2023-05-11 富士通株式会社 学習プログラム、学習方法および情報処理装置
CN115622275B (zh) * 2022-12-12 2023-03-28 之江实验室 一种基于无线能量传输的胶囊内窥镜及成像方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011100175A (ja) * 2009-11-04 2011-05-19 Nippon Hoso Kyokai <Nhk> 人物行動判定装置及びそのプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819016A (en) * 1993-10-05 1998-10-06 Kabushiki Kaisha Toshiba Apparatus for modeling three dimensional information
US7227526B2 (en) * 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
JP3647376B2 (ja) * 2001-01-31 2005-05-11 キヤノン株式会社 視点位置検出装置、視点位置検出方法及び立体画像表示システム
EP2955662B1 (en) * 2003-07-18 2018-04-04 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
JP5380789B2 (ja) * 2007-06-06 2014-01-08 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP5615088B2 (ja) * 2010-08-18 2014-10-29 キヤノン株式会社 画像処理装置及びその方法、プログラム、並びに撮像装置
US9445713B2 (en) * 2013-09-05 2016-09-20 Cellscope, Inc. Apparatuses and methods for mobile imaging and analysis
JP6341650B2 (ja) 2013-11-20 2018-06-13 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US9158985B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Method and apparatus for processing image of scene of interest
JP2016006626A (ja) * 2014-05-28 2016-01-14 株式会社デンソーアイティーラボラトリ 検知装置、検知プログラム、検知方法、車両、パラメータ算出装置、パラメータ算出プログラムおよびパラメータ算出方法
US10186026B2 (en) * 2015-11-17 2019-01-22 Kla-Tencor Corp. Single image detection
US10181185B2 (en) * 2016-01-11 2019-01-15 Kla-Tencor Corp. Image based specimen process control
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
US9805255B2 (en) * 2016-01-29 2017-10-31 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
US10467459B2 (en) * 2016-09-09 2019-11-05 Microsoft Technology Licensing, Llc Object detection based on joint feature extraction
US10402688B2 (en) * 2016-12-07 2019-09-03 Kla-Tencor Corporation Data augmentation for convolutional neural network-based defect inspection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011100175A (ja) * 2009-11-04 2011-05-19 Nippon Hoso Kyokai <Nhk> 人物行動判定装置及びそのプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARJUN JAIN,外3名, "MODEEP: A DEEP LEARNING FRAMEWORK USING MOTION FEATURES FOR HUMAN POSE ESTIMATION", [ONLINE], JPN7020001096, 28 September 2014 (2014-09-28), ISSN: 0004318101 *
ROSS GIRSHICK: ""Fast R-CNN"", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6020013966, 2015, pages 1440 - 1448, XP032866491, ISSN: 0004318102, DOI: 10.1109/ICCV.2015.169 *
XIAOCHUAN FAN, 外3名: ""Combining Local Appearance and Holistic View: Dual-Source Deep Neural Networks for Human Pose Esti", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6020013968, 2015, pages 1347 - 1355, XP032793588, ISSN: 0004318103, DOI: 10.1109/CVPR.2015.7298740 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019150649A1 (ja) * 2018-01-30 2020-12-17 株式会社日立国際電気 画像処理装置および画像処理方法
WO2019150649A1 (ja) * 2018-01-30 2019-08-08 株式会社日立国際電気 画像処理装置および画像処理方法
JP2019220174A (ja) * 2018-06-21 2019-12-26 キヤノン株式会社 人工ニューラルネットワークを用いた画像処理
JP2020038619A (ja) * 2018-09-03 2020-03-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 物体検出方法、装置及び記憶媒体
US11113836B2 (en) 2018-09-03 2021-09-07 Baidu Online Network Technology (Beijing) Co., Ltd. Object detection method, device, apparatus and computer-readable storage medium
US11861816B2 (en) 2018-10-18 2024-01-02 Nhn Cloud Corporation System and method for detecting image forgery through convolutional neural network and method for providing non-manipulation detection service using the same
JP2020064637A (ja) * 2018-10-18 2020-04-23 エヌエイチエヌ コーポレーション 畳み込みニューラルネットワークを介してイメージ偽変造を探知するシステム、方法、及びこれを利用して無補正探知サービスを提供する方法
WO2020137092A1 (ja) 2018-12-27 2020-07-02 富士フイルム株式会社 領域特定装置、方法およびプログラム
JPWO2020137092A1 (ja) * 2018-12-27 2021-09-30 富士フイルム株式会社 領域特定装置、方法およびプログラム
JP7105918B2 (ja) 2018-12-27 2022-07-25 富士フイルム株式会社 領域特定装置、方法およびプログラム
US12100155B2 (en) 2019-02-28 2024-09-24 Fujifilm Corporation Region specification apparatus, region specification method, region specification program, learning apparatus, learning method, learning program, and discriminator
WO2020174770A1 (ja) 2019-02-28 2020-09-03 富士フイルム株式会社 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器
JPWO2020174770A1 (ja) * 2019-02-28 2021-12-23 富士フイルム株式会社 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器
JP7130107B2 (ja) 2019-02-28 2022-09-02 富士フイルム株式会社 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器
JP7422785B2 (ja) 2019-05-17 2024-01-26 マジック リープ, インコーポレイテッド ニューラルネットワークおよび角検出器を使用した角検出のための方法および装置
US12007564B2 (en) 2019-05-17 2024-06-11 Magic Leap, Inc. Methods and apparatuses for corner detection using neural network and corner detector
JP2022532238A (ja) * 2019-05-17 2022-07-13 マジック リープ, インコーポレイテッド ニューラルネットワークおよび角検出器を使用した角検出のための方法および装置
CN110298904A (zh) * 2019-07-01 2019-10-01 联想(北京)有限公司 一种信息处理方法及装置
KR20210015225A (ko) * 2019-08-01 2021-02-10 금오공과대학교 산학협력단 학습을 위한 영상데이터 생성방법 및 장치
KR102281682B1 (ko) * 2019-08-01 2021-07-23 금오공과대학교 산학협력단 학습을 위한 영상데이터 생성방법 및 장치
WO2021192682A1 (ja) * 2020-03-24 2021-09-30 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
WO2017179511A1 (en) 2017-10-19
US10872262B2 (en) 2020-12-22
US20190205688A1 (en) 2019-07-04

Similar Documents

Publication Publication Date Title
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
Hu et al. Moving object detection and tracking from video captured by moving camera
JP6942488B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
CN102077250B (zh) 移动体检测方法及移动体检测装置
CN110796051B (zh) 基于货柜场景下的实时存取行为检测方法和系统
JP6590609B2 (ja) 画像解析装置及び画像解析方法
JP4894741B2 (ja) 情報処理装置および情報処理方法、プログラム、並びに記録媒体
CN102396001A (zh) 移动体检测装置以及移动体检测方法
US10803604B1 (en) Layered motion representation and extraction in monocular still camera videos
CN113348465B (zh) 图像中对象的关联性预测方法、装置、设备和存储介质
JP2013206458A (ja) 画像における外観及びコンテキストに基づく物体分類
Zhou et al. A study on attention-based LSTM for abnormal behavior recognition with variable pooling
JP7314959B2 (ja) 人物認証装置、制御方法、及びプログラム
Delibasoglu et al. Motion detection in moving camera videos using background modeling and FlowNet
Ramirez-Giraldo et al. Kernel based hand gesture recognition using kinect sensor
Cai et al. A target tracking method based on KCF for omnidirectional vision
Wang et al. Deep learning-based human activity analysis for aerial images
JP7253967B2 (ja) 物体対応付け装置、物体対応付けシステム、物体対応付け方法及びコンピュータプログラム
Arivazhagan Versatile loitering detection based on non-verbal cues using dense trajectory descriptors
Shen et al. View-invariant recognition of body pose from space-time templates
Akhter et al. Human-based interaction analysis via automated key point detection and neural network model
Das et al. Recent Advances in Object Detection Based on YOLO‐V4 and Faster RCNN: A Review
Kim et al. Directional pedestrian counting with a hybrid map-based model
Malik et al. A Simplified Skeleton Joints Based Approach For Human Action Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200804