JP6380523B2 - 画像認識システムおよび半導体集積回路 - Google Patents

画像認識システムおよび半導体集積回路 Download PDF

Info

Publication number
JP6380523B2
JP6380523B2 JP2016505013A JP2016505013A JP6380523B2 JP 6380523 B2 JP6380523 B2 JP 6380523B2 JP 2016505013 A JP2016505013 A JP 2016505013A JP 2016505013 A JP2016505013 A JP 2016505013A JP 6380523 B2 JP6380523 B2 JP 6380523B2
Authority
JP
Japan
Prior art keywords
tracking
unit
image
processing
integrated circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016505013A
Other languages
English (en)
Other versions
JPWO2015129152A1 (ja
Inventor
笹川 幸宏
幸宏 笹川
龍也 鉄川
龍也 鉄川
ビー ミー マイケル
ビー ミー マイケル
ティン ピン チュア
ティン ピン チュア
龍太 中西
龍太 中西
野尻 尚紀
尚紀 野尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Socionext Inc
Original Assignee
Socionext Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Socionext Inc filed Critical Socionext Inc
Publication of JPWO2015129152A1 publication Critical patent/JPWO2015129152A1/ja
Application granted granted Critical
Publication of JP6380523B2 publication Critical patent/JP6380523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30268Vehicle interior
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

本開示は、画像認識システムに関し、特に、効率的な画像認識処理に関する。
近年、監視カメラ、車載安全装置、およびデジタルスチルカメラなどにおいて、人物や非人物などの対象物を検出する画像認識技術が幅広く使用されている。さらに、対象物を追跡してその挙動を判定することによって、不審人物の特定やマーケティング情報の収集、あるいは危険予測を行うといった幅広い応用が期待されている。
対象物を追跡する技術として、オプティカルフローを用いた画像認識処理が知られている(例えば特許文献1参照)。また、画像認識処理の1つとして、ソフトウェアによる識別器を用いて、人の顔の向きを判定する技術も開示されている(例えば特許文献2参照)。また、ソフトウェアによる別の画像認識処理として、人体のエッジに着目した特徴量に基づいて、人の姿勢を推定する技術が開示されている(例えば、非特許文献1、非特許文献2参照)。
一方、画像認識処理をハードウェアによって実現する、再構成可能なプロセッサが知られている(例えば非特許文献3参照)。また、再構成可能なプロセッサについては、特許文献3および特許文献4にも開示されている。また、画像認識処理には様々な処理が必要であるところ、複数種類の演算を効率的に実行可能な処理装置が知られている(例えば特許文献5)。
また、Microsoft(登録商標)社のKinectセンサを用いたジェスチャ認識処理のように、センサで3Dデータを生成し、センサの出力に対してソフトウェア処理を行うものもある。
このように、画像認識処理に関する技術は様々であるが、その技術の進歩は早いため、最新の技術に柔軟に対応しやすいという点を考慮すると、画像認識処理をソフトウェアで実現することが現実的であるといえる。
米国特許第8,374,393号明細書 米国特許第7,957,567号明細書 特開2001−236496号公報 特開2007−141132号公報 特開2010−134713号公報
Pedro.F Felzenszwalb, Ross.B Girshick, David McAllester, Deva Ramanan, "Object Detection with Discriminatively Trained Part-Based Models", Pattern Analysis and Machine Intelligence, IEEE Transactions, Vol.32, no.9, pp.1627-1645, Sept. 2010 Yi Yang, Deva Ramanan, "Articulated pose estimation with flexible mixtures-of-parts", Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference, pp.1385-1392, 20-25 June 2011 新淳、他4名、「低消費電力応用志向プロセッサ〜画像認識プロセッサIMAPCAR2を例として〜」、NEC技報、Vol.62、No.3/2009、p.97−101
ところが、画像認識処理の全てをソフトウェアで実現すると、様々なアルゴリズムに柔軟に対応しやすい反面、処理の全てをCPU(Central Processing Unit)等が担うことになるため、高性能なCPU等が必要であったり、多くのCPU等が必要であったりする。したがって、コストがかかるだけでなく、処理性能に限界があったり、消費電力が多くなったりするおそれがある。特に、高精細な画像を処理する場合、周波数が高い高性能なCPU等による処理が必須であるため、消費電力の増大は顕著になる。
一方、画像認識処理の全てをハードウェアで実現すると、各処理に適したハードウェアを用いることができるため処理性能を向上でき、高性能なCPU等を用いる必要がないため低コストかつ低消費電力化を図ることができる。その反面、ソフトウェアで実現した場合に得られる柔軟性が損なわれたり、回路規模が増大したりするおそれがある。
つまり、画像認識処理をソフトウェアあるいはハードウェアのいずれかで実現することによって得られる効果はトレードオフの関係にある。
従来技術には、単に画像認識処理等に関する内容が開示されているに過ぎず、上記トレードオフを考慮した、最適なシステム構成については言及されていない。
また、上記Kinectセンサでは、光学系に制限があり、例えば、光学ズームを用いた遠距離の対象物や、広角レンズや魚眼レンズを用いた広範囲の空間の対象物のジェスチャ認識を実現するのは困難である。そのため、ソフトウェアによる処理が当該センサを用いた場合(ゲーム等)に制限されうる。
かかる点に鑑みて、本開示は、回路規模、消費電力、処理性能、および柔軟性のそれぞれに最適な画像認識システムを提供することを課題とする。
上記課題を解決するため本開示によって次のような解決手段を講じた。すなわち、予め定義された対象物に係る少なくとも一部を動画像から検出して追跡する画像認識システムは、前記動画像から前記対象物を検出する対象物検出処理と、前記対象物に係る少なくとも1つの所定箇所を追跡すべき箇所として特定する追跡箇所特定処理と、前記追跡すべき箇所に基づいて、実際の追跡対象物を認識する追跡対象認識処理と、前記追跡対象物を追跡する追跡処理と、前記追跡処理の結果に基づいて前記追跡対象物の挙動を判定する判定処理とを実行可能に構成され、前記追跡箇所特定処理と、前記判定処理とを、ソフトウェアで実行する一方、前記対象物検出処理と、前記追跡対象認識処理と、前記追跡処理とをハードウェアで実行する。
あるいは、予め定義された対象物に係る少なくとも一部を動画像から検出して追跡する処理を実行する半導体集積回路は、前記動画像から前記対象物を検出する処理を実行する対象物検出部と、前記対象物に係る少なくとも1つの所定箇所を、実際の追跡対象物として認識する処理を実行する追跡対象認識部と、前記追跡対象物を追跡する処理を実行する追跡部と、前記所定箇所を特定する処理と、前記追跡部による追跡結果に基づいて前記追跡対象物の挙動を判定する処理とを実行するCPUと、前記対象物検出部、前記追跡対象認識部、および前記追跡部のそれぞれに対して、各処理に必要なデータを転送するDMAコントローラと、前記対象物検出部と、前記追跡対象認識部と、前記追跡部と、前記CPUと、前記DMAコントローラとを接続するデータバスとを備えている。
これによると、動画像中の、例えば人物のような対象物を検出し、その人物の手などの所定箇所を追跡すべき箇所として特定することができる。そして、追跡すべき箇所が移動する際に、動画像中に他の移動体等が存在していても、追跡すべき箇所が実際の追跡対象物として認識されるため、常に追跡対象物を捕らえたままその軌跡を追跡することができる。したがって、追跡対象物の軌跡を判定することで、その挙動を判定することができる。
従来、動画像から対象物を検出して、その挙動を判定するまでの各処理について、様々な研究がなされ、技術が進歩している。そのため、新たな技術に柔軟に対応すべく、これら各処理をソフトウェアで実現することが現実的となっている。
ところが、全ての処理をソフトウェアで実現すると、最新技術への柔軟性を確保しやすく、回路規模の増大を抑制しやすい反面、処理性能を向上するには、高性能なCPU等が必要であり、消費電力が高くなるばかりか、処理性能がCPU等に依存するため制限されるという懸念がある。
一方、全ての処理をハードウェアで実現すると、処理性能の向上や、低消費電力化を図りやすい反面、ソフトウェアで実現することによって得られるメリットを犠牲にしてしまうことになる。
そこで、本願発明者らは、画像認識処理について、ハードウェアおよびソフトウェアのそれぞれで実現する場合のメリットを最大限に得ることに着目した。すなわち、本願発明者らは、上記各処理のうち、追跡箇所特定処理と、判定処理とをソフトウェアで実現し、対象物検出処理と、追跡対象認識処理と、追跡処理とをハードウェアで実現することが最適であることを見いだした。
これにより、ソフトウェアによって得られる、柔軟性の確保および回路規模の増大抑制というメリットを得ながらも、ハードウェアによって得られる、低消費電力化、処理性能向上というメリットを得ることができる。
本開示によれば、回路規模、消費電力、処理性能、および柔軟性のそれぞれに最適な画像認識システムを提供することができる。
一実施形態に係る画像認識システムの概要を説明するための図である。 (A)および(B)は一実施形態に係るハードウェアで実現される処理の例を示すフローチャートである。 一実施形態に係る画像認識システムの具体的な処理の例を示す図である。 図3に示す処理例を、システム階層化した場合の図である。 図4に示すハードウェアを構成する半導体集積回路のブロック図である。 一実施形態に係る半導体集積回路におけるデータの転送動作の例を説明するための図である。 一実施形態に係る画像認識システムの各処理のタイミングの例を説明するための図である。 一実施形態に係る画像認識システムの各処理のタイミングの別の例を説明するための図である。 (A)および(B)は一実施形態に係る画像認識システムの効果を説明するための図である。 一実施形態に係る画像認識システムにて追跡対象認識処理を実行するための構成例を示す図である。 (A)および(B)は図10の構成の動作を説明するための図である。 図10の構成による追跡対象認識処理を説明するための図である。 一実施形態に係る画像認識システムにて追跡処理のために画像ピラミッドを用いて実行されるサーチフローを示す概念図である。 一実施形態に係る画像認識システムにて追跡処理のために反復実行される計算の内容を説明するための図である。 一実施形態に係る画像認識システムにて追跡処理のために並列に反復実行される計算のタイミング図である。
以下、本開示の一実施形態について図面を用いて説明するが、各図面において共通する符号は、同一の要素または処理を示す。
<画像認識システムの概要>
図1は、一実施形態に係る画像認識システムの概要を説明するための図である。本実施形態に係る画像認識システム10は、入力される動画像に含まれる対象物を検出し、対象物に関する所定箇所を追跡することによって、その挙動を判定する、といった画像認識処理を行う。そして、挙動の判定結果に応じて、適切なアプリケーションが決定される。画像認識システム10による各処理は、ソフトウェアおよびハードウェアによって実現される。
画像認識システム10において、対象物検出処理S11(以下、処理S11と表記する)と、追跡対象認識処理S13(以下、処理S13と表記する)と、追跡処理S14(以下、処理S14と表記する)とはハードウェアで実現され、追跡箇所特定処理S12(以下、処理S12と表記する)と、判定処理S15(以下、処理S15と表記する)とは、ソフトウェアで実現される。
従来、画像認識処理に関する研究がなされており、現在では、その技術の進歩は早いため、対象物を検出してからその挙動を判定するまでの処理において、新たな技術に柔軟に対応しやすくするために、これら各処理をソフトウェアで実現することが一般的となっている。例えば、OpenCV(Open Source Computer Vision Library)を用いて、画像認識処理をソフトウェアにより実現可能であることが知られている。
ところが、全ての処理をソフトウェアで実現すると、様々な技術に柔軟に対応しやすく、ハードウェアで実現する場合に比べて回路規模の増大を抑制しやすい反面、処理性能がCPU等に依存するため、高性能化が制限されてしまう。また、高性能なCPU等を高い周波数で動作させると消費電力も高くなってしまうという懸念もある。
一方、全ての処理をハードウェアで実現すると、処理性能の向上や低消費電力化を図りやすい反面、ソフトウェアで実現することによって得られる柔軟性等のメリットが損なわれやすい。このように、ソフトウェア処理とハードウェア処理とで、得られる効果はトレードオフの関係にある。
そこで、本願発明者らは、このトレードオフの関係を踏まえ、次の点に着目して、これら各処理を、ソフトウェアで実現するか、あるいはハードウェアで実現するかの切り分けを行うこととした。
ハードウェアで実現すべき処理は、
(1)ソフトウェアのような柔軟性がなくても、既に汎化されたものである。
(2)本質的にソフトウェア処理として効率が悪く、ハードウェア処理の方が効率がよい。
このように、本願発明者らは、上記2点を満たす処理をハードウェアによって実現することで、画像認識システム10のシステム構成を最適化することができると考えた。
処理S11は、動画像に含まれる対象物として、例えば人物を検出する。処理S11は、入力される動画像の画像データを探索し、予め機械学習させておいた対象物の画像が、画像データに含まれているか否かを判定するものである。なお、対象物は人物以外であってもよく、学習によって予め定義可能なものであればよい。
ここで、機械学習とは、一般的な教師付き機械学習のことを指す。例えば、対象物と非対象物とを含む画像群から、画像から得られた特徴量(輝度勾配ヒストグラム(HOG:Histograms of Oriented Gradients))や局所輝度比較バイナリパターン(LBP:Local Binary Pattern))と、ラベル(対象物または非対象物)との対応関係を取得する。そして、この対応関係を統計処理して、特徴量の全組み合わせの中の対象物を示す集合を分離することによって行われる学習である。
したがって、処理S11は、予め機械学習させておいた画像データを用いて、動画像内の全画素を探索する識別器型検出器による一般的な検出処理によって実現することができる。なお、対象物を人物の顔としてもよく、人物等の少なくとも一部を対象物としてもよい。
このように、処理S11は、全画素について繰り返す処理であるため、処理の高速化等の観点から、ソフトウェアよりも、ハードウェアによって実現することが好ましいといえる。なお、対象物を学習するためのデータはメモリ等に格納しておけばよい。
処理S12は、処理S11によって検出された対象物について、その所定箇所としての例えば手や顔などを、追跡すべき箇所として特定する。なお、追跡すべき箇所は、対象物に関する少なくとも一部であってもよく、対象物全体であってもよい。また、対象物の複数箇所として、例えば両手を追跡すべき箇所として特定してもよい。処理S12は、例えば顔認識処理のように、画像データ内に、対象物の所定箇所(例えば顔)が存在するか否かによって、その所定箇所を追跡すべき箇所として特定することができる。
また、処理S11によって対象物として人物の顔が検出された場合、そのことをもって動画像に人物が存在するという前提のもと、その人物の手を追跡すべき箇所として特定してもよい。つまり、追跡すべき箇所は、対象物の一部でなくてもよく、対象物からその存在が推測可能な部分であってもよい。
このように、処理S12は、顔認識処理等のように様々な実装形態が考えられ、その技術進歩が早いため、ソフトウェアによって実現して、柔軟性を持たせることが好ましいといえる。
処理S13は、処理S12によって特定された箇所に基づいて、画像認識システム10で実際に追跡するための追跡対象物を認識する。処理S13は、画像データを探索し、例えば人の手の部分など、予め指定された特定箇所の画像(テクスチャ)が画像データに含まれているか否かを検出する。含まれている場合には、追跡対象物が認識されていることになる。また、処理S13の実行時には、テクスチャの学習と検出とが並行して行われ、逐次、繰り返されるテクスチャの検出に反映される。これにより、処理S13において、手の指が曲がったり伸びたりするなど、追跡対象物の形状が変化しても常に追跡対象物を認識することができる。
このように、処理S13は、予め指定されたテクスチャを画像データから探索する処理や、逐次変化するテクスチャを学習するといった処理を繰り返し行うものであるため、性能面において処理の高速化が必要である。一方、これらの処理は、識別器型検出器を用いた一般的な検出処理によって実現することができる。したがって、処理S13は、ハードウェアによって実現することが好ましいといえる。なお、テクスチャの逐次学習結果はメモリ等に格納される。
処理S14は、処理S13によって認識された追跡対象物を追跡する。また、処理S14では、現在追跡している追跡対象物に関するデータを処理S13にフィードバック可能であり、このフィードバックによって、処理S13における逐次学習が可能となる。処理S14は、例えば、オプティカルフローのLucas-Kanade法を用いて、画像データ内の任意の箇所の画像(テクスチャ)の動きベクトル(オプティカルフロー、あるいはモーションフロー)を算出することにより実現することができる。
このように、処理S14は、オプティカルフローのような一般的な手法を用いて実現可能であるため、処理の高速化等の高性能化を行いやすくするべく、ハードウェアによって実現することが好ましいといえる。
処理S15は、処理S14による追跡対象物の追跡結果に基づいて、追跡対象物の挙動を判定する。
処理S15は、追跡対象物の挙動を判定するため、様々な対象物に柔軟に対応する必要がある。例えば、画像認識システム10を車載安全装置に適用する場合には、追跡対象物としてのドライバ(あるいはドライバの顔)の挙動が脇見運転に該当するかどうかを判定することができる。また、画像認識システム10を店舗内の監視カメラに適用する場合には、様々な商品が陳列された棚から、客がどの商品に手を伸ばしたかを判定することができる。
さらに、挙動の判定手法については、様々な研究が進んでおり、今後の技術動向を考慮すると、最新の技術に柔軟に対応できることが好ましい。
したがって、処理S15は、ソフトウェアによって実現することが好ましいといえる。
このように、図1に示す各処理が連係しあって、本実施形態に係る画像認識システム10が実現される。
図2(A)および図2(B)は、一実施形態に係るハードウェアで実現される処理の例を示すフローチャートである。図2(A)は、対象物検出処理および追跡対象認識処理の概要の例を、図2(B)は、追跡処理の概要の例を示すフローチャートである。
処理S11,S13,S14のそれぞれをハードウェアで実現する場合、ハードウェアによって、各処理に必要なバリエーションに対応すればよい。
具体的に、画像データ20内の所定の領域ROI(Region Of Interest)に含まれる画素データに基づいて、対象物のエッジ部分の特徴量が生成される(S21)。特徴量の生成に関して、所定の計算式を用いればよく、参照する画素の位置および計算式に用いるパラメータ、といったバリエーションに対応すればよい。
特徴量が生成されると、その特徴量を示すインデックスと、確からしさを示すスコア(尤度)とが対応付けられたLUT(Look up table)が検索され、インデックスに対応するスコアが決定される(S22)。LUTは、例えばSRAM(Static Random Access Memory)に格納され、その値が逐次更新可能であり、LUTの内容を更新することを学習と呼ぶ場合がある。したがって、バリエーションとしての、LUTの内容に対応すればよい。
そして、LUTから得られたスコアが累算され、その結果と閾値とが比較されることによって、対象物および追跡対象物が判定される(S23)。この処理では、バリエーションとしての、スコアの累算回数と閾値とに対応すればよい。なお、LUTには、特徴量とスコアとが、予め機械学習等によって与えられている。
このように、上記各処理は汎化されており、ソフトウェアのような柔軟性がなくてもハードウェアで実現しやすく、ハードウェアを、上述した各バリエーションに対応可能なように構成すればよい。
また、図2(B)では、処理S14について、オプティカルフローのLK法を用いる場合を例に挙げている。
オプティカルフローでは、画像データ20の領域ROIに含まれる画素データに基づいて、輝度勾配が生成される(S24)。輝度勾配の生成に関する計算式は固定的である。
次に、輝度勾配に基づいて、座標変位(例えば動きベクトル)を示すフロー量がフロー行列計算によって算出される(S25)。フロー量の算出に関する計算式は固定的である。
そして、フロー量に基づいて、追跡対象物の動きが収束したかどうかの判定が行われ、収束したときのフロー量(どこに移動したか)が出力される(S26)。したがって、バリエーションである、収束の判定条件に対応すればよい。
このように、オプティカルフローでは、S24〜S26が反復して行われるため、処理の高速化の観点からハードウェアで実現することのメリットは大きいといえる。
図3は、一実施形態に係る画像認識システムの具体的な処理例を示す図である。なお、図3では、対象物が人物であり、追跡対象物が手である場合を例にしている。
入力される動画像の任意の時刻における画像30に人物31が含まれている場合、処理S11において、対象物として人物31が検出される。
人物31が検出されると、処理S12において、その人物31の両手32,33が追跡すべき箇所として特定される。なお、片手32のみが追跡すべき箇所として特定されてもよい。
両手32,33が特定されると、処理S13,S14において、逐次、両手32,33の認識と追跡とが並行して行われる。これにより、両手32,33の形状が変わったり、手の形状に近い物体が存在したりしても、両手32,33を実際の追跡対象物として、逐次学習しながら追跡可能となる。
なお、処理S11,S13では、図2(A)のS21〜S23で示す処理が実行される。また、処理S14では、図2(B)のS24〜S26で示す処理が実行される。
その後、例えば所定の時間、両手32,33の追跡が行われると、処理S15において、両手32,33の挙動が判定される。なお、両手32,33の移動が停止してから所定の時間経過後に処理S15を実行してもよい。このような処理により、人物のジェスチャ認識が可能となる。
そして、処理S15における判定結果に基づいて、処理S16において、両手32,33の挙動に応じたアプリケーションの動作が決定される。なお、本実施形態に係る画像認識システム10の動作結果に応じたアプリケーションは任意である。例えば、画像認識システム10が車載安全装置に適用される場合、挙動判定の結果がドライバの脇見運転に該当するようであれば、ドライバに注意を促すようなアプリケーションを動作させることができる。
このように、処理S11〜S16が繰り返される。なお、例えば、処理S15の後に、再度、処理S13,S14を実行してもよい。また、処理S11〜S15の途中で、対象物や追跡対象物が変更された場合には、それに応じて処理を実行し直してもよい。
図4は、図3に示す処理例を、システム階層化した場合の図である。
図4に示すように、例えば、処理S11,S13,S14は、ハードウェア50によって実装され、処理S12,S15は、ソフトウェアであるミドルウェア53によって実装される。
処理S11,S13,S14、および処理S12,S15の連係は、ドライバ51とアプリケーションプログラミングインタフェースであるAPI52とを介して行われる。また、処理S16は、その処理の内容に適したアプリケーション54によって実現される。
このように、本実施形態では、ハードウェア処理とソフトウェア処理とが連係することにより、ソフトウェア処理による柔軟性の維持および回路規模の増大抑制、ならびに、ハードウェア処理による性能の向上および低消費電力化を実現することができる。
<半導体集積回路の構成>
図5は、図4に示すハードウェアを構成する半導体集積回路のブロック図である。ハードウェアは、上述した画像認識処理を実行可能な半導体集積回路50であり、CPU501と、マイクロコードシーケンサ502と、対象物検出部503と、追跡対象認識部504と、追跡部505と、これらに対応する複数のローカルメモリであるLMEM506と、DMA(Direct Memory Access)コントローラ507と、支援DSP(Digital Signal Processor)508と、制御バス509と、データバス510と、DRAM(Dynamic Random Access Memory)511とを有する。
CPU501、マイクロコードシーケンサ502、対象物検出部503、追跡対象認識部504、追跡部505、DMAコントローラ507、および支援DSP508はそれぞれ、データバス510に接続されている。
CPU501は、データバス510を介してDRAM511から必要なデータを取得し、処理S12,S15,S16を行う。また、CPU501は、図4のAPIから呼び出されることにより、マイクロコードシーケンサ502にアクセスし、処理S12,S15の結果やデータバス510から取得したデータ等をマイクロコードシーケンサ502に設定し、マイクロコードでマイクロコードシーケンサ502の動作を制御する。
マイクロコードシーケンサ502は、制御バス509を介して、対象物検出部503、追跡対象認識部504、追跡部505、DMAコントローラ507、および支援DSP508のそれぞれに接続されている。
また、マイクロコードシーケンサ502は、マイクロコードに応じて、対象物検出部503、追跡対象認識部504、追跡部505、DMAコントローラ507、および支援DSP508のそれぞれに対する動作制御を行う。これにより、CPU501による、対象物検出部503、追跡対象認識部504、追跡部505、DMAコントローラ507、および支援DSP508のそれぞれの動作制御が中継される。
マイクロコードシーケンサ502の動作制御により、対象物検出部503、追跡対象認識部504、追跡部505、DMAコントローラ507、および支援DSP508が起動される。このとき、処理S11,S13,S14に必要なパラメータ等がそれぞれ設定される。なお、対象物検出部503、追跡対象認識部504、追跡部505、DMAコントローラ507、および支援DSP508が起動すると、これらはそれぞれに応じた処理を実行するため、所定の期間、CPU501による動作制御は不要となる。
対象物検出部503は、マイクロコードシーケンサ502の制御に従って、対応するLMEM506にアクセスし、処理S11を実行する。
追跡対象認識部504は、マイクロコードシーケンサ502の制御に従って、対応するLMEM506にアクセスし、処理S13を実行する。
追跡部505は、マイクロコードシーケンサ502の制御に従って、対応するLMEM506にアクセスし、処理S14を実行する。
処理S11,S13,S14の結果はそれぞれ、対応するLMEM506およびデータバス510を介してDRAM511に格納される。
DMAコントローラ507は、処理S11,S13,S14に必要なデータをDRAM511から読み出して、各LMEM506に同時並行的に転送する。処理S11,S13,S14のそれぞれは、ハードウェアにより実装されているため、DMAコントローラ507は、アクセスすべきDRAM511のアドレスを容易に予測することができる。したがって、DMAコントローラ507は、DRAM511から各LMEM506にデータを並列に転送することができる。これにより、対象物検出部503、追跡対象認識部504、および追跡部505のそれぞれがDRAM511に直接アクセスすることによるパフォーマンスの劣化を抑制することができる。
支援DSP508は、対象物検出部503、追跡対象認識部504、および追跡部505に対して、付加的な処理を提供する。これにより、処理S11,S13,S14をハードウェアで実現した場合の柔軟性の低下を抑制することができる。支援DSP508は、例えば、処理S11,S13,S14の前処理や、処理結果の補正処理の実行が可能である。また、支援DSP508は、処理S11,S13,S14の連係処理や、CPU501の処理を支援してもよい。
このように、処理S12,S15,S16をCPU501で処理し、処理S11,S13,S14をそれぞれに対応するハードウェアで実装することで、CPU501の負荷を低減しつつ、高性能な画像認識処理を高速に実行することができる。
<半導体集積回路の動作例>
図6は、一実施形態に係る半導体集積回路におけるデータの転送動作の例を説明するための図である。なお、縦軸は時間、横軸はハードウェアで実行される処理を表す。
以下、DMAコントローラ507によるデータの転送動作について説明する。なお、図中の三角印は、DMAコントローラ507がデータ転送するタイミングを示す。
図6に示すように、対象物検出部503、追跡対象認識部504、追跡部505、およびDMAコントローラ507のそれぞれは、マイクロコードシーケンサ502からの、各処理に必要な設定がなされることにより並列動作が可能となる。
まず、マイクロコードシーケンサ502は、DMAコントローラ507に対して、対象物検出部503、追跡対象認識部504、および追跡部505のそれぞれの処理に必要なデータ等をDRAM511から転送するように設定する(メモリ転送設定)。これにより、DMAコントローラ507は、DRAM511からLMEM506にデータを転送するメモリ転送制御を実行し、処理S11に必要なデータのLMEM506への転送を開始する(503関連転送)。
DMAコントローラ507は、対象物検出部503、追跡対象認識部504、および追跡部505のそれぞれの処理用に例えば3chずつの独立したチャネルを有する(合計9ch)。
マイクロコードシーケンサ502は、対象物検出部503に対して、処理S11に関する設定を行う(S11の設定)。これにより、対象物検出部503は処理S11を実行する。
具体的に、対象物検出部503において、特徴量生成処理(図2(A)のS21)が実行されるとき、都度、LMEM506とのデータ転送が可能となる。また、LUT検索処理(図2(A)のS22)が実行されるとき、その処理の開始時に一度データ転送が行われる。さらに、累算、閾値判定処理(図2(A)のS23)が実行されるとき、その処理の最終段階で一度データ転送が行われる。このように、それぞれの処理について独立したデータ転送が可能である。
また、DMAコントローラ507は、処理S13に必要なデータのLMEM506への転送を開始する(504関連転送)。
そして、マイクロコードシーケンサ502は、追跡対象認識部504に対して、処理S13に関する設定を行う(S13の設定)。これにより、追跡対象認識部504は処理S13を実行する。処理S13では、図2(A)に示すS21〜S23が実行される。なお、このとき、LUTの内容が逐次更新される、逐次学習が並行して実行される。
さらに、DMAコントローラ507は、処理S14に必要なデータのLMEM506への転送を開始する(505関連転送)。
そして、マイクロコードシーケンサ502は、追跡部505に対して、処理S14に関する設定を行う(S14の設定)。これにより、追跡部505は処理S14を実行する。処理S14では、図2(B)に示すS24〜S26が実行される。
その後、対象物検出部503、追跡対象認識部504、追跡部505、およびDMAコントローラ507のそれぞれの処理が終了すると、その結果はCPU501に通知され、以後、処理が繰り返し実行される。
このように、処理S11,S13,S14のそれぞれにおいて、図6中の三角印のタイミングで、DMAコントローラ507によるデータ転送が独立して実行される。
なお、2つ以上の処理が連係して、お互いの処理内容に応じて、並行して実行されてもよい。この場合、上述したようなDMA転送を用いて、データ転送をしながら各処理を同時進行させることが可能である。また、1つの処理の結果を一旦DRAM511に格納し、再度、LMEM506に転送し、処理を順次パイプライン的に進めることも可能である。
また、図6に示す各設定、つまり各処理の順序は、図6に示した順序に限られない。これは、各処理S11,S13,S14のそれぞれが、所定の時間内に完了するために十分な時間があるように開始され、所定の時間内において、互いに協働する処理が適切なタイミングで同時に動作できればよいからである。
また、DMAコントローラ507における各処理用のチャネル数は任意であり、チャネル数は各処理の内容に応じて異なっていてもよく、合計は9chに限らない。
図7は、一実施形態に係る画像認識システムの各処理のタイミングの例を説明するための図である。図7では、図4に示す処理S11〜処理S15によって、画像データ(フレームデータ)を連続して処理する場合の動作タイミングの一例を説明する。なお、図7において、横軸は時間、縦軸は処理対象のフレームデータを示す。
単位時間T1にて、フレーム1に対して処理S11が実行される。処理S11の結果として得られた対象物(例えば人物の顔)のフレーム1上における座標に関する情報61はデータバス510を介してCPU501に渡される。
単位時間T2にて、座標情報61を用いて、CPU501による処理S12が実行され、追跡すべき箇所(例えば人物の手)が特定される。処理S12の結果として得られた追跡箇所のフレーム1上の座標に関する情報62は、API52およびCPU501を介して処理S13を実行する追跡対象認識部504に渡される。
単位時間T3にて、座標情報62を用いて、処理S13,S14が並行して実行される。また、処理S13,S14の実行中に、フレーム2に対する処理S12に用いるための、情報62が補正された情報63が算出される。つまり、情報63は、1つのフレームに対する処理S12の結果である追跡箇所の座標情報が補正された情報である。そして、情報63は、単位時間T3において並行して実行されるフレーム2に対する処理S12に反映される。なお、同一単位時間内のデータのやりとりは、DMAコントローラ507によるDMA転送によって実現される。
情報63を用いた、フレーム2に対する処理S12の結果は、処理S13を実行する追跡対象認識部504に渡される。これにより、処理S13において、LUTの内容が更新され逐次学習が実行される。
単位時間T4では、単位時間T3までの処理の結果に基づいて、CPU501による処理S15が行われ、追跡対象物の挙動が判定される。このように、単位時間T1〜T4において、フレーム1に対する追跡対象物の挙動判定の結果が得られる。
また、単位時間T4では、フレーム2に対する処理S13,S14が同時並行的に実行される。
以降、処理S12〜S15がパイプライン的に繰り返され、フレーム毎の挙動判定が実行される。
単位時間T5では、フレーム5に対して再度処理S11が行われる。このとき、処理S11は、フレーム2〜4に対する処理S12〜S15と同時並行的に実行される。
以降、処理群64と処理群65とが繰り返され、フレーム毎の挙動判定結果が得られる。なお、処理群64では、座標情報61,62が用いられて、処理S11〜S15が実行されるのに対して、処理群65では、座標情報62が補正された情報63が用いられて、処理S12〜S15が実行される。
以上のように各処理のタイミングを制御することによって、単位時間T3,T4,T6,T7では、ハードウェアによる処理S13,S14の同時並行的な実行が可能となり、単位時間T5では、ハードウェアによる処理S11,S13,S14の同時並行的な実行が可能となる。つまり、1つの単位時間において、2以上の処理の実行が可能である。
なお、図7では、処理S11が実行されるインターバルを4単位時間毎としているが、このインターバルは任意である。
また、図7では、1つのフレームに対して、同じ単位時間に複数の処理が実行される場合について説明しているが、図8に示すように、フレーム毎に、処理S11〜S15が1つの単位時間で実行されるようにしてもよい。
図8は、一実施形態に係る画像認識システムの各処理のタイミングの別の例を説明するための図である。処理S11〜S15が、図8のようなタイミングで実行される場合でも、例えば単位時間T5において、ハードウェアによる処理S11,S13,S14の同時並行的な実行が可能であるため、処理の高速化を図ることができる。
図9(A)および図9(B)は、一実施形態に係る画像認識システムの効果を説明するための図である。図9(A)は、画像認識処理の全てをソフトウェアによって実現した場合を説明するための図であり、図9(B)は、本実施形態に係る画像認識システムで画像認識処理を実現した場合を説明するための図である。
図9(A)に示すように、画像認識処理の全てをソフトウェアで実現する場合、つまり、上述した処理S11〜S15の全てをソフトウェアで実現する場合、画像データ20に含まれる領域ROIに係るデータが1つずつ順次読み出され、このデータに対してCPUによって、対象物の検出、追跡箇所の特定、追跡、および挙動の判定のそれぞれに係る演算処理が逐次実行される。なお、これら複数の演算処理のそれぞれを、図9(A)では、演算A〜演算Xで示している。
このとき、CPUは、後段の演算を実行するにあたり前段の演算結果を用いる。具体的に、CPUは、演算Bを実行するにあたり、演算Aの結果を用いるため、処理の高速化には限界がある。そして、最終段である演算Xの実行が終了すると、1つの領域ROIに対する処理結果が出力されるとともに、別の領域ROIに係るデータを読み出すためのアドレスの決定処理が行われる。
このように、画像認識システム10で実行される処理の全てをソフトウェアで実現すると、CPUによる、データへのランダムアクセスや各種演算の繰り返しが発生してしまう。また、アクセスすべきアドレスの決定処理も発生してしまう。特に、図2(A)および図2(B)に示す処理は反復的な処理が支配的であるため、ソフトウェア処理では、高性能なCPU等を用いたとしても、処理の高速化に限界がある。例えば、フレームレートが30fps以上で、フルHD(High Definition)のような高精細な動画像を扱う場合、ソフトウェアのみによる画像認識処理では33ms以内に完了することが困難である。
これに対して、図9(B)に示すように、本実施形態に係る画像認識システム10では、DMAコントローラ507によって、複数の領域ROIに係るデータのアドレスが予測可能であるため、必要なデータは、各処理S11,S13,S14に対応するLMEM506に同時並行的に転送することができる。
各LMEM506にデータが転送されると、処理S11,S13,S14のそれぞれは独立かつ並行して実行され、並列処理された結果の出力が可能であるため、高速な処理を実現することができる。
このように、本実施形態では、ソフトウェア処理として、処理S12,S15が実行され、ハードウェア処理として、処理S11,S13,S14が実行されるため、フルHDのような高精細な動画像を扱う場合であっても、画像認識処理を33ms以内で完了することができる。つまり、図9(A)の場合と比較して、画像認識処理に要する時間を1/30以下とすることができる。
以上、本実施形態に係る画像認識システムおよび半導体集積回路50では、処理S12,S15をソフトウェアで実現し、処理S11,S13,S14を専用のハードウェアで実現するようにしている。つまり、画像認識システム10を、単にソフトウェア処理とハードウェア処理とに切り分けるのではなく、上述した(1),(2)に着目して構成している。その結果、ソフトウェア処理によって実現した場合に得られる、柔軟性の確保および回路規模の増大抑制といったメリットと、ハードウェア処理によって実現した場合に得られる、消費電力の低減、コストの削減、処理性能の向上といったメリットとを享受することができる。
したがって、本実施形態によると、回路規模、消費電力、処理性能、および柔軟性のそれぞれにおいて、最適な画像認識システム10および半導体集積回路50を構成することができる。
最後に、追跡対象認識処理S13および追跡処理S14の詳細例を説明する。
図10は、一実施形態に係る画像認識システムにて追跡対象認識処理S13を実行するための構成例を示す図である。また、図11(A)および図11(B)は、図10の構成の動作を説明するための図である。

図10において、701はイメージ積分ユニット、702は積分値選択ユニット、703は事後事象メモリ、704はスコア計算ユニットである。ここで、イメージ積分とは、画像中の任意矩形領域内の画素レベルの合計値を算出することを表す(図11(A)参照)。具体的には画像を2次元方向に積分した積分画像を保持しておき、任意矩形の4点での積分画像値を選択ユニット702により取り出すことで、任意矩形領域内の画素レベルの合計値を得ることができる(図11(B)参照)。
事後事象とは、後述するイメージ積分値を基に作られる特徴量の特定パターンに該当する事象(Posteriors)の数を表す。具体的には特徴量を数値化したものをインデックスとした配列メモリの各要素に事象の数を記憶することで実現する。事象の数は正解画像における事象(p:Positive)と不正解画像における事象(n:Negative)との2種類を設定し、後述する逐次学習過程で特定値p、nを各々累算する(図10内の記述:+p、+n)。
スコア計算とは、前述の事後事象の値を用いて、特徴量に応じた正解画像に対する尤度を求めることを示す。スコア(Score)の計算の一例として、事後事象の値p、nを用いて、
Score = p/(p+n)
という定義を用いることができる。
図12は、図10の構成による追跡対象認識処理S13を説明するための図である。ここでは、逐次学習過程について説明する。705に示すように画像全体を探索して正解画像を探す。ここで正解画像は前述のスコア値から尤度が高い画像を選択することと、追跡処理S14から得られる時系列から推測される正解画像の位置とから特定される。この正解画像の中から、706に示すようにランダム、あるいは特定ルールで設定された複数の矩形領域ペアを決定し、矩形領域ペアの積分値の大小比較結果を1ビットの特徴量とする。複数の矩形領域ペアから複数ビットの特徴量が得られるため、これをインテックスとして、707に示すように特定パターンに対する事後事象(p)として定義できる。
また、画像全体を探索して上記正解画像に該当しない画像については不正解画像として定義し、同様に708、709、710に示すように複数の矩形領域ペアから得られる特徴量を不正解画像における事後事象(n)として定義できる。
これら事後事象の算出後、前述の特定値p、nの累算によって、事後事象メモリ703の更新が実現できる。
また、事後事象の算出結果は例えば704に示すように各々スコア値として尤度を計算することに用い、さらに711に示すように平均スコア値として使用することもできる。
次に、図13、図14および図15を用いて、追跡処理S14の詳細例を説明する。図13はサーチフローを示す概念図、図14は計算内容の説明図、図15は計算のタイミング図である。
一般的に知られるLucas-Kanade法を用いる場合を示す。追跡処理S14では時系列の2つの画像(過去と現在)を参照する。まず、図13の801、802に示すように複数の縮小(本実施形態では各々1/2倍の縮小)を行った画像ピラミッドを形成する。最も小さい画像レイヤから後述する特徴点探索を行い、大きな画像レイヤでの探索に段階的に移行する。これは概念的には大局的な探索から、より詳細な画像での探索を行うという意味を持つ。
各々の画像レイヤにおいて、図14のように、特徴点を中心として804、805に示すような画像断片(本実施形態では特徴点を中心とする9画素×9画素)の画素レベル(輝度)を用いた反復計算を行う。Lucas-Kanade法では輝度勾配を算出する。ここで特徴点の座標を(x,y)とし、過去画像におけるその座標の輝度をIp(x,y)、現在画像におけるその座標の輝度をIc(x,y)とすると、特徴点における輝度勾配Ix、Iy、Itは、
Ix=Ip(x+1,y)−Ip(x−1,y)
Iy=Ip(x,y+1)−Ip(x,y−1)
It=Ip(x,y)−Ic(x,y)
から算出できる。また、輝度勾配から、オプティカルフロー803の反復計算のための座標変位量は、次の式で算出できる。
上記数式から判るように、本反復計算では座標変位量を計算するために都度画像の参照を必要とし、また次の変位量を計算するためには該当座標を特定する必要があり、図15の807に示すような計算の依存関係が存在する。そこで複数の画像断片を並列に計算するデータパスを設け、図14の806に示すように複数の画像断片毎の反復計算を並列処理する。806は、例えば座標位置が特定された状態から、座標変位量を求め(下向きの矢印)、次の座標位置を特定し(上向きの矢印)、またその座標変位量を求める、という反復が並列して生じている様子を概念的に表している。画像断片は各々独立しているため、このようにすることで図15の808に示すように計算の依存関係を排除し、並列処理による計算効率化を実現できる。
本開示に係る画像認識システムは、回路規模、消費電力、処理性能、および柔軟性のそれぞれが最適であるため、より高精細な画質の画像認識処理の高速化等に有用である。
10 画像認識システム
50 ハードウェア(半導体集積回路)
S11 対象物検出処理
S12 追跡箇所特定処理
S13 追跡対象認識処理
S14 追跡処理
S15 判定処理
501 CPU
502 マイクロコードシーケンサ(シーケンサ)
503 対象物検出部
504 追跡対象認識部
505 追跡部
507 DMAコントローラ
509 制御バス
510 データバス

Claims (11)

  1. 予め定義された対象物に係る少なくとも一部を動画像から検出して追跡する画像認識システムであって、
    前記動画像から前記対象物を検出する対象物検出処理と、
    前記対象物に係る少なくとも1つの所定箇所を追跡すべき箇所として特定する追跡箇所特定処理と、
    前記追跡すべき箇所に基づいて、実際の追跡対象物を認識する追跡対象認識処理と、
    前記追跡対象物を追跡する追跡処理と、
    前記追跡処理の結果に基づいて前記追跡対象物の挙動を判定する判定処理とを実行可能に構成され、
    前記追跡箇所特定処理と、前記判定処理とを、ソフトウェアで実行する一方、前記対象物検出処理と、前記追跡対象認識処理と、前記追跡処理とをハードウェアで実行することを特徴とする画像認識システム。
  2. 請求項1の画像認識システムにおいて、
    前記対象物は、人物であることを特徴とする画像認識システム。
  3. 請求項1の画像認識システムにおいて、
    前記対象物検出処理を実行可能な対象物検出部と、
    前記追跡対象認識処理を実行可能な追跡対象認識部と、
    前記追跡処理を実行可能な追跡部と、
    前記追跡箇所特定処理および前記判定処理を実行可能なCPUとを有するハードウェアを備えていることを特徴とする画像認識システム。
  4. 請求項1の画像認識システムにおいて、
    前記対象物検出処理を実行する対象物検出部は、少なくとも特徴量計算ユニットと、事後事象を格納する複数の事後事象メモリと、事後事象更新部と、スコア計算ユニットとを有し、
    前記特徴量計算ユニットは、前記動画像から特徴量を算出し、
    前記事後事象メモリは、少なくとも対象物画像における事後事象と非対象物画像における事後事象との両方を記憶し、
    前記事後事象更新部は、前記対象物画像における事後事象と前記非対象物画像における事後事象とを前記特徴量のパターンに基づいて更新し、
    前記スコア計算ユニットは、前記特徴量計算ユニットから得られる任意の特徴量のパターンに該当する事後事象を前記事後事象メモリから取得し、前記任意の特徴量のパターンに該当するスコアを計算することを特徴とする画像認識システム。
  5. 請求項1の画像認識システムにおいて、
    前記追跡処理を実行する追跡部は、画像断片における輝度勾配反復計算を行い、
    前記輝度勾配反復計算は、前記画像断片を格納したメモリ参照を逐次行い、
    前記輝度勾配反復計算を実施する計算ユニットを複数有し、
    複数の独立した前記画像断片に対して各々の前記計算ユニットを対応付けて前記複数の画像断片における各々の輝度勾配反復計算を並列に実行することを特徴とする画像認識システム。
  6. 予め定義された対象物に係る少なくとも一部を動画像から検出して追跡する処理を実行する半導体集積回路であって、
    前記動画像から前記対象物を検出する処理を実行する対象物検出部と、
    前記対象物に係る少なくとも1つの所定箇所を、実際の追跡対象物として認識する処理を実行する追跡対象認識部と、
    前記追跡対象物を追跡する処理を実行する追跡部と、
    前記所定箇所を特定する処理と、前記追跡部による追跡結果に基づいて前記追跡対象物の挙動を判定する処理とを実行するCPUと、
    前記対象物検出部、前記追跡対象認識部、および前記追跡部のそれぞれに対して、各処理に必要なデータを転送するDMAコントローラと、
    前記対象物検出部と、前記追跡対象認識部と、前記追跡部と、前記CPUと、前記DMAコントローラとを接続するデータバスとを備えていることを特徴とする半導体集積回路。
  7. 請求項6の半導体集積回路において、
    前記CPUは、前記対象物検出部、前記追跡対象認識部、前記追跡部、および前記DMAコントローラのそれぞれに対する動作制御を行うことを特徴とする半導体集積回路。
  8. 請求項7の半導体集積回路において、
    前記対象物検出部、前記追跡対象認識部、前記追跡部、および前記DMAコントローラのそれぞれに接続される制御バスと、
    前記CPUによる動作制御を前記制御バスに中継するシーケンサとを更に備えていることを特徴とする半導体集積回路。
  9. 請求項6の半導体集積回路において、
    前記CPUは、前記対象物検出部の処理が所定の単位時間で終了するように制御し、当該処理の結果を用いて、前記所定箇所を特定する処理と、前記追跡対象認識部の動作制御と、前記追跡部の動作制御と、前記追跡対象物の挙動を判定する処理とを、前記所定の単位時間に連続する複数の単位時間のそれぞれで繰り返し実行することを特徴とする半導体集積回路。
  10. 請求項9の半導体集積回路において、
    前記CPUは、前記所定箇所を特定する処理と、前記追跡対象認識部の動作制御と、前記追跡部の動作制御と、前記追跡対象物の挙動を判定する処理とのうち2以上を、前記複数の単位時間のいずれかにおいて並行して実行することを特徴とする半導体集積回路。
  11. 請求項10の半導体集積回路において、
    前記CPUは、前記所定の単位時間が終了した後、再度前記対象物検出部による処理が実行されるとき、当該処理が、前記所定箇所を特定する処理と、前記追跡対象認識部の動作制御と、前記追跡部の動作制御と、前記追跡対象物の挙動を判定する処理とのうち2以上が実行される単位時間においてなされるように制御することを特徴とする半導体集積回路。
JP2016505013A 2014-02-26 2015-01-23 画像認識システムおよび半導体集積回路 Active JP6380523B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014035060 2014-02-26
JP2014035060 2014-02-26
PCT/JP2015/000298 WO2015129152A1 (ja) 2014-02-26 2015-01-23 画像認識システムおよび半導体集積回路

Publications (2)

Publication Number Publication Date
JPWO2015129152A1 JPWO2015129152A1 (ja) 2017-03-30
JP6380523B2 true JP6380523B2 (ja) 2018-08-29

Family

ID=54008491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016505013A Active JP6380523B2 (ja) 2014-02-26 2015-01-23 画像認識システムおよび半導体集積回路

Country Status (4)

Country Link
US (1) US10074187B2 (ja)
JP (1) JP6380523B2 (ja)
CN (1) CN106170820A (ja)
WO (1) WO2015129152A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568542B2 (en) * 2019-04-25 2023-01-31 Surgical Safety Technologies Inc. Body-mounted or object-mounted camera system
CN110516620B (zh) * 2019-08-29 2023-07-28 腾讯科技(深圳)有限公司 目标跟踪方法、装置、存储介质及电子设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5627586A (en) * 1992-04-09 1997-05-06 Olympus Optical Co., Ltd. Moving body detection device of camera
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
US6185314B1 (en) * 1997-06-19 2001-02-06 Ncr Corporation System and method for matching image information to object model information
US6295367B1 (en) * 1997-06-19 2001-09-25 Emtera Corporation System and method for tracking movement of objects in a scene using correspondence graphs
US6526430B1 (en) 1999-10-04 2003-02-25 Texas Instruments Incorporated Reconfigurable SIMD coprocessor architecture for sum of absolute differences and symmetric filtering (scalable MAC engine for image processing)
JP4672175B2 (ja) * 2000-05-26 2011-04-20 本田技研工業株式会社 位置検出装置、位置検出方法、及び位置検出プログラム
US7827488B2 (en) * 2000-11-27 2010-11-02 Sitrick David H Image tracking and substitution system and methodology for audio-visual presentations
GB0502371D0 (en) * 2005-02-04 2005-03-16 British Telecomm Identifying spurious regions in a video frame
GB0502369D0 (en) * 2005-02-04 2005-03-16 British Telecomm Classifying an object in a video frame
JP2007141132A (ja) 2005-11-22 2007-06-07 Renesas Technology Corp 動的再構成可能プロセッサおよびそれを制御するプロセッサ制御プログラム
JP4640825B2 (ja) 2006-02-23 2011-03-02 富士フイルム株式会社 特定向き顔判定方法および装置並びにプログラム
CN100472564C (zh) * 2007-04-30 2009-03-25 北京中星微电子有限公司 一种图像跟踪方法及系统
US8726194B2 (en) * 2007-07-27 2014-05-13 Qualcomm Incorporated Item selection using enhanced control
WO2009019848A1 (ja) * 2007-08-03 2009-02-12 Panasonic Corporation 撮影装置、撮影方法、およびプログラム
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP5077164B2 (ja) * 2008-09-16 2012-11-21 オムロン株式会社 追跡装置及び追跡方法
US8848974B2 (en) * 2008-09-29 2014-09-30 Restoration Robotics, Inc. Object-tracking systems and methods
JP5103665B2 (ja) * 2008-10-24 2012-12-19 国立大学法人広島大学 物体追跡装置および物体追跡方法
JP2010134713A (ja) 2008-12-04 2010-06-17 Sanyo Electric Co Ltd 演算処理装置および変換装置
JP5483899B2 (ja) * 2009-02-19 2014-05-07 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
CN101593425B (zh) * 2009-05-06 2011-01-12 深圳市汉华安道科技有限责任公司 一种基于机器视觉的疲劳驾驶监控方法及系统
JP5054063B2 (ja) * 2009-05-07 2012-10-24 パナソニック株式会社 電子カメラ、画像処理装置及び画像処理方法
CN101923718B (zh) * 2009-06-12 2012-12-19 新奥特(北京)视频技术有限公司 基于粒子滤波和光流矢量的视频目标跟踪方法的优化方法
CN101593346A (zh) * 2009-07-06 2009-12-02 中国人民解放军总装备部军械技术研究所 集成化通用目标视频图像采集识别跟踪器
US20110043537A1 (en) * 2009-08-20 2011-02-24 University Of Washington Visual distortion in a virtual environment to alter or guide path movement
US8218818B2 (en) 2009-09-01 2012-07-10 Behavioral Recognition Systems, Inc. Foreground object tracking
CN102629384B (zh) * 2012-02-28 2014-10-08 成都三泰电子实业股份有限公司 视频监控中异常行为的检测方法
CN102881100B (zh) * 2012-08-24 2017-07-07 济南纳维信息技术有限公司 基于视频分析的实体店面防盗监控方法
CN103093204B (zh) * 2013-01-21 2016-08-31 信帧电子技术(北京)有限公司 行为监测方法及装置
US20150005937A1 (en) * 2013-06-27 2015-01-01 Brain Corporation Action selection apparatus and methods
US9479703B2 (en) * 2014-09-28 2016-10-25 Hai Yu Automatic object viewing methods and apparatus

Also Published As

Publication number Publication date
US10074187B2 (en) 2018-09-11
JPWO2015129152A1 (ja) 2017-03-30
WO2015129152A1 (ja) 2015-09-03
CN106170820A (zh) 2016-11-30
US20160364882A1 (en) 2016-12-15

Similar Documents

Publication Publication Date Title
JP7106665B2 (ja) 単眼深度推定方法およびその装置、機器ならびに記憶媒体
Huang et al. An lstm approach to temporal 3d object detection in lidar point clouds
Li et al. DeepI2P: Image-to-point cloud registration via deep classification
US20230087330A1 (en) Object tracking
WO2012127815A1 (ja) 移動体検出装置および移動体検出方法
US20210319565A1 (en) Target detection method, apparatus and device for continuous images, and storage medium
WO2018176186A1 (en) Semantic image segmentation using gated dense pyramid blocks
EP2854104A1 (en) Semi-dense simultaneous localization and mapping
US20190080462A1 (en) Method and apparatus for calculating depth map based on reliability
US10867390B2 (en) Computer vision processing
CN108367436B (zh) 针对三维空间中的对象位置和范围的主动相机移动确定
Zhang et al. Cloudar: A cloud-based framework for mobile augmented reality
Lakshmi et al. Neuromorphic vision: From sensors to event‐based algorithms
WO2016120132A1 (en) Method and apparatus for generating an initial superpixel label map for an image
EP3608874B1 (en) Ego motion estimation method and apparatus
WO2021109118A1 (en) Object re-identification using pose part based models
JP6380523B2 (ja) 画像認識システムおよび半導体集積回路
WO2020019353A1 (zh) 跟踪控制方法、设备、计算机可读存储介质
Delibasoglu et al. Motion detection in moving camera videos using background modeling and FlowNet
US11715216B2 (en) Method and apparatus with object tracking
Sasagawa et al. High-level video analytics pc subsystem using soc with heterogeneous multicore architecture
Mohamed et al. Asynchronous corner tracking algorithm based on lifetime of events for DAVIS cameras
Mohamed et al. Real-time moving objects tracking for mobile-robots using motion information
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质
Springstübe et al. Continuous convolutional object tracking.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180716

R150 Certificate of patent or registration of utility model

Ref document number: 6380523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150