JP6439820B2 - 対象識別方法、対象識別装置、及び分類器訓練方法 - Google Patents

対象識別方法、対象識別装置、及び分類器訓練方法 Download PDF

Info

Publication number
JP6439820B2
JP6439820B2 JP2017078711A JP2017078711A JP6439820B2 JP 6439820 B2 JP6439820 B2 JP 6439820B2 JP 2017078711 A JP2017078711 A JP 2017078711A JP 2017078711 A JP2017078711 A JP 2017078711A JP 6439820 B2 JP6439820 B2 JP 6439820B2
Authority
JP
Japan
Prior art keywords
optical flow
flow diagram
depth information
convolutional neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017078711A
Other languages
English (en)
Other versions
JP2017191608A (ja
Inventor
ワン チェヌ
ワン チェヌ
ガン ワン
ガン ワン
ジュ ジィアダヌ
ジュ ジィアダヌ
ボー パン
ボー パン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2017191608A publication Critical patent/JP2017191608A/ja
Application granted granted Critical
Publication of JP6439820B2 publication Critical patent/JP6439820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は画像処理分野に関し、より具体的には、画像又は映像における対象を識別するための対象識別方法、対象識別装置、及び分類器訓練方法に関する。
近年、コンピュータの視覚分野では、画像の語義分割や、人の行動識別や、物体の追跡位置決めなどの面で誰の目にも明らかである成果を得た。その中で、画像又は映像における対象の検出と識別の技術は、重要な意味を持っており、その応用もどんどん広範囲になっている。
現在の対象識別方法は、領域の畳み込みニューラルネットワーク(RCNN)に基づく対象検出技術を含み、それはよく訓練された畳み込みニューラルネットワークを用いて該潜在目標領域に対応する特徴を自動的に抽出し、そして、抽出した特徴に基づき分類器によって分類する。しかし、RCNNに基づく対象識別方法の欠点は、畳み込みニューラルネットワークに入力される図のサイズが必ず固定されていなければならいことにあり、潜在目標領域の図の本来の縦横比が失われる可能性があり、物体の識別に不利である。また、対象の識別過程で対象自身が動く状況が考慮されていないので、動く対象の識別結果が精確ではない可能性がある。さらに、識別又は訓練の見本は真実の画像から長方形のマーカーを用いるか切り抜いたものであるので、マーカー又は切りぬいたセグメントに関心の目標対象と関係がない画像情報(即ち「雑情報」)が存在することを避けることができない。雑情報の存在は、必然的に対象識別の精確性に影響する。
よって、対象自身の動き状況を考慮でき、且つ、対象を精確に識別するのに不利な雑情報をフィルタリングし、対象の識別精度が高い、画像又は映像における対象を識別する対象識別方法、対象識別装置、及び分類器訓練方法の提供が望まれる。
上記問題に鑑み、本発明は、画像又は映像における対象を識別するための対象識別方法、対象識別装置、及び分類器訓練方法を提供する。
本発明に開示された一つの実施例によれば、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得するステップと、該深度情報を用いて該オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得るステップと、畳み込みニューラルネットワークを用いて少なくとも該補償後のオプティカルフロー図における特徴成分を抽出するステップと、分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得るステップと、を含む対象識別方法を提供した。
また、本発明の一つの実施例の対象識別方法によれば、前記補償操作が正規化操作であり、該正規化操作は、オプティカルフロー図における各画素点のオプティカルフロー値に対して、該画素点の深度情報を用いて該オプティカルフロー値に対して正規化を行って、各画素点の正規化のオプティカルフロー値を得るステップを含む。
また、本発明の一つの実施例の識別対象方法によれば、該深度情報を用いて該原画像に対して二値化操作を行って、二値化画像を得るステップと、該二値化画像を用いて畳み込みニューラルネットワークで抽出した特徴成分をフィルタリングして、フィルタリング後の特徴成分を取得するステップと、をさらに含み、前記分類器がフィルタリングした特徴成分を分類して、前記対象を識別するための分類結果を得る。
また、本発明の一つの実施例の対象識別方法によれば、前記二値化操作は、該深度情報に基づいて該原画像を複数のブロックに分割するステップと、前記複数のブロックから予め定められた拘束条件を満たす一つのブロックを選択するステップと、前記選択したブロックに基づいて前記二値化画像を生成するステップと、を含む。
また、本発明の一つの実施例の対象識別方法によれば、該畳み込みニューラルネットワークの構造に基づいて、該二値化画像に対してダウンサンプリング操作を行って、ダウンサンプリングした二値化画像を得るステップをさらに含み、前記該二値化画像を用いて畳み込みニューラルネットワークで抽出した特徴成分をフィルタリングすることは、該ダウンサンプリングした二値化画像を用いて畳み込みニューラルネットワークで抽出した特徴成分に対してフィルタリングすることを含む。
また、本発明の一つの実施例の対象識別方法によれば、前記ダウンサンプリング操作は、該畳み込みニューラルネットワークの構造に基づいて該二値化画像を所定の数量のサブレンジに分割するステップと、各サブレンジ内の二値化画素値に対して投票操作を行うステップと、投票結果に基づいて該サブレンジのダウンサンプリング後の二値化画素値を得るステップと、を含む。
また、本発明の一つの実施例の対象識別方法によれば、前記分類結果は分類信頼度を含み、前記方法は、分類器が前記識別しようとする対象を含む複数の領域の各領域で得た分類信頼度に基づき、動的ANMS処理を実行して、抑制後の分類結果を得て前記対象を識別するための分類結果とするステップをさらに含む。
本発明の別の実施例によれば、既知の対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得するステップと、該深度情報を用いて該オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得るステップと、畳み込みニューラルネットワークを用いて少なくとも該補償後のオプティカルフロー図における特徴成分を抽出するステップと、抽出した特徴成分を用いて分類器を訓練するステップと、を含む分類器訓練方法を提供した。
本発明のまた一つの実施例によれば、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得する取得部と、該深度情報を用いて該オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得る補償部と、畳み込みニューラルネットワークを用いて少なくとも該補償後のオプティカルフロー図における特徴成分を抽出する抽出部と、分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得る識別部と、を含む対象識別装置を提供した。
本発明のさらに一種の対象識別装置によれば、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を記憶するように配置されているメモリと、該メモリにカップリングされているプロセッサと、を備え、該プロセッサは、該深度情報を用いて該オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得て、畳み込みニューラルネットワークを用いて少なくとも該補償後のオプティカルフロー図における特徴成分を抽出し、分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得るように配置されている。
本発明の実施例の対象識別方法、対象識別装置、及び分類器訓練方法によれば、それは、画像の深度情報を用いて物体の動き情報とカメラからの遠近とを無関係にし、且つ画像の深度情報を用いて対象を精確に識別するのに不利な雑情報をフィルタリングすることにより、畳み込みニューラルネットワークの対象識別精度を高めることができる。
理解すべきは、上記の一般的な記載及び下記の詳細な記載は、両方とも例示性のものであり、保護を要求する技術の更なる説明を提供することを意図したものである。
図面を参照して本発明の実施例について更なる詳細な説明を記載することにより、本発明の上記およびその他の目的、特徴、メリットをなお一層明確にする。図面は、本発明へのさらなる理解に供するためのものであり、且つ明細書の一部を構成して、本発明の実施例と合わせて本発明を説明することに用いられ、本発明に対する制限とはならない。図面においては、同じ符号は、通常、同じ部又はステップを表している。
本発明の実施例に基づく対象検知装置を表す機能性ブロック図である。 本発明の実施例に基づく対象検知方法を表すフロー図である。 本発明の第1実施例に基づく、識別しようとする対象を表す概要図である。 本発明の第1実施例に基づく、識別しようとする対象を表す概要図である。 本発明の第2実施例に基づく、対象識別装置の機能を表すブロック図である。 本発明の第2実施例に基づく、対象識別方法を表すフロー図である。 本発明の第2実施例に基づく、見本における異なる領域を表す概略図である。 本発明の第2実施例に基づく、対象識別方法の二値化処理をさらに表すフロー図である。 本発明の第2実施例に基づく、対象識別方法の二値化処理をさらに表す概略図である。 本発明の第2実施例に基づく、対象識別方法の二値化画像のダウンサンプリング処理をさらに表すフロー図である。 本発明の第2実施例に基づく、対象識別方法の二値化画像のダウンサンプリング処理をさらに表す概略図である。 本発明の第3実施例に基づく、対象識別装置の機能を表すブロック図である。 本発明の第3実施例に基づく、対象識別方法を表すフロー図である。 本発明の第3実施例に基づく、対象識別方法のNMSを表す概略図である。 本発明の第4実施例に基づく、分類器訓練方法を表すフロー図である。 本発明の第5実施例に基づく、対象識別装置表す機能性ブロック図である。
本発明の目的、技術案、メリットをさらに明確にするため、以下、図面を参照しながら本発明の例示実施例を詳しく説明する。しかし、記載の実施例は本発明の実施例の一部に過ぎず、本発明の全ての実施例ではない。本発明が此処で記載の実施例による制限を受けないと理解すべきである。開示されている本発明の実施例に基づいて、当業者が創造的な作業をしない状況で得られるその他の実施例も全て本発明の保護範囲内に含まれる。
以下、図面を参照しながら、本発明の好ましい実施例について詳細に説明する。
まず、図1を参照しながら、本発明の第1実施例に基づく対象識別装置について記載する。図1は、本発明の第1実施例に基づく対象識別装置の機能を表すブロック図である。図1に示すように、本発明の第1実施例の対象識別装置10は、取得部200と、補償部300と、抽出部400と、識別部500と、を含む。前記対象識別装置10における取得部200と補償部300と抽出部400と識別部500は、前記対象識別装置10の中央処理ユニット(CPU)によって配置可能である。代替可能に、前記取得部200と補償部300と抽出部400と識別部500は前記対象識別装置10の専用処理ユニット(たとえば専用集積回路(ASIC)等)であっても良い。つまり、前記取得部200と補償部300と抽出部400と識別部500は、例えばハードウェア、ソフトウェア、ファームウェア、それらの任意に実行可能な組み合わせであっても良い。理解しやすいように、図1は対象識別装置10における、本発明と密接に関係のあるモジュールだけを示しているが、本発明の実施例に基づく対象識別装置は、当然、その他のモジュール、例えば入力/出力部や表示部や通信部などを含むことも可能である。
具体的に、前記取得部200は、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得することに用いられる。つまり、識別しようとする対象の領域を含む原画像だけを取得することにより状況を識別するのと異なり、本発明の実施例の前記取得部200は、画像捕獲設備(図示せず)で捕獲した識別しようとする対象の領域を含む原画像と、相応の深度情報及び原画像の輝度モデルの見掛け運動に基づき得たオプティカルフロー図を取得する。
本発明の一つの実施例において、原画像と相応の深度情報は前記画像捕獲設備(図示せず)から得られる。前記画像捕獲設備は、識別しようとする対象の領域を含む画像データを取得可能なRGBカメラを含んでも良い。本発明の別の実施例において、前記画像捕獲設備は、識別しようとする対象の領域を含む深度情報を取得可能な深度カメラ(深度ビデオカメラ)を含んでも良い。前記画像捕獲設備は、その後ろの前記取得部200と物理的に分離しても良いし、物理的に同じ位置にあっても良いし、ひいては同じ筺体内に位置しても良い。前記画像捕獲設備がその後ろの前記取得部200と物理的に分離している状況下では、前記画像捕獲設備は更に有線又は無線の方式を経由して、取得した原画像及び相応の深度情報をその後ろの部へ送信する。前記画像捕獲設備がその後ろの前記取得部200と物理的に同じ位置、ひいては同じ筺体内に位置する状況では、前記画像捕獲設備は内部バスを経由して、取得した原画像及び相応の深度情報(即ち、RGBカラー画像データ或いは、深度情報を含むRGBD画像データ)をその後ろの部へ送信する。本発明の開示の更なる実施例においては、本発明の第1実施例による対象識別装置も前記画像捕獲設備を含まなくても良く、有線又は無線の方式を経由してその他の電子設備から、識別しようとする対象の領域を含む原画像及び相応の深度情報を受信する。
前記補償部300は、補償後のオプティカルフロー図を得るように、該深度情報を用いて該オプティカルフロー図に対して補償操作を行うことに用いられる。人が三次元の世界で目標の動きを観察する際、動く目標の輪郭は、網膜で一系列に連続に変化する画像を形成し、これらの連続変化の情報は人の目の網膜(即ち画像平面)を途切れずに「貫流」し、光が「流れ」過ぎると同じようであり、オプティカルフロー(optical flow)と称する。ビデオ追跡分野において、オプティカルフローは画像におけるグレースケールモデルの表面運動を指し、物体の三次元速度ベクトルの画像形成平面上の投影であり、それは物体の画像中の位置の瞬時変化を表示可能である。
具体的に、図3を参照して、目標運動パターン情報の外観相似物体識別に対する作用を説明しており、図4を参照して、一般的な二次元画像オプティカルフロー情報を用いることにより物体運動パターンを推定することがもたらす問題を説明したものである。
図3に示すように、通行人P1と、自転車に乗っている人P2と、モーターバイクに乗っている人P3と、モータビークルP4の、4種類の識別しようとする対象が存在する。異なる種類の対象は、一般的に運動パターンや運動速度などの面で異なっており、速度が遅い順から速い順に並べると、通行人P1と、自転車に乗っている人P2、モーターバイクに乗っている人P3、モータビークルP4となる。しかし、現在の二次元カラー又はグレースケール画像基づくオプティカルフロー方法は、ここでの対象運動推定に直接に用いられることができない。これは、カメラによる画像形成の透視投影変換やオプティカルフロー運動推定の原理によるものからである。
図4に示すように、画像の底端において、カメラから比較的近い通行人P1AとP1Bのオプティカルフロー幅値は、カメラから比較的遠いモーターバイクに乗っている人P3のオプティカルフロー幅値より大きい。二次元画像方法に基づいて計算して得たオプティカルフロー情報を直接にニュートラルネットワークの入力とすることにより動き情報を提供することはできず、原オプティカルフロー画像は距離に無関係な動き情報を提供することができない。
よって、本発明の第1実施例の前記対象識別装置10の前記補償部300が実行する前記補償操作は正規化操作であり、即ち深度図の深度情報を用いることにより原オプティカルフローを正規化し、正規化後のオプティカルフローをニュートラルネットワークの入力とし、識別しようとする対象の動き情報をカメラからの遠近と無関係にする。
具体的に、前記補償部300は以下の等式(1)を用いて原オプティカルフロー情報(変位は画素を単位にして計算する)に対して正規化操作を行う。
なお、
(外1)
は原オプティカルフローの幅値を表し、dは該画素点の深度を表し、fxとfyはそれぞれカメラの焦点距離を表す。上記等式(1)から分かるように、カメラから比較的近い対象より、カメラから比較的遠い対象のオプティカルフローの幅値はさらに多くの補償が与えられる。
図1に戻る。前記抽出部400は、畳み込みニューラルネットワークを用いて少なくとも該補償後のオプティカルフロー図における特徴成分を抽出することに用いられる。
前記識別部500は、分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得ることに用いられる。
図2は、本発明の第1実施例に基づく、対象識別方法を表すフロー図である。前記の図1に記載の本発明の第1実施例に基づく対象識別装置10によって、前記対象識別方法が実行される。本発明の第1実施例の対象識別方法は、以下のステップを含む。
ステップS201において、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得する。上記のように、本発明の実施例の前記取得部200は、画像捕獲設備(図示せず)によって捕獲した識別しようとする対象の領域を含む原画像と、相応の深度情報と、原画像の輝度モデルの見掛け運動に基づき得たオプティカルフロー図と、を取得する。その後、ステップS202へ移る。
ステップS202において、深度情報を用いてオプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得る。上記のように、本発明の実施例の前記補償部300は前記等式(1)を用いて原オプティカルフローに対して正規化操作を行い、正規化したオプティカルフロー図を取得する。前記正規化したオプティカルフロー図において、対象の動き情報とカメラから遠近は無関係である。その後、ステップS203へ移る。
ステップS203において、畳み込みニューラルネットワークを用いて少なくとも補償後のオプティカルフロー図における特徴成分を抽出する。その後、ステップS204へ移る。
ステップS204において、分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得る。
よって、以上の図1から図4に記載の本発明の第1実施例の対象識別装置及び対象識別方法において、深度情報を用いてオプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得て、その後、畳み込みニューラルネットワークを用いて補償後のオプティカルフローにおける特徴成分を抽出することによって、識別対象を正確に反映できる運動パターン情報を得て、対象の分類識別の実行に用いることができる。
以下、図5を参照して、本発明の第2実施例に基づく対象識別装置について説明する。図5は、本発明の第2実施例に基づく、対象識別装置の機能を表すブロック図である。図5に示すように、本発明の第2実施例に基づく対象識別装置50は、以上の図1に記載の本発明に開示の第1実施例に基づく対象識別装置10に比べ、さらに二値化部600が存在する。また、図5に示す対象識別装置50は、図1に示す補償部300を備えないが、本発明の実施例の対象識別装置はこれに限らず、以下のように補償部300と二値化部600の両方を同時に備えても良い(以下に記載の、本発明の第3実施例に基づく対象識別装置を参照する)。
具体的に、図5に示す取得部200は、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得することに用いられる。前記取得部200の具体的配置と機能は、以上の図1の記載と同じであり、ここで重複して記載することは省略する。
さらに、前記二値化部600は、深度情報を用いて原画像に対して二値化操作を行い、二値化画像を得る。前記二値化部600が深度情報を用いて原画像に対して二値化操作を行うことにより、現在の目標と無関係な画像情報をフィルタリングし、その後のスペシャルピラミッドプーリング(Spatial Pyramid Pooling)層に基づく畳み込みニュートラルネットワークで利用することに用いられる。以下、図7から図9を参照して、前記二値化部600が実行する二値化操作について詳細に説明する。
その他、図5に示す抽出部400と識別部500はそれぞれ、以上の図1の記載と同じである。前記抽出部400は、畳み込みニューラルネットワークを用いて二値化画像(具体的には、ダウンサンプリングした二値化画像)における特徴成分を抽出することに用いられる。前記識別部500は、分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得ることに用いられる。注意すべき点は、本発明の第2実施例に基づく対象識別装置50の抽出部400が、畳み込みニューラルネットワークのSPP層を用いて特徴成分の抽出を実行することである。
図6は、本発明の第2実施例に基づく、対象識別方法を表すフロー図である。以上の図5に記載の本発明の第2実施例に基づく識別装置50によって、前記対象識別方法が実行される。本発明の第2実施例に基づく対象識別方法は、以下のステップを含む。
ステップS601において、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得する。その後、ステップS602へ移る。
ステップS602において、深度情報を用いて原画像に対して二値化操作を行って二値化画像を得る。前記二値化部600が深度情報を用いて原画像に対して二値化操作を行うことにより、現在の目標と無関係な画像情報をフィルタリングする。以下、図7から図9を参照して、前記二値化部600が実行する二値化操作について詳細に記載する。その後、ステップS603へ移る。
ステップS603において、畳み込みニューラルネットワークの構造に基づき、二値化画像に対してダウンサンプリング操作を実行し、ダウンサンプリングした二値化画像を得る。以下、図10と図11を参照して、二値化画像に対するダウンサンプリング操作について詳細に説明する。その後、ステップS604へ移る。
ステップS604において、畳み込みニューラルネットワークを用いて、ダウンサンプリングした二値化画像における特徴成分を抽出する。本発明の第2実施例に基づく対象識別方法においては、畳み込みニューラルネットワークのSPP層を用いて特徴成分の抽出を実行する。その後、ステップS605へ移る。
ステップS605において、分類器を用いて抽出した特徴成分を分類して、対象を識別するための分類結果を得る。
図7は、本発明の第2実施例に基づく、見本における異なる領域を表す概略図である。図7に示すように、実際の識別又は訓練見本準備の過程において、見本は真実の画像から長方形のマーカーを用いるか切り抜いたものであるので、マーカー又は切りぬいたセグメントに関心の目標対象に関係がない画像情報、即ち「雑情報」が引き出されたことを避けることができない。図7に示すように、見本70は目標領域71と雑情報領域72を含む。見本全体を畳み込みニューラルネットワークへ入力し、雑情報領域に対して如何なるフィルタリングもしなかった場合、最終的に畳み込みニューラルネットワークによって抽出する特徴ベクトルに雑情報領域の情報が含まれる。これは、抽出する特徴情報が無関係な視覚情報を引き入れることを意味している。よって、本発明の第2実施例に基づく識別対象方法は、距離情報を用いて、現在のセグメントにおける正確な識別に不利な雑情報をフィルタリングすることにより、畳み込みニューラルネットワークが抽出する特徴ベクトルを浄化する作用を奏する。
図8は、本発明の第2実施例に基づく、対象識別方法における二値化処理をさらに表すフロー図である。
ステップS801において、深度情報に基づき原画像を複数のブロックに分割する。その後、ステップS802へ移る。
ステップS802において、複数のブロックから予め定められた拘束条件を満たす一つのブロックを選択する。具体的には、以下の等式(2)の条件を満たすセグメント、即ち、カメラから最も近いセグメントを選択する。
なお、Tは予め定義された面積閾値を表し、
であり、Biは第i個目のクラスタリング又は分割ブロックを表し、BBiは訓練又はテスト見本の外接長方形を表し、area()は画像ブロックが含む画素の個数を求める操作或いは外界長方形の面積を求める操作を表し、Mean()は一つの画素ブロックの深度平均(mean)操作を表す。このように、等式(2)によって、予め定義された面積閾値より大きいことを満たし、且つカメラからの距離が最も近いセグメントを選択する。その後、ステップS803へ移る。
ステップS803において、選択したブロックに基づいて二値化画像を生成する。
図9は、本発明の第2実施例に基づく、対象識別方法における二値化処理をさらに表す概略図である。
深度図の無効画素(即ち、画素無深度値、黒色で示す)に対し、それらの深度情報は、平均値フィルタリング、中央値フィルタリング、信頼伝搬法、或いは、規則に基づく接続線方法により充填が可能である。図9に示すように、疎らな深度又は視差図I1に対して、まずそれに対して稠密化の操作を行い、疎らな深度図I1を稠密な深度図I2に変換する。その後、稠密化した深度図I2で、深度情報を用いることによりクラスタリングと分割の操作を行い、深度情報に基づく二値化マスク画像I3を生成する。その後、クラスタリング・分割の結果に基づき、上記等式(2)の条件を満たすセグメントを選択し、深度情報に基づく二値化マスク画像I4とする。
さらに、上記深度情報に基づく二値マスク画像を用いて、原画像の「雑情報」が畳み込みニューラルネットワークの抽出した特徴に対して影響するのを低減するために、二値マスク画像のサイズは、畳み込みニューラルネットワークが出力する特徴図のサイズと一致していなければならない。一般的に、畳み込みニューラルネットワークの某層で出力する特徴図は最初の入力図のサイズより小さい。これは主に畳み込みニューラルネットワークにおける画像の畳み込みとプーリング化操作によるものである。そして、特徴画像のダウンサンプリングの程度は主に畳み込みとプーリング化操作のステップと関係が有り、ステップが大きくなるほど、特徴図のダウンサンプリングも多くなる。よって、二値化マスク画像も、同程度のダウンサンプリング操作が必要である。
よって、本発明の第2実施例に基づく対象識別方法においては、定義した畳み込みニューラルネットワークの構造に基づいて、以上の図8と図9に記載の二値マスク画像に対しても相応のダウンサンプリング操作が必要である。本発明の第2実施例に基づく対象識別方法は、投票した策略に基づいて二値マスク画像に対してダウンサンプリング操作をしている。
図10は、本発明の第2実施例に基づく、対象識別方法中の二値化画像のダウンサンプリング処理をさらに表すフロー図である。図10に示すように、本発明の第2実施例に基づく対象識別方法の二値化画像のダウンサンプリング処理は、以下のステップを含む。
ステップS1001において、畳み込みニューラルネットワークの構造に基づいて二値化画像を所定の数量のサブレンジに分割する。その後、ステップS1002へ移る。
ステップS1002において、各サブレンジ内の二値化画素に対して投票操作を行う。その後、ステップS1003へ移る。
ステップS1003において、投票結果に基づいてサブレンジのダウンサンプリング後の二値化画素値を得る。
具体的に、図11を参照して、図10に示す本発明の第2実施例に基づく対象識別方法における二値化画像のダウンサンプリング処理について説明する。
図11の左側に、4×4の二値化マスク画像を示し、図11の右側に、投票方法を採用してダウンサンプリングした後の二値化マスク画像を示した。例えば、畳み込みニューラルネットワークの構造に基づいて二値化画像を所定の数量のサブレンジに分割し、その中の一つのサブレンジを図11では101で示す。各サブレンジ内の二値化画素値に対して投票操作を行い、即ち、サブレンジ101の二値化画素に対して投票操作を行う。該サブレンジ101に含まれる4つの画素値はそれぞれ0、1、1、1であるので、投票操作後、得られるダウンサンプリング後のサブレンジ102の二値化画素値は1である。図11から分かるように、ダウンサンプリング後の二値化マスク画像は最初の二値化マスク画像の四分の一のサイズである。
よって、以上の図5から図11に示す本発明の第2実施に基づく対象識別装置と対象識別方法において、画像の深度情報を用いて対象を正確に識別するのに不利な雑情報をフィルタリングすることにより、二値化マスク画像をニュートラルネットワークの一般カラー画像から抽出した特徴ベクトルにおける、雑情報領域と対応する特徴成分をフィルタリングすることに用いることができ、これによって純粋な特徴ベクトルを生成することができる。
以下、図12を参照して、本発明の第3実施例に基づく対象識別装置について記載する。図12は、本発明の第3実施例に基づく、対象識別装置の機能性ブロック図を示すのである。図12に示すように、本発明の第3実施例に基づく対象識別装置120は、以上の図1に記載の本発明の第1実施例に基づく対象識別装置10および図5に示す本発明の第2実施例に基づく対象識別装置50に比べ、NMS(Non-Maximum Suppression)部700を更に備える。また、図12に示す取得部200と補償部300と抽出部400と識別部500と二値化部600の配置は、以上の図1および図5に記載されたものと同じであり、ここでは重複して記載することを省略する。
図12に示すように、本発明の第3実施例に基づく対象識別装置120は、補償部300が深度図の深度情報を用いて原オプティカルフローを正規化し、その後、正規化後のオプティカルフローをニュートラルネットワークの入力とし、識別しようとする対象の動き情報がカメラから遠近と無関係にすることにより、識別対象を正確に反映できる運動パターン情報を得て、対象の分類識別の実行に用いることができる。他方、二値化部600が画像の深度情報を用いて対象を正確に識別するのに不利な雑情報をフィルタリングすることにより、二値化マスク画像をニュートラルネットワークの一般カラー画像から抽出した特徴ベクトルにおける雑情報と対応する領域の特徴成分をフィルタリングすることに用いることができ、これによって純粋な特徴ベクトルを生成することができる。
さらに、前記識別部500において、識別対象の運動パターン情報を正確に反映できる特徴成分、及び、一般カラー画像から抽出した特徴ベクトルから雑情報領域に対応する特徴成分をフィルタリングした純化の特徴ベクトルに基づき、対象を識別する分類結果を得た後、さらに前記NMS部700を配置し、各領域の分類信頼度に基づき、動的ANMS処理を実行して、同一目標の複数重複した識別結果を抑制・除去し、動的ANMS後の結果を最終識別結果として出力する。
図13は、本発明の第3実施例に基づく、対象識別方法を表すフロー図である。以上の図12に記載の本発明の第3実施例に基づく対象識別装置120によって、前記対象識別方法を実行する。本発明の第3実施例に基づく対象識別方法は、以下のステップを含む。
ステップS1301において、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得する。その後、ステップS1302へ移る。
ステップS1302において、深度情報を用いてオプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得る。上記のように、本発明の実施例に基づく前記補償部300は、上記等式(1)を用いて原オプティカルフローに対して正規化操作を行い、正規化したオプティカルフロー図を得る。前記正規化したオプティカルフロー図で、対象の動き情報は、カメラからの遠近とは無関係である。その後、ステップS1303へ移る。
ステップS1303において、深度情報を用いて原画像に対して二値化操作を行って、二値化画像を得る。前記二値化部600が深度情報を用いて原画像に対して二値化操作を行うことにより、現在の目標と無関係な画像情報をフィルタリングする。その後、ステップS1304へ移る。
ステップS1304において、畳み込みニューラルネットワークの構造に基づいて、二値化画像に対してダウンサンプリング操作を行って、ダウンサンプリングした二値化画像を得る。その後、ステップS1305へ移る。
ステップS1305において、畳み込みニューラルネットワークを用いて補償後のオプティカルフロー図及び/又はダウンサンプリングした二値化画像における特徴成分を抽出する。注意すべき点は、ステップS1302で深度図の深度情報を用いて原オプティカルフローを正規化して、続いて正規化後のオプティカルフローをニュートラルネットワークの入力としているので、識別しようとする対象の動き情報とカメラからの遠近とは無関係であり、それによって識別対象の運動パターン情報を正確に反映できる特徴成分を得る、ということである。他方、ステップS1303とS1304で画像の深度情報を用いて対象を正確に識別するのに不利な雑情報をフィルタリングすることにより、二値化マスク画像をニュートラルネットワークの一般カラー画像から抽出した特徴ベクトルにおける雑情報領域と対応する特徴成分をフィルタリングすることに用いることができ、これによって純粋な特徴ベクトルを生成することができる。以上の補償後のオプティカルフロー図とダウンサンプリングした二値化画像の両者は、それぞれ或いは同時に、特徴成分の抽出に用いることができる。その後、ステップS1306へ移る。
ステップS1306において、分類器を用いて抽出した特徴成分を分類して、対象を識別するための分類結果を得る。その後、ステップS1307へ移る。
ステップS1307において、各領域の分類信頼度に基づき、動的ANMS処理を実行して、抑制後の分類結果を得て、対象を識別するための分類結果とする。即ち、動的ANMS処理を実行して、同一目標の複数重複した識別結果を抑制・除去し、動的ANMS後の結果を最終識別結果として出力する。
図14は、本発明の第3実施例に基づく、対象識別方法のNMSを表す概略図である。本発明の第3実施例に基づく対象識別方法のNMSにおいて、NMSにおけるIoU(Intersection-over-Union)閾値は、検出した潜在物体の分布密度に基づいて動的に調整されたものである。図14に示すように、実線の長方形枠は抑制ウィンドウを表し、破線の長方形枠は被抑制ウィンドウを表している。即ち、該一部領域において、該実線の長方形枠の識別点数は、周囲に有する全てのウィンドウ点数よりも(ローカル)最大値である。また、抑制ウィンドウと被抑制ウィンドウは両方とも、識別点数が一定の閾値より大きい定位ウィンドウである。抑制ウィンドウAについては、その周囲の被抑制ウィンドウの数が比較的多くて、密度が比較的高いので、IoUの閾値を上げることにより検出漏れの率を下げる必要がある。逆に、抑制ウィンドウBについては、抑制ウィンドウAに比べて、その周囲の被抑制ウィンドウの数が比較的少なくて、密度が比較的低いので、IoUの閾値を下げることにより同一物体の複数の定位ウィンドウの発生率を減少させる必要がある。また、抑制ウィンドウについては、その周囲被抑制ウィンドウ推定の半径も、その深度情報(深度値が大きくなるほど距離が遠くなる物体で、その推定半径は深度値より小さく、距離が近い同種の物体が画像で半径が小さい)と所属のタイプにより調節する必要がある。
よって、図12から図14に記載の本発明の第3実施例に基づく対象識別装置と対象識別方法において、深度情報を利用することによりオプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得て、その後、畳み込みニュートラルネットワークを用いて補償後のオプティカルフロー図に対して特徴成分の抽出を行い、それによって、識別対象を正確に反映できる運動パターン情報を得て、対象の分類識別の実行に用いることができる。また、画像の深度情報を用いて対象を正確に識別するのに不利な雑情報をフィルタリングすることにより、二値化マスク画像をニュートラルネットワークの一般カラー画像から抽出した特徴ベクトルにおける雑情報領域と対応する特徴成分をフィルタリングすることに用いることができ、これによって純粋な特徴ベクトルを生成することができる。さらに、動的ANMS処理により、同一目標の複数重複した識別結果を抑制・除去し、さらに精確な分類結果を生成することができる。
以上、図1から図14を参照し、本発明の第1実施例から第3実施例に基づく対象識別装置と対象識別方法について記載した。その他、本発明は、対象を識別するための分類器の訓練に用いることも可能である。
図15は、本発明の第4実施例に基づく、分類器訓練方法を表すフロー図である。図15に示すように、本発明の第4実施例に基づく分類器訓練方法は、以下のステップを含む。
ステップS1501において、既知の対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得する。その後、ステップS1502へ移る。
ステップS1502において、深度情報を用いてオプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得る。その後、ステップS1503へ移る。
ステップS1503において、畳み込みニューラルネットワークを用いて少なくとも補償後のオプティカルフロー図における特徴成分を抽出する。その後、ステップS1504へ移る。
ステップS1504において、抽出した特徴成分を用いて分類器を訓練する。
上記のように、本発明の第4実施例に基づく分類器訓練方法では、深度情報を用いてオプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得て、その後、畳み込みニューラルネットワークを用いて補償後のオプティカルフロー図における特徴成分を抽出し、分類器の訓練に用いるオプティカルフロー図が識別対象を正確に反映できる運動パターン情報にさせ、且つ対象のカメラからの位置と関係しない。
本発明の実施例に基づく分類器訓練方法は、画像の深度情報を用いて対象を識別するのに不利な雑情報をフィルタリングすることにより、純粋な特徴ベクトルを生成して分類器の訓練に用いる、ということは容易に理解できる。
図16は、本発明の第5実施例に基づく対象識別装置を示す機能性ブロック図である。図16に示すように、本発明の第5実施例に基づく対象識別装置160は、メモリ1601とプロセッサ1602を備える。具体的に、前記メモリ1601は、識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を記憶するように配置されている。前記プロセッサ1602はこのメモリ1601にカップリングされており、該プロセッサ1602は、該深度情報を用いて該オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得て、畳み込みニューラルネットワークを用いて少なくとも該補償後のオプティカルフロー図における特徴成分を抽出し、分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得るように配置されている。また、該プロセッサ1602は、深度情報を用いて原画像に対して二値化操作を行って二値化画像を得て、畳み込みニューラルネットワークの構造に基づいて二値化画像に対してダウンサンプリング操作を行い、分類器を用いて抽出した特徴成分を分類して、対象を識別するための分類結果を得るように配置されている。
以上、図1から図16を参照して、本発明の実施例に基づく対象識別方法、対象識別装置、及び分類器訓練方法について記載した。これは、画像の深度情報を用いて物体の動き情報とカメラからの遠近とを無関係にし、且つ画像の深度情報を用いて対象を正確に識別するのに不利な雑情報をフィルタリングすることにより、畳み込みニュートラルネットワークの対象識別精度を高めている。
以上、具体的な実施例を参照して本発明の基本原理について記載した。しかし、指摘する必要があるのは、当業者にとって、本発明の方法と装置の全てあるはあらゆるステップ又は部は、あらゆるコンピュータデバイス(プロセッサや記憶媒体等を含む)又はコンピュータデバイスのネットワークで、ハードウェア、ファームウェア、ソフトウェア或いはそれらの任意の組み合わせにより実現可能であり、これは、当業者が本発明の説明を読んだ状況下で、彼らが運用する基本プログラミングにより実現可能である、ということである。
よって、本発明の目的は、あらゆるコンピュータデバイスで一つのプログラム又は一組のプログラムにより実現することも可能である。前記コンピュータデバイスは、公知の一般的な装置であっても良い。よって、本発明の目的は、前記方法又は装置を実現するプログラムコードを含むプログラム製品だけによって実現することも可能である。つまり、このようなプログラム製品も本発明を構成するものであり、且つ、このようなプログラム製品を記憶する記憶媒体も本発明を構成するものでる。明らかに、前記記憶媒体はあらゆる公知の記憶媒体であっても良いし、将来出現するあらゆる記憶媒体であっても良い。
更に指摘する必要があるのは、本発明の装置と方法において、明らかに、各部又は各ステップは分解及び/又は新たな組み合わせができる、ということである。これらの分解及び/又は新たな組み合わせは、本発明と同等の方案であるとみなすべきである。また、上記系列処理を実行するステップは、当然、説明した順序に基づいて時間よって順番に実行可能であるが、必ずしも時間によって順番に実行する必要はない。これらのステップは、平行して、又はそれぞれ独立して実行可能である。
上記具体的実施方式は、本発明の保護範囲を制限するものではない。当業者が明確にしなければならないことは、設計要求やその他の要因によってさまざまな改修や組み合わせや小さな組み合わせや代替が生じても良い、ということである。本発明の精神と原則内で行われるいかなる改修や同等の代替や改良なども、本発明の保護範囲内に含まれる。

Claims (12)

  1. 識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得するステップと、
    前記深度情報を用いて前記オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得るステップと、
    畳み込みニューラルネットワークを用いて少なくとも前記補償後のオプティカルフロー図における特徴成分を抽出するステップと、
    分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得るステップと、を含み、
    前記深度情報を用いて前記原画像に対して二値化操作を行って、二値化画像を得るステップと、
    前記二値化画像を用いて、畳み込みニューラルネットワークで抽出した特徴成分をフィルタリングして、フィルタリング後の特徴成分を取得するステップと、をさらに含み、
    前記分類器は、フィルタリングした特徴成分を分類して、前記対象を識別するための分類結果を得る、対象識別方法。
  2. 前記補償操作が正規化操作であり、
    前記正規化操作は、
    前記オプティカルフロー図における各画素点のオプティカルフロー値に対して、前記画素点の深度情報を用いて前記オプティカルフロー値に対して正規化を行って、各画素点の正規化のオプティカルフロー値を得るステップを含む、請求項1に記載の対象識別方法。
  3. 前記二値化操作は、
    前記深度情報に基づいて前記原画像を複数のブロックに分割するステップと、
    前記複数のブロックから予め定められた拘束条件を満たす一つのブロックを選択するステップと、
    前記選択したブロックに基づいて前記二値化画像を生成するステップと、を含む、請求項に記載の対象識別方法。
  4. 前記畳み込みニューラルネットワークの構造に基づいて、前記二値化画像に対してダウンサンプリング操作を行って、ダウンサンプリングした二値化画像を得るステップをさらに含み、
    前記前記二値化画像を用いて畳み込みニューラルネットワークで抽出した特徴成分をフィルタリングすることは、前記ダウンサンプリングした二値化画像を用いて畳み込みニューラルネットワークで抽出した特徴成分に対してフィルタリングすることを含む、請求項に記載の対象識別方法。
  5. 前記ダウンサンプリング操作は、
    前記畳み込みニューラルネットワークの構造に基づいて前記二値化画像を所定の数量のサブレンジに分割するステップと、
    各サブレンジ内の二値化画素値に対して投票操作を行うステップと、
    投票結果に基づいて前記サブレンジのダウンサンプリング後の二値化画素値を得るステップと、を含む、請求項に記載の対象識別方法。
  6. 前記分類結果は分類信頼度を含み、
    前記対象識別方法は、
    分類器が前記識別しようとする対象を含む複数の領域の各領域で得た分類信頼度に基づき、動的ANMS処理を実行して、抑制後の分類結果を得て前記対象を識別するための分類結果とするステップをさらに含む、請求項1に記載の対象識別方法。
  7. 既知の対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得するステップと、
    前記深度情報を用いて前記オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得るステップと、
    畳み込みニューラルネットワークを用いて少なくとも前記補償後のオプティカルフロー図における特徴成分を抽出するステップと、
    抽出した特徴成分を用いて分類器を訓練するステップと、を含み、
    前記深度情報を用いて前記原画像に対して二値化操作を行って、二値化画像を得るステップと、
    前記二値化画像を用いて、畳み込みニューラルネットワークで抽出した特徴成分をフィルタリングして、フィルタリング後の特徴成分を取得するステップと、をさらに含み、
    フィルタリングした特徴成分を用いて前記分類器を訓練する、分類器訓練方法。
  8. 識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を取得する取得部と、
    前記深度情報を用いて前記オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を得る補償部と、
    畳み込みニューラルネットワークを用いて少なくとも前記補償後のオプティカルフロー図における特徴成分を抽出する抽出部と、
    分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得る識別部と、を含み、
    前記深度情報を用いて前記原画像に対して二値化操作を行って、二値化画像を得る二値化部をさらに含み、
    前記抽出部は、さらに、前記二値化画像を用いて、畳み込みニューラルネットワークで抽出した特徴成分をフィルタリングして、フィルタリング後の特徴成分を取得し、
    前記分類器は、フィルタリングした特徴成分を分類して、前記対象を識別するための分類結果を得る、対象識別装置。
  9. 識別しようとする対象の領域を含む原画像及び相応の深度情報とオプティカルフロー図を記憶するように配置されているメモリと、
    前記メモリにカップリングされているプロセッサと、を備え、
    前記プロセッサは、
    前記深度情報を用いて前記オプティカルフロー図に対して補償操作を行って補償後のオプティカルフロー図を取得し、
    畳み込みニューラルネットワークを用いて少なくとも前記補償後のオプティカルフロー図における特徴成分を抽出し、
    分類器を用いて抽出した特徴成分を分類して、前記対象を識別するための分類結果を得るように配置されており、
    前記プロセッサは、さらに、
    前記深度情報を用いて前記原画像に対して二値化操作を行って、二値化画像を取得し、
    前記二値化画像を用いて、畳み込みニューラルネットワークで抽出した特徴成分をフィルタリングして、フィルタリング後の特徴成分を取得するように構成されており、
    前記分類器は、フィルタリングした特徴成分を分類して、前記対象を識別するための分類結果を得る、対象識別装置。
  10. プログラムであって、
    コンピュータに、請求項1〜のうちの任意の一項に記載の対象識別方法を実行させるためのプログラム。
  11. プログラムであって、
    コンピュータに、請求項に記載の分類器訓練方法を実行させるためのプログラム。
  12. 請求項1又は1に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2017078711A 2016-04-15 2017-04-12 対象識別方法、対象識別装置、及び分類器訓練方法 Active JP6439820B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610236625.7A CN107305635A (zh) 2016-04-15 2016-04-15 对象识别方法、对象识别装置和分类器训练方法
CN201610236625.7 2016-04-15

Publications (2)

Publication Number Publication Date
JP2017191608A JP2017191608A (ja) 2017-10-19
JP6439820B2 true JP6439820B2 (ja) 2018-12-19

Family

ID=58489166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017078711A Active JP6439820B2 (ja) 2016-04-15 2017-04-12 対象識別方法、対象識別装置、及び分類器訓練方法

Country Status (3)

Country Link
EP (1) EP3232371A1 (ja)
JP (1) JP6439820B2 (ja)
CN (1) CN107305635A (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6889653B2 (ja) * 2017-11-24 2021-06-18 Kddi株式会社 動画像圧縮装置及び動画像圧縮方法
CN107992899A (zh) * 2017-12-15 2018-05-04 四川大学 一种机场场面运动目标检测识别方法
US11429807B2 (en) 2018-01-12 2022-08-30 Microsoft Technology Licensing, Llc Automated collection of machine learning training data
US11481571B2 (en) * 2018-01-12 2022-10-25 Microsoft Technology Licensing, Llc Automated localized machine learning training
JP7107544B2 (ja) * 2018-01-16 2022-07-27 Necソリューションイノベータ株式会社 情報処理装置、制御方法、及びプログラム
CN108416266B (zh) * 2018-01-30 2021-10-08 同济大学 一种利用光流提取运动目标的视频行为快速识别方法
CN110135446B (zh) * 2018-02-09 2021-01-22 北京世纪好未来教育科技有限公司 文本检测方法及计算机存储介质
KR102044626B1 (ko) * 2018-04-25 2019-11-13 연세대학교 산학협력단 학습을 이용한 조인트 필터링 장치 및 방법
CN108764365A (zh) * 2018-06-06 2018-11-06 国网福建省电力有限公司厦门供电公司 一种设备标识牌检测方法
CN109308463B (zh) * 2018-09-12 2021-08-13 北京奇艺世纪科技有限公司 一种视频目标识别方法、装置及设备
CN109190581B (zh) * 2018-09-17 2023-05-30 金陵科技学院 图像序列目标检测识别方法
KR102195940B1 (ko) * 2018-09-18 2020-12-28 전남대학교 산학협력단 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법
JP7258509B2 (ja) * 2018-10-15 2023-04-17 オムロン株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
KR102163573B1 (ko) * 2018-11-23 2020-10-12 연세대학교 산학협력단 실시간 객체 탐지 시스템 학습을 위한 합성 데이터 생성 장치 및 방법
CN109766920A (zh) * 2018-12-18 2019-05-17 任飞翔 基于深度学习的物品特征模型计算方法及装置
CN109740664B (zh) * 2018-12-28 2023-01-10 东莞中国科学院云计算产业技术创新与育成中心 柔性物体分类方法、装置、计算机设备和存储介质
CN109675819B (zh) * 2019-01-29 2023-06-23 南京林业大学 基于深度相机的黑果枸杞分选装置及识别与分类算法
CN110135386B (zh) * 2019-05-24 2021-09-03 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110223279B (zh) * 2019-05-31 2021-10-08 上海商汤智能科技有限公司 一种图像处理方法和装置、电子设备
CN111126411B (zh) * 2019-11-07 2023-04-07 浙江大华技术股份有限公司 一种异常行为识别方法及装置
CN113657138B (zh) * 2020-05-12 2024-05-21 哈尔滨工程大学 基于等势星球图的辐射源个体识别方法
CN111598103A (zh) * 2020-06-18 2020-08-28 上海眼控科技股份有限公司 车架号码识别方法、装置、计算机设备和存储介质
CN112396050B (zh) * 2020-12-02 2023-09-15 度小满科技(北京)有限公司 图像的处理方法、设备以及存储介质
WO2023089706A1 (ja) * 2021-11-17 2023-05-25 日本電信電話株式会社 画像処理装置、画像処理方法およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602008005318D1 (de) * 2007-08-22 2011-04-14 Honda Res Inst Europe Gmbh Schätzung der ordnungsgemässen bewegung von objekten mithilfe optischer fluss-, kinematik- und tiefeninformationen
JP5155110B2 (ja) * 2008-11-17 2013-02-27 株式会社日立国際電気 監視装置
WO2013029008A1 (en) * 2011-08-25 2013-02-28 Cornell University Retinal encoder for machine vision
US9165369B1 (en) * 2013-03-14 2015-10-20 Hrl Laboratories, Llc Multi-object detection and recognition using exclusive non-maximum suppression (eNMS) and classification in cluttered scenes
WO2016054778A1 (en) * 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Generic object detection in images
CN104504366A (zh) * 2014-11-24 2015-04-08 上海闻泰电子科技有限公司 基于光流特征的笑脸识别系统及方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法

Also Published As

Publication number Publication date
CN107305635A (zh) 2017-10-31
JP2017191608A (ja) 2017-10-19
EP3232371A1 (en) 2017-10-18

Similar Documents

Publication Publication Date Title
JP6439820B2 (ja) 対象識別方法、対象識別装置、及び分類器訓練方法
US10970871B2 (en) Estimating two-dimensional object bounding box information based on bird's-eye view point cloud
KR102338665B1 (ko) 의미론적 영상을 활용한 포인트 클라우드 분류 장치 및 방법
Yang et al. Depth recovery using an adaptive color-guided auto-regressive model
US8718356B2 (en) Method and apparatus for 2D to 3D conversion using scene classification and face detection
CN105404888B (zh) 结合颜色和深度信息的显著性目标检测方法
CN108242062A (zh) 基于深度特征流的目标跟踪方法、系统、终端及介质
CN103020606B (zh) 一种基于时空上下文信息的行人检测方法
JP6194604B2 (ja) 認識装置、車両及びコンピュータが実行可能なプログラム
JP2013109760A (ja) 対象検知方法及び対象検知システム
CN103578116A (zh) 用于跟踪对象的设备和方法
KR101285106B1 (ko) 영상 데이터 융합 기반의 장애물체 검출 방법 및 장치
CN105187785A (zh) 一种基于动态选取显著特征的跨卡口行人识别系统与方法
US9323989B2 (en) Tracking device
US20180173982A1 (en) System and method for 1d root association providing sparsity guarantee in image data
EP3836083A1 (en) Disparity estimation system and method, electronic device and computer program product
KR101699014B1 (ko) 스테레오 카메라를 이용한 객체 검출 방법 및 장치
CN113673584A (zh) 一种图像检测方法及相关装置
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
JP6361313B2 (ja) 車両検出方法及び装置
Kumar et al. Traffic surveillance and speed limit violation detection system
US20120056995A1 (en) Method and Apparatus for Stereo-Based Proximity Warning System for Vehicle Safety
US10504235B2 (en) Method for generating three dimensional images
KR20140026078A (ko) 객체 추출 장치 및 방법
KR101289386B1 (ko) 스테레오 비전 기반의 장애물체 검출 및 분리 방법과 이를 실행하는 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181105

R151 Written notification of patent or utility model registration

Ref document number: 6439820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151