JP2021064120A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2021064120A JP2021064120A JP2019187913A JP2019187913A JP2021064120A JP 2021064120 A JP2021064120 A JP 2021064120A JP 2019187913 A JP2019187913 A JP 2019187913A JP 2019187913 A JP2019187913 A JP 2019187913A JP 2021064120 A JP2021064120 A JP 2021064120A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature
- scaling
- information processing
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】サイズの小さい検出対象をより精度よく検出可能とする。【解決手段】本発明に係る情報処理装置は、入力画像から特徴を抽出する特徴抽出手段と、前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出手段と、抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別手段と、前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定手段と、前記入力画像の少なくとも一部を変倍する変倍手段と、を備え、前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、前記識別手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像が示す前記検出対象の種別を識別する。【選択図】図1
Description
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
近年では、映像機器のインテリジェント化が進みつつある。具体的な一例として、監視カメラによる撮像結果に応じた画像に対して人体検出技術を適用することで、当該撮像画像に基づき、人数カウント、お客様意図分析、異常動作検知、及び危険領域進入検知等を可能とする技術が提案されている。また、デジタルカメラ等の撮像装置による撮像結果に応じた画像中の人物の位置を追尾することで、当該追尾の結果をフォーカスや露出の制御に利用する技術が注目されている。また、人物のみに限らず、例えば、犬、猫、花等の人物以外の物体(被写体)に注目して、撮像装置による画像の撮像に係る動作を制御可能とする技術も提案されている。
映像機器のインテリジェント化の基盤として、機械学習による物体検出技術が挙げられる。機械学習では、大量の物体と非物体との学習サンプルから、物体と非物体とを区別する特徴量が抽出されることで、認識モデルが作成される。画像中から物体が検出される際には、例えば、原画像のサイズをスケーリングすることでピラミッド画像レイヤーが生成される場合がある。生成された各ピラミッド画像レイヤーに対してラスタースキャンを施すことで部分領域を抽出し、当該部分領域の抽出結果と、認識モデルに記述した各特徴量の判別機応答と、を組み合わせることで、異なるサイズの物体を検出することも可能となる。上記認識モデルの生成に係る技術としては、例えば、サポートベクトルマシンやアダブースト学習に基づきカスケード型の検出器を生成する手法が挙げられる。例えば、非特許文献1及び2には、サポートベクトルマシン及びアダブースト学習を認識処理に応用する技術の一例が開示されている。
また、近年では、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)の性能の飛躍的な向上に伴い、ディープラーニングに関する研究が盛んになってきている。物体検出技術の分野においては、Faster R−CNN(Faster Region−based Convolutional Neural Networks)が、精度と速度が共に優れており注目されている。例えば、非特許文献3には、Faster R−CNNについて開示されている。
C.J.C.Burges "A Tutorial on Support Vector Machines for Pattern Recognition" Data Mining and Knowledge Discovery, vol.2, pp.121−168 (1998)
C.J.C.Burges "A Tutorial on Support Vector Machines for Pattern Recognition" Data Mining and Knowledge Discovery, vol.2, pp.121−168 (1998)
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. "Faster R−CNN: Towards Real−Time Object Detection with Region Proposal Networks". arXiv preprint arXiv:1506.01497, 2015.
上述したFaster R−CNNにおいては、画像の特徴を抽出する際に、多段階の畳み込みとプーリングを行うことで、画像のサイズが2の指数倍数で減少していく。これにより、画像の特徴の抽出に係る処理負荷をより低減することが可能となる。一方で、物体等の検出対象のサイズが小さい場合には、画像のサイズがより小さくなることで当該検出対象もさらに小さくなるため、当該検出対象の種別(物体クラス)の識別に係るクラス識別器の判定にずれが生じる場合がある。すなわち、このような状況下では、画像中からの所望の検出対象の検出に係る精度が低下する場合がある。
本発明は上記の問題を鑑み、サイズの小さい検出対象をより精度よく検出可能とすることを目的とする。
本発明に係る情報処理装置は、入力画像から特徴を抽出する特徴抽出手段と、前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出手段と、抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別手段と、前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定手段と、前記入力画像の少なくとも一部を変倍する変倍手段と、を備え、前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、前記識別手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像が示す前記検出対象の種別を識別する。
本発明によれば、サイズの小さい検出対象をより精度よく検出可能となる。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<技術的課題>
本開示の一実施形態に係る情報処理システムは、ディープラーニングベースの検出技術を利用して画像中に撮像された所望の検出対象(例えば、人物等)を検出する。そこで、ディープラーニングベースの検出技術の一例として、Faster R−CNNについて概要を説明したうえで、当該検出技術に基づく所望の検出対象の検出に係る技術的課題について説明する。
本開示の一実施形態に係る情報処理システムは、ディープラーニングベースの検出技術を利用して画像中に撮像された所望の検出対象(例えば、人物等)を検出する。そこで、ディープラーニングベースの検出技術の一例として、Faster R−CNNについて概要を説明したうえで、当該検出技術に基づく所望の検出対象の検出に係る技術的課題について説明する。
Faster R−CNNは、CNN(Convolutional Neural Network)と、RPN(Region Proposal Network)と、クラス識別器と、から構成される。CNNでは、畳み込み特徴抽出層での「特徴抽出」と、プーリング層での「その特徴をまとめ上げる処理」との繰り返しによって画像の特徴の抽出が行われる。抽出された特徴画像はRPNとクラス識別器とで共有される。
RPNは、CNNにおいて抽出された特徴画像に基づいて、検出対象(物体)の候補領域を抽出する。そして、クラス識別器は、特徴画像に対して、RPNで抽出された一連の候補領域それぞれについて、ROI Pooling層において領域サイズの正規化を行う。正規化された特徴画像について、全結合(Full Connection)層で重みが付けられてニューロンが生成され、Softmax関数等を適応されることで判別モデルが生成される。そして、別の全結合層で回帰推定器が構成され、上記RPNで抽出された候補領域の位置とサイズが高精度化される。
Faster R−CNNは、入力画像全体について特徴画像を作成し、RPNとクラス識別器とで特徴画像を共通化するため、演算量の多いCNNの計算が入力画像に対して1回のみでよく、検出速度が速い。
RPNは、CNNにおいて抽出された特徴画像に基づいて、検出対象(物体)の候補領域を抽出する。そして、クラス識別器は、特徴画像に対して、RPNで抽出された一連の候補領域それぞれについて、ROI Pooling層において領域サイズの正規化を行う。正規化された特徴画像について、全結合(Full Connection)層で重みが付けられてニューロンが生成され、Softmax関数等を適応されることで判別モデルが生成される。そして、別の全結合層で回帰推定器が構成され、上記RPNで抽出された候補領域の位置とサイズが高精度化される。
Faster R−CNNは、入力画像全体について特徴画像を作成し、RPNとクラス識別器とで特徴画像を共通化するため、演算量の多いCNNの計算が入力画像に対して1回のみでよく、検出速度が速い。
ディープラーニングベースのFaster R−CNN検出方法では、CNNで画像の特徴を抽出する際に、多段階の畳み込みとプーリングが行われることで、特徴画像のサイズが2の指数倍数で減少していく。通常、RPNまたはクラス識別器に利用される特徴画像は、原画像に対してサイズが1/16以下となる。そのため、例えば、48×48画素程度の比較的小さい物体については、特徴画像中においては3×3画素の領域に対応することとなる。
この特徴画像の領域をクラス識別器に入力して物体クラスの識別を行う場合には、例えば、当該領域のサイズが所定サイズとなるように正規化が行われる場合がある。Faster R−CNNにおいて、正規化された特徴画像領域のサイズは7×7画素であるため、特徴画像をアップサンプリングすることとなり、情報損失が発生する場合がある。
このような特性から、検出対象のサイズが比較的小さい場合には、クラス識別器の判定にずれが生じる場合がある。このような状況下では、画像中からの所望の検出対象の検出に係る精度が低下する場合がある。
この特徴画像の領域をクラス識別器に入力して物体クラスの識別を行う場合には、例えば、当該領域のサイズが所定サイズとなるように正規化が行われる場合がある。Faster R−CNNにおいて、正規化された特徴画像領域のサイズは7×7画素であるため、特徴画像をアップサンプリングすることとなり、情報損失が発生する場合がある。
このような特性から、検出対象のサイズが比較的小さい場合には、クラス識別器の判定にずれが生じる場合がある。このような状況下では、画像中からの所望の検出対象の検出に係る精度が低下する場合がある。
このような状況を鑑み、本開示では、サイズの小さい検出対象をより精度よく検出可能とする、ディープラーニングベースの検出技術を提案する。
<第1の実施形態>
本発明の第1の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置100」と称する場合がある。
本発明の第1の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置100」と称する場合がある。
(機能構成)
図1を参照して、本実施形態に係る情報処理装置100の機能構成の一例について説明する。情報処理装置100は、制御部101と、解析処理部102とを含む。解析処理部102は、入力画像を解析することで当該入力画像に撮像された所望の検出対象(例えば、人物等)を検出し、検出結果を出力する。制御部101は、解析処理部102の動作を制御する。
図1を参照して、本実施形態に係る情報処理装置100の機能構成の一例について説明する。情報処理装置100は、制御部101と、解析処理部102とを含む。解析処理部102は、入力画像を解析することで当該入力画像に撮像された所望の検出対象(例えば、人物等)を検出し、検出結果を出力する。制御部101は、解析処理部102の動作を制御する。
ここで、解析処理部102についてさらに詳しく説明する。解析処理部102は、特徴抽出部103と、識別部104と、候補領域抽出部105と、変倍パラメータ設定部106と、変倍部107と、統合部108とを含む。
特徴抽出部103は、入力画像(例えば、撮像画像)に対して畳み込み演算とプーリング等の処理を施すことで、当該入力画像から特徴を抽出する。画像からの特徴の抽出に係る技術としては、例えば、AlexNet、VGGNet、及びResNet等が挙げられる。なお、特徴抽出部103による入力画像からの特徴の抽出に係る処理については詳細を別途後述する。
以上のようにして、特徴抽出部103は、入力画像の各部から抽出した特徴を、入力画像中の抽出元となる位置に対応付けることで、抽出された特徴が2次元状に配列された特徴画像(feature maps)を生成する。そして、特徴抽出部103は、生成した特徴画像を識別部104及び候補領域抽出部105に出力する。
以上のようにして、特徴抽出部103は、入力画像の各部から抽出した特徴を、入力画像中の抽出元となる位置に対応付けることで、抽出された特徴が2次元状に配列された特徴画像(feature maps)を生成する。そして、特徴抽出部103は、生成した特徴画像を識別部104及び候補領域抽出部105に出力する。
また、特徴抽出部103は、入力画像の一部が抽出された部分画像が変倍された変倍画像を後述する変倍部107から取得し、当該変倍画像から特徴を抽出してもよい。この場合には、特徴抽出部103は、入力画像からの特徴の抽出時とは異なる条件に基づき、変倍画像から特徴を抽出してもよい。そして、特徴抽出部103は、変倍画像からの特徴の抽出結果に基づく特徴画像を生成し、当該特徴画像を識別部104及び候補領域抽出部105に出力する。
候補領域抽出部105は、入力画像からの特徴の抽出結果に応じた特徴画像を特徴抽出部103から取得し、当該特徴画像に基づき、当該入力画像から候補領域を抽出する。候補領域とは、抽出元となる画像のうち、検出対象と推測される被写体が撮像された領域を示している。例えば、人体が検出対象の場合には、抽出元となる画像からの特徴の抽出結果に基づき、当該画像のうち、人体らしい被写体が撮像された領域を抽出することとなる。
そして、候補領域抽出部105は、入力画像からの候補領域の抽出結果に応じた情報(例えば、検出対象の候補の位置やサイズ等)を識別部104及び変倍パラメータ設定部106に出力する。
そして、候補領域抽出部105は、入力画像からの候補領域の抽出結果に応じた情報(例えば、検出対象の候補の位置やサイズ等)を識別部104及び変倍パラメータ設定部106に出力する。
また、候補領域抽出部105は、変倍画像からの特徴の抽出結果に応じた特徴画像を特徴抽出部103から取得し、当該特徴画像に基づき、当該変倍画像から候補領域を抽出してもよい。この場合には、候補領域抽出部105は、入力画像の場合と同様に、変倍画像からの候補領域の抽出結果に応じた情報を識別部104及び変倍パラメータ設定部106に出力する。
変倍パラメータ設定部106は、候補領域抽出部105から候補領域の抽出結果に応じた情報を取得し、当該情報に基づき、当該候補領域の抽出元となる画像(例えば、入力画像や変倍画像)に対して変倍領域を設定する。また、変倍パラメータ設定部106は、候補領域の抽出結果に応じた情報に基づき、画像のサイズの変倍に係る変倍率を設定する。なお、変倍領域及び変倍率については設定方法とあわせて詳細を別途後述する。
そして、変倍パラメータ設定部106は、変倍領域に関する情報(例えば、変倍領域の位置やサイズ等)と、変倍率に関する情報と、を変倍部107に出力する。
そして、変倍パラメータ設定部106は、変倍領域に関する情報(例えば、変倍領域の位置やサイズ等)と、変倍率に関する情報と、を変倍部107に出力する。
変倍部107は、変倍領域に関する情報と、変倍率に関する情報と、を変倍パラメータ設定部106から取得する。変倍部107は、上記変倍率に基づき、変倍領域が設定された画像(例えば、入力画像)のうち当該変倍領域に対応する部分画像のサイズを変倍し、サイズが変倍された部分画像(すなわち、変倍画像)に関する情報を特徴抽出部103に出力する。この場合には、特徴抽出部103は、変倍領域から特徴を抽出し、当該特徴の抽出結果を識別部104及び候補領域抽出部105に出力することとなる。
識別部104は、例えば、Faster R−CNNにおけるクラス識別器に相当する。識別部104は、特徴抽出部103から特徴画像を取得し、候補領域抽出部105から当該特徴画像の生成元となる画像(例えば、入力画像や変倍画像)からの候補領域の抽出結果に応じた情報を取得する。識別部104は、特徴画像中の候補領域に撮像されている被写体の物体クラス(換言すると被写体の種別)を識別する。例えば、識別部104は、全結合(Full Connection)層において、特徴画像中の候補領域をROI Poolingでサイズを正規化した特徴画像領域の各画素に重みを掛けて、物体の尤度を算出し、当該物体の尤度に基づき物体クラスを識別する。そして、識別部104は、特徴画像から抽出された一連の候補領域それぞれに撮像された被写体の物体クラスの識別結果に応じた情報(例えば、物体の位置、サイズ、及び尤度等)を統合部108に出力する。
統合部108は、特徴画像から抽出された一連の候補領域それぞれに撮像された被写体(物体)の物体クラスの識別結果に応じた情報を、識別部104から取得する。統合部108は、一連の候補領域それぞれについての被写体の物体クラスの識別結果を統合する。例えば、統合部108は、重畳していない個々の候補領域については、個々の被写体(物体)が撮像された物体領域と認識する。一方で、統合部108は、互いに重畳する複数の候補領域については、同じ物体クラスとして識別された複数の候補領域を1つの候補領域として統合したうえで、当該物体クラスに対応する被写体が撮像された物体領域と認識する。
そして、統合部108は、上記統合結果に基づく一連の物体領域の認識結果に基づき、入力画像からの検出対象となる被写体の検出結果を所定の出力先に出力する。具体的な一例として、統合部108は、ディスプレイ等の出力装置に被写体の上記検出結果を出力させることで、当該検出結果をユーザに提示してもよい。また、他の一例として、統合部108は、人数カウント、お客様意図分析、異常動作検知、及び危険領域進入検知等の解析を行う解析装置に対して、上記検出結果を出力してもよい。これにより、当該解析装置は、上記検出結果を利用して各種解析を行うことが可能となる。
そして、統合部108は、上記統合結果に基づく一連の物体領域の認識結果に基づき、入力画像からの検出対象となる被写体の検出結果を所定の出力先に出力する。具体的な一例として、統合部108は、ディスプレイ等の出力装置に被写体の上記検出結果を出力させることで、当該検出結果をユーザに提示してもよい。また、他の一例として、統合部108は、人数カウント、お客様意図分析、異常動作検知、及び危険領域進入検知等の解析を行う解析装置に対して、上記検出結果を出力してもよい。これにより、当該解析装置は、上記検出結果を利用して各種解析を行うことが可能となる。
(ハードウェア構成)
図2を参照して、本実施形態に係る情報処理装置100のハードウェア構成の一例について説明する。情報処理装置100は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、外部記憶装置206とを含む。
CPU201は、ROM202やRAM203に格納されているコンピュータプログラムやデータを用いて情報処理装置100の全体を制御する。これにより、CPU201は、図1に示す情報処理装置100の各機能を実現する。なお、情報処理装置100がCPU201とは異なる1又は複数の専用のハードウェアを有し、CPU201による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、及びDSP(デジタルシグナルプロセッサ)等が挙げられる。
ROM202は、情報処理装置100の起動時に実行されるブートプログラムや各種データを格納する。RAM203は、CPU201が各種処理を実行するための制御プログラムを格納するとともに、CPU201が各種処理を実行する際の作業領域を提供する。外部記憶装置206は、例えば、ハードディスク、フロッピーディスク(登録商標)、光ディスク、磁気ディスク、光磁気ディスク、及び磁気テープ等により実現され、種々のデータを記憶する。
図2を参照して、本実施形態に係る情報処理装置100のハードウェア構成の一例について説明する。情報処理装置100は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、外部記憶装置206とを含む。
CPU201は、ROM202やRAM203に格納されているコンピュータプログラムやデータを用いて情報処理装置100の全体を制御する。これにより、CPU201は、図1に示す情報処理装置100の各機能を実現する。なお、情報処理装置100がCPU201とは異なる1又は複数の専用のハードウェアを有し、CPU201による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、及びDSP(デジタルシグナルプロセッサ)等が挙げられる。
ROM202は、情報処理装置100の起動時に実行されるブートプログラムや各種データを格納する。RAM203は、CPU201が各種処理を実行するための制御プログラムを格納するとともに、CPU201が各種処理を実行する際の作業領域を提供する。外部記憶装置206は、例えば、ハードディスク、フロッピーディスク(登録商標)、光ディスク、磁気ディスク、光磁気ディスク、及び磁気テープ等により実現され、種々のデータを記憶する。
情報処理装置100は、NIC(Network Interface Card)208と、ビデオI/F209と、のような他の装置との間で各種情報やデータを送受信するための各種インタフェースを含んでもよい。
NIC208は、情報処理装置100の外部の装置との通信に用いられる。例えば、情報処理装置100が外部の装置と有線で接続される場合には、通信用のケーブルがNIC208に接続される。情報処理装置100が外部の装置と無線通信する機能を有する場合には、NIC208はアンテナを備える。
ビデオI/F209は、他の装置との間で画像データの送受信を行うためのインタフェースである。例えば、ビデオI/F209は、同軸ケーブル等の伝送路を介して撮像装置に接続されることで、当該撮像装置による撮像結果に応じた画像データを取り込むことが可能となる。
NIC208は、情報処理装置100の外部の装置との通信に用いられる。例えば、情報処理装置100が外部の装置と有線で接続される場合には、通信用のケーブルがNIC208に接続される。情報処理装置100が外部の装置と無線通信する機能を有する場合には、NIC208はアンテナを備える。
ビデオI/F209は、他の装置との間で画像データの送受信を行うためのインタフェースである。例えば、ビデオI/F209は、同軸ケーブル等の伝送路を介して撮像装置に接続されることで、当該撮像装置による撮像結果に応じた画像データを取り込むことが可能となる。
情報処理装置100は、キーボード204やマウス205等のようなユーザからの指示を受け付ける入力デバイスや、ディスプレイ207等のようなユーザへの情報の提示を行うための出力デバイスを含んでもよい。
(処理)
図3を参照して、本実施形態に係る情報処理装置100の処理の一例について説明する。
S301において、情報処理装置100は、他の装置から入力画像を取得する。具体的な一例として、図1に不図示の画像入力部が、入力画像を外部デバイスからメモリに展開し、メモリに展開された当該入力画像を情報処理装置100に入力してもよい。
図3を参照して、本実施形態に係る情報処理装置100の処理の一例について説明する。
S301において、情報処理装置100は、他の装置から入力画像を取得する。具体的な一例として、図1に不図示の画像入力部が、入力画像を外部デバイスからメモリに展開し、メモリに展開された当該入力画像を情報処理装置100に入力してもよい。
S302において、特徴抽出部103は、情報処理装置100に入力された入力画像に対して畳み込み演算及びプーリング等の処理を施すことで、当該入力画像から特徴を抽出する。
ここで、図4を参照して、特徴抽出部103による入力画像からの特徴の抽出に係る処理について、VGGNet−16を用いて特徴を抽出する場合の一例について詳細に説明する。なお、入力画像は、224×224×3のサイズのカラー画像であるものとする。
特徴抽出部103は、入力画像に対して少なくとも1回以上の畳み込み演算及びプーリングを施すことで特徴画像を得る。
具体的には、特徴抽出部103は、第1回目の畳み込み演算を64種類(64チャンネル)の3×3×3のカーネルで行うことで特徴画像を得る。特徴抽出部103は、畳み込み演算尾後に各特徴画像の各画素について、以下に(式1)として示すReLU関数に基づき画素値処理を実行し、学習の収束を加速する。結果として、第1層の特徴画像のサイズは、224×224×64となる。また、図5は、RuLU関数の一例を示した図である。
具体的には、特徴抽出部103は、第1回目の畳み込み演算を64種類(64チャンネル)の3×3×3のカーネルで行うことで特徴画像を得る。特徴抽出部103は、畳み込み演算尾後に各特徴画像の各画素について、以下に(式1)として示すReLU関数に基づき画素値処理を実行し、学習の収束を加速する。結果として、第1層の特徴画像のサイズは、224×224×64となる。また、図5は、RuLU関数の一例を示した図である。
特徴抽出部103は、第1回目の畳み込み演算の後に、マックスプーリング(max pooling)処理を実行する。VGGNet−16におけるマックスプーリングでは、上記第1回目の畳み込み演算後の特徴画像について、2×2のブロックのそれぞれから最大値を抽出することで、ダウンサンプリングが行われる。
特徴抽出部103は、第2回目の畳み込み演算を128種類の3×3×64のカーネルで行い、得られる特徴画像に対してReLU関数に基づく画素値処理を実行する。第2回目の畳み込み演算後の第2層の特徴画像のサイズは、112×112×128となる。また、特徴抽出部103は、畳み込み演算の後に、マックスプーリング処理を実行する。
特徴抽出部103は、第3回目の畳み込み演算を256種類の3×3×128のカーネルで行い、得られる特徴画像に対してReLU関数に基づく画素値処理を実行する。第3回目の畳み込み演算後の第3層の特徴画像のサイズは、56×56×256となる。また、特徴抽出部103は、畳み込み演算の後に、マックスプーリング処理を実行する。
特徴抽出部103は、第4回目の畳み込み演算を512種類の3×3×256のカーネルで行い、得られる特徴画像に対してReLU関数に基づく画素値処理を実行する。第4回目の畳み込み演算後の第4層の特徴画像のサイズは、56×56×256となる。また、特徴抽出部103は、畳み込み演算の後に、マックスプーリング処理を実行する。
特徴抽出部103は、第5回目の畳み込み演算を512種類の3×3×512のカーネルで行い、得られる特徴画像に対してReLU関数に基づく画素値処理を実行する。第5回目の畳み込み演算後の第5層の特徴画像のサイズは、14×14×512となる。これにより、CNNによる特徴抽出の結果である第5層の特徴画像は、入力画像のサイズより16倍小さくなる。
Faster R−CNNにおいて、上記第5層の特徴画像は、特徴抽出部103と、後段に位置する識別部104及び候補領域抽出部105と、の間で共有される。
Faster R−CNNにおいて、上記第5層の特徴画像は、特徴抽出部103と、後段に位置する識別部104及び候補領域抽出部105と、の間で共有される。
ここで、改めて図3を参照する。S303において、候補領域抽出部105は、上記第5層の特徴画像に基づき候補領域を抽出する。
Faster R−CNNにおいて、候補領域抽出部105はRPNに相当する。RPNは、上記第5層の特徴画像について、3×3のスライディングウィンドウで走査を行う。各スライディングウィンドウについて、512次元の特徴ベクトルが作成され、3スケールと3アスペクト比との組み合わせに基づく9種類のアンカーが設定される。各アンカーについて、上記特徴ベクトルに基づき候補領域であるか否かの判別が行われ、候補領域のサイズの回帰推定が行われる。RPNにおいて、異なるサイズの物体(被写体)の候補領域の抽出を行うために、入力画像における128、256、及び512画素の3スケールのアンカーが用意される。また、バス、飛行機、人体、顔、犬、猫等の異なる種類の物体の候補領域を抽出するために、3アスペクト比のアンカーが設定されている。これにより、候補領域抽出部105は、サイズ及び種類の異なる物体の候補領域を抽出することが可能となる。
Faster R−CNNにおいて、候補領域抽出部105はRPNに相当する。RPNは、上記第5層の特徴画像について、3×3のスライディングウィンドウで走査を行う。各スライディングウィンドウについて、512次元の特徴ベクトルが作成され、3スケールと3アスペクト比との組み合わせに基づく9種類のアンカーが設定される。各アンカーについて、上記特徴ベクトルに基づき候補領域であるか否かの判別が行われ、候補領域のサイズの回帰推定が行われる。RPNにおいて、異なるサイズの物体(被写体)の候補領域の抽出を行うために、入力画像における128、256、及び512画素の3スケールのアンカーが用意される。また、バス、飛行機、人体、顔、犬、猫等の異なる種類の物体の候補領域を抽出するために、3アスペクト比のアンカーが設定されている。これにより、候補領域抽出部105は、サイズ及び種類の異なる物体の候補領域を抽出することが可能となる。
S304において、変倍パラメータ設定部106は、S303において抽出された物体の候補領域のサイズに基づきグルーピングを行う。変倍パラメータ設定部106は、類似するサイズの候補領域(換言すると、サイズの差が閾値以下の候補領域)を集めることで変倍領域を設定する。
本実施形態では、ミーンシフト法を上記グルーピングの方法として利用する。ミーンシフト法は、それぞれの物体の候補領域について、以下に(式2)として示すような他の物体の候補領域との距離を求める。
上記(式2)において、w0及びh0は、注目している物体の候補領域の幅及び高さである。これに対して、wi及びhiは、他の候補領域の幅及び高さである。変倍パラメータ設定部106は、距離の閾値Rに基づき、注目している物体の候補領域との距離diが閾値Rより小さい一連の候補領域を集めて、平均幅w0 -と平均高さh0 -とを求める。なお、「w0 -」は、w0に対してバーを付したものとする。同様に、「h0 -」は、h0に対してバーを付したものとする。
変倍パラメータ設定部106は、平均幅w0 -と平均高さh0 -とに基づき仮の物体候補領域を規定したうえで、距離diが閾値R以下の一連の候補領域を集めて、平均幅w0 -と平均高さh0 -とを更新する。変倍パラメータ設定部106は、以上の処理を、平均幅w0 -と平均高さh0 -との更新が困難となるまで繰り返し実行する。
変倍パラメータ設定部106は、平均幅w0 -と平均高さh0 -とに基づき仮の物体候補領域を規定したうえで、距離diが閾値R以下の一連の候補領域を集めて、平均幅w0 -と平均高さh0 -とを更新する。変倍パラメータ設定部106は、以上の処理を、平均幅w0 -と平均高さh0 -との更新が困難となるまで繰り返し実行する。
このように、変倍パラメータ設定部106は、抽出された一連の物体の候補領域について、それぞれの平均幅w0 -と平均高さh0 -とを繰り返し更新し、最終的に仮の物体領域との距離が閾値以下の候補領域を1つの纏まりとする。1つの纏まりに含まれる一連の物体の候補領域は類似した幅と高さとを有しており、変倍パラメータ設定部106は、これらの物体の候補領域を含む1つの変倍領域を設定する。
実際には、CPUやGPUのメモリが有限でありことを鑑みると、上記変倍領域は当該メモリの容量に応じたサイズ以下となることが望ましいため、物体の候補領域間の距離は、サイズ要素に加えて位置要素を考慮した方が望ましい場合がある。このような状況を鑑み、物体の候補領域間の距離は、以下に(式3)として示す関係式により定義されてもよい。
上記(式3)において、x0及びy0は、注目している物体の公報領域の中心座標である。これに対して、xi及びyiは、他の候補領域の中心座標である。また、a及びbは重みである。変倍パラメータ設定部106は、上記(式3)に基づき変倍領域を設定することで、変倍領域が所定サイズ以上となる場合に、当該変倍領域を所定サイズに分割する。
そして、変倍パラメータ設定部106は、注目している変倍領域に含まれる一連の物体の候補領域が所定のサイズ範囲に収まるように変倍率を決定する。例えば、変倍率scaleは、以下に(式4)として示す関係式に基づき決定される。
上記(式4)において、w1及びh1は、物体の候補領域の最小幅及び最小高さを示している。また、w2及びh2は、物体の候補領域の最大幅及び最大高さを示している。これに対して、wmin及びhminは、変倍された領域の最小幅及び最小高さを示している。また、wmax及びhmaxは、変倍された領域の最大幅及び最大高さを示している。
S305において、制御部101は、S306〜S312の一連の処理が、設定された一連の変倍領域それぞれについて繰り返し実行されるように制御する。
S307において、特徴抽出部103は、S302と同様に、S306で変倍された変倍領域について、畳み込み演算、ReLU演算、及びマックスプーリングを行い、特徴画像を求める。ただし、S307の処理は、物体の検出を目的とした特徴抽出となるため、特徴抽出に係る条件(パラメータ)として、S302の処理とは異なる条件(パラメータ)が適用されてもよい。
S308において、候補領域抽出部105は、S303と同様に、S306で変倍された変倍領域から物体の候補領域を抽出する。ただし、S308の処理は、物体の検出を目的とした候補領域の抽出となるため、物体の候補領域の抽出に係る条件(パラメータ)として、S303の処理とは異なる条件(パラメータ)が適用されてもよい。
S309において、制御部101は、S310及びS311の処理が、抽出された一連の候補領域それぞれについて繰り返し実行されるように制御する。
S310において、識別部104は、抽出された物体の候補領域に対応する特徴画像中の領域(特徴画像領域)を、特徴画像から抽出して所定サイズに正規化する。
例えば、入力画像にある48×48の顔領域が、候補領域抽出部105において3×3の候補領域として抽出された場合には、識別部104は、この候補領域に対応する3×3の特徴画像領域を7×7に正規化する。この処理は、Faster R−CNNにおけるROI Poolingに相当する。
ROI Poolingが行われる際に、特殊なアップサンプリングが行われるため、情報損失が生じることで小さい物体の検出率が低下し、結果として誤検出が増加する場合がある。本発明では、上記した正規化処理時の情報損失を抑えるために、候補領域抽出部105により抽出された物体の候補領域を、所定サイズに変倍したうえで、正規化処理を行う際にダウンサンプリングを行う。
例えば、入力画像にある48×48の顔領域が、候補領域抽出部105において3×3の候補領域として抽出された場合には、識別部104は、この候補領域に対応する3×3の特徴画像領域を7×7に正規化する。この処理は、Faster R−CNNにおけるROI Poolingに相当する。
ROI Poolingが行われる際に、特殊なアップサンプリングが行われるため、情報損失が生じることで小さい物体の検出率が低下し、結果として誤検出が増加する場合がある。本発明では、上記した正規化処理時の情報損失を抑えるために、候補領域抽出部105により抽出された物体の候補領域を、所定サイズに変倍したうえで、正規化処理を行う際にダウンサンプリングを行う。
S311において、識別部104は、全結合層において、ROI Poolingでサイズを正規化した特徴画像領域の各画素に重みを掛けて、物体の尤度を算出し、当該物体の尤度に基づき物体クラス(換言すると、被写体の種別)を識別する。
例えば、識別部104は、正規化した特徴画像領域に対して物体クラスの識別を行う際に、特徴抽出部103や候補領域抽出部105が利用する学習結果とは異なる学習結果に基づく重みを適用してもよい。具体的な一例として、識別部104は、特徴抽出部103や候補領域抽出部105とは、別の学習画像、別のAugmentation方法で水増しした学習画像、別のloss関数、別のHyperParameter等での学習に基づく重みを利用してもよい。
例えば、識別部104は、正規化した特徴画像領域に対して物体クラスの識別を行う際に、特徴抽出部103や候補領域抽出部105が利用する学習結果とは異なる学習結果に基づく重みを適用してもよい。具体的な一例として、識別部104は、特徴抽出部103や候補領域抽出部105とは、別の学習画像、別のAugmentation方法で水増しした学習画像、別のloss関数、別のHyperParameter等での学習に基づく重みを利用してもよい。
本発明は、物体の候補領域を所定のサイズ範囲に変倍するため、識別部104で識別される物体のサイズは所定の範囲に限定されており、識別部104による物体クラスの識別に係る精度を向上させることが可能となる。
また、別の全結合層において、ROI Poolingによりサイズが正規化された特徴画像領域の各画素に重みを掛けることで、物体の位置及びサイズを回帰推定して高精度化することも可能となる。
また、別の全結合層において、ROI Poolingによりサイズが正規化された特徴画像領域の各画素に重みを掛けることで、物体の位置及びサイズを回帰推定して高精度化することも可能となる。
S312は、S309と対応したループ端である。また、S313は、S305と対応したループ端である。
S314において、統合部108は、一連の変倍領域について、物体と判定した候補領域の位置とサイズとを入力画像にマッピングする。統合部108は、重畳していない個々の候補領域については、個々の被写体(物体)が撮像された物体領域と認識する。一方で、統合部108は、互いに重畳する複数の候補領域については、同じ物体クラスとして識別された複数の候補領域を1つの候補領域として統合したうえで、当該物体クラスに対応する被写体が撮像された物体領域と認識する。そして、統合部108は、上記統合結果に基づく一連の物体領域の認識結果に基づき、入力画像からの検出対象となる被写体の検出結果を所定の出力先に出力する。
本実施形態では、S303において候補領域が抽出される際に、抽出された候補領域に関する情報が変倍パラメータ設定部106に直接入力され、変倍領域と変倍率とが設定される。S303において候補領域が抽出された後に、NMS(Non Maximum Suppression)手法を用いることで、候補領域の数を減らしてから、変倍領域と変倍率とが設定されてもよい。
本実施形態では、S304において変倍領域が設定される際に、ミーシフト法を利用しているが、ミーンシフト法の利用に替えて、S103で抽出された候補領域のそれぞれについて変倍領域が設定されたうえで当該変倍領域が変倍されてもよい。
また、S104において変倍領域が設定される際に、変倍された物体の候補領域の幅と高さとに基づいて、グルーピングのサイズ範囲が決定され、同じグルーピング範囲に属する物体の候補領域が集められることで変倍領域が設定されてもよい。
また、S104において変倍領域が設定される際に、変倍された物体の候補領域の幅と高さとに基づいて、グルーピングのサイズ範囲が決定され、同じグルーピング範囲に属する物体の候補領域が集められることで変倍領域が設定されてもよい。
具体的な一例として、物体の候補領域について最小幅wmin、最小高さhmin、最大幅wmax、最大高さhminとする。また、変倍された物体の候補領域について、最小幅Wmin、最小高さHmin、最大幅Wmax、最大高さHminとする。そのうえで、パラメータS、a、及びbを以下のように設定する。
この場合には、グルーピングのサイズの範囲wは、例えば以下のように設定される。
物体の候補領域の幅が同じグルーピングサイズの範囲に属する候補領域を集めて、変倍領域が設定されるとよい。これにより、各変倍領域内の一連の物体の候補領域を同じ倍率で所定の範囲に変倍することが可能となる。
まだ、S304において、変倍パラメータ設定部106は、変倍領域を設定する際に、位置またはサイズが類似した物体の候補領域を同じグループに集めているが、種類の異なる物体を異なるグループに集めてもよい。
また、S305からS313において、一連の変倍領域について、物体候補領域が所定サイズの範囲に変倍されてから判別が行われているが、処理速度の面を考慮する場合には、拡大を行う変倍領域のみについて変倍を行うように、制御部101に制御させてもよい。
また、S306において、変倍部107は、変倍領域を変倍する際に、従来の内挿補間方法を利用しているが、他の一例として、超解像手法、特にニューラルネットワークを利用した超解像手法により変倍を行ってもよい。
また、S311において、全結合層でクラス識別器を構成しているが、Fully Convolution Networkでクラス識別器を構成することも可能である。
また、識別部104は、1つの種類の物体を識別するクラス識別器と、複数の種類の物体を識別するクラス識別器と、のいずれを利用してもよい。
また、上記では、本実施形態に係る情報処理装置100の処理の本質をわかりやすいように説明を行っているが、実装上の観点や性能向上の観点から一部の処理手順等を適宜変更することで最適化が図られてもよい。
<第2の実施形態>
本発明の第2の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置600」と称する場合がある。また、以降では、主に図1に示す情報処理装置100と異なる部分に着目して説明し、情報処理装置100と実質的に同様の部分については、詳細な説明は省略する。
本発明の第2の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置600」と称する場合がある。また、以降では、主に図1に示す情報処理装置100と異なる部分に着目して説明し、情報処理装置100と実質的に同様の部分については、詳細な説明は省略する。
(機能構成)
図6を参照して、本実施形態に係る情報処理装置600の機能構成の一例について説明する。情報処理装置600は、制御部601と、解析処理部602とを含む。制御部601は、図1に示す制御部101に相当する。解析処理部602は、第1特徴抽出部603と、第1候補領域抽出部604と、変倍パラメータ設定部605と、変倍部606と、第2特徴抽出部607と、第2候補領域抽出部608と、識別部609と、統合部610とを含む。変倍パラメータ設定部605、変倍部606、識別部609、及び統合部610は、図1に示す変倍パラメータ設定部106、変倍部107、識別部104、及び統合部108に相当する。
図6を参照して、本実施形態に係る情報処理装置600の機能構成の一例について説明する。情報処理装置600は、制御部601と、解析処理部602とを含む。制御部601は、図1に示す制御部101に相当する。解析処理部602は、第1特徴抽出部603と、第1候補領域抽出部604と、変倍パラメータ設定部605と、変倍部606と、第2特徴抽出部607と、第2候補領域抽出部608と、識別部609と、統合部610とを含む。変倍パラメータ設定部605、変倍部606、識別部609、及び統合部610は、図1に示す変倍パラメータ設定部106、変倍部107、識別部104、及び統合部108に相当する。
図6に示すように、本実施形態に係る情報処理装置600は、変倍パラメータの設定と、物体の検出と、で特徴抽出部と候補領域抽出部とが異なる物体の種類に対応可能となるように分離されている。すなわち、情報処理装置600は、変倍パラメータ設定用の第1特徴抽出部603及び第1候補領域抽出部604と、物体検出用の第2特徴抽出部607及び第2候補領域抽出部608と、が個別に設けられている点で、図1に示す情報処理装置100と異なる。
具体的な一例として、変倍パラメータ設定用の第1特徴抽出部603及び第1候補領域抽出部604が人体の候補領域の抽出を行い、物体検出用の第2特徴抽出部607及び第2候補領域抽出部608が顔の候補領域の抽出を行ってもよい。これにより、例えば、第1特徴抽出部603及び第1候補領域抽出部604は、検出対象となる物体(被写体)とそのコンテキストを含む大きめの領域の特徴を学習することで、小さい物体をより容易に探索することが可能となる。これに対して、第2特徴抽出部607及び第2候補領域抽出部608は、サイズが所定の範囲にある物体を特定することで、検出対象となる物体(被写体)をより高精度に検出することが可能となる。
具体的な一例として、変倍パラメータ設定用の第1特徴抽出部603及び第1候補領域抽出部604が人体の候補領域の抽出を行い、物体検出用の第2特徴抽出部607及び第2候補領域抽出部608が顔の候補領域の抽出を行ってもよい。これにより、例えば、第1特徴抽出部603及び第1候補領域抽出部604は、検出対象となる物体(被写体)とそのコンテキストを含む大きめの領域の特徴を学習することで、小さい物体をより容易に探索することが可能となる。これに対して、第2特徴抽出部607及び第2候補領域抽出部608は、サイズが所定の範囲にある物体を特定することで、検出対象となる物体(被写体)をより高精度に検出することが可能となる。
(処理)
図7を参照して、情報処理装置600の処理の一例について説明する。
図7に示す処理は、第1候補領域抽出部604と第2候補領域抽出部608とが異なる種類の物体の候補領域を抽出対象とする場合に、S704において、変倍部606が2つの方法で変倍率を決定することが可能である点が、図3に示す処理と異なる。
1つ目の方法では、変倍部606は、第1候補領域抽出部604が抽出したコンテキストを含む物体の候補領域が所定のサイズ範囲に収まるように決定する。2つ目の方法では、変倍部606は、第1候補領域抽出部604が抽出したコンテキストを含む物体の候補領域から、第2候補領域抽出部608が抽出対象とする物体について候補領域を予測する。そのうえで、変倍部606は、予測した物体の候補領域が所定のサイズ範囲に収まるように変倍率を決定する。なお、変倍率の決定方法は第1の実施形態と同様である。
図7を参照して、情報処理装置600の処理の一例について説明する。
図7に示す処理は、第1候補領域抽出部604と第2候補領域抽出部608とが異なる種類の物体の候補領域を抽出対象とする場合に、S704において、変倍部606が2つの方法で変倍率を決定することが可能である点が、図3に示す処理と異なる。
1つ目の方法では、変倍部606は、第1候補領域抽出部604が抽出したコンテキストを含む物体の候補領域が所定のサイズ範囲に収まるように決定する。2つ目の方法では、変倍部606は、第1候補領域抽出部604が抽出したコンテキストを含む物体の候補領域から、第2候補領域抽出部608が抽出対象とする物体について候補領域を予測する。そのうえで、変倍部606は、予測した物体の候補領域が所定のサイズ範囲に収まるように変倍率を決定する。なお、変倍率の決定方法は第1の実施形態と同様である。
なお、上記の点を除けば、S702及びS703と、S707及びS708と、で処理の主体と、特徴の抽出や候補領域の抽出の対象とする物体と、が異なる点以外については、図3に示す処理と実質的に同様であり、詳細な説明については省略する。
具体的には、S701〜S704の処理は、図3に示すS301〜S304の処理に対応している。また、S705〜S714の処理は、図3に示すS305〜S314の処理に対応している。S701〜S704の処理は、変倍パラメータ設定用の第1特徴抽出部603及び第1候補領域抽出部604と、変倍部606と、により実行される。これに対して、S705〜S714の処理は、物体検出用の第2特徴抽出部607及び第2候補領域抽出部608と、識別部609と、統合部610と、により実行される。
具体的には、S701〜S704の処理は、図3に示すS301〜S304の処理に対応している。また、S705〜S714の処理は、図3に示すS305〜S314の処理に対応している。S701〜S704の処理は、変倍パラメータ設定用の第1特徴抽出部603及び第1候補領域抽出部604と、変倍部606と、により実行される。これに対して、S705〜S714の処理は、物体検出用の第2特徴抽出部607及び第2候補領域抽出部608と、識別部609と、統合部610と、により実行される。
(変形例)
以下に、本実施形態に係る情報処理装置の変形例について説明する。
本実施形態では、第1候補領域抽出部604は入力画像に対して畳み込み特徴抽出を施すため、当該畳み込み特徴抽出の演算量がより大きくなる場合がある。一方で、第1候補領域抽出部604は、検出対象となる物体(被写体)とそのコンテキストを含めた画像領域を候補領域として抽出する。そのため、第1候補領域抽出部604は、検出対象となる物体のサイズが比較的小さい場合においても、コンテキストに基づき当該物体の候補領域を容易に抽出できる。このような特性を利用することで、本実施形態に係る情報処理装置600は、画像中からの物体の検出に係る処理をより高速化することも可能である。
以下に、本実施形態に係る情報処理装置の変形例について説明する。
本実施形態では、第1候補領域抽出部604は入力画像に対して畳み込み特徴抽出を施すため、当該畳み込み特徴抽出の演算量がより大きくなる場合がある。一方で、第1候補領域抽出部604は、検出対象となる物体(被写体)とそのコンテキストを含めた画像領域を候補領域として抽出する。そのため、第1候補領域抽出部604は、検出対象となる物体のサイズが比較的小さい場合においても、コンテキストに基づき当該物体の候補領域を容易に抽出できる。このような特性を利用することで、本実施形態に係る情報処理装置600は、画像中からの物体の検出に係る処理をより高速化することも可能である。
例えば、図8は、本実施形態の変形例に係る情報処理装置の機能構成の一例を示しており、図6に示す機能構成をベースに、物体の検出に係る処理がより高速化されるように一部を変更した場合の一例について示している。なお、図8に示す情報処理装置を、図6に示す情報処理装置と区別するために、便宜上「情報処理装置800」と称する場合がある。
情報処理装置800は、制御部801と、解析処理部802とを含む。制御部801及び解析処理部802は、図6に示す制御部601及び解析処理部602に対応している。図8と図6とを比較するとわかるように、情報処理装置800は、解析処理部802が画像縮小部811を含む点で、図6に示す情報処理装置600と異なる。なお、解析処理部802における画像縮小部811以外の他の機能構成については、図6において同様の符号が付された機能構成と実質的に同様である。
すなわち、本変形例では、第1特徴抽出部603及び第1候補領域抽出部604は、入力画像が縮小された縮小画像に対して特徴の抽出と物体の候補領域の抽出とを行うこととなる。なお、第1候補領域抽出部604は、縮小画像から物体の候補領域を抽出する際には、当該抽出に係るアンカーのサイズについても、縮小画像のサイズ(換言すると、入力画像の縮小に係る縮小率)に応じて制御する。また、変倍パラメータ設定部605は、抽出された上記候補領域の入力画像における位置及びサイズに基づき、変倍領域及び変倍率を設定する。そして、変倍部606は、入力画像中の変倍領域に対応する部分画像を変倍率に基づき変倍し、変倍された部分画像(変倍画像)を第2特徴抽出部607に出力する。なお、以降の処理については、図6に示す例と同様である。
このように、図8に示す例では、第1特徴抽出部603及び第1候補領域抽出部604が、画像縮小部811により縮小された入力画像を処理の対象とすることとなる。そのため、第1特徴抽出部603及び第1候補領域抽出部604の処理の演算量を低減することが可能となるため、情報処理装置800による画像中からの物体の検出に係る処理をより高速化することが可能となる。
<第3の実施形態>
本発明の第3の実施形態について説明する。前述した第2の実施形態では第1特徴抽出部603尾及び第1候補領域抽出部604は、検出対象となる物体(被写体)とそのコンテキストを含む候補領域を抽出することで、サイズの比較的小さい物体についても検出を可能としている。本実施形態では、この第2の実施形態の特性を利用することで、物体の検出に係る処理をより高速化する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置900」と称する場合がある。また、以降では、主に図6に示す情報処理装置600と異なる部分に着目して説明し、情報処理装置600と実質的に同様の部分については、詳細な説明は省略する。
本発明の第3の実施形態について説明する。前述した第2の実施形態では第1特徴抽出部603尾及び第1候補領域抽出部604は、検出対象となる物体(被写体)とそのコンテキストを含む候補領域を抽出することで、サイズの比較的小さい物体についても検出を可能としている。本実施形態では、この第2の実施形態の特性を利用することで、物体の検出に係る処理をより高速化する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置900」と称する場合がある。また、以降では、主に図6に示す情報処理装置600と異なる部分に着目して説明し、情報処理装置600と実質的に同様の部分については、詳細な説明は省略する。
(機能構成)
図9を参照して、本実施形態に係る情報処理装置900の機能構成の一例について説明する。情報処理装置900は、制御部901と、解析処理部902とを含む。制御部901は、図6に示す制御部601に相当する。解析処理部902は、画像変倍部911と、第1特徴抽出部903と、第1候補領域抽出部904と、変倍パラメータ設定部905と、第2特徴抽出部907と、第2候補領域抽出部908と、識別部909と、統合部910とを含む。
第1特徴抽出部903、第1候補領域抽出部904、第2特徴抽出部907、及び第2候補領域抽出部908は、図6に示す第1特徴抽出部603、第1候補領域抽出部604、第2特徴抽出部607、及び第2候補領域抽出部608に対応している。また、変倍パラメータ設定部905、識別部909、及び統合部910は、図6に示す変倍パラメータ設定部605、識別部609、及び統合部610に対応している。
また、図9を図6と比較するとわかるように、情報処理装置900は、図6に示す変倍部606に替えて画像変倍部911を備えている点で、情報処理装置600と異なる。
図9を参照して、本実施形態に係る情報処理装置900の機能構成の一例について説明する。情報処理装置900は、制御部901と、解析処理部902とを含む。制御部901は、図6に示す制御部601に相当する。解析処理部902は、画像変倍部911と、第1特徴抽出部903と、第1候補領域抽出部904と、変倍パラメータ設定部905と、第2特徴抽出部907と、第2候補領域抽出部908と、識別部909と、統合部910とを含む。
第1特徴抽出部903、第1候補領域抽出部904、第2特徴抽出部907、及び第2候補領域抽出部908は、図6に示す第1特徴抽出部603、第1候補領域抽出部604、第2特徴抽出部607、及び第2候補領域抽出部608に対応している。また、変倍パラメータ設定部905、識別部909、及び統合部910は、図6に示す変倍パラメータ設定部605、識別部609、及び統合部610に対応している。
また、図9を図6と比較するとわかるように、情報処理装置900は、図6に示す変倍部606に替えて画像変倍部911を備えている点で、情報処理装置600と異なる。
画像変倍部911は、入力画像を所望の倍率で逐次縮小することで、入力画像と、当該入力画像が互いに異なる複数の縮小率それぞれで縮小された複数の縮小画像と、を含む画像ピラミッドを生成する。具体的な一例として、画像変倍部911は、入力画像が2の倍数で逐次縮小されるように複数の縮小画像を生成してもよい。
第1特徴抽出部903は、生成された画像ピラミッドに含まれる縮小画像のうち少なくとも一部の縮小画像から特徴を抽出する。具体的には、第1特徴抽出部903は、生成された画像ピラミッドに含まれる縮小画像それぞれに対して畳み込み演算と、ReLU関数に基づく画素値処理と、プーリングとを施すことで、特徴の抽出を行う。このように、縮小画像から特徴が行われることで、入力画像から特徴が抽出される場合に比べて、当該特徴の抽出に係る演算量を低減することが可能となる。特に、最もサイズの小さい縮小画像を対象として特徴が抽出される場合には、入力画像から特徴を抽出する場合に比べて、当該特徴の抽出に係る演算量を大幅に低減することが可能となる。
第1候補領域抽出部904は、画像ピラミッドに含まれる縮小画像に対して、第1の実施形態と同様にスライディングウィンドウの走査を行い、複数のアンカーから、物体とそのコンテキストを含む候補領域を抽出する。この際に、第1候補領域抽出部904は、スライディングウィンドウの走査に利用するアンカーのサイズを、縮小画像のサイズ(換言すると、入力画像の縮小に係る縮小率)に応じて制御する。なお、第2の実施形態の変形例と同様に、第1候補領域抽出部904は、検出対象となる物体(被写体)とそのコンテキストを含めた画像領域を候補領域として抽出する。そのため、第1候補領域抽出部904は、検出対象となる物体のサイズが比較的小さい場合においても、コンテキストに基づき当該物体の候補領域を容易に抽出できる。
変倍パラメータ設定部905は、画像ピラミッドの各階層(換言すると、画像ピラミッドに含まれる各画像)からの物体の候補領域の抽出結果に基づき、各候補領域の位置及びサイズを特定する。変倍パラメータ設定部905は、画像ピラミッドに対して入力画像を所定の拡大率で拡大した拡大画像を含め、当該画像ピラミッドに含まれる画像に対して変倍領域を設定する。これにより、検出対象として設定されている物体のサイズよりも大きいサイズの物体を検出することも可能となる。
具体的な一例として、20×20画素から540×540画素までの物体が検出対象として設定されている状況下で、FullHDの入力画像に800×800画素の物体が撮像されている場合には、当該物体が検出対象から外れる場合がある。このような場合においても、FullHDの入力画像の画像ピラミッドを生成し、画像ピラミッドに含まれる各画像に対して検出器を適用することで、より大きい物体を検出することが可能となる。
なお、上記変倍領域の設定に係る処理については、一連の処理の説明とあわさえて詳細を別途後述する。
具体的な一例として、20×20画素から540×540画素までの物体が検出対象として設定されている状況下で、FullHDの入力画像に800×800画素の物体が撮像されている場合には、当該物体が検出対象から外れる場合がある。このような場合においても、FullHDの入力画像の画像ピラミッドを生成し、画像ピラミッドに含まれる各画像に対して検出器を適用することで、より大きい物体を検出することが可能となる。
なお、上記変倍領域の設定に係る処理については、一連の処理の説明とあわさえて詳細を別途後述する。
第2候補領域抽出部908は、画像ピラミッドの各階層(換言すると、画像ピラミッドに含まれる各画像)のうち、変倍領域が設定された階層から、当該変倍領域を読み出す。第2候補領域抽出部908は、読み出した変倍領域を対象として特徴の抽出を行う。この際に、第2候補領域抽出部908は、第1候補領域抽出部904とは異なる条件に基づき、特徴の抽出を行ってもよい。具体的な一例として、第2候補領域抽出部908は、第1候補領域抽出部904とは異なる種類の物体(被写体)を対象として特徴の抽出を行ってもよい。
なお、その他の機能構成については、第2の実施形態に係る情報処理装置600と実質的に同様のため詳細な説明は省略する。
(処理)
図10を参照して、本実施形態に係る情報処理装置900の処理の一例について説明する。
S1001において、情報処理装置900は、他の装置から入力画像を取得する。具体的な一例として、図1に不図示の画像入力部が、入力画像を外部デバイスからメモリに展開し、メモリに展開された当該入力画像を情報処理装置900に入力してもよい。
図10を参照して、本実施形態に係る情報処理装置900の処理の一例について説明する。
S1001において、情報処理装置900は、他の装置から入力画像を取得する。具体的な一例として、図1に不図示の画像入力部が、入力画像を外部デバイスからメモリに展開し、メモリに展開された当該入力画像を情報処理装置900に入力してもよい。
S1002において、画像変倍部911は、入力画像を所定の縮小率で逐次縮小することで縮小率の複数の縮小画像を生成する。なお、本実施形態では、画像変倍部911は、入力画像が2の倍数で逐次縮小されるように複数の縮小画像を生成するものとする。そして、画像変倍部911は、入力画像と、生成した複数の縮小画像と、を含む画像ピラミッドを生成する。上記のように、2の倍数で画像を縮小することで、演算量の思い内挿補間処理を回避し、2×2の画像ブロックを平均すれば、入力画像の画像ピラミッドを生成することが可能である。
S1003において第1特徴抽出部903は、生成された画像ピラミッドに含まれる縮小画像のうち少なくとも一部の縮小画像から特徴を抽出する。
S1004において、第1候補領域抽出部904は、画像ピラミッドに含まれる縮小画像に対して、第1の実施形態と同様にスライディングウィンドウの走査を行い、複数のアンカーから、物体とそのコンテキストを含む候補領域を抽出する。
S1005において、変倍パラメータ設定部905は、画像ピラミッドの各階層からの物体の候補領域の抽出結果に基づき、各候補領域の位置及びサイズを特定する。変倍パラメータ設定部905は、画像ピラミッドに対して入力画像を所定の拡大率で拡大した拡大画像を含め、当該画像ピラミッドに含まれる画像に対して対応領域を設定する。
具体的には、変倍パラメータ設定部905は、拡大階層を含めた画像ピラミッドの各階層において、所定のサイズ範囲内に収まる物体の候補領域の対応領域を選出し、その位置及びサイズと画像ピラミッドの階層IDとを記録する。また、変倍パラメータ設定部905は、画像ピラミッドのいずれの階層においても所定のサイズ範囲に収まらない物体の候補領域の対応領域については、対応領域のサイズが所定のサイズ範囲に最も近いサイズの階層を選択する。そして、変倍パラメータ設定部905は、選択した階層における対応領域の位置及びサイズと画像ピラミッドの階層IDとを記録する。
具体的には、変倍パラメータ設定部905は、拡大階層を含めた画像ピラミッドの各階層において、所定のサイズ範囲内に収まる物体の候補領域の対応領域を選出し、その位置及びサイズと画像ピラミッドの階層IDとを記録する。また、変倍パラメータ設定部905は、画像ピラミッドのいずれの階層においても所定のサイズ範囲に収まらない物体の候補領域の対応領域については、対応領域のサイズが所定のサイズ範囲に最も近いサイズの階層を選択する。そして、変倍パラメータ設定部905は、選択した階層における対応領域の位置及びサイズと画像ピラミッドの階層IDとを記録する。
ここで、図11を参照して、対応領域についてより詳しく説明する。図11に示す例では、入力画像P0に対して、入力画像P0が2の倍数で3回の縮小を行うことで縮小画像P1、P2、及びP3が生成され、当該縮小画像P1、P2、及びP3を含む画像ピラミッドが規定されている。また、入力画像P0には、800×800画素の物体Aと、60×60画素の物体Bと、45×45画素の物体Cとが撮像されているものとする。また、変倍量領域の設定に利用される所定のサイズ範囲については、100×100画素から160×160画素に設定されているものとする。
例えば、物体Aについては、入力画像P0では所定のサイズ範囲に含まれないため、入力画像P0からは検出されない。一方で、縮小画像P3における物体Aを「物体A’」とした場合に、物体A’のサイズは、100×100画素となるため、所定のサイズ範囲に含まれる。この場合には、変倍パラメータ設定部905は、縮小画像P3における物体A’の領域を、入力画像P0における物体Aの候補領域の対応領域として記録する。
また、物体B及びCについては、入力画像P0では所定のサイズ範囲の下限よりもさらにサイズが小さく、当該所定のサイズ範囲に含まれないため、入力画像P0からは検出されない。そこで、変倍パラメータ設定部905は、入力画像P0を2の倍数で逐次拡大することで拡大画像を生成する。例えば、拡大画像P−1は、入力画像P0を2の倍数で拡大した拡大画像である。また、図11では図示を省略しているが、拡大画像P−1を2の倍数で拡大した拡大画像を、便宜上「拡大画像P−2」とする。
拡大画像P−1における物体Bを「物体B’」とした場合に、物体B’のサイズは120×120画素となるため、所定のサイズ範囲に含まれる。この場合には、変倍パラメータ設定部905は、拡大画像P−1における物体B’の領域を、入力画像P0における物体Bの候補領域の対応領域として記録する。
拡大画像P−1における物体Cを「物体C’」とした場合に、物体C’のサイズは90×90画素となる。また、拡大画像P−2における物体Cを「物体C’’」とした場合に、物体C’’のサイズは180×180画素となる。このように、物体Cについては、画像ピラミッドのどの階層においても、所定のサイズ範囲に収まらないこととなる。この場合には、変倍パラメータ設定部905は、画像ピラミッドの各階層における物体Cに対応する領域のうち、所定のサイズ範囲に最も近いサイズの領域を、入力画像P0における物体Cの候補領域の対応領域として記録する。すなわち、上述した例の場合には、変倍パラメータ設定部905は、拡大画像P−1における物体C’の領域を、入力画像P0における物体Cの候補領域の対応領域として記録することとなる。
ここで、改めて図19を参照する。S306において、変倍パラメータ設定部905は、S305において対応領域を設定した画像ピラミッドの階層ごとに、当該階層に設定された対応領域を集めて変倍領域を設定する。なお、対応領域を集めて変倍領域を設定する方法については、第1の実施形態において、物体の候補領域を集めて変倍領域を設定する方法と実質的に同様である。
S1007において、画像変倍部911は、S1006において画像ピラミッドの拡大階層に変倍領域が設定されているか否かを判定する。
画像変倍部911は、S1006において画像ピラミッドの拡大階層に変倍領域が設定されていると判定した場合には、処理をS1008に進める。S1008において、画像変倍部911は、変倍領域が設定された拡大階層に対応する拡大画像を生成し、当該拡大画像を画像ピラミッドに含める。そして、画像変倍部911は、処理をS1009に進める。
一方で、画像変倍部911は、S1006において画像ピラミッドの拡大階層に変倍領域が設定されていない判定した場合には、S1008をスキップし、処理をS1009に進める。
画像変倍部911は、S1006において画像ピラミッドの拡大階層に変倍領域が設定されていると判定した場合には、処理をS1008に進める。S1008において、画像変倍部911は、変倍領域が設定された拡大階層に対応する拡大画像を生成し、当該拡大画像を画像ピラミッドに含める。そして、画像変倍部911は、処理をS1009に進める。
一方で、画像変倍部911は、S1006において画像ピラミッドの拡大階層に変倍領域が設定されていない判定した場合には、S1008をスキップし、処理をS1009に進める。
S1009において、制御部901は、S310〜S316の処理が、設定された一連の変倍領域それぞれについて繰り返し実行されるように制御する。
S1010において、第2特徴抽出部907は、対象となる変倍領域が設定された画像ピラミッドの階層から当該変倍領域を読み出す。
S1011〜S1016の処理は、図3に示すS307〜S312の処理と実質的に同様であるが、第1候補領域抽出部904とは異なる物体(被写体)を対象として候補領域の抽出が行われてもよい。
具体的な一例として、第1候補領域抽出部904は、物体のコンテキストを利用して当該物体の位置及びサイズを縮小画像から検出する。これに対して、第2候補領域抽出部908は、所定のサイズ範囲に収まる物体を抽出する。また、識別部909は、第2候補領域抽出部908による候補領域の抽出結果に基づき、当該候補領域に対応する物体が検出対象の物体(被写体)であるか否かを判定する。このような処理が適用されることで、物体の位置及びサイズの特定に係る精度を向上させることが可能となる。すなわち、本実施形態に依れば、物体の検出に係る精度をより向上させることが可能となる。
また、第2候補領域抽出部908と第1候補領域抽出部904とのそれぞれが検出対象とする物体が同じ場合には、S1003及びS1012それぞれにおける特徴の抽出に係る条件が異なっていてもよい。同様に、S1004及びS1013それぞれにおける物体の候補領域の抽出に係る条件が異なっていてもよい。
S1011〜S1016の処理は、図3に示すS307〜S312の処理と実質的に同様であるが、第1候補領域抽出部904とは異なる物体(被写体)を対象として候補領域の抽出が行われてもよい。
具体的な一例として、第1候補領域抽出部904は、物体のコンテキストを利用して当該物体の位置及びサイズを縮小画像から検出する。これに対して、第2候補領域抽出部908は、所定のサイズ範囲に収まる物体を抽出する。また、識別部909は、第2候補領域抽出部908による候補領域の抽出結果に基づき、当該候補領域に対応する物体が検出対象の物体(被写体)であるか否かを判定する。このような処理が適用されることで、物体の位置及びサイズの特定に係る精度を向上させることが可能となる。すなわち、本実施形態に依れば、物体の検出に係る精度をより向上させることが可能となる。
また、第2候補領域抽出部908と第1候補領域抽出部904とのそれぞれが検出対象とする物体が同じ場合には、S1003及びS1012それぞれにおける特徴の抽出に係る条件が異なっていてもよい。同様に、S1004及びS1013それぞれにおける物体の候補領域の抽出に係る条件が異なっていてもよい。
(補足)
上述の通り、本実施形態に係る情報処理装置900は、入力画像と、当該入力画像を変倍した変倍画像(例えば、縮小画像や拡大画像)と、を含む画像ピラミッドを生成し、当該画像ピラミッドの各階層のうち少なくとも一部の階層に変倍領域を設定する。このような構成の基で、情報処理装置900は、検出可能な物体のサイズの範囲を広げながら、物体の検出に係る処理を高速化している。
具体的には、画像ピラミッドの各階層から読み出される対応領域は、例外を除けば、全てが所定のサイズ範囲に含まれる。そのため、第2特徴抽出部907、第2候補領域抽出部908、及び識別部909は、所定のサイズ範囲に収まる物体をターゲットとして物体検出を行うことが可能となる。
上述の通り、本実施形態に係る情報処理装置900は、入力画像と、当該入力画像を変倍した変倍画像(例えば、縮小画像や拡大画像)と、を含む画像ピラミッドを生成し、当該画像ピラミッドの各階層のうち少なくとも一部の階層に変倍領域を設定する。このような構成の基で、情報処理装置900は、検出可能な物体のサイズの範囲を広げながら、物体の検出に係る処理を高速化している。
具体的には、画像ピラミッドの各階層から読み出される対応領域は、例外を除けば、全てが所定のサイズ範囲に含まれる。そのため、第2特徴抽出部907、第2候補領域抽出部908、及び識別部909は、所定のサイズ範囲に収まる物体をターゲットとして物体検出を行うことが可能となる。
なお、前段に位置する第1候補領域抽出部904は、後段の第2候補領域抽出部908に比べて、より幅広い抽出条件に基づき候補領域を抽出することが望ましい。そのため、例えば、以下のようなチューニングが行われてもよい。
(1)物体とそのコンテキストを含む大きめの領域を検出対象としてもよい。例えば、顔を検出対象の物体とする場合には、第1候補領域抽出部904は、顔ではなく上半身を検出対象として候補領域を抽出してもよい。また、他の一例として、第1候補領域抽出部904は、顔、頭部、上半身を全部検出対象として候補領域を抽出してもよい。
(2)第1候補領域抽出部904の学習に際し、学習に利用する画像として、異なるサイズの物体の画像をより充実させるとよい。
(3)loss関数に対して、位置及びサイズの誤差の影響が考慮されるようにチューニングを施してもよい。
(4)物体のサイズ範囲にわたって、アンカーのスケールを十分に設定するとよい。例えば、物体のサイズ範囲が[10,540]であって、アンカーのスケール数を10とした場合には、例えば、アンカーのスケールを[20,120,170,220,270,320,370,420,470]としてもよい。また、アンカーのアスペクト比との組み合わせに応じて、アンカーが設定されるとよい。また、物体のサイズの出現頻度に応じてアンカーのスケールが設定されてもよい。
(1)物体とそのコンテキストを含む大きめの領域を検出対象としてもよい。例えば、顔を検出対象の物体とする場合には、第1候補領域抽出部904は、顔ではなく上半身を検出対象として候補領域を抽出してもよい。また、他の一例として、第1候補領域抽出部904は、顔、頭部、上半身を全部検出対象として候補領域を抽出してもよい。
(2)第1候補領域抽出部904の学習に際し、学習に利用する画像として、異なるサイズの物体の画像をより充実させるとよい。
(3)loss関数に対して、位置及びサイズの誤差の影響が考慮されるようにチューニングを施してもよい。
(4)物体のサイズ範囲にわたって、アンカーのスケールを十分に設定するとよい。例えば、物体のサイズ範囲が[10,540]であって、アンカーのスケール数を10とした場合には、例えば、アンカーのスケールを[20,120,170,220,270,320,370,420,470]としてもよい。また、アンカーのアスペクト比との組み合わせに応じて、アンカーが設定されるとよい。また、物体のサイズの出現頻度に応じてアンカーのスケールが設定されてもよい。
また、後段に位置する第2候補領域抽出部908は、所定のサイズ範囲内に含まれる物体の抽出を目的としている。そのため、例えば、以下のようなチューニングが行われてもよい。
(1)検出対象をターゲットする物体(例えば、顔)のみとする。
(2)第2候補領域抽出部908の学習に際し、物体(例えば、顔)のサイズが限定されるため、当該物体のサイズのバリエーションよりも、当該物体の見え方のバリエーションの画像が充実されるとよい。具体的な一例として、動きやフォーカスボケ、逆光、照明、コントラスト、物体の向き、遮蔽物の有無、複数の物体間の相互遮蔽、サイズの微変化、アスペクト比等の条件のバリエーションがより充実されるとよい。また、人の顔を検出対象として想定している場合には、例えば、表情、髪型、性別、年齢、人種、マスクやサングラス等の遮蔽物の有無、自己遮蔽、複数の顔間の相互遮蔽、顔サイズの微変化等の条件のバリエーションがより充実されてもよい。
(3)loss関数に対して、位置及びサイズの誤差の影響が考慮されるようにチューニングを施してもよい。
(4)第2候補領域抽出部908の検出対象は所定のサイズ範囲に収まるため、アンカーのスケールが当該サイズ範囲について十分に設定されるとよい。
(5)ニューラルネットワークの構造のチューニングが行われてもよい。
(1)検出対象をターゲットする物体(例えば、顔)のみとする。
(2)第2候補領域抽出部908の学習に際し、物体(例えば、顔)のサイズが限定されるため、当該物体のサイズのバリエーションよりも、当該物体の見え方のバリエーションの画像が充実されるとよい。具体的な一例として、動きやフォーカスボケ、逆光、照明、コントラスト、物体の向き、遮蔽物の有無、複数の物体間の相互遮蔽、サイズの微変化、アスペクト比等の条件のバリエーションがより充実されるとよい。また、人の顔を検出対象として想定している場合には、例えば、表情、髪型、性別、年齢、人種、マスクやサングラス等の遮蔽物の有無、自己遮蔽、複数の顔間の相互遮蔽、顔サイズの微変化等の条件のバリエーションがより充実されてもよい。
(3)loss関数に対して、位置及びサイズの誤差の影響が考慮されるようにチューニングを施してもよい。
(4)第2候補領域抽出部908の検出対象は所定のサイズ範囲に収まるため、アンカーのスケールが当該サイズ範囲について十分に設定されるとよい。
(5)ニューラルネットワークの構造のチューニングが行われてもよい。
<第4の実施形態>
本発明の第4の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置1200」と称する場合がある。
本発明の第4の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置1200」と称する場合がある。
図12は、本実施形態に係る情報処理装置1200の機能構成の一例を示している。情報処理装置1200は、制御部1201と、解析処理部1202とを含む。解析処理部1202は、第1特徴抽出部1203と、第1候補領域抽出部1204と、第1識別部1205と、変倍パラメータ設定部1206と、変倍部1207とを含む。また、解析処理部1202は、第2特徴抽出部1208と、第2候補領域抽出部1209と、第2識別部1210と、統合部1212とを含む。
図12と図6とを比較するとわかるように、情報処理装置1200は、第1識別部1205を備える点で、図6に示す情報処理装置600と異なる。具体的には、第1特徴抽出部1203、第1候補領域抽出部1204、変倍パラメータ設定部1206、及び変倍部1207が、図6に示す、第1特徴抽出部603、第1候補領域抽出部604、変倍パラメータ設定部605、及び変倍部606に相当する。また、第2特徴抽出部1208、第2候補領域抽出部1209、第2識別部1210、及び統合部1212が、図6に示す、第2特徴抽出部607、第2候補領域抽出部608、識別部609、及び統合部610に相当する。また、以降では、主に図6に示す情報処理装置600と異なる部分に着目して説明し、情報処理装置600と実質的に同様の部分については、詳細な説明は省略する。
図12と図6とを比較するとわかるように、情報処理装置1200は、第1識別部1205を備える点で、図6に示す情報処理装置600と異なる。具体的には、第1特徴抽出部1203、第1候補領域抽出部1204、変倍パラメータ設定部1206、及び変倍部1207が、図6に示す、第1特徴抽出部603、第1候補領域抽出部604、変倍パラメータ設定部605、及び変倍部606に相当する。また、第2特徴抽出部1208、第2候補領域抽出部1209、第2識別部1210、及び統合部1212が、図6に示す、第2特徴抽出部607、第2候補領域抽出部608、識別部609、及び統合部610に相当する。また、以降では、主に図6に示す情報処理装置600と異なる部分に着目して説明し、情報処理装置600と実質的に同様の部分については、詳細な説明は省略する。
第1候補領域抽出部1204による物体の候補領域の抽出結果には、実際には非物体に対応する候補領域が含まれる場合がある。そのため、情報処理装置1200では、第1識別部1205において物体クラスの判定が行われ、NMS(non maximum suppression)が行われることで、候補領域の数が減らされる。ただし、第1識別部1205は、特に小さい候補領域について誤検出が多くても物体領域が確保されるようにパラメータのチューニングが施されたうえで学習が行われるとよい。
また、本実施形態では、変倍パラメータ設定部1206は、同じ物体クラスの候補領域(換言すると、同じ種別の物体の候補領域)を集めて変倍領域を設定してもよい。この場合には、第2特徴抽出部1208と、第2候補領域抽出部1209と、第2識別部1210とは、1つの物体クラスについて所定のサイズ範囲内に収まる物体を特定することで物体検出を行うため、物体の検出に係る精度を向上させることが可能となる。
<第5の実施形態>
本発明の第5の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置1300」と称する場合がある。
本発明の第5の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置1300」と称する場合がある。
図13は、本実施形態に係る情報処理装置1300の機能構成の一例を示している。情報処理装置1300は、制御部1301と、解析処理部1302とを含む。解析処理部1302は、第1特徴抽出部1303と、第1候補領域抽出部1304と、変倍パラメータ設定部1305と、変倍部1306とを含む。また、解析処理部1202は、第2特徴抽出部1307と、ウィンドウ走査部1308と、識別部1309と、統合部1310とを含む。
図13と図6とを比較するとわかるように、情報処理装置1300は、第2候補領域抽出部608に替えてウィンドウ走査部1308を備える点で、図6に示す情報処理装置600と異なる。具体的には、第1特徴抽出部1303、第1候補領域抽出部1304、変倍パラメータ設定部1305、及び変倍部1306が、図6に示す、第1特徴抽出部603、第1候補領域抽出部604、変倍パラメータ設定部605、及び変倍部606に相当する。また、第2特徴抽出部1307、識別部1309、及び統合部1310が、図6に示す、第2特徴抽出部607、識別部609、及び統合部610に相当する。また、以降では、主に図6に示す情報処理装置600と異なる部分に着目して説明し、情報処理装置600と実質的に同様の部分については、詳細な説明は省略する。
図13と図6とを比較するとわかるように、情報処理装置1300は、第2候補領域抽出部608に替えてウィンドウ走査部1308を備える点で、図6に示す情報処理装置600と異なる。具体的には、第1特徴抽出部1303、第1候補領域抽出部1304、変倍パラメータ設定部1305、及び変倍部1306が、図6に示す、第1特徴抽出部603、第1候補領域抽出部604、変倍パラメータ設定部605、及び変倍部606に相当する。また、第2特徴抽出部1307、識別部1309、及び統合部1310が、図6に示す、第2特徴抽出部607、識別部609、及び統合部610に相当する。また、以降では、主に図6に示す情報処理装置600と異なる部分に着目して説明し、情報処理装置600と実質的に同様の部分については、詳細な説明は省略する。
第1候補領域抽出部が物体の候補領域を抽出する際に、各候補領域の位置及びサイズを特定することが可能である。そのため、本実施形態では、識別部1309は、物体クラスの識別に、第1候補領域抽出部による物体の候補領域の抽出結果を利用するか、または、サイズと位置を変更したスライディング走査の結果を利用する。ウィンドウ走査部1308は、上記したサイズと位置を変更したスライディング走査の実行に係る役割を担う。
(実施例)
ここで、本実施形態に係る情報処理装置1300の実施例として、ウィンドウ走査部1308の処理の一例について、具体的な例を挙げて以下に説明する。本実施形態では、第2候補領域抽出部1307以降の後段側での物体検出に係る精度をより向上させることを目的としており、特に、物体の位置及びサイズを高精度に検出することを目指している。物体の位置及びサイズの検出精度を向上することが可能となれば、この検出結果をGT(ground true)付与に利用することで、GT付与の効率を大幅に向上させることが可能となる。
ここで、本実施形態に係る情報処理装置1300の実施例として、ウィンドウ走査部1308の処理の一例について、具体的な例を挙げて以下に説明する。本実施形態では、第2候補領域抽出部1307以降の後段側での物体検出に係る精度をより向上させることを目的としており、特に、物体の位置及びサイズを高精度に検出することを目指している。物体の位置及びサイズの検出精度を向上することが可能となれば、この検出結果をGT(ground true)付与に利用することで、GT付与の効率を大幅に向上させることが可能となる。
このような状況を鑑み、後段側での物体検出に係る精度の向上させるために、以下に例示するようなニューラルネットワークの構造のチューニングが行われてもよい。
(1)two−passのfaster−rcnnの精度向上
Faster−rcnnでは、特徴抽出CNNから出力した特徴画像をRoiPoolingして、物体の判定とBoundingBox Regressionが行われるが、RoiPoolingより高精度のRoiAlignmentが利用されてもよい。RoiAlignmentは、mask−rcnnに採用されている。なお、mask−rcnnで採用されるRoiAlignmentについては既知の技術のため詳細な説明は省略する。
Faster−rcnnでは、特徴抽出CNNから出力した特徴画像をRoiPoolingして、物体の判定とBoundingBox Regressionが行われるが、RoiPoolingより高精度のRoiAlignmentが利用されてもよい。RoiAlignmentは、mask−rcnnに採用されている。なお、mask−rcnnで採用されるRoiAlignmentについては既知の技術のため詳細な説明は省略する。
(2)BoundingBox Regression以外の方法の採用
BoundingBoxのRegressionにより、MTCNNの画像ピラミッドとラスタースキャン法とを採用することで、BoundingBoxが決定されてもよい。
MTCNNでは、入力画像を所定の倍率で変倍することで画像ピラミッドが作成される。画像ピラミッドの各階層において、固定サイズ(例えば、48x48画素)でラスタースキャンが行われる。各スキャンウィンドウについて、O−Netアーキテクチャにより特徴抽出を行い、識別器において、物体である尤度と物体でない尤度と、BoundingBoxのRegression結果と、顔5点のLandmarkの(x,y)座標値と、が算出される。O−Netは、眼、鼻、及び口等の顔器官点の検出に係るアーキテクチャである。O−Netについては既知の技術のため詳細な説明は省略する。そして、物体である尤度と、物体でない尤度と、をsoftmax関数に適用し、物体である確率が計算される。そのうえで、確率の最も高いウィンドウのBoundingBoxのRegression結果を用いることで、物体の位置及びサイズを決定される。
BoundingBoxのRegressionにより、MTCNNの画像ピラミッドとラスタースキャン法とを採用することで、BoundingBoxが決定されてもよい。
MTCNNでは、入力画像を所定の倍率で変倍することで画像ピラミッドが作成される。画像ピラミッドの各階層において、固定サイズ(例えば、48x48画素)でラスタースキャンが行われる。各スキャンウィンドウについて、O−Netアーキテクチャにより特徴抽出を行い、識別器において、物体である尤度と物体でない尤度と、BoundingBoxのRegression結果と、顔5点のLandmarkの(x,y)座標値と、が算出される。O−Netは、眼、鼻、及び口等の顔器官点の検出に係るアーキテクチャである。O−Netについては既知の技術のため詳細な説明は省略する。そして、物体である尤度と、物体でない尤度と、をsoftmax関数に適用し、物体である確率が計算される。そのうえで、確率の最も高いウィンドウのBoundingBoxのRegression結果を用いることで、物体の位置及びサイズを決定される。
本実施形態に係る情報処理装置1300では、後段側の識別器(識別部1309)は、変倍後の変倍領域をMTCNNの入力画像として、MTCNNのアーキテクチャを採用してもよい。一方で、情報処理装置1300では、隠れた顔の位置及びサイズの推定に係る精度をより向上するために、以下に示すチューニングが行われてもよい。
O−Netアーキテクチャにより特徴抽出を行い、識別器において、物体である尤度と物体でない尤度とを算出したうえで、各スキャンウィンドウについて物体である確率をsoftmax関数に用いて算出する。各スキャンウィンドゥについて物体である確率を原画像サイズで加算することで、Heatmapを算出する。実装形態の具体的な一例としては、ウィンドウに渡って物体である確率を、本スキャンウィンドウにおける物体である確率とする方法が挙げられる。この場合には、例えば、ウィンドウの中心を基点として、当該基点との距離と、Guassian関数と、に基づき、ウィンドウ内の各点の確率が算出されてもよい。そのうえで、Heatmap上において、確率の算出結果が閾値以上の領域が、物体の領域として検出されればよい。そのうえで、物体の領域内における確率の極大値の数を物体の数とし、当該極大値の位置を中心とする一連のスキャンウィンドウのうち、物体である確率が最も大きいウィンドウのサイズを物体のサイズとすればよい。
本実施形態では、O−Netの学習を行う際に、loss関数は、例えば、yoloのloss関数における「矩形の信頼度項」と「矩形の不信頼度項」とから構成される。矩形の信頼度は、例えば、スキャンウィンドウと一連のGTとのIOUが最も大きい値とするとよい。
(3)上記(2)では、画像ピラミッドとラスタースキャン法を採用しているが、これに対して、物体のHeatmapと物体領域のマップとを直接出力するようにしてもよい。例えば、図14は、本実施形態における物体の検出に係るアーキテクチャの一例を示した図である。
図14に示す例では、変倍領域が128×128×3の画像に正規化されており、正規化された入力画像に対して、特徴抽出CNNにより特徴マップが抽出されている。FPNは、最後の特徴マップを2倍にアップサンプリングして、前段の特徴マップとConcatinationを行うことで合成したうえで、8倍にアップサンプリングすることで、入力画像のサイズにリサイズしている。そのうえで、入力画像サイズの合成特徴マップが識別器に出力される。識別器は、RPNから出力される候補領域に基づいて、合成特徴マップについてRoiPoolingを行い、入力画像サイズにおける候補領域を切り出す。その後、識別器は、切り出した候補領域に対応する合成特徴マップに対して、Convolutionを行い、クラスごとのHeatmapと領域マップとを出力する。
領域マップの学習方法は、mask−rcnnと同様であり、領域マップの出力は領域マップのGT値との画素ごとのbinary−cross−entropyをlossとして算出することで、学習が行われる。
一方で、Heatmapを学習する際には、各BoundingBoxの中心から、サイズに基づいて、Gaussion関数の分布が以下に(式5)として示す関係式に基づき算出される。そのうえで、HeatmapのGT値は、各BoundingBoxのGaussion分布の最大値とされる。
なお、以下に示す(式5)において、x0及びy0のそれぞれは、BoundingBoxの中心の位置を示している。また、w及びhのそれぞれは、BoundingBoxの幅及び高さを示している。また、a及びbは、HyperParameterであり、正数である。
領域マップの学習方法は、mask−rcnnと同様であり、領域マップの出力は領域マップのGT値との画素ごとのbinary−cross−entropyをlossとして算出することで、学習が行われる。
一方で、Heatmapを学習する際には、各BoundingBoxの中心から、サイズに基づいて、Gaussion関数の分布が以下に(式5)として示す関係式に基づき算出される。そのうえで、HeatmapのGT値は、各BoundingBoxのGaussion分布の最大値とされる。
なお、以下に示す(式5)において、x0及びy0のそれぞれは、BoundingBoxの中心の位置を示している。また、w及びhのそれぞれは、BoundingBoxの幅及び高さを示している。また、a及びbは、HyperParameterであり、正数である。
また、各BoundingBox内のGaussion関数の分布値が、上記(式5)に基づき算出され、BoundingBox外の分布値については0としてcut−offされてもよい。そのうえで、HeatmapのGT値が、このcut−offのGaussion関数の分布値の最大値とされてもよい。
Heatmapのloss関数は、識別器から出力されたHeatmapを、上記で算出されたHeatmapのGT値とのL2距離またはbinary−cross−entropyであり、上述した矩形の信頼度項に相当する。
Heatmapのloss関数は、識別器から出力されたHeatmapを、上記で算出されたHeatmapのGT値とのL2距離またはbinary−cross−entropyであり、上述した矩形の信頼度項に相当する。
各候補領域のHeatmapと領域マップが得られた後に、各クラスのHeatmapの極大値がBoundingBoxの中心とされる。一方で、各クラスの領域マップの各前景画素は、BoundingBoxの中心との距離により分類される。各BoundingBoxの中心から、該BoundingBoxに分類された最上及び最下の前景画素との距離が算出され、大きい方の値が2倍されることでBoundingBoxの高さとされてもよい。同様に、各BoundingBoxの中心から、該BoundingBoxに分類された最左及び最右の前景画素との距離が算出され、大きい方の値が2倍されることでBoundingBoxの幅とされてもよい。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、前述した各実施形態の機能を実現するソフトウエアのプログラムコードを記録媒体に記録することが可能である。本発明の目的は、上記記録媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(または、CPUやMPU等)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合には、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することとなり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM、DVD等を用いることができる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM、DVD等を用いることができる。
また、本発明の目的は、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施形態の機能が実現されるのみには限定されない。例えば、読み出したプログラムコードの指示に基づき、コンピュータ上で稼動しているOperating System(OS)等が実際の処理の一部または全部を行い、その処理によって前述した各実施形態の機能が実現される場合も含まれる。
また、上述した第1〜第5の実施形態それぞれの技術思想を逸脱しない範囲で、当該第1〜第5の実施形態のうち2以上の実施形態が組み合わされてもよい。具体的な一例として、第4の実施形態と第5の実施形態とを組み合わせることが可能である。
第1の実施形態または第3の実施形態に対して、第4の実施形態及び第5の実施形態のうち少なくともいずれかの技術思想を適用することも可能である。
第1の実施形態または第3の実施形態に対して、第4の実施形態及び第5の実施形態のうち少なくともいずれかの技術思想を適用することも可能である。
また、図1、図6、図8、図9、図12、及び図13に示した各実施形態に係る情報処理装置の機能構成はあくまで一例であり、各実施形態の技術思想を逸脱しない範囲で一部が適宜変更されてもよい。
例えば、図1に示す機能構成に着目した場合に、情報処理装置100の各機能構成が、複数の装置が協働することで実現されてもよい。より具体的な一例として、情報処理装置100の各機能構成のうち、一部の機能構成が情報処理装置100とは異なる装置により実現されてもよい。また、他の一例として、情報処理装置100の各機能構成のうち、少なくとも一部の機能構成の処理に係る負荷が複数の装置に分散されてもよい。これは、図6、図8、図9、図12、及び図13に示す情報処理装置についても同様である。
例えば、図1に示す機能構成に着目した場合に、情報処理装置100の各機能構成が、複数の装置が協働することで実現されてもよい。より具体的な一例として、情報処理装置100の各機能構成のうち、一部の機能構成が情報処理装置100とは異なる装置により実現されてもよい。また、他の一例として、情報処理装置100の各機能構成のうち、少なくとも一部の機能構成の処理に係る負荷が複数の装置に分散されてもよい。これは、図6、図8、図9、図12、及び図13に示す情報処理装置についても同様である。
100 情報処理装置
103 特徴抽出部
104 識別部
105 候補領域抽出部
106 変倍パラメータ設定部
107 変倍部
103 特徴抽出部
104 識別部
105 候補領域抽出部
106 変倍パラメータ設定部
107 変倍部
Claims (15)
- 入力画像から特徴を抽出する特徴抽出手段と、
前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出手段と、
抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別手段と、
前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定手段と、
前記入力画像の少なくとも一部を変倍する変倍手段と、
を備え、
前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、
前記識別手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像が示す前記検出対象の種別を識別する、
情報処理装置。 - 前記変倍パラメータ設定手段は、前記候補領域のサイズに基づき変倍率を設定し、
前記変倍手段は、前記変倍率に基づき前記変倍領域に対応する部分画像を変倍することで前記変倍画像を生成する、
請求項1に記載の情報処理装置。 - 前記候補領域抽出手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像から前記候補領域を抽出し、
前記識別手段は、前記変倍画像から抽出された前記候補領域が示す前記検出対象の種別を、当該変倍画像からの前記特徴の抽出結果に基づき識別する、
請求項1たまは2に記載の情報処理装置。 - 前記候補領域抽出手段は、前記入力画像からの第1の特徴の抽出結果に基づき、当該入力画像から前記候補領域を抽出し、
前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する前記変倍画像から第2の特徴を抽出し、
前記識別手段は、前記第2の特徴の抽出結果に基づき、前記変倍画像が示す前記検出対象の種別を識別する、
請求項3に記載の情報処理装置。 - 前記特徴抽出手段として、
前記入力画像から前記第1の特徴を抽出する第1の特徴抽出手段と、
前記変倍画像から前記第2の特徴を抽出する第2の特徴抽出手段と、
を備える、請求項4に記載の情報処理装置。 - 前記候補領域抽出手段として、
前記第1の特徴の抽出結果に基づき、前記入力画像から前記候補領域を抽出する第1の候補領域抽出手段と、
前記第2の特徴の抽出結果に基づき、前記変倍画像から前記候補領域を抽出する第2の候補領域抽出手段と、
を備える、請求項5に記載の情報処理装置。 - 前記変倍手段は、前記入力画像のサイズを縮小し、
前記特徴抽出手段は、サイズが縮小された前記入力画像から前記特徴を抽出する、
請求項1に記載の情報処理装置。 - 前記変倍手段は、前記入力画像を互いに異なる複数の縮小率それぞれに基づき縮小することで複数の縮小画像を生成し、
前記特徴抽出手段は、前記複数の縮小画像のうち少なくともいずれかの縮小画像から前記特徴を抽出し、
前記変倍パラメータ設定手段は、前記特徴の抽出結果に基づき、前記入力画像と前記複数の縮小画像のそれぞれとを含む一連の画像のうち少なくともいずれかの画像に対して前記変倍領域を設定し、
前記特徴抽出手段は、前記変倍領域が設定された画像のうち当該変倍領域に対応する前記変倍画像から特徴を抽出し、
前記識別手段は、前記変倍画像からの前記特徴の抽出結果に応じて、当該変倍画像が示す前記検出対象の種別を識別する、
請求項7に記載の情報処理装置。 - 前記変倍手段は、前記入力画像を1以上の拡大率それぞれに基づき拡大することで1以上の拡大画像を生成し、
前記一連の画像は、前記1以上の拡大画像を含み、
前記変倍パラメータ設定手段は、前記1以上の拡大画像を含む前記一連の画像のうち少なくともいずれかの画像に対して前記変倍領域を設定し、
前記候補領域抽出手段は、前記一連の画像のうち、第1の画像から抽出された前記候補領域のサイズが、あらかじめ決められたサイズの範囲に収まらない場合に、前記第1の画像よりもサイズの大きい前記入力画像の変倍画像である第2の画像に対応付けて、当該候補領域に対応する対応領域を設定し、
前記変倍パラメータ設定手段は、設定された前記対応領域に応じて前記第2の画像に対応付けて前記変倍領域を設定する、
請求項8に記載の情報処理装置。 - 前記変倍手段は、前記変倍領域が設定された前記第2の画像が前記一連の画像に含まれない場合に、前記入力画像を変倍することで当該第2の画像を生成する、請求項9に記載の情報処理装置。
- 前記変倍パラメータ設定手段は、抽出された前記候補領域のうち、互いのサイズの差が閾値以下となる1以上の候補領域を含むように、1以上の前記変倍領域を設定する、請求項1〜10のいずれか1項に記載の情報処理装置。
- 前記変倍パラメータ設定手段は、前記変倍領域に含まれる1以上の前記候補領域それぞれのサイズが、あらかじめ決められたサイズの範囲に収まるように、前記部分画像の変倍に係る変倍率を決定する、請求項11に記載の情報処理装置。
- 前記特徴抽出手段は、前記入力画像に対して、少なくとも1回以上の畳み込み演算及びプーリングを施し、当該畳み込み演算及び当該プーリングの結果に基づき前記特徴を抽出する、請求項1〜12のいずれか1項に記載の情報処理装置。
- 情報処理装置が実行する情報処理方法であって、
入力画像から特徴を抽出する特徴抽出ステップと、
前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出ステップと、
抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別ステップと、
前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定ステップと、
前記入力画像の少なくとも一部を変倍する変倍ステップと、
を含み、
前記特徴抽出ステップは、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、
前記識別ステップは、前記変倍画像からの前記特徴の抽出結果に基づき、当該部分画像が示す前記検出対象の種別を識別する、
情報処理方法。 - コンピュータを、請求項1〜13のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019187913A JP2021064120A (ja) | 2019-10-11 | 2019-10-11 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019187913A JP2021064120A (ja) | 2019-10-11 | 2019-10-11 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021064120A true JP2021064120A (ja) | 2021-04-22 |
Family
ID=75486304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019187913A Pending JP2021064120A (ja) | 2019-10-11 | 2019-10-11 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021064120A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023276853A1 (ja) * | 2021-07-02 | 2023-01-05 | 株式会社日立ハイテク | 画像処理装置、方法及び画像処理システム |
-
2019
- 2019-10-11 JP JP2019187913A patent/JP2021064120A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023276853A1 (ja) * | 2021-07-02 | 2023-01-05 | 株式会社日立ハイテク | 画像処理装置、方法及び画像処理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8369574B2 (en) | Person tracking method, person tracking apparatus, and person tracking program storage medium | |
CN111445478B (zh) | 一种用于cta图像的颅内动脉瘤区域自动检测系统和检测方法 | |
JP5121506B2 (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
WO2023082882A1 (zh) | 一种基于姿态估计的行人摔倒动作识别方法及设备 | |
US8374392B2 (en) | Person tracking method, person tracking apparatus, and person tracking program storage medium | |
EP2192549B1 (en) | Target tracking device and target tracking method | |
EP2151801B1 (en) | Image processing device, method, and storage medium | |
WO2020133636A1 (zh) | 前列腺手术中外包膜智能检测和预警方法及系统 | |
US8577151B2 (en) | Method, apparatus, and program for detecting object | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
EP2339507B1 (en) | Head detection and localisation method | |
US20120069168A1 (en) | Gesture recognition system for tv control | |
JP2018022360A (ja) | 画像解析装置、画像解析方法およびプログラム | |
US20090245575A1 (en) | Method, apparatus, and program storage medium for detecting object | |
WO2019071976A1 (zh) | 基于区域增长和眼动模型的全景图像显著性检测方法 | |
Li et al. | Real-time object tracking via compressive feature selection | |
JP2017016593A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
WO2004095358A1 (en) | Human figure contour outlining in images | |
JP2014093023A (ja) | 物体検出装置、物体検出方法及びプログラム | |
WO2009152509A1 (en) | Method and system for crowd segmentation | |
US20090245576A1 (en) | Method, apparatus, and program storage medium for detecting object | |
US20240135552A1 (en) | Object feature extraction device, object feature extraction method, and non-transitory computer-readable medium | |
CN114821356B (zh) | 一种精确定位的光学遥感目标检测方法 | |
JP5335554B2 (ja) | 画像処理装置及び画像処理方法 | |
JP2021064120A (ja) | 情報処理装置、情報処理方法、及びプログラム |