JP2019153092A - 位置特定装置、位置特定方法及びコンピュータプログラム - Google Patents

位置特定装置、位置特定方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2019153092A
JP2019153092A JP2018038042A JP2018038042A JP2019153092A JP 2019153092 A JP2019153092 A JP 2019153092A JP 2018038042 A JP2018038042 A JP 2018038042A JP 2018038042 A JP2018038042 A JP 2018038042A JP 2019153092 A JP2019153092 A JP 2019153092A
Authority
JP
Japan
Prior art keywords
image
feature
subject
unit
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018038042A
Other languages
English (en)
Other versions
JP6892606B2 (ja
Inventor
聡志 鈴木
Satoshi Suzuki
聡志 鈴木
健人 宮澤
Takehito Miyazawa
健人 宮澤
基宏 高木
Motohiro Takagi
基宏 高木
和也 早瀬
Kazuya Hayase
和也 早瀬
暁経 三反崎
Akinori Misorizaki
暁経 三反崎
清水 淳
Atsushi Shimizu
淳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018038042A priority Critical patent/JP6892606B2/ja
Priority to US16/976,487 priority patent/US11410327B2/en
Priority to PCT/JP2019/006512 priority patent/WO2019167784A1/ja
Publication of JP2019153092A publication Critical patent/JP2019153092A/ja
Application granted granted Critical
Publication of JP6892606B2 publication Critical patent/JP6892606B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

【課題】より高い精度で画像内の被写体の位置を特定する装置、方法及びプログラムを提供する。【解決手段】少なくとも所望の第一の被写体を含む画像である第一の画像から所望の第一の被写体の位置を特定する位置特定装置であって、第一の画像の所定の特徴を表す第一の特徴量を取得する第一画像特徴量取得部105と、第二の被写体を含む第二の画像から所定の特徴を表す第二の特徴量を取得する第二画像特徴量取得部110と、第二の画像の特徴を表すマップである特徴マップの集合である特徴マップ複数のうち第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定部111と、推定部により第一の特徴量に対応付けられると推定された推定第一特徴マップと、推定第一特徴マップを用いて所望の第一の被写体の位置を特定する位置特定部113と、を備える。【選択図】図1

Description

本発明は、位置特定装置、位置特定方法及びコンピュータプログラムに関する。
近年、統計的機械学習を用いて画像内の被写体の位置を特定する技術が多く提案されている。位置特定技術は、自動車の自動運転等のように様々な産業への応用が期待されている。位置特定装置が、画像から物体の位置を特定するための手法として、物体検出及び領域分割と呼ばれる2つの手法が知られている。物体検出は対象の被写体を包含する矩形領域を提示する手法である。領域分割は、ピクセル毎に被写体が画像内のどの物体に属しているかという情報を提示する手法である。
領域分割のうち、画像内に存在する物体の種類を示す正解データのみを与える手法は、弱教師付き領域分割と呼ばれる。正解データが与えられたデータを弱教師付きデータと呼ぶ。弱教師付きデータは、容易に大量のデータを収集できる。弱教師付きデータは、ビッグデータと親和性が高いため、多くの手法が提案されている。
弱教師付き領域分割では、非特許文献1のように画像内の物体の大まかな位置を示すマスク画像を用いて画像の背景部分を除去する手法が知られている。図9は、画像内の物体の背景が除去された画像の一例を示す図である。弱教師付き領域分割では、非特許文献2のようにDRN(Dilated Residual Network)と呼ばれる深層学習手法の一種を用いることで、対象画像に対する高精度なマスク画像が生成される事が知られている。
W. Shimoda, K. Yanai,"Distinct Class-specific Saliency Maps for Weakly Supervised Semantic Segmentation", 2016. F. Yu, V. Koltun, T. Funkuhouser, "Dilated Residual Networks", 2017.
DRN等の深層学習を用いた領域分割手法は、高い精度を示す。しかし、位置を特定したい被写体と背景とが同時に写された学習データの場合、高精度なマスク画像を生成する事が難しい。例えば、下方向にカメラを設置されたドローンは、屋外で撮像する場合、地面が含まれる画像群を撮像する。撮像された画像群は、地面以外の物体と地面とをセットで画像内に含む。したがって、弱教師付き領域分割において、単純にDRNに入力・伝搬させて出力層を用いるだけでは上述の画像等に対する領域分割は困難である。これに対して出力層のマスク画像の代わりに中間層の出力値をマスク画像として用いる手法が考えられる。
しかしながら、中間層の出力値には、入力された画像のどのような特徴に対してマスク画像が生成されるのかという点が明示的に与えられていない。したがって、位置特定装置は、中間層の出力値に対して、どのようなマスク画像が生成されるか推定する必要がある。また、所望の被写体にマスク画像が生成されない場合がある。例えば、入力された画像内において、所望の被写体が連続せずに入力された画像内の左側と右側に存在する場合、中間層の出力値に基づいて、2つのマスク画像が生成される場合、かつ画像内左側の物体に反応したマスク画像と画像内右側の物体に反応した画像とが得られる場合がある。このようなマスク画像が得られた場合、位置特定装置は、複数のマスク画像を合成することで、新たなマスク画像を生成し、被写体の位置を特定しなければならない。
上記事情に鑑み、本発明は、より高い精度で画像内の被写体の位置を特定する技術を提供することを目的としている。
本発明の一態様は、少なくとも所望の第一の被写体を含む画像である第一の画像から前記所望の第一の被写体の位置を特定する位置特定装置であって、前記第一の画像の所定の特徴を表す第一の特徴量を取得する特徴量取得部と、第二の被写体を含む第二の画像から得られた前記所定の特徴を表す第二の特徴量と、前記第二の画像の特徴を表すマップである特徴マップの集合である特徴マップ複数のうち前記第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定部と、前記推定部により前記第一の特徴量に対応付けられると推定された推定第一特徴マップと、前記推定第一特徴マップを用いて前記所望の第一の被写体の位置を特定する位置特定部と、を備える、位置特定装置である。
本発明により、より高い精度で画像内の被写体の位置を特定することが可能となる。
第1の実施形態における、位置特定装置の機能構成の例を示す機能ブロック図である。 手書き数字認識におけるCNNの識別結果の一例を示す図である。 ニューロンを可視化した特徴マップの一例を示す図である。 第1の実施形態における、特徴量・Indexデータベースを生成する処理の流れを示すフローチャートである。 第1の実施形態における、被写体の位置を特定する処理の流れを示すフローチャートである。 第2の実施形態における、位置特定装置の機能構成を表す機能ブロック図である。 第2の実施形態における、データベースを生成する処理の流れを示すフローチャートである。 第2実施形態における、被写体の位置を特定する処理の流れを示すフローチャートである。 画像内の物体の背景が除去された画像の一例を示す図である。
(第1の実施形態)
図1は、第1の実施形態における、位置特定装置の機能構成の例を示す機能ブロック図である。位置特定装置100は、被写体と背景とが一緒に写っている画像において、画像に含まれる被写体の領域を検出する。位置特定装置100は、例えば、ドローン等の飛翔体によって空撮された画像に含まれる被写体の領域を特定する。
位置特定装置100は、バスで接続されたCPU(Central Processing Unit)等のプロセッサやメモリや補助記憶装置などを備え、位置特定プログラムを実行することによって第1画像入力部101、制御部102、被写体・背景分離部103、特徴マップ取得部104、第1画像特徴量取得部105、データベース生成部106、データベース記憶部107、第2画像入力部108、マスク画像生成部109、第2画像特徴量取得部110、対応マスク検索部111、マスク合成部112及び被写体位置特定部113を備える装置として機能する。なお、位置特定装置100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。位置特定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。位置特定プログラムは、電気通信回線を介して送信されてもよい。
第1画像入力部101は、タッチパネル、マウス及びキーボード等の入力装置を用いて構成される。第1画像入力部101は、入力装置を位置特定装置100に接続するためのインタフェースであってもよい。この場合、第1画像入力部101は、入力装置において入力された入力信号から入力データ(例えば、位置特定装置100に対する指示を示す指示情報)を生成し、位置特定装置100に入力する。なお、第2画像入力部108に関しても同様に構成される。
第1画像入力部101は、被写体と背景とを含む画像を受け付ける。第1画像入力部101が受け付けた画像は、後述のデータベースの生成に用いられる。第1画像入力部101は、受け付けた画像を被写体・背景分離部103に出力する。
制御部102は、位置特定装置100の各部の動作を制御する。制御部102は、例えばCPU等のプロセッサ及びRAM(Random Access Memory)を備えた装置により実行される。制御部102は、位置特定プログラムを実行することによって、被写体・背景分離部103、特徴マップ取得部104、第1画像特徴量取得部105、データベース生成部106、データベース記憶部107、第2画像入力部108、マスク画像生成部109、第2画像特徴量取得部110、対応マスク検索部111、マスク合成部112及び被写体位置特定部113として機能する。
被写体・背景分離部103は、受け付けた被写体と背景とを含む画像から被写体と背景とが分離された画像を生成する。被写体・背景分離部103は、少なくとも2枚以上の被写体と背景とが分離された画像を生成する。被写体・背景分離部103は、分離された画像の背景を示す画像を黒色で塗りつぶすことで、被写体のみの画像を生成する。被写体・背景分離部103は、任意の方法で被写体と背景とを分離した画像を生成してもよい。分離された画像には、背景の一部が残っていてもよいし、被写体が欠ける等のノイズが含まれてもよい。要は、被写体のみの画像は画像領域の大半を被写体が占めていればよい。大半とは被写体と背景の性質により変動するが、好ましくは7割以上である。精度を考慮しなければ、1ピクセルでも前景が含まれていれば良い。被写体・背景分離部103は、生成された被写体のみの画像を特徴マップ取得部104及び第1画像特徴量取得部105に出力する。
特徴マップ取得部104は、被写体のみの画像を後述する学習済みのDRNに伝搬させる。DRNは、CNNの一手法である。CNN(Convolution Neural Network)は、深層学習の一手法である。CNNは、入力された画像に対して畳み込み処理を繰り返すことで出力値を得る手法である。入力される被写体のみの画像を被写体画像と言う。畳み込み処理の出力値は特徴マップと呼ばれる。つまり、特徴マップ取得部104は、被写体画像をDRNに入力・伝播させた場合、畳み込み処理の数と同数の特徴マップが存在する。特徴マップ取得部104は、被写体画像をDRNに入力・伝搬させた結果得られるDRNの中間層の出力値、すなわち特徴マップを取得する。特徴マップ取得部104は、特徴マップを出力する。ここで改めて特徴マップについて説明する。特徴マップは、例えば、特徴モデル(例えば前記学習済みのDRN)の所定の中間層の出力値である。すなわち、特徴マップは、被写体画像若しくは被写体画像を少なくとも1つの前記所定の中間層とは異なる中間層を伝搬させた出力値に対して、所定の中間層に係る演算を行った出力値である。特徴マップは、所定の中間層に係る演算を行うフィルタの出力値といいかえてもよい。特徴マップ取得部104は、被写体画像をDRNに入力・伝搬させ、1つ以上の特徴マップを得る。特徴マップは、対象画像などのDRNに入力された画像若しくは対象画像などのDRNに入力された画像に対して畳み込み処理を行った結果、得られた特徴マップにさらに畳み込み処理を行った結果によって生成される。
本実施例では特徴モデルについてDRNを例として説明するが、入力データの畳み込みにより画像若しくは画像の所定の領域毎の特徴を抽出する処理を中間層で行うニューラルネットワークであればDRNに限定されない。
なお、特徴マップ取得部104で用いられるDRNは、予め自然画像データセットで学習済みである。自然画像データセットは、例えば海、山、川、森又は空等の自然を含む画像であるが、あらゆる物体を撮影した画像群であってもよい。あらゆる物体を撮影した画像群は、例えば、抽出したい対象である所望の被写体が存在しうる場所にカメラを設置し、所定の期間撮影し続けた画像であってもよい。自然画像データセットは、クラスタリングできるだけの数があればよい。例えば、画像がどのカテゴリに分類されるかの確率に関する精度を考慮しない場合、自然画像データセットは1枚の画像であってもよい。
図2は、手書き数字認識におけるCNNの識別結果の一例を示す図である。CNNでは、入力された画像に対して、画像がどのカテゴリに分類されるかの確率が算出される。CNNでは、出力層の中で最も確率が高いカテゴリを出力すればCNNの識別結果となる。DRNは、出力層で得られるベクトル(図2の例では、10個の要素を持つベクトル)と正解ベクトル(図2の例では、0クラスの確率を示す要素に1、それ以外の要素に0が存在するベクトル)との差分を最小化するように学習する。具体的には、SoftMaxロスと呼ばれる目的関数の最小化を行う事で学習される。学習において、誤差逆伝搬法(BP法)で算出された勾配情報に基づいて、確率的勾配降下法(SGD法)によって目的関数の最小化が行われる。なお、CNNは自然画像データ等で学習されたモデルであればよくDRNに限定されない。
図1に戻り、位置特定装置100の説明を続ける。特徴マップ取得部104は、中間層の出力値、すなわち段落0017に記載されたように被写体画像をDRNに入力・伝播させた結果得られた複数の特徴マップから所望の被写体に適する特徴マップを取得する。適するとは、所望の被写体に対応する領域に対して強く反応を示す、言い換えると所望の被写体を抽出するマスク生成に用いるために有効であること、である。特徴マップ取得部104は、最大値を示すニューロンが存在する特徴マップを取得してもよいし、被写体に反応した特徴マップであるかをユーザが目視確認することで取得してもよい。取得された特徴マップがDRNにおける何番目の特徴マップであるかを示す情報を「Index」という。すなわち、Indexは特徴マップを取得可能な中間層の位置を示す情報である。特徴マップ取得部104は、取得された特徴マップに対応するIndexを取得する。特徴マップ取得部104は、取得されたIndexを、データベース生成部106に出力する。特徴マップは、画像内に含まれるいくつかの任意の特徴表現のいずれかに反応を示すことが期待される。なお、本実施例では、取得される所望の被写体に適する特徴マップは、所望の被写体とは異なる所望の被写体であっても反応するという前提のもと利用している。いいかえると、所望の被写体が太陽光パネルであった場合、太陽光パネルに反応する特徴マップを得ることができれば、特徴マップを得た画像と類似する性質をもつように太陽光パネルが撮影された異なる画像においても、得られた特徴マップは太陽光パネルに反応するという仮定に基づいている。画像と類似する性質とは、選択する特徴量が反映される特徴を意図する。例えば、輝度値を選択した場合は輝度値が反映される性質であり、符号量を選択した場合は被写体の模様が反映される性質である。
ここで、最大値を示すニューロンが存在する特徴マップの取得方法について説明する。図3は、ニューロンを可視化した特徴マップの一例を示す図である。特徴マップ取得部104は、DRNの中間層の出力値として複数の特徴マップを取得する。各特徴マップは、それぞれ画像のように高さ(H)及び幅(W)分のニューロンを有する。ニューロンは、入力された画像に対して数値を出力する。特定の中間層(図3では、出力層の1層前)では、全体でH×W×(特徴マップの数)個のニューロンが存在する。特徴マップ取得部104は、被写体のみの画像を入力することで、H×W×(特徴マップの数)の配列を生成する。配列にはニューロンによって出力された値が保持される。
特徴マップ取得部104は、生成された配列に対して、最大値の位置を特定する処理を実行する。最大値は、配列の要素の中で、最大となる値である。最大値の位置とは、最大値を保持する配列の要素を特定する情報である。最大値の位置を特定する処理は、総当たり等の公知の手法が用いられてもよい。このような処理によって、特徴マップ取得部104は、最大値を示すニューロンが存在する特徴マップを取得することができる。なお、特徴マップ取得部104は、特徴マップ毎にニューロンに出力された値の平均値を算出し、平均値が最大になる特徴マップを取得してもよい。また、特徴マップ取得部104は、被写体に反応を示している領域と入力でマスクされている領域とのオーバーラップの割合で決定する等どのような方法で特徴マップを取得してもよい。
図1に戻り、位置特定装置100の説明を続ける。第1画像特徴量取得部105は、被写体画像から、画像の輝度特徴量を取得する。本実施例における輝度特徴量は輝度値である。なお、第1画像特徴量取得部105は、輝度特徴量の代わりに勾配情報に基づいて算出された画像特徴量又はCNNの中間層から取得された特徴量を取得してもよい。第1画像特徴量取得部105で取得する輝度特徴量は、所望の被写体の被写体を特徴づけられる性質を有する物であれば他の特徴量であってもよい。また、DRN又はCNNで利用していると特定しうる特徴量と相関を有する特徴量であってもよい。第1画像特徴量取得部105は、取得された画像の輝度特徴量を、データベース生成部106に出力する。
データベース生成部106は、取得された輝度特徴量とIndexとを、1対1対応させることで特徴量・Indexデータベースを生成する。データベース生成部106は、生成された特徴量・Indexデータベースをデータベース記憶部107に記録する。
還元すると、第1画像特徴量取得部105で取得された輝度特徴量と、特徴マップ取得部104で所望の被写体に適すると判定された特徴マップとを関連付けるといってもよい。
データベース記憶部107は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。データベース記憶部107は、特徴量・Indexデータベースを記憶する。
第2画像入力部108は、被写体の位置を取得したい画像である対象画像を受け付ける。第2画像入力部108が受け付けた対象画像は、受け付けた対象画像をマスク画像生成部109及び第2画像特徴量取得部110に出力する。
マスク画像生成部109は、対象画像をDRNに入力・伝播させ、複数の特徴マップを取得する。この処理は特徴マップ取得部104と同様であるため説明を省略する。マスク画像生成部109は、特徴マップ取得部104と同じ学習済みのDRNを用いる。マスク画像生成部109は、異なるDRNを用いてもよいが、その場合、特徴マップ取得部104で用いるDRNの特徴マップに対応するIndexと、マスク画像生成部109で用いるDRNの特徴マップに対応するIndexなど、DRN間のIndexを何らかの手法で対応付ける必要がある。マスク画像生成部109は、対象画像をDRNに入力・伝搬させることで、DRNの中間層の出力値、すなわち特徴マップを取得する。マスク画像生成部109は、取得した中間層の出力値をマスク合成部112に出力する。
第2画像特徴量取得部110は、対象画像から輝度特徴量を取得する。ここで取得する輝度特徴量は、第1画像特徴量取得部105と同じ手段で取得されていればよい。本実施例では、輝度特徴量は輝度値として説明を続ける。
対応マスク検索部111は、第2画像特徴量取得部110で取得した輝度特徴量に基づき、特徴量・Indexデータベースから、Indexを取得する。例えば、対応マスク検索部111は、第2画像特徴量取得部110で取得した輝度特徴量と特徴量・Indexデータベースに記録された輝度特徴量の値と最も近い輝度特徴量の値を特定する。対応マスク検索部111は、特定された輝度特徴量と1対1に対応付けられたIndexを取得する。また、対応マスク検索部111は、クラスタリングアルゴリズムを用いて代表的なIndexを予め設定し、最も距離の近いクラスタ中心を用いてもよい。対応マスク検索部111は、取得されたIndexに基づいて、マスク画像の生成に適切な特徴マップをDRNの中間層の出力値から取得する。
Indexは、上述した通り第2画像特徴量取得部110で取得した輝度特徴量と最も近い特徴量・Indexデータベースに格納されている輝度特徴量に対応するIndexを用いてもよいし、第2画像特徴量取得部110で取得した輝度特徴量と、特徴量・Indexデータベースに格納されている輝度特徴量との差が所定の閾値以下である特徴量・Indexデータベースに格納されている輝度特徴量に対応するIndex、すなわち複数のIndexを用いてもよい。
対応マスク検索部111の処理は、データベース生成部106で説明した、輝度特徴量と特徴マップとの関連に基づいて、対象画像をDRNに入力・伝搬することで得られた特徴マップの中から、所望の被写体に反応すると推定される特徴マップの推定を行うと言い換えてもよい。
対応マスク検索部111は、複数枚の特徴マップからマスク画像を生成する場合、特徴量・Indexデータベースを用いて、重み付き和の重みを算出する。対応マスク検索部111は、算出された重みに基づいて、マスク画像を生成する。対応マスク検索部111は、例えば、輝度特徴量の値が近い順に距離等を用いることで重みを算出してもよい。対応マスク検索部111は、その他の公知の手法を用いて重みを算出してもよい。なお、対応マスク検索部111は、特徴量・Indexデータベースに記録された確率分布を取得して、モデル化し、関連付けることでマスク画像を生成するように構成されてもよい。
マスク合成部112は、マスク画像生成部109で得られた特徴マップのうち取得されたIndexに対応する特徴マップをマスク画像として生成する。マスク合成部112は、複数のIndexを使用する場合、Indexに対する重みに基づいてマスク画像を生成してもよい。重みづけには、重みづけ和や論理演算、後述するような機械学習による重みづけ等が用いられる。マスク合成部112は、対象画像に対して適用するための被写体の位置を示す合成マスク画像を生成する。
被写体位置特定部113は、生成された合成マスク画像に基づいて、被写体の位置が特定された位置情報を生成する。被写体位置特定部113は、位置情報を被写体位置特定結果として出力する。被写体位置特定部113は、位置特定部の一態様である。位置特定部は、生成されたマスク画像に基づいて、被写体の位置を特定する。
図4は、第1の実施形態における、特徴量・Indexデータベースを生成する処理の流れを示すフローチャートである。第1画像入力部101は、被写体と背景とを含む画像を受け付ける(ステップS101)。被写体・背景分離部103は、受け付けた被写体と背景とを含む画像から被写体と背景とが分離された被写体のみの画像である被写体画像を生成する(ステップS102)。被写体・背景分離部103は、生成された被写体画像を特徴マップ取得部104及び第1画像特徴量取得部105に出力する(ステップS103)。
特徴マップ取得部104は、被写体画像を学習済みのDRNに入力・伝播させる(ステップS104)。特徴マップ取得部104は、マスクに適する特徴マップを取得する(ステップS105)。特徴マップ取得部104は、取得した特徴マップに対応するIndexを取得する(ステップS106)。マスクに適する特徴マップの取得と、該特徴マップに対応するIndexの取得については前述した特徴マップ取得部104に係る記載を参照されたい。
第1画像特徴量取得部105は、被写体画像から輝度特徴量を取得する(ステップS107)。データベース生成部106は、取得された輝度特徴量とIndexとを、1対1対応させることで、特徴量・Indexデータベースを生成する(ステップS108)。
図5は、第1の実施形態における、被写体の位置を特定する処理の流れを示すフローチャートである。第2画像入力部108は、被写体の位置を取得したい画像である対象画像を受け付ける(ステップS201)。マスク画像生成部109は、対象画像を学習済みのDRNに入力・伝播させ、特徴マップを取得する(ステップS202)。第2画像特徴量取得部110は、対象画像に基づいて、画像の輝度特徴量を取得する(ステップS203)。
対応マスク検索部111は、取得された輝度特徴量に基づいて、特徴量・IndexデータベースからIndexを取得する(ステップS204)。対応マスク検索部111は、複数のIndexを用いる場合、各Indexに対応する特徴マップの重みを取得する(ステップS205)。マスク合成部112は、取得された中間層のIndexに対応する特徴マップと得られた重みとに基づいて、合成マスク画像を生成する(ステップS206)。被写体位置特定部113は、生成された合成マスク画像に基づいて、被写体の位置を特定した位置情報を生成する(ステップS207)。
このように構成された位置特定装置100は、被写体画像と学習済みのDRNから得られた所望の被写体に適する特徴マップのIndexと、被写体画像の輝度特徴量とを関連付けることで得られた特徴量・Indexデータベースを利用することで、対象画像から所望の被写体の位置を特定する。すなわち所望の被写体を取り出すことを可能にする。
この実施形態のポイントを記載すると、
1.被写体画像を学習済みのDRNに入力・伝搬させ、中間層の出力である特徴マップを複数得る
2.得られた特徴マップのうち、所望の被写体に適する特徴マップを取得する
3.被写体画像からあらかじめ定められた特徴量を抽出する
4.抽出された特徴量と、所望の被写体に適する特徴マップに対応するIndexを関連付ける
5.対象画像を、1.と同じ学習済みのDRNに入力・伝搬させ、特徴マップを複数取得する
6.3.と同じ手法により対象画像から特徴量を抽出する
7.6.で抽出された特徴量と近い、4.で関連付けられた特徴量に対応するIndexを取得する
8.5.で得られた特徴マップのうち、7.で得られたIndexに対応する特徴マップを取得する
9.8.で得られた特徴マップをマスクとして対象画像に適用することで所望の被写体の位置を取得する得る
となる。これは、本来であればブラックボックスである学習済みのニューラルネットワークの中間層の出力である特徴マップをマスクとして利用するため、3.6.に記載したような、特徴量をキーとして関連付けるための構成である。
(第2の実施形態)
次に、第2の実施形態における位置特定装置100aについて説明する。第1の実施形態の位置特定装置100は、輝度特徴量などの予め決定された特徴量を用いて、複数枚の特徴マップから合成マスク画像を生成した。第1の実施形態は、位置を特定したい被写体内と背景等の位置を特定したい被写体以外(以下「背景等」という。)の間で輝度値の差分値が顕著な場合に特に有効な手法であったが、それ以外の場合には、精度が十分に得られない可能性があった。そこで、第2の実施形態の位置特定装置100aは、被写体と背景等との輝度値の差分値が十分に大きくない場合に、機械学習によって重みを決定する。言い換えると、被写体の特徴量の分布と背景等の特徴量の分布が重複する領域が大きい場合に特に有効な手法を本実施例では提供する。本実施例のポイントは、学習用の画像をDRNに入力・伝搬させた際に得られる特徴マップのうち、被写体に強く反応する特徴マップについて大きい重みが、被写体以外に強く反応する特徴マップについて小さな重みが設定されるように学習を行う点である。強く反応する、とは特徴マップ取得部104と同様である。
図6は、第2の実施形態における、位置特定装置の機能構成を表す機能ブロック図である。第2の実施形態における位置特定装置100aは、制御部102の代わりに制御部102aとマスク合成部112の代わりにマスク合成部112aとを備える点、機械学習部114、変換データベース記憶部115及び特徴量候補決定部116をさらに備える点で第1の実施形態とは異なるが、それ以外の構成は同じである。以下、第1の実施形態と異なる点について説明する。
制御部102aは、位置特定装置100aの各部の動作を制御する。制御部102aは、例えばCPU等のプロセッサ及びRAMを備えた装置により実行される。制御部102aは、位置特定プログラムを実行することによって、被写体・背景分離部103、特徴マップ取得部104、第1画像特徴量取得部105、データベース生成部106、データベース記憶部107、第2画像入力部108、マスク画像生成部109、第2画像特徴量取得部110、対応マスク検索部111、マスク合成部112a、被写体位置特定部113及び機械学習部114として機能する。
機械学習部114は、被写体・背景分離部103から被写体画像を受け付ける。機械学習部114は、特徴マップ取得部104から、特徴マップを受け付ける。機械学習部114は、被写体画像と特徴マップとに基づいて、高精度なマスク画像への特徴マップの変換データを学習によって決定する。変換データは、画像内の被写体の位置と、画像の中間層の出力値に基づいて決定されるマスク画像を変換するデータである。機械学習部114は、例えば、被写体の位置を示す正解データを被写体の位置情報とする。機械学習部114は、例えば、特徴マップが被写体の位置情報に合致するように学習してもよいし、例えば、任意の特徴マップに対して被写体の位置情報に合致するように学習してもよいし、特徴マップごとに重みを学習させ、その線形和が位置情報に合致するように学習させてもよい。また、機械学習部114は、単純な重み付き和を算出する等の線形の処理の代わりに中間層の出力値に対する非線形な変換を用いてもよい。非線形な変換であっても、同様の効果を奏する。機械学習部114は、学習によって生成された変換データを変換データベースとして変換データベース記憶部115に記録する。被写体のみの画像は学習画像の一態様である。学習画像は、所望の被写体が撮像された対象画像とは異なる画像であって、被写体を含む画像である。
変換データベース記憶部115は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。変換データベース記憶部115は、変換データベースを記憶する。
特徴量候補決定部116は、被写体の位置を取得したい画像を受け付ける。特徴量候補決定部116は、輝度特徴量又は変換データのどちらを用いて、受け付けた画像に基づく合成マスク画像を生成するか決定する。具体的には、特徴量候補決定部116は、画像内の輝度値の差分値を取得する。特徴量候補決定部116は、輝度値の差分値が閾値以上の場合、第1の実施形態と同様に、輝度特徴量の値を用いることに決定する。これに対して、特徴量候補決定部116は、輝度値の差分値が閾値未満の場合、変換データを用いることに決定する。なお、閾値は、ユーザが目視によって輝度値の変化の少ない画像を1枚以上選択する。特徴量候補決定部116は、選択された画像の被写体内の輝度値の変化を閾値としてもよい。また、特徴量候補決定部116は、輝度値のヒストグラムを用いて、単峰性の分布であるか否かを判定する等のように、他の手法を用いて閾値を決定してもよい。
マスク合成部112aは、特徴量候補決定部116の決定結果に応じて、マスク画像を合成する。マスク合成部112aは、特徴量候補決定部116が、輝度特徴量の値を用いることに決定した場合は実施例1と同様の処理であるため説明を省略する。
マスク合成部112aは、特徴量候補決定部116が、変換データを用いることに決定した場合、変換データベース記憶部115から学習によって事前に生成された変換データベースを取得する。マスク合成部112aは、マスク画像生成部109から受け付けたマスク画像を、変換データに基づいて変換する事で合成マスク画像を生成する。マスク合成部112aは、マスク変換部の一態様である。マスク変換部は、学習画像内の被写体の位置と、学習画像の中間層の出力値に基づいて決定されるマスク画像を変換する変換データとを対応付ける。マスク変換部は、変換データと対応付けることで、マスク画像を被写体の位置を表す合成マスク画像に変換する。
図7は、第2の実施形態における、データベースを生成する処理の流れを示すフローチャートである。第2の実施形態では、特徴量・Indexデータベース以外に、変換データベースが生成される処理が追加される。なお、ステップS101からステップS108は、第1の実施形態と同様であるため、説明を省略する。
機械学習部114は、DRNの中間層の出力値が、被写体の位置情報に合致するように学習する(ステップS301)。機械学習部114は、学習によって生成された変換データを変換データベースとして記録する。(ステップS302)。
図8は、第2実施形態における、被写体の位置を特定する処理の流れを示すフローチャートである。なおステップS201からステップS205は、第1の実施形態と同様であるため、説明を省略する。
特徴量候補決定部116は、輝度値の差分値が閾値以上であるか否かを判定する(ステップS401)。輝度値の差分値が閾値以上の場合(ステップS401:YES)、処理は、ステップS203に遷移する。輝度値の差分値が閾値未満の場合(ステップS401:NO)、処理は、ステップS402に遷移する。
マスク合成部112aは、特徴量候補決定部116の決定結果に応じて、マスク画像を合成する(ステップS402)。マスク合成部112aは、輝度値の差分値が閾値以上だった場合、取得された中間層のIndexとIndexに対する重みに基づいて、マスク画像を合成することで、合成マスク画像を生成する。マスク合成部112aは、輝度値の差分値が閾値未満だった場合、マスク画像を、変換データに基づいて変換する事で合成マスク画像を生成する。被写体位置特定部113は、生成された合成マスク画像に基づいて、被写体の位置を示す位置情報を生成する(ステップS403)。
このように構成された位置特定装置100aは、機械学習部114が、DRNの中間層の出力値が被写体の位置情報に合致するように学習することで、変換データベースを生成する。次に、位置特定装置100aの特徴量候補決定部116は、輝度値の差分値に基づいて、輝度特徴量又は変換データのどちらを用いてマスク画像を生成するか決定する。マスク合成部112aは、特徴量候補決定部116の決定に基づいて、合成マスク画像を生成する。被写体位置特定部113は、生成された合成マスク画像に対して、位置特定を行うことで、画像内の被写体の位置を特定することができる。このように構成された位置特定装置100aは、輝度特徴量の値を用いて、Indexの特定及びマスクの重みづけを行う場合、精度が十分に得られないような画像に対しても、被写体の位置を示すマスク画像を生成することができる。
上述した実施形態における位置特定装置100をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、撮像された画像に含まれる被写体の位置検出する装置に適用可能である。
100…位置特定装置, 101…第1画像入力部, 102…制御部, 103…被写体・背景分離部, 104…特徴マップ取得部, 105…第1画像特徴量取得部, 106…データベース生成部, 107…データベース記憶部, 108…第2画像入力部, 109…マスク画像生成部, 110…第2画像特徴量取得部, 111…対応マスク検索部, 112…マスク合成部, 113…被写体位置特定部, 100a…位置特定装置, 114…機械学習部, 115…変換データベース記憶部, 116…特徴量候補決定部, 102a…制御部, 112a…マスク合成部

Claims (6)

  1. 少なくとも所望の第一の被写体を含む画像である第一の画像から前記所望の第一の被写体の位置を特定する位置特定装置であって、
    前記第一の画像の所定の特徴を表す第一の特徴量を取得する特徴量取得部と、
    第二の被写体を含む第二の画像から得られた前記所定の特徴を表す第二の特徴量と、前記第二の画像の特徴を表すマップである特徴マップの集合である特徴マップ複数のうち前記第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定部と、
    前記推定部により前記第一の特徴量に対応付けられると推定された推定第一特徴マップと、
    前記推定第一特徴マップを用いて前記所望の第一の被写体の位置を特定する位置特定部と、
    を備える、位置特定装置。
  2. 前記第二の画像の特徴を表す特徴マップ複数に含まれる特徴マップは、前記第二の画像に対して第一の畳み込み処理を行った出力、もしくは畳み込み処理を行った出力に対してさらに第二の畳み込み処理を行った出力、である
    請求項1記載の位置特定装置。
  3. 前記第一の畳み込み処理と前記第二の畳み込み処理は、学習済みのニューラルネットワークの中間層であり、
    前記特徴マップ複数に含まれる特徴マップは、前記中間層の出力値である
    請求項2記載の位置特定装置。
  4. 前記選択特徴マップは、前記第二の画像のうち、前記第二の被写体以外の領域よりも前記第二の被写体を含む領域に強く反応する特徴マップである
    請求項3記載の位置特定装置。
  5. 少なくとも所望の第一の被写体を含む画像である第一の画像から前記所望の第一の被写体の位置を特定する位置特定方法であって、
    前記第一の画像の所定の特徴を表す第一の特徴量を取得する特徴量取得ステップと、
    第二の被写体を含む第二の画像から得られた前記所定の特徴を表す第二の特徴量と、前記第二の画像の特徴を表すマップの集合である特徴マップ複数のうち前記第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定ステップと、
    前記推定ステップにより前記第一の特徴量に対応付けられると推定された推定第一特徴マップを用いて前記第一の画像から前記所望の第一の被写体の位置を特定する位置特定ステップと、
    を備える、位置特定方法。
  6. 請求項1から4のいずれか一項に記載の位置特定装置としてコンピュータを機能させるためのコンピュータプログラム。
JP2018038042A 2018-03-02 2018-03-02 位置特定装置、位置特定方法及びコンピュータプログラム Active JP6892606B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018038042A JP6892606B2 (ja) 2018-03-02 2018-03-02 位置特定装置、位置特定方法及びコンピュータプログラム
US16/976,487 US11410327B2 (en) 2018-03-02 2019-02-21 Location determination apparatus, location determination method and computer program
PCT/JP2019/006512 WO2019167784A1 (ja) 2018-03-02 2019-02-21 位置特定装置、位置特定方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018038042A JP6892606B2 (ja) 2018-03-02 2018-03-02 位置特定装置、位置特定方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019153092A true JP2019153092A (ja) 2019-09-12
JP6892606B2 JP6892606B2 (ja) 2021-06-23

Family

ID=67806096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018038042A Active JP6892606B2 (ja) 2018-03-02 2018-03-02 位置特定装置、位置特定方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US11410327B2 (ja)
JP (1) JP6892606B2 (ja)
WO (1) WO2019167784A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021140705A (ja) * 2020-03-10 2021-09-16 三菱電機インフォメーションシステムズ株式会社 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム
WO2022113883A1 (ja) * 2020-11-30 2022-06-02 ソニーセミコンダクタソリューションズ株式会社 学習装置、学習方法、撮像装置、信号処理装置、信号処理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6892606B2 (ja) * 2018-03-02 2021-06-23 日本電信電話株式会社 位置特定装置、位置特定方法及びコンピュータプログラム
CN112508027B (zh) * 2020-11-30 2024-03-26 北京百度网讯科技有限公司 用于实例分割的头部模型、实例分割模型、图像分割方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115248A (ja) * 2014-12-17 2016-06-23 株式会社デンソー 演算処理装置
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法
US20180060701A1 (en) * 2016-08-31 2018-03-01 Adobe Systems Incorporated Deep-learning network architecture for object detection

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008130907A1 (en) * 2007-04-17 2008-10-30 Mikos, Ltd. System and method for using three dimensional infrared imaging to identify individuals
JP5706647B2 (ja) * 2010-09-03 2015-04-22 キヤノン株式会社 情報処理装置、およびその処理方法
US10417525B2 (en) * 2014-09-22 2019-09-17 Samsung Electronics Co., Ltd. Object recognition with reduced neural network weight precision
CN108027972B (zh) * 2015-07-30 2022-03-15 北京市商汤科技开发有限公司 用于对象跟踪的系统和方法
US10296796B2 (en) * 2016-04-06 2019-05-21 Nec Corporation Video capturing device for predicting special driving situations
US10169647B2 (en) * 2016-07-27 2019-01-01 International Business Machines Corporation Inferring body position in a scan
US10769411B2 (en) * 2017-11-15 2020-09-08 Qualcomm Technologies, Inc. Pose estimation and model retrieval for objects in images
JP2019096072A (ja) * 2017-11-22 2019-06-20 株式会社東芝 物体検出装置、物体検出方法およびプログラム
JP6892606B2 (ja) * 2018-03-02 2021-06-23 日本電信電話株式会社 位置特定装置、位置特定方法及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115248A (ja) * 2014-12-17 2016-06-23 株式会社デンソー 演算処理装置
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法
US20180060701A1 (en) * 2016-08-31 2018-03-01 Adobe Systems Incorporated Deep-learning network architecture for object detection

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021140705A (ja) * 2020-03-10 2021-09-16 三菱電機インフォメーションシステムズ株式会社 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム
WO2021181858A1 (ja) * 2020-03-10 2021-09-16 三菱電機株式会社 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム
JP7139369B2 (ja) 2020-03-10 2022-09-20 三菱電機インフォメーションシステムズ株式会社 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム
EP4089632A4 (en) * 2020-03-10 2023-02-08 Mitsubishi Electric Corporation DETECTION RESULT ANALYZER, DETECTION RESULT ANALYSIS METHOD AND DETECTION RESULT ANALYSIS PROGRAM
WO2022113883A1 (ja) * 2020-11-30 2022-06-02 ソニーセミコンダクタソリューションズ株式会社 学習装置、学習方法、撮像装置、信号処理装置、信号処理方法

Also Published As

Publication number Publication date
WO2019167784A1 (ja) 2019-09-06
US20200410709A1 (en) 2020-12-31
JP6892606B2 (ja) 2021-06-23
US11410327B2 (en) 2022-08-09

Similar Documents

Publication Publication Date Title
CN107247947B (zh) 人脸属性识别方法及装置
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN110598019B (zh) 重复图像识别方法及装置
JPWO2010004958A1 (ja) 個人認証システム、個人認証方法
CN111126396A (zh) 图像识别方法、装置、计算机设备以及存储介质
CN110163060B (zh) 图像中人群密度的确定方法及电子设备
CN111652331A (zh) 一种图像识别方法、装置和计算机可读存储介质
CN109033321B (zh) 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
CN111694954B (zh) 图像分类方法、装置和电子设备
CN111368911A (zh) 一种图像分类方法、装置和计算机可读存储介质
KR20100116404A (ko) 영상정보로부터 독립세포와 군집세포를 분류하는 방법 및 장치
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN116311518A (zh) 一种基于人体交互意图信息的层级人物交互检测方法
CN114863450B (zh) 图像处理方法、装置、电子设备及存储介质
CN111797849A (zh) 用户活动识别方法、装置、存储介质及电子设备
CN113449751B (zh) 基于对称性和群论的物体-属性组合图像识别方法
KR20210031444A (ko) 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
CN112183336A (zh) 表情识别模型训练方法、装置、终端设备及存储介质
CN112949672A (zh) 商品识别方法、装置、设备以及计算机可读存储介质
Vijayarani et al. An efficient algorithm for facial image classification
CN113128278A (zh) 一种图像识别方法及装置
US20230196841A1 (en) Behavior recognition artificial intelligence network system and method for efficient recognition of hand signals and gestures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210510

R150 Certificate of patent or registration of utility model

Ref document number: 6892606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150