JP2019204183A - 情報処理装置、撮像装置、情報処理方法 - Google Patents

情報処理装置、撮像装置、情報処理方法 Download PDF

Info

Publication number
JP2019204183A
JP2019204183A JP2018097408A JP2018097408A JP2019204183A JP 2019204183 A JP2019204183 A JP 2019204183A JP 2018097408 A JP2018097408 A JP 2018097408A JP 2018097408 A JP2018097408 A JP 2018097408A JP 2019204183 A JP2019204183 A JP 2019204183A
Authority
JP
Japan
Prior art keywords
image
language
expression
resolution
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018097408A
Other languages
English (en)
Inventor
智之 清水
Tomoyuki Shimizu
智之 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018097408A priority Critical patent/JP2019204183A/ja
Publication of JP2019204183A publication Critical patent/JP2019204183A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 画像の解像度の違いに起因する言語表現の変化を考慮した画像の検索を可能にするための技術を提供すること。【解決手段】 第1の画像から、該第1の画像よりも低解像度の第2の画像を生成し、第1の画像の内容を言語で表現した言語表現と、第2の画像の内容を言語で表現した言語表現と、の関係を取得する。第1の画像の特徴量と第1の画像の言語表現の特徴量とが対応づけてマッピングされた空間に、第2の画像の特徴量と第2の画像の言語表現の特徴量とが上記の関係に従ってマッピングされるように、学習する。【選択図】 図1

Description

本発明は、検索のための技術に関するものである。
近年の監視カメラシステムの普及により、多くの施設や街頭で多数の人物などのオブジェクトを撮影するケースが増加している。また、これらの撮影した画像から所望の画像を検索する技術がある。このとき、検索したい対象の画像が得られている場合は、画像の特徴の類似性を見て検索すれば良い。しかし、検索したい対象の画像が初めから得られるとは限らず、目撃者による目撃証言のような画像以外の情報が検索クエリとなることも多い。画像とは異なるモダリティ(言語など)で画像を検索する場合は、それぞれのデータが示す内容が共通であることを認識する必要がある。近年では、深層学習の研究が進み、データが表現しているクラスや概念によって分類するタスクを学習することで、データからクラス識別可能な特徴量を抽出することが高精度にできるようになりつつある。この技術を応用し、個々のモダリティの同じ内容を表すデータから得られた特徴量を、共通の空間上に揃えるようにマッピングする処理に深層学習を適用する方法等が考えられている。以下では、異なるモダリティの特徴量を共通の空間上で揃えることを「アラインメント」と称する。共通空間でアラインメントすることにより、一方のモダリティの特徴量で、他方の近傍にある特徴量を検索することができる(非特許文献1)。
"Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models" Deep Learning and Representation Workshop: NIPS 2014年11月10日
実際には、カメラがとらえた画像の特徴と人が「見た」特徴とは、一方の解像度が高く、他方の解像度が低いような場合、一致しないことも多い。しかし、従来技術では、画像にあらかじめ付与された、該画像を説明する言語的情報を利用して、画像特徴と言語特徴をアラインメントする。そのため、解像度の違いによって生じる見え方の違いに起因するような言語表現の変化を捉えるような学習は行われない。よって、同一対象に対する言語的な表現と画像特徴とにずれが生じてしまうと、検索したい対象から漏れてしまう。本発明では、画像の解像度の違いに起因する言語表現の変化を考慮した画像の検索を可能にするための技術を提供する。
本発明の一様態は、第1の画像から、該第1の画像よりも低解像度の第2の画像を生成する生成手段と、前記第1の画像の内容を言語で表現した言語表現と、前記第2の画像の内容を言語で表現した言語表現と、の関係を取得する取得手段と、前記第1の画像の特徴量と前記第1の画像の言語表現の特徴量とが対応づけてマッピングされた空間に、前記第2の画像の特徴量と前記第2の画像の言語表現の特徴量とが前記関係に従ってマッピングされるように、学習する学習手段とを備えることを特徴とする。
本発明の構成によれば、画像の解像度の違いに起因する言語表現の変化を考慮した画像の検索を可能にする。
コンピュータ装置のハードウェア構成例を示すブロック図。 コンピュータ装置100の機能構成例を示すブロック図。 学習に利用する情報の準備に関する処理のフローチャート。 抽出部205に元画像を入力した場合に行う学習処理のフローチャート。 抽出部205に生成画像を入力した場合に行う学習処理のフローチャート。 検索に係る処理のフローチャート。 元画像及び生成画像の言語表現の関係を概念的に示した図。 共通空間における特徴量の分布例を示す図。 共通空間における特徴量の分布例を示す図。
以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施形態の1つである。
[第1の実施形態]
先ず、本実施形態に係る情報処理装置としてのコンピュータ装置のハードウェア構成例について、図1のブロック図を用いて説明する。図1のコンピュータ装置100には、PC(パーソナルコンピュータ)、スマートフォン、タブレット型端末装置等が適用可能である。また、コンピュータ装置100は、撮像装置などの装置に組み込む込み込み装置にも適用可能である。また、コンピュータ装置100は、1台の装置で構成しても良いし、2台以上の装置で構成しても良い。コンピュータ装置100を2台以上の装置で構成する場合、それぞれの装置は、互いに通信可能なようにLocal Area Network(LAN)などのネットワークを介して接続され、該ネットワークを介した協調動作により所望のタスクを達成する。
CPU(Central Processing Unit)101は、RAM(Random Access Memory)103に格納されているコンピュータプログラムやデータを用いて処理を実行する。これによりCPU101は、コンピュータ装置100全体の動作制御を行うと共に、コンピュータ装置100が行うものとして後述する各処理を実行若しくは制御する。
ROM102には、起動プログラムや設定データなど、書換不要の情報が格納されている。RAM103は、ROM102や外部記憶装置104からロードされたコンピュータプログラムやデータを格納するためのエリア、CPU101が各種の処理を実行する際に用いるワークエリア、を有する。このようにRAM103は、各種のエリアを適宜提供することができる。
外部記憶装置104は、ハードディスクドライブ装置やフラッシュメモリドライブなどの大容量情報記憶装置である。外部記憶装置104には、OS(オペレーティングシステム)や、コンピュータ装置100が行うものとして後述する各処理をCPU101に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置104に保存されているデータには、以下の説明において既知の情報として取り扱う情報も含まれている。外部記憶装置104に保存されているコンピュータプログラムやデータは、CPU101による制御に従って適宜RAM103にロードされ、CPU101による処理対象となる。外部記憶装置104に適用可能なメモリ装置には、コンピュータ装置100に対して着脱可能な光ディスク、磁気や光カード、ICカード、メモリカード等を含む、処理結果を永続化したり、大規模データを保存したりするためのメモリ装置が適用可能である。
入力I/F(InterFace)105には入力デバイス108が接続されている。入力デバイス108は、キーボードやマウスなどのユーザインターフェースであり、ユーザが操作することで、各種の指示をCPU101に対して入力することができる。
出力I/F106には出力デバイス109が接続されている。出力デバイス109は、CPU101による処理結果を画像や文字などでもって表示する表示装置である。表示装置には、液晶画面やタッチパネル画面、入力された情報を投影する投影装置などが適用可能である。CPU101、ROM102、RAM103、外部記憶装置104、入力I/F105,出力I/F106は何れも、システムバス107に接続されている。
次に、コンピュータ装置100の機能構成例について、図2のブロック図を用いて説明する。なお、以下では、図2の機能部を処理の主体として説明するが、実際には、該機能部の機能をCPU101に実行若しくは制御させるためのコンピュータプログラムをCPU101が実行することで該機能部の機能が実現される。なお、図2の各機能部はハードウェアで実装しても良い。
本実施形態に係るコンピュータ装置100は、検索処理のための事前準備および特徴量抽出の学習を実施する学習処理を行う機能(学習機能)と、入力されたクエリに該当する画像を検索する検索処理を行う機能(検索機能)と、を有する。学習機能に係る学習部209は、画像生成部201、取得部202、関係取得部203、保管部204、抽出部205を有する。また、検索機能に係る検索処理部210は、抽出部205、クエリ取得部206、保管部207、マッチング部208を有する。
先ず、学習部209について説明する。画像生成部201は、外部記憶装置104に保存されている画像(元画像)から、該画像よりも解像度が低い画像(低解像度画像、生成画像)を1枚以上生成する。
取得部202は、元画像の内容を言語でもって表現した言語表現、該元画像から生成した生成画像の内容を言語でもって表現した言語表現、を外部記憶装置104から取得する。元画像及び生成画像のそれぞれの画像の言語表現は、該画像を見た人があらかじめ付与したものであり、該画像と関連づけて外部記憶装置104に保存されている。このとき、画像中の領域を限定し、領域毎の言語表現を取得するようにしても良い。たとえば、人物画像であれば、着ている服装の上下や靴、鞄といった領域毎に、種類や色といった言語表現を取得しても良い。この場合、領域毎に後述する共通空間を用意して、検索時には各領域を限定した上で、該共通空間を検索するようにしても良い。
関係取得部203は、元画像の言語表現と、生成画像の言語表現と、の関係を取得する。より詳しくは、関係取得部203は、共通の言語表現に対応する生成画像に対応する元画像の言語表現を取得することで、解像度の違いによる言語表現の関係を取得する。図7は、元画像及び生成画像のそれぞれから得られる言語表現の関係を概念的に図示したものである。元画像は解像度が高いため、元画像の言語表現として、より詳細な言語表現701が得られる。一方、元画像の解像度を落とした生成画像の言語表現としては、元画像の言語表現701に含まれる複数の言語表現の共通概念を表す言語表現702が現れることがある。言語表現701に対応する元画像を目撃した場合には、該言語表現701と、言語表現702に対応する生成画像と、をマッチングすることになるため、このような元画像と生成画像との間の言語表現の関係を取得して外部記憶装置104で管理する。
保管部204は、外部記憶装置104に保存されている学習用の画像(元画像)およびそれに付随する情報を管理する。ここで管理する学習用の画像は、検索したい対象を含む画像であり、たとえば、人物を検索するのであれば、大量の人物画像を学習用の画像として外部記憶装置104に保存しておく。また、保管部204は、各画像に対する言語表現やその対応関係も管理する。これらの画像や対応する言語表現は、あらかじめ収集しておく必要があるが、その収集方法については特定の収集方法に限らない。たとえば、あらかじめ人物の画像を撮影し、該画像およびその生成画像を人に提示することで、言語表現を付与させるような作業を実施することで得ても良い。あるいは、実際の過去の事例などから抽出しても良い。たとえば、人物の検索であれば、解決済みの人物捜索で収集した画像や目撃情報等の事後情報から、学習用の情報を得ても構わない。
抽出部205は、画像の特徴量と、該画像に対応する言語表現の特徴量と、を、共通の空間にアラインメントしてマッピングする変換を行う。本実施形態では、抽出部205は先ず、画像の特徴量と、該画像に対応する言語表現の特徴量と、を既知の特徴抽出技術によって取得する。たとえば、深層学習で画像のクラス識別を最適化する学習済みのニューラルネットワークに画像を入力した場合における該ネットワークの中間層の出力を、該画像の特徴量として取得する。言語表現の特徴量についても、ニューラルネットワークの仕組みを用いて抽出(取得)した分散表現を「言語表現の特徴量」として利用すれば良い。そして抽出部205は、それらの出力(画像及び言語表現のそれぞれの特徴量)を、上で述べた言語表現の関係に応じて、共通空間でアラインメントするような変換モデルを学習する。本実施形態では、この学習にも深層学習を利用する。通常、画像の特徴量と、該画像の言語表現の特徴量が最も距離が近く、それ以外の距離がある一定距離以上離れるように学習をする。この場合、1対1での検索は可能であるが、解像度の違いに起因するような表現の違いを考慮した検索は困難となる。この学習時の距離の評価に、関係取得部203で得た言語表現の関係を利用する。クエリとしてマッチングするべき言語表現でもある程度の距離でアラインメントするように学習を行う。詳しくは後述する。なお、距離尺度は特定の距離尺度に限らない。以下では一例として、特徴量は共通空間が表現する次元のベクトルであるものとし、この場合はベクトル間の距離が算出できるユークリッド距離等を用いれば良い。学習部209の一部として動作する場合における抽出部205は、外部記憶装置104に保存されている各画像および該画像に対応する言語表現を入力とする。そして、学習部209の一部として動作する場合における抽出部205は、関係取得部203で取得した言語表現の関係に合うように、画像の特徴量および言語表現の特徴量が共通空間でアラインメントするように学習を行う。
このような学習を行った抽出部205が検索処理部210の一部として動作する場合、該抽出部205は、入力した検索対象の画像と言語表現のクエリとを共通空間上にマッピングした特徴量をそれぞれ抽出する処理を行う。
なお、本実施形態では、抽出部205は、入力された画像が高解像画像であるのか低解像画像であるのかを識別するものとする。入力された画像が高解像画像であるのか低解像画像であるのかを識別する方法には様々な方法がある。本実施形態では、抽出部205は、入力された画像の解像度を判定し、該解像度が規定値以上であれば該画像を高解像画像(高解像)と判断し、該解像度が規定値未満であれば該画像を低解像画像(低解像)と判断し、アラインメントする共通空間を切り替える。学習時は元画像を高解像画像、生成画像を低解像画像として判定してそれぞれ学習を行う。検索時の入力画像の解像度の判定は、既知の人体検出処理によって人物の画像領域を抽出するものとし、たとえば該抽出した領域(すなわち人物領域)のpixelサイズで解像度の判定を行っても良い。あるいは、解像度の目安として、高周波成分の量を利用して判定しても良い。あるいは、画像を撮影したカメラのカメラ情報(カメラパラメータや内蔵するイメージセンサの情報等)および設置情報(画角や伏角、設置高さ等)を予め取得しておき、およその解像度と該情報との対応を機械学習等により得ることで判定するようにしても良い。
まず、高解像の画像特徴(元画像の特徴量)については、学習時では、元画像の特徴量と該元画像の言語表現の特徴量とを個々にアラインメントするように学習を行う。これにより、検索処理時に高解像に対応したクエリ表現が取得できた場合は、誤りの少ない画像の検索が実現できる。ただし、クエリは常に高解像に対応したものとは限らない。目撃者が遠くから見ていたり、細かく見ることができなかったりした場合には、クエリが表現しているイメージの解像度は低下する。そのような解像度が低下したクエリ表現で、高解像の画像特徴の検索を実現するために、共通の低解像の言語表現(生成画像の言語表現)の関係がある場合に、該低解像の言語表現の画像特徴の近傍に高解像の画像特徴がマッピングされるように学習する。そして、検索処理時には、クエリ表現の解像度の低下度合いを与えることで、該度合いに応じた範囲のマッチングを実施する。例えば、高解像情報に対応したクエリ表現であることを示す入力があれば、探索する範囲を絞り込む(変更する)ことで、ノイズを抑制できる。一方で、解像度が低下したクエリ表現であることを示す入力がある場合は、探索範囲を拡大する(変更する)ことで、漏れを抑制できる。クエリ表現の解像度の低下度合いは、クエリ取得部206で取得し、また、上述したマッチング処理は、マッチング部208で実施する。
次に、低解像の画像特徴(生成画像の特徴量)については、学習時には、生成画像の画像特徴を、該生成画像の言語表現の特徴量とアラインメントするように学習する。このとき、該生成画像の言語表現が共通の元画像群の各言語表現をクエリとした場合にも、該生成画像の特徴量と合致するようにアラインメントする。具体的には、言語表現の特徴量を共通空間にマッピングする際の射影を学習する際、関係取得部203で取得した関係にある場合、該関係の言語表現と生成画像の言語表現とが、共通空間上の近傍にマップされるように学習する。そして、検索処理時は、カメラによる撮影画像が高解像の場合と同様、クエリとして得られた言語表現の特徴量を、学習済みの共通空間へマッピングすることで近傍特徴量とのマッチングを行う。言語表現の解像度による探索範囲の拡縮も高解像度の場合と同様に行えばよい。
次に、検索処理部210について説明する(検索処理部210の一部として機能する場合の抽出部205の動作については上記の通りである)。クエリ取得部206は、検索対象を問い合わせるための情報をクエリとして取得する。クエリは、例えばユーザが入力デバイス108を操作することで入力するので、クエリ取得部206は、このユーザ操作に応じて入力されたクエリを取得する。本実施形態ではクエリとして言語表現を入力するものとする。また、先に述べたとおり、本実施形態では、解像度の低下度合いを合わせて入力する。解像度の低下度合いもまたユーザが入力デバイス108を操作して入力するので、クエリ取得部206は、このユーザ操作に応じて入力された解像度の低下度合いを取得する。ここでは、目撃情報が十分に詳細な情報を捉えているとユーザが判断した場合は、解像度の低下は無いものとして扱い、そうでない場合は、解像度は低下しているものとして扱う。入力は2値である必要はなく、たとえば、スライドバーなどのユーザインターフェースを出力デバイス109に表示し、ユーザが入力デバイス108を操作して、クエリの解像度の低下度合いを入力できるようにしても良い。その場合、検索処理部210は、スライドバーが高解像に近いほど探索範囲を狭くし、逆に、低解像であるほど探索範囲を広くするようにしてマッチングを行うようにすればよい。
保管部207は、外部記憶装置104に保存されている「撮影システム211が撮像した撮像画像のうち検索対象となる検索対象画像」を管理する。本実施形態では、撮影システム211は、監視カメラと、該監視カメラによる撮像画像から人物が写っている領域内の画像(人物画像)を検索対象画像として抽出して外部記憶装置104に登録する機器と、を含む監視システムであるものとする。よって、本実施形態では、検索対象画像は、様々な解像度の人物画像であるものとするが、撮像画像から人物画像を抽出するための方法は特定の方法に限らず、既存のオブジェクト領域特定技術を利用して良い。たとえば、深層学習によって、領域発見と認識処理をend-to-endで学習する仕組みが提案されているが、該領域発見の技術を利用するなどすれば良い。あるいは、顔や頭部の検出技術を利用して、およその人物位置を特定するなどしてもかまわない。
マッチング部208は、各検索対象画像と、クエリ取得部206で取得したクエリと、を、学習済みの抽出部205によってそれぞれ共通空間にマッピングした特徴量でマッチングを行う。本実施形態ではマッチング部208は、共通空間でクエリの特徴量の距離近傍の検索対象画像の特徴量を検索するものとする。距離尺度は、一般的に知られた距離尺度を想定するが、これに限るものではない。本実施形態では、抽出部205で学習したアラインメントを行う際に利用したユークリッド距離を用いれば良い。
次に、学習に係る処理のうち、学習に利用する情報の準備に関する処理について、同処理のフローチャートを示す図3に従って説明する。ステップS301では、画像生成部201は、外部記憶装置104に保存されている(保管部204によって管理されている)元画像のうち未だ選択していない元画像を選択元画像として選択する。そしてステップS302では、画像生成部201は、ステップS301で選択した選択元画像から生成画像を生成する。
ステップS303では、取得部202は、ステップS301で選択した選択元画像の言語表現を外部記憶装置104から取得する。またステップS304では、取得部202は、ステップS302で生成した生成画像の言語表現を外部記憶装置104から取得する。ステップS303で選択元画像における部分領域(顔、服などの部分領域)の言語表現を取得した場合、ステップS304では、生成画像において該部分領域に対応する領域の言語表現を取得する。
ステップS305では、画像生成部201は、外部記憶装置104に保存されている全ての元画像を選択元画像として選択したか否かを判断する。この判断の結果、外部記憶装置104に保存されている全ての元画像を選択元画像として選択した場合には、処理はステップS306に進む。一方、外部記憶装置104に保存されている元画像のうち未だ選択元画像として選択していない元画像が残っている場合には、処理はステップS301に戻る。
ステップS306では、関係取得部203は、ステップS302で生成した生成画像群から、共通の表現に対応する言語表現の生成画像のグループ(生成画像グループ)を選択する(未選択の生成画像グループを選択する)。生成画像グループを選択するための処理には様々な処理がある。例えば、同じグループと見なしても良い言語表現(共通の表現に対応する言語表現)の集合を予め外部記憶装置104に登録しておく。そして、ステップS302で生成した生成画像群から、同じ集合に属する言語表現に対応する生成画像のグループを生成画像グループとして選択するようにしても良い。
ステップS307では、関係取得部203は、生成画像グループに属するそれぞれの生成画像について、該生成画像に対応する元画像の言語表現を取得する。ステップS308では、関係取得部203は、生成画像グループに属する生成画像の言語表現と、該生成画像に対応する元画像の言語表現と、の間に画像の解像度の変化による言語表現の対応関係があるものとし、該対応関係を外部記憶装置104に登録する。この対応関係には、生成画像グループに属する生成画像の言語表現と、該生成画像に対応する元画像の言語表現と、の対が含まれており、保管部204によって管理される。
ステップS309では、関係取得部203は、ステップS302で生成した生成画像群から全ての生成画像グループを選択したか否かを判断する。この判断の結果、ステップS302で生成した生成画像群から全ての生成画像グループを選択した場合には、図3のフローチャートに従った処理は終了する。一方、ステップS302で生成した生成画像群から未だ選択していない生成画像グループが残っている場合には、処理はステップS306に戻る。
次に、学習に係る処理のうち、抽出部205に元画像を入力した場合に行う学習処理について、同処理のフローチャートを示す図4に従って説明する。ステップS401では、抽出部205は、外部記憶装置104に保存されている元画像と該元画像の言語表現とを取得する。ステップS402では、抽出部205は、上記のステップS307において外部記憶装置104に登録された対応関係を取得し、該対応関係に生成画像の言語表現が予め定められた量だけ元画像の言語表現として含まれているか否かを判断する。この判断の結果、対応関係に生成画像の言語表現が予め定められた量だけ元画像の言語表現として含まれていない場合には、処理はステップS403に進む。一方、対応関係に生成画像の言語表現が予め定められた量だけ元画像の言語表現として含まれている場合には、処理はステップS404に進む。例えば、対応関係において、生成画像の言語表現としては含まれているものの、元画像の言語表現としては含まれていない言語表現がある場合には、処理はステップS403に進み、そうでない場合は、処理はステップS404に進む。
ステップS403で抽出部205は、対応関係において、生成画像の言語表現としては含まれているものの、元画像の言語表現としては含まれていない言語表現(不足言語表現)がある場合、不足言語表現に対応するN枚の生成画像を複製する。学習サンプル数にバラつきがあると収束しにくいので、Nは、他の不足していない言語表現と同等の数(例えば平均の数)とする。そして抽出部205は、該複製したN枚の生成画像を元画像として外部記憶装置104に登録する。この処理により、検索時に入力するクエリの言語表現が低解像度に応じた言語表現であった場合にもマッチングできるように、学習サンプルを加える。
ステップS404では抽出部205は、ステップS401で取得した元画像及び該元画像の言語表現のそれぞれの特徴量を取得する。そしてステップS405では抽出部205は、ステップS404で取得した元画像の特徴量を上記の共通空間にマッピングし、ステップS406では抽出部205は、ステップS404で取得した言語表現の特徴量を上記の共通空間にマッピングする。個々の特徴量を、上述した共通空間へマッピングする各変換モデルを、少なくとも当該処理では学習する。
ステップS407では、抽出部205は、共通空間上におけるそれぞれの元画像の特徴量とそれぞれの言語表現の特徴量との間の距離を求める。そしてステップS408では、抽出部205は、ステップS407で距離を求めた元画像と言語表現とが対応するペアであったか否かを判断する。元画像Aと言語表現Bとが対応するペアであるとは、元画像Aの言語表現が言語表現Bであることを指す。この判断の結果、ステップS407で距離を求めた元画像と言語表現とが対応するペアであった場合には、処理はステップS409に進む。一方、ステップS407で距離を求めた元画像と言語表現とが対応するペアではなかった場合には、処理はステップS410に進む。
ステップS409では、抽出部205は、「より近い距離を入力するとより小さい損失評価(損失量)を出力する関数」にステップS407で求めた距離を入力した場合の該関数の出力値を、ステップS407で求めた距離に対応する損失量として求める。
ステップS410では、抽出部205は、ステップS407で距離を求めた元画像と言語表現において、該言語表現が生成画像の言語表現であるか否かを判断する。この判断の結果、ステップS407で距離を求めた元画像と言語表現において、該言語表現が生成画像の言語表現である場合には、処理はステップS411に進む。一方、ステップS407で距離を求めた元画像と言語表現において、該言語表現が生成画像の言語表現ではない場合には、処理はステップS412に進む。
ステップS411で抽出部205は、「入力した距離が予め定めた中間距離αに分布する場合に損失評価として規定の小さい値を出力する関数」にステップS407で求めた距離を入力した場合の該関数の出力値を、ステップS407で求めた距離に対応する損失量として求める。
ステップS412では、抽出部205は、ステップS407で距離を求めた元画像と言語表現において、該言語表現が生成画像の言語表現と共通であるか否かを判断する。生成画像の言語表現が共通の元画像同士を近づける。例えば、ステップS407で距離を求めた元画像と言語表現において、該言語表現が「白黒チェック柄」、生成画像の言語表現が「灰色」であったとする。このとき、言語表現「白黒ボーダー柄」に対応する元画像から生成された生成画像の言語表現も「灰色」であった場合、「ステップS407で距離を求めた元画像と言語表現において、該言語表現が生成画像の言語表現と共通である」と判断される。このような関係は、先に述べた図3のフローチャートにおいて関係取得部203で取得した関係をたどることで、容易に判定することができる。
この判定結果、ステップS407で距離を求めた元画像と言語表現において、該言語表現が生成画像の言語表現と共通である場合には、処理はステップS413に進む。一方、ステップS407で距離を求めた元画像と言語表現において、該言語表現が生成画像の言語表現と共通ではない場合には、処理はステップS414に進む。
ステップS413では、抽出部205は、「入力した距離が予め定めた中間距離βに分布する場合に損失評価として規定の小さい値を出力する関数」にステップS407で求めた距離を入力した場合の該関数の出力値を、ステップS407で求めた距離に対応する損失量として求める。中間距離βは中間距離αと同じであっても良いが、ステップS409で定めている距離よりは大きく、後述するステップS415で定めた距離よりも近いものとする。
ステップS414では、抽出部205は、ステップS407で距離を求めた元画像と言語表現が、上述したステップS408,S410,S412のいずれの判定にも適合しないものであることから、負例の学習事例としての処理を行う。即ち抽出部205は「予め定めた中間距離よりも大きいマージンを超える距離を入力すると規定の小さい値をとる損失評価(損失量)を出力する関数」にステップS407で求めた距離を入力することで得られる出力値を、該距離に対応する損失量として求める。
上記のステップS407では、それぞれの元画像の特徴量とそれぞれの言語表現の特徴量との間の距離を求め、ステップS408〜S414の処理は、ステップS407で求めたそれぞれの距離について行うことになる。
ステップS415では、抽出部205は、ステップS407で求めた距離全体の損失量を最小化するように、マッピングする変換モデルのパラメータを更新する学習を繰り返す。本実施形態では、マッピングする変換モデルはニューラルネットワークであることを想定しており、この場合、損失量を最小化するように学習する手法としては、勾配降下法がよく知られている。これらの既知の手法を利用して、変換モデルのパラメータを更新すればよい。
以上説明した図4のフローチャートに従った処理を行うことにより、共通空間で特徴量が図8のように分布するように学習を行う。図8は共通空間を2次元平面として概念的に示したものである。黒三角807が元画像の言語表現の特徴量であり、丸804の範囲に該元画像の特徴量が分布する。黒四角806は、黒三角807に対応する言語表現と関係がある共通の言語表現の特徴量であり、黒四角806に対応する言語表現に対応する元画像の特徴量は丸803の範囲に分布する。この時、黒四角806に対応する言語表現と関係のある言語表現が、丸801の内側且つ丸802の外側の範囲(中間距離部分)に分布するように学習する。丸805は、黒四角806に対応する言語表現と関係のない言語表現に対応する元画像の特徴量が分布する範囲(黒四角806に対応する言語表現と関係のない言語表現の特徴量(白三角))を示しており、これらは、中間距離よりも遠くなるように学習する。
次に、学習に係る処理のうち、抽出部205に生成画像を入力した場合に行う学習処理について、同処理のフローチャートを示す図5に従って説明する。ステップS501では、抽出部205は、外部記憶装置104に保存されている生成画像と該生成画像の言語表現とを取得する。ステップS502では、抽出部205は、外部記憶装置104に登録している対応関係を参照して、ステップS501で取得した生成画像の言語表現に対応する元画像の言語表現を外部記憶装置104から取得する。本フローチャートに従った処理では、ここで得た元画像での言語表現でも、低解像の言語表現(低解像度の画像に対応する言語表現)に対応する画像をマッチングすることを目的としている。そのため、検索時のクエリの表現として入力されうる表現として、元画像に対応する言語表現、すなわち高解像の言語表現を取得する。
ステップS503では抽出部205は、ステップS501で取得した生成画像及び該生成画像の言語表現のそれぞれの特徴量を取得する。またステップS504では抽出部205は、ステップS502で取得した元画像の言語表現の特徴量を取得する。そしてステップS505では、抽出部205は、ステップS503で取得した生成画像の特徴量を上記の共通空間にマッピングし、ステップS506では抽出部205は、ステップS503で取得した言語表現の特徴量を上記の共通空間にマッピングする。またステップS507では抽出部205は、ステップS504で取得した元画像の特徴量を上記の共通空間にマッピングする。個々の特徴量を、上述した共通空間へマッピングする各変換モデルを、少なくとも当該処理では学習する。
ステップS508では、抽出部205は、共通空間上におけるそれぞれの生成画像の特徴量とそれぞれの言語表現の特徴量との間の距離を求める。そしてステップS509では、抽出部205は、ステップS508で距離を求めた生成画像と言語表現とが対応するペアであったか否かを判断する。生成画像Aと言語表現Bとが対応するペアであるとは、生成画像Aの言語表現が言語表現Bであることを指す。この判断の結果、ステップS508で距離を求めた生成画像と言語表現とが対応するペアであった場合には、処理はステップS510に進む。一方、ステップS508で距離を求めた生成画像と言語表現とが対応するペアではなかった場合には、処理はステップS511に進む。
ステップS510では、抽出部205は、「入力した距離が一定範囲内の距離であれば損失評価として規定の小さい値を出力する関数」にステップS508で求めた距離を入力した場合の該関数の出力値を、ステップS508で求めた距離に対応する損失量として求める。本実施形態では、低解像画像を対象とすることで、画像特徴の表現に、高解像での特徴量よりも一定の幅を持たせるために、一定範囲内の距離であれば、損失評価が小さくなるようにしている。
ステップS511では、抽出部205は、ステップS508で距離を求めた生成画像と言語表現において、該言語表現が該生成画像に対応する元画像の言語表現であるか否かを判断する。この判断の結果、ステップS508で距離を求めた生成画像と言語表現において、該言語表現が該生成画像に対応する元画像の言語表現である場合には、処理はステップS512に進む。一方、ステップS508で距離を求めた生成画像と言語表現において、該言語表現が該生成画像に対応する元画像の言語表現ではない場合には、処理はステップS513に進む。
ステップS512では、抽出部205は、「入力した距離がステップS510で定めた一定範囲の距離よりも大きく、別途定めた中間距離内であれば、損失評価として規定の小さい値を出力する関数」にステップS508で求めた距離を入力した場合の該関数の出力値を、ステップS508で求めた距離に対応する損失量として求める。
ステップS513では、抽出部205は、ステップS508で距離を求めた生成画像と言語表現が、上述したステップS509,S511のいずれの判定にも適合しないものであることから、負例の学習事例としての処理を行う。即ち抽出部205は「ステップS512で予め定めた中間距離よりも大きいマージンを超える距離を入力すると規定の小さい値をとる損失評価(損失量)を出力する関数」にステップS508で求めた距離を入力することで得られる出力値を、該距離に対応する損失量として求める。
上記のステップS508では、それぞれの生成画像の特徴量とそれぞれの言語表現の特徴量との間の距離を求め、ステップS509〜S513の処理は、ステップS508で求めたそれぞれの距離について行うことになる。
ステップS514では、抽出部205は、ステップS508で求めた距離全体の損失量を最小化するように、マッピングする変換モデルのパラメータを更新する学習を繰り返す。ここでは、図4のステップS415と同様に、マッピングする変換モデルはニューラルネットワークであるとし、損失量を最小化するように学習する手法として勾配降下法等の既知の手法を利用して、変換モデルのパラメータを更新する。
以上説明した図5のフローチャートに従った処理により、共通空間で特徴量が図9のように分布するように学習を行う。図9は共通空間を2次元平面として概念的に示したものである。黒四角902が生成画像の言語表現の特徴量であり、丸901の範囲に該生成画像の特徴量が分布する。黒三角903は、黒四角902に対応する言語表現の生成画像に対応する元画像の言語表現の特徴量である。この時、これらの特徴量が、丸904の内側の範囲(中間距離部分)に分布するように学習する。白三角905は、黒四角902に対応する言語表現と関係のない言語表現の特徴量を示しており、これらは、丸(中間距離)904から遠くなるように学習する。
次に、検索に係る処理について、同処理のフローチャートを示す図6に従って説明する。ステップS601では、抽出部205は、外部記憶装置104から検索対象画像を取得する。そしてステップS602では抽出部205は、ステップS601で取得した検索対象画像の解像度を評価し、該評価に応じた共通空間を選択する。本実施形態では、検索対象画像の解像度が高解像の場合に選択される共通空間と、検索対象画像の解像度が低解像の場合に選択される共通空間、の2つがあり、検索対象画像の解像度の評価に応じて何れかの共通空間を選択する。高解像、低解像の定義については特定の定義に限らず、例えば、規定値以上の解像度であれば高解像、規定値未満の解像度であれば低解像、としても良い。
ステップS603では、抽出部205は、ステップS602で選択した共通空間に、ステップS601で取得した検索対象画像の特徴量を、対応する変換モデルでマッピングする(学習済みの抽出部205によってそれぞれ共通空間にマッピングする)。検索対象画像の特徴量についても上記の元画像や生成画像の特徴量と同様の方法で取得する。
ステップS604では、抽出部205は、外部記憶装置104に保存されている全ての検索対象画像を取得したか否かを判断する。この判断の結果、外部記憶装置104に保存されている全ての検索対象画像を取得した場合には、処理はステップS605に進む。一方、外部記憶装置104に保存されている検索対象画像のうち未だ取得していない検索対象画像が残っている場合には、処理はステップS601に戻る。
なお、ステップS601〜S604の処理は検索対象画像の特徴量を抽出する処理に該当する。この処理は、検索対象画像の範囲が限定的であれば、図6のフローチャートのようにステップS605以降の処理と同期的に逐次実施しても構わない。一方、大量の検索対象画像がある場合は、逐次実施すると処理コストが高い。そのため、検索対象画像が撮影システム211から外部記憶装置104に登録される毎に、該検索対象画像から特徴量を抽出して外部記憶装置104に登録し、非同期的にステップS605以降の処理を実施しても構わない。これにより、逐次実施時の処理コスト増を抑制できる。
ステップS605では、クエリ取得部206は、ユーザが入力デバイス108を用いて入力したクエリを取得する。そしてステップS606では、抽出部205は、ステップS605で取得したクエリの特徴量を、対応する変換モデルで各共通空間へマッピングする。クエリの特徴量は、上記の言語表現の特徴量を取得する方法と同様の方法で取得すればよい。
ステップS607では、クエリ取得部206は、ユーザが入力デバイス108を用いて入力した「クエリ(ステップS605で取得したクエリ)の解像度の低下度合い」を取得する。そしてステップS608ではクエリ取得部206は、ステップS607で取得した「クエリの解像度の低下度合い」を参照する。そしてステップS607で取得した「クエリの解像度の低下度合い」が「クエリが表現する解像度が高解像度(低下があまり無いという入力)」であれば、処理はステップS610に進む。一方、ステップS607で取得した「クエリの解像度の低下度合い」が「クエリが表現する解像度が低解像度(低下があるという入力)」であれば、処理はステップS609に進む。
ステップS609では、クエリ取得部206は、探索範囲を広めにして漏れを抑制するように予め定めた値に設定する。一方、ステップS610では、クエリ取得部206は、探索範囲を限定的な範囲にとどまる予め定めた値に設定する。なお、探索範囲は距離の閾値などであれば良い。
ステップS611では、マッチング部208は、各共通空間上でクエリの特徴量の近傍の特徴量を取得する。この時、マッチング部208は探索範囲に含まれる結果のみを取得しても構わないし、提示する検索数に至るまで近傍探索し、その結果のいずれが探索範囲に収まるかを区別して出力デバイス109に表示しても良い。探索範囲はクエリの解像度に合った検索結果がどの範囲に分布しているかの目安であるため、該範囲以内に含まれる結果がいずれであるかを示すことができれば、どのように利用しても良い。
ステップS612では、マッチング部208は、ステップS611で取得した検索結果に対応する画像を検索結果として取得して出力デバイス109に表示する。これにより、クエリに合致する画像をユーザは検索できる。ステップS603で検索対象画像の特徴量を共通空間にマッピングする際、該検索対象画像に該検索対象画像を識別可能な情報を付帯しておけば、該情報を参照することで、検索対象画像を外部記憶装置104から取得できる。
このように、本実施形態によれば、目撃者が見た対象とカメラが捉えた対象の解像度の違いに起因する、目撃者の言語表現とカメラ画像との特徴量のずれによって生じる検索漏れを抑制することができる。
[第2の実施形態]
第1の実施形態では、解像度に起因する言語表現の違いの例として、柄と色の関係を挙げたが、この関係に限るものではない。ある共通の背景知識を持つ人の間では、元画像に対する詳細な言語表現が出現するかもしれないが、事例として得られるのであれば、このような表現を含めても構わない。たとえば、野球帽をかぶっていた場合に、柄や色で表現する場合や、チーム名で表現する場合などがあっても良い。他にも、Tシャツの柄として、キャラクターが描かれているような場合に、そのクラス名で表現したり、キャラクター名で表現したりといった違いがあっても良い。あるいは、ブランド品の模様の具体名と幾何学的な名称等の違いがあっても良い。上述したように、取得部202で、低解像度の画像になった場合にどう見えるか、を取得し、関係取得部203で該関係を取得できるものであれば構わない。
このように、事例で得られるのであれば、解像度に起因する言語表現の違いは様々なケースに対応可能であり、実際に目撃情報として得られる表現のバリエーションに対しロバストになる。
[第3の実施形態]
第1の実施形態では、学習時の処理の流れを、全体を一度に更新するようなバッチ学習的なアルゴリズムとして記述したが、これに限るものではない。例えば、オンライン的に正例・負例のペアをマッピングしながら、逐次パラメータを更新しても構わない。あるいはその中間的な手法として知られる、ミニバッチ学習であっても構わない。共通の特徴量空間への変換パラメータを学習できれば良い。都度適した学習手法を選択することで、学習効率や精度が改善する。
[第4の実施形態]
第1の実施形態では、抽出部205における検索対象画像の解像度の評価は、高解像か低解像かを判定するものであったが、これに限るものではない。例えば、検索対象画像の解像度が厳密に高解像、低解像の何れであるのかを特定せず、中間ぐらいだった場合には、複数の空間に登録しても構わない。第1の実施形態に記載の例であれば高解像と低解像の両方の共通空間へマッピングしても良い。その場合、検索結果を取得したときに、両方の共通空間上でヒットするケースも生じるため、検索結果の画像が同一であった場合には、それらをマージするような処理をマッチング部208で行うなどして結果を出せば良い。これにより、解像度による学習の方針が異なる共通空間であっても、漏れを少なく検索することができる。
[第5の実施形態]
第1の実施形態では、クエリが表現する解像度は、検索時にユーザが入力デバイス108を操作して入力するものとしたが、これに限るものではない。例えば、クエリが目撃者の言語表現として得られるような場合、曖昧な情報である可能性を証言などの表現から判定するようにしても良い。たとえば、わずかな時間しか見られなかったような言及であったり、遠距離であった、記憶が薄れてきている、といった言及であったりといった場合が考えられる。それぞれその表現方法は異なるため、これについても、大量の既知の対話コーパスなどから学習しても良いし、辞書を事前に作るなどしても良い。曖昧であるか否かは、言語表現の変換の頻度や、証言として出現するまでの時間など、表現以外の情報からも得られるため、これらの情報を併用するなどして判定しても良い。およその判定を自動ですることで、検索時の操作を簡便にすることができるようになる。
[第6の実施形態]
第1の実施形態では、学習部209および検索処理部210が同一の装置(コンピュータ装置100)に含まれている例を挙げたが、学習部209を有する装置と検索処理部210を有する装置とを別個の装置としても良い。その場合、それぞれの装置で抽出部205を規定するパラメータ(学習パラメータ)を共有するようにすれば良い。
[第7の実施形態]
第1の実施形態では、人物が検索対象である例を述べたが、これに限定しない。例えば、監視カメラが撮影する人物以外のオブジェクト(人物の所有物、動物、建物、乗り物など)を検索対象にしても構わない。その場合は、このようなオブジェクトの画像や該画像に対応する言語表現を学習データとして外部記憶装置104に登録しておき、該学習データを用いて抽出部205を学習する。こうして学習した後、第1の実施形態と同様に、このようなオブジェクトの言語表現での検索が可能となる。これにより、人物以外の対象についても、同様に検索が可能となる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
201:画像生成部 202:取得部 203:関係取得部 204:保管部 205:抽出部 206:クエリ取得部 207:保管部 208:マッチング部

Claims (8)

  1. 第1の画像から、該第1の画像よりも低解像度の第2の画像を生成する生成手段と、
    前記第1の画像の内容を言語で表現した言語表現と、前記第2の画像の内容を言語で表現した言語表現と、の関係を取得する取得手段と、
    前記第1の画像の特徴量と前記第1の画像の言語表現の特徴量とが対応づけてマッピングされた空間に、前記第2の画像の特徴量と前記第2の画像の言語表現の特徴量とが前記関係に従ってマッピングされるように、学習する学習手段と
    を備えることを特徴とする情報処理装置。
  2. 前記情報処理装置は更に、言語表現であるクエリを取得するクエリ取得手段と、
    前記学習手段で学習したマッピングで複数の画像の特徴量をマッピングした前記空間で該特徴量と前記クエリの特徴量とのマッチングを行うことで前記クエリに対応する画像を検索するマッチング手段と
    を備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記マッチング手段は、マッチングを行う対象の画像の解像度に応じた空間で前記マッチングを行うことを特徴とする請求項2に記載の情報処理装置。
  4. 前記クエリ取得手段は、前記クエリが表現する解像度を取得し、
    前記マッチング手段は、前記クエリが表現する解像度に応じて前記検索の範囲を変更することを特徴とする請求項3に記載の情報処理装置。
  5. 前記関係は、言語表現として類似していることを示す請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 請求項1乃至5の何れか1項に記載の情報処理装置を有する撮像装置。
  7. 情報処理装置が行う情報処理方法であって、
    前記情報処理装置の生成手段が、第1の画像から、該第1の画像よりも低解像度の第2の画像を生成する生成工程と、
    前記情報処理装置の取得手段が、前記第1の画像の内容を言語で表現した言語表現と、前記第2の画像の内容を言語で表現した言語表現と、の関係を取得する取得工程と、
    前記情報処理装置の学習手段が、前記第1の画像の特徴量と前記第1の画像の言語表現の特徴量とが対応づけてマッピングされた空間に、前記第2の画像の特徴量と前記第2の画像の言語表現の特徴量とが前記関係に従ってマッピングされるように、学習する学習工程と
    を備えることを特徴とする情報処理方法。
  8. コンピュータを、請求項1乃至5の何れか1項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。
JP2018097408A 2018-05-21 2018-05-21 情報処理装置、撮像装置、情報処理方法 Pending JP2019204183A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018097408A JP2019204183A (ja) 2018-05-21 2018-05-21 情報処理装置、撮像装置、情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018097408A JP2019204183A (ja) 2018-05-21 2018-05-21 情報処理装置、撮像装置、情報処理方法

Publications (1)

Publication Number Publication Date
JP2019204183A true JP2019204183A (ja) 2019-11-28

Family

ID=68726933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018097408A Pending JP2019204183A (ja) 2018-05-21 2018-05-21 情報処理装置、撮像装置、情報処理方法

Country Status (1)

Country Link
JP (1) JP2019204183A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7362075B2 (ja) 2021-05-25 2023-10-17 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7362075B2 (ja) 2021-05-25 2023-10-17 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Similar Documents

Publication Publication Date Title
JP2021012707A (ja) 全身測定値抽出のためのシステムおよび方法
US10127199B2 (en) Automatic measure of visual similarity between fonts
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
US10607109B2 (en) Method and apparatus to perform material recognition and training for material recognition
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
JP6624794B2 (ja) 画像処理装置、画像処理方法及びプログラム
US11842514B1 (en) Determining a pose of an object from rgb-d images
WO2020168814A1 (zh) 服饰识别、分类及检索的方法、装置、设备及存储介质
CN104106078B (zh) 光学字符辨识(ocr)高速缓冲存储器更新
CN114758362B (zh) 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
JP2017033197A (ja) 変化領域検出装置、方法、及びプログラム
CN108198172B (zh) 图像显著性检测方法和装置
JP2014211719A (ja) 情報処理装置およびその方法
JP2014041560A (ja) 画像処理装置、画像処理方法
JP2015197708A (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
Ataer-Cansizoglu et al. Verification of very low-resolution faces using an identity-preserving deep face super-resolution network
Sulong et al. HUMAN ACTIVITIES RECOGNITION VIA FEATURES EXTRACTION FROM SKELETON.
JP2014229129A (ja) 組み合わせ提示装置及びコンピュータプログラム
EP4083906A1 (en) Object search device and object search method
JPWO2015064292A1 (ja) 画像の特徴量に関する処理システム、処理方法及びプログラム
JP6752122B2 (ja) 画像処理装置、画像処理方法
JP6202938B2 (ja) 画像認識装置および画像認識方法
JP2019204183A (ja) 情報処理装置、撮像装置、情報処理方法
JP6855175B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN114519729A (zh) 图像配准质量评估模型训练方法、装置和计算机设备

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113