以下に図面を参照して、本発明にかかる判断条件生成支援プログラム、判断条件生成支援方法および情報処理装置の実施の形態を詳細に説明する。
(実施の形態1)
図1は、実施の形態1にかかる判断条件生成支援方法の一実施例を示す説明図である。図1において、情報処理装置101は、画像が属するとみなした属性を特徴付ける情報の生成を支援するコンピュータである。情報処理装置101は、例えば、PC(Personal Computer)であってもよく、また、サーバであってもよい。
画像は、静止画像または動画像であり、例えば、監視カメラやビデオカメラにより撮影された画像である。画像が属する属性とは、どのような事物をあらわす画像であるかを分類するためのものである。属性としては、例えば、イベント、人物、物体などが挙げられる。イベントは、画像中にあらわれる事象であり、例えば、画像中の人物や物体の動作などにより特徴付けられる出来事である。
例えば、深層学習などの機械学習に基づく手法により、ある画像が属するイベント(属性)を判断する場合がある。イベントの判断には、画像の特徴量からイベントを検出する検出エンジン(検出器)が用いられる。例えば、運動会の動画像から、どの種目の競技が行われているのかをイベントとして検出することができる。
また、機械学習において、ある画像が属するイベント(属性)を判断した際に、なぜ、その判断となったのかの根拠を示す方法として、予め決められたシンボルの中から、その画像の特徴量から導き出されたシンボルを示すことがある。シンボルは、人、背景などのイベントを特徴付ける特徴である。
シンボルの判断には、画像の特徴量からシンボルを検出する検出エンジン(検出器)が用いられる。例えば、運動会の動画像から、選手、トラック(走路)、観客などがシンボルとして検出されることがある。以下の説明では、画像から検出されるシンボルを、画像が属するイベント(属性)を特徴付ける特徴であることから、「下位シンボル」と表記する場合がある。
ここで、イベントの検出と下位シンボルの検出は、それぞれ別々の検出エンジンを用いて独立に行われる。すなわち、ある画像が属するイベントを判断するにあたり、その画像に含まれる下位シンボルをもとに、その画像が属するイベントを判断しているわけではない。
このため、ある画像と別の画像について、それぞれ異なるイベントに属すると判断しているにもかかわらず、その判断の根拠となる下位シンボルが同じものになることがある。このような場合、判断の根拠となる下位シンボルが同じなのに、なぜ、異なるイベントに属すると判断したのかの説明がつかなくなる。
なお、予め決められた下位シンボルの数を増やすことで、このような事態が生じる可能性を下げることが考えられる。しかし、大量の下位シンボルを検出するための検出エンジンを作成するには多く工数がかかるため、異なるイベントを区別できる分の下位シンボルを効率的に検出可能にすることが望まれる。
そこで、本実施の形態では、新規の下位シンボルを検出する検出エンジンを効率的に作成可能にして、画像が属するとみなした属性を特徴付ける情報、すなわち、画像が属する属性を判断した際の根拠となり得る情報の生成を支援する判断条件生成支援方法について説明する。以下、情報処理装置101の処理例について説明する。
(1)情報処理装置101は、第1の画像と第2の画像とに基づいて、第1の画像のうち、第2の画像と異なる特徴的な第1の領域を他領域と異なる様態で表示する。ここで、第1の画像は、第1の属性に属すると判断され、かつ、第1の属性を特徴付ける特徴として第1の特徴を有すると判断された画像である。
また、第2の画像は、第2の属性に属すると判断され、かつ、第2の属性を特徴付ける特徴として第1の特徴を有すると判断された画像である。すなわち、第1の画像と第2の画像とは、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像ペアである。
第1の領域は、第1の画像と第2の画像との違いをあらわす箇所を含む領域であり、例えば、画像の特徴量から特定される。第1の領域を他領域と異なる様態で表示するとは、第1の画像における第1の領域を判別可能に表示することであり、例えば、第1の領域を囲う図形を表示したり、第1の領域をヒートマップにより可視化することである。
また、情報処理装置101は、第1の画像のうちの第1の領域を他領域と異なる様態で表示するとともに、第2の画像のうちの第1の画像と異なる特徴的な第2の特徴領域を他領域と異なる様態で表示することにしてもよい。すなわち、情報処理装置101は、第1の領域を表示するにあたり、第2の特徴領域をあわせて表示することで、第1の領域と第2の特徴領域とを比較可能にしてもよい。
図1の例では、第1の画像110と第2の画像120は、運動会を撮影した動画像であるとする。また、第1の画像110は、属性「リレー」に属すると判断され、かつ、属性「リレー」を特徴付ける特徴「選手、トラック(走路)」を有すると判断された画像であるとする。第2の画像120は、属性「徒競走」に属すると判断され、かつ、属性「徒競走」を特徴付ける特徴「選手、トラック」を有すると判断された画像であるとする。
すなわち、第1の画像110と第2の画像120とは、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像ペアである。この場合、情報処理装置101は、例えば、第1の画像110と第2の画像120とに基づいて、第1の画像110のうち、第2の画像120と異なる特徴的な第1の領域111を他領域と異なる様態で表示する。ここでは、第1の画像110において、第1の領域111を囲う枠112が表示された場合を想定する。
(2)情報処理装置101は、表示した第1の領域を表現する語句を受け付ける。ここで、第1の領域を表現する語句とは、第1の領域を特徴付ける単語や句であり、例えば、第1の領域に写る人物、物体、背景などの特徴をあらわす語句である。具体的には、例えば、情報処理装置101は、ユーザの操作入力により、第1の画像110のうち、枠112で囲われた第1の領域111を表現する語句の入力を受け付けることにしてもよい。
図1の例では、第1の領域111を表現する語句として、「バトン」を受け付けた場合を想定する。第1の領域111を表現する語句「バトン」は、第1の画像110と第2の画像120との違いをあらわす箇所を表現する語句であることから、属性「徒競走」ではなく属性「リレー」を特徴付ける語句であるといえる。
(3)情報処理装置101は、受け付けた語句を、第1の画像が有する第2の特徴として設定する。すなわち、情報処理装置101は、第1の画像のうちの第2の画像との違いをあらわす箇所を表現する語句をラベルとして、第1の画像に付与する。この際、情報処理装置101は、第1の領域を表現するラベルとして付与することにしてもよい。
図1の例では、情報処理装置101は、第1の領域111を表現する語句「バトン」をラベル130として、第1の画像110に付与する。
このように、実施の形態1にかかる情報処理装置101によれば、第2の画像と異なる属性に属するとみなされたにもかかわらず、第2の画像と同じ特徴を有するとみなされた第1の画像に対して、第2の画像との違いをあらわす特徴的な領域を表現する語句をラベルとして付与することができる。
これにより、第1の画像が属するとみなした属性(例えば、イベント)を特徴付ける情報(例えば、下位シンボル)を検出するための学習データ(教師データ)を得ることができる。この学習データ(教師データ)によれば、新規の下位シンボルを検出するための検出エンジンを効率的に追加していくことが可能となり、画像が属するとみなした属性を判断した際の根拠となり得る情報の生成を支援することができる。
図1の例では、第1の画像110が属するとみなした属性「リレー」を特徴付ける情報を検出するための学習データ(第1の画像110+ラベル130)を得ることができる。この学習データ(第1の画像110+ラベル130)によれば、新規の下位シンボル「バトン」を検出するための検出エンジンを作成することができる。これにより、新規の下位シンボル「バトン」を検出する検出エンジンが追加され、属性「リレー」に属するとみなした第1の画像110から検出される下位シンボルと、属性「徒競走」に属するとみなした第2の画像120から検出される下位シンボルとが同じものとなることを防ぐことができる。
(実施の形態2)
つぎに、実施の形態2にかかる情報処理装置101について説明する。なお、実施の形態1で説明した箇所と同様の箇所については、説明を省略する。
(情報処理装置101のハードウェア構成例)
ここで、情報処理装置101のハードウェア構成例について説明する。
図2は、情報処理装置101のハードウェア構成例を示すブロック図である。図2において、情報処理装置101は、プロセッサ201と、メモリ202と、ディスクドライブ203と、ディスク204と、通信I/F(Interface)205と、ディスプレイ206と、入力装置207と、可搬型記録媒体I/F208と、可搬型記録媒体209と、を有する。また、各構成部はバス200によってそれぞれ接続される。
ここで、プロセッサ201は、情報処理装置101の全体の制御を司る。プロセッサ201は、複数のコアを有していてもよい。プロセッサ201は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)である。
メモリ202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する記憶部である。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがプロセッサ201のワークエリアとして使用される。メモリ202に記憶されるプログラムは、プロセッサ201にロードされることで、コーディングされている処理をプロセッサ201に実行させる。
ディスクドライブ203は、プロセッサ201の制御に従ってディスク204に対するデータのリード/ライトを制御する。ディスク204は、ディスクドライブ203の制御で書き込まれたデータを記憶する。ディスク204としては、例えば、磁気ディスク、光ディスクなどが挙げられる。
通信I/F205は、通信回線を通じてネットワークに接続され、ネットワークを介して外部装置に接続される。そして、通信I/F205は、ネットワークと自装置内部とのインターフェースを司り、外部装置からのデータの入出力を制御する。ネットワークは、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などである。
ディスプレイ206は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。ディスプレイ206としては、例えば、液晶ディスプレイや有機EL(Electroluminescence)ディスプレイなどを採用することができる。
入力装置207は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置207は、キーボードやマウスなどであってもよく、また、タッチパネル式の入力パッドやテンキーなどであってもよい。
可搬型記録媒体I/F208は、プロセッサ201の制御に従って可搬型記録媒体209に対するデータのリード/ライトを制御する。可搬型記録媒体209は、可搬型記録媒体I/F208の制御で書き込まれたデータを記憶する。可搬型記録媒体209としては、例えば、CD(Compact Disc)−ROM、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリなどが挙げられる。
なお、情報処理装置101は、上述した構成部のうち、例えば、ディスクドライブ203、ディスク204などを有さないことにしてもよい。また、情報処理装置101は、上述した構成部のほかに、例えば、SSD(Solid State Drive)、スキャナ、プリンタなどを有することにしてもよい。
(シンボルリストDB300の記憶内容)
つぎに、情報処理装置101が有するシンボルリストDB300の記憶内容について説明する。シンボルリストDB300は、例えば、図2に示したメモリ202、ディスク204などの記憶装置により実現される。
図3は、シンボルリストDB300の記憶内容の一例を示す説明図である。図3において、シンボルリストDB300は、イベントおよびシンボルリストのフィールドを有し、各フィールドに情報を設定することで、シンボルリスト情報(例えば、シンボルリスト情報300−1〜300−3)をレコードとして記憶する。
ここで、イベントは、画像が属する属性の一例であり、画像中にあらわれる事象を示す。シンボルリストは、イベントを特徴付ける1または複数の下位シンボルをリスト化して示す。例えば、シンボルリスト情報300−1は、イベント「プロファイリング」を特徴付けるシンボルリスト「警察官、オフィス、PC、・・・」を示す。
(文章DB400の記憶内容)
つぎに、情報処理装置101が有する文章DB400の記憶内容について説明する。文章DB400は、例えば、図2に示したメモリ202、ディスク204などの記憶装置により実現される。
図4は、文章DB400の記憶内容の一例を示す説明図である。図4において、文章DB400は、文章ID、イベントおよび文書のフィールドを有し、各フィールドに情報を設定することで、文章情報(例えば、文章情報400−1,400−2)をレコードとして記憶する。
ここで、文章IDは、文章を一意に識別する識別子である。イベントは、画像中にあらわれる事象を示す。文章は、イベントの内容を記述した1または複数の文である。文章は、例えば、自然言語の文章を構造化して大規模に収集した文章コーパスから抽出される。例えば、文章情報400−1は、イベント「プロファイリング」の内容を記述した文章ID「S1」の文章「プロファイリングとは、警察官が行動科学的に犯罪者の特性を推論することである。・・・」を示す。
以下の説明では、文章ID「S#」の文章を「文章S#」と表記する場合がある(#=1,2,…)。
(情報処理装置101の機能的構成例)
つぎに、情報処理装置101の機能的構成例について説明する。
図5は、情報処理装置101の機能的構成例を示すブロック図である。図5において、情報処理装置101は、取得部501と、第1の判断部502と、第2の判断部503と、検索部504と、特定部505と、表示制御部506と、受付部507と、設定部508と、作成部509と、推定部510と、出力部511と、記憶部512と、を含む。具体的には、例えば、取得部501〜出力部511は、図2に示したメモリ202、ディスク204などの記憶装置に記憶されたプログラムをプロセッサ201に実行させることにより、または、通信I/F205により、その機能を実現する。各機能部の処理結果は、例えば、メモリ202、ディスク204などの記憶装置に記憶される。また、記憶部512は、例えば、メモリ202、ディスク204などの記憶装置により実現される。例えば、記憶部512は、図3に示したシンボルリストDB300、図4に示した文章DB400、後述する学習用画像DB520などを記憶する。
取得部501は、画像を取得する。ここで、取得対象の画像は、静止画像または動画像であり、例えば、監視カメラやビデオカメラにより撮影された画像である。具体的には、例えば、取得部501は、図2に示した入力装置207を用いたユーザの操作入力により、画像を取得することにしてもよい。また、取得部501は、外部のコンピュータから受信することにより、画像を取得することにしてもよい。
取得された画像は、例えば、学習用画像DB520に記憶される。学習用画像DB520は、画像IDと対応付けて、画像IDにより識別される画像を記憶するデータベースである。以下の説明では、学習用画像DB520に記憶された画像を「学習用画像」と表記する場合がある。
第1の判断部502は、画像が属する属性を判断する。ここで、画像が属する属性は、どのような事物をあらわす画像であるかを分類するためのものであり、例えば、画像中にあらわれるイベント(事象)である。具体的には、例えば、第1の判断部502は、学習用画像DB520から学習用画像を取得する。
つぎに、第1の判断部502は、予め決められた複数のイベントの中から、画像の特徴量に基づきイベントを検出するイベント検出器(検出エンジン)を用いて、取得した学習用画像からイベントを検出する。そして、第1の判断部502は、検出したイベントを、取得した学習用画像が属するイベント(属性)として判断する。
なお、画像からイベントを検出する技術としては、深層学習などの機械学習に基づく既存のいかなる技術を用いることにしてもよい。例えば、イベント検出器は、CNN(Convolutional Neural Network)などのアルゴリズムを用いた深層学習により作成することができる。
CNNを用いた既存の認識器(上述した「イベント検出器」に相当)については、例えば、下記非特許文献5,6,7,8,9,10を参照することができる。
非特許文献5:R.R.Selvaraju,et al.、Grad−CAM:Visual Explanations from Deep Networks via Gradient−based Localization、2017
非特許文献6:Krishna Kumar Singh,Yong Jae Lee、End−to−End Localization and Ranking forRelative Attributes、ECCV2016
非特許文献7:Karen SIMONYAN,Andrew Zisserman、VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE−SCALE IMAGE RECOGNITION
非特許文献8:Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun、Deep Residual Learning for Image Recognition、2015
非特許文献9:Gao Huang,Zhuang Liu,Laurens van der Maaten、Densely Connected Convolutional Networks、2018
非特許文献10:Joao Carreira, Andrew Zisserman、Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset、2018
判断された判断結果は、例えば、図6に示すような検出結果テーブル600に記憶される。検出結果テーブル600は、例えば、メモリ202、ディスク204などの記憶装置により実現される。
図6は、検出結果テーブル600の記憶内容の一例を示す説明図である。図6において、検出結果テーブル600は、画像ID、イベントおよび下位シンボルのフィールドを有し、各フィールドに情報を設定することで、検出結果(例えば、検出結果600−1,600−2)をレコードとして記憶する。
ここで、画像IDは、画像を一意に識別する識別子である。イベントは、画像から検出されたイベントの検出結果を示す。下位シンボルは、画像から検出された下位シンボルの検出結果を示す。以下の説明では、画像ID「P#」の画像を「画像P#」と表記する場合がある。
一例として、学習用画像を画像P1,P2とする。画像P1は、画像ID「P1」の動画像である。例えば、画像P1からイベント「プロファイリング」が検出されると、検出結果テーブル600内の画像IDおよびイベントの各フィールドに、「P1」および「プロファイリング」が設定され、検出結果600−1が新たなレコードとして記憶される。この時点では、検出結果600−1の下位シンボルのフィールドは「−(Null)」である。
また、画像P2は、画像ID「P2」の動画像である。例えば、画像P2からイベント「一般事務」が検出されると、検出結果テーブル600内の画像IDおよびイベントの各フィールドに、「P2」および「一般事務」が設定され、検出結果600−2が新たなレコードとして記憶される。この時点では、検出結果600−2の下位シンボルのフィールドは「−」である。
なお、画像が属する属性を示す情報は、当該画像に付与されていてもよい。例えば、取得部501によって取得された画像には、人手により指定されたイベントや、他のコンピュータにおいて判断されたイベントを示す情報が予め付与されていてもよい。
図5の説明に戻り、第2の判断部503は、画像が有する特徴を判断する。ここで、画像が有する特徴は、画像の特徴量から導き出される人物、物体、背景、事象などである。画像が有する特徴は、画像が属するとみなした属性を特徴付ける情報となり得る。ただし、画像が有する特徴の判断は、画像が属する属性の判断とは独立して行われる。
具体的には、例えば、第2の判断部503は、学習用画像DB520から学習用画像を取得する。この際、第2の判断部503は、第1の判断部502によって属性が判断された学習用画像を取得してもよい。つぎに、第2の判断部503は、予め決められた複数の下位シンボルの中から、画像の特徴量に基づき下位シンボルを検出するシンボル検出器(検出エンジン)を用いて、取得した学習用画像から下位シンボルを検出する。そして、第1の判断部502は、検出した下位シンボルを、学習用画像が有する特徴として判断する。
なお、画像から下位シンボルを検出する技術としては、深層学習などの機械学習に基づく既存のいかなる技術を用いることにしてもよい。例えば、シンボル検出器としては、CNNなどのアルゴリズムを用いた深層学習により作成される物体検出器や背景認識器などが挙げられる。既存の物体検出器や背景認識器(上述した「シンボル検出器」に相当)については、例えば、上述した非特許文献1,2を参照することができる。
判断された判断結果は、例えば、図6に示した検出結果テーブル600に記憶される。例えば、画像P1から下位シンボル「オフィス」および「PC」が検出されると検出結果600−1の下位シンボルのフィールドに、「オフィス」および「PC」が設定される。また、画像P2から下位シンボル「オフィス」および「PC」が検出されると、検出結果600−2の下位シンボルのフィールドに、「オフィス」および「PC」が設定される。
検索部504は、第1の画像と第2の画像とのペアを検索する。ここで、第1の画像は、第1の属性に属すると判断され、かつ、第1の属性を特徴付ける特徴として、第1の特徴を有すると判断された画像である。また、第2の画像は、第2の属性に属すると判断され、かつ、第2の属性を特徴付ける特徴として、第1の特徴を有すると判断された画像である。
すなわち、第1の画像と第2の画像とは、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像ペアである。具体的には、例えば、検索部504は、検出結果テーブル600を参照して、イベントが異なり、かつ、下位シンボルが同じである画像のペアを検索する。
より詳細に説明すると、例えば、検索部504は、検出結果600−1,600−2から、イベントが異なり、かつ、下位シンボルが同じである画像P1と画像P2とのペアを検索する。これにより、異なるイベント(属性)が検出されたにもかかわらず、検出された下位シンボル(特徴)が同じである画像P1,P2のペアを検索することができる。
特定部505は、検索された第1の画像と第2の画像とに基づいて、第1の画像のうち、第2の画像と異なる特徴的な領域を特定する。また、特定部505は、第1の画像と第2の画像とに基づいて、第2の画像のうち、第1の画像と異なる特徴的な領域を特定することにしてもよい。
以下の説明では、第1の画像のうち、第2の画像と異なる特徴的な領域を「第1の特徴領域」と表記する場合がある。また、第2の画像のうち、第1の画像と異なる特徴的な領域を「第2の特徴領域」と表記する場合がある。
一例として、第1の画像を「画像P1」とし、第2の画像を「画像P2」とする。画像P1は、イベント「プロファイリング」が検出された画像である。画像P2は、イベント「一般事務」が検出された画像である。この場合、特定部505は、画像P1,P2に基づいて、画像の特徴量から「プロファイリング」または「一般事務」のいずれかのイベントを検出するイベント検出器を作成する。
すなわち、特定部505は、イベントの選択肢を「プロファイリング」と「一般事務」の2つに絞った検出エンジンを作成する。具体的には、例えば、特定部505は、CNNを用いた深層学習により、「プロファイリング」または「一般事務」のいずれかのイベントを検出するイベント検出器を作成する。
この際、特定部505は、イベント「プロファイリング」が付与された画像P1と、イベント「一般事務」が付与された画像P2とを学習データとする。イベント検出器は、例えば、画像の特徴量から各イベント(プロファイリング、一般事務)の確率を出力する。特定部505は、画像のイベントとして、イベント検出器に与えて得られる確率が最大かつ閾値以上のイベントを検出する。
また、イベント検出器の作成にあたり、上述した非特許文献3,4のような、画像間の違いをあらわす特徴量を抽出して可視化する技術を参照することができる。ここで、特徴量を抽出するCNNの構造については任意の構造でよい。例えば、非特許文献7,8,9,10のような構造を用いてイベント検出器を作成し、可視化において非特許文献5,6のような手法を用いてもよい。
例えば、非特許文献3は、CNNを用いた認識器において、重要となる箇所の重みを算出する手法である。非特許文献3では、算出された重みを画像上に重畳することで、認識器が画像中のどの箇所に着目して結果を出したのかを可視化可能である。この手法を利用すれば、イベント検出器が画像中のどの箇所に着目して結果を出したのかを特定することができる。
より詳細に説明すると、例えば、特定部505は、画像P1からイベント「プロファイリング」を検出した際に着目した箇所(重要な箇所)を第1の特徴領域として特定する。また、特定部505は、画像P2からイベント「一般事務」を検出した際に着目した箇所を第2の特徴領域として特定する。
なお、CNNを用いた認識器では、画像同士を区別するのに最も普遍的な特徴量を抽出する。画像P1と画像P2との例では、「オフィス」や「PC」は両画像に共通する下位シンボルであり、両画像を区別する特徴ではない。このため、CNNを用いた認識器では、「オフィス」や「PC」は特徴的な領域として選ばれない。
また、非特許文献4は、「Bald」、「Dark hair」、「Eyes open」などの属性の強弱の判定を学習する手法である。非特許文献4では、着目すべき領域を矩形で特定し、特定した矩形を画像上に重畳することで、属性の強弱の判定器が画像中のどの箇所に着目して結果を出したのかを可視化可能である。
この手法を利用する場合、特定部505は、属性の強弱の判定器を学習する代わりに、イベントを検出する検出器を学習すればよい。具体的には、例えば、特定部505は、学習時の損失関数を文献中ではRanking Lossを用いているところを、Cross entropy lossに変更すればよい。
表示制御部506は、第1の画像のうち、特定された第1の特徴領域を他領域と異なる様態で表示する制御を行う。具体的には、例えば、表示制御部506は、図2に示したディスプレイ206に表示した第1の画像上に第1の特徴領域を囲う図形を重畳表示したり、第1の画像上の第1の特徴領域をヒートマップにより可視化したりする。
また、表示制御部506は、特定された第1の特徴領域を他領域と異なる様態で表示するとともに、第1の画像が属する第1の属性を示す情報を表示する制御を行うことにしてもよい。第1の属性を示す情報は、例えば、第1の画像から検出されたイベントを特定する情報(イベント名など)である。
なお、各対象画像から検出されたイベントを特定する情報は、例えば、検出結果テーブル600から特定される。
また、表示制御部506は、特定された第1の特徴領域を他領域と異なる様態で表示するとともに、第1の画像が有する第1の特徴を示す情報を表示する制御を行うことにしてもよい。第1の特徴を示す情報は、例えば、第1の画像から検出された下位シンボルを特定する情報(下位シンボル名、下位シンボルの位置など)である。
なお、各対象画像から検出された下位シンボルを特定する情報は、例えば、検出結果テーブル600から特定される。
また、表示制御部506は、第1の画像のうち、第1の特徴領域を他領域と異なる様態で表示するとともに、第2の画像のうち、特定された第2の特徴領域を他領域と異なる様態で表示する制御を行うことにしてもよい。具体的には、例えば、表示制御部506は、第2の画像を第1の画像と並べて表示しつつ、第2の画像上に第2の特徴領域を囲う図形を重畳表示したり、第2の画像上の第2の特徴領域をヒートマップにより可視化したりする。
また、表示制御部506は、特定された第2の特徴領域を他領域と異なる様態で表示するとともに、第2の画像が属する第2の属性を示す情報を表示する制御を行うことにしてもよい。第2の属性を示す情報は、例えば、第2の画像から検出されたイベントを特定する情報である。
また、表示制御部506は、特定された第2の特徴領域を他領域と異なる様態で表示するとともに、第2の画像が有する第1の特徴を示す情報を表示する制御を行うことにしてもよい。第1の特徴を示す情報は、例えば、第2の画像から検出された下位シンボルを特定する情報である。
第1の画像および第2の画像において、第1の特徴領域および第2の特徴領域をそれぞれ他領域と異なる様態で表示する表示例については、図8A、図8B、図9Aおよび図9Bを用いて後述する。
なお、第1の画像(または、第2の画像)が動画像の場合、動画像を構成するフレーム群のうちのいずれのフレームにおいて、第1の特徴領域(または、第2の特徴領域)を他領域と異なる様態で表示するかは、任意に設定可能である。例えば、表示制御部506は、動画像を構成するフレーム群からいずれかのフレームをランダムに選択することにしてもよい。また、表示制御部506は、動画像を構成するフレーム群のうち、時刻的に中心のフレームを選択することにしてもよい。また、表示制御部506は、動画像のフレーム群から平均画像を作成し、作成した平均画像において、第1の特徴領域を他領域と異なる様態で表示することにしてもよい。また、表示制御部506は、動画像を再生表示しつつ、第1の特徴領域を他領域と異なる様態で表示する。
受付部507は、他領域と異なる様態で表示された第1の特徴領域を表現する語句を受け付ける。また、受付部507は、他領域と異なる様態で表示された第2の特徴領域を表現する語句を受け付けることにしてもよい。具体的には、例えば、受付部507は、入力装置207を用いたユーザの操作入力により、第1の特徴領域(または、第2の特徴領域)を表現する語句の入力を受け付けることにしてもよい。
すなわち、第1の特徴領域(または、第2の特徴領域)を特徴付ける語句をユーザに直接入力させる。第1の特徴領域(または、第2の特徴領域)を表現する語句の入力は、例えば、後述の図8Aに示すようなラベル指定画面800において行われる。
設定部508は、受け付けた第1の特徴領域を表現する語句を、第1の画像が有する第2の特徴として設定する。具体的には、例えば、設定部508は、入力された第1の特徴領域を表現する語句をラベルとして、第1の画像に付与する。この際、設定部508は、第1の特徴領域と対応付けて、第1の画像にラベルを付与することにしてもよい。
また、設定部508は、受け付けた第2の特徴領域を表現する語句を、第2の画像が有する第3の特徴として設定する。具体的には、例えば、設定部508は、入力された第2の特徴領域を表現する語句をラベルとして、第2の画像に付与する。この際、設定部508は、第2の特徴領域と対応付けて、第2の画像にラベルを付与することにしてもよい。
また、表示制御部506は、第1の属性を特徴付ける1または複数の語句を、第1の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。同様に、表示制御部506は、第2の属性を特徴付ける1または複数の語句を、第2の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。
ここで、第1の属性(または、第2の属性)を特徴付ける語句は、例えば、第1の画像(または、第2の画像)が属するイベントを特徴付ける人物、物体、背景などを示す語句である。すなわち、第1の特徴領域(または、第2の特徴領域)を表現する語句を受け付けるにあたり、イベントを特徴付ける人物、物体、背景などを示す語句を選択肢として提示する。
第1の属性(または、第2の属性)を特徴付ける語句は、属性と当該属性を特徴付ける1または複数の語句との対応関係を示す情報から特定されることにしてもよい。具体的には、例えば、表示制御部506は、図3に示したシンボルリストDB300を参照して、第1の画像が属するイベントに対応するシンボルリストを特定する。
そして、表示制御部506は、第1の特徴領域を他領域と異なる様態で表示する際に、特定したシンボルリストに含まれる下位シンボルを、第1の特徴領域を表現する語句候補として選択可能に表示する。なお、第1の画像が属するイベントは、例えば、検出結果テーブル600から特定される。
この場合、受付部507は、第1の特徴領域(または、第2の特徴領域)を表現する語句として、表示された1または複数の語句のうちのいずれかの語句の選択を受け付ける。そして、設定部508は、選択された語句を、第1の画像(または、第2の画像)が有する第2の特徴(または、第3の特徴)として設定する。
具体的には、例えば、受付部507は、入力装置207を用いたユーザの操作入力により、第1の特徴領域(または、第2の特徴領域)を表現する語句の選択を受け付ける。そして、設定部508は、選択された語句候補(下位シンボル)をラベルとして、第1の画像(または、第2の画像)に付与する。
なお、各特徴領域(第1の特徴領域、第2の特徴領域)を表現する語句候補として、下位シンボルを選択可能に表示する際の表示例については、図9Aを用いて後述する。
また、表示制御部506は、第1の属性に関連する第1の文章と、第2の属性に関連する第2の文章とに基づいて、第1の文章から第1の属性を特徴付ける1または複数の語句を抽出することにしてもよい。そして、表示制御部506は、抽出した第1の属性を特徴付ける1または複数の語句を、第1の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。
同様に、表示制御部506は、第1の文章と第2の文章とに基づいて、第2の文章から第2の属性を特徴付ける1または複数の語句を抽出することにしてもよい。そして、表示制御部506は、抽出した第2の属性を特徴付ける1または複数の語句を、第2の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。
具体的には、例えば、表示制御部506は、第1の文章と第2の文章とに基づいて、第1の文章に含まれる単語の重要度合いを示す指標値を算出する。そして、表示制御部506は、算出した指標値に基づいて、第1の文章から第1の属性を特徴付ける1または複数の語句を抽出することにしてもよい。
ここで、単語の重要度合いを示す指標値は、第1の文章(または、第2の文章)に特徴的な単語であるほど重要度合いが高くなる値である。単語の重要度合いを示す指標値としては、例えば、tf(term frequency)−idf(inverse document frequency)値を用いることができる。
tf−idf値は、複数の文書に横断的に使用されている単語は重要ではなく、対象の文書で出現する頻度が高い単語が特徴的であるという考え方をもとに算出される。例えば、tf−idf値は、「tf−idf値=(文書中の対象単語の出現頻度)×log(文書総数÷対象単語を含む文書数)」によって求めることができる。
より詳細に説明すると、例えば、第1の画像を「画像P1」とし、第2の画像を「画像P2」とする。この場合、表示制御部506は、図4に示した文章DB400から、画像P1が属するイベント「プロファイリング」に対応する文章S1を検索する。また、表示制御部506は、文章DB400から、画像P2が属するイベント「一般事務」に対応する文章S2を検索する。
つぎに、表示制御部506は、検索した文章S1と文章S2とに基づいて、各文章S1,S2に含まれる各単語のtf−idf値を算出する。算出された各単語のtf−idf値は、例えば、図7に示すような指標値テーブル700に記憶される。指標値テーブル700は、メモリ202、ディスク204などの記憶装置により実現される。
図7は、指標値テーブル700の記憶内容の一例を示す説明図である。図7において、指標値テーブル700は、文章ID、単語および指標値のフィールドを有し、各フィールドに情報を設定することで、指標値情報700−1,700−2を記憶する。
ここで、文章IDは、文章を一意に識別する識別子である。単語は、文章に含まれる単語である。指標値は、文章に含まれる単語のtf−idf値である。例えば、指標値情報700−1は、文章S1に含まれる各単語のtf−idf値を示す。
つぎに、表示制御部506は、指標値テーブル700を参照して、各文章S1,S2について、高tf−idf値の単語を抽出する。例えば、表示制御部506は、各文章S1,S2について、指標値が高い上位N個の単語を、高tf−idf値の単語として抽出してもよい。Nは、任意に設定可能であり、例えば、3〜5程度の値に設定される。また、表示制御部506は、各文章S1,S2について、指標値が予め決められた閾値以上の単語を、高tf−idf値の単語として抽出してもよい。また、抽出する単語の品詞を限定するなど、任意の制約を設けてもよい。tf−idf値の算出においても、事前に助詞を除外する等の任意の前処理を行ってもよい。
これにより、文章S1に出現する頻度は高いが、文章S2に出現する頻度が低い単語を、画像P1が属するイベント「プロファイリング」を特徴付ける語句として抽出することができる。また、文章S2に出現する頻度は高いが、文章S1に出現する頻度が低い単語を、画像P2が属するイベント「一般事務」を特徴付ける語句として抽出することができる。
そして、表示制御部506は、文章S1について抽出した高tf−idf値の単語を、第1の特徴領域を表現する語句候補として選択可能に表示する。また、表示制御部506は、文章S2について抽出した高tf−idf値の単語を、第2の特徴領域を表現する語句候補として選択可能に表示する。
なお、表示制御部506は、各文章S1,S2から各画像P1,P2が属する属性を特徴付ける語句を抽出するにあたり、例えば、下記非特許文献11に記載されているような、深層学習により、どの単語の重みが強いかを見つける手法を用いることにしてもよい。この手法によれば、各文章S1,S2から重みが強い単語が抽出される。この際も抽出する単語の品詞を限定するなど、任意の制約を設けてもよい。
非特許文献11:Zichao Yang,et al.、Hierarchical Attention Networks for Document Classification
また、表示制御部506は、第1の特徴領域(または、第2の特徴領域)を表現する語句候補を表示するにあたり、第1の画像(または、第2の画像)から検出された第1の特徴を示す語句候補を除外することにしてもよい。これにより、第1の特徴領域(または、第2の特徴領域)を表現する語句として、検出済みの特徴(下位シンボル)を示す語句が選択されるのを防ぐことができる。
作成部509は、第2の特徴が設定された第1の画像に基づいて、画像の特徴量から第2の特徴を検出する検出器を作成することにしてもよい。また、作成部509は、第3の特徴が設定された第2の画像に基づいて、画像の特徴量から第3の特徴を検出する検出器を作成することにしてもよい。
具体的には、例えば、作成部509は、第1の特徴領域を表現する語句がラベル(第2の特徴)として付与された第1の画像を学習データ(教師データ)として、深層学習などの機械学習により、新規の下位シンボルを検出するシンボル検出器を作成する。また、作成部509は、第2の特徴領域を表現する語句がラベル(第3の特徴)として付与された第2の画像を学習データ(教師データ)として、深層学習などの機械学習により、新規の下位シンボルを検出するシンボル検出器を作成する。
シンボル検出器は、例えば、物体検出器や背景認識器である。物体検出器は、画像中に写っている物体を、位置(座標)を含めて特定する検出器である。物体検出器の学習時には、正解の座標が必要であるため、例えば、第1の特徴領域(または、第2の特徴領域)と対応付けてラベルを付与した第1の画像(または、第2の画像)が学習データとして用いられる。背景認識器は、画像に何が写っているかを特定する検出器である。背景認識器の学習時には、正解の座標は不要なため、例えば、第1の特徴領域(または、第2の特徴領域)を表現する語句がラベルとして付与された第1の画像(または、第2の画像)が学習データとして用いられる。
より詳細に説明すると、例えば、作成部509は、予め決められた既存の下位シンボルに、各画像(第1の画像、第2の画像)に付与されたラベルを新規の下位シンボルとして追加する。すなわち、各画像(第1の画像、第2の画像)に付与されたラベルを、下位シンボルの新たな選択肢として追加する。
そして、作成部509は、ラベリングされた各画像(第1の画像、第2の画像)を新たな学習データとして、既存の学習データを含めて学習することにより、画像の特徴量から各下位シンボルの確率を出力するシンボル検出器を作成する。これにより、新規の下位シンボルを検出可能なシンボル検出器を作成することができる。
受付部507は、対象画像を受け付ける。ここで、対象画像は、画像が属する属性や、画像が有する特徴を推定する対象となる画像である。具体的には、例えば、受付部507は、入力装置207を用いたユーザの操作入力により、対象画像を受け付けることにしてもよい。また、受付部507は、外部のコンピュータから受信することにより、対象画像を取得することにしてもよい。
なお、受付部507は、検索部504によって検索された第1の画像や第2の画像を、対象画像として受け付けることにしてもよい。すなわち、受付部507は、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像を、対象画像として受け付けることにしてもよい。
推定部510は、対象画像が属する属性を推定する。具体的には、例えば、推定部510は、イベント検出器を用いて、受け付けた対象画像からイベントを検出する。そして、推定部510は、検出したイベントを、対象画像が属するイベント(属性)として推定する。イベント検出器は、予め決められた複数のイベントの中から、画像の特徴量に基づきイベントを検出する検出エンジンであり、例えば、第1の判断部502が用いるものと同じものである。
また、推定部510は、対象画像が有する特徴を推定する。具体的には、例えば、推定部510は、作成部509によって作成されたシンボル検出器を用いて、受け付けた対象画像から下位シンボルを検出する。そして、推定部510は、検出した下位シンボルを、対象画像が有する特徴として推定する。
出力部511は、推定部510によって推定された推定結果を出力する。具体的には、例えば、出力部511は、受け付けた対象画像と対応付けて、推定された対象画像が属するイベント(属性)や、推定された対象画像が有する下位シンボル(特徴)を示す情報を出力することにしてもよい。
なお、出力部511の出力形式としては、例えば、メモリ202、ディスク204などの記憶装置への記憶、通信I/F205による他のコンピュータへの送信、ディスプレイ206への表示などがある。
また、出力部511は、設定部508によって第2の特徴が設定された第1の画像を出力することにしてもよい。同様に、出力部511は、設定部508によって第3の特徴が設定された第2の画像を出力することにしてもよい。具体的には、例えば、出力部511は、第1の特徴領域(または、第2の特徴領域)を表現する語句がラベルとして付与された第1の画像(第2の画像)を、学習データ(教師データ)として出力する。これにより、新規の下位シンボルを検出するシンボル検出器を作成するために利用可能な学習データを提供することができる。
また、出力部511は、作成部509によって作成された検出器を出力することにしてもよい。具体的には、例えば、出力部511は、作成された新規の下位シンボルを検出するシンボル検出器を出力することにしてもよい。これにより、異なる属性(例えば、イベント)に属するとみなした画像間で、各画像が有するとみなした特徴(例えば、下位シンボル)が同じものとならないように学習済みのシンボル検出器(検出エンジン)を提供することができる。
なお、上述した説明では、ユーザの操作入力により、各特徴領域(第1の特徴領域、第2の特徴領域)を表現する語句を受け付けることにしたが、これに限らない。例えば、情報処理装置101は、第1の文章(または、第2の文章)に含まれる各単語の重要度合いを示す指標値に基づいて、第1の属性(または、第2の属性)を特徴付ける語句を決定することにしてもよい。
具体的には、例えば、情報処理装置101は、第1の文章(または、第2の文章)に含まれる単語のうち、算出したtf−idf値が最大の単語を、第1の属性を特徴付ける語句を決定することにしてもよい。そして、情報処理装置101は、決定した語句を、第1の画像が有する第2の特徴として設定する。
これにより、第1の画像(または、第2の画像)へのラベルの付与を自動化でき、ラベルの付加作業にかかるユーザの負荷を削減することができる。
また、上述した説明では、情報処理装置101が、シンボルリストDB300および文章DB400を有することにしたが、これに限らない。例えば、ユーザの操作入力により、各特徴領域(第1の特徴領域、第2の特徴領域)を表現する語句を入力させる場合、情報処理装置101は、シンボルリストDB300および文章DB400を有していなくてもよい。
また、情報処理装置101の各機能部は、情報処理装置101とは異なる他のコンピュータ、例えば、情報処理装置101がアクセス可能なサーバで実現することにしてもよい。また、情報処理装置101の各機能部は、情報処理装置101と他のコンピュータとが分担して実現することにしてもよい。
(ラベル指定画面の画面例)
つぎに、ラベル指定画面の画面例について説明する。ラベル指定画面は、各画像(第1の画像、第2の画像)の各特徴領域(第1の特徴領域、第2の特徴領域)を表現する語句の入力や選択を受け付ける操作画面であり、例えば、ディスプレイ206に表示される。
以下の説明では、操作画面に表示されているボックス、ボタン等をユーザが選択する操作として、クリック操作を行う場合を例に挙げて説明する。また、ここでは、第1の画像を「画像P1」とし、第2の画像を「画像P2」とする。
まず、図8Aおよび図8Bを用いて、各画像P1,P2の特徴領域を表現する語句の入力を受け付ける第1の画面例について説明する。
図8Aおよび図8Bは、ラベル指定画面の第1の画面例を示す説明図である。図8Aにおいて、ラベル指定画面800は、画像P1と画像P2とを含む操作画面である。ラベル指定画面800には、イベント情報801と、下位シンボル情報802と、イベント情報803と、下位シンボル情報804とが表示されている。
イベント情報801は、画像P1が属するとみなした属性であるイベント「プロファイリング」を示す。下位シンボル情報802は、画像P1が有するとみなした特徴である下位シンボル「PC」、「オフィス」を示す。イベント情報803は、画像P2が属するとみなした属性であるイベント「一般事務」を示す。下位シンボル情報804は、画像P2が有するとみなした特徴である下位シンボル「PC」、「オフィス」を示す。
すなわち、画像P1,P2は、異なるイベントが検出されたにもかかわらず、検出された下位シンボルが同じである画像のペアである。
ラベル指定画面800において、画像P1上には、特徴領域805を囲う枠810が重畳表示されている。特徴領域805は、画像P1のうち、画像P2と異なる特徴的な箇所を含む領域である。画像P2上には、特徴領域806を囲う枠820が重畳表示されている。特徴領域806は、画像P2のうち、画像P1と異なる特徴的な箇所を含む領域である。
ラベル指定画面800において、入力装置207を用いたユーザの操作入力により、ボックス830をクリックすると、特徴領域805を表現する語句を入力することができる。また、ユーザの操作入力により、ボックス840をクリックすると、特徴領域806を表現する語句を入力することができる。
ラベル指定画面800によれば、ユーザは、各画像P1,P2上の各特徴領域805,806を確認しながら、各特徴領域805,806を表現する語句を入力することができる。この際、ユーザは、各画像P1,P2が属するイベントを把握した上で、各特徴領域805,806を表現する語句を入力することができる。これにより、各イベントに関連する語句の入力を支援することができる。
また、ユーザは、画像P1,P2の特徴領域805,806を見比べながら、各特徴領域805,806を表現する語句を入力することができる。これにより、画像P1,P2同士の違いを把握しやすくして、各イベントを特徴付ける適切な語句を判断しやすくさせることができる。
また、ユーザは、各画像P1,P2から検出済みの下位シンボル(オフィス、PC)を把握した上で、各特徴領域805,806を表現する語句を入力することができる。これにより、各画像P1,P2から検出済みの下位シンボルと意味が重複する語句の入力を防ぐことができる。また、各画像P1,P2から検出済みの下位シンボル(例えば、PC)に特徴領域805,806が近接している場合であっても、誤ったラベル付けが行われるのを抑制することができる。
図8Bの例では、ボックス830には、特徴領域805を表現する語句として「警察官」が入力されている。ボックス840には、特徴領域806を表現する語句として「事務員」が入力されている。ラベル指定画面800において、入力装置207を用いたユーザの操作入力により、ボタンB1をクリックすると、ボックス830に入力された特徴領域805を表現する語句「警察官」が、画像P1にラベルとして付与される。また、ボックス840に入力された特徴領域806を表現する語句「事務員」が、画像P2にラベルとして付与される。
また、ラベル指定画面800において、ボタンB2をクリックすると、各ボックス830,840の入力内容をクリアすることができる。
つぎに、図9Aおよび図9Bを用いて、各画像P1,P2の特徴領域を表現する語句候補の中から、各画像P1,P2の特徴領域を表現する語句の選択を受け付ける第2の画面例について説明する。ただし、図8Aおよび図8Bに示した第1の画面例と同様の箇所については、同一符合を付して説明を省略する。
図9Aおよび図9Bは、ラベル指定画面の第2の画面例を示す説明図である。図9Aにおいて、ラベル指定画面900は、画像P1と画像P2とを含む操作画面である。ラベル指定画面900には、イベント情報801と、下位シンボル情報802と、イベント情報803と、下位シンボル情報804とが表示されている。
ラベル指定画面900において、画像P1上には、特徴領域805を囲う枠810が重畳表示されている。画像P2上には、特徴領域806を囲う枠820が重畳表示されている。また、ラベル指定画面900には、ラベル選択ボックス910,920が表示されている。
ここで、ラベル選択ボックス910は、画像P1の特徴領域805を表現する語句候補「警察官、犯罪者」を含む。ラベル指定画面900において、入力装置207を用いたユーザの操作入力により、チェックボックス911,912のいずれかをクリックすると、特徴領域805を表現する語句を選択することができる。
また、ラベル選択ボックス920は、画像P2の特徴領域806を表現する語句候補「会社員、未経験者」を含む。ラベル指定画面900において、入力装置207を用いたユーザの操作入力により、チェックボックス921,922のいずれかをクリックすると、特徴領域806を表現する語句を選択することができる。
各ラベル選択ボックス910,920に示される語句候補は、例えば、各画像P1,P2が属するイベントに関連する文章S1,S2に含まれる単語のうち、指標値が高い上位2個の単語を抽出したものである(図7参照)。ただし、図7の例では、文章S2について、指標値が高い上位2個の単語は「会社員」と「オフィス」であるが、「オフィス」は、下位シンボル情報804が示す下位シンボル「オフィス」と同じである。このため、「オフィス」の次に指標値が高い「未経験者」が語句候補として抽出されている。
ラベル指定画面900によれば、ユーザは、各ラベル選択ボックス910,920のいずれかのチェックボックスをクリックする操作を行うだけで、各特徴領域805,806を表現する語句を選択することができる。これにより、各特徴領域805,806を表現する語句を手入力する場合に比べて、ラベル付与にかかるユーザの負荷を低減することができる。また、ラベル付与者による表現のブレを抑制することができる。
図9Bの例では、ラベル選択ボックス910のチェックボックス911がクリックされている。また、ラベル選択ボックス920のチェックボックス921がクリックされている。ラベル指定画面900において、ユーザの操作入力により、ボタンB1をクリックすると、チェックボックス911に対応する語句「警察官」が、画像P1にラベルとして付与される。また、チェックボックス921に対応する語句「会社員」が、画像P2にラベルとして付与される。
また、ラベル指定画面900において、ボタンB2をクリックすると、各ラベル選択ボックス910,920の選択内容をクリアすることができる。
なお、情報処理装置101は、各ラベル選択ボックス910,920において、指標値(図7参照)が最大の語句候補(単語)を判別可能に表示することにしてもよい。これにより、各画像P1,P2が属するイベントに関連する各文章S1,S2で最も特徴的な単語を判別可能にして、各特徴領域805,806を表現する語句を選択しやすくさせることができる。
(情報処理装置101の各種処理手順)
つぎに、情報処理装置101の各種処理手順について説明する。まず、情報処理装置101の学習処理手順について説明する。ここでは、学習用画像を「動画像」とする。
図10は、情報処理装置101の学習処理手順の一例を示すフローチャートである。図10のフローチャートにおいて、まず、情報処理装置101は、動画像からイベントおよび下位シンボルを検出するイベント/下位シンボル検出処理を実行する(ステップS1001)。イベント/下位シンボル検出処理の具体的な処理手順については、図11を用いて後述する。なお、イベント/下位シンボル検出処理において検出された検出結果は、検出結果テーブル600に記憶される。
つぎに、情報処理装置101は、検出結果テーブル600を参照して、検出されたイベントが異なり、かつ、検出された下位シンボルが同じである動画像のペアを検索する(ステップS1002)。そして、情報処理装置101は、検索した動画像のペアに基づいて、各動画像から検出されたイベントを検出するイベント検出器を作成する(ステップS1003)。
つぎに、情報処理装置101は、作成したイベント検出器を用いて各動画像からイベントを検出する際に着目した各動画像の特徴領域を特定する(ステップS1004)。そして、情報処理装置101は、特定した各動画像の特徴領域を他領域と異なる様態で表示する(ステップS1005)。
なお、各動画像の特徴領域の表示は、例えば、図8A、図8B、図9Aおよび図9Bに示したようなラベル指定画面800,900において行われる。
つぎに、情報処理装置101は、各動画像にラベルを付与するラベル付与処理を実行する(ステップS1006)。ラベル付与処理の具体的な処理手順については、図12〜図14を用いて後述する。そして、情報処理装置101は、ラベル付与処理においてラベルが付与された動画像に基づいて、新規の下位シンボルを検出するシンボル検出器を作成して(ステップS1007)、本フローチャートによる一連の処理を終了する。
これにより、ラベル付与処理において得られる学習データ(教師データ)を用いて、新規の下位シンボルを検出するためのシンボル検出器を効率的に作成することができる。
つぎに、図11を用いて、図10に示したステップS1001のイベント/下位シンボル検出処理の具体的な処理手順について説明する。
図11は、イベント/下位シンボル検出処理の具体的処理手順の一例を示すフローチャートである。図11のフローチャートにおいて、まず、情報処理装置101は、学習用画像DB520から動画像セットを取得する(ステップS1101)。動画像セットは、学習用画像となる複数の動画像である。
つぎに、情報処理装置101は、取得した動画像セットから選択されていない未選択の動画像を選択する(ステップS1102)。そして、情報処理装置101は、イベント検出器を用いて、選択した動画像からイベントを検出する(ステップS1103)。なお、ステップS1103において用いられるイベント検出器は、図10に示したステップS1003において作成されたイベント検出器とは異なるものである。
つぎに、情報処理装置101は、シンボル検出器を用いて、選択した動画像から下位シンボルを検出する(ステップS1104)。そして、情報処理装置101は、ステップS1103,S1104において検出した検出結果を、検出結果テーブル600に登録する(ステップS1105)。
つぎに、情報処理装置101は、動画像セットから選択されていない未選択の動画像があるか否かを判断する(ステップS1106)。ここで、未選択の動画像がある場合(ステップS1106:Yes)、情報処理装置101は、ステップS1102に戻る。一方、未選択の動画像がない場合(ステップS1106:No)、情報処理装置101は、イベント/下位シンボル検出処理を呼び出したステップに戻る。
これにより、学習用画像からイベントおよび下位シンボルを検出することができる。
つぎに、図12〜図14を用いて、図10に示したステップS1006のラベル付与処理の具体的な処理手順について説明する。ここでは、ラベル付与処理として、第1、第2および第3のラベル付与処理について説明する。まず、図12を用いて、第1のラベル付与処理の具体的な処理手順について説明する。
図12は、第1のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図12のフローチャートにおいて、まず、情報処理装置101は、図10に示したステップS1005において他領域と異なる様態で表示した各動画像の特徴領域を表現する語句の入力を受け付けたか否かを判断する(ステップS1201)。
なお、各動画像の特徴領域を表現する語句の入力は、例えば、図8Aおよび図8Bに示したようなラベル指定画面800において行われる。
ここで、情報処理装置101は、各動画像の特徴領域を表現する語句が入力されるのを待つ(ステップS1201:No)。そして、情報処理装置101は、各動画像の特徴領域を表現する語句が入力された場合(ステップS1201:Yes)、入力された各動画像の特徴領域を表現する語句をラベルとして、各動画像に付与して(ステップS1202)、第1のラベル付与処理を呼び出したステップに戻る。
これにより、各動画像の特徴領域を表現する任意の語句を各動画像にラベリングすることができる。
つぎに、図13を用いて、第2のラベル付与処理の具体的な処理手順について説明する。
図13は、第2のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図13のフローチャートにおいて、まず、情報処理装置101は、シンボルリストDB300を参照して、各動画像から検出したイベントに対応するシンボルリストを特定する(ステップS1301)。
つぎに、情報処理装置101は、特定した各動画像についてのシンボルリストから、各動画像から検出した検出済みの下位シンボルを除外する(ステップS1302)。そして、情報処理装置101は、シンボルリストに含まれる残余の下位シンボルを、各動画像の特徴領域を表現する語句候補として選択可能に表示する(ステップS1303)。
なお、各動画像の特徴領域を表現する語句候補の表示は、例えば、図9Aおよび図9Bに示したようなラベル指定画面900において行われる。
つぎに、情報処理装置101は、各動画像の特徴領域を表現する語句候補として表示した下位シンボルのうちのいずれかの下位シンボルが選択されたか否かを判断する(ステップS1304)。ここで、情報処理装置101は、各動画像について下位シンボルが選択されるのを待つ(ステップS1304:No)。
そして、情報処理装置101は、各動画像について下位シンボルが選択された場合(ステップS1304:Yes)、選択された下位シンボルをラベルとして、各動画像に付与して(ステップS1305)、第2のラベル付与処理を呼び出したステップに戻る。
これにより、各動画像の特徴領域を表現する語句(下位シンボル)を、各動画像にラベル(特徴)として付与することができる。
つぎに、図14を用いて、第3のラベル付与処理の具体的な処理手順について説明する。
図14は、第3のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図14のフローチャートにおいて、まず、情報処理装置101は、文章DB400から、各動画像から検出したイベントに対応する文章を検索する(ステップS1401)。つぎに、情報処理装置101は、検索した各動画像のイベントに対応する文章に基づいて、各文章に含まれる各単語のtf−idf値を算出する(ステップS1402)。
そして、情報処理装置101は、算出した各単語のtf−idf値に基づいて、各文章から、高tf−idf値の単語を抽出する(ステップS1403)。そして、情報処理装置101は、各文章から抽出した高tf−idf値の単語を、各動画像の特徴領域を表現する語句候補として選択可能に表示する(ステップS1404)。
なお、各動画像の特徴領域を表現する語句候補の表示は、例えば、図9Aおよび図9Bに示したようなラベル指定画面900において行われる。
つぎに、情報処理装置101は、各動画像の特徴領域を表現する語句候補として表示した高tf−idf値の単語のうちのいずれかの単語が選択されたか否かを判断する(ステップS1405)。ここで、情報処理装置101は、各動画像について単語が選択されるのを待つ(ステップS1405:No)。
そして、情報処理装置101は、各動画像について単語が選択された場合(ステップS1405:Yes)、選択された単語をラベルとして、各動画像に付与して(ステップS1406)、第3のラベル付与処理を呼び出したステップに戻る。
これにより、各動画像の特徴領域を表現する語句(高tf−idf値の単語)を、各動画像にラベル(特徴)として付与することができる。なお、ステップS1403において、情報処理装置101は、各動画像から検出した検出済みの下位シンボルを示す単語を抽出対象から除外することにしてもよい。
つぎに、図15を用いて、情報処理装置101の推定処理手順について説明する。ここでは、対象画像を「動画像」とする。
図15は、情報処理装置101の推定処理手順の一例を示すフローチャートである。図15のフローチャートにおいて、まず、情報処理装置101は、対象画像となる動画像を受け付ける(ステップS1501)。
つぎに、情報処理装置101は、イベント検出器を用いて、受け付けた動画像からイベントを検出する(ステップS1502)。なお、ステップS1502において用いられるイベント検出器は、例えば、図11に示したステップS1103において用いられるイベント検出器と同じものである。
つぎに、情報処理装置101は、図10に示したステップS1007において作成されたイベント検出器を用いて、受け付けた動画像から下位シンボルを検出する(ステップS1503)。そして、情報処理装置101は、ステップS1502,S1503において検出した検出結果を出力して(ステップS1504)、本フローチャートによる一連の処理を終了する。
これにより、動画像が属するとみなしたイベントを特徴付ける下位シンボルを推定することができる。また、下位シンボルを検出するにあたり、図10に示したステップS1007において作成されたイベント検出器を用いることで、ある動画像のペアについて、異なるイベント(属性)が検出されたにもかかわらず、同じ下位シンボル(特徴)が検出されるのを防ぐことができる。
なお、対象画像である動画像には、当該動画像が属するイベントを示す情報が予め付与されていてもよい。例えば、動画像には、人手により指定されたイベントや、他のコンピュータにおいて判断されたイベントを示す情報であるイベントラベルが付与されている場合がある。
以下、対象画像である動画像に、当該動画像が属するイベントを示すイベントラベルが予め付与されている場合の情報処理装置101の各種処理手順について説明する。ただし、図10〜図15を用いて説明した手順とは異なる手順についてのみ説明する。
まず、図10に示したステップS1001において、イベント/下位シンボル検出処理に換えて実行される下位シンボル検出処理の具体的な処理手順について説明する。
図16は、下位シンボル検出処理の具体的処理手順の一例を示すフローチャートである。図16のフローチャートにおいて、まず、情報処理装置101は、イベントラベルが付与された動画像セットを取得する(ステップS1601)。そして、情報処理装置101は、取得した動画像セットから選択されていない未選択の動画像を選択する(ステップS1602)。
つぎに、情報処理装置101は、シンボル検出器を用いて、選択した動画像から下位シンボルを検出する(ステップS1603)。そして、情報処理装置101は、検出した検出結果を、検出結果テーブル600に登録する(ステップS1604)。この際、情報処理装置101は、動画像に付与されたイベントラベルが示すイベントを、検出結果テーブル600内の各検出結果のイベントフィールドに設定する。
つぎに、情報処理装置101は、動画像セットから選択されていない未選択の動画像があるか否かを判断する(ステップS1605)。ここで、未選択の動画像がある場合(ステップS1605:Yes)、情報処理装置101は、ステップS1602に戻る。一方、未選択の動画像がない場合(ステップS1605:No)、情報処理装置101は、下位シンボル検出処理を呼び出したステップに戻る。
これにより、学習用画像から下位シンボルを検出することができる。
つぎに、対象画像である動画像にイベントラベルが付与されている場合に実行される第2の推定処理の具体的な処理手順について説明する。
図17は、情報処理装置101の第2の推定処理手順の一例を示すフローチャートである。図17のフローチャートにおいて、まず、情報処理装置101は、対象画像となるイベントラベルが付与された動画像を受け付ける(ステップS1701)。
つぎに、情報処理装置101は、図10に示したステップS1007において作成されたシンボル検出器を用いて、受け付けた動画像から下位シンボルを検出する(ステップS1702)。そして、情報処理装置101は、検出した検出結果を出力して(ステップS1703)、本フローチャートによる一連の処理を終了する。
これにより、動画像が属するとみなされたイベントを特徴付ける下位シンボルを推定することができる。
以上説明したように、実施の形態2にかかる情報処理装置101によれば、第1の画像と第2の画像とに基づいて、第1の画像のうち、第2の画像と異なる特徴的な第1の領域を他領域と異なる様態で表示することができる。第1の画像は、第1の属性に属すると判断され、かつ、第1の属性を特徴付ける特徴として、第1の特徴を有すると判断された画像である。また、第2の画像は、第2の属性に属すると判断され、かつ、第2の属性を特徴付ける特徴として、第1の画像と同じ第1の特徴を有すると判断された画像である。そして、情報処理装置101によれば、表示した第1の領域を表現する語句を受け付け、受け付けた語句を、第1の画像が有する第2の特徴として設定することができる。
これにより、他の画像と異なる属性に属するとみなされたにもかかわらず、他の画像と同じ特徴を有するとみなされた画像に対して、他の画像との違いをあらわす特徴的な領域を表現する語句をラベルとして付与することができる。この結果、画像が属するとみなした属性(例えば、イベント)を特徴付ける情報(例えば、下位シンボル)を検出するための学習データ(教師データ)を得ることができる。この学習データ(教師データ)によれば、新規の下位シンボルを検出するためのシンボル検出器を効率的に追加していくことが可能となり、画像が属するとみなした属性を判断した際の根拠となり得る情報の生成を支援することができる。
また、情報処理装置101によれば、第1の画像のうちの第1の領域を他領域と異なる様態で表示するとともに、第2の画像のうちの第1の画像と異なる特徴的な第2の領域を他領域と異なる様態で表示することができる。
これにより、第1の領域と第2の領域とを見比べながら、第1の領域を表現する語句を判断することが可能となり、画像が属するとみなした属性(例えば、イベント)を特徴付ける適切な語句を判断しやすくさせることができる。
また、情報処理装置101によれば、第1の画像のうち、第1の属性を特徴付ける1または複数の語句を、表示した第1の領域を表現する語句候補として選択可能に表示し、表示した1または複数の語句のうちのいずれかの語句の選択を受け付け、選択された語句を、第1の画像が有する第2の特徴として設定することができる。
これにより、第1の領域を表現する語句を手入力する場合に比べて、ラベル付与にかかるユーザの負荷を低減することができる。また、ラベル付与者による表現のブレを抑制することができる。
また、情報処理装置101によれば、第1の属性に関連する第1の文章と、第2の属性に関連する第2の文章とに基づいて、第1の文章から第1の属性を特徴付ける1または複数の語句を抽出し、抽出した1または複数の語句を選択可能に表示することができる。
これにより、画像が属するとみなした属性(例えば、イベント)に関連する文章から、画像内の特徴的な領域を表現する語句候補を抽出することができる。
また、情報処理装置101によれば、第1の文章と第2の文章とに基づいて、第1の文章に含まれる単語の重要度合いを示す指標値を算出し、算出した指標値に基づいて、第1の文章から第1の属性を特徴付ける1または複数の語句を抽出することができる。
これにより、例えば、単語の重要度合いを示す指標値としてtf−idf値を用いることで、第1の文章に出現する頻度は高いが、第2の文章に出現する頻度が低い単語を、第1の画像が属する属性を特徴付ける語句として抽出することができる。
また、情報処理装置101によれば、属性と当該属性を特徴付ける1または複数の語句との対応関係を示す情報を参照して、第1の属性を特徴付ける1または複数の語句を特定し、特定した1または複数の語句を選択可能に表示することができる。
これにより、予め知識としてデータベース化した情報を利用して、画像が属するとみなした属性(例えば、イベント)を特徴付ける語句候補を表示することができる。また、シンボル検出器により検出された下位シンボルが、予め知識としてデータベース化した情報と一致するか否かの確認を行うこともできる。
また、情報処理装置101によれば、第2の特徴を設定した第1の画像に基づいて、画像の特徴量から第2の特徴を検出する検出器を作成することができる。
これにより、新規の下位シンボルを検出するためのシンボル検出器を効率的に追加することができる。このシンボル検出器によれば、他の画像と異なる属性に属するとみなされた画像について、検出される下位シンボルが他の画像と同じものとなることを防ぐことができる。このため、画像が属するとみなした属性を判断した際の根拠となる適切な情報を生成することができる。
また、情報処理装置101によれば、第1の画像のうちの第1の領域を他領域と異なる様態で表示するとともに、第1の属性を示す情報を表示することができる。また、情報処理装置101によれば、第2の画像のうちの第2の領域を他領域と異なる様態で表示するとともに、第2の属性を示す情報を表示することができる。
これにより、画像が属するとみなした属性(例えば、イベント)を把握可能にして、当該属性を特徴付ける適切な語句を判断しやすくさせることができる。
また、情報処理装置101によれば、第1の画像のうちの第1の領域を他領域と異なる様態で表示するとともに、第1の特徴を示す情報を表示することができる。また、情報処理装置101によれば、第2の画像のうちの第2の領域を他領域と異なる様態で表示するとともに、第1の特徴を示す情報を表示することができる。
これにより、画像が属するとみなした属性(例えば、イベント)を特徴付ける語句として、画像から検出済みの特徴(例えば、下位シンボル)と意味が重複する語句が、入力されたり、選択されるのを防ぐことができる。
また、情報処理装置101によれば、第1の画像と第2の画像とに基づいて、画像の特徴量から第1の属性または第2の属性のいずれかの属性を検出する検出器を作成することができる。そして、情報処理装置101によれば、作成した検出器を用いて第1の画像から第1の属性を検出する際に着目した箇所を含む領域を、第1の領域として特定することができる。
これにより、画像が属するとみなした属性(例えば、イベント)を特徴付ける適切な情報(例えば、下位シンボル)を検出するための学習データを得ることができる。
なお、本実施の形態で説明した判断条件生成支援方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本判断条件生成支援プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、DVD、USBメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本判断条件生成支援プログラムは、インターネット等のネットワークを介して配布してもよい。
また、本実施の形態で説明した情報処理装置101は、スタンダードセルやストラクチャードASIC(Application Specific Integrated Circuit)などの特定用途向けICやFPGAなどのPLD(Programmable Logic Device)によっても実現することができる。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)第1の属性に属すると判断され、前記第1の属性を特徴付ける第1の特徴を有すると判断された第1の画像と、前記第1の属性とは異なる第2の属性に属すると判断され、前記第2の属性を特徴付ける前記第1の特徴を有すると判断された第2の画像とに基づいて、前記第1の画像のうち、前記第2の画像と異なる特徴的な第1の領域を他領域と異なる様態で表示し、
表示した前記第1の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第1の画像が有する第2の特徴として設定する、
処理をコンピュータに実行させることを特徴とする判断条件生成支援プログラム。
(付記2)前記表示する処理は、
前記第1の領域を他領域と異なる様態で表示するとともに、前記第2の画像のうち、前記第1の画像と異なる特徴的な第2の領域を他領域と異なる様態で表示する、ことを特徴とする付記1に記載の判断条件生成支援プログラム。
(付記3)前記第1の属性を特徴付ける1または複数の語句を、表示した前記第1の領域を表現する語句候補として選択可能に表示する、処理を前記コンピュータに実行させ、
前記受け付ける処理は、
表示した前記1または複数の語句のうちのいずれかの語句の選択を受け付け、
前記設定する処理は、
選択された前記語句を、前記第1の画像が有する第2の特徴として設定する、
ことを特徴とする付記1または2に記載の判断条件生成支援プログラム。
(付記4)前記第1の属性に関連する第1の文章と、前記第2の属性に関連する第2の文章とに基づいて、前記第1の文章から前記第1の属性を特徴付ける1または複数の語句を抽出する、処理を前記コンピュータに実行させ、
前記1または複数の語句を表示する処理は、
抽出した前記1または複数の語句を選択可能に表示する、ことを特徴とする付記3に記載の判断条件生成支援プログラム。
(付記5)前記抽出する処理は、
前記第1の文章と前記第2の文章とに基づいて、前記第1の文章に含まれる単語の重要度合いを示す指標値を算出し、
算出した前記指標値に基づいて、前記第1の文章から前記第1の属性を特徴付ける1または複数の語句を抽出する、
ことを特徴とする付記4に記載の判断条件生成支援プログラム。
(付記6)属性と前記属性を特徴付ける1または複数の語句との対応関係を示す情報を参照して、前記第1の属性を特徴付ける1または複数の語句を特定する、処理を前記コンピュータに実行させ、
前記1または複数の語句を表示する処理は、
特定した前記1または複数の語句を選択可能に表示する、ことを特徴とする付記2〜5のいずれか一つに記載の判断条件生成支援プログラム。
(付記7)前記第2の特徴を設定した前記第1の画像に基づいて、画像の特徴量から前記第2の特徴を検出する検出器を作成する、処理を前記コンピュータに実行させることを特徴とする付記1〜6のいずれか一つに記載の判断条件生成支援プログラム。
(付記8)表示した前記第2の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第2の画像が有する第3の特徴として設定する、
処理を前記コンピュータに実行させることを特徴とする付記2に記載の判断条件生成支援プログラム。
(付記9)前記表示する処理は、
前記第1の領域を他領域と異なる様態で表示するとともに、前記第1の属性を示す情報を表示する、ことを特徴とする付記1に記載の判断条件生成支援プログラム。
(付記10)前記表示する処理は、
前記第1の領域を他領域と異なる様態で表示するとともに、前記第1の特徴を示す情報を表示する、ことを特徴とする付記1に記載の判断条件生成支援プログラム。
(付記11)前記表示する処理は、
前記第2の領域を他領域と異なる様態で表示するとともに、前記第2の属性を示す情報を表示する、ことを特徴とする付記2に記載の判断条件生成支援プログラム。
(付記12)前記表示する処理は、
前記第2の領域を他領域と異なる様態で表示するとともに、前記第1の特徴を示す情報を表示する、ことを特徴とする付記2に記載の判断条件生成支援プログラム。
(付記13)前記第1の画像と前記第2の画像とに基づいて、画像の特徴量から前記第1の属性または前記第2の属性のいずれかの属性を検出する検出器を作成し、
作成した前記検出器を用いて前記第1の画像から前記第1の属性を検出する際に着目した箇所を含む領域を、前記第1の領域として特定する、
処理を前記コンピュータに実行させ、
前記表示する処理は、
前記第1の画像のうち、特定した前記第1の領域を他領域と異なる様態で表示する、ことを特徴とする付記1〜12のいずれか一つに記載の判断条件生成支援プログラム。
(付記14)前記第1の画像および前記第2の画像は、それぞれ異なる動画像である、ことを特徴とする付記1〜13のいずれか一つに記載の判断条件生成支援プログラム。
(付記15)第1の属性に属すると判断され、前記第1の属性を特徴付ける第1の特徴を有すると判断された第1の画像と、前記第1の属性とは異なる第2の属性に属すると判断され、前記第2の属性を特徴付ける前記第1の特徴を有すると判断された第2の画像とに基づいて、前記第1の画像のうち、前記第2の画像と異なる特徴的な第1の領域を他領域と異なる様態で表示し、
表示した前記第1の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第1の画像が有する第2の特徴として設定する、
処理をコンピュータが実行することを特徴とする判断条件生成支援方法。
(付記16)第1の属性に属すると判断され、前記第1の属性を特徴付ける第1の特徴を有すると判断された第1の画像と、前記第1の属性とは異なる第2の属性に属すると判断され、前記第2の属性を特徴付ける前記第1の特徴を有すると判断された第2の画像とに基づいて、前記第1の画像のうち、前記第2の画像と異なる特徴的な第1の領域を他領域と異なる様態で表示する表示制御部と、
前記表示制御部が表示した前記第1の領域を表現する語句を受け付ける受付部と、
前記受付部が受け付けた前記語句を、前記第1の画像が有する第2の特徴として設定する設定部と、
を有することを特徴とする情報処理装置。