JP2020071709A

JP2020071709A - 判断条件生成支援プログラム、判断条件生成支援方法および情報処理装置

Info

Publication number: JP2020071709A
Application number: JP2018205808A
Authority: JP
Inventors: 圭造加藤; Keizo Kato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-07
Anticipated expiration: 2038-10-31
Also published as: JP7107172B2

Abstract

【課題】画像が属するとみなした属性を特徴付ける情報の生成を支援すること。【解決手段】ラベル指定画面９００は、異なるイベントが検出されたにもかかわらず、検出された下位シンボルが同じである画像Ｐ１と画像Ｐ２とを含む操作画面である。ラベル指定画面９００において、画像Ｐ１上には、特徴領域８０５を囲う枠８１０が重畳表示されている。また、ラベル指定画面９００には、画像Ｐ１の特徴領域８０５を表現する語句候補「警察官、犯罪者」を含むラベル選択ボックス９１０が表示されている。ラベル指定画面９００において、例えば、チェックボックス９１１をクリックすると、特徴領域８０５を表現する語句「警察官」を選択することができる。また、ラベル指定画面９００において、ボタンＢ１をクリックすると、クリックされたチェックボックス９１１に対応する語句「警察官」が、画像Ｐ１にラベルとして付与される。【選択図】図９Ａ

Description

本発明は、判断条件生成支援プログラム、判断条件生成支援方法および情報処理装置に関する。

近年、画像（例えば、動画像）に関係するイベントの検出に関して、深層学習などの機械学習に基づく手法により高精度な検出が可能となってきている。一方で、深層学習を筆頭に機械学習に基づく手法では、イベントが検出された根拠が人間にとって解釈困難なものであることが多い。イベントが検出された根拠について人間に解釈を促すことは、結果を最終的に信頼できるかを判断したり、新たな知見を得るために重要である。

先行技術としては、イベントを検出するエンジンとは別に、画像から人や背景などのシンボルを検出するエンジンを用意し、検出したシンボルを組み合わせたものを、検出したイベントについての説明として示すものがある。シンボルの検出エンジンとしては、例えば、物体検出器や背景認識器などがある（例えば、非特許文献１，２，３，４参照）。

ＲｏｓｓＧｉｒｓｈｉｃｋ、ＦａｓｔＲ−ＣＮＮ、２０１５ＳｈａｏｑｉｎｇＲｅｎ, ＫａｉｍｉｎｇＨｅ, ＲｏｓｓＧｉｒｓｈｉｃｋ, ａｎｄＪｉａｎＳｕｎ、ＦａｓｔｅｒＲ−ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ−ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ、２０１６ＢｏｌｅｉＺｈｏｕ, ＡｇａｔａＬａｐｅｄｒｉｚａ, ＪｉａｎｘｉｏｎｇＸｉａｏ, ＡｎｔｏｎｉｏＴｏｒｒａｌｂａ, ａｎｄＡｕｄｅＯｌｉｖａ、ＬｅａｒｎｉｎｇＤｅｅｐＦｅａｔｕｒｅｓｆｏｒＳｃｅｎｅＲｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇＰｌａｃｅｓＤａｔａｂａｓｅ、２０１４ＬｕｉｓＨｅｒｒａｎｚ，ＳｈｕｑｉａｎｇＪｉａｎｇ，ＸｉａｎｇｙａｎｇＬｉ、ＳｃｅｎｅｒｅｃｇｎｉｔｉｏｎｗｉｔｈＣＮＮｓ：ｏｂｊｅｃｔｓ，ｓｃａｌｅｓａｎｄｄａｔａｓｅｔｂｉａｓ、２０１６

しかしながら、従来技術では、他の画像とは異なるイベントが検出された画像について、イベントが検出された根拠についての説明が不十分なものとなる場合がある。例えば、２つの画像からそれぞれ検出されたイベントが異なるにもかかわらず、検出根拠として示されるシンボルが同じものとなると、異なるイベントを区別するための説明が不十分なものとなる。

一つの側面では、本発明は、画像が属するとみなした属性を特徴付ける情報の生成を支援することを目的とする。

１つの実施態様では、第１の属性に属すると判断され、前記第１の属性を特徴付ける第１の特徴を有すると判断された第１の画像と、前記第１の属性とは異なる第２の属性に属すると判断され、前記第２の属性を特徴付ける前記第１の特徴を有すると判断された第２の画像とに基づいて、前記第１の画像のうち、前記第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示し、表示した前記第１の領域を表現する語句を受け付け、受け付けた前記語句を、前記第１の画像が有する第２の特徴として設定する、判断条件生成支援プログラムが提供される。

本発明の一側面によれば、画像が属するとみなした属性を特徴付ける情報の生成を支援することができる。

図１は、実施の形態１にかかる判断条件生成支援方法の一実施例を示す説明図である。図２は、情報処理装置１０１のハードウェア構成例を示すブロック図である。図３は、シンボルリストＤＢ３００の記憶内容の一例を示す説明図である。図４は、文章ＤＢ４００の記憶内容の一例を示す説明図である。図５は、情報処理装置１０１の機能的構成例を示すブロック図である。図６は、検出結果テーブル６００の記憶内容の一例を示す説明図である。図７は、指標値テーブル７００の記憶内容の一例を示す説明図である。図８Ａは、ラベル指定画面の第１の画面例を示す説明図（その１）である。図８Ｂは、ラベル指定画面の第１の画面例を示す説明図（その２）である。図９Ａは、ラベル指定画面の第２の画面例を示す説明図（その１）である。図９Ｂは、ラベル指定画面の第２の画面例を示す説明図（その２）である。図１０は、情報処理装置１０１の学習処理手順の一例を示すフローチャートである。図１１は、イベント／下位シンボル検出処理の具体的処理手順の一例を示すフローチャートである。図１２は、第１のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図１３は、第２のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図１４は、第３のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図１５は、情報処理装置１０１の推定処理手順の一例を示すフローチャートである。図１６は、下位シンボル検出処理の具体的処理手順の一例を示すフローチャートである。図１７は、情報処理装置１０１の第２の推定処理手順の一例を示すフローチャートである。

以下に図面を参照して、本発明にかかる判断条件生成支援プログラム、判断条件生成支援方法および情報処理装置の実施の形態を詳細に説明する。

（実施の形態１）
図１は、実施の形態１にかかる判断条件生成支援方法の一実施例を示す説明図である。図１において、情報処理装置１０１は、画像が属するとみなした属性を特徴付ける情報の生成を支援するコンピュータである。情報処理装置１０１は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であってもよく、また、サーバであってもよい。

画像は、静止画像または動画像であり、例えば、監視カメラやビデオカメラにより撮影された画像である。画像が属する属性とは、どのような事物をあらわす画像であるかを分類するためのものである。属性としては、例えば、イベント、人物、物体などが挙げられる。イベントは、画像中にあらわれる事象であり、例えば、画像中の人物や物体の動作などにより特徴付けられる出来事である。

例えば、深層学習などの機械学習に基づく手法により、ある画像が属するイベント（属性）を判断する場合がある。イベントの判断には、画像の特徴量からイベントを検出する検出エンジン（検出器）が用いられる。例えば、運動会の動画像から、どの種目の競技が行われているのかをイベントとして検出することができる。

また、機械学習において、ある画像が属するイベント（属性）を判断した際に、なぜ、その判断となったのかの根拠を示す方法として、予め決められたシンボルの中から、その画像の特徴量から導き出されたシンボルを示すことがある。シンボルは、人、背景などのイベントを特徴付ける特徴である。

シンボルの判断には、画像の特徴量からシンボルを検出する検出エンジン（検出器）が用いられる。例えば、運動会の動画像から、選手、トラック（走路）、観客などがシンボルとして検出されることがある。以下の説明では、画像から検出されるシンボルを、画像が属するイベント（属性）を特徴付ける特徴であることから、「下位シンボル」と表記する場合がある。

ここで、イベントの検出と下位シンボルの検出は、それぞれ別々の検出エンジンを用いて独立に行われる。すなわち、ある画像が属するイベントを判断するにあたり、その画像に含まれる下位シンボルをもとに、その画像が属するイベントを判断しているわけではない。

このため、ある画像と別の画像について、それぞれ異なるイベントに属すると判断しているにもかかわらず、その判断の根拠となる下位シンボルが同じものになることがある。このような場合、判断の根拠となる下位シンボルが同じなのに、なぜ、異なるイベントに属すると判断したのかの説明がつかなくなる。

なお、予め決められた下位シンボルの数を増やすことで、このような事態が生じる可能性を下げることが考えられる。しかし、大量の下位シンボルを検出するための検出エンジンを作成するには多く工数がかかるため、異なるイベントを区別できる分の下位シンボルを効率的に検出可能にすることが望まれる。

そこで、本実施の形態では、新規の下位シンボルを検出する検出エンジンを効率的に作成可能にして、画像が属するとみなした属性を特徴付ける情報、すなわち、画像が属する属性を判断した際の根拠となり得る情報の生成を支援する判断条件生成支援方法について説明する。以下、情報処理装置１０１の処理例について説明する。

（１）情報処理装置１０１は、第１の画像と第２の画像とに基づいて、第１の画像のうち、第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示する。ここで、第１の画像は、第１の属性に属すると判断され、かつ、第１の属性を特徴付ける特徴として第１の特徴を有すると判断された画像である。

また、第２の画像は、第２の属性に属すると判断され、かつ、第２の属性を特徴付ける特徴として第１の特徴を有すると判断された画像である。すなわち、第１の画像と第２の画像とは、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像ペアである。

第１の領域は、第１の画像と第２の画像との違いをあらわす箇所を含む領域であり、例えば、画像の特徴量から特定される。第１の領域を他領域と異なる様態で表示するとは、第１の画像における第１の領域を判別可能に表示することであり、例えば、第１の領域を囲う図形を表示したり、第１の領域をヒートマップにより可視化することである。

また、情報処理装置１０１は、第１の画像のうちの第１の領域を他領域と異なる様態で表示するとともに、第２の画像のうちの第１の画像と異なる特徴的な第２の特徴領域を他領域と異なる様態で表示することにしてもよい。すなわち、情報処理装置１０１は、第１の領域を表示するにあたり、第２の特徴領域をあわせて表示することで、第１の領域と第２の特徴領域とを比較可能にしてもよい。

図１の例では、第１の画像１１０と第２の画像１２０は、運動会を撮影した動画像であるとする。また、第１の画像１１０は、属性「リレー」に属すると判断され、かつ、属性「リレー」を特徴付ける特徴「選手、トラック（走路）」を有すると判断された画像であるとする。第２の画像１２０は、属性「徒競走」に属すると判断され、かつ、属性「徒競走」を特徴付ける特徴「選手、トラック」を有すると判断された画像であるとする。

すなわち、第１の画像１１０と第２の画像１２０とは、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像ペアである。この場合、情報処理装置１０１は、例えば、第１の画像１１０と第２の画像１２０とに基づいて、第１の画像１１０のうち、第２の画像１２０と異なる特徴的な第１の領域１１１を他領域と異なる様態で表示する。ここでは、第１の画像１１０において、第１の領域１１１を囲う枠１１２が表示された場合を想定する。

（２）情報処理装置１０１は、表示した第１の領域を表現する語句を受け付ける。ここで、第１の領域を表現する語句とは、第１の領域を特徴付ける単語や句であり、例えば、第１の領域に写る人物、物体、背景などの特徴をあらわす語句である。具体的には、例えば、情報処理装置１０１は、ユーザの操作入力により、第１の画像１１０のうち、枠１１２で囲われた第１の領域１１１を表現する語句の入力を受け付けることにしてもよい。

図１の例では、第１の領域１１１を表現する語句として、「バトン」を受け付けた場合を想定する。第１の領域１１１を表現する語句「バトン」は、第１の画像１１０と第２の画像１２０との違いをあらわす箇所を表現する語句であることから、属性「徒競走」ではなく属性「リレー」を特徴付ける語句であるといえる。

（３）情報処理装置１０１は、受け付けた語句を、第１の画像が有する第２の特徴として設定する。すなわち、情報処理装置１０１は、第１の画像のうちの第２の画像との違いをあらわす箇所を表現する語句をラベルとして、第１の画像に付与する。この際、情報処理装置１０１は、第１の領域を表現するラベルとして付与することにしてもよい。

図１の例では、情報処理装置１０１は、第１の領域１１１を表現する語句「バトン」をラベル１３０として、第１の画像１１０に付与する。

このように、実施の形態１にかかる情報処理装置１０１によれば、第２の画像と異なる属性に属するとみなされたにもかかわらず、第２の画像と同じ特徴を有するとみなされた第１の画像に対して、第２の画像との違いをあらわす特徴的な領域を表現する語句をラベルとして付与することができる。

これにより、第１の画像が属するとみなした属性（例えば、イベント）を特徴付ける情報（例えば、下位シンボル）を検出するための学習データ（教師データ）を得ることができる。この学習データ（教師データ）によれば、新規の下位シンボルを検出するための検出エンジンを効率的に追加していくことが可能となり、画像が属するとみなした属性を判断した際の根拠となり得る情報の生成を支援することができる。

図１の例では、第１の画像１１０が属するとみなした属性「リレー」を特徴付ける情報を検出するための学習データ（第１の画像１１０＋ラベル１３０）を得ることができる。この学習データ（第１の画像１１０＋ラベル１３０）によれば、新規の下位シンボル「バトン」を検出するための検出エンジンを作成することができる。これにより、新規の下位シンボル「バトン」を検出する検出エンジンが追加され、属性「リレー」に属するとみなした第１の画像１１０から検出される下位シンボルと、属性「徒競走」に属するとみなした第２の画像１２０から検出される下位シンボルとが同じものとなることを防ぐことができる。

（実施の形態２）
つぎに、実施の形態２にかかる情報処理装置１０１について説明する。なお、実施の形態１で説明した箇所と同様の箇所については、説明を省略する。

（情報処理装置１０１のハードウェア構成例）
ここで、情報処理装置１０１のハードウェア構成例について説明する。

図２は、情報処理装置１０１のハードウェア構成例を示すブロック図である。図２において、情報処理装置１０１は、プロセッサ２０１と、メモリ２０２と、ディスクドライブ２０３と、ディスク２０４と、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０５と、ディスプレイ２０６と、入力装置２０７と、可搬型記録媒体Ｉ／Ｆ２０８と、可搬型記録媒体２０９と、を有する。また、各構成部はバス２００によってそれぞれ接続される。

ここで、プロセッサ２０１は、情報処理装置１０１の全体の制御を司る。プロセッサ２０１は、複数のコアを有していてもよい。プロセッサ２０１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。

メモリ２０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する記憶部である。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがプロセッサ２０１のワークエリアとして使用される。メモリ２０２に記憶されるプログラムは、プロセッサ２０１にロードされることで、コーディングされている処理をプロセッサ２０１に実行させる。

ディスクドライブ２０３は、プロセッサ２０１の制御に従ってディスク２０４に対するデータのリード／ライトを制御する。ディスク２０４は、ディスクドライブ２０３の制御で書き込まれたデータを記憶する。ディスク２０４としては、例えば、磁気ディスク、光ディスクなどが挙げられる。

通信Ｉ／Ｆ２０５は、通信回線を通じてネットワークに接続され、ネットワークを介して外部装置に接続される。そして、通信Ｉ／Ｆ２０５は、ネットワークと自装置内部とのインターフェースを司り、外部装置からのデータの入出力を制御する。ネットワークは、例えば、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などである。

ディスプレイ２０６は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。ディスプレイ２０６としては、例えば、液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを採用することができる。

入力装置２０７は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置２０７は、キーボードやマウスなどであってもよく、また、タッチパネル式の入力パッドやテンキーなどであってもよい。

可搬型記録媒体Ｉ／Ｆ２０８は、プロセッサ２０１の制御に従って可搬型記録媒体２０９に対するデータのリード／ライトを制御する。可搬型記録媒体２０９は、可搬型記録媒体Ｉ／Ｆ２０８の制御で書き込まれたデータを記憶する。可搬型記録媒体２０９としては、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどが挙げられる。

なお、情報処理装置１０１は、上述した構成部のうち、例えば、ディスクドライブ２０３、ディスク２０４などを有さないことにしてもよい。また、情報処理装置１０１は、上述した構成部のほかに、例えば、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、スキャナ、プリンタなどを有することにしてもよい。

（シンボルリストＤＢ３００の記憶内容）
つぎに、情報処理装置１０１が有するシンボルリストＤＢ３００の記憶内容について説明する。シンボルリストＤＢ３００は、例えば、図２に示したメモリ２０２、ディスク２０４などの記憶装置により実現される。

図３は、シンボルリストＤＢ３００の記憶内容の一例を示す説明図である。図３において、シンボルリストＤＢ３００は、イベントおよびシンボルリストのフィールドを有し、各フィールドに情報を設定することで、シンボルリスト情報（例えば、シンボルリスト情報３００−１〜３００−３）をレコードとして記憶する。

ここで、イベントは、画像が属する属性の一例であり、画像中にあらわれる事象を示す。シンボルリストは、イベントを特徴付ける１または複数の下位シンボルをリスト化して示す。例えば、シンボルリスト情報３００−１は、イベント「プロファイリング」を特徴付けるシンボルリスト「警察官、オフィス、ＰＣ、・・・」を示す。

（文章ＤＢ４００の記憶内容）
つぎに、情報処理装置１０１が有する文章ＤＢ４００の記憶内容について説明する。文章ＤＢ４００は、例えば、図２に示したメモリ２０２、ディスク２０４などの記憶装置により実現される。

図４は、文章ＤＢ４００の記憶内容の一例を示す説明図である。図４において、文章ＤＢ４００は、文章ＩＤ、イベントおよび文書のフィールドを有し、各フィールドに情報を設定することで、文章情報（例えば、文章情報４００−１，４００−２）をレコードとして記憶する。

ここで、文章ＩＤは、文章を一意に識別する識別子である。イベントは、画像中にあらわれる事象を示す。文章は、イベントの内容を記述した１または複数の文である。文章は、例えば、自然言語の文章を構造化して大規模に収集した文章コーパスから抽出される。例えば、文章情報４００−１は、イベント「プロファイリング」の内容を記述した文章ＩＤ「Ｓ１」の文章「プロファイリングとは、警察官が行動科学的に犯罪者の特性を推論することである。・・・」を示す。

以下の説明では、文章ＩＤ「Ｓ＃」の文章を「文章Ｓ＃」と表記する場合がある（＃＝１，２，…）。

（情報処理装置１０１の機能的構成例）
つぎに、情報処理装置１０１の機能的構成例について説明する。

図５は、情報処理装置１０１の機能的構成例を示すブロック図である。図５において、情報処理装置１０１は、取得部５０１と、第１の判断部５０２と、第２の判断部５０３と、検索部５０４と、特定部５０５と、表示制御部５０６と、受付部５０７と、設定部５０８と、作成部５０９と、推定部５１０と、出力部５１１と、記憶部５１２と、を含む。具体的には、例えば、取得部５０１〜出力部５１１は、図２に示したメモリ２０２、ディスク２０４などの記憶装置に記憶されたプログラムをプロセッサ２０１に実行させることにより、または、通信Ｉ／Ｆ２０５により、その機能を実現する。各機能部の処理結果は、例えば、メモリ２０２、ディスク２０４などの記憶装置に記憶される。また、記憶部５１２は、例えば、メモリ２０２、ディスク２０４などの記憶装置により実現される。例えば、記憶部５１２は、図３に示したシンボルリストＤＢ３００、図４に示した文章ＤＢ４００、後述する学習用画像ＤＢ５２０などを記憶する。

取得部５０１は、画像を取得する。ここで、取得対象の画像は、静止画像または動画像であり、例えば、監視カメラやビデオカメラにより撮影された画像である。具体的には、例えば、取得部５０１は、図２に示した入力装置２０７を用いたユーザの操作入力により、画像を取得することにしてもよい。また、取得部５０１は、外部のコンピュータから受信することにより、画像を取得することにしてもよい。

取得された画像は、例えば、学習用画像ＤＢ５２０に記憶される。学習用画像ＤＢ５２０は、画像ＩＤと対応付けて、画像ＩＤにより識別される画像を記憶するデータベースである。以下の説明では、学習用画像ＤＢ５２０に記憶された画像を「学習用画像」と表記する場合がある。

第１の判断部５０２は、画像が属する属性を判断する。ここで、画像が属する属性は、どのような事物をあらわす画像であるかを分類するためのものであり、例えば、画像中にあらわれるイベント（事象）である。具体的には、例えば、第１の判断部５０２は、学習用画像ＤＢ５２０から学習用画像を取得する。

つぎに、第１の判断部５０２は、予め決められた複数のイベントの中から、画像の特徴量に基づきイベントを検出するイベント検出器（検出エンジン）を用いて、取得した学習用画像からイベントを検出する。そして、第１の判断部５０２は、検出したイベントを、取得した学習用画像が属するイベント（属性）として判断する。

なお、画像からイベントを検出する技術としては、深層学習などの機械学習に基づく既存のいかなる技術を用いることにしてもよい。例えば、イベント検出器は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などのアルゴリズムを用いた深層学習により作成することができる。

ＣＮＮを用いた既存の認識器（上述した「イベント検出器」に相当）については、例えば、下記非特許文献５，６，７，８，９，１０を参照することができる。

非特許文献５：Ｒ．Ｒ．Ｓｅｌｖａｒａｊｕ，ｅｔａｌ．、Ｇｒａｄ−ＣＡＭ：ＶｉｓｕａｌＥｘｐｌａｎａｔｉｏｎｓｆｒｏｍＤｅｅｐＮｅｔｗｏｒｋｓｖｉａＧｒａｄｉｅｎｔ−ｂａｓｅｄＬｏｃａｌｉｚａｔｉｏｎ、２０１７

非特許文献６：ＫｒｉｓｈｎａＫｕｍａｒＳｉｎｇｈ，ＹｏｎｇＪａｅＬｅｅ、Ｅｎｄ−ｔｏ−ＥｎｄＬｏｃａｌｉｚａｔｉｏｎａｎｄＲａｎｋｉｎｇｆｏｒＲｅｌａｔｉｖｅＡｔｔｒｉｂｕｔｅｓ、ＥＣＣＶ２０１６

非特許文献７：ＫａｒｅｎＳＩＭＯＮＹＡＮ，ＡｎｄｒｅｗＺｉｓｓｅｒｍａｎ、ＶＥＲＹＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＴＷＯＲＫＳＦＯＲＬＡＲＧＥ−ＳＣＡＬＥＩＭＡＧＥＲＥＣＯＧＮＩＴＩＯＮ

非特許文献８：ＫａｉｍｉｎｇＨｅ，ＸｉａｎｇｙｕＺｈａｎｇ，ＳｈａｏｑｉｎｇＲｅｎ，ＪｉａｎＳｕｎ、ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ、２０１５

非特許文献９：ＧａｏＨｕａｎｇ，ＺｈｕａｎｇＬｉｕ，ＬａｕｒｅｎｓｖａｎｄｅｒＭａａｔｅｎ、ＤｅｎｓｅｌｙＣｏｎｎｅｃｔｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ、２０１８

非特許文献１０：ＪｏａｏＣａｒｒｅｉｒａ, ＡｎｄｒｅｗＺｉｓｓｅｒｍａｎ、ＱｕｏＶａｄｉｓ，ＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎ？ＡＮｅｗＭｏｄｅｌａｎｄｔｈｅＫｉｎｅｔｉｃｓＤａｔａｓｅｔ、２０１８

判断された判断結果は、例えば、図６に示すような検出結果テーブル６００に記憶される。検出結果テーブル６００は、例えば、メモリ２０２、ディスク２０４などの記憶装置により実現される。

図６は、検出結果テーブル６００の記憶内容の一例を示す説明図である。図６において、検出結果テーブル６００は、画像ＩＤ、イベントおよび下位シンボルのフィールドを有し、各フィールドに情報を設定することで、検出結果（例えば、検出結果６００−１，６００−２）をレコードとして記憶する。

ここで、画像ＩＤは、画像を一意に識別する識別子である。イベントは、画像から検出されたイベントの検出結果を示す。下位シンボルは、画像から検出された下位シンボルの検出結果を示す。以下の説明では、画像ＩＤ「Ｐ＃」の画像を「画像Ｐ＃」と表記する場合がある。

一例として、学習用画像を画像Ｐ１，Ｐ２とする。画像Ｐ１は、画像ＩＤ「Ｐ１」の動画像である。例えば、画像Ｐ１からイベント「プロファイリング」が検出されると、検出結果テーブル６００内の画像ＩＤおよびイベントの各フィールドに、「Ｐ１」および「プロファイリング」が設定され、検出結果６００−１が新たなレコードとして記憶される。この時点では、検出結果６００−１の下位シンボルのフィールドは「−（Ｎｕｌｌ）」である。

また、画像Ｐ２は、画像ＩＤ「Ｐ２」の動画像である。例えば、画像Ｐ２からイベント「一般事務」が検出されると、検出結果テーブル６００内の画像ＩＤおよびイベントの各フィールドに、「Ｐ２」および「一般事務」が設定され、検出結果６００−２が新たなレコードとして記憶される。この時点では、検出結果６００−２の下位シンボルのフィールドは「−」である。

なお、画像が属する属性を示す情報は、当該画像に付与されていてもよい。例えば、取得部５０１によって取得された画像には、人手により指定されたイベントや、他のコンピュータにおいて判断されたイベントを示す情報が予め付与されていてもよい。

図５の説明に戻り、第２の判断部５０３は、画像が有する特徴を判断する。ここで、画像が有する特徴は、画像の特徴量から導き出される人物、物体、背景、事象などである。画像が有する特徴は、画像が属するとみなした属性を特徴付ける情報となり得る。ただし、画像が有する特徴の判断は、画像が属する属性の判断とは独立して行われる。

具体的には、例えば、第２の判断部５０３は、学習用画像ＤＢ５２０から学習用画像を取得する。この際、第２の判断部５０３は、第１の判断部５０２によって属性が判断された学習用画像を取得してもよい。つぎに、第２の判断部５０３は、予め決められた複数の下位シンボルの中から、画像の特徴量に基づき下位シンボルを検出するシンボル検出器（検出エンジン）を用いて、取得した学習用画像から下位シンボルを検出する。そして、第１の判断部５０２は、検出した下位シンボルを、学習用画像が有する特徴として判断する。

なお、画像から下位シンボルを検出する技術としては、深層学習などの機械学習に基づく既存のいかなる技術を用いることにしてもよい。例えば、シンボル検出器としては、ＣＮＮなどのアルゴリズムを用いた深層学習により作成される物体検出器や背景認識器などが挙げられる。既存の物体検出器や背景認識器（上述した「シンボル検出器」に相当）については、例えば、上述した非特許文献１，２を参照することができる。

判断された判断結果は、例えば、図６に示した検出結果テーブル６００に記憶される。例えば、画像Ｐ１から下位シンボル「オフィス」および「ＰＣ」が検出されると検出結果６００−１の下位シンボルのフィールドに、「オフィス」および「ＰＣ」が設定される。また、画像Ｐ２から下位シンボル「オフィス」および「ＰＣ」が検出されると、検出結果６００−２の下位シンボルのフィールドに、「オフィス」および「ＰＣ」が設定される。

検索部５０４は、第１の画像と第２の画像とのペアを検索する。ここで、第１の画像は、第１の属性に属すると判断され、かつ、第１の属性を特徴付ける特徴として、第１の特徴を有すると判断された画像である。また、第２の画像は、第２の属性に属すると判断され、かつ、第２の属性を特徴付ける特徴として、第１の特徴を有すると判断された画像である。

すなわち、第１の画像と第２の画像とは、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像ペアである。具体的には、例えば、検索部５０４は、検出結果テーブル６００を参照して、イベントが異なり、かつ、下位シンボルが同じである画像のペアを検索する。

より詳細に説明すると、例えば、検索部５０４は、検出結果６００−１，６００−２から、イベントが異なり、かつ、下位シンボルが同じである画像Ｐ１と画像Ｐ２とのペアを検索する。これにより、異なるイベント（属性）が検出されたにもかかわらず、検出された下位シンボル（特徴）が同じである画像Ｐ１，Ｐ２のペアを検索することができる。

特定部５０５は、検索された第１の画像と第２の画像とに基づいて、第１の画像のうち、第２の画像と異なる特徴的な領域を特定する。また、特定部５０５は、第１の画像と第２の画像とに基づいて、第２の画像のうち、第１の画像と異なる特徴的な領域を特定することにしてもよい。

以下の説明では、第１の画像のうち、第２の画像と異なる特徴的な領域を「第１の特徴領域」と表記する場合がある。また、第２の画像のうち、第１の画像と異なる特徴的な領域を「第２の特徴領域」と表記する場合がある。

一例として、第１の画像を「画像Ｐ１」とし、第２の画像を「画像Ｐ２」とする。画像Ｐ１は、イベント「プロファイリング」が検出された画像である。画像Ｐ２は、イベント「一般事務」が検出された画像である。この場合、特定部５０５は、画像Ｐ１，Ｐ２に基づいて、画像の特徴量から「プロファイリング」または「一般事務」のいずれかのイベントを検出するイベント検出器を作成する。

すなわち、特定部５０５は、イベントの選択肢を「プロファイリング」と「一般事務」の２つに絞った検出エンジンを作成する。具体的には、例えば、特定部５０５は、ＣＮＮを用いた深層学習により、「プロファイリング」または「一般事務」のいずれかのイベントを検出するイベント検出器を作成する。

この際、特定部５０５は、イベント「プロファイリング」が付与された画像Ｐ１と、イベント「一般事務」が付与された画像Ｐ２とを学習データとする。イベント検出器は、例えば、画像の特徴量から各イベント（プロファイリング、一般事務）の確率を出力する。特定部５０５は、画像のイベントとして、イベント検出器に与えて得られる確率が最大かつ閾値以上のイベントを検出する。

また、イベント検出器の作成にあたり、上述した非特許文献３，４のような、画像間の違いをあらわす特徴量を抽出して可視化する技術を参照することができる。ここで、特徴量を抽出するＣＮＮの構造については任意の構造でよい。例えば、非特許文献７，８，９，１０のような構造を用いてイベント検出器を作成し、可視化において非特許文献５，６のような手法を用いてもよい。

例えば、非特許文献３は、ＣＮＮを用いた認識器において、重要となる箇所の重みを算出する手法である。非特許文献３では、算出された重みを画像上に重畳することで、認識器が画像中のどの箇所に着目して結果を出したのかを可視化可能である。この手法を利用すれば、イベント検出器が画像中のどの箇所に着目して結果を出したのかを特定することができる。

より詳細に説明すると、例えば、特定部５０５は、画像Ｐ１からイベント「プロファイリング」を検出した際に着目した箇所（重要な箇所）を第１の特徴領域として特定する。また、特定部５０５は、画像Ｐ２からイベント「一般事務」を検出した際に着目した箇所を第２の特徴領域として特定する。

なお、ＣＮＮを用いた認識器では、画像同士を区別するのに最も普遍的な特徴量を抽出する。画像Ｐ１と画像Ｐ２との例では、「オフィス」や「ＰＣ」は両画像に共通する下位シンボルであり、両画像を区別する特徴ではない。このため、ＣＮＮを用いた認識器では、「オフィス」や「ＰＣ」は特徴的な領域として選ばれない。

また、非特許文献４は、「Ｂａｌｄ」、「Ｄａｒｋｈａｉｒ」、「Ｅｙｅｓｏｐｅｎ」などの属性の強弱の判定を学習する手法である。非特許文献４では、着目すべき領域を矩形で特定し、特定した矩形を画像上に重畳することで、属性の強弱の判定器が画像中のどの箇所に着目して結果を出したのかを可視化可能である。

この手法を利用する場合、特定部５０５は、属性の強弱の判定器を学習する代わりに、イベントを検出する検出器を学習すればよい。具体的には、例えば、特定部５０５は、学習時の損失関数を文献中ではＲａｎｋｉｎｇＬｏｓｓを用いているところを、Ｃｒｏｓｓｅｎｔｒｏｐｙｌｏｓｓに変更すればよい。

表示制御部５０６は、第１の画像のうち、特定された第１の特徴領域を他領域と異なる様態で表示する制御を行う。具体的には、例えば、表示制御部５０６は、図２に示したディスプレイ２０６に表示した第１の画像上に第１の特徴領域を囲う図形を重畳表示したり、第１の画像上の第１の特徴領域をヒートマップにより可視化したりする。

また、表示制御部５０６は、特定された第１の特徴領域を他領域と異なる様態で表示するとともに、第１の画像が属する第１の属性を示す情報を表示する制御を行うことにしてもよい。第１の属性を示す情報は、例えば、第１の画像から検出されたイベントを特定する情報（イベント名など）である。

なお、各対象画像から検出されたイベントを特定する情報は、例えば、検出結果テーブル６００から特定される。

また、表示制御部５０６は、特定された第１の特徴領域を他領域と異なる様態で表示するとともに、第１の画像が有する第１の特徴を示す情報を表示する制御を行うことにしてもよい。第１の特徴を示す情報は、例えば、第１の画像から検出された下位シンボルを特定する情報（下位シンボル名、下位シンボルの位置など）である。

なお、各対象画像から検出された下位シンボルを特定する情報は、例えば、検出結果テーブル６００から特定される。

また、表示制御部５０６は、第１の画像のうち、第１の特徴領域を他領域と異なる様態で表示するとともに、第２の画像のうち、特定された第２の特徴領域を他領域と異なる様態で表示する制御を行うことにしてもよい。具体的には、例えば、表示制御部５０６は、第２の画像を第１の画像と並べて表示しつつ、第２の画像上に第２の特徴領域を囲う図形を重畳表示したり、第２の画像上の第２の特徴領域をヒートマップにより可視化したりする。

また、表示制御部５０６は、特定された第２の特徴領域を他領域と異なる様態で表示するとともに、第２の画像が属する第２の属性を示す情報を表示する制御を行うことにしてもよい。第２の属性を示す情報は、例えば、第２の画像から検出されたイベントを特定する情報である。

また、表示制御部５０６は、特定された第２の特徴領域を他領域と異なる様態で表示するとともに、第２の画像が有する第１の特徴を示す情報を表示する制御を行うことにしてもよい。第１の特徴を示す情報は、例えば、第２の画像から検出された下位シンボルを特定する情報である。

第１の画像および第２の画像において、第１の特徴領域および第２の特徴領域をそれぞれ他領域と異なる様態で表示する表示例については、図８Ａ、図８Ｂ、図９Ａおよび図９Ｂを用いて後述する。

なお、第１の画像（または、第２の画像）が動画像の場合、動画像を構成するフレーム群のうちのいずれのフレームにおいて、第１の特徴領域（または、第２の特徴領域）を他領域と異なる様態で表示するかは、任意に設定可能である。例えば、表示制御部５０６は、動画像を構成するフレーム群からいずれかのフレームをランダムに選択することにしてもよい。また、表示制御部５０６は、動画像を構成するフレーム群のうち、時刻的に中心のフレームを選択することにしてもよい。また、表示制御部５０６は、動画像のフレーム群から平均画像を作成し、作成した平均画像において、第１の特徴領域を他領域と異なる様態で表示することにしてもよい。また、表示制御部５０６は、動画像を再生表示しつつ、第１の特徴領域を他領域と異なる様態で表示する。

受付部５０７は、他領域と異なる様態で表示された第１の特徴領域を表現する語句を受け付ける。また、受付部５０７は、他領域と異なる様態で表示された第２の特徴領域を表現する語句を受け付けることにしてもよい。具体的には、例えば、受付部５０７は、入力装置２０７を用いたユーザの操作入力により、第１の特徴領域（または、第２の特徴領域）を表現する語句の入力を受け付けることにしてもよい。

すなわち、第１の特徴領域（または、第２の特徴領域）を特徴付ける語句をユーザに直接入力させる。第１の特徴領域（または、第２の特徴領域）を表現する語句の入力は、例えば、後述の図８Ａに示すようなラベル指定画面８００において行われる。

設定部５０８は、受け付けた第１の特徴領域を表現する語句を、第１の画像が有する第２の特徴として設定する。具体的には、例えば、設定部５０８は、入力された第１の特徴領域を表現する語句をラベルとして、第１の画像に付与する。この際、設定部５０８は、第１の特徴領域と対応付けて、第１の画像にラベルを付与することにしてもよい。

また、設定部５０８は、受け付けた第２の特徴領域を表現する語句を、第２の画像が有する第３の特徴として設定する。具体的には、例えば、設定部５０８は、入力された第２の特徴領域を表現する語句をラベルとして、第２の画像に付与する。この際、設定部５０８は、第２の特徴領域と対応付けて、第２の画像にラベルを付与することにしてもよい。

また、表示制御部５０６は、第１の属性を特徴付ける１または複数の語句を、第１の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。同様に、表示制御部５０６は、第２の属性を特徴付ける１または複数の語句を、第２の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。

ここで、第１の属性（または、第２の属性）を特徴付ける語句は、例えば、第１の画像（または、第２の画像）が属するイベントを特徴付ける人物、物体、背景などを示す語句である。すなわち、第１の特徴領域（または、第２の特徴領域）を表現する語句を受け付けるにあたり、イベントを特徴付ける人物、物体、背景などを示す語句を選択肢として提示する。

第１の属性（または、第２の属性）を特徴付ける語句は、属性と当該属性を特徴付ける１または複数の語句との対応関係を示す情報から特定されることにしてもよい。具体的には、例えば、表示制御部５０６は、図３に示したシンボルリストＤＢ３００を参照して、第１の画像が属するイベントに対応するシンボルリストを特定する。

そして、表示制御部５０６は、第１の特徴領域を他領域と異なる様態で表示する際に、特定したシンボルリストに含まれる下位シンボルを、第１の特徴領域を表現する語句候補として選択可能に表示する。なお、第１の画像が属するイベントは、例えば、検出結果テーブル６００から特定される。

この場合、受付部５０７は、第１の特徴領域（または、第２の特徴領域）を表現する語句として、表示された１または複数の語句のうちのいずれかの語句の選択を受け付ける。そして、設定部５０８は、選択された語句を、第１の画像（または、第２の画像）が有する第２の特徴（または、第３の特徴）として設定する。

具体的には、例えば、受付部５０７は、入力装置２０７を用いたユーザの操作入力により、第１の特徴領域（または、第２の特徴領域）を表現する語句の選択を受け付ける。そして、設定部５０８は、選択された語句候補（下位シンボル）をラベルとして、第１の画像（または、第２の画像）に付与する。

なお、各特徴領域（第１の特徴領域、第２の特徴領域）を表現する語句候補として、下位シンボルを選択可能に表示する際の表示例については、図９Ａを用いて後述する。

また、表示制御部５０６は、第１の属性に関連する第１の文章と、第２の属性に関連する第２の文章とに基づいて、第１の文章から第１の属性を特徴付ける１または複数の語句を抽出することにしてもよい。そして、表示制御部５０６は、抽出した第１の属性を特徴付ける１または複数の語句を、第１の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。

同様に、表示制御部５０６は、第１の文章と第２の文章とに基づいて、第２の文章から第２の属性を特徴付ける１または複数の語句を抽出することにしてもよい。そして、表示制御部５０６は、抽出した第２の属性を特徴付ける１または複数の語句を、第２の特徴領域を表現する語句候補として選択可能に表示することにしてもよい。

具体的には、例えば、表示制御部５０６は、第１の文章と第２の文章とに基づいて、第１の文章に含まれる単語の重要度合いを示す指標値を算出する。そして、表示制御部５０６は、算出した指標値に基づいて、第１の文章から第１の属性を特徴付ける１または複数の語句を抽出することにしてもよい。

ここで、単語の重要度合いを示す指標値は、第１の文章（または、第２の文章）に特徴的な単語であるほど重要度合いが高くなる値である。単語の重要度合いを示す指標値としては、例えば、ｔｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ）−ｉｄｆ（ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）値を用いることができる。

ｔｆ−ｉｄｆ値は、複数の文書に横断的に使用されている単語は重要ではなく、対象の文書で出現する頻度が高い単語が特徴的であるという考え方をもとに算出される。例えば、ｔｆ−ｉｄｆ値は、「ｔｆ−ｉｄｆ値＝（文書中の対象単語の出現頻度）×ｌｏｇ（文書総数÷対象単語を含む文書数）」によって求めることができる。

より詳細に説明すると、例えば、第１の画像を「画像Ｐ１」とし、第２の画像を「画像Ｐ２」とする。この場合、表示制御部５０６は、図４に示した文章ＤＢ４００から、画像Ｐ１が属するイベント「プロファイリング」に対応する文章Ｓ１を検索する。また、表示制御部５０６は、文章ＤＢ４００から、画像Ｐ２が属するイベント「一般事務」に対応する文章Ｓ２を検索する。

つぎに、表示制御部５０６は、検索した文章Ｓ１と文章Ｓ２とに基づいて、各文章Ｓ１，Ｓ２に含まれる各単語のｔｆ−ｉｄｆ値を算出する。算出された各単語のｔｆ−ｉｄｆ値は、例えば、図７に示すような指標値テーブル７００に記憶される。指標値テーブル７００は、メモリ２０２、ディスク２０４などの記憶装置により実現される。

図７は、指標値テーブル７００の記憶内容の一例を示す説明図である。図７において、指標値テーブル７００は、文章ＩＤ、単語および指標値のフィールドを有し、各フィールドに情報を設定することで、指標値情報７００−１，７００−２を記憶する。

ここで、文章ＩＤは、文章を一意に識別する識別子である。単語は、文章に含まれる単語である。指標値は、文章に含まれる単語のｔｆ−ｉｄｆ値である。例えば、指標値情報７００−１は、文章Ｓ１に含まれる各単語のｔｆ−ｉｄｆ値を示す。

つぎに、表示制御部５０６は、指標値テーブル７００を参照して、各文章Ｓ１，Ｓ２について、高ｔｆ−ｉｄｆ値の単語を抽出する。例えば、表示制御部５０６は、各文章Ｓ１，Ｓ２について、指標値が高い上位Ｎ個の単語を、高ｔｆ−ｉｄｆ値の単語として抽出してもよい。Ｎは、任意に設定可能であり、例えば、３〜５程度の値に設定される。また、表示制御部５０６は、各文章Ｓ１，Ｓ２について、指標値が予め決められた閾値以上の単語を、高ｔｆ−ｉｄｆ値の単語として抽出してもよい。また、抽出する単語の品詞を限定するなど、任意の制約を設けてもよい。ｔｆ−ｉｄｆ値の算出においても、事前に助詞を除外する等の任意の前処理を行ってもよい。

これにより、文章Ｓ１に出現する頻度は高いが、文章Ｓ２に出現する頻度が低い単語を、画像Ｐ１が属するイベント「プロファイリング」を特徴付ける語句として抽出することができる。また、文章Ｓ２に出現する頻度は高いが、文章Ｓ１に出現する頻度が低い単語を、画像Ｐ２が属するイベント「一般事務」を特徴付ける語句として抽出することができる。

そして、表示制御部５０６は、文章Ｓ１について抽出した高ｔｆ−ｉｄｆ値の単語を、第１の特徴領域を表現する語句候補として選択可能に表示する。また、表示制御部５０６は、文章Ｓ２について抽出した高ｔｆ−ｉｄｆ値の単語を、第２の特徴領域を表現する語句候補として選択可能に表示する。

なお、表示制御部５０６は、各文章Ｓ１，Ｓ２から各画像Ｐ１，Ｐ２が属する属性を特徴付ける語句を抽出するにあたり、例えば、下記非特許文献１１に記載されているような、深層学習により、どの単語の重みが強いかを見つける手法を用いることにしてもよい。この手法によれば、各文章Ｓ１，Ｓ２から重みが強い単語が抽出される。この際も抽出する単語の品詞を限定するなど、任意の制約を設けてもよい。

非特許文献１１：ＺｉｃｈａｏＹａｎｇ，ｅｔａｌ．、ＨｉｅｒａｒｃｈｉｃａｌＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｓｆｏｒＤｏｃｕｍｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎ

また、表示制御部５０６は、第１の特徴領域（または、第２の特徴領域）を表現する語句候補を表示するにあたり、第１の画像（または、第２の画像）から検出された第１の特徴を示す語句候補を除外することにしてもよい。これにより、第１の特徴領域（または、第２の特徴領域）を表現する語句として、検出済みの特徴（下位シンボル）を示す語句が選択されるのを防ぐことができる。

作成部５０９は、第２の特徴が設定された第１の画像に基づいて、画像の特徴量から第２の特徴を検出する検出器を作成することにしてもよい。また、作成部５０９は、第３の特徴が設定された第２の画像に基づいて、画像の特徴量から第３の特徴を検出する検出器を作成することにしてもよい。

具体的には、例えば、作成部５０９は、第１の特徴領域を表現する語句がラベル（第２の特徴）として付与された第１の画像を学習データ（教師データ）として、深層学習などの機械学習により、新規の下位シンボルを検出するシンボル検出器を作成する。また、作成部５０９は、第２の特徴領域を表現する語句がラベル（第３の特徴）として付与された第２の画像を学習データ（教師データ）として、深層学習などの機械学習により、新規の下位シンボルを検出するシンボル検出器を作成する。

シンボル検出器は、例えば、物体検出器や背景認識器である。物体検出器は、画像中に写っている物体を、位置（座標）を含めて特定する検出器である。物体検出器の学習時には、正解の座標が必要であるため、例えば、第１の特徴領域（または、第２の特徴領域）と対応付けてラベルを付与した第１の画像（または、第２の画像）が学習データとして用いられる。背景認識器は、画像に何が写っているかを特定する検出器である。背景認識器の学習時には、正解の座標は不要なため、例えば、第１の特徴領域（または、第２の特徴領域）を表現する語句がラベルとして付与された第１の画像（または、第２の画像）が学習データとして用いられる。

より詳細に説明すると、例えば、作成部５０９は、予め決められた既存の下位シンボルに、各画像（第１の画像、第２の画像）に付与されたラベルを新規の下位シンボルとして追加する。すなわち、各画像（第１の画像、第２の画像）に付与されたラベルを、下位シンボルの新たな選択肢として追加する。

そして、作成部５０９は、ラベリングされた各画像（第１の画像、第２の画像）を新たな学習データとして、既存の学習データを含めて学習することにより、画像の特徴量から各下位シンボルの確率を出力するシンボル検出器を作成する。これにより、新規の下位シンボルを検出可能なシンボル検出器を作成することができる。

受付部５０７は、対象画像を受け付ける。ここで、対象画像は、画像が属する属性や、画像が有する特徴を推定する対象となる画像である。具体的には、例えば、受付部５０７は、入力装置２０７を用いたユーザの操作入力により、対象画像を受け付けることにしてもよい。また、受付部５０７は、外部のコンピュータから受信することにより、対象画像を取得することにしてもよい。

なお、受付部５０７は、検索部５０４によって検索された第１の画像や第２の画像を、対象画像として受け付けることにしてもよい。すなわち、受付部５０７は、異なる属性に属すると判断されたにもかかわらず、同じ特徴を有すると判断された画像を、対象画像として受け付けることにしてもよい。

推定部５１０は、対象画像が属する属性を推定する。具体的には、例えば、推定部５１０は、イベント検出器を用いて、受け付けた対象画像からイベントを検出する。そして、推定部５１０は、検出したイベントを、対象画像が属するイベント（属性）として推定する。イベント検出器は、予め決められた複数のイベントの中から、画像の特徴量に基づきイベントを検出する検出エンジンであり、例えば、第１の判断部５０２が用いるものと同じものである。

また、推定部５１０は、対象画像が有する特徴を推定する。具体的には、例えば、推定部５１０は、作成部５０９によって作成されたシンボル検出器を用いて、受け付けた対象画像から下位シンボルを検出する。そして、推定部５１０は、検出した下位シンボルを、対象画像が有する特徴として推定する。

出力部５１１は、推定部５１０によって推定された推定結果を出力する。具体的には、例えば、出力部５１１は、受け付けた対象画像と対応付けて、推定された対象画像が属するイベント（属性）や、推定された対象画像が有する下位シンボル（特徴）を示す情報を出力することにしてもよい。

なお、出力部５１１の出力形式としては、例えば、メモリ２０２、ディスク２０４などの記憶装置への記憶、通信Ｉ／Ｆ２０５による他のコンピュータへの送信、ディスプレイ２０６への表示などがある。

また、出力部５１１は、設定部５０８によって第２の特徴が設定された第１の画像を出力することにしてもよい。同様に、出力部５１１は、設定部５０８によって第３の特徴が設定された第２の画像を出力することにしてもよい。具体的には、例えば、出力部５１１は、第１の特徴領域（または、第２の特徴領域）を表現する語句がラベルとして付与された第１の画像（第２の画像）を、学習データ（教師データ）として出力する。これにより、新規の下位シンボルを検出するシンボル検出器を作成するために利用可能な学習データを提供することができる。

また、出力部５１１は、作成部５０９によって作成された検出器を出力することにしてもよい。具体的には、例えば、出力部５１１は、作成された新規の下位シンボルを検出するシンボル検出器を出力することにしてもよい。これにより、異なる属性（例えば、イベント）に属するとみなした画像間で、各画像が有するとみなした特徴（例えば、下位シンボル）が同じものとならないように学習済みのシンボル検出器（検出エンジン）を提供することができる。

なお、上述した説明では、ユーザの操作入力により、各特徴領域（第１の特徴領域、第２の特徴領域）を表現する語句を受け付けることにしたが、これに限らない。例えば、情報処理装置１０１は、第１の文章（または、第２の文章）に含まれる各単語の重要度合いを示す指標値に基づいて、第１の属性（または、第２の属性）を特徴付ける語句を決定することにしてもよい。

具体的には、例えば、情報処理装置１０１は、第１の文章（または、第２の文章）に含まれる単語のうち、算出したｔｆ−ｉｄｆ値が最大の単語を、第１の属性を特徴付ける語句を決定することにしてもよい。そして、情報処理装置１０１は、決定した語句を、第１の画像が有する第２の特徴として設定する。

これにより、第１の画像（または、第２の画像）へのラベルの付与を自動化でき、ラベルの付加作業にかかるユーザの負荷を削減することができる。

また、上述した説明では、情報処理装置１０１が、シンボルリストＤＢ３００および文章ＤＢ４００を有することにしたが、これに限らない。例えば、ユーザの操作入力により、各特徴領域（第１の特徴領域、第２の特徴領域）を表現する語句を入力させる場合、情報処理装置１０１は、シンボルリストＤＢ３００および文章ＤＢ４００を有していなくてもよい。

また、情報処理装置１０１の各機能部は、情報処理装置１０１とは異なる他のコンピュータ、例えば、情報処理装置１０１がアクセス可能なサーバで実現することにしてもよい。また、情報処理装置１０１の各機能部は、情報処理装置１０１と他のコンピュータとが分担して実現することにしてもよい。

（ラベル指定画面の画面例）
つぎに、ラベル指定画面の画面例について説明する。ラベル指定画面は、各画像（第１の画像、第２の画像）の各特徴領域（第１の特徴領域、第２の特徴領域）を表現する語句の入力や選択を受け付ける操作画面であり、例えば、ディスプレイ２０６に表示される。

以下の説明では、操作画面に表示されているボックス、ボタン等をユーザが選択する操作として、クリック操作を行う場合を例に挙げて説明する。また、ここでは、第１の画像を「画像Ｐ１」とし、第２の画像を「画像Ｐ２」とする。

まず、図８Ａおよび図８Ｂを用いて、各画像Ｐ１，Ｐ２の特徴領域を表現する語句の入力を受け付ける第１の画面例について説明する。

図８Ａおよび図８Ｂは、ラベル指定画面の第１の画面例を示す説明図である。図８Ａにおいて、ラベル指定画面８００は、画像Ｐ１と画像Ｐ２とを含む操作画面である。ラベル指定画面８００には、イベント情報８０１と、下位シンボル情報８０２と、イベント情報８０３と、下位シンボル情報８０４とが表示されている。

イベント情報８０１は、画像Ｐ１が属するとみなした属性であるイベント「プロファイリング」を示す。下位シンボル情報８０２は、画像Ｐ１が有するとみなした特徴である下位シンボル「ＰＣ」、「オフィス」を示す。イベント情報８０３は、画像Ｐ２が属するとみなした属性であるイベント「一般事務」を示す。下位シンボル情報８０４は、画像Ｐ２が有するとみなした特徴である下位シンボル「ＰＣ」、「オフィス」を示す。

すなわち、画像Ｐ１，Ｐ２は、異なるイベントが検出されたにもかかわらず、検出された下位シンボルが同じである画像のペアである。

ラベル指定画面８００において、画像Ｐ１上には、特徴領域８０５を囲う枠８１０が重畳表示されている。特徴領域８０５は、画像Ｐ１のうち、画像Ｐ２と異なる特徴的な箇所を含む領域である。画像Ｐ２上には、特徴領域８０６を囲う枠８２０が重畳表示されている。特徴領域８０６は、画像Ｐ２のうち、画像Ｐ１と異なる特徴的な箇所を含む領域である。

ラベル指定画面８００において、入力装置２０７を用いたユーザの操作入力により、ボックス８３０をクリックすると、特徴領域８０５を表現する語句を入力することができる。また、ユーザの操作入力により、ボックス８４０をクリックすると、特徴領域８０６を表現する語句を入力することができる。

ラベル指定画面８００によれば、ユーザは、各画像Ｐ１，Ｐ２上の各特徴領域８０５，８０６を確認しながら、各特徴領域８０５，８０６を表現する語句を入力することができる。この際、ユーザは、各画像Ｐ１，Ｐ２が属するイベントを把握した上で、各特徴領域８０５，８０６を表現する語句を入力することができる。これにより、各イベントに関連する語句の入力を支援することができる。

また、ユーザは、画像Ｐ１，Ｐ２の特徴領域８０５，８０６を見比べながら、各特徴領域８０５，８０６を表現する語句を入力することができる。これにより、画像Ｐ１，Ｐ２同士の違いを把握しやすくして、各イベントを特徴付ける適切な語句を判断しやすくさせることができる。

また、ユーザは、各画像Ｐ１，Ｐ２から検出済みの下位シンボル（オフィス、ＰＣ）を把握した上で、各特徴領域８０５，８０６を表現する語句を入力することができる。これにより、各画像Ｐ１，Ｐ２から検出済みの下位シンボルと意味が重複する語句の入力を防ぐことができる。また、各画像Ｐ１，Ｐ２から検出済みの下位シンボル（例えば、ＰＣ）に特徴領域８０５，８０６が近接している場合であっても、誤ったラベル付けが行われるのを抑制することができる。

図８Ｂの例では、ボックス８３０には、特徴領域８０５を表現する語句として「警察官」が入力されている。ボックス８４０には、特徴領域８０６を表現する語句として「事務員」が入力されている。ラベル指定画面８００において、入力装置２０７を用いたユーザの操作入力により、ボタンＢ１をクリックすると、ボックス８３０に入力された特徴領域８０５を表現する語句「警察官」が、画像Ｐ１にラベルとして付与される。また、ボックス８４０に入力された特徴領域８０６を表現する語句「事務員」が、画像Ｐ２にラベルとして付与される。

また、ラベル指定画面８００において、ボタンＢ２をクリックすると、各ボックス８３０，８４０の入力内容をクリアすることができる。

つぎに、図９Ａおよび図９Ｂを用いて、各画像Ｐ１，Ｐ２の特徴領域を表現する語句候補の中から、各画像Ｐ１，Ｐ２の特徴領域を表現する語句の選択を受け付ける第２の画面例について説明する。ただし、図８Ａおよび図８Ｂに示した第１の画面例と同様の箇所については、同一符合を付して説明を省略する。

図９Ａおよび図９Ｂは、ラベル指定画面の第２の画面例を示す説明図である。図９Ａにおいて、ラベル指定画面９００は、画像Ｐ１と画像Ｐ２とを含む操作画面である。ラベル指定画面９００には、イベント情報８０１と、下位シンボル情報８０２と、イベント情報８０３と、下位シンボル情報８０４とが表示されている。

ラベル指定画面９００において、画像Ｐ１上には、特徴領域８０５を囲う枠８１０が重畳表示されている。画像Ｐ２上には、特徴領域８０６を囲う枠８２０が重畳表示されている。また、ラベル指定画面９００には、ラベル選択ボックス９１０，９２０が表示されている。

ここで、ラベル選択ボックス９１０は、画像Ｐ１の特徴領域８０５を表現する語句候補「警察官、犯罪者」を含む。ラベル指定画面９００において、入力装置２０７を用いたユーザの操作入力により、チェックボックス９１１，９１２のいずれかをクリックすると、特徴領域８０５を表現する語句を選択することができる。

また、ラベル選択ボックス９２０は、画像Ｐ２の特徴領域８０６を表現する語句候補「会社員、未経験者」を含む。ラベル指定画面９００において、入力装置２０７を用いたユーザの操作入力により、チェックボックス９２１，９２２のいずれかをクリックすると、特徴領域８０６を表現する語句を選択することができる。

各ラベル選択ボックス９１０，９２０に示される語句候補は、例えば、各画像Ｐ１，Ｐ２が属するイベントに関連する文章Ｓ１，Ｓ２に含まれる単語のうち、指標値が高い上位２個の単語を抽出したものである（図７参照）。ただし、図７の例では、文章Ｓ２について、指標値が高い上位２個の単語は「会社員」と「オフィス」であるが、「オフィス」は、下位シンボル情報８０４が示す下位シンボル「オフィス」と同じである。このため、「オフィス」の次に指標値が高い「未経験者」が語句候補として抽出されている。

ラベル指定画面９００によれば、ユーザは、各ラベル選択ボックス９１０，９２０のいずれかのチェックボックスをクリックする操作を行うだけで、各特徴領域８０５，８０６を表現する語句を選択することができる。これにより、各特徴領域８０５，８０６を表現する語句を手入力する場合に比べて、ラベル付与にかかるユーザの負荷を低減することができる。また、ラベル付与者による表現のブレを抑制することができる。

図９Ｂの例では、ラベル選択ボックス９１０のチェックボックス９１１がクリックされている。また、ラベル選択ボックス９２０のチェックボックス９２１がクリックされている。ラベル指定画面９００において、ユーザの操作入力により、ボタンＢ１をクリックすると、チェックボックス９１１に対応する語句「警察官」が、画像Ｐ１にラベルとして付与される。また、チェックボックス９２１に対応する語句「会社員」が、画像Ｐ２にラベルとして付与される。

また、ラベル指定画面９００において、ボタンＢ２をクリックすると、各ラベル選択ボックス９１０，９２０の選択内容をクリアすることができる。

なお、情報処理装置１０１は、各ラベル選択ボックス９１０，９２０において、指標値（図７参照）が最大の語句候補（単語）を判別可能に表示することにしてもよい。これにより、各画像Ｐ１，Ｐ２が属するイベントに関連する各文章Ｓ１，Ｓ２で最も特徴的な単語を判別可能にして、各特徴領域８０５，８０６を表現する語句を選択しやすくさせることができる。

（情報処理装置１０１の各種処理手順）
つぎに、情報処理装置１０１の各種処理手順について説明する。まず、情報処理装置１０１の学習処理手順について説明する。ここでは、学習用画像を「動画像」とする。

図１０は、情報処理装置１０１の学習処理手順の一例を示すフローチャートである。図１０のフローチャートにおいて、まず、情報処理装置１０１は、動画像からイベントおよび下位シンボルを検出するイベント／下位シンボル検出処理を実行する（ステップＳ１００１）。イベント／下位シンボル検出処理の具体的な処理手順については、図１１を用いて後述する。なお、イベント／下位シンボル検出処理において検出された検出結果は、検出結果テーブル６００に記憶される。

つぎに、情報処理装置１０１は、検出結果テーブル６００を参照して、検出されたイベントが異なり、かつ、検出された下位シンボルが同じである動画像のペアを検索する（ステップＳ１００２）。そして、情報処理装置１０１は、検索した動画像のペアに基づいて、各動画像から検出されたイベントを検出するイベント検出器を作成する（ステップＳ１００３）。

つぎに、情報処理装置１０１は、作成したイベント検出器を用いて各動画像からイベントを検出する際に着目した各動画像の特徴領域を特定する（ステップＳ１００４）。そして、情報処理装置１０１は、特定した各動画像の特徴領域を他領域と異なる様態で表示する（ステップＳ１００５）。

なお、各動画像の特徴領域の表示は、例えば、図８Ａ、図８Ｂ、図９Ａおよび図９Ｂに示したようなラベル指定画面８００，９００において行われる。

つぎに、情報処理装置１０１は、各動画像にラベルを付与するラベル付与処理を実行する（ステップＳ１００６）。ラベル付与処理の具体的な処理手順については、図１２〜図１４を用いて後述する。そして、情報処理装置１０１は、ラベル付与処理においてラベルが付与された動画像に基づいて、新規の下位シンボルを検出するシンボル検出器を作成して（ステップＳ１００７）、本フローチャートによる一連の処理を終了する。

これにより、ラベル付与処理において得られる学習データ（教師データ）を用いて、新規の下位シンボルを検出するためのシンボル検出器を効率的に作成することができる。

つぎに、図１１を用いて、図１０に示したステップＳ１００１のイベント／下位シンボル検出処理の具体的な処理手順について説明する。

図１１は、イベント／下位シンボル検出処理の具体的処理手順の一例を示すフローチャートである。図１１のフローチャートにおいて、まず、情報処理装置１０１は、学習用画像ＤＢ５２０から動画像セットを取得する（ステップＳ１１０１）。動画像セットは、学習用画像となる複数の動画像である。

つぎに、情報処理装置１０１は、取得した動画像セットから選択されていない未選択の動画像を選択する（ステップＳ１１０２）。そして、情報処理装置１０１は、イベント検出器を用いて、選択した動画像からイベントを検出する（ステップＳ１１０３）。なお、ステップＳ１１０３において用いられるイベント検出器は、図１０に示したステップＳ１００３において作成されたイベント検出器とは異なるものである。

つぎに、情報処理装置１０１は、シンボル検出器を用いて、選択した動画像から下位シンボルを検出する（ステップＳ１１０４）。そして、情報処理装置１０１は、ステップＳ１１０３，Ｓ１１０４において検出した検出結果を、検出結果テーブル６００に登録する（ステップＳ１１０５）。

つぎに、情報処理装置１０１は、動画像セットから選択されていない未選択の動画像があるか否かを判断する（ステップＳ１１０６）。ここで、未選択の動画像がある場合（ステップＳ１１０６：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１１０２に戻る。一方、未選択の動画像がない場合（ステップＳ１１０６：Ｎｏ）、情報処理装置１０１は、イベント／下位シンボル検出処理を呼び出したステップに戻る。

これにより、学習用画像からイベントおよび下位シンボルを検出することができる。

つぎに、図１２〜図１４を用いて、図１０に示したステップＳ１００６のラベル付与処理の具体的な処理手順について説明する。ここでは、ラベル付与処理として、第１、第２および第３のラベル付与処理について説明する。まず、図１２を用いて、第１のラベル付与処理の具体的な処理手順について説明する。

図１２は、第１のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図１２のフローチャートにおいて、まず、情報処理装置１０１は、図１０に示したステップＳ１００５において他領域と異なる様態で表示した各動画像の特徴領域を表現する語句の入力を受け付けたか否かを判断する（ステップＳ１２０１）。

なお、各動画像の特徴領域を表現する語句の入力は、例えば、図８Ａおよび図８Ｂに示したようなラベル指定画面８００において行われる。

ここで、情報処理装置１０１は、各動画像の特徴領域を表現する語句が入力されるのを待つ（ステップＳ１２０１：Ｎｏ）。そして、情報処理装置１０１は、各動画像の特徴領域を表現する語句が入力された場合（ステップＳ１２０１：Ｙｅｓ）、入力された各動画像の特徴領域を表現する語句をラベルとして、各動画像に付与して（ステップＳ１２０２）、第１のラベル付与処理を呼び出したステップに戻る。

これにより、各動画像の特徴領域を表現する任意の語句を各動画像にラベリングすることができる。

つぎに、図１３を用いて、第２のラベル付与処理の具体的な処理手順について説明する。

図１３は、第２のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図１３のフローチャートにおいて、まず、情報処理装置１０１は、シンボルリストＤＢ３００を参照して、各動画像から検出したイベントに対応するシンボルリストを特定する（ステップＳ１３０１）。

つぎに、情報処理装置１０１は、特定した各動画像についてのシンボルリストから、各動画像から検出した検出済みの下位シンボルを除外する（ステップＳ１３０２）。そして、情報処理装置１０１は、シンボルリストに含まれる残余の下位シンボルを、各動画像の特徴領域を表現する語句候補として選択可能に表示する（ステップＳ１３０３）。

なお、各動画像の特徴領域を表現する語句候補の表示は、例えば、図９Ａおよび図９Ｂに示したようなラベル指定画面９００において行われる。

つぎに、情報処理装置１０１は、各動画像の特徴領域を表現する語句候補として表示した下位シンボルのうちのいずれかの下位シンボルが選択されたか否かを判断する（ステップＳ１３０４）。ここで、情報処理装置１０１は、各動画像について下位シンボルが選択されるのを待つ（ステップＳ１３０４：Ｎｏ）。

そして、情報処理装置１０１は、各動画像について下位シンボルが選択された場合（ステップＳ１３０４：Ｙｅｓ）、選択された下位シンボルをラベルとして、各動画像に付与して（ステップＳ１３０５）、第２のラベル付与処理を呼び出したステップに戻る。

これにより、各動画像の特徴領域を表現する語句（下位シンボル）を、各動画像にラベル（特徴）として付与することができる。

つぎに、図１４を用いて、第３のラベル付与処理の具体的な処理手順について説明する。

図１４は、第３のラベル付与処理の具体的処理手順の一例を示すフローチャートである。図１４のフローチャートにおいて、まず、情報処理装置１０１は、文章ＤＢ４００から、各動画像から検出したイベントに対応する文章を検索する（ステップＳ１４０１）。つぎに、情報処理装置１０１は、検索した各動画像のイベントに対応する文章に基づいて、各文章に含まれる各単語のｔｆ−ｉｄｆ値を算出する（ステップＳ１４０２）。

そして、情報処理装置１０１は、算出した各単語のｔｆ−ｉｄｆ値に基づいて、各文章から、高ｔｆ−ｉｄｆ値の単語を抽出する（ステップＳ１４０３）。そして、情報処理装置１０１は、各文章から抽出した高ｔｆ−ｉｄｆ値の単語を、各動画像の特徴領域を表現する語句候補として選択可能に表示する（ステップＳ１４０４）。

つぎに、情報処理装置１０１は、各動画像の特徴領域を表現する語句候補として表示した高ｔｆ−ｉｄｆ値の単語のうちのいずれかの単語が選択されたか否かを判断する（ステップＳ１４０５）。ここで、情報処理装置１０１は、各動画像について単語が選択されるのを待つ（ステップＳ１４０５：Ｎｏ）。

そして、情報処理装置１０１は、各動画像について単語が選択された場合（ステップＳ１４０５：Ｙｅｓ）、選択された単語をラベルとして、各動画像に付与して（ステップＳ１４０６）、第３のラベル付与処理を呼び出したステップに戻る。

これにより、各動画像の特徴領域を表現する語句（高ｔｆ−ｉｄｆ値の単語）を、各動画像にラベル（特徴）として付与することができる。なお、ステップＳ１４０３において、情報処理装置１０１は、各動画像から検出した検出済みの下位シンボルを示す単語を抽出対象から除外することにしてもよい。

つぎに、図１５を用いて、情報処理装置１０１の推定処理手順について説明する。ここでは、対象画像を「動画像」とする。

図１５は、情報処理装置１０１の推定処理手順の一例を示すフローチャートである。図１５のフローチャートにおいて、まず、情報処理装置１０１は、対象画像となる動画像を受け付ける（ステップＳ１５０１）。

つぎに、情報処理装置１０１は、イベント検出器を用いて、受け付けた動画像からイベントを検出する（ステップＳ１５０２）。なお、ステップＳ１５０２において用いられるイベント検出器は、例えば、図１１に示したステップＳ１１０３において用いられるイベント検出器と同じものである。

つぎに、情報処理装置１０１は、図１０に示したステップＳ１００７において作成されたイベント検出器を用いて、受け付けた動画像から下位シンボルを検出する（ステップＳ１５０３）。そして、情報処理装置１０１は、ステップＳ１５０２，Ｓ１５０３において検出した検出結果を出力して（ステップＳ１５０４）、本フローチャートによる一連の処理を終了する。

これにより、動画像が属するとみなしたイベントを特徴付ける下位シンボルを推定することができる。また、下位シンボルを検出するにあたり、図１０に示したステップＳ１００７において作成されたイベント検出器を用いることで、ある動画像のペアについて、異なるイベント（属性）が検出されたにもかかわらず、同じ下位シンボル（特徴）が検出されるのを防ぐことができる。

なお、対象画像である動画像には、当該動画像が属するイベントを示す情報が予め付与されていてもよい。例えば、動画像には、人手により指定されたイベントや、他のコンピュータにおいて判断されたイベントを示す情報であるイベントラベルが付与されている場合がある。

以下、対象画像である動画像に、当該動画像が属するイベントを示すイベントラベルが予め付与されている場合の情報処理装置１０１の各種処理手順について説明する。ただし、図１０〜図１５を用いて説明した手順とは異なる手順についてのみ説明する。

まず、図１０に示したステップＳ１００１において、イベント／下位シンボル検出処理に換えて実行される下位シンボル検出処理の具体的な処理手順について説明する。

図１６は、下位シンボル検出処理の具体的処理手順の一例を示すフローチャートである。図１６のフローチャートにおいて、まず、情報処理装置１０１は、イベントラベルが付与された動画像セットを取得する（ステップＳ１６０１）。そして、情報処理装置１０１は、取得した動画像セットから選択されていない未選択の動画像を選択する（ステップＳ１６０２）。

つぎに、情報処理装置１０１は、シンボル検出器を用いて、選択した動画像から下位シンボルを検出する（ステップＳ１６０３）。そして、情報処理装置１０１は、検出した検出結果を、検出結果テーブル６００に登録する（ステップＳ１６０４）。この際、情報処理装置１０１は、動画像に付与されたイベントラベルが示すイベントを、検出結果テーブル６００内の各検出結果のイベントフィールドに設定する。

つぎに、情報処理装置１０１は、動画像セットから選択されていない未選択の動画像があるか否かを判断する（ステップＳ１６０５）。ここで、未選択の動画像がある場合（ステップＳ１６０５：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１６０２に戻る。一方、未選択の動画像がない場合（ステップＳ１６０５：Ｎｏ）、情報処理装置１０１は、下位シンボル検出処理を呼び出したステップに戻る。

これにより、学習用画像から下位シンボルを検出することができる。

つぎに、対象画像である動画像にイベントラベルが付与されている場合に実行される第２の推定処理の具体的な処理手順について説明する。

図１７は、情報処理装置１０１の第２の推定処理手順の一例を示すフローチャートである。図１７のフローチャートにおいて、まず、情報処理装置１０１は、対象画像となるイベントラベルが付与された動画像を受け付ける（ステップＳ１７０１）。

つぎに、情報処理装置１０１は、図１０に示したステップＳ１００７において作成されたシンボル検出器を用いて、受け付けた動画像から下位シンボルを検出する（ステップＳ１７０２）。そして、情報処理装置１０１は、検出した検出結果を出力して（ステップＳ１７０３）、本フローチャートによる一連の処理を終了する。

これにより、動画像が属するとみなされたイベントを特徴付ける下位シンボルを推定することができる。

以上説明したように、実施の形態２にかかる情報処理装置１０１によれば、第１の画像と第２の画像とに基づいて、第１の画像のうち、第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示することができる。第１の画像は、第１の属性に属すると判断され、かつ、第１の属性を特徴付ける特徴として、第１の特徴を有すると判断された画像である。また、第２の画像は、第２の属性に属すると判断され、かつ、第２の属性を特徴付ける特徴として、第１の画像と同じ第１の特徴を有すると判断された画像である。そして、情報処理装置１０１によれば、表示した第１の領域を表現する語句を受け付け、受け付けた語句を、第１の画像が有する第２の特徴として設定することができる。

これにより、他の画像と異なる属性に属するとみなされたにもかかわらず、他の画像と同じ特徴を有するとみなされた画像に対して、他の画像との違いをあらわす特徴的な領域を表現する語句をラベルとして付与することができる。この結果、画像が属するとみなした属性（例えば、イベント）を特徴付ける情報（例えば、下位シンボル）を検出するための学習データ（教師データ）を得ることができる。この学習データ（教師データ）によれば、新規の下位シンボルを検出するためのシンボル検出器を効率的に追加していくことが可能となり、画像が属するとみなした属性を判断した際の根拠となり得る情報の生成を支援することができる。

また、情報処理装置１０１によれば、第１の画像のうちの第１の領域を他領域と異なる様態で表示するとともに、第２の画像のうちの第１の画像と異なる特徴的な第２の領域を他領域と異なる様態で表示することができる。

これにより、第１の領域と第２の領域とを見比べながら、第１の領域を表現する語句を判断することが可能となり、画像が属するとみなした属性（例えば、イベント）を特徴付ける適切な語句を判断しやすくさせることができる。

また、情報処理装置１０１によれば、第１の画像のうち、第１の属性を特徴付ける１または複数の語句を、表示した第１の領域を表現する語句候補として選択可能に表示し、表示した１または複数の語句のうちのいずれかの語句の選択を受け付け、選択された語句を、第１の画像が有する第２の特徴として設定することができる。

これにより、第１の領域を表現する語句を手入力する場合に比べて、ラベル付与にかかるユーザの負荷を低減することができる。また、ラベル付与者による表現のブレを抑制することができる。

また、情報処理装置１０１によれば、第１の属性に関連する第１の文章と、第２の属性に関連する第２の文章とに基づいて、第１の文章から第１の属性を特徴付ける１または複数の語句を抽出し、抽出した１または複数の語句を選択可能に表示することができる。

これにより、画像が属するとみなした属性（例えば、イベント）に関連する文章から、画像内の特徴的な領域を表現する語句候補を抽出することができる。

また、情報処理装置１０１によれば、第１の文章と第２の文章とに基づいて、第１の文章に含まれる単語の重要度合いを示す指標値を算出し、算出した指標値に基づいて、第１の文章から第１の属性を特徴付ける１または複数の語句を抽出することができる。

これにより、例えば、単語の重要度合いを示す指標値としてｔｆ−ｉｄｆ値を用いることで、第１の文章に出現する頻度は高いが、第２の文章に出現する頻度が低い単語を、第１の画像が属する属性を特徴付ける語句として抽出することができる。

また、情報処理装置１０１によれば、属性と当該属性を特徴付ける１または複数の語句との対応関係を示す情報を参照して、第１の属性を特徴付ける１または複数の語句を特定し、特定した１または複数の語句を選択可能に表示することができる。

これにより、予め知識としてデータベース化した情報を利用して、画像が属するとみなした属性（例えば、イベント）を特徴付ける語句候補を表示することができる。また、シンボル検出器により検出された下位シンボルが、予め知識としてデータベース化した情報と一致するか否かの確認を行うこともできる。

また、情報処理装置１０１によれば、第２の特徴を設定した第１の画像に基づいて、画像の特徴量から第２の特徴を検出する検出器を作成することができる。

これにより、新規の下位シンボルを検出するためのシンボル検出器を効率的に追加することができる。このシンボル検出器によれば、他の画像と異なる属性に属するとみなされた画像について、検出される下位シンボルが他の画像と同じものとなることを防ぐことができる。このため、画像が属するとみなした属性を判断した際の根拠となる適切な情報を生成することができる。

また、情報処理装置１０１によれば、第１の画像のうちの第１の領域を他領域と異なる様態で表示するとともに、第１の属性を示す情報を表示することができる。また、情報処理装置１０１によれば、第２の画像のうちの第２の領域を他領域と異なる様態で表示するとともに、第２の属性を示す情報を表示することができる。

これにより、画像が属するとみなした属性（例えば、イベント）を把握可能にして、当該属性を特徴付ける適切な語句を判断しやすくさせることができる。

また、情報処理装置１０１によれば、第１の画像のうちの第１の領域を他領域と異なる様態で表示するとともに、第１の特徴を示す情報を表示することができる。また、情報処理装置１０１によれば、第２の画像のうちの第２の領域を他領域と異なる様態で表示するとともに、第１の特徴を示す情報を表示することができる。

これにより、画像が属するとみなした属性（例えば、イベント）を特徴付ける語句として、画像から検出済みの特徴（例えば、下位シンボル）と意味が重複する語句が、入力されたり、選択されるのを防ぐことができる。

また、情報処理装置１０１によれば、第１の画像と第２の画像とに基づいて、画像の特徴量から第１の属性または第２の属性のいずれかの属性を検出する検出器を作成することができる。そして、情報処理装置１０１によれば、作成した検出器を用いて第１の画像から第１の属性を検出する際に着目した箇所を含む領域を、第１の領域として特定することができる。

これにより、画像が属するとみなした属性（例えば、イベント）を特徴付ける適切な情報（例えば、下位シンボル）を検出するための学習データを得ることができる。

なお、本実施の形態で説明した判断条件生成支援方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本判断条件生成支援プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ、ＵＳＢメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本判断条件生成支援プログラムは、インターネット等のネットワークを介して配布してもよい。

また、本実施の形態で説明した情報処理装置１０１は、スタンダードセルやストラクチャードＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特定用途向けＩＣやＦＰＧＡなどのＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によっても実現することができる。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）第１の属性に属すると判断され、前記第１の属性を特徴付ける第１の特徴を有すると判断された第１の画像と、前記第１の属性とは異なる第２の属性に属すると判断され、前記第２の属性を特徴付ける前記第１の特徴を有すると判断された第２の画像とに基づいて、前記第１の画像のうち、前記第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示し、
表示した前記第１の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第１の画像が有する第２の特徴として設定する、
処理をコンピュータに実行させることを特徴とする判断条件生成支援プログラム。

（付記２）前記表示する処理は、
前記第１の領域を他領域と異なる様態で表示するとともに、前記第２の画像のうち、前記第１の画像と異なる特徴的な第２の領域を他領域と異なる様態で表示する、ことを特徴とする付記１に記載の判断条件生成支援プログラム。

（付記３）前記第１の属性を特徴付ける１または複数の語句を、表示した前記第１の領域を表現する語句候補として選択可能に表示する、処理を前記コンピュータに実行させ、
前記受け付ける処理は、
表示した前記１または複数の語句のうちのいずれかの語句の選択を受け付け、
前記設定する処理は、
選択された前記語句を、前記第１の画像が有する第２の特徴として設定する、
ことを特徴とする付記１または２に記載の判断条件生成支援プログラム。

（付記４）前記第１の属性に関連する第１の文章と、前記第２の属性に関連する第２の文章とに基づいて、前記第１の文章から前記第１の属性を特徴付ける１または複数の語句を抽出する、処理を前記コンピュータに実行させ、
前記１または複数の語句を表示する処理は、
抽出した前記１または複数の語句を選択可能に表示する、ことを特徴とする付記３に記載の判断条件生成支援プログラム。

（付記５）前記抽出する処理は、
前記第１の文章と前記第２の文章とに基づいて、前記第１の文章に含まれる単語の重要度合いを示す指標値を算出し、
算出した前記指標値に基づいて、前記第１の文章から前記第１の属性を特徴付ける１または複数の語句を抽出する、
ことを特徴とする付記４に記載の判断条件生成支援プログラム。

（付記６）属性と前記属性を特徴付ける１または複数の語句との対応関係を示す情報を参照して、前記第１の属性を特徴付ける１または複数の語句を特定する、処理を前記コンピュータに実行させ、
前記１または複数の語句を表示する処理は、
特定した前記１または複数の語句を選択可能に表示する、ことを特徴とする付記２〜５のいずれか一つに記載の判断条件生成支援プログラム。

（付記７）前記第２の特徴を設定した前記第１の画像に基づいて、画像の特徴量から前記第２の特徴を検出する検出器を作成する、処理を前記コンピュータに実行させることを特徴とする付記１〜６のいずれか一つに記載の判断条件生成支援プログラム。

（付記８）表示した前記第２の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第２の画像が有する第３の特徴として設定する、
処理を前記コンピュータに実行させることを特徴とする付記２に記載の判断条件生成支援プログラム。

（付記９）前記表示する処理は、
前記第１の領域を他領域と異なる様態で表示するとともに、前記第１の属性を示す情報を表示する、ことを特徴とする付記１に記載の判断条件生成支援プログラム。

（付記１０）前記表示する処理は、
前記第１の領域を他領域と異なる様態で表示するとともに、前記第１の特徴を示す情報を表示する、ことを特徴とする付記１に記載の判断条件生成支援プログラム。

（付記１１）前記表示する処理は、
前記第２の領域を他領域と異なる様態で表示するとともに、前記第２の属性を示す情報を表示する、ことを特徴とする付記２に記載の判断条件生成支援プログラム。

（付記１２）前記表示する処理は、
前記第２の領域を他領域と異なる様態で表示するとともに、前記第１の特徴を示す情報を表示する、ことを特徴とする付記２に記載の判断条件生成支援プログラム。

（付記１３）前記第１の画像と前記第２の画像とに基づいて、画像の特徴量から前記第１の属性または前記第２の属性のいずれかの属性を検出する検出器を作成し、
作成した前記検出器を用いて前記第１の画像から前記第１の属性を検出する際に着目した箇所を含む領域を、前記第１の領域として特定する、
処理を前記コンピュータに実行させ、
前記表示する処理は、
前記第１の画像のうち、特定した前記第１の領域を他領域と異なる様態で表示する、ことを特徴とする付記１〜１２のいずれか一つに記載の判断条件生成支援プログラム。

（付記１４）前記第１の画像および前記第２の画像は、それぞれ異なる動画像である、ことを特徴とする付記１〜１３のいずれか一つに記載の判断条件生成支援プログラム。

（付記１５）第１の属性に属すると判断され、前記第１の属性を特徴付ける第１の特徴を有すると判断された第１の画像と、前記第１の属性とは異なる第２の属性に属すると判断され、前記第２の属性を特徴付ける前記第１の特徴を有すると判断された第２の画像とに基づいて、前記第１の画像のうち、前記第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示し、
表示した前記第１の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第１の画像が有する第２の特徴として設定する、
処理をコンピュータが実行することを特徴とする判断条件生成支援方法。

（付記１６）第１の属性に属すると判断され、前記第１の属性を特徴付ける第１の特徴を有すると判断された第１の画像と、前記第１の属性とは異なる第２の属性に属すると判断され、前記第２の属性を特徴付ける前記第１の特徴を有すると判断された第２の画像とに基づいて、前記第１の画像のうち、前記第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示する表示制御部と、
前記表示制御部が表示した前記第１の領域を表現する語句を受け付ける受付部と、
前記受付部が受け付けた前記語句を、前記第１の画像が有する第２の特徴として設定する設定部と、
を有することを特徴とする情報処理装置。

１０１情報処理装置
１１０第１の画像
１２０第２の画像
１１１第１の領域
１１２，８１０，８２０枠
１３０ラベル
２００バス
２０１プロセッサ
２０２メモリ
２０３ディスクドライブ
２０４ディスク
２０５通信Ｉ／Ｆ
２０６ディスプレイ
２０７入力装置
２０８可搬型記録媒体Ｉ／Ｆ
２０９可搬型記録媒体
３００シンボルリストＤＢ
４００文章ＤＢ
５０１取得部
５０２，５０３判断部
５０４検索部
５０５特定部
５０６表示制御部
５０７受付部
５０８設定部
５０９作成部
５１０推定部
５１１出力部
５１２記憶部
５２０学習用画像ＤＢ
６００検出結果テーブル
７００指標値テーブル
８００，９００ラベル指定画面
８０１，８０３イベント情報
８０２，８０４下位シンボル情報
８０５，８０６特徴領域
８３０，８４０ボックス
９１０，９２０ラベル選択ボックス
９１１，９１２，９２１，９２２チェックボックス

Claims

第１の属性に属すると判断され、前記第１の属性を特徴付ける第１の特徴を有すると判断された第１の画像と、前記第１の属性とは異なる第２の属性に属すると判断され、前記第２の属性を特徴付ける前記第１の特徴を有すると判断された第２の画像とに基づいて、前記第１の画像のうち、前記第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示し、
表示した前記第１の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第１の画像が有する第２の特徴として設定する、
処理をコンピュータに実行させることを特徴とする判断条件生成支援プログラム。
前記表示する処理は、
前記第１の領域を他領域と異なる様態で表示するとともに、前記第２の画像のうち、前記第１の画像と異なる特徴的な第２の領域を他領域と異なる様態で表示する、ことを特徴とする請求項１に記載の判断条件生成支援プログラム。
前記第１の属性を特徴付ける１または複数の語句を、表示した前記第１の領域を表現する語句候補として選択可能に表示する、処理を前記コンピュータに実行させ、
前記受け付ける処理は、
表示した前記１または複数の語句のうちのいずれかの語句の選択を受け付け、
前記設定する処理は、
選択された前記語句を、前記第１の画像が有する第２の特徴として設定する、
ことを特徴とする請求項１または２に記載の判断条件生成支援プログラム。
前記第１の属性に関連する第１の文章と、前記第２の属性に関連する第２の文章とに基づいて、前記第１の文章から前記第１の属性を特徴付ける１または複数の語句を抽出する、処理を前記コンピュータに実行させ、
前記１または複数の語句を表示する処理は、
抽出した前記１または複数の語句を選択可能に表示する、ことを特徴とする請求項３に記載の判断条件生成支援プログラム。
前記抽出する処理は、
前記第１の文章と前記第２の文章とに基づいて、前記第１の文章に含まれる単語の重要度合いを示す指標値を算出し、
算出した前記指標値に基づいて、前記第１の文章から前記第１の属性を特徴付ける１または複数の語句を抽出する、
ことを特徴とする請求項４に記載の判断条件生成支援プログラム。
属性と前記属性を特徴付ける１または複数の語句との対応関係を示す情報を参照して、前記第１の属性を特徴付ける１または複数の語句を特定する、処理を前記コンピュータに実行させ、
前記１または複数の語句を表示する処理は、
特定した前記１または複数の語句を選択可能に表示する、ことを特徴とする請求項２〜５のいずれか一つに記載の判断条件生成支援プログラム。
前記第２の特徴を設定した前記第１の画像に基づいて、画像の特徴量から前記第２の特徴を検出する検出器を作成する、処理を前記コンピュータに実行させることを特徴とする請求項１〜６のいずれか一つに記載の判断条件生成支援プログラム。
第１の属性に属すると判断され、前記第１の属性を特徴付ける第１の特徴を有すると判断された第１の画像と、前記第１の属性とは異なる第２の属性に属すると判断され、前記第２の属性を特徴付ける前記第１の特徴を有すると判断された第２の画像とに基づいて、前記第１の画像のうち、前記第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示し、
表示した前記第１の領域を表現する語句を受け付け、
受け付けた前記語句を、前記第１の画像が有する第２の特徴として設定する、
処理をコンピュータが実行することを特徴とする判断条件生成支援方法。
第１の属性に属すると判断され、前記第１の属性を特徴付ける第１の特徴を有すると判断された第１の画像と、前記第１の属性とは異なる第２の属性に属すると判断され、前記第２の属性を特徴付ける前記第１の特徴を有すると判断された第２の画像とに基づいて、前記第１の画像のうち、前記第２の画像と異なる特徴的な第１の領域を他領域と異なる様態で表示する表示制御部と、
前記表示制御部が表示した前記第１の領域を表現する語句を受け付ける受付部と、
前記受付部が受け付けた前記語句を、前記第１の画像が有する第２の特徴として設定する設定部と、
を有することを特徴とする情報処理装置。