JP6176041B2

JP6176041B2 - 情報処理装置及びプログラム

Info

Publication number: JP6176041B2
Application number: JP2013207739A
Authority: JP
Inventors: 良子小堀田; 布施　透; 透布施
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2013-10-02
Filing date: 2013-10-02
Publication date: 2017-08-09
Anticipated expiration: 2033-10-02
Also published as: US9420204B2; US20150092007A1; JP2015073198A

Description

本発明は、情報処理装置及びプログラムに関する。

人や物等のオブジェクトが表された画像に、テキスト情報を表示する技術がある。

例えば特許文献１には、電子コミックの吹き出し領域の情報に基づき、各吹き出し内のセリフを示すテキスト情報を表示する装置であって、オリジナルの言語のセリフ、及び、オリジナルの言語のセリフから任意の言語に変換されたセリフの文字列を吹き出し領域に配置する装置が開示されている。

特許文献２には、画像内の人物の顔の領域を認識し、当該顔の領域における基準位置を検出し、テキスト形式のコメントを入力するコメント入力領域を、当該基準位置に基づいて顔の領域に対応付けて配置する装置が開示されている。

特許文献３には、画面上におけるオブジェクトの配置位置を検出し、当該配置位置に応じて、オブジェクトに含まれる実際の表示オブジェクトデータを選択する装置が開示されている。

特許文献４には、表示部の画面サイズ情報に従って、文字サイズを維持したままテキスト情報が吹き出しに収まるか判断し、収まらないと判断した場合は、レイアウト変更可能であるか否かを判断し、レイアウト変更可能であれば、表示指定のあった画像領域に対応する吹き出しの話者を起点に、横置き用の吹き出しを描画する装置が開示されている。

特許文献５には、吹き出しのセリフの表示開始／終了と、当該吹き出しのセリフの読み上げの開始／終了と、を同期する装置が開示されている。

特開２０１２−１３３６５９号公報特開２００７−４６７７号公報特開２００３−１２３０８４号公報特開２０１２−１３３６６０号公報特開２０１２−１３３６６２号公報

ところで、会議等では、複数人が、デジタルデータに書き込みを行ったり、付箋を活用して模造紙等を編集したり、ホワイトボードに情報を記入したりする場合がある。このような情報（コンテンツ）の編集を複数人が非同期で行う場合、別々の時間に各人によって行われた作業の結果を把握することは、時間を要し、作業の差分情報を正確に把握することは困難である。例えば、ある人が最後に見たコンテンツとその後に他の人が行った作業の結果との差分を把握することは、時間を要し、差分情報の把握が困難となる。作業の差分情報を視覚的に表示することも考えられるが、そのような方法では、どのような背景で情報が追加されたのかを把握することは困難である。例えば、会議を中座している間にホワイトボード等に記入された情報が編集された場合、編集されたときの状況を後から把握することは困難である。会議に途中から参加した場合も、同様の問題がある。編集された情報の背景を把握するために、情報の変更時の様子や変更履歴等を動画像で記録して表示することも考えられるが、情報量が多すぎるため、動画像を参照するのに時間を要し、また、情報の変化を見落とすおそれもある。

本発明の目的は、画像に表されたオブジェクトの動作や音の把握が容易な画像を提供することである。

請求項１に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記フレーム選択手段は、前記１又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とする情報処理装置である。

請求項２に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記フレーム選択手段は、前記１又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とする情報処理装置である。

請求項３に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記フレーム選択手段は、前記１又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とする情報処理装置である。

請求項４に係る発明は、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトの動き、又は、前記１又は前記複数のオブジェクトからの音に基づき、前記特徴的オブジェクトを選択する、ことを特徴とする請求項１から請求項３のいずれか一項に記載の情報処理装置である。

請求項５に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。

請求項６に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。

請求項７に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。

請求項８に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、前記発話の内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。

請求項９に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのそれぞれの声の大きさ又は話す速さに基づき、前記特徴的オブジェクトを選択し、前記テキスト情報作成手段は、前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。

請求項１０に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作及び前記複数のオブジェクトのそれぞれからの音の中から、互いに関連する複数のオブジェクトのそれぞれの動作及び音を、特徴的オブジェクトの動作及び音として選択し、前記テキスト情報作成手段は、各特徴的オブジェクトの動作又は音を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。

請求項１１に係る発明は、前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音の中から、共起関係にある複数のオブジェクトのそれぞれの動作又は音を、特徴的オブジェクトの動作又は音として選択する、ことを特徴とする請求項１０に記載の情報処理装置である。

請求項１２に係る発明は、前記オブジェクト選択手段は、予め設定された時間帯における前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音を対象として、前記特徴的オブジェクトの動作又は音を選択する、ことを特徴とする請求項１０又は請求項１１に記載の情報処理装置である。

請求項１３に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトの動作を前記特徴的オブジェクトの動作として選択し、動作回数が前記動作回数閾値以上となる動作が行われている時間帯における他のオブジェクトの動作又は音を選択し、前記テキスト情報作成手段は、前記特徴的オブジェクトの動作を示すテキスト情報を作成し、前記他のオブジェクトの動作又は音を示すテキスト情報を作成し、前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、ことを特徴とする情報処理装置である。

請求項１４に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された発話時間閾値以上となるオブジェクトの発話を前記特徴的オブジェクトの発言として選択し、時間の長さが前記発話時間閾値以上となる発話が行われている時間帯における他のオブジェクトの動作又は発言を選択し、前記テキスト情報作成手段は、前記特徴的オブジェクトの発言内容を示すテキスト情報を作成し、前記他のオブジェクトの動作又は発言内容を示すテキスト情報を作成し、前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、ことを特徴とする情報処理装置である。

請求項１５に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記表示制御手段は、前記特徴的フレームの画像において前記特徴的オブジェクトが表された領域以外の領域に、前記テキスト情報を前記特徴的オブジェクトに関連付けて表示する、ことを特徴とする情報処理装置である。

請求項１６に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記表示制御手段は、前記特徴的オブジェクトの種類に応じて前記テキスト情報の表示形態を変える、ことを特徴とする情報処理装置である。

請求項１７に係る発明は、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記テキスト情報作成手段は、前記テキスト情報の要約を作成し、前記表示制御手段は、前記特徴的フレームの画像に前記要約を表示する、ことを特徴とする情報処理装置である。

請求項１８に係る発明は、コンピュータを、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記フレーム選択手段は、前記１又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とするプログラムである。
請求項１９に係る発明は、コンピュータを、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記フレーム選択手段は、前記１又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とするプログラムである。
請求項２０に係る発明は、コンピュータを、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記フレーム選択手段は、前記１又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とするプログラムである。
請求項２１に係る発明は、コンピュータを、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、ことを特徴とするプログラムである。
請求項２２に係る発明は、コンピュータを、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、ことを特徴とするプログラムである。
請求項２３に係る発明は、コンピュータを、複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、ことを特徴とするプログラムである。

請求項１，１８に係る発明によると、本発明の構成を備えていない場合と比較して、オブジェクトの動作や音の把握が容易な画像が提供される。また、オブジェクトが動いている時間の長さに特徴があるフレームの画像が選択される。

請求項２，１９に係る発明によると、オブジェクトの発話回数に特徴があるフレームの画像が選択される。

請求項３，２０に係る発明によると、オブジェクトの動作量に特徴があるフレームの画像が選択される。

請求項４に係る発明によると、動作や音に特徴があるオブジェクトが選択される。

請求項５，２１に係る発明によると、動作回数に特徴があるオブジェクトが選択され、そのオブジェクトの動作の把握が容易となる。

請求項６，２２に係る発明によると、動いている時間の長さに特徴があるオブジェクトが選択され、そのオブジェクトの動作の把握が容易となる。

請求項７，２３に係る発明によると、発話回数に特徴があるオブジェクトが選択され、そのオブジェクトの発話内容の把握が容易となる。

請求項８に係る発明によると、発話している時間の長さに特徴があるオブジェクトが選択され、そのオブジェクトの発話内容の把握が容易となる。

請求項９に係る発明によると、声の大きさや話す速さに特徴があるオブジェクトが選択され、そのオブジェクトの発話内容の把握が容易となる。

請求項１０，１１に係る発明によると、複数のオブジェクト間における動作や音の関連性の把握が容易となる。

請求項１２に係る発明によると、設定された時間帯における複数のオブジェクト間の動作や音の関連性の把握が容易となる。

請求項１３に係る発明によると、動作回数に特徴があるオブジェクトの動作の把握が容易になるとともに、その動作が行われた時間帯における他のオブジェクトの動作や音の把握が容易となる。

請求項１４に係る発明によると、発話している時間の長さに特徴があるオブジェクトの発話内容の把握が容易になるとともに、その発話が行われている時間帯における他のオブジェクトの動作や音の把握が容易となる。

請求項１５に係る発明によると、特徴的オブジェクトとテキスト情報との把握が容易となる。

請求項１６に係る発明によると、テキスト情報の直観的な区別が容易となる。

請求項１７に係る発明によると、特徴的オブジェクトの動作や音が簡潔な文字列によって表される。

本発明の実施形態に係る情報処理装置の一例を示す図である。会議室内の様子の一例を示す模式図である。コンテクスト情報の一例を示す表である。コンテクスト情報の一例を示す表である。コンテンツ情報及びコンテクスト情報の一例を示す図である。コンテンツ情報とコンテクスト情報との共起関係を説明するための表である。コンテンツ情報及びコンテクスト情報の一例を示す図である。会議室内の様子を示す画像の一例を示す模式図である。

図１に、本発明の実施形態に係る情報処理装置の一例を示す。本実施形態に係る情報処理装置１０は、画像データに表されたオブジェクトの動作や音を示す情報をテキスト情報として、オブジェクトに関連付けるものである。ここで、オブジェクトは、人や物である。

以下では、一例として、会議室を対象場所とし、会議室内の人や物にテキスト情報を関連付けるものとする。例えば図２に示すように、会議室１００内に複数の人（例えば、参加者Ａ，Ｂ，Ｃ，Ｄ）が集まって会議を行っているものとする。会議室１００内には、テーブル１１０やホワイトボード１２０等が設置されている。また、模造紙等が会議室１００内に張り付けられていることもある。テーブル１１０上には、例えば、資料１３０やパーソナルコンピュータ１４０やプロジェクター等が置かれている。図２に示す例では、参加者Ａ〜Ｄ、テーブル１１０、ホワイトボード１２０、資料１３０及びパーソナルコンピュータ１４０等が、オブジェクトの一例に該当する。ホワイトボード１２０や模造紙に対しては、一人の人が情報を書き込むこともあれば、複数人が情報を書き込むこともある。また、個々の人が情報を書き込むものとして、付箋やメモ用紙等がある。会議においては、例えば、参加者の発話、参加者の挙手、参加者によるホワイトボード１２０への書き込み、会議室１００内での参加者の移動、プロジェクターによるホワイトボード１２０等への画像の映し、ホワイトボード１２０や模造紙等への付箋やメモ用紙等の張り付け、付箋やメモ用紙等の張り替え、プロジェクターの電源のＯＮ／ＯＦＦ、プロジェクターによって映される画像の変更、ドアの開閉、及び、ホワイトボード１２０のスクロール等の、各種の動きや、それらの動きに伴う音が発生する。本実施形態では、情報処理装置１０は、会議室１００内の人及び物の動作や音を示す情報をテキスト情報として、人及び物に関連付ける。以下、情報処理装置１０の具体的な構成を説明する。

情報処理装置１０は、データ取得部１１、データ抽出部１２、データ記憶部１３、データ解析部１４、表示制御部１９及び表示部２０を含む。また、データ解析部１４は、画像解析部１５、フレーム選択部１６、オブジェクト選択部１７及びテキスト情報作成部１８を含む。

データ取得部１１は、コンテンツ情報とコンテクスト情報とを取得し、コンテンツ情報とコンテクスト情報とをデータ記憶部１３に記憶させる。例えば、動画像データ（複数のフレームで構成される画像データ）、音声データ、及び、プロジェクターによってホワイトボード１２０等に映される画像データ（スライドや文書等のデータ）が、コンテンツ情報に該当する。一例として、図２に示す会議室１００内を撮影装置によって撮影することで会議室１００内を表す動画像データが生成され、データ取得部１１は、その動画像データを取得する。また、録音装置によって会議室１００内の音を録音することで音声データが生成され、データ取得部１１は、その音声データを取得する。このとき、指向性のマイク等を利用することで、特定の方向にて発生した音を示す音声データが生成され、データ取得部１１は、指向性のある音声データを取得する。例えば、指向性のマイクを利用することで、個々のオブジェクトから発生した音が検出され、個々のオブジェクトから発生した音を示す音声データが生成される。これにより、データ取得部１１は、個々のオブジェクトから発生した音を示す音声データを取得する。動画像データには、会議室１００内での人の動きや物の移動等が表されている。また、音声データには、会議室１００内での人の発言内容や、会議室１００内の物から発生した音が記録されている。また、データ取得部１１は、プロジェクターによって映される画像データを、プロジェクターや当該プロジェクターに接続されたパーソナルコンピュータ等の機器から取得する。動画像データ、音声データ及び画像データ等のコンテンツ情報には、撮影や録音等が行われた日時を示す時間情報が含まれている。なお、コンテンツ情報には、当該コンテンツ情報を取得したデバイスを識別するためのデバイス識別情報と、そのデバイスの利用者を識別するためのユーザ識別情報と、が付帯されている。

コンテクスト情報は、各種デバイスによって取得又は検出された情報である。デバイスとしては、例えば、入力デバイス、動作検出デバイス及び各種センサー等が用いられる。各種デバイスを用いることにより、会議室１００で発生した動きや音に関するコンテクスト情報を取得又は検出する。入力デバイスは、人によって情報が入力されるデバイスであり、一例として、キーボード、マウス及びデジタルペン等である。動作検出デバイスは、人や物の動きを検出するデバイスであり、一例として、Ｋｉｎｅｃｔ（登録商標）等の赤外線カメラである。各種センサーとしては、例えば、マイクロスイッチ、加速度センサー及び距離計等が用いられる。コンテクスト情報には、各種デバイスによって取得又は検出された日時を示す時間情報が含まれている。なお、コンテクスト情報には、当該コンテクスト情報を取得又は検出したデバイスを識別するためのデバイス識別情報と、そのデバイスの利用者を識別するためのユーザ識別情報と、が付帯されている。

データ抽出部１２は、コンテクスト情報からメタデータを抽出し、コンテクスト情報が取得又は検出された日時を示す時間情報をメタデータに関連付けて、メタデータをデータ記憶部１３に記憶させる。

図３に、メタデータの一例を示す。例えば、ユーザがキーボード等の入力デバイスを用いてキー入力を行った場合、そのキー入力に対応するコメントやメモ等の情報が、コンテクスト情報に該当する。データ抽出部１２は、そのコメントやメモ等の情報をメタデータとして抽出し、コメントやメモ等が入力された日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部１３に記憶させる。また、データ抽出部１２は、入力デバイスの利用者を識別するためのユーザ識別情報をメタデータに関連付けてもよい。

また、赤外線カメラが動作検出デバイスとして用いられている場合、例えば、会議室１００内の人の位置、人の動き、物の位置及び物の動き等を示す情報が、コンテクスト情報に該当する。一例として、人の移動、挙手、会議室１００内に設置されたホワイトボード１２０への書き込み、付箋の貼り付け、付箋の入れ替え、及び、会議室１００内での模造紙の張り替え（レイアウト変更）等が、人の動きとして赤外線カメラによって検出される。また、例えば、会議室１００のドアの開閉、書類の移動、及び、パーソナルコンピュータの移動等が、物の動きとして赤外線カメラによって検出される。データ抽出部１２は、人の位置、人の動き、物の位置及び物の動き等を示す情報をメタデータとして抽出し、それらの情報が赤外線カメラによって検出された日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部１３に記憶させる。

また、ユーザがデジタルペンを用いて情報を入力した場合、例えば、付箋やメモ帳等への書き込み内容や修正内容等を示す情報が、コンテクスト情報に該当する。データ抽出部１２は、デジタルペンによって入力された情報をメタデータとして抽出し、その情報がデジタルペンによって入力された日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部１３に記憶させる。また、データ抽出部１２は、デジタルペンの利用者を識別するためのユーザ識別情報をメタデータに関連付けてもよい。

また、各種センサーによって、会議室１００内に設置されたプロジェクターの電源のＯＮ／ＯＦＦが検出された場合、電源のＯＮ／ＯＦＦを示す情報が、コンテクスト情報に該当する。データ抽出部１２は、電源のＯＮ／ＯＦＦを示す情報をメタデータとして抽出し、電源がＯＮ／ＯＦＦされた日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部１３に記憶させる。また、会議室１００内に設置されたホワイトボード１２０がスクロールされ、そのスクロールがセンサーによって検出された場合、そのスクロールを示す情報が、コンテクスト情報に該当する。データ抽出部１２は、そのスクロールを示す情報をメタデータとして抽出し、スクロールが行われた日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部１３に記憶させる。

図４に、抽出されたメタデータの一例を示す。例えば、コンテクスト情報が取得又は検出された時刻と、当該コンテクスト情報を取得又は検出したデバイスの名称（デバイス識別情報）と、当該デバイスの利用者名（ユーザ識別情報）と、メタデータとが関連付けられている。一例として、１番目のメタデータは、時刻「１４：０３：５０」にプロジェクターの電源がＯＮされたことを示している。また、２番目のメタデータは、時刻「１４：０４：０２」に参加者Ａによってデジタルペンが使用されたことを示している。このメタデータは、デジタルペンによる筆記の軌跡（座標情報）を示している。また、キーボードによって情報が入力された場合、メタデータは、キーボードによって入力された情報（例えば、「議題１」や「夏季電力抑制案」等）を示す。

ここで、図５に、時系列に沿って取得されたコンテンツ情報及びコンテクスト情報の一例を示す。図５において、横軸は時間である。例えば、プロジェクターによってスライドや文書等の画像が映し出されており、時系列に沿って、複数の画像が切り換えられて映し出されている。また、会議室１００内を表す動画像データ、及び、会議室１００内で発生した音を示す音声データが記録されている。例えば、動画像データには、プロジェクターによって映し出された画像、ホワイトボード１２０及び会議の参加者Ａ〜Ｄ等が表されている。データ取得部１１は、スライドや文書等の画像データ、動画像データ及び音声データを、コンテンツ情報として取得し、当該コンテンツ情報をデータ記憶部１３に記憶させる。また、ホワイトボード１２０への書き込み、付箋の張り付け、ポインタの軌跡、及び、会議の参加者Ａ〜Ｄの動作等が、赤外線カメラ等の動作検出デバイスによって検出され、データ取得部１１は、動作検出デバイスで検出されたデータを、コンテクスト情報として取得し、当該コンテクスト情報をデータ記憶部１３に記憶させる。また、ホワイトボード１２０（ＷＢ）の動作、プロジェクターの電源のＯＮ／ＯＦＦ、及び、無線ＬＡＮの電源のＯＮ／ＯＦＦ等が、各種センサーによって検出され、データ取得部１１は、各種センサーによって検出されたデータを、コンテクスト情報として取得し、当該コンテクスト情報をデータ記憶部１３に記憶させる。

図１に戻って、画像解析部１５、フレーム選択部１６、オブジェクト選択部１７、テキスト情報作成部１８、表示制御部１９及び表示部２０について説明する。

画像解析部１５は、例えば赤外線カメラの検出結果に基づいて、動画像データに表された関心領域（ＲＯＩ：ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）を特定する。例えば、画像解析部１５は、動画像データに表されたオブジェクト（人、物）を関心領域として特定する。また、画像解析部１５は、動画像データにおいて動いている領域を関心領域として特定する。また、画像解析部１５は、公知技術を利用することで、動画像データに表された各オブジェクトを識別し、各オブジェクトの種類を特定する。また、画像解析部１５は、指向性のある音声データと動画像データとに基づいて、動画像データに表された各オブジェクトと、各オブジェクトからの音を示す各音声データと、を関連付ける。

フレーム選択部１６は、複数のフレームで構成された動画像データから、特徴的フレームを選択する。この特徴的フレームは、動画像データの代表画像に相当する。例えば、フレーム選択部１６は、動画像データに表されたオブジェクト（人、物）の動作や、オブジェクトから発生した音に基づき、複数のフレームから特徴的フレームを選択する。

オブジェクト選択部１７は、動画像データに表された１又は複数のオブジェクトから、１又は複数の特徴的オブジェクトを選択する。特徴的オブジェクトに対して、テキスト情報が関連付けられることになる。例えば、オブジェクト選択部１７は、動画像データに表されたオブジェクト（人、物）の動作や、オブジェクトから発生した音に基づき、１又は複数のオブジェクトから、１又は複数の特徴的オブジェクトを選択する。また、オブジェクト選択部１７は、特徴的オブジェクトの動作や音に関連する別のオブジェクトの動作や音を、別の特徴的オブジェクトの動作や音として選択してもよい。また、オブジェクト選択部１７は、コンテンツ情報に関連するコンテクスト情報を選択してもよい。例えば、オブジェクト選択部１７は、特徴的オブジェクトの動作や音を示すコンテンツ情報に関連するコンテクスト情報を選択する。具体的には、オブジェクト選択部１７は、コンテンツ情報と共起関係にあるコンテクスト情報を選択する。

テキスト情報作成部１８は、コンテンツ情報及びコンテクスト情報を利用することで、特徴的オブジェクトの動作及び特徴的オブジェクトから発生した音のうち少なくとも一方を示すテキスト情報を作成し、特徴的オブジェクトにテキスト情報を関連付ける。テキスト情報作成部１８は、テキスト情報の要約を作成してもよいし、テキスト情報に含まれる特定の単語や文字列を強調してもよい。例えば、テキスト情報作成部１８は、音声データ中に繰り返し出現する単語又は文字列や、抑揚のある単語又は文字列等を、強調してもよい。

例えば、テキスト情報作成部１８は、音声データに基づいて、人の発話内容を示すテキスト情報を作成する。また、テキスト情報作成部１８は、入力デバイスによって入力された情報を示すテキスト情報を作成する。また、テキスト情報作成部１８は、音声データに基づいて、携帯電話やスマートフォン等の携帯端末装置の着信音等の直接音や、ドアの開閉音等の間接音や、その他擬音等、を示すテキスト情報を作成してもよい。また、テキスト情報作成部１８は、音声データ、画像解析部１５の解析結果又は赤外線カメラの検出結果に基づいて、会議の状況を表すテキスト情報を作成してもよい。また、テキスト情報作成部１８は、会議が行われた日付や場所等を示す背景情報を取得し、当該背景情報に関するテキスト情報を作成してもよい。背景情報は、例えば入力デバイスから入力された情報である。

特徴的オブジェクトから発生した音を示すテキスト情報を作成する場合、テキスト情報作成部１８は、指向性のある音声データに基づいて、特徴的オブジェクトからの音を示すテキスト情報を作成する。音声データは指向性を有し、各音声データと各オブジェクトとが関連付けられているため、テキスト情報作成部１８は、特徴的オブジェクトに関連付けられた音声データに基づいて、特徴的オブジェクトからの音を示すテキスト情報を作成する。具体例を挙げて説明すると、会議の参加者が発話し、当該発話内容が音声データとして記録された場合、テキスト情報作成部１８は、当該音声データに基づいて当該発話内容を示すテキスト情報を作成し、発話した参加者に当該テキスト情報を関連付ける。また、テキスト情報作成部１８は、閾値以上の音量の音が音声データに含まれていない場合、その状況を示すテキスト情報（例えば、「シーン」等の文字列）を作成してもよい。

また、オブジェクトの動作内容を識別する識別情報と、その動作内容を文字列で表すテキスト情報（例えば、動作内容を象徴的に表現する文字列）と、を予め関連付けておき、テキスト情報作成部１８は、その関連付けに基づいて、動画像データに表された特徴的オブジェクトの動作を示すテキスト情報を作成する。なお、動作内容を示す識別情報とテキスト情報との関連付けを示す情報は、図示しない記憶部に予め記憶されている。テキスト情報作成部１８は、特徴的オブジェクトの動作を示すテキスト情報を、当該特徴的オブジェクトに関連付ける。具体例を挙げて説明すると、人がホワイトボードに文字や図等を記入するという動作は、例えば「サッサッサッ」という音で表現されることがあるので、当該動作を示す識別情報とテキスト情報（「サッサッサッ」という文字列）とを関連付けておき、その関連付けを示す情報を、図示しない記憶部に予め記憶させておく。そして、赤外線カメラや画像解析部１５によって、文字や図等を記入する動作が検出された場合、テキスト情報作成部１８は、当該動作を示すテキスト情報として「サッサッサッ」という文字列からなるテキスト情報を作成する。また、オブジェクトとしての紙や書類が机に置かれるという動作は、例えば「パサッ」という音で表現されることがあるので、当該動作を示す識別情報とテキスト情報（「パサッ」という文字列）とを関連付けておき、その関連付けを示す情報を、図示しない記憶部に予め記憶させておく。そして、赤外線カメラや画像解析部１５によって、紙や書類が机に置かれる動作が検出された場合、テキスト情報作成部１８は、当該動作を示すテキスト情報として「パサッ」という文字列からなるテキスト情報を作成する。また、オブジェクトとしてのドアが閉められるという動作は、例えば「バタン」という音で表現されることがあるので、当該動作を示す識別情報とテキスト情報（「バタン」という文字列）とを関連付けておき、その関連付けを示す情報を、図示しない記憶部に予め記憶させておく。そして、赤外線カメラや画像解析部１５によって、ドアが閉められたことが検出された場合、テキスト情報作成部１８は、その動きを示すテキスト情報として「バタン」という文字列からなるテキスト情報を作成する。

表示制御部１９は、特徴的フレームの画像を表示部２０に表示させるとともに、特徴的フレームの画像に表された特徴的オブジェクトについてのテキスト情報を、当該特徴的オブジェクトに関連付けて画像上に表示する。例えば、表示制御部１９は、特徴的フレームの画像においてオブジェクトが表された領域以外の領域であって特徴的オブジェクトの近傍の領域に吹き出しを配置し、当該吹き出し内に、当該特徴的オブジェクトに関連付けられたテキスト情報を表示する。このとき、表示制御部１９は、吹き出しが表示される領域の広さに応じて、吹き出しの大きさや形状や数を変えてもよいし、テキスト情報に含まれる文字列の大きさを変えてもよい。また、表示制御部１９は、特徴的オブジェクトの種類や音の種類に応じてテキスト情報の表示態様を変えてもよい。例えば、表示制御部１９は、人の発話内容を示すテキスト情報と物から発生した音を示すテキスト情報とで、吹き出しの形状を変える等して表示態様を変えてもよい。また、表示制御部１９は、物から発生した音を示すテキスト情報や、人や物の動作を示すテキスト情報については、吹き出しを配置せずに、当該テキスト情報を画像上に表示してもよい。また、表示制御部１９は、直接音と間接音とで、テキスト情報の表示対象を変えてもよい。また、表示制御部１９は、表示部２０の画面の大きさに応じて、テキスト情報に含まれる文字数を制限したり、文字の大きさを調整したりしてもよい。

次に、フレーム選択部１６、オブジェクト選択部１７、テキスト情報作成部１８及び表示制御部１９の具体的な処理（実施例１〜６）について説明する。

（実施例１）
まず、実施例１について説明する。実施例１では、フレーム選択部１６は、動画像データに基づいて、オブジェクトが連続して動作する回数（連続動作回数）をカウントし、連続動作回数が予め設定された動作回数閾値以上となる期間（対象期間）を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。フレーム選択部１６は、例えば赤外線カメラの検出結果や画像解析部１５の解析結果に基づいて、各オブジェクトの動作の回数を検出する。なお、ここでいう「連続する動作」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の動作である。例えば、会議の参加者がホワイトボードに文字や図等を連続して記入している場合、フレーム選択部１６は、その記入動作の回数が動作回数閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。複数の参加者が動いている場合、フレーム選択部１６は、個々の参加者の動きを検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部１６は、対象期間の最初のフレームを特徴的フレームとして選択してもよいし、対象期間の最後の時間のフレームを特徴的フレームとして選択してもよいし、対象期間の中間の時間のフレームを特徴的フレームとして選択してもよいし、対象期間中の任意の時点のフレームを特徴的フレームとして選択してもよい。例えば、ユーザが図示しない操作部を用いることで、対象期間中の任意の時点のフレームを特徴的フレームとして選択してもよい。連続動作回数が動作回数閾値以上になるということは、会議において活発な議論が行われている可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部１６は、参加者の動作回数に基づいて特徴的フレームを選択する。

この場合、オブジェクト選択部１７は、対象期間中の連続動作回数が動作回数閾値以上となるオブジェクト（会議の参加者）を、特徴的オブジェクトとして選択する。連続動作回数が動作回数閾値以上になるということは、その動作内容が会議において重要である可能性があるため、オブジェクト選択部１７は、その動作を行った参加者を特徴的オブジェクトとして選択する。

以上のように、実施例１では、フレーム選択部１６は、オブジェクトの連続動作回数が動作回数閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部１７は、対象期間中の連続動作回数が動作回数閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。

そして、テキスト情報作成部１８は、オブジェクトの動作内容と当該動作内容を表すテキスト情報との関連付けに基づいて、対象期間内における特徴的オブジェクトの動作内容を示すテキスト情報を作成する。例えば、特徴的オブジェクトとしての人がホワイトボードに文字等を記入している場合、テキスト情報作成部１８は、その記入動作に対応するテキスト情報（「サッサッサッ」という文字列）を作成し、当該テキスト情報を特徴的オブジェクトに関連付ける。また、テキスト情報作成部１８は、対象期間内における特徴的オブジェクトの発話内容を示す音声データに基づいて、当該発話内容を示すテキスト情報を作成してもよい。テキスト情報作成部１８は、テキスト情報の要約を作成してもよい。また、テキスト情報作成部１８は、繰り返し出現する単語や文字列や、抑揚のある単語又は文字列を、赤等の色のついた文字、大文字又は太文字等で表してもよい。

また、オブジェクト選択部１７は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択してもよい。例えば、オブジェクト選択部１７は、対象期間における各参加者の動作内容や発話内容を、特徴的オブジェクトの動作内容や発話内容として選択し、テキスト情報作成部１８は、当該動作内容や当該発話内容を示すテキスト情報を作成してもよい。また、オブジェクト選択部１７は、対象期間内における別の物の動作や音を特徴的オブジェクトの動作や音として選択し、テキスト情報作成部１８は、当該動作や当該音を示すテキスト情報を作成してもよい。具体例を挙げて説明すると、対象期間内において紙や書類が机に置かれた場合、オブジェクト選択部１７は、その紙の動きを特徴的オブジェクトの動きとして選択し、テキスト情報作成部１８は、その動作内容を示すテキスト情報（例えば「パサッ」という文字列）を作成する。また、対象期間内においてドアが閉められた場合、オブジェクト選択部１７は、ドアの動きを特徴的オブジェクトの動きとして選択し、テキスト情報作成部１８は、その動作内容を示すテキスト情報（例えば「バタン」という文字列）を作成する。例えば、対象期間内における各参加者の発話内容は、特徴的オブジェクトの動作内容との関連性が高い場合があるため、各参加者の発話内容についてもテキスト情報を作成する。

そして、表示制御部１９は、特徴的フレームの画像（代表画像）を表示部２０に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示する。

以上のように、オブジェクトの動作回数に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの動作回数に基づいて特徴的オブジェクトを選択し、その動作を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い動作を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表示されることになる。

実施例１では、会議室内の様子を的確に表す代表画像が選択され、特徴的オブジェクトの動作内容を示すテキスト情報が代表画像上に表示されるので、その代表画像を参照することで、会議中に発生した特徴的オブジェクトの行動が、容易に把握されることになる。また、各参加者の発言内容や、会議中に発生した参加者及び物の動きや音に関する情報を、代表画像上に表示することで、各参加者の発言内容や、会議中に発生した参加者及び物の動きや音が、容易に把握されることになる。従って、動画像データを最初から最後まで再生しなくても、代表画像を参照することで、対象期間中に発生した事象が容易に把握されることになる。例えば、会議に参加していなくても、代表画像を参照することで、各参加者の動作内容や発言内容等が把握される。

（実施例２）
次に、実施例２について説明する。実施例２では、フレーム選択部１６は、動画像データに基づいて、オブジェクト（会議の参加者）が継続して動作している時間の長さ（継続動作時間）を計測し、継続動作時間が予め設定された動作時間閾値以上となる期間（対象期間）を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。なお、ここでいう「継続する動作」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の動作であり、時間間隔を空けないで行われた一連の動作でなくてもよい。例えば、会議の参加者がホワイトボードに文字や図等を記入している場合、フレーム選択部１６は、その記入動作の時間の長さが動作時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。複数の参加者が動いている場合、フレーム選択部１６は、個々の参加者の動きを検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部１６は、実施例１と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中の任意の時点のフレームを、特徴的フレームとして選択してもよい。継続動作時間が動作時間閾値以上になるということは、会議において活発な議論が行われている可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部１６は、参加者の動作時間に基づいて特徴的フレームを選択する。

この場合、オブジェクト選択部１７は、対象期間中の継続動作時間が動作時間閾値以上となるオブジェクト（会議の参加者）を、特徴的オブジェクトとして選択する。継続動作時間が動作時間閾値以上になるということは、その動作内容が会議において重要である可能性があるため、オブジェクト選択部１７は、その動作を行った参加者を特徴的オブジェクトとして選択する。

以上のように、実施例２では、フレーム選択部１６は、オブジェクトの継続動作時間が動作時間閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部１７は、対象期間中の継続動作時間が動作時間閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。

そして、テキスト情報作成部１８は、対象期間内における特徴的オブジェクトの動作内容を示すテキスト情報を作成する。実施例１と同様に、テキスト情報作成部１８は、テキスト情報の要約を作成してもよいし、特定の単語や文字列を強調してもよい。

また、実施例１と同様に、オブジェクト選択部１７は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択し、テキスト情報作成部１８は、当該動作や当該音を示すテキスト情報を作成してもよい。例えば、対象期間内における他の参加者の発話内容は、特徴的オブジェクトの動作内容と関連性が高い場合があるため、他の参加者の発話内容についてもテキスト情報を作成する。

以上のように、オブジェクトの動作時間に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの動作時間に基づいて特徴的オブジェクトを選択し、その動作を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い動作を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表示されることになる。従って、実施例１と同様に、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握されることになる。

（実施例３）
次に、実施例３について説明する。実施例３では、フレーム選択部１６は、音声データに基づいて、オブジェクト（会議の参加者）が連続して発話する回数（連続発話回数、連続会話数）をカウントし、連続発話回数が予め設定された発話回数閾値以上となる期間（対象期間）を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。なお、ここでいう「連続する発話」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の発話である。複数の参加者が発話している場合、フレーム選択部１６は、個々の参加者の発話を検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部１６は、実施例１と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中の任意の時点のフレームを、特徴的フレームとして選択してもよい。連続発話回数が発話回数閾値以上となるということは、会議の参加者による議論が活発になっている可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部１６は、参加者の発話回数に基づいて特徴的フレームを選択する。

この場合、オブジェクト選択部１７は、対象期間中の連続発話回数が発話回数閾値以上となるオブジェクト（会議の参加者）を、特徴的オブジェクトとして選択する。連続発話回数が発話回数閾値以上になるということは、その発話内容が重要である可能性があるため、オブジェクト選択部１７は、その発話を行った参加者を特徴的オブジェクトとして選択する。

以上のように、実施例３では、フレーム選択部１６は、オブジェクトの連続発話回数が発話回数閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部１７は、対象期間中の連続発話回数が発話回数閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。

そして、テキスト情報作成部１８は、対象期間内における特徴的オブジェクトの発話内容を示す音声データに基づいて、当該発話内容を示すテキスト情報を作成する。実施例１と同様に、テキスト情報作成部１８は、テキスト情報の要約を作成してもよいし、特定の単語や文字列を強調してもよい。

また、実施例１と同様に、オブジェクト選択部１７は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択し、テキスト情報作成部１８は、当該動作や当該音を示すテキスト情報を作成してもよい。例えば、対象期間内における他の参加者の発話内容は、特徴的オブジェクトの発話内容と関連性が高い場合があるため、他の参加者の発話内容についてもテキスト情報を作成する。

以上のように、オブジェクトの発話回数に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの発話回数に基づいて特徴的オブジェクトを選択し、その発話の内容を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い発話内容を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表示されることになる。

実施例３では、会議室内の様子を的確に表す代表画像が選択され、特徴的オブジェクトの発話内容が代表画像上に表示されるので、その代表画像を参照することで、会議中に発生した特徴的オブジェクトの発話内容が、容易に把握されることになる。また、各参加者の発言内容や、会議中に発生した参加者及び物の動きや音に関する情報を、代表画像上に表示することで、各参加者の発話内容や、会議中に発生した参加者及び物の動きや音が、容易に把握されることになる。従って、動画像データを最初から最後まで再生しなくても、代表画像を参照することで、対象期間中に発生した事象が容易に把握されることになる。

（実施例４）
次に、実施例４について説明する。実施例４では、フレーム選択部１６は、音声データに基づいて、オブジェクト（会議の参加者）が継続して発話している時間の長さ（継続発話時間）を計測し、継続発話時間が予め設定された発話時間閾値以上となる期間（対象期間）を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。なお、ここでいう「継続する発話」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の発話であり、時間間隔を空けないで行われた一連の発話でなくてもよい。複数の参加者が発話している場合、フレーム選択部１６は、個々の参加者の発話を検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部１６は、実施例１と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中における任意の時点におけるフレームを、特徴的フレームとして選択してもよい。継続発話時間が発話時間閾値以上となるということは、その発話内容が重要である可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部１６は、参加者の発話時間の長さに基づいて特徴的フレームを選択する。

この場合、オブジェクト選択部１７は、対象期間中の継続発話時間が発話時間閾値以上となるオブジェクト（会議の参加者）を、特徴的オブジェクトとして選択する。発話時間の長さが発話時間閾値以上になるということは、その発話内容が重要である可能性があるため、オブジェクト選択部１７は、その発話を行った参加者を特徴的オブジェクトとして選択する。

以上のように、実施例４では、フレーム選択部１６は、オブジェクトの継続発話時間が発話時間閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部１７は、対象期間中の継続発話時間が発話時間閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。

そして、テキスト情報作成部１８は、対象期間内における特徴的オブジェクトの発話内容を示す音声データに基づいて、当該発話内容を示すテキスト情報を作成する。実施例１と同様に、テキスト情報作成部１８は、テキスト情報の要約を作成してもよし、特定の単語や文字列を強調してもよい。

また、実施例１と同様に、オブジェクト選択部１７は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択し、テキスト情報作成部１８は、当該動作や当該音を示すテキスト情報を作成してもよい。例えば、対象期間内における他の参加者の発話内容は、特徴的オブジェクトの発話内容と関連性が高い場合があるため、当該参加者の発話内容についてもテキスト情報を作成する。

そして、表示制御部１９は、特徴的フレームの画像（代表画像）を表示部２０に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示させる。

以上のように、オブジェクトの継続発話時間に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの継続発話時間に基づいて特徴的オブジェクトを選択し、その発話の内容を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い発話内容を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表されることになる。従って、実施例３と同様に、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握される。

（実施例５）
次に、実施例５について説明する。実施例５では、フレーム選択部１６は、赤外線カメラの検出結果を利用することで、動画像データにおいて動いている領域（オブジェクト）を特定し、オブジェクトの動作量を検出する。そして、フレーム選択部１６は、オブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さを計測し、その時間の長さが予め設定された時間閾値以上となる期間（対象期間）を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。複数のオブジェクトが動いている場合、フレーム選択部１６は、個々のオブジェクトの動作を検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部１６は、実施例１と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中における任意の時点におけるフレームを、特徴的フレームとして選択してもよい。オブジェクトの動作量が動作量閾値以下になるということは、オブジェクトの動きが少ないことを意味しており、オブジェクトの動きが少ない期間が長くなるほど、その期間内のフレームの画像は、会議室内を表す代表画像に適している場合がある。例えば、会議室１００内の参加者Ａ〜Ｄの動きが少なく、その期間が長くなるほど、その期間内のフレームの画像が、会議における代表画像に適している場合がある。そこで、フレーム選択部１６は、オブジェクトの動作量に基づいて特徴的フレームを選択する。

この場合、オブジェクト選択部１７は、対象期間中におけるオブジェクトの連続動作回数、継続動作時間、連続発話回数及び継続発話時間のうちの少なくとも１つの条件に基づいて、特徴的オブジェクトを選択する。

そして、テキスト情報作成部１８は、上述した実施例１〜４と同様に、対象期間内における特徴的オブジェクトの動作内容や発話内容を示すテキスト情報を作成する。表示制御部１９は、特徴的フレームの画像（代表画像）を表示部２０に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示させる。

以上のように、オブジェクトの動作量に基づいて特徴的フレームを選択することで、会議室内の様子を的確に表す代表画像が選択される。また、実施例１〜４と同様に、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握される。

上述した実施例１〜５以外の例として、オブジェクト選択部１７は、対象期間中におけるオブジェクト（会議の参加者）の発話内容に基づいて特徴的オブジェクトを選択してもよい。例えば、オブジェクト選択部１７は、音声データに基づいて、各オブジェクトの声の大きさを特定し、声の大きさが予め設定された閾値以上となるオブジェクトを、特徴的オブジェクトとして選択してもよい。声が大きいということは発話内容が強調されていることを意味し、その発話内容が重要である可能性が高くなるので、その発話を行った参加者を特徴的オブジェクトとして選択する。また、オブジェクト選択部１７は、音声データに基づいて、各オブジェクトの話す速さを特定し、その速さが予め設定された閾値以上となるオブジェクトを、特徴的オブジェクトとして選択してもよい。話す速さが速いほど、発話内容が重要である可能性が高くなるので、その発話を行った参加者を特徴的オブジェクトとして選択する。また、オブジェクト選択部１７は、音声データに基づいて、各オブジェクトの声の抑揚（イントネーション）を特定し、その抑揚を基準にして特徴的オブジェクトを選択してもよい。

なお、上記の実施例１〜５を組み合わせてもよい。すなわち、フレーム選択部１６は、連続動作回数、継続動作時間、連続発話回数、継続発話時間又はオブジェクトの動作量のいずれかに基づいて特徴的フレームを選択し、オブジェクト選択部１７は、連続動作回数、継続動作時間、連続発話回数又は継続発話時間のいずれかに基づいて特徴的オブジェクトを選択してもよい。

（実施例６）
次に、実施例６について説明する。実施例６では、オブジェクト選択部１７は、ユーザによって指定された時間帯に取得されたコンテンツ情報及びコンテクスト情報（メタデータ）を対象にして、コンテンツ情報と共起関係にあるコンテクスト情報（キーコンテクスト情報）を選択する。ここでは、２項間で共起判定を行う既存のアルゴリズム（集合の類似度を求めるアルゴリズム）を拡張し、３項間以上のものに適用する。図６（ａ）に、共起関係を示す係数の一例を示す。図６（ａ）中、Ａはコンテンツ情報であり、Ｂ，Ｃ，Ｄはコンテクスト情報である。│Ａ│は、コンテンツ情報Ａの出現回数であり、│Ｂ│，│Ｃ│，│Ｄ│は、それぞれ、コンテクスト情報Ｂ，Ｃ，Ｄの出現回数である。また、図６（ａ）には、コンテンツ情報Ａ及びコンテクスト情報Ｂ〜Ｄのそれぞれの組み合わせの出現回数の一例が示されている。オブジェクト選択部１７は、一例として、以下の式（１）に示す閾値付きＳｉｍｐｓｏｎ係数を用いることで、コンテンツ情報及びコンテクスト情報の共起強度を求め、その共起強度に基づいてキーコンテクスト情報を選択する。
なお、上記の式は、「Ｗｅｂ上の情報からの人間関係ネットワークの抽出．ＴｒａｎｓａｃｔｉｏｎｓｏｆｔｈｅＪａｐａｎｅｓｅＳｏｃｉｅｔｙｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：Ａｌ，Ｖｏｌ．２０，ｐｐ．４６−５６，２００５−１１−０１．（松尾豊、友部博教、橋田浩一、中島秀之、石塚満）」からの引用に基づくものである。

図６（ｂ）に、共起強度を示す係数の一例を示す。図６（ｂ）には、比較例として、Ｓｉｍｐｓｏｎ係数を用いて求められた共起強度の係数と、Ｊａｃｃａｒｄ係数を用いて求められた共起強度の係数と、が示されている。Ｓｉｐｍｓｏｎ係数は、Ｘ，Ｙの相関関係に比例する。Ｘ≫Ｙ又はＸ≪Ｙの場合、関係性がさほど強くないキーワード同士であっても高い値が得られるため、閾値を設けて値を制限することがある。その閾値を用いる係数が、式（１）の閾値付きＳｉｍｐｓｏｎ係数である。Ｊａｃｃａｒｄ係数は、Ｘ，Ｙのいずれかが出現した回数のうち、Ｘ，Ｙが同時に出現した回数を示す。

例えば、閾値付きＳｉｍｐｓｏｎ係数を用いた場合、図６（ｂ）に示すように、コンテンツ情報Ａに対して共起強度が最も高くなるコンテクスト情報は、コンテクスト情報Ｄである。この場合、オブジェクト選択部１７は、コンテクスト情報Ｄをキーコンテクスト情報として選択する。

図７に、キーコンテクスト情報の一例を示す。例えば、ユーザが図示しない操作部を用いることで、任意の時間帯ΔＴを指定したとする。この場合、オブジェクト選択部１７は、時間帯ΔＴ内に取得されたコンテンツ情報及びコンテクスト情報を対象とし、コンテンツ情報及びコンテクスト情報の共起強度の係数を求める。一例として、時間帯ΔＴ内にプロジェクターによって映された画像データ（スライドや文書等のデータ）をコンテンツ情報とし、オブジェクト選択部１７は、当該コンテンツ情報との共起強度が高いキーコンテクスト情報を選択する。図７に示す例では、ホワイトボードへの書き込みを示すデータ、付箋の張り付けを示すデータ、ポインタの軌跡を示すデータ、及び、会議の参加者の動作を示すデータが、キーコンテクスト情報に該当し、オブジェクト選択部１７は、これらのデータを選択する。また、フレーム選択部１６は、動画像データに含まれる複数のフレームのうち時間帯ΔＴ内のフレームを特徴的フレームとして選択する。この特徴的フレームには、プロジェクターによって映された画像（スライドや文書等）、及び、各種のコンテクスト情報が表されている。なお、ユーザが図示しない操作部を用いることで、時間帯ΔＴ内の任意のフレームを特徴的フレームとして選択してもよい。

実施例６では、テキスト情報作成部１８は、キーコンテクスト情報についてのテキスト情報を作成する。例えば、テキスト情報作成部１８は、キーコンテクスト情報に表されたオブジェクトの動作内容や発話内容を示すテキスト情報を作成する。そして、表示制御部１９は、特徴的フレームの画像（代表画像）を表示部２０に表示させ、キーコンテクスト情報についてのテキスト情報を代表画像上に表示する。

以上のように、コンテンツ情報と共起関係にあるコンテクスト情報を選択し、当該コンテクスト情報についてのテキスト情報を作成して表示することで、互いに関連性のある情報が表示されることになる。従って、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握される。

（具体例）
次に、図８を参照して具体例について説明する。図８は、特徴的フレームの画像を示す図である。図８に示す画像２００は、図２に示す会議室１００内の様子を表す画像であり、特徴的フレームの画像としてフレーム選択部１６によって選択された代表画像である。例えば、参加者Ａがホワイトボード１２０に文字や図やグラフ等を記入しており、参加者Ｂ，Ｃ，Ｄは着席している。図８において破線で囲まれた領域は、例えば赤外線カメラによって検出された関心領域（オブジェクト）である。以下では、実施例１〜６のそれぞれが適用された場合の処理について説明する。

（実施例１，２）
実施例１又は実施例２が適用された場合について説明する。まず、実施例１が適用された場合について説明する。例えば、参加者Ａがホワイトボード１２０に文字や図やグラフ等を記入している場合、フレーム選択部１６は、赤外線カメラの検出結果に基づいて、参加者Ａがホワイトボード１２０に文字等を連続して記入している回数をカウントする。そして、参加者Ａの連続動作回数が動作回数閾値以上となった場合、フレーム選択部１６は、連続動作回数が動作回数閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Ａの動作回数が比較的多い場面の画像が、代表画像として選択されることになる。

また、実施例２が適用された場合、フレーム選択部１６は、参加者Ａがホワイトボード１２０に文字等を継続して記入している時間を計測する。そして、参加者Ａの継続動作時間が動作時間閾値以上となった場合、フレーム選択部１６は、継続動作時間が動作時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Ａの動作量が比較的多い場面の画像が、代表画像として選択されることになる。

そして、オブジェクト選択部１７は、オブジェクトの連続動作回数又は継続動作時間に基づいて、参加者Ａを特徴的オブジェクトとして選択する。テキスト情報作成部１８は、参加者Ａの記入動作を示すテキスト情報（「サッサッサッ」という文字列）を作成する。そして、表示制御部１９は、特徴的フレームの画像２００を表示部２０に表示させ、更に、画像２００において参加者Ａの記入動作が検出された領域に、テキスト情報（「サッサッサッ」という文字列）を表示する。これにより、実施例１では、動作回数が比較的多い参加者Ａの動作内容を示すテキスト情報が表示され、実施例２では、動作量が比較的多い参加者Ａの動作内容を示すテキスト情報が表示されることになる。なお、このテキスト情報は参加者の動作を示しており、発話内容を示しているものではないため、表示制御部１９は、吹き出しを配置せずにテキスト情報（「サッサッサッ」という文字列）を表示してもよい。

また、テキスト情報作成部１８は、対象期間内における参加者Ａの発話内容を示すテキスト情報を作成する。表示制御部１９は、画像２００においてオブジェクトが表された領域以外の領域であって参加者Ａの近傍の領域に吹き出しを配置し、当該吹き出し内に当該テキスト情報を表示させる。このとき、表示制御部１９は、吹き出しが配置される領域の大きさに基づいて吹き出しの大きさを決定し、その吹き出しの大きさに応じて、テキスト情報に含まれる文字の大きさを変更してもよい。また、テキスト情報作成部１８は、参加者Ａの声の抑揚に基づいて、強調されている単語を特定し、当該単語に色を付けたり、当該単語を大文字や太文字で表したりしてもよい。図８に示す例では、「５倍増」や「なんと」という文字列は、強調されている単語であるため、例えば、赤色等の色のついた文字、大文字又は太文字等で表されている。また、テキスト情報作成部１８は、参加者Ａの発話内容を示すテキスト情報の要約を作成し、表示制御部１９は、その要約を画像２００上に表示してもよい。例えば、テキスト情報に含まれる文字数によっては、吹き出し内に、すべての文字が含まれない場合がある。この場合、テキスト情報作成部１８は、テキスト情報の要約を作成してもよい。

また、テキスト情報作成部１８は、対象期間内における各オブジェクトの動作内容や発話内容を示すテキスト情報を作成し、表示制御部１９は、各テキスト情報を各オブジェクトに関連付けて画像２００上に表示する。例えば、テキスト情報作成部１８は、参加者Ｂ，Ｃ，Ｄのそれぞれの音声データに基づいて、対象期間内における参加者Ｂ，Ｃ，Ｄのそれぞれの発話内容を示すテキスト情報を作成する。表示制御部１９は、画像２００に表された参加者Ｂ，Ｃ，Ｄのそれぞれの近傍の領域に吹き出しを配置し、各吹き出し内に各テキスト情報を表示する。この場合も、テキスト情報作成部１８は、参加者Ｂ，Ｃ，Ｄのそれぞれの声の抑揚に基づいて、強調されている単語に色を付けたり、当該単語を大文字や太文字で表したりしてもよい。図８に示す例では、参加者Ｂの発話内容において「すごい」という文字列が、大文字で表されている。また、テキスト情報作成部１８は、対象期間内において発話が無い参加者Ｃに関して、その状況を説明するためのテキスト情報（例えば、「シーン」という文字列）を作成してもよい。また、対象期間内において資料１３０が動かされた場合、テキスト情報作成部１８は、対象期間内における資料１３０の動きを示すテキスト情報（例えば、「パサッ」という文字列）を作成する。表示制御部１９は、画像２００において資料１３０の近傍の領域に吹き出しを配置し、当該吹き出し内にテキスト情報を表示する。

また、テキスト情報作成部１８は、動画像データについての背景情報（日時や場所を示す情報）を取得し、当該背景情報を示すテキスト情報を作成する。そして、表示制御部１９は、画像２００上に当該テキスト情報を表示させる。図８に示す例では、「月曜日の朝、本社会議室では・・・」というテキスト情報が作成されて表示されている。

以上のように、動作回数や動作量が比較的多い参加者が行動している様子（具体的には、参加者Ａがホワイトボード１２０に情報を記入している様子）を表す画像２００が、代表画像として表示される。これにより、重要な動作が発生した可能性があるときの会議中の様子が、画像２００に表される。

また、対象期間中における参加者Ａ〜Ｄのそれぞれの発話内容を示すテキスト情報や、他のオブジェクトの動作内容を示すテキスト情報を作成し、各テキスト情報を画像２００上に表示することで、参加者Ａがホワイトボード１２０に情報を記入しているときの参加者Ａ〜Ｄの発話内容や、他のオブジェクトの動きや音が、容易に把握されることになる。従って、画像２００を参照することで、参加者Ａがホワイトボード１２０に情報を記入しているときに発生した事象（参加者Ａ〜Ｄの発話、他のオブジェクトの動きや音）が容易に把握される。図８に示す例では、参加者Ａ〜Ｄの発話内容が画像２００に表されているので、参加者Ａ〜Ｄのそれぞれの発話内容の関連性等が容易に把握される。特に、発話数が多い参加者Ａ，Ｂを見たときに、参加者Ａの発話内容と参加者Ｂの発話内容との関連性が容易に把握される。従って、会議に参加していない人であっても、画像２００を参照することで、各参加者間のやり取りや発話内容や発生したイベント等を容易に把握し得る。

画像２００には各オブジェクトに関連するテキスト情報が表示されているため、画像２００は、例えば会議の議事録として用いられ得る。従って、会議の議事録を別途作成しなくて済む。

（実施例３，４）
次に、実施例３又は実施例４が適用された場合について説明する。まず、実施例３が適用された場合について説明する。例えば、参加者Ａが発話している場合、フレーム選択部１６は、音声データを利用することで、参加者Ａが連続して発話している回数をカウントする。そして、参加者Ａの連続発話回数が発話回数閾値以上になった場合、フレーム選択部１６は、参加者Ａの連続発話回数が発話回数閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Ａの発話回数が比較的多い場面の画像が、代表画像として選択されることになる。

また、実施例４が適用された場合、フレーム選択部１６は、参加者Ａが継続して発話している時間を計測する。そして、参加者Ａの継続発話時間が発話時間閾値以上となった場合、フレーム選択部１６は、継続発話時間が発話時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Ａの発話量が比較的多い場面の画像が、代表画像として選択されることになる。

そして、オブジェクト選択部１７は、オブジェクトの連続発話回数又は継続発話時間に基づいて、参加者Ａを特徴的オブジェクトとして選択する。テキスト情報作成部１８は、参加者Ａの発話内容を示すテキスト情報を作成する。そして、表示制御部１９は、特徴的フレームの画像２００を表示部２０に表示させ、更に、画像２００においてオブジェクトが表された領域以外の領域であって参加者Ａの近傍の領域に吹き出しを配置し、当該吹き出し内に当該テキスト情報を表示する。これにより、実施例３では、発話回数が比較的多い参加者Ａの発話内容を示すテキスト情報が表示され、実施例４では、発話量が比較的多い参加者Ａの発話内容を示すテキスト情報が表示されることになる。

また、テキスト情報作成部１８は、対象期間内における参加者Ａの動作内容を示すテキスト情報（「サッサッサッ」という文字列）を作成し、表示制御部１９は、画像２００において参加者Ａの記入動作が検出された領域に、当該テキスト情報を表示する。また、テキスト情報作成部１８は、対象期間内における他の参加者Ｂ〜Ｄのそれぞれの発話内容を示すテキスト情報、及び、動かされた資料１３０の動きの内容を示すテキスト情報を作成し、表示制御部１９は、各テキスト情報を画像２００上に表示する。

以上のように、発話回数や発話量が比較的多い参加者Ａが発話している様子を表す画像２００が、代表画像として表示される。これにより、重要な発話が行われている可能性があるときの会議中の様子が、画像２００に表される。

また、対象期間中における参加者Ｂ〜Ｄのそれぞれの発話内容を示すテキスト情報や、他のオブジェクトの動作内容を示すテキスト情報を作成し、各テキスト情報を画像２００上に表示することで、参加者Ａが発話しているときの参加者Ｂ〜Ｄの発話内容や、他のオブジェクトの動きや音が、容易に把握されることになる。従って、画像２００を参照することで、参加者Ａが発話しているときに発生した事象（参加者Ｂ〜Ｄの発話、他のオブジェクトの動きや音）が容易に把握される。実施例１，２を適用した場合と同様に、参加者Ａ〜Ｄのそれぞれの発話内容の関連性等が容易に把握される。

（実施例５）
次に、実施例５が適用された場合について説明する。この場合、フレーム選択部１６は、赤外線カメラの検出結果を利用することで、オブジェクトの動作量が動作量閾値以下となる時間の長さを計測し、その時間の長さが時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。テキスト情報作成部１８は、対象期間内における参加者Ａ〜Ｄのそれぞれの発話内容を示すテキスト情報や、他のオブジェクトの動きや音を示すテキスト情報を作成する。そして、表示制御部１９は、実施例１〜４と同様に、特徴テクフレームの画像２００を表示部２０に表示させ、各テキスト情報を画像２００上に表示する。実施例５によっても、上記の実施例１〜４と同様の効果を奏する。

（実施例６）
次に、実施例６について説明する。この場合、フレーム選択部１６は、例えばユーザによって指定された時間帯に含まれるフレームを、特徴的フレームとして選択する。そして、オブジェクト選択部１７は、当該時間帯に取得されたコンテンツ情報とコンテクスト情報とを対象とし、コンテンツ情報と共起関係にあるコンテクスト情報、及び、互いに共起関係にある複数のコンテクスト情報を選択する。例えば、オブジェクト選択部１７は、参加者Ａ〜Ｄのそれぞれの発話内容や動作内容を対象とし、互いの発話内容や動作内容の共起強度の係数を求め、共起強度の係数が閾値以上となる複数の発話内容や動作内容を選択する。一例として、参加者Ａの発話内容と参加者Ｂの発話内容との共起強度の係数が閾値以上となった場合、オブジェクト選択部１７は、参加者Ａの発話内容と参加者Ｂの発話内容とを選択し、テキスト情報作成部１８は、参加者Ａの発話内容を示すテキスト情報と参加者Ｂの発話内容を示すテキスト情報とを作成する。そして、表示制御部１９は、特徴的フレームの画像２００を表示部２０に表示させ、参加者Ａ，Ｂの発話内容を示すテキスト情報を画像２００上に表示する。

以上のように、互いに共起関係にある参加者Ａ，Ｂの発話内容を示すテキスト情報を画像２００上に表示することで、互いに関連性のある発話内容が容易に把握される。

上述した実施形態では、会議室内におけるオブジェクト（人、物）を対象にしている場合について説明したが、本実施形態が適用される場面は、会議室内に限られない。本実施形態は、例えば、１人の人が演説している場面や、事故等が発生した場面に適用されてもよい。例えば、情報処理装置１０は、演説内容が収録された動画像データ及び音声データを対象として特徴的フレーム及び特徴的オブジェクトを選択し、特徴的フレームの画像にテキスト情報を表示してもよい。これにより、例えば、演説内容において強調されている部分や、演説中に発生した事象等が、代表画像に表されることになる。従って、代表画像を参照することで、演説内容の要旨等が容易に把握され得る。また、事故の場面が収録された動画像データ及び音声データを対象にして特徴的フレームの画像にテキスト情報を表示した場合、例えば、事故発生時の様子等が代表画像に表されることになる。また、情報処理装置１０は、監視カメラによって撮影された動画像データ及び音声データを対象にして、特徴的フレームの画像にテキスト情報を表示してもよい。これにより、例えば、監視カメラの撮影エリア内で発生したイベントの様子が、代表画像に表されることになる。従って、代表画像を参照することで、監視カメラで撮影された動画像データを再生しなくても、イベント発生時の様子等が容易に把握され得る。

なお、情報処理装置１０は、一例としてハードウェア資源とソフトウェアとの協働により実現される。具体的には、情報処理装置１０は、図示しないＣＰＵ等のプロセッサを備えている。当該プロセッサが、図示しない記憶装置に記憶されたプログラムを読み出して実行することにより、データ取得部１１、データ抽出部１２、データ解析部１４、画像解析部１５、フレーム選択部１６、オブジェクト選択部１７、テキスト情報作成部１８及び表示制御部１９のそれぞれの機能が実現される。上記プログラムは、ＣＤやＤＶＤ等の記憶媒体を経由して、又は、ネットワーク等の通信手段を経由して、記憶装置に記憶される。

１０情報処理装置、１１データ取得部、１２データ抽出部、１３データ記憶部、１４データ解析部、１５画像解析部、１６フレーム選択部、１７オブジェクト選択部、１８テキスト情報作成部、１９表示制御部、２０表示部。

Claims

複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記フレーム選択手段は、前記１又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記フレーム選択手段は、前記１又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記フレーム選択手段は、前記１又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
ことを特徴とする情報処理装置。
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトの動き、又は、前記１又は前記複数のオブジェクトからの音に基づき、前記特徴的オブジェクトを選択する、
ことを特徴とする請求項１から請求項３のいずれか一項に記載の情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
前記テキスト情報作成手段は、前記発話の内容を示す前記テキスト情報を作成する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのそれぞれの声の大きさ又は話す速さに基づき、前記特徴的オブジェクトを選択し、
前記テキスト情報作成手段は、前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作及び前記複数のオブジェクトのそれぞれからの音の中から、互いに関連する複数のオブジェクトのそれぞれの動作及び音を、特徴的オブジェクトの動作及び音として選択し、
前記テキスト情報作成手段は、各特徴的オブジェクトの動作又は音を示す前記テキスト情報を作成する、
ことを特徴とする情報処理装置。
前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音の中から、共起関係にある複数のオブジェクトのそれぞれの動作又は音を、特徴的オブジェクトの動作又は音として選択する、
ことを特徴とする請求項１０に記載の情報処理装置。
前記オブジェクト選択手段は、予め設定された時間帯における前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音を対象として、前記特徴的オブジェクトの動作又は音を選択する、
ことを特徴とする請求項１０又は請求項１１に記載の情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトの動作を前記特徴的オブジェクトの動作として選択し、動作回数が前記動作回数閾値以上となる動作が行われている時間帯における他のオブジェクトの動作又は音を選択し、
前記テキスト情報作成手段は、前記特徴的オブジェクトの動作を示すテキスト情報を作成し、前記他のオブジェクトの動作又は音を示すテキスト情報を作成し、
前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された発話時間閾値以上となるオブジェクトの発話を前記特徴的オブジェクトの発言として選択し、時間の長さが前記発話時間閾値以上となる発話が行われている時間帯における他のオブジェクトの動作又は発言を選択し、
前記テキスト情報作成手段は、前記特徴的オブジェクトの発言内容を示すテキスト情報を作成し、前記他のオブジェクトの動作又は発言内容を示すテキスト情報を作成し、
前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記表示制御手段は、前記特徴的フレームの画像において前記特徴的オブジェクトが表された領域以外の領域に、前記テキスト情報を前記特徴的オブジェクトに関連付けて表示する、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記表示制御手段は、前記特徴的オブジェクトの種類に応じて前記テキスト情報の表示形態を変える、
ことを特徴とする情報処理装置。
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
を有し、
前記テキスト情報作成手段は、前記テキスト情報の要約を作成し、
前記表示制御手段は、前記特徴的フレームの画像に前記要約を表示する、
ことを特徴とする情報処理装置。
コンピュータを、
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
として機能させ、
前記フレーム選択手段は、前記１又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
ことを特徴とするプログラム。
コンピュータを、
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
として機能させ、
前記フレーム選択手段は、前記１又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
ことを特徴とするプログラム。
コンピュータを、
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
として機能させ、
前記フレーム選択手段は、前記１又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
ことを特徴とするプログラム。
コンピュータを、
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
として機能させ、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、
ことを特徴とするプログラム。
コンピュータを、
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
として機能させ、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、
ことを特徴とするプログラム。
コンピュータを、
複数のフレームで構成され１又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
前記１又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
として機能させ、
前記オブジェクト選択手段は、前記１又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、
ことを特徴とするプログラム。