JP6176041B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP6176041B2
JP6176041B2 JP2013207739A JP2013207739A JP6176041B2 JP 6176041 B2 JP6176041 B2 JP 6176041B2 JP 2013207739 A JP2013207739 A JP 2013207739A JP 2013207739 A JP2013207739 A JP 2013207739A JP 6176041 B2 JP6176041 B2 JP 6176041B2
Authority
JP
Japan
Prior art keywords
characteristic
text information
frame
objects
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013207739A
Other languages
English (en)
Other versions
JP2015073198A (ja
Inventor
良子 小堀田
良子 小堀田
布施 透
透 布施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2013207739A priority Critical patent/JP6176041B2/ja
Priority to US14/259,988 priority patent/US9420204B2/en
Publication of JP2015073198A publication Critical patent/JP2015073198A/ja
Application granted granted Critical
Publication of JP6176041B2 publication Critical patent/JP6176041B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
人や物等のオブジェクトが表された画像に、テキスト情報を表示する技術がある。
例えば特許文献1には、電子コミックの吹き出し領域の情報に基づき、各吹き出し内のセリフを示すテキスト情報を表示する装置であって、オリジナルの言語のセリフ、及び、オリジナルの言語のセリフから任意の言語に変換されたセリフの文字列を吹き出し領域に配置する装置が開示されている。
特許文献2には、画像内の人物の顔の領域を認識し、当該顔の領域における基準位置を検出し、テキスト形式のコメントを入力するコメント入力領域を、当該基準位置に基づいて顔の領域に対応付けて配置する装置が開示されている。
特許文献3には、画面上におけるオブジェクトの配置位置を検出し、当該配置位置に応じて、オブジェクトに含まれる実際の表示オブジェクトデータを選択する装置が開示されている。
特許文献4には、表示部の画面サイズ情報に従って、文字サイズを維持したままテキスト情報が吹き出しに収まるか判断し、収まらないと判断した場合は、レイアウト変更可能であるか否かを判断し、レイアウト変更可能であれば、表示指定のあった画像領域に対応する吹き出しの話者を起点に、横置き用の吹き出しを描画する装置が開示されている。
特許文献5には、吹き出しのセリフの表示開始/終了と、当該吹き出しのセリフの読み上げの開始/終了と、を同期する装置が開示されている。
特開2012−133659号公報 特開2007−4677号公報 特開2003−123084号公報 特開2012−133660号公報 特開2012−133662号公報
ところで、会議等では、複数人が、デジタルデータに書き込みを行ったり、付箋を活用して模造紙等を編集したり、ホワイトボードに情報を記入したりする場合がある。このような情報(コンテンツ)の編集を複数人が非同期で行う場合、別々の時間に各人によって行われた作業の結果を把握することは、時間を要し、作業の差分情報を正確に把握することは困難である。例えば、ある人が最後に見たコンテンツとその後に他の人が行った作業の結果との差分を把握することは、時間を要し、差分情報の把握が困難となる。作業の差分情報を視覚的に表示することも考えられるが、そのような方法では、どのような背景で情報が追加されたのかを把握することは困難である。例えば、会議を中座している間にホワイトボード等に記入された情報が編集された場合、編集されたときの状況を後から把握することは困難である。会議に途中から参加した場合も、同様の問題がある。編集された情報の背景を把握するために、情報の変更時の様子や変更履歴等を動画像で記録して表示することも考えられるが、情報量が多すぎるため、動画像を参照するのに時間を要し、また、情報の変化を見落とすおそれもある。
本発明の目的は、画像に表されたオブジェクトの動作や音の把握が容易な画像を提供することである。
請求項1に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記フレーム選択手段は、前記1又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とする情報処理装置である。
請求項に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記フレーム選択手段は、前記1又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とする情報処理装置である。
請求項に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記フレーム選択手段は、前記1又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とする情報処理装置である。
請求項に係る発明は、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトの動き、又は、前記1又は前記複数のオブジェクトからの音に基づき、前記特徴的オブジェクトを選択する、ことを特徴とする請求項1から請求項のいずれか一項に記載の情報処理装置である。
請求項に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。
請求項に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。
請求項に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。
請求項に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、前記発話の内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。
請求項に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのそれぞれの声の大きさ又は話す速さに基づき、前記特徴的オブジェクトを選択前記テキスト情報作成手段は、前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。
請求項1に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作及び前記複数のオブジェクトのそれぞれからの音の中から、互いに関連する複数のオブジェクトのそれぞれの動作及び音を、特徴的オブジェクトの動作及び音として選択し、前記テキスト情報作成手段は、各特徴的オブジェクトの動作又は音を示す前記テキスト情報を作成する、ことを特徴とする情報処理装置である。
請求項1に係る発明は、前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音の中から、共起関係にある複数のオブジェクトのそれぞれの動作又は音を、特徴的オブジェクトの動作又は音として選択する、ことを特徴とする請求項1に記載の情報処理装置である。
請求項1に係る発明は、前記オブジェクト選択手段は、予め設定された時間帯における前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音を対象として、前記特徴的オブジェクトの動作又は音を選択する、ことを特徴とする請求項1又は請求項1に記載の情報処理装置である。
請求項1に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトの動作を前記特徴的オブジェクトの動作として選択し、動作回数が前記動作回数閾値以上となる動作が行われている時間帯における他のオブジェクトの動作又は音を選択し、前記テキスト情報作成手段は、前記特徴的オブジェクトの動作を示すテキスト情報を作成し、前記他のオブジェクトの動作又は音を示すテキスト情報を作成し、前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、ことを特徴とする情報処理装置である。
請求項1に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された発話時間閾値以上となるオブジェクトの発話を前記特徴的オブジェクトの発言として選択し、時間の長さが前記発話時間閾値以上となる発話が行われている時間帯における他のオブジェクトの動作又は発言を選択し、前記テキスト情報作成手段は、前記特徴的オブジェクトの発言内容を示すテキスト情報を作成し、前記他のオブジェクトの動作又は発言内容を示すテキスト情報を作成し、前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、ことを特徴とする情報処理装置である。
請求項15に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記表示制御手段は、前記特徴的フレームの画像において前記特徴的オブジェクトが表された領域以外の領域に、前記テキスト情報を前記特徴的オブジェクトに関連付けて表示する、ことを特徴とする情報処理装置である。
請求項16に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記表示制御手段は、前記特徴的オブジェクトの種類に応じて前記テキスト情報の表示形態を変える、ことを特徴とする情報処理装置である。
請求項17に係る発明は、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、を有し、前記テキスト情報作成手段は、前記テキスト情報の要約を作成し、前記表示制御手段は、前記特徴的フレームの画像に前記要約を表示する、ことを特徴とする情報処理装置である。
請求項18に係る発明は、コンピュータ、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段として機能させ、前記フレーム選択手段は、前記1又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とするプログラムである。
請求項19に係る発明は、コンピュータを、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記フレーム選択手段は、前記1又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とするプログラムである。
請求項20に係る発明は、コンピュータを、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記フレーム選択手段は、前記1又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、ことを特徴とするプログラムである。
請求項21に係る発明は、コンピュータを、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、ことを特徴とするプログラムである。
請求項22に係る発明は、コンピュータを、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、ことを特徴とするプログラムである。
請求項23に係る発明は、コンピュータを、複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、として機能させ、前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、ことを特徴とするプログラムである。
請求項1,18に係る発明によると、本発明の構成を備えていない場合と比較して、オブジェクトの動作や音の把握が容易な画像が提供される。また、オブジェクトが動いている時間の長さに特徴があるフレームの画像が選択される。
請求項2,19に係る発明によると、オブジェクトの発話回数に特徴があるフレームの画像が選択される。
請求項3,20に係る発明によると、オブジェクトの動作量に特徴があるフレームの画像が選択される。
請求項に係る発明によると、動作や音に特徴があるオブジェクトが選択される。
請求項5,21に係る発明によると、動作回数に特徴があるオブジェクトが選択され、そのオブジェクトの動作の把握が容易となる。
請求項6,22に係る発明によると、動いている時間の長さに特徴があるオブジェクトが選択され、そのオブジェクトの動作の把握が容易となる。
請求項7,23に係る発明によると、発話回数に特徴があるオブジェクトが選択され、そのオブジェクトの発話内容の把握が容易となる。
請求項に係る発明によると、発話している時間の長さに特徴があるオブジェクトが選択され、そのオブジェクトの発話内容の把握が容易となる。
請求項に係る発明によると、声の大きさや話す速さに特徴があるオブジェクトが選択され、そのオブジェクトの発話内容の把握が容易となる。
請求項1,1に係る発明によると、複数のオブジェクト間における動作や音の関連性の把握が容易となる。
請求項1に係る発明によると、設定された時間帯における複数のオブジェクト間の動作や音の関連性の把握が容易となる。
請求項1に係る発明によると、動作回数に特徴があるオブジェクトの動作の把握が容易になるとともに、その動作が行われた時間帯における他のオブジェクトの動作や音の把握が容易となる。
請求項1に係る発明によると、発話している時間の長さに特徴があるオブジェクトの発話内容の把握が容易になるとともに、その発話が行われている時間帯における他のオブジェクトの動作や音の把握が容易となる。
請求項15に係る発明によると、特徴的オブジェクトとテキスト情報との把握が容易となる。
請求項16に係る発明によると、テキスト情報の直観的な区別が容易となる。
請求項17に係る発明によると、特徴的オブジェクトの動作や音が簡潔な文字列によって表される。
本発明の実施形態に係る情報処理装置の一例を示す図である。 会議室内の様子の一例を示す模式図である。 コンテクスト情報の一例を示す表である。 コンテクスト情報の一例を示す表である。 コンテンツ情報及びコンテクスト情報の一例を示す図である。 コンテンツ情報とコンテクスト情報との共起関係を説明するための表である。 コンテンツ情報及びコンテクスト情報の一例を示す図である。 会議室内の様子を示す画像の一例を示す模式図である。
図1に、本発明の実施形態に係る情報処理装置の一例を示す。本実施形態に係る情報処理装置10は、画像データに表されたオブジェクトの動作や音を示す情報をテキスト情報として、オブジェクトに関連付けるものである。ここで、オブジェクトは、人や物である。
以下では、一例として、会議室を対象場所とし、会議室内の人や物にテキスト情報を関連付けるものとする。例えば図2に示すように、会議室100内に複数の人(例えば、参加者A,B,C,D)が集まって会議を行っているものとする。会議室100内には、テーブル110やホワイトボード120等が設置されている。また、模造紙等が会議室100内に張り付けられていることもある。テーブル110上には、例えば、資料130やパーソナルコンピュータ140やプロジェクター等が置かれている。図2に示す例では、参加者A〜D、テーブル110、ホワイトボード120、資料130及びパーソナルコンピュータ140等が、オブジェクトの一例に該当する。ホワイトボード120や模造紙に対しては、一人の人が情報を書き込むこともあれば、複数人が情報を書き込むこともある。また、個々の人が情報を書き込むものとして、付箋やメモ用紙等がある。会議においては、例えば、参加者の発話、参加者の挙手、参加者によるホワイトボード120への書き込み、会議室100内での参加者の移動、プロジェクターによるホワイトボード120等への画像の映し、ホワイトボード120や模造紙等への付箋やメモ用紙等の張り付け、付箋やメモ用紙等の張り替え、プロジェクターの電源のON/OFF、プロジェクターによって映される画像の変更、ドアの開閉、及び、ホワイトボード120のスクロール等の、各種の動きや、それらの動きに伴う音が発生する。本実施形態では、情報処理装置10は、会議室100内の人及び物の動作や音を示す情報をテキスト情報として、人及び物に関連付ける。以下、情報処理装置10の具体的な構成を説明する。
情報処理装置10は、データ取得部11、データ抽出部12、データ記憶部13、データ解析部14、表示制御部19及び表示部20を含む。また、データ解析部14は、画像解析部15、フレーム選択部16、オブジェクト選択部17及びテキスト情報作成部18を含む。
データ取得部11は、コンテンツ情報とコンテクスト情報とを取得し、コンテンツ情報とコンテクスト情報とをデータ記憶部13に記憶させる。例えば、動画像データ(複数のフレームで構成される画像データ)、音声データ、及び、プロジェクターによってホワイトボード120等に映される画像データ(スライドや文書等のデータ)が、コンテンツ情報に該当する。一例として、図2に示す会議室100内を撮影装置によって撮影することで会議室100内を表す動画像データが生成され、データ取得部11は、その動画像データを取得する。また、録音装置によって会議室100内の音を録音することで音声データが生成され、データ取得部11は、その音声データを取得する。このとき、指向性のマイク等を利用することで、特定の方向にて発生した音を示す音声データが生成され、データ取得部11は、指向性のある音声データを取得する。例えば、指向性のマイクを利用することで、個々のオブジェクトから発生した音が検出され、個々のオブジェクトから発生した音を示す音声データが生成される。これにより、データ取得部11は、個々のオブジェクトから発生した音を示す音声データを取得する。動画像データには、会議室100内での人の動きや物の移動等が表されている。また、音声データには、会議室100内での人の発言内容や、会議室100内の物から発生した音が記録されている。また、データ取得部11は、プロジェクターによって映される画像データを、プロジェクターや当該プロジェクターに接続されたパーソナルコンピュータ等の機器から取得する。動画像データ、音声データ及び画像データ等のコンテンツ情報には、撮影や録音等が行われた日時を示す時間情報が含まれている。なお、コンテンツ情報には、当該コンテンツ情報を取得したデバイスを識別するためのデバイス識別情報と、そのデバイスの利用者を識別するためのユーザ識別情報と、が付帯されている。
コンテクスト情報は、各種デバイスによって取得又は検出された情報である。デバイスとしては、例えば、入力デバイス、動作検出デバイス及び各種センサー等が用いられる。各種デバイスを用いることにより、会議室100で発生した動きや音に関するコンテクスト情報を取得又は検出する。入力デバイスは、人によって情報が入力されるデバイスであり、一例として、キーボード、マウス及びデジタルペン等である。動作検出デバイスは、人や物の動きを検出するデバイスであり、一例として、Kinect(登録商標)等の赤外線カメラである。各種センサーとしては、例えば、マイクロスイッチ、加速度センサー及び距離計等が用いられる。コンテクスト情報には、各種デバイスによって取得又は検出された日時を示す時間情報が含まれている。なお、コンテクスト情報には、当該コンテクスト情報を取得又は検出したデバイスを識別するためのデバイス識別情報と、そのデバイスの利用者を識別するためのユーザ識別情報と、が付帯されている。
データ抽出部12は、コンテクスト情報からメタデータを抽出し、コンテクスト情報が取得又は検出された日時を示す時間情報をメタデータに関連付けて、メタデータをデータ記憶部13に記憶させる。
図3に、メタデータの一例を示す。例えば、ユーザがキーボード等の入力デバイスを用いてキー入力を行った場合、そのキー入力に対応するコメントやメモ等の情報が、コンテクスト情報に該当する。データ抽出部12は、そのコメントやメモ等の情報をメタデータとして抽出し、コメントやメモ等が入力された日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部13に記憶させる。また、データ抽出部12は、入力デバイスの利用者を識別するためのユーザ識別情報をメタデータに関連付けてもよい。
また、赤外線カメラが動作検出デバイスとして用いられている場合、例えば、会議室100内の人の位置、人の動き、物の位置及び物の動き等を示す情報が、コンテクスト情報に該当する。一例として、人の移動、挙手、会議室100内に設置されたホワイトボード120への書き込み、付箋の貼り付け、付箋の入れ替え、及び、会議室100内での模造紙の張り替え(レイアウト変更)等が、人の動きとして赤外線カメラによって検出される。また、例えば、会議室100のドアの開閉、書類の移動、及び、パーソナルコンピュータの移動等が、物の動きとして赤外線カメラによって検出される。データ抽出部12は、人の位置、人の動き、物の位置及び物の動き等を示す情報をメタデータとして抽出し、それらの情報が赤外線カメラによって検出された日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部13に記憶させる。
また、ユーザがデジタルペンを用いて情報を入力した場合、例えば、付箋やメモ帳等への書き込み内容や修正内容等を示す情報が、コンテクスト情報に該当する。データ抽出部12は、デジタルペンによって入力された情報をメタデータとして抽出し、その情報がデジタルペンによって入力された日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部13に記憶させる。また、データ抽出部12は、デジタルペンの利用者を識別するためのユーザ識別情報をメタデータに関連付けてもよい。
また、各種センサーによって、会議室100内に設置されたプロジェクターの電源のON/OFFが検出された場合、電源のON/OFFを示す情報が、コンテクスト情報に該当する。データ抽出部12は、電源のON/OFFを示す情報をメタデータとして抽出し、電源がON/OFFされた日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部13に記憶させる。また、会議室100内に設置されたホワイトボード120がスクロールされ、そのスクロールがセンサーによって検出された場合、そのスクロールを示す情報が、コンテクスト情報に該当する。データ抽出部12は、そのスクロールを示す情報をメタデータとして抽出し、スクロールが行われた日時を示す時間情報を当該メタデータに関連付けて、当該メタデータをデータ記憶部13に記憶させる。
図4に、抽出されたメタデータの一例を示す。例えば、コンテクスト情報が取得又は検出された時刻と、当該コンテクスト情報を取得又は検出したデバイスの名称(デバイス識別情報)と、当該デバイスの利用者名(ユーザ識別情報)と、メタデータとが関連付けられている。一例として、1番目のメタデータは、時刻「14:03:50」にプロジェクターの電源がONされたことを示している。また、2番目のメタデータは、時刻「14:04:02」に参加者Aによってデジタルペンが使用されたことを示している。このメタデータは、デジタルペンによる筆記の軌跡(座標情報)を示している。また、キーボードによって情報が入力された場合、メタデータは、キーボードによって入力された情報(例えば、「議題1」や「夏季電力抑制案」等)を示す。
ここで、図5に、時系列に沿って取得されたコンテンツ情報及びコンテクスト情報の一例を示す。図5において、横軸は時間である。例えば、プロジェクターによってスライドや文書等の画像が映し出されており、時系列に沿って、複数の画像が切り換えられて映し出されている。また、会議室100内を表す動画像データ、及び、会議室100内で発生した音を示す音声データが記録されている。例えば、動画像データには、プロジェクターによって映し出された画像、ホワイトボード120及び会議の参加者A〜D等が表されている。データ取得部11は、スライドや文書等の画像データ、動画像データ及び音声データを、コンテンツ情報として取得し、当該コンテンツ情報をデータ記憶部13に記憶させる。また、ホワイトボード120への書き込み、付箋の張り付け、ポインタの軌跡、及び、会議の参加者A〜Dの動作等が、赤外線カメラ等の動作検出デバイスによって検出され、データ取得部11は、動作検出デバイスで検出されたデータを、コンテクスト情報として取得し、当該コンテクスト情報をデータ記憶部13に記憶させる。また、ホワイトボード120(WB)の動作、プロジェクターの電源のON/OFF、及び、無線LANの電源のON/OFF等が、各種センサーによって検出され、データ取得部11は、各種センサーによって検出されたデータを、コンテクスト情報として取得し、当該コンテクスト情報をデータ記憶部13に記憶させる。
図1に戻って、画像解析部15、フレーム選択部16、オブジェクト選択部17、テキスト情報作成部18、表示制御部19及び表示部20について説明する。
画像解析部15は、例えば赤外線カメラの検出結果に基づいて、動画像データに表された関心領域(ROI:Region of Interest)を特定する。例えば、画像解析部15は、動画像データに表されたオブジェクト(人、物)を関心領域として特定する。また、画像解析部15は、動画像データにおいて動いている領域を関心領域として特定する。また、画像解析部15は、公知技術を利用することで、動画像データに表された各オブジェクトを識別し、各オブジェクトの種類を特定する。また、画像解析部15は、指向性のある音声データと動画像データとに基づいて、動画像データに表された各オブジェクトと、各オブジェクトからの音を示す各音声データと、を関連付ける。
フレーム選択部16は、複数のフレームで構成された動画像データから、特徴的フレームを選択する。この特徴的フレームは、動画像データの代表画像に相当する。例えば、フレーム選択部16は、動画像データに表されたオブジェクト(人、物)の動作や、オブジェクトから発生した音に基づき、複数のフレームから特徴的フレームを選択する。
オブジェクト選択部17は、動画像データに表された1又は複数のオブジェクトから、1又は複数の特徴的オブジェクトを選択する。特徴的オブジェクトに対して、テキスト情報が関連付けられることになる。例えば、オブジェクト選択部17は、動画像データに表されたオブジェクト(人、物)の動作や、オブジェクトから発生した音に基づき、1又は複数のオブジェクトから、1又は複数の特徴的オブジェクトを選択する。また、オブジェクト選択部17は、特徴的オブジェクトの動作や音に関連する別のオブジェクトの動作や音を、別の特徴的オブジェクトの動作や音として選択してもよい。また、オブジェクト選択部17は、コンテンツ情報に関連するコンテクスト情報を選択してもよい。例えば、オブジェクト選択部17は、特徴的オブジェクトの動作や音を示すコンテンツ情報に関連するコンテクスト情報を選択する。具体的には、オブジェクト選択部17は、コンテンツ情報と共起関係にあるコンテクスト情報を選択する。
テキスト情報作成部18は、コンテンツ情報及びコンテクスト情報を利用することで、特徴的オブジェクトの動作及び特徴的オブジェクトから発生した音のうち少なくとも一方を示すテキスト情報を作成し、特徴的オブジェクトにテキスト情報を関連付ける。テキスト情報作成部18は、テキスト情報の要約を作成してもよいし、テキスト情報に含まれる特定の単語や文字列を強調してもよい。例えば、テキスト情報作成部18は、音声データ中に繰り返し出現する単語又は文字列や、抑揚のある単語又は文字列等を、強調してもよい。
例えば、テキスト情報作成部18は、音声データに基づいて、人の発話内容を示すテキスト情報を作成する。また、テキスト情報作成部18は、入力デバイスによって入力された情報を示すテキスト情報を作成する。また、テキスト情報作成部18は、音声データに基づいて、携帯電話やスマートフォン等の携帯端末装置の着信音等の直接音や、ドアの開閉音等の間接音や、その他擬音等、を示すテキスト情報を作成してもよい。また、テキスト情報作成部18は、音声データ、画像解析部15の解析結果又は赤外線カメラの検出結果に基づいて、会議の状況を表すテキスト情報を作成してもよい。また、テキスト情報作成部18は、会議が行われた日付や場所等を示す背景情報を取得し、当該背景情報に関するテキスト情報を作成してもよい。背景情報は、例えば入力デバイスから入力された情報である。
特徴的オブジェクトから発生した音を示すテキスト情報を作成する場合、テキスト情報作成部18は、指向性のある音声データに基づいて、特徴的オブジェクトからの音を示すテキスト情報を作成する。音声データは指向性を有し、各音声データと各オブジェクトとが関連付けられているため、テキスト情報作成部18は、特徴的オブジェクトに関連付けられた音声データに基づいて、特徴的オブジェクトからの音を示すテキスト情報を作成する。具体例を挙げて説明すると、会議の参加者が発話し、当該発話内容が音声データとして記録された場合、テキスト情報作成部18は、当該音声データに基づいて当該発話内容を示すテキスト情報を作成し、発話した参加者に当該テキスト情報を関連付ける。また、テキスト情報作成部18は、閾値以上の音量の音が音声データに含まれていない場合、その状況を示すテキスト情報(例えば、「シーン」等の文字列)を作成してもよい。
また、オブジェクトの動作内容を識別する識別情報と、その動作内容を文字列で表すテキスト情報(例えば、動作内容を象徴的に表現する文字列)と、を予め関連付けておき、テキスト情報作成部18は、その関連付けに基づいて、動画像データに表された特徴的オブジェクトの動作を示すテキスト情報を作成する。なお、動作内容を示す識別情報とテキスト情報との関連付けを示す情報は、図示しない記憶部に予め記憶されている。テキスト情報作成部18は、特徴的オブジェクトの動作を示すテキスト情報を、当該特徴的オブジェクトに関連付ける。具体例を挙げて説明すると、人がホワイトボードに文字や図等を記入するという動作は、例えば「サッサッサッ」という音で表現されることがあるので、当該動作を示す識別情報とテキスト情報(「サッサッサッ」という文字列)とを関連付けておき、その関連付けを示す情報を、図示しない記憶部に予め記憶させておく。そして、赤外線カメラや画像解析部15によって、文字や図等を記入する動作が検出された場合、テキスト情報作成部18は、当該動作を示すテキスト情報として「サッサッサッ」という文字列からなるテキスト情報を作成する。また、オブジェクトとしての紙や書類が机に置かれるという動作は、例えば「パサッ」という音で表現されることがあるので、当該動作を示す識別情報とテキスト情報(「パサッ」という文字列)とを関連付けておき、その関連付けを示す情報を、図示しない記憶部に予め記憶させておく。そして、赤外線カメラや画像解析部15によって、紙や書類が机に置かれる動作が検出された場合、テキスト情報作成部18は、当該動作を示すテキスト情報として「パサッ」という文字列からなるテキスト情報を作成する。また、オブジェクトとしてのドアが閉められるという動作は、例えば「バタン」という音で表現されることがあるので、当該動作を示す識別情報とテキスト情報(「バタン」という文字列)とを関連付けておき、その関連付けを示す情報を、図示しない記憶部に予め記憶させておく。そして、赤外線カメラや画像解析部15によって、ドアが閉められたことが検出された場合、テキスト情報作成部18は、その動きを示すテキスト情報として「バタン」という文字列からなるテキスト情報を作成する。
表示制御部19は、特徴的フレームの画像を表示部20に表示させるとともに、特徴的フレームの画像に表された特徴的オブジェクトについてのテキスト情報を、当該特徴的オブジェクトに関連付けて画像上に表示する。例えば、表示制御部19は、特徴的フレームの画像においてオブジェクトが表された領域以外の領域であって特徴的オブジェクトの近傍の領域に吹き出しを配置し、当該吹き出し内に、当該特徴的オブジェクトに関連付けられたテキスト情報を表示する。このとき、表示制御部19は、吹き出しが表示される領域の広さに応じて、吹き出しの大きさや形状や数を変えてもよいし、テキスト情報に含まれる文字列の大きさを変えてもよい。また、表示制御部19は、特徴的オブジェクトの種類や音の種類に応じてテキスト情報の表示態様を変えてもよい。例えば、表示制御部19は、人の発話内容を示すテキスト情報と物から発生した音を示すテキスト情報とで、吹き出しの形状を変える等して表示態様を変えてもよい。また、表示制御部19は、物から発生した音を示すテキスト情報や、人や物の動作を示すテキスト情報については、吹き出しを配置せずに、当該テキスト情報を画像上に表示してもよい。また、表示制御部19は、直接音と間接音とで、テキスト情報の表示対象を変えてもよい。また、表示制御部19は、表示部20の画面の大きさに応じて、テキスト情報に含まれる文字数を制限したり、文字の大きさを調整したりしてもよい。
次に、フレーム選択部16、オブジェクト選択部17、テキスト情報作成部18及び表示制御部19の具体的な処理(実施例1〜6)について説明する。
(実施例1)
まず、実施例1について説明する。実施例1では、フレーム選択部16は、動画像データに基づいて、オブジェクトが連続して動作する回数(連続動作回数)をカウントし、連続動作回数が予め設定された動作回数閾値以上となる期間(対象期間)を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。フレーム選択部16は、例えば赤外線カメラの検出結果や画像解析部15の解析結果に基づいて、各オブジェクトの動作の回数を検出する。なお、ここでいう「連続する動作」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の動作である。例えば、会議の参加者がホワイトボードに文字や図等を連続して記入している場合、フレーム選択部16は、その記入動作の回数が動作回数閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。複数の参加者が動いている場合、フレーム選択部16は、個々の参加者の動きを検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部16は、対象期間の最初のフレームを特徴的フレームとして選択してもよいし、対象期間の最後の時間のフレームを特徴的フレームとして選択してもよいし、対象期間の中間の時間のフレームを特徴的フレームとして選択してもよいし、対象期間中の任意の時点のフレームを特徴的フレームとして選択してもよい。例えば、ユーザが図示しない操作部を用いることで、対象期間中の任意の時点のフレームを特徴的フレームとして選択してもよい。連続動作回数が動作回数閾値以上になるということは、会議において活発な議論が行われている可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部16は、参加者の動作回数に基づいて特徴的フレームを選択する。
この場合、オブジェクト選択部17は、対象期間中の連続動作回数が動作回数閾値以上となるオブジェクト(会議の参加者)を、特徴的オブジェクトとして選択する。連続動作回数が動作回数閾値以上になるということは、その動作内容が会議において重要である可能性があるため、オブジェクト選択部17は、その動作を行った参加者を特徴的オブジェクトとして選択する。
以上のように、実施例1では、フレーム選択部16は、オブジェクトの連続動作回数が動作回数閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部17は、対象期間中の連続動作回数が動作回数閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。
そして、テキスト情報作成部18は、オブジェクトの動作内容と当該動作内容を表すテキスト情報との関連付けに基づいて、対象期間内における特徴的オブジェクトの動作内容を示すテキスト情報を作成する。例えば、特徴的オブジェクトとしての人がホワイトボードに文字等を記入している場合、テキスト情報作成部18は、その記入動作に対応するテキスト情報(「サッサッサッ」という文字列)を作成し、当該テキスト情報を特徴的オブジェクトに関連付ける。また、テキスト情報作成部18は、対象期間内における特徴的オブジェクトの発話内容を示す音声データに基づいて、当該発話内容を示すテキスト情報を作成してもよい。テキスト情報作成部18は、テキスト情報の要約を作成してもよい。また、テキスト情報作成部18は、繰り返し出現する単語や文字列や、抑揚のある単語又は文字列を、赤等の色のついた文字、大文字又は太文字等で表してもよい。
また、オブジェクト選択部17は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択してもよい。例えば、オブジェクト選択部17は、対象期間における各参加者の動作内容や発話内容を、特徴的オブジェクトの動作内容や発話内容として選択し、テキスト情報作成部18は、当該動作内容や当該発話内容を示すテキスト情報を作成してもよい。また、オブジェクト選択部17は、対象期間内における別の物の動作や音を特徴的オブジェクトの動作や音として選択し、テキスト情報作成部18は、当該動作や当該音を示すテキスト情報を作成してもよい。具体例を挙げて説明すると、対象期間内において紙や書類が机に置かれた場合、オブジェクト選択部17は、その紙の動きを特徴的オブジェクトの動きとして選択し、テキスト情報作成部18は、その動作内容を示すテキスト情報(例えば「パサッ」という文字列)を作成する。また、対象期間内においてドアが閉められた場合、オブジェクト選択部17は、ドアの動きを特徴的オブジェクトの動きとして選択し、テキスト情報作成部18は、その動作内容を示すテキスト情報(例えば「バタン」という文字列)を作成する。例えば、対象期間内における各参加者の発話内容は、特徴的オブジェクトの動作内容との関連性が高い場合があるため、各参加者の発話内容についてもテキスト情報を作成する。
そして、表示制御部19は、特徴的フレームの画像(代表画像)を表示部20に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示する。
以上のように、オブジェクトの動作回数に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの動作回数に基づいて特徴的オブジェクトを選択し、その動作を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い動作を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表示されることになる。
実施例1では、会議室内の様子を的確に表す代表画像が選択され、特徴的オブジェクトの動作内容を示すテキスト情報が代表画像上に表示されるので、その代表画像を参照することで、会議中に発生した特徴的オブジェクトの行動が、容易に把握されることになる。また、各参加者の発言内容や、会議中に発生した参加者及び物の動きや音に関する情報を、代表画像上に表示することで、各参加者の発言内容や、会議中に発生した参加者及び物の動きや音が、容易に把握されることになる。従って、動画像データを最初から最後まで再生しなくても、代表画像を参照することで、対象期間中に発生した事象が容易に把握されることになる。例えば、会議に参加していなくても、代表画像を参照することで、各参加者の動作内容や発言内容等が把握される。
(実施例2)
次に、実施例2について説明する。実施例2では、フレーム選択部16は、動画像データに基づいて、オブジェクト(会議の参加者)が継続して動作している時間の長さ(継続動作時間)を計測し、継続動作時間が予め設定された動作時間閾値以上となる期間(対象期間)を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。なお、ここでいう「継続する動作」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の動作であり、時間間隔を空けないで行われた一連の動作でなくてもよい。例えば、会議の参加者がホワイトボードに文字や図等を記入している場合、フレーム選択部16は、その記入動作の時間の長さが動作時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。複数の参加者が動いている場合、フレーム選択部16は、個々の参加者の動きを検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部16は、実施例1と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中の任意の時点のフレームを、特徴的フレームとして選択してもよい。継続動作時間が動作時間閾値以上になるということは、会議において活発な議論が行われている可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部16は、参加者の動作時間に基づいて特徴的フレームを選択する。
この場合、オブジェクト選択部17は、対象期間中の継続動作時間が動作時間閾値以上となるオブジェクト(会議の参加者)を、特徴的オブジェクトとして選択する。継続動作時間が動作時間閾値以上になるということは、その動作内容が会議において重要である可能性があるため、オブジェクト選択部17は、その動作を行った参加者を特徴的オブジェクトとして選択する。
以上のように、実施例2では、フレーム選択部16は、オブジェクトの継続動作時間が動作時間閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部17は、対象期間中の継続動作時間が動作時間閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。
そして、テキスト情報作成部18は、対象期間内における特徴的オブジェクトの動作内容を示すテキスト情報を作成する。実施例1と同様に、テキスト情報作成部18は、テキスト情報の要約を作成してもよいし、特定の単語や文字列を強調してもよい。
また、実施例1と同様に、オブジェクト選択部17は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択し、テキスト情報作成部18は、当該動作や当該音を示すテキスト情報を作成してもよい。例えば、対象期間内における他の参加者の発話内容は、特徴的オブジェクトの動作内容と関連性が高い場合があるため、他の参加者の発話内容についてもテキスト情報を作成する。
そして、表示制御部19は、特徴的フレームの画像(代表画像)を表示部20に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示する。
以上のように、オブジェクトの動作時間に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの動作時間に基づいて特徴的オブジェクトを選択し、その動作を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い動作を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表示されることになる。従って、実施例1と同様に、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握されることになる。
(実施例3)
次に、実施例3について説明する。実施例3では、フレーム選択部16は、音声データに基づいて、オブジェクト(会議の参加者)が連続して発話する回数(連続発話回数、連続会話数)をカウントし、連続発話回数が予め設定された発話回数閾値以上となる期間(対象期間)を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。なお、ここでいう「連続する発話」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の発話である。複数の参加者が発話している場合、フレーム選択部16は、個々の参加者の発話を検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部16は、実施例1と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中の任意の時点のフレームを、特徴的フレームとして選択してもよい。連続発話回数が発話回数閾値以上となるということは、会議の参加者による議論が活発になっている可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部16は、参加者の発話回数に基づいて特徴的フレームを選択する。
この場合、オブジェクト選択部17は、対象期間中の連続発話回数が発話回数閾値以上となるオブジェクト(会議の参加者)を、特徴的オブジェクトとして選択する。連続発話回数が発話回数閾値以上になるということは、その発話内容が重要である可能性があるため、オブジェクト選択部17は、その発話を行った参加者を特徴的オブジェクトとして選択する。
以上のように、実施例3では、フレーム選択部16は、オブジェクトの連続発話回数が発話回数閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部17は、対象期間中の連続発話回数が発話回数閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。
そして、テキスト情報作成部18は、対象期間内における特徴的オブジェクトの発話内容を示す音声データに基づいて、当該発話内容を示すテキスト情報を作成する。実施例1と同様に、テキスト情報作成部18は、テキスト情報の要約を作成してもよいし、特定の単語や文字列を強調してもよい。
また、実施例1と同様に、オブジェクト選択部17は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択し、テキスト情報作成部18は、当該動作や当該音を示すテキスト情報を作成してもよい。例えば、対象期間内における他の参加者の発話内容は、特徴的オブジェクトの発話内容と関連性が高い場合があるため、他の参加者の発話内容についてもテキスト情報を作成する。
そして、表示制御部19は、特徴的フレームの画像(代表画像)を表示部20に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示する。
以上のように、オブジェクトの発話回数に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの発話回数に基づいて特徴的オブジェクトを選択し、その発話の内容を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い発話内容を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表示されることになる。
実施例3では、会議室内の様子を的確に表す代表画像が選択され、特徴的オブジェクトの発話内容が代表画像上に表示されるので、その代表画像を参照することで、会議中に発生した特徴的オブジェクトの発話内容が、容易に把握されることになる。また、各参加者の発言内容や、会議中に発生した参加者及び物の動きや音に関する情報を、代表画像上に表示することで、各参加者の発話内容や、会議中に発生した参加者及び物の動きや音が、容易に把握されることになる。従って、動画像データを最初から最後まで再生しなくても、代表画像を参照することで、対象期間中に発生した事象が容易に把握されることになる。
(実施例4)
次に、実施例4について説明する。実施例4では、フレーム選択部16は、音声データに基づいて、オブジェクト(会議の参加者)が継続して発話している時間の長さ(継続発話時間)を計測し、継続発話時間が予め設定された発話時間閾値以上となる期間(対象期間)を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。なお、ここでいう「継続する発話」とは、例えば、予め設定された時間以上の間隔を空けないで行われた一連の発話であり、時間間隔を空けないで行われた一連の発話でなくてもよい。複数の参加者が発話している場合、フレーム選択部16は、個々の参加者の発話を検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部16は、実施例1と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中における任意の時点におけるフレームを、特徴的フレームとして選択してもよい。継続発話時間が発話時間閾値以上となるということは、その発話内容が重要である可能性があるため、対象期間内のフレームの画像は、その会議の様子を的確に表す代表画像に適している場合がある。そこで、フレーム選択部16は、参加者の発話時間の長さに基づいて特徴的フレームを選択する。
この場合、オブジェクト選択部17は、対象期間中の継続発話時間が発話時間閾値以上となるオブジェクト(会議の参加者)を、特徴的オブジェクトとして選択する。発話時間の長さが発話時間閾値以上になるということは、その発話内容が重要である可能性があるため、オブジェクト選択部17は、その発話を行った参加者を特徴的オブジェクトとして選択する。
以上のように、実施例4では、フレーム選択部16は、オブジェクトの継続発話時間が発話時間閾値以上となる対象期間内のフレームを特徴的フレームとして選択し、オブジェクト選択部17は、対象期間中の継続発話時間が発話時間閾値以上となるオブジェクトを特徴的オブジェクトとして選択する。
そして、テキスト情報作成部18は、対象期間内における特徴的オブジェクトの発話内容を示す音声データに基づいて、当該発話内容を示すテキスト情報を作成する。実施例1と同様に、テキスト情報作成部18は、テキスト情報の要約を作成してもよし、特定の単語や文字列を強調してもよい。
また、実施例1と同様に、オブジェクト選択部17は、対象期間内における各オブジェクトの動作や音を、特徴的オブジェクトの動作や音として選択し、テキスト情報作成部18は、当該動作や当該音を示すテキスト情報を作成してもよい。例えば、対象期間内における他の参加者の発話内容は、特徴的オブジェクトの発話内容と関連性が高い場合があるため、当該参加者の発話内容についてもテキスト情報を作成する。
そして、表示制御部19は、特徴的フレームの画像(代表画像)を表示部20に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示させる。
以上のように、オブジェクトの継続発話時間に基づいて特徴的フレームを選択することで、撮影場所である会議室内の様子を的確に表す代表画像が選択される。また、オブジェクトの継続発話時間に基づいて特徴的オブジェクトを選択し、その発話の内容を示すテキスト情報を作成して代表画像上に表示することで、重要度が高い発話内容を示す情報が代表画像上に表示されることになる。また、対象期間内における各オブジェクトの動作や音に関するテキスト情報を作成して代表画像上に表示することで、互いに関連性のある情報が代表画像上に表されることになる。従って、実施例3と同様に、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握される。
(実施例5)
次に、実施例5について説明する。実施例5では、フレーム選択部16は、赤外線カメラの検出結果を利用することで、動画像データにおいて動いている領域(オブジェクト)を特定し、オブジェクトの動作量を検出する。そして、フレーム選択部16は、オブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さを計測し、その時間の長さが予め設定された時間閾値以上となる期間(対象期間)を特定し、当該対象期間内のフレームを特徴的フレームとして選択する。複数のオブジェクトが動いている場合、フレーム選択部16は、個々のオブジェクトの動作を検出し、その検出結果に基づいて特徴的フレームを選択すればよい。フレーム選択部16は、実施例1と同様に、対象期間の最初の時間、最後の時間、中間の時間又は期間中における任意の時点におけるフレームを、特徴的フレームとして選択してもよい。オブジェクトの動作量が動作量閾値以下になるということは、オブジェクトの動きが少ないことを意味しており、オブジェクトの動きが少ない期間が長くなるほど、その期間内のフレームの画像は、会議室内を表す代表画像に適している場合がある。例えば、会議室100内の参加者A〜Dの動きが少なく、その期間が長くなるほど、その期間内のフレームの画像が、会議における代表画像に適している場合がある。そこで、フレーム選択部16は、オブジェクトの動作量に基づいて特徴的フレームを選択する。
この場合、オブジェクト選択部17は、対象期間中におけるオブジェクトの連続動作回数、継続動作時間、連続発話回数及び継続発話時間のうちの少なくとも1つの条件に基づいて、特徴的オブジェクトを選択する。
そして、テキスト情報作成部18は、上述した実施例1〜4と同様に、対象期間内における特徴的オブジェクトの動作内容や発話内容を示すテキスト情報を作成する。表示制御部19は、特徴的フレームの画像(代表画像)を表示部20に表示させ、各オブジェクトに関連付けられたテキスト情報を代表画像上に表示させる。
以上のように、オブジェクトの動作量に基づいて特徴的フレームを選択することで、会議室内の様子を的確に表す代表画像が選択される。また、実施例1〜4と同様に、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握される。
上述した実施例1〜5以外の例として、オブジェクト選択部17は、対象期間中におけるオブジェクト(会議の参加者)の発話内容に基づいて特徴的オブジェクトを選択してもよい。例えば、オブジェクト選択部17は、音声データに基づいて、各オブジェクトの声の大きさを特定し、声の大きさが予め設定された閾値以上となるオブジェクトを、特徴的オブジェクトとして選択してもよい。声が大きいということは発話内容が強調されていることを意味し、その発話内容が重要である可能性が高くなるので、その発話を行った参加者を特徴的オブジェクトとして選択する。また、オブジェクト選択部17は、音声データに基づいて、各オブジェクトの話す速さを特定し、その速さが予め設定された閾値以上となるオブジェクトを、特徴的オブジェクトとして選択してもよい。話す速さが速いほど、発話内容が重要である可能性が高くなるので、その発話を行った参加者を特徴的オブジェクトとして選択する。また、オブジェクト選択部17は、音声データに基づいて、各オブジェクトの声の抑揚(イントネーション)を特定し、その抑揚を基準にして特徴的オブジェクトを選択してもよい。
なお、上記の実施例1〜5を組み合わせてもよい。すなわち、フレーム選択部16は、連続動作回数、継続動作時間、連続発話回数、継続発話時間又はオブジェクトの動作量のいずれかに基づいて特徴的フレームを選択し、オブジェクト選択部17は、連続動作回数、継続動作時間、連続発話回数又は継続発話時間のいずれかに基づいて特徴的オブジェクトを選択してもよい。
(実施例6)
次に、実施例6について説明する。実施例6では、オブジェクト選択部17は、ユーザによって指定された時間帯に取得されたコンテンツ情報及びコンテクスト情報(メタデータ)を対象にして、コンテンツ情報と共起関係にあるコンテクスト情報(キーコンテクスト情報)を選択する。ここでは、2項間で共起判定を行う既存のアルゴリズム(集合の類似度を求めるアルゴリズム)を拡張し、3項間以上のものに適用する。図6(a)に、共起関係を示す係数の一例を示す。図6(a)中、Aはコンテンツ情報であり、B,C,Dはコンテクスト情報である。│A│は、コンテンツ情報Aの出現回数であり、│B│,│C│,│D│は、それぞれ、コンテクスト情報B,C,Dの出現回数である。また、図6(a)には、コンテンツ情報A及びコンテクスト情報B〜Dのそれぞれの組み合わせの出現回数の一例が示されている。オブジェクト選択部17は、一例として、以下の式(1)に示す閾値付きSimpson係数を用いることで、コンテンツ情報及びコンテクスト情報の共起強度を求め、その共起強度に基づいてキーコンテクスト情報を選択する。
なお、上記の式は、「Web上の情報からの人間関係ネットワークの抽出.Transactions of the Japanese Society for Artificial Intelligence:Al,Vol.20,pp.46−56,2005−11−01.(松尾豊、友部博教、橋田浩一、中島秀之、石塚満)」からの引用に基づくものである。
図6(b)に、共起強度を示す係数の一例を示す。図6(b)には、比較例として、Simpson係数を用いて求められた共起強度の係数と、Jaccard係数を用いて求められた共起強度の係数と、が示されている。Sipmson係数は、X,Yの相関関係に比例する。X≫Y又はX≪Yの場合、関係性がさほど強くないキーワード同士であっても高い値が得られるため、閾値を設けて値を制限することがある。その閾値を用いる係数が、式(1)の閾値付きSimpson係数である。Jaccard係数は、X,Yのいずれかが出現した回数のうち、X,Yが同時に出現した回数を示す。
例えば、閾値付きSimpson係数を用いた場合、図6(b)に示すように、コンテンツ情報Aに対して共起強度が最も高くなるコンテクスト情報は、コンテクスト情報Dである。この場合、オブジェクト選択部17は、コンテクスト情報Dをキーコンテクスト情報として選択する。
図7に、キーコンテクスト情報の一例を示す。例えば、ユーザが図示しない操作部を用いることで、任意の時間帯ΔTを指定したとする。この場合、オブジェクト選択部17は、時間帯ΔT内に取得されたコンテンツ情報及びコンテクスト情報を対象とし、コンテンツ情報及びコンテクスト情報の共起強度の係数を求める。一例として、時間帯ΔT内にプロジェクターによって映された画像データ(スライドや文書等のデータ)をコンテンツ情報とし、オブジェクト選択部17は、当該コンテンツ情報との共起強度が高いキーコンテクスト情報を選択する。図7に示す例では、ホワイトボードへの書き込みを示すデータ、付箋の張り付けを示すデータ、ポインタの軌跡を示すデータ、及び、会議の参加者の動作を示すデータが、キーコンテクスト情報に該当し、オブジェクト選択部17は、これらのデータを選択する。また、フレーム選択部16は、動画像データに含まれる複数のフレームのうち時間帯ΔT内のフレームを特徴的フレームとして選択する。この特徴的フレームには、プロジェクターによって映された画像(スライドや文書等)、及び、各種のコンテクスト情報が表されている。なお、ユーザが図示しない操作部を用いることで、時間帯ΔT内の任意のフレームを特徴的フレームとして選択してもよい。
実施例6では、テキスト情報作成部18は、キーコンテクスト情報についてのテキスト情報を作成する。例えば、テキスト情報作成部18は、キーコンテクスト情報に表されたオブジェクトの動作内容や発話内容を示すテキスト情報を作成する。そして、表示制御部19は、特徴的フレームの画像(代表画像)を表示部20に表示させ、キーコンテクスト情報についてのテキスト情報を代表画像上に表示する。
以上のように、コンテンツ情報と共起関係にあるコンテクスト情報を選択し、当該コンテクスト情報についてのテキスト情報を作成して表示することで、互いに関連性のある情報が表示されることになる。従って、代表画像を参照することで、会議室内で対象期間中に発生した事象が容易に把握される。
(具体例)
次に、図8を参照して具体例について説明する。図8は、特徴的フレームの画像を示す図である。図8に示す画像200は、図2に示す会議室100内の様子を表す画像であり、特徴的フレームの画像としてフレーム選択部16によって選択された代表画像である。例えば、参加者Aがホワイトボード120に文字や図やグラフ等を記入しており、参加者B,C,Dは着席している。図8において破線で囲まれた領域は、例えば赤外線カメラによって検出された関心領域(オブジェクト)である。以下では、実施例1〜6のそれぞれが適用された場合の処理について説明する。
(実施例1,2)
実施例1又は実施例2が適用された場合について説明する。まず、実施例1が適用された場合について説明する。例えば、参加者Aがホワイトボード120に文字や図やグラフ等を記入している場合、フレーム選択部16は、赤外線カメラの検出結果に基づいて、参加者Aがホワイトボード120に文字等を連続して記入している回数をカウントする。そして、参加者Aの連続動作回数が動作回数閾値以上となった場合、フレーム選択部16は、連続動作回数が動作回数閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Aの動作回数が比較的多い場面の画像が、代表画像として選択されることになる。
また、実施例2が適用された場合、フレーム選択部16は、参加者Aがホワイトボード120に文字等を継続して記入している時間を計測する。そして、参加者Aの継続動作時間が動作時間閾値以上となった場合、フレーム選択部16は、継続動作時間が動作時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Aの動作量が比較的多い場面の画像が、代表画像として選択されることになる。
そして、オブジェクト選択部17は、オブジェクトの連続動作回数又は継続動作時間に基づいて、参加者Aを特徴的オブジェクトとして選択する。テキスト情報作成部18は、参加者Aの記入動作を示すテキスト情報(「サッサッサッ」という文字列)を作成する。そして、表示制御部19は、特徴的フレームの画像200を表示部20に表示させ、更に、画像200において参加者Aの記入動作が検出された領域に、テキスト情報(「サッサッサッ」という文字列)を表示する。これにより、実施例1では、動作回数が比較的多い参加者Aの動作内容を示すテキスト情報が表示され、実施例2では、動作量が比較的多い参加者Aの動作内容を示すテキスト情報が表示されることになる。なお、このテキスト情報は参加者の動作を示しており、発話内容を示しているものではないため、表示制御部19は、吹き出しを配置せずにテキスト情報(「サッサッサッ」という文字列)を表示してもよい。
また、テキスト情報作成部18は、対象期間内における参加者Aの発話内容を示すテキスト情報を作成する。表示制御部19は、画像200においてオブジェクトが表された領域以外の領域であって参加者Aの近傍の領域に吹き出しを配置し、当該吹き出し内に当該テキスト情報を表示させる。このとき、表示制御部19は、吹き出しが配置される領域の大きさに基づいて吹き出しの大きさを決定し、その吹き出しの大きさに応じて、テキスト情報に含まれる文字の大きさを変更してもよい。また、テキスト情報作成部18は、参加者Aの声の抑揚に基づいて、強調されている単語を特定し、当該単語に色を付けたり、当該単語を大文字や太文字で表したりしてもよい。図8に示す例では、「5倍増」や「なんと」という文字列は、強調されている単語であるため、例えば、赤色等の色のついた文字、大文字又は太文字等で表されている。また、テキスト情報作成部18は、参加者Aの発話内容を示すテキスト情報の要約を作成し、表示制御部19は、その要約を画像200上に表示してもよい。例えば、テキスト情報に含まれる文字数によっては、吹き出し内に、すべての文字が含まれない場合がある。この場合、テキスト情報作成部18は、テキスト情報の要約を作成してもよい。
また、テキスト情報作成部18は、対象期間内における各オブジェクトの動作内容や発話内容を示すテキスト情報を作成し、表示制御部19は、各テキスト情報を各オブジェクトに関連付けて画像200上に表示する。例えば、テキスト情報作成部18は、参加者B,C,Dのそれぞれの音声データに基づいて、対象期間内における参加者B,C,Dのそれぞれの発話内容を示すテキスト情報を作成する。表示制御部19は、画像200に表された参加者B,C,Dのそれぞれの近傍の領域に吹き出しを配置し、各吹き出し内に各テキスト情報を表示する。この場合も、テキスト情報作成部18は、参加者B,C,Dのそれぞれの声の抑揚に基づいて、強調されている単語に色を付けたり、当該単語を大文字や太文字で表したりしてもよい。図8に示す例では、参加者Bの発話内容において「すごい」という文字列が、大文字で表されている。また、テキスト情報作成部18は、対象期間内において発話が無い参加者Cに関して、その状況を説明するためのテキスト情報(例えば、「シーン」という文字列)を作成してもよい。また、対象期間内において資料130が動かされた場合、テキスト情報作成部18は、対象期間内における資料130の動きを示すテキスト情報(例えば、「パサッ」という文字列)を作成する。表示制御部19は、画像200において資料130の近傍の領域に吹き出しを配置し、当該吹き出し内にテキスト情報を表示する。
また、テキスト情報作成部18は、動画像データについての背景情報(日時や場所を示す情報)を取得し、当該背景情報を示すテキスト情報を作成する。そして、表示制御部19は、画像200上に当該テキスト情報を表示させる。図8に示す例では、「月曜日の朝、本社会議室では・・・」というテキスト情報が作成されて表示されている。
以上のように、動作回数や動作量が比較的多い参加者が行動している様子(具体的には、参加者Aがホワイトボード120に情報を記入している様子)を表す画像200が、代表画像として表示される。これにより、重要な動作が発生した可能性があるときの会議中の様子が、画像200に表される。
また、対象期間中における参加者A〜Dのそれぞれの発話内容を示すテキスト情報や、他のオブジェクトの動作内容を示すテキスト情報を作成し、各テキスト情報を画像200上に表示することで、参加者Aがホワイトボード120に情報を記入しているときの参加者A〜Dの発話内容や、他のオブジェクトの動きや音が、容易に把握されることになる。従って、画像200を参照することで、参加者Aがホワイトボード120に情報を記入しているときに発生した事象(参加者A〜Dの発話、他のオブジェクトの動きや音)が容易に把握される。図8に示す例では、参加者A〜Dの発話内容が画像200に表されているので、参加者A〜Dのそれぞれの発話内容の関連性等が容易に把握される。特に、発話数が多い参加者A,Bを見たときに、参加者Aの発話内容と参加者Bの発話内容との関連性が容易に把握される。従って、会議に参加していない人であっても、画像200を参照することで、各参加者間のやり取りや発話内容や発生したイベント等を容易に把握し得る。
画像200には各オブジェクトに関連するテキスト情報が表示されているため、画像200は、例えば会議の議事録として用いられ得る。従って、会議の議事録を別途作成しなくて済む。
(実施例3,4)
次に、実施例3又は実施例4が適用された場合について説明する。まず、実施例3が適用された場合について説明する。例えば、参加者Aが発話している場合、フレーム選択部16は、音声データを利用することで、参加者Aが連続して発話している回数をカウントする。そして、参加者Aの連続発話回数が発話回数閾値以上になった場合、フレーム選択部16は、参加者Aの連続発話回数が発話回数閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Aの発話回数が比較的多い場面の画像が、代表画像として選択されることになる。
また、実施例4が適用された場合、フレーム選択部16は、参加者Aが継続して発話している時間を計測する。そして、参加者Aの継続発話時間が発話時間閾値以上となった場合、フレーム選択部16は、継続発話時間が発話時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。これにより、参加者Aの発話量が比較的多い場面の画像が、代表画像として選択されることになる。
そして、オブジェクト選択部17は、オブジェクトの連続発話回数又は継続発話時間に基づいて、参加者Aを特徴的オブジェクトとして選択する。テキスト情報作成部18は、参加者Aの発話内容を示すテキスト情報を作成する。そして、表示制御部19は、特徴的フレームの画像200を表示部20に表示させ、更に、画像200においてオブジェクトが表された領域以外の領域であって参加者Aの近傍の領域に吹き出しを配置し、当該吹き出し内に当該テキスト情報を表示する。これにより、実施例3では、発話回数が比較的多い参加者Aの発話内容を示すテキスト情報が表示され、実施例4では、発話量が比較的多い参加者Aの発話内容を示すテキスト情報が表示されることになる。
また、テキスト情報作成部18は、対象期間内における参加者Aの動作内容を示すテキスト情報(「サッサッサッ」という文字列)を作成し、表示制御部19は、画像200において参加者Aの記入動作が検出された領域に、当該テキスト情報を表示する。また、テキスト情報作成部18は、対象期間内における他の参加者B〜Dのそれぞれの発話内容を示すテキスト情報、及び、動かされた資料130の動きの内容を示すテキスト情報を作成し、表示制御部19は、各テキスト情報を画像200上に表示する。
以上のように、発話回数や発話量が比較的多い参加者Aが発話している様子を表す画像200が、代表画像として表示される。これにより、重要な発話が行われている可能性があるときの会議中の様子が、画像200に表される。
また、対象期間中における参加者B〜Dのそれぞれの発話内容を示すテキスト情報や、他のオブジェクトの動作内容を示すテキスト情報を作成し、各テキスト情報を画像200上に表示することで、参加者Aが発話しているときの参加者B〜Dの発話内容や、他のオブジェクトの動きや音が、容易に把握されることになる。従って、画像200を参照することで、参加者Aが発話しているときに発生した事象(参加者B〜Dの発話、他のオブジェクトの動きや音)が容易に把握される。実施例1,2を適用した場合と同様に、参加者A〜Dのそれぞれの発話内容の関連性等が容易に把握される。
(実施例5)
次に、実施例5が適用された場合について説明する。この場合、フレーム選択部16は、赤外線カメラの検出結果を利用することで、オブジェクトの動作量が動作量閾値以下となる時間の長さを計測し、その時間の長さが時間閾値以上となる対象期間内のフレームを、特徴的フレームとして選択する。テキスト情報作成部18は、対象期間内における参加者A〜Dのそれぞれの発話内容を示すテキスト情報や、他のオブジェクトの動きや音を示すテキスト情報を作成する。そして、表示制御部19は、実施例1〜4と同様に、特徴テクフレームの画像200を表示部20に表示させ、各テキスト情報を画像200上に表示する。実施例5によっても、上記の実施例1〜4と同様の効果を奏する。
(実施例6)
次に、実施例6について説明する。この場合、フレーム選択部16は、例えばユーザによって指定された時間帯に含まれるフレームを、特徴的フレームとして選択する。そして、オブジェクト選択部17は、当該時間帯に取得されたコンテンツ情報とコンテクスト情報とを対象とし、コンテンツ情報と共起関係にあるコンテクスト情報、及び、互いに共起関係にある複数のコンテクスト情報を選択する。例えば、オブジェクト選択部17は、参加者A〜Dのそれぞれの発話内容や動作内容を対象とし、互いの発話内容や動作内容の共起強度の係数を求め、共起強度の係数が閾値以上となる複数の発話内容や動作内容を選択する。一例として、参加者Aの発話内容と参加者Bの発話内容との共起強度の係数が閾値以上となった場合、オブジェクト選択部17は、参加者Aの発話内容と参加者Bの発話内容とを選択し、テキスト情報作成部18は、参加者Aの発話内容を示すテキスト情報と参加者Bの発話内容を示すテキスト情報とを作成する。そして、表示制御部19は、特徴的フレームの画像200を表示部20に表示させ、参加者A,Bの発話内容を示すテキスト情報を画像200上に表示する。
以上のように、互いに共起関係にある参加者A,Bの発話内容を示すテキスト情報を画像200上に表示することで、互いに関連性のある発話内容が容易に把握される。
上述した実施形態では、会議室内におけるオブジェクト(人、物)を対象にしている場合について説明したが、本実施形態が適用される場面は、会議室内に限られない。本実施形態は、例えば、1人の人が演説している場面や、事故等が発生した場面に適用されてもよい。例えば、情報処理装置10は、演説内容が収録された動画像データ及び音声データを対象として特徴的フレーム及び特徴的オブジェクトを選択し、特徴的フレームの画像にテキスト情報を表示してもよい。これにより、例えば、演説内容において強調されている部分や、演説中に発生した事象等が、代表画像に表されることになる。従って、代表画像を参照することで、演説内容の要旨等が容易に把握され得る。また、事故の場面が収録された動画像データ及び音声データを対象にして特徴的フレームの画像にテキスト情報を表示した場合、例えば、事故発生時の様子等が代表画像に表されることになる。また、情報処理装置10は、監視カメラによって撮影された動画像データ及び音声データを対象にして、特徴的フレームの画像にテキスト情報を表示してもよい。これにより、例えば、監視カメラの撮影エリア内で発生したイベントの様子が、代表画像に表されることになる。従って、代表画像を参照することで、監視カメラで撮影された動画像データを再生しなくても、イベント発生時の様子等が容易に把握され得る。
なお、情報処理装置10は、一例としてハードウェア資源とソフトウェアとの協働により実現される。具体的には、情報処理装置10は、図示しないCPU等のプロセッサを備えている。当該プロセッサが、図示しない記憶装置に記憶されたプログラムを読み出して実行することにより、データ取得部11、データ抽出部12、データ解析部14、画像解析部15、フレーム選択部16、オブジェクト選択部17、テキスト情報作成部18及び表示制御部19のそれぞれの機能が実現される。上記プログラムは、CDやDVD等の記憶媒体を経由して、又は、ネットワーク等の通信手段を経由して、記憶装置に記憶される。
10 情報処理装置、11 データ取得部、12 データ抽出部、13 データ記憶部、14 データ解析部、15 画像解析部、16 フレーム選択部、17 オブジェクト選択部、18 テキスト情報作成部、19 表示制御部、20 表示部。

Claims (23)

  1. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記フレーム選択手段は、前記1又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
    ことを特徴とする情報処理装置。
  2. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記フレーム選択手段は、前記1又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
    ことを特徴とする情報処理装置。
  3. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記フレーム選択手段は、前記1又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
    ことを特徴とする情報処理装置。
  4. 前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトの動き、又は、前記1又は前記複数のオブジェクトからの音に基づき、前記特徴的オブジェクトを選択する、
    ことを特徴とする請求項1から請求項のいずれか一項に記載の情報処理装置。
  5. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
    前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、
    ことを特徴とする情報処理装置。
  6. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
    前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、
    ことを特徴とする情報処理装置。
  7. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
    前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、
    ことを特徴とする情報処理装置。
  8. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
    前記テキスト情報作成手段は、前記発話の内容を示す前記テキスト情報を作成する、
    ことを特徴とする情報処理装置。
  9. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのそれぞれの声の大きさ又は話す速さに基づき、前記特徴的オブジェクトを選択
    前記テキスト情報作成手段は、前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、
    ことを特徴とする情報処理装置。
  10. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作及び前記複数のオブジェクトのそれぞれからの音の中から、互いに関連する複数のオブジェクトのそれぞれの動作及び音を、特徴的オブジェクトの動作及び音として選択し、
    前記テキスト情報作成手段は、各特徴的オブジェクトの動作又は音を示す前記テキスト情報を作成する、
    ことを特徴とする情報処理装置。
  11. 前記オブジェクト選択手段は、前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音の中から、共起関係にある複数のオブジェクトのそれぞれの動作又は音を、特徴的オブジェクトの動作又は音として選択する、
    ことを特徴とする請求項1に記載の情報処理装置。
  12. 前記オブジェクト選択手段は、予め設定された時間帯における前記複数のオブジェクトのそれぞれの動作又は前記複数のオブジェクトのそれぞれからの音を対象として、前記特徴的オブジェクトの動作又は音を選択する、
    ことを特徴とする請求項1又は請求項1に記載の情報処理装置。
  13. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトの動作を前記特徴的オブジェクトの動作として選択し、動作回数が前記動作回数閾値以上となる動作が行われている時間帯における他のオブジェクトの動作又は音を選択し、
    前記テキスト情報作成手段は、前記特徴的オブジェクトの動作を示すテキスト情報を作成し、前記他のオブジェクトの動作又は音を示すテキスト情報を作成し、
    前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、
    ことを特徴とする情報処理装置。
  14. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話している時間の長さが予め設定された発話時間閾値以上となるオブジェクトの発話を前記特徴的オブジェクトの発言として選択し、時間の長さが前記発話時間閾値以上となる発話が行われている時間帯における他のオブジェクトの動作又は発言を選択し、
    前記テキスト情報作成手段は、前記特徴的オブジェクトの発言内容を示すテキスト情報を作成し、前記他のオブジェクトの動作又は発言内容を示すテキスト情報を作成し、
    前記表示制御手段は、各オブジェクトに、対応するテキスト情報を関連付けて、前記特徴的フレームの画像に表示する、
    ことを特徴とする情報処理装置。
  15. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記表示制御手段は、前記特徴的フレームの画像において前記特徴的オブジェクトが表された領域以外の領域に、前記テキスト情報を前記特徴的オブジェクトに関連付けて表示する、
    ことを特徴とする情報処理装置。
  16. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記表示制御手段は、前記特徴的オブジェクトの種類に応じて前記テキスト情報の表示形態を変える、
    ことを特徴とする情報処理装置。
  17. 複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段と、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段と、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段と、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段と、
    を有し、
    前記テキスト情報作成手段は、前記テキスト情報の要約を作成し、
    前記表示制御手段は、前記特徴的フレームの画像に前記要約を表示する、
    ことを特徴とする情報処理装置。
  18. コンピュータ
    複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段
    として機能させ、
    前記フレーム選択手段は、前記1又は前記複数のオブジェクトが動いている時間の長さが予め設定された動作時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
    ことを特徴とするプログラム。
  19. コンピュータを、
    複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
    として機能させ、
    前記フレーム選択手段は、前記1又は前記複数のオブジェクトの発話回数が予め設定された発話回数閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
    ことを特徴とするプログラム。
  20. コンピュータを、
    複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
    として機能させ、
    前記フレーム選択手段は、前記1又は前記複数のオブジェクトの動作量が予め設定された動作量閾値以下となる時間の長さが、予め設定された時間閾値以上となる期間内のフレームを、前記特徴的フレームとして選択する、
    ことを特徴とするプログラム。
  21. コンピュータを、
    複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
    として機能させ、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動作回数が予め設定された動作回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
    前記テキスト情報作成手段は、動作回数が前記動作回数閾値以上となる前記特徴的オブジェクトの動作を示す前記テキスト情報を作成する、
    ことを特徴とするプログラム。
  22. コンピュータを、
    複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
    として機能させ、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、動いている時間の長さが予め設定された動作時間閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
    前記テキスト情報作成手段は、前記動きの内容を示す前記テキスト情報を作成する、
    ことを特徴とするプログラム。
  23. コンピュータを、
    複数のフレームで構成され1又は複数のオブジェクトが表された画像データから、特徴的フレームを選択するフレーム選択手段、
    前記1又は前記複数のオブジェクトから特徴的オブジェクトを選択するオブジェクト選択手段、
    前記特徴的オブジェクトの動作及び前記特徴的オブジェクトからの音のうち少なくとも一方を示すテキスト情報を作成するテキスト情報作成手段、
    前記テキスト情報を前記特徴的オブジェクトに関連付けて、前記特徴的フレームの画像に表示する表示制御手段、
    として機能させ、
    前記オブジェクト選択手段は、前記1又は前記複数のオブジェクトのうち、発話回数が予め設定された発話回数閾値以上となるオブジェクトを、前記特徴的オブジェクトとして選択し、
    前記テキスト情報作成手段は、発話回数が前記発話回数閾値以上となる前記特徴的オブジェクトの発話の内容を示す前記テキスト情報を作成する、
    ことを特徴とするプログラム。
JP2013207739A 2013-10-02 2013-10-02 情報処理装置及びプログラム Active JP6176041B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013207739A JP6176041B2 (ja) 2013-10-02 2013-10-02 情報処理装置及びプログラム
US14/259,988 US9420204B2 (en) 2013-10-02 2014-04-23 Information processing apparatus, information processing method, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013207739A JP6176041B2 (ja) 2013-10-02 2013-10-02 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2015073198A JP2015073198A (ja) 2015-04-16
JP6176041B2 true JP6176041B2 (ja) 2017-08-09

Family

ID=52739755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013207739A Active JP6176041B2 (ja) 2013-10-02 2013-10-02 情報処理装置及びプログラム

Country Status (2)

Country Link
US (1) US9420204B2 (ja)
JP (1) JP6176041B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6582626B2 (ja) * 2015-07-02 2019-10-02 富士通株式会社 送信制御方法、表示端末および送信制御プログラム
JP7110568B2 (ja) * 2017-09-19 2022-08-02 富士フイルムビジネスイノベーション株式会社 行動推定装置及び行動推定プログラム
US11715302B2 (en) * 2018-08-21 2023-08-01 Streem, Llc Automatic tagging of images using speech recognition
CN109982027A (zh) * 2019-02-26 2019-07-05 视联动力信息技术股份有限公司 一种字幕显示参数的调整方法、装置和系统
JP2020201738A (ja) * 2019-06-11 2020-12-17 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2021152861A (ja) 2020-03-23 2021-09-30 株式会社リコー 入力装置、入力方法、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8107015B1 (en) * 1996-06-07 2012-01-31 Virage, Incorporated Key frame selection
JP3775446B2 (ja) * 1996-07-26 2006-05-17 富士ゼロックス株式会社 会議情報記録方法および会議情報記録装置並びに会議情報再生装置
JP2003123084A (ja) 2001-10-11 2003-04-25 Sony Corp 画像処理装置、画像処理方法及び画像処理プログラム
US7203323B2 (en) * 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
JP2006166407A (ja) * 2004-11-09 2006-06-22 Canon Inc 撮像装置及びその制御方法
JP4375289B2 (ja) 2005-06-27 2009-12-02 セイコーエプソン株式会社 コメントレイアウト装置
KR101146926B1 (ko) * 2006-12-20 2012-05-22 엘지전자 주식회사 이동 단말기에서 비디오의 대표 영상 제공 방법
US8130257B2 (en) * 2008-06-27 2012-03-06 Microsoft Corporation Speaker and person backlighting for improved AEC and AGC
JP5353835B2 (ja) * 2010-06-28 2013-11-27 ブラザー工業株式会社 情報処理プログラムおよび情報処理装置
JP5012968B2 (ja) * 2010-07-15 2012-08-29 コニカミノルタビジネステクノロジーズ株式会社 会議システム
JP5688279B2 (ja) * 2010-12-08 2015-03-25 ニュアンス コミュニケーションズ,インコーポレイテッド 秘匿情報をフィルタリングする情報処理装置、方法およびプログラム
JP5634853B2 (ja) 2010-12-22 2014-12-03 富士フイルム株式会社 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、ならびに電子コミックの表示方法
JP5674450B2 (ja) 2010-12-22 2015-02-25 富士フイルム株式会社 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
JP2012133659A (ja) 2010-12-22 2012-07-12 Fujifilm Corp ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置
JP6124543B2 (ja) * 2011-12-26 2017-05-10 キヤノン株式会社 画像処理装置、画像処理方法、画像処理システム、及びプログラム
KR101907406B1 (ko) * 2012-05-08 2018-10-12 삼성전자 주식회사 통신 서비스 운용 방법 및 시스템

Also Published As

Publication number Publication date
US9420204B2 (en) 2016-08-16
US20150092007A1 (en) 2015-04-02
JP2015073198A (ja) 2015-04-16

Similar Documents

Publication Publication Date Title
JP6176041B2 (ja) 情報処理装置及びプログラム
JP6688340B2 (ja) 表情アイコンを入力するための方法及び装置
WO2019005332A1 (en) PROVISION OF LIVING AVATARS IN VIRTUAL MEETINGS
JP5685702B2 (ja) 音声認識結果管理装置および音声認識結果表示方法
JP2017229060A (ja) 会議コンテンツを表現する方法、プログラム、及び装置
CN106024009A (zh) 音频处理方法及装置
JPWO2015198488A1 (ja) 電子機器、方法およびプログラム
JP2013222347A (ja) 議事録生成装置及び議事録生成方法
US9990772B2 (en) Augmented reality skin evaluation
US20130332859A1 (en) Method and user interface for creating an animated communication
JP6914154B2 (ja) 表示制御装置、表示制御方法及びプログラム
JP2014220619A (ja) 会議情報記録システム、情報処理装置、制御方法およびコンピュータプログラム
CN107025913A (zh) 一种录音方法及终端
CN110990534A (zh) 一种数据处理方法、装置和用于数据处理的装置
JP2006251898A (ja) 情報処理装置、情報処理方法およびプログラム
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
KR102252665B1 (ko) 오디오 파일 재생 방법 및 장치
US10580188B2 (en) Method of creating animated image based on key input, and user terminal for performing the method
JP3879793B2 (ja) 発言構造検出表示装置
JP2010061343A (ja) 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2014149571A (ja) コンテンツ検索装置
JP7468360B2 (ja) 情報処理装置および情報処理方法
JP2007258934A5 (ja)
JP2012003698A (ja) 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6176041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350