JP4175390B2

JP4175390B2 - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP4175390B2
Application number: JP2006160710A
Authority: JP
Inventors: 康治浅野; プロフィオウゴティ; 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-06-09
Filing date: 2006-06-09
Publication date: 2008-11-05
Anticipated expiration: 2026-06-09
Also published as: JP2007328675A; US7945439B2; CN101086741B; CN101655867A; CN101086741A; EP1865426B1; CN101655867B; US20080010060A1; KR20070118038A; EP1865426A3; EP1865426A2

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、静止画や動画などのコンテンツの分類処理などに利用可能なメタデータの生成、記録処理を実行する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

具体的には、例えば静止画や動画などのコンテンツを再生して鑑賞する際に、ユーザとの間でインタラクションを行い、それをカメラ、マイクなどで観察し、その情報を利用してメタデータを生成し、さらに、このインタラクションを通じて設定されたメタデータを利用して、コンテンツを解析して得られるメタデータの精度を向上させることを実現する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

昨今、デジタルカメラ、ビデオカメラなどの利用が盛んになっている。ユーザは、これらのカメラを利用して撮影した静止画や動画などのコンテンツを例えばＰＣなどのハードディスク、あるいはＤＶＤやフラッシュメモリなどの記憶手段に格納して保存することが可能である。このような記憶手段に格納したコンテンツを再生、またはプリントする際にはコンテンツの検索を行なうことが必要となる。しかし、コンテンツの蓄積数が増加すると目的とするコンテンツの抽出が困難になるという問題がある。

通常、コンテンツには、コンテンツの属性情報としてのコンテンツ名や、撮影日時、撮影場所などの属性情報（メタデータ）が、静止画や動画等のコンテンツの実体データに対応付けられて記録され、ユーザがコンテンツ検索を行なう場合、これらのメタデータに基づく検索を行なうことができる。

メタデータには、例えば、コンテンツの撮影処理に応じて自動的に付与される自動生成メタデータと、撮影データに対応する情報としてユーザが付与するユーザ生成メタデータとがある。例えば撮影日時などの情報は、カメラに付属する時計機能に基づいて撮影時に自動的に付与される自動生成メタデータである。一方、ユーザ生成メタデータとしては、コンテンツ名の他、コンテンツの撮影対象となった場所や、人物、その他、コンテンツに対応するエピソードなどの様々な情報がある。

しかし、ユーザ生成メタデータについては、ユーザ自身が撮影、録音したパーソナルなコンテンツに対して、逐次行わざるを得ず非常に煩わしい作業となる。例えば、テレビ番組などの放送コンテンツは、コンテンツの送出元あるいは第３者が各種メタデータを付与してユーザとしての視聴者に提供する構成が採用されている。ユーザはこれらのメタデータを利用した番組などの検索を効率的に行なうことができる。しかしながら、ユーザ自身が撮影、録音したパーソナルなコンテンツに対するメタデータ中、撮影日時等の形式情報以外についてのメタデータの設定処理は、各人が行わざるを得ず、コンテンツの量が多くなると非常に煩わしい作業となる。

このようなユーザによるメタデータ付与作業を効率的に実行することを可能とした構成として特許文献１に記載の構成がある。特許文献１には、例えば撮影ビデオデータなどの記録コンテンツに含まれる音声データや画像データを解析対象として音声認識や画像認識を行い、その認識情報をメタデータとしてコンテンツに対応付けて自動記録する構成を開示している。また、画像などの非テキストコンテンツを説明したテキスト情報の形態素解析を実行して、キーワードを抽出して抽出したキーワードをコンテンツに対応するメタデータとして付与する構成が、特許文献２に開示されている。

また、コンテンツに関連して予め製作された音声シナリオ情報を利用して、シナリオの音声認識処理によって抽出したワードをメタデータとして付与する方法が特許文献３に開示されている。さらに、コンテンツ再生時の視聴者の生体的反応を加工して、それを感覚的なメタデータとして付与する方法が特許文献４に開示されている。

特許文献１に記載の構成、すなわち、コンテンツに対して音声認識や画像認識を適用する方法は、自動的にメタデータの付与が行えるので便利であるが、ユーザ自身が撮影したパーソナルなコンテンツは、プロの撮影データと異なり画像や音声品質が不十分な場合が多い。このような低品質なコンテンツから音声認識や画像認識によってメタデータとして利用可能なキーワードなどのデータ抽出を行なうのは困難であるという問題がある。

また、特許文献２に記載の非テキストコンテンツを説明したテキスト情報を利用する方法は、テキスト情報が与えられていないパーソナルコンテンツに関しては、適用することができないという問題がある。また、特許文献３に記載のシナリオを利用した構成は、予めシナリオなどの記録されていないコンテンツについては利用できないという問題がある。また、特許文献４に記載の生体的な反応を利用する方法は、血圧や血流などの生体情報を測定するための装置をユーザが装着してその分析を実行する装置を用いることが必要であり、一般的なＰＣなどの装置では実現できず、コスト高になるという問題がある。
特開２００１−２２９１８０号公報特開２００３−２２８５６９号公報特開２００４−１５３７６４号公報特開２００３−１７８０７８号公報

本発明は、上述の問題点に鑑みてなされたものであり、ユーザの負担を軽減し、特別な装置を利用することなく効率的にメタデータの生成、記録を行なうことを可能とする情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

具体的には、ユーザが静止画や動画などのコンテンツを再生して鑑賞する際に、ユーザとの間でインタラクションを行い、インタラクションの様子をカメラ、マイクなどで取得し、取得情報に基づいて鑑賞コンテンツに対応するメタデータを生成してコンテンツ対応のメタデータとして記録することで、ユーザに負担を発生することのない効率的なメタデータ記録を実現する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

本発明の第１の側面は、
コンテンツに対応するメタデータの生成処理を実行する情報処理装置であり、
再生コンテンツを出力するデータ出力部と、
再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力部と、
再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定する制御部と、
前記制御部の決定した質問を実行するインタラクション実行部と、
前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成部と、
前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録するコンテンツ制御部と、
を有することを特徴とする情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記インタラクションメタデータ生成部は、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成部を有し、該メタデータ生成部は、コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行する構成であり、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記メタデータ生成部は、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記メタデータ生成部は、
前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するメタデータ統合部を有することを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む構成である。

本発明の第２の側面は、
情報処理装置において、コンテンツに対応するメタデータの生成処理を実行する情報処理方法であり、
データ出力部において、再生コンテンツを出力するデータ出力ステップと、
データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力ステップと、
制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定するアクション決定ステップと、
インタラクション実行部において、前記制御部の決定した質問を実行するインタラクション実行ステップと、
インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成ステップと、
コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録する記録ステップと、
を有することを特徴とする情報処理方法にある。

さらに、本発明の情報処理方法の一実施態様において、前記インタラクションメタデータ生成ステップは、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、メタデータ生成部において、コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成ステップを有し、該メタデータ生成ステップは、コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行し、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記メタデータ生成ステップは、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記メタデータ生成ステップは、前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、メタデータ統合部において、情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するステップを有することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む。

本発明の第３の側面は、
情報処理装置において、コンテンツに対応するメタデータの生成処理を実行させるコンピュータ・プログラムであり、
データ出力部において、再生コンテンツを出力させるデータ出力ステップと、
データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力させるデータ入力ステップと、
制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定させるアクション決定ステップと、
インタラクション実行部において、前記制御部の決定した質問を実行させるインタラクション実行ステップと、
インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成させるインタラクションメタデータ生成ステップと、
コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録させる記録ステップと、
を実行させることを特徴とするコンピュータ・プログラムにある。

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、ＣＤやＦＤ、ＭＯなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、例えばコンテンツを鑑賞中のユーザとのインタラクションを実行して、インタラクション実行時のユーザ画像や音声情報を取得してこれらの入力情報の解析に基づいてインタラクションベースのメタデータを抽出して、コンテンツ対応のメタデータとして記録することが可能となる。本発明の構成によれば、ユーザによるメタデータの設定といったユーザ負担を何ら発生させることなく、例えばリビングで、みんなでコンテンツを観賞しながら、楽しみながらメタデータの抽出、記録処理を実行することができる。

さらに、本発明の情報処理装置の一実施例構成によれば、コンテンツベースのメタデータ抽出処理に際しても、インタラクションベースのメタデータを参照することでコンテンツの内容を推定して、適用する辞書を限定したメタデータ抽出を実行することが可能となり、コンテンツに対応した精度の高いメタデータをコンテンツに対応付けて設定して記録することが可能となる。

以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。

本発明は、例えば、ユーザが静止画や動画などのコンテンツを再生して鑑賞する際に、ユーザとの間でインタラクションを行い、インタラクションの様子をカメラ、マイクなどで取得し、取得情報に基づいて鑑賞コンテンツに対応するメタデータを抽出してコンテンツ対応のメタデータとして記録する構成を有し、ユーザの負担を発生させることのない効率的なメタデータ記録を実現する。

例えば、図１に示すように、デジタルスチルカメラやビデオカメラで撮影した静止画、動画などのコンテンツ１０を、テレビやパソコンなどディスプレイ１０１、スピーカー１０２を利用して再生し、この再生コンテンツをリビングで観賞している様子をカメラ１０３やマイク１０４で情報処理装置１００に入力する。

情報処理装置１００は、再生コンテンツおよび入力情報に基づいてユーザに対する質問などのインタラクションデータを生成して、表示部１０１、スピーカー１０２などの出力部を介してユーザに質問を行う。たとえば「楽しかったですか」などの質問を提示する。さらに、この質問に対するユーザの応え、アクションなどをカメラ１０３、マイク１０４によって情報処理装置１００に入力し、その入力情報を解析して、再生コンテンツに対応するメタデータを抽出、生成して記憶部にコンテンツとともにコンテンツ対応のメタデータとして記録する処理を行なう。

なお、本発明の情報処理装置において、メタデータの付与対象とするコンテンツは、ユーザの撮影した画像などのパーソナルコンテンツのみならず、パーソナルコンテンツ以外のコンテンツ、例えばインターネット上で配信されている動画、静止画コンテンツなどあらゆるコンテンツが含まれる。

図２を参照して本発明の情報処理装置の構成および処理について説明する。図２は、本発明の情報処理装置２００の構成を示すブロック図である。情報処理装置２００は、例えば、ユーザがビデオカメラやスチルカメラで撮影したコンテンツ、あるいはインターネットや放送などを介して取得したコンテンツを、コンテンツ入力部２３１を介して入力し、コンテンツ制御部２３２の下に記憶部２３３に格納する。

さらに、本発明の情報処理装置２００は、記憶部２３３に格納されたコンテンツを出力制御部２４８の制御の下、データ出力部２２０としてのディスプレイ２２１、スピーカー２２２を利用してコンテンツ再生を行ない、再生コンテンツを視聴するユーザとのインタラクション、例えば、ユーザに対する質問の提示、その応答の取得などのインタラクションを実行し、インタラクションに基づいて取得した情報からメタデータを生成してコンテンツ対応のメタデータとして記憶部２３３に記録する処理を実行する。

図２に示す各処理部の処理について説明する。データ入力部２１０は、カメラ２１１、マイク２１２を有し、再生コンテンツを視聴するユーザの動きや表情をカメラ２１１で取得し、音声をマイク２１２で取得する。画像処理部２４１は、カメラ２１１で撮像された画像情報から、顔認識処理、笑顔認識などの処理を行い、処理結果を制御部２４３に出力する。

音声処理部２４２は、マイク２１２で集音された、音響・音声信号から、音声認識、話者認識、笑声認識などの処理を行い、処理結果を制御部２４３に出力する。

コンテンツ入力部２３１は、メモリーカードやＵＳＢなどのケーブル接続あるいは無線、有線のネットワークや放送によって、静止画、動画、音声などのコンテンツデータを取得し、コンテンツ制御部２３２に送る。記憶部２３３は、ハードディスクなどの記録デバイスで構成され、コンテンツデータやメタデータを保存する。

コンテンツ制御部２３２は、コンテンツ入力部２３１から入力するコンテンツデータや、メタデータ統合部２４５で作成されたコンテンツに対応する属性情報（メタデータ）を受け取り、記憶部２３３に保存する。メタデータは、撮影日時、撮影場所、ユーザの感想などの様々なコンテンツに対応する情報によって構成され、例えばコンテンツ検索時のキーワードとして利用可能な情報である。メタデータは、静止画や動画等のコンテンツの実体データに対応付けられて記録され、ユーザがコンテンツ検索を行なう場合、これらのメタデータに基づく検索を行なうことができる。

制御部２４３は、ユーザ入力部２４９を介してユーザ操作に基づくコンテンツ指定情報を伴うコンテンツ再生要求を入力すると、コンテンツ制御部２３２に対して、記憶部２３３からのコンテンツデータ読み出し、出力を要求する。コンテンツ制御部２３２は、この要求に応じて、指定されたコンテンツを記憶部２３３から読み出して、出力制御部２４８に出力し、出力制御部２４８の制御の下、ディスプレイ２２１、スピーカー２２２を介してコンテンツの再生が行なわれる。

コンテンツ制御部２３２は、出力制御部２４８に出力するコンテンツを併せてメタデータ生成部２５０にも出力する。メタデータ生成部２５０は、コンテンツ制御部２３２から受け取ったコンテンツに対して、画像認識、音声認識などの処理を行い、処理結果からメタデータを生成する。例えば画像認識処理としては、画像データの解析を実行して、画像中のオブジェクト解析を行う。具体的には、人物、風景、集合写真、山、家、自動車など、画像に含まれるオブジェクトを識別し、識別結果に基づくワードを生成してメタデータとする。また、ビデオデータに対応する音声情報の解析に基づいて、ワード抽出を実行して、抽出したワードをメタデータとする処理を実行する。これら、コンテンツ解析に基づく抽出メタデータは、制御部２４３、メタデータ統合部２４５に供給する。

インタラクションメタデータ生成部２４６は、画像処理部２４１、音声処理部２４２での処理結果としての画像解析結果および音声解析結果情報を、制御部２４３を介して入力する。すなわち、再生コンテンツを視聴するユーザの動きや表情、音声に基づいて解析された結果、例えば、顔認識処理、笑顔認識処理結果や音声情報に基づく音声認識、話者認識、笑声認識情報などに基づいて、メタデータを生成し、これをインタラクションメタデータとしてメタデータ統合部２４５に出力する。

このインタラクションメタデータ生成部２４６において生成するインタラクションメタデータは、例えば、情報処理装置２００がユーザに提示する質問に対する応答を解析して得られるワード、例えば、質問として［どこの映像ですか］に対するユーザの応答として［遊園地］というワードが得られた場合には、［遊園地］がインタラクションメタデータとして設定される。また、カメラ２１１によって撮影されたユーザの表情に基づくワード、例えば［楽しい］、［悲しい］、［怖い］などのワードがインタラクションメタデータとして設定される。

メタデータ統合部２４５は、メタデータ生成部２５０、インタラクションメタデータ生成部２４６から入力するそれぞれのメタデータに対して、時刻情報を考慮して統合処理を実行し、コンテンツ制御部２３２に出力する。メタデータ統合部２４５は、例えば、インタラクションメタデータ生成部の生成したインタラクションベースのメタデータや、メタデータ生成部２５０の生成したコンテンツベースのメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行する。コンテンツ制御部２３２では、これらのメタデータを再生コンテンツに対応するメタデータとして記憶部２３３に記録する。

メタデータ統合部２４５は、メタデータ生成部２５０とインタラクションメタデータ生成部２４６から入力する異なる処理に基づくメタデータを統合し、コンテンツの再生時間の時間情報に対応付ける処理を実行する。すなわち、
（ａ）メタデータ生成部２５０の生成するコンテンツに基づくメタデータ、すなわち、再生コンテンツを解析対象とする画像および音声解析によって得られるコンテンツベースのメタデータ［コンテンツベースメタデータ］、
（ｂ）インタラクションメタデータ生成部２４６の生成する再生コンテンツの視聴ユーザとのインタラクションに基づくメタデータ：すなわち、再生コンテンツを視聴するユーザの行動、表情、応答をカメラ２１１、マイク２４２の取得画像および音声に基づいて解析して得られるインタラクションに基づくメタデータ［インタラクションベースメタデータ］、
これら（ａ），（ｂ）の異なるタイプのメタデータに対して、時刻情報を考慮して統合処理を実行し、コンテンツ制御部２３２に出力する。

メタデータ統合部２４５は、例えば、インタラクションメタデータ生成部の生成したインタラクションベースのメタデータや、メタデータ生成部２５０の生成したコンテンツベースのメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行する。コンテンツ制御部２３２では、これらのメタデータを再生コンテンツに対応するメタデータとして記憶部２３３に記録する。

制御部２４３は、メタデータ生成部２５０から提供される、現在再生しているコンテンツに関するメタデータと、画像処理部２４１、音声処理部２４２での処理結果に基づいて、システム全体の制御を行うとともに、必要に応じてこれらの情報をインタラクション実行部２４７に送り、コンテンツを鑑賞しているユーザに対しての働きかけ、例えば質問の出力などを行う。

インタラクション実行部２４７は、制御部２４３から提供された情報に基づいて、コンテンツを鑑賞するユーザに対する働きかけとして、ディスプレイ２２１上に、質問やイメージ情報などを表示する。あるいはＧＵＩによるメニュー表示などを行なう。さらに、スピーカー２２２を介して音声による質問や、その他の音声情報を音声合成処理により生成し、出力制御部２４８に出力する。

出力制御部２４８は、コンテンツ制御部２３２から入力するコンテンツデータと、インタラクション実行部２４７から入力するデータを、適切なフォーマット変換を行い、合成して、映像情報はディスプレイ２２１に、音声情報はスピーカー２２２に各々出力する。

図２示すように、本発明の情報処理装置２００では、再生コンテンツの解析に基づくコンテンツベースのメタデータを生成するメタデータ生成部２５０と、再生コンテンツを視聴するユーザとのインタラクションに基づくインタラクションベースのメタデータを生成するインタラクションメタデータ生成部２４６とを有する。

これらの２つのメタデータ生成部は、それぞれ画像および音声解析に基づいてメタデータを生成する。メタデータ生成部２５０はコンテンツの画像および音声に基づく処理であり、インタラクションメタデータ生成部２４６は、カメラ２１１とマイク２１２を介して入力する画像および音声に基づくメタデータを生成する。

これらの２つのメタデータ生成処理は、基本的に同様の手法を適用することが可能であり、１つのメタデータ生成部として構成し、処理対象データを逐次、切り替えて処理を実行する構成としてもよい。このような切り替え構成を持つメタデータ生成部の構成例を図３に示す。

図３は、図２に示すメタデータ生成部２５０と、インタラクションメタデータ生成部２４６の２つのメタデータ生成機能を実行するメタデータ生成部３００の構成例を示している。

メタデータ生成部３００は、解析データ切り替え部３０１において、解析対象データの切り替えを行なう。すなわち、入力するデータをコンテンツとするか、インタラクション情報、すなわちコンテンツ視聴ユーザの撮影画像と音声情報とするかを選択して切り替える。

解析データ切り替え部３０１は、入力データとして選択されたコンテンツまたはインタラクション情報のいずれかを、制御部２４３からの指示に基づいて各識別処理部３１１〜３１８に入力する。識別処理部としては、図に示すように、顔識別処理部３１１、一般物体識別処理部３１２、話者識別処理部３１３、音声識別処理部３１４、笑顔識別処理部３１５、笑い声識別処理部３１６、叫び声識別処理部３１７、泣き声識別処理部３１８を有する。

顔識別処理部３１１、一般物体識別処理部３１２、話者識別処理部３１３、音声識別処理部３１４、これらの識別処理部は、それぞれの識別処理に応じた識別用の辞書データを保有、あるいは例えばネットワークを介してデータベースから取得可能な構成をもつ。

顔識別処理部３１１は、顔識別用辞書データ３２１を利用して、供給された解析対象となる画像データから、顔を検出し、顔識別用辞書データ３２１に登録されている顔との照合処理を実行する。顔識別用辞書データ３２１には、照合処理に適用する顔画像データとその人物名、カテゴリ名（家族、同僚）など、登録画像に対応する名称、カテゴリ名などの対応データが登録されており、顔識別処理部３１１において、解析対象画像データから抽出した顔画像と、顔識別用辞書データ３２１に登録された顔画像との照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データに対応付けられた人物名、カテゴリ名（家族、同僚）などをメタデータの候補としてメタデータ決定部３３１に出力する。登録されていない顔であれば登録されていない顔（Ｕｎｋｎｏｗｎ）として出力する。

顔識別用辞書データ３２１には、ユーザが登録したデータ、さらに、インターネットなどのネットワーク３２０を介して取得した辞書データが含まれる。例えば家族の顔などは、ユーザによって登録され、有名人の顔データなどは、ネットワーク３２０を介して取得することができる。辞書の登録データは、顔画像データとその人物名、カテゴリ名（家族、同僚）などの対応データである。辞書は、個々の顔ごとに個別に、あるいは「家族」「同僚」などいくつかのカテゴリでグループ化がなされ、顔画像に対応付けた個人の名前、カテゴリ名などが記録されている。顔識別処理部３１１は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。

顔識別処理部３１１における顔識別用辞書データ３２１を用いた照合処理によって一致する画像が得られた場合、例えば家族の名前［太郎］、［花子］などが得られた場合、これらのワードがメタデータ決定部３３１に入力される。メタデータ決定部３３１は、例えば他の識別処理部から入力されたメタデータ候補との重複データ等を排除して、出力メタデータを決定しメタデータ統合部２４５に出力する。

一般物体識別処理部３１２は、一般物体識別用辞書データ３２２を利用して、供給された解析対象となる画像データから、一般物体を検出し、一般物体識別用辞書データ３２２に登録されている一般物体との照合処理を実行する。一般物体とは、例えば、自動車、山、ビル、東京タワー、遊園地などの人物に含まれないオブジェクト全般である。

一般物体識別用辞書データ３２２には、照合処理に適用する一般物体画像データとその名称、カテゴリ名、例えば、自動車、車種、ビル、ビル名、遊園地などの登録画像に対応する名称、カテゴリ名などの対応データが登録されており、一般物体識別処理部３１２において、解析対象画像データから抽出した一般物体画像と、一般物体識別用辞書データ３２２に登録された一般物体画像との照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データに対応付けられた名称、カテゴリ名などをメタデータの候補としてメタデータ決定部３３１に出力する。

一般物体識別用辞書データ３２２には、ユーザが登録したデータ、さらに、ネットワーク３２０を介して取得した辞書データが含まれる。辞書は、個々の一般物体ごとに個別に、あるいはいくつかのカテゴリでグループ化がなされ、一般物体識別処理部３１１は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。

一般物体識別処理部３１２における一般物体識別用辞書データ３２２を用いた照合処理によって一致する画像が得られた場合、例えば建物の名前［東京タワー］などが得られた場合、これらのワードがメタデータ決定部３３１に入力される。その後、メタデータ決定部３３１における選別処理後、選別されたメタデータ候補がメタデータ統合部２４５に出力される。

話者識別処理部３１３は、話者識別用辞書データ３２３を利用して、供給された解析対象となる音声データから、話者を検出し、話者識別用辞書データ３２３に登録されている話者との照合処理を実行する。話者識別用辞書データ３２３には、照合処理に適用する話者毎の音声データとその人の名前、あるいはカテゴリ名（家族、友人など）登録音声データに対応する名称、カテゴリ名などの対応データが登録されており、話者識別処理部３１３において、解析対象音声データから抽出した話者音声データと、話者識別用辞書データ３２３に登録された話者音声データとの照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データに対応付けられた名称、カテゴリ名などをメタデータの候補としてメタデータ決定部３３１に出力する。

話者識別用辞書データ３２３には、ユーザが登録したデータ、さらに、ネットワーク３２０を介して取得した辞書データが含まれる。辞書は、個々の話者ごとに個別に、あるいはいくつかのカテゴリでグループ化がなされ、話者識別処理部３１３は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。

話者識別処理部３１３における話者識別用辞書データ３２３を用いた照合処理によって一致する登録音声データが得られた場合、その音声データに対応する登録情報としての名前、カテゴリ名、例えば［家族］などが得られた場合、これらのワードがメタデータ決定部３３１に入力される。さらにメタデータ決定部３３１における選別処理後メタデータ統合部２４５に出力される。

音声認識処理部３１４は、音声認識用辞書データ３２４を利用して、供給された解析対象となる音声データの解析を実行して音声データ中から単語を抽出する。音声認識用辞書データ３２４には、照合処理に適用する単語情報が登録されており、音声認識処理部３１４において、解析対象音声データから抽出した音声データと、音声認識用辞書データ３２４に登録された単語との照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データとしての単語をメタデータの候補としてメタデータ決定部３３１に出力する。

音声認識用辞書データ３２４には、ユーザが登録したデータ、さらに、ネットワーク３２０を介して取得した辞書データが含まれる。辞書は、個々の単語ごとに個別に、あるいはいくつかのカテゴリでグループ化がなされ、音声認識処理部３１４は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。

音声認識処理部３１４における音声認識用辞書データ３２４を用いた照合処理によって一致する登録単語が得られた場合、その音声データに対応する登録情報としての単語をメタデータ決定部３３１に入力する。さらにメタデータ決定部３３１における選別処理後メタデータ統合部２４５に出力される。

笑顔識別処理部３１５は、供給された解析対象となる画像データに基づく画像解析を実行して、笑顔であると判別される画像領域があるか否かを判断する。笑顔識別処理部３１５は、画像に基づく笑顔の検出を行なうための判定基準情報を保有し、この基準情報を適用して画像に笑顔が含まれるか否かを判定する。笑顔であると判別される画像が抽出された場合、笑顔に対応するメタデータ候補として［笑顔］［楽しい］などの登録情報をメタデータ決定部３３１に入力する。

笑い声識別処理部３１６は、供給された解析対象となる音声データに基づく音声解析を実行して、笑い声であると判別される音声データが含まれる否かを判断する。笑い声識別処理部３１６は、音声データに基づく笑い声の検出を行なうための判定基準情報を保有し、この基準情報を適用して音声データに笑い声が含まれるか否かを判定する。笑い声であると判別されるデータが抽出された場合、笑い声に対応するメタデータ候補として［笑い］［楽しい］などの登録情報をメタデータ決定部３３１に出力する。

叫び声識別処理部３１７は、供給された解析対象となる音声データに基づく音声解析を実行して、叫び声であると判別される音声データが含まれる否かを判断する。叫び声識別処理部３１７は、音声データに基づく叫び声の検出を行なうための判定基準情報を保有し、この基準情報を適用して音声データに叫び声が含まれるか否かを判定する。叫び声であると判別されるデータが抽出された場合、叫び声に対応するメタデータ候補として［恐怖］［怖い］などの登録情報をメタデータ決定部３３１に出力する。

泣き声識別処理部３１８は、供給された解析対象となる音声データに基づく音声解析を実行して、泣き声であると判別される音声データが含まれる否かを判断する。泣き声識別処理部３１８は、音声データに基づく泣き声の検出を行なうための判定基準情報を保有し、この基準情報を適用して音声データに泣き声が含まれるか否かを判定する。泣き声であると判別されるデータが抽出された場合、泣き声に対応するメタデータ候補として［悲しい］［怖い］などの登録情報をメタデータ決定部３３１に出力する。

メタデータ決定部３３１は、複数の識別処理部から入力されたメタデータ候補との重複データ等を排除して、出力メタデータを決定しメタデータ統合部２４５に出力する。メタデータ統合部２４５は、メタデータ生成部２５０、インタラクションメタデータ生成部２４６から入力するそれぞれのメタデータに対して、時刻情報を考慮して統合処理を実行し、コンテンツ制御部２３２に出力する。

具体的なメタデータの抽出、登録処理例について、図４を参照して説明する。図４に示す例は、家族で遊園地に行った際にデジカメで取った写真を、家族で鑑賞している場合におけるメタデータの設定処理を示している。図４には、上段から、
（ａ）視聴コンテンツ
（ｂ）コンテンツベースメタデータ
（ｃ）インタラクションベースメタデータ
（ｄ）システム側インタラクション
（ｅ）ユーザ側インタラクション
これらの（ａ）〜（ｅ）の各データまたは処理を示している。

まず、デジカメから写真をシステム（情報処理装置）に取り込んだ段階で、最初のコンテンツベースメタデータの生成が行われる。図２に示すメタデータ生成部２５０に記憶部２３３に格納されたコンテンツの解析を実行し、コンテンツベースのメタデータ抽出が実行される。なお、図２に示すメタデータ生成部２５０は、図３参照して説明した構成を有し、コンテンツを構成する画像データ、音声データに基づく様々な解析が実行され、メタデータの抽出が行われる。

メタデータ生成部２５０は、図３に示すメタデータ生成部３００の構成を有し、各識別処理部３１１〜３１８を適用して、辞書データ３２１〜３２４や予め登録された判定基準情報を利用して処理を実行する。

図３に示す顔識別処理部３１１の識別処理によって、例えば、図４に示す例では、写真Ａ４０１から、「父」と「娘２」のメタデータ４１１が設定され、写真Ｂ４０２については、「娘１」と「娘２」のメタデータ４１２が設定される。

次に家族でコンテンツを鑑賞している時に、例えば写真Ａ４０１を鑑賞している時のユーザ側のインタラクション情報として、図２に示すデータ入力部２１０のカメラ２１１の取得した画像、およびマイク２１２の取得した音声データに基づく、インタラクションメタデータ生成部２４６の解析によって、
（ステップＳ１）笑顔や笑い声が検出された場合、これらの情報に基づいて「笑顔」「笑い声」がインタラクションメタデータ４２１として抽出される。

インタラクションメタデータ生成部２４６の処理構成も、図３に示すメタデータ生成部３００の構成を有し、図３に示す各識別処理部３１１〜３１８を適用して、辞書データ３２１〜３２４や予め登録された判定基準情報を利用してメタデータの生成処理を実行する。

システム（情報処理装置）は、さらに、写真Ａ４０１に対応して抽出されたコンテンツベースメタデータ４１１（「父」と「娘２」）に基づいて、
（ステップＳ２）ユーザに対する質問を生成してデータ出力部２２０を介してユーザに出力する。
出力態様は、ディスプレイ２２１に対するメッセージ表示、あるいは、スビーカー２２２を介する音声出力、いずれかの態様で実行する。

システムからの質問は、例えば、
「お父さんと○○ちゃん（娘２の名前）でどこに行ったのですか？」
といった質問である。

このシステム側の質問に対して、お母さんが、
（ステップＳ３）応答をする。たとえば、
「家族で遊園地に行ったのよ」
といった応答を返したとする。
データ入力部２１０のマイク２１２は、この応答を入力して、インタラクションメタデータ生成部２４６に入力する。インタラクションメタデータ生成部２４６は、このお母さんの応答「家族で遊園地に行ったのよ」を解析する。

例えば、図３に示す音声認識処理部３１４における音声認識処理によって、応答に含まれる「家族」「遊園地」といった単語が抽出され、これらをインタラクションメタデータ４２２として設定する。

このようにして、コンテンツベースのメタデータに、インタラクションベースのメタデータ４２２が追加された後、システム（情報処理装置）は、再度、改めてコンテンツメタデータの抽出を行う。この時は、インタラクションベースのメタデータが付与された結果、家族で遊園地に行った時であるという写真に対する新たな情報が付与されているので、システム（情報処理装置）は、その情報を利用して、図３を参照して説明した構成を持つメタデータ生成部３００において、さらなるコンテンツベースのメタデータ抽出処理を実行する。

このメタデータ抽出処理に際しては、インタラクションの結果、新たに取得した情報に基づいて、各識別処理部３１１〜３１８の適用する辞書データを切り替えて処理を行なう。インタラクションの結果、インタラクションベースのメタデータとして、「家族」「遊園地」が取得されているので、これらのインタラクションベースメタデータに基づいて、これらのデータに関連する辞書を優先的に選択してコンテンツとしての画像および音声データと辞書登録データとの照合処理によるメタデータ抽出を実行する。

例えば、顔識別処理部３１１や話者識別処理部３１３で用いる辞書としては［家族］に限定した辞書を用い、音声認識処理部３１４や一般物体識別処理部３１２などで用いる辞書には［遊園地］に関連したデータを集積した辞書を優先的に選択して処理を行う。

このように、コンテンツに対応する情報に基づいて、その情報に関連する辞書を優先的に使用したメタデータ抽出によって、より精度の高いメタデータの抽出、記録処理が可能となる。

初めにコンテンツをシステムに取り込んだ時には一般的な辞書を利用してメタデータ抽出を実行していたため、その一般的な辞書に登録された情報に対応するメタデータのみが抽出可能となるが、インタラクションの結果として取得された新たなコンテンツ対応情報としてインタラクションベースのメタデータを参照することでコンテンツの撮影時の状況に応じた最適な辞書を選択することが可能となり、この最適な辞書を利用した画像や音声の解析、すなわち識別処理が実行されることになり、より精度高くコンテンツメタデータを抽出することが可能となる。

図４に示す例では、この新たなメタデータ抽出処理によって、
（ステップＳ４）写真Ａ４０１に対して新たに「母」というメタデータ４３１、
（ステップＳ５）写真Ｂに対して「ジェットコースター」といったメタデータ４３２、
これらの新たなメタデータを抽出してコンテンツ対応のメタデータとして記録することが可能となる。

このようにして抽出したメタデータは、それぞれのコンテンツに対応するメタデータとして記憶部２３３に記録される。
写真に付与された自動記録されたデータである撮影日時の情報から、写真Ａと写真Ｂとは同一のイベントに対応する一連の写真であると判断できるので、インタラクションメタデータ４２２は、両方の写真に対して付与することができる。
写真Ａ４０１に対するメタデータしては、コンテンツベースのメタデータ４１１，４３１、およびインタラクションベースのメタデータ４２１，４２２が記録され、
写真Ｂ４０２に対するメタデータしては、コンテンツベースのメタデータ４１２，４３２，およびインタラクションベースのメタデータ４２２が記録される。

次に、本発明の情報処理装置において実行する各種の処理のシーケンスについて説明する。以下に示す（Ａ）〜（Ｃ）の各処理について、順次、説明する。
（Ａ）コンテンツ入力処理時のシーケンス（図５）
（Ｂ）コンテンツ鑑賞処理時のシーケンス（図６）
（Ｃ）インタラクション処理後のメタデータ再抽出処理シーケンス（図７）

（Ａ）コンテンツ入力処理時のシーケンス
まず、図５に示すフローチャートを参照してコンテンツ入力処理時のシーケンスについて説明する。ステップＳ１０１において、図２に示すコンテンツ入力部２３１を介して、コンテンツが情報処理装置に取り込まれると、入力コンテンツデータはコンテンツ制御部２３２を介してメタデータ生成部２５０に供給される。

ステップＳ１０２において、メタデータ生成部２５０は、コンテンツを構成する画像および音声情報の解析により、コンテンツベースのメタデータを抽出する。すなわち、図３に示す構成を持つメタデータ生成部は、図３に示す各識別処理部３１１〜３１８を適用して、辞書データ３２１〜３２４や予め登録された判定基準情報を利用してコンテンツに基づくメタデータの生成処理を実行する。

ステップＳ１０３において、メタデータ生成部２５０がコンテンツに基づいて生成したコンテンツメタデータはコンテンツ制御部２３２に提供され、コンテンツデータとともにコンテンツ対応のメタデータとして記憶部２３３に格納される。

（Ｂ）コンテンツ鑑賞処理時のシーケンス
次に、図６に示すフローチャートを参照してコンテンツ鑑賞処理時のシーケンスについて説明する。ステップＳ２０１において、まず、ユーザが装置の電源を入れると、ステップＳ２０２において、図２に示すデータ入力部２１０のカメラ２１１とマイク２１２を使ってユーザの観察が開始される。この処理は電源がＯＦＦになるまで続く。

コンテンツを鑑賞したいユーザは、装置に対して、マイク２１２からの音声入力や、ユーザ入力部２４９（例えばリモコン）によって、コンテンツの再生を指示する。ステップＳ２０３において、制御部２４３が、コンテンツ再生指示情報を入力したと判定すると、ステップＳ２０４に進み、コンテンツ制御部２３２に対してコンテンツの再生を指示し、コンテンツ制御部２３２は記憶部２３３からコンテンツデータを読み出し、データ出力部２２０を介して再生する。

また、ステップＳ２０５において、制御部２４３が、コンテンツ再生終了指示情報を入力したと判定すると、ステップＳ２０６に進み、コンテンツ制御部２３２に対してコンテンツの再生終了を指示し、コンテンツ制御部２３２は記憶部２３３からのコンテンツデータを読み出し処理を終了する。

ステップＳ２０７以下の処理は、情報処理装置とユーザ間のインタラクションに基づくインタラクションベースのメタデータの取得処理である。この処理は、装置の電源がオフとなるまで実行される。これらの処理は、コンテンツの再生中にのみ実行する処理としてもよいが、コンテンツの再生の有無に関わらず実行可能な処理であり、本フローでは、コンテンツ再生中か否かに関わらず実行される処理としている。

ステップＳ２０７では、制御部２４３において、カメラ２１１の入力画像の画像処理部２４１での処理結果、マイク２１２から入力する音声データの音声処理部２４２の処理結果から推定されるユーザ状態と、再生しているコンテンツから抽出されたコンテンツメタデータを利用してシステム全体の制御を行うとともに、インタラクション実行部２４７に対して、ユーザに対する適切なインタラクション、例えば質問の生成、出力を指示する。インタラクション実行部２４７は、制御部２４３から提供されたデータに基づきユーザに対して質問を提示するなどのインタラクションを実行する。具体的には、データ出力部２２０のディスプレイ２２１にＧＵＩを提示する処理、音声合成データを、スピーカー２２２を介して出力する処理などを実行する。

なお、先に図４を参照して説明したように、インタラクション実行時には、コンテンツに対応して設定済みのコンテンツベースのメタデータと、ユーザのアクション情報が利用される。既に付与されているコンテンツメタデータを利用する例としては、例えばデジカメで撮影した静止画の中に、家族全員の写っている記念写真が検出されており、そのコンテンツに対応するコンテンツベースのメタデータとして、［家族］や、家族の名前が登録されている場合、インタラクション実行部２４７は、「これは何の時の写真ですか？」といった形でユーザに質問する処理が行なわれる。

この質問の出力に応じて、「みんなで遊園地に行った時の写真だよ」といったユーザからの応答を得て、それをマイク２１２を通じて装置に入力し、ステップＳ２０８において、インタラクションメタデータ生成部２４６が、例えば音声認識処理を行うことによってテキスト化して、メタデータとして生成する。

ステップＳ２０８のインタラクションメタデータ生成部２４６におけるインタラクションメタデータの生成処理としては、先に図４を参照して説明した処理のみならず、例えば、以下のようなデータを抽出し、これをメタデータとする処理が行なわれる。すなわち、
（ａ）コンテンツの再生時間
（ｂ）コンテンツ鑑賞しているのは誰か
（ｃ）コンテンツの注視時間
（ｄ）鑑賞者の視線の向き
（ｅ）誰がいつどんな発話をしたか
（ｆ）笑い声、笑い顔、泣き声などの感情的な動作
これらの情報が、インタラクションメタデータ生成部２４６において抽出される。なお、（ａ）コンテンツの再生時間については、装置の持つタイマ情報を入力して計測する。その他の（ｂ）〜（ｄ）の各情報については、図３に示す構成中の各識別処理部の処理によって取得する。

ステップＳ２０９では、メタデータ統合部２４５において、インタラクションメタデータ生成部２４６において抽出されたインタラクションベースメタデータと、メタデータ生成部２５０においてコンテンツに基づいて抽出されたコンテンツベースメタデータを統合したメタデータを作成する。

メタデータ統合部２４５は、インタラクションメタデータ生成部の生成したインタラクションベースのメタデータや、メタデータ生成部２５０の生成したコンテンツベースのメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行する。すなわち、動画や録音コンテンツのどの時刻部分を再生しているときに、どのメタデータが得られたかといった情報が保持されるようにメタデータの合成を行う。

また、メタデータ統合部２４５は、メタデータにユーザの発話内容が含まれる場合、解析処理としていわゆる大語彙連続音声認識を利用して発話を漢字仮名混じりテキストとして書き起こしたり、発話中のキーワードのみを抽出したり、あるいは音素、音節などの形で書き起こすことなどの処理を実行する。

最後に、ステップＳ２１０において、コンテンツ制御部２３２が、インタラクションメタデータ生成部２４６において抽出されたインタラクションベースメタデータと、メタデータ生成部２５０においてコンテンツに基づいて抽出されたコンテンツベースメタデータの統合処理結果を、コンテンツデータと関連付けた状態で記憶部２３３に保存する。以上の処理が、ステップＳ２１１において電源オフと判定されるまで、継続して実行される。

（Ｃ）インタラクション処理後のメタデータ再抽出処理シーケンス
次に、図７に示すフローチャートを参照してインタラクション処理後のメタデータ再抽出処理シーケンスについて説明する。この処理は、例えば、装置の電源がＯＦＦになっていて、ユーザとのインタラクションが行われていない時に、バックグラウンドで行うことができる。ただし、実行する時期は限定されず、図６を参照して説明したインタラクションベースのメタデータ抽出処理に並列して実行する構成としてもよい。

まず、ステップＳ３０１において、制御部２４３の制御の下、記憶部２３３に格納されたコンテンツとコンテンツ対応情報として記録されたメタデータを、メタデータ生成部２５０に入力する。このメタデータには、インタラクションメタデータ生成部２４６において抽出されたインタラクションベースメタデータと、メタデータ生成部２５０においてコンテンツに基づいて抽出されたコンテンツベースメタデータの両者を含んでいる。

次に、ステップＳ３０２において、メタデータ生成部２５０は、先に図３を参照して説明した各識別処理部３１１〜３１８の処理によりコンテンツの構成データとしての画像および音声データの解析を実行し、コンテンツデータに対するコンテンツメタデータを生成する。

先に説明したように、この処理に際しては、例えば、インタラクションメタデータを参照して、コンテンツに関連する辞書を選択するなどの処理を行い、コンテンツに対応した処理を実行する。

例えば、図５のフローを参照して説明したコンテンツの入力時のメタデータ生成に際しては、インタラクションメタデータが存在しないので、一般的な辞書を適用したメタデータ抽出を実行するしかない。例えば画像データに基づく顔識別処理では、汎用的な顔データを保持した辞書を用いて顔画像認識を行い、音声データを適用した識別処理においても一般的な辞書を用いて音声認識を行なうことになる。

それに対して、インタラクションメタデータによって、コンテンツがどのようなコンテンツであるかを推定できる場合、その推定情報に基づいて適用辞書を限定することが可能となる。先に図４を参照して説明した例では、インタラクションの結果、インタラクションベースのメタデータとして、「家族」「遊園地」が取得されているので、これらのインタラクションベースメタデータに基づいて、これらのデータに関連する辞書を優先的に選択してコンテンツとしての画像および音声データと辞書登録データとの照合処理によるメタデータ抽出を実行することができる。

例えば、インタラクションの結果、インタラクションベースのメタデータとして、「職場」、「宴会」等のメタデータが設定されている場合、このメタデータに基づいて、職場関係の人間だけの顔データを保持した辞書を用いて顔画像認識を行なうことが可能であり、認識率を向上させてより精度の高いメタデータ抽出および記録が可能となる。

最後に、ステップＳ３０３において、生成したコンテンツメタデータをコンテンツ制御部２３２の制御の下、コンテンツデータとともに記憶部２３３に保存する。

このように、本発明の情報処理装置では、コンテンツデータの解析に基づくコンテンツベースのメタデータを抽出して記録するのみならず、例えばコンテンツを鑑賞中のユーザとのインタラクションを実行して、インタラクション実行時のユーザ画像や音声情報を取得してこれらの入力情報の解析に基づいてインタラクションベースのメタデータを抽出し、さらに、抽出したインタラクションベースのメタデータを参照することでコンテンツの内容を推定して、適用する辞書を限定したメタデータ抽出を実行することで、コンテンツに対応した精度の高いメタデータをコンテンツに対応付けて設定して記録することが可能となる。また、本発明の構成では、ユーザによるメタデータの設定といったユーザ負担を何ら発生させることなく、例えばリビングで、みんなでコンテンツを観賞しながら、楽しみながらメタデータの抽出、記録処理を実行することができる。

最後に、上述した処理を実行する情報処理装置のハードウェア構成例について、図８を参照して説明する。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に対応する処理、上述の実施例において説明したデータ処理部の実行主体として機能する。具体的には、コンテンツに基づくコンテンツベースのメタデータ抽出、記録処理、ユーザとのインタラクションの実行処理、インタラクションに基づくインタラクションベースのメタデータの生成、記録処理などを実行する。これらの処理は、各情報処理装置のＲＯＭ、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２は、ＣＰＵ５０１が使用するプログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３は、ＣＰＵ５０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス５０４により相互に接続されている。

ホストバス５０４は、ブリッジ５０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス５０６に接続されている。

ユーザ入力部５０８は、キーボード、ポインティングデバイスなどであり、ユーザにより操作される入力デバイスである。データ入力部５０９は、図２に示すカメラ２１１、マイク２１２によって構成される。データ出力部５１０は、図２に示すディスプレイ２２１、スピーカー２２２などによって構成される。

ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）５１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ５０１によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えばコンテンツおよびメタデータなどの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ５１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体５２１に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース５０７、外部バス５０６、ブリッジ５０５、およびホストバス５０４を介して接続されているＲＡＭ５０３に供給する。

接続ポート５１４は、外部接続機器５２２を接続するポートであり、ＵＳＢ，ＩＥＥＥ１３９４等の接続部を持つ。接続ポート５１４は、インタフェース５０７、および外部バス５０６、ブリッジ５０５、ホストバス５０４等を介してＣＰＵ５０１等に接続されている。通信部５１５は、ネットワークに接続されている。例えばメタデータ抽出処理に際して取得する辞書データは通信部５１５を介して入力する構成とすることができる。

なお、図８に示す情報処理装置のハードウェア構成例は、ＰＣを適用して構成した装置の一例であり、図８に示す構成に限らず、上述した実施例において説明した処理を実行可能な様々な装置が適用可能である。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは記録媒体としてのハードディスクやＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＭＯ（Ｍａｇｎｅｔｏｏｐｔｉｃａｌ）ディスク，ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、例えばコンテンツを鑑賞中のユーザとのインタラクションを実行して、インタラクション実行時のユーザ画像や音声情報を取得してこれらの入力情報の解析に基づいてインタラクションベースのメタデータを抽出して、コンテンツ対応のメタデータとして記録することが可能となる。本発明の構成によれば、ユーザによるメタデータの設定といったユーザ負担を何ら発生させることなく、例えばリビングで、みんなでコンテンツを観賞しながら、楽しみながらメタデータの抽出、記録処理を実行することができる装置が実現される。

さらに、本発明の情報処理装置の一実施例構成によれば、コンテンツベースのメタデータ抽出処理に際しても、インタラクションベースのメタデータを参照することでコンテンツの内容を推定して、適用する辞書を限定したメタデータ抽出を実行することが可能となり、コンテンツに対応した精度の高いメタデータをコンテンツに対応付けて設定して記録することが可能となる装置が実現される。

本発明の情報処理装置の利用例について説明する図である。本発明の情報処理装置の構成例および処理例について説明する図である。本発明の情報処理装置のメタデータ抽出処理構成例および処理例について説明する図である。本発明の情報処理装置のメタデータ抽出処理理例について説明する図である。本発明の情報処理装置のコンテンツ入力時の処理シーケンスについて説明するフローチャートを示す図である。本発明の情報処理装置のコンテンツ鑑賞時の処理シーケンスについて説明するフローチャートを示す図である。本発明の情報処理装置のインタラクション処理後のメタデータ再抽出処理シーケンスについて説明するフローチャートを示す図である。情報処理装置のハードウェア構成例について説明する図である。

符号の説明

１０コンテンツ
１００情報処理装置
１０１ディスプレイ
１０２スピーカー
１０３カメラ
１０４マイク
２００情報処理装置
２１０データ入力部
２１１カメラ
２１２マイク
２２０データ出力部
２２１ディスプレイ
２２２スピーカー
２３１コンテンツ入力部
２３２コンテンツ制御部
２３３記憶部
２４１画像処理部
２４２音声処理部
２４３制御部
２４５メタデータ統合部
２４６インタラクションメタデータ生成部
２４７インタラクション実行部
２４８出力制御部
２４９ユーザ入力部
２５０メタデータ生成部
３００メタデータ生成部
３０１解析データ切り替え部
３１１顔識別処理部
３１２一般物体識別処理部
３１３話者識別処理部
３１４音声認識処理部
３１５笑顔識別処理部
３１６笑い声識別処理部
３１７叫び声識別処理部
３１８泣き声識別処理部
３２１顔識別用辞書データ
３２２一般物体識別用辞書データ
３２３話者識別用辞書データ
３２４音声認識用辞書データ
３３１メタデータ決定部
４１１，４１２メタデータ
４２１，４２２メタデータ
４３１．４３２メタデータ
５０１ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
５０２ＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ−Ｍｅｍｏｒｙ）
５０３ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
５０４ホストバス
５０５ブリッジ
５０６外部バス
５０７インタフェース
５０８ユーザ入力部
５０９データ入力部
５１０データ出力部
５１１ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）
５１２ドライブ
５１４接続ポート
５１５通信部
５２１リムーバブル記録媒体
５２２外部接続機器

Claims

コンテンツに対応するメタデータの生成処理を実行する情報処理装置であり、
再生コンテンツを出力するデータ出力部と、
再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力部と、
再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定する制御部と、
前記制御部の決定した質問を実行するインタラクション実行部と、
前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成部と、
前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録するコンテンツ制御部と、
を有することを特徴とする情報処理装置。
前記インタラクションメタデータ生成部は、
顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は、さらに、
コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成部を有し、
該メタデータ生成部は、
コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行する構成であり、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記メタデータ生成部は、
顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする請求項３に記載の情報処理装置。
前記メタデータ生成部は、
前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする請求項３に記載の情報処理装置。
前記情報処理装置は、さらに
情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するメタデータ統合部を有することを特徴とする請求項１に記載の情報処理装置。
前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む構成である請求項１〜６いずれかに記載の情報処理装置。
情報処理装置において、コンテンツに対応するメタデータの生成処理を実行する情報処理方法であり、
データ出力部において、再生コンテンツを出力するデータ出力ステップと、
データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力ステップと、
制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定するアクション決定ステップと、
インタラクション実行部において、前記制御部の決定した質問を実行するインタラクション実行ステップと、
インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成ステップと、
コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録する記録ステップと、
を有することを特徴とする情報処理方法。
前記インタラクションメタデータ生成ステップは、
顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする請求項８に記載の情報処理方法。
前記情報処理方法は、さらに、
メタデータ生成部において、コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成ステップを有し、
該メタデータ生成ステップは、
コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行し、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行することを特徴とする請求項８に記載の情報処理方法。
前記メタデータ生成ステップは、
顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする請求項１０に記載の情報処理方法。
前記メタデータ生成ステップは、
前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする請求項１０に記載の情報処理装置。
前記情報処理方法は、さらに、
メタデータ統合部において、情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するステップを有することを特徴とする請求項８に記載の情報処理方法。
前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む請求項８〜１３いずれかに記載の情報処理方法。
情報処理装置において、コンテンツに対応するメタデータの生成処理を実行させるコンピュータ・プログラムであり、
データ出力部において、再生コンテンツを出力させるデータ出力ステップと、
データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力させるデータ入力ステップと、
制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定させるアクション決定ステップと、
インタラクション実行部において、前記制御部の決定した質問を実行させるインタラクション実行ステップと、
インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成させるインタラクションメタデータ生成ステップと、
コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録させる記録ステップと、
を実行させることを特徴とするコンピュータ・プログラム。