JP4175390B2 - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents

情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP4175390B2
JP4175390B2 JP2006160710A JP2006160710A JP4175390B2 JP 4175390 B2 JP4175390 B2 JP 4175390B2 JP 2006160710 A JP2006160710 A JP 2006160710A JP 2006160710 A JP2006160710 A JP 2006160710A JP 4175390 B2 JP4175390 B2 JP 4175390B2
Authority
JP
Japan
Prior art keywords
metadata
content
processing
interaction
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006160710A
Other languages
English (en)
Other versions
JP2007328675A (ja
Inventor
康治 浅野
プロフィオ ウゴ ティ
敬一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006160710A priority Critical patent/JP4175390B2/ja
Priority to EP07011148.9A priority patent/EP1865426B1/en
Priority to KR1020070056003A priority patent/KR20070118038A/ko
Priority to US11/760,105 priority patent/US7945439B2/en
Priority to CN2007101107561A priority patent/CN101086741B/zh
Priority to CN2009101623865A priority patent/CN101655867B/zh
Publication of JP2007328675A publication Critical patent/JP2007328675A/ja
Application granted granted Critical
Publication of JP4175390B2 publication Critical patent/JP4175390B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、静止画や動画などのコンテンツの分類処理などに利用可能なメタデータの生成、記録処理を実行する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
具体的には、例えば静止画や動画などのコンテンツを再生して鑑賞する際に、ユーザとの間でインタラクションを行い、それをカメラ、マイクなどで観察し、その情報を利用してメタデータを生成し、さらに、このインタラクションを通じて設定されたメタデータを利用して、コンテンツを解析して得られるメタデータの精度を向上させることを実現する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
昨今、デジタルカメラ、ビデオカメラなどの利用が盛んになっている。ユーザは、これらのカメラを利用して撮影した静止画や動画などのコンテンツを例えばPCなどのハードディスク、あるいはDVDやフラッシュメモリなどの記憶手段に格納して保存することが可能である。このような記憶手段に格納したコンテンツを再生、またはプリントする際にはコンテンツの検索を行なうことが必要となる。しかし、コンテンツの蓄積数が増加すると目的とするコンテンツの抽出が困難になるという問題がある。
通常、コンテンツには、コンテンツの属性情報としてのコンテンツ名や、撮影日時、撮影場所などの属性情報(メタデータ)が、静止画や動画等のコンテンツの実体データに対応付けられて記録され、ユーザがコンテンツ検索を行なう場合、これらのメタデータに基づく検索を行なうことができる。
メタデータには、例えば、コンテンツの撮影処理に応じて自動的に付与される自動生成メタデータと、撮影データに対応する情報としてユーザが付与するユーザ生成メタデータとがある。例えば撮影日時などの情報は、カメラに付属する時計機能に基づいて撮影時に自動的に付与される自動生成メタデータである。一方、ユーザ生成メタデータとしては、コンテンツ名の他、コンテンツの撮影対象となった場所や、人物、その他、コンテンツに対応するエピソードなどの様々な情報がある。
しかし、ユーザ生成メタデータについては、ユーザ自身が撮影、録音したパーソナルなコンテンツに対して、逐次行わざるを得ず非常に煩わしい作業となる。例えば、テレビ番組などの放送コンテンツは、コンテンツの送出元あるいは第3者が各種メタデータを付与してユーザとしての視聴者に提供する構成が採用されている。ユーザはこれらのメタデータを利用した番組などの検索を効率的に行なうことができる。しかしながら、ユーザ自身が撮影、録音したパーソナルなコンテンツに対するメタデータ中、撮影日時等の形式情報以外についてのメタデータの設定処理は、各人が行わざるを得ず、コンテンツの量が多くなると非常に煩わしい作業となる。
このようなユーザによるメタデータ付与作業を効率的に実行することを可能とした構成として特許文献1に記載の構成がある。特許文献1には、例えば撮影ビデオデータなどの記録コンテンツに含まれる音声データや画像データを解析対象として音声認識や画像認識を行い、その認識情報をメタデータとしてコンテンツに対応付けて自動記録する構成を開示している。また、画像などの非テキストコンテンツを説明したテキスト情報の形態素解析を実行して、キーワードを抽出して抽出したキーワードをコンテンツに対応するメタデータとして付与する構成が、特許文献2に開示されている。
また、コンテンツに関連して予め製作された音声シナリオ情報を利用して、シナリオの音声認識処理によって抽出したワードをメタデータとして付与する方法が特許文献3に開示されている。さらに、コンテンツ再生時の視聴者の生体的反応を加工して、それを感覚的なメタデータとして付与する方法が特許文献4に開示されている。
特許文献1に記載の構成、すなわち、コンテンツに対して音声認識や画像認識を適用する方法は、自動的にメタデータの付与が行えるので便利であるが、ユーザ自身が撮影したパーソナルなコンテンツは、プロの撮影データと異なり画像や音声品質が不十分な場合が多い。このような低品質なコンテンツから音声認識や画像認識によってメタデータとして利用可能なキーワードなどのデータ抽出を行なうのは困難であるという問題がある。
また、特許文献2に記載の非テキストコンテンツを説明したテキスト情報を利用する方法は、テキスト情報が与えられていないパーソナルコンテンツに関しては、適用することができないという問題がある。また、特許文献3に記載のシナリオを利用した構成は、予めシナリオなどの記録されていないコンテンツについては利用できないという問題がある。また、特許文献4に記載の生体的な反応を利用する方法は、血圧や血流などの生体情報を測定するための装置をユーザが装着してその分析を実行する装置を用いることが必要であり、一般的なPCなどの装置では実現できず、コスト高になるという問題がある。
特開2001−229180号公報 特開2003−228569号公報 特開2004−153764号公報 特開2003−178078号公報
本発明は、上述の問題点に鑑みてなされたものであり、ユーザの負担を軽減し、特別な装置を利用することなく効率的にメタデータの生成、記録を行なうことを可能とする情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
具体的には、ユーザが静止画や動画などのコンテンツを再生して鑑賞する際に、ユーザとの間でインタラクションを行い、インタラクションの様子をカメラ、マイクなどで取得し、取得情報に基づいて鑑賞コンテンツに対応するメタデータを生成してコンテンツ対応のメタデータとして記録することで、ユーザに負担を発生することのない効率的なメタデータ記録を実現する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
コンテンツに対応するメタデータの生成処理を実行する情報処理装置であり、
再生コンテンツを出力するデータ出力部と、
再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力部と、
生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定する制御部と、
前記制御部の決定した質問を実行するインタラクション実行部と、
前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成部と、
前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録するコンテンツ制御部と、
を有することを特徴とする情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記インタラクションメタデータ生成部は、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成部を有し、該メタデータ生成部は、コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行する構成であり、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記メタデータ生成部は、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記メタデータ生成部は、
前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するメタデータ統合部を有することを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む構成である。
本発明の第2の側面は、
情報処理装置において、コンテンツに対応するメタデータの生成処理を実行する情報処理方法であり、
データ出力部において、再生コンテンツを出力するデータ出力ステップと、
データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力ステップと、
制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定するアクション決定ステップと、
インタラクション実行部において、前記制御部の決定した質問を実行するインタラクション実行ステップと、
インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成ステップと、
コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録する記録ステップと、
を有することを特徴とする情報処理方法にある。
さらに、本発明の情報処理方法の一実施態様において、前記インタラクションメタデータ生成ステップは、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、メタデータ生成部において、コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成ステップを有し、該メタデータ生成ステップは、コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行し、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記メタデータ生成ステップは、顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記メタデータ生成ステップは、前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、メタデータ統合部において、情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するステップを有することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む。
本発明の第3の側面は、
情報処理装置において、コンテンツに対応するメタデータの生成処理を実行させるコンピュータ・プログラムであり、
データ出力部において、再生コンテンツを出力させるデータ出力ステップと、
データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力させるデータ入力ステップと、
制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定させるアクション決定ステップと、
インタラクション実行部において、前記制御部の決定した質問を実行させるインタラクション実行ステップと、
インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成させるインタラクションメタデータ生成ステップと、
コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録させる記録ステップと、
を実行させることを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、例えばコンテンツを鑑賞中のユーザとのインタラクションを実行して、インタラクション実行時のユーザ画像や音声情報を取得してこれらの入力情報の解析に基づいてインタラクションベースのメタデータを抽出して、コンテンツ対応のメタデータとして記録することが可能となる。本発明の構成によれば、ユーザによるメタデータの設定といったユーザ負担を何ら発生させることなく、例えばリビングで、みんなでコンテンツを観賞しながら、楽しみながらメタデータの抽出、記録処理を実行することができる。
さらに、本発明の情報処理装置の一実施例構成によれば、コンテンツベースのメタデータ抽出処理に際しても、インタラクションベースのメタデータを参照することでコンテンツの内容を推定して、適用する辞書を限定したメタデータ抽出を実行することが可能となり、コンテンツに対応した精度の高いメタデータをコンテンツに対応付けて設定して記録することが可能となる。
以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
本発明は、例えば、ユーザが静止画や動画などのコンテンツを再生して鑑賞する際に、ユーザとの間でインタラクションを行い、インタラクションの様子をカメラ、マイクなどで取得し、取得情報に基づいて鑑賞コンテンツに対応するメタデータを抽出してコンテンツ対応のメタデータとして記録する構成を有し、ユーザの負担を発生させることのない効率的なメタデータ記録を実現する。
例えば、図1に示すように、デジタルスチルカメラやビデオカメラで撮影した静止画、動画などのコンテンツ10を、テレビやパソコンなどディスプレイ101、スピーカー102を利用して再生し、この再生コンテンツをリビングで観賞している様子をカメラ103やマイク104で情報処理装置100に入力する。
情報処理装置100は、再生コンテンツおよび入力情報に基づいてユーザに対する質問などのインタラクションデータを生成して、表示部101、スピーカー102などの出力部を介してユーザに質問を行う。たとえば「楽しかったですか」などの質問を提示する。さらに、この質問に対するユーザの応え、アクションなどをカメラ103、マイク104によって情報処理装置100に入力し、その入力情報を解析して、再生コンテンツに対応するメタデータを抽出、生成して記憶部にコンテンツとともにコンテンツ対応のメタデータとして記録する処理を行なう。
なお、本発明の情報処理装置において、メタデータの付与対象とするコンテンツは、ユーザの撮影した画像などのパーソナルコンテンツのみならず、パーソナルコンテンツ以外のコンテンツ、例えばインターネット上で配信されている動画、静止画コンテンツなどあらゆるコンテンツが含まれる。
図2を参照して本発明の情報処理装置の構成および処理について説明する。図2は、本発明の情報処理装置200の構成を示すブロック図である。情報処理装置200は、例えば、ユーザがビデオカメラやスチルカメラで撮影したコンテンツ、あるいはインターネットや放送などを介して取得したコンテンツを、コンテンツ入力部231を介して入力し、コンテンツ制御部232の下に記憶部233に格納する。
さらに、本発明の情報処理装置200は、記憶部233に格納されたコンテンツを出力制御部248の制御の下、データ出力部220としてのディスプレイ221、スピーカー222を利用してコンテンツ再生を行ない、再生コンテンツを視聴するユーザとのインタラクション、例えば、ユーザに対する質問の提示、その応答の取得などのインタラクションを実行し、インタラクションに基づいて取得した情報からメタデータを生成してコンテンツ対応のメタデータとして記憶部233に記録する処理を実行する。
図2に示す各処理部の処理について説明する。データ入力部210は、カメラ211、マイク212を有し、再生コンテンツを視聴するユーザの動きや表情をカメラ211で取得し、音声をマイク212で取得する。画像処理部241は、カメラ211で撮像された画像情報から、顔認識処理、笑顔認識などの処理を行い、処理結果を制御部243に出力する。
音声処理部242は、マイク212で集音された、音響・音声信号から、音声認識、話者認識、笑声認識などの処理を行い、処理結果を制御部243に出力する。
コンテンツ入力部231は、メモリーカードやUSBなどのケーブル接続あるいは無線、有線のネットワークや放送によって、静止画、動画、音声などのコンテンツデータを取得し、コンテンツ制御部232に送る。記憶部233は、ハードディスクなどの記録デバイスで構成され、コンテンツデータやメタデータを保存する。
コンテンツ制御部232は、コンテンツ入力部231から入力するコンテンツデータや、メタデータ統合部245で作成されたコンテンツに対応する属性情報(メタデータ)を受け取り、記憶部233に保存する。メタデータは、撮影日時、撮影場所、ユーザの感想などの様々なコンテンツに対応する情報によって構成され、例えばコンテンツ検索時のキーワードとして利用可能な情報である。メタデータは、静止画や動画等のコンテンツの実体データに対応付けられて記録され、ユーザがコンテンツ検索を行なう場合、これらのメタデータに基づく検索を行なうことができる。
制御部243は、ユーザ入力部249を介してユーザ操作に基づくコンテンツ指定情報を伴うコンテンツ再生要求を入力すると、コンテンツ制御部232に対して、記憶部233からのコンテンツデータ読み出し、出力を要求する。コンテンツ制御部232は、この要求に応じて、指定されたコンテンツを記憶部233から読み出して、出力制御部248に出力し、出力制御部248の制御の下、ディスプレイ221、スピーカー222を介してコンテンツの再生が行なわれる。
コンテンツ制御部232は、出力制御部248に出力するコンテンツを併せてメタデータ生成部250にも出力する。メタデータ生成部250は、コンテンツ制御部232から受け取ったコンテンツに対して、画像認識、音声認識などの処理を行い、処理結果からメタデータを生成する。例えば画像認識処理としては、画像データの解析を実行して、画像中のオブジェクト解析を行う。具体的には、人物、風景、集合写真、山、家、自動車など、画像に含まれるオブジェクトを識別し、識別結果に基づくワードを生成してメタデータとする。また、ビデオデータに対応する音声情報の解析に基づいて、ワード抽出を実行して、抽出したワードをメタデータとする処理を実行する。これら、コンテンツ解析に基づく抽出メタデータは、制御部243、メタデータ統合部245に供給する。
インタラクションメタデータ生成部246は、画像処理部241、音声処理部242での処理結果としての画像解析結果および音声解析結果情報を、制御部243を介して入力する。すなわち、再生コンテンツを視聴するユーザの動きや表情、音声に基づいて解析された結果、例えば、顔認識処理、笑顔認識処理結果や音声情報に基づく音声認識、話者認識、笑声認識情報などに基づいて、メタデータを生成し、これをインタラクションメタデータとしてメタデータ統合部245に出力する。
このインタラクションメタデータ生成部246において生成するインタラクションメタデータは、例えば、情報処理装置200がユーザに提示する質問に対する応答を解析して得られるワード、例えば、質問として[どこの映像ですか]に対するユーザの応答として[遊園地]というワードが得られた場合には、[遊園地]がインタラクションメタデータとして設定される。また、カメラ211によって撮影されたユーザの表情に基づくワード、例えば[楽しい]、[悲しい]、[怖い]などのワードがインタラクションメタデータとして設定される。
メタデータ統合部245は、メタデータ生成部250、インタラクションメタデータ生成部246から入力するそれぞれのメタデータに対して、時刻情報を考慮して統合処理を実行し、コンテンツ制御部232に出力する。メタデータ統合部245は、例えば、インタラクションメタデータ生成部の生成したインタラクションベースのメタデータや、メタデータ生成部250の生成したコンテンツベースのメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行する。コンテンツ制御部232では、これらのメタデータを再生コンテンツに対応するメタデータとして記憶部233に記録する。
メタデータ統合部245は、メタデータ生成部250とインタラクションメタデータ生成部246から入力する異なる処理に基づくメタデータを統合し、コンテンツの再生時間の時間情報に対応付ける処理を実行する。すなわち、
(a)メタデータ生成部250の生成するコンテンツに基づくメタデータ、すなわち、再生コンテンツを解析対象とする画像および音声解析によって得られるコンテンツベースのメタデータ[コンテンツベースメタデータ]、
(b)インタラクションメタデータ生成部246の生成する再生コンテンツの視聴ユーザとのインタラクションに基づくメタデータ:すなわち、再生コンテンツを視聴するユーザの行動、表情、応答をカメラ211、マイク242の取得画像および音声に基づいて解析して得られるインタラクションに基づくメタデータ[インタラクションベースメタデータ]、
これら(a),(b)の異なるタイプのメタデータに対して、時刻情報を考慮して統合処理を実行し、コンテンツ制御部232に出力する。
メタデータ統合部245は、例えば、インタラクションメタデータ生成部の生成したインタラクションベースのメタデータや、メタデータ生成部250の生成したコンテンツベースのメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行する。コンテンツ制御部232では、これらのメタデータを再生コンテンツに対応するメタデータとして記憶部233に記録する。
制御部243は、メタデータ生成部250から提供される、現在再生しているコンテンツに関するメタデータと、画像処理部241、音声処理部242での処理結果に基づいて、システム全体の制御を行うとともに、必要に応じてこれらの情報をインタラクション実行部247に送り、コンテンツを鑑賞しているユーザに対しての働きかけ、例えば質問の出力などを行う。
インタラクション実行部247は、制御部243から提供された情報に基づいて、コンテンツを鑑賞するユーザに対する働きかけとして、ディスプレイ221上に、質問やイメージ情報などを表示する。あるいはGUIによるメニュー表示などを行なう。さらに、スピーカー222を介して音声による質問や、その他の音声情報を音声合成処理により生成し、出力制御部248に出力する。
出力制御部248は、コンテンツ制御部232から入力するコンテンツデータと、インタラクション実行部247から入力するデータを、適切なフォーマット変換を行い、合成して、映像情報はディスプレイ221に、音声情報はスピーカー222に各々出力する。
図2示すように、本発明の情報処理装置200では、再生コンテンツの解析に基づくコンテンツベースのメタデータを生成するメタデータ生成部250と、再生コンテンツを視聴するユーザとのインタラクションに基づくインタラクションベースのメタデータを生成するインタラクションメタデータ生成部246とを有する。
これらの2つのメタデータ生成部は、それぞれ画像および音声解析に基づいてメタデータを生成する。メタデータ生成部250はコンテンツの画像および音声に基づく処理であり、インタラクションメタデータ生成部246は、カメラ211とマイク212を介して入力する画像および音声に基づくメタデータを生成する。
これらの2つのメタデータ生成処理は、基本的に同様の手法を適用することが可能であり、1つのメタデータ生成部として構成し、処理対象データを逐次、切り替えて処理を実行する構成としてもよい。このような切り替え構成を持つメタデータ生成部の構成例を図3に示す。
図3は、図2に示すメタデータ生成部250と、インタラクションメタデータ生成部246の2つのメタデータ生成機能を実行するメタデータ生成部300の構成例を示している。
メタデータ生成部300は、解析データ切り替え部301において、解析対象データの切り替えを行なう。すなわち、入力するデータをコンテンツとするか、インタラクション情報、すなわちコンテンツ視聴ユーザの撮影画像と音声情報とするかを選択して切り替える。
解析データ切り替え部301は、入力データとして選択されたコンテンツまたはインタラクション情報のいずれかを、制御部243からの指示に基づいて各識別処理部311〜318に入力する。識別処理部としては、図に示すように、顔識別処理部311、一般物体識別処理部312、話者識別処理部313、音声識別処理部314、笑顔識別処理部315、笑い声識別処理部316、叫び声識別処理部317、泣き声識別処理部318を有する。
顔識別処理部311、一般物体識別処理部312、話者識別処理部313、音声識別処理部314、これらの識別処理部は、それぞれの識別処理に応じた識別用の辞書データを保有、あるいは例えばネットワークを介してデータベースから取得可能な構成をもつ。
顔識別処理部311は、顔識別用辞書データ321を利用して、供給された解析対象となる画像データから、顔を検出し、顔識別用辞書データ321に登録されている顔との照合処理を実行する。顔識別用辞書データ321には、照合処理に適用する顔画像データとその人物名、カテゴリ名(家族、同僚)など、登録画像に対応する名称、カテゴリ名などの対応データが登録されており、顔識別処理部311において、解析対象画像データから抽出した顔画像と、顔識別用辞書データ321に登録された顔画像との照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データに対応付けられた人物名、カテゴリ名(家族、同僚)などをメタデータの候補としてメタデータ決定部331に出力する。登録されていない顔であれば登録されていない顔(Unknown)として出力する。
顔識別用辞書データ321には、ユーザが登録したデータ、さらに、インターネットなどのネットワーク320を介して取得した辞書データが含まれる。例えば家族の顔などは、ユーザによって登録され、有名人の顔データなどは、ネットワーク320を介して取得することができる。辞書の登録データは、顔画像データとその人物名、カテゴリ名(家族、同僚)などの対応データである。辞書は、個々の顔ごとに個別に、あるいは「家族」「同僚」などいくつかのカテゴリでグループ化がなされ、顔画像に対応付けた個人の名前、カテゴリ名などが記録されている。顔識別処理部311は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。
顔識別処理部311における顔識別用辞書データ321を用いた照合処理によって一致する画像が得られた場合、例えば家族の名前[太郎]、[花子]などが得られた場合、これらのワードがメタデータ決定部331に入力される。メタデータ決定部331は、例えば他の識別処理部から入力されたメタデータ候補との重複データ等を排除して、出力メタデータを決定しメタデータ統合部245に出力する。
一般物体識別処理部312は、一般物体識別用辞書データ322を利用して、供給された解析対象となる画像データから、一般物体を検出し、一般物体識別用辞書データ32に登録されている一般物体との照合処理を実行する。一般物体とは、例えば、自動車、山、ビル、東京タワー、遊園地などの人物に含まれないオブジェクト全般である。
一般物体識別用辞書データ322には、照合処理に適用する一般物体画像データとその名称、カテゴリ名、例えば、自動車、車種、ビル、ビル名、遊園地などの登録画像に対応する名称、カテゴリ名などの対応データが登録されており、一般物体識別処理部312において、解析対象画像データから抽出した一般物体画像と、一般物体識別用辞書データ322に登録された一般物体画像との照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データに対応付けられた名称、カテゴリ名などをメタデータの候補としてメタデータ決定部331に出力する。
一般物体識別用辞書データ322には、ユーザが登録したデータ、さらに、ネットワーク320を介して取得した辞書データが含まれる。辞書は、個々の一般物体ごとに個別に、あるいはいくつかのカテゴリでグループ化がなされ、一般物体識別処理部311は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。
一般物体識別処理部312における一般物体識別用辞書データ322を用いた照合処理によって一致する画像が得られた場合、例えば建物の名前[東京タワー]などが得られた場合、これらのワードがメタデータ決定部331に入力される。その後、メタデータ決定部331における選別処理後、選別されたメタデータ候補がメタデータ統合部245に出力される。
話者識別処理部313は、話者識別用辞書データ323を利用して、供給された解析対象となる音声データから、話者を検出し、話者識別用辞書データ323に登録されている話者との照合処理を実行する。話者識別用辞書データ323には、照合処理に適用する話者毎の音声データとその人の名前、あるいはカテゴリ名(家族、友人など)登録音声データに対応する名称、カテゴリ名などの対応データが登録されており、話者識別処理部313において、解析対象音声データから抽出した話者音声データと、話者識別用辞書データ323に登録された話者音声データとの照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データに対応付けられた名称、カテゴリ名などをメタデータの候補としてメタデータ決定部331に出力する。
話者識別用辞書データ323には、ユーザが登録したデータ、さらに、ネットワーク320を介して取得した辞書データが含まれる。辞書は、個々の話者ごとに個別に、あるいはいくつかのカテゴリでグループ化がなされ、話者識別処理部313は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。
話者識別処理部313における話者識別用辞書データ323を用いた照合処理によって一致する登録音声データが得られた場合、その音声データに対応する登録情報としての名前、カテゴリ名、例えば[家族]などが得られた場合、これらのワードがメタデータ決定部331に入力される。さらにメタデータ決定部331における選別処理後メタデータ統合部245に出力される。
音声認識処理部314は、音声認識用辞書データ324を利用して、供給された解析対象となる音声データの解析を実行して音声データ中から単語を抽出する。音声認識用辞書データ324には、照合処理に適用する単語情報が登録されており、音声認識処理部314において、解析対象音声データから抽出した音声データと、音声認識用辞書データ324に登録された単語との照合を実行して、予め定められた所定の基準を満足する類似する登録データが検出された場合、その登録データとしての単語をメタデータの候補としてメタデータ決定部331に出力する。
音声認識用辞書データ324には、ユーザが登録したデータ、さらに、ネットワーク320を介して取得した辞書データが含まれる。辞書は、個々の単語ごとに個別に、あるいはいくつかのカテゴリでグループ化がなされ、音声認識処理部314は、利用する辞書データのグループを適宜切り替えて照合処理を実行する。
音声認識処理部314における音声認識用辞書データ324を用いた照合処理によって一致する登録単語が得られた場合、その音声データに対応する登録情報としての単語をメタデータ決定部331に入力する。さらにメタデータ決定部331における選別処理後メタデータ統合部245に出力される。
笑顔識別処理部315は、供給された解析対象となる画像データに基づく画像解析を実行して、笑顔であると判別される画像領域があるか否かを判断する。笑顔識別処理部315は、画像に基づく笑顔の検出を行なうための判定基準情報を保有し、この基準情報を適用して画像に笑顔が含まれるか否かを判定する。笑顔であると判別される画像が抽出された場合、笑顔に対応するメタデータ候補として[笑顔][楽しい]などの登録情報をメタデータ決定部331に入力する。
笑い声識別処理部316は、供給された解析対象となる音声データに基づく音声解析を実行して、笑い声であると判別される音声データが含まれる否かを判断する。笑い声識別処理部316は、音声データに基づく笑い声の検出を行なうための判定基準情報を保有し、この基準情報を適用して音声データに笑い声が含まれるか否かを判定する。笑い声であると判別されるデータが抽出された場合、笑い声に対応するメタデータ候補として[笑い][楽しい]などの登録情報をメタデータ決定部331に出力する。
叫び声識別処理部317は、供給された解析対象となる音声データに基づく音声解析を実行して、叫び声であると判別される音声データが含まれる否かを判断する。叫び声識別処理部317は、音声データに基づく叫び声の検出を行なうための判定基準情報を保有し、この基準情報を適用して音声データに叫び声が含まれるか否かを判定する。叫び声であると判別されるデータが抽出された場合、叫び声に対応するメタデータ候補として[恐怖][怖い]などの登録情報をメタデータ決定部331に出力する。
泣き声識別処理部318は、供給された解析対象となる音声データに基づく音声解析を実行して、泣き声であると判別される音声データが含まれる否かを判断する。泣き声識別処理部318は、音声データに基づく泣き声の検出を行なうための判定基準情報を保有し、この基準情報を適用して音声データに泣き声が含まれるか否かを判定する。泣き声であると判別されるデータが抽出された場合、泣き声に対応するメタデータ候補として[悲しい][怖い]などの登録情報をメタデータ決定部331に出力する。
メタデータ決定部331は、複数の識別処理部から入力されたメタデータ候補との重複データ等を排除して、出力メタデータを決定しメタデータ統合部245に出力する。メタデータ統合部245は、メタデータ生成部250、インタラクションメタデータ生成部246から入力するそれぞれのメタデータに対して、時刻情報を考慮して統合処理を実行し、コンテンツ制御部232に出力する。
メタデータ統合部245は、例えば、インタラクションメタデータ生成部の生成したインタラクションベースのメタデータや、メタデータ生成部250の生成したコンテンツベースのメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行する。コンテンツ制御部232では、これらのメタデータを再生コンテンツに対応するメタデータとして記憶部233に記録する。
具体的なメタデータの抽出、登録処理例について、図4を参照して説明する。図4に示す例は、家族で遊園地に行った際にデジカメで取った写真を、家族で鑑賞している場合におけるメタデータの設定処理を示している。図4には、上段から、
(a)視聴コンテンツ
(b)コンテンツベースメタデータ
(c)インタラクションベースメタデータ
(d)システム側インタラクション
(e)ユーザ側インタラクション
これらの(a)〜(e)の各データまたは処理を示している。
まず、デジカメから写真をシステム(情報処理装置)に取り込んだ段階で、最初のコンテンツベースメタデータの生成が行われる。図2に示すメタデータ生成部250に記憶部233に格納されたコンテンツの解析を実行し、コンテンツベースのメタデータ抽出が実行される。なお、図2に示すメタデータ生成部250は、図3参照して説明した構成を有し、コンテンツを構成する画像データ、音声データに基づく様々な解析が実行され、メタデータの抽出が行われる。
メタデータ生成部250は、図3に示すメタデータ生成部300の構成を有し、各識別処理部311〜318を適用して、辞書データ321〜324や予め登録された判定基準情報を利用して処理を実行する。
図3に示す顔識別処理部311の識別処理によって、例えば、図4に示す例では、写真A401から、「父」と「娘2」のメタデータ411が設定され、写真B402については、「娘1」と「娘2」のメタデータ412が設定される。
次に家族でコンテンツを鑑賞している時に、例えば写真A401を鑑賞している時のユーザ側のインタラクション情報として、図2に示すデータ入力部210のカメラ211の取得した画像、およびマイク212の取得した音声データに基づく、インタラクションメタデータ生成部246の解析によって、
(ステップS1)笑顔や笑い声が検出された場合、これらの情報に基づいて「笑顔」「笑い声」がインタラクションメタデータ421として抽出される。
インタラクションメタデータ生成部246の処理構成も、図3に示すメタデータ生成部300の構成を有し、図3に示す各識別処理部311〜318を適用して、辞書データ321〜324や予め登録された判定基準情報を利用してメタデータの生成処理を実行する。
システム(情報処理装置)は、さらに、写真A401に対応して抽出されたコンテンツベースメタデータ411(「父」と「娘2」)に基づいて、
(ステップS2)ユーザに対する質問を生成してデータ出力部220を介してユーザに出力する。
出力態様は、ディスプレイ221に対するメッセージ表示、あるいは、スビーカー222を介する音声出力、いずれかの態様で実行する。
システムからの質問は、例えば、
「お父さんと○○ちゃん(娘2の名前)でどこに行ったのですか?」
といった質問である。
このシステム側の質問に対して、お母さんが、
(ステップS3)応答をする。たとえば、
「家族で遊園地に行ったのよ」
といった応答を返したとする。
データ入力部210のマイク212は、この応答を入力して、インタラクションメタデータ生成部246に入力する。インタラクションメタデータ生成部246は、このお母さんの応答「家族で遊園地に行ったのよ」を解析する。
例えば、図3に示す音声認識処理部314における音声認識処理によって、応答に含まれる「家族」「遊園地」といった単語が抽出され、これらをインタラクションメタデータ422として設定する。
このようにして、コンテンツベースのメタデータに、インタラクションベースのメタデータ422が追加された後、システム(情報処理装置)は、再度、改めてコンテンツメタデータの抽出を行う。この時は、インタラクションベースのメタデータが付与された結果、家族で遊園地に行った時であるという写真に対する新たな情報が付与されているので、システム(情報処理装置)は、その情報を利用して、図3を参照して説明した構成を持つメタデータ生成部300において、さらなるコンテンツベースのメタデータ抽出処理を実行する。
このメタデータ抽出処理に際しては、インタラクションの結果、新たに取得した情報に基づいて、各識別処理部311〜318の適用する辞書データを切り替えて処理を行なう。インタラクションの結果、インタラクションベースのメタデータとして、「家族」「遊園地」が取得されているので、これらのインタラクションベースメタデータに基づいて、これらのデータに関連する辞書を優先的に選択してコンテンツとしての画像および音声データと辞書登録データとの照合処理によるメタデータ抽出を実行する。
例えば、顔識別処理部311や話者識別処理部313で用いる辞書としては[家族]に限定した辞書を用い、音声認識処理部314や一般物体識別処理部312などで用いる辞書には[遊園地]に関連したデータを集積した辞書を優先的に選択して処理を行う。
このように、コンテンツに対応する情報に基づいて、その情報に関連する辞書を優先的に使用したメタデータ抽出によって、より精度の高いメタデータの抽出、記録処理が可能となる。
初めにコンテンツをシステムに取り込んだ時には一般的な辞書を利用してメタデータ抽出を実行していたため、その一般的な辞書に登録された情報に対応するメタデータのみが抽出可能となるが、インタラクションの結果として取得された新たなコンテンツ対応情報としてインタラクションベースのメタデータを参照することでコンテンツの撮影時の状況に応じた最適な辞書を選択することが可能となり、この最適な辞書を利用した画像や音声の解析、すなわち識別処理が実行されることになり、より精度高くコンテンツメタデータを抽出することが可能となる。
図4に示す例では、この新たなメタデータ抽出処理によって、
(ステップS4)写真A401に対して新たに「母」というメタデータ431、
(ステップS5)写真Bに対して「ジェットコースター」といったメタデータ432、
これらの新たなメタデータを抽出してコンテンツ対応のメタデータとして記録することが可能となる。
このようにして抽出したメタデータは、それぞれのコンテンツに対応するメタデータとして記憶部233に記録される。
写真に付与された自動記録されたデータである撮影日時の情報から、写真Aと写真Bとは同一のイベントに対応する一連の写真であると判断できるので、インタラクションメタデータ422は、両方の写真に対して付与することができる。
写真A401に対するメタデータしては、コンテンツベースのメタデータ411,431、およびインタラクションベースのメタデータ421,422が記録され、
写真B402に対するメタデータしては、コンテンツベースのメタデータ412,432,およびインタラクションベースのメタデータ422が記録される。
次に、本発明の情報処理装置において実行する各種の処理のシーケンスについて説明する。以下に示す(A)〜(C)の各処理について、順次、説明する。
(A)コンテンツ入力処理時のシーケンス(図5)
(B)コンテンツ鑑賞処理時のシーケンス(図6)
(C)インタラクション処理後のメタデータ再抽出処理シーケンス(図7)
(A)コンテンツ入力処理時のシーケンス
まず、図5に示すフローチャートを参照してコンテンツ入力処理時のシーケンスについて説明する。ステップS101において、図2に示すコンテンツ入力部231を介して、コンテンツが情報処理装置に取り込まれると、入力コンテンツデータはコンテンツ制御部232を介してメタデータ生成部250に供給される。
ステップS102において、メタデータ生成部250は、コンテンツを構成する画像および音声情報の解析により、コンテンツベースのメタデータを抽出する。すなわち、図3に示す構成を持つメタデータ生成部は、図3に示す各識別処理部311〜318を適用して、辞書データ321〜324や予め登録された判定基準情報を利用してコンテンツに基づくメタデータの生成処理を実行する。
ステップS103において、メタデータ生成部250がコンテンツに基づいて生成したコンテンツメタデータはコンテンツ制御部232に提供され、コンテンツデータとともにコンテンツ対応のメタデータとして記憶部233に格納される。
(B)コンテンツ鑑賞処理時のシーケンス
次に、図6に示すフローチャートを参照してコンテンツ鑑賞処理時のシーケンスについて説明する。ステップS201において、まず、ユーザが装置の電源を入れると、ステップS202において、図2に示すデータ入力部210のカメラ211とマイク212を使ってユーザの観察が開始される。この処理は電源がOFFになるまで続く。
コンテンツを鑑賞したいユーザは、装置に対して、マイク212からの音声入力や、ユーザ入力部249(例えばリモコン)によって、コンテンツの再生を指示する。ステップS203において、制御部243が、コンテンツ再生指示情報を入力したと判定すると、ステップS204に進み、コンテンツ制御部232に対してコンテンツの再生を指示し、コンテンツ制御部232は記憶部233からコンテンツデータを読み出し、データ出力部220を介して再生する。
また、ステップS205において、制御部243が、コンテンツ再生終了指示情報を入力したと判定すると、ステップS206に進み、コンテンツ制御部232に対してコンテンツの再生終了を指示し、コンテンツ制御部232は記憶部233からのコンテンツデータを読み出し処理を終了する。
ステップS207以下の処理は、情報処理装置とユーザ間のインタラクションに基づくインタラクションベースのメタデータの取得処理である。この処理は、装置の電源がオフとなるまで実行される。これらの処理は、コンテンツの再生中にのみ実行する処理としてもよいが、コンテンツの再生の有無に関わらず実行可能な処理であり、本フローでは、コンテンツ再生中か否かに関わらず実行される処理としている。
ステップS207では、制御部243において、カメラ211の入力画像の画像処理部241での処理結果、マイク212から入力する音声データの音声処理部242の処理結果から推定されるユーザ状態と、再生しているコンテンツから抽出されたコンテンツメタデータを利用してシステム全体の制御を行うとともに、インタラクション実行部247に対して、ユーザに対する適切なインタラクション、例えば質問の生成、出力を指示する。インタラクション実行部247は、制御部243から提供されたデータに基づきユーザに対して質問を提示するなどのインタラクションを実行する。具体的には、データ出力部220のディスプレイ221にGUIを提示する処理、音声合成データを、スピーカー222を介して出力する処理などを実行する。
なお、先に図4を参照して説明したように、インタラクション実行時には、コンテンツに対応して設定済みのコンテンツベースのメタデータと、ユーザのアクション情報が利用される。既に付与されているコンテンツメタデータを利用する例としては、例えばデジカメで撮影した静止画の中に、家族全員の写っている記念写真が検出されており、そのコンテンツに対応するコンテンツベースのメタデータとして、[家族]や、家族の名前が登録されている場合、インタラクション実行部247は、「これは何の時の写真ですか?」といった形でユーザに質問する処理が行なわれる。
この質問の出力に応じて、「みんなで遊園地に行った時の写真だよ」といったユーザからの応答を得て、それをマイク212を通じて装置に入力し、ステップS208において、インタラクションメタデータ生成部246が、例えば音声認識処理を行うことによってテキスト化して、メタデータとして生成する。
ステップS208のインタラクションメタデータ生成部246におけるインタラクションメタデータの生成処理としては、先に図4を参照して説明した処理のみならず、例えば、以下のようなデータを抽出し、これをメタデータとする処理が行なわれる。すなわち、
(a)コンテンツの再生時間
(b)コンテンツ鑑賞しているのは誰か
(c)コンテンツの注視時間
(d)鑑賞者の視線の向き
(e)誰がいつどんな発話をしたか
(f)笑い声、笑い顔、泣き声などの感情的な動作
これらの情報が、インタラクションメタデータ生成部246において抽出される。なお、(a)コンテンツの再生時間については、装置の持つタイマ情報を入力して計測する。その他の(b)〜(d)の各情報については、図3に示す構成中の各識別処理部の処理によって取得する。
ステップS209では、メタデータ統合部245において、インタラクションメタデータ生成部246において抽出されたインタラクションベースメタデータと、メタデータ生成部250においてコンテンツに基づいて抽出されたコンテンツベースメタデータを統合したメタデータを作成する。
メタデータ統合部245は、インタラクションメタデータ生成部の生成したインタラクションベースのメタデータや、メタデータ生成部250の生成したコンテンツベースのメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行する。すなわち、動画や録音コンテンツのどの時刻部分を再生しているときに、どのメタデータが得られたかといった情報が保持されるようにメタデータの合成を行う。
また、メタデータ統合部245は、メタデータにユーザの発話内容が含まれる場合、解析処理としていわゆる大語彙連続音声認識を利用して発話を漢字仮名混じりテキストとして書き起こしたり、発話中のキーワードのみを抽出したり、あるいは音素、音節などの形で書き起こすことなどの処理を実行する。
最後に、ステップS210において、コンテンツ制御部232が、インタラクションメタデータ生成部246において抽出されたインタラクションベースメタデータと、メタデータ生成部250においてコンテンツに基づいて抽出されたコンテンツベースメタデータの統合処理結果を、コンテンツデータと関連付けた状態で記憶部233に保存する。以上の処理が、ステップS211において電源オフと判定されるまで、継続して実行される。
(C)インタラクション処理後のメタデータ再抽出処理シーケンス
次に、図7に示すフローチャートを参照してインタラクション処理後のメタデータ再抽出処理シーケンスについて説明する。この処理は、例えば、装置の電源がOFFになっていて、ユーザとのインタラクションが行われていない時に、バックグラウンドで行うことができる。ただし、実行する時期は限定されず、図6を参照して説明したインタラクションベースのメタデータ抽出処理に並列して実行する構成としてもよい。
まず、ステップS301において、制御部243の制御の下、記憶部233に格納されたコンテンツとコンテンツ対応情報として記録されたメタデータを、メタデータ生成部250に入力する。このメタデータには、インタラクションメタデータ生成部246において抽出されたインタラクションベースメタデータと、メタデータ生成部250においてコンテンツに基づいて抽出されたコンテンツベースメタデータの両者を含んでいる。
次に、ステップS302において、メタデータ生成部250は、先に図3を参照して説明した各識別処理部311〜318の処理によりコンテンツの構成データとしての画像および音声データの解析を実行し、コンテンツデータに対するコンテンツメタデータを生成する。
先に説明したように、この処理に際しては、例えば、インタラクションメタデータを参照して、コンテンツに関連する辞書を選択するなどの処理を行い、コンテンツに対応した処理を実行する。
例えば、図5のフローを参照して説明したコンテンツの入力時のメタデータ生成に際しては、インタラクションメタデータが存在しないので、一般的な辞書を適用したメタデータ抽出を実行するしかない。例えば画像データに基づく顔識別処理では、汎用的な顔データを保持した辞書を用いて顔画像認識を行い、音声データを適用した識別処理においても一般的な辞書を用いて音声認識を行なうことになる。
それに対して、インタラクションメタデータによって、コンテンツがどのようなコンテンツであるかを推定できる場合、その推定情報に基づいて適用辞書を限定することが可能となる。先に図4を参照して説明した例では、インタラクションの結果、インタラクションベースのメタデータとして、「家族」「遊園地」が取得されているので、これらのインタラクションベースメタデータに基づいて、これらのデータに関連する辞書を優先的に選択してコンテンツとしての画像および音声データと辞書登録データとの照合処理によるメタデータ抽出を実行することができる。
例えば、インタラクションの結果、インタラクションベースのメタデータとして、「職場」、「宴会」等のメタデータが設定されている場合、このメタデータに基づいて、職場関係の人間だけの顔データを保持した辞書を用いて顔画像認識を行なうことが可能であり、認識率を向上させてより精度の高いメタデータ抽出および記録が可能となる。
最後に、ステップS303において、生成したコンテンツメタデータをコンテンツ制御部232の制御の下、コンテンツデータとともに記憶部233に保存する。
このように、本発明の情報処理装置では、コンテンツデータの解析に基づくコンテンツベースのメタデータを抽出して記録するのみならず、例えばコンテンツを鑑賞中のユーザとのインタラクションを実行して、インタラクション実行時のユーザ画像や音声情報を取得してこれらの入力情報の解析に基づいてインタラクションベースのメタデータを抽出し、さらに、抽出したインタラクションベースのメタデータを参照することでコンテンツの内容を推定して、適用する辞書を限定したメタデータ抽出を実行することで、コンテンツに対応した精度の高いメタデータをコンテンツに対応付けて設定して記録することが可能となる。また、本発明の構成では、ユーザによるメタデータの設定といったユーザ負担を何ら発生させることなく、例えばリビングで、みんなでコンテンツを観賞しながら、楽しみながらメタデータの抽出、記録処理を実行することができる。
最後に、上述した処理を実行する情報処理装置のハードウェア構成例について、図8を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理、上述の実施例において説明したデータ処理部の実行主体として機能する。具体的には、コンテンツに基づくコンテンツベースのメタデータ抽出、記録処理、ユーザとのインタラクションの実行処理、インタラクションに基づくインタラクションベースのメタデータの生成、記録処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
ユーザ入力部508は、キーボード、ポインティングデバイスなどであり、ユーザにより操作される入力デバイスである。データ入力部509は、図2に示すカメラ211、マイク212によって構成される。データ出力部510は、図2に示すディスプレイ221、スピーカー222などによって構成される。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えばコンテンツおよびメタデータなどの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続されている。例えばメタデータ抽出処理に際して取得する辞書データは通信部515を介して入力する構成とすることができる。
なお、図8に示す情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、図8に示す構成に限らず、上述した実施例において説明した処理を実行可能な様々な装置が適用可能である。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、例えばコンテンツを鑑賞中のユーザとのインタラクションを実行して、インタラクション実行時のユーザ画像や音声情報を取得してこれらの入力情報の解析に基づいてインタラクションベースのメタデータを抽出して、コンテンツ対応のメタデータとして記録することが可能となる。本発明の構成によれば、ユーザによるメタデータの設定といったユーザ負担を何ら発生させることなく、例えばリビングで、みんなでコンテンツを観賞しながら、楽しみながらメタデータの抽出、記録処理を実行することができる装置が実現される。
さらに、本発明の情報処理装置の一実施例構成によれば、コンテンツベースのメタデータ抽出処理に際しても、インタラクションベースのメタデータを参照することでコンテンツの内容を推定して、適用する辞書を限定したメタデータ抽出を実行することが可能となり、コンテンツに対応した精度の高いメタデータをコンテンツに対応付けて設定して記録することが可能となる装置が実現される。
本発明の情報処理装置の利用例について説明する図である。 本発明の情報処理装置の構成例および処理例について説明する図である。 本発明の情報処理装置のメタデータ抽出処理構成例および処理例について説明する図である。 本発明の情報処理装置のメタデータ抽出処理理例について説明する図である。 本発明の情報処理装置のコンテンツ入力時の処理シーケンスについて説明するフローチャートを示す図である。 本発明の情報処理装置のコンテンツ鑑賞時の処理シーケンスについて説明するフローチャートを示す図である。 本発明の情報処理装置のインタラクション処理後のメタデータ再抽出処理シーケンスについて説明するフローチャートを示す図である。 情報処理装置のハードウェア構成例について説明する図である。
符号の説明
10 コンテンツ
100 情報処理装置
101 ディスプレイ
102 スピーカー
103 カメラ
104 マイク
200 情報処理装置
210 データ入力部
211 カメラ
212 マイク
220 データ出力部
221 ディスプレイ
222 スピーカー
231 コンテンツ入力部
232 コンテンツ制御部
233 記憶部
241 画像処理部
242 音声処理部
243 制御部
245 メタデータ統合部
246 インタラクションメタデータ生成部
247 インタラクション実行部
248 出力制御部
249 ユーザ入力部
250 メタデータ生成部
300 メタデータ生成部
301 解析データ切り替え部
311 顔識別処理部
312 一般物体識別処理部
313 話者識別処理部
314 音声認識処理部
315 笑顔識別処理部
316 笑い声識別処理部
317 叫び声識別処理部
318 泣き声識別処理部
321 顔識別用辞書データ
322 一般物体識別用辞書データ
323 話者識別用辞書データ
324 音声認識用辞書データ
331 メタデータ決定部
411,412 メタデータ
421,422 メタデータ
431.432 メタデータ
501 CPU(Central Processing Unit)
502 ROM(Read−Only−Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 ユーザ入力部
509 データ入力部
510 データ出力部
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (15)

  1. コンテンツに対応するメタデータの生成処理を実行する情報処理装置であり、
    再生コンテンツを出力するデータ出力部と、
    再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力部と、
    生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定する制御部と、
    前記制御部の決定した質問を実行するインタラクション実行部と、
    前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成部と、
    前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録するコンテンツ制御部と、
    を有することを特徴とする情報処理装置。
  2. 前記インタラクションメタデータ生成部は、
    顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、さらに、
    コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成部を有し、
    該メタデータ生成部は、
    コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行する構成であり、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  4. 前記メタデータ生成部は、
    顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行する構成であることを特徴とする請求項3に記載の情報処理装置。
  5. 前記メタデータ生成部は、
    前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする請求項3に記載の情報処理装置。
  6. 前記情報処理装置は、さらに
    情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するメタデータ統合部を有することを特徴とする請求項1に記載の情報処理装置。
  7. 前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む構成である請求項1〜6いずれかに記載の情報処理装置。
  8. 情報処理装置において、コンテンツに対応するメタデータの生成処理を実行する情報処理方法であり、
    データ出力部において、再生コンテンツを出力するデータ出力ステップと、
    データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力するデータ入力ステップと、
    制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定するアクション決定ステップと、
    インタラクション実行部において、前記制御部の決定した質問を実行するインタラクション実行ステップと、
    インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成するインタラクションメタデータ生成ステップと、
    コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録する記録ステップと、
    を有することを特徴とする情報処理方法。
  9. 前記インタラクションメタデータ生成ステップは、
    顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする請求項に記載の情報処理方法。
  10. 前記情報処理方法は、さらに、
    メタデータ生成部において、コンテンツを構成する画像および音声データに基づくメタデータを生成するメタデータ生成ステップを有し、
    該メタデータ生成ステップは、
    コンテンツを構成する画像または音声データと、辞書データとの照合処理によって、コンテンツベースのメタデータを生成する処理を実行し、前記インタラクションメタデータ生成部において生成したメタデータに基づいて推定されるコンテンツ情報に基づいて、適用辞書を選択して照合処理を実行することを特徴とする請求項に記載の情報処理方法。
  11. 前記メタデータ生成ステップは、
    顔識別処理、一般物体識別処理、笑顔識別処理、話者識別処理、音声認識処理、笑い声識別処理、叫び声識別処理、泣き声識別処理の少なくともいずれかの識別処理または認識処理を実行して該識別処理または認識処理に基づいてメタデータの抽出を実行するステップであることを特徴とする請求項10に記載の情報処理方法。
  12. 前記メタデータ生成ステップは、
    前記インタラクションメタデータ生成部において生成したメタデータに関連する辞書を選択して、該選択辞書から再生コンテンツに対応する新たなメタデータを抽出する処理を実行する構成であることを特徴とする請求項10に記載の情報処理装置。
  13. 前記情報処理方法は、さらに、
    メタデータ統合部において、情報処理装置において生成したメタデータを、再生コンテンツの再生時間情報に対応付けるメタデータ統合処理を実行するステップを有することを特徴とする請求項に記載の情報処理方法。
  14. 前記再生コンテンツ情報は、前記インタラクションメタデータ生成部の生成したメタデータを含む請求項8〜13いずれかに記載の情報処理方法。
  15. 情報処理装置において、コンテンツに対応するメタデータの生成処理を実行させるコンピュータ・プログラムであり、
    データ出力部において、再生コンテンツを出力させるデータ出力ステップと、
    データ入力部において、再生コンテンツを鑑賞するユーザの画像または音声の少なくともいずれかのデータを入力させるデータ入力ステップと、
    制御部において、再生コンテンツ情報に基づいて前記ユーザに対するアクションとしての質問を決定させるアクション決定ステップと、
    インタラクション実行部において、前記制御部の決定した質問を実行させるインタラクション実行ステップと、
    インタラクションメタデータ生成部において、前記データ入力部を介して取得する前記インタラクション実行結果である前記質問に対するユーザの反応または応答を含むユーザの画像または音声の少なくともいずれかの入力情報の解析を実行し、再生コンテンツに対応するメタデータを生成させるインタラクションメタデータ生成ステップと、
    コンテンツ制御部において、前記インタラクションメタデータ生成部の生成したメタデータを、再生コンテンツに対応するメタデータとして記録させる記録ステップと、
    を実行させることを特徴とするコンピュータ・プログラム。
JP2006160710A 2006-06-09 2006-06-09 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Expired - Fee Related JP4175390B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006160710A JP4175390B2 (ja) 2006-06-09 2006-06-09 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
EP07011148.9A EP1865426B1 (en) 2006-06-09 2007-06-06 Information processing apparatus, information processing method, and computer program
KR1020070056003A KR20070118038A (ko) 2006-06-09 2007-06-08 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
US11/760,105 US7945439B2 (en) 2006-06-09 2007-06-08 Information processing apparatus, information processing method, and computer program
CN2007101107561A CN101086741B (zh) 2006-06-09 2007-06-11 信息处理装置及信息处理方法
CN2009101623865A CN101655867B (zh) 2006-06-09 2007-06-11 信息处理装置及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006160710A JP4175390B2 (ja) 2006-06-09 2006-06-09 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2007328675A JP2007328675A (ja) 2007-12-20
JP4175390B2 true JP4175390B2 (ja) 2008-11-05

Family

ID=38462507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006160710A Expired - Fee Related JP4175390B2 (ja) 2006-06-09 2006-06-09 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Country Status (5)

Country Link
US (1) US7945439B2 (ja)
EP (1) EP1865426B1 (ja)
JP (1) JP4175390B2 (ja)
KR (1) KR20070118038A (ja)
CN (2) CN101655867B (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5426843B2 (ja) * 2008-06-25 2014-02-26 キヤノン株式会社 情報処理装置、情報処理方法、プログラムおよびプログラムを格納する記憶媒体
EP2315439B1 (en) 2008-08-22 2018-10-17 Saturn Licensing LLC Image display device, control method and computer program
JP2010055409A (ja) * 2008-08-28 2010-03-11 Nec Personal Products Co Ltd キーワード抽出装置、キーワード抽出方法及びプログラム
JP5371083B2 (ja) * 2008-09-16 2013-12-18 Kddi株式会社 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体
JP2010081457A (ja) * 2008-09-29 2010-04-08 Hitachi Ltd 情報記録再生装置およびビデオカメラ
JP5195291B2 (ja) * 2008-10-30 2013-05-08 トヨタ自動車株式会社 対応付けデータベース構築方法、物体情報認識方法、物体情報認識システム
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US20120059855A1 (en) * 2009-05-26 2012-03-08 Hewlett-Packard Development Company, L.P. Method and computer program product for enabling organization of media objects
US8872910B1 (en) * 2009-06-04 2014-10-28 Masoud Vaziri Method and apparatus for a compact and high resolution eye-view recorder
JP5403340B2 (ja) 2009-06-09 2014-01-29 ソニー株式会社 情報処理装置および方法、並びにプログラム
KR101660271B1 (ko) * 2009-08-21 2016-10-11 삼성전자주식회사 메타데이터 태깅 시스템, 이미지 검색 방법, 디바이스 및 이에 적용되는 제스처 태깅방법
JP5458815B2 (ja) * 2009-11-11 2014-04-02 株式会社デンソーアイティーラボラトリ マルチメディア検索システム
JP5463873B2 (ja) * 2009-11-20 2014-04-09 株式会社デンソーアイティーラボラトリ マルチメディア分類システム及びマルチメディア検索システム
WO2011083732A1 (ja) * 2010-01-07 2011-07-14 サイバーアイ・エンタテインメント株式会社 情報処理システム
CA2817103C (en) 2010-11-11 2016-04-19 Google Inc. Learning tags for video annotation using latent subtags
US9129604B2 (en) 2010-11-16 2015-09-08 Hewlett-Packard Development Company, L.P. System and method for using information from intuitive multimodal interactions for media tagging
EP2466538A1 (en) 2010-12-20 2012-06-20 Alcatel Lucent Media asset management system
JP5949766B2 (ja) * 2011-07-08 2016-07-13 日本電気株式会社 サービス提供装置、サービス提供方法、及び、記憶媒体
US8849819B2 (en) * 2011-08-05 2014-09-30 Deacon Johnson System and method for controlling and organizing metadata associated with on-line content
JP5611155B2 (ja) * 2011-09-01 2014-10-22 Kddi株式会社 コンテンツに対するタグ付けプログラム、サーバ及び端末
US9098533B2 (en) 2011-10-03 2015-08-04 Microsoft Technology Licensing, Llc Voice directed context sensitive visual search
WO2013175608A1 (ja) * 2012-05-24 2013-11-28 株式会社日立製作所 画像解析装置、画像解析システム、画像解析方法
JP5876397B2 (ja) * 2012-10-02 2016-03-02 日本電信電話株式会社 文字付与プログラム、文字付与方法および情報処理装置
WO2014083608A1 (ja) * 2012-11-27 2014-06-05 株式会社日立製作所 計算機、計算機システム、及びデータ管理方法
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
JP6138709B2 (ja) * 2014-02-10 2017-05-31 日本電信電話株式会社 ライフログ連携対話システム、ライフログ連携対話方法及びプログラム
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
CN105551504B (zh) * 2015-12-03 2019-04-23 Oppo广东移动通信有限公司 一种基于哭声触发智能移动终端功能应用的方法及装置
JP2018081390A (ja) * 2016-11-14 2018-05-24 Jcc株式会社 録画装置
JP6858003B2 (ja) * 2016-11-14 2021-04-14 Jcc株式会社 分類検索システム
CN106791119B (zh) * 2016-12-27 2020-03-27 努比亚技术有限公司 一种照片处理方法、装置及终端
US10469755B2 (en) * 2017-05-16 2019-11-05 Google Llc Storing metadata related to captured images
KR101986307B1 (ko) * 2017-08-29 2019-06-05 서울대학교산학협력단 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
JP7171985B2 (ja) * 2018-12-10 2022-11-16 株式会社エビデント 情報処理装置、情報処理方法、及びプログラム
WO2023047657A1 (ja) * 2021-09-22 2023-03-30 ソニーグループ株式会社 情報処理装置および情報処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229180A (ja) 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置
JP2003178078A (ja) 2001-12-12 2003-06-27 Matsushita Electric Ind Co Ltd 画像、音声データへの付加用標識データとその付加方法
EP1762949A3 (en) * 2001-12-26 2007-08-08 Eastman Kodak Company Digital imaging method using importance rating
JP2003228569A (ja) 2002-02-04 2003-08-15 Nippon Telegraph & Telephone East Corp メタデータ付与方法およびメタデータ付与装置
JP3781715B2 (ja) 2002-11-01 2006-05-31 松下電器産業株式会社 メタデータ制作装置及び検索装置
MXPA04012865A (es) * 2002-06-24 2005-03-31 Matsushita Electric Ind Co Ltd Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion.
US7233684B2 (en) * 2002-11-25 2007-06-19 Eastman Kodak Company Imaging method and system using affective information
US20040174434A1 (en) * 2002-12-18 2004-09-09 Walker Jay S. Systems and methods for suggesting meta-information to a camera user
JP2006050105A (ja) * 2004-08-02 2006-02-16 Toshiba Corp メタデータの構造及びその再生装置と方法
WO2006021943A1 (en) * 2004-08-09 2006-03-02 Nice Systems Ltd. Apparatus and method for multimedia content based
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
EP1963958B1 (en) * 2005-12-21 2019-04-24 Digimarc Corporation Rules driven pan id metadata routing system and network
US8577856B2 (en) * 2007-10-05 2013-11-05 Aharon Mizrahi System and method for enabling search of content
US8385588B2 (en) * 2007-12-11 2013-02-26 Eastman Kodak Company Recording audio metadata for stored images

Also Published As

Publication number Publication date
JP2007328675A (ja) 2007-12-20
US7945439B2 (en) 2011-05-17
CN101086741B (zh) 2012-03-21
CN101655867A (zh) 2010-02-24
CN101086741A (zh) 2007-12-12
EP1865426B1 (en) 2018-03-07
CN101655867B (zh) 2012-11-14
US20080010060A1 (en) 2008-01-10
KR20070118038A (ko) 2007-12-13
EP1865426A3 (en) 2012-05-02
EP1865426A2 (en) 2007-12-12

Similar Documents

Publication Publication Date Title
JP4175390B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20090150147A1 (en) Recording audio metadata for stored images
JP2007041988A (ja) 情報処理装置および方法、並びにプログラム
WO2004002144A1 (ja) メタデータ作成装置、その作成方法および検索装置
TW201327546A (zh) 語音處理系統及語音處理方法
WO2014161282A1 (zh) 视频文件播放进度的调整方法及装置
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
WO2016197708A1 (zh) 一种录音方法及终端
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
WO2023029984A1 (zh) 视频生成方法、装置、终端、服务器及存储介质
JP3781715B2 (ja) メタデータ制作装置及び検索装置
JP2010055409A (ja) キーワード抽出装置、キーワード抽出方法及びプログラム
JP2009111938A (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
JP5320913B2 (ja) 撮像装置およびキーワード作成プログラム
JP2017021672A (ja) 検索装置
JP2012178028A (ja) アルバム作成装置、アルバム作成装置の制御方法、及びプログラム
JP2004023661A (ja) 記録情報処理方法、記録媒体及び記録情報処理装置
JP2009283020A (ja) 記録装置、再生装置、及びプログラム
JP5195291B2 (ja) 対応付けデータベース構築方法、物体情報認識方法、物体情報認識システム
JP2004208188A (ja) 記録装置、記録方法、記録プログラム、および記録検索装置
KR20070042000A (ko) 동영상 스트림의 챕터 별 제목 설정 방법 및 장치
JP7288491B2 (ja) 情報処理装置、及び制御方法
JP2005065191A (ja) 動画メタデータ自動作成装置及び動画メタデータ自動作成プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080811

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4175390

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130829

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees