JP2007281618A

JP2007281618A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2007281618A
Application number: JP2006102348A
Authority: JP
Inventors: Kazushi Kondo; 量資近藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-04-03
Filing date: 2006-04-03
Publication date: 2007-10-25

Abstract

【課題】ユーザの会話の内容と関連のある画像を検索するのに用いられるメタデータを、容易に、画像に付加することができるようにする。
【解決手段】テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザにより行われている会話がテレビジョン放送受信装置１−１により認識され、認識結果であるテキストデータからキーワードが抽出される。抽出されたキーワードは、キーワードの抽出元となる会話が行われていたときに双方のテレビジョン放送受信装置において注目されていた画像のメタデータとして付加される。付加されたメタデータは、ユーザ間で行われている会話の内容と関連のある画像を検索するために用いられる。本発明は、他の機器と通信を行いながら画像を表示する機器に適用することができる。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えばユーザの会話の内容と関連のある画像を検索するのに用いられるメタデータを、容易に、画像に付加することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

近年、インターネットを利用して離れた場所にいる人とのコミュニケーションを図るシステムが注目されている。このようなシステムには、映像と音声を相互に送受信することによってコミュニケーションを図るテレビ電話システム、音声だけを相互に送受信することによってコミュニケーションを図るVoIP(Voice over IP)システム、テキストデータを送受信することによってコミュニケーションを図るチャットシステムなどがある。

また、同じ画像を双方の装置で表示させつつ、VoIPを使って音声会話を行うシステムも提案されている。これにより、一方の装置のユーザは、離れた場所にいる知人などの他の装置のユーザに対して自分が撮影した画像を見せながら会話を楽しむことができる。以下、適宜、VoIPを使って会話を行いながら複数のユーザが同じ画像を鑑賞することをフォトシェアリングという。

特許文献１には、複数のPC(Personal Computer)の画面に同じアルバムに掲載される画像が表示されている状態で一方のPCのユーザにより所定の画像の上にカーソルが移動されたとき、移動先の画像に割り当てられているURL(Uniform Resource Locator)が他方のPCに送信され、送信されたURLに基づいて、他方のPCにおいても同じ画像の上にカーソルが移動される技術が開示されている。
特開２００４−２８０６３４号公報

従来のフォトシェアリングは、例えば、一方の装置のユーザが、ネットワーク上の所定のサーバにあらかじめアップロードして保存させておいた画像の中から共有対象の画像を自ら探して選択することによって、あるいは、自分自身が使う装置のハードディスクなどに保存させておいた画像の中から共有対象の画像を自ら探して選択することによって行われる。

共有対象の画像が一方の装置のユーザにより選択されたとき、選択された画像が表示されるとともに、選択された画像の情報が他方の装置に送信され、その、他方の装置においても、共有対象として選択された画像と同じ画像が表示され、これにより、双方の装置において同じ画像が表示されることになる。

したがって、従来のフォトシェアリングにおいては、共有対象の画像をユーザが自ら探す必要があり、手間がかかる。

実際のフォトシェアリングの使い方を考えた場合、ある画像に注目し、その画像について会話をしているときに、それに関連する他の画像も見せたいと思うことがよくあり、そのようなときに、特に、画像を探すという手間が煩わしくなる。例えば、旅行の画像に注目して会話をしており、一緒に旅行した人の画像や旅行先にある建物の画像を見せたいと思ったときにすぐにその画像を探すことができないとき、会話をスムーズに進めることができない。

画像にタグと呼ばれるメタデータを手動で付け、付けたメタデータに基づいて共有する画像を検索することができるサービスを提供するWebサイト（例えば、Flickr（商標））もあるものの、当然、画像の検索を行うためには、タグを手動で入力する必要がある。

本発明はこのような状況に鑑みてなされたものであり、例えばユーザの会話の内容と関連のある画像を検索するのに用いられるメタデータを、容易に、画像に付加することができるようにするものである。

本発明の第１の側面の情報処理装置は、ネットワークを介して他の情報処理装置と接続される情報処理装置において、自分自身の装置と前記他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出する抽出手段と、前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段とを備える。

前記抽出手段により抽出されたキーワードと同じキーワードがメタデータとして付加されている画像を検索する検索手段をさらに設けることができる。

前記検索手段により検索された画像を表示させる表示制御手段をさらに設けることができる。

前記表示制御手段には、注目する画像として選択可能な画像と、その中から注目する画像として選択された画像と、前記検索手段により検索された画像とを同じ画面に表示させることができる。

前記表示制御手段には、前記検索手段により検索された複数の画像を、注目された時間、注目された回数、付加されているキーワードの数のうちの少なくともいずれかに基づいて並べて表示させることができる。

前記抽出手段により抽出されたキーワードを表示させる表示制御手段をさらに設けることができる。この場合、前記付加手段には、前記表示制御手段により表示されたキーワードのうち、ユーザにより選択されたキーワードを、注目されていた画像のメタデータとして前記画像に付加させることができる。

本発明の第１の側面の情報処理方法またはプログラムは、自分自身の装置と他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出し、抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加するステップを含む。

本発明の第２の側面の情報処理装置は、ユーザによる発話からキーワードを抽出する抽出手段と、前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段とを備える。

本発明の第２の側面の情報処理方法またはプログラムは、ユーザによる発話からキーワードを抽出し、抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加するステップを含む。

本発明の第１の側面においては、自分自身の装置と他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードが抽出される。また、抽出されたキーワードが、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加される。

本発明の第２の側面においては、ユーザによる発話からキーワードが抽出され、抽出されたキーワードが、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加される。

本発明によれば、例えばユーザの会話の内容と関連のある画像を検索するのに用いられるメタデータを、容易に、画像に付加することができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外には対応しないものであることを意味するものでもない。

本発明の第１の側面の情報処理装置（例えば、図１のテレビジョン放送受信装置１−１）は、ネットワークを介して他の情報処理装置（例えば、図１のテレビジョン放送受信装置１−２）と接続される情報処理装置において、自分自身の装置と前記他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出する抽出手段（例えば、図１０のキーワード抽出部７２）と、前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段（例えば、図１０のメタデータ付加部７４）とを備える。

この情報処理装置には、前記抽出手段により抽出されたキーワードと同じキーワードがメタデータとして付加されている画像を検索する検索手段（例えば、図１０の検索部７５）をさらに設けることができる。

前記検索手段により検索された画像を表示させる表示制御手段（例えば、図１０の表示制御部７３）をさらに設けることができる。

前記抽出手段により抽出されたキーワードを表示させる表示制御手段（例えば、図１０の表示制御部７３）をさらに設けることができる。

本発明の第１の側面の情報処理方法またはプログラムは、自分自身の装置と他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出し、抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加するステップ（例えば、図１５のステップＳ２５）を含む。

本発明の第２の側面の情報処理装置（例えば、図１のテレビジョン放送受信装置１−１）は、ユーザによる発話からキーワードを抽出する抽出手段（例えば、図１０のキーワード抽出部７２）と、前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段（例えば、図１０のメタデータ付加部７４）とを備える。

本発明の第２の側面の情報処理方法またはプログラムは、ユーザによる発話からキーワードを抽出し、抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加するステップ（例えば、図１５のステップＳ２５）を含む。

以下、本発明の実施の形態について図を参照して説明する。

図１は、本発明の一実施形態に係る通信システムの構成例を示す図である。

図１に示されるように、この通信システムは、テレビジョン放送受信装置１−１と１−２がインターネットなどよりなるネットワーク２を介して相互に接続されることによって構成される。３つ以上のテレビジョン放送受信装置がネットワーク２に接続されるようにしてもよい。

テレビジョン放送受信装置１−１と１−２は、それぞれがマイクロフォンとスピーカを有しており、マイクロフォンによって取り込まれたユーザの音声のデータを、通信相手のテレビジョン放送受信装置にネットワーク２を介して送信するとともに、その通信相手のテレビジョン放送受信装置によって取り込まれ、ネットワーク２を介して送信されてきたデータに基づいて通信相手のテレビジョン放送受信装置のユーザの音声をスピーカから出力させる。すなわち、テレビジョン放送受信装置１−１と１−２は、VoIPによる音声会話の機能を有している。

また、テレビジョン放送受信装置１−１と１−２は、例えばディジタルカメラによって撮影された画像をメモリカードやケーブルなどを介して取り込み、取り込んだ画像を表示する機能も有している。

したがって、テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザは、それぞれが利用する装置に同じ画像を表示させながらVoIPを利用した会話を行うフォトシェアリングを行うことができる。

例えば、フォトシェアリングを実現するアプリケーションがテレビジョン放送受信装置１−１と１−２の双方において起動され、テレビジョン放送受信装置１−１のユーザがフォトシェアリングを行う相手としてテレビジョン放送受信装置１−２のユーザを選択したとき、VoIPによる音声会話ができるようにテレビジョン放送受信装置１−１と１−２の間で通信が確立される。

また、このとき、テレビジョン放送受信装置１−１に取り込んだ複数の画像をテレビジョン放送受信装置１−１のユーザが選択することに応じて、テレビジョン放送受信装置１−１には、選択された複数の画像のサムネイル画像が表示されるとともに、１つの画像が注目され、注目された画像がサムネイル画像より大きなサイズで表示される。

テレビジョン放送受信装置１−１に表示されている画面の情報は、例えば表示の内容が切り替わる毎にテレビジョン放送受信装置１−２に送信され、テレビジョン放送受信装置１−１に表示されている画面と同様の画面がテレビジョン放送受信装置１−２においても表示される。これにより、テレビジョン放送受信装置１−１のユーザによりいま注目されている画像と同じ画像が、テレビジョン放送受信装置１−２においても大きなサイズで表示される。

このように、テレビジョン放送受信装置１−１に表示されるのと同じようにしてテレビジョン放送受信装置１−２においても画像が表示されるから、テレビジョン放送受信装置１−２のユーザが離れた場所にいる場合であっても、テレビジョン放送受信装置１−１のユーザは、見せたい画像に注目してそれについてテレビジョン放送受信装置１−２のユーザと会話をすることができる。

なお、テレビジョン放送受信装置１−１においては、テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザにより行われている会話が音声認識によりテキストデータ化され、認識結果であるテキストデータから形態素解析などによってキーワードが抽出されるようになされている。抽出されたキーワードは、取り込まれた画像に対してメタデータとして付加され、テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザが行っている会話の内容と関連のある画像を検索するなどのために用いられる。

例えば、テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザが行っている会話から抽出されたキーワードと、メタデータとして画像に既に付加されているキーワードのマッチングが行われ、会話から抽出されたキーワードと同じキーワードがメタデータとして付加されている画像が検索結果として取得される。

検索結果として取得された画像のサムネイル画像はテレビジョン放送受信装置１−１のユーザに提示され、テレビジョン放送受信装置１−１のユーザは、提示された画像の中から、注目して話題にするような画像を選択することができる。

このように、テレビジョン放送受信装置１−２のユーザとの会話の内容に関連のある画像が自動的に提示されるから、テレビジョン放送受信装置１−１のユーザは、提示される画像に次々と注目し、注目した画像をテレビジョン放送受信装置１−２にも表示させることによって、会話の内容に関連のある画像を探すことを自ら手動で行う必要はなく、会話に集中することができる。

また、注目している画像に関連のある画像ではなく、会話の内容に関連のある画像が提示されるから、注目している画像についての会話から内容がそれてしまった場合であっても、テレビジョン放送受信装置１−１のユーザは、テレビジョン放送受信装置１−２のユーザと現に行っている会話の内容に関連のある画像に注目して会話を進めることができる。

さらに、テレビジョン放送受信装置１−１のユーザは、メタデータを付加したり画像の検索を行ったりするために、キーボードなどを操作してキーワードを手動で入力する必要がない。テレビジョン放送受信装置のようにキーボードが用意されていないコンシューマ機器においても、ユーザは、メタデータを付加することや画像の検索を容易に行うことができる。

ここで、フォトシェアリングを実現するアプリケーションが起動されているときにテレビジョン放送受信装置１−１と１−２に表示される画面であるフォトシェアリング画面について説明する。

図２は、テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面の構成例を示す図である。

図２に示されるように、フォトシェアリング画面は、ユーザリスト表示領域１１、注目画像表示領域１２、サムネイル画像表示領域１３、キーワード表示領域１４、および、関連画像表示領域１５から構成される。図２において、点線は説明の便宜上付しているものであり、実際に表示されるものではない。

ユーザリスト表示領域１１は、フォトシェアリングを行っている相手の名前が表示される領域である。テレビジョン放送受信装置１−１のユーザは、フォトシェアリングをテレビジョン放送受信装置１−２のユーザと行う前に、テレビジョン放送受信装置１−２のユーザの名前や、テレビジョン放送受信装置１−２のVoIP電話の電話番号などを登録する必要があり、そのときに登録されたユーザの名前などがユーザリスト表示領域１１に表示される。なお、３人以上のユーザ間でフォトシェアリングが行われている場合、例えば、フォトシェアリングを行っているテレビジョン放送受信装置１−１のユーザ以外の全てのユーザの名前がユーザリスト表示領域１１には表示される。

注目画像表示領域１２は、注目されている１つの画像が表示される領域である。注目する画像は、注目画像表示領域１２の下に設けられるサムネイル画像表示領域１３に表示されるサムネイル画像や、注目画像表示領域１２の上に設けられる関連画像表示領域１５に表示されるサムネイル画像の中から選択され、選択されたサムネイル画像を拡大したものが注目画像として注目画像表示領域１２に表示される。

サムネイル画像表示領域１３は、テレビジョン放送受信装置１−１に取り込まれた画像を所定の解像度の画像に縮小して得られたサムネイル画像が表示される領域である。図２の例においては６つのサムネイル画像が並べて表示されるようになされている。取り込まれた画像が例えばフォルダ毎に分けて管理されている場合、サムネイル画像表示領域１３には、ユーザにより選択された１つのフォルダに格納されている画像のサムネイル画像が表示される。

キーワード表示領域１４は、会話から抽出されたキーワードが表示される領域である。会話の内容が替わり、抽出されるキーワードが替わる毎にキーワード表示領域１４の表示も切り替えられる。

図２の例においては、キーワード表示領域１４には５つのキーワードが並べて表示されるようになされている。テレビジョン放送受信装置１−１には、会話から抽出されたキーワードをメタデータとして画像に付加するモードであるメタデータ付加モードと、会話から抽出されたキーワードに基づいて検索を行うモードである画像検索モードが用意されており、メタデータ付加モードが設定されているときには、このキーワード表示領域１４に表示されているキーワードが、注目画像表示領域１２に表示されている画像にメタデータとして付加される。また、画像検索モードが設定されているときには、このキーワード表示領域１４に表示されているキーワードに基づいて、同じキーワードがメタデータとして付加されている画像の検索が行われる。

モードの選択は、例えば、リモートコントローラに設けられるボタンや、フォトシェアリング画面に表示されるボタンが操作されることによって行われる。

関連画像表示領域１５は、会話から抽出されたキーワードに基づいて行われた検索の結果、すなわち、会話の内容に関連のある関連画像のサムネイル画像が表示される領域である。関連画像の検索は会話から抽出されたキーワードに基づいて行われるから、会話の内容が替わり、抽出されるキーワードが替わる毎に、検索結果としての関連画像表示領域１５の表示も切り替えられる。

図３は、テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面の例を示す図である。図２に示される領域と同じ領域には同じ符号を付してある。図５、図７においても同様である。

図３は、メタデータ付加モードが設定されているときのフォトシェアリング画面の例を示している。このモードが設定されているとき、会話から抽出されたキーワードに基づいて関連画像の検索は行われないから、図３に示されるように、関連画像表示領域１５にはいずれの関連画像のサムネイル画像も表示されない。

図３の例においては、ユーザリスト表示領域１１には、フォトシェアリングを行い、会話を行っているユーザの名前として「ユーザＢ」が表示されている。以下、適宜、テレビジョン放送受信装置１−１のユーザをユーザＡ、テレビジョン放送受信装置１−２のユーザをユーザＢとして説明する。

また、図３の例においては、サムネイル画像表示領域１３に表示されている６つのサムネイル画像のうち、最も左側に表示されているサムネイル画像がカーソルＣによって選択され、それを拡大した画像が注目画像として注目画像表示領域１２に表示されている。テレビジョン放送受信装置１−１のユーザは、この注目画像などについてテレビジョン放送受信装置１−２のユーザと会話を行うことになる。

キーワード表示領域１４には、テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザの間で行われた会話から抽出されたキーワードとして「ニューヨーク」と「マンハッタン」が表示されている。この２つのキーワードが、図３の注目画像表示領域１２に表示されている注目画像にメタデータとして付加される。

メタデータ付加モードが設定されている場合、このような画面が用いられて注目画像が適宜切り替えられ、会話が続けられることによって、注目されたそれぞれの画像に、キーワードが所定の数だけメタデータとして付加されることになる。

図４は、テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面の例を示す図である。

図４は、図３の画面がテレビジョン放送受信装置１−１に表示されているときにテレビジョン放送受信装置１−１から送信されてきた情報などに基づいて表示される画面の例を示している。

図４に示されるように、テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面は、フォトシェアリングを行っている相手の名前が表示される領域であるユーザリスト表示領域２１、注目画像が表示される領域である注目画像表示領域２２、サムネイル画像が表示される領域であるサムネイル画像表示領域２３、および、会話から抽出されたキーワードが表示される領域であるキーワード表示領域２４から構成される。

これにより、テレビジョン放送受信装置１−２には、関連画像のサムネイル画像が表示される領域が設けられていない点を除いて、テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面と同じ構成の画面が表示される。サムネイル画像表示領域２３やキーワード表示領域２４が設けられなかったりするように、テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面の構成は適宜変更可能である。

図４の例においては、ユーザリスト表示領域２１には、テレビジョン放送受信装置１−２のユーザからみてフォトシェアリングを行っている相手の名前である「ユーザＡ」が表示されている。

また、テレビジョン放送受信装置１−１から送信されてきた情報に基づいて、注目画像表示領域２２には、図３のフォトシェアリング画面において注目されている画像と同じ画像が注目画像として表示され、サムネイル画像表示領域２３には、図３のフォトシェアリング画面において表示されているサムネイル画像と同じサムネイル画像が並べて表示されている。

この例においては、会話から抽出されたキーワードも表示されるようになされており、キーワード表示領域２４には、図３のフォトシェアリング画面のキーワード表示領域１４に表示されているものと同じキーワードである「ニューヨーク」と「マンハッタン」が表示されている。

テレビジョン放送受信装置１−２のユーザは、このようなフォトシェアリング画面から、テレビジョン放送受信装置１−１のユーザにより注目されている画像を確認することができ、それについてテレビジョン放送受信装置１−１のユーザと会話を行うことができる。

図５は、テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面の他の例を示す図である。図３の説明と重複する説明については適宜省略する。

図５は、画像検索モードが設定されているときに表示されるフォトシェアリング画面の例を示している。このモードが設定されているとき、会話から抽出されたキーワードと、図３に示されるような画面が表示されていたときにそれぞれの画像にメタデータとして付加されたキーワードのマッチングが、会話からキーワードが抽出される毎に繰り返し行われ、会話から抽出されたキーワードと同じキーワードがメタデータとして付加されている画像の検索が行われる。

図５の例においては、図３の画面に表示されていたサムネイル画像と異なるサムネイル画像がサムネイル画像表示領域１３に表示されている。また、図５のサムネイル画像表示領域１３に表示されている６つのサムネイル画像のうちの最も左側に表示されているサムネイル画像が選択され、それを拡大した画像が注目画像として注目画像表示領域１２に表示されている。

テレビジョン放送受信装置１−１のユーザは、この注目画像などについてテレビジョン放送受信装置１−２のユーザと会話を行うことになる。

また、図５の例においては、キーワード表示領域１４には、テレビジョン放送受信装置１−２のユーザとの会話から抽出されたキーワードとして「ニューヨーク」と「マンハッタン」が表示されている。

この場合、「ニューヨーク」と「マンハッタン」がメタデータとして付加されている画像の検索がテレビジョン放送受信装置１−１においては行われるから、上述したように、図３のフォトシェアリング画面において注目されていた画像に「ニューヨーク」と「マンハッタン」がメタデータとして付加されているときには、図５に示されるように、図３の画面において注目されていた画像などが関連画像として検索され、そのサムネイル画像が関連画像表示領域１５に表示される。

図５のフォトシェアリング画面の関連画像表示領域１５のうちの最も左側に表示されているサムネイル画像は、図３のフォトシェアリング画面が表示されていたときに注目されていた画像（図３の画面が表示されていたときに会話から抽出された「ニューヨーク」と「マンハッタン」がメタデータとして付加されている画像）のサムネイル画像である。図５の例においては、他のサムネイル画像も関連画像表示領域１５には表示されている。

テレビジョン放送受信装置１−１のユーザは、サムネイル画像表示領域１３に表示されているサムネイル画像だけでなく、関連画像表示領域１５に表示されているサムネイル画像の中からも、注目する画像を選択することができる。

関連画像表示領域１５に表示されているサムネイル画像は、テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザの間でいま行われている会話に関連のある画像を表すものであるから、テレビジョン放送受信装置１−１のユーザは、提示された関連画像に注目して会話を続けることによって、会話の内容を膨らませることができる。例えば、「ニューヨーク」、「マンハッタン」などの言葉を使って会話を行っているときには、同じ「ニューヨーク」、「マンハッタン」などの言葉を使って過去に会話を行っていたときに注目していた画像に再び注目して会話を行うことができる。

図６は、テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面の他の例を示す図である。

図６は、図５の画面がテレビジョン放送受信装置１−１に表示されているときにテレビジョン放送受信装置１−１から送信されてきた情報などに基づいて表示される画面の例を示している。

図６に示されるように、テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面の注目画像表示領域２２には、図５のフォトシェアリング画面において注目されている画像と同じ画像が注目画像として表示される。また、サムネイル画像表示領域２３には、図５のフォトシェアリング画面のサムネイル画像表示領域１３に表示されているものと同じサムネイル画像が並べて表示される。

さらに、キーワード表示領域２４には、図５のフォトシェアリング画面のキーワード表示領域１４に表示されているものと同じキーワードである「ニューヨーク」と「マンハッタン」が表示される。

図７は、テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面のさらに他の例を示す図である。

図７は、図５の関連画像表示領域１５に表示されているサムネイル画像のうちの最も左側のサムネイル画像が選択されたときに図５の画面に替えてテレビジョン放送受信装置１−１に表示される画面の例を示している。

このとき、図７に示されるように、関連画像表示領域１５の最も左側に表示されているサムネイル画像を拡大した関連画像が注目画像として注目画像表示領域１２に表示される。

図７の例においては、キーワード表示領域１４にそれまで表示されていたキーワードは消されている。会話からキーワードが新たに抽出されたとき、キーワード表示領域１４にはその抽出されたキーワードが表示される。

このように、テレビジョン放送受信装置１−１のユーザは、関連画像表示領域１５に表示されているサムネイル画像を選択することによって、関連画像を拡大して表示させることができる。

図８は、テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面のさらに他の例を示す図である。

図８は、図７の画面がテレビジョン放送受信装置１−１に表示されているときにテレビジョン放送受信装置１−１から送信されてきた情報などに基づいてテレビジョン放送受信装置１−２に表示される画面の例を示している。

図８に示されるように、テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面の注目画像表示領域２２には、図７のフォトシェアリング画面において注目されている関連画像と同じ画像が表示される。また、サムネイル画像表示領域２３には、図７のフォトシェアリング画面のサムネイル画像表示領域１３に表示されているものと同じサムネイル画像が並べて表示される。

テレビジョン放送受信装置１−２のユーザは、テレビジョン放送受信装置１−１のユーザにより新たに注目された関連画像を確認することができ、それについて会話を行うことができる。

図８の例においても、キーワード表示領域２４にそれまで表示されていたキーワードは消されている。新たに抽出されたキーワードの情報を含むフォトシェアリング画面の情報がテレビジョン放送受信装置１−１から送信されてきたとき、キーワード表示領域２４にはその抽出されたキーワードが表示される。

会話から抽出されたキーワードをメタデータとして画像に付加したり、会話から抽出されたキーワードに基づいて画像を検索するテレビジョン放送受信装置１−１の動作と、以上のような画面表示を行うテレビジョン放送受信装置１−２の動作についてはフローチャートを参照して後述する。

図９は、テレビジョン放送受信装置１−１のハードウエア構成例を示すブロック図である。

テレビジョン放送受信装置１−１は、VoIPを使って会話を行いながら複数のユーザが同じ画像を鑑賞することができるようにするフォトシェアリングの機能の他に、VoIPを使って会話を行いながら複数のユーザが同じテレビジョン番組を視聴することができるようにするテレビシェアリングの機能も有しており、図９には、このテレビシェアリングの機能を実現する構成も示されている。

テレビジョン放送受信装置１−１は、地上アナログ放送受信用のアンテナからの信号が入力されるアンテナ入力端子３１と、ディジタル放送（地上ディジタル放送、BS／CSディジタル放送）受信用のアンテナからの信号が入力されるアンテナ入力端子３２を有している。いずれか一方の端子だけが設けられるようにしてもよい。

地上波チューナ３３は、アンテナ入力端子３１に入力された放送波信号を受信、復調し、映像信号および音声信号を取得する。地上波チューナ３３は、取得した音声信号を音声A/D(Analog/Digital)変換回路３４に出力し、映像信号をビデオデコーダ３５に出力する。

音声A/D変換回路３４は、地上波チューナ３３から供給された音声信号に対してA/D変換処理を施し、得られたディジタルの音声信号を音声信号処理回路４２に出力する。

ビデオデコーダ３５は、地上波チューナ３３から供給された映像信号に対してデコード処理を施し、得られたディジタルのコンポーネント信号を映像信号処理回路３８に出力する。

ディジタルチューナ３６は、アンテナ入力端子３２に入力された放送波信号を受信、復調し、MPEG-TS(Moving Picture Experts Group-Transport Stream)を取得する。ディジタルチューナ３６は、取得したMPEG-TSをMPEGデコーダ３７に出力する。

MPEGデコーダ３７は、ディジタルチューナ３６から供給されたMPEG-TSに施されているスクランブルを解除し、再生対象になっている番組のデータを含むストリームを抽出する。MPEGデコーダ３７は、抽出したストリームを構成する音声パケットをデコードし、得られた音声データを音声信号処理回路４２に出力するとともに、ストリームを構成する映像パケットをデコードし、得られた映像データを映像信号処理回路３８に出力する。

また、MPEGデコーダ３７は、MPEG-TSから抽出したEPG(Electronic Program Guide)データを図示せぬ経路を介してCPU(Central Processing Unit)５２に出力する。

映像信号処理回路３８は、ビデオデコーダ３５から供給された映像データに対して、あるいはMPEGデコーダ３７から供給された映像データに対してノイズ除去などの所定の処理を施し、得られた映像データをグラフィック生成回路３９に出力する。

グラフィック生成回路３９は、表示パネル４１に表示させる番組の映像データを生成し、生成した映像データをパネル駆動回路４０に出力する。

また、グラフィック生成回路３９は、フォトシェアリングを実現するアプリケーションが起動しているとき、フォトシェアリング画面を表示パネル４１に表示させるためのデータを内部バス４９を介して供給された画像データなどに基づいて生成し、生成したデータをパネル駆動回路４０に出力する。グラフィック生成回路３９に対しては、例えば、ユーザにより選択されたフォルダに格納されている画像のデータが内部バス４９を介して供給されてくる。また、注目された画像、会話から抽出されたキーワード、キーワードに基づいて行われた検索によって取得された関連画像のデータなども内部バス４９を介して供給されてくる。

このように、フォトシェアリング画面などの上述したようなユーザインタフェースは、このグラフィック生成回路３９により生成されたデータに基づいて実現される。

パネル駆動回路４０は、グラフィック生成回路３９から供給されたデータに基づいて表示パネル４１を駆動し、番組の映像やフォトシェアリング画面を表示させる。

表示パネル４１はLCD(Liquid Crystal Display)などよりなり、パネル駆動回路４０による制御にしたがって番組の映像などを表示させる。

音声信号処理回路４２は、音声A/D変換回路３４から供給された音声データに対して、あるいはMPEGデコーダ３７から供給された音声データに対してノイズ除去などの所定の処理を施し、得られた音声データをエコーキャンセル／音声合成回路４３に出力する。

エコーキャンセル／音声合成回路４３は、音声信号処理回路４２から供給された音声データを音声増幅回路４４に出力し、番組の音声をスピーカ４５から出力させる。また、エコーキャンセル／音声合成回路４３は、テレビシェアリングが行われており、番組の音声データが音声信号処理回路４２から供給されるだけでなく、ネットワーク２を介して供給された、テレビシェアリングの相手のユーザの音声のデータが音声コーデック４８から供給されたり、あるいは、テレビジョン放送受信装置１−１のユーザの音声のデータがA/D変換回路４７から供給されている場合、テレビジョン放送受信装置１−１のユーザの音声データを対象としてエコーキャンセルを行うとともに、そのとき選択されている音声モードにしたがって、エコーキャンセルを行ったテレビジョン放送受信装置１−１のユーザの音声と、テレビシェアリングの相手のユーザの音声と、番組の音声の合成を行う。エコーキャンセル／音声合成回路４３は、合成して得られた音声のデータを音声増幅回路４４に出力する。

さらに、エコーキャンセル／音声合成回路４３は、フォトシェアリングが行われており、ネットワーク２を介して供給された、テレビジョン放送受信装置１−２のユーザの音声のデータが音声コーデック４８から供給されたとき、それを音声増幅回路４４に出力する。

音声増幅回路４４は、エコーキャンセル／音声合成回路４３から供給された音声データに対してD/A変換処理、増幅処理を施し、所定の音量に調整した後、音声をスピーカ４５から出力させる。

A/D変換回路４７は、音声会話用のものとしてテレビジョン放送受信装置１−１に設けられるマイクロフォン４６により取り込まれたユーザの音声の信号を受信し、受信した音声信号に対してA/D変換処理を施す。A/D変換回路４７は、A/D変換処理によって得られたディジタルの音声データをエコーキャンセル／音声合成回路４３と音声コーデック４８に出力する。なお、マイクロフォン４６は、表示パネル４１から所定の距離だけ離れた位置にいるユーザの手元付近に用意される。

また、A/D変換回路４７は、A/D変換処理によって得られたディジタルの音声データを内部バス４９を介してCPU５２にも出力する。CPU５２に出力された音声データは、音声認識を行うために用いられる。

音声コーデック４８は、A/D変換回路４７から供給された音声データを、ネットワーク２経由で送信するための所定のフォーマットのデータに変換し、内部バス４９を介してネットワークI/F５４に出力する。

内部バス４９には、SDRAM(Synchronous Dynamic Random Access Memory)５０、フラッシュメモリ５１、CPU５２、USB(Universal Serial Bus) I/F５３、およびネットワークI/F５４も接続される。

SDRAM５０は、CPU５２が処理を行う上で必要な各種のデータを記憶する。

フラッシュメモリ５１は、CPU５２により実行されるフォトシェアリングを実現するアプリケーションやテレビシェアリングを実現するアプリケーションを記憶する。フラッシュメモリ５１には、ディジタル放送を介して取得されたEPGデータ、ネットワーク２を介して所定のサーバから取得されたEPGデータなども記憶される。

また、フラッシュメモリ５１には、テレビジョン放送受信装置１−１に取り込まれた画像も記憶される。フラッシュメモリ５１に記憶されている画像はフォトシェアリングを実現するアプリケーションが起動しているときにグラフィック生成回路３９などに供給され、フォトシェアリング画面の表示に用いられる。

CPU５２は、フラッシュメモリ５１に記憶されているプログラムを実行し、受光部５７から供給される制御コードなどに応じてテレビジョン放送受信装置１−１の全体の動作を制御する。CPU５２とテレビジョン放送受信装置１−１の各部は、図示せぬ経路を介して接続されている。

USB I/F５３は、USB端子５６に装着されたUSBケーブルを介して接続されるディジタルカメラから画像を取り込み、内部バス４９を介してフラッシュメモリ５１に供給して記憶させる。なお、画像の取り込みは、図示せぬスロットに装着されたメモリカードなどを介しても行われる。

ネットワークI/F５４は、ネットワーク端子５５に装着されたケーブルを介してネットワーク２に接続し、テレビジョン放送受信装置１−２とデータの送受信を行う。ネットワークI/F５４は、テレビジョン放送受信装置１−２から音声データが供給されてきたときそれを内部バス４９を介して音声コーデック４８に出力する。また、ネットワークI/F５４は、テレビジョン放送受信装置１−１のユーザの音声のデータが音声コーデック４８から内部バス４９を介して供給されてきたとき、それを、テレビジョン放送受信装置１−２にネットワーク２を介して送信する。

また、ネットワークI/F５４は、フォトシェアリング画面の情報がCPU５２から供給されたとき、それをネットワーク２を介してテレビジョン放送受信装置１−２に送信する。

受光部５７は、リモートコントローラ６１からの赤外線を受光し、復調して得られたユーザ操作の内容を表す制御コードをCPU５２に出力する。

リモートコントローラ６１は、表面に設けられるボタンに対するユーザの操作を検出し、ユーザの操作の内容を表す赤外線を出力する。リモートコントローラ６１の表面には、フォトシェアリング画面に表示されるカーソルＣを移動させるときに操作される十字キーなどが設けられる。

以上のような構成と同じ構成をテレビジョン放送受信装置１−２も有している。以下、適宜、図９に示されるテレビジョン放送受信装置１−１の構成を、テレビジョン放送受信装置１−２の構成として引用して説明する。

図１０は、テレビジョン放送受信装置１−１の機能構成例を示すブロック図である。図１０に示す機能部のうちの少なくとも一部は、フォトシェアリングを実現するアプリケーションが図９のCPU５２により実行されることによって実現される。

図１０に示されるように、テレビジョン放送受信装置１−１においては、音声認識部７１、キーワード抽出部７２、表示制御部７３、メタデータ付加部７４、検索部７５、画像DB７６、および通信制御部７７が実現される。

音声認識部７１は、スピーカ４６によって取り込まれ、A/D変換回路４７においてA/D変換が行われることによって得られた音声データに基づいて音声認識を行い、テレビジョン放送受信装置１−１のユーザの音声を表すテキストデータを取得する。

また、音声認識部７１は、適宜、ネットワークI/F５４において受信されたテレビジョン放送受信装置１−２のユーザの音声データに基づいて音声認識を行い、テレビジョン放送受信装置１−２のユーザの音声を表すテキストデータを取得する。音声認識部７１は、取得したテキストデータをキーワード抽出部７２に出力する。

キーワード抽出部７２は、音声認識部７１から供給されたテキストデータの形態素解析を行い、例えば名詞の形態素を抽出する。

また、キーワード抽出部７２は、抽出した形態素のそれぞれに例えば出現頻度に応じた重み付けを行い、優先順位の高い所定の数の形態素をキーワードとして抽出する。例えば、人名、地名などがキーワードとして抽出される。

キーワード抽出部７２は、抽出したキーワードを表示制御部７３に出力する。また、キーワード抽出部７２は、メタデータ付加モードが設定されているとき、抽出したキーワードをメタデータ付加部７４に出力し、画像検索モードが設定されているとき、抽出したキーワードを検索部７５に出力する。

表示制御部７３は、画像DB７６に記憶されている画像、キーワード抽出部７２から供給されたキーワード、検索部７５から供給された検索結果などに基づいてフォトシェアリング画面を表示パネル４１に表示させる。

具体的には、表示制御部７３は、ユーザにより選択されたフォルダに格納されている画像を画像DB７６から読み出し、グラフィック生成回路３９などを制御してサムネイル画像をサムネイル画像表示領域１３に表示させる。また、表示制御部７３は、ユーザによる操作などに応じて選択された画像を、注目画像として注目画像表示領域１２に表示させる。

さらに、表示制御部７３は、キーワード抽出部７２から供給されたキーワードをキーワード表示領域１４に表示させる。表示制御部７３は、画像検索モードが設定されており、検索部７５から検索結果としての関連画像の情報が供給されたとき、関連画像を画像DB７６から読み出し、読み出した関連画像のサムネイル画像を関連画像表示領域１５に表示させる。

メタデータ付加部７４は、キーワード抽出部７２から供給されたキーワードを、画像DB７６に記憶されている、そのキーワードの抽出元になった会話が行われていたときに注目されていた画像の自由領域に書き込むことによって、注目画像にメタデータを付加する。メタデータ付加モードが設定されているとき、メタデータ付加部７４に対しては、キーワード抽出部７２により抽出されたキーワードが供給されてくる。

図１１は、画像データのフォーマットの例を示す図である。

例えば、JPEG(Joint Photographic Expert Group)フォーマットの画像データがテレビジョン放送受信装置１−１に取り込まれ、画像DB７６に記憶されている場合、会話から抽出されたキーワードは、図１１に示されるように、メーカなどが各種の情報を規定して自由に書き込むことができるJPEGフォーマットの自由領域に書き込まれる。

図１１には、圧縮された画像データそのものが書き込まれる領域などの各種の領域が示されており、このうちの自由領域である「APP5」の領域に、会話から抽出された「ニューヨーク」、「マンハッタン」、・・・のキーワードが書き込まれている。このように、メタデータ付加モードが設定されているとき、注目されたそれぞれの画像の自由領域には、それぞれの画像が注目されていたときに行われた会話から抽出されたキーワードが書き込まれる。

JPEGフォーマット以外の他のフォーマットの画像データが取り込まれている場合、その、他のフォーマットの自由領域にキーワードが書き込まれるようにしてもよい。

図１０の説明に戻り、検索部７５は、画像DB７６に記憶されている画像を対象として、キーワード抽出部７２から供給されたキーワードと同じキーワードが自由領域に書き込まれている画像を検索する。画像検索モードが設定されているとき、検索部７５に対しては、キーワード抽出部７２により抽出されたキーワードが供給されてくる。検索部７５は、検索された関連画像の情報を表示制御部７３に出力する。

画像DB７６は、JPEGフォーマットなどの所定のフォーマットの画像データを記憶する。

通信制御部７７は、ネットワークI/F５４を制御し、表示制御部７３により表示パネル４１に表示されているフォトシェアリング画面のうちの、例えば注目画像表示領域１２、サムネイル画像表示領域１３、キーワード表示領域１４のそれぞれの領域の表示内容を表す情報をテレビジョン放送受信装置１−２に送信する。通信制御部７７による情報の送信は、例えば、テレビジョン放送受信装置１−１に表示されているフォトシェアリング画面の表示内容が切り替えられる毎に行われる。

図１２は、テレビジョン放送受信装置１−２の機能構成例を示すブロック図である。図１２に示す機能部のうちの少なくとも一部は、フォトシェアリングを実現するアプリケーションがテレビジョン放送受信装置１−２のCPU５２により実行されることによって実現される。

図１２に示されるように、テレビジョン放送受信装置１−２においては、通信制御部８１と表示制御部８２が実現される。

通信制御部８１は、テレビジョン放送受信装置１−２のネットワークI/F５４を制御し、テレビジョン放送受信装置１−１との間でネットワーク２を介して通信を行う。通信制御部８１は、テレビジョン放送受信装置１−１からフォトシェアリング画面の情報が送信されてきたときそれを受信し、受信したフォトシェアリング画面の情報を表示制御部８２に出力する。

表示制御部８２は、通信制御部８１から供給された情報に基づいて、テレビジョン放送受信装置１−１のフォトシェアリング画面の注目画像表示領域１２、サムネイル画像表示領域１３、キーワード表示領域１４の表示内容と同じ内容の画像、キーワードが表示されるフォトシェアリング画面をテレビジョン放送受信装置１−２の表示パネル４１に表示させる。

次に、以上のような構成を有するテレビジョン放送受信装置１−１と１−２の動作についてフローチャートを参照して説明する。

はじめに、図１３のフローチャートを参照して、フォトシェアリング画面の画像の表示を制御するテレビジョン放送受信装置１−１の処理について説明する。この処理は、例えば、メタデータ付加モードが設定されているときに行われる図１５の処理、または、画像検索モードが設定されているときに行われる図１６の処理と並行して実行される。

ステップＳ１において、テレビジョン放送受信装置１−１の表示制御部７３は、ユーザにより選択されたフォルダに格納されている画像のサムネイル画像をサムネイル画像表示領域１３に表示させる。

また、表示制御部７３は、画像検索モードが設定されており、関連画像の情報が検索部７５から供給されたとき、関連画像のサムネイル画像を関連画像表示領域１５に表示させる。

ステップＳ２において、表示制御部７３は、サムネイル画像の中から選択された画像を拡大し、注目画像として注目画像表示領域１２に表示させる。

ステップＳ３において、通信制御部７７は、テレビジョン放送受信装置１−１の表示パネル４１に表示されているフォトシェアリング画面のうちの所定の領域の表示内容を表す情報をテレビジョン放送受信装置１−２に送信し、処理を終了させる。

次に、図１４のフローチャートを参照して、フォトシェアリング画面の画像の表示を制御するテレビジョン放送受信装置１−２の処理について説明する。

ステップＳ１１において、テレビジョン放送受信装置１−２の通信制御部８１は、テレビジョン放送受信装置１−１から送信されてきたフォトシェアリング画面の情報を受信する。通信制御部８１は、受信した情報を表示制御部８２に出力する。

ステップＳ１２において、表示制御部８２は、通信制御部８１から供給された情報に基づいて、テレビジョン放送受信装置１−１に表示されているフォトシェアリング画面と同様の画面を表示させ、処理を終了させる。

次に、図１５のフローチャートを参照して、画像データの自由領域にメタデータを書き込むテレビジョン放送受信装置１−１の処理について説明する。

すなわち、この処理は、メタデータ付加モードが設定されているときに行われる処理である。

ステップＳ２１において、テレビジョン放送受信装置１−１の音声認識部７１は、スピーカ４６によって取り込まれ、A/D変換回路４７においてA/D変換が行われることによって得られた音声データに基づいて音声認識を行い、テレビジョン放送受信装置１−１のユーザの音声を表すテキストデータをキーワード抽出部７２に出力する。

また、音声認識部７１は、ネットワークI/F５４において受信されたテレビジョン放送受信装置１−２のユーザの音声データに基づいて音声認識を行い、テレビジョン放送受信装置１−２のユーザの音声を表すテキストデータをキーワード抽出部７２に出力する。

ステップＳ２２において、キーワード抽出部７２は、音声認識部７１から供給されたテキストデータの形態素解析を行い、ステップＳ２３に進み、名詞の形態素を抽出する。

ステップＳ２４において、キーワード抽出部７２は、抽出した形態素のそれぞれに出現頻度に応じた重み付けを行い、例えば、優先順位の高い所定の数の形態素をキーワードとして抽出する。キーワード抽出部７２は、抽出したキーワードを表示制御部７３とメタデータ付加部７４に出力する。

ステップＳ２５において、メタデータ付加部７４は、キーワード抽出部７２から供給されたキーワードを、そのキーワードの抽出元になった会話が行われていたときに注目されていた画像の自由領域に書き込む。

ステップＳ２６において、表示制御部７３は、キーワード抽出部７２から供給されたキーワードをフォトシェアリング画面のキーワード表示領域１４に表示させ、ユーザに提示する。その後、処理は終了される。

なお、抽出されたキーワードの全てがメタデータとして画像の自由領域に書き込まれるのではなく、ユーザにより選択されたキーワードだけが書き込まれるようにしてもよい。この場合、テレビジョン放送受信装置１−１のユーザが、提示されたキーワードの中から注目画像の自由領域に書き込むキーワードを選択することができるようになされる。

これにより、テレビジョン放送受信装置１−１のユーザは、例えば、自分があまり使わない言葉がメタデータとして付加されることを防止することができる。あまり使わない言葉がメタデータとして付加された場合、それが付加された画像が関連画像として検索されることは少なくなるから、自分がよく使う言葉だけがメタデータとして付加されるようにすることによって、関連画像として検索される画像を増やすことができる。

次に、図１６のフローチャートを参照して、画像の検索を行うテレビジョン放送受信装置１−１の処理について説明する。

すなわち、この処理は、画像検索モードが設定されているときに行われる処理である。図１６のステップＳ３１乃至Ｓ３４の処理は、メタデータ付加モードが設定されているときに行われる図１５のステップＳ２１乃至Ｓ２４の処理と基本的に同様の処理である。

ステップＳ３１において、テレビジョン放送受信装置１−１の音声認識部７１は、スピーカ４６によって取り込まれ、A/D変換回路４７においてA/D変換が行われることによって得られた音声データに基づいて音声認識を行い、テレビジョン放送受信装置１−１のユーザの音声を表すテキストデータをキーワード抽出部７２に出力する。

ステップＳ３２において、キーワード抽出部７２は、音声認識部７１から供給されたテキストデータの形態素解析を行い、ステップＳ３３に進み、名詞の形態素を抽出する。

ステップＳ３４において、キーワード抽出部７２は、抽出した形態素のそれぞれに出現頻度に応じた重み付けを行い、例えば、優先順位の高い所定の数の形態素をキーワードとして抽出する。キーワード抽出部７２は、抽出したキーワードを表示制御部７３と検索部７５に出力する。

ステップＳ３５において、検索部７５は、画像DB７６に記憶されている画像を対象として、キーワード抽出部７２から供給されたキーワードと同じキーワードが自由領域に書き込まれている画像を検索する。検索部７５は、検索した関連画像の情報を表示制御部７３に出力する。

ステップＳ３６において、表示制御部７３は、検索部７５により検索された関連画像を画像DB７６から読み出し、読み出した関連画像のサムネイル画像を関連画像表示領域１５に表示させ、ユーザに提示する。

これにより、テレビジョン放送受信装置１−１のユーザは、テレビジョン放送受信装置１−２のユーザとの会話の内容に関連のある画像をすぐに探すことができ、それに注目して会話を進めることができる。

テレビジョン放送受信装置１−１においては、図１６の処理と並行して図１３の処理が行われるから、関連画像表示領域１５に表示されているサムネイル画像が選択されたとき、選択されたサムネイル画像が拡大され、関連画像が注目画像として注目画像表示領域１２に表示される。

また、テレビジョン放送受信装置１−２においては、図１６の処理と並行して図１４の処理が行われるから、テレビジョン放送受信装置１−１において関連画像が注目されることに応じて、テレビジョン放送受信装置１−２の注目画像表示領域２２にも、同じ関連画像が表示される。

以上においては、メタデータ付加モードと画像検索モードのうちのいずれか一方のモードが設定され、それに応じた処理がテレビジョン放送受信装置１−１において行われるものとしたが、会話から抽出されたキーワードをメタデータとして付加する処理と、会話から抽出されたキーワードに基づいて関連画像を検索する処理とが並行して行われるようにしてもよい。

また、以上においては、テレビジョン放送受信装置間でフォトシェアリングが行われるものとしたが、図１７に示されるような構成を有するパーソナルコンピュータ間でフォトシェアリングが行われるようにしてもよいし、携帯電話機、PDA(Personal Digital Assistants)、携帯型のゲーム機などのデバイス間でフォトシェアリングが行われるようにしてもよい。フォトシェアリングを行うそれぞれのデバイスが同じデバイスである必要はなく、異なるデバイス間でフォトシェアリングが行われるようにしてもよい。

さらに、デバイスの処理能力が低く、音声認識やキーワードの抽出、あるいはキーワードに基づく画像の検索などをデバイスに行わせることができない場合、フォトシェアリングを行っているデバイスとともにネットワークに接続されるサーバなどによりそれらの処理が代行して行われ、処理結果がそれぞれのデバイスに送信されることによって、上述したようなフォトシェアリングが実現されるようにしてもよい。

以上においては、共有対象のコンテンツが画像である場合について説明したが、この画像は静止画、動画のいずれの画像であってもよい。また、共有対象のコンテンツは画像や上述したテレビジョン番組に限られず、音楽であったり、録画済みのビデオなどであってもよい。

また、テレビジョン放送受信装置１−１により画像の注目履歴が管理されるようにしてもよい。これにより、会話から抽出されたキーワードに基づいて行われる検索の結果としての関連画像のサムネイル画像を、過去に注目された時間の長い順、注目された回数の多い順などのように、所定の順序で並べて関連画像表示領域１５に表示させることができる。注目された時間の長い画像や注目された回数の多い画像は、テレビジョン放送受信装置１−１のユーザが人に見せる機会の多い画像といえるから、そのようないわばお気に入りの画像が確認しやすい順序で表示されることによって、ユーザは、お気に入りの画像を容易に探すことができる。

また、自由領域に書き込まれているキーワードの数が多い順に関連画像のサムネイル画像が並べて表示されるようにしてもよい。より多くのキーワードが自由領域に書き込まれている画像は、過去に、多くのキーワードが抽出されるほど会話が盛り上がっていたときに注目されていた画像といえるから、そのような順序で表示されることによって、ユーザは、会話が盛り上がる画像を容易に探すことができる。

以上においては、テレビジョン放送受信装置１−１のユーザとテレビジョン放送受信装置１−２のユーザにより行われた会話からキーワードが抽出され、メタデータが画像に付加されたり、画像の検索が行われたりするものとしたが、少なくともいずれか一方のユーザの発話だけからキーワードが抽出され、それらの処理が行われるようにしてもよい。

また、フォトシェアリングを行っているとき以外にも、テレビジョン放送受信装置１−１のユーザが１人で画像を見ていたときに行われた発話からキーワードが抽出され、抽出されたキーワードに基づいて、メタデータが画像に付加されたり、画像の検索が行われたりするようにしてもよい。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１７は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。

CPU１０１は、ROM１０２、または記憶部１０８に記憶されているプログラムに従って各種の処理を実行する。RAM１０３には、CPU１０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU１０１、ROM１０２、およびRAM１０３は、バス１０４により相互に接続されている。

CPU１０１にはまた、バス１０４を介して入出力インターフェース１０５が接続されている。入出力インターフェース１０５には、キーボード、マウス、マイクロホン１０６Ａなどよりなる入力部１０６、ディスプレイ、スピーカ１０７Ａなどよりなる出力部１０７が接続されている。CPU１０１は、入力部１０６から入力される指令に対応して各種の処理を実行する。また、CPU１０１は、マイクロフォン１０６Ａにおいて取り込まれ、入力部１０６から入力された音声データに基づいて音声の認識やキーワードの抽出、画像の検索などの各種の処理を実行する。

入出力インターフェース１０５に接続されている記憶部１０８は、例えばハードディスクからなり、CPU１０１が実行するプログラムや共有の対象となる画像などの各種のデータを記憶する。通信部１０９は、ネットワーク２を介して外部の装置と通信を行う。

入出力インターフェース１０５に接続されているドライブ１１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部１０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図１７に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１、または、プログラムが一時的もしくは永続的に格納されるROM１０２や、記憶部１０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部１０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明の一実施形態に係る通信システムの構成例を示す図である。テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面の構成例を示す図である。テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面の例を示す図である。テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面の例を示す図である。テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面の他の例を示す図である。テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面の他の例を示す図である。テレビジョン放送受信装置１−１に表示されるフォトシェアリング画面のさらに他の例を示す図である。テレビジョン放送受信装置１−２に表示されるフォトシェアリング画面のさらに他の例を示す図である。テレビジョン放送受信装置１−１のハードウエア構成例を示すブロック図である。テレビジョン放送受信装置１−１の機能構成例を示すブロック図である。画像データのフォーマットの例を示す図である。テレビジョン放送受信装置１−２の機能構成例を示すブロック図である。テレビジョン放送受信装置１−１の表示処理について説明するフローチャートである。テレビジョン放送受信装置１−２の表示処理について説明するフローチャートである。テレビジョン放送受信装置１−１のメタデータ書き込み処理について説明するフローチャートである。テレビジョン放送受信装置１−１の画像検索処理について説明するフローチャートである。パーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１−１と１−２テレビジョン放送受信装置，２ネットワーク，１１ユーザリスト表示領域，１２注目画像表示領域，１３サムネイル画像表示領域，１４キーワード表示領域，１５関連画像表示領域，２１ユーザリスト表示領域，２２注目画像表示領域，２３サムネイル画像表示領域，２４キーワード表示領域，７１音声認識部，７２キーワード抽出部，７３表示制御部，７４メタデータ付加部，７５検索部，７６画像DB，７７通信制御部，８１通信制御部，８２表示制御部

Claims

ネットワークを介して他の情報処理装置と接続される情報処理装置において、
自分自身の装置と前記他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出する抽出手段と、
前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段と
を備える情報処理装置。
前記抽出手段により抽出されたキーワードと同じキーワードがメタデータとして付加されている画像を検索する検索手段をさらに備える
請求項１に記載の情報処理装置。
前記検索手段により検索された画像を表示させる表示制御手段をさらに備える
請求項２に記載の情報処理装置。
前記表示制御手段は、注目する画像として選択可能な画像と、その中から注目する画像として選択された画像と、前記検索手段により検索された画像とを同じ画面に表示させる
請求項３に記載の情報処理装置。
前記表示制御手段は、前記検索手段により検索された複数の画像を、注目された時間、注目された回数、付加されているキーワードの数のうちの少なくともいずれかに基づいて並べて表示させる
請求項３に記載の情報処理装置。
前記抽出手段により抽出されたキーワードを表示させる表示制御手段をさらに備え、
前記付加手段は、前記表示制御手段により表示されたキーワードのうち、ユーザにより選択されたキーワードを、注目されていた画像のメタデータとして前記画像に付加する
請求項１に記載の情報処理装置。
ネットワークを介して他の情報処理装置と接続される情報処理装置の情報処理方法において、
自分自身の装置と前記他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出し、
抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する
ステップを含む情報処理方法。
ネットワークを介して他の情報処理装置と接続される情報処理装置の情報処理をコンピュータに実行させるプログラムにおいて、
自分自身の装置と前記他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出し、
抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する
ステップを含む処理をコンピュータに実行させるプログラム。
ユーザによる発話からキーワードを抽出する抽出手段と、
前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段と
を備える情報処理装置。
前記抽出手段により抽出されたキーワードと同じキーワードがメタデータとして付加されている画像を検索する検索手段をさらに備える
請求項９に記載の情報処理装置。
ユーザによる発話からキーワードを抽出し、
抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する
ステップを含む情報処理方法。
ユーザによる発話からキーワードを抽出し、
抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する
ステップを含む処理をコンピュータに実行させるプログラム。