以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外には対応しないものであることを意味するものでもない。
本発明の第1の側面の情報処理装置(例えば、図1のテレビジョン放送受信装置1−1)は、ネットワークを介して他の情報処理装置(例えば、図1のテレビジョン放送受信装置1−2)と接続される情報処理装置において、自分自身の装置と前記他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出する抽出手段(例えば、図10のキーワード抽出部72)と、前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段(例えば、図10のメタデータ付加部74)とを備える。
この情報処理装置には、前記抽出手段により抽出されたキーワードと同じキーワードがメタデータとして付加されている画像を検索する検索手段(例えば、図10の検索部75)をさらに設けることができる。
前記検索手段により検索された画像を表示させる表示制御手段(例えば、図10の表示制御部73)をさらに設けることができる。
前記抽出手段により抽出されたキーワードを表示させる表示制御手段(例えば、図10の表示制御部73)をさらに設けることができる。
本発明の第1の側面の情報処理方法またはプログラムは、自分自身の装置と他の情報処理装置において同じ画像が注目されている状態で行われた、少なくともいずれかの装置のユーザによる発話からキーワードを抽出し、抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加するステップ(例えば、図15のステップS25)を含む。
本発明の第2の側面の情報処理装置(例えば、図1のテレビジョン放送受信装置1−1)は、ユーザによる発話からキーワードを抽出する抽出手段(例えば、図10のキーワード抽出部72)と、前記抽出手段により抽出されたキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加する付加手段(例えば、図10のメタデータ付加部74)とを備える。
この情報処理装置には、前記抽出手段により抽出されたキーワードと同じキーワードがメタデータとして付加されている画像を検索する検索手段(例えば、図10の検索部75)をさらに設けることができる。
本発明の第2の側面の情報処理方法またはプログラムは、ユーザによる発話からキーワードを抽出し、抽出したキーワードを、キーワードの抽出元になる発話が行われたときに注目されていた画像のメタデータとして前記画像に付加するステップ(例えば、図15のステップS25)を含む。
以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明の一実施形態に係る通信システムの構成例を示す図である。
図1に示されるように、この通信システムは、テレビジョン放送受信装置1−1と1−2がインターネットなどよりなるネットワーク2を介して相互に接続されることによって構成される。3つ以上のテレビジョン放送受信装置がネットワーク2に接続されるようにしてもよい。
テレビジョン放送受信装置1−1と1−2は、それぞれがマイクロフォンとスピーカを有しており、マイクロフォンによって取り込まれたユーザの音声のデータを、通信相手のテレビジョン放送受信装置にネットワーク2を介して送信するとともに、その通信相手のテレビジョン放送受信装置によって取り込まれ、ネットワーク2を介して送信されてきたデータに基づいて通信相手のテレビジョン放送受信装置のユーザの音声をスピーカから出力させる。すなわち、テレビジョン放送受信装置1−1と1−2は、VoIPによる音声会話の機能を有している。
また、テレビジョン放送受信装置1−1と1−2は、例えばディジタルカメラによって撮影された画像をメモリカードやケーブルなどを介して取り込み、取り込んだ画像を表示する機能も有している。
したがって、テレビジョン放送受信装置1−1のユーザとテレビジョン放送受信装置1−2のユーザは、それぞれが利用する装置に同じ画像を表示させながらVoIPを利用した会話を行うフォトシェアリングを行うことができる。
例えば、フォトシェアリングを実現するアプリケーションがテレビジョン放送受信装置1−1と1−2の双方において起動され、テレビジョン放送受信装置1−1のユーザがフォトシェアリングを行う相手としてテレビジョン放送受信装置1−2のユーザを選択したとき、VoIPによる音声会話ができるようにテレビジョン放送受信装置1−1と1−2の間で通信が確立される。
また、このとき、テレビジョン放送受信装置1−1に取り込んだ複数の画像をテレビジョン放送受信装置1−1のユーザが選択することに応じて、テレビジョン放送受信装置1−1には、選択された複数の画像のサムネイル画像が表示されるとともに、1つの画像が注目され、注目された画像がサムネイル画像より大きなサイズで表示される。
テレビジョン放送受信装置1−1に表示されている画面の情報は、例えば表示の内容が切り替わる毎にテレビジョン放送受信装置1−2に送信され、テレビジョン放送受信装置1−1に表示されている画面と同様の画面がテレビジョン放送受信装置1−2においても表示される。これにより、テレビジョン放送受信装置1−1のユーザによりいま注目されている画像と同じ画像が、テレビジョン放送受信装置1−2においても大きなサイズで表示される。
このように、テレビジョン放送受信装置1−1に表示されるのと同じようにしてテレビジョン放送受信装置1−2においても画像が表示されるから、テレビジョン放送受信装置1−2のユーザが離れた場所にいる場合であっても、テレビジョン放送受信装置1−1のユーザは、見せたい画像に注目してそれについてテレビジョン放送受信装置1−2のユーザと会話をすることができる。
なお、テレビジョン放送受信装置1−1においては、テレビジョン放送受信装置1−1のユーザとテレビジョン放送受信装置1−2のユーザにより行われている会話が音声認識によりテキストデータ化され、認識結果であるテキストデータから形態素解析などによってキーワードが抽出されるようになされている。抽出されたキーワードは、取り込まれた画像に対してメタデータとして付加され、テレビジョン放送受信装置1−1のユーザとテレビジョン放送受信装置1−2のユーザが行っている会話の内容と関連のある画像を検索するなどのために用いられる。
例えば、テレビジョン放送受信装置1−1のユーザとテレビジョン放送受信装置1−2のユーザが行っている会話から抽出されたキーワードと、メタデータとして画像に既に付加されているキーワードのマッチングが行われ、会話から抽出されたキーワードと同じキーワードがメタデータとして付加されている画像が検索結果として取得される。
検索結果として取得された画像のサムネイル画像はテレビジョン放送受信装置1−1のユーザに提示され、テレビジョン放送受信装置1−1のユーザは、提示された画像の中から、注目して話題にするような画像を選択することができる。
このように、テレビジョン放送受信装置1−2のユーザとの会話の内容に関連のある画像が自動的に提示されるから、テレビジョン放送受信装置1−1のユーザは、提示される画像に次々と注目し、注目した画像をテレビジョン放送受信装置1−2にも表示させることによって、会話の内容に関連のある画像を探すことを自ら手動で行う必要はなく、会話に集中することができる。
また、注目している画像に関連のある画像ではなく、会話の内容に関連のある画像が提示されるから、注目している画像についての会話から内容がそれてしまった場合であっても、テレビジョン放送受信装置1−1のユーザは、テレビジョン放送受信装置1−2のユーザと現に行っている会話の内容に関連のある画像に注目して会話を進めることができる。
さらに、テレビジョン放送受信装置1−1のユーザは、メタデータを付加したり画像の検索を行ったりするために、キーボードなどを操作してキーワードを手動で入力する必要がない。テレビジョン放送受信装置のようにキーボードが用意されていないコンシューマ機器においても、ユーザは、メタデータを付加することや画像の検索を容易に行うことができる。
ここで、フォトシェアリングを実現するアプリケーションが起動されているときにテレビジョン放送受信装置1−1と1−2に表示される画面であるフォトシェアリング画面について説明する。
図2は、テレビジョン放送受信装置1−1に表示されるフォトシェアリング画面の構成例を示す図である。
図2に示されるように、フォトシェアリング画面は、ユーザリスト表示領域11、注目画像表示領域12、サムネイル画像表示領域13、キーワード表示領域14、および、関連画像表示領域15から構成される。図2において、点線は説明の便宜上付しているものであり、実際に表示されるものではない。
ユーザリスト表示領域11は、フォトシェアリングを行っている相手の名前が表示される領域である。テレビジョン放送受信装置1−1のユーザは、フォトシェアリングをテレビジョン放送受信装置1−2のユーザと行う前に、テレビジョン放送受信装置1−2のユーザの名前や、テレビジョン放送受信装置1−2のVoIP電話の電話番号などを登録する必要があり、そのときに登録されたユーザの名前などがユーザリスト表示領域11に表示される。なお、3人以上のユーザ間でフォトシェアリングが行われている場合、例えば、フォトシェアリングを行っているテレビジョン放送受信装置1−1のユーザ以外の全てのユーザの名前がユーザリスト表示領域11には表示される。
注目画像表示領域12は、注目されている1つの画像が表示される領域である。注目する画像は、注目画像表示領域12の下に設けられるサムネイル画像表示領域13に表示されるサムネイル画像や、注目画像表示領域12の上に設けられる関連画像表示領域15に表示されるサムネイル画像の中から選択され、選択されたサムネイル画像を拡大したものが注目画像として注目画像表示領域12に表示される。
サムネイル画像表示領域13は、テレビジョン放送受信装置1−1に取り込まれた画像を所定の解像度の画像に縮小して得られたサムネイル画像が表示される領域である。図2の例においては6つのサムネイル画像が並べて表示されるようになされている。取り込まれた画像が例えばフォルダ毎に分けて管理されている場合、サムネイル画像表示領域13には、ユーザにより選択された1つのフォルダに格納されている画像のサムネイル画像が表示される。
キーワード表示領域14は、会話から抽出されたキーワードが表示される領域である。会話の内容が替わり、抽出されるキーワードが替わる毎にキーワード表示領域14の表示も切り替えられる。
図2の例においては、キーワード表示領域14には5つのキーワードが並べて表示されるようになされている。テレビジョン放送受信装置1−1には、会話から抽出されたキーワードをメタデータとして画像に付加するモードであるメタデータ付加モードと、会話から抽出されたキーワードに基づいて検索を行うモードである画像検索モードが用意されており、メタデータ付加モードが設定されているときには、このキーワード表示領域14に表示されているキーワードが、注目画像表示領域12に表示されている画像にメタデータとして付加される。また、画像検索モードが設定されているときには、このキーワード表示領域14に表示されているキーワードに基づいて、同じキーワードがメタデータとして付加されている画像の検索が行われる。
モードの選択は、例えば、リモートコントローラに設けられるボタンや、フォトシェアリング画面に表示されるボタンが操作されることによって行われる。
関連画像表示領域15は、会話から抽出されたキーワードに基づいて行われた検索の結果、すなわち、会話の内容に関連のある関連画像のサムネイル画像が表示される領域である。関連画像の検索は会話から抽出されたキーワードに基づいて行われるから、会話の内容が替わり、抽出されるキーワードが替わる毎に、検索結果としての関連画像表示領域15の表示も切り替えられる。
図3は、テレビジョン放送受信装置1−1に表示されるフォトシェアリング画面の例を示す図である。図2に示される領域と同じ領域には同じ符号を付してある。図5、図7においても同様である。
図3は、メタデータ付加モードが設定されているときのフォトシェアリング画面の例を示している。このモードが設定されているとき、会話から抽出されたキーワードに基づいて関連画像の検索は行われないから、図3に示されるように、関連画像表示領域15にはいずれの関連画像のサムネイル画像も表示されない。
図3の例においては、ユーザリスト表示領域11には、フォトシェアリングを行い、会話を行っているユーザの名前として「ユーザB」が表示されている。以下、適宜、テレビジョン放送受信装置1−1のユーザをユーザA、テレビジョン放送受信装置1−2のユーザをユーザBとして説明する。
また、図3の例においては、サムネイル画像表示領域13に表示されている6つのサムネイル画像のうち、最も左側に表示されているサムネイル画像がカーソルCによって選択され、それを拡大した画像が注目画像として注目画像表示領域12に表示されている。テレビジョン放送受信装置1−1のユーザは、この注目画像などについてテレビジョン放送受信装置1−2のユーザと会話を行うことになる。
キーワード表示領域14には、テレビジョン放送受信装置1−1のユーザとテレビジョン放送受信装置1−2のユーザの間で行われた会話から抽出されたキーワードとして「ニューヨーク」と「マンハッタン」が表示されている。この2つのキーワードが、図3の注目画像表示領域12に表示されている注目画像にメタデータとして付加される。
メタデータ付加モードが設定されている場合、このような画面が用いられて注目画像が適宜切り替えられ、会話が続けられることによって、注目されたそれぞれの画像に、キーワードが所定の数だけメタデータとして付加されることになる。
図4は、テレビジョン放送受信装置1−2に表示されるフォトシェアリング画面の例を示す図である。
図4は、図3の画面がテレビジョン放送受信装置1−1に表示されているときにテレビジョン放送受信装置1−1から送信されてきた情報などに基づいて表示される画面の例を示している。
図4に示されるように、テレビジョン放送受信装置1−2に表示されるフォトシェアリング画面は、フォトシェアリングを行っている相手の名前が表示される領域であるユーザリスト表示領域21、注目画像が表示される領域である注目画像表示領域22、サムネイル画像が表示される領域であるサムネイル画像表示領域23、および、会話から抽出されたキーワードが表示される領域であるキーワード表示領域24から構成される。
これにより、テレビジョン放送受信装置1−2には、関連画像のサムネイル画像が表示される領域が設けられていない点を除いて、テレビジョン放送受信装置1−1に表示されるフォトシェアリング画面と同じ構成の画面が表示される。サムネイル画像表示領域23やキーワード表示領域24が設けられなかったりするように、テレビジョン放送受信装置1−2に表示されるフォトシェアリング画面の構成は適宜変更可能である。
図4の例においては、ユーザリスト表示領域21には、テレビジョン放送受信装置1−2のユーザからみてフォトシェアリングを行っている相手の名前である「ユーザA」が表示されている。
また、テレビジョン放送受信装置1−1から送信されてきた情報に基づいて、注目画像表示領域22には、図3のフォトシェアリング画面において注目されている画像と同じ画像が注目画像として表示され、サムネイル画像表示領域23には、図3のフォトシェアリング画面において表示されているサムネイル画像と同じサムネイル画像が並べて表示されている。
この例においては、会話から抽出されたキーワードも表示されるようになされており、キーワード表示領域24には、図3のフォトシェアリング画面のキーワード表示領域14に表示されているものと同じキーワードである「ニューヨーク」と「マンハッタン」が表示されている。
テレビジョン放送受信装置1−2のユーザは、このようなフォトシェアリング画面から、テレビジョン放送受信装置1−1のユーザにより注目されている画像を確認することができ、それについてテレビジョン放送受信装置1−1のユーザと会話を行うことができる。
図5は、テレビジョン放送受信装置1−1に表示されるフォトシェアリング画面の他の例を示す図である。図3の説明と重複する説明については適宜省略する。
図5は、画像検索モードが設定されているときに表示されるフォトシェアリング画面の例を示している。このモードが設定されているとき、会話から抽出されたキーワードと、図3に示されるような画面が表示されていたときにそれぞれの画像にメタデータとして付加されたキーワードのマッチングが、会話からキーワードが抽出される毎に繰り返し行われ、会話から抽出されたキーワードと同じキーワードがメタデータとして付加されている画像の検索が行われる。
図5の例においては、図3の画面に表示されていたサムネイル画像と異なるサムネイル画像がサムネイル画像表示領域13に表示されている。また、図5のサムネイル画像表示領域13に表示されている6つのサムネイル画像のうちの最も左側に表示されているサムネイル画像が選択され、それを拡大した画像が注目画像として注目画像表示領域12に表示されている。
テレビジョン放送受信装置1−1のユーザは、この注目画像などについてテレビジョン放送受信装置1−2のユーザと会話を行うことになる。
また、図5の例においては、キーワード表示領域14には、テレビジョン放送受信装置1−2のユーザとの会話から抽出されたキーワードとして「ニューヨーク」と「マンハッタン」が表示されている。
この場合、「ニューヨーク」と「マンハッタン」がメタデータとして付加されている画像の検索がテレビジョン放送受信装置1−1においては行われるから、上述したように、図3のフォトシェアリング画面において注目されていた画像に「ニューヨーク」と「マンハッタン」がメタデータとして付加されているときには、図5に示されるように、図3の画面において注目されていた画像などが関連画像として検索され、そのサムネイル画像が関連画像表示領域15に表示される。
図5のフォトシェアリング画面の関連画像表示領域15のうちの最も左側に表示されているサムネイル画像は、図3のフォトシェアリング画面が表示されていたときに注目されていた画像(図3の画面が表示されていたときに会話から抽出された「ニューヨーク」と「マンハッタン」がメタデータとして付加されている画像)のサムネイル画像である。図5の例においては、他のサムネイル画像も関連画像表示領域15には表示されている。
テレビジョン放送受信装置1−1のユーザは、サムネイル画像表示領域13に表示されているサムネイル画像だけでなく、関連画像表示領域15に表示されているサムネイル画像の中からも、注目する画像を選択することができる。
関連画像表示領域15に表示されているサムネイル画像は、テレビジョン放送受信装置1−1のユーザとテレビジョン放送受信装置1−2のユーザの間でいま行われている会話に関連のある画像を表すものであるから、テレビジョン放送受信装置1−1のユーザは、提示された関連画像に注目して会話を続けることによって、会話の内容を膨らませることができる。例えば、「ニューヨーク」、「マンハッタン」などの言葉を使って会話を行っているときには、同じ「ニューヨーク」、「マンハッタン」などの言葉を使って過去に会話を行っていたときに注目していた画像に再び注目して会話を行うことができる。
図6は、テレビジョン放送受信装置1−2に表示されるフォトシェアリング画面の他の例を示す図である。
図6は、図5の画面がテレビジョン放送受信装置1−1に表示されているときにテレビジョン放送受信装置1−1から送信されてきた情報などに基づいて表示される画面の例を示している。
図6に示されるように、テレビジョン放送受信装置1−2に表示されるフォトシェアリング画面の注目画像表示領域22には、図5のフォトシェアリング画面において注目されている画像と同じ画像が注目画像として表示される。また、サムネイル画像表示領域23には、図5のフォトシェアリング画面のサムネイル画像表示領域13に表示されているものと同じサムネイル画像が並べて表示される。
さらに、キーワード表示領域24には、図5のフォトシェアリング画面のキーワード表示領域14に表示されているものと同じキーワードである「ニューヨーク」と「マンハッタン」が表示される。
図7は、テレビジョン放送受信装置1−1に表示されるフォトシェアリング画面のさらに他の例を示す図である。
図7は、図5の関連画像表示領域15に表示されているサムネイル画像のうちの最も左側のサムネイル画像が選択されたときに図5の画面に替えてテレビジョン放送受信装置1−1に表示される画面の例を示している。
このとき、図7に示されるように、関連画像表示領域15の最も左側に表示されているサムネイル画像を拡大した関連画像が注目画像として注目画像表示領域12に表示される。
図7の例においては、キーワード表示領域14にそれまで表示されていたキーワードは消されている。会話からキーワードが新たに抽出されたとき、キーワード表示領域14にはその抽出されたキーワードが表示される。
このように、テレビジョン放送受信装置1−1のユーザは、関連画像表示領域15に表示されているサムネイル画像を選択することによって、関連画像を拡大して表示させることができる。
図8は、テレビジョン放送受信装置1−2に表示されるフォトシェアリング画面のさらに他の例を示す図である。
図8は、図7の画面がテレビジョン放送受信装置1−1に表示されているときにテレビジョン放送受信装置1−1から送信されてきた情報などに基づいてテレビジョン放送受信装置1−2に表示される画面の例を示している。
図8に示されるように、テレビジョン放送受信装置1−2に表示されるフォトシェアリング画面の注目画像表示領域22には、図7のフォトシェアリング画面において注目されている関連画像と同じ画像が表示される。また、サムネイル画像表示領域23には、図7のフォトシェアリング画面のサムネイル画像表示領域13に表示されているものと同じサムネイル画像が並べて表示される。
テレビジョン放送受信装置1−2のユーザは、テレビジョン放送受信装置1−1のユーザにより新たに注目された関連画像を確認することができ、それについて会話を行うことができる。
図8の例においても、キーワード表示領域24にそれまで表示されていたキーワードは消されている。新たに抽出されたキーワードの情報を含むフォトシェアリング画面の情報がテレビジョン放送受信装置1−1から送信されてきたとき、キーワード表示領域24にはその抽出されたキーワードが表示される。
会話から抽出されたキーワードをメタデータとして画像に付加したり、会話から抽出されたキーワードに基づいて画像を検索するテレビジョン放送受信装置1−1の動作と、以上のような画面表示を行うテレビジョン放送受信装置1−2の動作についてはフローチャートを参照して後述する。
図9は、テレビジョン放送受信装置1−1のハードウエア構成例を示すブロック図である。
テレビジョン放送受信装置1−1は、VoIPを使って会話を行いながら複数のユーザが同じ画像を鑑賞することができるようにするフォトシェアリングの機能の他に、VoIPを使って会話を行いながら複数のユーザが同じテレビジョン番組を視聴することができるようにするテレビシェアリングの機能も有しており、図9には、このテレビシェアリングの機能を実現する構成も示されている。
テレビジョン放送受信装置1−1は、地上アナログ放送受信用のアンテナからの信号が入力されるアンテナ入力端子31と、ディジタル放送(地上ディジタル放送、BS/CSディジタル放送)受信用のアンテナからの信号が入力されるアンテナ入力端子32を有している。いずれか一方の端子だけが設けられるようにしてもよい。
地上波チューナ33は、アンテナ入力端子31に入力された放送波信号を受信、復調し、映像信号および音声信号を取得する。地上波チューナ33は、取得した音声信号を音声A/D(Analog/Digital)変換回路34に出力し、映像信号をビデオデコーダ35に出力する。
音声A/D変換回路34は、地上波チューナ33から供給された音声信号に対してA/D変換処理を施し、得られたディジタルの音声信号を音声信号処理回路42に出力する。
ビデオデコーダ35は、地上波チューナ33から供給された映像信号に対してデコード処理を施し、得られたディジタルのコンポーネント信号を映像信号処理回路38に出力する。
ディジタルチューナ36は、アンテナ入力端子32に入力された放送波信号を受信、復調し、MPEG-TS(Moving Picture Experts Group-Transport Stream)を取得する。ディジタルチューナ36は、取得したMPEG-TSをMPEGデコーダ37に出力する。
MPEGデコーダ37は、ディジタルチューナ36から供給されたMPEG-TSに施されているスクランブルを解除し、再生対象になっている番組のデータを含むストリームを抽出する。MPEGデコーダ37は、抽出したストリームを構成する音声パケットをデコードし、得られた音声データを音声信号処理回路42に出力するとともに、ストリームを構成する映像パケットをデコードし、得られた映像データを映像信号処理回路38に出力する。
また、MPEGデコーダ37は、MPEG-TSから抽出したEPG(Electronic Program Guide)データを図示せぬ経路を介してCPU(Central Processing Unit)52に出力する。
映像信号処理回路38は、ビデオデコーダ35から供給された映像データに対して、あるいはMPEGデコーダ37から供給された映像データに対してノイズ除去などの所定の処理を施し、得られた映像データをグラフィック生成回路39に出力する。
グラフィック生成回路39は、表示パネル41に表示させる番組の映像データを生成し、生成した映像データをパネル駆動回路40に出力する。
また、グラフィック生成回路39は、フォトシェアリングを実現するアプリケーションが起動しているとき、フォトシェアリング画面を表示パネル41に表示させるためのデータを内部バス49を介して供給された画像データなどに基づいて生成し、生成したデータをパネル駆動回路40に出力する。グラフィック生成回路39に対しては、例えば、ユーザにより選択されたフォルダに格納されている画像のデータが内部バス49を介して供給されてくる。また、注目された画像、会話から抽出されたキーワード、キーワードに基づいて行われた検索によって取得された関連画像のデータなども内部バス49を介して供給されてくる。
このように、フォトシェアリング画面などの上述したようなユーザインタフェースは、このグラフィック生成回路39により生成されたデータに基づいて実現される。
パネル駆動回路40は、グラフィック生成回路39から供給されたデータに基づいて表示パネル41を駆動し、番組の映像やフォトシェアリング画面を表示させる。
表示パネル41はLCD(Liquid Crystal Display)などよりなり、パネル駆動回路40による制御にしたがって番組の映像などを表示させる。
音声信号処理回路42は、音声A/D変換回路34から供給された音声データに対して、あるいはMPEGデコーダ37から供給された音声データに対してノイズ除去などの所定の処理を施し、得られた音声データをエコーキャンセル/音声合成回路43に出力する。
エコーキャンセル/音声合成回路43は、音声信号処理回路42から供給された音声データを音声増幅回路44に出力し、番組の音声をスピーカ45から出力させる。また、エコーキャンセル/音声合成回路43は、テレビシェアリングが行われており、番組の音声データが音声信号処理回路42から供給されるだけでなく、ネットワーク2を介して供給された、テレビシェアリングの相手のユーザの音声のデータが音声コーデック48から供給されたり、あるいは、テレビジョン放送受信装置1−1のユーザの音声のデータがA/D変換回路47から供給されている場合、テレビジョン放送受信装置1−1のユーザの音声データを対象としてエコーキャンセルを行うとともに、そのとき選択されている音声モードにしたがって、エコーキャンセルを行ったテレビジョン放送受信装置1−1のユーザの音声と、テレビシェアリングの相手のユーザの音声と、番組の音声の合成を行う。エコーキャンセル/音声合成回路43は、合成して得られた音声のデータを音声増幅回路44に出力する。
さらに、エコーキャンセル/音声合成回路43は、フォトシェアリングが行われており、ネットワーク2を介して供給された、テレビジョン放送受信装置1−2のユーザの音声のデータが音声コーデック48から供給されたとき、それを音声増幅回路44に出力する。
音声増幅回路44は、エコーキャンセル/音声合成回路43から供給された音声データに対してD/A変換処理、増幅処理を施し、所定の音量に調整した後、音声をスピーカ45から出力させる。
A/D変換回路47は、音声会話用のものとしてテレビジョン放送受信装置1−1に設けられるマイクロフォン46により取り込まれたユーザの音声の信号を受信し、受信した音声信号に対してA/D変換処理を施す。A/D変換回路47は、A/D変換処理によって得られたディジタルの音声データをエコーキャンセル/音声合成回路43と音声コーデック48に出力する。なお、マイクロフォン46は、表示パネル41から所定の距離だけ離れた位置にいるユーザの手元付近に用意される。
また、A/D変換回路47は、A/D変換処理によって得られたディジタルの音声データを内部バス49を介してCPU52にも出力する。CPU52に出力された音声データは、音声認識を行うために用いられる。
音声コーデック48は、A/D変換回路47から供給された音声データを、ネットワーク2経由で送信するための所定のフォーマットのデータに変換し、内部バス49を介してネットワークI/F54に出力する。
内部バス49には、SDRAM(Synchronous Dynamic Random Access Memory)50、フラッシュメモリ51、CPU52、USB(Universal Serial Bus) I/F53、およびネットワークI/F54も接続される。
SDRAM50は、CPU52が処理を行う上で必要な各種のデータを記憶する。
フラッシュメモリ51は、CPU52により実行されるフォトシェアリングを実現するアプリケーションやテレビシェアリングを実現するアプリケーションを記憶する。フラッシュメモリ51には、ディジタル放送を介して取得されたEPGデータ、ネットワーク2を介して所定のサーバから取得されたEPGデータなども記憶される。
また、フラッシュメモリ51には、テレビジョン放送受信装置1−1に取り込まれた画像も記憶される。フラッシュメモリ51に記憶されている画像はフォトシェアリングを実現するアプリケーションが起動しているときにグラフィック生成回路39などに供給され、フォトシェアリング画面の表示に用いられる。
CPU52は、フラッシュメモリ51に記憶されているプログラムを実行し、受光部57から供給される制御コードなどに応じてテレビジョン放送受信装置1−1の全体の動作を制御する。CPU52とテレビジョン放送受信装置1−1の各部は、図示せぬ経路を介して接続されている。
USB I/F53は、USB端子56に装着されたUSBケーブルを介して接続されるディジタルカメラから画像を取り込み、内部バス49を介してフラッシュメモリ51に供給して記憶させる。なお、画像の取り込みは、図示せぬスロットに装着されたメモリカードなどを介しても行われる。
ネットワークI/F54は、ネットワーク端子55に装着されたケーブルを介してネットワーク2に接続し、テレビジョン放送受信装置1−2とデータの送受信を行う。ネットワークI/F54は、テレビジョン放送受信装置1−2から音声データが供給されてきたときそれを内部バス49を介して音声コーデック48に出力する。また、ネットワークI/F54は、テレビジョン放送受信装置1−1のユーザの音声のデータが音声コーデック48から内部バス49を介して供給されてきたとき、それを、テレビジョン放送受信装置1−2にネットワーク2を介して送信する。
また、ネットワークI/F54は、フォトシェアリング画面の情報がCPU52から供給されたとき、それをネットワーク2を介してテレビジョン放送受信装置1−2に送信する。
受光部57は、リモートコントローラ61からの赤外線を受光し、復調して得られたユーザ操作の内容を表す制御コードをCPU52に出力する。
リモートコントローラ61は、表面に設けられるボタンに対するユーザの操作を検出し、ユーザの操作の内容を表す赤外線を出力する。リモートコントローラ61の表面には、フォトシェアリング画面に表示されるカーソルCを移動させるときに操作される十字キーなどが設けられる。
以上のような構成と同じ構成をテレビジョン放送受信装置1−2も有している。以下、適宜、図9に示されるテレビジョン放送受信装置1−1の構成を、テレビジョン放送受信装置1−2の構成として引用して説明する。
図10は、テレビジョン放送受信装置1−1の機能構成例を示すブロック図である。図10に示す機能部のうちの少なくとも一部は、フォトシェアリングを実現するアプリケーションが図9のCPU52により実行されることによって実現される。
図10に示されるように、テレビジョン放送受信装置1−1においては、音声認識部71、キーワード抽出部72、表示制御部73、メタデータ付加部74、検索部75、画像DB76、および通信制御部77が実現される。
音声認識部71は、スピーカ46によって取り込まれ、A/D変換回路47においてA/D変換が行われることによって得られた音声データに基づいて音声認識を行い、テレビジョン放送受信装置1−1のユーザの音声を表すテキストデータを取得する。
また、音声認識部71は、適宜、ネットワークI/F54において受信されたテレビジョン放送受信装置1−2のユーザの音声データに基づいて音声認識を行い、テレビジョン放送受信装置1−2のユーザの音声を表すテキストデータを取得する。音声認識部71は、取得したテキストデータをキーワード抽出部72に出力する。
キーワード抽出部72は、音声認識部71から供給されたテキストデータの形態素解析を行い、例えば名詞の形態素を抽出する。
また、キーワード抽出部72は、抽出した形態素のそれぞれに例えば出現頻度に応じた重み付けを行い、優先順位の高い所定の数の形態素をキーワードとして抽出する。例えば、人名、地名などがキーワードとして抽出される。
キーワード抽出部72は、抽出したキーワードを表示制御部73に出力する。また、キーワード抽出部72は、メタデータ付加モードが設定されているとき、抽出したキーワードをメタデータ付加部74に出力し、画像検索モードが設定されているとき、抽出したキーワードを検索部75に出力する。
表示制御部73は、画像DB76に記憶されている画像、キーワード抽出部72から供給されたキーワード、検索部75から供給された検索結果などに基づいてフォトシェアリング画面を表示パネル41に表示させる。
具体的には、表示制御部73は、ユーザにより選択されたフォルダに格納されている画像を画像DB76から読み出し、グラフィック生成回路39などを制御してサムネイル画像をサムネイル画像表示領域13に表示させる。また、表示制御部73は、ユーザによる操作などに応じて選択された画像を、注目画像として注目画像表示領域12に表示させる。
さらに、表示制御部73は、キーワード抽出部72から供給されたキーワードをキーワード表示領域14に表示させる。表示制御部73は、画像検索モードが設定されており、検索部75から検索結果としての関連画像の情報が供給されたとき、関連画像を画像DB76から読み出し、読み出した関連画像のサムネイル画像を関連画像表示領域15に表示させる。
メタデータ付加部74は、キーワード抽出部72から供給されたキーワードを、画像DB76に記憶されている、そのキーワードの抽出元になった会話が行われていたときに注目されていた画像の自由領域に書き込むことによって、注目画像にメタデータを付加する。メタデータ付加モードが設定されているとき、メタデータ付加部74に対しては、キーワード抽出部72により抽出されたキーワードが供給されてくる。
図11は、画像データのフォーマットの例を示す図である。
例えば、JPEG(Joint Photographic Expert Group)フォーマットの画像データがテレビジョン放送受信装置1−1に取り込まれ、画像DB76に記憶されている場合、会話から抽出されたキーワードは、図11に示されるように、メーカなどが各種の情報を規定して自由に書き込むことができるJPEGフォーマットの自由領域に書き込まれる。
図11には、圧縮された画像データそのものが書き込まれる領域などの各種の領域が示されており、このうちの自由領域である「APP5」の領域に、会話から抽出された「ニューヨーク」、「マンハッタン」、・・・のキーワードが書き込まれている。このように、メタデータ付加モードが設定されているとき、注目されたそれぞれの画像の自由領域には、それぞれの画像が注目されていたときに行われた会話から抽出されたキーワードが書き込まれる。
JPEGフォーマット以外の他のフォーマットの画像データが取り込まれている場合、その、他のフォーマットの自由領域にキーワードが書き込まれるようにしてもよい。
図10の説明に戻り、検索部75は、画像DB76に記憶されている画像を対象として、キーワード抽出部72から供給されたキーワードと同じキーワードが自由領域に書き込まれている画像を検索する。画像検索モードが設定されているとき、検索部75に対しては、キーワード抽出部72により抽出されたキーワードが供給されてくる。検索部75は、検索された関連画像の情報を表示制御部73に出力する。
画像DB76は、JPEGフォーマットなどの所定のフォーマットの画像データを記憶する。
通信制御部77は、ネットワークI/F54を制御し、表示制御部73により表示パネル41に表示されているフォトシェアリング画面のうちの、例えば注目画像表示領域12、サムネイル画像表示領域13、キーワード表示領域14のそれぞれの領域の表示内容を表す情報をテレビジョン放送受信装置1−2に送信する。通信制御部77による情報の送信は、例えば、テレビジョン放送受信装置1−1に表示されているフォトシェアリング画面の表示内容が切り替えられる毎に行われる。
図12は、テレビジョン放送受信装置1−2の機能構成例を示すブロック図である。図12に示す機能部のうちの少なくとも一部は、フォトシェアリングを実現するアプリケーションがテレビジョン放送受信装置1−2のCPU52により実行されることによって実現される。
図12に示されるように、テレビジョン放送受信装置1−2においては、通信制御部81と表示制御部82が実現される。
通信制御部81は、テレビジョン放送受信装置1−2のネットワークI/F54を制御し、テレビジョン放送受信装置1−1との間でネットワーク2を介して通信を行う。通信制御部81は、テレビジョン放送受信装置1−1からフォトシェアリング画面の情報が送信されてきたときそれを受信し、受信したフォトシェアリング画面の情報を表示制御部82に出力する。
表示制御部82は、通信制御部81から供給された情報に基づいて、テレビジョン放送受信装置1−1のフォトシェアリング画面の注目画像表示領域12、サムネイル画像表示領域13、キーワード表示領域14の表示内容と同じ内容の画像、キーワードが表示されるフォトシェアリング画面をテレビジョン放送受信装置1−2の表示パネル41に表示させる。
次に、以上のような構成を有するテレビジョン放送受信装置1−1と1−2の動作についてフローチャートを参照して説明する。
はじめに、図13のフローチャートを参照して、フォトシェアリング画面の画像の表示を制御するテレビジョン放送受信装置1−1の処理について説明する。この処理は、例えば、メタデータ付加モードが設定されているときに行われる図15の処理、または、画像検索モードが設定されているときに行われる図16の処理と並行して実行される。
ステップS1において、テレビジョン放送受信装置1−1の表示制御部73は、ユーザにより選択されたフォルダに格納されている画像のサムネイル画像をサムネイル画像表示領域13に表示させる。
また、表示制御部73は、画像検索モードが設定されており、関連画像の情報が検索部75から供給されたとき、関連画像のサムネイル画像を関連画像表示領域15に表示させる。
ステップS2において、表示制御部73は、サムネイル画像の中から選択された画像を拡大し、注目画像として注目画像表示領域12に表示させる。
ステップS3において、通信制御部77は、テレビジョン放送受信装置1−1の表示パネル41に表示されているフォトシェアリング画面のうちの所定の領域の表示内容を表す情報をテレビジョン放送受信装置1−2に送信し、処理を終了させる。
次に、図14のフローチャートを参照して、フォトシェアリング画面の画像の表示を制御するテレビジョン放送受信装置1−2の処理について説明する。
ステップS11において、テレビジョン放送受信装置1−2の通信制御部81は、テレビジョン放送受信装置1−1から送信されてきたフォトシェアリング画面の情報を受信する。通信制御部81は、受信した情報を表示制御部82に出力する。
ステップS12において、表示制御部82は、通信制御部81から供給された情報に基づいて、テレビジョン放送受信装置1−1に表示されているフォトシェアリング画面と同様の画面を表示させ、処理を終了させる。
次に、図15のフローチャートを参照して、画像データの自由領域にメタデータを書き込むテレビジョン放送受信装置1−1の処理について説明する。
すなわち、この処理は、メタデータ付加モードが設定されているときに行われる処理である。
ステップS21において、テレビジョン放送受信装置1−1の音声認識部71は、スピーカ46によって取り込まれ、A/D変換回路47においてA/D変換が行われることによって得られた音声データに基づいて音声認識を行い、テレビジョン放送受信装置1−1のユーザの音声を表すテキストデータをキーワード抽出部72に出力する。
また、音声認識部71は、ネットワークI/F54において受信されたテレビジョン放送受信装置1−2のユーザの音声データに基づいて音声認識を行い、テレビジョン放送受信装置1−2のユーザの音声を表すテキストデータをキーワード抽出部72に出力する。
ステップS22において、キーワード抽出部72は、音声認識部71から供給されたテキストデータの形態素解析を行い、ステップS23に進み、名詞の形態素を抽出する。
ステップS24において、キーワード抽出部72は、抽出した形態素のそれぞれに出現頻度に応じた重み付けを行い、例えば、優先順位の高い所定の数の形態素をキーワードとして抽出する。キーワード抽出部72は、抽出したキーワードを表示制御部73とメタデータ付加部74に出力する。
ステップS25において、メタデータ付加部74は、キーワード抽出部72から供給されたキーワードを、そのキーワードの抽出元になった会話が行われていたときに注目されていた画像の自由領域に書き込む。
ステップS26において、表示制御部73は、キーワード抽出部72から供給されたキーワードをフォトシェアリング画面のキーワード表示領域14に表示させ、ユーザに提示する。その後、処理は終了される。
なお、抽出されたキーワードの全てがメタデータとして画像の自由領域に書き込まれるのではなく、ユーザにより選択されたキーワードだけが書き込まれるようにしてもよい。この場合、テレビジョン放送受信装置1−1のユーザが、提示されたキーワードの中から注目画像の自由領域に書き込むキーワードを選択することができるようになされる。
これにより、テレビジョン放送受信装置1−1のユーザは、例えば、自分があまり使わない言葉がメタデータとして付加されることを防止することができる。あまり使わない言葉がメタデータとして付加された場合、それが付加された画像が関連画像として検索されることは少なくなるから、自分がよく使う言葉だけがメタデータとして付加されるようにすることによって、関連画像として検索される画像を増やすことができる。
次に、図16のフローチャートを参照して、画像の検索を行うテレビジョン放送受信装置1−1の処理について説明する。
すなわち、この処理は、画像検索モードが設定されているときに行われる処理である。図16のステップS31乃至S34の処理は、メタデータ付加モードが設定されているときに行われる図15のステップS21乃至S24の処理と基本的に同様の処理である。
ステップS31において、テレビジョン放送受信装置1−1の音声認識部71は、スピーカ46によって取り込まれ、A/D変換回路47においてA/D変換が行われることによって得られた音声データに基づいて音声認識を行い、テレビジョン放送受信装置1−1のユーザの音声を表すテキストデータをキーワード抽出部72に出力する。
また、音声認識部71は、ネットワークI/F54において受信されたテレビジョン放送受信装置1−2のユーザの音声データに基づいて音声認識を行い、テレビジョン放送受信装置1−2のユーザの音声を表すテキストデータをキーワード抽出部72に出力する。
ステップS32において、キーワード抽出部72は、音声認識部71から供給されたテキストデータの形態素解析を行い、ステップS33に進み、名詞の形態素を抽出する。
ステップS34において、キーワード抽出部72は、抽出した形態素のそれぞれに出現頻度に応じた重み付けを行い、例えば、優先順位の高い所定の数の形態素をキーワードとして抽出する。キーワード抽出部72は、抽出したキーワードを表示制御部73と検索部75に出力する。
ステップS35において、検索部75は、画像DB76に記憶されている画像を対象として、キーワード抽出部72から供給されたキーワードと同じキーワードが自由領域に書き込まれている画像を検索する。検索部75は、検索した関連画像の情報を表示制御部73に出力する。
ステップS36において、表示制御部73は、検索部75により検索された関連画像を画像DB76から読み出し、読み出した関連画像のサムネイル画像を関連画像表示領域15に表示させ、ユーザに提示する。
これにより、テレビジョン放送受信装置1−1のユーザは、テレビジョン放送受信装置1−2のユーザとの会話の内容に関連のある画像をすぐに探すことができ、それに注目して会話を進めることができる。
テレビジョン放送受信装置1−1においては、図16の処理と並行して図13の処理が行われるから、関連画像表示領域15に表示されているサムネイル画像が選択されたとき、選択されたサムネイル画像が拡大され、関連画像が注目画像として注目画像表示領域12に表示される。
また、テレビジョン放送受信装置1−2においては、図16の処理と並行して図14の処理が行われるから、テレビジョン放送受信装置1−1において関連画像が注目されることに応じて、テレビジョン放送受信装置1−2の注目画像表示領域22にも、同じ関連画像が表示される。
以上においては、メタデータ付加モードと画像検索モードのうちのいずれか一方のモードが設定され、それに応じた処理がテレビジョン放送受信装置1−1において行われるものとしたが、会話から抽出されたキーワードをメタデータとして付加する処理と、会話から抽出されたキーワードに基づいて関連画像を検索する処理とが並行して行われるようにしてもよい。
また、以上においては、テレビジョン放送受信装置間でフォトシェアリングが行われるものとしたが、図17に示されるような構成を有するパーソナルコンピュータ間でフォトシェアリングが行われるようにしてもよいし、携帯電話機、PDA(Personal Digital Assistants)、携帯型のゲーム機などのデバイス間でフォトシェアリングが行われるようにしてもよい。フォトシェアリングを行うそれぞれのデバイスが同じデバイスである必要はなく、異なるデバイス間でフォトシェアリングが行われるようにしてもよい。
さらに、デバイスの処理能力が低く、音声認識やキーワードの抽出、あるいはキーワードに基づく画像の検索などをデバイスに行わせることができない場合、フォトシェアリングを行っているデバイスとともにネットワークに接続されるサーバなどによりそれらの処理が代行して行われ、処理結果がそれぞれのデバイスに送信されることによって、上述したようなフォトシェアリングが実現されるようにしてもよい。
以上においては、共有対象のコンテンツが画像である場合について説明したが、この画像は静止画、動画のいずれの画像であってもよい。また、共有対象のコンテンツは画像や上述したテレビジョン番組に限られず、音楽であったり、録画済みのビデオなどであってもよい。
また、テレビジョン放送受信装置1−1により画像の注目履歴が管理されるようにしてもよい。これにより、会話から抽出されたキーワードに基づいて行われる検索の結果としての関連画像のサムネイル画像を、過去に注目された時間の長い順、注目された回数の多い順などのように、所定の順序で並べて関連画像表示領域15に表示させることができる。注目された時間の長い画像や注目された回数の多い画像は、テレビジョン放送受信装置1−1のユーザが人に見せる機会の多い画像といえるから、そのようないわばお気に入りの画像が確認しやすい順序で表示されることによって、ユーザは、お気に入りの画像を容易に探すことができる。
また、自由領域に書き込まれているキーワードの数が多い順に関連画像のサムネイル画像が並べて表示されるようにしてもよい。より多くのキーワードが自由領域に書き込まれている画像は、過去に、多くのキーワードが抽出されるほど会話が盛り上がっていたときに注目されていた画像といえるから、そのような順序で表示されることによって、ユーザは、会話が盛り上がる画像を容易に探すことができる。
以上においては、テレビジョン放送受信装置1−1のユーザとテレビジョン放送受信装置1−2のユーザにより行われた会話からキーワードが抽出され、メタデータが画像に付加されたり、画像の検索が行われたりするものとしたが、少なくともいずれか一方のユーザの発話だけからキーワードが抽出され、それらの処理が行われるようにしてもよい。
また、フォトシェアリングを行っているとき以外にも、テレビジョン放送受信装置1−1のユーザが1人で画像を見ていたときに行われた発話からキーワードが抽出され、抽出されたキーワードに基づいて、メタデータが画像に付加されたり、画像の検索が行われたりするようにしてもよい。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図17は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。
CPU101は、ROM102、または記憶部108に記憶されているプログラムに従って各種の処理を実行する。RAM103には、CPU101が実行するプログラムやデータなどが適宜記憶される。これらのCPU101、ROM102、およびRAM103は、バス104により相互に接続されている。
CPU101にはまた、バス104を介して入出力インターフェース105が接続されている。入出力インターフェース105には、キーボード、マウス、マイクロホン106Aなどよりなる入力部106、ディスプレイ、スピーカ107Aなどよりなる出力部107が接続されている。CPU101は、入力部106から入力される指令に対応して各種の処理を実行する。また、CPU101は、マイクロフォン106Aにおいて取り込まれ、入力部106から入力された音声データに基づいて音声の認識やキーワードの抽出、画像の検索などの各種の処理を実行する。
入出力インターフェース105に接続されている記憶部108は、例えばハードディスクからなり、CPU101が実行するプログラムや共有の対象となる画像などの各種のデータを記憶する。通信部109は、ネットワーク2を介して外部の装置と通信を行う。
入出力インターフェース105に接続されているドライブ110は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部108に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図17に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111、または、プログラムが一時的もしくは永続的に格納されるROM102や、記憶部108を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部109を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
1−1と1−2 テレビジョン放送受信装置, 2 ネットワーク, 11 ユーザリスト表示領域, 12 注目画像表示領域, 13 サムネイル画像表示領域, 14 キーワード表示領域, 15 関連画像表示領域, 21 ユーザリスト表示領域, 22 注目画像表示領域, 23 サムネイル画像表示領域, 24 キーワード表示領域, 71 音声認識部, 72 キーワード抽出部, 73 表示制御部, 74 メタデータ付加部, 75 検索部, 76 画像DB, 77 通信制御部, 81 通信制御部, 82 表示制御部