JP2011164681A

JP2011164681A - 文字入力装置、文字入力方法、文字入力プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2011164681A
Application number: JP2010023228A
Authority: JP
Inventors: Hiroaki Kondo; 広明近藤; Morimichi Muto; 守道武藤; Takayuki Toguchi; 貴行戸口; Ali Algbi; アリアルグビ; Yasushi Watanabe; 恭渡邉; Muneki Yoshida; 宗樹吉田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-02-04
Filing date: 2010-02-04
Publication date: 2011-08-25

Abstract

【課題】映像に対するユーザの感想をより簡単に利用可能にする文字入力装置を提供する。
【解決手段】本発明に係る文字入力装置１は、ディスプレイ２に映像を表示する映像出力部５と、映像の表示中にディスプレイ２の前方に存在するユーザの顔面を捉えた顔動画を取得するカメラ１５と、取得された顔動画を解析して、ユーザの口の動きに対応する文字情報を生成する解析部１１と、生成された文字情報を映像情報に対して関連付けるつぶやき処理部１３とを備えている。これによって、上記映像情報に関連付けられた文字情報を、上記映像に対するユーザの感想として簡易に利用することができる。
【選択図】図１

Description

本発明は、文字入力装置、文字入力方法、文字入力プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体に関する。

従来、情報端末への文字入力手段の一つとして、ユーザの声をマイクロフォンで採取し、これを解析してテキストに変換する技術が存在する。また最近では、外部から採取した音声以外を解析対象にする新たな手法が開発されている。

例えば、特許文献１には、非可聴つぶやき音の肉伝導の振動音を採取して、音声認識の対象とする技術が開示されている。特許文献１に開示された技術では、ユーザの体表に聴診器型のマイクロフォンを装着させ、生体の規則振動を用いない発話行動に伴って調音される非可聴つぶやき音の肉伝導の振動音を採取している。

また、近年では、ユーザの口の動きからその発話内容を解析する技術（リップリーディング）が開発されている（例えば、非特許文献1参照）。

ところで、近年、インターネットの普及に伴い、放送番組やコンテンツ等に対する評価や感想を他の視聴者と共有する様々なコミュニケーションサービスサイトが提供されている。例えば、複数のユーザが意見を交換するチャットや、個々のユーザが感想等を記録するブログ、また、個々のユーザが「つぶやき」を投稿するＴｗｉｔｔｅｒ等のソーシャルネットワーキングサービス（ＳＮＳ）などが存在する。

国際公開第２００４／０２１７３８号（２００４年３月１１日公開）

Sarah Hilder、他２名、「Comparison of human and machine-based lip-reading」、Proceedings of the International Conference on Auditory-Visual Speech Processing（AVSP 2009）、（米国）、２００９年９月１０日、ｐ．８６−８９

上述のようなコミュニケーションサービスサイトの充実化に伴い、映像に対するユーザの感想をテキスト化して利用する機会が増えている。また、テレビやパーソナルコンピュータ（ＰＣ）等、映像を表示する装置の高機能化している現状、映像に対するユーザの感想のテキスト化は、有用性が高いと考えられる。しかしながら、現状、映像に対するユーザの感想をテキスト化するためには、ユーザが映像表示装置で映像を視聴した後、リモコンやキーボード等によって情報端末に文字列を入力するという手間が必要となる。

本発明は、上記の課題に鑑みてなされたものであり、その目的は、映像に対するユーザの感想をより簡単に利用可能にする文字入力装置を提供することにある。

本発明者らは上記課題を解決するために鋭意検討を行った。その結果、本発明者らは、上記課題を解決するために、映像視聴中におけるユーザの発話内容を解析することによって、当該映像に対するユーザの感想をテキスト化する方法を着想した。そこで、本発明者らは、映像視聴中のユーザの発話内容を解析するための手段を検討した。

例えば、マイクロフォンで採取した音声を解析する手段を用いた場合、テレビ等の文字入力装置から出力される音声が反射して混入してしまい、ユーザの声のみを採取することが困難であることが判明した。また、ユーザの声がある程度の音量を有していないと、マイクロフォンで声を採取することができないことが分かった。

また、特許文献１に開示された技術を用いた場合では、肉伝導の振動音を採取するための特別な機器を、ユーザが装着する必要があり、ユーザに対する負担となってしまう。

そこで、本発明者らは、映像視聴中のユーザの発話内容を解析するための手段として、ユーザの口の動きからその発話内容を解析する技術に注目した。

すなわち、本発明に係る文字入力装置は、上記の課題を解決するために、画面に映像を表示する表示手段と、上記映像の表示中に上記画面の前方に存在するユーザの顔面を捉えた顔動画を取得するカメラと、取得された上記顔動画を解析して、上記ユーザの口の動きに対応する文字情報を生成する解析手段と、生成された上記文字情報を、当該文字情報の基となる上記顔動画を取得したときに表示中であった上記映像の映像情報に対して関連付ける関連付け手段とを備えることを特徴としている。

上記構成において、本発明に係る文字入力装置は、映像を表示し、当該映像を視聴しているユーザの口の動きに基づいて当該口の動きに対応した文字情報を生成し、さらに生成された文字情報を表示中であった映像の映像情報に関連付ける。したがって、本発明に係る文字入力装置によれば、ユーザによる文字入力操作を必要とせず、上記映像情報に関連付けられた文字情報を、上記映像に対するユーザの感想として簡易に利用することができる。さらに、本発明に係る文字入力装置は、上記映像情報に関連付けられた文字情報を用いることによって、上記映像に対する様々な処理を行うことができる。

また、上記構成によれば、映像視聴中のユーザの口の動きに基づいて処理が行われるため、ユーザが無意識に発した言葉等、生の感想を取得することができる。

また、上記構成によれば、ユーザの口の動きに基づいて文字情報を生成しているため、マイクを必要としない。したがって、通常の映像に付随する音声の反射やユーザ以外の声など、マイクを利用した場合に生じる雑音に関する問題を回避することができる。また、ユーザが、つぶやき程度の不可聴の声で発話した場合であっても、その内容を文字情報として生成することができる。

また、本発明に係る文字入力装置は、上記画面の前方に存在するユーザを感知する人感センサをさらに備えており、上記カメラは、上記人感センサがユーザを感知した場合に、上記顔動画の取得を開始することが好ましい。

上記構成によれば、人感センサとカメラとを連動させることによって、カメラの誤作動を防ぐことができ、さらに省エネを実現することができる。

さらに、本発明に係る文字入力装置において、上記人感センサは、上記画面の前方におけるユーザの存在する範囲を特定する機能を有しており、上記解析手段は、取得された上記顔動画のうち、上記人感センサにより特定された範囲を解析することが好ましい。

上記構成によれば、画像解析の範囲を減らすことができるため、解析速度を向上することができる。

また、本発明に係る文字入力装置は、上記映像情報に関連付けられた上記文字情報に基づいて、当該映像のお勧め度を算出するお勧め度算出手段をさらに備えていることが好ましい。

上記構成によれば、上記お勧め度を映像の評価パラメータとして利用することができる。例えば、放送番組の番組情報に文字情報が関連付けられている場合、定期的に（例えば毎週）放映されている放送番組であれば、過去の視聴時に生成された文字情報に基づいてお勧め度を算出し、次回放映時の放送番組をお勧めすることができる。

また、本発明に係る文字入力装置において、上記映像は、時間軸を有するコンテンツの映像であって、上記関連付け手段は、生成された上記文字情報を、当該文字情報の基となる上記顔動画を取得した時点における上記コンテンツの再生時間に対してさらに関連付けることが好ましい。

上記構成によれば、映像情報に文字情報と再生時間とが関連付けられているため、ユーザは、文字情報に基づいて映像の場面検索を行うことができる。例えば映像が映画コンテンツである場合、ユーザは、興奮したり印象的だったりする場面で感想を発することにより、それらの場面を後から検索することができる。

また、本発明に係る文字入力装置は、上記再生時間まで再生された時点の上記コンテンツの画像をサムネイルとして表示するサムネイル表示手段をさらに備えていることが好ましい。

上記構成によれば、ユーザが感想を発した時点の映像場面がサムネイルとして表示される。これによって、ユーザにお勧めの映像場面を提示することができる。

また、本発明に係る文字入力装置は、上記映像情報に関連付けられた上記文字情報を、上記映像と共に表示する文字情報表示手段をさらに備えていることが好ましい。

上記構成によれば、映像を視聴するユーザの間で、当該映像に対する感想を手軽に共有することができる。

また、本発明に係る文字入力装置は、表示される上記映像の上記映像情報に基づいて、外部サーバにおける、当該映像に関するコメントを入力可能なサイトに接続する通信手段と、上記通信手段を介して、上記映像情報に関連付けられた上記文字情報を上記ウェブサイトに入力する入力手段とを、さらに備えることが好ましい。

上記構成によれば、上記ウェブサイトに対するコメントの入力について、煩雑なユーザ操作を必要とせず自動で行うことができる。

また本発明に係る文字入力方法は、画面に映像を表示する表示工程と、上記映像の表示中に上記画面の前方に存在するユーザの顔を捉えた顔動画を取得する動画取得工程と、取得された上記顔動画を解析して、上記ユーザの口の動きに対応する文字情報を生成する解析工程と、生成された上記文字情報を、当該文字情報の基となる上記顔動画を取得したときに表示中であった上記映像の映像情報に対して関連付ける関連付け工程とを備えることを特徴としている。

上記構成によれば、本発明に係る文字入力装置と同様の効果を奏する。

また、上記文字入力装置は、コンピュータによって実現してもよい。この場合、コンピュータを上記各手段として動作させることにより上記文字入力装置をコンピュータにおいて実現する文字入力プログラム、およびその文字入力プログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は、画面に映像を表示する表示手段と、上記映像の表示中に上記画面の前方に存在するユーザの顔面を捉えた顔動画を取得するカメラと、取得された上記顔動画を解析して、上記ユーザの口の動きに対応する文字情報を生成する解析手段と、生成された上記文字情報を、当該文字情報の基となる上記顔動画を取得したときに表示中であった上記映像の映像情報に対して関連付ける関連付け手段とを備えるため、映像に対するユーザの感想をより簡単に利用可能にするという効果を奏する。

本発明の一実施形態に係る文字入力装置の要部構成を示すブロック図である。上記文字入力装置における文字入力処理の一例を示すフローチャートである。上記文字入力装置におけるお勧め番組提示処理を示すフローチャートである。上記文字入力装置における文字入力処理の他の一例を示すフローチャートである。上記文字入力装置における文字入力処理のさらに他の一例を示すフローチャートである。上記文字入力装置におけるお勧め場面提示処理を示すフローチャートである。上記文字入力装置における文字入力処理のさらに他の一例を示すフローチャートである。

本発明の一実施形態について図１から図７に基づいて説明すれば、以下のとおりである。

（文字入力装置１の構成）
本実施形態に係る文字入力装置１は、例えば放送番組または動画コンテンツ等の映像を表示し、映像表示中におけるユーザの口の動きを撮影し、撮影した動画を解析してユーザの口の動きに対応する文字情報を生成し、当該文字情報と映像情報とを関連付ける処理を行うものである。

また、本実施形態に係る文字入力装置１は、例えば、テレビ、ＰＣ（Personal Computer）、またはＰＣ内蔵テレビ等として構成することができる。

本実施の形態に係る文字入力装置１について、図１を参照して説明する。図１は本実施形態に係る文字入力装置１の要部構成を示すブロック図である。

図１に示すように、文字入力装置１は、制御部４、映像出力部（表示手段）５、表示制御部（サムネイル表示手段、文字情報表示手段）６、音声出力部７、コンテンツ取得部８、コンテンツ処理部９、通信部（通信手段）１０、解析部（解析手段）１１、ユーザ入力部１２、つぶやき処理部（関連付け手段、お勧め度算出手段、入力手段）１３、記憶部１４、カメラ１５、および人感センサ１６を備えている。また、文字入力装置１には、ディスプレイ２、スピーカ３、およびリモコン２０がそれぞれ接続されている。なお、ディスプレイ２、スピーカ３、およびリモコン２０は、それぞれ文字入力装置１と一体的に構成されていてもよい。

制御部４は、文字入力装置１を構成する各ブロックを統括制御する。

映像出力部５は、コンテンツ処理部９から送られた映像信号をディスプレイ２に出力する。

表示制御部６は、文字情報をコンテンツ処理部９から出力される映像信号に重ね合わせる重畳処理を行ったり、コンテンツのサムネイル表示を行ったりする。

音声出力部７は、コンテンツ処理部９から送られた音声信号をスピーカ３に出力する。

コンテンツ取得部８は、以下に記載する少なくともいずれか１つの方法でコンテンツまたは放送番組を取得し、コンテンツ処理部９に出力する。

例えば、コンテンツ取得部８は、アンテナ１７やケーブルテレビ放送網（図示しない）を通じて放送波を受信してもよいし、インターネット１８を通じてＩＰ放送データ（ＩＰ放送波）を受信してもよい。また、コンテンツ取得部８は、ＨＤＭＩケーブルまたはビデオケーブルなどを介して録画再生機器（図示しない）から入力される外部入力映像を取得してもよい。また、コンテンツ取得部８は、記録ディスク１９からコンテンツを取得してもよいし、インターネット１８を介してサーバ装置あるいはクライアント装置からコンテンツを取得してもよい。

ここで、コンテンツとは、コンピュータによって処理され再生可能なコンテンツのことである。コンテンツの種類としては、映画等の動画コンテンツや、スライドショー表示される画像コンテンツなどを好適に利用することができる。

コンテンツ処理部９は、コンテンツ取得部８から入力されたコンテンツまたは放送番組を再生可能なように処理（例えばデコード）して、映像出力部５や音声出力部７に出力する。

通信部１０は、インターネット１８を介して外部のサーバ装置と通信を行うインターフェースである。

解析部１１は、カメラ１５によって撮影された動画を解析することによって、ユーザの口の動きを検出し、この口の動きに対応する文字情報を生成する。解析部１１については、例えば、ユーザの口の動きからその発話内容を解析する解析ソフトウェアを用いて実現することができる。

ユーザ入力部１２は、ユーザによる入力操作に応じてリモコン２０が出力した指示を受け付ける。

つぶやき処理部１３は、解析部１１により生成された文字情報を、当該文字情報の基となる動画を取得したときに映像が表示されていた映像（コンテンツまたは番組）の情報と関連付ける。

記憶部１４は、コンテンツ情報や番組情報などの映像情報および文字情報を記憶する。なお、これらの情報をユーザ毎に区分して記憶してもよい。

カメラ１５は、ユーザの顔面を捉えた動画（顔動画）を撮影し、その動画データを解析部１１に出力する。

人感センサ１６は、ディスプレイ２の前方におけるユーザの存在を感知する。人感センサ１６としては、赤外線センサなどを用いることができる。

（放送番組に対する文字入力処理）
文字入力装置１における文字入力処理の一例について、図２を参照して以下に説明する。図２は、文字入力装置１における文字入力処理の流れを示すフローチャートである。

なお、以下の説明は、文字入力装置１が放送番組を表示する場合を例として用いているが、これに限定されない。

まず、ユーザが、リモコン２０を操作して、所望の放送番組を表示させる指示を入力すると、リモコン２０が、入力された指示をユーザ入力部１２に出力する。これに応じて、文字入力装置１は、ディスプレイ２にユーザ所望の放送番組の表示を開始させる（ステップＳ１１）。具体的には、コンテンツ取得部８がユーザ所望の放送番組の放送波を受信し、コンテンツ処理部９に出力する。コンテンツ処理部９は入力された放送波を処理して放送番組を生成し、映像信号を映像出力部５に、また音声信号を音声出力部７にそれぞれ出力する。映像出力部５は入力された映像をディスプレイ２に出力し、音声出力部７は入力された音声信号をスピーカ３に出力する。

また、コンテンツ取得部８は、放送番組の受信と同時に、当該放送番組に関する番組情報を取得している。ここで、番組情報とは、番組のタイトルや出演者、放送時間等を含む情報である。

ディスプレイ２に番組が表示されると、人感センサ１６が、ディスプレイ２の前方に存在するユーザの検出を開始する（ステップＳ１２）。人感センサ１６がユーザの存在を検出すると、これに応じてカメラ１５は、ユーザの顔を捉えた動画の取得を開始する（ステップＳ１３）。

次いで、解析部１１は、カメラ１５により取得された動画を解析し、ユーザの顔の認識を開始する（ステップＳ１４）。このとき、解析部１１は、動画中に認識した顔と、例えば予め記憶部１４に登録されたユーザの顔情報と照合することによって、ユーザを識別することが好ましい。

また、解析部１１は、認識した顔をトレースしてユーザの口の動きを検出し、検出した口の動きを解析して、ユーザの発話内容に対応する文字情報を生成する（ステップＳ１５）。

次いで、つぶやき処理部１３は、ステップＳ１５で生成された文字情報を、ステップＳ１１で取得された番組情報に関連付けて記憶部１４に格納する（ステップＳ１６）。以下、説明のために、生成された文字情報をつぶやき情報と称する場合がある。

なお、制御部４が、ユーザが放送番組を視聴していると判断する間は、ステップＳ１５およびステップＳ１６が繰り返されることが好ましい（ステップＳ１７）。例えば、ユーザ所望の放送番組の表示、人感センサ１６によるユーザの検出、カメラ１５による映像データ取得、及び顔認識が続いている間は、ステップＳ１５およびステップＳ１６が繰り返されることが好ましい。

以上の処理によれば、番組視聴中にユーザが発話した（つぶやいた）内容を、当該番組に対するユーザの感想として簡易にテキスト化することができる。また、上記処理では、ユーザがつぶやき程度の不可聴の声で発話した場合であっても、その内容を文字情報として生成することができる。

（文字入力処理の変形例）
なお、ステップＳ１３において、カメラ１５の電源がＯＦＦになっている場合には、人感センサ１６によるユーザの存在の検出に応じて、制御部４がカメラ１５の電源をＯＮにすることが好ましい。このように人感センサ１６とカメラ１５とを連動させることによって、カメラ１５の誤作動を防ぐことができ、さらに省エネを実現することができる。

また、ステップＳ１２において、人感センサ１６は、ディスプレイ２に対してユーザが存在する範囲をある程度に特定することが好ましい。この場合、ステップＳ１４において、解析部１１は、入力された動画のうち、人感センサ１６によって特定された範囲のみを解析することによって、ユーザの顔を認識し、その口の動きを検出することができる。これによって、解析部１１による画像解析の範囲が減るため、その計算速度を向上させることができる。

また、ステップＳ１２は必須の工程ではなく省略されてもよい。例えば、ステップＳ１３では、ディスプレイ２に番組が表示されると、これに応じてカメラ１５は、ユーザの顔を捉えた動画を取得してもよい。

また、ステップＳ１５における口の動き検出の際、解析部１１は、ユーザの視線がディスプレイ２に向いているか否かについて判定し、ユーザの視線がディスプレイ２に向いていると判定された時の口の動きのみを検出することが好ましい。このようなフィルターをかけることによって、表示されている番組以外に関して発話された内容が解析される可能性が減少し、文字入力処理の精度を向上することができる。

（お勧め番組の提示）
文字入力装置１は、上述の文字入力処理後、記憶されたつぶやき情報を利用して、ユーザにお勧め番組を提示することができる。お勧め番組提示を行う処理の一例について図３を参照して以下に説明する。図３は、文字入力装置１におけるお勧め番組提示処理の流れを示すフローチャートである。

まず、文字入力装置１では、ユーザの指示により、コンテンツ取得部８がアンテナ１７を介して番組欄のデータを取得し、表示制御部６が、取得された番組欄をディスプレイ２に表示させる（ステップＳ２１）。

ここで、ユーザがリモコン２０を操作してお勧め番組を表示させる指示を入力すると、リモコン２０が、入力されたお勧め番組表示指示をユーザ入力部１２に出力する。これに応じて、カメラ１５は、ディスプレイ２の前方に存在するユーザの顔の動画を取得する（ステップＳ２２）。

次いで、解析部１１が、カメラ１５により取得された動画を解析することによって、ユーザの顔を認識し、そのユーザを識別する（ステップＳ２３）。
次いで、つぶやき処理部１３は、番組欄に含まれる番組の番組情報と、記憶部１４に記憶されている番組情報とを照合する（ステップＳ２４）。その結果、番組欄に含まれる番組の番組情報のいずれかが、ステップＳ２３にて識別されたユーザのつぶやき情報に関連付けられた番組情報と合致していれば、その番組のお勧め度を算出する（ステップＳ２５）。

お勧め度の算出方法としては、ある番組情報に対して、例えば「すごい」、「おもしろい」、または笑い声など、ポジティブな意味合いを有する文字情報が１つ関連付けられている毎にポイントを加算し、一方、「つまらない」等のネガティブな意味合いを有する文字情報が１つ関連付けられている毎にポイントを減算する。このようなポイントの総合点を当該番組のお勧め度とする。なお、どのような文字情報についてポイントを加算または減算するかについては、予め記憶部１４に登録されていてもよい。

次いで、つぶやき処理部１３は、算出したお勧め度に基づいて、番組欄に含まれる番組のうちお勧め度の高い番組を優先して抽出する（ステップＳ２６）。抽出すべき番組のお勧め度の最低ラインを予め設定しておいてもよいし、お勧め度の高い番組から順に、予め設定された一定数の番組を抽出してもよい。

次いで、表示制御部６は、抽出されたお勧め番組をディスプレイ２に表示させる。

以上の処理によれば、ユーザのつぶやき情報を放送番組のパラメータとして利用することができる。例えば毎週など定期的に同じ番組の放送がある場合、前回放送時におけるユーザの評価パラメータが高い番組をユーザにお勧めすることができる。

なお、上述のお勧め番組提示処理では、利用ユーザの識別を行い、当該ユーザのつぶやき情報のみを利用した処理を行っているが、本発明はこれに限定されない。例えば、上述のステップＳ１４におけるユーザの識別を省略した場合には、ユーザの区別を行わずにお勧め番組を提示してもよい。また、利用ユーザとは異なるユーザのつぶやき情報を利用して、他のユーザによる評価が高い番組をお勧めしたり、複数のユーザによる総合的な評価が高い番組をお勧めしたりしてもよい。

また、上述のお勧め番組提示処理は、放送番組を用いた例に限定されない。すなわち、後述するスライドショーや動画コンテンツ等、他の映像を表示して文字入力処理を行った後に、その映像に関連付けられたつぶやき情報を利用して、当該映像のお勧め度を算出してもよい。これによって、例えば他のユーザのお勧め度が高いスライドショーや動画コンテンツ等を、ユーザに提示することができる。

（スライドショーに対する文字入力処理）
文字入力装置１における文字入力処理の他の一例について、図４を参照して以下に説明する。図４は、文字入力装置１における文字入力処理の他の一例の流れを示すフローチャートである。

なお、以下の説明は、文字入力装置１が複数の画像コンテンツからなるスライドショーを表示する場合を例として用いているが、これに限定されない。また、上述した文字入力処理の変形例は、すべて本例にも等しく適用される。

まず、ユーザがリモコン２０を操作して、スライドショーの開始指示を入力すると、リモコン２０が、入力された指示をユーザ入力部１２に出力する。これに応じて、コンテンツ処理部９がスライドショーのデータ処理を行い、映像出力部５はディスプレイ２にスライドショーの表示を開始させる（ステップＳ３１）。また、必要があれば、スライドショー表示と共に、音声出力部７がスピーカ３から音声を出力する。なお、スライドショーに含まれる画像コンテンツは、コンテンツ取得部８が取得したものであってもよいし、記憶部１４に記憶されているものであってもよい。

ディスプレイ２にスライドショーが表示されると、人感センサ１６は、ディスプレイ２の前方に存在するユーザの検出を開始する（ステップＳ３２）。人感センサ１６がユーザの存在を検出すると、これに応じてカメラ１５は、ユーザの顔を捉えた動画の取得を開始する（ステップＳ３３）。

次いで、解析部１１は、カメラ１５により取得された動画を解析し、ユーザの顔の認識を開始する（ステップＳ３４）。このとき、解析部１１は、動画中に認識した顔と、例えば予め記憶部１４に登録されたユーザの顔情報と照合することによって、ユーザを識別することが好ましい。また、解析部１１は、認識した顔をトレースしてユーザの口の動きを検出し、検出した口の動きを解析して、ユーザの発話内容に対応する文字情報を生成する（ステップＳ３５）。

次いで、つぶやき処理部１３が、ステップＳ３５で生成された文字情報を、当該文字情報の基となる動画が取得された時点に表示されていた画像コンテンツに関連付ける。また、表示制御部６が、関連付けられた文字情報の文字列を、スライドショー表示されている上記画像コンテンツと共にディスプレイ２に表示する（ステップＳ３６）。このとき、表示制御部６は、つぶやき情報のみでなく、つぶやき情報の元となる発話行動を行ったユーザ名を共に表示してもよい。また、つぶやき処理部１３は、画像コンテンツに関連付けられた文字情報を記憶部１４に格納する（ステップＳ３７）。

なお、制御部４が、ユーザがスライドショーを視聴していると判断する間は、ステップＳ３５からステップＳ３７が繰り返されることが好ましい（ステップＳ３８）。例えば、スライドショーの表示、人感センサ１６によるユーザの検出、カメラ１５による映像データ取得、及び顔認識が続いている間は、ステップＳ３５からステップＳ３７が繰り返されることが好ましい。

以上の処理により、スライドショー表示される画像コンテンツにはユーザのつぶやき情報が関連付けられる。このため、つぶやき情報が付加された画像コンテンツが次回スライドショー表示される際、表示制御部６は、当該つぶやき情報の文字列を当該画像コンテンツと共に表示させることができる。これによって、他のユーザと当該スライドショーへの感想を共有することができる。

なお、上述の説明のうち、表示制御部６がつぶやき情報の文字列をディスプレイに表示させる処理は、スライドショーに限られず、前述する放送番組や後述するコンテンツを表示する際に文字入力処理を行う場合にも適用することができる。

（動画コンテンツに対する文字入力処理）
文字入力装置１における文字入力処理のさらに他の一例について、図５を参照して以下に説明する。図５は、文字入力装置１における文字入力処理のさらに他の一例の流れを示すフローチャートである。

なお、以下の説明は、文字入力装置１が、映画など再生可能な動画コンテンツ（以下、単にコンテンツという）を表示する場合を例として用いているが、これに限定されない。また、上述した文字入力処理の変形例は、すべて本例にも等しく適用される。

まず、ユーザがリモコン２０を操作して、コンテンツの再生指示を入力すると、リモコン２０が、入力された指示をユーザ入力部１２に出力する。これに応じて、コンテンツ処理部９がコンテンツのデータ処理を行い、映像出力部５がディスプレイ２にコンテンツの表示を開始させる。また、音声出力部７がスピーカ３から音声を出力してもよい（ステップＳ４１）。

なお、コンテンツのデータは、コンテンツ取得部８が取得したものであってもよいし、記憶部１４に記憶されているものであってもよい。ここで、コンテンツのデータは、コンテンツ名等のコンテンツ情報を含むとする。

ディスプレイ２にコンテンツが表示されると、人感センサ１６は、ディスプレイ２の前方に存在するユーザの検出を開始する（ステップＳ４２）。人感センサ１６がユーザの存在を検出すると、これに応じてカメラ１５は、ユーザの顔を捉えた動画の取得を開始する（ステップＳ４３）。

次いで、解析部１１は、カメラ１５により取得された動画を解析し、ユーザの顔の認識を開始する（ステップＳ４４）。このとき、解析部１１は、動画中に認識した顔と、例えば予め記憶部１４に登録されたユーザの顔情報と照合することによって、ユーザを識別することが好ましい。

次いで、解析部１１は、認識した顔をトレースしてユーザの口の動きを検出し、検出した口の動きを解析して、ユーザの発話内容に対応する文字情報を生成する（ステップＳ４５）。

次いで、つぶやき処理部１３は、ステップＳ４５で生成された文字情報を、当該文字情報の基となる動画が取得された時点におけるコンテンツの再生時間と、コンテンツ名とに関連付け、これらの情報を記憶部１４に格納する（ステップＳ４６）。

なお、制御部４が、ユーザがコンテンツを視聴していると判断する間は、ステップＳ４５およびステップＳ４６が繰り返されることが好ましい（ステップＳ４７）。例えば、コンテンツの再生、人感センサ１６によるユーザの検出、カメラ１５による映像データ取得、及び顔認識が続いている間は、ステップＳ４５およびステップＳ４６が繰り返されることが好ましい。

以上の処理によれば、コンテンツ視聴中にユーザが発話した（つぶやいた）内容を、当該コンテンツに対するユーザの感想として簡易にテキスト化することができる。

また以上の処理によれば、コンテンツ再生中、ユーザが興奮する場面や印象的な場面で発話すると、その場面がマークされることになる。このため、文字入力装置１が検索手段を備えることにより、ユーザは、つぶやき情報の文字列をキーワードとして、上記場面を後から検索することができる。

（お勧め場面の提示）
文字入力装置１は、上述のコンテンツに対する文字入力処理の後、記憶されたつぶやき情報を利用して、ユーザにお勧め場面を提示することができる。お勧め場面提示を行う処理の一例について図６を参照して以下に説明する。図６は、文字入力装置１におけるお勧め場面提示処理の流れを示すフローチャートである。

まず、ユーザがリモコン２０を操作して、お勧め場面を提示させるコンテンツを選択すると、ユーザ入力部１２がユーザによるコンテンツ選択情報を受け付ける（ステップＳ５１）。これに応じて、カメラ１５は、ディスプレイ２の前方に存在するユーザの顔を捉えた動画の取得を開始する（ステップＳ５２）。

次いで、解析部１１が、カメラ１５により取得された動画を解析することによって、ユーザの顔を認識し、そのユーザを識別する（ステップＳ５３）。

次いで、つぶやき処理部１３は、ユーザにより選択されたコンテンツのコンテンツ名を、記憶部１４に記憶されているコンテンツ名と照合する（ステップＳ２４）。その結果、ユーザにより選択されたコンテンツ名が、ステップＳ５３にて識別されたユーザのつぶやき情報が関連付けられたコンテンツ名と合致していれば、つぶやき処理部１３は、当該コンテンツ名に関連付けられたつぶやき情報および再生時間を抽出する（ステップＳ５５）。

次いで、表示制御部６は、抽出された再生時間におけるコンテンツの映像をサムネイルとしてディスプレイ２に表示させる（ステップＳ５６）。このとき、表示制御部６は、抽出されたつぶやき情報もサムネイルと合わせて表示させることが好ましい。

以上の処理によれば、ユーザのつぶやき情報を利用して、前回視聴時にユーザが興奮や感動した可能性の高い場面をユーザにお勧めすることができる。

なお、上述のお勧め場面提示処理では、利用ユーザの識別を行い、当該ユーザのつぶやき情報のみを利用した処理を行っているが、本発明はこれに限定されない。例えば、他のユーザのつぶやき情報を利用して、お勧め場面を提示してもよい。

（外部サーバと接続する場合の文字入力処理）
文字入力装置１における文字入力処理の他の一例について、図７を参照して以下に説明する。図７は、文字入力装置１における文字入力処理の他の一例の流れを示すフローチャートである。

なお、以下の説明は、文字入力装置１が放送番組を表示する場合を例として用いているが、本発明はこれに限定されず、コンテンツを表示する場合にも適用することができる。また、上述した文字入力処理の変形例は、すべて本例にも等しく適用される。

まず、ステップＳ６１からステップＳ６４までは、上述したステップＳ１１からステップＳ１４までと同様の処理を行う。

次いで、通信部１０が、表示されるコンテンツのコンテンツ情報に基づいて、外部サーバにおける、当該コンテンツに関するコメントを入力可能なウェブサイトに接続する。このとき、表示制御部６は、映像出力部５を介して、上記ウェブサイトの画面を子画面として、ディスプレイ２に表示させる。次いで、通信部１０は、ステップＳ６４において識別したユーザ名を用いて、上記ウェブサイトにログインする（ステップＳ６５）。

なお、上記ウェブサイトとしては、放送番組やコンテンツ等に対する評価や感想等を他の視聴者と共有する様々なコミュニケーションサービスサイトを利用することができる。例えば、複数のユーザが意見を交換するチャットや、個々のユーザが感想等を記録するブログ、また、個々のユーザが「つぶやき」を投稿するＴｗｉｔｔｅｒ等のソーシャルネットワーキングサービス（ＳＮＳ）などが挙げられる。また、ウェブサイトを表示する際には、ブラウザなどのアプリケーションを利用することができる。

また、解析部１１は、認識した顔をトレースしてユーザの口の動きを検出し、検出した口の動きを解析して、ユーザの発話内容に対応する文字情報を生成する（ステップＳ６６）。

次いで、つぶやき処理部１３は、ステップＳ６７で生成された文字情報を、ステップＳ６１で取得された番組情報に関連付け、当該文字情報を用いてアップ用の文章を作成する（ステップＳ６７）。具体的には、まず、つぶやき処理部１３は、生成された文字情報のうち固有名詞を有する文字情報を無効にする、または、固有名詞部分を黒い四角等の記号に変更する。また、ログインするサイトによっては、番組名に文字情報を加えた文章を自動で作成してもよい。

次いで、表示制御部６は、映像出力部５を介して、ステップＳ６７にて作成されたアップ用文章を、ディスプレイ２の子画面に表示させる。（ステップＳ６８）。これによって、アップデート前に、ユーザがアップ用文章を確認することができる。

ユーザがリモコン２０を操作して、子画面に表示されたアップ用文章に了承する旨を入力すると、リモコン２０はその旨をユーザ入力部１２に出力する。これに応じて、つぶやき処理部１３は、作成したアップ用文章を、通信部１０を介して上記ウェブサイトにアップデートする（ステップＳ６９）。

なお、制御部４が、ユーザがコンテンツを視聴していると判断する間は、ステップＳ６６からステップＳ６９が繰り返されることが好ましい（ステップＳ７０）。例えば、ユーザ所望の放送番組の表示、人感センサ１６によるユーザの検出、カメラ１５による映像データ取得、及び顔認識が続いている間は、ステップＳ６６からステップＳ６９が繰り返されることが好ましい。

以上の処理によれば、番組視聴中にユーザが発話した（つぶやいた）内容を、簡易にテキスト化し、さらにチャットやＳＮＳ等に自動で更新することができる。これによって、ユーザは番組視聴中に他の視聴者と手軽に感想を共有することができる。

（付記事項）
最後に、文字入力装置１に含まれている各ブロックは、ハードウェアロジックによって構成すればよい。または、次のように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を用いてソフトウェアによって実現してもよい。

すなわち文字入力装置１は、各機能を実現する制御プログラムの命令を実行するＣＰＵ、この制御プログラムを格納したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、上記制御プログラムを実行可能な形式に展開するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、および、上記制御プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）を備えている。

この構成により、本発明の目的は、所定の記録媒体によっても達成できる。この記録媒体は、上述した機能を実現するソフトウェアである文字入力装置１の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録していればよい。文字入力装置１にこの記録媒体を供給する。これにより、コンピュータとしての文字入力装置１（またはＣＰＵやＭＰＵ）が、供給された記録媒体に記録されているプログラムコードを読み出し、実行すればよい。

プログラムコードを文字入力装置１に供給する記録媒体は、特定の構造または種類のものに限定されない。すなわちこの記録媒体は、たとえば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などとすることができる。

また文字入力装置１は、通信ネットワークと接続可能に構成しても、本発明の目的を達成できる。この場合、上記のプログラムコードを、通信ネットワークを介して文字入力装置１に供給する。この通信ネットワークは、文字入力装置１にプログラムコードを供給できるものであればよく、特定の種類または形態に限定されない。たとえば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）、電話回線網、移動体通信網、衛星通信網等であればよい。

この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な任意の媒体であればよく、特定の構成または種類のものに限定されない。たとえば、ＩＥＥＥ１３９４、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は、例えばテレビ、ＰＣ、ＰＣ内蔵テレビ等の映像表示可能な情報入力装置として好適に利用することができる。

１文字入力装置
２ディスプレイ
３スピーカ
４制御部
５映像出力部（表示手段）
６表示制御部（サムネイル表示手段、文字情報表示手段）
７音声出力部
８コンテンツ取得部
９コンテンツ処理部
１０通信部（通信手段）
１１解析部（解析手段）
１２ユーザ入力部
１３つぶやき処理部（関連付け手段、お勧め度算出手段、入力手段）
１４記憶部
１５カメラ
１６人感センサ

Claims

画面に映像を表示する表示手段と、
上記映像の表示中に上記画面の前方に存在するユーザの顔面を捉えた顔動画を取得するカメラと、
取得された上記顔動画を解析して、上記ユーザの口の動きに対応する文字情報を生成する解析手段と、
生成された上記文字情報を、当該文字情報の基となる上記顔動画を取得したときに表示中であった上記映像の映像情報に対して関連付ける関連付け手段とを備えることを特徴とする文字入力装置。
上記画面の前方に存在するユーザを感知する人感センサをさらに備えており、
上記カメラは、上記人感センサがユーザを感知した場合に、上記顔動画の取得を開始することを特徴とする請求項１に記載の文字入力装置。
上記人感センサは、上記画面の前方におけるユーザの存在する範囲を特定する機能を有しており、
上記解析手段は、取得された上記顔動画のうち、上記人感センサにより特定された範囲を解析することを特徴とする請求項２に記載の文字入力装置。
上記映像情報に関連付けられた上記文字情報に基づいて、当該映像のお勧め度を算出するお勧め度算出手段をさらに備えていることを特徴とする請求項１から３のいずれか１項に記載の文字入力装置。
上記映像は、再生可能なコンテンツの映像であって、
上記関連付け手段は、生成された上記文字情報を、当該文字情報の基となる上記顔動画を取得した時点における上記コンテンツの再生時間に対してさらに関連付けることを特徴とする請求項１から４のいずれか１項に記載の文字入力装置。
上記再生時間まで再生された時点の上記コンテンツの画像をサムネイルとして表示するサムネイル表示手段をさらに備えていることを特徴とする請求項５に記載の文字入力装置。
上記映像情報に関連付けられた上記文字情報を、上記映像と共に表示する文字情報表示手段をさらに備えていることを特徴とする請求項１から５のいずれか１項に記載の文字入力装置。
表示される上記映像の上記映像情報に基づいて、外部サーバにおける、当該映像に関するコメントを入力可能なウェブサイトに接続する通信手段と、
上記通信手段を介して、上記映像情報に関連付けられた上記文字情報を上記ウェブサイトに入力する入力手段とを、さらに備えることを特徴とする請求項１から７のいずれか１項に記載の文字入力装置。
画面に映像を表示する表示工程と、
上記映像の表示中に上記画面の前方に存在するユーザの顔を捉えた顔動画を取得する動画取得工程と、
取得された上記顔動画を解析して、上記ユーザの口の動きに対応する文字情報を生成する解析工程と、
生成された上記文字情報を、当該文字情報の基となる上記顔動画を取得したときに表示中であった上記映像の映像情報に対して関連付ける関連付け工程とを備えることを特徴とする文字入力方法。
請求項１から８のいずれか１項に記載の文字入力装置としてコンピュータを機能させるための文字入力プログラムであって、コンピュータを上記各手段として機能させるための文字入力プログラム。
請求項１０に記載の文字入力プログラムを記録したコンピュータ読み取り可能な記録媒体。