JP2010048851A

JP2010048851A - 表示装置および表示方法

Info

Publication number: JP2010048851A
Application number: JP2008210369A
Authority: JP
Inventors: Osamu Nonaka; 修野中; 立男 ▲高▼梨; Tatsuo Takanashi
Original assignee: Olympus Imaging Corp
Current assignee: Olympus Imaging Corp
Priority date: 2008-08-19
Filing date: 2008-08-19
Publication date: 2010-03-04

Abstract

【課題】オペラや演劇等の舞台において、音声に関する情報を可視化することにより、その場の状況を把握し易くした表示装置および表示方法を提供する。
【解決手段】観察方向の視野の一部を表示する双眼鏡等の表示装置であって、双眼鏡の視野内に文字情報を表示する表示制御部６と、視野内外における音声方向の関係を判定するステレオマイク部７と、顔の位置を検出する顔検出部５を有し、音声方向の判定結果や顔の位置の検出結果に基づいて、文字情報の表示位置を切り換える。
【選択図】図１

Description

本発明は、表示装置および表示方法に関し、詳しくは、双眼鏡やカメラ等において音声を文字情報で表示するようにした表示装置および表示方法に関する。

近年、画像を画像信号に変換し、電子的に処理することにより、画像を合成したり、画像を他の情報と関連付けを行うことが容易になってきている。このような技術を利用することにより、目視することができなかった情報を画面に重畳させることができ、充実したコンテンツを提供することが可能となってきている。

例えば、特許文献１には、バードウォッチングやスポーツ観戦の際などに、観察対象の情報を表示するようにした光学機器が開示されている。すなわち、この光学機器は、鳥や花等の図鑑を有し、観察時の状況に合わせて画像を表示装置に表示する。また、特許文献２には、演劇やコンサートの鑑賞時に、字幕等を表示するようにした視覚装置が開示されている。この視覚装置では、字幕等を無線により受信し、この受信した字幕を視覚装置の中に投影している。
特開２００５−７８０４４号公報特開２００３−１０８０４９号公報

特許文献１に係わる光学機器は、図鑑等のデータを単に表示するものであって、オペラや演劇等において、歌詞や台詞等の字幕を表示するものでない。また、特許文献２に係わる視覚装置は、オペラや演劇等において字幕を表示するものであるが、登場人物の誰が台詞を言っているのかが分からない。特に、双眼鏡のように拡大して舞台等を見ている場合には、視野内に見えない人物が台詞を言っている場合があり、このような場合には字幕のみが見えても状況をよく把握することができなかった。

本発明は、このような事情を鑑みてなされたものであり、オペラや演劇等の舞台において、音声に関する情報を可視化することにより、その場の状況を把握し易くした表示装置および表示方法を提供することを目的とする。

上記目的を達成するため第１の発明に係わる表示装置は、観察方向の視野の一部を表示する表示装置において、上記視野内に音声に関する情報を表示する合成表示部と、視野内外における音声方向の関係を判定する判定部と、上記判定部の判定結果に基づいて、上記音声に関する情報の表示位置を切り換える切換制御部と、を具備する。

第２の発明に係わる表示装置は、上記第１の発明において、上記表示装置は、さらに、上記合成表示部内に表示された顔の位置を検出する顔位置検出部を具備し、上記切換制御部は、上記顔位置検出部の検出結果に基づいて、上記音声に関する情報の表示位置を切り換える。
第３の発明に係わる表示装置は、上記第１の発明において、上記表示装置は、さらに、音声の方向を検出する音声方向検出部を具備し、上記切換制御部は、上記音声方向検出部の検出結果に基づいて、上記音声に関する情報の表示位置を切り換える。

第４の発明に係わる表示装置は、上記第１の発明において、上記表示装置は、さらに、上記合成表示部の視野内に表示される音声に関する情報表示も含めて記録する記録部を具備する。
第５の発明に係わる表示装置は、上記第１の発明において、上記表示装置は、さらに通信部を具備し、上記合成表示部の視野内に表示する音声に関する情報表示は、上記通信部を介して取得する。

第６の発明に係わる表示装置は、上記第１の発明において、上記表示装置は、さらに、音声変化を判定する音声判定部と、上記合成表示部内に顔が表示されているかを検出し、顔が表示されていた場合には、その顔の変化を判定する顔変化判定部と、を具備し、上記音声判定部によって判定された音声変化と、上記顔変化判定部によって判定された上記顔の変化のタイミングを比較し、上記音声の方向を特定する。

第７の発明に係わる表示装置は、上記第１の発明において、上記表示装置は、さらに、上記合成表示部に表示している視野の外を含めて撮像する撮像部と、上記撮像部によって撮像された画像に含まれる顔画像の変化を判定する顔判定部と、音声を検出する音声検出部と、を具備し、上記切換制御部は、上記音声検出部と上記顔判定部の出力結果に基づいて、上記音声に関する情報の表示位置を切り換える。

第８の発明に係わる表示装置は、観察対象を撮像し画像信号を出力する撮像素子と、音声を音声信号に変換する集音部と、上記画像信号と上記音声信号に基づいて、上記音声に関する情報を上記観察対象の表示画像に重畳して表示するための表示制御部と、を具備する。

第９の発明に係わる表示装置は、上記第８の発明において、上記表示制御部は、上記画像信号に基づいて顔の口の動きと、上記音声信号の音声変化が同期するか否かに応じて、発声している人物を判定し、上記音声に関する情報を表示する。

第１０の発明に係わる表示装置は、上記第８の発明において、上記表示装置は、さらに、上記画像信号に基づいて上記観察対象を表示する表示部を有し、上記集音部は、ステレオマイクを有し、上記音声の来る方向を判定可能であり、上記表示制御部は、上記音声が上記表示部での視野範囲の外側か内側かを判定し、上記音声に関する情報を重畳して表示する位置を決定する。

第１１の発明に係わる表示装置は、上記第８の発明において、上記表示装置は、さらに、上記画像信号に基づいて顔の位置を検出する顔検出部を有し、上記表示制御部は、上記顔の位置に応じて、上記音声に関する情報を重畳して表示する位置を決定する。
第１２の発明に係わる表示装置は、上記第８の発明において、上記表示装置は、光学的に上記観察対象を表示するための光学部と、上記光学部の光路中に上記音声に関する情報を表示するための表示部を有する。
第１３の発明に係わる表示装置は、上記第８の発明において、上記光学部は光学的ズーミングが可能であり、上記撮像素子は、固定の視野で上記観察対象を含む画像の画像データを出力する。

第１４の発明に係わる表示方法は、観察方向の視野の一部を表示する表示方法であって、
視野内外における音声方向の関係を判定し、上記判定結果に基づいて、上記視野内に音声に関する情報の表示位置を切り換える。

第１５の発明に係わる表示方法は、観察対象を撮像し画像信号を出力し、音声を音声信号に変換し、上記画像信号と上記音声信号に基づいて、上記音声に関する情報を上記観察対象の表示画像に重畳して表示する。

本発明によれば、オペラや演劇等の舞台において、音声に関する情報を可視化することにより、その場の状況を把握し易くした表示装置および表示方法を提供することができる。

以下、図面に従って本発明を適用した双眼鏡を用いて好ましい実施形態について説明する。図１は、本発明の第１実施形態に係わる双眼鏡１０の構成を示すブロック図である。

この双眼鏡１０には、一対のレンズ２が配置されており、このレンズ２によって観察像が結像される。この結像位置付近には一対の撮像素子３が配置されており、観察像を画像信号に変換し出力する。なお、一対の対物レンズ、または観察光学系とし、撮像素子３は一つにして、エリアごとに使い分けても良い。画像処理部１は、観察像の画像信号を入力し、後述するように、字幕等の情報を重畳する等の画像処理を行う。また、この画像処理部１は双眼鏡１０の全体制御も行う。

表示制御部６は、液晶モニタ表示等の表示モニタを有し、画像処理部１から画像信号を入力し、観察対象物の画像を表示する。このとき取得画像の一部を切り出し表示すれば、対象物を拡大して表示することができる。記録部８は、記録媒体を有し、操作部材による指示に応じて、表示制御部８によって表示した画像を、そのまま記録する。

顔検出部５は、画像処理部１から画像信号を入力し、観察対象の画像の中に顔が含まれているか否か、また含まれている場合にはその位置を検出する。ステレオマイク部７は、観察対象物からの音声を収集し、音声を音声信号に変換する。ステレオマイク部７は一対のマイクを有し、音声信号を改正することにより、双眼鏡１０で見ている方向に対し、どの方向から音声が聞こえているかを判定することができる。

信号受信部４は、舞台等で行われている演劇や歌劇等の台詞を字幕で表示するための字幕放送１１を受信する。字幕放送１１としては、ワンセグ方式等を利用できる。ここで受信した字幕は、画像処理部１に出力する。その他、画像処理部１は、顔検出部５から顔情報を入力し、また、ステレオマイク部７から音声の方向情報を入力する。そして、画像処理部１は、顔が検出され、かつ音声の方向がその顔の方向であれば、その顔の近傍で、顔にかからない位置に字幕を表示する。一方、顔が検出されず、音声が視野の外であれば、音声の方向側に、字幕を表示する。

上述の字幕の表示について、図２を用いて説明する。ユーザー１５が双眼鏡１０によって舞台２０のうちの視野２１を見ているとする。このとき、視野２１内には、登場人物２３は見えるが、登場人物２４は視野外であり見ることができない。このような状態で、登場人物２４が何か言葉を発したとしても、ユーザー１５は直ちには双眼鏡１０を向けるべき方向が分からない。

そこで、本実施形態においては、顔検出部５によって、画像内の顔の部分を判定し、また、ステレオマイク部７によって、声が聞こえてきた方向を判定する。これらの判定結果に基づいて、視野２１の外で見えない登場人物２４が発声した方向を吹き出し２２等によって表示し、双眼鏡１０をどちらに向ければよいかを分かるようにしている。この場合、ユーザー１５は、登場人物２３の表情などを注意して見ている状況であることから、登場人物２３の顔部に、吹き出しの言葉がかからないように表示する。なお、この時の画面を、記録部８に記録しても良い。

外国の歌劇場の公演では、歌や台詞が外国語であることから、理解が困難な場合が多い。そこで、通常は舞台の袖に字幕表示板を用意することが多い。この字幕を字幕放送１１として送信し、信号受信部４は字幕を受信すると、舞台２０にいる登場人物２３、２４の脇に吹き出しで、台詞を表示する。なお、台詞自身が外国語である場合には、翻訳部を設け、翻訳した台詞を表示する。これによって、登場人物２３、２４が、どんな台詞で、どのような表情やしぐさをしたかを理解でき、作品や情景をよりよく理解することが可能となる。

オペラの公演等では、前述したように字幕が舞台の袖に表示され、字幕と登場人物のアップを同時に見ることは困難である。また、左右から話しかけるようなシーンでは、どちらの人物がどのような台詞を話したり、歌ったかが分かりにくかったが、本実施形態においては、吹き出し位置を見ることによって、容易に分かる。

このように、吹き出しの位置は音声の方向で判定し、合成用の文字は字幕放送１１を利用する。なお、字幕放送１１に、画面のどちらで歌われる歌かを示す信号をのせて放送し、双眼鏡１０において、表示位置を切り換えるようにしても勿論かまわない。また、字幕放送１１がない状況の場合には、双眼鏡１０に音声認識部を設けておき、音声認識部によって台詞や歌詞等を文字に変換して表示するようにしても良い。

吹き出しのみを表示し、歌詞や台詞を表示しなくても、どちらの方向から声がかけられたかを分かるようにするだけでも良い。この場合には、登場人物２３の表情が、台詞や歌詞に反応したものかどうか、それがどちらの方向からかけられた言葉であるかを双眼鏡１０の視野内で分かり、舞台２０の情景をいきいきと表示することができる。

次に、音声方向の判定について、図３ないし図５を用いて説明する。図３は、図１に示したブロック図において、音声方向の判定に係わる部分を抜き出したブロック図である。レンズ２と撮像素子３によって、点線の範囲が視野となり、登場人物２３を含む画像を出得することができる。ステレオマイク部７は、右側マイク７Ｒ、左側マイク７Ｌ、および音声判定部７ａとから構成されている。登場人物２３が声を発すると、その声は右側マイク７Ｒと左側マイク７Ｌによってそれぞれ集音される。そして、音声判定部７ａは、その声の来た方向を判定する。

また、登場人物２３が声を発する場合、口や顔の形が、図４（ａ）に示すように変化し、また、声を発していない場合には、図４（ｂ）に示すように、口が閉じている。そこで、声を集音した瞬間に口が開くなど顔に変化があり、声の集音がないときに口が閉じるなど、顔の変化と声の変化を見ることによって、画面内の人物と、発声した人物が同じ人物であるか否かを判定することができる。

図５は、前述した考え方に沿って、顔検出部５と音声判定部７の出力を考慮して画像処理部１が行う音声判定のフローチャートを示す。これによって、登場人物２３が他の人物に声がかけられた場合、その人物の超えの方向と差異によって、どちらにいる人物が発声したかを判定することができる。

音声方向判定のフローに入ると、まず、基準音声の方向を決める。これは基準となる方向を決めるものであり、例えば、図２示した例では、登場人物２３が最初発声しており、この場合の登場人物２３の方向を基準音声の方向と定める。

まず、最初に顔位置に変化があるか否かを判定する（Ｓ１）。双眼鏡１０を動かすと見ている人物が変化し、基準方向も変化してしまう。そこで、顔検出部５の検出結果に基づいて顔位置が変化しているか否かを判定する。この判定の結果、顔位置が変化している場合には、ステップＳ３に進み、一方、顔位置が変化していなかった場合には、基準音声の方向をリセットする（Ｓ２）。

続いて、基準音声方向情報有りか否かの判定を行う（Ｓ３）。ステップＳ２においてリセットされた場合には、基準音声方向情報なしの状態であり、一方、後述するステップＳ６におけて判定された場合には、基準音声方向情報有りの状態である。この判定の結果、基準音声方向情報がなかった場合には、次に、顔表情判定を行い（Ｓ４）、音声と同期しているか否かを判定する（Ｓ５）。前述した顔の表情と音声が同期、すなわち、口を大きく開いている時と、閉じている時とで、音の大小関係が一致しているか否かの判定である。なお、音速と光速が異なることから、この差異が無視できない場合には、音速と光速の差異を補正するようにする。補正は、例えば、ピント合わせ時のデータや、所定時時間前の画像と音声と同期具合を検出する等によって行う。

ステップＳ５における判定の結果、顔の表情と音声が同期していなかった場合には、基準音声方向の設定を行うことができず、そのまま元のフローに戻る。一方、判定の結果、顔の表情と音声とが同期していた場合には、ステレオマイク部７によって検出された音声の方向を基準音声方向として設定する（Ｓ６）。基準音声方向の判定ができると、元のフローに戻る。

ステップＳ３における判定の結果、基準音声方向情報が有った場合には、現在、ステレオマイク部７によって検出されている音声の方向が、基準音声方向と同じか否かを判定する（Ｓ１１）。判定にあっては、マイク７Ｒ、７Ｌの入力音声の大きさの違いによって判定する。この判定の結果、基準方向からの音声であれば、画面内にある顔の人物が発声していると判定する（Ｓ１２）。図２の例では、登場人物２３が発声している場合である。画面内の顔が発声していると判定すると、元のフローに戻る。

ステップＳ１１における判定の結果、基準音声の方向でなかった場合には、現在、ステレオマイク部７によって検出されている音声の方向が、基準方向に対して右側にあるか否の判定を行う（Ｓ１３）。基準音声方向より、右側のマイク７Ｒに入ってくる音声が大きい場合には、右側にあると判定される。ステップＳ１３における判定の結果、基準音声方向よりも右側であった場合には、画面内の右側にいる顔の人物が発声していると判定する（Ｓ１４）。画面内の顔の右判定を行うと、元のフローに戻る。

ステップＳ１３おける判定の結果、基準音声方向より右側でなかった場合には、現在、ステレオマイク部７によって検出されている音声の方向が、基準方向に対して左側にあるか否の判定を行う（Ｓ１３）。基準音声方向より、左側のマイク７Ｌに入ってくる音声が大きい場合には、左側にあると判定される。ステップＳ１５における判定の結果、基準音声方向よりも左側であった場合には、画面内の左側にいる顔の人物が発声していると判定する（Ｓ１６）。画面内の顔の左判定を行うと、元のフローに戻る。

ステップＳ１５における判定の結果、基準音声方向より左側でなかった場合には、いずれの方向からの音声かを判定することができないので、判定不能情報とする（Ｓ１７）。判定不能とすると、元のフローに戻る。

この音声方向判定のフローによれば、双眼鏡１０を通して見える顔と声の方向を判定でき、見えている顔に対してどちらの方向から声が聞こえるかが直ちに判定することが可能となる。勿論、画面中央から来る音声は、左右のマイク７Ｒ、７Ｌに同じ音量となることから、これを基準に、単にどちらのマイクの音量が大きいかで左右どちらから音声が聞こえるかでも良い。ただし、この方法では近距離の場合には精度良く判定できても、遠距離になると誤差が大きくなってしまう。

次に、双眼鏡１０の全体動作について、図６に示す表示制御のフローチャートを用いて説明する。この双眼鏡１０における観察対象物の拡大・縮小は、電子的ズーミングによって行う。

双眼鏡１０に電源が入ると、表示制御のフローが動作を開始する。まず、表示を行うか否かの判定を行う（Ｓ２１）。このステップでは、ユーザーが台詞や歌などの音声の方向の表示を指示するための表示操作部材の操作を行ったか否かの判定を行う。なお、オペラグラスのような使用例では、ユーザーが接眼部に目を当てた時のみ、電源が入るようにしても良い。この判定の結果、表示の指示がない場合には、この判定を繰り返す待機状態となる。

一方、ステップＳ２１における判定の結果、表示の指示がなされた場合には、次に、撮像および表示を行う（Ｓ２２）。このステップでは、撮像素子３によって取得した画像データに基づく表示制御部６によって液晶モニタ等のモニタ部に観察対象を表示する。続いて、ズーム操作がなされたか否かの判定を行う（Ｓ２３）。このステップでは、ズーム操作部材によってテレ側やワイド側にズーム操作されたか、また操作された場合には、テレ側かワイド側かの判定を行う。

ステップＳ２３における判定の結果、ズーム操作が行われた場合、撮像素子３によって取得した画像データから、ズーム操作に応じた範囲の画像データを切り出し、モニタ部に表示する（Ｓ３１）。すなわち、観察対象像の拡大や、また縮小を表示制御部６が行い、表示する。

ステップＳ３１において画面切り出しを行うと、また、ステップＳ２３における判定の結果、ズーム操作が行われていなかった場合には、音声判定を行う（Ｓ２４）。このステップでは、ステレオマイク部７が、音声入力があったか否かを判定する。この判定の結果、音声入力があった場合には、画面内顔位置判定を行う（Ｓ３２）。このステップでは、顔検出部５が、撮像素子３からの画像データに基づいて、画面内に顔があるかを判定し、かつ顔が存在した場合には、その位置を検出する。

続いて、音声方向判定を行う（Ｓ３３）。この音声方向判定のステップでは、図５を用いたフローを実行し、画面内において、基準音声方向に対してどの位置から音声がきているかを判定する。この結果、吹き出し等の音声関連情報をどこに表示すべきかが分かる。

音声方向判定を行うと、次に、文字情報を受信した否かについて判定する（Ｓ３４）。このステップでは、信号受信部４によって字幕放送１１等を受信したか否かを判定する。この判定の結果、文字情報を受信していない場合には、次に、文字化が可能か否かの判定を行う（Ｓ３５）。音声について字幕放送１１等がない場合にであっても、音声認識により舞台上の登場人物等の音声を認識しテキストデータに変換できるか否かの判定である。

ステップＳ３４における判定の結果、文字情報を受信していた場合、またはステップＳ３５における判定の結果、文字化が可能の場合には、文字化を行う（Ｓ３７）。すなわち、舞台上の登場人物の音声に応じた文字情報を取得する。続いて、顔位置を避けて音声方向に表示を行う（Ｓ３８）。

すなわち、双眼鏡１０の視野内であって、人物の顔にかからない位置に、吹き出し等に文字で表示を行う。このときの吹き出しの位置は、ステップＳ３３において取得した音声方向と、ステップＳ３２において取得した顔の位置に基づいて決定する。

ステップＳ３５における判定の結果、文字化が可能でなかった場合には、音声方向の表示を行い（Ｓ３６）、この場合、顔位置を避けて表示する（Ｓ３８）。すなわち、ステップＳ３６において音声の方向が分かるように吹き出し等を用意し、ステップＳ３８において顔を避けた位置に吹き出し等を配置するようにする。これらのステップでは、音声があるか文字化できない場合である。この場合、吹き出し等を表示するだけでも、どちらから音声が来たかという情報や、音声情報があったかどうかという情報が可視化され、鑑賞の助けにもなるし、また、後述するステップＳ２６において記録しておけば、後日、状況を思い出し楽しむことができる。

ステップＳ２４における判定の結果、音声がなかった場合、またはステップＳ３８において顔位置を避けて音声方向に表示を行うと、次に、撮影を行うか否かの判定を行う（Ｓ２５）。撮影は、レリーズ釦（不図示）を操作すると撮影動作に入る。この判定の結果、撮影でなかった場合には、ステップＳ２２に戻る。

一方、ステップＳ２５における判定の結果、撮影であった場合には、記録を行う（Ｓ２６）。記録は、撮像素子３からの画像データに基づき表示制御部６において表示されている画像を記録部８に記録する。

本実施形態における双眼鏡１０は、記憶の補助として撮影機能を有している。例えば、図７（ａ）に示すような単なる顔写真より、図７（ｂ）に示すように、声がかかって視線が右に向いたことが分かる写真の方が、見て面白い場合がある。また、仮に、写真の中に言葉が入っていなくても、話しかけられたときの表情であることが分かる。なお、吹き出しは消去可能としても良い。

しかし、声の方向と目線の向きが異なると不自然となる。例えば、図７（ｃ）に示す例では、声の方向は左側であり、一方目線の向きは右側に向いている。この場合は、右側の方向から声がかかり、目線が右側を向いたことから、吹き出しの位置は右側に置くことが望ましい。

また、人物の声の内容が文字になっていなくても、図７（ｄ）に示すように、音声があったことを吹き出し等で表示することは、声がかかったことと、声がかけられた方向が写真から読み取ることができるだけでも、色々なドラマを感じさせることができる。

なお、撮影機能に関しては、オペラの公演等では撮影禁止にすればよく、学芸会等であれば、上述したような機能が役立つので、撮影許可とすれば良い。撮影禁止とするには、例えば、字幕放送１１によって撮影禁止信号を送信し、信号受信部４は撮影禁止信号を受信した場合には、記録部８への画像の記録を禁止するようにすればよい。

ステップＳ２６における記録動作が終わると、次に、表示終了か否かの判定を行う（Ｓ２７）。このステップでは、表示終了操作部材の操作を行ったか否かの判定を行う。この判定の結果、終了でなかった場合には、ステップＳ２２に戻る。一方、終了であった場合には、終了動作を行い、再び、ステップＳ２１を実行する。

上述したような本実施形態における制御を実行することにより、例えば、図８に示すように中央の登場人物を視野２１でアップして見ていたときに、登場人物２３に対して声がかかった場合、いずれの方向から声がかかったかを咄嗟に判断することができる。すなわち、声の方向が、視野２７の方向か、視野２８の方向かが、直ぐに分かり、間違った方向に双眼鏡１０を向けることを防止でき、重要な場面を見逃すことがなくなる。

また、ズーミング動作によって、視野２９に広げた場合、登場人物２３か登場人物２４のいずれが言っているかが、吹き出し等によって表示され、容易に分かる。

次に、本発明の第２実施形態について、図９ないし図１１を用いて説明する。第１実施形態では、観察対象物の縮小・拡大は電子的ズーミングによって行い、人物の声は、この電子画像に吹き出し等を重畳して表示していた。この第２実施形態においては、観察対象物の拡大・縮小は光学的ズーミングを行い、人物の声は吹き出し等の電子画像を光学画像に重畳するようにしている。

図９は、第２実施形態に係わる双眼鏡１０の構成を示すブロック図である。第１実施形態と同一の部材については、同一の符号を付し、詳しい説明は省略する。本実施形態の双眼鏡１０は、双眼光学部９を有している。双眼光学部９は１対の対物レンズ９ａ、９ｂと、１対の接眼レンズ９ｃ、９ｄを有し、接眼部からユーザー１５ｂが覗くことにより、観察対象物の像を立体視することができる。

レンズ２および撮像素子３は、第１実施形態においては、それぞれ１対のレンズおよび撮像素子であったが、本実施形態においては、１組のみである。レンズ２および撮像素子３は視野２９の広い範囲について撮像しており、この画像データは、観察対象物の表示用ではない。観察対象物の表示は、前述した双眼光学部９によって行われ、ユーザー１５ｂの望む視野範囲２１を光学的に拡大・縮小している。双眼光学部９内には、視野判定部９ｂが設けられており、この視野判定部９ｂは、双眼光学部９の視野範囲２１を判定し、この判定結果を画像処理部１に伝える。

双眼光学部９の光路中には、液晶モニタ等のモニタ部６ｂが配置されている。このモニタ部６ｂは、声を吹き出し等で表示するための表示部であり、光学的に形成される観察対象物の光学像に、このモニタ部６ｂによって形成される電子画像が重畳される。この構成よって、ユーザー１５ｂは、第１実施形態と同様に、声のする方向や、その内容を確認することができる。

また、第１実施形態においては、ステレオマイク部７は、ステレオマイクとするために右側マイク７Ｒと左側マイク７Ｌを有していた。本実施形態においては、マイク部７Ａは、モノラルマイク７Ｍを有している。したがって、マイク部７Ａは、音声の有り無しは判定できるが、音声の来る方向については、判定しない。

このように第２実施形態は構成されているので、ユーザー１５ｂは、双眼光学部９を覗いて対象物を観察し、双眼光学部９の光路中に配置した表示部６ｂに、字幕放送１１等の文字情報がスーパーインポーズ表示される。また、双眼光学部９の視野２１は、視野判定部９ｂによって、レンズ２、撮像素子３、および画像処理部１等で構成される電気撮像系による視野２９に対してどの部分であるかが検出され、この視野２１は画像処理部１によって認識される。

また、視野２９のうちのどこに顔があるかは、撮像素子３からの画像信号に基づいて、顔検出部５によって判定することができる。したがって、ユーザー１５が観察する双眼光学部９の視野２１の外にいる人物の位置関係も判定可能となっている。例えば、図１０に示すように、舞台の広い部分に対応した視野２９内にいる人物２５、２６の顔の位置を判定することができる。双眼光学部９では視野２１のみしか見ることができず、このため人物２５を観察できるが、視野２１の外の人物２６を観察できない。

マイク部７Ａのマイク７Ｍを通して集音した音声データによって、人の声が聞こえたことを判定したときには、撮像素子３からの画像データに基づいて、声と人の顔の変化から、いずれの人物が声を出しているかを判定する。

次に、このような音声方向を判定するための動作を、音声方向判定のフローチャートを用いて説明する。

音声方向判定のフローに入ると、まず、画面内の顔の位置を検出する（Ｓ１０１）。このステップでは顔検出部５によって顔を判定し、視野２９内に複数の顔があれば、それぞれの位置を検出する。

次に、マイク部７Ａによって、音声があるか否かの判定を行う（Ｓ１０２）。この判定の結果、音声がなければ、そのまま元のフローに戻る。一方、音声があった場合には、顔表情判定を行う（Ｓ１０３）。続いて、画面外の顔と声が同調しているか否かの判定を行う（Ｓ１０４）。このステップでは、図４において説明したと同様に、画面外の顔の表情が、声の変化従って口が開いたり閉じたりしているかなどについて判定する。

ステップＳ１０４における判定の結果、同期していない場合には、そのまま元のフローに戻る。一方、判定の結果、同期していた場合には、画面内の顔にかからない画面外の顔の方向、例えば、図１０に示す例では左側に、文字を表示する。このときの文字表示の制御は、表示制御部６が行い、表示部６ｂに文字表示する位置を決定する。

以上説明したように、本実施形態では、双眼光学部９の視野２１の外も電子的にモニタし、人物２５、２６の口の動きなどの顔の表情を判定し、どの人物が声を発しているかを判定している。このため、声の方向を、ステレオマイクなどより、さらに正確に判定することが可能である。

以上説明したように、本発明の各実施形態においては、視野内に音声に関する情報を合成表示するにあたって、視野内外における音声方向の関係を判定し、判定結果に基づいて音声に関する情報の表示位置を切り換えるようにしている。このため、音声に関する情報を可視化することができ、その場の状況を把握しやすい。また、オペラや演劇等の舞台をこの表示装置で観察する場合、誰か何を言っているのか理解を助けることができる。

なお、本発明をカメラ等に応用した場合には、単に人物の表情を捉えるのみならず、コミュニケーション等を、音声から画像情報に表示することができ、また、画像記録した場合には撮影時の雰囲気を豊かに再現できる画像を得ることができる。

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１実施形態に係わる双眼鏡の構成を示すブロック図である。本発明の第１実施形態に係わる双眼鏡において、観察者への字幕の表示を説明する図である。本発明の第１実施形態に係わる双眼鏡において、音声方向の判定に係わる構成を示す図である。本発明の第１実施形態に係わる双眼鏡において、発声と顔の表情を示す図であり、（ａ）は発声時、（ｂ）は無発生時の顔の表情を示す。本発明の第１実施形態に係わる双眼鏡において、音声方向判定の動作を示すフローチャートである。本発明の第１実施形態に係わる双眼鏡において、表示制御の動作を示すフローチャートである。本発明の第１実施形態に係わる双眼鏡において、撮影機能を説明する図であり、（ａ）は音声に関連する情報の表示がない写真であり、（ｂ）は音声に関連する情報の表示がある写真であり、（ｃ）は音声に関連する情報の表示位置に好ましくない場合の写真であり、（ｄ）は音声に関連する情報のうち、文字情報を省略した場合の写真を示す。本発明の第１実施形態に係わる双眼鏡において、舞台と視野の関係を示す図である。本発明の第２実施形態に係わる双眼鏡の構成を示すブロック図である。本発明の第２実施形態に係わる双眼鏡において、視野と音声の関係を説明する図である。本発明の第２実施形態に係わる双眼鏡において、音声方向判定の動作を示すフローチャートである。

符号の説明

１・・・画像処理部、２・・・レンズ、３・・・撮像素子、４・・・信号受信部、５・・・顔検出部、６・・・表示制御部、６ｂ・・・表示部、７・・・ステレオマイク部、７Ａ・・・マイク部、７ａ・・・音声判定部、７Ｌ・・・左側マイク、７Ｒ・・・右側マイク、７Ｍ・・・モノラルマイク、８・・・記録部、９・・・双眼光学部、１０・・・双眼鏡、１１・・・字幕放送、１５・・・ユーザー、２０・・・舞台、２１・・・視野、２２・・・吹き出し、２３・・・登場人物、２４・・・登場人物、２７・・・視野、２８・・・視野、２９・・・視野

Claims

観察方向の視野の一部を表示する表示装置において、
上記視野内に音声に関する情報を表示する合成表示部と、
視野内外における音声方向の関係を判定する判定部と、
上記判定部の判定結果に基づいて、上記音声に関する情報の表示位置を切り換える切換制御部と、
を具備することを特徴とする表示装置。
上記表示装置は、さらに、上記合成表示部内に表示された顔の位置を検出する顔位置検出部を具備し、
上記切換制御部は、上記顔位置検出部の検出結果に基づいて、上記音声に関する情報の表示位置を切り換えることを特徴とする請求項１に記載の表示装置。
上記表示装置は、さらに、音声の方向を検出する音声方向検出部を具備し、
上記切換制御部は、上記音声方向検出部の検出結果に基づいて、上記音声に関する情報の表示位置を切り換えることを特徴とする請求項１に記載の表示装置。
上記表示装置は、さらに、上記合成表示部の視野内に表示される音声に関する情報表示も含めて記録する記録部を具備することを特徴とする請求項１に記載の表示装置。
上記表示装置は、さらに通信部を具備し、
上記合成表示部の視野内に表示する音声に関する情報表示は、上記通信部を介して取得することを特徴とする請求項１に記載の表示装置。
上記表示装置は、さらに、
音声変化を判定する音声判定部と、
上記合成表示部内に顔が表示されているかを検出し、顔が表示されていた場合には、その顔の変化を判定する顔変化判定部と、
を具備し、
上記音声判定部によって判定された音声変化と、上記顔変化判定部によって判定された上記顔の変化のタイミングを比較し、上記音声の方向を特定することを特徴とする請求項１に記載の表示装置。
上記表示装置は、さらに、
上記合成表示部に表示している視野の外を含めて撮像する撮像部と、
上記撮像部によって撮像された画像に含まれる顔画像の変化を判定する顔判定部と、
音声を検出する音声検出部と、
を具備し、
上記切換制御部は、上記音声検出部と上記顔判定部の出力結果に基づいて、上記音声に関する情報の表示位置を切り換えることを特徴とする請求項１に記載の表示装置。
観察対象を撮像し画像信号を出力する撮像素子と、
音声を音声信号に変換する集音部と、
上記画像信号と上記音声信号に基づいて、上記音声に関する情報を上記観察対象の表示画像に重畳して表示するための表示制御部と、
を具備することを特徴とする表示装置。
上記表示制御部は、上記画像信号に基づいて顔の口の動きと、上記音声信号の音声変化が同期するか否かに応じて、発声している人物を判定し、上記音声に関する情報を表示することを特徴とする請求項８に記載の表示装置。
上記表示装置は、さらに、上記画像信号に基づいて上記観察対象を表示する表示部を有し、
上記集音部は、ステレオマイクを有し、上記音声の来る方向を判定可能であり、
上記表示制御部は、上記音声が上記表示部での視野範囲の外側か内側かを判定し、上記音声に関する情報を重畳して表示する位置を決定することを特徴とする請求項８に記載の表示装置。
上記表示装置は、さらに、上記画像信号に基づいて顔の位置を検出する顔検出部を有し、
上記表示制御部は、上記顔の位置に応じて、上記音声に関する情報を重畳して表示する位置を決定することを特徴とする請求項８に記載の表示装置。
上記表示装置は、光学的に上記観察対象を表示するための光学部と、上記光学部の光路中に上記音声に関する情報を表示するための表示部を有することを特徴とする請求項８に記載の表示装置。
上記光学部は光学的ズーミングが可能であり、
上記撮像素子は、固定の視野で上記観察対象を含む画像の画像データを出力することを特徴とする請求項８に記載の表示装置。
観察方向の視野の一部を表示する表示方法であって、
視野内外における音声方向の関係を判定し、
上記判定結果に基づいて、上記視野内に音声に関する情報の表示位置を切り換える、
ことを特徴とする表示方法。
観察対象を撮像し画像信号を出力し、
音声を音声信号に変換し、
上記画像信号と上記音声信号に基づいて、上記音声に関する情報を上記観察対象の表示画像に重畳して表示する、
ことを特徴とする表示方法。