JP2006186867A

JP2006186867A - 音声処理装置

Info

Publication number: JP2006186867A
Application number: JP2004380535A
Authority: JP
Inventors: Mitsunori Nojima; 光典野島
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2004-12-28
Filing date: 2004-12-28
Publication date: 2006-07-13
Anticipated expiration: 2024-12-28
Also published as: JP4463098B2

Abstract

【課題】複数のコンテンツの音声（例えば、ＴＶ電話の音声とＦｌａｓｈコンテンツの音声）を効率よくそれぞれの音声を区別する。
【解決手段】複数のコンテンツの音声を出力する音声処理装置において、音声出力変更に関するイベント情報を認識するイベント検知手段と、イベント情報のイベントＩＤとコンテンツ再生状態記憶装置から取得したコンテンツ再生状態情報の内容によって、音声出力の変更方法を判断し、音声出力情報を作成する音声出力変更情報作成部と、音声出力変更情報の内容に従って、コンテンツＩＤの音声を指定された音量レベル値の音量レベルを変更する音量レベル設定手段と、コンテンツＩＤの音声を指定された定位位置に音場を変更する音場設定手段と、コンテンツＩＤの音声を指定された音声出力先ＩＤの音声出力装置に変更する音声出力先設定手段と、を備えることで、音声の区別を行う。
【選択図】図１

Description

本発明は、複数コンテンツの音声の内、特定の音声を区別する音声処理装置に関する。

従来、音声による相互通信に加えて画像情報を伝送することで意思伝達効率を向上させるテレビ電話システムや、これを発展させて複数利用者間で画像と共に相互通信を行うテレビ会議電話システムが知られている。

上記のようなテレビ電話システムにおいて、単純に複数の利用者間でＴＶ電話の音声を合成すると、どちらの参加者の音声か区別できなくなる場合があり、ひいては、システムの混乱を招くという問題もあった。

そこで、発言者を音声で判別して、当該発言者を特定し、発言者の動画を区別して分かりやすくする、例えば、発言者の動画表示範囲を拡大して区別するという種々の技術が、開示されている（特許文献１等参照）。

また、発言者の動画でなく、音声によって区別する技術については、以下のものがある。

第１の例として、視線を検出し、視線方向にある発音源を特定し、その特定した発音源からの音声信号を増幅する技術について開示されている（特許文献２等参照）。

図１１（ａ）は、視線による複数の音声の区別を行う場合の表示画面を示す図である。また、（ｂ）は、その音声の区別を行う従来例の音声識別部の概略ブロック図を示す。

音声処理装置５００は、音声Ａ及び音声Ｂ用の音声処理回路５０１ａ、５０１ｂと、音声Ａ及びＢを加算する加算回路５０２ａ、５０２ｂと、加算された合成音声信号を増幅する増幅回路５０３ａ、５０３ｂと、視線方向にある画像の音声の重み係数を決定する重み係数決定回路５０４とから構成される。

以下に、本音声識別部５１０の動作について説明する。

表示画面５１０に、動画Ａ及び動画Ｂが表示している場合、例えば、注目すべき動画Ａにユーザの視線を合わせると、視線方向にある画像位置を動画Ａと認識し、重み係数決定回路５０４は、動画Ａの音声信号を動画Ｂの音声信号よりも重み係数を大きくする。ここで、音声信号Ａ、Ｂは、それぞれ、左（Ｌ）右（Ｒ）別々のステレオ信号に分けられているものとする。そして、動画Ａの音声信号と動画Ｂの音声信号の合成信号は、加算回路５０２ａ、ｂ及び増幅回路５０３ａ、ｂを介して出力される。このようにして、視線方向にある動画の音声信号の重み付けを大きくすることによって、視線外にある動画の音声とを区別することが可能となる。

第２の例として、特許文献３には、複数と同時にＴＶ会議しているときは参加人の合成音声信号を左右のスピーカに出力し、特定の相手に対してプライベートモードを設定した場合は、プライベートモードの音声とその他の音声を左右のスピーカに分けて出力して区別する技術について記載されている。

図１２（ａ）は、別々のスピーカによって複数の音声の区別を行う場合の表示画面を示す図である。また、（ｂ）は、その音声の区別を行う場合の音声識別部の概略ブロック図を示す。

音声識別部６００は、入力の音声信号を選択又は合成するセレクタ／ＭＩＸ回路６０１と、入力の音声信号の選択するセレクタ６０２と、音声信号の切り替えを行う音声切り替えスイッチ６０３と、音声信号を増幅する増幅回路６０４ａ，ｂとから構成される。

以下に、本音声識別部６００の動作について説明する。

表示画面６１０に動画Ａ，Ｂが表示されている場合に、両画像とも通常モード状態であれば、音声切り替えスイッチ６０３は、Ａ側に接続して、セレクタ／ＭＩＸ回路６０１の音声信号を受ける。また、セレクタ／ＭＩＸ回路６０１は、音声信号を合成するＭＩＸモードとなっている。この場合、音声Ａ及びＢは、セレクタ／ＭＩＸ回路６０１によって合成され、増幅回路６０４ａ，ｂに音声Ａ、Ｂは区別されることなく出力される。

次に、動画Ｂがプライベートモードに設定されると、プライベートモード信号が発生し、この信号により、セレクタ／ＭＩＸ回路６０１は、セレクタモードとなり音声信号Ａが選択される。一方、セレクタ６０２は、音声Ｂを選択するモードとなり、音声切り替えスイッチ６０３は、Ｂ側に切り替えられる。これによって、音声Ａは、増幅回路６０４ａのみを介して出力される。また、音声Ｂは、増幅回路６０４ｂのみ介して出力される。このように、音声Ａ，Ｂは、別々のスピーカに出力されて、区別される。

さらに、第３の例として、特許文献４には、表示画面上における動画のウィンドウの位置によって音量のバランス調整及び音量を操作する技術について開示されている。

図１３（ａ）は、ウィンドウの位置に従って音声の区別を行う場合の表示画面を示す図である。また、（ｂ）は、その音声の区別を行う従来例の音声識別部の概略ブロック図を示す。

図１３（ｂ）に示す音声識別部７００は、音声Ａを増幅する増幅回路７０１ａ，ｂと、ウィンドウＡの表示画面７１０の位置によって、左側と右側の音量のバランスを設定するバランス設定回路７０２と、表示画面７１０の上下位置によって音量を設定する音量設定回路７０３から構成される。ウィンドウの表示画面上の位置情報に基づいて、出力音声の左右のバランス、音量を制御することにより、他の複数のウィンドウから発生する音声と区別することができる。
特開平０１−３０３９９０号公報特開平０９−２７５５３３号公報特開平０８−２５１５６６号公報特開平０６−１３１１４９号公報

上記テレビ電話システムの他に、通常のテレビ画像（コンテンツの画像）を観ながら、同時に、上記のようなテレビ電話を行うシステムも開発されている。

このようなシステムでは、テレビ電話を行っている最中に、上記コンテンツの再生が開始されて、テレビ電話を行いながら、視聴する場合、また、コンテンツの再生中に、テレビ電話の呼び出しがあり、視聴しながらテレビ電話を行う場合もある。

特に、上記のようなシステムにおいて、第１の従来の技術例では、コンテンツの再生が始まると、例えば、ユーザの視点が、相手の動画からコンテンツの画像へ移行することとなるが、相手の動画位置とほぼ同じ位置、大きさにコンテンツ画像が表示される場合に視線方向が同方向となるため、リアルタイムで音声の区別をすることは困難となる問題点がある。また、あるコンテンツの画像を観ている最中に、別のコンテンツが再生され、以前から再生されているコンテンツの画像を見ているときには、視線方向が同方向となるため、リアルタイムで音声合成の重み付けを変えて、双方の音声を区別することは、難しい。さらに、あるコンテンツの画像を見ている最中に、音声のみのコンテンツを再生する場合は、視線方向が変わらないため、双方の音声を区別することは難しい。

次に、第２の従来の技術例では、明示的にプライベートモードを要請した端末からの音声信号を別のスピーカに音声出力を行うことが可能であるが、相手の動画表示中に別のコンテンツの画像を再生する場合に、コンテンツの再生のタイミングで自動的にスピーカを変えることができない問題点がある。

なお、３つ以上のスピーカや、合成して同じスピーカ上で区別することは考慮に入れていない。

さらに、第３の従来の技術例では、１つは、ウィンドウの左右のバランス調整を行い、音声の区別するものであるが、上記システムでは、コンテンツの画像と相手動画の位置関係が大きく変えるようなことはないため、双方の音声を区別するのに困難であるという問題点がある。

また、この技術は、新しい動画が開始したときに、他の複数の音声と合成したり、ウィンドウの大きさに従って音量を変えたりすることによって区別するということは考慮されていない。さらに、音場を変えるということも考慮されていない。

本発明は、斯かる実情に鑑みてなされたものであって、複数の音声（例えば、ＴＶ電話の音声とコンテンツの音声）を効率よくそれぞれの音声を区別して出力する音声処理装置を提供するものである。

上記課題を解決するために、本発明に係る音声処理装置は、以下の特徴を備えている。

本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、音声出力変更に関連するイベント情報を検知するイベント検知手段と、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報から音声出力変更情報を生成する音声出力変更情報作成手段と、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする。

また、本発明に係る音声処理装置において、前記音声出力変更情報作成手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成するようにしたことを特徴とする。

また、本発明に係る音声処理装置において、前記音量レベル設定手段は、一定期間経過後、変更した前記コンテンツの音量レベルを元に戻すようにしたことを特徴とする。

また、本発明に係る音声処理装置において、前記音声出力変更情報作成手段は、ある特定コンテンツ以外のコンテンツの音量レベルをすべてミュート値として音声出力変更情報を生成するようにしたことを特徴とする。

また、本発明に係る音声処理装置において、前記音声出力変更情報作成手段は、前記イベント情報がコンテンツ画像の大きさの情報である場合に、前記画像の大きさの変動に従って、前記コンテンツに含まれる音声の音量レベルを変更した音声出力変更情報を生成するようにしたことを特徴とする。

また、本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、コンテンツ画像大きさ変更に関連するイベント情報を検知するイベント検知手段と、前記イベント情報の画像の大きさの変動に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする。

また、本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、音声出力変更に関連するイベント情報を検知するイベント検知手段と、コンテンツの音場定位を行う音場設定手段を備え、前記音場設定手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報に記載のコンテンツの表示位置とユーザとの位置関係を考慮した音場定位処理を行い、表示している位置から音声が聞こえるように音場を変更することを特徴とする。

また、本発明に係る音声処理装置は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、前記音場設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、コンテンツの音場定位を行うことを特徴とする。

また、本発明に係る音声処理装置において、前記音場設定手段は、前記コンテンツの表示位置が変化した場合に、該表示位置に応じて音場を変えることを特徴とする。

また、本発明に係る音声処理装置は、前記イベント情報が、コンテンツ画像の大きさの情報である場合に、前記画像の大きさが大きくなると、前記音場設定手段は、前記コンテンツの音場の定位をユーザに近くするように変更して他のコンテンツの音声と合成するようにしたことを特徴とする。

また、本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、音声出力変更に関連するイベント情報を検知するイベント検知手段と、所定の音声出力先の音声出力装置に変更する音声出力先設定手段を備え、前記音声出力先設定手段は、前記イベント情報により新たに生成したコンテンツ音声のクオリティの高低に応じて、前記クオリティの異なる音声出力手段に割り当てることを特徴とする。

また、本発明に係る音声処理装置は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、前記音声出力先設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、所定の音声出力先の音声出力装置に変更することを特徴とする。

以上説明したように、本発明に係る音声処理装置によれば、複数のコンテンツの音声（ＴＶ電話のコンテンツの音声と映画等のコンテンツの音声）をイベントが発生したときに、自動的に、画面の位置、大きさに応じて、所定のコンテンツの音声を大きくしたり、小さくしたりすることによって、合成された音声を区別することができる。

また、コンテンツのクオリティのレベルによって、別の音声処理装置の割り振り、区別をより明確にすることが可能である。

また、本発明によれば、音場定位処理を行うことにより、所望するコンテンツの音声をユーザの耳元に聞こえるようにすることにより、区別する効果を得ることができる。

以下、本発明に係る音声処理装置の実施形態について、添付図面を参照して詳細に説明する。

図中、同一の符号を付した部分は同一物を表わし、図１から図１０及び図１４から図２１において図１１から図１３に示す従来のものと重複する部分には同一の符号を附す。

図１は、本発明に係る音声処理装置１００の第１の実施形態を示すブロック構成図である。同図に示すように、音声処理装置１００は、リモコンからイベント情報を受け取るリモコン受信部３００と、外部通信手段（例えば、ネットワーク回線）から通信部３０１と、該リモコン受信部３００又は通信部３０１からのイベント情報を検知し、音声出力変更に関するイベント情報を認識するイベント検知手段３０２と、イベント検知手段３０２から受け取ったイベント情報のイベントＩＤと、後述するコンテンツ再生状態記憶装置３０４から取得したコンテンツ再生状態情報の内容（後述する）によって、音声出力の変更方法を判断し、音声出力情報を作成する音声出力変更情報作成部３０３と、該音声出力変更情報作成手段３０３から受け取った音声出力変更情報の内容に従って、音声出力の変更を行う音声出力管理手段３０８と、該音声出力管理手段３０８に指定されたコンテンツＩＤの音声を指定された音量レベル値の音量レベルを変更する音量レベル設定手段３０９と、該音声出力管理手段３０８に指定されたコンテンツＩＤの音声を指定された定位位置に音場を変更する音場設定手段３１０と、該音声出力管理手段３０８に指定されたコンテンツＩＤの音声を指定された音声出力先ＩＤの音声処理装置に変更する音声出力先設定手段３１１と、を備えている。

さらに、音声出力情報を作成する音声出力変更情報作成部３０３と接続されている、コンテンツ再生状態情報を記憶するコンテンツ再生状態記憶装置３０４と、予め設定されている設定音量レベル記憶情報を記憶する設定音量レベル記憶装置３０５と、予め設定されているコンテンツ優先度情報（後述する）を記憶するコンテンツ優先度記憶装置３０６と、予め設定されている音声出力先能力情報を記憶する音声出力先能力記憶装置３０７と、音量レベル設定手段３０９、音場設定手段３１０及び音声出力先設定手段３１１とにより制御される音声データを出力する音声出力装置３１２ａ，ｂ，ｃと、を備えている。

以下に、図２，３，４，５及び処理フロー図６，７，８，９，１０に基づいて、図１に示した本発明に係る音声処理装置の詳細な動作について説明する。以下では、動画像と音声を含んだコンテンツの例で説明を行うが、音声を含んでいれば、静止画や音声のみのコンテンツであっても構わない。

ここでは、ＴＶ電話（相手画像及び自分画像表示）中にＤ１サイズのステレオ出力のＦｌａｓｈコンテンツを４８０×３２０のサイズで再生が開始される場合の例で説明する。なお、ＴＶ電話中にコンテンツの画像が再生された場合の表示画面の代表的な表示例として図２（ａ）（ｂ）に示す。

図２（ａ）は、ＴＶ電話中の相手画像表示と相手音声を出力していることを示す図である。図に示すように、相手画像と自分画像を表示しており、相手画像は、表示画面のほぼ中心位置に、自分画像は、右下に小さく表示されている。このような状態から、上記Ｆｌａｓｈコンテンツの画像が再生開始した場合の図が図２（ｂ）である。

また、図６は、本発明に係る音声処理装置１００の全体の処理フローを示すフロー図である。

まず、ユーザがリモコンを操作して、再生するＦｌａｓｈコンテンツを選択して、再生を開始する。リモコン受信装置３００は、コンテンツ再生開始の操作信号を受けると、開始するコンテンツにＩＤを付け、このコンテンツＩＤとコンテンツの内容（Ｆｌａｓｈ、ステレオ、画像サイズ（Ｄ１））、表示位置と大きさの情報を付加したコンテンツ再生開始イベントを発行する。図１５はコンテンツ開始イベントの情報を示す図である。なお、コンテンツ再生開始イベントの発行処理は、通信装置３０１で行ってもよい。

イベント検知手段３０２は、リモコン受信装置３００からのイベント通知を監視し（ステップ１１）、通知があれば（ステップＳ１２；ＹＥＳ）、イベント情報を取得する（ステップＳ１３）。通知がなければ（ステップＳ１２；ＮＯ）、ステップＳ１１に戻る。

イベントＩＤから音声出力変更関連イベントか否かを判断し（ステップＳ１４）、音声関連イベントであれば、イベント情報を音声出力変更情報作成手段３０３に渡す。ここで、音声関連イベントとしては、コンテンツ再生開始イベント、コンテンツ再生終了イベント、位置移動イベント及び大きさ変更イベントの４種類がある。

音声出力変更情報作成手段３０３は、コンテンツ再生状態記憶装置３０４からコンテンツ再生状態情報を取得する（ステップＳ１５）。

ここで、コンテンツ再生状態情報として、コンテンツＩＤ、コンテンツ種別（ＴＶ電話、ＦＬＡＳＨ等）、画像ソースサイズ、表示位置、大きさ、音声方式、音声出力装置ＩＤ、音量レベル値及び定位位置等の情報が含まれる。

次に、図２及び図７に基づいて、本発明の第１の実施形態を詳細に説明する。

＜第１の実施形態の説明＞
図７は、第１の実施形態を説明する処理フロー図である。本実施形態の特徴は、図７のステップＳ２３からステップＳ２６に記載する部分である。

音声出力変更情報作成手段３０３は、イベント検知手段３０２から受け取ったイベント情報のイベント情報のイベントＩＤがコンテンツ再生開始イベントであるか否かを判断する（ステップＳ２１）。イベントＩＤがコンテンツ再生開始イベントである場合（ステップＳ２１；ＹＥＳ）、ステップＳ１５において、コンテンツ再生状態記憶装置３０４から取得したコンテンツ再生状態が既に存在しているか否かを判断する（ステップＳ２２）。コンテンツ再生状態が既に存在していると判断すると（ステップＳ２２；ＹＥＳ）、イベント情報のコンテンツ種別をキーにして、設定音量レベル記憶装置３０５から、設定音量レベル情報を入手する（ステップＳ２３）。ここで、現在ＴＶ電話中のコンテンツが存在している場合には、コンテンツ再生状態情報は、図１４に示すものとなっており、すでに作成されている。

音声出力変更情報作成手段３０３は、イベント情報のコンテンツ種別をキーにして、設定音量レベル記憶装置３０５から設定音量レベル情報を取得する（ステップＳ２３）。図１６は、設定音量レベル情報を示す図である。図１６において、新規コンテンツ種別「ＦＬＡＳＨ」をキーとすると、既存コンテンツ（コンテンツＩＤ１）の音量レベルは、「−２」、新規コンテンツ音量レベルは「現在音量レベル値」であることを示している。

この設定音量レベル情報を使用して、音量レベル変更情報を作成する（ステップＳ２４）。図１７は、上記音量レベル変更情報を示す図である。

上記作成された音量変更情報は、音量出力管理手段３０８に送られる。
次に、音量出力管理手段３０８は、音量レベル変更情報の変更種別をチェックし、使用する音声出力の変更手段が音声レベル設定手段３０９であるか否かを判断する（ステップＳ２５）。図１７に示すように、音声出力管理手段３０８は、変更種別が「音量レベル変更」であるので、音量レベル設定手段３０９を選択し（ステップＳ２５；ＹＥＳ）、音量レベル変更情報を渡す。音量レベル設定手段３０９は、音量レベル変更情報に従ってコンテンツの音声の音量レベルを設定する。図１８に示すように、現在音量レベルが「５」であるから、コンテンツＩＤ１の音量レベルを「−２」である「３」に、コンテンツＩＤ２の音量レベルを現在音量レベル値である「５」に設定する（ステップＳ２６）。

図２（ａ）に示すように、ＴＶ電話中は、相手のコンテンツ画像が大きく表示されており、相手の音声も音量レベル「５」で出力されている。このとき、コンテンツ画像の再生指令がイベント情報として発生すると、コンテンツの音声レベルを「５」、ＴＶ電話の相手の音声レベルを「３」に変更することが可能となり、音声の区別は明確となる。このとき、ＴＶ電話の相手の音声レベルをミュート値「０」に変更することで、さらに音声の区別を明確にしてもよい。

ユーザがどちらに重要性を重んじるかに従って、適宜、コンテンツの音声のレベルより相手の音声のレベルを大きくして、相手の音声を聞きやすくしてもよい。

また、上記実施形態では、ＴＶ電話を行っている最中にイベントが発生し、コンテンツの音声を再生する場合について説明したが、コンテンツ（ＴＶ）の視聴中にＴＶ電話がかかってきた場合にコンテンツ（ＴＶ）音声の音量レベルを小さくすることで、相手音声を聞きやすくしても良い。

さらに、一定期間経って、ユーザの識別力がなれて識別が可能な場合は、音量をもとに戻して無駄な音量を減らすようにして、さらに識別力を高めるようにしても良い。また、例では現在のコンテンツ再生状態を見て、それぞれのコンテンツの音声レベルを変更しているが、イベント情報だけを見て現在再生中のコンテンツ再生状態に関係なく、新たに再生するコンテンツの音声レベルを大きくしてコンテンツの音声を区別しても構わない。

次に、図６に示すフロー図に戻り、音声出力変更情報作成手段３０３は、変更した音声出力内容に従って、コンテンツ再生状態情報を更新する（ステップＳ１８）。コンテンツＩＤ１の音量レベルを「３」に、また、新規コンテンツであるコンテンツＩＤ２の項目を追加する。図１９に最終のコンテンツ再生状態情報を示す。ステップＳ１８が終了すると、ステップＳ１１に戻る。

次に、ＴＶ電話中にＦｌａｓｈコンテンツ再生が行われている状態からＦｌａｓｈコンテンツの再生を終了する場合の動作について説明する。

リモコン受信装置３００は、コンテンツ再生終了の操作信号を受けると、終了するコンテンツＩＤを付加したコンテンツ再生終了イベントを発行する（図２０に示す）。上記説明したように、イベント検知手段３０２は、リモコン装置から発生したイベント情報を取得し（ステップＳ１３）、イベントＩＤから音声出力変更関連イベントかを判断し（ステップＳ１４）、コンテンツ再生終了イベントは、音声出力変更関連イベントであるので、次の順に処理が進む。すなわち、ステップＳ１５→ステップＳ２１→ステップＳ２７→ステップＳ２８→ステップＳ２３→ステップＳ２４→ステップＳ２５→ステップＳ２６→ステップＳ１８の順である。

ここで、ステップＳ２８は、ステップＳ２２と同じ処理であり、コンテンツ再生状態装置から取得したコンテンツ再生状態情報にイベント情報で指定されたコンテンツＩＤの情報が既に存在しているか否かを判断する。

また、ステップＳ２４において作成される音声レベル変更情報は、図１６に示す設定音量情報において、新規コンテンツ種別「終了」をキーにすると、既存コンテンツ（コンテンツＩＤ１）の音量レベルが「現在音量レベル値」、新規コンテンツ（コンテンツＩＤ２）の音量レベルが「−」であるので、図２１に示すようなものとなる。従って、音量レベル設定手段３０９は、上記音量レベル変更情報によりコンテンツの音声の音量レベルを設定する（ステップＳ２６）。図１８に示すように、現在音量レベルが５であるので、コンテンツＩＤ１の音量レベルを「現在音量レベル値」である「５」に設定する。

図１６に示す最後のステップＳ１８に戻り、音声出力変更作成手段３０３によって、変更した音声出力内容に従ってコンテンツ再生状態情報を更新する（ここでは、コンテンツＩＤ１の音量レベルを「５」に変更する）。なお、コンテンツ再生状態情報として、コンテンツと関連している字幕などの文字情報の大きさを付加し、コンテンツの音声の音量レベルに合わせて、文字の大きさを変更するようにしてもよい。

次に、図３及び図８に基づいて、本発明の第２の実施形態を詳細に説明する。

＜第２の実施形態の説明＞
図３に示すように、コンテンツ画像及び相手の画像が既に表示済みの状態において、相手の画像が表示されている位置からその音声が聞こえるように音場を変える動作について以下に説明する。

コンテンツ画像３５０の音声の音場３５２は、ユーザ３６０では、無指向性の音場となる一方、相手画像３５１の音声の音場３５３は、表示されている位置から聞こえるようにするために、音場設定手段３１０により音場定位処理（例えば、音量、周波数等を加工処理して、本装置とユーザとの位置関係で定められる音場の伝達関数を算出して音場定位を行う）を行い、いわゆるカクテルパーティ効果を引き出す。

ここで、相手音声をユーザの耳元に定位することでより区別を明確にするようにしても良い。さらに、定位を常時動かして区別しても良いし、相手画像の位置を変えることによって、音場も変えて区別しても良い。

図８は、第２の実施形態を説明する処理フロー図である。本実施形態の特徴は、図８のステップＳ３３からステップ３２６に記載する部分である。その他の処理ステップについては、図７と同じであるため説明を省略する。

なお、説明にあたっては、ステップＳ２１→ステップＳ２２を通過した後のステップＳ３３から説明を始めるものとする。また、図８では、イベント検知手段３０２がコンテンツ再生開始イベント又はコンテンツ再生終了イベントを受け取った場合についてのフロー図を含めて示しているが、イベント通知が図２３に示すような位置移動イベントである場合には、ステップＳ１５を実行してから直接、ステップＳ３３に移行するものとする（これについては、フロー図に図示していない）。下記に記載の第３の実施形態の場合も同様である。

音声出力変更情報作成手段３０３は、コンテンツ再生状態情報からコンテンツＩＤ１の相手画像が図３に示すような位置に表示されていることを判断する（ステップＳ３３）。相手画像が表示されていると判断されると（ステップＳ３３；ＹＥＳ）、音声出力変更情報作成手段３０３は、図２２に示すような相手画像の表示位置を定位とする音場定位変更情報を作成し、これを音声出力変更情報とする（ステップＳ３４）。次に、音声出力変更情報を受けた音声出力管理手段３０８は、音場定位変更情報であると判断すると（ステップＳ３５；ＹＥＳ）、音場設定手段３１０を選択する。音場設定手段３１０は、上記音場定位変更情報に従って、例えば、音量レベル、周波数等から音場の伝達関数を算出し、音場調整を行う（ステップＳ３６）。
なお、コンテンツ再生状態情報に、音場定位の位置として奥行きをあらわすＺ−ｉｎｄｅｘなどの情報を含めて付加し、画像の大きさや、カメラのズーム、パンなどのカメラの動作に応じて、音量レベルを上げ下げしたり、音場定位の位置を前後左右上下に移動させてもよい。また、コンテンツ再生状態情報として、輝度や透明度などの画像特性情報を付加し、コンテンツの画像特性に応じて、音量レベルを上げ下げしたり、音場定位の位置を前後左右上下に移動させてもよい。さらに、例では現在のコンテンツ再生状態を見て、それぞれのコンテンツの音場定位を変更しているが、イベント情報だけを見て現在再生中のコンテンツ再生状態に関係なく、コンテンツの音場定位を変更してコンテンツの音声を区別しても構わない。

次に、図４及び図９に基づいて、本発明の第３の実施形態を詳細に説明する。

＜第３の実施形態の説明＞
図４は、コンテンツ画像が開始されて、表示画面のほぼ中心位置に表示されていた相手画像がコンテンツ画像に切り替わった状態を示す図である。ここで、コンテンツ画像の音声は、ＴＶ電話の相手の画像の音声より、はるかに高いクオリティが要求される場合が多い。このように、クオリティの高い音声に対しては、クオリティの高いスピーカに割り当てることによって、両者の音声を区別する。例えば、図４に示すように、再生が開始されたコンテンツ画像の音声は高いクオリティが要求されるために、内蔵のスピーカが割り当て、高いクオリティを必要としない相手画像の音声は、外部スピーカに割り当てることにより、両者を区別することが可能となる。

なお、外部スピーカの位置は、本装置上ではなく、離れた位置に配置されていても良い。

図９は、第３の実施形態を説明する処理フロー図である。本実施形態の特徴は、図９のステップＳ４３からステップＳ４６に記載する部分である。その他の処理ステップについては、図７と同じであるため説明が省略する。

音声出力変更情報作成手段３０３は、コンテンツ優先度記憶装置３０６から図２５に示すようなコンテンツ優先度情報及び音声出力先能力記憶装置３０７から図２６に示すような音声出力先能力情報を取得する（ステップＳ４３）。そして、音声出力変更情報作成手段３０３は、コンテンツの出力方式に合い、かつ、優先度の高い順位コンテンツを割り当てるための図２７に示すような音声出力先変更情報を作成し、これを音声出力変更情報とする（ステップＳ４４）。次に、音声出力変更情報を受けた音声出力管理手段３０８は、音声出力変更情報であると判断すると（ステップＳ４５；ＹＥＳ）、音声出力先設定手段３１１を選択する。音声出力先設定手段３１１は、上記音声出力先変更情報に従って、音声出力装置を切り替える（ステップＳ４６）。

次に、図５及び図１０に基づいて、本発明の第４の実施形態を詳細に説明する。

＜第４の実施形態の説明＞
図５に示すように、相手画像がコンテンツ画像よりも大きい場合、相手音声を大きくし、コンテンツ音声を小さくする。逆に、コンテンツ画像が相手画像よりも大きい場合には、コンテンツ音声を大きく、相手音声を小さくする。

このように、コンテンツの画像の大きさに従って、音量を変化させて、合成する。ユーザが重要と認識するコンテンツの大きさを拡大することで、拡大した画像の音量をより近く聞こえるようにし、両者の区別を図る。

図１０は、第４の実施形態を説明する処理フロー図である。図１０の処理フローを使用して、以下に動作説明をする。

音声出力変更情報作成手段３０３は、イベント検知手段３０２から受け取ったイベント情報のイベント情報のイベントＩＤがコンテンツ大きさ変更イベントである場合（ステップＳ５１；ＹＥＳ）、コンテンツ再生状態記憶装置３０４から取得したコンテンツ再生状態から既に複数のコンテンツが再生中であるか否かを判断する（ステップＳ５２）。既に再生中であると判断すると（ステップＳ５２；ＹＥＳ）、音声出力変更情報作成手段３０３は、コンテンツ再生状態情報から各コンテンツの以前の画像の大きさを取得する（ステップＳ５３）。そして、音声出力変更情報作成手段３０３は、以前の大きさと変更後の大きさの比率によって音量レベル変更情報を作成し、これを音声出力変更情報とする（ステップＳ５４）。例えば、イベント情報が図２４で示すようなコンテンツＩＤが「１」であるコンテンツの音声に対する「３８４×２５６」のサイズの大きさ変更イベントで、コンテンツ再生状態が図１４で示すような「４８０×３２０」のサイズのＴＶ電話相手コンテンツ種別であるコンテンツＩＤが「１」である音声が音量レベル「５」である場合、縦と横の大きさの比率が変更前と変更後で５：４であるため、音量レベルが「４」である音量レベル変更情報が生成される。次に、音声出力変更情報を受けた音声出力管理手段３０８は、音量レベル変更情報であると判断すると（ステップＳ５５；ＹＥＳ）、音量レベル設定手段３０９を選択する。音量レベル設定手段３０９は、上記音量レベル変更情報に従って、各コンテンツの音量の調整を行う（ステップＳ５６）。

なお、上記の例では変更前の大きさと変更後の大きさの比率として縦横比を用いたが、面積比を用いてもよい。また、最低音量と最高音量を規定し、その範囲内で音量レベルを設定することで、音量を小さ過ぎたり大き過ぎたりしないようにしてもよい。また、上記の例では画像の大きさが変更になったコンテンツの音声のみ音量レベルを変更したが、他のコンテンツの音声も大きさの変動に合わせて音量レベルを変更するようにすると効果的である。さらに、上記の例では複数のコンテンツが再生中かどうかをコンテンツ再生状態情報で確認しているが、確認を行わず画像の大きさのみで音量レベルを変更してももちろん構わない。

尚、本発明に係る音声処理装置は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

本発明に係る音声処理装置１００の第１の実施形態を示すブロック構成図である。（ａ）は、ＴＶ電話中の相手画像表示と相手音声を出力していることを示す図である。（ｂ）は、上記Ｆｌａｓｈコンテンツの画像が再生開始した場合の図である。相手の画像が表示されている位置からその音声が聞こえるように音場を変える場合を示す図である。コンテンツ画像が開始されて、表示画面のほぼ中心位置に表示されていた相手画像がコンテンツ画像に切り替わった状態を示す図である。コンテンツの画像の大きさに従って、音量を変化させて、合成する図である。本発明に係る音声処理装置１００の全体の処理フローを示すフロー図である。第１の実施形態を説明する処理フロー図である。第２の実施形態を説明する処理フロー図である。第３の実施形態を説明する処理フロー図である。第４の実施形態を説明する処理フロー図である。（ａ）は、視線による複数の音声の区別を行う場合の表示画面を示す図である。（ｂ）は、その音声の区別を行う従来例の音声識別部の概略ブロック図である。（ａ）は、別々のスピーカによって複数の音声の区別を行う場合の表示画面を示す図である。また、（ｂ）は、その音声の区別を行う場合の音声識別部の概略ブロック図である。（ａ）は、ウィンドウの位置に従って音声の区別を行う場合の表示画面を示す図である。また、（ｂ）は、その音声の区別を行う従来の音声識別部の概略ブロック図である。コンテンツの画像が開始される以前に既に作成されたコンテンツ再生状態情報を示す図である。コンテンツ開始イベントの情報を示す図である。設定音量レベル情報を示す図である。音量レベル変更情報を示す図である。現在音量レベルが「５」であることを示す図である。更新された最終のコンテンツ再生状態情報を示す図である。コンテンツ終了イベントの情報を示す図である。コンテンツ終了イベントである場合の音量レベル変更情報を示す図である。位置移動イベントである場合の音場定位変更情報を示す図である。位置移動イベントの情報を示す図である。大きさ変更イベントの情報を示す図である。コンテンツ優先度情報を示す図である。音声出力先能力情報を示す図である。音声出力先変更情報を示す図である。

符号の説明

１００音声処理装置
３００リモコン受信装置
３０１通信装置
３０２イベント検知手段
３０３音声出力変更情報作成手段
３０４コンテンツ再生状態記憶装置
３０５設定音量レベル記憶装置
３０６コンテンツ優先度記憶装置
３０７音声出力先能力記憶装置
３０８音声出力管理手段
３０９音量レベル設定手段
３１０音場設定手段
３１１音声出力先設定手段
３１２ａ、３１２ｂ、３１２ｃ音声出力装置
３５０コンテンツ画像
３５１相手画像
３５２コンテンツ音声の音場
３５３相手音声の音場
３６０ユーザ
５００従来の音声識別部
５０１ａ、ｂ音声処理回路
５０２ａ、ｂ加算回路
５０３ａ、ｂ増幅回路
５１０表示画面
５１１視線
６００従来の音声識別部
６０１セレクタ／ＭＩＸ
６０２セレクタ
６０３音声切り替えスイッチ
６０４ａ、ｂ増幅回路
６１０表示画面
７００従来の音声識別部
７０１ａ、ｂ増幅回路
７０２バランス設定回路
７０３音量設定回路
７１０表示画面

Claims

複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
音声出力変更に関連するイベント情報を検知するイベント検知手段と、
前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報から音声出力変更情報を生成する音声出力変更情報作成手段と、
前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする音声処理装置。
前記音声出力変更情報作成手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成するようにしたことを特徴とする請求項１に記載の音声処理装置。
前記音量レベル設定手段は、一定期間経過後、変更した前記コンテンツの音量レベルを元に戻すようにしたことを特徴とする請求項１又は請求項２に記載の音声処理装置。
前記音声出力変更情報作成手段は、ある特定コンテンツ以外のコンテンツの音量レベルをすべてミュート値として音声出力変更情報を生成するようにしたことを特徴とする請求項１〜３のいずれか１項に記載の音声処理装置。
前記音声出力変更情報作成手段は、前記イベント情報がコンテンツ画像の大きさの情報である場合に、前記画像の大きさの変動と前記他のコンテンツ再生状態情報に従って、前記コンテンツに含まれる音声と他のコンテンツに含まれる音声の音量レベルを変更した音声出力変更情報を生成するようにしたことを特徴とする請求項２〜４のいずれか１項に記載の音声処理装置。
複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
コンテンツ画像大きさ変更に関連するイベント情報を検知するイベント検知手段と、
前記イベント情報の画像の大きさの変動に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする音声処理装置。
複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
音声出力変更に関連するイベント情報を検知するイベント検知手段と、
コンテンツの音場定位を行う音場設定手段を備え、
前記音場設定手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報に記載のコンテンツの表示位置とユーザとの位置関係を考慮した音場定位処理を行い、表示している位置から音声が聞こえるように音場を変更することを特徴とする音声処理装置。
前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、
前記音場設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、コンテンツの音場定位を行うことを特徴とする請求項７に記載の音声処理装置。
前記音場設定手段は、前記コンテンツの表示位置が変化した場合に、該表示位置に応じて音場を変えることを特徴とする請求項７又は請求項８に記載の音声処理装置。
前記イベント情報が、コンテンツ画像の大きさの情報である場合に、前記画像の大きさが大きくなると、前記音場設定手段は、前記コンテンツの音場の定位をユーザに近くするように変更して他のコンテンツの音声と合成するようにしたことを特徴とする請求項７〜９のいずれか１項に記載の音声処理装置。
複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
音声出力変更に関連するイベント情報を検知するイベント検知手段と、
所定の音声出力先の音声出力装置に変更する音声出力先設定手段を備え、
前記音声出力先設定手段は、前記イベント情報により新たに生成したコンテンツ音声のクオリティの高低に応じて、前記クオリティの異なる音声出力手段に割り当てることを特徴とする音声処理装置。
前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、
前記音声出力先設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、所定の音声出力先の音声出力装置に変更することを特徴とする請求項１１に記載の音声処理装置。