JP2006186867A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2006186867A
JP2006186867A JP2004380535A JP2004380535A JP2006186867A JP 2006186867 A JP2006186867 A JP 2006186867A JP 2004380535 A JP2004380535 A JP 2004380535A JP 2004380535 A JP2004380535 A JP 2004380535A JP 2006186867 A JP2006186867 A JP 2006186867A
Authority
JP
Japan
Prior art keywords
content
audio
information
output change
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004380535A
Other languages
English (en)
Other versions
JP4463098B2 (ja
Inventor
Mitsunori Nojima
光典 野島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2004380535A priority Critical patent/JP4463098B2/ja
Publication of JP2006186867A publication Critical patent/JP2006186867A/ja
Application granted granted Critical
Publication of JP4463098B2 publication Critical patent/JP4463098B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 複数のコンテンツの音声(例えば、TV電話の音声とFlashコンテンツの音声)を効率よくそれぞれの音声を区別する。
【解決手段】 複数のコンテンツの音声を出力する音声処理装置において、音声出力変更に関するイベント情報を認識するイベント検知手段と、イベント情報のイベントIDとコンテンツ再生状態記憶装置から取得したコンテンツ再生状態情報の内容によって、音声出力の変更方法を判断し、音声出力情報を作成する音声出力変更情報作成部と、音声出力変更情報の内容に従って、コンテンツIDの音声を指定された音量レベル値の音量レベルを変更する音量レベル設定手段と、コンテンツIDの音声を指定された定位位置に音場を変更する音場設定手段と、コンテンツIDの音声を指定された音声出力先IDの音声出力装置に変更する音声出力先設定手段と、を備えることで、音声の区別を行う。
【選択図】 図1

Description

本発明は、複数コンテンツの音声の内、特定の音声を区別する音声処理装置に関する。
従来、音声による相互通信に加えて画像情報を伝送することで意思伝達効率を向上させるテレビ電話システムや、これを発展させて複数利用者間で画像と共に相互通信を行うテレビ会議電話システムが知られている。
上記のようなテレビ電話システムにおいて、単純に複数の利用者間でTV電話の音声を合成すると、どちらの参加者の音声か区別できなくなる場合があり、ひいては、システムの混乱を招くという問題もあった。
そこで、発言者を音声で判別して、当該発言者を特定し、発言者の動画を区別して分かりやすくする、例えば、発言者の動画表示範囲を拡大して区別するという種々の技術が、開示されている(特許文献1等参照)。
また、発言者の動画でなく、音声によって区別する技術については、以下のものがある。
第1の例として、視線を検出し、視線方向にある発音源を特定し、その特定した発音源からの音声信号を増幅する技術について開示されている(特許文献2等参照)。
図11(a)は、視線による複数の音声の区別を行う場合の表示画面を示す図である。また、(b)は、その音声の区別を行う従来例の音声識別部の概略ブロック図を示す。
音声処理装置500は、音声A及び音声B用の音声処理回路501a、501bと、音声A及びBを加算する加算回路502a、502bと、加算された合成音声信号を増幅する増幅回路503a、503bと、視線方向にある画像の音声の重み係数を決定する重み係数決定回路504とから構成される。
以下に、本音声識別部510の動作について説明する。
表示画面510に、動画A及び動画Bが表示している場合、例えば、注目すべき動画Aにユーザの視線を合わせると、視線方向にある画像位置を動画Aと認識し、重み係数決定回路504は、動画Aの音声信号を動画Bの音声信号よりも重み係数を大きくする。ここで、音声信号A、Bは、それぞれ、左(L)右(R)別々のステレオ信号に分けられているものとする。そして、動画Aの音声信号と動画Bの音声信号の合成信号は、加算回路502a、b及び増幅回路503a、bを介して出力される。このようにして、視線方向にある動画の音声信号の重み付けを大きくすることによって、視線外にある動画の音声とを区別することが可能となる。
第2の例として、特許文献3には、複数と同時にTV会議しているときは参加人の合成音声信号を左右のスピーカに出力し、特定の相手に対してプライベートモードを設定した場合は、プライベートモードの音声とその他の音声を左右のスピーカに分けて出力して区別する技術について記載されている。
図12(a)は、別々のスピーカによって複数の音声の区別を行う場合の表示画面を示す図である。また、(b)は、その音声の区別を行う場合の音声識別部の概略ブロック図を示す。
音声識別部600は、入力の音声信号を選択又は合成するセレクタ/MIX回路601と、入力の音声信号の選択するセレクタ602と、音声信号の切り替えを行う音声切り替えスイッチ603と、音声信号を増幅する増幅回路604a,bとから構成される。
以下に、本音声識別部600の動作について説明する。
表示画面610に動画A,Bが表示されている場合に、両画像とも通常モード状態であれば、音声切り替えスイッチ603は、A側に接続して、セレクタ/MIX回路601の音声信号を受ける。また、セレクタ/MIX回路601は、音声信号を合成するMIXモードとなっている。この場合、音声A及びBは、セレクタ/MIX回路601によって合成され、増幅回路604a,bに音声A、Bは区別されることなく出力される。
次に、動画Bがプライベートモードに設定されると、プライベートモード信号が発生し、この信号により、セレクタ/MIX回路601は、セレクタモードとなり音声信号Aが選択される。一方、セレクタ602は、音声Bを選択するモードとなり、音声切り替えスイッチ603は、B側に切り替えられる。これによって、音声Aは、増幅回路604aのみを介して出力される。また、音声Bは、増幅回路604bのみ介して出力される。このように、音声A,Bは、別々のスピーカに出力されて、区別される。
さらに、第3の例として、特許文献4には、表示画面上における動画のウィンドウの位置によって音量のバランス調整及び音量を操作する技術について開示されている。
図13(a)は、ウィンドウの位置に従って音声の区別を行う場合の表示画面を示す図である。また、(b)は、その音声の区別を行う従来例の音声識別部の概略ブロック図を示す。
図13(b)に示す音声識別部700は、音声Aを増幅する増幅回路701a,bと、ウィンドウAの表示画面710の位置によって、左側と右側の音量のバランスを設定するバランス設定回路702と、表示画面710の上下位置によって音量を設定する音量設定回路703から構成される。ウィンドウの表示画面上の位置情報に基づいて、出力音声の左右のバランス、音量を制御することにより、他の複数のウィンドウから発生する音声と区別することができる。
特開平01−303990号公報 特開平09−275533号公報 特開平08−251566号公報 特開平06−131149号公報
上記テレビ電話システムの他に、通常のテレビ画像(コンテンツの画像)を観ながら、同時に、上記のようなテレビ電話を行うシステムも開発されている。
このようなシステムでは、テレビ電話を行っている最中に、上記コンテンツの再生が開始されて、テレビ電話を行いながら、視聴する場合、また、コンテンツの再生中に、テレビ電話の呼び出しがあり、視聴しながらテレビ電話を行う場合もある。
特に、上記のようなシステムにおいて、第1の従来の技術例では、コンテンツの再生が始まると、例えば、ユーザの視点が、相手の動画からコンテンツの画像へ移行することとなるが、相手の動画位置とほぼ同じ位置、大きさにコンテンツ画像が表示される場合に視線方向が同方向となるため、リアルタイムで音声の区別をすることは困難となる問題点がある。また、あるコンテンツの画像を観ている最中に、別のコンテンツが再生され、以前から再生されているコンテンツの画像を見ているときには、視線方向が同方向となるため、リアルタイムで音声合成の重み付けを変えて、双方の音声を区別することは、難しい。さらに、あるコンテンツの画像を見ている最中に、音声のみのコンテンツを再生する場合は、視線方向が変わらないため、双方の音声を区別することは難しい。
次に、第2の従来の技術例では、明示的にプライベートモードを要請した端末からの音声信号を別のスピーカに音声出力を行うことが可能であるが、相手の動画表示中に別のコンテンツの画像を再生する場合に、コンテンツの再生のタイミングで自動的にスピーカを変えることができない問題点がある。
なお、3つ以上のスピーカや、合成して同じスピーカ上で区別することは考慮に入れていない。
さらに、第3の従来の技術例では、1つは、ウィンドウの左右のバランス調整を行い、音声の区別するものであるが、上記システムでは、コンテンツの画像と相手動画の位置関係が大きく変えるようなことはないため、双方の音声を区別するのに困難であるという問題点がある。
また、この技術は、新しい動画が開始したときに、他の複数の音声と合成したり、ウィンドウの大きさに従って音量を変えたりすることによって区別するということは考慮されていない。さらに、音場を変えるということも考慮されていない。
本発明は、斯かる実情に鑑みてなされたものであって、複数の音声(例えば、TV電話の音声とコンテンツの音声)を効率よくそれぞれの音声を区別して出力する音声処理装置を提供するものである。
上記課題を解決するために、本発明に係る音声処理装置は、以下の特徴を備えている。
本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、音声出力変更に関連するイベント情報を検知するイベント検知手段と、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報から音声出力変更情報を生成する音声出力変更情報作成手段と、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする。
また、本発明に係る音声処理装置において、前記音声出力変更情報作成手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成するようにしたことを特徴とする。
また、本発明に係る音声処理装置において、前記音量レベル設定手段は、一定期間経過後、変更した前記コンテンツの音量レベルを元に戻すようにしたことを特徴とする。
また、本発明に係る音声処理装置において、前記音声出力変更情報作成手段は、ある特定コンテンツ以外のコンテンツの音量レベルをすべてミュート値として音声出力変更情報を生成するようにしたことを特徴とする。
また、本発明に係る音声処理装置において、前記音声出力変更情報作成手段は、前記イベント情報がコンテンツ画像の大きさの情報である場合に、前記画像の大きさの変動に従って、前記コンテンツに含まれる音声の音量レベルを変更した音声出力変更情報を生成するようにしたことを特徴とする。
また、本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、コンテンツ画像大きさ変更に関連するイベント情報を検知するイベント検知手段と、前記イベント情報の画像の大きさの変動に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする。
また、本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、音声出力変更に関連するイベント情報を検知するイベント検知手段と、コンテンツの音場定位を行う音場設定手段を備え、前記音場設定手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報に記載のコンテンツの表示位置とユーザとの位置関係を考慮した音場定位処理を行い、表示している位置から音声が聞こえるように音場を変更することを特徴とする。
また、本発明に係る音声処理装置は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、前記音場設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、コンテンツの音場定位を行うことを特徴とする。
また、本発明に係る音声処理装置において、前記音場設定手段は、前記コンテンツの表示位置が変化した場合に、該表示位置に応じて音場を変えることを特徴とする。
また、本発明に係る音声処理装置は、前記イベント情報が、コンテンツ画像の大きさの情報である場合に、前記画像の大きさが大きくなると、前記音場設定手段は、前記コンテンツの音場の定位をユーザに近くするように変更して他のコンテンツの音声と合成するようにしたことを特徴とする。
また、本発明に係る音声処理装置は、複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、音声出力変更に関連するイベント情報を検知するイベント検知手段と、所定の音声出力先の音声出力装置に変更する音声出力先設定手段を備え、前記音声出力先設定手段は、前記イベント情報により新たに生成したコンテンツ音声のクオリティの高低に応じて、前記クオリティの異なる音声出力手段に割り当てることを特徴とする。
また、本発明に係る音声処理装置は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、前記音声出力先設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、所定の音声出力先の音声出力装置に変更することを特徴とする。
以上説明したように、本発明に係る音声処理装置によれば、複数のコンテンツの音声(TV電話のコンテンツの音声と映画等のコンテンツの音声)をイベントが発生したときに、自動的に、画面の位置、大きさに応じて、所定のコンテンツの音声を大きくしたり、小さくしたりすることによって、合成された音声を区別することができる。
また、コンテンツのクオリティのレベルによって、別の音声処理装置の割り振り、区別をより明確にすることが可能である。
また、本発明によれば、音場定位処理を行うことにより、所望するコンテンツの音声をユーザの耳元に聞こえるようにすることにより、区別する効果を得ることができる。
以下、本発明に係る音声処理装置の実施形態について、添付図面を参照して詳細に説明する。
図中、同一の符号を付した部分は同一物を表わし、図1から図10及び図14から図21において図11から図13に示す従来のものと重複する部分には同一の符号を附す。
図1は、本発明に係る音声処理装置100の第1の実施形態を示すブロック構成図である。同図に示すように、音声処理装置100は、リモコンからイベント情報を受け取るリモコン受信部300と、外部通信手段(例えば、ネットワーク回線)から通信部301と、該リモコン受信部300又は通信部301からのイベント情報を検知し、音声出力変更に関するイベント情報を認識するイベント検知手段302と、イベント検知手段302から受け取ったイベント情報のイベントIDと、後述するコンテンツ再生状態記憶装置304から取得したコンテンツ再生状態情報の内容(後述する)によって、音声出力の変更方法を判断し、音声出力情報を作成する音声出力変更情報作成部303と、該音声出力変更情報作成手段303から受け取った音声出力変更情報の内容に従って、音声出力の変更を行う音声出力管理手段308と、該音声出力管理手段308に指定されたコンテンツIDの音声を指定された音量レベル値の音量レベルを変更する音量レベル設定手段309と、該音声出力管理手段308に指定されたコンテンツIDの音声を指定された定位位置に音場を変更する音場設定手段310と、該音声出力管理手段308に指定されたコンテンツIDの音声を指定された音声出力先IDの音声処理装置に変更する音声出力先設定手段311と、を備えている。
さらに、音声出力情報を作成する音声出力変更情報作成部303と接続されている、コンテンツ再生状態情報を記憶するコンテンツ再生状態記憶装置304と、予め設定されている設定音量レベル記憶情報を記憶する設定音量レベル記憶装置305と、予め設定されているコンテンツ優先度情報(後述する)を記憶するコンテンツ優先度記憶装置306と、予め設定されている音声出力先能力情報を記憶する音声出力先能力記憶装置307と、音量レベル設定手段309、音場設定手段310及び音声出力先設定手段311とにより制御される音声データを出力する音声出力装置312a,b,cと、を備えている。
以下に、図2,3,4,5及び処理フロー図6,7,8,9,10に基づいて、図1に示した本発明に係る音声処理装置の詳細な動作について説明する。以下では、動画像と音声を含んだコンテンツの例で説明を行うが、音声を含んでいれば、静止画や音声のみのコンテンツであっても構わない。
ここでは、TV電話(相手画像及び自分画像表示)中にD1サイズのステレオ出力のFlashコンテンツを480×320のサイズで再生が開始される場合の例で説明する。なお、TV電話中にコンテンツの画像が再生された場合の表示画面の代表的な表示例として図2(a)(b)に示す。
図2(a)は、TV電話中の相手画像表示と相手音声を出力していることを示す図である。図に示すように、相手画像と自分画像を表示しており、相手画像は、表示画面のほぼ中心位置に、自分画像は、右下に小さく表示されている。このような状態から、上記Flashコンテンツの画像が再生開始した場合の図が図2(b)である。
また、図6は、本発明に係る音声処理装置100の全体の処理フローを示すフロー図である。
まず、ユーザがリモコンを操作して、再生するFlashコンテンツを選択して、再生を開始する。リモコン受信装置300は、コンテンツ再生開始の操作信号を受けると、開始するコンテンツにIDを付け、このコンテンツIDとコンテンツの内容(Flash、ステレオ、画像サイズ(D1))、表示位置と大きさの情報を付加したコンテンツ再生開始イベントを発行する。図15はコンテンツ開始イベントの情報を示す図である。なお、コンテンツ再生開始イベントの発行処理は、通信装置301で行ってもよい。
イベント検知手段302は、リモコン受信装置300からのイベント通知を監視し(ステップ11)、通知があれば(ステップS12;YES)、イベント情報を取得する(ステップS13)。通知がなければ(ステップS12;NO)、ステップS11に戻る。
イベントIDから音声出力変更関連イベントか否かを判断し(ステップS14)、音声関連イベントであれば、イベント情報を音声出力変更情報作成手段303に渡す。ここで、音声関連イベントとしては、コンテンツ再生開始イベント、コンテンツ再生終了イベント、位置移動イベント及び大きさ変更イベントの4種類がある。
音声出力変更情報作成手段303は、コンテンツ再生状態記憶装置304からコンテンツ再生状態情報を取得する(ステップS15)。
ここで、コンテンツ再生状態情報として、コンテンツID、コンテンツ種別(TV電話、FLASH等)、画像ソースサイズ、表示位置、大きさ、音声方式、音声出力装置ID、音量レベル値及び定位位置等の情報が含まれる。
次に、図2及び図7に基づいて、本発明の第1の実施形態を詳細に説明する。
<第1の実施形態の説明>
図7は、第1の実施形態を説明する処理フロー図である。本実施形態の特徴は、図7のステップS23からステップS26に記載する部分である。
音声出力変更情報作成手段303は、イベント検知手段302から受け取ったイベント情報のイベント情報のイベントIDがコンテンツ再生開始イベントであるか否かを判断する(ステップS21)。イベントIDがコンテンツ再生開始イベントである場合(ステップS21;YES)、ステップS15において、コンテンツ再生状態記憶装置304から取得したコンテンツ再生状態が既に存在しているか否かを判断する(ステップS22)。コンテンツ再生状態が既に存在していると判断すると(ステップS22;YES)、イベント情報のコンテンツ種別をキーにして、設定音量レベル記憶装置305から、設定音量レベル情報を入手する(ステップS23)。ここで、現在TV電話中のコンテンツが存在している場合には、コンテンツ再生状態情報は、図14に示すものとなっており、すでに作成されている。
音声出力変更情報作成手段303は、イベント情報のコンテンツ種別をキーにして、設定音量レベル記憶装置305から設定音量レベル情報を取得する(ステップS23)。図16は、設定音量レベル情報を示す図である。図16において、新規コンテンツ種別「FLASH」をキーとすると、既存コンテンツ(コンテンツID1)の音量レベルは、「−2」、新規コンテンツ音量レベルは「現在音量レベル値」であることを示している。
この設定音量レベル情報を使用して、音量レベル変更情報を作成する(ステップS24)。図17は、上記音量レベル変更情報を示す図である。
上記作成された音量変更情報は、音量出力管理手段308に送られる。
次に、音量出力管理手段308は、音量レベル変更情報の変更種別をチェックし、使用する音声出力の変更手段が音声レベル設定手段309であるか否かを判断する(ステップS25)。図17に示すように、音声出力管理手段308は、変更種別が「音量レベル変更」であるので、音量レベル設定手段309を選択し(ステップS25;YES)、音量レベル変更情報を渡す。音量レベル設定手段309は、音量レベル変更情報に従ってコンテンツの音声の音量レベルを設定する。図18に示すように、現在音量レベルが「5」であるから、コンテンツID1の音量レベルを「−2」である「3」に、コンテンツID2の音量レベルを現在音量レベル値である「5」に設定する(ステップS26)。
図2(a)に示すように、TV電話中は、相手のコンテンツ画像が大きく表示されており、相手の音声も音量レベル「5」で出力されている。このとき、コンテンツ画像の再生指令がイベント情報として発生すると、コンテンツの音声レベルを「5」、TV電話の相手の音声レベルを「3」に変更することが可能となり、音声の区別は明確となる。このとき、TV電話の相手の音声レベルをミュート値「0」に変更することで、さらに音声の区別を明確にしてもよい。
ユーザがどちらに重要性を重んじるかに従って、適宜、コンテンツの音声のレベルより相手の音声のレベルを大きくして、相手の音声を聞きやすくしてもよい。
また、上記実施形態では、TV電話を行っている最中にイベントが発生し、コンテンツの音声を再生する場合について説明したが、コンテンツ(TV)の視聴中にTV電話がかかってきた場合にコンテンツ(TV)音声の音量レベルを小さくすることで、相手音声を聞きやすくしても良い。
さらに、一定期間経って、ユーザの識別力がなれて識別が可能な場合は、音量をもとに戻して無駄な音量を減らすようにして、さらに識別力を高めるようにしても良い。また、例では現在のコンテンツ再生状態を見て、それぞれのコンテンツの音声レベルを変更しているが、イベント情報だけを見て現在再生中のコンテンツ再生状態に関係なく、新たに再生するコンテンツの音声レベルを大きくしてコンテンツの音声を区別しても構わない。
次に、図6に示すフロー図に戻り、音声出力変更情報作成手段303は、変更した音声出力内容に従って、コンテンツ再生状態情報を更新する(ステップS18)。コンテンツID1の音量レベルを「3」に、また、新規コンテンツであるコンテンツID2の項目を追加する。図19に最終のコンテンツ再生状態情報を示す。ステップS18が終了すると、ステップS11に戻る。
次に、TV電話中にFlashコンテンツ再生が行われている状態からFlashコンテンツの再生を終了する場合の動作について説明する。
リモコン受信装置300は、コンテンツ再生終了の操作信号を受けると、終了するコンテンツIDを付加したコンテンツ再生終了イベントを発行する(図20に示す)。上記説明したように、イベント検知手段302は、リモコン装置から発生したイベント情報を取得し(ステップS13)、イベントIDから音声出力変更関連イベントかを判断し(ステップS14)、コンテンツ再生終了イベントは、音声出力変更関連イベントであるので、次の順に処理が進む。すなわち、ステップS15→ステップS21→ステップS27→ステップS28→ステップS23→ステップS24→ステップS25→ステップS26→ステップS18の順である。
ここで、ステップS28は、ステップS22と同じ処理であり、コンテンツ再生状態装置から取得したコンテンツ再生状態情報にイベント情報で指定されたコンテンツIDの情報が既に存在しているか否かを判断する。
また、ステップS24において作成される音声レベル変更情報は、図16に示す設定音量情報において、新規コンテンツ種別「終了」をキーにすると、既存コンテンツ(コンテンツID1)の音量レベルが「現在音量レベル値」、新規コンテンツ(コンテンツID2)の音量レベルが「−」であるので、図21に示すようなものとなる。従って、音量レベル設定手段309は、上記音量レベル変更情報によりコンテンツの音声の音量レベルを設定する(ステップS26)。図18に示すように、現在音量レベルが5であるので、コンテンツID1の音量レベルを「現在音量レベル値」である「5」に設定する。
図16に示す最後のステップS18に戻り、音声出力変更作成手段303によって、変更した音声出力内容に従ってコンテンツ再生状態情報を更新する(ここでは、コンテンツID1の音量レベルを「5」に変更する)。なお、コンテンツ再生状態情報として、コンテンツと関連している字幕などの文字情報の大きさを付加し、コンテンツの音声の音量レベルに合わせて、文字の大きさを変更するようにしてもよい。
次に、図3及び図8に基づいて、本発明の第2の実施形態を詳細に説明する。
<第2の実施形態の説明>
図3に示すように、コンテンツ画像及び相手の画像が既に表示済みの状態において、相手の画像が表示されている位置からその音声が聞こえるように音場を変える動作について以下に説明する。
コンテンツ画像350の音声の音場352は、ユーザ360では、無指向性の音場となる一方、相手画像351の音声の音場353は、表示されている位置から聞こえるようにするために、音場設定手段310により音場定位処理(例えば、音量、周波数等を加工処理して、本装置とユーザとの位置関係で定められる音場の伝達関数を算出して音場定位を行う)を行い、いわゆるカクテルパーティ効果を引き出す。
ここで、相手音声をユーザの耳元に定位することでより区別を明確にするようにしても良い。さらに、定位を常時動かして区別しても良いし、相手画像の位置を変えることによって、音場も変えて区別しても良い。
図8は、第2の実施形態を説明する処理フロー図である。本実施形態の特徴は、図8のステップS33からステップ326に記載する部分である。その他の処理ステップについては、図7と同じであるため説明を省略する。
なお、説明にあたっては、ステップS21→ステップS22を通過した後のステップS33から説明を始めるものとする。また、図8では、イベント検知手段302がコンテンツ再生開始イベント又はコンテンツ再生終了イベントを受け取った場合についてのフロー図を含めて示しているが、イベント通知が図23に示すような位置移動イベントである場合には、ステップS15を実行してから直接、ステップS33に移行するものとする(これについては、フロー図に図示していない)。下記に記載の第3の実施形態の場合も同様である。
音声出力変更情報作成手段303は、コンテンツ再生状態情報からコンテンツID1の相手画像が図3に示すような位置に表示されていることを判断する(ステップS33)。相手画像が表示されていると判断されると(ステップS33;YES)、音声出力変更情報作成手段303は、図22に示すような相手画像の表示位置を定位とする音場定位変更情報を作成し、これを音声出力変更情報とする(ステップS34)。次に、音声出力変更情報を受けた音声出力管理手段308は、音場定位変更情報であると判断すると(ステップS35;YES)、音場設定手段310を選択する。音場設定手段310は、上記音場定位変更情報に従って、例えば、音量レベル、周波数等から音場の伝達関数を算出し、音場調整を行う(ステップS36)。
なお、コンテンツ再生状態情報に、音場定位の位置として奥行きをあらわすZ−indexなどの情報を含めて付加し、画像の大きさや、カメラのズーム、パンなどのカメラの動作に応じて、音量レベルを上げ下げしたり、音場定位の位置を前後左右上下に移動させてもよい。また、コンテンツ再生状態情報として、輝度や透明度などの画像特性情報を付加し、コンテンツの画像特性に応じて、音量レベルを上げ下げしたり、音場定位の位置を前後左右上下に移動させてもよい。さらに、例では現在のコンテンツ再生状態を見て、それぞれのコンテンツの音場定位を変更しているが、イベント情報だけを見て現在再生中のコンテンツ再生状態に関係なく、コンテンツの音場定位を変更してコンテンツの音声を区別しても構わない。
次に、図4及び図9に基づいて、本発明の第3の実施形態を詳細に説明する。
<第3の実施形態の説明>
図4は、コンテンツ画像が開始されて、表示画面のほぼ中心位置に表示されていた相手画像がコンテンツ画像に切り替わった状態を示す図である。ここで、コンテンツ画像の音声は、TV電話の相手の画像の音声より、はるかに高いクオリティが要求される場合が多い。このように、クオリティの高い音声に対しては、クオリティの高いスピーカに割り当てることによって、両者の音声を区別する。例えば、図4に示すように、再生が開始されたコンテンツ画像の音声は高いクオリティが要求されるために、内蔵のスピーカが割り当て、高いクオリティを必要としない相手画像の音声は、外部スピーカに割り当てることにより、両者を区別することが可能となる。
なお、外部スピーカの位置は、本装置上ではなく、離れた位置に配置されていても良い。
図9は、第3の実施形態を説明する処理フロー図である。本実施形態の特徴は、図9のステップS43からステップS46に記載する部分である。その他の処理ステップについては、図7と同じであるため説明が省略する。
音声出力変更情報作成手段303は、コンテンツ優先度記憶装置306から図25に示すようなコンテンツ優先度情報及び音声出力先能力記憶装置307から図26に示すような音声出力先能力情報を取得する(ステップS43)。そして、音声出力変更情報作成手段303は、コンテンツの出力方式に合い、かつ、優先度の高い順位コンテンツを割り当てるための図27に示すような音声出力先変更情報を作成し、これを音声出力変更情報とする(ステップS44)。次に、音声出力変更情報を受けた音声出力管理手段308は、音声出力変更情報であると判断すると(ステップS45;YES)、音声出力先設定手段311を選択する。音声出力先設定手段311は、上記音声出力先変更情報に従って、音声出力装置を切り替える(ステップS46)。
次に、図5及び図10に基づいて、本発明の第4の実施形態を詳細に説明する。
<第4の実施形態の説明>
図5に示すように、相手画像がコンテンツ画像よりも大きい場合、相手音声を大きくし、コンテンツ音声を小さくする。逆に、コンテンツ画像が相手画像よりも大きい場合には、コンテンツ音声を大きく、相手音声を小さくする。
このように、コンテンツの画像の大きさに従って、音量を変化させて、合成する。ユーザが重要と認識するコンテンツの大きさを拡大することで、拡大した画像の音量をより近く聞こえるようにし、両者の区別を図る。
図10は、第4の実施形態を説明する処理フロー図である。図10の処理フローを使用して、以下に動作説明をする。
音声出力変更情報作成手段303は、イベント検知手段302から受け取ったイベント情報のイベント情報のイベントIDがコンテンツ大きさ変更イベントである場合(ステップS51;YES)、コンテンツ再生状態記憶装置304から取得したコンテンツ再生状態から既に複数のコンテンツが再生中であるか否かを判断する(ステップS52)。既に再生中であると判断すると(ステップS52;YES)、音声出力変更情報作成手段303は、コンテンツ再生状態情報から各コンテンツの以前の画像の大きさを取得する(ステップS53)。そして、音声出力変更情報作成手段303は、以前の大きさと変更後の大きさの比率によって音量レベル変更情報を作成し、これを音声出力変更情報とする(ステップS54)。例えば、イベント情報が図24で示すようなコンテンツIDが「1」であるコンテンツの音声に対する「384×256」のサイズの大きさ変更イベントで、コンテンツ再生状態が図14で示すような「480×320」のサイズのTV電話相手コンテンツ種別であるコンテンツIDが「1」である音声が音量レベル「5」である場合、縦と横の大きさの比率が変更前と変更後で5:4であるため、音量レベルが「4」である音量レベル変更情報が生成される。次に、音声出力変更情報を受けた音声出力管理手段308は、音量レベル変更情報であると判断すると(ステップS55;YES)、音量レベル設定手段309を選択する。音量レベル設定手段309は、上記音量レベル変更情報に従って、各コンテンツの音量の調整を行う(ステップS56)。
なお、上記の例では変更前の大きさと変更後の大きさの比率として縦横比を用いたが、面積比を用いてもよい。また、最低音量と最高音量を規定し、その範囲内で音量レベルを設定することで、音量を小さ過ぎたり大き過ぎたりしないようにしてもよい。また、上記の例では画像の大きさが変更になったコンテンツの音声のみ音量レベルを変更したが、他のコンテンツの音声も大きさの変動に合わせて音量レベルを変更するようにすると効果的である。さらに、上記の例では複数のコンテンツが再生中かどうかをコンテンツ再生状態情報で確認しているが、確認を行わず画像の大きさのみで音量レベルを変更してももちろん構わない。
尚、本発明に係る音声処理装置は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
本発明に係る音声処理装置100の第1の実施形態を示すブロック構成図である。 (a)は、TV電話中の相手画像表示と相手音声を出力していることを示す図である。(b)は、上記Flashコンテンツの画像が再生開始した場合の図である。 相手の画像が表示されている位置からその音声が聞こえるように音場を変える場合を示す図である。 コンテンツ画像が開始されて、表示画面のほぼ中心位置に表示されていた相手画像がコンテンツ画像に切り替わった状態を示す図である。 コンテンツの画像の大きさに従って、音量を変化させて、合成する図である。 本発明に係る音声処理装置100の全体の処理フローを示すフロー図である。 第1の実施形態を説明する処理フロー図である。 第2の実施形態を説明する処理フロー図である。 第3の実施形態を説明する処理フロー図である。 第4の実施形態を説明する処理フロー図である。 (a)は、視線による複数の音声の区別を行う場合の表示画面を示す図である。(b)は、その音声の区別を行う従来例の音声識別部の概略ブロック図である。 (a)は、別々のスピーカによって複数の音声の区別を行う場合の表示画面を示す図である。また、(b)は、その音声の区別を行う場合の音声識別部の概略ブロック図である。 (a)は、ウィンドウの位置に従って音声の区別を行う場合の表示画面を示す図である。また、(b)は、その音声の区別を行う従来の音声識別部の概略ブロック図である。 コンテンツの画像が開始される以前に既に作成されたコンテンツ再生状態情報を示す図である。 コンテンツ開始イベントの情報を示す図である。 設定音量レベル情報を示す図である。 音量レベル変更情報を示す図である。 現在音量レベルが「5」であることを示す図である。 更新された最終のコンテンツ再生状態情報を示す図である。 コンテンツ終了イベントの情報を示す図である。 コンテンツ終了イベントである場合の音量レベル変更情報を示す図である。 位置移動イベントである場合の音場定位変更情報を示す図である。 位置移動イベントの情報を示す図である。 大きさ変更イベントの情報を示す図である。 コンテンツ優先度情報を示す図である。 音声出力先能力情報を示す図である。 音声出力先変更情報を示す図である。
符号の説明
100 音声処理装置
300 リモコン受信装置
301 通信装置
302 イベント検知手段
303 音声出力変更情報作成手段
304 コンテンツ再生状態記憶装置
305 設定音量レベル記憶装置
306 コンテンツ優先度記憶装置
307 音声出力先能力記憶装置
308 音声出力管理手段
309 音量レベル設定手段
310 音場設定手段
311 音声出力先設定手段
312a、312b、312c 音声出力装置
350 コンテンツ画像
351 相手画像
352 コンテンツ音声の音場
353 相手音声の音場
360 ユーザ
500 従来の音声識別部
501a、b 音声処理回路
502a、b 加算回路
503a、b 増幅回路
510 表示画面
511 視線
600 従来の音声識別部
601 セレクタ/MIX
602 セレクタ
603 音声切り替えスイッチ
604a、b 増幅回路
610 表示画面
700 従来の音声識別部
701a、b 増幅回路
702 バランス設定回路
703 音量設定回路
710 表示画面

Claims (12)

  1. 複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
    音声出力変更に関連するイベント情報を検知するイベント検知手段と、
    前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報から音声出力変更情報を生成する音声出力変更情報作成手段と、
    前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする音声処理装置。
  2. 前記音声出力変更情報作成手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成するようにしたことを特徴とする請求項1に記載の音声処理装置。
  3. 前記音量レベル設定手段は、一定期間経過後、変更した前記コンテンツの音量レベルを元に戻すようにしたことを特徴とする請求項1又は請求項2に記載の音声処理装置。
  4. 前記音声出力変更情報作成手段は、ある特定コンテンツ以外のコンテンツの音量レベルをすべてミュート値として音声出力変更情報を生成するようにしたことを特徴とする請求項1〜3のいずれか1項に記載の音声処理装置。
  5. 前記音声出力変更情報作成手段は、前記イベント情報がコンテンツ画像の大きさの情報である場合に、前記画像の大きさの変動と前記他のコンテンツ再生状態情報に従って、前記コンテンツに含まれる音声と他のコンテンツに含まれる音声の音量レベルを変更した音声出力変更情報を生成するようにしたことを特徴とする請求項2〜4のいずれか1項に記載の音声処理装置。
  6. 複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
    コンテンツ画像大きさ変更に関連するイベント情報を検知するイベント検知手段と、
    前記イベント情報の画像の大きさの変動に従って、前記複数のコンテンツに含まれるそれぞれの音声の音量レベルを調整する音量レベル設定手段と、を備えたことを特徴とする音声処理装置。
  7. 複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
    音声出力変更に関連するイベント情報を検知するイベント検知手段と、
    コンテンツの音場定位を行う音場設定手段を備え、
    前記音場設定手段は、前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報に記載のコンテンツの表示位置とユーザとの位置関係を考慮した音場定位処理を行い、表示している位置から音声が聞こえるように音場を変更することを特徴とする音声処理装置。
  8. 前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、
    前記音場設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、コンテンツの音場定位を行うことを特徴とする請求項7に記載の音声処理装置。
  9. 前記音場設定手段は、前記コンテンツの表示位置が変化した場合に、該表示位置に応じて音場を変えることを特徴とする請求項7又は請求項8に記載の音声処理装置。
  10. 前記イベント情報が、コンテンツ画像の大きさの情報である場合に、前記画像の大きさが大きくなると、前記音場設定手段は、前記コンテンツの音場の定位をユーザに近くするように変更して他のコンテンツの音声と合成するようにしたことを特徴とする請求項7〜9のいずれか1項に記載の音声処理装置。
  11. 複数のコンテンツに含まれるそれぞれの音声を出力する音声処理装置であって、
    音声出力変更に関連するイベント情報を検知するイベント検知手段と、
    所定の音声出力先の音声出力装置に変更する音声出力先設定手段を備え、
    前記音声出力先設定手段は、前記イベント情報により新たに生成したコンテンツ音声のクオリティの高低に応じて、前記クオリティの異なる音声出力手段に割り当てることを特徴とする音声処理装置。
  12. 前記イベント検知手段により検知された前記音声出力変更に関連するイベント情報及び前記複数のコンテンツの各属性データをまとめたコンテンツ再生状態情報から音声出力変更情報を生成する音声出力変更情報作成手段を備え、
    前記音声出力先設定手段は、前記音声出力変更情報作成手段により生成された音声出力変更情報に従って、所定の音声出力先の音声出力装置に変更することを特徴とする請求項11に記載の音声処理装置。
JP2004380535A 2004-12-28 2004-12-28 音声処理装置 Expired - Fee Related JP4463098B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004380535A JP4463098B2 (ja) 2004-12-28 2004-12-28 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004380535A JP4463098B2 (ja) 2004-12-28 2004-12-28 音声処理装置

Publications (2)

Publication Number Publication Date
JP2006186867A true JP2006186867A (ja) 2006-07-13
JP4463098B2 JP4463098B2 (ja) 2010-05-12

Family

ID=36739606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004380535A Expired - Fee Related JP4463098B2 (ja) 2004-12-28 2004-12-28 音声処理装置

Country Status (1)

Country Link
JP (1) JP4463098B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008186448A (ja) * 2007-01-04 2008-08-14 Beijing Lenovo Software Ltd 再生システム及び方法
JP2011199903A (ja) * 2011-06-09 2011-10-06 Toshiba Corp 情報処理装置および情報処理装置における音声出力制御方法
WO2012043451A1 (ja) * 2010-09-28 2012-04-05 ブラザー工業株式会社 通信装置、通信方法、および通信プログラム
JP2013176140A (ja) * 2013-04-25 2013-09-05 Sharp Corp テレビ装置、およびスピーカシステム
JP2014188303A (ja) * 2013-03-28 2014-10-06 Nintendo Co Ltd ゲームシステム、ゲームプログラム、ゲーム処理方法、およびゲーム装置
US8953100B2 (en) 2010-01-29 2015-02-10 Kabushiki Kaisha Toshiba Information processing apparatus and audio output control method of an information processing apparatus
WO2015141581A1 (ja) * 2014-03-18 2015-09-24 株式会社ドワンゴ 動画配信装置、動画配信方法、及びプログラム
WO2015141593A1 (ja) * 2014-03-18 2015-09-24 株式会社ドワンゴ 端末装置、動画表示方法、及びプログラム
WO2019130428A1 (ja) * 2017-12-26 2019-07-04 三菱電機株式会社 搭乗者間対話装置及び搭乗者間対話方法
CN109981448A (zh) * 2019-03-28 2019-07-05 联想(北京)有限公司 信息处理方法和电子设备

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008186448A (ja) * 2007-01-04 2008-08-14 Beijing Lenovo Software Ltd 再生システム及び方法
US8953100B2 (en) 2010-01-29 2015-02-10 Kabushiki Kaisha Toshiba Information processing apparatus and audio output control method of an information processing apparatus
WO2012043451A1 (ja) * 2010-09-28 2012-04-05 ブラザー工業株式会社 通信装置、通信方法、および通信プログラム
JP2012074872A (ja) * 2010-09-28 2012-04-12 Brother Ind Ltd 通信装置、通信方法、および通信プログラム
US8965760B2 (en) 2010-09-28 2015-02-24 Brother Kogyo Kabushiki Kaisha Communication device, method, non-transitory computer readable medium, and system of a remote conference
JP2011199903A (ja) * 2011-06-09 2011-10-06 Toshiba Corp 情報処理装置および情報処理装置における音声出力制御方法
JP2014188303A (ja) * 2013-03-28 2014-10-06 Nintendo Co Ltd ゲームシステム、ゲームプログラム、ゲーム処理方法、およびゲーム装置
JP2013176140A (ja) * 2013-04-25 2013-09-05 Sharp Corp テレビ装置、およびスピーカシステム
WO2015141581A1 (ja) * 2014-03-18 2015-09-24 株式会社ドワンゴ 動画配信装置、動画配信方法、及びプログラム
WO2015141593A1 (ja) * 2014-03-18 2015-09-24 株式会社ドワンゴ 端末装置、動画表示方法、及びプログラム
JP2015179906A (ja) * 2014-03-18 2015-10-08 株式会社ドワンゴ 端末装置、動画表示方法、及びプログラム
JP2015179907A (ja) * 2014-03-18 2015-10-08 株式会社ドワンゴ 動画配信装置、動画配信方法、及びプログラム
US10219025B2 (en) 2014-03-18 2019-02-26 Dwango Co., Ltd. Video distribution device, video distribution method, and program
WO2019130428A1 (ja) * 2017-12-26 2019-07-04 三菱電機株式会社 搭乗者間対話装置及び搭乗者間対話方法
CN111492651A (zh) * 2017-12-26 2020-08-04 三菱电机株式会社 乘客间对话装置和乘客间对话方法
US11328720B2 (en) 2017-12-26 2022-05-10 Mitsubishi Electric Corporation Inter-occupant conversation device and inter-occupant conversation method
CN109981448A (zh) * 2019-03-28 2019-07-05 联想(北京)有限公司 信息处理方法和电子设备
CN109981448B (zh) * 2019-03-28 2022-03-25 联想(北京)有限公司 信息处理方法和电子设备

Also Published As

Publication number Publication date
JP4463098B2 (ja) 2010-05-12

Similar Documents

Publication Publication Date Title
US5548346A (en) Apparatus for integrally controlling audio and video signals in real time and multi-site communication control method
JP2751923B1 (ja) 多地点テレビ会議システムおよび多地点テレビ会議装置
US20060025998A1 (en) Information-processing apparatus, information-processing methods, recording mediums, and programs
JP5087963B2 (ja) 画像処理装置と画像処理方法および画像処理プログラム、並びに再生情報生成装置と再生情報生成方法および再生情報生成プログラム
US20120155657A1 (en) Communication device and communication methods
JP4463098B2 (ja) 音声処理装置
JP2012191524A (ja) 音響装置および音響システム
JP2012075039A (ja) 制御装置、および制御方法
JP4992591B2 (ja) 通信システム及び通信端末
JP5070934B2 (ja) プレゼンス交換端末、プレゼンス交換方法およびプレゼンス交換プログラム
JP2003023612A (ja) 画像通信端末装置
JP2006211268A (ja) テレビドアホン装置
JP4425172B2 (ja) 通話装置、通話システム、及びプログラム
US20030227569A1 (en) Automatic control apparatus and method for adaptively optimizing television viewing conditions
JP2002159099A (ja) 音場制御装置
JP2007235519A (ja) 映像音声同期方法及び映像音声同期システム
JP6029626B2 (ja) 制御装置、および制御方法
JP5213630B2 (ja) 映像信号再生装置
JP2009027430A (ja) 動画再生装置
KR101143164B1 (ko) 휴대 단말기에서 동영상 촬영 시 오디오 입력 신호 처리 방법 및 장치
JP2008028492A (ja) 液晶テレビ
JP2006340062A (ja) 移動通信端末装置
JP2006237954A (ja) 映像再生装置及び映像再生方法
JP2004336430A (ja) 再生装置
JP2003163906A (ja) テレビ会議システム及びテレビ会議方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100216

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees