JP2010041483A

JP2010041483A - 映像音声出力装置

Info

Publication number: JP2010041483A
Application number: JP2008203136A
Authority: JP
Inventors: Hiroto Kawachi; 洋人河内; Kazusane Sugaya; 和実菅谷; Teiji Suzuki; 禎司鈴木
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2008-08-06
Filing date: 2008-08-06
Publication date: 2010-02-18

Abstract

【課題】話者位置が頻繁に切り替わったとしても違和感が生じない音声定位技術を提供する。
【解決手段】映像を解析して話者の位置を特定する映像解析部１１と、特定した話者の位置に音声を定位させるように話者音声定位パラメータの値を設定する話者音声定位パラメータ設定部１２と、特定した話者位置の履歴情報を保持する映像履歴保持部１３と、履歴情報を解析して、特定した話者の位置が、予め定めた時間間隔以内に、予め定めた変更量以上変更されたと判定した場合には、話者音声定位パラメータ設定部１２で設定された話者音声定位パラメータの値に対して、定位位置の変更を小さくするように話者音声定位パラメータの値を調整する話者音声定位パラメータ調整部１４と、調整された話者音声定位パラメータの値に従って音声の定位変更を行う定位処理部１５と、定位変更された音声を出力する音声出力部１７と、を備える。
【選択図】図１

Description

本発明は、映像及び音声を含むコンテンツデータを出力する映像音声出力装置に関し、特に、映像の話者位置に応じて音声の定位を決定し、音声出力制御を行う映像音声出力装置に関する。

テレビ放送などの番組コンテンツを受信して、ディスプレイに映像を表示するとともにスピーカから音声を出力する場合、モノラル音声においてはスピーカの位置から人の声が聞こえるようになっている。また、ステレオ／サラウンド音声においては、多くの場合、画面中央に人の声を定位させて、画面中央から人の声が聞こえるようになっている。

しかしながら、一般に、ディスプレイ上の話者位置に人の声が定位していると臨場感が増すことが知られているため、従来においては、映像解析により話者位置を特定し、話者位置に音声を定位させる音声定位技術が開示されている。

例えば、特許文献１では、話者の位置を検出し、検出した位置に応じて、複数のスピーカから出力する音声の音量を制御している。また、特許文献２では、発話者の位置を特定し、特定した位置に応じて、エフェクトや音量調整を行い、最適なスピーカから音声データを出力している。

特開平１１−３１３２７２号公報特開２００７−１１０５８２号公報

しかしながら、上述した従来技術においては、シーンの内容を考慮せずに、話者位置に音声を定位させているため、シーンによっては、臨場感を高めるどころか、却ってストレスを感じてしまう場合がある。例えば、２人の人物が登場し、２人の間で話者位置が頻繁に切り替わるようなシーンにおいては、切り替わる話者位置に応じて、音声の定位も頻繁に変更されるので、当該シーンを視聴している視聴者は、却ってストレスを感じてしまうという問題がある。

このように従来技術においては、シーンの内容を考慮せずに、一律に話者位置に音声を定位させているため、話者位置が頻繁に切り替わるようなシーンにおいては、臨場感を高めるどころか、却って違和感が生じるという問題がある。

本発明は上記の事情を鑑みてなされたものであり、その課題の一例としては、話者位置を特定して、特定した話者位置に音声を定位させる音声定位技術において、話者位置が頻繁に切り替わったとしても、違和感を生じない映像音声出力装置を提供することにある。

上記の課題を達成するため、請求項１に係る映像音声出力装置は、音声定位パラメータに基づいて音声定位を制御する映像音声出力装置であって、映像を解析して、話者の位置を特定する話者位置特定手段と、前記話者位置特定手段により特定した話者の位置に音声を定位させるように前記音声定位パラメータの値を設定する音声定位パラメータ設定手段と、前記話者位置特定手段で特定した話者の位置の履歴情報を保持する履歴情報保持手段と、前記履歴情報保持手段に保持された履歴情報を解析して、前記特定した話者の位置が、予め定めた時間間隔以内に、予め定めた変更量以上変更されたと判定した場合には、前記音声定位パラメータ設定手段で設定された音声定位パラメータの値に対して、定位位置の変更を小さくするように前記音声定位パラメータの値を調整する音声定位パラメータ調整手段と、前記音声定位パラメータ調整手段により、調整された音声定位パラメータの値に従って音声の定位変更処理を行い、映像及び音声を出力する定位変更出力手段と、を備えることを特徴とする。

以下、本発明の実施の形態を図面を用いて説明する。

図１は、本発明の実施の形態に係る映像音声出力装置１の概略構成図である。映像音声出力装置１は、映像データにおける話者位置の切り替わり間隔を考慮しつつ、話者位置に合わせた音声定位で音声を出力する装置であり、詳しくは、映像解析部１１、話者音声定位パラメータ設定部１２、映像解析履歴保持部１３、話者音声定位パラメータ調整部１４、定位処理部１５、映像表示部１６、及び音声出力部１７を備えている。

ここで、映像音声出力装置１は、外部から入力された映像及び音声を含むコンテンツデータを再生して外部に出力する機能を有する装置であれば何であってもよく、例えば、具体的には、テレビジョン（ＴＶ）、ＤＶＤプレーヤ及びレコーダ、ＢＤプレーヤ及びレコーダ、パーソナルコンピュータ（ＰＣ）などが想定される。また、「話者」とは、映像データ（画面上）において発話している者をいい、「話者位置」とは、話者の画面上の位置をいうが、より正確には話者の顔（特に口）付近の位置をいう。また、「話者位置に合わせた音声定位で音声を出力する」とは、例えば、話者が画面上左側に存在する場合には、画面左側に設けたスピーカから出力される音声の音量を大きくするなどして、話者の位置から音声が聞こえてくるように音声を出力することをいう。

映像解析部１１は、入力した映像データを映像表示部１６に出力する（音声データと同期させるため、必要に応じて映像データを遅延させて映像表示部１６に出力する）とともに、入力した映像データから話者位置を特定するようになっている。話者位置の特定方法については、公知の技術を用いて行われる。例えば、映像データから人の顔面の領域を検出し、顔面の中の口の動きを検出することで、話者を特定するようにしてもよい。この際、口の動きの検出においては、前後数フレームの映像データを用いて、口領域の輝度などの差分を特徴量として算出し、算出した特徴量の値が最も大きい口領域を持った人を話者と判定とすれば、複数の顔面が検出された場合であっても、話者を特定することができる。

また、映像解析部１１は、特定した話者の位置を話者音声定位パラメータ設定部１２と映像解析履歴保持部１３に出力するようになっている。

話者音声定位パラメータ設定部１２は、映像解析部１１から入力された話者位置に音声データを定位させるためのパラメータ（以下、話者音声定位パラメータという）の値を設定するようになっている。ここで、「話者位置に音声データを定位させるためのパラメータの値」とは、話者位置から音が聞こえるように音声が出力されるためのパラメータの値をいい、例えば、複数備えたスピーカのうち、話者位置の近くに設置されたスピーカの音量を大きくし、他のスピーカの音量を小さくするような音量調整に関するパラメータ値（複数のスピーカのそれぞれに対する音量設定値）を意味する。

また、話者音声定位パラメータ設定部１２は、設定された話者音声定位パラメータ値を話者音声定位パラメータ調整部１４に出力するようになっている。

映像解析履歴保持部１３は、映像解析部１１から入力された話者位置に関する情報を予め定めた時間の間（例えば、直近の数分間など）、時系列的に履歴情報として保持している。この履歴情報を保持することは、映像音声出力装置１の特徴であるので、詳しくは後述する。

また、映像解析履歴保持部１３は、履歴情報を話者音声定位パラメータ調整部１４に出力するようになっている。

話者音声定位パラメータ調整部１４は、話者音声定位パラメータ設定部１２で設定された話者音声定位パラメータの値を入力するとともに、映像解析履歴保持部１３が保持する履歴情報を入力して、設定された話者音声定位パラメータの値を調整するようになっている。詳しくは、履歴情報から現在の話者位置と過去の話者位置を比較し、短時間の間に話者位置が大きく変わる場合には、現在の話者位置に音声を定位させる音声定位変更量を小さくするように話者音声定位パラメータの値を調整（修正）するようになっている。

ここで、話者音声定位パラメータの値を調整するための条件が成立する閾値、すなわち、話者位置が切り替わる時間間隔、及び話者位置の変更量は予め定められているものとする。また、「現在の話者位置に音声を定位させる音声定位変更量を小さくするように話者音声定位パラメータの値を調整する」とは、例えば、二人の人物が登場しているシーンにおいて、直前の話者位置が画面左側にいる人Ａの位置であり、現在の話者位置が画面上右側にいる人Ｂの位置である場合を例に挙げて説明すると、話者位置の切り替わり間隔を全く考慮しないときには、右側のスピーカの音量をＡ１の大きさで出力するように設定した話者音声定位パラメータの値Ｐ１を、右側のスピーカの音量をＡ２（＜Ａ１）の大きさで出力するように設定した話者音声定位パラメータの値Ｐ２に調整することをいう。すなわち、この場合には、話者位置が左側に存在する人Ａから右側に存在する人Ｂに移動したとしても、話者音声定位パラメータの値を話者位置に追随させて極端には変化させず、例えば、画面中央位置等に音声を定位させるなど、緩やかに変化させるように話者音声定位パラメータの値を調整する。この結果、視聴者は、短時間に話者位置が大きく変わったとしても、違和感を覚えることがない。なお、「音声定位変更量を小さくする」には、入力された音声データ（通常は画面中央位置に定位していることが多い音声データ）に対して音声定位変更量を小さくするようにしてもよいし、また、直前に設定した話者音声定位パラメータの値に対して音声定位変更量を小さくするようにしてもよい。

また、話者音声定位パラメータ調整部１４は、調整された話者音声定位パラメータの値を定位処理部１５に出力するようになっている。

定位処理部１５は、音声データを入力するとともに、話者音声定位パラメータ調整部１４から出力された話者音声定位パラメータの値を入力し、入力された話者音声定位パラメータの値に基づいて、音声データの定位変更処理を行うようになっている。また、定位処理部１５は、定位変更処理した音声データを音声出力部１７に出力するようになっている。

映像表示部１６は、映像解析部１１から出力された映像データをディスプレイ等に表示すべく出力するようになっている。

音声出力部１７は、定位変更処理された音声データをスピーカに出力するようになっている。

い。

次に、図２を参照して、映像解析履歴保持部１３が保持する履歴情報について具体的に説明する。図２は、本実施の形態における履歴情報の一例であるが、図２に示す履歴情報は、図３に示すような座標系を用いて表記されている。すなわち、１４４０×１０８０の画像サイズにおいて、画面左上を原点、横方向をＸ軸、縦方向をＹ軸としてピクセル単位に座標系を構成している。ここで、画面上で特定される話者ＳＰの位置は、顔面の位置であり、本実施の形態では、矩形な顔領域Ｆの四隅の座標を話者ＳＰの位置としている。具体的には、顔領域Ｆの左上の頂点Ｓ０（Ｘ０，Ｙ０）、右上の頂点Ｓ１（Ｘ１，Ｙ１）、左下の頂点Ｓ２（Ｘ２，Ｙ２）、及び右下の頂点Ｓ３（Ｘ３，Ｙ３）により、話者ＳＰの位置を特定している。

図２に示すように、履歴情報は、少なくとも、履歴情報を一意に識別可能なシーケンス番号Ｎｏ、発話開始時刻ｓｔ、発話終了時刻ｅｔ、顔領域Ｆの４頂点の位置（座標）、及び話者音声定位位置Ｐ（座標）を備えている。

ここで、履歴情報のシーケンス番号Ｎｏ、発話開始時刻ｓｔ、発話終了時刻ｅｔ、及び顔領域Ｆの位置は、映像解析履歴保持部１３で設定される情報であり、話者音声定位位置Ｐは、話者音声定位パラメータ調整部１４で設定される情報である。すなわち、話者音声定位位置Ｐ（Ｐｘ、Ｐｙ）は上述した話者音声定位パラメータを具体化したものである。なお、以下の具体例では、通常時は、話者音声定位位置Ｐは、特定された話者の顔領域Ｆの中心位置に設定され、短い時間間隔で話者位置が大きく変わるときは、話者音声定位位置Ｐは、画面の中心位置に設定される場合について説明する。

また、以下の具体例では、話者ＳＰの位置が、１秒未満の時間間隔で画面サイズの半分以上の距離の位置変更があった場合（Ｘ座標で７２０以上、またはＹ座標で５４０以上の変更があった場合）には、話者音声定位位置Ｐを画面の中心位置に設定するようにしている。

次に、図４及び図５を用いて、図２に示した履歴情報の内容を説明する。図４及び図５は、図２に示した履歴情報に従って、話者ＳＰの位置が切り替わる様子を示している。

図４（ａ）は、図２のＮｏ１の履歴情報に基づく映像データを示している。すなわち、話者Ａ及び話者Ｂのうち、１０秒から１５秒までの間においては、話者ＳＰは話者Ａであることを示している。同様にして、図４（ｂ）は、図２のＮｏ２の履歴情報に基づく映像データを示しており、２０秒から３０秒の間は、話者ＳＰは話者Ｂであることを示している。また、図４（ｃ）は、図２のＮｏ３の履歴情報に基づく映像データであり、３５秒から４５秒の間は、話者ＳＰは話者Ａであることを示している。また、図４（ｄ）は、図２のＮｏ４の履歴情報に基づく映像データを示しており、５０秒から６０秒の間は、話者ＳＰは話者Ｂであることを示している。すなわち、図４は、時間経過に応じて、話者Ａ→話者Ｂ→話者Ａ→話者Ｂと話者が交互に切り替わる場合を示している。

ここで、図４において話者ＳＰが切り替わる場合には、図４（ａ）から図４（ｂ）、図４（ｂ）から図４（ｃ）、図４（ｃ）から図４（ｄ）のいずれもが、それぞれ５秒間の時間間隔を有している。すなわち、話者ＳＰの発話が終了してから、次の話者ＳＰの発話が開始されるまでに５秒間発話のない時間帯が存在している。このように話者ＳＰの切り替わりに十分な時間間隔がある場合には、話者音声を話者位置に定位させて臨場感を高めるようにしている。

具体的には、図２の履歴情報の話者音声定位位置Ｐが示すように、図４（ａ）では、話者音声定位位置Ｐは話者Ａの顔領域Ｆの中心（２７０，２８０）であり、図４（ｂ）では、話者音声定位位置Ｐは話者Ｂの顔領域Ｆの中心（１０８０，３５５）であり
り、図４（ｃ）では、話者音声定位位置Ｐは話者Ａの顔領域Ｆの中心（２７０，２８０）であり、図４（ｄ）では、話者音声定位位置Ｐは話者Ｂの顔領域Ｆの中心（１０８０，３５５）である。

これに対して、図５（ａ）は、図２のＮｏ５の履歴情報に基づく映像データを示しており、６０秒から６１秒の間は、話者ＳＰは話者Ａであることを示している。また、図５（ｂ）は、図２のＮｏ６の履歴情報に基づく映像データを示しており、６１秒から６２秒の間は、話者ＳＰは話者Ｂであることを示している。また、図５（ｃ）は、図２の番号７の履歴情報に基づく映像データを示しており、６２秒から６３秒の間は、話者ＳＰは話者Ａであることを示している。すなわち、図４（ｄ）及び図５は、時間経過に応じて、話者Ｂ→話者Ａ→話者Ｂ→話者Ａと話者が交互に切り替わる場合を示している。

ここで、図５において話者ＳＰが切り替わる場合には、図４（ｄ）から図５（ａ）、図５（ａ）から図５（ｂ）、及び図５（ｂ）から図５（ｃ）に示すように、時間間隔が存在しない。すなわち、話者の発話が終了してから、次の話者の発話が開始されるまでに発話のない時間帯が存在していない。また、話者Ａと話者Ｂの位置は、Ｘ座標で８１０離れているので、上述した画面サイズの半分以上の距離の位置変更があった場合に該当する。このように短い時間間隔で話者位置が大きく変わる場合には、話者音声を画面中央位置に定位させ、視聴者に違和感を生じさせないようにしている。

具体的には、図２の履歴情報の話者音声定位位置Ｐが示すように、図５（ａ）では、話者ＳＰは話者Ａであるが、話者音声定位位置Ｐは画面の中心（７２０，５４０）であり、図５（ｂ）では、話者ＳＰは話者Ｂであるが、話者音声定位位置Ｐは画面の中心（７２０，５４０）であり、図５（ｃ）では、話者ＳＰは話者Ａであるが、話者音声定位位置Ｐは画面の中心（７２０，５４０）である。

詳しくは、図５（ａ）では、話者ＳＰは話者Ａであるため、話者の切り替わりに十分な時間間隔があれば、話者音声定位位置Ｐは（２７０，２８０）に設定されるところであるが、話者の切り替わりに十分な時間間隔がないので、話者音声定位位置Ｐは（７２０，５４０）に設定される。すなわち、話者の切り替わりに十分な時間間隔があれば、話者音声定位位置Ｐを図４（ｃ）に示す（１０８０、３５５）から（２７０，２８０）に変更するところを、話者の切り替わりに十分な時間間隔がないので、話者音声定位位置Ｐを図４（ｃ）に示す（１０８０、３５５）から（７２０，５４０）に変更している。ここで、（１０８０、３５５）→（７２０，５４０）の位置変更は、（１０８０、３５５）→（２７０，２８０）の位置変更に比べて変更量が小さくなっており、このことは、上述した「音声定位変更量を小さくするように話者音声定位パラメータの値を調整する」を具体的に示すものである。

次に、図６を参照して、本実施の形態の映像音声出力装置１の映像音声出力処理について説明する。図６は、映像音声出力装置１の話者位置の切り替わり間隔を考慮して、音声定位制御を行う映像音声出力処理の流れを示すフローチャートである。

まず、映像音声出力装置１の映像解析部１１が入力された映像データを解析して、映像データの話者位置を特定する（ステップＳ１０）。

次に、映像音声出力装置１の話者音声定位パラメータ設定部１２は、特定された話者位置に基づいて、話者音声定位パラメータの値を設定する（ステップＳ２０）。

次に、映像音声出力装置１の話者音声定位パラメータ調整部１４は、映像解析履歴保持部１３に保持されている、特定された話者位置に関する履歴情報を参照する（ステップＳ３０）。

次に、映像音声出力装置１の話者音声定位パラメータ調整部１４は、参照した履歴情報に基づいて、短い時間間隔で話者位置が大きく変わったか否かを判定する（ステップＳ４０）。すなわち、予め定めた話者位置が切り替わる時間間隔、及び予め定めた話者位置の変更量を基準に、短い時間間隔で話者位置が大きく変わったか否かを判定する。

短い時間間隔で話者位置が大きく変わった場合には（ステップＳ４０：ＹＥＳ）、映像音声出力装置１は、話者位置への音声定位変更量が小さくなるように、話者音声定位パラメータの値を調整する（ステップＳ５０）。

次に、映像音声出力装置１の定位処理部１５は、設定された話者音声定位パラメータの値に従って、音声データの音声定位変更を行う（ステップＳ６０）。すなわち、短い時間間隔で話者位置が大きく変わった場合には（ステップＳ４０：ＹＥＳ）、話者位置への音声定位変更量が小さくなるように調整された話者音声定位パラメータの値で音声データの音声定位変更を行い、そうでない場合には（ステップＳ４０：ＮＯ）、ステップＳ２０で設定された話者音声定位パラメータの値で音声データの音声定位変更を行う。

次に、映像音声出力装置１の映像表示部１６は、映像データを出力し、また、音声出力部１７は、音声定位変更を行われた音声データを出力する（ステップＳ７０）。

以上説明したように、本実施の形態に係る映像音声出力装置１によれば、映像を解析して、話者の位置を特定する映像解析部１１と、映像解析部１１により特定した話者の位置に音声を定位させるように話者音声定位パラメータの値を設定する話者音声定位パラメータ設定部１２と、映像解析部１１で特定した話者位置の履歴情報を保持する映像履歴保持部１３と、映像履歴保持部１３に保持された履歴情報を解析して、特定した話者の位置が、予め定めた時間間隔以内に、予め定めた変更量以上変更されたと判定した場合には、話者音声定位パラメータ設定部１２で設定された話者音声定位パラメータの値に対して、定位位置の変更を小さくするように話者音声定位パラメータの値を調整する話者音声定位パラメータ調整部１４と、話者音声定位パラメータ調整部１４により、調整された話者音声定位パラメータの値に従って音声の定位変更を行う定位処理部１５と、定位処理部１５により定位変更された音声を出力する音声出力部１７と、を備えるので、特定した話者位置に音声を定位させる音声定位技術を備えた装置において、短い時間間隔で話者位置が頻繁に切り替わっても、視聴者は違和感を生じることがない。例えば、二人の人物が登場し、短い時間間隔で交互に話者が切り替わる漫才のような番組プログラムを視聴しても、視聴者は違和感を覚えることがない。

この場合、話者音声定位パラメータ調整部１４は、表示画面の中心方向の位置に音声が定位するように話者音声定位パラメータの値を調整するようにしてもよい。短い時間間隔で話者位置が頻繁に切り替わったとしても、音声を画面中心に定位させているので、視聴者は違和感を覚えることなく、快適にコンテンツを視聴することができる。

以上、本発明の実施の形態について説明してきたが、本発明は、上述した実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲において、本発明の実施の形態に対して種々の変形や変更を施すことができ、そのような変形や変更を伴うものもまた、本発明の技術的範囲に含まれるものである。

本発明の実施の形態に係る映像音声出力装置の概略構成図である。本発明の実施の形態に係る映像音声出力装置の履歴情報の一例である。本発明の実施の形態に係る映像音声出力装置に入力される映像データの例である。本発明の実施の形態に係る映像音声出力装置に入力される映像データにおいて話者が切り替わる様子を示す図である。本発明の実施の形態に係る映像音声出力装置に入力される映像データにおいて話者が切り替わる様子を示す図である。本発明の実施の形態に係る映像音声出力装置の話者位置の切り替わり間隔を考慮して、音声定位制御を行う映像音声出力処理の流れを示すフローチャートである。

符号の説明

１映像音声出力装置
１１映像解析部
１２話者音声定位パラメータ設定部
１３映像解析履歴保持部
１４話者音声定位パラメータ調整部
１５定位処理部
１６映像表示部
１７音声出力部

Claims

音声定位パラメータに基づいて音声定位を制御する映像音声出力装置であって、
映像を解析して、話者の位置を特定する話者位置特定手段と、
前記話者位置特定手段により特定した話者の位置に音声を定位させるように前記音声定位パラメータの値を設定する音声定位パラメータ設定手段と、
前記話者位置特定手段で特定した話者の位置の履歴情報を保持する履歴情報保持手段と、
前記履歴情報保持手段に保持された履歴情報を解析して、前記特定した話者の位置が、予め定めた時間間隔以内に、予め定めた変更量以上変更されたと判定した場合には、前記音声定位パラメータ設定手段で設定された音声定位パラメータの値に対して、定位位置の変更を小さくするように前記音声定位パラメータの値を調整する音声定位パラメータ調整手段と、
前記音声定位パラメータ調整手段により、調整された音声定位パラメータの値に従って音声の定位変更処理を行い、映像及び音声を出力する定位変更出力手段と、
を備えることを特徴とする映像音声出力装置。
前記音声定位パラメータ調整手段は、表示画面の中心方向の位置に音声を定位させるように前記音声定位パラメータの値を調整することを特徴とする請求項１記載の映像音声出力装置。
前記話者位置特定手段は、映像における人の顔の位置を検出して、検出した顔の口の動きから、話者を特定し、特定した話者の口近傍を話者の位置とすることを特徴とする請求項１又は２記載の映像音声出力装置。