JP2009206986A

JP2009206986A - 画像出力装置及び画像出力方法

Info

Publication number: JP2009206986A
Application number: JP2008048536A
Authority: JP
Inventors: Yoshihiro Terajima; 義博寺島
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-02-28
Filing date: 2008-02-28
Publication date: 2009-09-10

Abstract

【課題】複数の音声データの定位情報を明示的に知ることができ、制御したい音声データの音量を正確に制御可能とすることを目的とする。
【解決手段】画像データに付随する複数の音声データの各音量情報に基づいて、音量情報を表す音声画像をそれぞれ生成する音声画像生成手段と、画像データに付随する複数の音声データの位置情報に応じて、音声画像生成手段で生成された画像データに付随する各音声データに係る音声画像と、画像データと、を合成し、合成画像を生成する画像合成手段と、画像合成手段で生成された合成画像を出力する画像出力手段と、を有することによって課題を解決する。
【選択図】図１

Description

本発明は、画像出力装置及び画像出力方法に関する。

従来、画像と共に再生される音声の音量を制御する方法として、ディスプレイ上に再生表示された画像上の任意の位置に音量レベルバーを表示し、音量情報を得ながらリモコン等で操作して音量を制御する方法が知られている。図７に従来例の一例を示す。図７は、従来例の一例を示す図である。図７中、左下部に音量レベルバーが示されている。音量レベルバー上に示される三角形の矩形が現在の音量レベルを示している。また、水平方向に音量レベルが表現されており、左へ行くほど音量が小さく、右へ行くほど音量が大きいことを示している。音量制御の指示形態としては、例えば図７中に不指示のリモコンが用いられる。音量を大きくしたい場合、リモコン上に配置されたプラスボタンを押すことで音量が大きくなる。この際、図７中に示さる三角形の矩形はより右へスライドする。このことにより操作者は、三角形の矩形の位置情報から音声の調整可能領域における現在の音量情報を得ながら音量を制御することが可能となる。

音量制御の指示形態としては、その他、ディスプレイ上に再生表示された画像上にカーソルを重ねて表示し、このカーソルをマウス等の指示具を用いて操作する方法も知られている。この場合、図中の三角形の矩形までカーソルを移動させ、三角形をドラッグ操作することにより音量制御を行う。

また、一つの画像データに対して左右２つの音声データを持つコンテンツを再生する再生装置において、左右の音声を別々に音量制御する方法が知られている。この様子を図８に示す。図８は、従来例の他の例を示す図である。図８では、上述の図７と同様、音量レベルバーが、ディスプレイ上に再生表示された画像上に示されている。この例では音量レベルバーは、画像下部に左右２つ配置されている。操作者は左右どちらかの音量レベルバーを選択し、選択したレベルバーを上述と同様に、リモコンやマウス等の指示具により操作することで、左右別々に音量の制御を行うことが可能となる。

特開２００３−３３０４４２号公報

しかしながら、従来の方法では、再生したいコンテンツが複数の音声データを持ち、かつ、複数の音声データの持つ定位情報が左右以外であった場合、複数の音声データから所望の音声データを選択し、音量を制御することができない問題があった。

本発明はこのような問題点に鑑みなされたもので、複数の音声データの定位情報を明示的に知ることができ、制御したい音声データの音量を正確に制御可能とすることを目的とする。

そこで、本発明は、画像データに付随する複数の音声データの各音量情報に基づいて、前記音量情報を表す音声画像をそれぞれ生成する音声画像生成手段と、前記画像データに付随する複数の音声データの位置情報に応じて、前記音声画像生成手段で生成された前記画像データに付随する各音声データに係る音声画像と、前記画像データと、を合成し、合成画像を生成する画像合成手段と、前記画像合成手段で生成された合成画像を出力する画像出力手段と、を有することを特徴とする。

係る構成とすることにより、複数の音声データの定位情報を明示的に知ることができ、制御したい音声データの音量を正確に制御可能とすることができる。

また、本発明は、画像出力方法としてもよい。

本発明によれば、複数の音声データの定位情報を明示的に知ることができ、制御したい音声データの音量を正確に制御可能とすることができる。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
図１は、画像出力装置の構成の一例を示す図である。
映像音声入力部１３０は、例えば、画像データ及び前記画像データに付随する複数の音声データを受信する。なお、必ずしも画像データに付随する音声データは複数である必要はないが、以下に示す実施形態では、複数の場合を例に説明を行う。映像音声入力部１３０は、画像データ及び音声データを受信すると、画像データをタイル分割部１３１へ、音声データを音声定位情報検出部１２０へそれぞれ転送する。

タイル分割部１３１は、画像データを任意の単位でタイル分割し、分割したタイルを画像合成部１４０に転送する。
一方、音声定位情報検出部１２０は、受信した音声データより、音声データの数及び検出された音声データそれぞれの画像上における定位情報を検出する。検出された音声データの数、音声データ毎の定位情報及び音声データは、音声定位情報検出部１２０より音声制御部１１０に転送される。なお、本実施形態では４つの音声データが検出されたものとして説明を行う。

音声制御部１１０は、受信した４つの音声データ及びその位置情報を、音量データと関連付けて保持する。また、音声制御部１１０は、それぞれの音声データにＩＤタグを付加する。音声制御部１１０にて保持された音声データの一例を図２に示す。図２は、音声制御部１１０にて保持されている音声データの一例を示す図である。図２ではＩＤタグとして１を付加された音声データの位置情報が、Ｘ位置ｘ１、Ｙ位置ｙ１、音量が８として保持されている様子が示されている。

画像合成部１４０は、構成要素としてパケット化部１４１を具備する。上述のタイル分割部１３１から受信したタイル単位に分割された画像（タイル画像）は、そのままパケット化部１４１に入力される。パケット化部１４１ではパケット生成を行う。

パケットの構成例を図３に示す。図３は、パケットの構成の一例を示す図である。パケット化部１４１は、タイル画像のパケット化を行う際に、タイル画像の画像全体（１フレーム）における位置情報を計算（カウント）し、この位置情報をパケットヘッダーのＸ位置２５０、Ｙ位置２６０に設定する。また、パケット化部１４１は、パケットヘッダー部の画像データ長領域２００に画像データ長を、パケットペイロード部の画像データ領域２０１に画像データを設定する。更に、パケット化部１４１は、パケット化対象のタイル画像の位置情報と一致する音声データの定位情報の有無を、音声制御部１１０に問い合わせる。

音声制御部１１０は、パケット化部１４１からタイル画像の位置情報を入手し、保持している音声データの定位情報と比較を行う。音声制御部１１０は、対象タイル画像の位置情報と一致する音声データの定位情報があった場合、パケット化部１４１に対し、前記音声データのＩＤ情報、音量情報及び音声データを転送する。パケット化部１４１は、これらを受信し、パケットの所定の位置に設定する。より具体的に説明すると、パケット化部１４１は、図３のパケットヘッダー部の音声データ有無領域２１０に音声データ有りの情報を、音声データ長領域２２０に音声データ長を、それぞれ設定する。また、パケット化部１４１は、パケットペイロード部の音声データ領域２２１の音声データを、音量データ領域２４０に音量データを、それぞれ設定する。

パケット化部１４１は、更に音声データの位置表示ＯＮ／ＯＦＦの情報を、音声制御部１１０から得る。ここでは音声データの位置表示が「ＯＦＦ」であったものとして説明を続ける。なお、音声データの位置表示指が「ＯＮ」であった場合については後述する。
こうしてパケット化部１４１によって作成されたパケットの様子は、図３における（Ｃ）の状態となる。説明で触れなかったパケットヘッダー部の音声画像データ長領域２３０には０（ゼロ）が設定されている。

また、ここではパケット化対象のタイル画像に対応する音声データがあった場合について説明したが、無かった場合にはパケットの様子は、図３における（Ｂ）の状態となる。このときヘッダー領域の音声データ有無領域２１０は無しの情報を、音声データ長領域には０（ゼロ）が設定される。

作成されたパケットは、パケット化部１４１から画像合成部１４０内のパケット処理部１４２に転送される。パケット処理部１４２においては、パケットに対して様々な処理が行われる。以下ではその処理の一つについて説明する。
パケット処理部１４２における処理の一つは、パケットヘッダーの解析である。まずパケット処理部１４２は、パケットヘッダー部の画像データ長領域２００を解析し、画像データ長を獲得し、ペイロード部の画像データ領域２０１より画像データを抽出する。更にパケット処理部１４２は、音声画像データ長領域２３０を解析し、解析の結果、音声画像データ長領域２３０に０（ゼロ）が設定されていた場合、前記抽出した画像データのみを、画像合成部１４０内の映像形成部１４３に転送する。

映像形成部１４３は、順次画像データを受信し、１フレームの映像（画像）を形成する。形成された画像は、映像形成部１４３から映像音声出力部１６０へと転送される。映像音声出力部１６０は、転送されてきた画像（画像データ）を、例えば図不指示のディスプレイに転送（出力）する。その結果、前記画像データがディスプレイ上で再生される。

一方、パケット処理部１４２では更にパケットヘッダーを解析し、パケットヘッダー部の音声データ有無領域２１０の設定が「有り」であった場合には、パケットから音声データを抽出する。より具体的に説明すると、パケット処理部１４２は、パケットヘッダー部の音声データ長領域２２０より音声データの長さを獲得し、次いでペイロード部の音声データ領域２２１より前記獲得した長さの音声データを抽出する。更にパケット処理部１４２は、パケットペイロード部の音量データ領域２４０から音量データを抽出する。抽出された音声データ及び音量データは、音声合成部１５０へ転送される。

音声合成部１５０は、音声データ及び音量データを順次、受信し、１フレーム分を合成し、映像音声出力部１６０へ転送する。映像音声出力部１６０は、転送されてきた音声データを、例えば図不指示のディスプレイに転送（出力）する。その結果、前記音声データがディスプレイ付属のオーディオ装置により再生される。

制御信号入力部１００は、例えば図不指示のリモコンより、画像データ及び音声データに対する様々な制御信号を受信する。本実施形態では、音声データに対する制御信号を受信した場合について説明する。
制御信号入力部１００は受信した制御信号を、制御信号解析部１０１に転送する。制御信号解析部１０１は、受信した制御信号を解析する。なお、制御信号解析部１０１において解析される情報は、例えば次に挙げる情報である。
（あ）音声データ位置の表示のＯＮ／ＯＦＦ。
（い）音声データ指定情報。
（う）音量制御情報。

制御信号解析部１０１が解析した情報が、（あ）音声データ位置の表示「ＯＮ」情報であった場合、この情報は制御信号解析部１０１より音声制御部１１０に転送される。音声制御部１１０は、保持している音声データのＩＤ及び前記ＩＤに対応した音量情報を音声画像生成部１１１に転送すると共に、音声画像生成部１１１に対して音声画像を生成するよう指示を与える。

音声画像生成部１１１は、上述の音声画像生成指示を受け、同時に受信した音量情報を反映させた音声画像（音声画像データ）を生成する。音声画像は、例えば図４に示す４００である。ここで、図４は、音声画像データと、画像データと、が合成された合成画像（合成画像データ）の一例を示す図である。図４の例では音声画像は、黒塗りの四角形に、音量８が白抜きで示されている。音声画像生成部１１１は、このような画像を生成し、上述の音声データＩＤに対応付けて音声画像データ４００を保持する。

次に、音声データの位置表示情報が「ＯＮ」である場合のパケット化部１４１の処理を説明する。
パケット化部１４１が音声制御部１１０に問い合わせを行った際に、現在のパケット化対象のタイル画像の位置情報と一致する音声データの定位情報があった場合、パケット化部１４１は音声制御部１１０より音声データのＩＤ情報を入手する。パケット化部１４１は、この音声データのＩＤ情報と一致する音声画像データを、音声画像生成部１１１から受信する。パケット化部１４１は、受信した音声画像データを、図３に示すパケットの所定の位置に設定する。即ち、パケット化部１４１は、パケットヘッダー部の音声画像データ長領域２３０に音声画像データの長さを、パケットペイロード部の音声画像データ領域２３１に音声画像データを、それぞれ設定する。こうしてパケット化部１４１によって作成されたパケットの様子は、図３における（Ａ）の状態となる。

引き続き音声画像データ情報を持ったパケットを、パケット処理部１４２において受信した場合について説明する。
パケット処理部１４２は、パケットヘッダーの解析を行った結果、音声画像データ長領域２３０に０（ゼロ）以外の値が設定されていた場合、音声画像データの長さを取得し、パケットペイロード部の音声画像データ領域２３１より音声画像データを抽出する。この場合、パケット処理部１４２は、映像形成部１４３へは前記抽出した画像データに代わり、前記音声画像データを転送する。

映像形成部１４３は既に説明した手順により、音声画像データを含む１フレームの映像を形成する。形成された画像の一例が上述した図４である。図４においては音声定位情報検出部１２０において検出された４つの音声データの定位情報が、画像として所定の位置に表示されている。例えば、図３におけるＩＤが１の音声データは、ディスプレイ４５０上に再生された画像４６０上の、Ｘ位置ｘ１、Ｙ位置ｙ１に示されている。
こうして得られた画像により、操作者は変更したい音声データの位置を、再生された画像に関連付けて知ることができる。

次に、図４における音声画像データ４２０にて示された音声データの音量を制御する方法について説明する。
例えば操作者は図不指示のリモコン上に配置された先送りボタン、若しくは後戻りボタンを操作することにより、表示された音声画像の選択を行う。例えば音量制御対象として選択されない音声画像が黒塗りの四角形にその音量が白文字で示されるのに対して、選択された音声画像は白抜きの四角形にその音量が黒文字で示されるものとする。図４における音声画像データ４２０が選択された場合の様子を図５に示す。図５は、音声画像データが選択された一例を示す図である。図５の様に音声画像データ４２１のみが白抜きの四角形に、音量２が黒文字で示されている。

次に図４の状態から図５の状態を実現するまでの処理の一例を説明する。
操作者によって指示された音声データ選択情報は、制御信号入力部１００にて受信される。この信号は制御信号解析部１０１にて解析され、上述の（い）音声データ指定情報として認識される。この情報は音声制御部１１０に転送され、保持している音声データの選択情報に反映される。この様子を図２の（Ｂ）に示す。図２（Ａ）では全ての音声の選択情報が０（ゼロ）、即ち選択されていないことが示されている。これに対し、図２（Ｂ）では音声データＩＤが３のもののみ、選択情報が１となっている。音声制御部１１０では、例えば音声データ指定情報を受信する度に、上述の選択情報の「１」の位置を順次シフトすることにより、唯一の音声データが選択された状態を実現する。

音声制御部１１０は、上述の様に音声画像生成部１１１に対して音声画像を生成する指示を与えるが、この際に、音声データ選択信号も同時に転送する。
音声画像生成部１１１は、受信した音声データに付随する選択信号を参照し、選択信号「１」が設定された音声データに対しては音声画像生成のアルゴリズムを変更する。ここでは選択されていない音声データの画像が黒塗りの四角形の中に対応する音量データが白文字で書くものとし、選択された音声データの画像は白抜きの四角形の中に対応する音量データを黒文字で書くものとする。

更に制御信号入力部１００に音量制御信号が入力された場合について説明する。
音量制御信号は、制御信号入力部１００にて受信され、制御信号解析部１０１にて解析される。解析絵結果は上述の（う）音量制御情報として認識される。この情報は音声制御部１１０に転送され、保持している音声データの音量データに反映される。本実施形態では音声データとして保持されている選択情報が「１」である、即ち選択されている音声データの音量データのみ前記制御情報が反映されるものとする。この様子が図２（Ｂ）に示されている。

音声制御部１１０に保持された音声データの音量データが、音声画像生成部１１１にて生成される音声画像データに反映される方法は上述のとおりである。
また、このようにして再生成された音声画像生成部１１１にて保持されている音声画像が、映像音声出力部１６０を通じてディスプレイに画像表示されるまでの方法も上述のとおりである。
以上説明した処理により、図４に示された画像情報が、操作者による指示により図５に示された画像に変更される。

本実施形態においては音声画像データが、画像データに置き換わり表示される方法について述べたが、αブレンド等の処理により、音声画像データと、画像データと、を重ね合わせて表示してもよい。
また、本実施形態では音声画像が四角形と数字をもって表示する場合について述べたが、図６の様に音量を数字ではなくスライドバーをもって表示してもよい。図６は、音声画像データと、画像データと、が合成された合成画像（合成画像データ）の他の例を示す図である。また、音声画像も四角形に限るものではない。
また、本実施形態ではリモコンにより音声データを制御する方法について述べたが、図６の様にディスプレイ６５０上にカーソル６４０を示し、マウス等の指示具を用いて音声データを制御してもよい。

＜その他の実施形態＞
また、本発明の目的は、以下のようにすることによって達成される。即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（又は記録媒体）を、システム或いは装置に供給する。そして、そのシステム或いは装置の中央演算処理手段（ＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施形態の機能を実現することになり、そのプログラムコードを記録した記憶媒体は本発明を構成することになる。

また、システム或いは装置の前記中央演算処理手段が読み出したプログラムコードを実行することにより、そのプログラムコードの指示に基づき、システム或いは装置上で稼働しているオペレーティングシステム（ＯＳ）等が実際の処理の一部又は全部を行う。その処理によって上述した実施形態の機能が実現される場合も含まれる。

更に、記憶媒体から読み出されたプログラムコードが、前記システム或いは装置に挿入された機能拡張カードや、接続された機能拡張ユニットに備わるメモリに書込まれたとする。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。

本発明を前記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。

以上、上述した各実施形態によれば、複数の音声データの定位情報を明示的に知ることができ、制御したい音声データの音量を正確に制御可能とすることができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

画像出力装置の構成の一例を示す図である。音声制御部１１０にて保持されている音声データの一例を示す図である。パケットの構成の一例を示す図である。音声画像データと、画像データと、が合成された合成画像（合成画像データ）の一例を示す図である。音声画像データが選択された一例を示す図である。音声画像データと、画像データと、が合成された合成画像（合成画像データ）の他の例を示す図である。従来例の一例を示す図である。従来例の他の例を示す図である。

符号の説明

１００制御信号入力部
１０１制御信号解析部
１１０音声制御部
１１１音声画像生成部
１２０音声定位情報検出部
１３０映像音声入力部
１３１タイル分割部
１４０画像合成部
１４１パケット化部
１４２パケット処理部
１４３映像形成部
１５０音声合成部
１６０映像音声出力部

Claims

画像データに付随する複数の音声データの各音量情報に基づいて、前記音量情報を表す音声画像をそれぞれ生成する音声画像生成手段と、
前記画像データに付随する複数の音声データの位置情報に応じて、前記音声画像生成手段で生成された前記画像データに付随する各音声データに係る音声画像と、前記画像データと、を合成し、合成画像を生成する画像合成手段と、
前記画像合成手段で生成された合成画像を出力する画像出力手段と、
を有することを特徴とする画像出力装置。
前記画像データをタイルに分割するタイル分割手段を更に有し、
前記画像合成手段は、前記タイル分割手段で分割された前記画像データに係るタイルからパケットを生成し、前記位置情報に応じて、前記パケットに前記音声画像生成手段で生成された各音声データに係る音声画像を設定し、前記合成画像を生成することを特徴とする請求項１に記載の画像出力装置。
画像出力装置における画像出力方法であって、
画像データに付随する複数の音声データの各音量情報に基づいて、前記音量情報を表す音声画像をそれぞれ生成する音声画像生成ステップと、
前記画像データに付随する複数の音声データの位置情報に応じて、前記音声画像生成ステップで生成された前記画像データに付随する各音声データに係る音声画像と、前記画像データと、を合成し、合成画像を生成する画像合成ステップと、
前記画像合成ステップで生成された合成画像を出力する画像出力ステップと、
を有することを特徴とする画像出力方法。