JP2002369129A

JP2002369129A - 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体

Info

Publication number: JP2002369129A
Application number: JP2001171381A
Authority: JP
Inventors: Mitsuru Maeda; 充前田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-06-06
Filing date: 2001-06-06
Publication date: 2002-12-20

Abstract

(57)【要約】【課題】オーディオデータとビデオオブジェクトの間
の位置的な差異に基づく違和感を無くす。【解決手段】オーディオ符号化データとビデオ符号化
データを入力し、分離器４（１３）により、システムに
関するＢＩＦＳ符号化データ、各オブジェクトのビデオ
符号化データ、オーディオ符号化データに分離し、合成
指定部１では、そのＢＩＦＳ符号化データを復号した画
面サイズ等の情報と、ユーザにより指定されたオブジェ
クトの配置を得る。位置判定部８（１７）は、ビデオ符
号化データからオーディオデータの発生位置に関する情
報を取得し、合成指定部１で指定されたオブジェクトの
配置及びオーディオデータの発生位置に応じて、バラン
ス調整部１０（１９）に対して、オーディオデータの再
生位置を変更するように指示する。こうして再生バラン
スが調整されたオーディオデータをオーディオ符号化部
１１（２０）で符号化し、この符号化されたオーディオ
データとビデオ符号化データとを多重化して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、オーディオデータ
とビデオデータからなる画像データを符号化する画像処
理装置、画像処理方法、画像処理プログラム及び画像処
理プログラムが記憶されたコンピュータにより読み取り
可能な記憶媒体に関するもので、特にオブジェクト単位
で画像データを符号化する画像処理に関するものであ
る。

【０００２】

【従来の技術】近年、動画像の符号化方式としてＭＰＥ
Ｇ(Moving Picture Experts Group)−４符号化方式が検
討され、その国際標準化作業が進んでいる。従来のＭＰ
ＥＧ−２に代表される動画像符号化では、その符号化の
単位はフレーム或はフィールドを単位であったのに対し
て、コンテンツの再利用や編集を実現するために、ＭＰ
ＥＧ−４では映像データやオーディオデータをオブジェ
クト（物体）として符号化を行っている。更に、映像デ
ータに含まれる物体も独立して符号化され、それぞれも
オブジェクトとして扱うことができる。その詳細は、例
えば三木弼一編著「ＭＰＥＧ−４のすべて」（工業調査
会）や国際標準ＩＳＯ／ＩＥＣ１４４９６−２等に詳し
く記載されている。

【０００３】このＭＰＥＧ−４符号化方式によれば、符
号化対象をオブジェクト（物体）単位で扱うために、画
像における物体の形状が符号化及び復号の際に既知でな
ければならない。また、後ろにある物体が透けて見える
ガラスのような物体を表現するためには、物体がどれだ
けの透明度を有するかといった情報が必要となる。この
ような物体の形状、及び物体の透明度の情報を合わせて
形状情報と呼ぶ。その形状情報の符号化を形状符号化と
呼ぶ。コアプロファイル以上の符号化データでは、この
任意形状を扱うことができる。これは形状の定義により
物体内外を区別し、その内側をＭＰＥＧ−１，２と同様
に、動き補償とＤＣＴ変換符号化からなるテクスチャ符
号化にて処理するものである。

【０００４】尚、プロファイルとは、想定されるアプリ
ケーションを実現するためのツール・セットを定義する
ものである。

【０００５】また、オブジェクトの配置等を記述するた
めに、システムに関する符号化としてＢＩＦＳ符号化が
採用されている。これはシーンを記述するための符号化
データであり、画面全体の大きさ、オブジェクトの配
置、再生のタイミング等を記述している。

【０００６】以下、図１４を参照して、ＭＰＥＧ−４で
符号化された動画像データを再生する装置の機能構成に
ついて説明する。

【０００７】図１４において、１００１はＭＰＥＧ−４
符号化データ入力部で、ＭＰＥＧ−４符号化方式で符号
化された符号化データを入力する。１００２は分離器
で、多重化されたＭＰＥＧ−４符号化データからシステ
ムに関する符号化データ、ビデオオブジェクトに関する
符号化データ、オーディオオブジェクトに関する符号化
データをそれぞれ分離している。１００３はシステム復
号部で、システムに関する符号化データを復号する。１
００４，１００５はビデオ復号部で、それぞれビデオオ
ブジェクトを復号する。１００６，１００７はオーディ
オ復号部で、それぞれ左右のチャネルに対応するオーデ
ィオオブジェクトを復号する。１００８は画像合成部
で、システム復号部１００３の出力結果に基づいて、ビ
デオ復号部１００４，１００５で復号されたビデオオブ
ジェクトを制御して合成する。１００９はミキサであ
り、オーディオ復号部１００６，１００７で復号された
オーディオデータを合成する。１０１０は合成された画
像を表示する表示装置（モニタ）であり、１０１１と１
０１２は合成された音を再現する音響装置であり、ステ
レオ効果を実現するため、左右に配置される。

【０００８】いま、ＭＰＥＧ−４符号化データ入力部１
００１から入力されたＭＰＥＧ−４符号化データは、分
離器１００２でそれぞれの符号化データに分離され、そ
れぞれの復号部に入力される。いま再生しようとしてい
るオブジェクトの構成例を図２に示す。

【０００９】図２において、１１００は画面全体を表
し、女性オブジェクト（VO1）１１０１と男性オブジェ
クト（VO2）１１０２とで構成されている。ここで、女
性オブジェクト１１０１の声が女性オーディオオブジェ
クトとなり、男性オブジェクト１１０２の声が男性オー
ディオオブジェクトとなる。

【００１０】システム復号部１００３は、ＢＩＦＳ(Bin
ary Format for Scene) 符号化データを復号し、ビデオ
に関しては画面１１００の大きさ、及びその画面内にお
けるオブジェクト１１０１，１１０２の配置とオーディ
オオブジェクトとビデオオブジェクトの同期を復号す
る。ここでオブジェクト１１０１，１１０２の配置は、
各オブジェクトの左上端と画面左上端との位置関係で表
される。ビデオ復号部１００４は女性オブジェクト１１
０１の画像データを復号し、ビデオ復号部１００５は男
性オブジェクト１１０２の画像データを復号する。また
オーディオ復号部１００６は、女性オブジェクト１１０
１のオーディオオブジェクトを復号し、オーディオ復号
部１００７は男性オブジェクト１１０２のオーディオオ
ブジェクトを復号する。

【００１１】画像合成部１００８は、システム復号部１
００３から出力される各オブジェクトの位置に従って、
女性オブジェクト１１０１と男性オブジェクト１１０２
を配置する。ミキサ１００９も同様に、システム復号部
１００３から出力されるオーディオオブジェクトの位置
に従って、女性オブジェクト１１０１と男性オブジェク
ト１１０２のそれぞれのオーディオデータをミキシング
し、左右の音響装置１０１１と１０１２から出力できる
ようにバランスを調整する。モニタ１０１０は画像合成
部１００８の出力を表示し、音響装置１０１１、１０１
２はオーディオデータを再生する。

【００１２】

【発明が解決しようとする課題】ＭＰＥＧ−４符号化で
はコンテンツの再利用が考えられており、各オブジェク
トの再配置等が頻繁に起こる。ビデオのオブジェクト
は、ＭＰＥＧ−４符号化方式ではVideoObjectとして定
義されるが、フレームの最初から最後まで符号化対象が
含まれる大きさで定義される。また符号化対象は、フレ
ーム毎に符号化対象を含む外接矩形で表され、その位置
と大きさは各フレームで定義されている。その矩形の位
置は、主走査方向はvop_horizontal_mc_spatial_ref符
号で、副走査方向はvop_vertical_mc_spatial_ref符号
でそれぞれ表されており、その矩形の大きさは、主走査
方向がvop_width符号に、副走査方向がvop_height符号
でそれぞれ表されている。

【００１３】画像合成部１００８でビデオオブジェクト
を合成する際に、システム符号で扱うオブジェクトの位
置は、上述のように、矩形の左上端と画面との位置関係
で表される。しかしながら、オブジェクト内を符号化対
象が移動しても、オーディオデータの再現はシステム符
号が扱う位置のみなので、オーディオオブジェクトの再
生とビデオオブジェクトの位置関係にずれが生じ、違和
感が生じる。

【００１４】図１３（ａ）（ｂ）にその様子を示す。

【００１５】図１３（ａ）は、最初のフレームを示し、
図１３（ｂ）が最終フレームであったとき、符号化対象
である女性は左端から右端へと移動する。ここで１３０
０がオブジェクトを表し、１３０１がＶＯＰ(Video Obj
ect Plane)の外接矩形を表わしている。ところが、オー
ディオ復号部１００６，１００７から出力される復号し
たオーディオデータは、左が女性のオーディオデータ
で、右が男性のオーディオデータのままであるため、図
１３（ｂ）に示すように、そのオブジェクト１３００内
で、ＶＯＰの外接矩形１３０２が右側に移動して女性が
左から右に移動しても、そのオーディオデータが、それ
に伴って移動しないという違和感が生じる。

【００１６】本発明は上記従来例に鑑みてなされたもの
で、オーディオデータとビデオオブジェクトの間の位置
的な差異に基づく違和感を無くして符号化する画像処理
装置、画像処理方法、画像処理プログラム及び画像処理
プログラムが記憶されたコンピュータにより読み取り可
能な記憶媒体を提供することを目的とする。

【００１７】また本発明の目的は、画面上におけるビデ
オオブジェクトの移動に応じて、それに関連してオーデ
ィオデータの再生位置を移動したり、或いはオーディオ
データの音量を変えることができるようにした画像処理
装置、画像処理方法、画像処理プログラム及び画像処理
プログラムが記憶されたコンピュータにより読み取り可
能な記憶媒体を提供することにある。

【００１８】

【課題を解決するための手段】上記目的を達成するため
に本発明の画像処理装置は以下のような構成を備える。
即ち、符号化したオーディオデータとビデオデータを出
力する画像処理装置であって、オーディオ符号化データ
とビデオ符号化データを入力する入力手段と、前記入力
手段により入力されるビデオ符号化データの配置を編集
する編集手段と、前記入力手段により入力されるオーデ
ィオ符号化データを復号してオーディオデータを生成す
るオーディオ復号手段と、前記ビデオ符号化データから
前記オーディオデータの発生位置に関する情報を取得す
る第１音源位置獲得手段と、前記第１音源位置獲得手段
により取得された前記情報と、前記編集手段により編集
された配置に応じて前記オーディオデータの再生位置を
制御するオーディオ制御手段と、前記オーディオ制御手
段により再生位置が制御されたオーディオデータを符号
化するオーディオ符号化手段と、前記オーディオ符号化
手段により符号化されたオーディオデータと前記ビデオ
符号化データとを多重化して出力する符号化データ出力
手段と、を有することを特徴とする。

【００１９】上記目的を達成するために本発明の画像処
理装置は以下のような構成を備える。即ち、符号化した
オーディオデータとビデオデータを出力する画像処理装
置であって、オーディオ符号化データとビデオ符号化デ
ータを入力する入力手段と、前記入力手段により入力さ
れるビデオ符号化データの配置を編集する編集手段と、
前記入力手段により入力されるオーディオ符号化データ
を復号してオーディオデータを生成するオーディオ復号
手段と、前記ビデオ符号化データから前記オーディオデ
ータを発生する位置までの距離に関する情報を取得する
音源距離獲得手段と、前記音源距離獲得手段により取得
された前記情報と、前記編集手段により編集された配置
に応じて前記オーディオデータの音量を制御するオーデ
ィオ制御手段と、前記オーディオ制御手段により音量が
制御されたオーディオデータを符号化するオーディオ符
号化手段と、前記オーディオ符号化手段により符号化さ
れたオーディオデータと前記ビデオ符号化データとを多
重化して出力する符号化データ出力手段と、を有するこ
とを特徴とする。

【００２０】上記目的を達成するために本発明の画像処
理方法は以下のような工程を備える。即ち、符号化した
オーディオデータとビデオデータを出力する画像処理装
置における画像処理方法であって、オーディオ符号化デ
ータとビデオ符号化データを入力する入力工程と、前記
入力工程により入力されるビデオ符号化データの配置を
編集する編集工程と、前記入力工程により入力されるオ
ーディオ符号化データを復号してオーディオデータを生
成するオーディオ復号工程と、前記ビデオ符号化データ
から前記オーディオデータの発生位置に関する情報を取
得する第１音源位置獲得工程と、前記第１音源位置獲得
工程で取得された前記情報と、前記編集工程で編集され
た配置に応じて前記オーディオデータの再生位置を制御
するオーディオ制御工程と、前記オーディオ制御工程で
再生位置が制御されたオーディオデータを符号化するオ
ーディオ符号化工程と、前記オーディオ符号化工程で符
号化されたオーディオデータと前記ビデオ符号化データ
とを多重化して出力する符号化データ出力工程と、を有
することを特徴とする。

【００２１】上記目的を達成するために本発明の画像処
理方法は以下のような工程を備える。即ち、符号化した
オーディオデータとビデオデータを出力する画像処理装
置における画像処理方法であって、オーディオ符号化デ
ータとビデオ符号化データを入力する入力工程と、前記
入力工程により入力されるビデオ符号化データの配置を
編集する編集工程と、前記入力工程により入力されるオ
ーディオ符号化データを復号してオーディオデータを生
成するオーディオ復号工程と、前記ビデオ符号化データ
から前記オーディオデータを発生する位置までの距離に
関する情報を取得する音源距離獲得工程と、前記音源距
離獲得工程で取得された前記情報と、前記編集工程で編
集された配置に応じて前記オーディオデータの音量を制
御するオーディオ制御工程と、前記オーディオ制御工程
で音量が制御されたオーディオデータを符号化するオー
ディオ符号化工程と、前記オーディオ符号化工程で符号
化されたオーディオデータと前記ビデオ符号化データと
を多重化して出力する符号化データ出力工程と、を有す
ることを特徴とする。

【００２２】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。

【００２３】［実施の形態１］図１は、本発明の実施の
形態１に係る動画像処理装置の構成を示すブロック図で
ある。尚、本実施の形態１では、ＭＰＥＧ−４符号化方
式で符号化された符号化データを入力して一旦復号し、
その後でビデオとオーディオをそれぞれ符号化してＭＰ
ＥＧ−４符号化データとして出力している。ここでは２
つのオブジェクトを符号化して再生する場合について説
明する。ここでは、前述の図２に示すオブジェクトを用
いて説明する。

【００２４】図１において、１は合成指定部で、ユーザ
が内容を編集した結果を受けてオブジェクトの合成を指
定する。２はシステム符号化であり、ＢＩＦＳ符号化デ
ータを生成する。３，１２はＭＰＥＧ−４符号化データ
入力部で、それぞれ図２に示す女性オブジェクト（VO
1）１１０１と男性オブジェクト（VO2）１１０２を、Ｍ
ＰＥＧ−４符号化方式で符号化した符号化データを入力
する。４，１３は分離器で、入力されるＭＰＥＧ−４符
号化データから、ビデオ符号化データ及びオーディオ符
号化データを分離して後段の各部に供給している。５，
１４はシステム復号部で、それぞれ分離器４，１３でそ
れぞれ分離された、ＭＰＥＧ−４符号化方式で符号化さ
れたＢＩＦＳ符号化データを入力して復号する。６，１
５はビデオバッファであり、それぞれのビデオ符号化デ
ータをそのまま蓄積する。７，１６はビデオ復号部で、
分離器４，１３で分離されビデオバッファ６，１５に記
憶された各ビデオオブジェクトを、フレーム（ＶＯＰ）
単位で復号する。８，１７は位置判定部であり、それぞ
れビデオ復号部７，１６で復号されたビデオデータと、
復号したＢＩＦＳデータに基づいて、各ビデオオブジェ
クトの位置を判定する。９，１８はオーディオ復号部
で、それぞれ分離器４，１３で分離されたオーディオオ
ブジェクトを単位時間で復号する。

【００２５】１０，１９はバランス調整部で、位置判定
部８，１７のそれぞれの出力、即ち、各ビデオオブジェ
クトの位置に応じて左右の音のバランスを調整する。１
１，２０はオーディオ符号化部で、各オーディオ復号部
９，１８で復号され、バランス調整部１０，１９でバラ
ンスが調整されたオーディオデータを、ＭＰＥＧ−４符
号化方式に従って符号化する。２１は多重化器で、ＭＰ
ＥＧ−４符号化方式の書式に従って、ビデオバッファ
６，１５からのビデオ符号化データと、オーディオ符号
化部１１，２０からのオーディオ符号化データ、及びシ
ステム符号化部２で符号化されたＢＩＦＳ符号化データ
を多重化する。２２はＭＰＥＧ−４符号化データ出力部
で、多重化器２１で多重化されたＭＰＥＧ−４符号化デ
ータを出力する。

【００２６】以上の構成による動作を以下に説明する。

【００２７】ＭＰＥＧ−４符号化データ入力部３は、図
２の女性のオブジェクト（ＶＯ１）１１０１に関するＭ
ＰＥＧ−４符号化方式に準拠したエレメンタリ・ストリ
ームを入力する。また符号化データ入力部１２は、図２
の男性のオブジェクト（ＶＯ２）１１０２に関するＭＰ
ＥＧ−４符号化方式に準拠したエレメンタリ・ストリー
ムを入力する。

【００２８】まず、オブジェクト１１０１に関する処理
について説明する。

【００２９】分離器４は、符号化データ入力部３から入
力されるエレメンタリ・ストリームから、システムに関
するＢＩＦＳ符号化データ、そのオブジェクトのビデオ
符号化データ、オーディオ符号化データを分離する。Ｂ
ＩＦＳ符号化データはシステム復号部５に、ビデオの符
号化データはビデオバッファ６に、オーディオ符号化デ
ータはオーディオ復号部９にそれぞれ入力される。

【００３０】システム復号部５は、その分離されたＢＩ
ＦＳ符号を復号し、DecSpecificInfoデスクリプタに記
載されているpixelWidth、pixelHeight等を復号し、合
成指定部１に入力する。同様にして、オブジェクト１１
０２についても、システム復号部１４から諸情報が合成
指定部１に入力される。

【００３１】合成指定部１は、ユーザの指示とこれらの
情報に従って、画面の大きさや各オブジェクトの配置を
設定する。この時の画面全体のサイズは、主走査方向の
サイズImage_x、副走査方向のサイズImage_yで規定され
る。またユーザは、各オブジェクトの位置を設定するこ
とができる。ここで、オブジェクト１１０１の主走査方
向の位置をVO1_loc_xとし、副走査方向の位置をVO1_loc
_yとする。これらの設定結果は、システム符号化部２に
てＭＰＥＧ−４符号化方式であるＢＩＦＳ符号化が行わ
れて、多重化器２１に出力される。ここで、このビデオ
オブジェクトのフレーム（ＶＯＰ）は、対象オブジェク
ト１１０１を含む外接矩形の画像である。ビデオ復号部
７では、このオブジェクト１１０１の各ＶＯＰの符号化
データからヘッダ情報を復号する。

【００３２】次に、オブジェクト１１０２に関しても同
様にして、まず分離器１３は、符号化データ入力部１２
から入力されるエレメンタリ・ストリームから、システ
ムに関するＢＩＦＳ符号化データ、そのオブジェクトの
ビデオ符号化データ、オーディオ符号化データを分離す
る。ＢＩＦＳ符号化データはシステム復号部１４に、ビ
デオの符号化データはビデオバッファ１５に、オーディ
オ符号化データはオーディオ復号部１８にそれぞれ入力
される。

【００３３】システム復号部１４は、その分離されたＢ
ＩＦＳ符号を復号し、DecSpecificInfoデスクリプタに
記載されているpixelWidth、pixelHeight等を復号し、
合成指定部１に入力する。ここで、オブジェクト１１０
２の主走査方向の位置をVO2_loc_x、副走査方向の位置
をVO2_loc_yとする。これらの設定結果はシステム符号
化部２にてＭＰＥＧ−４符号化方式であるＢＩＦＳ符号
化が行われて、多重化器２１に出力される。ここで、こ
のビデオオブジェクトのフレーム（ＶＯＰ）は、対象オ
ブジェクト１１０２を含む外接矩形の画像である。ビデ
オ復号部１６では、このオブジェクト１１０２の各ＶＯ
Ｐの符号化データからヘッダ情報を復号する。

【００３４】図３は、本実施の形態に係るビデオ復号部
７（１６）の構成を示すブロック図である。

【００３５】図３において、ビデオバッファ６からのMP
EG-4符号化ビデオデータは、ＭＰＥＧ−４符号化ビデオ
データ５１から入力され、分離器５２は、このＭＰＥＧ
−４ビデオ符号化データからヘッダ符号を分離して後段
のヘッダ復号部５３に入力している。このヘッダ復号部
５３は、ＶＯＰのサイズ、ＶＯＰの相対位置（オブジェ
クト１１０１に関するＶＯＰの主走査方向の位置）を得
ている。即ち、ビデオ復号部７では、オブジェクト１１
０１の各ＶＯＰの符号化データからヘッダ符号だけを復
号し、主走査方向の位置（VOP1_loc_x）、副走査方向の
位置（VOP1_loc_y）を得ている。同様に、ビデオ復号部
１６では、オブジェクト１１０２の各ＶＯＰの符号化デ
ータからヘッダ符号だけを復号し、ＶＯＰのサイズ、Ｖ
ＯＰの相対位置、即ち、オブジェクト１１０２に関する
ＶＯＰの主走査方向の位置（VOP2_loc_x）、副走査方向
の位置を（VOP2_loc_y）を得ている。

【００３６】このような構成において、ＭＰＥＧ−４ビ
デオデータ入力部５１は、ＭＰＥＧ−４符号化方式に準
拠したビデオ符号化データを入力し、分離器５２は、そ
の入力したビデオ符号化データから、Visual Object Se
quence レイヤ、Visual Objectレイヤ，Video Object L
ayerレイヤ，Video Object Planeレイヤの各ヘッダの符
号化データを分離し、ヘッダ復号部５３でそれらを復号
して、ＶＯＰの大きさや位置に関する情報を位置判定部
８（１７）に出力する。

【００３７】再び、図１に戻って、オーディオ復号部９
は、オブジェクト１１０１に関するビデオの表示間隔の
時間に再生するオーディオデータを復号する。同様に、
オーディオ復号部１８は、オブジェクト１１０２に関す
るビデオの表示間隔の時間に再生するオーディオデータ
を復号する。

【００３８】位置判定部８は、合成指定部１で新たに決
められた画像の中でのオブジェクトの位置（VO1_loc_x_
new）と、ビデオ復号部７から供給される、オブジェク
ト１１０１のＶＯＰの位置（VOP1_loc_x）とを入力す
る。位置判定部８は、これらの情報からオーディオのミ
キシングを行なうパラメータを決定する。ここでオブジ
ェクト１１０１の音源の位置は、（VO1_loc_x_new＋VOP
1_loc_x）で表される。いま画面全体の主走査方向のサ
イズはImage_xであるから、オブジェクト１１０１のオ
ーディオに関するミキシングパラメータＰ1は、Ｐ1 ＝（VO1_loc_x_new＋VOP1_loc_x）／Image_x ...（１）となる。同様にオブジェクト１１０２のオーディオに関
するミキシングパラメータＰ2は、Ｐ2 ＝（VO2_loc_x_new＋VOP2_loc_x）／Image_x ...（２）となる。これらの結果はそれぞれバランス調整部１０，
１９に入力される。

【００３９】バランス調整部１０では、上述のミキシン
グパラメータＰ1に従ってミキシングを行う。ここで、
オブジェクト１１０１に関するオーディオデータの大き
さを概念的にＡ１とする。また、Ａ１を再生する際のス
テレオ再生における左側の大きさを概念的にＡ１Ｌ、右
側の大きさを概念的にＡ１Ｒと定義する。そして、オブ
ジェクト１１０１に関して左右のバランスを計算して、
Ａ１ＲとＡ１Ｌを求める。

【００４０】これは以下の式で求められる。

【００４１】Ａ１Ｌ＝Ａ１×（１−Ｐ1） ...（３）Ａ１Ｒ＝Ａ１×Ｐ1 ...（４）同様にして、バランス調整部１９においても同様に、オ
ブジェクト１１０２に関するオーディオデータの大きさ
を概念的にＡ２とし、Ａ２を再生する際のステレオ再生
における左側の大きさを概念的にＡ２Ｌ、右側の大きさ
を概念的にＡ２Ｒと定義する。

【００４２】このような形でミキシングされたデータ
は、それぞれオーディオ符号化部１１，２０に入力さ
れ、それぞれ、ステレオでＭＰＥＧ−４符号化のオーデ
ィオ符号化方式であるＡＡＣ(Advanced Audio Coding)
符号化等で符号化される。こうして符号化された符号化
オーディオデータは、多重化器２１に入力される。

【００４３】多重化器２１は、システムに関する符号化
データをシステム符号化部２から、オブジェクト１１０
１に関するビデオ符号化データをビデオバッファ６か
ら、そのオーディオ符号化データをオーディオ符号化部
１１から、それぞれ入力する。同様に、オブジェクト１
１０２に関するビデオ符号化データをビデオバッファ１
５から、そのオーディオ符号化データをオーディオ符号
化部２０から入力する。そして、これら入力される符号
化データをＭＰＥＧ−４符号化方式の書式に従って多重
化し、ＭＰＥＧ−４符号化データ出力部２２に出力す
る。

【００４４】図４（ａ）（ｂ）は、こうして符号化され
た符号化データを、例えば従来の図１４に示す画像再生
装置で復号した結果を示す図である。

【００４５】図４（ａ）は最初のフレームの再生表示例
を示し、図４（ｂ）は最終フレームの再生例を示してい
る。最初のフレームでは、オブジェクト１１０１の女性
の声は主に左チャネルの音響装置１０１１から再生され
て、画面の左から主に聞こえてくるが、最終のフレーム
に近づくにつれ、オブジェクト１１０１ａで示すように
女性が右方向に移動しているため、女性の声は右チャネ
ルの音響装置１０１２からも再生されて、画面の右から
主に聞こえてくるように再生できる。

【００４６】以上説明した符号化処理を図５のフローチ
ャートを参照して説明する。

【００４７】まずステップＳ１０１にて、図１のＭＰＥ
Ｇ−４符号化データ入力部３，１２のそれぞれにおいて
ＭＰＥＧ−４符号化データを入力し、ステップＳ１０２
にて、それぞれのシステム復号部５，１４で、各システ
ム符号化データを復号することでオブジェクトの位置情
報を得る。次にステップＳ１０３に進み、合成指定部１
を使用してユーザが、各オブジェクトの位置を指定する
等の編集処理を行ない、その編集結果に基づいて配置さ
れたオブジェクトの各位置を算出する。次にステップＳ
１０４に進み、その新たに算出された位置に応じた配置
情報に基づいて、システム符号化部２によりシステム符
号化を行なう。次にステップＳ１０５にて、オブジェク
トの数（図１の例では"２"）をカウントする変数ｍに"
０"を代入して初期化を行なう。次にステップＳ１０６
に進み、変数ｍの値とオブジェクト数とを比較すること
により、処理が終了したか否かを判定し、全てのオブジ
ェクトに関する処理が終わっていなければステップＳ１
０７に進み、処理を継続する。

【００４８】次にステップＳ１０７では、フレーム数を
カウントする変数ｎに"１"を代入して初期化を行なう。
次にステップＳ１０８に進み、変数ｎの値とフレーム数
とを比較することにより再生が終了したか否かを判定
し、最終フレームでなければステップＳ１０９に進み、
処理を継続する。

【００４９】ステップＳ１０９では、ビデオオブジェク
トの第ｎ番目のＶＯＰ，即ち、第ｎＶＯＰの符号化デー
タをビデオ復号部７（１６）により復号し、そのＶＯＰ
の位置と大きさの情報を得る。次にステップＳ１１０に
進み、オーディオオブジェクトの符号化データから１フ
レームの間隔に匹敵する時間分のオーディオデータを、
オーディオ復号部９（１８）により復号する。次にステ
ップＳ１１１にて、上記（１）式を用いてミキシングの
パラメータＰ1を求める。

【００５０】次にステップＳ１１２に進み、上記（３）
式及び（４）式に従って、バランス調整部１０（１９）
により、個々の再生するオーディオデータを調整する。
次にステップＳ１１３に進み、その調整されたオーディ
オデータをオーディオ符号化部１１（２０）により符号
化する。次にステップＳ１１４にてフレーム数を計数す
る変数ｎに"１"を加え、再度ステップＳ１０８に戻っ
て、処理が終了したかどうかを判断する。ステップＳ１
０８で全てのフレームについて処理が終わったらステッ
プＳ１１５に進み、オブジェクト数を計数する変数ｍ
に"１"を加え、ステップＳ１０６に戻って処理の終了の
判断を行なう。こうして全てのオブジェクトについて処
理が終わったらステップＳ１０６からステップＳ１１６
に進み、その符号化結果を、ＭＰＥＧ−４符号化方式の
書式に従って、多重化器２１により多重化して出力し、
全ての動作を終了する。

【００５１】このような一連の選択動作により、各オブ
ジェクトの位置をより忠実に判定することができ、ビデ
オデータに合わせた違和感のないオーディオデータの符
号化ができる。またフレーム単位で、ビデオに合せてオ
ーディオの発生位置を更新するので、ビデオに合わせた
滑らかな音の移動を反映することも可能になる。この場
合、復号側では特別なオーディオデータの調整は不要と
なる。

【００５２】尚、本実施の形態１においては、入力デー
タをＭＰＥＧ−４符号化データとしたが、本発明はこれ
に限定されるものではない。また本発明は、本実施の形
態１で説明した処理手順に限定されるものではない。例
えば、並列で処理できる場合には、それらを並列処理し
てももちろんかまわない。

【００５３】また本実施の形態１においては、オブジェ
クトの数が２つの場合について説明したが、オブジェク
トが１つの場合でも全く同じであるし、３つ以上になっ
た場合でもそれぞれの復号部を増やすことによって簡単
に対応できる。

【００５４】［実施の形態２］本発明の実施の形態２と
して、図１に示した画像処理装置の構成を用い、ビデオ
復号部７又は１６が異なる構成をとる場合について説明
する。

【００５５】図６は、本発明の実施の形態２に係るビデ
オ復号部７（１６）の構成を示すブロック図である。
尚、前述の実施の形態１（図３）と同様の構成要素につ
いては同一番号を付して、その詳細な説明を省略する。

【００５６】図６において、分離器１５１は、ＭＰＥＧ
−４ビデオ符号化データ入力部５１から入力されるＭＰ
ＥＧ−４ビデオ符号化データから諸情報の符号化データ
であるヘッダ符号と、形状情報の符号化データを分離し
て、それぞれ後段のヘッダ復号部５３、形状復号部１５
２に入力する。形状復号部１５２は、形状情報に関する
符号化データを復号してその形状情報を得る。形状重心
算出部１５３は、形状復号部１５２で得られた形状情報
からオブジェクトの重心位置を計算する。オブジェクト
位置判定部１５４は、ヘッダ復号部５３の出力と形状重
心算出部１５３の出力とからオブジェクトの位置を判定
する。

【００５７】この実施の形態２では、前述の実施の形態
１と同様に、ＭＰＥＧ−４ビデオデータ入力部５１は、
ＭＰＥＧ−４符号化方式に準拠したビデオ符号化データ
を入力する。分離器１５１は、その入力したビデオ符号
化データから、各ヘッダの符号化データ、形状情報に関
する符号化データを分離し、ヘッダの符号化データをヘ
ッダ復号部５３に、形状に関する符号化データを形状復
号部１５２にそれぞれ入力する。ヘッダ復号部５３は、
ＶＯＰのサイズや位置等の、ＶＯＰを復号するに不可欠
な情報を復号し、その復号に必要な情報を各部にセット
し、ＶＯＰの大きさや位置に関する情報をオブジェクト
位置判定部１５４に出力する。形状復号部１５２は、Ｖ
ＯＰの形状情報を表す２値の画像データを復号する。こ
うして復号された結果は、形状重心算出部１５３に出力
される。この形状重心算出部１５３は、形状情報が"１"
である領域の重心、即ち、主走査方向の座標（O_x）、
副走査方向の座標（O_y）を求め、その位置座標をオブ
ジェクト位置判定部１５４に供給している。

【００５８】オブジェクト位置判定部１５４は、ヘッダ
復号部５３の出力から、ＶＯＰの、主走査方向の位置
（VOP1_loc_x）を読み込み、新たなオブジェクトの主走
査方向の位置を（VOP1_loc_p_x）とし、 VOP1_loc_ｐ_x ＝VOP1_loc_x ＋ O_x ...（５）により算出する。なお、ここで外接矩形が無い場合は、
VOP1_loc_xの値は"０"である。

【００５９】この時、図１の位置判定部８は、この新た
なオブジェクトの主走査方向の位置（VOP1_loc_ｐ_x）
を、上記（１）式のVOP1_loc_xの代わりに用いてミキシ
ングパラメータＰ1を算出する。

【００６０】このような一連の選択動作により、ＶＯＰ
が外接矩形を用いない場合でも、オブジェクトの位置を
より忠実に判定することができ、オブジェクトの位置に
応じて違和感のないオーディオの符号化が行なえる。ま
た、フレーム単位で、ビデオオブジェクトの移動に応じ
て、対応するオーディオオブジェクトの位置を更新する
ので、ビデオに応じた滑らかなオーディオの移動を反映
することも可能になる。

【００６１】［実施の形態３］図７は、本発明の実施の
形態３に係る動画像処理装置の構成を示すブロック図で
ある。尚、前述の実施の形態１と同様の構成要素につい
ては同一番号を付してその詳細な説明は省略する。本実
施の形態３では、MPEG-4符号化データを入力してビデオ
とオーディオを符号化する。また本実施の形態３では図
２のオブジェクトの構成を例にとって説明するが、オブ
ジェクトが接近してくる場合について説明する。

【００６２】図８（ａ）（ｂ）にその様子を示す。

【００６３】図８（ａ）は、最初のフレームを示し、図
８（ｂ）が最終フレームであったとき、符号化対象であ
る男性オブジェクト１１０２は手前へと移動している。
ここで男性が手前に移動しても、その男性に関する音の
大きさに変化が無いと、違和感が生じることになる。

【００６４】図７において、２０１，２０２はビデオ復
号部である。２０３，２０４は空間位置判定部で、ビデ
オ復号部２０１，２０２のそれぞれから、ＶＯＰの位置
と距離情報を取得し、また合成指定部１から位置または
距離の情報を入力し、そのビデオにおける位置及び移動
を判定している。２０５，２０６は音量調整部で、空間
位置判定部２０３，２０４の判定出力に応じて、オーデ
ィオ復号部９，１８からのオーディオデータの音量を制
御している。

【００６５】以上の構成による動作を以下に説明する。

【００６６】前述した実施の形態１と同様に、ＭＰＥＧ
−４符号化データ入力部３，１２は、ＭＰＥＧ−４符号
化方式に準拠したエレメンタリ・ストリームを入力す
る。分離器４、１３は、それぞれ入力されるエレメンタ
リ・ストリームを分離し、このうちＢＩＦＳ符号化デー
タはシステム復号部５，１４に送られて復号され、ビデ
オの符号化データはビデオバッファ６，１６にそのまま
格納される。また、オーディオの符号化データはオーデ
ィオ復号部９，１８にそれぞれ入力されて復号される。
システム復号部５，１４では、ＢＩＦＳ符号を復号し、
pixelWidth、pixelHeight等を復号し、合成指定部１に
入力する。

【００６７】合成指定部１は、ユーザの指示或いは、そ
の指示情報に従って、画面の大きさやオブジェクトの配
置や拡大率等を設定する。この時の画面全体のサイズを
設定するとともに、各オブジェクトの位置を設定する。
これらの設定された結果は、システム符号化部２にてＭ
ＰＥＧ−４符号化方式であるＢＩＦＳ符号化が行われ
て、多重化器２１に出力される。一方、ビデオ符号化デ
ータは、ビデオバッファ６，１５から順次読み出され、
ビデオ復号部２０１，２０２に入力される。

【００６８】図９は、本実施の形態３に係るビデオ復号
部２０１（２０２）の構成を示すブロック図である。
尚、前述の実施の形態２に係る図６と同様の構成要素に
ついては同一番号を付してその詳細な説明は省略する。

【００６９】図９において、形状サイズ算出部２５１
は、形状復号部１５２で復号された形状情報からオブジ
ェクトの大きさを計算する。オブジェクト距離判定部２
５２は、形状サイズ算出部２５１の出力に基づいて、画
面を見ている側からオブジェクトまでの距離を判定す
る。ここで前述の実施の形態２と同様に、ＭＰＥＧ−４
ビデオデータ入力部５１は、ＭＰＥＧ−４符号化方式に
準拠したビデオ符号化データを入力する。分離器１５１
は、ビデオ符号化データから、各ヘッダの符号化デー
タ、形状情報に関する符号化データ、テクスチャに関す
る符号化データを分離する。このうち、ヘッダの符号化
データはヘッダ復号部５３に、形状に関する符号化デー
タは形状復号部１５２にそれぞれ入力される。

【００７０】ヘッダ復号部５３は、ＶＯＰのサイズや位
置等のＶＯＰを復号するに不可欠な情報を復号し、その
復号に必要な情報を各部にセットし、ＶＯＰの大きさや
位置に関する情報を空間位置判定部２０３に出力する。
形状復号部１５２は、各ＶＯＰの形状情報を復号し、形
状サイズ算出部２５１に、その復号した形状情報を入力
する。形状サイズ算出部２５１は、形状情報が"１"であ
る画素を計数し、そのサイズＳnを求める。そして、こ
のサイズＳnをオブジェクト距離判定部２５２に入力す
る。オブジェクト距離判定部２５２は、１フレーム前の
サイズＳn-1と今回のサイズＳnとを比較し、次式に従っ
て、距離パラメータＤ1を求める。

【００７１】Ｄ1 = （Ｓn／Ｓn-1）×α ...（６）こうして求められたＤ1は閾値Ｔdと比較され、閾値Ｔd
よりも小さければＤ1＝１とする。この距離パラメータ
Ｄ1は、音量調整部２０５（２０６）に出力される。
尚、ここでαは、予め定められた値である。

【００７２】再び図７に戻って、オーディオ復号部９
は、オブジェクト１１０１に関するビデオの表示間隔の
時間に再生するオーディオのデータを復号する。同様
に、オーディオ復号部１８は、オブジェクト１１０２に
関するビデオの表示間隔の時間に再生するオーディオの
データを復号する。

【００７３】音量調整部２０５は、空間位置判定部２０
３からオブジェクト１１０１の距離パラメータＤ1と、
オーディオ復号部９からの大きさＡ１のオーディオデー
タを入力する。音量調整部２０５は、入力された距離パ
ラメータＤ1と、１フレーム前の音量調節パラメータＭn
-1とから、以下の（７）式に従って音量調節パラメータ
Ｍnを算出する。尚、１フレーム目の音量調節パラメー
タＭ１の値は"１"である。

【００７４】Ｍn ＝Ｄ1 ×Ｍn-1 ...（７）この音量調節パラメータＭnを用いて、オーディオ復号
部９からの大きさＡ１を調整し、その音量の調整値Ａ１
ｍを（８）式から得る。

【００７５】Ａ１ｍ＝Ａ１ × Ｍn ...（８）こうして調整されたオーディオデータは、前述の実施の
形態１，２と同様にして、オーディオ符号化部１１で符
号化され、その符号化結果が多重化器２１に入力され
る。多重化器２１は、それぞれの符号化データをＭＰＥ
Ｇ−４符号化方式の書式に従って多重化し、ＭＰＥＧ−
４符号化データ出力部２２から出力する。

【００７６】同様に、音量調整部２０６も、空間位置判
定部２０４からオブジェクト１１０２の距離パラメータ
Ｄ2と、オーディオ復号部１８からの大きさＡ２のオー
ディオデータを入力する。音量調整部２０６は、入力さ
れた距離パラメータＤ2と、１フレーム前の音量調節パ
ラメータＭn-1とから、以下の（７）式に従って音量調
節パラメータＭnを算出する。尚、１フレーム目の音量
調節パラメータＭ１の値は"１"である。

【００７７】Ｍn ＝Ｄ2 ×Ｍn-1 ...（９）この音量調節パラメータＭnを用いて、オーディオ復号
部１８からの大きさＡ２を調整し、その音量の調整値Ａ
２ｍを下式から得る。

【００７８】Ａ２ｍ＝Ａ２ × Ｍn ...（１０）こうして調整されたオーディオデータは、前述の実施の
形態１，２と同様にして、オーディオ符号化部２０で符
号化され、その符号化結果が多重化器２１に入力され
る。

【００７９】図１０（ａ）（ｂ）は、こうして２つのオ
ブジェクトＶＯ１，ＶＯ２が合成されて表示された結果
を示す図である。

【００８０】図１０（ａ）は最初のフレームを示し、図
１０（ｂ）は最終フレームの様子を示している。最初の
フレームでは、前述したように、女性の声は左から聞こ
え、オブジェクト１１０２の男性の声は小さく再生され
る。そして、最終のフレームでは男性の声は大きく再生
され、女性の声は右側に移動する。

【００８１】以上の処理について図１１のフローチャー
トを用いて説明する。

【００８２】図１１は、本発明の実施の形態３に係る図
７の構成による符号化処理を示すフローチャートであ
る。

【００８３】まずステップＳ２０１で、各ＭＰＥＧ−４
符号化データを入力し、次にステップＳ２０２に進み、
各システム復号部５，１４で、それぞれのシステム符号
化データを復号することにより、各オブジェクトの位置
情報を得る。次にステップＳ２０３に進み、ユーザが編
集を行ない、その編集結果よって、新たに配置されたオ
ブジェクトの各位置を算出する。次にステップＳ２０４
に進み、その編集された新たな配置情報に基づいて、シ
ステム符号化部２でシステム符号化を行なう。次にステ
ップＳ２０５に進み、オブジェクトの数をカウントする
変数ｍに"０"を代入して初期化を行なう。次にステップ
Ｓ２０６に進み、変数ｍの値とオブジェクト数とを比較
することで、全てのオブジェクトに対する処理が終了し
たか否かを判定し、全てのオブジェクトに関する処理が
終わっていなければステップＳ２０７に進み、処理を継
続する。

【００８４】次にステップＳ２０７では、フレーム数を
カウントする変数ｎに"１"を代入して初期化を行なう。
次にステップＳ２０８に進み、変数ｎの値とフレーム数
とを比較することにより、再生が終了したか否かを判定
し、最終フレームでなければステップＳ２０９に進み、
処理を継続する。ステップＳ２０９では、ビデオ復号部
２０１（２０２）によりビデオオブジェクトの第ｎ番目
の第ｎＶＯＰの符号化データを復号し、そのＶＯＰの位
置と大きさの情報、形状情報を得る。次にステップＳ２
１０に進み、オーディオオブジェクトの符号化データか
ら、１フレームの間隔に匹敵する時間分のオーディオデ
ータを復号する。次にステップＳ２１１に進み、そのビ
デオオブジェクトの形状を算出する。次にステップＳ２
１２に進み、上述の（７）式を用いて音量調節パラメー
タＭnを求める。

【００８５】次にステップＳ２１３に進み、（８）式に
従って個々の再生するオーディオデータを調整する。次
にステップＳ２１４に進み、その調整されたオーディオ
データを符号化する。そしてステップＳ２１５でｎの値
に"１"を加え、ステップＳ２０８に進んで、１つのオブ
ジェクトに対する符号化処理が終了したかどうかを判断
する。ステップＳ２０８にて全てのフレームについて処
理が終わったらステップＳ２１６に進み、オブジェクト
の数を計数する変数ｍに"１"を加え、再度ステップＳ２
０６に戻って、全てのオブジェクトに対する処理が終了
したかどうかを判断する。こうしてステップＳ２０６
で、全てのオブジェクトについて処理が終わったと判断
するとステップＳ２１７に進み、それら符号化した結果
をMPEG-4符号化方式の書式に従って多重化して出力し、
全ての動作を終了する。

【００８６】このような一連の動作により、オブジェク
トの大きさから推定される距離を基に、オーディオデー
タを調整することにより、ビデオの遠近感に合せてオー
ディオデータの符号化が行なえる。また、編集によっ
て、ビデオオブジェクトが大きくなったり小さくなった
場合でも、同様にそれに対応する音量を調整することに
より遠近感のあるオーディオデータの符号化を行うこと
ができる。

【００８７】尚、本実施の形態３においては、入力をＭ
ＰＥＧ−４符号化データとしたが、本発明はこれに限定
されるものではない。また本実施の形態３においては、
処理手順はこれに限定されるものではない。例えば、ス
テップＳ２０９とステップＳ２１０は並列で処理しても
かまわないし、他にも並列で処理できるところがあれば
並列処理と行なってももちろん構わない。

【００８８】また本実施の形態３では、オブジェクトが
２つの場合で説明したが、オブジェクトが１つの場合で
も全く同じであるし、３つ以上になった場合でもそれぞ
れの復号部を増やすことによって簡単に対応できる。

【００８９】また本実施の形態３においては、前のフレ
ームと現フレームとのサイズとの比較によって音量調節
パラメータを算出したが、本発明はこれに限定されるも
のでなく、例えば、画面の大きさ（pixelWidth×pixelH
eight）の比較によって、以下の（１１）式のようにし
て求めてもかまわない。

【００９０】Ｍn ＝Ｓn／（pixelWidth × pixelHeight） ...（１１）更に、pixelWidth×pixelHeightの代りにＶＯＰサイズ
の最大値を用いても構わない。

【００９１】また本実施例の形態３においては、オブジ
ェクトのサイズを形状情報から求めたが、VOPのサイズ
を表すvop_width符号とvop_height符号の復号結果を用
いてももちろんかまわない。

【００９２】［実施の形態４］図１２は、本発明の実施
の形態４に係る動画像処理装置の構成を示すブロック図
である。尚、前述の実施の形態１と同様の構成要素につ
いては同一番号を付してその詳細な説明は省略する。

【００９３】本実施の形態４では、ＭＰＥＧ−４符号化
方式のビデオ符号化データとオーディオ符号化データを
入力し、ビデオ符号化データとオーディオ符号化データ
を処理する。ここで、入力されるオーディオの符号化デ
ータは、ＣＥＬＰ(Code Excited Linear Prediction)符
号化であるとし、出力をＭＰＥＧ−１ Layer３符号化で
ステレオ符号化するものとする。また、システム符号化
データはなく、オブジェクトは１つとする。

【００９４】図１２において、５０１はＭＰＥＧ−４符
号化データ入力部で、ビデオ符号化データとオーディオ
符号化データを入力する。５０２は分離器で、入力され
る符号化データを分離して後段の各部に入力する。５０
３はオーディオ復号部で、ＣＥＬＰ符号化データの復号
を行なう。５０４は位置判定部で、前述の実施の形態１
と同様に、ビデオ復号部７からのビデオデータに基づい
て音源の位置を判定する。５０５，５０６は音量調整部
で、位置判定部５０３の出力に応じて左右のチャネルの
音の大きさを調節している。５０７はオーディオ符号化
部で、ＭＰＥＧ−１ Layer3 のステレオ符号化を行な
う。５０８は多重化器で、ＭＰＥＧ−４符号化方式の書
式に従って各符号化データを多重化する。５０９はＭＰ
ＥＧ−４符号化データ出力部で、多重化器５０８で多重
化され符号化されたデータを出力する。

【００９５】以上の構成による動作を以下に説明する。

【００９６】この実施の形態４では前述の実施の形態１
と同様に、ＭＰＥＧ−４符号化データ入力部５０１は、
ＭＰＥＧ−４符号化方式に準拠したビデオ符号化データ
とオーディオ符号化データを入力する。分離器５０２
は、ビデオの符号化データをビデオバッファ６に、オー
ディオの符号化データをオーディオ復号部５０３にそれ
ぞれ入力する。ビデオ符号化データは、ビデオバッファ
６から順次読み出されてビデオ復号部７に入力される。
ビデオ復号部７では、ＶＯＰの符号化データを復号し、
ＶＯＰのサイズ、ＶＯＰの相対位置を得て形状情報を復
号する。オーディオ復号部５０３は、ビデオの表示間隔
の時間に再生するオーディオのデータをＣＥＬＰ符号化
データを復号して得る。位置判定部５０４は、ビデオ復
号部７からＶＯＰの位置を入力する。この場合、オブジ
ェクトの位置は画面の原点である。位置判定部５０４は
ビデオの符号化データを復号したＶＯＰの位置からオー
ディオの左右のチャネルの音を生成するための、右側の
音用の音量調節パラメータＰＲと、左側の音用の音量調
節パラメータＰＬを決定する。尚、ここで図１０のオブ
ジェクト１１０１の音源の位置はVOP1_loc_xで表され
る。

【００９７】いまここで画面全体の主走査方向のサイズ
をオブジェクトのサイズVO_xとすると、オブジェクト１
１０１のオーディオに関する左右の音量調節パラメータ
ＰＲ，ＰＬはそれぞれ、ＰＲ＝VOP1_loc_x／VO_x ...（１２）ＰＬ＝１−ＰＲ ...（１３）となる。これらの各パラメータが、音量調整部５０５と
５０６のそれぞれに入力される。

【００９８】音量調整部５０５では、音量調節パラメー
タＰＬに従って、また音量調整部５０６では音量調節パ
ラメータＰＲに従って、それぞれ音量を調節し、オーデ
ィオ符号化部５０７に入力する。オーディオ符号化部５
０７は、音量調整部５０５からのオーディオデータをス
テレオの左側の音として、音量調整部５０６からのオー
ディオデータをステレオの右側の音としてステレオ符号
化する。

【００９９】この符号化結果は多重化器５０８に入力さ
れ、多重化器５０８はそれぞれの符号化データを多重化
してＭＰＥＧ−４符号化データ出力部５０９から出力す
る。

【０１００】このような一連の選択動作により、システ
ムに関する符号を用いない場合でも、オブジェクトの位
置をより忠実に判定することができ、違和感のないオー
ディオの再生ができる。

【０１０１】更に、モノラルの音からステレオを作り出
すことによって、臨場感を高めることができる。また、
ビデオデータに基づいてフレーム単位で音源の位置を更
新するので、ビデオデータに応じた滑らかな音源の移動
を反映することも可能になる。

【０１０２】なお本発明は、複数の機器（例えばホスト
コンピュータ、インターフェース機器、ビデオカメラ、
ビデオカセットレコーダ、ディスプレイなど）から構成
されるシステムに適用しても、一つの機器からなる装置
（例えば、ビデオカメラ、ビデオカセットレコーダな
ど）に適用しても良い。

【０１０３】また本発明の目的は、前述した実施の形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体（又は記録媒体）をシステム或は装置に
供給し、そのシステム或は装置のコンピュータ（又はＣ
ＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコー
ドを読み出し実行することによっても達成される。この
場合、記憶媒体から読み出されたプログラムコード自体
が前述した実施形態の機能を実現することになり、その
プログラムコードを記憶した記憶媒体は本発明を構成す
ることになる。また、コンピュータが読み出したプログ
ラムコードを実行することにより、前述した実施形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているオペレー
ティングシステム（ＯＳ）などが実際の処理の一部又は
全部を行い、その処理によって前述した実施形態の機能
が実現される場合も含まれる。

【０１０４】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるＣＰＵなどが実際の処理の一部又は全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれる。本発明を簡単にするために各実施の形態
ではオブジェクトが１つの場合について述べたが、オブ
ジェクトごとに同様の処理を行うことで複数のオブジェ
クトに対応することは明らかである。

【０１０５】音響装置を上下にも設ければ、副走査方向
でのオブジェクトの位置による制御が行なえることは明
らかである。

【０１０６】以上の説明したように本実施の形態によれ
ば、ＭＰＥＧ−４のようなオブジェクト符号化で合成し
て符号化する場合に、オブジェクトの位置を考慮して、
ビデオデータとオーディオデータとを符号化することに
より、違和感の無い動画像の符号化データの生成を行な
うことができる。また、オブジェクトの位置を反映させ
ることでモノラルからステレオにすることもできる。

【０１０７】更には、オブジェクトを組み合わせて新し
い構成を作る際にも、３次元空間を定義することなく、
簡易に遠近感や立体感が出せるという効果がある。

【０１０８】

【発明の効果】以上説明したように本発明によれば、オ
ーディオデータとビデオオブジェクトの間の位置的な差
異に基づく違和感を無くして符号化することができる。

【０１０９】また本発明によれば、画面上におけるビデ
オオブジェクトの移動に応じて、それに関連してオーデ
ィオデータの再生位置を移動したり、或いはオーディオ
データの音量を変えることができるという効果がある。

【図面の簡単な説明】

【図１】本発明の実施の形態１に係る動画像処理装置の
機能構成を示すブロック図である。

【図２】本実施の形態に係るオブジェクトを説明する図
である。

【図３】本発明の実施の形態１に係るビデオ復号部の構
成を示すブロック図である。

【図４】本発明の実施の形態１に係るオブジェクトの合
成例を説明する図である。

【図５】本発明の実施の形態１に係る画像符号化処理を
説明するフローチャートである。

【図６】本発明の実施の形態２に係るビデオ復号部の構
成を示すブロック図である。

【図７】本発明の実施の形態３に係る動画像処理装置の
機能構成を示すブロック図である。

【図８】本発明の実施の形態３に係るオブジェクトの一
例を説明する図である。

【図９】本実施の形態３に係るビデオ復号部の構成を示
すブロック図である。

【図１０】本発明の実施の形態３に係るオブジェクトの
合成例を説明する図である。

【図１１】本実施の形態３に係る画像符号化処理を説明
するフローチャートである。

【図１２】本発明の実施の形態４に係る動画像処理装置
の機能構成を示すブロック図である。

【図１３】本実施の形態に係るオブジェクトのの表示例
を説明する図である。

【図１４】MPEG-4符号化データを入力して復号し再生す
る動画像処理装置の構成を示すブロック図である。

Claims

【特許請求の範囲】

【請求項１】符号化したオーディオデータとビデオデ
ータを出力する画像処理装置であって、オーディオ符号化データとビデオ符号化データを入力す
る入力手段と、前記入力手段により入力されるビデオ符号化データの配
置を編集する編集手段と、前記入力手段により入力されるオーディオ符号化データ
を復号してオーディオデータを生成するオーディオ復号
手段と、前記ビデオ符号化データから前記オーディオデータの発
生位置に関する情報を取得する第１音源位置獲得手段
と、前記第１音源位置獲得手段により取得された前記情報
と、前記編集手段により編集された配置に応じて前記オ
ーディオデータの再生位置を制御するオーディオ制御手
段と、前記オーディオ制御手段により再生位置が制御されたオ
ーディオデータを符号化するオーディオ符号化手段と、前記オーディオ符号化手段により符号化されたオーディ
オデータと前記ビデオ符号化データとを多重化して出力
する符号化データ出力手段と、を有することを特徴とす
る画像処理装置。
【請求項２】前記オーディオ制御手段は、前記オーデ
ィオデータの左右のチャネルの音量バランスを制御する
ことを特徴とする請求項１に記載の画像処理装置。
【請求項３】前記ビデオ符号化データから当該ビデオ
の形状情報を抽出する形状情報抽出手段と、前記形状情報抽出手段により抽出された前記形状情報か
ら前記オーディオデータの発生位置に関する情報を取得
する第２音源位置獲得手段と、を更に有することを特徴
とする請求項１又は２に記載の画像処理装置。
【請求項４】符号化したオーディオデータとビデオデ
ータを出力する画像処理装置であって、オーディオ符号化データとビデオ符号化データを入力す
る入力手段と、前記入力手段により入力されるビデオ符号化データの配
置を編集する編集手段と、前記入力手段により入力されるオーディオ符号化データ
を復号してオーディオデータを生成するオーディオ復号
手段と、前記ビデオ符号化データから前記オーディオデータを発
生する位置までの距離に関する情報を取得する音源距離
獲得手段と、前記音源距離獲得手段により取得された前記情報と、前
記編集手段により編集された配置に応じて前記オーディ
オデータの音量を制御するオーディオ制御手段と、前記オーディオ制御手段により音量が制御されたオーデ
ィオデータを符号化するオーディオ符号化手段と、前記オーディオ符号化手段により符号化されたオーディ
オデータと前記ビデオ符号化データとを多重化して出力
する符号化データ出力手段と、を有することを特徴とす
る画像処理装置。
【請求項５】前記音源距離獲得手段は、前記ビデオ符号化データから当該ビデオの形状情報を抽
出する形状情報抽出手段と、前記形状情報抽出手段により抽出された前記形状情報か
ら前記オーディオデータの発生位置までの距離に関する
情報を取得する手段とを有することを特徴とする請求項
４に記載の画像処理装置。
【請求項６】前記ビデオデータは、ＭＰＥＧ−４符号
化方式により符号化されたデータであることを特徴とす
る請求項１乃至５のいずれか１項に記載の画像処理装
置。
【請求項７】前記編集手段による編集結果をＢＩＦＳ
符号化するシステム符号化手段を更に有することを特徴
とする請求項１乃至６のいずれか１項に記載の画像処理
装置。
【請求項８】符号化したオーディオデータとビデオデ
ータを出力する画像処理装置における画像処理方法であ
って、オーディオ符号化データとビデオ符号化データを入力す
る入力工程と、前記入力工程により入力されるビデオ符号化データの配
置を編集する編集工程と、前記入力工程により入力されるオーディオ符号化データ
を復号してオーディオデータを生成するオーディオ復号
工程と、前記ビデオ符号化データから前記オーディオデータの発
生位置に関する情報を取得する第１音源位置獲得工程
と、前記第１音源位置獲得工程で取得された前記情報と、前
記編集工程で編集された配置に応じて前記オーディオデ
ータの再生位置を制御するオーディオ制御工程と、前記オーディオ制御工程で再生位置が制御されたオーデ
ィオデータを符号化するオーディオ符号化工程と、前記オーディオ符号化工程で符号化されたオーディオデ
ータと前記ビデオ符号化データとを多重化して出力する
符号化データ出力工程と、を有することを特徴とする画
像処理方法。
【請求項９】前記オーディオ制御工程では、前記オー
ディオデータの左右のチャネルの音量バランスを制御す
ることを特徴とする請求項８に記載の画像処理方法。
【請求項１０】前記ビデオ符号化データから当該ビデ
オの形状情報を抽出する形状情報抽出工程と、前記形状情報抽出工程で抽出された前記形状情報から前
記オーディオデータの発生位置に関する情報を取得する
第２音源位置獲得工程と、を更に有することを特徴とす
る請求項８又は９に記載の画像処理方法。
【請求項１１】符号化したオーディオデータとビデオ
データを出力する画像処理装置における画像処理方法で
あって、オーディオ符号化データとビデオ符号化データを入力す
る入力工程と、前記入力工程により入力されるビデオ符号化データの配
置を編集する編集工程と、前記入力工程により入力されるオーディオ符号化データ
を復号してオーディオデータを生成するオーディオ復号
工程と、前記ビデオ符号化データから前記オーディオデータを発
生する位置までの距離に関する情報を取得する音源距離
獲得工程と、前記音源距離獲得工程で取得された前記情報と、前記編
集工程で編集された配置に応じて前記オーディオデータ
の音量を制御するオーディオ制御工程と、前記オーディオ制御工程で音量が制御されたオーディオ
データを符号化するオーディオ符号化工程と、前記オーディオ符号化工程で符号化されたオーディオデ
ータと前記ビデオ符号化データとを多重化して出力する
符号化データ出力工程と、を有することを特徴とする画
像処理方法。
【請求項１２】前記音源距離獲得工程では、前記ビデオ符号化データから当該ビデオの形状情報を抽
出する形状情報抽出工程と、前記形状情報抽出工程で抽出された前記形状情報から前
記オーディオデータの発生位置までの距離に関する情報
を取得する工程とを有することを特徴とする請求項１１
に記載の画像処理方法。
【請求項１３】前記ビデオデータは、ＭＰＥＧ−４符
号化方式により符号化されたデータであることを特徴と
する請求項８乃至１２のいずれか１項に記載の画像処理
方法。
【請求項１４】前記編集工程による編集結果をＢＩＦ
Ｓ符号化するシステム符号化工程を更に有することを特
徴とする請求項８乃至１３のいずれか１項に記載の画像
処理方法。
【請求項１５】請求項８乃至１４のいずれか１項に記
載の画像処理方法を実行することを特徴とする画像処理
プログラム。
【請求項１６】請求項８乃至１４のいずれか１項に記
載の画像処理方法を実行するプログラムを記憶したこと
を特徴とする、コンピュータにより読み取り可能な記憶
媒体。