JP2002369129A - 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体 - Google Patents

画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体

Info

Publication number
JP2002369129A
JP2002369129A JP2001171381A JP2001171381A JP2002369129A JP 2002369129 A JP2002369129 A JP 2002369129A JP 2001171381 A JP2001171381 A JP 2001171381A JP 2001171381 A JP2001171381 A JP 2001171381A JP 2002369129 A JP2002369129 A JP 2002369129A
Authority
JP
Japan
Prior art keywords
audio
data
video
encoded
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001171381A
Other languages
English (en)
Inventor
Mitsuru Maeda
充 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001171381A priority Critical patent/JP2002369129A/ja
Publication of JP2002369129A publication Critical patent/JP2002369129A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 オーディオデータとビデオオブジェクトの間
の位置的な差異に基づく違和感を無くす。 【解決手段】 オーディオ符号化データとビデオ符号化
データを入力し、分離器4(13)により、システムに
関するBIFS符号化データ、各オブジェクトのビデオ
符号化データ、オーディオ符号化データに分離し、合成
指定部1では、そのBIFS符号化データを復号した画
面サイズ等の情報と、ユーザにより指定されたオブジェ
クトの配置を得る。位置判定部8(17)は、ビデオ符
号化データからオーディオデータの発生位置に関する情
報を取得し、合成指定部1で指定されたオブジェクトの
配置及びオーディオデータの発生位置に応じて、バラン
ス調整部10(19)に対して、オーディオデータの再
生位置を変更するように指示する。こうして再生バラン
スが調整されたオーディオデータをオーディオ符号化部
11(20)で符号化し、この符号化されたオーディオ
データとビデオ符号化データとを多重化して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、オーディオデータ
とビデオデータからなる画像データを符号化する画像処
理装置、画像処理方法、画像処理プログラム及び画像処
理プログラムが記憶されたコンピュータにより読み取り
可能な記憶媒体に関するもので、特にオブジェクト単位
で画像データを符号化する画像処理に関するものであ
る。
【0002】
【従来の技術】近年、動画像の符号化方式としてMPE
G(Moving Picture Experts Group)−4符号化方式が検
討され、その国際標準化作業が進んでいる。従来のMP
EG−2に代表される動画像符号化では、その符号化の
単位はフレーム或はフィールドを単位であったのに対し
て、コンテンツの再利用や編集を実現するために、MP
EG−4では映像データやオーディオデータをオブジェ
クト(物体)として符号化を行っている。更に、映像デ
ータに含まれる物体も独立して符号化され、それぞれも
オブジェクトとして扱うことができる。その詳細は、例
えば三木弼一編著「MPEG−4のすべて」(工業調査
会)や国際標準ISO/IEC14496−2等に詳し
く記載されている。
【0003】このMPEG−4符号化方式によれば、符
号化対象をオブジェクト(物体)単位で扱うために、画
像における物体の形状が符号化及び復号の際に既知でな
ければならない。また、後ろにある物体が透けて見える
ガラスのような物体を表現するためには、物体がどれだ
けの透明度を有するかといった情報が必要となる。この
ような物体の形状、及び物体の透明度の情報を合わせて
形状情報と呼ぶ。その形状情報の符号化を形状符号化と
呼ぶ。コアプロファイル以上の符号化データでは、この
任意形状を扱うことができる。これは形状の定義により
物体内外を区別し、その内側をMPEG−1,2と同様
に、動き補償とDCT変換符号化からなるテクスチャ符
号化にて処理するものである。
【0004】尚、プロファイルとは、想定されるアプリ
ケーションを実現するためのツール・セットを定義する
ものである。
【0005】また、オブジェクトの配置等を記述するた
めに、システムに関する符号化としてBIFS符号化が
採用されている。これはシーンを記述するための符号化
データであり、画面全体の大きさ、オブジェクトの配
置、再生のタイミング等を記述している。
【0006】以下、図14を参照して、MPEG−4で
符号化された動画像データを再生する装置の機能構成に
ついて説明する。
【0007】図14において、1001はMPEG−4
符号化データ入力部で、MPEG−4符号化方式で符号
化された符号化データを入力する。1002は分離器
で、多重化されたMPEG−4符号化データからシステ
ムに関する符号化データ、ビデオオブジェクトに関する
符号化データ、オーディオオブジェクトに関する符号化
データをそれぞれ分離している。1003はシステム復
号部で、システムに関する符号化データを復号する。1
004,1005はビデオ復号部で、それぞれビデオオ
ブジェクトを復号する。1006,1007はオーディ
オ復号部で、それぞれ左右のチャネルに対応するオーデ
ィオオブジェクトを復号する。1008は画像合成部
で、システム復号部1003の出力結果に基づいて、ビ
デオ復号部1004,1005で復号されたビデオオブ
ジェクトを制御して合成する。1009はミキサであ
り、オーディオ復号部1006,1007で復号された
オーディオデータを合成する。1010は合成された画
像を表示する表示装置(モニタ)であり、1011と1
012は合成された音を再現する音響装置であり、ステ
レオ効果を実現するため、左右に配置される。
【0008】いま、MPEG−4符号化データ入力部1
001から入力されたMPEG−4符号化データは、分
離器1002でそれぞれの符号化データに分離され、そ
れぞれの復号部に入力される。いま再生しようとしてい
るオブジェクトの構成例を図2に示す。
【0009】図2において、1100は画面全体を表
し、女性オブジェクト(VO1)1101と男性オブジェ
クト(VO2)1102とで構成されている。ここで、女
性オブジェクト1101の声が女性オーディオオブジェ
クトとなり、男性オブジェクト1102の声が男性オー
ディオオブジェクトとなる。
【0010】システム復号部1003は、BIFS(Bin
ary Format for Scene) 符号化データを復号し、ビデオ
に関しては画面1100の大きさ、及びその画面内にお
けるオブジェクト1101,1102の配置とオーディ
オオブジェクトとビデオオブジェクトの同期を復号す
る。ここでオブジェクト1101,1102の配置は、
各オブジェクトの左上端と画面左上端との位置関係で表
される。ビデオ復号部1004は女性オブジェクト11
01の画像データを復号し、ビデオ復号部1005は男
性オブジェクト1102の画像データを復号する。また
オーディオ復号部1006は、女性オブジェクト110
1のオーディオオブジェクトを復号し、オーディオ復号
部1007は男性オブジェクト1102のオーディオオ
ブジェクトを復号する。
【0011】画像合成部1008は、システム復号部1
003から出力される各オブジェクトの位置に従って、
女性オブジェクト1101と男性オブジェクト1102
を配置する。ミキサ1009も同様に、システム復号部
1003から出力されるオーディオオブジェクトの位置
に従って、女性オブジェクト1101と男性オブジェク
ト1102のそれぞれのオーディオデータをミキシング
し、左右の音響装置1011と1012から出力できる
ようにバランスを調整する。モニタ1010は画像合成
部1008の出力を表示し、音響装置1011、101
2はオーディオデータを再生する。
【0012】
【発明が解決しようとする課題】MPEG−4符号化で
はコンテンツの再利用が考えられており、各オブジェク
トの再配置等が頻繁に起こる。ビデオのオブジェクト
は、MPEG−4符号化方式ではVideoObjectとして定
義されるが、フレームの最初から最後まで符号化対象が
含まれる大きさで定義される。また符号化対象は、フレ
ーム毎に符号化対象を含む外接矩形で表され、その位置
と大きさは各フレームで定義されている。その矩形の位
置は、主走査方向はvop_horizontal_mc_spatial_ref符
号で、副走査方向はvop_vertical_mc_spatial_ref符号
でそれぞれ表されており、その矩形の大きさは、主走査
方向がvop_width符号に、副走査方向がvop_height符号
でそれぞれ表されている。
【0013】画像合成部1008でビデオオブジェクト
を合成する際に、システム符号で扱うオブジェクトの位
置は、上述のように、矩形の左上端と画面との位置関係
で表される。しかしながら、オブジェクト内を符号化対
象が移動しても、オーディオデータの再現はシステム符
号が扱う位置のみなので、オーディオオブジェクトの再
生とビデオオブジェクトの位置関係にずれが生じ、違和
感が生じる。
【0014】図13(a)(b)にその様子を示す。
【0015】図13(a)は、最初のフレームを示し、
図13(b)が最終フレームであったとき、符号化対象
である女性は左端から右端へと移動する。ここで130
0がオブジェクトを表し、1301がVOP(Video Obj
ect Plane)の外接矩形を表わしている。ところが、オー
ディオ復号部1006,1007から出力される復号し
たオーディオデータは、左が女性のオーディオデータ
で、右が男性のオーディオデータのままであるため、図
13(b)に示すように、そのオブジェクト1300内
で、VOPの外接矩形1302が右側に移動して女性が
左から右に移動しても、そのオーディオデータが、それ
に伴って移動しないという違和感が生じる。
【0016】本発明は上記従来例に鑑みてなされたもの
で、オーディオデータとビデオオブジェクトの間の位置
的な差異に基づく違和感を無くして符号化する画像処理
装置、画像処理方法、画像処理プログラム及び画像処理
プログラムが記憶されたコンピュータにより読み取り可
能な記憶媒体を提供することを目的とする。
【0017】また本発明の目的は、画面上におけるビデ
オオブジェクトの移動に応じて、それに関連してオーデ
ィオデータの再生位置を移動したり、或いはオーディオ
データの音量を変えることができるようにした画像処理
装置、画像処理方法、画像処理プログラム及び画像処理
プログラムが記憶されたコンピュータにより読み取り可
能な記憶媒体を提供することにある。
【0018】
【課題を解決するための手段】上記目的を達成するため
に本発明の画像処理装置は以下のような構成を備える。
即ち、符号化したオーディオデータとビデオデータを出
力する画像処理装置であって、オーディオ符号化データ
とビデオ符号化データを入力する入力手段と、前記入力
手段により入力されるビデオ符号化データの配置を編集
する編集手段と、前記入力手段により入力されるオーデ
ィオ符号化データを復号してオーディオデータを生成す
るオーディオ復号手段と、前記ビデオ符号化データから
前記オーディオデータの発生位置に関する情報を取得す
る第1音源位置獲得手段と、前記第1音源位置獲得手段
により取得された前記情報と、前記編集手段により編集
された配置に応じて前記オーディオデータの再生位置を
制御するオーディオ制御手段と、前記オーディオ制御手
段により再生位置が制御されたオーディオデータを符号
化するオーディオ符号化手段と、前記オーディオ符号化
手段により符号化されたオーディオデータと前記ビデオ
符号化データとを多重化して出力する符号化データ出力
手段と、を有することを特徴とする。
【0019】上記目的を達成するために本発明の画像処
理装置は以下のような構成を備える。即ち、符号化した
オーディオデータとビデオデータを出力する画像処理装
置であって、オーディオ符号化データとビデオ符号化デ
ータを入力する入力手段と、前記入力手段により入力さ
れるビデオ符号化データの配置を編集する編集手段と、
前記入力手段により入力されるオーディオ符号化データ
を復号してオーディオデータを生成するオーディオ復号
手段と、前記ビデオ符号化データから前記オーディオデ
ータを発生する位置までの距離に関する情報を取得する
音源距離獲得手段と、前記音源距離獲得手段により取得
された前記情報と、前記編集手段により編集された配置
に応じて前記オーディオデータの音量を制御するオーデ
ィオ制御手段と、前記オーディオ制御手段により音量が
制御されたオーディオデータを符号化するオーディオ符
号化手段と、前記オーディオ符号化手段により符号化さ
れたオーディオデータと前記ビデオ符号化データとを多
重化して出力する符号化データ出力手段と、を有するこ
とを特徴とする。
【0020】上記目的を達成するために本発明の画像処
理方法は以下のような工程を備える。即ち、符号化した
オーディオデータとビデオデータを出力する画像処理装
置における画像処理方法であって、オーディオ符号化デ
ータとビデオ符号化データを入力する入力工程と、前記
入力工程により入力されるビデオ符号化データの配置を
編集する編集工程と、前記入力工程により入力されるオ
ーディオ符号化データを復号してオーディオデータを生
成するオーディオ復号工程と、前記ビデオ符号化データ
から前記オーディオデータの発生位置に関する情報を取
得する第1音源位置獲得工程と、前記第1音源位置獲得
工程で取得された前記情報と、前記編集工程で編集され
た配置に応じて前記オーディオデータの再生位置を制御
するオーディオ制御工程と、前記オーディオ制御工程で
再生位置が制御されたオーディオデータを符号化するオ
ーディオ符号化工程と、前記オーディオ符号化工程で符
号化されたオーディオデータと前記ビデオ符号化データ
とを多重化して出力する符号化データ出力工程と、を有
することを特徴とする。
【0021】上記目的を達成するために本発明の画像処
理方法は以下のような工程を備える。即ち、符号化した
オーディオデータとビデオデータを出力する画像処理装
置における画像処理方法であって、オーディオ符号化デ
ータとビデオ符号化データを入力する入力工程と、前記
入力工程により入力されるビデオ符号化データの配置を
編集する編集工程と、前記入力工程により入力されるオ
ーディオ符号化データを復号してオーディオデータを生
成するオーディオ復号工程と、前記ビデオ符号化データ
から前記オーディオデータを発生する位置までの距離に
関する情報を取得する音源距離獲得工程と、前記音源距
離獲得工程で取得された前記情報と、前記編集工程で編
集された配置に応じて前記オーディオデータの音量を制
御するオーディオ制御工程と、前記オーディオ制御工程
で音量が制御されたオーディオデータを符号化するオー
ディオ符号化工程と、前記オーディオ符号化工程で符号
化されたオーディオデータと前記ビデオ符号化データと
を多重化して出力する符号化データ出力工程と、を有す
ることを特徴とする。
【0022】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0023】[実施の形態1]図1は、本発明の実施の
形態1に係る動画像処理装置の構成を示すブロック図で
ある。尚、本実施の形態1では、MPEG−4符号化方
式で符号化された符号化データを入力して一旦復号し、
その後でビデオとオーディオをそれぞれ符号化してMP
EG−4符号化データとして出力している。ここでは2
つのオブジェクトを符号化して再生する場合について説
明する。ここでは、前述の図2に示すオブジェクトを用
いて説明する。
【0024】図1において、1は合成指定部で、ユーザ
が内容を編集した結果を受けてオブジェクトの合成を指
定する。2はシステム符号化であり、BIFS符号化デ
ータを生成する。3,12はMPEG−4符号化データ
入力部で、それぞれ図2に示す女性オブジェクト(VO
1)1101と男性オブジェクト(VO2)1102を、M
PEG−4符号化方式で符号化した符号化データを入力
する。4,13は分離器で、入力されるMPEG−4符
号化データから、ビデオ符号化データ及びオーディオ符
号化データを分離して後段の各部に供給している。5,
14はシステム復号部で、それぞれ分離器4,13でそ
れぞれ分離された、MPEG−4符号化方式で符号化さ
れたBIFS符号化データを入力して復号する。6,1
5はビデオバッファであり、それぞれのビデオ符号化デ
ータをそのまま蓄積する。7,16はビデオ復号部で、
分離器4,13で分離されビデオバッファ6,15に記
憶された各ビデオオブジェクトを、フレーム(VOP)
単位で復号する。8,17は位置判定部であり、それぞ
れビデオ復号部7,16で復号されたビデオデータと、
復号したBIFSデータに基づいて、各ビデオオブジェ
クトの位置を判定する。9,18はオーディオ復号部
で、それぞれ分離器4,13で分離されたオーディオオ
ブジェクトを単位時間で復号する。
【0025】10,19はバランス調整部で、位置判定
部8,17のそれぞれの出力、即ち、各ビデオオブジェ
クトの位置に応じて左右の音のバランスを調整する。1
1,20はオーディオ符号化部で、各オーディオ復号部
9,18で復号され、バランス調整部10,19でバラ
ンスが調整されたオーディオデータを、MPEG−4符
号化方式に従って符号化する。21は多重化器で、MP
EG−4符号化方式の書式に従って、ビデオバッファ
6,15からのビデオ符号化データと、オーディオ符号
化部11,20からのオーディオ符号化データ、及びシ
ステム符号化部2で符号化されたBIFS符号化データ
を多重化する。22はMPEG−4符号化データ出力部
で、多重化器21で多重化されたMPEG−4符号化デ
ータを出力する。
【0026】以上の構成による動作を以下に説明する。
【0027】MPEG−4符号化データ入力部3は、図
2の女性のオブジェクト(VO1)1101に関するM
PEG−4符号化方式に準拠したエレメンタリ・ストリ
ームを入力する。また符号化データ入力部12は、図2
の男性のオブジェクト(VO2)1102に関するMP
EG−4符号化方式に準拠したエレメンタリ・ストリー
ムを入力する。
【0028】まず、オブジェクト1101に関する処理
について説明する。
【0029】分離器4は、符号化データ入力部3から入
力されるエレメンタリ・ストリームから、システムに関
するBIFS符号化データ、そのオブジェクトのビデオ
符号化データ、オーディオ符号化データを分離する。B
IFS符号化データはシステム復号部5に、ビデオの符
号化データはビデオバッファ6に、オーディオ符号化デ
ータはオーディオ復号部9にそれぞれ入力される。
【0030】システム復号部5は、その分離されたBI
FS符号を復号し、DecSpecificInfoデスクリプタに記
載されているpixelWidth、pixelHeight等を復号し、合
成指定部1に入力する。同様にして、オブジェクト11
02についても、システム復号部14から諸情報が合成
指定部1に入力される。
【0031】合成指定部1は、ユーザの指示とこれらの
情報に従って、画面の大きさや各オブジェクトの配置を
設定する。この時の画面全体のサイズは、主走査方向の
サイズImage_x、副走査方向のサイズImage_yで規定され
る。またユーザは、各オブジェクトの位置を設定するこ
とができる。ここで、オブジェクト1101の主走査方
向の位置をVO1_loc_xとし、副走査方向の位置をVO1_loc
_yとする。これらの設定結果は、システム符号化部2に
てMPEG−4符号化方式であるBIFS符号化が行わ
れて、多重化器21に出力される。ここで、このビデオ
オブジェクトのフレーム(VOP)は、対象オブジェク
ト1101を含む外接矩形の画像である。ビデオ復号部
7では、このオブジェクト1101の各VOPの符号化
データからヘッダ情報を復号する。
【0032】次に、オブジェクト1102に関しても同
様にして、まず分離器13は、符号化データ入力部12
から入力されるエレメンタリ・ストリームから、システ
ムに関するBIFS符号化データ、そのオブジェクトの
ビデオ符号化データ、オーディオ符号化データを分離す
る。BIFS符号化データはシステム復号部14に、ビ
デオの符号化データはビデオバッファ15に、オーディ
オ符号化データはオーディオ復号部18にそれぞれ入力
される。
【0033】システム復号部14は、その分離されたB
IFS符号を復号し、DecSpecificInfoデスクリプタに
記載されているpixelWidth、pixelHeight等を復号し、
合成指定部1に入力する。ここで、オブジェクト110
2の主走査方向の位置をVO2_loc_x、副走査方向の位置
をVO2_loc_yとする。これらの設定結果はシステム符号
化部2にてMPEG−4符号化方式であるBIFS符号
化が行われて、多重化器21に出力される。ここで、こ
のビデオオブジェクトのフレーム(VOP)は、対象オ
ブジェクト1102を含む外接矩形の画像である。ビデ
オ復号部16では、このオブジェクト1102の各VO
Pの符号化データからヘッダ情報を復号する。
【0034】図3は、本実施の形態に係るビデオ復号部
7(16)の構成を示すブロック図である。
【0035】図3において、ビデオバッファ6からのMP
EG-4符号化ビデオデータは、MPEG−4符号化ビデオ
データ51から入力され、分離器52は、このMPEG
−4ビデオ符号化データからヘッダ符号を分離して後段
のヘッダ復号部53に入力している。このヘッダ復号部
53は、VOPのサイズ、VOPの相対位置(オブジェ
クト1101に関するVOPの主走査方向の位置)を得
ている。即ち、ビデオ復号部7では、オブジェクト11
01の各VOPの符号化データからヘッダ符号だけを復
号し、主走査方向の位置(VOP1_loc_x)、副走査方向の
位置(VOP1_loc_y)を得ている。同様に、ビデオ復号部
16では、オブジェクト1102の各VOPの符号化デ
ータからヘッダ符号だけを復号し、VOPのサイズ、V
OPの相対位置、即ち、オブジェクト1102に関する
VOPの主走査方向の位置(VOP2_loc_x)、副走査方向
の位置を(VOP2_loc_y)を得ている。
【0036】このような構成において、MPEG−4ビ
デオデータ入力部51は、MPEG−4符号化方式に準
拠したビデオ符号化データを入力し、分離器52は、そ
の入力したビデオ符号化データから、Visual Object Se
quence レイヤ、Visual Objectレイヤ,Video Object L
ayerレイヤ,Video Object Planeレイヤの各ヘッダの符
号化データを分離し、ヘッダ復号部53でそれらを復号
して、VOPの大きさや位置に関する情報を位置判定部
8(17)に出力する。
【0037】再び、図1に戻って、オーディオ復号部9
は、オブジェクト1101に関するビデオの表示間隔の
時間に再生するオーディオデータを復号する。同様に、
オーディオ復号部18は、オブジェクト1102に関す
るビデオの表示間隔の時間に再生するオーディオデータ
を復号する。
【0038】位置判定部8は、合成指定部1で新たに決
められた画像の中でのオブジェクトの位置(VO1_loc_x_
new)と、ビデオ復号部7から供給される、オブジェク
ト1101のVOPの位置(VOP1_loc_x)とを入力す
る。位置判定部8は、これらの情報からオーディオのミ
キシングを行なうパラメータを決定する。ここでオブジ
ェクト1101の音源の位置は、(VO1_loc_x_new+VOP
1_loc_x)で表される。いま画面全体の主走査方向のサ
イズはImage_xであるから、オブジェクト1101のオ
ーディオに関するミキシングパラメータP1は、 P1 = (VO1_loc_x_new+VOP1_loc_x)/Image_x ...(1) となる。同様にオブジェクト1102のオーディオに関
するミキシングパラメータP2は、 P2 = (VO2_loc_x_new+VOP2_loc_x)/Image_x ...(2) となる。これらの結果はそれぞれバランス調整部10,
19に入力される。
【0039】バランス調整部10では、上述のミキシン
グパラメータP1に従ってミキシングを行う。ここで、
オブジェクト1101に関するオーディオデータの大き
さを概念的にA1とする。また、A1を再生する際のス
テレオ再生における左側の大きさを概念的にA1L、右
側の大きさを概念的にA1Rと定義する。そして、オブ
ジェクト1101に関して左右のバランスを計算して、
A1RとA1Lを求める。
【0040】これは以下の式で求められる。
【0041】 A1L = A1×(1−P1) ...(3) A1R = A1×P1 ...(4) 同様にして、バランス調整部19においても同様に、オ
ブジェクト1102に関するオーディオデータの大きさ
を概念的にA2とし、A2を再生する際のステレオ再生
における左側の大きさを概念的にA2L、右側の大きさ
を概念的にA2Rと定義する。
【0042】このような形でミキシングされたデータ
は、それぞれオーディオ符号化部11,20に入力さ
れ、それぞれ、ステレオでMPEG−4符号化のオーデ
ィオ符号化方式であるAAC(Advanced Audio Coding)
符号化等で符号化される。こうして符号化された符号化
オーディオデータは、多重化器21に入力される。
【0043】多重化器21は、システムに関する符号化
データをシステム符号化部2から、オブジェクト110
1に関するビデオ符号化データをビデオバッファ6か
ら、そのオーディオ符号化データをオーディオ符号化部
11から、それぞれ入力する。同様に、オブジェクト1
102に関するビデオ符号化データをビデオバッファ1
5から、そのオーディオ符号化データをオーディオ符号
化部20から入力する。そして、これら入力される符号
化データをMPEG−4符号化方式の書式に従って多重
化し、MPEG−4符号化データ出力部22に出力す
る。
【0044】図4(a)(b)は、こうして符号化され
た符号化データを、例えば従来の図14に示す画像再生
装置で復号した結果を示す図である。
【0045】図4(a)は最初のフレームの再生表示例
を示し、図4(b)は最終フレームの再生例を示してい
る。最初のフレームでは、オブジェクト1101の女性
の声は主に左チャネルの音響装置1011から再生され
て、画面の左から主に聞こえてくるが、最終のフレーム
に近づくにつれ、オブジェクト1101aで示すように
女性が右方向に移動しているため、女性の声は右チャネ
ルの音響装置1012からも再生されて、画面の右から
主に聞こえてくるように再生できる。
【0046】以上説明した符号化処理を図5のフローチ
ャートを参照して説明する。
【0047】まずステップS101にて、図1のMPE
G−4符号化データ入力部3,12のそれぞれにおいて
MPEG−4符号化データを入力し、ステップS102
にて、それぞれのシステム復号部5,14で、各システ
ム符号化データを復号することでオブジェクトの位置情
報を得る。次にステップS103に進み、合成指定部1
を使用してユーザが、各オブジェクトの位置を指定する
等の編集処理を行ない、その編集結果に基づいて配置さ
れたオブジェクトの各位置を算出する。次にステップS
104に進み、その新たに算出された位置に応じた配置
情報に基づいて、システム符号化部2によりシステム符
号化を行なう。次にステップS105にて、オブジェク
トの数(図1の例では"2")をカウントする変数mに"
0"を代入して初期化を行なう。次にステップS106
に進み、変数mの値とオブジェクト数とを比較すること
により、処理が終了したか否かを判定し、全てのオブジ
ェクトに関する処理が終わっていなければステップS1
07に進み、処理を継続する。
【0048】次にステップS107では、フレーム数を
カウントする変数nに"1"を代入して初期化を行なう。
次にステップS108に進み、変数nの値とフレーム数
とを比較することにより再生が終了したか否かを判定
し、最終フレームでなければステップS109に進み、
処理を継続する。
【0049】ステップS109では、ビデオオブジェク
トの第n番目のVOP,即ち、第nVOPの符号化デー
タをビデオ復号部7(16)により復号し、そのVOP
の位置と大きさの情報を得る。次にステップS110に
進み、オーディオオブジェクトの符号化データから1フ
レームの間隔に匹敵する時間分のオーディオデータを、
オーディオ復号部9(18)により復号する。次にステ
ップS111にて、上記(1)式を用いてミキシングの
パラメータP1を求める。
【0050】次にステップS112に進み、上記(3)
式及び(4)式に従って、バランス調整部10(19)
により、個々の再生するオーディオデータを調整する。
次にステップS113に進み、その調整されたオーディ
オデータをオーディオ符号化部11(20)により符号
化する。次にステップS114にてフレーム数を計数す
る変数nに"1"を加え、再度ステップS108に戻っ
て、処理が終了したかどうかを判断する。ステップS1
08で全てのフレームについて処理が終わったらステッ
プS115に進み、オブジェクト数を計数する変数m
に"1"を加え、ステップS106に戻って処理の終了の
判断を行なう。こうして全てのオブジェクトについて処
理が終わったらステップS106からステップS116
に進み、その符号化結果を、MPEG−4符号化方式の
書式に従って、多重化器21により多重化して出力し、
全ての動作を終了する。
【0051】このような一連の選択動作により、各オブ
ジェクトの位置をより忠実に判定することができ、ビデ
オデータに合わせた違和感のないオーディオデータの符
号化ができる。またフレーム単位で、ビデオに合せてオ
ーディオの発生位置を更新するので、ビデオに合わせた
滑らかな音の移動を反映することも可能になる。この場
合、復号側では特別なオーディオデータの調整は不要と
なる。
【0052】尚、本実施の形態1においては、入力デー
タをMPEG−4符号化データとしたが、本発明はこれ
に限定されるものではない。また本発明は、本実施の形
態1で説明した処理手順に限定されるものではない。例
えば、並列で処理できる場合には、それらを並列処理し
てももちろんかまわない。
【0053】また本実施の形態1においては、オブジェ
クトの数が2つの場合について説明したが、オブジェク
トが1つの場合でも全く同じであるし、3つ以上になっ
た場合でもそれぞれの復号部を増やすことによって簡単
に対応できる。
【0054】[実施の形態2]本発明の実施の形態2と
して、図1に示した画像処理装置の構成を用い、ビデオ
復号部7又は16が異なる構成をとる場合について説明
する。
【0055】図6は、本発明の実施の形態2に係るビデ
オ復号部7(16)の構成を示すブロック図である。
尚、前述の実施の形態1(図3)と同様の構成要素につ
いては同一番号を付して、その詳細な説明を省略する。
【0056】図6において、分離器151は、MPEG
−4ビデオ符号化データ入力部51から入力されるMP
EG−4ビデオ符号化データから諸情報の符号化データ
であるヘッダ符号と、形状情報の符号化データを分離し
て、それぞれ後段のヘッダ復号部53、形状復号部15
2に入力する。形状復号部152は、形状情報に関する
符号化データを復号してその形状情報を得る。形状重心
算出部153は、形状復号部152で得られた形状情報
からオブジェクトの重心位置を計算する。オブジェクト
位置判定部154は、ヘッダ復号部53の出力と形状重
心算出部153の出力とからオブジェクトの位置を判定
する。
【0057】この実施の形態2では、前述の実施の形態
1と同様に、MPEG−4ビデオデータ入力部51は、
MPEG−4符号化方式に準拠したビデオ符号化データ
を入力する。分離器151は、その入力したビデオ符号
化データから、各ヘッダの符号化データ、形状情報に関
する符号化データを分離し、ヘッダの符号化データをヘ
ッダ復号部53に、形状に関する符号化データを形状復
号部152にそれぞれ入力する。ヘッダ復号部53は、
VOPのサイズや位置等の、VOPを復号するに不可欠
な情報を復号し、その復号に必要な情報を各部にセット
し、VOPの大きさや位置に関する情報をオブジェクト
位置判定部154に出力する。形状復号部152は、V
OPの形状情報を表す2値の画像データを復号する。こ
うして復号された結果は、形状重心算出部153に出力
される。この形状重心算出部153は、形状情報が"1"
である領域の重心、即ち、主走査方向の座標(O_x)、
副走査方向の座標(O_y)を求め、その位置座標をオブ
ジェクト位置判定部154に供給している。
【0058】オブジェクト位置判定部154は、ヘッダ
復号部53の出力から、VOPの、主走査方向の位置
(VOP1_loc_x)を読み込み、新たなオブジェクトの主走
査方向の位置を(VOP1_loc_p_x)とし、 VOP1_loc_p_x =VOP1_loc_x + O_x ...(5) により算出する。なお、ここで外接矩形が無い場合は、
VOP1_loc_xの値は"0"である。
【0059】この時、図1の位置判定部8は、この新た
なオブジェクトの主走査方向の位置(VOP1_loc_p_x)
を、上記(1)式のVOP1_loc_xの代わりに用いてミキシ
ングパラメータP1を算出する。
【0060】このような一連の選択動作により、VOP
が外接矩形を用いない場合でも、オブジェクトの位置を
より忠実に判定することができ、オブジェクトの位置に
応じて違和感のないオーディオの符号化が行なえる。ま
た、フレーム単位で、ビデオオブジェクトの移動に応じ
て、対応するオーディオオブジェクトの位置を更新する
ので、ビデオに応じた滑らかなオーディオの移動を反映
することも可能になる。
【0061】[実施の形態3]図7は、本発明の実施の
形態3に係る動画像処理装置の構成を示すブロック図で
ある。尚、前述の実施の形態1と同様の構成要素につい
ては同一番号を付してその詳細な説明は省略する。本実
施の形態3では、MPEG-4符号化データを入力してビデオ
とオーディオを符号化する。また本実施の形態3では図
2のオブジェクトの構成を例にとって説明するが、オブ
ジェクトが接近してくる場合について説明する。
【0062】図8(a)(b)にその様子を示す。
【0063】図8(a)は、最初のフレームを示し、図
8(b)が最終フレームであったとき、符号化対象であ
る男性オブジェクト1102は手前へと移動している。
ここで男性が手前に移動しても、その男性に関する音の
大きさに変化が無いと、違和感が生じることになる。
【0064】図7において、201,202はビデオ復
号部である。203,204は空間位置判定部で、ビデ
オ復号部201,202のそれぞれから、VOPの位置
と距離情報を取得し、また合成指定部1から位置または
距離の情報を入力し、そのビデオにおける位置及び移動
を判定している。205,206は音量調整部で、空間
位置判定部203,204の判定出力に応じて、オーデ
ィオ復号部9,18からのオーディオデータの音量を制
御している。
【0065】以上の構成による動作を以下に説明する。
【0066】前述した実施の形態1と同様に、MPEG
−4符号化データ入力部3,12は、MPEG−4符号
化方式に準拠したエレメンタリ・ストリームを入力す
る。分離器4、13は、それぞれ入力されるエレメンタ
リ・ストリームを分離し、このうちBIFS符号化デー
タはシステム復号部5,14に送られて復号され、ビデ
オの符号化データはビデオバッファ6,16にそのまま
格納される。また、オーディオの符号化データはオーデ
ィオ復号部9,18にそれぞれ入力されて復号される。
システム復号部5,14では、BIFS符号を復号し、
pixelWidth、pixelHeight等を復号し、合成指定部1に
入力する。
【0067】合成指定部1は、ユーザの指示或いは、そ
の指示情報に従って、画面の大きさやオブジェクトの配
置や拡大率等を設定する。この時の画面全体のサイズを
設定するとともに、各オブジェクトの位置を設定する。
これらの設定された結果は、システム符号化部2にてM
PEG−4符号化方式であるBIFS符号化が行われ
て、多重化器21に出力される。一方、ビデオ符号化デ
ータは、ビデオバッファ6,15から順次読み出され、
ビデオ復号部201,202に入力される。
【0068】図9は、本実施の形態3に係るビデオ復号
部201(202)の構成を示すブロック図である。
尚、前述の実施の形態2に係る図6と同様の構成要素に
ついては同一番号を付してその詳細な説明は省略する。
【0069】図9において、形状サイズ算出部251
は、形状復号部152で復号された形状情報からオブジ
ェクトの大きさを計算する。オブジェクト距離判定部2
52は、形状サイズ算出部251の出力に基づいて、画
面を見ている側からオブジェクトまでの距離を判定す
る。ここで前述の実施の形態2と同様に、MPEG−4
ビデオデータ入力部51は、MPEG−4符号化方式に
準拠したビデオ符号化データを入力する。分離器151
は、ビデオ符号化データから、各ヘッダの符号化デー
タ、形状情報に関する符号化データ、テクスチャに関す
る符号化データを分離する。このうち、ヘッダの符号化
データはヘッダ復号部53に、形状に関する符号化デー
タは形状復号部152にそれぞれ入力される。
【0070】ヘッダ復号部53は、VOPのサイズや位
置等のVOPを復号するに不可欠な情報を復号し、その
復号に必要な情報を各部にセットし、VOPの大きさや
位置に関する情報を空間位置判定部203に出力する。
形状復号部152は、各VOPの形状情報を復号し、形
状サイズ算出部251に、その復号した形状情報を入力
する。形状サイズ算出部251は、形状情報が"1"であ
る画素を計数し、そのサイズSnを求める。そして、こ
のサイズSnをオブジェクト距離判定部252に入力す
る。オブジェクト距離判定部252は、1フレーム前の
サイズSn-1と今回のサイズSnとを比較し、次式に従っ
て、距離パラメータD1を求める。
【0071】 D1 = (Sn/Sn-1)×α ...(6) こうして求められたD1は閾値Tdと比較され、閾値Td
よりも小さければD1=1とする。この距離パラメータ
D1は、音量調整部205(206)に出力される。
尚、ここでαは、予め定められた値である。
【0072】再び図7に戻って、オーディオ復号部9
は、オブジェクト1101に関するビデオの表示間隔の
時間に再生するオーディオのデータを復号する。同様
に、オーディオ復号部18は、オブジェクト1102に
関するビデオの表示間隔の時間に再生するオーディオの
データを復号する。
【0073】音量調整部205は、空間位置判定部20
3からオブジェクト1101の距離パラメータD1と、
オーディオ復号部9からの大きさA1のオーディオデー
タを入力する。音量調整部205は、入力された距離パ
ラメータD1と、1フレーム前の音量調節パラメータMn
-1とから、以下の(7)式に従って音量調節パラメータ
Mnを算出する。尚、1フレーム目の音量調節パラメー
タM1の値は"1"である。
【0074】Mn = D1 ×Mn-1 ...(7) この音量調節パラメータMnを用いて、オーディオ復号
部9からの大きさA1を調整し、その音量の調整値A1
mを(8)式から得る。
【0075】 A1m = A1 × Mn ...(8) こうして調整されたオーディオデータは、前述の実施の
形態1,2と同様にして、オーディオ符号化部11で符
号化され、その符号化結果が多重化器21に入力され
る。多重化器21は、それぞれの符号化データをMPE
G−4符号化方式の書式に従って多重化し、MPEG−
4符号化データ出力部22から出力する。
【0076】同様に、音量調整部206も、空間位置判
定部204からオブジェクト1102の距離パラメータ
D2と、オーディオ復号部18からの大きさA2のオー
ディオデータを入力する。音量調整部206は、入力さ
れた距離パラメータD2と、1フレーム前の音量調節パ
ラメータMn-1とから、以下の(7)式に従って音量調
節パラメータMnを算出する。尚、1フレーム目の音量
調節パラメータM1の値は"1"である。
【0077】 Mn = D2 ×Mn-1 ...(9) この音量調節パラメータMnを用いて、オーディオ復号
部18からの大きさA2を調整し、その音量の調整値A
2mを下式から得る。
【0078】 A2m = A2 × Mn ...(10) こうして調整されたオーディオデータは、前述の実施の
形態1,2と同様にして、オーディオ符号化部20で符
号化され、その符号化結果が多重化器21に入力され
る。
【0079】図10(a)(b)は、こうして2つのオ
ブジェクトVO1,VO2が合成されて表示された結果
を示す図である。
【0080】図10(a)は最初のフレームを示し、図
10(b)は最終フレームの様子を示している。最初の
フレームでは、前述したように、女性の声は左から聞こ
え、オブジェクト1102の男性の声は小さく再生され
る。そして、最終のフレームでは男性の声は大きく再生
され、女性の声は右側に移動する。
【0081】以上の処理について図11のフローチャー
トを用いて説明する。
【0082】図11は、本発明の実施の形態3に係る図
7の構成による符号化処理を示すフローチャートであ
る。
【0083】まずステップS201で、各MPEG−4
符号化データを入力し、次にステップS202に進み、
各システム復号部5,14で、それぞれのシステム符号
化データを復号することにより、各オブジェクトの位置
情報を得る。次にステップS203に進み、ユーザが編
集を行ない、その編集結果よって、新たに配置されたオ
ブジェクトの各位置を算出する。次にステップS204
に進み、その編集された新たな配置情報に基づいて、シ
ステム符号化部2でシステム符号化を行なう。次にステ
ップS205に進み、オブジェクトの数をカウントする
変数mに"0"を代入して初期化を行なう。次にステップ
S206に進み、変数mの値とオブジェクト数とを比較
することで、全てのオブジェクトに対する処理が終了し
たか否かを判定し、全てのオブジェクトに関する処理が
終わっていなければステップS207に進み、処理を継
続する。
【0084】次にステップS207では、フレーム数を
カウントする変数nに"1"を代入して初期化を行なう。
次にステップS208に進み、変数nの値とフレーム数
とを比較することにより、再生が終了したか否かを判定
し、最終フレームでなければステップS209に進み、
処理を継続する。ステップS209では、ビデオ復号部
201(202)によりビデオオブジェクトの第n番目
の第nVOPの符号化データを復号し、そのVOPの位
置と大きさの情報、形状情報を得る。次にステップS2
10に進み、オーディオオブジェクトの符号化データか
ら、1フレームの間隔に匹敵する時間分のオーディオデ
ータを復号する。次にステップS211に進み、そのビ
デオオブジェクトの形状を算出する。次にステップS2
12に進み、上述の(7)式を用いて音量調節パラメー
タMnを求める。
【0085】次にステップS213に進み、(8)式に
従って個々の再生するオーディオデータを調整する。次
にステップS214に進み、その調整されたオーディオ
データを符号化する。そしてステップS215でnの値
に"1"を加え、ステップS208に進んで、1つのオブ
ジェクトに対する符号化処理が終了したかどうかを判断
する。ステップS208にて全てのフレームについて処
理が終わったらステップS216に進み、オブジェクト
の数を計数する変数mに"1"を加え、再度ステップS2
06に戻って、全てのオブジェクトに対する処理が終了
したかどうかを判断する。こうしてステップS206
で、全てのオブジェクトについて処理が終わったと判断
するとステップS217に進み、それら符号化した結果
をMPEG-4符号化方式の書式に従って多重化して出力し、
全ての動作を終了する。
【0086】このような一連の動作により、オブジェク
トの大きさから推定される距離を基に、オーディオデー
タを調整することにより、ビデオの遠近感に合せてオー
ディオデータの符号化が行なえる。また、編集によっ
て、ビデオオブジェクトが大きくなったり小さくなった
場合でも、同様にそれに対応する音量を調整することに
より遠近感のあるオーディオデータの符号化を行うこと
ができる。
【0087】尚、本実施の形態3においては、入力をM
PEG−4符号化データとしたが、本発明はこれに限定
されるものではない。また本実施の形態3においては、
処理手順はこれに限定されるものではない。例えば、ス
テップS209とステップS210は並列で処理しても
かまわないし、他にも並列で処理できるところがあれば
並列処理と行なってももちろん構わない。
【0088】また本実施の形態3では、オブジェクトが
2つの場合で説明したが、オブジェクトが1つの場合で
も全く同じであるし、3つ以上になった場合でもそれぞ
れの復号部を増やすことによって簡単に対応できる。
【0089】また本実施の形態3においては、前のフレ
ームと現フレームとのサイズとの比較によって音量調節
パラメータを算出したが、本発明はこれに限定されるも
のでなく、例えば、画面の大きさ(pixelWidth×pixelH
eight)の比較によって、以下の(11)式のようにし
て求めてもかまわない。
【0090】 Mn = Sn/(pixelWidth × pixelHeight) ...(11) 更に、pixelWidth×pixelHeightの代りにVOPサイズ
の最大値を用いても構わない。
【0091】また本実施例の形態3においては、オブジ
ェクトのサイズを形状情報から求めたが、VOPのサイズ
を表すvop_width符号とvop_height符号の復号結果を用
いてももちろんかまわない。
【0092】[実施の形態4]図12は、本発明の実施
の形態4に係る動画像処理装置の構成を示すブロック図
である。尚、前述の実施の形態1と同様の構成要素につ
いては同一番号を付してその詳細な説明は省略する。
【0093】本実施の形態4では、MPEG−4符号化
方式のビデオ符号化データとオーディオ符号化データを
入力し、ビデオ符号化データとオーディオ符号化データ
を処理する。ここで、入力されるオーディオの符号化デ
ータは、CELP(Code Excited Linear Prediction)符
号化であるとし、出力をMPEG−1 Layer3符号化で
ステレオ符号化するものとする。また、システム符号化
データはなく、オブジェクトは1つとする。
【0094】図12において、501はMPEG−4符
号化データ入力部で、ビデオ符号化データとオーディオ
符号化データを入力する。502は分離器で、入力され
る符号化データを分離して後段の各部に入力する。50
3はオーディオ復号部で、CELP符号化データの復号
を行なう。504は位置判定部で、前述の実施の形態1
と同様に、ビデオ復号部7からのビデオデータに基づい
て音源の位置を判定する。505,506は音量調整部
で、位置判定部503の出力に応じて左右のチャネルの
音の大きさを調節している。507はオーディオ符号化
部で、MPEG−1 Layer3 のステレオ符号化を行な
う。508は多重化器で、MPEG−4符号化方式の書
式に従って各符号化データを多重化する。509はMP
EG−4符号化データ出力部で、多重化器508で多重
化され符号化されたデータを出力する。
【0095】以上の構成による動作を以下に説明する。
【0096】この実施の形態4では前述の実施の形態1
と同様に、MPEG−4符号化データ入力部501は、
MPEG−4符号化方式に準拠したビデオ符号化データ
とオーディオ符号化データを入力する。分離器502
は、ビデオの符号化データをビデオバッファ6に、オー
ディオの符号化データをオーディオ復号部503にそれ
ぞれ入力する。ビデオ符号化データは、ビデオバッファ
6から順次読み出されてビデオ復号部7に入力される。
ビデオ復号部7では、VOPの符号化データを復号し、
VOPのサイズ、VOPの相対位置を得て形状情報を復
号する。オーディオ復号部503は、ビデオの表示間隔
の時間に再生するオーディオのデータをCELP符号化
データを復号して得る。位置判定部504は、ビデオ復
号部7からVOPの位置を入力する。この場合、オブジ
ェクトの位置は画面の原点である。位置判定部504は
ビデオの符号化データを復号したVOPの位置からオー
ディオの左右のチャネルの音を生成するための、右側の
音用の音量調節パラメータPRと、左側の音用の音量調
節パラメータPLを決定する。尚、ここで図10のオブ
ジェクト1101の音源の位置はVOP1_loc_xで表され
る。
【0097】いまここで画面全体の主走査方向のサイズ
をオブジェクトのサイズVO_xとすると、オブジェクト1
101のオーディオに関する左右の音量調節パラメータ
PR,PLはそれぞれ、 PR =VOP1_loc_x/VO_x ...(12) PL =1−PR ...(13) となる。これらの各パラメータが、音量調整部505と
506のそれぞれに入力される。
【0098】音量調整部505では、音量調節パラメー
タPLに従って、また音量調整部506では音量調節パ
ラメータPRに従って、それぞれ音量を調節し、オーデ
ィオ符号化部507に入力する。オーディオ符号化部5
07は、音量調整部505からのオーディオデータをス
テレオの左側の音として、音量調整部506からのオー
ディオデータをステレオの右側の音としてステレオ符号
化する。
【0099】この符号化結果は多重化器508に入力さ
れ、多重化器508はそれぞれの符号化データを多重化
してMPEG−4符号化データ出力部509から出力す
る。
【0100】このような一連の選択動作により、システ
ムに関する符号を用いない場合でも、オブジェクトの位
置をより忠実に判定することができ、違和感のないオー
ディオの再生ができる。
【0101】更に、モノラルの音からステレオを作り出
すことによって、臨場感を高めることができる。また、
ビデオデータに基づいてフレーム単位で音源の位置を更
新するので、ビデオデータに応じた滑らかな音源の移動
を反映することも可能になる。
【0102】なお本発明は、複数の機器(例えばホスト
コンピュータ、インターフェース機器、ビデオカメラ、
ビデオカセットレコーダ、ディスプレイなど)から構成
されるシステムに適用しても、一つの機器からなる装置
(例えば、ビデオカメラ、ビデオカセットレコーダな
ど)に適用しても良い。
【0103】また本発明の目的は、前述した実施の形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体(又は記録媒体)をシステム或は装置に
供給し、そのシステム或は装置のコンピュータ(又はC
PUやMPU)が記憶媒体に格納されたプログラムコー
ドを読み出し実行することによっても達成される。この
場合、記憶媒体から読み出されたプログラムコード自体
が前述した実施形態の機能を実現することになり、その
プログラムコードを記憶した記憶媒体は本発明を構成す
ることになる。また、コンピュータが読み出したプログ
ラムコードを実行することにより、前述した実施形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているオペレー
ティングシステム(OS)などが実際の処理の一部又は
全部を行い、その処理によって前述した実施形態の機能
が実現される場合も含まれる。
【0104】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部又は全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれる。本発明を簡単にするために各実施の形態
ではオブジェクトが1つの場合について述べたが、オブ
ジェクトごとに同様の処理を行うことで複数のオブジェ
クトに対応することは明らかである。
【0105】音響装置を上下にも設ければ、副走査方向
でのオブジェクトの位置による制御が行なえることは明
らかである。
【0106】以上の説明したように本実施の形態によれ
ば、MPEG−4のようなオブジェクト符号化で合成し
て符号化する場合に、オブジェクトの位置を考慮して、
ビデオデータとオーディオデータとを符号化することに
より、違和感の無い動画像の符号化データの生成を行な
うことができる。また、オブジェクトの位置を反映させ
ることでモノラルからステレオにすることもできる。
【0107】更には、オブジェクトを組み合わせて新し
い構成を作る際にも、3次元空間を定義することなく、
簡易に遠近感や立体感が出せるという効果がある。
【0108】
【発明の効果】以上説明したように本発明によれば、オ
ーディオデータとビデオオブジェクトの間の位置的な差
異に基づく違和感を無くして符号化することができる。
【0109】また本発明によれば、画面上におけるビデ
オオブジェクトの移動に応じて、それに関連してオーデ
ィオデータの再生位置を移動したり、或いはオーディオ
データの音量を変えることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る動画像処理装置の
機能構成を示すブロック図である。
【図2】本実施の形態に係るオブジェクトを説明する図
である。
【図3】本発明の実施の形態1に係るビデオ復号部の構
成を示すブロック図である。
【図4】本発明の実施の形態1に係るオブジェクトの合
成例を説明する図である。
【図5】本発明の実施の形態1に係る画像符号化処理を
説明するフローチャートである。
【図6】本発明の実施の形態2に係るビデオ復号部の構
成を示すブロック図である。
【図7】本発明の実施の形態3に係る動画像処理装置の
機能構成を示すブロック図である。
【図8】本発明の実施の形態3に係るオブジェクトの一
例を説明する図である。
【図9】本実施の形態3に係るビデオ復号部の構成を示
すブロック図である。
【図10】本発明の実施の形態3に係るオブジェクトの
合成例を説明する図である。
【図11】本実施の形態3に係る画像符号化処理を説明
するフローチャートである。
【図12】本発明の実施の形態4に係る動画像処理装置
の機能構成を示すブロック図である。
【図13】本実施の形態に係るオブジェクトのの表示例
を説明する図である。
【図14】MPEG-4符号化データを入力して復号し再生す
る動画像処理装置の構成を示すブロック図である。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 符号化したオーディオデータとビデオデ
    ータを出力する画像処理装置であって、 オーディオ符号化データとビデオ符号化データを入力す
    る入力手段と、 前記入力手段により入力されるビデオ符号化データの配
    置を編集する編集手段と、 前記入力手段により入力されるオーディオ符号化データ
    を復号してオーディオデータを生成するオーディオ復号
    手段と、 前記ビデオ符号化データから前記オーディオデータの発
    生位置に関する情報を取得する第1音源位置獲得手段
    と、 前記第1音源位置獲得手段により取得された前記情報
    と、前記編集手段により編集された配置に応じて前記オ
    ーディオデータの再生位置を制御するオーディオ制御手
    段と、 前記オーディオ制御手段により再生位置が制御されたオ
    ーディオデータを符号化するオーディオ符号化手段と、 前記オーディオ符号化手段により符号化されたオーディ
    オデータと前記ビデオ符号化データとを多重化して出力
    する符号化データ出力手段と、を有することを特徴とす
    る画像処理装置。
  2. 【請求項2】 前記オーディオ制御手段は、前記オーデ
    ィオデータの左右のチャネルの音量バランスを制御する
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 【請求項3】 前記ビデオ符号化データから当該ビデオ
    の形状情報を抽出する形状情報抽出手段と、 前記形状情報抽出手段により抽出された前記形状情報か
    ら前記オーディオデータの発生位置に関する情報を取得
    する第2音源位置獲得手段と、を更に有することを特徴
    とする請求項1又は2に記載の画像処理装置。
  4. 【請求項4】 符号化したオーディオデータとビデオデ
    ータを出力する画像処理装置であって、 オーディオ符号化データとビデオ符号化データを入力す
    る入力手段と、 前記入力手段により入力されるビデオ符号化データの配
    置を編集する編集手段と、 前記入力手段により入力されるオーディオ符号化データ
    を復号してオーディオデータを生成するオーディオ復号
    手段と、 前記ビデオ符号化データから前記オーディオデータを発
    生する位置までの距離に関する情報を取得する音源距離
    獲得手段と、 前記音源距離獲得手段により取得された前記情報と、前
    記編集手段により編集された配置に応じて前記オーディ
    オデータの音量を制御するオーディオ制御手段と、 前記オーディオ制御手段により音量が制御されたオーデ
    ィオデータを符号化するオーディオ符号化手段と、 前記オーディオ符号化手段により符号化されたオーディ
    オデータと前記ビデオ符号化データとを多重化して出力
    する符号化データ出力手段と、を有することを特徴とす
    る画像処理装置。
  5. 【請求項5】 前記音源距離獲得手段は、 前記ビデオ符号化データから当該ビデオの形状情報を抽
    出する形状情報抽出手段と、 前記形状情報抽出手段により抽出された前記形状情報か
    ら前記オーディオデータの発生位置までの距離に関する
    情報を取得する手段とを有することを特徴とする請求項
    4に記載の画像処理装置。
  6. 【請求項6】 前記ビデオデータは、MPEG−4符号
    化方式により符号化されたデータであることを特徴とす
    る請求項1乃至5のいずれか1項に記載の画像処理装
    置。
  7. 【請求項7】 前記編集手段による編集結果をBIFS
    符号化するシステム符号化手段を更に有することを特徴
    とする請求項1乃至6のいずれか1項に記載の画像処理
    装置。
  8. 【請求項8】 符号化したオーディオデータとビデオデ
    ータを出力する画像処理装置における画像処理方法であ
    って、 オーディオ符号化データとビデオ符号化データを入力す
    る入力工程と、 前記入力工程により入力されるビデオ符号化データの配
    置を編集する編集工程と、 前記入力工程により入力されるオーディオ符号化データ
    を復号してオーディオデータを生成するオーディオ復号
    工程と、 前記ビデオ符号化データから前記オーディオデータの発
    生位置に関する情報を取得する第1音源位置獲得工程
    と、 前記第1音源位置獲得工程で取得された前記情報と、前
    記編集工程で編集された配置に応じて前記オーディオデ
    ータの再生位置を制御するオーディオ制御工程と、 前記オーディオ制御工程で再生位置が制御されたオーデ
    ィオデータを符号化するオーディオ符号化工程と、 前記オーディオ符号化工程で符号化されたオーディオデ
    ータと前記ビデオ符号化データとを多重化して出力する
    符号化データ出力工程と、を有することを特徴とする画
    像処理方法。
  9. 【請求項9】 前記オーディオ制御工程では、前記オー
    ディオデータの左右のチャネルの音量バランスを制御す
    ることを特徴とする請求項8に記載の画像処理方法。
  10. 【請求項10】 前記ビデオ符号化データから当該ビデ
    オの形状情報を抽出する形状情報抽出工程と、 前記形状情報抽出工程で抽出された前記形状情報から前
    記オーディオデータの発生位置に関する情報を取得する
    第2音源位置獲得工程と、を更に有することを特徴とす
    る請求項8又は9に記載の画像処理方法。
  11. 【請求項11】 符号化したオーディオデータとビデオ
    データを出力する画像処理装置における画像処理方法で
    あって、 オーディオ符号化データとビデオ符号化データを入力す
    る入力工程と、 前記入力工程により入力されるビデオ符号化データの配
    置を編集する編集工程と、 前記入力工程により入力されるオーディオ符号化データ
    を復号してオーディオデータを生成するオーディオ復号
    工程と、 前記ビデオ符号化データから前記オーディオデータを発
    生する位置までの距離に関する情報を取得する音源距離
    獲得工程と、 前記音源距離獲得工程で取得された前記情報と、前記編
    集工程で編集された配置に応じて前記オーディオデータ
    の音量を制御するオーディオ制御工程と、 前記オーディオ制御工程で音量が制御されたオーディオ
    データを符号化するオーディオ符号化工程と、 前記オーディオ符号化工程で符号化されたオーディオデ
    ータと前記ビデオ符号化データとを多重化して出力する
    符号化データ出力工程と、を有することを特徴とする画
    像処理方法。
  12. 【請求項12】 前記音源距離獲得工程では、 前記ビデオ符号化データから当該ビデオの形状情報を抽
    出する形状情報抽出工程と、 前記形状情報抽出工程で抽出された前記形状情報から前
    記オーディオデータの発生位置までの距離に関する情報
    を取得する工程とを有することを特徴とする請求項11
    に記載の画像処理方法。
  13. 【請求項13】 前記ビデオデータは、MPEG−4符
    号化方式により符号化されたデータであることを特徴と
    する請求項8乃至12のいずれか1項に記載の画像処理
    方法。
  14. 【請求項14】 前記編集工程による編集結果をBIF
    S符号化するシステム符号化工程を更に有することを特
    徴とする請求項8乃至13のいずれか1項に記載の画像
    処理方法。
  15. 【請求項15】 請求項8乃至14のいずれか1項に記
    載の画像処理方法を実行することを特徴とする画像処理
    プログラム。
  16. 【請求項16】 請求項8乃至14のいずれか1項に記
    載の画像処理方法を実行するプログラムを記憶したこと
    を特徴とする、コンピュータにより読み取り可能な記憶
    媒体。
JP2001171381A 2001-06-06 2001-06-06 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体 Withdrawn JP2002369129A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001171381A JP2002369129A (ja) 2001-06-06 2001-06-06 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001171381A JP2002369129A (ja) 2001-06-06 2001-06-06 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体

Publications (1)

Publication Number Publication Date
JP2002369129A true JP2002369129A (ja) 2002-12-20

Family

ID=19013157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001171381A Withdrawn JP2002369129A (ja) 2001-06-06 2001-06-06 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP2002369129A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074386A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 立体音響再生方法、通信装置及びプログラム
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074386A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 立体音響再生方法、通信装置及びプログラム
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US11902704B2 (en) Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
US9646620B1 (en) Method and device for processing audio signal
US10026452B2 (en) Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
JP6734343B2 (ja) スクリーン関連オーディオオブジェクトリマッピングのための装置および方法
RU2546546C2 (ru) Способы и системы для представления трехмерных изображений движения с адаптивной к содержимому информацией
US9473813B2 (en) System and method for providing immersive surround environment for enhanced content experience
JP2003533101A (ja) 予測符号化オブジェクトベース画像信号を予測符号化ブロックベース画像信号にトランスコーディングするトランスコーディング方法およびトランスコーダ
JP2012085348A (ja) 画像復号化装置および画像復号化方法
KR20190013758A (ko) 음향 처리 장치 및 방법, 그리고 프로그램
WO2021241190A1 (ja) メディア配信装置およびメディア配信方法、並びにプログラム
JP2002369129A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
JP2002369152A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
JPH10271499A (ja) 画像領域を用いる画像処理方法、その方法を用いた画像処理装置および画像処理システム
JP2000175118A (ja) 放送受信装置およびその方法
US20220122616A1 (en) Information processing device and information processing method
EP2719196B1 (en) Method and apparatus for generating 3d audio positioning using dynamically optimized audio 3d space perception cues
KR100810649B1 (ko) 동영상 파일과 멀티미디어 파일을 합성하는 시스템 및 그방법
JP2001119302A (ja) 符号化装置、復号装置、情報処理システム、情報処理方法、及び記憶媒体
JP2002094996A (ja) 受信装置
JP2006512832A (ja) 映像符号化及び復号化方法
KR20230153226A (ko) 다채널 오디오 신호 처리 장치 및 방법
JPH11239319A (ja) 高能率符号化画像信号合成装置及び編集装置
JP2004032496A (ja) 映像コマ数削減装置および映像コマ数削減方法
JP2001268564A (ja) 画像のデフォーカス量符号化復号化方法および符号化装置と復号化装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080902