JP5377505B2 - 結合装置、遠隔通信システム及び結合方法 - Google Patents

結合装置、遠隔通信システム及び結合方法 Download PDF

Info

Publication number
JP5377505B2
JP5377505B2 JP2010532766A JP2010532766A JP5377505B2 JP 5377505 B2 JP5377505 B2 JP 5377505B2 JP 2010532766 A JP2010532766 A JP 2010532766A JP 2010532766 A JP2010532766 A JP 2010532766A JP 5377505 B2 JP5377505 B2 JP 5377505B2
Authority
JP
Japan
Prior art keywords
parameter
substream
downmix
combined
combining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010532766A
Other languages
English (en)
Other versions
JPWO2010090019A1 (ja
Inventor
智一 石川
武志 則松
ゾウ フアン
ハイ シャン ジョン
セン チョン コック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2010532766A priority Critical patent/JP5377505B2/ja
Publication of JPWO2010090019A1 publication Critical patent/JPWO2010090019A1/ja
Application granted granted Critical
Publication of JP5377505B2 publication Critical patent/JP5377505B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、結合装置、遠隔通信システム及び結合方法に関し、特に、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含み、複数のサイトの各々から送信される複数の符号化ビットストリームを結合する結合装置に関する。
近年、パラメトリック符号化技術は、その高い符号化効率及び音像再生という利点のため、オーディオ符号化分野において非常に積極的に発展している。伝統的な波形符号化方法と比較すると、パラメトリック符号化方法は、人間の聴覚システムの限界を広げるだけでなく、サウンドシーン特性を捉えることによってオーディオ入力信号をモデル化できる。当該技術分野において周知の技術には、パラメトリックステレオ及びMPEGサラウンドに関連する符号化方法等がある。
典型的なパラメトリック符号化装置100を図1に示す。図1に示すパラメトリック符号化装置100は、T−F(時間−周波数)変換部101と、アナライザ102と、F−T(周波数−時間)変換部103と、ダウンミックスエンコーダ104とを備える。
T−F変換部101は、時間信号である複数のオーディオ入力信号110を複数の周波数信号111に変換する。
アナライザ102は、変換された周波数信号111を2つの方法で分析する。このアナライザ102は、ダウンミックス部102Aと、パラメータ抽出部102Bとを備える。
ダウンミックス部102Aは、複数の周波数信号111からモノラル又はステレオの中間ダウンミックス信号112を生成する。パラメータ抽出部102Bは、複数の周波数信号111からパラメータを抽出し、抽出したパラメータを含むパラメータサブストリーム113を出力する。
F−T変換部103は、中間ダウンミックス信号112を、時間ドメインに逆変換することにより、ダウンミックス時間信号114を生成する。
ダウンミックスエンコーダ104は、ダウンミックス時間信号114を圧縮し、圧縮した信号を含むダウンミックスサブストリーム115を出力する。
このように、当該パラメトリック符号化されたオーディオストリームは、ダウンミックスサブストリーム115とそれに対応するパラメータサブストリーム113とを含む。
なお、実際には、この2つのサブストリームは、単一のオーディオストリームに多重化される。しかし、後述の説明を分かりやすくするために、エンコーダにおける多重化処理及びデコーダにおける逆多重化処理については説明を省略する。
典型的なパラメトリック復号装置200を図2に示す。このパラメトリック復号装置200は、ダウンミックスデコーダ201と、T−F変換部202と、パラメータ合成部203と、F−T変換部204とを備える。
ダウンミックスデコーダ201は、受信したダウンミックスサブストリーム115を、モノラル又はステレオの時間信号213に復号する。
T−F変換部202は、時間信号213を、パラメトリック分析ドメインに再度変換することにより周波数信号214を生成する。
パラメータ合成部203は、受信したパラメータサブストリーム113から導かれる情報に従って周波数信号214を合成することにより複数の変換信号215を生成する。
F−T変換部204は、変換信号215を、時間ドメインへ逆変換することにより複数のオーディオ出力信号216を生成する。この複数のオーディオ出力信号216は、単一の信号入力としての同一の空間的音像を知覚的に表す。
上述の符号化手順は、パラメトリックエンコーダの2つの特徴を示す。すなわちそれらは、送信チャネル数の削減から得られる高い符号化効率と、空間的に関連するパラメータの合成によって実現されるリアルなアコースティックシーンの再構築である。
これら2つの特徴のため、パラメトリックエンコーダは、遠隔通信システムにおいて特に好んで採用される。そのようなシステムにおける各通信サイトは、複数話者からの複数のオーディオ入力信号110を入力とし、通常、遠隔地においてもリアルな臨場感が得られる効果を期待できる。
図3は、4つの遠隔会議サイト301A〜301Dを含む遠隔通信システム300を示す図である。なお、サイト301A〜301Dを特に区別しない場合には、サイト301と記す。
各サイト301(例えば、サイト301A)で、パラメトリックコーデックが採用される。当該サイト301は、取得したオーディオ入力信号110の全てをパラメトリック符号化することにより、符号化ビットストリーム116(ダウンミックスサブストリームDmx及びパラメータサブストリームParasを含む)を生成する。また、生成された符号化ビットストリーム116は、他の3つのサイト301B〜301Dに送信される。
一方、各サイト301は、受信した符号化ビットストリーム116をそれぞれパラメトリック復号する(当該符号化ビットストリーム116は、3つのダウンミックスサブストリームDmx、Dmx、及びDmxと、3つのパラメータサブストリームParas、Paras、及びParasとを含む)。
しかしながら、一般的に、セットアップ要求を満たしつつ送信帯域を妥当な程度に低く保つためには、複数の送信サイトから複数の符号化ビットストリーム116を単一の受信サイトへの直接送信することは困難である。よって、各サイト301が確実に単一のオーディオストリームのみを受信し送信するために、結合装置(多地点接続装置:MCU305)が導入されて全サイト301A〜301Dに接続されている。
このMCU305は、各サイト301のために、演算上効率がよい方法で、受信した複数の符号化ビットストリーム116を単一の結合ビットストリーム124に結合する。理想的には、結合ビットストリーム124は、あたかも、他のサイト301からの複数の符号化ビットストリーム116の全てが、単一の仮想サイトにおいて符号化されたようなストリームに近似されるべきである。
これを実現するため、図4に示すような単純な結合方法を設計可能である。図4は、MCU305の機能構成を示すブロック図である。図4に示すようにMCU305は、3つの独立したパラメトリックデコーダ401〜403と、加算部404と、パラメトリックエンコーダ405とを備える。
3つのパラメトリックデコーダ401〜403は、各サイト301(例えば、サイト301A)のために、他のサイト301(サイト301B、301C及び301D)からの符号化ビットストリーム116の全てを復号することにより、時間ドメインの復号信号411B、411C及び411Dを生成する。
加算部404は、生成された復号信号411B、411C及び411D加算することにより加算信号412を生成する。
パラメトリックエンコーダ405は、加算信号412を再符号化することにより結合ビットストリーム124を生成する。
このような単純なケースでさえも、N個のサイトを接続する遠隔通信システムにおいて、MCU305がN個の独立したタンデムパラメトリック復号及び符号化するプロセスを必要とすることが分かる。その結果、MCU305の演算量が多くなり、これにより信号伝送の遅延量が増加する。また、この演算量は、サイト数の増加にともなって線形的に増加する。よって、MCU305で、リアルタイム処理を要するアプリケーションを実行することが困難である。
また、遅延時間が少なく演算量が少ないMCU305を設計するには、パラメトリック符号化の利点をさらに利用する必要がある。つまり、そのオーディオストリームフォーマットは、演算上効率的な方法で2つ以上のストリームを単一の信号ストリームに結合する機能を実現可能にする。より詳しくは、当該ダウンミックスサブストリームをダウンミックス符号化ドメインにおいて結合することが可能であり、パラメータサブストリームをパラメータ分析ドメインにおいて結合することが可能である。
効率的なMCUの設計を扱う同様の方法が従来技術にもいくつかある。
例えば、特許文献1は、複数のパラメトリック符号化オーディオ信号を効率的に結合する方法を提案している。しかしながら、特許文献1においては、簡潔さを追求するために、ダウンミックス結合とパラメータ結合とは独立している。さらに、当該ダウンミックス結合方法においては、非常におおざっぱな結合方法を用いた偏った方法が示されているだけである。また、当該パラメータ結合方法においては、異なるパラメータ分析ドメインを用いる際の課題への対処がなされていない。
米国特許出願公開第2008/0008323号明細書
S.−W.Huangら、 「A low complexity design of psycho−acoustic model for MPEG−2/4 advanced audio coding」、IEEE Trans. on consumer electronics, Nov. 2004 T−H Tsaiら、 「An MDCT−based psychoacou−stic model co−processor design for MPEG−2/4 AAC audio encoder」、Proc. Of the 7th Int. Conference on digital audio effects,2004 I.Dimkoviaeら、「Fast software implemen−tation of MPEG advanced audio encoder」、 14th Int.Conference on DSP,2002
パラメトリックオーディオ符号化方法は、その高い符号化効率及びサウンドシーン再生という特徴のために、実際の通信システムにおいて好まれる。このシナリオを実現するためには、ある実務的な課題に取り組まなければならない。すなわち、パラメトリック符号化された複数のオーディオストリームを、いかにして低演算量で単一のストリームに結合するかという課題である。
そこで、本発明は、演算量を低減できる結合装置を提供することを目的とする。
上記目的を達成するために、本発明の一形態に係る結合装置は、複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する結合装置であって、前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出部と、複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合部と、複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合部と、前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信部とを備える。
この構成によれば、本発明の一形態に係る結合装置は、非アクティブな符号化ビットストリームに対しては結合処理を行わない。このように、本発明の一形態に係る結合装置は、各サイトがアクティブであるか否かを考慮することによって演算量を低減できる。
また、前記第1結合部は、前記複数のダウンミックスサブストリームのうち、前記アクティブ符号化ビットストリームに含まれる前記ダウンミックスサブストリームのみを復号することにより複数の復号ダウンミックスサブストリームを生成する復号部と、前記複数の復号ダウンミックスサブストリームを加算することにより1以上の中間結合ダウンミックスサブストリームを生成する加算部と、前記1以上の中間結合ダウンミックスサブストリームを符号化することにより1以上の前記結合ダウンミックスサブストリームを生成する符号化部とを備えてもよい。
この構成によれば、本発明の一形態に係る結合装置は、非アクティブな符号化ビットストリームに対しては復号処理を行わない。これにより、本発明の一形態に係る結合装置は、演算量を低減できる。
また、前記第1結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のダウンミックスサブストリームのうち、当該サイト以外のサイトから送信された複数のダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合ダウンミックスサブストリームを生成し、前記第2結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のパラメータサブストリームのうち、当該サイト以外のサイトから送信された複数のパラメータダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合パラメータサブストリームを生成し、前記送信部は、前記結合ダウンミックスサブストリーム及び前記結合パラメータサブストリームを含む結合ビットストリームを、対応するサイトへ送信し、前記複数の符号化ビットストリームのうち、前記アクティブ符号化ビットストリーム以外の符号化ビットストリームである非アクティブ符号化ビットストリームの数が2以上の場合、(1)前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のダウンミックスサブストリームを結合することにより共通結合ダウンミックスサブストリームを生成し、(2)前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のパラメータサブストリームを結合することにより共通結合パラメータサブストリームを生成し、(3)前記送信部は、前記共通結合ダウンミックスサブストリーム及び前記共通結合パラメータサブストリームを含む共通結合ビットストリームを、前記2以上の非アクティブ符号化ビットストリームの送信元のサイトへ送信してもよい。
この構成によれば、本発明の一形態に係る結合装置は、非アクティブなサイトが複数存在する場合、当該複数の非アクティブなサイトに対して、共通の結合ビットストリームを送信する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量を低減できる。
また、前記アクティブ符号化ビットストリームの数が2の場合、前記送信部は、前記2個のアクティブ符号化ビットストリームの一方である第1符号化ビットストリームをそのまま、前記2個のアクティブ符号化ビットストリームの他方である第2符号化ビットストリームの送信元のサイトへ送信し、前記第2符号化ビットストリームをそのまま前記第1符号化ビットストリームの送信元のサイトへ送信してもよい。
この構成によれば、本発明の一形態に係る結合装置は、アクティブサイトが2個の場合、当該アクティブサイトから送信された符号化ビットストリームをそのまま送信する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量を低減できる。
また、前記アクティブ符号化ビットストリームの数が1の場合、前記送信部は、前記アクティブ符号化ビットストリームをそのまま、当該アクティブ符号化ビットストリームの送信元のサイト以外のサイトへ送信してもよい。
この構成によれば、本発明の一形態に係る結合装置は、アクティブサイトが1個の場合、当該アクティブサイトから送信された符号化ビットストリームをそのまま送信する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量を低減できる。
また、前記検出部は、前記複数のパラメータサブストリームに含まれる情報を用いて、前記アクティブ符号化ビットストリームを検出してもよい。
この構成によれば、本発明の一形態に係る結合装置は、パラメータストリームに含まれる情報を用いて、アクティブ符号化ビットストリームを容易に検出できる。
また、前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームを結合することにより、前記単一の結合ダウンミックスサブストリームを生成し、前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームを結合することにより、前記単一の結合パラメータサブストリームを生成し、前記送信部は、前記単一の結合ダウンミックスサブストリーム及び前記単一の結合パラメータサブストリームとを含む単一の結合ビットストリームを、前記複数のサイトの全てへ送信してもよい。
この構成によれば、本発明の一形態に係る結合装置は、全サイトで共用される単一の結合ビットストリームのみを生成する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量をさらに低減できる。
また、前記結合装置は、さらに、前記アクティブ符号化ビットストリームの送信元であるアクティブサイトの各々に対して、前記単一の結合ビットストリームの信号成分のうち、当該アクティブサイトにより送信された前記符号化ビットストリームに対応する信号成分を特定するための補助情報を生成する補助情報生成部を備え、前記送信部は、複数の前記補助情報の各々を、対応するアクティブサイトへ送信してもよい。
この構成によれば、各サイトは、本発明の一形態に係る結合装置により送信された補助情報を用いて、自サイトが送信した符号化ビットストリームの信号成分を除外できる。
また、前記補助情報生成部は、前記アクティブサイトの各々に対して、前記単一の結合パラメータサブストリームに含まれるパラメータのうち、当該アクティブサイトにより送信された前記パラメータサブストリームに対応するパラメータを特定するための前記補助情報を生成してもよい。
この構成によれば、各サイトは、本発明の一形態に係る結合装置により送信された補助情報を用いてパラメータを更新することにより、自サイトが送信した符号化ビットストリームの信号成分を除外できる。
また、前記第2結合部は、前記複数のパラメータサブストリームが、異なるパラメータ表現基準で表現されている場合、当該複数のパラメータサブストリームのパラメータ表現基準を、単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータを生成するパラメータ基準統一部を備え、前記第2結合部は、前記複数の統一パラメータを結合することにより、前記結合パラメータサブストリームを生成してもよい。
この構成によれば、本発明の一形態に係る結合装置は、複数のパラメータサブストリームが異なるパラメータ表現基準で表現されている場合でも、効率的に結合パラメータサブストリームを生成できる。
また、前記結合装置は、さらに、当該結合装置から前記複数のサイトへの送信に用いることができる現在のビットレートに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備えてもよい。
この構成によれば、本発明の一形態に係る結合装置は、ビットレートを考慮することによって、異なるパラメータ表現基準を持つパラメータサブストリームを効率的に統合できる。
また、前記結合装置は、さらに、前記結合パラメータサブストリームのビット数を示すビットコストに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備えてもよい。
この構成によれば、本発明の一形態に係る結合装置は、ビットコストを考慮することによって、異なるパラメータ表現基準を持つパラメータサブストリームを効率的に統合できる。
また、前記ダウンミックスサブストリームは、前記複数のオーディオ入力信号がダウンミックスされた後、スペクトルドメインに変換されたうえで、符号化されており、前記復号部は、前記ダウンミックスサブストリームを復号することにより、前記スペクトルドメインの前記復号ダウンミックスサブストリームを生成し、前記加算部は、前記スペクトルドメインの前記複数の復号ダウンミックスサブストリームを加算することにより前記1以上の中間結合ダウンミックスサブストリームを生成してもよい。
この構成によれば、本発明の一形態に係る結合装置は、符号化ビットストリームを時間ドメインまで復号しない。つまり、本発明の一形態に係る結合装置は、時間−周波数変換及びその逆変換を行わない。これにより、本発明の一形態に係る結合装置は、演算量を低減できる。
また、前記第1結合部は、さらに、前記複数の復号ダウンミックスサブストリームのスペクトルパワーが前記中間結合ダウンミックスサブストリームにおいて保存されるように、前記中間結合ダウンミックスサブストリームをスケーリングするスケーリング部を備え、前記符号化部は、前記スケーリング部によりスケーリングされた前記中間結合ダウンミックスサブストリームを符号化することにより前記結合ダウンミックスサブストリームを生成してもよい。
この構成によれば、本発明の一形態に係る結合装置は、複数の復号ダウンミックスサブストリームのスペクトルパワーを中間結合ダウンミックスサブストリームにおいて保存できる。
また、前記第2結合部は、複数のパラメータサブストリームを逆量子化することにより複数の逆量子化パラメータを生成する逆量子化部と、前記逆量子化パラメータを結合することにより結合パラメータを生成するパラメータ結合部と、前記結合パラメータに含まれるパラメータのうち一部のパラメータを更新することにより更新パラメータを生成するパラメータ更新部と、前記結合パラメータに含まれるパラメータのうち前記一部以外のパラメータと、前記更新パラメータとを量子化することにより、前記結合パラメータサブストリームを生成する量子化部とを備えてもよい。
この構成によれば、本発明の一形態に係る結合装置は、パラメータのうちのいくつかを、パラメトリック分析ドメインにおいて結合するとともに更新する。これにより、本発明の一形態に係る結合装置では、パラメータはダウンミックスサブストリームの結合方法と合致する。
また、本発明の一形態に係る遠隔通信システムは、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する前記結合装置とを含み、前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含む。
この構成によれば、本発明の一形態に係る遠隔通信システムは、非アクティブな符号化ビットストリームに対しては結合処理を行わない。これにより、本発明の一形態に係る遠隔通信システムは、結合装置の演算量を低減できる。
また、本発明の一形態に係る遠隔通信システムは、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する前記結合装置とを含み、前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含み、前記復号装置は、前記補助情報を用いて、前記単一の結合ビットストリームの信号成分のうち、当該復号装置を備えるサイトにより送信された前記符号化ビットストリームに対応する信号成分を除去した前記オーディオ出力信号を生成する。
この構成によれば、本発明の一形態に係る遠隔通信システムでは、各サイトは、結合装置により送信された補助情報を用いて、自サイトが送信した符号化ビットストリームの信号成分を除外できる。
なお、本発明は、このような結合装置及び遠隔通信システムとして実現できるだけでなく、結合装置に含まれる特徴的な手段をステップとする結合方法として実現したり、そのような特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
さらに、本発明は、このような結合装置又は遠隔通信システムの機能の一部又は全てを実現する半導体集積回路(LSI)として実現できる。
以上より、本発明は、少ない遅延と少ない演算量を実現しながら複数のパラメトリック符号化オーディオストリームを結合する結合装置を提供できる。この特徴は、複数のサイトを接続する遠隔会議システムのような複数サイト間通信システムをリアルタイムで利用するには非常に魅力的な特徴である。
図1は、一般的なパラメトリック符号化装置のブロック図である。 図2は、一般的なパラメトリック復号装置のブロック図である。 図3は、従来の遠隔通信システムの構成を示す図である。 図4は、従来のMCUのブロック図である。 図5は、本発明の実施の形態1に係る遠隔通信システムの構成を示す図である。 図6は、本発明の実施の形態1に係る、パラメトリックオーディオ符号化におけるパラメータ表現基準を示す図である。 図7は、本発明の実施の形態1に係るダウンミックスエンコーダのブロック図である。 図8は、本発明の実施の形態1に係るMCUのブロック図である。 図9は、本発明の実施の形態1に係るダウンミックスサブストリーム結合部のブロック図である。 図10は、本発明の実施の形態1に係るQMFドメインからMDCTドメインへの周波数マッピング方法を示す図である。 図11は、本発明の実施の形態1に係るパラメータサブストリーム結合部のブロック図である。 図12は、本発明の実施の形態1に係るMCUの処理量を示す図である。 図13は、本発明の実施の形態1に係るMCUによる結合処理のフローチャートである。 図14は、本発明の実施の形態1に係るMCUのアクティブサイトが1個の場合の動作を示す図である。 図15は、本発明の実施の形態1に係るMCUのアクティブサイトが2個の場合の動作を示す図である。 図16は、本発明の実施の形態1に係るMCUのアクティブサイトが3個の場合の動作を示す図である。 図17は、本発明の実施の形態2に係るMCUのブロック図である。 図18は、本発明の実施の形態2に係るMCUの動作を示す図である。 図19は、本発明の実施の形態2に係るMCUによる結合処理のフローチャートである。 図20は、本発明の実施の形態2に係るMCUの処理量を示す図である。 図21は、本発明の実施の形態2に係るパラメトリック復号装置のブロック図である。 図22Aは、本発明の実施の形態2に係る、パラメータ基準の一例を示す図である。 図22Bは、本発明の実施の形態2に係る、パラメータ基準の一例を示す図である。 図23は、本発明の実施の形態3に係るMCUのブロック図である。 図24は、本発明の実施の形態3に係るパラメータサブストリーム結合部のブロック図である。 図25Aは、本発明の実施の形態3に係る、統一パラメータ基準の一例を示す図である。 図25Bは、本発明の実施の形態3に係る、統一パラメータ基準の一例を示す図である。 図25Cは、本発明の実施の形態3に係る、統一パラメータ基準の一例を示す図である。 図26Aは、本発明の実施の形態3に係る、パラメータ基準を示す図である。 図26Bは、本発明の実施の形態3に係る、パラメータ基準を示す図である。 図27は、本発明の実施の形態4に係るMCUのブロック図である。 図28は、本発明の実施の形態4に係るパラメータサブストリーム結合部のブロック図である。
以下に記載する実施の形態は、本発明に係るさまざまな進歩性の原理を単に例示するものである。ここに記載する詳細な内容を多様に変形しうることは当業者にとって自明であると解釈される。それゆえ、本発明の範囲は、ここに記載する具体的かつ説明的な内容によってではなく、請求の範囲によってのみ限定されるものである。
本発明に係るMCUを用いた方法を、4つのサイトを接続する遠隔会議システム(遠隔通信システム)を例にとって以下に説明する。さらに多くのサイトを接続する遠隔会議システムをおこなう場合のMCUについては、このケースから簡単に一般化することができる。
また、以下に記載する実施の形態においては、従来のパラメトリック符号化方法によって符号化されたオーディオストリームの結合について詳細に述べる。説明を簡単にするため、ダウンミックス信号は、AACエンコーダで符号化されるモノラル信号であるとする。なお、以下に示す複数の実施の形態は、他のパラメトリック符号化ビットストリームフォーマットをサポートするために一般化できる。
(実施の形態1)
図5は、本発明の実施の形態1に係る遠隔通信システム300Aの構成を示す図である。
遠隔通信システム300Aは、例えば、遠隔会議システムである。この遠隔通信システム300Aは、4つのサイト301(301A〜301D)と、多地点接続装置である結合装置(MCU305A)とを含む。また、4つのサイト301と、MCU305Aとは、ネットワークを介して接続されている。
各サイト301は、それぞれ、図1に示す符号化装置100及び図2に示す復号装置200を備える。
各符号化装置100は、当該サイト301に接続された複数のマイクにより取得された複数のオーディオ入力信号110をパラメトリック符号化することにより、ダウンミックスサブストリーム115と、パラメータサブストリーム113とを含む符号化ビットストリーム116を生成する。ダウンミックスサブストリーム115は、複数のオーディオ入力信号110がダウンミックスされた信号であり、パラメータサブストリーム113は、ダウンミックスサブストリーム115を複数のオーディオ入力信号に復元するための情報である。
また、各符号化装置100は、生成した符号化ビットストリーム116をMCU305Aへ送信する。
例えば、複数のオーディオ入力信号110の各々は、複数の話者の各々の音声に対応する。
MCU305Aは、複数のサイト301により送信された複数の符号化ビットストリーム116を結合することにより結合ビットストリーム124を生成する。この結合ビットストリーム124は、結合ダウンミックスサブストリーム121と結合パラメータサブストリーム122とを含む。また、MCU305Aは、生成した結合ビットストリーム124を複数のサイト301へ送信する。
具体的には、MCU305Aは、各サイト301に対して、当該サイト301以外のサイトから送信された符号化ビットストリーム116を結合することにより結合ビットストリーム124を生成し、生成した結合ビットストリーム124を当該サイト301へ送信する。
例えば、MCU305Aは、サイト301Aに対して、サイト301B〜301Dから送信された符号化ビットストリーム116を結合することにより、結合ビットストリーム124(結合ダウンミックスサブストリームDmxBCD及び結合パラメータサブストリームParasBCDを含む)を生成し、当該結合ビットストリーム124をサイト301Aへ送信する。また、MCU305Aは、サイト301Bに対しては、サイト301A、301C及び301Dから送信された符号化ビットストリーム116を結合することにより、結合ダウンミックスサブストリームDmxACD及び結合パラメータサブストリームParasACDを生成し、MCU305Aは、サイト301Cに対しては、サイト301A、301B及び301Dから送信された符号化ビットストリーム116を結合することにより、結合ダウンミックスサブストリームDmxABD及び結合パラメータサブストリームParasABDを生成し、MCU305Aは、サイト301Dに対しては、サイト301A、301B及び301Cから送信された符号化ビットストリーム116を結合することにより、結合ダウンミックスサブストリームDmxABC及び結合パラメータサブストリームParasABCを生成する。
また、各サイト301の復号装置200は、MCU305Aから送信された結合ビットストリーム124を復号することにより、複数のオーディオ出力信号216を生成する。この複数のオーディオ出力信号216は、当該サイト301に接続された複数のスピーカにより出力される。
図1に示される符号化装置100を以下詳細に説明する。
図1に示す符号化装置100は、複数のオーディオ入力信号110をパラメトリック符号化することにより、モノラルのダウンミックスサブストリーム115とパラメータサブストリーム113とを含む符号化ビットストリーム116を生成する。
この符号化装置100は、T−F(時間−周波数)変換部101と、アナライザ102と、F−T(周波数−時間)変換部103と、ダウンミックスエンコーダ104とを備える。
T−F変換部101は、時間ドメインの複数のオーディオ入力信号110をハイブリッドドメインの複数の周波数信号111に変換する。
例えば、サイト301Aから、N個のオーディオ入力信号110がパラメトリック符号化装置100に入力されるとする。T−F変換部101は、N個のオーディオ入力信号110を、効率のよい非均一周波数解像度を用いて、下記(式1)で表されるハイブリッドドメインのN個の周波数信号111に変換する。
Figure 0005377505
ここで、nは、時間を示すタイムスロットインデックスである。また、kは、周波数を示すハイブリッドバンドインデックスである。
アナライザ102は、変換された周波数信号111を2つの方法で分析する。このアナライザ102は、ダウンミックス部102Aと、パラメータ抽出部102Bとを備える。
ダウンミックス部102Aは、複数の周波数信号111からモノラルの中間ダウンミックス信号112を生成する。
パラメータ抽出部102Bは、複数の周波数信号111からオブジェクトパラメータを抽出する。また、パラメータ抽出部102Bは、抽出したオブジェクトパラメータを量子化することによりパラメータサブストリーム113を生成する。
具体的には、パラメータ抽出部102Bは、オブジェクトパラメータを、聴覚心理モデルに基づいて決定した時間周波数解析の解像度で、時間−周波数関数として分析する。例えば、パラメータ抽出部102Bは、ハイブリッドドメイン全体を、図6に示されるように、P×Q個のパラメータタイルにグループ化する。また、人間の聴覚システムの周波数解像度に近似させるためには、全周波数帯域をカバーするパラメータバンドmの数Qは、2、3個のみ(低いビットレートを適用する場合)から28個まで(高品質処理をおこなう場合)の任意の数に設定できる。また、過渡的なふるまいを改善するために分離されたパラメータセットlは、固定時間セグメント(約20〜30ms)をカバーする。
また、ダウンミックス部102Aは、中間ダウンミックス信号112に含まれる、パラメータタイル(l,m)(l=1,・・・,P;m=1,・・・,Q)ごとのダウンミックス信号成分を、下記(式2)に従って生成する。
Figure 0005377505
ここで、d(l,m)は、各オーディオ入力信号110(各周波数信号111)用に予め決定されたスケールファクタである。また、ファクタe(l,m)は、信号成分のパワーを調整するために用いられる。すなわち、中間ダウンミックス信号112における信号成分のパワーが、スケーリング済みの全周波数信号111のパワーと概ね同じになるように演算される。つまり、下記(式3)の関係が満たされるようにe(l,m)が決定される。
Figure 0005377505
F−T変換部103は、中間ダウンミックス信号112の全信号成分を、時間ドメインに逆変換することにより、ダウンミックス時間信号114を生成する。
ダウンミックスエンコーダ104は、ダウンミックス時間信号114を符号化することによりダウンミックスサブストリーム115を生成する。
また、パラメータ抽出部102Bは、パラメータタイル(l,m)ごとに、オブジェクトパラメータを抽出する。典型的には、このオブジェクトパラメータはそれぞれ以下を含む。
(a)オブジェクトレベル差(OLD):複数の周波数信号111間の、対応するパラメータタイルにおけるパワー比を示す。
(b)絶対エネルギーパラメータ(NRG):複数の周波数信号111のうち、最大エネルギーを有する周波数信号111の絶対オブジェクトエネルギーを示す。
(c)オブジェクト間の相互相関(IOC):複数の周波数信号間の、対応するパラメータタイルの類似度を示す。
(d)ダウンミックスゲイン(DMG):対応するパラメータタイルをダウンミックス処理する際のゲインを示す。
例えば、パラメータ抽出部102Bは、これらのパラメータを、下記(式5)〜(式9)を用いて算出する。
Figure 0005377505
Figure 0005377505
Figure 0005377505
Figure 0005377505
また、パラメータ抽出部102Bは、このオブジェクトパラメータを、他のヘッダ情報とともに量子化することによりパラメータサブストリーム113を生成する。
同様の符号化手順に従って、他のサイト301(サイト301B、301C及び301D)も、ダウンミックスサブストリーム115とそれに対応するパラメータサブストリーム113とを生成する。
次に、ダウンミックスエンコーダ104の構成を説明する。図7は、ダウンミックスエンコーダ104の構成を示すブロック図である。
図7に示されるように、ダウンミックスエンコーダ104は、MDCT(Modified Discrete Cosine Transform)変換部601と、符号化部602と、制御部603とを備える。
MDCT変換部601は、時間ドメインのダウンミックス時間信号114を、MDCTドメイン(スペクトルドメイン)のMDCT係数セット611に変換する。
制御部603は、実際の時間に依存するマスク済み閾値(音響心理学モデル)の推定値を、音響心理学で既知のルールを用いて算出する。
符号化部602は、量子化ノイズが制御部603により算出されたマスク済み閾値以下に保たれるように、MDCT係数セット611を効率的に量子化及び符号化する。これにより、符号化部602は、ダウンミックスサブストリーム115を生成する。
なお、MCU305Aが、複数の符号化ビットストリーム116を結合するためには、各サイト301A〜301Dが備える符号化装置100は、以下にあげる2つの追加要求を満たす必要がある。
(1)NRGパラメータをMCU305Aへ送信する。
(2)ダウンミックスサブストリーム115は、固定的なブロックタイプ(つまり、ロングブロックタイプ)を用いるAAC方式によって符号化する。
なお、ダウンミックスサブストリーム115を符号化する方式としてAAC方式を用いる場合を述べたが、これに限ったものではなく、AAC−LD方式又はHE−AAC方式を用いてもよい。また、それ以外にも高効率なステレオ・モノラルの音声符号化方式であれば、CELP方式を用いてもよいが、MDCTなどの直行変換技術を用いた符号化方式を用いる場合の方が、本発明の効果がより高くなる。
また、ここでは、直行変換技術の代表としてMDCT方式を用いた例を述べているが、もちろんこれに限ったものではなく、FFT方式又はMDST(Modified Discrete Sine Transform)方式を用いてもよい。
次に、本発明の実施の形態1に係るMCU305Aの構成を説明する。
図8は、MCU305Aの構成を示すブロック図である。
図8に示すようにMCU305Aは、検出部501と、ダウンミックスサブストリーム結合部504(第1結合部)と、パラメータサブストリーム結合部506(第2結合部)と、送信部508とを備える。
検出部501は、所定の時間間隔ごとに、当該時間間隔内において、複数のサイト301のうちアクティブサイト及び非アクティブサイトを検出する。ここで、アクティブサイトとは、有効な符号化ビットストリーム116を送信しているサイトであり、非アクティブサイトとは、アクティブサイト以外のサイトである。具体的には、アクティブサイトとは、現在音声が送信されているサイトであり、非アクティブサイトとは、現在音声が送信されていないか、所定の閾値以下の音声信号がやりとりされているか、あるいは音声信号をやりとりしていないと制御信号などで明示的に指定されているサイトである。例えば、アクティブサイトで取得される複数のオーディオ入力信号110の最大の音量は所定の閾値以上であり、非アクティブサイトで取得される複数のオーディオ入力信号110の全ての音量は所定の閾値未満である。
例えば、検出部501は、複数のパラメータサブストリーム113に含まれる情報を用いて各サイト301がアクティブサイトであるか非アクティブサイトであるかを検出する。例えば、検出部501は、NRGパラメータが所定の値未満のパラメータサブストリーム113の送信元のサイトを非アクティブサイトと判定する。
なお、検出部501は、その他のパラメータ、又はダウンミックスサブストリーム115を参照することにより、各サイト301がアクティブサイトであるか非アクティブサイトであるかを判定してもよい。例えば、検出部501は、対応する符号化ビットストリーム116に含まれる複数のオーディオ入力信号110の最大の音量が所定の閾値以上である場合、当該符号化ビットストリーム116の送信元のサイト301をアクティブサイトであると判定し、対応する符号化ビットストリーム116に含まれる複数のオーディオ入力信号110の最大の音量が所定の閾値未満である場合、当該符号化ビットストリーム116の送信元のサイト301を非アクティブサイトであると判定してもよい。また、検出部501は、対応する符号化ビットストリーム116に含まれる複数のオーディオ入力信号110の音量差又は音量の変化率に応じて、当該符号化ビットストリーム116の送信元のサイト301がアクティブサイトであるか非アクティブサイトであるかを判定してもよい。
また、検出部501は、検出結果に基づき、アクティブサイトの数及び非アクティブサイトの数を算出する。
ダウンミックスサブストリーム結合部504は、検出部501により検出されたアクティブサイトの数(非アクティブサイトの数)に応じて、複数のダウンミックスサブストリーム115を結合することにより、複数の結合ダウンミックスサブストリーム121を生成する。
具体的には、非アクティブサイトが存在する場合、ダウンミックスサブストリーム結合部504は、アクティブサイトから送信されたダウンミックスサブストリーム115のみを結合することにより、結合ダウンミックスサブストリーム121を生成する。
より具体的には、ダウンミックスサブストリーム結合部504は、複数のサイト301の各々に対して、複数のアクティブサイトから送信された複数のダウンミックスサブストリーム115のうち、当該サイト301以外のサイト301から送信された複数のダウンミックスサブストリーム115を結合することにより、当該サイト301に対応する結合ダウンミックスサブストリーム121を生成する。
パラメータサブストリーム結合部506は、検出部501により検出されたアクティブサイトの数(非アクティブサイトの数)に応じて、複数のパラメータサブストリーム113を結合することにより、複数の結合パラメータサブストリーム122を生成する。
具体的には、非アクティブサイトが存在する場合、パラメータサブストリーム結合部506は、アクティブサイトから送信されたパラメータサブストリーム113のみを結合することにより、結合パラメータサブストリーム122を生成する。
さらに具体的には、パラメータサブストリーム結合部506は、複数のサイト301の各々に対して、複数のアクティブサイトから送信された複数のパラメータサブストリーム113のうち、当該サイト301以外のサイト301から送信された複数のパラメータサブストリーム113を結合することにより、当該サイト301に対応する結合パラメータサブストリーム122を生成する。
送信部508は、結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122を含む結合ビットストリーム124を、対応するサイト301へ送信する。
以下、ダウンミックスサブストリーム結合部504の構成を説明する。
図9は、ダウンミックスサブストリーム結合部504の構成を示すブロック図である。図9に示すようにダウンミックスサブストリーム結合部504は、復号部700と、加算部704と、スケーリング部705と、符号化部706とを備える。なお、図9では、サイト301Aへ送信する一つの結合ダウンミックスサブストリーム121を生成する場合を示している。
復号部700は、複数のダウンミックスサブストリーム115(Dmx、Dmx及びDmx)を復号(逆符号化及び逆量子化)することによって、それぞれに対応する、MDCTドメイン(スペクトルドメイン)のMDCT係数セット710(coef、coef及びcoef)を生成する。ここで、逆符号化及び逆量子化とは、図7に示す符号化部602により行われたAAC符号化の逆演算である。また、復号部700は、ダウンミックスサブストリームDmx、Dmx及びDmxを逆符号化及び逆量子化する逆符号化部701〜703を備える。
なお、復号部700は、図9に示すように3つの逆符号化部701〜703を備え、3つのダウンミックスサブストリーム115を当該3つの逆符号化部701〜703により並列に処理してもよいし、1又は2の逆符号化部を備え、3つのダウンミックスサブストリーム115を時分割で処理してもよい。
また、復号部700は、複数のダウンミックスサブストリーム115のうち、アクティブサイトから送信されたダウンミックスサブストリーム115のみを復号する。
加算部704は、全MDCT係数セット710(復号ダウンミックスサブストリーム)を加算することにより結合MDCT係数セット711(中間結合ダウンミックスサブストリーム)を生成する。
スケーリング部705は、加算された結合MDCT係数セット711をスケーリングすることにより結合MDCT係数セット712(coefBCD)を生成する。具体的には、スケーリング部705は、複数のMDCT係数セット710のスペクトルパワーが結合MDCT係数セット712において保存されるように、結合MDCT係数セット711をスケーリングする。
ここで、本発明においては、結合ダウンミックスサブストリーム121は、異なる周波数範囲で異なる結合ゲインを伴って、全ダウンミックスサブストリーム115を線形結合した結果として得られる。
注意を喚起すべき点は、ハイブリッドドメインは時間−周波数解像度を有するが、MDCTドメインは周波数解像度のみを有するということである。その結果、結合ゲインをMDCT係数セットに適用する場合、ハイブリッドドメインにおける値をMDCTドメインにおける値に近似する必要がある。
本発明において適用される近似方法は、ハイブリッドドメインにおけるパラメータセットの分離を無視し、パラメータバンド分離方法をMDCTドメインに直接マッピングする方法である(なお、異なるパラメータバンドの分離方法を単一の統一パラメータバンド分離方法に統合する方法については、後述する)。言い換えると、図10に示されるように、パラメトリック符号化プロセスに用いられるパラメータバンドの数がQ(パラメータサブストリームに含まれるヘッダ情報)であるならば、MDCT周波数サブセットIの数は、(m=1,2,・・・,Q)であり、パラメータバンドmは、サブセットI、例えば(qm−,qm+)と同じ周波数範囲をカバーする。
上記MDCTスペクトル分割に基づけば、分割ダウンミックス係数セットの結合ゲインは、異なる応用例に応じて、以下のように柔軟に設計することができる。
実施の形態1では、複数の符号化オーディオオブジェクトの全てが重要である場合、信号成分の増幅も減衰も好ましくない。そのような場合には、結合ダウンミックス係数を均一化するための共通スケーリングファクタを適用するパワー保存技術を採用する。
すなわち、結合MDCT係数セットcoefBCDは下記(式8)で表される。
Figure 0005377505
ここで、iはMDCT係数インデックスであり、mはサブセットインデックスである。つまり、iは、下記(式9)となる。
Figure 0005377505
また、上付き記号は、対応するパラメータのサイトインデックスを表す。
また、結合ゲインは、スペクトルパワーを保存するように、下記(式10)を用いて算出される。
Figure 0005377505
符号化部706は、結合MDCT係数セットcoefBCDを、量子化及び符号化することにより送信用の結合ダウンミックスサブストリーム121(DmxBCD)を生成する。
なお、一般的に、知覚エンコーダ(例えば、AACエンコーダ)は、音響心理学の見地から知られるルールに従って、時間ドメインシーケンスにおける複素FFTから導かれる音響心理学マスカを用いて、信号間の無関連性について検証する。しかしながら、本発明に係るMCU305Aにおいては、演算量が少なく遅延時間が短いことという要求事項を満たすために、ダウンミックス結合は、MDCTドメインに限っておこなわれる。つまり、MDCTドメインから時間ドメインへのドメイン変換はどのようなものであっても認められない。
当該課題は、いくつかの従来技術によって解決される。例えば、従来技術において、演算量が少なく高品質な、MDCTに基づく音響心理学モデルを求めることができる。主要なアイデアは、複素FFTスペクトルを実数のMDCTスペクトルに置き換えること、及び、スペクトラム・フラットネス測定によってトーン性を求めることである。
従来技術については、例えば、上記非特許文献1〜3に詳述されている。
上記技術に従って、次のように符号化部706を設計することができる。まず、MDCTドメインにおいて、結合MDCT係数セット用の正確な音響心理学マスカを算出する。また、AACエンコーダと類似の方法で、残りの量子化及び符号化を実施する。出力結果は、結合ダウンミックスサブストリーム121として、サイト301Aのパラメトリック復号装置200へ送信される。同様の手順が、他の全サイトに対しても実行される。つまり、この手順は、N個のサイトを接続するシステム対して、N回実施される。
次に、パラメータサブストリーム結合部506の構成を説明する。
図11は、パラメータサブストリーム結合部506の構成を示すブロック図である。図11に示すようにパラメータサブストリーム結合部506は、逆量子化部750と、パラメータ結合部755と、パラメータ更新部756と、量子化部757とを備える。また、図11では、サイト301Aへ送信する一つの結合パラメータサブストリーム122を生成する構成のみを示している。
逆量子化部750は、複数のパラメータサブストリーム113(Paras、Paras及びParas)を逆量子化することによって、それぞれ対応するパラメータ761に復元する。ここで、逆量子化とは、図1に示すパラメータ抽出部102Bにより行われた量子化の逆演算である。
パラメータ結合部755は、全パラメータ761を結合することにより結合パラメータ763及び764を生成する。
パラメータ更新部756は、結合パラメータ764を更新することにより更新パラメータ765を生成する。
また、パラメータ結合部755は、全パラメータ761に対して同一の結合ゲインを用いて結合する。その結果として、このダウンミックス結合プロセスは付加的パラメータに影響されない。よって、アクティブサイトが複数である場合、パラメータ更新部756は、結合パラメータ764としてNRGパラメータ及びOLDパラメータのみを更新する。
例えば、サイト301A、301B及び301Dがアクティブサイトである場合を例に説明を行う。この場合、パラメータサブストリーム結合部506は、サイト301B及び301Dから送信されたパラメータサブストリーム113を結合する。
更新後のNRGパラメータは、サイトk(k=B,D)における最大NRGパラメータである。つまり、パラメータ更新部756は、下記(式11)を用いて更新後のNRGパラメータを算出する。
Figure 0005377505
また、パラメータ更新部756は、更新後のOLDパラメータを、下記(式12)を用いて全オブジェクトについて算出する。なお、オブジェクトとは、複数のオーディオ入力信号110のそれぞれを示す。
Figure 0005377505
ここで、オブジェクトインデックスiは、i=1,・・・N,N+1,・・・,N+Nである。
量子化部757は、結合パラメータ763及び更新パラメータ765を量子化することにより結合パラメータサブストリーム122を生成する。
なお、N個のサイトを接続する遠隔会議システムでは、通常、(効率的に送信されたビットストリームを有する)アクティブサイトはN個(N≦N)のみであり、残りの(N−N)個のサイトは非アクティブである。
また、そのようなシステムにおいて、MCU305Aは、部分的復号処理をN回、結合処理をN回、部分的符号化処理をN回おこなう必要がある。しかしながら、この場合、それらの非アクティブサイトには同一の結合ダウンミックスサブストリーム121が配信される。つまり、非アクティブサイトが通常存在する場合には、当該結合方法は冗長性をともなうことを意味する。
よって、本発明の実施の形態1に係るMCU305Aでは、結合及び符号化処理の前にアクティブサイトの数を考慮することにより、MCU305Aの演算量をさらに削減する。
具体的には、送信部508は、アクティブサイトが1つ又は2つのみであるときは、受信した符号化ビットストリーム116を配信先サイトへ直接切り替え送信する。これにより、MCU305Aの演算量をさらに削減することができる。
より詳細には、非アクティブサイトの数が2以上の場合、ダウンミックスサブストリーム結合部504は、全てのアクティブサイトから送信された複数のダウンミックスサブストリーム115を結合することにより、全ての非アクティブサイトに対して共通の結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、全てのアクティブサイトから送信された複数のパラメータサブストリーム113を結合することにより、全ての非アクティブサイトに対して共通の結合パラメータサブストリーム122を生成する。また、送信部508は、上記共通の結合ダウンミックスサブストリーム121及び共通の結合パラメータサブストリーム122を含む共通の結合ビットストリーム124を、全ての非アクティブサイトへ送信する。
また、アクティブサイトの数が2の場合、送信部508は、2個のアクティブサイトのうち一方から送信された符号化ビットストリーム116をそのまま、2個のアクティブサイトの他方へ送信する。また、送信部508は、2個のアクティブサイトのうち他方から送信された符号化ビットストリーム116をそのまま、2個のアクティブサイトの一方へ送信する。
また、アクティブサイトの数が1の場合、送信部508は、アクティブサイトから送信された符号化ビットストリーム116をそのまま、全ての非アクティブサイトへ送信する。
図12は、本発明に係るMCU305Aと、通常のMCUとの演算量を示す図である。また、図13は、MCU305Aによる結合処理のフローチャートである。
図13に示すように、まず、検出部501は、アクティブサイトの数Nを検出する(S101)。
次に、検出部501は、アクティブサイトの数Nが1であるか否かを判定する(S102)。
アクティブサイトの数Nが1である場合(S102でYes)、送信部508は、アクティブサイトから送信された符号化ビットストリーム116をそのまま全ての非アクティブサイトへ送信する(S103)。つまり、ダウンミックスサブストリーム結合部504及びパラメータサブストリーム結合部506は、結合処理を行わない。また、送信部508は、1個のアクティブサイトへは、符号化ビットストリーム116及び結合ビットストリーム124を送信しない。
なお、アクティブサイトの数が0の場合も、送信部508は、符号化ビットストリーム116及び結合ビットストリーム124を送信しない。
このように、アクティブサイトの数Nが1である場合(S102でYes)、図12に示すように、部分的復号処理の数、結合処理の数及び部分的符号化処理の数は、全てゼロとなる。
図14は、4つのサイト301のうち1つのサイト301Aのみがアクティブな場合のMCU305Aの処理を模式的に示す図である。図14に示すように、サイト301Aのみがアクティブな場合、MCU305Aは、サイト301Aから送信されたダウンミックスサブストリームDmx及びパラメータサブストリームParasを非アクティブなサイト301B、301C及び301Dへ送信する。
一方、アクティブサイトの数Nが2以上の場合(S102でNo)、ダウンミックスサブストリーム結合部504は、全てのアクティブサイトから送信された複数のダウンミックスサブストリーム115に部分的復号処理を行うことにより、複数のMDCT係数セット710を生成する(S104)。
次に、検出部501は、アクティブサイトの数Nが2であるか否かを判定する(S105)。
アクティブサイトの数Nが2の場合(S105でYes)、ダウンミックスサブストリーム結合部504は、当該2つのアクティブサイトに対応するMDCT係数セット710を結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504は、生成した結合MDCT係数セット712を符号化及び量子化することにより非アクティブサイト用の1つの結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、当該2つのアクティブサイトに対応するパラメータサブストリーム113を結合することにより、非アクティブサイト用の1つの結合パラメータサブストリーム122を生成する(S106)。
次に、送信部508は、ステップS106で生成した1つの結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122を全ての非アクティブサイトへ送信する(S107)。
また、送信部508は、2個のアクティブサイトのうち、一方のアクティブサイトから送信された符号化ビットストリーム116をそのまま他方のアクティブサイトへ送信し、他方のアクティブサイトから送信された符号化ビットストリーム116をそのまま一方のアクティブサイトへ送信する(S108)。
このように、アクティブサイトの数Nが2である場合(S105でYes)、図12に示すように、部分的復号処理の数は、アクティブサイトの数Nと同じ2となり、結合処理の数及び部分的符号化処理の数は1回となる。つまり、非アクティブサイトに対する部分的復号処理が削減されるとともに、結合処理の数及び部分的符号化処理の数が1回に削減される。
図15は、4つのサイト301のうち2つのサイト301A及び301Bのみがアクティブな場合のMCU305Aの処理を模式的に示す図である。図15に示すように、サイト301A及びサイト301Bのみがアクティブな場合、MCU305Aは、サイト301Aから送信されたダウンミックスサブストリームDmx及びパラメータサブストリームParasをアクティブなサイト301Bへ送信し、サイト301Bから送信されたダウンミックスサブストリームDmx及びパラメータサブストリームParasをアクティブなサイト301Aへ送信する。また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABを生成し、当該結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABを非アクティブなサイト301C及び301Dへ送信する。
一方、アクティブサイトの数Nが3以上の場合(S105でNo)、ダウンミックスサブストリーム結合部504は、当該3以上のアクティブサイトに対応するMDCT係数セット710を全て結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504は、生成した結合MDCT係数セット712を符号化及び量子化することにより非アクティブサイト用の1つの結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、当該3以上のアクティブサイトに対応するパラメータサブストリーム113を結合することにより、非アクティブサイト用の1つの結合パラメータサブストリーム122を生成する(S109)。
次に、送信部508は、ステップS109で生成した1つの結合ダウンミックスサブストリーム121及び1つの結合パラメータサブストリームを全ての非アクティブサイトへ送信する(S110)。
次に、MCU305Aは、3個以上のアクティブサイトのそれぞれへ送信する結合ビットストリーム124を生成する。
まず、MCU305Aは、3個以上のアクティブサイトのうち1つのアクティブサイトを選択し、選択したアクティブサイトへ送信する結合ビットストリーム124を生成する。
具体的には、ダウンミックスサブストリーム結合部504は、選択したアクティブサイト以外の全てのアクティブサイトに対応するMDCT係数セット710を結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504は、生成した結合MDCT係数セット712を符号化及び量子化することにより選択したアクティブサイト用の結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、選択したアクティブサイト以外の全てのアクティブサイトに対応するパラメータサブストリーム113を結合することにより選択したアクティブサイト用の結合パラメータサブストリーム122を生成する(S111)。
次に、送信部508は、ステップS111で生成した結合ダウンミックスサブストリーム121及び結合パラメータサブストリームを、選択したアクティブサイトへ送信する(S112)。
次に、ダウンミックスサブストリーム結合部504は、アクティブサイトの数Nから1を減算することにより、新たなアクティブサイトの数Nを算出し(S113)、新たなアクティブサイトの数Nが0より大きい場合(S114でYes)、次のアクティブサイトを選択し、選択したアクティブサイトに対してステップS111以降の処理を行う。つまり、ダウンミックスサブストリーム結合部504は、全てのアクティブサイトに対して、ステップS111〜S114の処理を繰り返す。
このように、非アクティブサイトが2個以上存在し、かつアクティブサイトの数Nが3以上である場合(S105でNo)、図12に示すように、部分的復号処理の数は、アクティブサイトの数Nとなり、結合処理の数及び部分的符号化処理の数はN+1回となる。つまり、非アクティブサイトに対する部分的復号処理が削減されるとともに、非アクティブサイトへの送信用の結合処理の数及び部分的符号化処理の数が削減される。
なお、非アクティブサイトが存在しない場合、つまり、アクティブサイトの数Nが全サイト数Nに等しい場合には、ステップS109及びS110の処理は行われない。つまり、図12に示すように、部分的復号処理の数、結合処理の数及び部分的符号化処理の数はN回となる。
図16は、4つのサイト301のうち3つのサイト301A、301B及び301Cがアクティブな場合のMCU305Aの処理を模式的に示す図である。図16に示すように、サイト301A、301B及び301Cがアクティブな場合、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxABC及び結合パラメータサブストリームParasABCを生成し、当該結合ダウンミックスサブストリームDmxABC及び結合パラメータサブストリームParasABCを非アクティブなサイト301へ送信する。
また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxBC及び結合パラメータサブストリームParasBCを生成し、当該結合ダウンミックスサブストリームDmxBC及び結合パラメータサブストリームParasBCをサイト301Aへ送信する。
また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxAC及び結合パラメータサブストリームParasACを生成し、当該結合ダウンミックスサブストリームDmxAC及び結合パラメータサブストリームParasACをサイト301Bへ送信する。
また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABを生成し、当該結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABをサイト301Cへ送信する。
以上のように、本発明の実施の形態1に係るMCU305Aは、アクティブサイトの数Nが1の場合には、復号処理、結合処理及び符号化処理を行わない。また、MCU305Aは、アクティブサイトの数Nが2の場合には、アクティブサイトへ送信する結合ビットストリーム124を生成しない。これにより、MCU305Aは、演算量を削減できる。
また、本発明の実施の形態1に係るMCU305Aは、非アクティブサイトが存在する場合には、当該非アクティブサイトから送信された符号化ビットストリーム116を結合しない。具体的には、MCU305Aは、非アクティブサイトから送信されたダウンミックスサブストリーム115の復号処理を行わない。これにより、MCU305Aは、演算量を削減できる。
また、本発明の実施の形態1に係るMCU305Aは、非アクティブサイトが複数存在する場合には、当該複数の非アクティブサイトに対して共通の結合ビットストリーム124を生成する。これにより、MCU305Aは、非アクティブサイトへの送信用の結合ビットストリーム124を生成する処理を省略できるので演算量を削減できる。
このように、本発明の実施の形態1に係るMCU305Aは、アクティブサイトの数が1又は2という特別なケースを考慮に入れることにより、演算量を削減できる。
例えば、本発明の実施の形態1の効果を説明するために、複数のサイト(例えば、8つ)を接続する遠隔会議システムの例をあげる。実際には、通信期間のほとんどにおいて、同時にアクティブ状態になる通信サイトはせいぜい3つ程度である場合が多い。この場合、本発明に係るMCU305Aを採用すれば、従来のMCUに対して演算量を15%〜40%にまで削減することができる。
(実施の形態2)
MCU305Aが行う処理の中で、部分的符号化処理は、音響マスカの生成処理とダブルループの量子化処理とを含むため、演算量が最も多い。よって、実施の形態2に係るMCU305Bは、アクティブサイトが複数(N>2)である場合、部分的な符号化を1回のみおこなうことによって、演算量をさらに削減することができる。
図17は、本発明の実施の形態2に係るMCU305Bの構成を示す図である。
図17に示すMCU305Bは、実施の形態1に係るMCU305Aに対して、ダウンミックスサブストリーム結合部504B及びパラメータサブストリーム結合部506Bの処理が、ダウンミックスサブストリーム結合部504及びパラメータサブストリーム結合部506の処理と異なる。なお、ダウンミックスサブストリーム結合部504B及びパラメータサブストリーム結合部506Bの基本構成は、ダウンミックスサブストリーム結合部504及びパラメータサブストリーム結合部506と同様である。
また、MCU305Bは、MCU305Aの構成に加え、さらに、補助情報生成部507を備える。
ダウンミックスサブストリーム結合部504Bは、アクティブサイトの数が2以上の場合、全てのアクティブサイトから送信されたダウンミックスサブストリーム115を結合することにより単一の結合ダウンミックスサブストリーム121を生成する。
具体的には、ダウンミックスサブストリーム結合部504Bは、全てのアクティブサイトに関して部分的復号処理を行った後、復号された全MDCT係数セット710を単一の結合MDCT係数セット712に結合する。次に、ダウンミックスサブストリーム結合部504Bは、当該結合MDCT係数セット712を部分的に符号化することにより、全サイトに配信される単一の結合ダウンミックスサブストリーム121を生成する。
パラメータサブストリーム結合部506Bは、アクティブサイトの数が2以上の場合、全てのアクティブサイトから送信されたパラメータサブストリーム113を結合することにより単一の結合パラメータサブストリーム122を生成する。
補助情報生成部507は、アクティブサイトのそれぞれに対応する、複数の補助情報123を生成する。この補助情報123は、単一の結合ダウンミックスサブストリーム121及び単一の結合パラメータサブストリーム122の信号成分のうち、対応するアクティブサイトにより送信された符号化ビットストリーム116に対応する信号成分を特定するための情報である。なお、補助情報123に関しては後述する。
送信部508は、上記単一の結合ダウンミックスサブストリーム121、及び単一の結合パラメータサブストリーム122を全てのサイト301へ送信する。また、送信部508は、複数の補助情報123の各々を、対応するアクティブサイトへ送信する。
図18は、本発明の実施の形態2に係る遠隔通信システム300Bにおける、4つのサイト301のうち3つのサイト301A、301B及び301Dがアクティブな場合のMCU305Bの処理を模式的に示す図である。図18に示すように、サイト301A、301B及び301Dがアクティブな場合、MCU305Bは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxABD及び結合パラメータサブストリームParasABDを生成し、当該結合ダウンミックスサブストリームDmxABD及び結合パラメータサブストリームParasABDを全てのサイト301A〜301Dへ送信する。
また、MCU305Bは、アクティブサイトであるサイト301A、301B及び301Dへ、それぞれ補助情報123A、123B及び123Dを送信する。なお、補助情報123A、123B及び123Dは、それぞれ、サイト301A、301B及び301Dに対応する補助情報123である。
図19は、本発明の実施の形態2に係るMCU305Bの結合処理のフローチャートである。また、図20は、本発明の実施の形態1及び実施の形態2に係るMCU305A及び305Bと、通常のMCUとの演算量を示す図である。
なお、図19に示すステップS101〜S104の処理は、図13と同様なので、説明は省略する。
ステップS104の後、ダウンミックスサブストリーム結合部504Bは、全てのアクティブサイトに対応するMDCT係数セット710を結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504Bは、生成した結合MDCT係数セット712を符号化及び量子化することにより1つの結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506Bは、全てのアクティブサイトから送信されたパラメータサブストリーム113を結合することにより、1つの結合パラメータサブストリーム122を生成する(S205)。
次に、送信部508は、ステップS205で生成した1つの結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122を全てのサイトへ送信する(S206)。
このように、アクティブサイトの数Nが2以上である場合(S102でNo)、図20に示すように、部分的復号処理の数は、アクティブサイトの数Nとなり、結合処理の数及び部分的符号化処理の数は1回となる。つまり、非アクティブサイトに対する部分的復号処理が削減されるとともに、結合処理の数及び部分的符号化処理の数が1回に削減される。
本発明の実施の形態2の効果を説明するために、8つのサイトを接続する遠隔会議の例を再度参照する。この場合、実施の形態2に係るMCU305Bを採用すれば、通常のMCUに対して演算量を15%未満にまで削減することができる。
以下、補助情報123について説明する。
MCU305Bの目的は、実施の形態1で説明したように、送信先のサイト以外の他の全てのサイトからの符号化ビットストリーム116を単一の結合ビットストリーム124に結合することである。よって、実施の形態2のように、結合ビットストリーム124が全ての符号化ビットストリーム116を結合したものである場合、各サイト301は、結合ビットストリーム124内の干渉ストリーム(自身が送信した符号化ビットストリーム116の成分)を除去する必要がある。
本発明においては、MCU305Bは、全パラメータ情報を含む共通の結合パラメータサブストリーム122を生成する。また、各サイト301は、当該共通の結合パラメータサブストリーム122を用いて、パラメトリック復号処理において、結合ビットストリーム124内の干渉ストリームをミュートする。これにより、本発明の実施の形態2に係る遠隔通信システム300Bは、干渉ストリームの除去をパラメータドメインで実現する。
例えば、上述の4つのサイト301を接続する遠隔会議システムの例において、アクティブサイトはサイト301A、301B及び301Dの3つであるとする。共通の結合パラメータサブストリーム122は、次にあげるステップを通して構築される。
(1)オブジェクト数は、サイト301A、301B及び301Dのオブジェクト数が合計されたものである。つまり、共通の結合パラメータサブストリーム122に含まれる全オブジェクトの数は、Ntotal=N+N+Nで表される。
(2)結合されるパラメータは、A、B、Dの順に並べられる。例えば、オブジェクトレベル差は、i=1,・・・N,N+1,・・・,N+NB,+N+1,・・・,Ntotalであるとき、OLD(l,m)で表される。
また、共通の結合パラメータサブストリーム122は、共通の結合ダウンミックスサブストリーム121とともに各サイトへ配信される。各サイトにおけるパラメトリック復号の最終目的は、自サイトからの干渉ストリームの入力を除く全オーディオ入力を合成(つまりアップミックス)することである。
描画マトリックスをカスタマイズ設計することにより、パラメトリックオーディオ復号の最終目的を達成することができる。より詳しくは、自サイトからの干渉オブジェクトを除去するためには、MCU305Bで何らかの新たな補助情報123が生成され、当該受信サイトに送信されるべきである。この補助情報123とは、例えば、干渉オブジェクトのインデックスである。各サイトが備える復号装置200Bは、この補助情報123を用いることにより、パラメトリックオーディオ符号化の描画マトリックスにおいて、干渉オブジェクトにはゼロゲインを設定することができる。結果的に干渉オブジェクトがミュートされれば理想的である。
具体的には、補助情報生成部507は、アクティブサイトの各々に対して、単一の結合パラメータサブストリーム122に含まれるパラメータのうち、当該アクティブサイトにより送信されたパラメータサブストリーム113に対応するパラメータを特定するための補助情報123を生成する。
より詳細には、補助情報生成部507は、補助情報123として、共通の結合パラメータサブストリーム122に含まれるオブジェクト数(N)及び開始オブジェクトインデックス(N+1)を、結合パラメータサブストリーム122とともに、サイト301Bへ送信する。
図21は、本発明の実施の形態2に係るサイトが備えるパラメトリック復号装置200Bの構成を示すブロック図である。なお、図2と同様の要素には同一の符号を付しており、重複する説明は省略する。図21に示す復号装置200Bは、図2に示す復号装置200の構成に加え、さらに、パラメータ変換部205を備える。
この復号装置200Bは、補助情報123を用いて、単一の結合ビットストリーム124の信号成分のうち、当該復号装置200Bを備えるサイト301により送信された符号化ビットストリーム116に対応する信号成分を除去した複数のオーディオ出力信号216を生成する。
具体的には、パラメータ変換部205は、後続のパラメトリック復号化のために、任意に設計されたNspeaker×Ntotal(Nspeakerはサイト301Bにおけるスピーカの数を表す)サイズの描画マトリックスのうち、補助情報123を用いてコラムN+1からコラムN+Nまでのマトリックス要素をゼロに設定する。このことは、N+1からN+Nの全オブジェクトのゲインがNspeaker個のスピーカにおいてゼロであることを意味する。その結果、サイト301Bにおける干渉オブジェクトはミュートされ、他のサイトからの残りのオーディオオブジェクトが要望に応じて再生される。
以上より、本発明の実施の形態2に係るMCU305Bは、単一の結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122のみを生成することにより、演算量を低減できる。
また、本発明の実施の形態2に係るMCU305Bは、アクティブサイトごとに補助情報123を生成する。これにより、各サイト301は、単一の結合ダウンミックスサブストリーム121から、自サイトが送信した符号化ビットストリーム116の信号成分を除外できる。
(実施の形態3)
パラメータの結合にあたり、実際には、異なるサイトからのパラメータサブストリーム113は異なるパラメータ表現基準を有していてもよい。なぜなら、各サイト301は、異なるビットレートを利用可能であり、異なるオブジェクト特性が表現されているからである。本発明に係る実施の形態3に係るMCU305Cは、異なるパラメータ表現基準で表現されたパラメータの結合をサポート可能である。
なお、パラメータ表現基準とは、具体的には、パラメータタイルの分割方法(分割間隔)である。
以下では、2つのパラメータサブストリーム113、例えば、サイト301BからのパラメータサブストリームParasと、サイト301CからのパラメータサブストリームParasとがMCU305に入力される例を説明する。ここで、パラメータサブストリームParasは、N個のオブジェクトに対し、合計で(P×Q)個のパラメータタイルで表され、パラメータサブストリームParasは、N個のオブジェクトに対し、合計で(P×Q)個のパラメータタイルで表されるとする。
ここで一般的には、下記(式13)が成り立つ。
Figure 0005377505
なぜなら、2つの独立した符号化サイトにおいては、信号特性及び利用可能なビットレートが異なるからである。ここでは、図22A及び図22Bに示すように、普遍性を失うことなく、下記(式14)が成り立つと仮定する。
Figure 0005377505
図23は、本発明の実施の形態3に係るMCU305Cの構成を示すブロック図である。なお、図8と同様の要素には同一の符号を付しており、重複する説明は省略する。
図23に示すMCU305Cは、パラメータサブストリーム結合部506Cの構成が、図8に示すパラメータサブストリーム結合部506と異なる。
図24は、本発明の実施の形態3に係るパラメータサブストリーム結合部506Cの構成を示すブロック図である。なお、図11と同様の要素には同一の符号を付しており、重複する説明は省略する。また、図24では、上記パラメータサブストリームParasとParasとを結合する場合を示している。
図24に示すパラメータサブストリーム結合部506Cは、図11に示す構成に加え、さらに、パラメータ基準統一部754を備える。
このパラメータ基準統一部754は、複数のパラメータサブストリーム113が、異なるパラメータ表現基準で表現されている場合、複数のパラメータ761のパラメータ表現基準を、単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータ762を生成する。
パラメータ結合部755は、全統一パラメータ762を結合することにより結合パラメータ763を生成する。
本発明において、そのようなハイブリッドパラメータ表現基準を持つストリームの結合プロセスは、次に述べる2原則に従って設計される。
(1)過渡的なふるまいを可能な限り捉えること。
(2)ダウンミックス信号の品質を劣化させないために、結合パラメータサブストリーム122のビット消費を妥当な値に保つこと。
第2原則を利用するためには、パラメータサブストリーム113のビット消費の概算値を導き出す必要がある。N個のオブジェクトに対するパラメータ表現を含むParasの例を検討する。この場合、OLDが(N×P×Q)個、NRGが(P×Q)個、IOCが(N×(N−1)×P×Q/2)個、DMGが(N×P×Q)個ある。パラメータタイプにかかわらず、同一のビットコストが当該パラメータに適用されるとする。結果的には、ヘッダ情報を無視することにより、Parasの総ビット消費bit_countを下記(式15)のように近似することができる。
Figure 0005377505
ゆえに、ハイブリッドパラメータ表現基準に対し、総ビット消費bit_countorigは、下記(式16)で表される。
Figure 0005377505
同様の方法で、以下のような異なる構成で表現される全パラメータに対し、考えうる3つのビットコストが下記(式17)〜(式19)を用いて算出される。
(1)最大ビット消費(精細なパラメータ表現基準)
Figure 0005377505
(2)中程度のビット消費(パラメータセットを細分割する場合のみのパラメータ表現基準)
Figure 0005377505
(3)最小ビット消費(粗いパラメータ表現基準)
Figure 0005377505
上記に基づいて異なるパラメータ表現基準を統一するために、パラメータ表現基準間に知能スイッチを備える3つの統一方法を提案する。
第1の統一方法として、パラメータ基準統一部754は、ハイブリッドパラメータ表現基準を持つパラメータサブストリームを統合するために、パラメータバンドQ及びQのうち精細なパラメータバンドQと、パラメータセットP及びPのうち精細なパラメータセットPとを有する精細なパラメータ表現基準を採用することができる。
この例では、図25Aに示されるとおり、パラメータ基準統一部754は、(P×Q)個のタイルを用いる精細な基準を統一基準として採用する。
第2の統一方法として、パラメータ基準統一部754は、ハイブリッドパラメータ表現基準を持つパラメータサブストリームを統合するために、パラメータバンドQ及びQのうち粗いパラメータバンドQと、パラメータセットP及びPのうち精細なパラメータセットPを有する中程度のパラメータ表現基準を採用することができる。
この例では、図25Bに示されるとおり、パラメータ基準統一部754は、(P×Q)個のタイルを用いる中程度の基準を統一基準として採用する。
第3の統一方法として、パラメータ基準統一部754は、ハイブリッドパラメータ表現基準を持つパラメータサブストリームを統合するために、パラメータバンドQ及びQのうち粗いパラメータバンドQと、パラメータセットP及びPのうち粗いパラメータセットPを有する粗いパラメータ表現基準を採用することができる。
この例では、図25Cに示されるとおり、パラメータ基準統一部754は、(P×Q)個のタイルを用いる粗い基準を統一基準として採用する。
当然のことながら、パラメータ基準統一部754は、統一後のものと異なる基準のパラメータの全てを、統一後の基準に相当するまで拡大又は縮小する必要がある。
パラメータ基準統一部754は、パラメータを拡大する場合、パラメータ表現基準を、古い大きなパラメータタイル基準から新しい小さなタイル基準へと、つまり、図26Aから図26Bへと精細化する。古いタイル(l,m)が(l’,m’)から(l’+Δl,m’+Δm)の新しい小さいタイルをカバーする場合、古いタイルに定義されたパラメータは、新しいタイルへ複製される。例えば、パラメータ基準統一部754は、下記(式20)を用いて新しいOLDを算出する。
Figure 0005377505
ここで、iはオブジェクトインデックスである。
また、IOC、NRG及びDMG等、他のパラメータタイプを有するパラメータも同様に精細化することができる。
一方、パラメータを縮小するには、パラメータ表現基準を、複数の古い小さなタイルから1つの新しい大きなタイルへ、つまり図26Bから図26Aへ平均化する。この場合、異なるパラメータタイプは異なる平均化方法で平均化される。
例えば、パラメータ基準統一部754は、タイル(l,m)上の新しいNRGパラメータを、下記(式21)を用いて算出できる。
Figure 0005377505
これに基づき、パラメータ基準統一部754は、新しいOLDパラメータを、下記(式22)を用いて算出できる。
Figure 0005377505
また、パラメータ基準統一部754は、新しいIOCパラメータを、下記(式23)を用いて算出できる。
Figure 0005377505
また、パラメータ基準統一部754は、新しいDMGパラメータを、下記(式24)及び(式25)のいずれかを用いて算出できる。
Figure 0005377505
あるいは、加重平均を用いる場合は、パラメータ基準統一部754は、下記(式25)を用いて新しいDMGパラメータを算出できる。
Figure 0005377505
ここで、S(u,v)は、タイル(u,v)の領域を表す。
以上により、本発明の実施の形態3に係るMCU305Cは、異なる基準で表現されたパラメータを結合できる。
(実施の形態4)
本発明の実施の形態4では、実施の形態3に係るMCU305Cの変形例について説明する。本発明の実施の形態4に係るMCU305Dは、統一されたパラメータ表現基準を相互作用的に切り替える能力を有する。
図27は、本発明の実施の形態4に係るMCU305Dの構成を示すブロック図である。なお、図23と同様の要素には同一の符号を付しており、重複する説明は省略する。
図27に示すMCU305Dは、図23の構成に加え、さらに、パラメータ基準選択部502を備える。また、パラメータサブストリーム結合部506Dの構成が、図23に示すパラメータサブストリーム結合部506Cと異なる。
パラメータ基準選択部502は、複数のパラメータ表現基準のうち一つを選択し、選択したパラメータ表現基準を示す選択信号511をパラメータサブストリーム結合部506へ出力する。例えば、パラメータ基準選択部502は、図25A〜図25Cに示す3つのパラメータ表現基準(詳細なパラメータ表現基準、中程度のパラメータ表現基準及び粗いパラメータ表現基準)のうち一つを選択する。
具体的には、パラメータ基準選択部502は、基準切り替えのメカニズムを、例えば、MCU305Dから複数のサイト301への送信に用いることができる現在のビットレート510、又は対応する結合パラメータサブストリーム122のビットコストに応じて決定することができる。これは、以下にあげる3つのステップを通して実現可能である。
(1)まず、MCU305Dが結合ストリームを受信サイトに配信する際、高いビットレートを利用可能な場合、又は最大ビット消費が妥当である場合は、パラメータ基準選択部502は、詳細なパラメータ表現基準を選択する。これは、下記(式26)のように表される。
Figure 0005377505
ここで、brは実際のMCU配信ビットレートを表し、bは結合ストリーム配信のために予め定義された高いビットレートを表し、bは予め定義された低いビットレート値を表し、cは予め定義された閾値、例えば、1.5〜2.0の間の実数を表す。
(2)上記条件が満たされなかった場合には、パラメータ基準選択部502は、MCU配信のために認められたビットレート条件が厳しすぎるかどうか、又は、中程度のビット消費が妥当かどうかをテストする。すなわち、パラメータ基準選択部502は、下記(式27)が満たされるか否かを判定する。
Figure 0005377505
上記に当てはまる場合、パラメータ基準選択部502は、中程度のパラメータ表現基準を選択する。
(3)上記条件のいずれも満たさない場合は、統一パラメータ表現基準は、パラメータ基準選択部502は、粗いパラメータ表現基準を選択する。
なお、パラメータ基準選択部502は、ビットレート及びビットコストの両方に基づき、パラメータ表現基準を選択してもよいし、ビットレート及びビットコストの一方のみに基づき、パラメータ表現基準を選択してもよい。
図28は、パラメータサブストリーム結合部506Dの構成を示す図である。なお、図24と同様の要素には同一の符号を付しており、重複する説明は省略する。また、4つのサイトを接続する遠隔会議システムにおいて、アクティブサイトがサイト301A、301B及び301Dの3つであるとする。また、図28は、サイト301Aへ送信する一つの結合パラメータサブストリーム122を生成する構成のみを示している。
図28に示すパラメータサブストリーム結合部506Dでは、パラメータ基準統一部754Dの構成が、図24に示すパラメータ基準統一部754と異なる。
パラメータ基準統一部754Dは、選択信号511で示されるパラメータ表現基準に、複数のパラメータ761を変換することにより統一パラメータ762を生成する。
以上より、本発明の実施の形態4に係るMCU305Dは、ビットレート又はビットコストを考慮することによって、異なるパラメータ表現基準を持つパラメータサブストリーム113を効率的に統合できる。
以上、本発明の実施の形態に係る結合装置及び遠隔通信システムについて説明したが、本発明は、この実施の形態に限定されるものではない。
例えば、上記実施の形態1〜4では、ダウンミックスサブストリーム結合部504又は504Bが、複数のダウンミックスサブストリーム115をMDCTドメイン(スペクトルドメイン)において結合する例を述べたが、図4に示す従来例のように、複数のダウンミックスサブストリーム115を時間ドメインで結合してもよい。
また、上記実施の形態1〜4に係る結合装置、符号化装置及び復号装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又はすべてを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
また、本発明の実施の形態1〜4に係る、結合装置、符号化装置及び復号装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。
さらに、本発明は上記プログラムであってもよいし、上記プログラムが記録された記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
また、上記実施の形態1〜4に係る、遠隔通信システム、結合装置、符号化装置、復号装置、及びその変形例の機能のうち少なくとも一部を組み合わせてもよい。
また、上記で用いた数字は、すべて本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。
また、上記の結合装置による結合方法は、本発明を具体的に説明するために例示するためのものであり、本発明に係る結合装置による結合方法は、上記に限定されるものではない。例えば、上記のステップが実行される順序は、本発明を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
更に、本発明の主旨を逸脱しない限り、本実施の形態に対して当業者が思いつく範囲内の変更を施した各種変形例も本発明に含まれる。
本発明は、結合装置に適用できる。また、本発明は、当該結合装置を用いる遠隔会議システムに適用できる。
100 符号化装置
101、202 T−F変換部
102 アナライザ
102A ダウンミックス部
102B パラメータ抽出部
103、204 F−T変換部
104 ダウンミックスエンコーダ
110 オーディオ入力信号
111 周波数信号
112 中間ダウンミックス信号
113、Paras、Paras、Paras、Paras パラメータサブストリーム
114 ダウンミックス時間信号
115、Dmx、Dmx、Dmx、Dmx ダウンミックスサブストリーム
116 符号化ビットストリーム
121、DmxABC、DmxABD、DmxACD、DmxBCD、DmxAB、DmxAC、DmxBC 結合ダウンミックスサブストリーム
122、ParasABC、ParasABD、ParasACD、ParasBCD、ParasAB、ParasAC、ParasBC 結合パラメータサブストリーム
123、123A、123B、123D 補助情報
124 結合ビットストリーム
200、200B 復号装置
201 ダウンミックスデコーダ
203 パラメータ合成部
205 パラメータ変換部
213 時間信号
214 周波数信号
215 変換信号
216 オーディオ出力信号
300、300A、300B 遠隔通信システム
301、301A、301B、301C、301D サイト
305、305A、305B、305C、305D MCU
401、402、403 パラメトリックデコーダ
404、704 加算部
405 パラメトリックエンコーダ
411B、411C、411D 復号信号
412 加算信号
501 検出部
502 パラメータ基準選択部
504、504B ダウンミックスサブストリーム結合部
506、506B、506C、506D パラメータサブストリーム結合部
507 補助情報生成部
508 送信部
510 ビットレート
511 選択信号
601 MDCT変換部
602 符号化部
603 制御部
611、710、coef、coef、coef MDCT係数セット
700 復号部
701、702、703 逆符号化部
705 スケーリング部
706 符号化部
711、712、coefBCD 結合MDCT係数セット
750 逆量子化部
754、754D パラメータ基準統一部
755 パラメータ結合部
756 パラメータ更新部
757 量子化部
761 パラメータ
762 統一パラメータ
763、764 結合パラメータ
765 更新パラメータ

Claims (19)

  1. 複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する結合装置であって、
    前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出部と、
    複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合部と、
    複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合部と、
    前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信部とを備え
    前記第2結合部は、
    前記複数のパラメータサブストリームが、周波数区分が異なるパラメータ表現基準で表現されている場合、当該複数のパラメータサブストリームのパラメータ表現基準を、周波数区分が同じである単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータを生成するパラメータ基準統一部を備え、
    前記第2結合部は、前記複数の統一パラメータを結合することにより、前記結合パラメータサブストリームを生成する
    結合装置。
  2. 前記第1結合部は、
    前記複数のダウンミックスサブストリームのうち、前記アクティブ符号化ビットストリームに含まれる前記ダウンミックスサブストリームのみを復号することにより複数の復号ダウンミックスサブストリームを生成する復号部と、
    前記複数の復号ダウンミックスサブストリームを加算することにより1以上の中間結合ダウンミックスサブストリームを生成する加算部と、
    前記1以上の中間結合ダウンミックスサブストリームを符号化することにより1以上の前記結合ダウンミックスサブストリームを生成する符号化部とを備える
    請求項1記載の結合装置。
  3. 前記第1結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のダウンミックスサブストリームのうち、当該サイト以外のサイトから送信された複数のダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合ダウンミックスサブストリームを生成し、
    前記第2結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のパラメータサブストリームのうち、当該サイト以外のサイトから送信された複数のパラメータダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合パラメータサブストリームを生成し、
    前記送信部は、前記結合ダウンミックスサブストリーム及び前記結合パラメータサブストリームを含む結合ビットストリームを、対応するサイトへ送信し、
    前記複数の符号化ビットストリームのうち、前記アクティブ符号化ビットストリーム以外の符号化ビットストリームである非アクティブ符号化ビットストリームの数が2以上の場合、
    (1)前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のダウンミックスサブストリームを結合することにより共通結合ダウンミックスサブストリームを生成し、
    (2)前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のパラメータサブストリームを結合することにより共通結合パラメータサブストリームを生成し、
    (3)前記送信部は、前記共通結合ダウンミックスサブストリーム及び前記共通結合パラメータサブストリームを含む共通結合ビットストリームを、前記2以上の非アクティブ符号化ビットストリームの送信元のサイトへ送信する
    請求項1又は2記載の結合装置。
  4. 前記アクティブ符号化ビットストリームの数が2の場合、前記送信部は、前記2個のアクティブ符号化ビットストリームの一方である第1符号化ビットストリームをそのまま、前記2個のアクティブ符号化ビットストリームの他方である第2符号化ビットストリームの送信元のサイトへ送信し、前記第2符号化ビットストリームをそのまま前記第1符号化ビットストリームの送信元のサイトへ送信する
    請求項1〜3のいずれか1項に記載の結合装置。
  5. 前記アクティブ符号化ビットストリームの数が1の場合、前記送信部は、前記アクティブ符号化ビットストリームをそのまま、当該アクティブ符号化ビットストリームの送信元のサイト以外のサイトへ送信する
    請求項1〜4のいずれか1項に記載の結合装置。
  6. 前記検出部は、前記複数のパラメータサブストリームに含まれる情報を用いて、前記アクティブ符号化ビットストリームを検出する
    請求項1〜5のいずれか1項に記載の結合装置。
  7. 前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームを結合することにより、単一の結合ダウンミックスサブストリームを生成し、
    前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームを結合することにより、単一の結合パラメータサブストリームを生成し、
    前記送信部は、前記単一の結合ダウンミックスサブストリーム及び前記単一の結合パラメータサブストリームとを含む単一の結合ビットストリームを、前記複数のサイトの全てへ送信する
    請求項1又は2記載の結合装置。
  8. 前記結合装置は、さらに、
    前記アクティブ符号化ビットストリームの送信元であるアクティブサイトの各々に対して、前記単一の結合ビットストリームの信号成分のうち、当該アクティブサイトにより送信された前記符号化ビットストリームに対応する信号成分を特定するための補助情報を生成する補助情報生成部を備え、
    前記送信部は、複数の前記補助情報の各々を、対応するアクティブサイトへ送信する
    請求項7記載の結合装置。
  9. 前記補助情報生成部は、前記アクティブサイトの各々に対して、前記単一の結合パラメータサブストリームに含まれるパラメータのうち、当該アクティブサイトにより送信された前記パラメータサブストリームに対応するパラメータを特定するための前記補助情報を生成する
    請求項8記載の結合装置。
  10. 前記結合装置は、さらに、
    当該結合装置から前記複数のサイトへの送信に用いることができる現在のビットレートに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備える
    請求項1記載の結合装置。
  11. 前記結合装置は、さらに、
    前記結合パラメータサブストリームのビット数を示すビットコストに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備える
    請求項1記載の結合装置。
  12. 前記ダウンミックスサブストリームは、前記複数のオーディオ入力信号がダウンミックスされた後、スペクトルドメインに変換されたうえで、符号化されており、
    前記復号部は、前記ダウンミックスサブストリームを復号することにより、前記スペクトルドメインの前記復号ダウンミックスサブストリームを生成し、
    前記加算部は、前記スペクトルドメインの前記複数の復号ダウンミックスサブストリームを加算することにより前記1以上の中間結合ダウンミックスサブストリームを生成する
    請求項2記載の結合装置。
  13. 前記第1結合部は、さらに、
    前記複数の復号ダウンミックスサブストリームのスペクトルパワーが前記中間結合ダウンミックスサブストリームにおいて保存されるように、前記中間結合ダウンミックスサブストリームをスケーリングするスケーリング部を備え、
    前記符号化部は、前記スケーリング部によりスケーリングされた前記中間結合ダウンミックスサブストリームを符号化することにより前記結合ダウンミックスサブストリームを生成する
    請求項1記載の結合装置。
  14. 前記第2結合部は、
    複数のパラメータサブストリームを逆量子化することにより複数の逆量子化パラメータを生成する逆量子化部と、
    前記逆量子化パラメータを結合することにより結合パラメータを生成するパラメータ結合部と、
    前記結合パラメータに含まれるパラメータのうち一部のパラメータを更新することにより更新パラメータを生成するパラメータ更新部と、
    前記結合パラメータに含まれるパラメータのうち前記一部以外のパラメータと、前記更新パラメータとを量子化することにより、前記結合パラメータサブストリームを生成する量子化部とを備える
    請求項1記載の結合装置。
  15. 複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、
    前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する請求項1記載の結合装置とを含み、
    前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含む
    遠隔通信システム。
  16. 複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、
    前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する請求項8記載の結合装置とを含み、
    前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含み、
    前記復号装置は、前記補助情報を用いて、前記単一の結合ビットストリームの信号成分のうち、当該復号装置を備えるサイトにより送信された前記符号化ビットストリームに対応する信号成分を除去した前記オーディオ出力信号を生成する
    遠隔通信システム。
  17. 複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する結合方法であって、
    前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出ステップと、
    複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合ステップと、
    複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合ステップと、
    前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信ステップとを含み、
    前記第2結合ステップは、
    前記複数のパラメータサブストリームが、周波数区分が異なるパラメータ表現基準で表現されている場合、当該複数のパラメータサブストリームのパラメータ表現基準を、周波数区分が同じである単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータを生成するパラメータ基準統一ステップを含み、
    前記第2結合ステップでは、前記複数の統一パラメータを結合することにより、前記結合パラメータサブストリームを生成する
    結合方法。
  18. 請求項1記載の結合方法をコンピュータに実行させる
    プログラム。
  19. 複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する集積回路であって、
    前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出部と、
    複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合部と、
    複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合部と、
    前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信部とを備え
    前記第2結合部は、
    前記複数のパラメータサブストリームが、周波数区分が異なるパラメータ表現基準で表現されている場合、当該複数のパラメータサブストリームのパラメータ表現基準を、周波数区分が同じである単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータを生成するパラメータ基準統一部を備え、
    前記第2結合部は、前記複数の統一パラメータを結合することにより、前記結合パラメータサブストリームを生成する
    集積回路。
JP2010532766A 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法 Expired - Fee Related JP5377505B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010532766A JP5377505B2 (ja) 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009024304 2009-02-04
JP2009024304 2009-02-04
PCT/JP2010/000666 WO2010090019A1 (ja) 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法
JP2010532766A JP5377505B2 (ja) 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法

Publications (2)

Publication Number Publication Date
JPWO2010090019A1 JPWO2010090019A1 (ja) 2012-08-09
JP5377505B2 true JP5377505B2 (ja) 2013-12-25

Family

ID=42541928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010532766A Expired - Fee Related JP5377505B2 (ja) 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法

Country Status (4)

Country Link
US (1) US8504184B2 (ja)
JP (1) JP5377505B2 (ja)
CN (1) CN102016982B (ja)
WO (1) WO2010090019A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040086B1 (ko) * 2009-05-20 2011-06-09 전자부품연구원 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치
CN102844808B (zh) * 2010-11-03 2016-01-13 华为技术有限公司 用于编码多通道音频信号的参数编码器
EP2870603B1 (en) * 2012-07-09 2020-09-30 Koninklijke Philips N.V. Encoding and decoding of audio signals
AU2013298462B2 (en) * 2012-08-03 2016-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
KR102033985B1 (ko) 2012-08-10 2019-10-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
US20160049914A1 (en) * 2013-03-21 2016-02-18 Intellectual Discovery Co., Ltd. Audio signal size control method and device
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
CN106716525B (zh) * 2014-09-25 2020-10-23 杜比实验室特许公司 下混音频信号中的声音对象插入
CA3134343A1 (en) * 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000174909A (ja) * 1998-12-08 2000-06-23 Nec Corp 会議端末制御装置
WO2008026754A1 (fr) * 2006-08-30 2008-03-06 Nec Corporation Procédé de mixage vocal, serveur de conférence multipoint utilisant le procédé et programme
WO2008039039A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2009001887A1 (ja) * 2007-06-27 2008-12-31 Nec Corporation 多地点接続装置、信号分析及び装置と、その方法及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128649A (en) * 1997-06-02 2000-10-03 Nortel Networks Limited Dynamic selection of media streams for display
US6934906B1 (en) * 1999-07-08 2005-08-23 At&T Corp. Methods and apparatus for integrating external applications into an MPEG-4 scene
US7505889B2 (en) * 2002-02-25 2009-03-17 Zoran Corporation Transcoding media system
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
FR2859495B1 (fr) * 2003-09-09 2005-10-07 Technip France Methode d'installation et de connexion d'une conduite sous-marine montante
US20060156531A1 (en) * 2005-01-14 2006-07-20 Dwileski Mark D Jr Pipe aligning device and method of use thereof
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
JP4936688B2 (ja) 2005-07-19 2012-05-23 パナソニック株式会社 中継装置、通信端末装置、信号復号化装置、信号処理方法、および信号処理プログラム
JP4644813B2 (ja) 2006-02-27 2011-03-09 国立大学法人東京農工大学 多者間通話システム、多者間通話システムにおける通話端末および通話サーバ、多者間通話方法
ES2396072T3 (es) * 2006-07-07 2013-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
EP2084901B1 (en) 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
ATE539434T1 (de) * 2006-10-16 2012-01-15 Fraunhofer Ges Forschung Vorrichtung und verfahren für mehrkanalparameterumwandlung
KR101049143B1 (ko) * 2007-02-14 2011-07-15 엘지전자 주식회사 오브젝트 기반의 오디오 신호의 부호화/복호화 장치 및 방법
CN103299363B (zh) * 2007-06-08 2015-07-08 Lg电子株式会社 用于处理音频信号的方法和装置
US20110112843A1 (en) * 2008-07-11 2011-05-12 Nec Corporation Signal analyzing device, signal control device, and method and program therefor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000174909A (ja) * 1998-12-08 2000-06-23 Nec Corp 会議端末制御装置
WO2008026754A1 (fr) * 2006-08-30 2008-03-06 Nec Corporation Procédé de mixage vocal, serveur de conférence multipoint utilisant le procédé et programme
WO2008039039A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2009001887A1 (ja) * 2007-06-27 2008-12-31 Nec Corporation 多地点接続装置、信号分析及び装置と、その方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013009775; Kundan Singh et al.: '"Centralized Conferencing using SIP"' Proc. of the 2nd IP-Telephony Workshop (IPTel'2001) , 200104 *

Also Published As

Publication number Publication date
US8504184B2 (en) 2013-08-06
CN102016982A (zh) 2011-04-13
US20110029113A1 (en) 2011-02-03
JPWO2010090019A1 (ja) 2012-08-09
WO2010090019A1 (ja) 2010-08-12
CN102016982B (zh) 2014-08-27

Similar Documents

Publication Publication Date Title
JP5377505B2 (ja) 結合装置、遠隔通信システム及び結合方法
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
CA2645912C (en) Methods and apparatuses for encoding and decoding object-based audio signals
JP5302980B2 (ja) 複数の入力データストリームのミキシングのための装置
Herre et al. MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding
AU2005328264B2 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
RU2406166C2 (ru) Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
JP2013083986A (ja) 符号化装置
US8930197B2 (en) Apparatus and method for encoding and reproduction of speech and audio signals
EP3424048A1 (en) Audio signal encoder, audio signal decoder, method for encoding and method for decoding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130924

R150 Certificate of patent or registration of utility model

Ref document number: 5377505

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees