JP2023534049A - マルチチャネル音声信号コーディング方法及び装置 - Google Patents

マルチチャネル音声信号コーディング方法及び装置 Download PDF

Info

Publication number
JP2023534049A
JP2023534049A JP2023503019A JP2023503019A JP2023534049A JP 2023534049 A JP2023534049 A JP 2023534049A JP 2023503019 A JP2023503019 A JP 2023503019A JP 2023503019 A JP2023503019 A JP 2023503019A JP 2023534049 A JP2023534049 A JP 2023534049A
Authority
JP
Japan
Prior art keywords
channel
channel signals
energy
pairing scheme
equalization mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023503019A
Other languages
English (en)
Inventor
智 王
建策 丁
▲賓▼ 王
▲ジー▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2023534049A publication Critical patent/JP2023534049A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

マルチチャネル音声信号コーディング方法(300)及び装置が開示される。マルチチャネル音声信号コーディング方法(300)は、エンコーディングされるべき第1の音声フレームを取得するステップ(301)と、第1のチャネル対セットを取得するために第1のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングするステップ(302)と、第1のチャネル対セットの相関値の第1の総和を取得するステップであって、1つのチャネル対が1つの相関値を有する、ステップ(303)と、第2のチャネル対セットを取得するために第2のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングするステップ(304)と、前記第2のチャネル対セットの相関値の第2の総和を取得するステップ(305)と、相関値の第1の総和及び相関値の第2の総和に基づいて少なくとも5つのチャネル信号の目標ペアリング方式を決定するステップ(306)と、目標ペアリング方式に対応するチャネル対セットに基づいて少なくとも5つのチャネル信号をエンコーディングするステップであって、目標ペアリング方式が第1のペアリング方式又は第2のペアリング方式である、ステップ(311)とを含む。マルチチャネル音声信号コーディング方法(300)及び装置は、音声フレームコーディング方法をより多様且つ効率的にする。

Description

この出願は、参照によりその全体が本願に組み入れられる、2020年7月17日付で中国国家知識産権局に出願された、「マルチチャネル音声信号コーディング方法及び装置」という名称の中国特許出願第202010728902.2号の優先権を主張する。
この出願は、音声処理技術に関し、特に、マルチャネル音声信号コーディング方法及び装置に関する。
マルチチャネル音声エンコーディング及びデコーディングは、少なくとも2つのチャネルで音声をエンコーディング又はデコーディングする技術である。一般的なマルチチャネル音声は、5.1チャネル音声、7.1チャネル音声、7.1.4チャネル音声、及び22.2チャネル音声を含む。
MPEGサラウンド(MPEG Surround,MPS)規格は、4チャネルでのジョイントコーディングを定めるが、前述のマルチチャネル音声信号のためのエンコーディング方法及びデコーディング方法を依然として必要とする。
この出願は、音声フレームコーディング方法をより多様且つ効率的にするために、マルチチャネル音声信号コーディング方法及び装置を提供する。
第1の態様によれば、この出願は、エンコーディングされるべき第1の音声フレームを取得するステップであって、第1の音声フレームが少なくとも5つのチャネル信号を含む、ステップと、第1のチャネル対セットを取得するために第1のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングするステップであって、第1のチャネル対セットが少なくとも1つのチャネル対を含み、1つのチャネル対が少なくとも5つのチャネル信号のうちの2つのチャネル信号を含む、ステップと、第1のチャネル対セットの相関値の第1の総和を取得するステップであって、1つのチャネル対が1つの相関値を有し、相関値がチャネル対の2つのチャネル信号間の相関を示す、ステップと、第2のチャネル対セットを取得するために第2のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングするステップと、第2のチャネル対セットの相関値の第2の総和を取得するステップと、相関値の第1の総和及び相関値の第2の総和に基づいて少なくとも5つのチャネル信号の目標ペアリング方式を決定するステップと、目標ペアリング方式にしたがって少なくとも5つのチャネル信号をエンコーディングするステップであって、目標ペアリング方式が第1のペアリング方式又は第2のペアリング方式である、ステップとを含むマルチチャネル音声信号コーディング方法を提供する。
この実施形態における第1の音声フレームは、エンコーディングされるべきマルチチャネル音声の任意のフレームであってもよく、第1の音声フレームは5つ以上のチャネル信号を含む。2つの高度に相関されたチャネル信号を一緒にエンコーディングすることは、冗長性を低減し、コーディング効率を高めることができる。したがって、この実施形態では、2つのチャネル信号の相関値に基づいてペアリングを行なう。可能な限り最高の相関を伴うペアリング方式を見つけるために、第1の音声フレーム内の少なくとも5つのチャネル信号のうちの2つおきの間の相関値を計算して、第1の音声フレームの相関値セットを取得することができる。第1のペアリング方式は、相関値の最大総和を取得するために、少なくとも5つのチャネル信号に対応するチャネル対から1つのチャネル対を選択して、該チャネル対を第1のチャネル対セットに加えるステップを含む。相関値の第1の総和は、第1のペアリング方式に対応する第1のチャネル対セット内の全てのチャネル対の相関値の総和である。第2のペアリング方式は、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中で相関値が最も大きいチャネル対を最初に加えるステップと、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中の関連するチャネル対以外の他のチャネル対の中で相関値が最も大きいチャネル対を加えるステップであって、関連するチャネル対が、第1のチャネル対セットに加えられるチャネル対に含まれる任意のチャネル信号を含む、ステップとを含む。相関値の第2の総和は、第2のペアリング方式に対応する第2のチャネル対セット内の全てのチャネル対の相関値の総和である。
この実施形態では、2つのペアリング方式が組み合わされて、ペアリング方式に対応する相関値の総和に基づき、従来技術におけるペアリング方式を使用すべきか又は相関値の最大の総和を取得するためのペアリング方式を使用すべきかどうかを決定し、それにより、音声フレームコーディング方法がより多様且つ効率的になる。
想定し得る実施において、相関値の第1の総和及び相関値の第2の総和に基づいて少なくとも5つのチャネル信号の目標ペアリング方式を決定するステップは、相関値の第1の総和が相関値の第2の総和よりも大きいときに、目標ペアリング方式が第1のペアリング方式であると決定するステップ、又は、相関値の第1の総和が相関値の第2の総和に等しいときに、目標ペアリング方式が第2のペアリング方式であると決定するステップを含む。
最初に、目標ペアリング方式が相関値の総和に基づいて決定され、それにより、目標チャネル対セットに含まれる全てのチャネル対の相関値の総和を可能な限り大きくすることができ、ペアリングされるチャネル対の数を可能な限り増やすことができ、その結果、チャネル信号間の冗長性が低減される。
想定し得る実施では、目標ペアリング方式にしたがって少なくとも5つのチャネル信号をエンコーディングするステップの前に、方法は、少なくとも5つのチャネル信号の変動間隔値を取得するステップと、目標ペアリング方式が第1のペアリング方式であるときに、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定するステップ、又は、目標ペアリング方式が第2のペアリング方式であるときに、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定して、少なくとも5つのチャネル信号の目標ペアリング方式を再決定するステップと、少なくとも5つの等化チャネル信号を取得するためにエネルギー等化モードにしたがって少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行するステップとを更に含む。それに対応して、目標ペアリング方式にしたがって少なくとも5つのチャネル信号をエンコーディングするステップは、目標ペアリング方式にしたがって少なくとも5つの等化チャネル信号をエンコーディングするステップを含む。
この出願のこの実施形態では、前述のエネルギー等化が振幅等化であってもよく、エネルギー等化処理の対象がエネルギーであり、振幅等化処理の対象が振幅である。チャネル信号のエネルギーとチャネル信号の振幅との間には、二乗の関係、すなわち、エネルギー=振幅2=振幅×振幅が存在する。
第1のエネルギー等化モードは、Pairエネルギー等化モードである。このモードでは、任意のチャネル対に関して、チャネル対の2つのチャネル信号のみが、チャネル対に対応する2つの等化チャネル信号を取得するために使用される。なお、「のみ」とは、等化チャネル信号が取得されるときに、チャネル対が単位として使用され、チャネル対に含まれる2つのチャネル信号のみに基づいてエネルギー等化処理が行なわれることを意味する。取得された2つの等化チャネル信号は、チャネル対にない他のチャネル信号に対してエネルギー等化を実行することなく、2つのチャネル信号のみに関連する。しかしながら、「のみ」は、エネルギー等化処理における情報内容を限定するために使用されない。例えば、エネルギー等化処理中にチャネル信号の関連する特徴パラメータ、エンコーディング/デコーディングパラメータなどを参照することができる。これは、本明細書では特に限定されない。第2のエネルギー等化モードは、全体エネルギー等化モードである。このモードでは、1つのチャネル対に対応する2つの等化チャネル信号を取得するために、1つのチャネル対内の2つのチャネル信号及び1つのチャネル対内にない少なくとも1つのチャネル信号が使用される。この出願では、他のエネルギー等化モードを更に使用できることに留意すべきである。これは、本明細書では特に限定されない。
第1のペアリング方式が使用されると最初に決定されるときに、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードが更に決定されてもよい。第2のペアリング方式が使用されると最初に決定されるときに、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードが更に決定されてもよく、また、少なくとも5つのチャネル信号の目標ペアリング方式が再決定されてもよく、それにより、ペアリング方式を複数の次元から決定することができ、また、エネルギー等化がマルチチャネル信号の特徴により適合し、その結果、音声フレームコーディング方法がより多様且つ効率的になる。
想定し得る実施において、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定するステップは、変動間隔値が事前設定条件を満たすときに、エネルギー等化モードが第1のエネルギー等化モードであると決定するステップ、又は、変動間隔値が事前設定条件を満たさないときに、エネルギー等化モードが第2のエネルギー等化モードであると決定するステップを含む。
想定し得る実施において、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定し、少なくとも5つのチャネル信号の目標ペアリング方式を再決定するステップは、変動間隔値が事前設定条件を満たすときに、目標ペアリング方式が第1のペアリング方式であり、エネルギー等化モードが第1のエネルギー等化モードであると決定するステップ、又は、変動間隔値が事前設定条件を満たさないときに、目標ペアリング方式が第2のペアリング方式であり、エネルギー等化モードが第2のエネルギー等化モードであると決定するステップを含む。
想定し得る実施において、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定するステップの前に、方法は、第1の音声フレームに対応するコーディングビットレートがビットレート閾値よりも大きいかどうかを決定するステップを更に含む。任意選択で、一実施態様では、ビットレート閾値が28 kbps/(有効チャネル信号の数/フレームレート)に設定されてもよく、或いは、28 kbpsは、他の経験値、例えば30 kbps又は26 kbpsであってもよい。有効チャネル信号は、LFE以外の他のチャネル信号を指す。例えば、5.1チャネルにおけるLFE以外のチャネル信号は、C、L、R、LS、及びRSを含み、また、7.1チャネルにおけるLFE以外のチャネル信号は、C、L、R、LS、RS、LB、及びRBを含む。コーディングビットレートがビットレート閾値よりも大きい場合、エネルギー等化モードが第2のエネルギー等化モードであると決定される。コーディングビットレートがビットレート閾値以下である場合、エネルギー等化モードは変動間隔値に基づいて決定される。フレームレートは、単位時間に処理されるフレームの数である。フレームレートは、以下の式にしたがって計算される。すなわち、フレームレート=サンプリングレート/音声フレームに対応するサンプルの数。例えば、サンプリングレートが48000 Hzである場合、音声フレームに対応するサンプル数は960であり、フレームレートは48000/960=50(フレーム/秒)である。
エネルギー等化モードが決定されると、コーディングビットレートの係数が加えられる。これにより、コーディング効率を高めることができる。
想定し得る実施では、変動間隔値が第1の音声フレームのエネルギー平坦度を含み、事前設定条件を満たす変動間隔値は、エネルギー平坦度が第1の閾値未満であることを示し、例えば、第1の閾値は0.483であってもよく、又は、変動間隔値が第1の音声フレームの振幅平坦度を含み、事前設定条件を満たす変動間隔値は、振幅平坦度が第2の閾値未満であることを示し、例えば、第2の閾値は0.695であってもよく、又は、変動間隔値が第1の音声フレームのエネルギー偏差を含み、事前設定条件を満たす変動間隔値は、エネルギー偏差が第1の事前設定範囲外であることを示し、例えば、第1の事前設定範囲は0.04~25であってもよく、又は、変動間隔値が第1の音声フレームの振幅偏差を含み、事前設定条件を満たす変動間隔値は、振幅偏差が第2の事前設定範囲外であることを示し、例えば、第2の事前設定範囲は0.2~5であってもよい。
エネルギー等化モードは、複数の次元からのチャネル信号の特徴に基づいて決定される。これにより、エネルギー等化の精度を高めることができる。
想定し得る実施において、第1のチャネル対セットを取得するために第1のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングするステップは、相関値の最大総和を取得するために、少なくとも5つのチャネル信号に対応するチャネル対から1つのチャネル対を選択し、該チャネル対を第1のチャネル対セットに加えるステップを含む。
想定し得る実施において、第2のチャネル対セットを取得するために第2のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングするステップは、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中で相関値が最も大きいチャネル対を最初に加えるステップと、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中の関連するチャネル対以外の他のチャネル対の中で相関値が最も大きいチャネル対を加えるステップであって、関連するチャネル対が、第1のチャネル対セットに加えられたチャネル対に含まれる任意のチャネル信号を含む、ステップとを含む。
想定し得る実施において、エネルギー等化モードが第1のエネルギー等化モードであるときに、少なくとも5つの等化チャネル信号を取得するためにエネルギー等化モードにしたがって少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行するステップは、ペアリング方式に対応する目標チャネル対セット内の現在のチャネル対に関して、現在のチャネル対に含まれる2つのチャネル信号のエネルギー又は振幅値の平均値を計算し、2つの対応する等化チャネル信号を取得するために平均値に基づいて2つのチャネル信号に対してエネルギー等化処理を別々に実行するステップを含む。
想定し得る実施において、エネルギー等化モードが第2のエネルギー等化モードであるときに、少なくとも5つの等化チャネル信号を取得するためにエネルギー等化モードにしたがって少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行するステップは、少なくとも5つのチャネル信号のエネルギー又は振幅値の平均値を計算し、少なくとも5つの等化チャネル信号を取得するために平均値に基づいて少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行するステップを含む。
第2の態様によれば、この出願は、エンコーディングされるべき第1の音声フレームを取得し、第1の音声フレームが少なくとも5つのチャネル信号を含み、第1のチャネル対セットを取得するために第1のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングし、第1のチャネル対セットが少なくとも1つのチャネル対を含み、1つのチャネル対が少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、第1のチャネル対セットの相関値の第1の総和を取得し、1つのチャネル対が1つの相関値を有し、相関値がチャネル対の2つのチャネル信号間の相関を示し、第2のチャネル対セットを取得するために第2のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングし、第2のチャネル対セットの相関値の第2の総和を取得する、ように構成される取得モジュールと、相関値の第1の総和及び相関値の第2の総和に基づいて少なくとも5つのチャネル信号の目標ペアリング方式を決定するように構成される決定モジュールと、目標ペアリング方式にしたがって少なくとも5つのチャネル信号をエンコーディングするように構成され、目標ペアリング方式が第1のペアリング方式又は第2のペアリング方式である、コーディングモジュールとを含むコーディング装置を提供する。
想定し得る実施において、決定モジュールは、相関値の第1の総和が相関値の第2の総和よりも大きいときに、目標ペアリング方式が第1のペアリング方式であると決定する、又は、相関値の第1の総和が相関値の第2の総和に等しいときに、目標ペアリング方式が第2のペアリング方式であると決定する、ように特に構成される。
想定し得る実施において、決定モジュールは、少なくとも5つのチャネル信号の変動間隔値を取得し、目標ペアリング方式が第1のペアリング方式であるときには、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定し、又は、目標ペアリング方式が第2のペアリング方式であるときには、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定して、少なくとも5つのチャネル信号の目標ペアリング方式を再決定するように更に構成される。これに対応して、コーディングモジュールは、少なくとも5つの等化チャネル信号を取得するためにエネルギー等化モードにしたがって少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行し、目標ペアリング方式にしたがって少なくとも5つの等化チャネル信号をエンコーディングするように更に構成される。
想定し得る実施において、決定モジュールは、記変動間隔値が事前設定条件を満たすときに、エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、変動間隔値が事前設定条件を満たさないときに、エネルギー等化モードが第2のエネルギー等化モードであると決定する、ように特に構成される。
想定し得る実施において、決定モジュールは、変動間隔値が事前設定条件を満たすときに、目標ペアリング方式が第1のペアリング方式であり、エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、変動間隔値が事前設定条件を満たさないときに、目標ペアリング方式が第2のペアリング方式であり、エネルギー等化モードが第2のエネルギー等化モードであると決定する、ように特に構成される。
想定し得る実施において、決定モジュールは、第1の音声フレームに対応するコーディングビットレートがビットレート閾値よりも大きいかどうかを決定し、コーディングビットレートがビットレート閾値よりも大きいときに、エネルギー等化モードが第2のエネルギー等化モードであると決定し、又は、コーディングビットレートがビットレート閾値以下であるときに、変動間隔値に基づいてエネルギー等化モードを決定する、ように更に構成される。
想定し得る実施では、変動間隔値が第1の音声フレームのエネルギー平坦度を含み、事前設定条件を満たす変動間隔値は、エネルギー平坦度が第1の閾値未満であることを示し、又は、変動間隔値が第1の音声フレームの振幅平坦度を含み、事前設定条件を満たす変動間隔値は、振幅平坦度が第2の閾値未満であることを示し、又は、変動間隔値が第1の音声フレームのエネルギー偏差を含み、事前設定条件を満たす変動間隔値は、エネルギー偏差が第1の事前設定範囲外であることを示し、又は、変動間隔値が第1の音声フレームの振幅偏差を含み、事前設定条件を満たす変動間隔値は、振幅偏差が第2の事前設定範囲外であることを示す。
想定し得る実施において、取得モジュールは、相関値の最大総和を取得するために、少なくとも5つのチャネル信号に対応するチャネル対から1つのチャネル対を選択し、該チャネル対を前記第1のチャネル対セットに加える、ように特に構成される。
想定し得る実施において、取得モジュールは、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中で相関値が最も大きいチャネル対を最初に加え、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中の関連するチャネル対以外の他のチャネル対の中で相関値が最も大きいチャネル対を加え、関連するチャネル対が、第1のチャネル対セットに加えられるチャネル対に含まれる任意のチャネル信号を含む、ように特に構成される。
想定し得る実施において、エネルギー等化モードが第1のエネルギー等化モードであるときに、コーディングモジュールは、ペアリング方式に対応する目標チャネル対セット内の現在のチャネル対に関して、現在のチャネル対に含まれる2つのチャネル信号のエネルギー又は振幅値の平均値を計算し、2つの対応する等化チャネル信号を取得するために平均値に基づいて2つのチャネル信号に対してエネルギー等化処理を別々に実行する、ように特に構成される。
想定し得る実施において、エネルギー等化モードが第2のエネルギー等化モードであるときに、コーディングモジュールは、少なくとも5つのチャネル信号のエネルギー又は振幅値の平均値を計算し、少なくとも5つの等化チャネル信号を取得するために平均値に基づいて少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行する、ように特に構成される。
第3の態様によれば、この出願は、1つ以上のプロセッサと、1つ以上のプログラムを記憶するように構成されたメモリとを含むデバイスを提供する。1つ以上のプログラムが1つ以上のプロセッサによって実行されるときに、1つ以上のプロセッサは、第1の態様の任意の想定し得る実施にしたがって方法を実施できるようにされる。
第4の態様によれば、この出願は、コンピュータプログラムを含むコンピュータ可読記憶媒体を提供する。コンピュータプログラムがコンピュータで実行されると、コンピュータは、第1の態様の任意の想定し得る実施にしたがって方法を実施できるようにされる。
第5の態様によれば、この出願の一実施形態は、第1の態様の任意の想定し得る実施に係るマルチチャネル音声信号コーディング方法を使用することによって得られるコーディングされたビットストリームを含む、コンピュータ可読記憶媒体を提供する。
この出願で使用される音声コーディングシステム10の概略ブロック図の一例である。 この出願で使用される音声コーディングデバイス200の概略ブロック図の一例である。 この出願に係るマルチチャネル音声信号コーディング方法の実施形態の一例のフローチャートである。 この出願にしたがってマルチチャネル音声信号コーディング方法が適用されるコーディング装置の構造を示す図の一例である。 モード選択モジュールの構造を示す図の一例である。 マルチチャネルモード選択ユニットの構造を示す図の一例である。 この出願にしたがってマルチチャネル音声デコーディング方法が適用されるデコーディング装置の構造を示す図の一例である。 この出願に係るコーディング装置の実施形態の構造を示す概略図である。 この出願に係るデバイスの実施形態の構造を示す概略図である。
この出願の目的、技術的解決策、及び利点をより明確にするために、以下では、この出願における添付図面を参照してこの出願の技術的解決策について明確且つ十分に説明する。説明される実施形態がこの出願の実施形態の全てではなく一部にすぎないことは明らかである。創造的な努力を伴うことなくこの出願の実施形態に基づいて当業者によって得られる他の全ての実施形態は、この出願の保護範囲内にあるものとする。
この出願の明細書、実施形態、特許請求の範囲、及び添付図面において、「第1」、「第2」などの用語は、単に区別及び説明を意図しており、相対的な重要性の指示もしくは示唆、又は順序の指示もしくは示唆として理解されるべきではない。加えて、「含む」、「有する」、及びそれらの任意の変形の用語は、例えば、一連のステップ又はユニットを含む、非排他的な包含をカバーすることが意図されている。方法、システム、製品、又はデバイスは、必ずしも文字通りに列挙されるそのようなステップ又はユニットに限定されず、文字通りに列挙されていない又はそのようなプロセス、方法、製品、もしくはデバイスに固有の他のステップ又はユニットを含む場合がある。
この出願では、「少なくとも1つの(項目)」は1つ以上を指し、「複数の」は、2つ以上を指すことを理解すべきである。「及び/又は」という用語は、関連付けられた対象間の関連付け関係を説明するために使用され、3つの関係が存在し得ることを表わす。例えば、「A及び/又はB」は、以下の3つのケース、すなわち、Aのみが存在するケース、Bのみが存在するケース、及びAとBとの両方が存在するケースを表わすことができ、A及びBは単数であっても複数であってもよい。記号「/」は、通常、関連付けられた対象間の「又は」関係を示す。「以下の項目(要素)のうちの少なくとも1つ」又はその同様の表現は、単一の項目(要素)又は複数の項目(要素)の任意の組み合わせを含めて、これらの項目の任意の組み合わせを指す。例えば、a、b、又はcのうちの少なくとも1つは、a、b、c、a及びb、a及びc、b及びc、又はa、b、及びcを示すことができ、a、b、及びcは単数であっても複数であってよい。
この出願における関連用語の説明は以下の通りである。
音声フレーム:音声データはストリーム形態である。実際の適用中、音声処理及び送信を容易にするために、通常、特定の持続時間内の音声データが音声フレームとして選択される。持続時間は「サンプリング時間」と呼ばれ、持続時間の値はコーデック及び特定のアプリケーションの要件に基づいて決定され得る。例えば、持続時間は2.5 ms~60 msであり、msはミリ秒である。
音声信号:音声信号は、声、音楽、及び音響効果に伴う音波の周波数及び振幅の規則的な変化に関する情報のキャリアである。音声は、連続的に変化するアナログ信号であり、連続曲線で表わすことができ、音波と呼ばれる。音声からアナログデジタル変換を通じて又はコンピュータを用いて生成されるデジタル信号が音声信号である。音波は、音声信号の特性を決定する3つの重要なパラメータ、すなわち、周波数、振幅、及び位相を有する。
チャネル信号:チャネル信号は、記録又は再生中に異なる空間位置で収集又は再生される独立した音声信号を指す。したがって、チャネルの数は、録音中の音源の数又は再生中のスピーカの数である。
以下は、この出願が適用されるシステムアーキテクチャである。
図1は、この出願で使用される音声コーディングシステム10の概略ブロック図の一例である。図1に示されるように、音声コーディングシステム10は、送信元デバイス12及び送信先デバイス14を含むことができる。送信元デバイス12は、コーディングされたビットストリームを生成する。したがって、送信元デバイス12は音声エンコーディング装置と称されてもよい。送信先デバイス14は、送信元デバイス12によって生成されたコーディングされたビットストリームをデコーディングすることができる。したがって、送信先デバイス14は、音声デコーディング装置と称されてもよい。
送信元デバイス12は、エンコーダ20を含み、任意選択的に、音源16、音声プリプロセッサ18、及び通信インタフェース22を含むことができる。
音源16は、現実世界における声、音楽、音響効果などを捕捉するように構成された任意のタイプの音声捕捉デバイス、及び/又は、任意のタイプの音声生成デバイス、例えば、声、音楽、音響効果などを生成するように構成された音声プロセッサ又はデバイスを含んでもよく、又はそれらであってもよい。音源は、前述の音声を記憶する任意のタイプのメモリ又はストレージであってもよい。
音声プリプロセッサ18は、(生の)音声データ17を受信し、音声データ17を前処理して前処理された音声データ19を取得するように構成される。例えば、音声プリプロセッサ18によって実行される前処理は、トリミング又はノイズ除去を含むことができる。音声前処理ユニット18が任意選択的な構成要素であってもよいことが理解され得る。
エンコーダ20は、前処理された音声データ19を受信してエンコーディングされた音声データ21を与えるように構成される。
送信元デバイス12における通信インタフェース22は、エンコーディングされた音声データ21を受信し、エンコーディングされた音声データ21を、記憶又は直接再構成のために、通信チャネル13を介して送信先デバイス14に送信するように構成され得る。
送信先デバイス14は、デコーダ30を含み、任意選択的に、通信インタフェース28、音声ポストプロセッサ32、及び再生デバイス34を含むことができる。
送信先デバイス14の通信インタフェース28は、送信元デバイス12からエンコーディングされた音声データ21を直接受信し、エンコーディングされた音声データ21をデコーダ30に与えるように構成される。
通信インタフェース22及び通信インタフェース28は、送信元デバイス12と送信先デバイス14との間の直接的な通信リンク、例えば、直接的な有線又は無線接続を介して、又は任意の種類のネットワーク、例えば、有線又は無線ネットワーク又はそれらの任意の組み合わせ、又は任意の種類のプライベート及びパブリックネットワーク又はそれらの任意の種類の組み合わせを介して、エンコーディングされた音声データ21を送信又は受信するように構成され得る。
例えば、通信インタフェース22は、エンコーディングされた音声データ21を適切なフォーマット、例えばパケットにカプセル化し、及び/又は、通信リンク又は通信ネットワークを介した送信のための任意の種類の送信エンコーディング又は処理を使用してエンコーディングされた音声データ21を処理するように構成され得る。
通信インタフェース28の相手方を形成する通信インタフェース22は、例えば、送信データを受信し、エンコーディングされた音声データ21を取得するために任意のタイプの対応する送信デコーディング又は処理及び/又はデカプセル化を使用して送信データを処理するように構成され得る。
通信インタフェース22及び通信インタフェース28の両方は、図1の送信元デバイス12から送信先デバイス14への対応する通信チャネル13の矢印によって示される単方向通信インタフェースとして構成されてもよく、又は、双方向通信インタフェースとして構成されてもよく、メッセージなどを送受信して接続を確立し、通信リンク及び/又はデータ、例えばエンコーディングされた音声データの送信に関連する任意の他の情報を確認及び交換するように構成されてもよい。
デコーダ30は、エンコーディングされた音声データ21を受信し、デコーディングされた音声データ31を与えるように構成される。
音声ポストプロセッサ32は、デコーディングされた音声データ31を後処理して、後処理された音声データ33を取得するように構成される。音声ポストプロセッサ32によって実行される後処理は、例えば、トリミング又はリサンプリングを含むことができる。
再生デバイス34は、ユーザ又は聴取者に対して音声を再生するために、後処理された音声データ33を受信するように構成される。再生デバイス34は、再構築された音声を再生するように構成される任意のタイプのプレーヤ、例えば、一体型スピーカ又は外部スピーカであってもよく、又はそれらを含んでもよい。例えば、スピーカは、ラウドスピーカ、サウンドボックスなどを含むことができる。
図2は、この出願で使用される音声コーディングデバイス200の概略ブロック図の一例である。一実施形態において、音声コーディングデバイス200は、音声デコーダ(例えば、図1のデコーダ30)又は音声エンコーダ(例えば、図1のエンコーダ20)であってもよい。
音声コーディングデバイス200は、データ受信のための入口ポート210及び受信ユニット(Rx)220と、データ処理のためのプロセッサ、論理ユニット、又は中央処理ユニット230と、データ送信のための送信ユニット(Tx)240及び出口ポート250と、データ記憶のためのメモリ260とを含む。音声コーディングデバイス200は、光信号又は電気信号が出入りするための、入口ポート210、受信ユニット220、送信ユニット240、及び出口ポート250に結合された、光-電気変換構成要素及び電気-光(EO)構成要素を更に含み得る。
プロセッサ230は、ハードウェア又はソフトウェアを使用することによって実装される。プロセッサ230は、1つ以上のCPUチップ、コア(例えば、マルチコアプロセッサ)、FPGA、ASIC、及びDSPとして実装され得る。プロセッサ230は、入口ポート210、受信ユニット220、送信ユニット240、出口ポート250、及びメモリ260と通信する。プロセッサ230は、コーディングモジュール270(例えば、エンコーディングモジュールやデコーディングモジュール)を含む。コーディングモジュール270は、この出願で提供されるマルチチャネル音声信号コーディング方法を実施するために、この出願で開示される実施形態を実施する。例えば、コーディングモジュール270は、様々なコーディング動作を実施、処理、又は提供する。したがって、コーディングモジュール270は、音声コーディングデバイス200の機能に実質的な改善をもたらし、異なる状態間での音声コーディングデバイス200の切り替えに影響を与える。或いは、メモリ260に記憶された命令は、コーディングモジュール270を実装するために、プロセッサ230によって実行される。
メモリ260は、1つ以上のディスク、テープドライブ、及びソリッドステートドライブを含み、プログラムをそのようなプログラムが選択的に実行されたときに記憶し且つプログラム実行中に読み取られる命令及びデータを記憶するためにオーバーフロー・データ・ストレージ・デバイスとして使用されてよい。メモリ260は、揮発性及び/又は不揮発性であってもよく、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、ランダムアクセスメモリ(ternary content-addressable memory、TCAM)、及び/又はスタティック・ランダム・アクセス・メモリ(SRAM)であってもよい。
前述の実施形態の説明に基づき、この出願は、マルチチャネル音声信号コーディング方法を提供する。
図3は、この出願に係るマルチチャネル音声信号コーディング方法の実施形態の一例のフローチャートである。プロセス300は、音声コーディングシステム10内の送信元デバイス12又は音声コーディングデバイス200によって実行されてもよい。プロセス300は、一連のステップ又は演算として説明される。プロセス300のステップ又は演算は、図3に示される実行順序に限定されない様々な順序で及び/又は同時に実行されてよいことが理解されるべきである。図3に示されるように、方法は以下のステップを含む。
ステップ301:エンコーディングされるべき第1の音声フレームを取得する。
この実施形態における第1の音声フレームは、エンコーディングされるべきマルチチャネル音声の任意のフレームであってもよく、第1の音声フレームは5つ以上のチャネル信号を含む。例えば、5.1チャネルは、6つのチャネル信号、すなわち、中央チャネル(C)、前左チャネル(left,L)、前右チャネル(right,R)、後左サラウンドチャネル(left surround,LS)、後右サラウンドチャネル(right surround,RS)、及び0.1チャネル低周波効果(low frequency effects,LFE)を含む。7.1チャネルは、8つのチャネル信号、すなわち、C、L、R、LS、RS、LB、RB、及びLFEを含む。LFEは、3 Hz~120 Hzの音声チャネルであり、通常、低音用に特別に設計されたスピーカに送られる。
ステップ302:第1のチャネル対セットを取得するために第1のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングする。
第1のチャネル対セットは少なくとも1つのチャネル対を含み、チャネル対は、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含む。
ステップ303:第1のチャネル対セットの相関値の第1の総和を取得する。
1つのチャネル対が1つの相関値を有し、相関値は、1つのチャネル対の2つのチャネル信号間の相関を示す。
2つの高度に相関されたチャネル信号を一緒にエンコーディングすることは、冗長性を低減し、コーディング効率を高めることができる。したがって、この実施形態では、2つのチャネル信号の相関値に基づいてペアリングを行なう。可能な限り最高の相関を伴うペアリング方式を見つけるために、第1の音声フレーム内の少なくとも5つのチャネル信号のうちの2つおきの間の相関値を最初に計算して、第1の音声フレームの相関値セットを取得することができる。例えば、5つのチャネル信号が合計10個のチャネル対を形成することができる。これに対応して、相関値セットは10個の相関値を含むことができる。
任意選択で、相関値が正規化されてもよい。このようにして、相関値の統一された決定基準、例えばペアリング閾値を設定するために、全てのチャネル対の相関値が特定の範囲内に制限される。ペアリング閾値は、0.2以上1以下の値、例えば0.3に設定されてもよい。このように、2つのチャネル信号の正規化された相関値がペアリング閾値よりも小さい限り、2つのチャネル信号は相関が低く、コーディングのためのペアリングが必要ないと考えられる。
想定し得る実施では、以下の式を使用して、2つのチャネル信号(例えば、ch1及びch2)間の相関値を計算することができる。
corr(ch1、ch2)は、チャネル信号ch1とチャネル信号ch2との間の正規化された相関値であり、spec_ch1(i)は、チャネル信号ch1におけるi番目の周波数ビンの周波数領域係数であり、spec_ch2(i)は、チャネル信号ch2のi番目の周波数ビンの周波数領域係数であり、Nは、音声フレームの周波数ビンの総数である。
他のアルゴリズム又は式を使用して、2つのチャネル信号間の相関値を計算することもできることに留意すべきである。これは、この出願では特に限定されない。
第1のペアリング方式は、相関値の最大総和を取得するために、少なくとも5つのチャネル信号に対応するチャネル対から1つのチャネル対を選択して、該チャネル対を第1のチャネル対セットに加えるステップを含む。相関値の第1の総和は、第1のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングすることによって得られる第1のチャネル対セット内の全てのチャネル対の相関値の総和である。この実施形態において、第1のペアリング方式は、以下の2つの実施態様を含むことができる。
(1)相関値セットからM個の最大相関値を選択する。ペアリング閾値未満の相関値は、相関値に対応するチャネル対内の2つのチャネル信号間の相関が低いことを示し、コーディングのためのペアリングが必要とされないため、M個の相関値はペアリング閾値以上である必要がある。コーディング効率を向上させるために、ペアリング閾値以上の全ての相関値を選択する必要はない。したがって、Mの上限値Nが設定され、すなわち、最大でN個の相関値が選択される。
Nは2以上の整数であってもよく、また、Nの最大値は、第1の音声フレームの全てのチャネル信号に対応する全てのチャネル対の数を超えることはできない。Nの値が大きいほど、より多くの計算が行なわれる。Nの値が小さいほど、チャネル対セットの損失を引き起こし、コーディング効率を低下させる場合がある。
任意選択で、Nは、チャネル対の最大数プラス1、すなわち、
に設定されてもよく、ここで、CHは、第1の音声フレームに含まれるチャネル信号の数を示す。例えば、5.1チャネルは5つのチャネル信号を含み、N=3である。7.1チャネルは、7つのチャネル信号を含み、N=4である。
次に、M個の相関値に基づいてM個のチャネル対セットが取得される。各チャネル対セットは、M個の相関値に対応するM個のチャネル対のうちの少なくとも1つを含み、また、チャネル対セットが少なくとも2つのチャネル対を含むとき、少なくとも2つのチャネル対は同じチャネル信号を含まない。例えば、5.1チャネルの場合、相関値セットに基づいて選択される最大相関値に対応する3つのチャネル対は、(L,R)、(R,C)、及び(LS,RS)であり、ここで、(LS,RS)はペアリング閾値未満の相関値を有し、したがって除外される。残りの2つのチャネル対(L,R)及び(R,C)に基づいて2つのチャネル対セットを取得することができ、この場合、2つのチャネル対セットの一方が(L,R)を含み、他方が(R,C)を含む。
ペアリング閾値以上の相関値に対応するM個のチャネル対(例えば、第1のチャネル対)のうちのいずれか1つを例にとると、この実施形態におけるM個のチャネル対セットを取得するための方法は、第1のチャネル対を第1のチャネル対セットに加えるステップであって、M個のチャネル対セットが第1のチャネル対セットを含む、ステップと、複数のチャネル対における関連するチャネル対以外の他のチャネル対がペアリング閾値よりも大きい相関値を伴うチャネル対を含むときに、他のチャネル対から相関値が最も大きいチャネル対を選択して、該チャネル対を第1のチャネル対セットに加えるステップであって、関連付けられたチャネル対が、第1のチャネル対セットに加えられたチャネル対に含まれる任意のチャネル信号を含む、ステップとを含むことができる。
第1のチャネル対を第1のチャネル対セットに加えるステップを除き、前述のプロセスのステップは全て反復処理のステップである。詳細は以下の通りである。
a.複数のチャネル対における関連するチャネルを除く他のチャネル対がペアリング閾値よりも大きい相関値を伴うチャネル対を含むかどうかを決定する。
b.ペアリング閾値よりも大きい相関値を伴うチャネル対が含まれる場合、他のチャネル対から最も大きい相関値を伴うチャネル対を選択し、そのチャネル対を第1のチャネル対セットに加える。
この場合、他のチャネル対がペアリング閾値よりも大きい相関値を伴うチャネル対を含む限り、前述のステップbが反復的に実行されてもよい。
任意選択で、計算量を減らすために、ペアリング閾値未満の相関値を相関値セットから削除することができる。これにより、チャネル対の数を減らし、反復回数を減らすことができる。
(2)複数のチャネル対に基づいて、少なくとも5つのチャネル信号に対応する全てのチャネル対セットを取得し、相関値セットに基づいて、全てのチャネル対セット内の任意のチャネル対セットに含まれる全てのチャネル対の相関値の総和を取得し、全てのチャネル対セット内で、相関値の最大総数に対応するチャネル対セットを目標チャネル対セットとして決定する。
相関値セットは、第1の音声フレームの少なくとも5つのチャネル信号の複数のチャネル対の相関値を含む。複数のチャネル対は、少なくとも5つのチャネル信号に対応する複数のチャネル対セットを取得するために、規則的に結合される(すなわち、同じチャネル対セット内の複数のチャネル対が同じチャネル信号を含むことができない)。
想定し得る実施では、チャネル信号の数が奇数である場合、以下の式を使用して全てのチャネル対セットの数を計算することができる。
想定し得る実施では、チャネル信号の数が偶数である場合、以下の式を使用して全てのチャネル対セットの数を計算することができる。
Pair_numは、全てのチャネル対セットの数を示し、CHは、第1の音声フレームにおけるマルチチャネル処理に関与するチャネル信号の数を示し、マルチチャネルマスキングによるスクリーニング後に得られた結果である。
任意選択で、計算量を減らすために、相関値セットが取得された後、複数のチャネル対セットは、複数のチャネル対の中の無相関チャネル対以外の他のチャネル対に基づいて取得されてもよく、無相関チャネル対の相関値はペアリング閾値未満である。このようにして、チャネル対セットが取得されるときに、計算に関与するチャネル対の数を減らすことができる。これにより、チャネル対セットの数が削減され、以降のステップにおける相関値の総和における計算量が削減される。
ステップ304:第2のチャネル対セットを取得するために第2のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングする。
ステップ305:第2のチャネル対セットの相関値の第2の総和を取得する。
第2のペアリング方式は、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中で相関値が最も大きいチャネル対を最初に加えるステップと、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中の関連するチャネル対以外の他のチャネル対の中で相関値が最も大きいチャネル対を加えるステップであって、関連するチャネル対が、第1のチャネル対セットに加えられるチャネル対に含まれる任意のチャネル信号を含む、ステップとを含む。相関値の第2の総和は、第2のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングすることによって得られた第2のチャネル対セット内の全てのチャネル対の相関値の総和である。
チャネル対が選択されるたびに、現在の最大相関値に対応するチャネル対のみが選択されて第2のチャネル対セットに加えられる。
ステップ306:相関値の第1の総和及び相関値の第2の総和に基づいて少なくとも5つのチャネル信号の目標ペアリング方式を決定する。
相関値の第1の総和が相関値の第2の総和よりも大きい場合、目標ペアリング方式が第1のペアリング方式であると決定される。相関値の第1の総和が相関値の第2の総和に等しい場合、目標ペアリング方式が第2のペアリング方式であると決定される。
ステップ307:少なくとも5つのチャネル信号の変動間隔値を取得する。
変動間隔値は、少なくとも5つのチャネル信号のエネルギー又は振幅の間の差を示す。
ステップ308:目標ペアリング方式が第1のペアリング方式である場合、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定する。
エネルギー等化モードは、第1のエネルギー等化モード及び第2のエネルギー等化モードを含む。第1のエネルギー等化モードでは、チャネル対に対応する2つの等化チャネル信号を取得するために、チャネル対の2つのチャネル信号が使用される。第2のエネルギー等化モードでは、1つのチャネル対に対応する2つの等化チャネル信号を取得するために、1つのチャネル対内の2つのチャネル信号及び1つのチャネル対内にない少なくとも1つのチャネル信号が使用される。
少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定するステップは、変動間隔値が事前設定条件を満たすときに、エネルギー等化モードが第1のエネルギー等化モードであると決定するステップ、又は、変動間隔値が事前設定条件を満たさないときに、エネルギー等化モードが第2のエネルギー等化モードであると決定するステップを含むことができる。
変動間隔値が第1の音声フレームのエネルギー平坦度を含み、事前設定条件を満たす変動間隔値は、エネルギー平坦度が第1の閾値未満であることを示し、又は、変動間隔値が第1の音声フレームの振幅平坦度を含み、事前設定条件を満たす変動間隔値は、振幅平坦度が第2の閾値未満であることを示し、又は、変動間隔値が第1の音声フレームのエネルギー偏差を含み、事前設定条件を満たす変動間隔値は、エネルギー偏差が第1の事前設定範囲外であることを示し、又は、変動間隔値が第1の音声フレームの振幅偏差を含み、事前設定条件を満たす変動間隔値は、振幅偏差が第2の事前設定範囲外であることを示す。
本発明のこの実施形態において、エネルギー平坦度は、マルチチャネルスクリーニングユニットによってスクリーニングされた複数のチャネルに対して現在のフレームの周波数領域係数のエネルギー正規化が行なわれた後のフレームエネルギーの変動を表わし、平坦度計算式にしたがって測定されてもよい。現在のフレームの全てのチャネルのエネルギーが同じである場合、現在のフレームのエネルギー平坦度は1である。現在のフレームのチャネルのエネルギーが0である場合、現在のフレームのエネルギー平坦度は0である。したがって、チャネル間エネルギー平坦度の値の範囲は[0,1]である。チャネル間エネルギーの変動が大きいほど、エネルギー平坦度の値が小さいことを示す。一実施態様では、全てのチャネルフォーマット(例えば、5.1、7.1、9.1、及び11.1)に関して統一された第1の閾値、例えば0.483、0.492、又は0.504を設定することができる。他の実施態様では、異なるチャネルフォーマットに関して異なる第1の閾値が設定される。例えば、5.1チャネルフォーマットに関する第1の閾値は0.511であり、7.1チャネルフォーマットに関する第1の閾値は0.563であり、9.1チャネルフォーマットに関する第1の閾値は0.608であり、11.1チャネルフォーマットに関する第1の閾値は0.654である。
振幅平坦度は、マルチチャネルスクリーニング部によってスクリーニングされた複数のチャネルに対して現在のフレームの周波数領域係数の振幅正規化が行なわれた後のフレーム振幅の変動を表わし、平坦度計算式にしたがって測定されてもよい。全てのチャネルのフレーム振幅が同じである場合、平坦度は1である。チャネルのフレーム振幅が0である場合、平坦度は0である。したがって、振幅平坦度の範囲は[0,1]である。チャネル間振幅の変動が大きいほど、平坦度の値が小さいことを示す。実施では、例えば、0.695、0.701、又は0.710のような統一された第2の閾値が、全てのチャネルフォーマット(例えば、5.1、7.1、9.1、及び11.1)に関して設定され得る。他の実施では、異なるチャネルフォーマットに関して異なる第2の閾値が与えられ得る。例えば、5.1チャネルフォーマットに関する第2の閾値は0.715であってもよく、7.1チャネルフォーマットに関する第2の閾値は0.753であってもよく、9.1チャネルフォーマットに関する第2の閾値は0.784であってもよく、11.1チャネルフォーマットに関する第2の閾値は0.809であってもよい。
振幅とエネルギーとの間には二乗の関係があるため、振幅平坦度とエネルギー平坦度との間にも二乗の関係があり、すなわち、振幅平坦度の二乗に対応するチャネル間フレーム振幅の変動は、エネルギー平坦度に対応するチャネル間フレームエネルギーの変動とほぼ同等である。
この実施形態において、エネルギー等化モードは、少なくとも5つのチャネル信号の変動間隔値を示す前述の複数のタイプの情報に基づいて決定されてもよく、情報は、エネルギー平坦度、振幅平坦度、エネルギー偏差、又は振幅偏差を含む。
(1)少なくとも5つのチャネル信号のエネルギー値を計算し、少なくとも5つのチャネル信号のエネルギー値に基づいて第1の音声フレームのエネルギー平坦度を取得し、第1の音声フレームのエネルギー平坦度が第1の閾値未満であるときに、エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、第1の音声フレームのエネルギー平坦度が第1の閾値以上であるときに、エネルギー等化モードが第2のエネルギー等化モードであると決定する。
(2)少なくとも5つのチャネル信号の振幅値を計算し、少なくとも5つのチャネル信号の振幅値に基づいて第1の音声フレームの振幅平坦度を取得し、第1の音声フレームの振幅平坦度が第2の閾値未満であるときに、エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、第1の音声フレームの振幅平坦度が第2の閾値以上であるときに、エネルギー等化モードが第2のエネルギー等化モードであると決定する。
(3)少なくとも5つのチャネル信号のエネルギー値を計算し、少なくとも5つのチャネル信号のエネルギー値に基づいて第1の音声フレームのエネルギー偏差を取得し、第1の音声フレームのエネルギー偏差が第1の事前設定範囲外にあるときに、エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、第1の音声フレームのエネルギー偏差が第1の事前設定範囲内にあるときに、エネルギー等化モードが第2のエネルギー等化モードであると決定する。
(4)少なくとも5つのチャネル信号の振幅値を計算し、少なくとも5つのチャネル信号の振幅値に基づいて第1の音声フレームの振幅偏差を取得し、第1の音声フレームの振幅偏差が第2の事前設定範囲外にあるときに、エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、第1の音声フレームの振幅偏差が第2の事前設定範囲内にあるときに、エネルギー等化モードが第2のエネルギー等化モードであると決定する。
この出願では、他のエネルギー等化モードを更に使用できることに留意すべきである。これは、本明細書では特に限定されない。
想定し得る実施では、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードが決定される前に、エネルギー等化モードは、第1の音声フレームに対応するコーディングビットレートに基づいて最初に決定されてもよく、すなわち、コーディングビットレートがビットレート閾値よりも大きいかどうかが決定される。コーディングビットレートがビットレート閾値よりも大きい場合、エネルギー等化モードが第2のエネルギー等化モードであると決定される。コーディングビットレートがビットレート閾値以下である場合、エネルギー等化モードは、少なくとも5つのチャネル信号の変動間隔値に基づいて決定される。
ステップ309:目標ペアリング方式が第2のペアリング方式である場合、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定し、少なくとも5つのチャネル信号の目標ペアリング方式を再決定する。
変動間隔値が事前設定条件を満たす場合、目標ペアリング方式が第1のペアリング方式であり、エネルギー等化モードが第1のエネルギー等化モードであると決定される。変動間隔値が事前設定条件を満たさない場合、目標ペアリング方式が第2のペアリング方式であり、エネルギー等化モードが第2のエネルギー等化モードであると決定される。
変動間隔値及び事前設定条件を満たす変動間隔値については、ステップ308を参照されたい。ここでは詳細を繰り返さない。
ステップ310:少なくとも5つの等化チャネル信号を取得するために、エネルギー等化モードにしたがって少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行する。
エネルギー等化モードが第1のエネルギー等化モードであるとき、ペアリング方式に対応する目標チャネル対セット内の現在のチャネル対に関して、現在のチャネル対に含まれる2つのチャネル信号のエネルギー又は振幅値の平均値が計算されてもよく、また、2つの対応する等化チャネル信号を取得するために、平均値に基づいて2つのチャネル信号に関してエネルギー等化処理が別々に実行される。
このように、少なくとも5つのチャネル信号の変動間隔値が大きい場合、エネルギー等化が相関する2つのチャネル信号間でのみ実行されてもよく、それにより、ステレオ処理中のビット割り当てがチャネル信号の変動間隔値により適合する。これにより、低ビットレートコーディング環境では、高エネルギーのチャネル対のコーディングノイズが、ビット不足に起因して低エネルギーのチャネル対のコーディングノイズよりもはるかに大きくなる可能性があり、低エネルギーのチャネル対がビット冗長性を有するという問題が回避される。
エネルギー等化モードが第2のエネルギー等化モードであるとき、少なくとも5つのチャネル信号のエネルギー又は振幅値の平均値が計算されてもよく、また、少なくとも5つの等化チャネル信号を取得するために、平均値に基づいて少なくとも5つのチャネル信号に対してエネルギー等化処理が別々に実行される。
ステップ311:目標ペアリング方式に対応するチャネル対セットに基づいて少なくとも5つの等化チャネル信号をエンコーディングする。
任意選択で、前述のステップで少なくとも5つのチャネル信号に対してエネルギー等化処理が実行されない場合、コーディング対象は、等化チャネル信号の代わりに少なくとも5つのチャネル信号である。
この実施形態では、2つのペアリング方式を組み合わせて、ペアリング方式に対応する相関値の総和に基づき、従来技術のペアリング方式を使用すべきか又は相関値の総和が最大のペアリング方式を使用すべきかどうかを決定し、また、チャネル信号の変動間隔値に基づいてエネルギー等化モードが決定され、それにより、エネルギー等化がチャネルの変動間隔値により適合し、その結果、音声フレームコーディング方法がより多様且つ効率的になる。
以下では、2つの具体的な実施形態を使用して、図3に示される方法実施形態におけるペアリング方式及びエネルギー等化モードを決定するプロセスについて説明する。一例として5.1チャネルが使用される。5.1チャネルは、中央(C)チャネル、前左(left,L)チャネル、前右(right,R)チャネル、後左サラウンド(left surround,LS)チャネル、後右サラウンド(right surround,RS)チャネル、及び0.1チャネル低周波効果(low frequency effects,LFE)を含む。表1に示されるように、6つのチャネル信号に関してチャネルインデックスが設定される。
図4は、この出願に係るマルチチャネル音声信号コーディング方法が適用されるコーディング装置の構造を示す図の一例である。コーディング装置は、音声コーディングシステム10内の送信元デバイス12のエンコーダ20であってもよく、又は、音声コーディングデバイス200内のコーディングモジュール270であってもよい。コーディング装置は、モード選択モジュール、マルチチャネル融合処理モジュールと、チャネルエンコーディングモジュールと、ビットストリーム多重化インタフェースを含むことができる。
モード選択モジュールの入力は、5.1チャネルの6つのチャネル信号(L、R、C、LS、RS、LFE)及びマルチチャネル処理インジケータ(MultiProcFlag)を含み、出力は、5つのフィルタリングされたチャネル信号(L、R、C、LS、RS)及びモード選択サイド情報を含む。モード選択サイド情報は、エネルギー等化モード(ペアエネルギー等化モード又は全体エネルギー等化モード)、ペアリング方式(MCTペアリング又はMCACペアリング)、及びペアリング方式に対応する相関値サイド情報(グローバル相関値サイド情報又はMCT相関値サイド情報)を含む。
マルチチャネル融合処理モジュールは、マルチチャネルコーディングツール(multi-channel coding tool,MCT)ユニット及びマルチチャネル適応結合(multi-channel adaptive coupling,MCAC)ユニットを含む。エネルギー等化モード及び5つのチャネル信号(L、R、C、LS、及びRS)に対してエネルギー等化処理及びステレオ処理を実行する2つのモジュールのうちの1つのモジュールは、モード選択サイド情報に基づいて決定され得る。出力は、処理されたチャネル信号(P1~P4、C)及びマルチチャネルサイド情報を含み、マルチチャネルサイド情報は、チャネル対セットを含む。
チャネルエンコーディングモジュールは、マルチチャネル融合処理モジュールによって出力された処理されたチャネル信号(P1~P4、C)をコーディングするためにモノラルコーディングユニット(又はモノラルボックスもしくはモノラルツール)を使用し、対応するエンコーディングされたチャネル信号(E1~E5)を出力する。モノラルコーディングユニットがチャネル信号をコーディングするプロセスでは、より高いエネルギー(又はより高い振幅)のチャネル信号により多くのビットが割り当てられ、より低いエネルギー(又はより低い振幅)のチャネル信号により少ないビットが割り当てられる。任意選択で、チャネルエンコーディングモジュールは、ステレオコーディングユニット、例えばパラメータステレオコーダ又は損失ステレオコーダを使用して、マルチチャネル処理モジュールによって出力された処理されたチャネル信号をコーディングすることもできる。
エンコーディングされたチャネル信号E5を取得するために、ペアリングされないチャネル信号(例えば、C)がチャネルエンコーディングモジュールに直接入力されてもよいことに留意すべきである。
ビットストリーム多重化インタフェースは、コーディングされたマルチチャネル信号を生成する。コーディングされたマルチチャネル信号は、チャネルエンコーディングモジュールによって出力されたエンコーディングされたチャネル信号(E1~E5)及びサイド情報(モード選択サイド情報及びマルチチャネルサイド情報を含む)を含む。任意選択で、ビットストリーム多重化インタフェースは、コーディングされたマルチチャネル信号をシリアル信号又はシリアルビットストリームへと処理することができる。
図5aは、モード選択モジュールの構造を示す図の一例である。図5aに示されるように、モード選択モジュールは、マルチチャネルスクリーニングユニットと、グローバル相関値統計ユニットと、MCT相関値統計ユニットと、マルチチャネルモード選択ユニットとを含む。
マルチチャネルスクリーニングユニットは、マルチチャネル処理インジケータ(MultiProcFlag)に基づいて、6つのチャネル信号(L、R、C、LS、RS及びLFE)から、マルチチャネル処理に関与する5つのチャネル信号、すなわち、L、R、C、LS、及びRSをスクリーニングする。
グローバル相関値統計ユニットは、最初に、マルチチャネル処理に関与するチャネル信号L,R,C,LS,RSのいずれか2つの間の正規化相関値を計算する。この出願において、2つのチャネル信号(例えば、チャネル信号ch1及びチャネル信号ch2)間の相関値は、以下の式にしたがって計算することができる。
corr(ch1、ch2)は、チャネル信号ch1とチャネル信号ch2との間の正規化された相関値であり、spec_ch1(i)は、チャネル信号ch1におけるi番目の周波数ビンの周波数領域係数であり、spec_ch2(i)は、チャネル信号ch2のi番目の周波数ビンの周波数領域係数であり、Nは、音声フレームの周波数ビンの総数である。次に、マルチチャネル処理に関与するチャネル信号に対応する全てのチャネル対セットから、任意の2つのチャネル信号間の正規化相関値に基づいて、相関値の最大総和(すなわち、チャネル対セットに含まれる全てのチャネル対の相関値の総和)及び相関値の最大総和に対応するチャネル対セット(目標チャネル対セットと見なされる)が決定される。最後に、グローバル相関値サイド情報が出力され、グローバル相関値サイド情報は、相関値の最大総和corr_sum_max及び目標チャネル対セットを含む。目標チャネル対セットが(R,C)と(LS,RS)とを含み、相関値の最大総和がcorr_sum_max=corr(L,R)+corr(LS,RS)であると仮定する。
MCT相関値統計ユニットは、最初に、マルチチャネル処理に関与する5つのチャネル信号L,R,C,LS,RSのいずれか2つの間の正規化相関値を計算する。同様に、前述の式を使用して2つのチャネル信号(例えば、チャネル信号ch1及びチャネル信号ch2)間の相関値を計算することができ、次いで、相関値がクリアされるまで、最初の反復処理で最大の相関値に対応するチャネル対(例えば、L及びR)が選択されて目標チャネル対セットに加えられ、2番目の反復処理でL及び/又はRを含むチャネル対の相関値が削除され、残りの相関値から最大相関値に対応するチャネル対(例えば、LS及びRS)が選択されて目標チャネル対セットに加えられ、以下同様になされる。最後に、MCT相関値サイド情報が出力され、この場合、MCT相関値サイド情報は、目標チャネル対セットと、目標チャネル対セットに対応する相関値の総和corr_sum_currとを含む。目標チャネル対セットが(R,C)と(LS,RS)とを含み、相関値の総和がcorr_sum_curr=corr(L,R)+corr(LS,RS)であると仮定する。
任意の2つのチャネル信号間の正規化相関値を取得した後、グローバル相関値統計ユニット及びMCT相関値統計ユニットは、設定されたペアリング閾値に基づいて相関値をフィルタリングできることに留意すべきである。すなわち、ペアリング閾値以上の相関値を保持し、ペアリング閾値未満の相関値は削除され又は0に設定される。これにより、計算量を削減することができる。
図5 bは、マルチチャネルモード選択ユニットの構造を示す図の一例である。図5 bに示されるように、マルチチャネルモード選択ユニットは、モジュール選択ユニットと、エネルギー等化選択ユニットとを含む。
モジュール選択ユニットは、グローバル相関値サイド情報及びMCT相関値サイド情報に基づいてペアリング方式を決定する。corr_sum_max>corr_sum_currの場合、ペアリング方式は、グローバル相関値統計ユニットによって使用されるマルチチャネル適応結合(multi-channel adaptive coupling,MCAC)である。corr_sum_max=corr_sum_currである場合、ペアリング方式は、MCT相関値統計ユニットによって使用されるMCTペアリングである。
更に、ペアリング方式がMCTペアリングである場合、モジュール選択ユニットは、エネルギー等化選択ユニットによって与えられる複数のチャネル信号の変動間隔値に基づいて目標ペアリング方式を更に決定する。例えば、5つのチャネル信号(L、R、C、LS、及びRS)のエネルギー平坦度が第1の閾値未満である場合、目標ペアリング方式はMCACペアリングである。5つのチャネル信号(L、R、C、LS、及びRS)のエネルギー平坦度が第1の閾値以上であるとき、目標ペアリング方式はMCTペアリングである。
目標ペアリング方式がMCTペアリングであると初めて決定されるときに、5つのチャネル信号のエネルギー等化モード及び最終的な目標ペアリング方式は、エネルギー等化選択ユニットによって与えられる複数のチャネル信号の変動間隔値に基づいて一度に決定され得ることに留意すべきである。例えば、5つのチャネル信号(L、R、C、LS、及びRS)のエネルギー平坦度が第1の閾値未満である場合、目標ペアリング方式はMCACペアリングであり、エネルギー等化モードは第1のエネルギー等化モードである。5つのチャネル信号(L、R、C、LS、及びRS)のエネルギー平坦度が第1の閾値以上である場合、ペアリング方式はMCTペアリングであり、エネルギー等化モードは第2のエネルギー等化モードである。
エネルギー等化選択ユニットは、最初に、各チャネル信号のエネルギー又は振幅値を計算する。この出願において、チャネル信号(ch)のエネルギー又は振幅値は、以下の式にしたがって計算することができる。
energy(ch)はチャネル信号chのエネルギー又は振幅値であり、sepc_coeff(ch,i)はチャネル信号chのi番目の周波数ビンの周波数領域係数であり、Nは音声フレームの周波数ビンの総数である。
次に、各チャネル信号の正規化されたエネルギー又は振幅値が計算される。この出願において、チャネル信号(ch)の正規化されたエネルギー又は振幅値は、以下の式にしたがって計算することができる。
energy_uniform(ch)は、チャネル信号chの正規化されたエネルギー値又は振幅値であり、energy_maxは、5つのチャネル信号のエネルギー又は振幅値(すなわち、energy(L)、energy(R)、energy(C)、energy(LS)、energy(RS))の最大値である。energy_max=0の場合、全てのenergy_uniform(ch)は0である。
次に、5つのチャネル信号の変動間隔値が計算される。任意選択で、変動間隔値はエネルギー平坦度であってもよい。この出願において、5つのチャネル信号のエネルギー平坦度は、以下の式にしたがって計算することができる。
efmは、5つのチャネル信号のエネルギー平坦度である。L、R、C、LS、及びRSのチャネルインデックスについては、表1を参照されたい。
任意選択で、変動間隔値はエネルギー偏差であってもよい。前述の計算によって得られた正規化されたエネルギー又は振幅値energy_uniform(ch)に基づいて、この出願では、5つのチャネル信号の平均のエネルギー又は振幅値を以下の式にしたがって計算することができる。
avg_energy_uniformは、5つのチャネル信号の平均のエネルギー又は振幅値である。L、R、C、LS、及びRSのチャネルインデックスについては、表1を参照されたい。
チャネル信号(ch)のエネルギー偏差は、以下の式にしたがって計算される。
deviation(ch)は、チャネル信号chのエネルギー偏差である。L、R、C、LS、及びRSのエネルギー偏差の最大値が、5つのチャネル信号のエネルギー偏差(deviation)として決定される。
任意選択で、変動間隔値は、代替的に、振幅値又は振幅偏差であってもよい。変動間隔値の原理は前述のエネルギー関連値と同様であり、ここでは詳細を繰り返さない。
前述したように、この出願におけるエネルギー等化モードは2つの実施を含む。Pairエネルギー等化モードでは、モジュール選択ユニットによって決定されたペアリング方式に対応する目標チャネル対セット内のそれぞれのチャネル対ごとに、チャネル対の2つのチャネル信号が、チャネル対に対応する2つの等化チャネル信号を取得するために使用される。全体エネルギー等化モードでは、1つのチャネル対に対応する2つの等化チャネル信号を取得するために、1つのチャネル対内の2つのチャネル信号と、1つのチャネル対内にない少なくとも1つのチャネル信号とが使用される。ペアリングされないチャネル信号の場合、対応する等化チャネル信号はチャネル信号自体である。
エネルギー等化選択ユニットは、変動間隔値に基づいて、以下の2つの決定方式でエネルギー等化モードを決定する。
(1)efmが第1の閾値未満である場合、エネルギー等化モードはPairエネルギー等化モードである。efmが第1の閾値以上である場合、エネルギー等化モードは、全体エネルギー等化モードである。
(2)deviationが値の範囲[threshold,1/threshold]内である場合、エネルギー等化モードは、全体エネルギー等化モードである。deviationが値の範囲[threshold,1/threshold]外である場合、エネルギー等化モードは、pairエネルギー等化モードである。thresholdの値の範囲は、(0,1)であってもよい。
deviationは、現在のフレーム内の全てのチャネルの周波数領域振幅の平均値に対する現在のフレーム内の各チャネルの周波数領域振幅の比、すなわち、振幅偏差に相当し得る。現在のフレーム内の現在のチャネルの周波数領域振幅と現在のフレーム内の全てのチャネルの周波数領域振幅の平均値との間の比率が5未満(threshold=0.2に対応)である場合、2つのケースが存在し得る。すなわち、1.現在のチャネルの周波数領域振幅は、現在のフレーム内の全てのチャネルの周波数領域振幅の平均値以下であり、また、条件を満たす「現在のチャネルの周波数領域振幅/現在のフレーム内の全てのチャネルの周波数領域振幅の平均値」は、(0.2,1]の間、すなわち、(threshold、1]の間である。2.現在のチャネルの周波数領域振幅は、現在のフレーム内の全てのチャネルの周波数領域振幅の平均値よりも大きく、条件を満たす「現在のチャネルの周波数領域振幅/現在のフレーム内の全てのチャネルの周波数領域振幅の平均値」は(1、5)の間である。前述の2つのケースと組み合わせて、現在のチャネルの周波数領域振幅と現在のフレーム内の全てのチャネルの周波数領域振幅の平均値との間の比率が5未満である場合、条件を満たす「現在のチャネルの周波数領域振幅/現在のフレーム内の全てのチャネルの周波数領域振幅の平均値」の範囲は(0.2,5)の間、すなわち(threshold、1/threshold)の間であり、(threshold、1/threshold)は第2の事前設定範囲である。thresholdの値は、(0,1)の間であってもよい。thresholdの値が小さいほど、現在のフレーム内の全てのチャネルの周波数領域振幅の平均値に対する現在のチャネルの周波数領域振幅の変動が大きいことを示し、thresholdの値が大きいほど、現在のフレーム内の全てのチャネルの周波数領域振幅の平均値に対する現在のチャネルの周波数領域振幅の変動が小さいことを示す。thresholdの値は、0.2,0.15,0.125,0.11,0.1などであり得る。
また、deviationは、全てのチャネルの周波数領域エネルギーの平均値に対する各チャネルの周波数領域エネルギーの比率、すなわちエネルギー偏差にも相当し得る。現在のフレーム内の現在のチャネルの周波数領域エネルギーと現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値との間の比率が25未満(threshold=0.04)である場合、2つのケースがあり得る。すなわち、1.現在のチャネルの周波数領域エネルギーは、現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値以下であり、条件を満たす「現在のチャネルの周波数領域エネルギー/現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値」は、(0.04,1]の間、すなわち、(threshold、1]の間である。2.現在のチャネルの周波数領域エネルギーは、現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値よりも大きく、条件を満たす「現在のチャネルの周波数領域エネルギー/現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値」は(1,25)の間である。前述の2つのケースと組み合わせて、現在のチャネルの周波数領域エネルギーと現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値との間の比率が25未満である場合、条件を満たす「現在のチャネルの周波数領域エネルギー/現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値」の範囲は(0.04,25)の間、すなわち(threshold、1/threshold)の間であり、ここで、(threshold、1/threshold)は第1の事前設定範囲である。thresholdは、(0,1)の間であってもよい。thresholdの値が小さいほど、現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値に対する現在のチャネルの周波数領域エネルギーの変動が大きいことを示し、thresholdの値が大きいほど、現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値に対する現在のチャネルの周波数領域エネルギーの変動が小さいことを示す。Thresholdの値は、0.04,0.0225,0.015625,0.0121,0.01などであり得る。
振幅とエネルギーとの間には二乗関係があるため、振幅偏差とエネルギー偏差との間にも二乗関係があり、すなわち、振幅偏差の二乗に対応するチャネル間フレーム振幅の変動は、エネルギー偏差に対応するチャネル間フレームエネルギーの変動とほぼ同等である。
他の実施態様では、第1の事前設定範囲も(0,1/threshold)に拡張されてもよい。この場合、Pairエネルギー等化の範囲は[1/threshold,+∞)であり、これは、現在のチャネルの周波数領域エネルギーが現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値よりも大きいときにPairエネルギー等化が実行されることを示し、また、「現在のチャネルの周波数領域エネルギー/現在のフレーム内の全てのチャネルの周波数領域エネルギーの平均値」は1/thresholdよりも大きい。
他の実施態様では、第2の事前設定範囲も(0,1/threshold)に拡張されてもよい。この場合、Pair振幅等化の範囲は[1/threshold,+∞)であり、これは、現在のチャネルの周波数領域振幅が現在のフレーム内の全てのチャネルの周波数領域振幅の平均値よりも大きいときにPair振幅等化が実行されることを示し、「現在のチャネルの周波数領域振幅/現在のフレーム内の全てのチャネルの周波数領域振幅の平均値」は1/thresholdよりも大きい。
エネルギー等化選択ユニットは、エネルギー平坦度又はエネルギー偏差を取得するために、5つのチャネル信号に基づいて正規化されたエネルギー値又は振幅値を計算してもよく、又は、エネルギー平坦度又はエネルギー偏差を取得するために、ペアリングに成功したチャネル信号のみに基づいて正規化されたエネルギー値又は振幅値を計算してもよく、又は、エネルギー平坦度又はエネルギー偏差を取得するために、5つのチャネル信号の一部に基づいて正規化されたエネルギー値又は振幅値を計算してもよいことに留意すべきである。これは、この出願では特に限定されない。
マルチチャネル融合処理モジュールは、MCTユニット及びMCACユニットを含む。
MCTユニットは、最初に、Le、Re、Ce、LSe、及びRSeを取得するために全体エネルギー等化モードにしたがって5つのチャネル信号(L、R、C、LS、及びRS)に対してエネルギー等化処理を行ない、MCT相関値サイド情報に基づいて目標チャネル対セットを取得し、ステレオボックスを使用することによって目標チャネル対セット内の1つのチャネル対の2つの等化チャネル信号(例えば、(Le、Re)又は(LSe、RSe))に対してステレオ処理を行なう。
MCACユニットは、グローバル相関値サイド情報に基づいて目標チャネル対セット(例えば、(L,R)、(LS,RS))を取得し、次いで、目標チャネル対セット内の1つのチャネル対の2つのチャネル信号(例えば、(L,R)、(LS,RS))に対してエネルギー等化処理を行なって、エネルギー等化モード、例えばpairエネルギー等化モードにしたがって(Le、Re)及び(LSe、RSe)を取得し、次いで、ステレオボックスを使用することによって等化チャネル信号に対してステレオ処理を行なう。全体エネルギー等化モードが使用される場合、Le、Re、Ce、LSe、及びRSeを取得するために5つのチャネル信号に対してエネルギー等化処理が実行され、次いで、目標チャネル対セットに基づいてステレオボックスを使用することによってチャネル対内の2つの等化チャネル信号(例えば、(Le、Re)又は(LSe、RSe))に対してステレオ処理が実行される。
ステレオ処理ユニットは、予測ベース又はKarhunen-Loeve変換(Karhunen-Loeve Transform,KLT)ベースの処理を使用することができ、すなわち、2つの入力チャネル信号を回転させて(例えば、2×2の回転行列を使用することによって)エネルギー圧縮を最大化し、1つのチャネルに信号エネルギーを集中させる。
2つの入力チャネル信号を処理した後、ステレオ処理ユニットは、2つのチャネル信号及びマルチチャネルサイド情報に対応する処理されたチャネル信号(P1~P4)を出力し、マルチチャネルサイド情報は、相関値の総和及び目標チャネル対セットを含む。
図6は、この出願にしたがってマルチチャネル音声デコーディング方法が適用されるデコーディング装置の構造を示す図の一例である。デコーディング装置は、音声コーディングシステム10内の送信先デバイス14のデコーダ30であってもよく、又は、音声コーディングデバイス200内のコーディングモジュール270であってもよい。デコーディング装置は、ビットストリーム逆多重化インタフェースと、チャネルデコーディングモジュールと、マルチチャネル処理モジュールとを含むことができる。
ビットストリーム逆多重化インタフェースは、エンコーディング装置からエンコーディングされたマルチチャネル信号(例えば、シリアルビットストリーム(bitstream))を受信し、逆多重化後のエンコーディングされたチャネル信号(E)及びマルチチャネルパラメータ(SIDE_PAIR)、例えば、E1、E2、E3、E4、...、Ei-1、Ei、及びSIDE_PAIR1、SIDE_PAIR2、...、SIDE_PAIRmを取得する。
チャネルデコーディングモジュールは、モノラルデコーディングユニット(又はモノラルボックスもしくはモノラルツール)を使用することによってビットストリーム逆多重化インタフェースによって出力されたエンコーディングされたチャネル信号をデコーディングし、デコーディングされたチャネル信号(D)を出力する。例えば、E1、E2、E3、E4、...、Ei1、及びEiは、E1がデコーディングされた後、D1、D2、D3、D4、...、Di-1、及びDiを取得するためにモノラルデコーディングユニットによってそれぞれデコーディングされる。
マルチチャネル処理モジュールは、複数のステレオ処理ユニットを含む。ステレオ処理ユニットは、信号を元の信号方向に変換するために、予測ベース又はKLTベースの処理を使用することができる、すなわち、2つの入力チャネル信号が逆回転される(例えば、2×2の回転行列を用いることにより)。
チャネルデコーディングモジュールによって出力されたデコーディングされたチャネル信号のうちのどの2つがペアリングされるかは、マルチチャネルパラメータに基づいて特定することができ、また、ペアリングされてデコーディングされたチャネル信号がステレオ処理ユニットに入力される。2つの入力されたデコーディングされたチャネル信号を処理した後、ステレオ処理ユニットは、2つのデコーディングされたチャネル信号に対応するチャネル信号(CH)を出力する。例えば、ステレオ処理ユニット1は、SIDE_PAIR1に基づいてD1及びD2を処理してCH1及びCH2を取得し、ステレオ処理ユニット2は、SIDE_PAIR2に基づいてD3及びD4を処理してCH3及びCH4を取得し、...及び、ステレオ処理ユニットmは、SIDE_PAIRmに基づいてDi-1及びDiを処理してCHi-1及びCHiを取得する。
ペアリングされていないチャネル信号(例えば、CHj)は、マルチチャネル処理モジュール内のステレオ処理ユニットによって処理される必要はなく、デコーディングされた後に直接出力されてもよいことに留意すべきである。
図7は、この出願に係るコーディング装置の実施形態の構造を示す概略図である。図7に示されるように、装置は、前述の実施形態における送信元デバイス12又は音声コーディングデバイス200に適用することができる。この実施形態におけるコーディング装置は、取得モジュール601と、コーディングモジュール602と、決定モジュール603とを含むことができる。
取得モジュール601は、エンコーディングされるべき第1の音声フレームを取得し、第1の音声フレームが少なくとも5つのチャネル信号を含み、第1のチャネル対セットを取得するために第1のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングし、第1のチャネル対セットが少なくとも1つのチャネル対を含み、1つのチャネル対が少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、第1のチャネル対セットの相関値の第1の総和を取得し、1つのチャネル対が1つの相関値を有し、相関値がチャネル対の2つのチャネル信号間の相関を示し、第2のチャネル対セットを取得すために第2のペアリング方式にしたがって少なくとも5つのチャネル信号をペアリングし、第2のチャネル対セットの相関値の第2の総和を取得する、ように構成される。決定モジュール603は、相関値の第1の総和及び相関値の第2の総和に基づいて少なくとも5つのチャネル信号の目標ペアリング方式を決定するように構成される。コーディングモジュール602は、目標ペアリング方式にしたがって少なくとも5つのチャネル信号をエンコーディングするように構成され、目標ペアリング方式は第1のペアリング方式又は第2のペアリング方式である。
想定し得る実施において、決定モジュール603は、相関値の第1の総和が相関値の第2の総和よりも大きいときに、目標ペアリング方式が第1のペアリング方式であると決定し、又は、相関値の第1の総和が相関値の第2の総和に等しいときに、目標ペアリング方式が第2のペアリング方式であると決定する、ように特に構成される。
想定し得る実施において、決定モジュール603は、少なくとも5つのチャネル信号の変動間隔値を取得し、目標ペアリング方式が前記第1のペアリング方式であるときに、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定し、又は、目標ペアリング方式が第2のペアリング方式であるときに、少なくとも5つのチャネル信号の変動間隔値に基づいてエネルギー等化モードを決定し、少なくとも5つのチャネル信号の目標ペアリング方式を再決定する、ように更に構成される。これに対応して、コーディングモジュール602は、少なくとも5つの等化チャネル信号を取得するためにエネルギー等化モードにしたがって少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行し、目標ペアリング方式にしたがって少なくとも5つの等化チャネル信号をエンコーディングし、エネルギー等化モードが第1のエネルギー等化モード又は第2のエネルギー等化モードである、ように更に構成される。
想定し得る実施において、決定モジュール603は、変動間隔値が事前設定条件を満たすときに、エネルギー等化モードが第一エネルギー等化モードであると決定し、又は、変動間隔値が事前設定条件を満たさないときに、エネルギー等化モードが第2のエネルギー等化モードであると決定する、ように特に構成される。
想定し得る実施において、決定モジュール603は、変動間隔値が事前設定条件を満たすときに、目標ペアリング方式が第1のペアリング方式であり、エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、変動間隔値が事前設定条件を満たさないときに、目標ペアリング方式が第2のペアリング方式であり、エネルギー等化モードが第2のエネルギー等化モードであると決定する、ように特に構成される。
想定し得る実施において、決定モジュール603は、第1の音声フレームに対応するコーディングビットレートがビットレート閾値よりも大きいかどうか決定し、コーディングビットレートがビットレート閾値よりも大きいときに、エネルギー等化モードが第2のエネルギー等化モードであると決定し、又は、コーディングビットレートがビットレート閾値以下であるときに、変動間隔値に基づいてエネルギー等化モードを決定する、ように更に構成される。
想定し得る実施では、変動間隔値が第1の音声フレームのエネルギー平坦度を含み、事前設定条件を満たす変動間隔値は、エネルギー平坦度が第1の閾値未満であることを示し、又は、変動間隔値が第1の音声フレームの振幅平坦度を含み、事前設定条件を満たす変動間隔値は、振幅平坦度が第2の閾値未満であることを示し、又は、変動間隔値が第1の音声フレームのエネルギー偏差を含み、事前設定条件を満たす変動間隔値は、エネルギー偏差が第1の事前設定範囲外であることを示し、又は、変動間隔値が第1の音声フレームの振幅偏差を含み、事前設定条件を満たす変動間隔値は、振幅偏差が第2の事前設定範囲外であることを示す。
想定し得る実施において、取得モジュール601は、相関値の最大総和を取得するために、少なくとも5つのチャネル信号に対応するチャネル対から1つのチャネル対を選択し、該チャネル対を第1のチャネル対セットに加えるように特に構成される。
想定し得る実施において、取得モジュール601は、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中で相関値が最も大きいチャネル対を最初に加え、第2のチャネル対セットに対して、少なくとも5つのチャネル信号に対応するチャネル対の中の関連するチャネル対以外の他のチャネル対の中で相関値が最も大きいチャネル対を加え、関連するチャネル対が、第1のチャネル対セットに加えられるチャネル対に含まれる任意のチャネル信号を含む、ように特に構成される。
想定し得る実施において、エネルギー等化モードが第1のエネルギー等化モードであるときに、コーディングモジュール602は、ペアリング方式に対応する目標チャネル対セット内の現在のチャネル対に関して、現在のチャネル対に含まれる2つのチャネル信号のエネルギー又は振幅値の平均値を計算し、2つの対応する等化チャネル信号を取得するために平均値に基づいて2つのチャネル信号に対してエネルギー等化処理を別々に実行する、ように特に構成される。
想定し得る実施において、エネルギー等化モードが第2のエネルギー等化モードであるときに、コーディングモジュール602は、少なくとも5つのチャネル信号のエネルギー又は振幅値の平均値を計算し、少なくとも5つの等化チャネル信号を取得するために平均値に基づいて少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行する、ように特に構成される。
この実施形態の装置は、図3に示される方法実施形態の技術的解決策を実行するように構成されてもよく、装置及び方法実施形態の実装原理及び技術的効果は同様であり、詳細は本明細書では説明しない。
図8は、この出願に係るデバイス実施形態の構造を示す概略図である。図8に示されるように、デバイスは前述の実施形態におけるコーディングデバイスであってもよい。この実施形態におけるデバイスは、プロセッサ701及びメモリ702を含むことができ、メモリ702は、1つ以上のプログラムを記憶するように構成される。1つ以上のプログラムがプロセッサ701によって実行されると、プロセッサ701は、図3に示される方法実施形態の技術的解決策を実施できるようにされる。
一実装プロセスでは、上記の方法実施形態におけるステップは、プロセッサ内のハードウェア集積論理回路を使用することによって、又はソフトウェアの形態の命令を使用することによって、実施され得る。プロセッサは、汎用プロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)もしくは別のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、又はディスクリートハードウェア構成要素であってもよい。汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサなどであってもよい。この出願に関連して開示された方法のステップは、ハードウェアコーディングプロセッサによって直接実行されてもよく、コーディングプロセッサ内のハードウェア及びソフトウェアモジュールの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、リードオンリーメモリ、プログラマブルリードオンリーメモリ、電気的消去可能プログラマブルメモリ、又はレジスタなどの当技術の成熟した記憶媒体に配置され得る。記憶媒体はメモリ内に位置され、また、プロセッサは、メモリ内の情報を読み出し、プロセッサのハードウェアと組み合わせて前述の方法のステップを完了する。
前述の実施形態におけるメモリは、揮発性メモリ又は不揮発性メモリであってもよく、或いは揮発性メモリと不揮発性メモリとの両方を含んでもよい。不揮発性メモリは、リードオンリーメモリ(read-only memory、ROM)、プログラム可能リードオンリーメモリ(programmable ROM、PROM)、消去可能プログラム可能リードオンリーメモリ(erasable PROM、EPROM)、電気的消去可能プログラム可能リードオンリーメモリ(electrically EPROM、EEPROM)、又はフラッシュメモリであってもよい。揮発メモリは外部キャッシュとして用いられるランダムアクセスメモリ(random access memory,RAM)であってもよい。限定的な説明ではなく例として、多くの形態のRAM、例えば、スタティックランダムアクセスメモリ(static RAM、SRAM)、ダイナミックランダムアクセスメモリ(dynamic RAM、DRAM)、シンクロナス・ダイナミック・ランダム・アクセス・メモリ(synchronous DRAM、SDRAM)、ダブル・データ・レート・シンクロナス・ダイナミック・ランダム・アクセス・メモリ(double data rate SDRAM、DDR SDRAM)、拡張シンクロナス・ダイナミック・ランダム・アクセス・メモリ(enhanced SDRAM、ESDRAM)、シンクリンク・ダイナミック・ランダム・アクセス・メモリ(synchlink DRAM、SLDRAM)、及びダイレクト・ラムバス・ランダム・アクセス・メモリ(direct rambus RAM、DR RAM)が利用可能である。この明細書で説明されているシステム及び方法のメモリがこれらのメモリ及び他の適切なタイプの任意のメモリを含むがこれらに限定されないことに留意すべきである。
当業者であれば承知のように、この明細書に開示される実施形態で説明されている例中のユニット及びアルゴリズムステップと組み合わせて、この明細書は、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得る。機能がハードウェアによって実装されるか又はソフトウェアによって実装されるかどうかは、技術的解決策の特定の用途及び設計上の制約条件に依存する。当業者は、特定の用途ごとに説明される機能を実装するために様々な方法を使用できるが、その実装態様がこの出願の範囲を超えると見なされるべきではない。
当業者であれば明確に分かるように、便宜的且つ簡潔な説明の目的で、前述のシステム、装置、及びユニットの詳細な動作プロセスに関しては、前述の方法の実施形態における対応するプロセスを参照されたい。ここでは詳細を繰り返さない。
この出願で提供される幾つかの実施形態では、開示のシステム、装置、及び方法が他のやり方で実施されてもよいことを理解すべきである。例えば、説明された装置の実施形態は単なる一例にすぎない。例えば、ユニットへの分割は論理的機能分割にすぎず、実際に実施する際には他の分割であってもよい。例えば、複数のユニット又は構成要素が組み合わされ又は他のシステムに組み込まれてもよく、或いは幾つかの特徴が無視されてもよく又は実行されなくてもよい。加えて、表示され又は論じられる相互結合又は直接結合又は通信接続は、幾つかのインタフェースを通じて実施されてもよい。装置間又はユニット間の間接結合又は通信接続は、電気的形態、機械的形態、又は他の形態として実施されてもよい。
別個の部分として記載されるユニットは、物理的に別個であってもなくてもよく、また、ユニットとして表示される部分は、物理的なユニットであってもなくてもよく、具体的には、1つの位置に位置されてもよく、複数のネットワークユニットに分散されてもよい。ユニットの一部又は全ては、実施形態の解決策の目的を達成するために実際の要件にしたがって選択されてもよい。
また、この出願の実施形態における機能ユニットは、1つの処理ユニットに組み込まれてもよく、或いは、ユニットのそれぞれは、物理的に単独で存在してもよく、又は2つ以上のユニットが1つのユニットに組み込まれてもよい。
機能がソフトウェア機能ユニットの形態で実装されて独立した製品として販売又は使用される場合、機能は、コンピュータ可読記憶媒体に記憶されてもよい。そうした理解に基づき、この出願の技術的な解決策は本質的に、又は従来の技術に寄与する部分は、又は技術的な解決策の一部は、ソフトウェア製品の形で実装されてよい。コンピュータソフトウェア製品は、記憶媒体に記憶されるとともに、この出願の実施形態における方法のステップの全部又は一部を実行するようにコンピュータデバイス(パーソナルコンピュータ、サーバ、又はネットワークデバイスなど)に指示するための幾つかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブル・ハード・ディスク、リードオンリーメモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶し得る何らかの媒体を含む。
前述の説明は、この出願の特定の実施態様にすぎず、この出願の保護範囲を限定しようとするものではない。この出願に開示された技術的範囲内で当業者によって容易に考え出されるいかなる変形又は置換も、この出願の保護範囲内にあるものとする。したがって、この出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
10 音声コーディングシステム
12 送信元デバイス
13 通信チャネル
14 送信先デバイス
16 音源
17 音声データ
18 音声プリプロセッサ
19 前処理された音声データ
20 エンコーダ
21 エンコーディングされた音声データ
22 通信インタフェース
28 通信インタフェース
30 デコーダ
31 デコーディングされた音声データ
32 音声ポストプロセッサ
33 後処理された音声データ
34 再生デバイス
113 通信チャネル
200 音声コーディングデバイス
210 入口ポート
220 受信ユニット
230 プロセッサ
240 送信ユニット
250 出口ポート
260 メモリ
270 コーディングモジュール
601 取得モジュール
602 コーディングモジュール
603 決定モジュール
701 プロセッサ
702 メモリ

Claims (26)

  1. エンコーディングされるべき第1の音声フレームを取得するステップであって、前記第1の音声フレームが少なくとも5つのチャネル信号を含む、ステップと、
    第1のチャネル対セットを取得するために第1のペアリング方式にしたがって前記少なくとも5つのチャネル信号をペアリングするステップであって、前記第1のチャネル対セットが少なくとも1つのチャネル対を含み、1つのチャネル対が前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含む、ステップと、
    前記第1のチャネル対セットの相関値の第1の総和を取得するステップであって、1つのチャネル対が1つの相関値を有し、前記相関値が前記チャネル対の2つのチャネル信号間の相関を示す、ステップと、
    第2のチャネル対セットを取得するために第2のペアリング方式にしたがって前記少なくとも5つのチャネル信号をペアリングするステップと、
    前記第2のチャネル対セットの相関値の第2の総和を取得するステップと、
    相関値の前記第1の総和及び相関値の前記第2の総和に基づいて前記少なくとも5つのチャネル信号の目標ペアリング方式を決定するステップと、
    前記目標ペアリング方式にしたがって前記少なくとも5つのチャネル信号をエンコーディングするステップであって、前記目標ペアリング方式が前記第1のペアリング方式又は前記第2のペアリング方式である、ステップと
    を含む、マルチチャネル音声信号コーディング方法。
  2. 相関値の前記第1の総和及び相関値の前記第2の総和に基づいて前記少なくとも5つのチャネル信号の目標ペアリング方式を決定する前記ステップは、
    相関値の前記第1の総和が相関値の前記第2の総和よりも大きいときに、前記目標ペアリング方式が前記第1のペアリング方式であると決定するステップ、又は
    相関値の前記第1の総和が相関値の前記第2の総和に等しいときに、前記目標ペアリング方式が前記第2のペアリング方式であると決定するステップ
    を含む、請求項1に記載の方法。
  3. 前記目標ペアリング方式にしたがって前記少なくとも5つのチャネル信号をエンコーディングする前記ステップの前に、前記方法は、
    前記少なくとも5つのチャネル信号の変動間隔値を取得するステップと、
    前記目標ペアリング方式が前記第1のペアリング方式であるときに、前記少なくとも5つのチャネル信号の前記変動間隔値に基づいてエネルギー等化モードを決定するステップ、又は
    前記目標ペアリング方式が前記第2のペアリング方式であるときに、前記少なくとも5つのチャネル信号の前記変動間隔値に基づいてエネルギー等化モードを決定し、前記少なくとも5つのチャネル信号の前記目標ペアリング方式を再決定するステップと、
    少なくとも5つの等化チャネル信号を取得するために前記エネルギー等化モードにしたがって前記少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行するステップと
    を更に含み、
    それに対応して、前記目標ペアリング方式にしたがって前記少なくとも5つのチャネル信号をエンコーディングする前記ステップは、
    前記目標ペアリング方式にしたがって前記少なくとも5つの等化チャネル信号をエンコーディングするステップ
    を含む、請求項1又は2に記載の方法。
  4. 前記少なくとも5つのチャネル信号の前記変動間隔値に基づいてエネルギー等化モードを決定する前記ステップは、
    前記変動間隔値が事前設定条件を満たすときに、前記エネルギー等化モードが第1のエネルギー等化モードであると決定するステップ、又は
    前記変動間隔値が事前設定条件を満たさないときに、前記エネルギー等化モードが第2のエネルギー等化モードであると決定するステップ
    を含む、請求項3に記載の方法。
  5. 前記少なくとも5つのチャネル信号の前記変動間隔値に基づいてエネルギー等化モードを決定し、前記少なくとも5つのチャネル信号の前記目標ペアリング方式を再決定する前記ステップは、
    前記変動間隔値が前記事前設定条件を満たすときに、前記目標ペアリング方式が前記第1のペアリング方式であり、前記エネルギー等化モードが前記第1のエネルギー等化モードであると決定するステップ、又は
    前記変動間隔値が前記事前設定条件を満たさないときに、前記目標ペアリング方式が前記第2のペアリング方式であり、前記エネルギー等化モードが前記第2のエネルギー等化モードであると決定するステップ
    を含む、請求項3又は4に記載の方法。
  6. 前記少なくとも5つのチャネル信号の前記変動間隔値に基づいてエネルギー等化モードを決定する前記ステップの前に、前記方法は、
    前記第1の音声フレームに対応するコーディングビットレートがビットレート閾値よりも大きいかどうかを決定するステップと、
    前記コーディングビットレートが前記ビットレート閾値よりも大きいときに、前記エネルギー等化モードが前記第2のエネルギー等化モードであると決定するステップ、又は
    前記コーディングビットレートが前記ビットレート閾値以下であるときに、前記変動間隔値に基づいて前記エネルギー等化モードを決定するステップと
    を更に含む、請求項3から5のいずれか一項に記載の方法。
  7. 前記変動間隔値が前記第1の音声フレームのエネルギー平坦度を含み、前記事前設定条件を満たす前記変動間隔値は、前記エネルギー平坦度が第1の閾値未満であることを示し、又は
    前記変動間隔値が前記第1の音声フレームの振幅平坦度を含み、前記事前設定条件を満たす前記変動間隔値は、前記振幅平坦度が第2の閾値未満であることを示し、又は
    前記変動間隔値が前記第1の音声フレームのエネルギー偏差を含み、前記事前設定条件を満たす前記変動間隔値は、前記エネルギー偏差が第1の事前設定範囲外であることを示し、又は
    前記変動間隔値が前記第1の音声フレームの振幅偏差を含み、前記事前設定条件を満たす前記変動間隔値は、前記振幅偏差が第2の事前設定範囲外であることを示す、
    請求項4から6のいずれか一項に記載の方法。
  8. 第1のチャネル対セットを取得するために第1のペアリング方式にしたがって前記少なくとも5つのチャネル信号をペアリングする前記ステップは、
    相関値の最大総和を取得するために、前記少なくとも5つのチャネル信号に対応するチャネル対から1つのチャネル対を選択し、前記チャネル対を前記第1のチャネル対セットに加えるステップ
    を含む、請求項1から7のいずれか一項に記載の方法。
  9. 第2のチャネル対セットを取得するために第2のペアリング方式にしたがって前記少なくとも5つのチャネル信号をペアリングする前記ステップは、
    前記第2のチャネル対セットに対して、前記少なくとも5つのチャネル信号に対応する前記チャネル対の中で相関値が最も大きいチャネル対を最初に加えるステップと、
    前記第2のチャネル対セットに対して、前記少なくとも5つのチャネル信号に対応する前記チャネル対における関連するチャネル対以外の他のチャネル対の中で相関値が最も大きいチャネル対を加えるステップであって、前記関連するチャネル対が、前記第1のチャネル対セットに加えられたチャネル対に含まれる任意のチャネル信号を含む、ステップと
    を含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記エネルギー等化モードが前記第1のエネルギー等化モードであるときに、少なくとも5つの等化チャネル信号を取得するために前記エネルギー等化モードにしたがって前記少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行する前記ステップは、
    前記ペアリング方式に対応する目標チャネル対セット内の現在のチャネル対に関して、前記現在のチャネル対に含まれる2つのチャネル信号のエネルギー又は振幅値の平均値を計算し、2つの対応する等化チャネル信号を取得するために前記平均値に基づいて前記2つのチャネル信号に対してエネルギー等化処理を別々に実行するステップ
    を含む、請求項3から7のいずれか一項に記載の方法。
  11. 前記エネルギー等化モードが前記第2のエネルギー等化モードであるときに、少なくとも5つの等化チャネル信号を取得するために前記エネルギー等化モードにしたがって前記少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行する前記ステップは、
    前記少なくとも5つのチャネル信号のエネルギー又は振幅値の平均値を計算し、前記少なくとも5つの等化チャネル信号を取得するために前記平均値に基づいて前記少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行するステップ
    を含む、請求項3から7のいずれか一項に記載の方法。
  12. エンコーディングされるべき第1の音声フレームを取得し、前記第1の音声フレームが少なくとも5つのチャネル信号を含み、第1のチャネル対セットを取得するために第1のペアリング方式にしたがって前記少なくとも5つのチャネル信号をペアリングし、前記第1のチャネル対セットが少なくとも1つのチャネル対を含み、1つのチャネル対が前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記第1のチャネル対セットの相関値の第1の総和を取得し、1つのチャネル対が1つの相関値を有し、前記相関値が前記チャネル対の2つのチャネル信号間の相関を示し、第2のチャネル対セットを取得するために第2のペアリング方式にしたがって前記少なくとも5つのチャネル信号をペアリングし、前記第2のチャネル対セットの相関値の第2の総和を取得する、ように構成される取得モジュールと、
    相関値の前記第1の総和及び相関値の前記第2の総和に基づいて前記少なくとも5つのチャネル信号の目標ペアリング方式を決定するように構成される決定モジュールと、
    前記目標ペアリング方式にしたがって前記少なくとも5つのチャネル信号をエンコーディングし、前記目標ペアリング方式が前記第1のペアリング方式又は前記第2のペアリング方式である、ように構成されるコーディングモジュールと
    を備える、コーディング装置。
  13. 前記決定モジュールは、相関値の前記第1の総和が相関値の前記第2の総和よりも大きいときに、前記目標ペアリング方式が前記第1のペアリング方式であると決定する、又は、相関値の前記第1の総和が相関値の前記第2の総和に等しいときに、前記目標ペアリング方式が前記第2のペアリング方式であると決定する、ように特に構成される、請求項12に記載の装置。
  14. 前記決定モジュールは、前記少なくとも5つのチャネル信号の変動間隔値を取得し、前記目標ペアリング方式が前記第1のペアリング方式であるときに、前記少なくとも5つのチャネル信号の前記変動間隔値に基づいてエネルギー等化モードを決定し、又は、前記目標ペアリング方式が前記第2のペアリング方式であるときに、前記少なくとも5つのチャネル信号の前記変動間隔値に基づいてエネルギー等化モードを決定し、前記少なくとも5つのチャネル信号の前記目標ペアリング方式を再決定する、ように更に構成され、
    それに対応して、前記コーディングモジュールは、少なくとも5つの等化チャネル信号を取得するために前記エネルギー等化モードにしたがって前記少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行し、前記目標ペアリング方式にしたがって前記少なくとも5つの等化チャネル信号をエンコーディングする、ように更に構成される、
    請求項12又は13に記載の装置。
  15. 前記決定モジュールは、前記変動間隔値が事前設定条件を満たすときに、前記エネルギー等化モードが第1のエネルギー等化モードであると決定し、又は、前記変動間隔値が事前設定条件を満たさないときに、前記エネルギー等化モードが第2のエネルギー等化モードであると決定する、ように特に構成される、請求項14に記載の装置。
  16. 前記決定モジュールは、前記変動間隔値が前記事前設定条件を満たすときに、前記目標ペアリング方式が前記第1のペアリング方式であり、前記エネルギー等化モードが前記第1のエネルギー等化モードであると決定し、又は、前記変動間隔値が前記事前設定条件を満たさないときに、前記目標ペアリング方式が前記第2のペアリング方式であり、前記エネルギー等化モードが前記第2のエネルギー等化モードであると決定する、ように特に構成される、請求項14又は15に記載の装置。
  17. 前記決定モジュールは、前記第1の音声フレームに対応するコーディングビットレートがビットレート閾値よりも大きいかどうかを決定し、前記コーディングビットレートが前記ビットレート閾値よりも大きいときに、前記エネルギー等化モードが前記第2のエネルギー等化モードであると決定し、又は、前記コーディングビットレートが前記ビットレート閾値以下であるときに、前記変動間隔値に基づいて前記エネルギー等化モードを決定する、ように更に構成される、請求項14から16のいずれか一項に記載の装置。
  18. 前記変動間隔値が前記第1の音声フレームのエネルギー平坦度を含み、前記事前設定条件を満たす前記変動間隔値は、前記エネルギー平坦度が第1の閾値未満であることを示し、又は
    前記変動間隔値が前記第1の音声フレームの振幅平坦度を含み、前記事前設定条件を満たす前記変動間隔値は、前記振幅平坦度が第2の閾値未満であることを示し、又は
    前記変動間隔値が前記第1の音声フレームのエネルギー偏差を含み、前記事前設定条件を満たす前記変動間隔値は、前記エネルギー偏差が第1の事前設定範囲外であることを示し、又は
    前記変動間隔値が前記第1の音声フレームの振幅偏差を含み、前記事前設定条件を満たす前記変動間隔値は、前記振幅偏差が第2の事前設定範囲外であることを示す、
    請求項15から17のいずれか一項に記載の装置。
  19. 前記取得モジュールは、相関値の最大総和を取得するために、前記少なくとも5つのチャネル信号に対応するチャネル対から1つのチャネル対を選択し、前記チャネル対を前記第1のチャネル対セットに加える、ように特に構成される、請求項12から18のいずれか一項に記載の装置。
  20. 前記取得モジュールは、前記第2のチャネル対セットに対して、前記少なくとも5つのチャネル信号に対応する前記チャネル対の中で相関値が最も大きいチャネル対を最初に加え、前記第2のチャネル対セットに対して、前記少なくとも5つのチャネル信号に対応する前記チャネル対における関連するチャネル対以外の他のチャネル対の中で相関値が最も大きいチャネル対を加え、前記関連するチャネル対が、前記第1のチャネル対セットに加えられるチャネル対に含まれる任意のチャネル信号を含む、ように特に構成される、請求項12から19のいずれか一項に記載の装置。
  21. 前記エネルギー等化モードが前記第1のエネルギー等化モードであるときに、前記コーディングモジュールは、前記ペアリング方式に対応する目標チャネル対セット内の現在のチャネル対に関して、前記現在のチャネル対に含まれる2つのチャネル信号のエネルギー又は振幅値の平均値を計算し、2つの対応する等化チャネル信号を取得するために前記平均値に基づいて前記2つのチャネル信号に対してエネルギー等化処理を別々に実行する、ように特に構成される、請求項14から18のいずれか一項に記載の装置。
  22. 前記エネルギー等化モードが前記第2のエネルギー等化モードであるときに、前記コーディングモジュールは、前記少なくとも5つのチャネル信号のエネルギー又は振幅値の平均値を計算し、前記少なくとも5つの等化チャネル信号を取得するために前記平均値に基づいて前記少なくとも5つのチャネル信号に対してエネルギー等化処理を別々に実行する、ように特に構成される、請求項14から18のいずれか一項に記載の装置。
  23. 1つ以上のプロセッサと、
    1つ以上のプログラムを記憶するように構成されるメモリと
    を備え、
    前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサが請求項1から11のいずれか一項に記載の方法を実施できるようにされる、
    デバイス。
  24. コンピュータプログラムを含むコンピュータ可読記憶媒体であって、前記コンピュータプログラムがコンピュータで実行されるときに、前記コンピュータが請求項1から11のいずれか一項に記載の方法を実行できるようにされる、コンピュータ可読記憶媒体。
  25. 請求項1から11のいずれか一項に記載のマルチチャネル音声信号コーディング方法を使用することによって取得されるコーディングされたビットストリームを含む、コンピュータ可読記憶媒体。
  26. コンピュータプログラムであって、前記コンピュータプログラムがコンピュータで実行されるときに、前記コンピュータが請求項1から11のいずれか一項に記載の方法を実行できるようにされる、コンピュータプログラム。
JP2023503019A 2020-07-17 2021-07-16 マルチチャネル音声信号コーディング方法及び装置 Pending JP2023534049A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010728902.2A CN114023338A (zh) 2020-07-17 2020-07-17 多声道音频信号的编码方法和装置
CN202010728902.2 2020-07-17
PCT/CN2021/106826 WO2022012675A1 (zh) 2020-07-17 2021-07-16 多声道音频信号的编码方法和装置

Publications (1)

Publication Number Publication Date
JP2023534049A true JP2023534049A (ja) 2023-08-07

Family

ID=79554491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023503019A Pending JP2023534049A (ja) 2020-07-17 2021-07-16 マルチチャネル音声信号コーディング方法及び装置

Country Status (8)

Country Link
US (1) US20230186924A1 (ja)
EP (1) EP4174852A4 (ja)
JP (1) JP2023534049A (ja)
KR (1) KR20230035383A (ja)
CN (1) CN114023338A (ja)
AU (1) AU2021310236A1 (ja)
BR (1) BR112023000667A2 (ja)
WO (1) WO2022012675A1 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100349207C (zh) * 2003-01-14 2007-11-14 北京阜国数字技术有限公司 高频耦合的伪小波5声道音频编/解码方法
US20040230423A1 (en) * 2003-05-16 2004-11-18 Divio, Inc. Multiple channel mode decisions and encoding
JPWO2008108077A1 (ja) * 2007-03-02 2010-06-10 パナソニック株式会社 符号化装置および符号化方法
CN101765880B (zh) * 2007-07-27 2012-09-26 松下电器产业株式会社 语音编码装置和语音编码方法
WO2014174344A1 (en) * 2013-04-26 2014-10-30 Nokia Corporation Audio signal encoder
CN104240712B (zh) * 2014-09-30 2018-02-02 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN106710600B (zh) * 2016-12-16 2020-02-04 广州广晟数码技术有限公司 多声道音频信号的去相关编码方法和装置
CN114898761A (zh) * 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
CN112639967A (zh) * 2018-07-04 2021-04-09 弗劳恩霍夫应用研究促进协会 使用信号白化作为预处理的多信号音频编码

Also Published As

Publication number Publication date
EP4174852A4 (en) 2024-01-03
BR112023000667A2 (pt) 2023-01-31
AU2021310236A1 (en) 2023-02-16
CN114023338A (zh) 2022-02-08
KR20230035383A (ko) 2023-03-13
WO2022012675A1 (zh) 2022-01-20
EP4174852A1 (en) 2023-05-03
US20230186924A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
KR102219752B1 (ko) 채널 간 시간 차를 추정하기 위한 장치 및 방법
JP6279569B2 (ja) マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置
KR102550424B1 (ko) 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램
EP2229677A1 (en) A method and an apparatus for processing an audio signal
WO2019170955A1 (en) Audio coding
KR102288111B1 (ko) 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치
KR20060109299A (ko) 멀티채널 오디오 신호에 대한 서브밴드별 공간 정보들의부호-복호화 방법
EP3818730A1 (en) Energy-ratio signalling and synthesis
US20230335141A1 (en) Spatial audio parameter encoding and associated decoding
KR102492791B1 (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
CN112823534A (zh) 信号处理设备和方法以及程序
JP2023534049A (ja) マルチチャネル音声信号コーディング方法及び装置
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
US11159885B2 (en) Optimized audio forwarding
KR20230153402A (ko) 다운믹스 신호들의 적응형 이득 제어를 갖는 오디오 코덱
WO2022247651A1 (zh) 多声道音频信号的编码方法和装置
EP4174855A1 (en) Coding/decoding method and apparatus for multi-channel audio signal
WO2020201619A1 (en) Spatial audio representation and associated rendering
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
RU2020130054A (ru) Представление пространственного звука посредством звукового сигнала и ассоциированных с ним метаданных

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240604