JP2022137052A - マルチチャネル信号の符号化方法およびエンコーダ - Google Patents

マルチチャネル信号の符号化方法およびエンコーダ Download PDF

Info

Publication number
JP2022137052A
JP2022137052A JP2022096616A JP2022096616A JP2022137052A JP 2022137052 A JP2022137052 A JP 2022137052A JP 2022096616 A JP2022096616 A JP 2022096616A JP 2022096616 A JP2022096616 A JP 2022096616A JP 2022137052 A JP2022137052 A JP 2022137052A
Authority
JP
Japan
Prior art keywords
current frame
channel
parameter
signal
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022096616A
Other languages
English (en)
Other versions
JP7443423B2 (ja
Inventor
▲澤▼新 ▲劉▼
Zexin Liu
▲興▼涛 ▲張▼
Xingtao Zhang
▲海▼▲ティン▼ 李
Haiting Li
磊 苗
Miao Lei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022137052A publication Critical patent/JP2022137052A/ja
Priority to JP2024024588A priority Critical patent/JP2024063059A/ja
Application granted granted Critical
Publication of JP7443423B2 publication Critical patent/JP7443423B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】マルチチャネル信号の符号化方法のチャネル間情報の精度をより確実にする方法及びエンコーダを提供する。【解決手段】方法は、現フレームのマルチチャネル信号を取得し、現フレームの初期マルチチャネルパラメータを決定し、現フレームの初期マルチチャネルパラメータと現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定する。差分パラメータは現フレームの初期マルチチャネルパラメータと前のK個のフレームのマルチチャネルパラメータとの間の差を表すために使用され、Kは1以上の整数である。方法はさらに、現フレームの差分パラメータおよび特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定し、現フレームのマルチチャネルパラメータに基づいてマルチチャネル信号を符号化する。【選択図】図5

Description

本出願は、2016年8月10日に中国特許庁に提出され、「MULTI-CHANNEL SIGNAL ENCODING METHOD AND ENCODER」と題された中国特許出願第201610652506.X号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
本出願は、オーディオ信号の符号化分野に関し、特にマルチチャネル信号の符号化方法およびエンコーダに関する。
生活の質の向上は、高品質オーディオに対する人々の要求の高まりを伴っている。モノラル信号と比較すると、ステレオは音源の方向性や分布感があり、明瞭度、了解度、音の即時性を向上させることができるため、人々に人気がある。
ステレオ処理技術は、主に、ミッド/サイド(Mid/Sid、MS)符号化、インテンシティステレオ(Intensity Stereo、IS)符号化、およびパラメトリックステレオ(Parametric Stereo、PS)符号化を含む。
MS符号化では、チャネル間コヒーレンスに基づいて2つの信号に対してミッド/サイド変換が行われ、チャネルのエネルギーは主にミッドチャネルに集中するため、チャネル間の冗長性が排除される。MS符号化技術では、符号化率の低減は入力信号間のコヒーレンスに依存する。左チャネル信号と右チャネル信号との間のコヒーレンスが悪い場合、左チャネル信号と右チャネル信号とは別々に送信される必要がある。
IS符号化では、人間の聴覚系がチャネルの高周波成分(例えば、2kHzを超える成分)間の位相差に敏感でないという特徴に基づいて、左チャネル信号および右チャネル信号の高周波成分が単純化される。しかしながら、IS符号化技術は高周波成分に対してのみ有効である。IS符号化技術が低周波数に拡張されると、深刻な人工雑音が発生する。
PS符号化は、バイノーラル聴覚モデルに基づく符号化方式である。図1に示すように(図1において、xLは左チャネルの時間領域信号であり、xRは右チャネルの時間領域信号である)、PS符号化プロセスにおいて、エンコーダ側はステレオ信号をモノラル信号および空間音場を記述するいくつかの空間パラメータ(または空間知覚パラメータ)に変換する。図2に示すように、モノラル信号と空間パラメータを取得した後、デコーダ側は、空間パラメータを参照してステレオ信号を復元する。MS符号化と比較して、PS符号化はより高い圧縮率を有する。したがって、PS符号化においては、比較的良好な音質が維持されることを前提として、より高い符号化利得を得ることができる。さらに、PS符号化は全オーディオ帯域幅で実行することができ、ステレオの空間知覚効果をうまく回復することができる。
PS符号化では、マルチチャネルパラメータ(空間パラメータとも呼ばれる)は、チャネル間コヒーレンス(Inter-channel Coherence、IC)、チャネル間レベル差(Inter-channel Level Difference、ILD)、チャネル間時間差(Inter-channel Time Difference、ITD)、全体位相差(Overall Phase Difference、OPD)、チャネル間位相差(Inter-channel Phase Difference、IPD)などを含む。ICはチャネル間相互相関またはコヒーレンスを表す。このパラメータは、音場範囲の知覚を決定し、オーディオ信号の空間感および音の安定性を向上させることができる。ILDは、ステレオ音源の水平方位を区別するために使用され、チャネル間のエネルギー差を表す。このパラメータはスペクトル全体の周波数成分に影響する。ITDとIPDは、音源の水平方向を表す空間パラメータであり、チャネル間の時間差と位相差を表す。ILD、ITD、およびIPDは、音源の位置に対する人間の耳の知覚を決定することができ、音場位置を効果的に決定するために使用され得、ステレオ信号の復元において重要な役割を果たす。
ステレオ録音プロセスでは、背景雑音、残響、および多人数会話などの要因の影響のために、既存のPS符号化方式に従って計算されたマルチチャネルパラメータは常に不安定である(マルチチャネルパラメータ値は頻繁かつ急激に変化する)。そのようなマルチチャネルパラメータに基づいて計算されたダウンミックス信号は不連続である。その結果、デコーダ側で得られるステレオの品質は悪くなる。例えば、デコーダ側で再生されるステレオの音響画像は頻繁にジッタし、そして聴覚凍結さえも生じる。
この出願は、PS符号化におけるマルチチャネルパラメータの安定性を改善し、それによってオーディオ信号の符号化品質を改善するための、マルチチャネル信号の符号化方法およびエンコーダを提供する。
第1の態様によれば、マルチチャネル信号符号化方法が提供され、この方法は、
現フレームのマルチチャネル信号を取得するステップと、
現フレームの初期マルチチャネルパラメータを決定するステップと、
現フレームの初期マルチチャネルパラメータと現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定するステップであって、差分パラメータは現フレームの初期マルチチャネルパラメータと前のK個のフレームのマルチチャネルパラメータとの間の差を表すために使用され、Kは1以上の整数である、ステップと、
現フレームの差分パラメータおよび特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップと、
現フレームのマルチチャネルパラメータに基づいてマルチチャネル信号を符号化するステップと
を含む。
現フレームのマルチチャネルパラメータは、現フレームの特性パラメータ、および現フレームと前のK個のフレームとの間の差を総合的に考慮して決定される。この決定方法はより適切である。現フレームに対して前のフレームのマルチチャネルパラメータを直接再利用する方法と比較して、この方法は、マルチチャネル信号のチャネル間情報の精度をより確実に保証することができる。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームの差分パラメータおよび特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップは、
差分パラメータが第1の事前設定条件を満たす場合、現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップ
を含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの間の差の絶対値であり、第1の事前設定条件は、差分パラメータが予め設定された第1の閾値より大きいということである。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの積であり、第1の事前設定条件は、差分パラメータが0以下であることである。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップは、
現フレームの相関パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップであって、相関パラメータは、現フレームと現フレームの前のフレームとの間の相関度を表すために使用される、ステップ
を含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、方法は、
現フレームのマルチチャネル信号内のターゲットチャネル信号と前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて相関パラメータを決定するステップ
をさらに含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームのマルチチャネル信号内のターゲットチャネル信号と前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて相関パラメータを決定するステップは、
現フレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータと前のフレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータとに基づいて相関パラメータを決定するステップであって、周波数領域パラメータは、ターゲットチャネル信号の周波数領域振幅値および周波数領域係数のうちの少なくとも一方である、ステップ
を含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、方法は、
現フレームのピッチ周期と前のフレームのピッチ周期とに基づいて相関パラメータを決定するステップ
をさらに含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップは、
特性パラメータが第2の事前設定条件を満たす場合、現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップであって、Tは1以上の整数である、ステップ
を含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップは、
前のT個のフレームのマルチチャネルパラメータを現フレームのマルチチャネルパラメータとして決定するステップであって、Tは1に等しい、ステップ
を含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップは、
前のT個のフレームのマルチチャネルパラメータの変化傾向に基づいて現フレームのマルチチャネルパラメータを決定するステップであって、Tは2以上である、ステップ
を含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、特性パラメータは、現フレームの相関パラメータおよびピーク対平均比パラメータのうちの少なくとも一方を含み、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、第2の事前設定条件は、特性パラメータが予め設定された閾値より大きいことである。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームの初期マルチチャネルパラメータは、現フレームの初期チャネル間コヒーレンスIC値、現フレームの初期チャネル時間差ITD値、現フレームの初期チャネル間位相差IPD値、現フレームの初期全体位相差OPD値、および現フレームの初期チャネル間レベル差ILD値、のうちの少なくとも1つを含む。
第1の態様を参照すると、第1の態様のいくつかの実装形態では、現フレームの特性パラメータは、現フレームのパラメータ、すなわち、相関パラメータ、ピーク対平均比パラメータ、信号対雑音比パラメータ、およびスペクトル傾斜パラメータ、のうちの少なくとも1つを含み、相関パラメータは、現フレームと前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、信号対雑音比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比を表すために使用され、スペクトル傾斜パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度を表すために使用される。
第2の態様によれば、エンコーダが提供され、エンコーダは、
現フレームのマルチチャネル信号を取得するように構成された取得ユニットと、
現フレームの初期マルチチャネルパラメータを決定するように構成された第1の決定ユニットと、
現フレームの初期マルチチャネルパラメータと現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定するように構成された第2の決定ユニットであって、差分パラメータは現フレームの初期マルチチャネルパラメータと前のK個のフレームのマルチチャネルパラメータとの間の差を表すために使用され、Kは1以上の整数である、第2の決定ユニットと、
現フレームの差分パラメータと特性パラメータとに基づいて現フレームのマルチチャネルパラメータを決定するように構成された第3の決定ユニットと、
現フレームのマルチチャネルパラメータに基づいてマルチチャネル信号を符号化するように構成された符号化ユニットと
を含む。
現フレームのマルチチャネルパラメータは、現フレームの特性パラメータ、および現フレームと前のK個のフレームとの間の差を総合的に考慮して決定される。この決定方法はより適切である。現フレームに対して前のフレームのマルチチャネルパラメータを直接再利用する方法と比較して、この方法は、マルチチャネル信号のチャネル間情報の精度をより確実に保証することができる。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、第3の決定ユニットは、差分パラメータが第1の事前設定条件を満たす場合、現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成される。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの間の差の絶対値であり、第1の事前設定条件は、差分パラメータが予め設定された第1の閾値より大きいということである。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの積であり、第1の事前設定条件は、差分パラメータが0以下であることである。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、第3の決定ユニットは、現フレームの相関パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用される。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、エンコーダは、
現フレームのマルチチャネル信号内のターゲットチャネル信号と前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて相関パラメータを決定するように構成された第4の決定ユニット
をさらに含む。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、第4の決定ユニットは、現フレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータと、前のフレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータとに基づいて相関パラメータを決定するように特に構成され、周波数領域パラメータは、ターゲットチャネル信号の周波数領域振幅値および周波数領域係数のうちの少なくとも一方である。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、エンコーダは、
現フレームのピッチ周期と前のフレームのピッチ周期とに基づいて相関パラメータを決定するように構成された第5の決定ユニット
をさらに含む。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、第3の決定ユニットは、特性パラメータが第2の事前設定条件を満たす場合、現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、Tは1以上の整数である。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、第3の決定ユニットは、前のT個のフレームのマルチチャネルパラメータを現フレームのマルチチャネルパラメータとして決定するように特に構成され、Tは1に等しい。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、第3の決定ユニットは、前のT個のフレームのマルチチャネルパラメータの変化傾向に基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、Tは2以上である。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、特性パラメータは、現フレームの相関パラメータおよびピーク対平均比パラメータのうちの少なくとも一方を含み、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、第2の事前設定条件は、特性パラメータが予め設定された閾値より大きいことである。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、現フレームの初期マルチチャネルパラメータは、現フレームの初期チャネル間コヒーレンスIC値、現フレームの初期チャネル時間差ITD値、現フレームの初期チャネル間位相差IPD値、現フレームの初期全体位相差OPD値、および現フレームの初期チャネル間レベル差ILD値、のうちの少なくとも1つを含む。
第2の態様を参照すると、第2の態様のいくつかの実装形態では、現フレームの特性パラメータは、現フレームのパラメータ、すなわち、相関パラメータ、ピーク対平均比パラメータ、信号対雑音比パラメータ、およびスペクトル傾斜パラメータ、のうちの少なくとも1つを含み、相関パラメータは、現フレームと前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、信号対雑音比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比を表すために使用され、スペクトル傾斜パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度を表すために使用される。
第3の態様によれば、メモリとプロセッサとを含むエンコーダが提供される。メモリはプログラムを格納するように構成され、プロセッサはプログラムを実行するように構成される。プログラムが実行されると、プロセッサは第1の態様における方法を実行する。
第4の態様によれば、コンピュータ可読媒体が提供される。コンピュータ可読媒体は、エンコーダによって実行されるプログラムコードを格納する。プログラムコードは、第1の態様における方法を実行するために使用される命令を含む。
本出願では、現フレームのマルチチャネルパラメータは、現フレームの特性パラメータ、および現フレームと前のK個のフレームとの間の差を総合的に考慮して決定される。この決定方法はより適切である。現フレームに対して前のフレームのマルチチャネルパラメータを直接再利用する方法と比較して、この方法は、マルチチャネル信号のチャネル間情報の精度をより確実に保証することができる。
従来技術におけるPS符号化のフローチャートである。 従来技術におけるPS復号のフローチャートである。 従来技術における時間領域ベースのITDパラメータ抽出方法の概略フローチャートである。 従来技術における周波数領域ベースのITDパラメータ抽出方法の概略フローチャートである。 本出願の一実施形態によるマルチチャネル信号符号化方法の概略フローチャートである。 図5のステップ540の詳細フローチャートである。 本出願の一実施形態によるマルチチャネル信号符号化方法の概略フローチャートである。 本出願の一実施形態によるエンコーダの概略ブロック図である。 本出願の一実施形態によるエンコーダの概略構造図である。
ステレオ信号はマルチチャネル信号とも呼ばれることに留意されたい。以上、マルチチャネル信号のマルチチャネルパラメータであるILD、ITD、およびIPDの機能と意味について簡単に説明した。理解を容易にするために、以下では、第1のマイクロフォンによって拾われた信号が第1チャネルの信号であり、第2のマイクロフォンによって拾われた信号が第2のチャネルの信号である例を用いてより詳細にILD、ITD、およびIPDについて説明する。
ILDは、第1チャネルの信号と第2チャネルの信号との間のエネルギー差を表す。通常、右チャネルのエネルギーに対する左チャネルのエネルギーの比率が計算され、その後、その比率が対数領域値に変換される。例えば、ILD値が0より大きい場合、それは第1チャネルの信号のエネルギーが第2チャネルの信号のエネルギーより高いことを示し;ILD値が0に等しい場合、それは第1チャネルの信号のエネルギーが第2チャネルの信号のエネルギーに等しいことを示し;あるいは、ILD値が0より小さい場合、それは第1チャネルの信号のエネルギーが第2チャネルの信号のエネルギーより小さいことを示している。別の例では、ILDが0未満である場合、それは第1チャネルの信号のエネルギーが第2チャネルの信号のエネルギーより高いことを示し;ILDが0に等しい場合、それは第1チャネルの信号のエネルギーが第2チャネルの信号のエネルギーに等しいことを示し;あるいは、ILDが0より大きい場合、それは第1チャネルの信号のエネルギーが第2チャネルの信号のエネルギーより小さいことを示している。前述の値は単なる例であり、ILD値と、第1チャネルの信号と第2チャネルの信号との間のエネルギー差との間の関係は経験または実際の要求に基づいて定義され得ることを理解されたい。
ITDは、第1チャネルの信号と第2チャネルの信号との間の時間差、すなわち、音源によって生成された音が第1のマイクロフォンに到達する時間と、音源によって生成された音が第2のマイクロフォンに到達する時間との間の差を表す。例えば、ITD値が0より大きい場合、それは、音源によって生成された音が第1のマイクロフォンに到達する時間が、音源によって生成された音が第2のマイクロフォンに到達する時間より早いことを示し;ITD値が0に等しい場合、それは、音源によって生成された音が第1のマイクロフォンと第2のマイクロフォンとに同時に到達することを示し;あるいは、ITD値が0未満である場合、それは、音源によって生成された音が第1のマイクロフォンに到達する時間が、音源によって生成された音が第2のマイクロフォンに到達する時間より遅いことを示している。別の例では、ITDが0未満である場合、それは、音源によって生成された音が第1のマイクロフォンに到達する時間が、音源によって生成された音が第2のマイクロフォンに到達する時間より早いことを示し;ITDが0に等しい場合、それは、音源によって生成された音が第1のマイクロフォンと第2のマイクロフォンとに同時に到達することを示し;あるいは、ITDが0より大きい場合、それは、音源によって生成された音が第1のマイクロフォンに到達する時間が、音源によって生成された音が第2のマイクロフォンに到達する時間より遅いことを示している。前述の値は単なる例であり、ITD値と、第1チャネルの信号と第2チャネルの信号との間の時間差との間の関係は経験または実際の要求に基づいて定義され得ることを理解されたい。
IPDは、第1チャネルの信号と第2チャネルの信号との間の位相差を表す。このパラメータは通常、デコーダ側でマルチチャネル信号の位相情報を復元するためにITDと一緒に使用される。
前述の説明から、既存のマルチチャネルパラメータ計算方法はマルチチャネルパラメータの不連続性を引き起こすことを理解することができる。理解を容易にするために、図3および図4を参照して、以下に、マルチチャネル信号が左チャネル信号および右チャネル信号を含み、マルチチャネルパラメータはITD値である例を用いて、既存のマルチチャネルパラメータ計算方法および既存のマルチチャネルパラメータ計算方法の欠点を詳細に説明する。
従来技術では、ITD値を複数の方法で計算することができる。例えば、ITD値は時間領域で計算されてもよく、またはITD値は周波数領域で計算されてもよい。
図3は、時間領域ベースのITD値計算方法の概略フローチャートである。図3の方法は、以下のステップを含む。
310:左チャネルの時間領域信号と右チャネルの時間領域信号とに基づいてITD値を計算する。
具体的には、時間領域相互相関関数を用いて、左チャネルの時間領域信号と右チャネルの時間領域信号とに基づいてITDパラメータを計算することができる。例えば、0≦i≦Tmaxの範囲内で計算が行われる:
Figure 2022137052000002
Figure 2022137052000003
の場合、T1はmax(Cn(i))に対応するインデックス値の逆数であり;そうでなければ、T1はmax(Cp(i))に対応するインデックス値であり、ここで、iは相互相関関数のインデックス値であり、xRは右チャネルの時間領域信号であり、xLは左チャネルの時間領域信号であり、Tmaxは異なるサンプリングレートにおける最大ITD値に対応し、Lengthはフレーム長である。
320:ITD値に対して量子化処理を実行する。
図4は、周波数領域ベースのITD値計算方法の概略フローチャートである。図4の方法は、以下のステップを含む。
410:左チャネルの周波数領域信号および右チャネルの周波数領域信号を得るために、左チャネルの時間領域信号および右チャネルの時間領域信号に対して時間周波数変換を実行する。
具体的には、時間周波数変換では、離散フーリエ変換(Discrete Fourier Transform、DFT)または修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)などの技術を使用することによって、時間領域信号を周波数領域信号に変換することができる。
例えば、DFT変換を用いて、入力された左チャネルの時間領域信号と右チャネルの時間領域信号に対して時間周波数変換を行ってもよい。具体的には、以下の式を用いてDFT変換を行うことができる:
Figure 2022137052000004
ここで、nは時間領域信号のサンプルのインデックス値であり、kは周波数領域信号の周波数ビンのインデックス値であり、Lは時間周波数変換長であり、x(n)は左チャネルの時間領域信号または右チャネルの時間領域信号である。
420:左チャネルの周波数領域信号と右チャネルの周波数領域信号とに基づいてITD値を計算する。
具体的には、周波数領域信号のL個の周波数ビン(Frequency Bin)を複数のサブバンドに分割することができる。b番目のサブバンドに含まれる周波数ビンは、Ab-1≦k≦Ab-1である。探索範囲:-Tmax≦j≦Tmax内では、振幅値を、以下の式を用いて計算することができる:
Figure 2022137052000005
この場合、b番目のサブバンドのITD値は、
Figure 2022137052000006
すなわち、上式に基づいて計算された最大値に対応するサンプルのインデックス値であり得る。
430:ITD値に対して量子化処理を実行する。
従来技術では、現フレームのマルチチャネル信号の相互相関係数のピーク値が比較的小さい場合、計算されたITD値は不正確であると考えられ得る。この場合、現フレームのITD値はゼロになる。背景雑音、残響、および多人数会話などの要因の影響により、既存のPS符号化方式に従って計算されたITD値は、ゼロになることが多い。その結果、ITD値が頻繁にかつ急激に変化し、このようなITD値に基づいて計算されたダウンミックス信号についてフレーム間の不連続性が生じ、結果としてマルチチャネル信号の音響品質が悪くなる。
マルチチャネルパラメータが頻繁かつ急激に変化するという問題を解決するために、実行可能な処理方法は次の通りである:現フレームの計算されたマルチチャネルパラメータが不正確であると考えられる場合、現フレームの前のフレームのマルチチャネルパラメータが再利用され得る。この処理方法では、マルチチャネルパラメータが頻繁かつ急激に変化するという問題を良好に解決することができる。しかしながら、この処理方法は以下の問題を引き起こす可能性がある:現フレームの信号品質が比較的良好である場合、現フレームの計算されたマルチチャネルパラメータは通常比較的正確である。この場合、処理方法が依然として使用されている場合、前のフレームのマルチチャネルパラメータは現フレームのマルチチャネルパラメータとして依然として再利用され得、現フレームの比較的正確なマルチチャネルパラメータは破棄される。その結果、マルチチャネル信号のチャネル間情報が不正確になる。
以下に、図5および図6を参照して、本出願の実施形態によるオーディオ信号の符号化方法について詳細に説明する。
図5は、本出願の一実施形態によるマルチチャネル信号符号化方法の概略フローチャートである。図5の方法は、以下のステップを含む。
510.現フレームのマルチチャネル信号を取得する。
本出願のこの実施形態では、マルチチャネル信号の量は特に限定されないことに留意されたい。具体的には、マルチチャネル信号は、デュアルチャネル信号、3チャネル信号、または3チャネルを超える信号であり得る。例えば、マルチチャネル信号は、左チャネル信号と右チャネル信号とを含むことができる。別の例では、マルチチャネル信号は、左チャネル信号、中間チャネル信号、右チャネル信号、および後チャネル信号を含み得る。
520.現フレームの初期マルチチャネルパラメータを決定する。
いくつかの実施形態では、現フレームの初期マルチチャネルパラメータは、マルチチャネル信号間の相関を表すために使用され得る。
いくつかの実施形態では、現フレームの初期マルチチャネルパラメータは、現フレームの初期IC値、現フレームの初期ITD値、現フレームの初期IPD値、現フレームの初期OPD値、現フレームの初期ILD値など、のうちの少なくとも1つを含む。
現フレームの初期マルチチャネルパラメータを、複数の方法で計算することができる。詳細は、従来技術を参照されたい。例えば、マルチチャネルパラメータはITD値である。ステップ520では、図3に示した時間領域ベースのITD値計算方法または図4の周波数領域ベースのITD値計算方法を使用することができる。あるいは、ハイブリッド領域(時間領域+周波数領域)ベースのITD値計算方法を、以下の式に基づいて使用することができる:
Figure 2022137052000007
ここで、Li(f)は左チャネルの周波数領域信号の周波数領域係数を表し、
Figure 2022137052000008
は右チャネルの周波数領域信号の周波数領域係数の共役を表し、arg max()は複数の値から最大値を選択することを意味し、IDFT()は逆離散フーリエ変換を表す。
530.現フレームの初期マルチチャネルパラメータと現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定し、ここで、差分パラメータは現フレームの初期マルチチャネルパラメータと前のK個のフレームのマルチチャネルパラメータとの間の差を表すために使用され、Kは1以上の整数である。
現フレームの前のK個のフレームは、符号化対象のオーディオ信号のすべてのフレームにおいて現フレームに近接した前のK個のフレームであることを理解されたい。例えば、符号化対象のオーディオ信号が10個のフレームを含み、K=1であると仮定すると、現フレームが10個のフレームのうち5番目のフレームである場合、現フレームの前のK個のフレームは10個のフレームのうちの4番目のフレームになる。別の例では、符号化対象のオーディオ信号が10個のフレームを含み、K=2であると仮定すると、現フレームが10個のフレームのうち7番目のフレームである場合、現フレームの前のK個のフレームは10個のフレームのうちの5番目のフレームと6番目のフレームになる。
特に明記しない限り、以下に現れる前のK個のフレームは現フレームの前のKフレームであり、以下に現れる前のフレームは現フレームの前のフレームである。
540.現フレームの差分パラメータおよび特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定する。
なお、マルチチャネルパラメータ(初期マルチチャネルパラメータを含む)は、数値の形で表現されてもよい。したがって、マルチチャネルパラメータは、マルチチャネルパラメータ値とも呼ばれる。
いくつかの実施形態では、現フレームの特性パラメータは、現フレームのモノラルパラメータを含み得る。モノラルパラメータは、現フレームのマルチチャネル信号内のチャネルの信号の特徴を表すために使用され得る。
いくつかの実施形態では、ステップ540において現フレームのマルチチャネルパラメータを決定することは、現フレームのマルチチャネルパラメータを取得するために初期マルチチャネルパラメータを修正することを含み得る。例えば、現フレームの特性パラメータは現フレームのモノラルパラメータである。ステップ540は、現フレームのマルチチャネルパラメータを取得するために、現フレームの差分パラメータおよびモノラルパラメータに基づいて現フレームの初期マルチチャネルパラメータを修正することを含み得る。
いくつかの実施形態では、現フレームの特性パラメータは、現フレームの相関パラメータ、ピーク対平均比パラメータ、信号対雑音比パラメータ、およびスペクトル傾斜パラメータのうちの少なくとも1つを含む。相関パラメータは、現フレームと前のフレームとの間の相関度を表すために使用される。ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用される。信号対雑音比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比を表すために使用される。スペクトル傾斜パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度またはスペクトルエネルギー変化傾向を表すために使用される。
550.現フレームのマルチチャネルパラメータに基づいてマルチチャネル信号を符号化する。
例えば、図1に示すモノラルオーディオ符号化、空間パラメータ符号化、およびビットストリーム多重化などの動作を実行することができる。具体的な符号化方式については、従来技術を参照されたい。
本出願のこの実施形態では、現フレームのマルチチャネルパラメータは、現フレームの特性パラメータ、および現フレームと前のK個のフレームとの間の差を総合的に考慮して決定される。この決定方法はより適切である。現フレームに対して前のフレームのマルチチャネルパラメータを直接再利用する方法と比較して、この方法は、マルチチャネル信号のチャネル間情報の精度をより確実に保証することができる。
以下に、ステップ540の実施例を詳細に説明する。
任意選択で、いくつかの実施形態では、ステップ540は、差分パラメータが第1の事前設定条件を満たす場合、現フレームのマルチチャネルパラメータを取得するために、現フレームの特性パラメータの値に基づいて現フレームの初期マルチチャネルパラメータの値を調整するステップを含み得る。
任意選択で、いくつかの実施形態では、ステップ540は、現フレームの特性パラメータが第1の事前設定条件を満たす場合、現フレームのマルチチャネルパラメータを取得するために、差分パラメータの値に基づいて現フレームの初期マルチチャネルパラメータの値を調整するステップを含み得る。
第1の事前設定条件は、1つの条件でもよく、または複数の条件の組み合わせでもよいことを理解されたい。さらに、第1の事前設定条件が満たされる場合、決定は他の条件に基づいてさらに実行され得る。すべての条件が満たされると、次のステップが実行される。
任意選択で、いくつかの実施形態では、図6に示すように、ステップ540は以下のサブステップを含み得る。
542.差分パラメータが第1の事前設定条件を満たしているかどうかを決定する。
544.差分パラメータが第1の事前設定条件を満たす場合、現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定する。
差分パラメータは複数の方法で定義され得ることを理解されたい。差分パラメータを定義する異なる方法は、異なる第1の事前設定条件に対応し得る。以下に、差分パラメータと、差分パラメータに対応する第1の事前設定条件について詳細に説明する。
任意選択で、いくつかの実施形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと前のフレームのマルチチャネルパラメータとの間の差、または差の絶対値であり得る。第1の事前設定条件は、差分パラメータが予め設定された第1の閾値より大きいことであり得る。第1の閾値は、目標値の0.3~0.7倍であってもよい。例えば、第1の閾値は、目標値の0.5倍であってもよい。目標値は、前のフレームのマルチチャネルパラメータと現フレームの初期マルチチャネルパラメータにおいて絶対値が大きい方のマルチチャネルパラメータである。
任意選択で、いくつかの実施形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと前のK個のフレームのマルチチャネルパラメータの平均値との間の差、または差の絶対値であり得る。第1の事前設定条件は、差分パラメータが予め設定された第1の閾値より大きいことであり得る。第1の閾値は、目標値の0.3~0.7倍であってもよい。例えば、第1の閾値は、目標値の0.5倍であってもよい。目標値は、前のフレームのマルチチャネルパラメータと現フレームの初期マルチチャネルパラメータにおいて絶対値が大きい方のマルチチャネルパラメータである。
任意選択で、いくつかの実施形態では、差分パラメータは現フレームの初期マルチチャネルパラメータと前のフレームのマルチチャネルパラメータとの積であってもよく、第1の事前設定条件は差分パラメータが0以下であることであってもよい。
以下に、ステップ544の特定の実施例を詳細に説明する。
任意選択で、いくつかの実施形態では、ステップ544は、現フレームの相関パラメータおよび/またはスペクトル傾斜パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップを含み得、ここで、相関パラメータは現フレームと前のフレームとの間の相関度を表すために使用され、スペクトル傾斜パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度またはスペクトルエネルギー変化傾向を表すために使用される。
任意選択で、いくつかの実施形態では、ステップ544は、現フレームの相関パラメータおよび/またはピーク対平均比パラメータに基づいて現フレームのマルチチャネルパラメータを決定するステップを含み得、ここで、相関パラメータは現フレームと前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用される。
以下に、現フレームの相関パラメータについて詳細に説明する。
具体的には、相関パラメータは、現フレームと前のフレームとの間の相関度を表すために使用され得る。現フレームと前のフレームとの間の相関度を、複数の方法で表すことができる。異なる表現方法は、相関パラメータを計算する異なる方法に対応し得る。以下は、特定の実施形態を参照して詳細な説明を提供する。
任意選択で、いくつかの実施形態では、現フレームと前のフレームとの間の相関度を、現フレームのマルチチャネル信号内のターゲットチャネル信号と前のフレームのマルチチャネル信号内のターゲットチャネル信号との間の相関度を用いて表すことができる。現フレームのターゲットチャネル信号は前のフレームのターゲットチャネル信号に対応することを理解されたい。具体的には、現フレームのターゲットチャネル信号が左チャネル信号である場合、前のフレームのターゲットチャネル信号は左チャネル信号であり;現フレームのターゲットチャネル信号が右チャネル信号である場合、前のフレームのターゲットチャネル信号は右チャネル信号であり;あるいは、現フレームのターゲットチャネル信号が左チャネル信号と右チャネル信号とを含む場合、前のフレームのターゲットチャネル信号は左チャネル信号と右チャネル信号とを含む。ターゲットチャネル信号は、ターゲットチャネル時間領域信号またはターゲットチャネル周波数領域信号であり得ることをさらに理解されたい。
例えば、ターゲットチャネル信号は周波数領域信号である。現フレームのマルチチャネル信号内のターゲットチャネル信号と前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて相関パラメータを決定するステップは、具体的には、現フレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータと前のフレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータとに基づいて相関パラメータを決定するステップであって、ターゲットチャネル信号の周波数領域パラメータは、ターゲットチャネル信号の周波数領域振幅値および/または周波数領域係数を含む、ステップを含み得る。
いくつかの実施形態では、ターゲットチャネル信号の周波数領域振幅値は、ターゲットチャネル信号のいくつかまたはすべてのサブバンドの周波数領域振幅値であり得る。例えば、ターゲットチャネル信号の周波数領域振幅値は、ターゲットチャネル信号の低周波数部分におけるサブバンドの周波数領域振幅値であり得る。
具体的には、例えば、ターゲットチャネル信号は、左チャネルの周波数領域信号である。左チャネルの周波数領域信号の低周波数部分がM個のサブバンドを含み、各サブバンドがN個の周波数領域振幅値を含むと仮定すると、現フレームおよび前のフレームのサブバンドの周波数領域振幅値の正規化相互相関値は、M個のサブバンドと1対1に対応するM個の正規化相互相関値を得るために、以下の式に基づいて計算され得る:
Figure 2022137052000009
ここで、|L(i*N+j)|は、現フレームの左チャネルの周波数領域信号の低周波数部分におけるi番目のサブバンドのj番目の周波数領域振幅値を表し、|L(-1)(i*N+j)|は、前のフレームの左チャネルの周波数領域信号の低周波数部分におけるi番目のサブバンドのj番目の周波数領域振幅値を表し、cor(i)は、M個のサブバンドにおけるi番目のサブバンドの正規化相互相関値を表す。
次に、M個の正規化相互相関値は、現フレームと前のフレームの相関パラメータとして決定され得る;あるいは、M個の正規化相互相関値の和またはM個の正規化相互相関値の平均値は、現フレームの相関パラメータとして決定され得る。
いくつかの実施形態では、周波数領域振幅値に基づいて相関パラメータを計算する前述の方法は、周波数領域係数に基づいて相関パラメータを計算する方法と置き換えられてもよい。
いくつかの実施形態では、周波数領域振幅値に基づいて相関パラメータを計算する前述の方法は、周波数領域係数の絶対値に基づいて相関パラメータを計算する方法と置き換えられてもよい。
現フレームのマルチチャネル信号は、現フレームの1つまたは複数のサブフレームのマルチチャネル信号であり得ることを理解されたい。同様に、前のフレームのマルチチャネル信号は、前のフレームの1つまたは複数のサブフレームのマルチチャネル信号であり得る。言い換えれば、相関パラメータは、現フレームのすべてのマルチチャネル信号および前のフレームのすべてのマルチチャネル信号に基づいて計算されてもよいし、またはの現フレームの1つまたは複数のサブフレームのマルチチャネル信号および前のフレームの1つまたは複数のサブフレームのマルチチャネル信号に基づいて計算されてもよい。
例えば、ターゲットチャネル信号は、左チャネルの時間領域信号と右チャネルの時間領域信号とを含む。各サンプルでの現フレームの左チャネルの時間領域信号および右チャネルの時間領域信号ならびに前のフレームの左チャネルの時間領域信号および右チャネルの時間領域信号の正規化相互相関値は、N個の正規化相互相関値を得るために、以下の式に基づいて計算され得、N個の正規化相互相関値は最大正規化相互相関値について検索される:
Figure 2022137052000010
ここで、L(n)は左チャネルの時間領域信号を表し、R(n)は右チャネルの時間領域信号を表し、Nは左チャネルの時間領域信号のサンプルの総数であり、Lは、右チャネルの時間領域信号のn番目のサンプルと左チャネルの時間領域信号のn番目のサンプルとの間のオフセットサンプルの数である。
いくつかの実施形態では、上記の式で計算された最大正規化相互相関値は、現フレームの相関パラメータとして使用され得る。
現フレームのマルチチャネル信号は、現フレームの1つまたは複数のサブフレームのマルチチャネル信号であり得ることを理解されたい。同様に、前のフレームのマルチチャネル信号は、前のフレームの1つまたは複数のサブフレームのマルチチャネル信号であり得る。例えば、サブフレームを単位として、上式に基づいて、複数のサブフレームと1対1に対応する複数の最大正規化相互相関値を計算してもよい。次に、複数の最大正規化相互相関値、複数の最大正規化相互相関値の和、または複数の最大正規化相互相関値の平均値のうちの1つまたは複数が、現フレームの相関パラメータとして使用される。
以上は、時間領域信号に基づいて相関パラメータを計算する方法を提供した。以下に、ピッチ周期に基づく相関パラメータの計算方法について詳細に説明する。
任意選択で、いくつかの実施形態では、現フレームと前のフレームとの間の相関度は、現フレームのピッチ周期と前のフレームのピッチ周期との間の相関度を使用することによって表すことができる。この場合、相関パラメータは、現フレームのピッチ周期と前のフレームのピッチ周期とに基づいて決定されてもよい。
いくつかの実施形態では、現フレームまたは前のフレームのピッチ周期は、現フレームまたは前のフレームの各サブフレームのピッチ周期を含み得る。
具体的には、現フレームのピッチ周期または現フレームの各サブフレームのピッチ周期、および前のフレームのピッチ周期または前のフレームの各サブフレームのピッチ周期は、既存のピッチ周期アルゴリズムに基づいて計算され得る。次に、現フレームのピッチ周期と前のフレームの各サブフレームのピッチ周期と間の偏差値、または現フレームの各サブフレームのピッチ周期と前のフレームの各サブフレームのピッチ周期との間の偏差値が計算される。次に、計算したピッチ周期偏差値が現フレームと前のフレームの相関パラメータとして使用され得る。
以下に、現フレームのピーク対平均比パラメータについて詳細に説明する。
現フレームのピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され得る。
例えば、マルチチャネル信号は、左チャネル信号と右チャネル信号とを含む。ピーク対平均比パラメータは、左チャネル信号のピーク対平均比であってもよく、または右チャネル信号のピーク対平均比であってもよく、または左チャネル信号のピーク対平均比と右チャネル信号のピーク対平均比との組み合わせであってもよい。
ピーク対平均比パラメータを、複数の方法で計算することができる。例えば、ピーク対平均比パラメータは、周波数領域信号の周波数領域振幅値に基づいて計算され得る。別の例では、ピーク対平均比パラメータは、周波数領域信号の周波数領域係数または周波数領域係数の絶対値に基づいて計算され得る。
いくつかの実施形態では、周波数領域信号の周波数領域振幅値は、周波数領域信号のいくつかまたはすべてのサブバンドの周波数領域振幅値であり得る。例えば、周波数領域信号の周波数領域振幅値は、周波数領域信号の低周波数部分におけるサブバンドの周波数領域振幅値であり得る。
一例として、左チャネルの周波数領域信号が使用される。左チャネルの周波数領域信号の低周波数部分がM個のサブバンドを含み、各サブバンドがN個の周波数領域振幅値を含むと仮定すると、M個のサブバンドと1対1に対応するM個のピーク対平均比を得るために、各サブバンドのN個の周波数領域振幅値のピーク対平均比を計算することができる。次に、M個のピーク対平均比、M個のピーク対平均比の合計、またはM個のピーク対平均比の平均値が、現フレームのピーク対平均比パラメータとして使用される。各サブバンドのピーク対平均比を計算する過程において、計算の複雑さを減らすために、各サブバンドのN個の周波数領域振幅値の合計に対する各サブバンドの最大周波数領域振幅値の比は、ピーク対平均比として使用され得ることに留意されたい。ピーク対平均比が予め設定された閾値と比較されるとき、最大周波数領域振幅値は、予め設定された閾値と各サブバンドのN個の周波数領域振幅値の合計との積と比較されてもよく、または最大周波数領域振幅値は、予め設定された閾値と各サブバンドのN個の周波数領域振幅値の平均値との積と比較されてもよい。
いくつかの実施形態では、現フレームのマルチチャネル信号は、現フレームの1つまたは複数のサブフレームのマルチチャネル信号であり得る。
現フレームの特性パラメータは、現フレームの信号対雑音比パラメータをさらに含み得る。以下に、信号対雑音比パラメータについて詳細に説明する。
現フレームの信号対雑音比パラメータを使用して、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比または信号対雑音比の特徴を表すことができる。
現フレームの信号対雑音比パラメータは1つまたは複数のパラメータを含み得ることを理解されたい。特定のパラメータ選択方法は、本出願のこの実施形態において限定されない。例えば、現フレームの信号対雑音比パラメータは、マルチチャネル信号のサブバンド信号対雑音比、修正されたサブバンド信号対雑音比、セグメント信号対雑音比、修正されたセグメント信号対雑音比、フルバンド信号対雑音比、および修正されたフルバンド信号対雑音比、ならびにマルチチャネル信号の信号対雑音比の特徴を表すことができる別のパラメータのうちの少なくとも1つを含み得る。
信号対雑音比パラメータを決定する方法は、本出願のこの実施形態において特に限定されないことに留意されたい。
例えば、現フレームの信号対雑音比パラメータは、マルチチャネル信号内のすべての信号を使用することによって計算され得る。
別の例では、現フレームの信号対雑音比パラメータは、マルチチャネル信号内のいくつかの信号を使用することによって計算され得る。
別の例では、現フレームの信号対雑音比パラメータは、マルチチャネル信号内の任意のチャネルの信号を適応的に選択することによって計算され得る。
別の例では、最初にマルチチャネル信号を表すデータに対して加重平均を実行して新しい信号を形成し、次に現フレームの信号対雑音比パラメータを新しい信号の信号対雑音比を用いて表すことができる。
現フレームの特性パラメータは、現フレームのスペクトル傾斜パラメータをさらに含み得る。以下に、スペクトル傾斜パラメータについて詳細に説明する。
現フレームのスペクトル傾斜パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度またはスペクトルエネルギー変化傾向を表すために使用され得る。より大きなスペクトル傾斜度はより弱い信号発声を示し、より小さなスペクトル傾斜度はより強い信号発声を示すことを理解されたい。
以下に、ステップ544において現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定する方法を詳細に説明する。
任意選択で、いくつかの実施形態では、現フレームの特性パラメータに基づいて、現フレームに対して前のフレームのマルチチャネルパラメータを再利用するかどうかを決定することができる。
例えば、特性パラメータが第2の事前設定条件を満たす場合、前のフレームのマルチチャネルパラメータは現フレームについて再利用される。あるいは、特性パラメータが第2の事前設定条件を満たさない場合、現フレームの初期マルチチャネルパラメータが現フレームのマルチチャネルパラメータとして使用される。特性パラメータが第2の事前設定条件を満たさない場合に使用される処理方法は、本出願のこの実施形態において特に限定されないことを理解されたい。例えば、初期マルチチャネルパラメータは他の既存の方法で修正されてもよい。
任意選択で、いくつかの実施形態では、現フレームの特性パラメータに基づいて、前のT個のフレームのマルチチャネルパラメータの変化傾向に基づいて現フレームのマルチチャネルパラメータを決定するかどうかを決定することができ、ここで、Tは2以上である。
例えば、特性パラメータが第2の事前設定条件を満たす場合、現フレームのマルチチャネルパラメータは、前のT個のフレームのマルチチャネルパラメータの変化傾向に基づいて決定される。あるいは、特性パラメータが第2の事前設定条件を満たさない場合、現フレームの初期マルチチャネルパラメータが現フレームのマルチチャネルパラメータとして使用される。特性パラメータが第2の事前設定条件を満たさない場合に使用される処理方法は、本出願のこの実施形態において特に限定されないことを理解されたい。例えば、初期マルチチャネルパラメータは他の既存の方法で修正されてもよい。
第2の事前設定条件は、1つの条件でもよく、または複数の条件の組み合わせでもよいことを理解されたい。さらに、第2の事前設定条件が満たされる場合、決定は他の条件に基づいてさらに実行され得る。すべての条件が満たされると、次のステップが実行される。
現フレームの前のT個のフレームは、符号化対象のオーディオ信号のすべてのフレームにおいて現フレームに近接した前のT個のフレームであることを理解されたい。例えば、符号化対象のオーディオ信号が10個のフレームを含み、T=2であり、かつ現フレームが10個のフレームのうち5番目のフレームである場合、現フレームの前のT個のフレームは10個のフレームのうちの3番目のフレームと4番目のフレームになる。
現フレームのマルチチャネルパラメータは、前のT個のフレームのマルチチャネルパラメータの変化傾向に基づいて複数の方法で決定され得ることを理解されたい。例えば、マルチチャネルパラメータはITD値である。現フレームのITD値ITD[i]は、以下の方法で計算され得る:
ITD[i]=ITD[i-1]+delta、ここで
delta=ITD[i-1]-ITD[i-2]であり、ITD[i-1]は現フレームの前のフレームのITD値を表し、ITD[i-2]は現フレームの前のフレームの前のフレームのITD値を表す。
以下に、上述した第2の事前設定条件について詳細に説明する。
第2の事前設定条件を複数の方法で定義することができ、第2の事前設定条件の設定は特性パラメータの選択に関連することを理解されたい。これは、本出願のこの実施形態において特に限定されない。
例えば、特性パラメータは相関パラメータおよび/またはピーク対平均比パラメータであり、相関パラメータはサブバンドにおける現フレームのマルチチャネル信号と前のフレームのマルチチャネル信号との相関値の平均値であり、ピーク対平均比パラメータは、サブバンド内の現フレームのマルチチャネル信号のピーク対平均比の平均値である。第2の事前設定条件は、以下の条件のうちの1つまたは複数であり得る:
相関パラメータは第2の閾値よりも大きく、第2の閾値の値の範囲は、例えば0.6~0.95であり得、例えば、第2の閾値は0.85であり得る;
ピーク対平均比パラメータは第3の閾値よりも大きく、第3の閾値の値の範囲は、例えば0.4~0.8であり得、例えば、第3の閾値は0.6であり得る;
相関パラメータは第4の閾値より大きく、サブバンド内の相関値は第5の閾値より大きく、第4の閾値の値の範囲は0.6~0.85であり得、例えば第4の閾値は0.7であり得;第5の閾値の値の範囲は、0.8~0.95であり得、例えば、第5の閾値は、0.9であり得る;
ピーク対平均比パラメータは第6の閾値よりも大きく、サブバンド内のピーク対平均比は第7の閾値よりも大きく、第6の閾値の値の範囲は0.4~0.75であり得、例えば、第6の閾値は0.55であり得、第7の閾値の値の範囲は、0.6~0.9であり得、例えば、第7の閾値は0.7であり得る。
第2の閾値は第4の閾値より大きくてもよく、第4の閾値は第5の閾値より小さくてもよく;または、第3の閾値は第6の閾値より大きくてもよく、第6の閾値は第7の閾値より小さくてもよい。
なお、特性パラメータがピーク対平均比パラメータを含み、かつ第2の事前設定条件はピーク対平均比パラメータが予め設定された閾値以上であることを含む場合、ピーク対平均比パラメータと予め設定された閾値との間の値関係を決定する必要がある。計算を単純化するために、ピーク対平均比パラメータを予め設定された閾値と比較するプロセスは、ピーク対平均比のピーク値と目標値との間の比較に変換されてもよい。目標値は、予め設定された閾値とピーク対平均比の平均値との積でもよいし、あるいは予め設定された閾値とピーク対平均比を計算するために使用されるパラメータの合計との積でもよい。例えば、ピーク対平均比を計算するために使用されるパラメータはサブバンドの周波数領域振幅値であり、各サブバンドはN個の周波数領域振幅値を含む。ピーク対平均比が予め設定された閾値と比較されるとき、各サブバンドの最大周波数領域振幅値は、予め設定された閾値と各サブバンドのN個の周波数領域振幅値の合計との積と比較され得るか、または、各サブバンドの最大周波数領域振幅値は、予め設定された閾値と各サブバンドのN個の周波数領域振幅値の平均値との積と比較され得る。
以下に、図7の例を参照しながら、本出願の実施形態についてさらに詳細に説明する。図7では、主に、現フレームのマルチチャネル信号が、左チャネル信号と右チャネル信号とを含み、マルチチャネルパラメータがITD値である例を用いて説明する。図7の例は、当業者が本出願の実施形態を理解するのを助けることを単に意図するものであり、本出願の実施形態を例として挙げられた特定の値または特定のシナリオに限定することを意図するものではない。明らかに、当業者は、図7に提供された例に基づいて様々な等価の修正または変形を実行することができ、そのような修正または変形もまた本出願の実施形態の範囲内に含まれる。
図7は、本出願の一実施形態によるマルチチャネル信号符号化方法の概略フローチャートである。図7に示す処理ステップまたは動作は単なる例であり、他の動作または図7の動作の変形形態を本出願のこの実施形態でさらに実行することができることを理解されたい。さらに、図7のステップは、図7に示すものとは異なるシーケンスで実行されてもよく、図7のいくつかの動作は実行される必要がない場合がある。
図7の方法は、以下のステップを含む。
710:左チャネルの周波数領域信号および右チャネルの周波数領域信号を得るために、現フレームの左チャネルの時間領域信号および右チャネルの時間領域信号に対して時間周波数変換を実行する。
720:ターゲット周波数領域信号を得るために、左チャネルの周波数領域信号および右チャネルの周波数領域信号に対して正規化相互相関演算を実行する。
730:ターゲット時間領域信号を取得するために、ターゲット周波数領域信号に対して周波数時間変換を実行する。
740:ターゲット時間領域信号に基づいて現フレームの初期ITD値を決定する。
ステップ720~740に記載の処理は、以下の式を用いて表すことができる:
Figure 2022137052000011
ここで、Li(f)は左チャネルの周波数領域信号の周波数領域係数を表し、
Figure 2022137052000012
は右チャネルの周波数領域信号の周波数領域係数の共役を表し、arg max()は複数の値から最大値を選択することを意味し、IDFT()は逆離散フーリエ変換を表す。
750:現フレームのITD値を計算するために、きめ細かいITD制御を実行する。
760:現フレームのITD値に基づいて、左チャネルの時間領域信号と右チャネルの時間領域信号に対して位相オフセットを実行する。
770:左チャネルの時間領域信号と右チャネルの時間領域信号に対してダウンミックスを実行する。
ステップ760および770の実施については、従来技術を参照されたい。詳細はここでは説明しない。
ステップ750は、図5のステップ530に対応する。ステップ530で提供された任意の実施例はステップ750に使用されてもよい。以下にいくつかの任意選択の実施例を挙げる。
実施例1:
ステップ1:現フレームの左チャネルの周波数領域信号の低周波数部分をM個のサブバンドに分割し、各サブバンドはN個の周波数領域振幅値を含む。
ステップ2:以下の式に基づいて現フレームと前のフレームとの相関パラメータを計算する。
Figure 2022137052000013
ここで、|L(i*N+j)|は、現フレームの左チャネルの周波数領域信号の低周波数部分におけるi番目のサブバンドのj番目の周波数領域振幅値を表し、|L(-1)(i*N+j)|は、前のフレームの左チャネルの周波数領域信号の低周波数部分におけるi番目のサブバンドのj番目の周波数領域振幅値を表し、cor(i)は、M個のサブバンドにおけるi番目のサブバンドに対応する正規化相互相関値を表す。
現フレームと前のフレームとの相関パラメータは、ステップ2の計算によって得られることを理解されたい。相関パラメータは、各サブバンドの正規化相互相関値でもよいし、サブバンドの正規化相互相関値の平均値でもよい。
ステップ3:現フレームの各サブバンドのピーク対平均比を計算する。
ステップ2およびステップ3は同時に実行されてもよく、または順次実行されてもよいことを理解されたい。また、各サブバンドの周波数領域振幅値のピーク値と各サブバンドの周波数領域振幅値の平均値との比を用いて、あるいは、各サブバンドの周波数領域振幅値のピーク値とサブバンドの周波数領域振幅値の合計との比を用いて、各サブバンドのピーク対平均比を表すことができる。これにより計算の複雑さを軽減できる。
現フレームのマルチチャネル信号のピーク対平均比パラメータはステップ3の計算を通じて取得され得ることを理解されたい。ピーク対平均比パラメータは、各サブバンドのピーク対平均比、サブバンドのピーク対平均比の合計、またはサブバンドのピーク対平均比の平均値であり得る。
ステップ4:現フレームの初期ITD値および前のフレームのITD値が第1の事前設定条件を満たす場合、現フレームの相関パラメータおよび/またはピーク対平均比パラメータに基づいて、現フレームについて前のフレームのITD値を再利用するかどうかを決定する。
例えば、第1の事前設定条件は次の通りであり得る:
前のフレームのITD値と現フレームの初期ITD値との積が0である;
前のフレームのITD値と現フレームの初期ITD値との積が負である;または
前のフレームのITD値と現フレームの初期ITD値との間の差の絶対値が、目標値の半分よりも大きく、目標値は、その絶対値が前のフレームのITD値と現フレームの初期ITD値とのうちでより大きい方のITD値である。
第1の事前設定条件は、1つの条件でもよく、または複数の条件の組み合わせでもよいことに留意されたい。さらに、第1の事前設定条件が満たされる場合、決定は他の条件に基づいてさらに実行され得る。すべての条件が満たされると、次のステップが実行される。
現フレームの相関パラメータおよび/またはピーク対平均比パラメータに基づいて、現フレームについて前のフレームのITD値を再利用するかどうかを決定するステップは、具体的には、現フレームの相関パラメータおよび/またはピーク対平均比パラメータが、第2の事前設定条件を満たすかどうかを決定するステップ;および、現フレームの相関パラメータおよび/またはピーク対平均比パラメータが第2の事前設定条件を満たす場合、現フレームについて前のフレームのITD値を再利用するステップであり得る。
例えば、第2の事前設定条件は、次の通りであり得る:
サブバンドの正規化相互相関値の平均値が第1の閾値より大きい;
サブバンドのピーク対平均比の平均値が第2の閾値より大きい;
サブバンドの正規化相互相関値の平均値が第3の閾値よりも大きく、サブバンドの正規化相互相関値が第4の閾値よりも大きい;または
サブバンドのピーク対平均比の平均値が第5の閾値より大きく、サブバンドのピーク対平均比が第6の閾値より大きい。
第1の閾値が第3の閾値より大きく、第3の閾値は第4の閾値より小さい;または、第2の閾値が第5の閾値よりも大きく、第5の閾値は第6の閾値よりも小さい。
第2の事前設定条件は、1つの条件でもよく、または複数の条件の組み合わせでもよいことに留意されたい。さらに、第2の事前設定条件が満たされる場合、決定は他の条件に基づいてさらに実行され得る。すべての条件が満たされると、次のステップが実行される。
前述の現フレームの左チャネルの周波数領域信号は、現フレームの1つまたは複数のサブフレームの左チャネルの周波数領域信号であってもよく、前述の前のフレームの左チャネルの周波数領域信号は、前のフレームの1つまたは複数のサブフレームの左チャネルの周波数領域信号であってもよいことに留意されたい。言い換えれば、相関パラメータは、現フレームのパラメータと前のフレームのパラメータとを用いて計算されてもよいし、現フレームの1つまたは複数のサブフレームのパラメータと、前のフレームの1つまたは複数のサブフレームのパラメータとのパラメータとを用いて計算されてもよい。同様に、ピーク対平均比パラメータは、現フレームのパラメータを用いて計算されてもよく、または現フレームの1つまたは複数のサブフレームのパラメータを用いて計算されてもよい。
実施例2:
実施例2と前述の実施例との違いは、前述の実施例では、現フレームと前のフレームとの相関パラメータは、サブバンドの周波数領域振幅値に基づいて計算されるが、実施例2では、現フレームと前のフレームとの相関パラメータは、サブバンドの周波数領域係数または周波数領域係数の絶対値に基づいて計算されることである。実施例2の具体的な実施プロセスは、前述の実施例の実施プロセスと同様である。詳細はここでは説明しない。
実施例3:
実施例3と前述の実施例との違いは、前述の実装例では、ピーク対平均比パラメータは、サブバンドの周波数領域振幅値に基づいて計算されるが、実施例3では、ピーク対平均比パラメータは、サブバンドの周波数領域係数の絶対値に基づいて計算されることである。実施例3の具体的な実施プロセスは、前述の実施例の実施プロセスと同様である。詳細はここでは説明しない。
実施例4:
実施例4と前述の実施例との違いは、前述の実施例では、相関パラメータおよび/またはピーク対平均比パラメータは左チャネルの周波数領域信号に基づいて計算されるが、実施例4では、相関パラメータおよび/またはピーク対平均比パラメータは、右チャネルの周波数領域信号に基づいて計算されることである。実施例4の具体的な実施プロセスは、前述の実施例の実施プロセスと同様である。詳細はここでは説明しない。
実施例5:
実施例5と前述の実施例との違いは、前述の実施例では、相関パラメータおよび/またはピーク対平均比パラメータは、左チャネルの周波数領域信号または右チャネルの周波数領域信号に基づいて計算されるが、実施例5では、相関パラメータおよび/またはピーク対平均比パラメータは、左チャネルの周波数領域信号および右チャネルの周波数領域信号に基づいて計算されることである。
特定の実施中に、相関パラメータおよび/またはピーク対平均比パラメータ群が左チャネルの周波数領域信号に基づいて計算され得、次に相関パラメータおよび/またはピーク対平均比パラメータ群が、右チャネルの周波数領域信号を使用して計算される。次に、2つのパラメータ群のうち大きい方を最終相関パラメータおよび/またはピーク対平均比パラメータとして選択することができる。実施例5の他のプロセスは、前述の実施例のプロセスと同様である。詳細はここでは説明しない。
実施例6:
実施例6と前述の実施例との違いは、前述の実施例では、相関パラメータは周波数領域信号に基づいて計算されるが、実施例6では、相関パラメータは時間領域信号に基づいて計算されることである。
具体的には、現フレームと前のフレームの相関パラメータは、以下の式を用いて計算され得る:
Figure 2022137052000014
ここで、L(n)は左チャネルの時間領域信号を表し、R(n)は右チャネルの時間領域信号を表し、Nは左チャネルの時間領域信号のサンプルの総数であり、Lは、右チャネル信号のn番目のサンプルと左チャネルのn番目のサンプルとの間のオフセットサンプルの数である。
本明細書における左チャネルの時間領域信号および右チャネルの時間領域信号は、現フレームのすべての左チャネル信号および右チャネル信号であってもよく、または現フレームの1つまたは複数のサブフレームの左チャネル信号および右チャネル信号であってもよいことを理解されたい。
実施例6の別の実施プロセスは、前述の実施例の実施プロセスと同様である。詳細はここでは説明しない。
実施例7:
実施例7と前述の実施例との間の違いは、前述の実施例では、現フレームについて前のフレームのITD値を再利用するかどうかを決定する必要があるが、実施例7では、Tは2以上の整数である場合に現フレームの前のT個のフレームのITD値の変化傾向に基づいて現フレームのITD値を推定するかどうかを決定する必要があることである。
現フレームのITD値ITD[i]は、以下の方法で計算され得る:
ITD[i]=ITD[i-1]+delta、ここで
delta=ITD[i-1]-ITD[i-2]であり、ITD[i-1]は現フレームの前のフレームのITD値を表し、ITD[i-2]は現フレームの前のフレームの前のフレームのITD値を表す。
実施例8:
実施例8と前述の実施例との違いは、前述の実施例では、現フレームと前のフレームの相関パラメータは、現フレームと前のフレームの時間/周波数信号に基づいて計算されるが、実施例8では、相関パラメータは、現フレームと前のフレームのピッチ周期に基づいて計算されることである。
具体的には、現フレームのピッチ周期および対応する前のフレームのピッチ周期は、既存のピッチ周期アルゴリズムに基づいて計算され得;現フレームのピッチ周期と前のフレームのピッチ周期との間の偏差が計算され;および、現フレームのピッチ周期と前のフレームのピッチ周期との間の偏差は、現フレームと前のフレームとの相関パラメータとして使用される。
現フレームのピッチ周期と前のフレームのピッチ周期との間の偏差は、現フレームの全ピッチ周期と前のフレームの全ピッチ周期との間の偏差であってもよく、または現フレームの1つまたは複数のサブフレームのピッチ周期と前のフレームの1つまたは複数のサブフレームのピッチ周期との間の偏差であってもよく、または現フレームのいくつかのサブフレームのピッチ周期と前のフレームのいくつかのサブフレームのピッチ周期との間の偏差の合計であってもよく、または、現フレームのいくつかのサブフレームのピッチ周期と前のフレームのいくつかのサブフレームのピッチ周期との間の偏差の平均値であってもよいことを理解されたい。
実施例9:
実施例9と前述の実施例との違いは、前述の実施例では、現フレームのITD値は、相関パラメータおよび/またはピーク対平均比パラメータに基づいて決定されるが、実施例9では、現フレームのITD値は、相関パラメータおよび/またはスペクトル傾斜パラメータに基づいて決定されることである。
この場合、第2の事前設定条件は、現フレームと前のフレームとの相関パラメータの相関値が閾値よりも大きい、および/またはスペクトル傾斜パラメータのスペクトル傾斜値が閾値よりも小さいことであり得る(より大きなスペクトル傾斜値はより弱い信号発声を示し、より小さなスペクトル傾斜値はより強い信号発声を示すことを理解されたい)。
実施例9の他のプロセスは、前述の実施例のプロセスと同様である。詳細はここでは説明しない。
実施例10:
実施例10と前述の実施例との違いは、前述の実施例では、現フレームのITD値が計算されるが、実施例10では、現フレームのIPD値が計算されることである。ステップ710から770におけるITD値関連の計算プロセスは、IPD値関連のプロセスと取り替えられる必要があることを理解されたい。IPD値の計算方法については、従来技術を参照されたい。詳細はここでは説明しない。
実施例10の他のプロセスは、前述の実施例のプロセスとほぼ同様である。詳細はここでは説明しない。
前述の10個の実施例は説明のための単なる例であることを理解されたい。実際には、これらの実施例は、新しい実施例を得るために互いに交換または結合され得る。簡潔さのために、例は、本明細書において一つずつ列挙されない。
以下に、本出願の装置の実施形態を説明する。装置の実施形態は、前述の方法を実行するために使用され得る。したがって、詳細に説明されていない部分については、前述の方法の実施形態を参照されたい。
図8は、本出願の一実施形態によるエンコーダの概略ブロック図である。図8のエンコーダ800は、
現フレームのマルチチャネル信号を取得するように構成された取得ユニット810と、
現フレームの初期マルチチャネルパラメータを決定するように構成された第1の決定ユニット820と、
現フレームの初期マルチチャネルパラメータと現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定するように構成された第2の決定ユニット830であって、差分パラメータは現フレームの初期マルチチャネルパラメータと前のK個のフレームのマルチチャネルパラメータとの間の差を表すために使用され、Kは1以上の整数である、第2の決定ユニット830と、
現フレームの差分パラメータと特性パラメータとに基づいて現フレームのマルチチャネルパラメータを決定するように構成された第3の決定ユニット840と、
現フレームのマルチチャネルパラメータに基づいてマルチチャネル信号を符号化するように構成された符号化ユニット850と
含む。
本出願のこの実施形態では、現フレームのマルチチャネルパラメータは、現フレームの特性パラメータ、および現フレームと前のK個のフレームとの間の差を総合的に考慮して決定される。この決定方法はより適切である。現フレームに対して前のフレームのマルチチャネルパラメータを直接再利用する方法と比較して、この方法は、マルチチャネル信号のチャネル間情報の精度をより確実に保証することができる。
任意選択で、いくつかの実施形態では、第3の決定ユニット840は、差分パラメータが第1の事前設定条件を満たす場合、現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成される。
任意選択で、いくつかの実施形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの間の差の絶対値であり、第1の事前設定条件は、差分パラメータが予め設定された第1の閾値より大きいということである。
任意選択で、いくつかの実施形態では、差分パラメータは現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの積であり、第1の事前設定条件は差分パラメータが0以下であることである。
任意選択で、いくつかの実施形態では、第3の決定ユニット840は、現フレームの相関パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用される。
任意選択で、いくつかの実施形態では、第3の決定ユニット840は、現フレームのピーク対平均比パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用される。
任意選択で、いくつかの実施形態では、第3の決定ユニット840は、現フレームの相関パラメータおよびピーク対平均比パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用される。
任意選択で、いくつかの実施形態では、エンコーダは、
現フレームのマルチチャネル信号内のターゲットチャネル信号と前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて相関パラメータを決定するように構成された第4の決定ユニット
をさらに含む。
任意選択で、いくつかの実施形態では、第4の決定ユニットは、現フレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータと、前のフレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータとに基づいて相関パラメータを決定するように特に構成され、周波数領域パラメータは、ターゲットチャネル信号の周波数領域振幅値および周波数領域係数のうちの少なくとも一方である。
任意選択で、いくつかの実施形態では、エンコーダは、
現フレームのピッチ周期と前のフレームのピッチ周期とに基づいて相関パラメータを決定するように構成された第5の決定ユニット
をさらに含む。
任意選択で、いくつかの実施形態では、第3の決定ユニット840は、特性パラメータが第2の事前設定条件を満たす場合、現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、Tは1以上の整数である。
任意選択で、いくつかの実施形態では、第3の決定ユニット840は、前のT個のフレームのマルチチャネルパラメータを現フレームのマルチチャネルパラメータとして決定するように特に構成され、Tは1に等しい。
任意選択で、いくつかの実施形態では、第3の決定ユニット840は、前のT個のフレームのマルチチャネルパラメータの変化傾向に基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、Tは2以上である。
任意選択で、いくつかの実施形態では、特性パラメータは、現フレームの相関パラメータおよび/またはピーク対平均比パラメータを含み、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、第2の事前設定条件は、特性パラメータが予め設定された閾値より大きいことである。
任意選択で、いくつかの実施形態では、現フレームの初期マルチチャネルパラメータは、現フレームの初期チャネル間コヒーレンスIC値、現フレームの初期チャネル時間差ITD値、現フレームの初期チャネル間位相差IPD値、現フレームの初期全体位相差OPD値、および現フレームの初期チャネル間レベル差ILD値、のうちの少なくとも1つを含む。
任意選択で、いくつかの実施形態では、現フレームの特性パラメータは、現フレームのパラメータ、すなわち、相関パラメータ、ピーク対平均比パラメータ、信号対雑音比パラメータ、およびスペクトル傾斜パラメータ、のうちの少なくとも1つを含み、相関パラメータは、現フレームと前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、信号対雑音比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比を表すために使用され、スペクトル傾斜パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度を表すために使用される。
図9は、本出願の一実施形態によるエンコーダの概略ブロック図である。図9のエンコーダ900は、
プログラムを格納するように構成されたメモリ910と
プログラムを実行するように構成されたプロセッサ920と
を含む。プログラムが実行されると、プロセッサ920は、現フレームのマルチチャネル信号を取得し;現フレームの初期マルチチャネルパラメータを決定し;現フレームの初期マルチチャネルパラメータと現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定し、差分パラメータは現フレームの初期マルチチャネルパラメータと前のK個のフレームのマルチチャネルパラメータとの間の差を表すために使用され、Kは1以上の整数であり;現フレームの差分パラメータおよび特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定し;現フレームのマルチチャネルパラメータに基づいてマルチチャネル信号を符号化する、ように構成される。
本出願のこの実施形態では、現フレームのマルチチャネルパラメータは、現フレームの特性パラメータ、および現フレームと前のK個のフレームとの間の差を総合的に考慮して決定される。この決定方法はより適切である。現フレームに対して前のフレームのマルチチャネルパラメータを直接再利用する方法と比較して、この方法は、マルチチャネル信号のチャネル間情報の精度をより確実に保証することができる。
任意選択で、いくつかの実施形態では、プロセッサ920は、差分パラメータが第1の事前設定条件を満たす場合、現フレームの特性パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成される。
任意選択で、いくつかの実施形態では、差分パラメータは、現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの間の差の絶対値であり、第1の事前設定条件は、差分パラメータが予め設定された第1の閾値より大きいということである。
任意選択で、いくつかの実施形態では、差分パラメータは現フレームの初期マルチチャネルパラメータと現フレームの前のフレームのマルチチャネルパラメータとの積であり、第1の事前設定条件は差分パラメータが0以下であることである。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームの相関パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用される。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームのピーク対平均比パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用される。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームの相関パラメータおよびピーク対平均比パラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用される。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームのマルチチャネル信号内のターゲットチャネル信号と前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて相関パラメータを決定するようにさらに構成される。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータと、前のフレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータとに基づいて相関パラメータを決定するように特に構成され、周波数領域パラメータは、ターゲットチャネル信号の周波数領域振幅値である。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータと、前のフレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータとに基づいて相関パラメータを決定するように特に構成され、周波数領域パラメータは、ターゲットチャネル信号の周波数領域係数である。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータと、前のフレームのマルチチャネル信号内のターゲットチャネル信号の周波数領域パラメータとに基づいて相関パラメータを決定するように特に構成され、周波数領域パラメータは、ターゲットチャネル信号の周波数領域振幅値および周波数領域係数である。
任意選択で、いくつかの実施形態では、プロセッサ920は、現フレームのピッチ周期および前のフレームのピッチ周期に基づいて相関パラメータを決定するようにさらに構成される。
任意選択で、いくつかの実施形態では、プロセッサ920は、特性パラメータが第2の事前設定条件を満たす場合、現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、Tは1以上の整数である。
任意選択で、いくつかの実施形態では、プロセッサ920は、前のT個のフレームのマルチチャネルパラメータを現フレームのマルチチャネルパラメータとして決定するように特に構成され、Tは1に等しい。
任意選択で、いくつかの実施形態では、プロセッサ920は、前のT個のフレームのマルチチャネルパラメータの変化傾向に基づいて現フレームのマルチチャネルパラメータを決定するように特に構成され、Tは2以上である。
任意選択で、いくつかの実施形態では、特性パラメータは、現フレームの相関パラメータおよび/またはピーク対平均比パラメータを含み、相関パラメータは現フレームと現フレームの前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、第2の事前設定条件は、特性パラメータが予め設定された閾値より大きいことである。
任意選択で、いくつかの実施形態では、現フレームの初期マルチチャネルパラメータは、現フレームの初期チャネル間コヒーレンスIC値、現フレームの初期チャネル時間差ITD値、現フレームの初期チャネル間位相差IPD値、現フレームの初期全体位相差OPD値、および現フレームの初期チャネル間レベル差ILD値、のうちの少なくとも1つを含む。
任意選択で、いくつかの実施形態では、現フレームの特性パラメータは、現フレームのパラメータ、すなわち、相関パラメータ、ピーク対平均比パラメータ、信号対雑音比パラメータ、およびスペクトル傾斜パラメータ、のうちの少なくとも1つを含み、相関パラメータは、現フレームと前のフレームとの間の相関度を表すために使用され、ピーク対平均比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、信号対雑音比パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比を表すために使用され、スペクトル傾斜パラメータは、現フレームのマルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度を表すために使用される。
本明細書における用語「および/または」は、3つの関係が存在し得ることを示している。例えば、Aおよび/またはBは、3つの場合、すなわちAが単独で存在する場合、AとBの両方が存在する場合、そしてBが単独で存在する場合を示すことができる。さらに、本明細書中の文字「/」は通常、関連するオブジェクトが「または」の関係にあることを示している。
当業者であれば、本明細書で開示された実施形態で説明した例を参照して、ユニットやアルゴリズムステップが、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアの組み合わせによって実施され得ることを認識することができる。機能がハードウェアまたはソフトウェアによって実行されるかどうかは、特定のアプリケーションおよび技術的解決策の設計制約に依存している。当業者は、特定の各アプリケーションのために説明した機能を実装するために異なる方法を使用することができるが、実装が本出願の範囲外であると考えられるべきではない。
前述のシステム、装置、およびユニットの詳細な作動プロセスのための、簡便な説明の目的で、前述の方法の実施形態に対応するプロセスが参照され得ることは、当業者であれば明確に理解することができ、詳細はここでは再度説明しない。
本出願で提供されるいくつかの実施形態では、開示されたシステム、装置、および方法は、他の態様で実現されてもよいことが理解されるべきである。例えば、説明した装置の実施形態は単なる例に過ぎない。例えば、ユニットの部分は単に論理機能の部分であり、実際の実装中は他の部分であってもよい。例えば、複数のユニットまたはコンポーネントが組み合わされてもよく、または別のシステムに統合されてもよく、あるいは、一部の機能が無視されて、実行されなくてもよい。また、表示されたまたは議論された相互結合または直接的な結合もしくは通信接続は、いくつかのインタフェースを使用することによって実現されてもよい。装置またはユニット間の間接的な結合または通信接続は、電気的に、機械的に、または他の形式で実現されてもよい。
別々の部分として記載されたユニットは、物理的に分離されていてもいなくてもよく、ユニットとして表示された部分は、物理的なユニットであってもなくてもよく、言い換えれば、1つの位置に配置されていてもよく、または複数のネットワークユニットに分散されていてもよい。ユニットの一部またはすべては、本実施形態の解決策の目的を達成するために実際のニーズに基づいて選択されてもよい。
また、本出願の実施形態における機能ユニットは、1つの処理ユニットに組み込まれてもよく、または各ユニットは、単独で、物理的に存在してもよく、または2つ以上のユニットが1つのユニットに統合されてもよい。
機能が、ソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用される場合、機能は、コンピュータ読み取り可能な記憶媒体に格納され得る。このような理解に基づいて、基本的に本出願の技術的解決策、または従来技術に寄与する部分、または技術的解決策のいくつかは、ソフトウェア製品の形態で実現され得る。コンピュータソフトウェア製品は、記憶媒体に格納され、本出願の実施形態に記載の方法のステップのすべてまたは一部を実行するために、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい)を指示するためのいくつかの命令を含む。記憶媒体は、例えば、USBフラッシュドライブ、リムーバブルハードディスク、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク、または光ディスクなどの、プログラムコードを格納することができる任意の媒体を含む。
前述の説明は、本出願の単なる特定の実装形態であり、本出願の保護範囲を限定することを意図されていない。本出願で開示された技術的範囲内で当業者が容易に考え出す任意の変化または置換は、本出願の保護範囲内に入るものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
800 エンコーダ
810 取得ユニット
820 第1の決定ユニット
830 第2の決定ユニット
840 第3の決定ユニット
850 符号化ユニット
900 エンコーダ
910 メモリ
920 プロセッサ
具体的には、周波数領域信号のL個の周波数ビン(Frequency Bin)を複数のサブバンドに分割することができる。b番目のサブバンドに含まれる周波数ビンのインデックス値は、Ab-1≦k≦Ab-1である。探索範囲:-Tmax≦j≦Tmax内では、振幅値を、以下の式を用いて計算することができる:
ステップ750は、図5のステップ540に対応する。ステップ530で提供された任意の実施例はステップ750に使用されてもよい。以下にいくつかの任意選択の実施例を挙げる。

Claims (28)

  1. マルチチャネル信号符号化方法であって、
    現フレームのマルチチャネル信号を取得するステップと、
    前記現フレームの初期マルチチャネルパラメータを決定するステップと、
    前記現フレームの前記初期マルチチャネルパラメータと前記現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定するステップであって、前記差分パラメータが前記現フレームの前記初期マルチチャネルパラメータと前記前のK個のフレームの前記マルチチャネルパラメータとの間の差を表すために使用され、Kが1以上の整数である、ステップと、
    前記現フレームの前記差分パラメータおよび特性パラメータに基づいて前記現フレームのマルチチャネルパラメータを決定するステップと、
    前記現フレームの前記マルチチャネルパラメータに基づいて前記マルチチャネル信号を符号化するステップと
    を含む、方法。
  2. 前記現フレームの前記差分パラメータおよび特性パラメータに基づいて前記現フレームのマルチチャネルパラメータを決定する前記ステップが、
    前記差分パラメータが第1の事前設定条件を満たす場合、前記現フレームの前記特性パラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定するステップ
    を含む、請求項1に記載の方法。
  3. 前記差分パラメータが、前記現フレームの前記初期マルチチャネルパラメータと前記現フレームの前のフレームのマルチチャネルパラメータとの間の差の絶対値であり、前記第1の事前設定条件は、前記差分パラメータが予め設定された第1の閾値より大きいということである、請求項2に記載の方法。
  4. 前記差分パラメータが、前記現フレームの前記初期マルチチャネルパラメータと前記現フレームの前のフレームのマルチチャネルパラメータとの積であり、前記第1の事前設定条件は前記差分パラメータが0以下であることである、請求項2に記載の方法。
  5. 前記現フレームの前記特性パラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定する前記ステップが、
    前記現フレームの相関パラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定するステップであって、前記相関パラメータが、前記現フレームと前記現フレームの前記前のフレームとの間の相関度を表すために使用される、ステップ
    を含む、請求項2から4のいずれか一項に記載の方法。
  6. 前記方法が、
    前記現フレームの前記マルチチャネル信号内のターゲットチャネル信号と前記前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて前記相関パラメータを決定するステップ
    をさらに含む、請求項5に記載の方法。
  7. 前記現フレームの前記マルチチャネル信号内のターゲットチャネル信号と前記前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて前記相関パラメータを決定する前記ステップが、
    前記現フレームの前記マルチチャネル信号内の前記ターゲットチャネル信号の周波数領域パラメータと前記前のフレームの前記マルチチャネル信号内の前記ターゲットチャネル信号の周波数領域パラメータとに基づいて前記相関パラメータを決定するステップであって、前記周波数領域パラメータが、前記ターゲットチャネル信号の周波数領域振幅値および周波数領域係数のうちの少なくとも一方である、ステップ
    を含む、請求項6に記載の方法。
  8. 前記方法が、
    前記現フレームのピッチ周期と前記前のフレームのピッチ周期とに基づいて前記相関パラメータを決定するステップ
    をさらに含む、請求項5に記載の方法。
  9. 前記現フレームの前記特性パラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定する前記ステップが、
    前記特性パラメータが第2の事前設定条件を満たす場合、前記現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定するステップであって、Tが1以上の整数である、ステップ
    を含む、請求項2から8のいずれか一項に記載の方法。
  10. 前記現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定する前記ステップが、
    前記前のT個のフレームの前記マルチチャネルパラメータを前記現フレームの前記マルチチャネルパラメータとして決定するステップであって、Tが1に等しい、ステップ
    を含む、請求項9に記載の方法。
  11. 前記現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定する前記ステップが、
    前記前のT個のフレームの前記マルチチャネルパラメータの変化傾向に基づいて前記現フレームの前記マルチチャネルパラメータを決定するステップであって、Tが2以上である、ステップ
    を含む、請求項9に記載の方法。
  12. 前記現フレームの前記特性パラメータが、前記現フレームの前記相関パラメータおよびピーク対平均比パラメータのうちの少なくとも一方を含み、前記相関パラメータが前記現フレームと前記現フレームの前記前のフレームとの間の前記相関度を表すために使用され、前記ピーク対平均比パラメータが、前記現フレームの前記マルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、前記第2の事前設定条件は、前記特性パラメータが予め設定された閾値より大きいことである、請求項9から11のいずれか一項に記載の方法。
  13. 前記現フレームの前記初期マルチチャネルパラメータが、前記現フレームの初期チャネル間コヒーレンスIC値、前記現フレームの初期チャネル時間差ITD値、前記現フレームの初期チャネル間位相差IPD値、前記現フレームの初期全体位相差OPD値、および前記現フレームの初期チャネル間レベル差ILD値、のうちの少なくとも1つを含む、請求項1から12のいずれか一項に記載の方法。
  14. 前記現フレームの前記特性パラメータが、前記現フレームのパラメータ、すなわち、前記相関パラメータ、前記ピーク対平均比パラメータ、信号対雑音比パラメータ、およびスペクトル傾斜パラメータ、のうちの少なくとも1つを含み、前記相関パラメータが、前記現フレームと前記前のフレームとの間の前記相関度を表すために使用され、前記ピーク対平均比パラメータが、前記現フレームの前記マルチチャネル信号における前記少なくとも1つのチャネルの前記信号の前記ピーク対平均比を表すために使用され、前記信号対雑音比パラメータが、前記現フレームの前記マルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比を表すために使用され、前記スペクトル傾斜パラメータが、前記現フレームの前記マルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度を表すために使用される、請求項1から13のいずれか一項に記載の方法。
  15. 現フレームのマルチチャネル信号を取得するように構成された取得ユニットと、
    前記現フレームの初期マルチチャネルパラメータを決定するように構成された第1の決定ユニットと、
    前記現フレームの前記初期マルチチャネルパラメータと前記現フレームの前のK個のフレームのマルチチャネルパラメータとに基づいて差分パラメータを決定するように構成された第2の決定ユニットであって、前記差分パラメータが前記現フレームの前記初期マルチチャネルパラメータと前記前のK個のフレームの前記マルチチャネルパラメータとの間の差を表すために使用され、Kが1以上の整数である、第2の決定ユニットと、
    前記現フレームの前記差分パラメータと特性パラメータとに基づいて前記現フレームのマルチチャネルパラメータを決定するように構成された第3の決定ユニットと、
    前記現フレームの前記マルチチャネルパラメータに基づいて前記マルチチャネル信号を符号化するように構成された符号化ユニットと
    を備える、エンコーダ。
  16. 前記第3の決定ユニットは、前記差分パラメータが第1の事前設定条件を満たす場合、前記現フレームの前記特性パラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定するように特に構成される、請求項15に記載のエンコーダ。
  17. 前記差分パラメータが、前記現フレームの前記初期マルチチャネルパラメータと前記現フレームの前のフレームのマルチチャネルパラメータとの間の差の絶対値であり、前記第1の事前設定条件は、前記差分パラメータが予め設定された第1の閾値より大きいということである、請求項16に記載のエンコーダ。
  18. 前記差分パラメータが、前記現フレームの前記初期マルチチャネルパラメータと前記現フレームの前のフレームのマルチチャネルパラメータとの積であり、前記第1の事前設定条件は前記差分パラメータが0以下であることである、請求項16に記載のエンコーダ。
  19. 前記第3の決定ユニットが、前記現フレームの相関パラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定するように特に構成され、前記相関パラメータが前記現フレームと前記現フレームの前記前のフレームとの間の相関度を表すために使用される、請求項16から18のいずれか一項に記載のエンコーダ。
  20. 前記エンコーダが、
    前記現フレームの前記マルチチャネル信号内のターゲットチャネル信号と前記前のフレームのマルチチャネル信号内のターゲットチャネル信号とに基づいて前記相関パラメータを決定するように構成された第4の決定ユニット
    をさらに備える、請求項19に記載のエンコーダ。
  21. 前記第4の決定ユニットが、前記現フレームの前記マルチチャネル信号内の前記ターゲットチャネル信号の周波数領域パラメータと、前記前のフレームの前記マルチチャネル信号内の前記ターゲットチャネル信号の周波数領域パラメータとに基づいて前記相関パラメータを決定するように特に構成され、前記周波数領域パラメータが、前記ターゲットチャネル信号の周波数領域振幅値および周波数領域係数のうちの少なくとも一方である、請求項20に記載のエンコーダ。
  22. 前記エンコーダが、
    前記現フレームのピッチ周期と前記前のフレームのピッチ周期とに基づいて前記相関パラメータを決定するように構成された第5の決定ユニット
    をさらに備える、請求項19に記載のエンコーダ。
  23. 前記第3の決定ユニットは、前記特性パラメータが第2の事前設定条件を満たす場合、前記現フレームの前のT個のフレームのマルチチャネルパラメータに基づいて前記現フレームの前記マルチチャネルパラメータを決定するように特に構成され、Tが1以上の整数である、請求項16から22のいずれか一項に記載のエンコーダ。
  24. 前記第3の決定ユニットが、前記前のT個のフレームの前記マルチチャネルパラメータを前記現フレームの前記マルチチャネルパラメータとして決定するように特に構成され、Tが1に等しい、請求項23に記載のエンコーダ。
  25. 前記第3の決定ユニットが、前記前のT個のフレームの前記マルチチャネルパラメータの変化傾向に基づいて前記現フレームの前記マルチチャネルパラメータを決定するように特に構成され、Tが2以上である、請求項23に記載のエンコーダ。
  26. 前記特性パラメータが、前記現フレームの前記相関パラメータおよびピーク対平均比パラメータのうちの少なくとも一方を含み、前記相関パラメータが前記現フレームと前記現フレームの前記前のフレームとの間の前記相関度を表すために使用され、前記ピーク対平均比パラメータが、前記現フレームの前記マルチチャネル信号における少なくとも1つのチャネルの信号のピーク対平均比を表すために使用され、前記第2の事前設定条件は、前記特性パラメータが予め設定された閾値より大きいことである、請求項23から25のいずれか一項に記載のエンコーダ。
  27. 前記現フレームの前記初期マルチチャネルパラメータが、前記現フレームの初期チャネル間コヒーレンスIC値、前記現フレームの初期チャネル時間差ITD値、前記現フレームの初期チャネル間位相差IPD値、前記現フレームの初期全体位相差OPD値、および前記現フレームの初期チャネル間レベル差ILD値、のうちの少なくとも1つを含む、請求項15から26のいずれか一項に記載のエンコーダ。
  28. 前記現フレームの前記特性パラメータが、前記現フレームのパラメータ、すなわち、前記相関パラメータ、前記ピーク対平均比パラメータ、信号対雑音比パラメータ、およびスペクトル傾斜パラメータ、のうちの少なくとも1つを含み、前記相関パラメータが、前記現フレームと前記前のフレームとの間の前記相関度を表すために使用され、前記ピーク対平均比パラメータが、前記現フレームの前記マルチチャネル信号における前記少なくとも1つのチャネルの前記信号の前記ピーク対平均比を表すために使用され、前記信号対雑音比パラメータが、前記現フレームの前記マルチチャネル信号における少なくとも1つのチャネルの信号の信号対雑音比を表すために使用され、前記スペクトル傾斜パラメータが、前記現フレームの前記マルチチャネル信号における少なくとも1つのチャネルの信号のスペクトル傾斜度を表すために使用される、請求項15から27のいずれか一項に記載のエンコーダ。
JP2022096616A 2016-08-10 2022-06-15 マルチチャネル信号の符号化方法およびエンコーダ Active JP7443423B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024024588A JP2024063059A (ja) 2016-08-10 2024-02-21 マルチチャネル信号の符号化方法およびエンコーダ

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610652506.XA CN107731238B (zh) 2016-08-10 2016-08-10 多声道信号的编码方法和编码器
CN201610652506.X 2016-08-10
JP2020158348A JP7091411B2 (ja) 2016-08-10 2020-09-23 マルチチャネル信号の符号化方法およびエンコーダ

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020158348A Division JP7091411B2 (ja) 2016-08-10 2020-09-23 マルチチャネル信号の符号化方法およびエンコーダ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024024588A Division JP2024063059A (ja) 2016-08-10 2024-02-21 マルチチャネル信号の符号化方法およびエンコーダ

Publications (2)

Publication Number Publication Date
JP2022137052A true JP2022137052A (ja) 2022-09-21
JP7443423B2 JP7443423B2 (ja) 2024-03-05

Family

ID=61161463

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2019507137A Active JP6768924B2 (ja) 2016-08-10 2017-02-22 マルチチャネル信号の符号化方法およびエンコーダ
JP2020158348A Active JP7091411B2 (ja) 2016-08-10 2020-09-23 マルチチャネル信号の符号化方法およびエンコーダ
JP2022096616A Active JP7443423B2 (ja) 2016-08-10 2022-06-15 マルチチャネル信号の符号化方法およびエンコーダ
JP2024024588A Pending JP2024063059A (ja) 2016-08-10 2024-02-21 マルチチャネル信号の符号化方法およびエンコーダ

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2019507137A Active JP6768924B2 (ja) 2016-08-10 2017-02-22 マルチチャネル信号の符号化方法およびエンコーダ
JP2020158348A Active JP7091411B2 (ja) 2016-08-10 2020-09-23 マルチチャネル信号の符号化方法およびエンコーダ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024024588A Pending JP2024063059A (ja) 2016-08-10 2024-02-21 マルチチャネル信号の符号化方法およびエンコーダ

Country Status (11)

Country Link
US (3) US11133014B2 (ja)
EP (2) EP3493203B1 (ja)
JP (4) JP6768924B2 (ja)
KR (3) KR102367538B1 (ja)
CN (1) CN107731238B (ja)
AU (3) AU2017310759B2 (ja)
BR (1) BR112019002656A2 (ja)
CA (1) CA3033225C (ja)
ES (1) ES2928335T3 (ja)
RU (1) RU2705427C1 (ja)
WO (1) WO2018028170A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112016025203B1 (pt) 2014-06-02 2022-09-06 Cala Health, Inc Sistema transcutâneo para tratar um paciente que sofre de tremor
EP4342516A2 (en) 2015-06-10 2024-03-27 Cala Health, Inc. Systems and methods for peripheral nerve stimulation to treat tremor with detachable therapy and monitoring units
US10603482B2 (en) 2015-09-23 2020-03-31 Cala Health, Inc. Systems and methods for peripheral nerve stimulation in the finger or hand to treat hand tremors
US11344722B2 (en) 2016-01-21 2022-05-31 Cala Health, Inc. Systems, methods and devices for peripheral neuromodulation for treating diseases related to overactive bladder
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CA3058786A1 (en) 2017-04-03 2018-10-11 Cala Health, Inc. Systems, methods and devices for peripheral neuromodulation for treating diseases related to overactive bladder
CN108877815B (zh) 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
US11857778B2 (en) 2018-01-17 2024-01-02 Cala Health, Inc. Systems and methods for treating inflammatory bowel disease through peripheral nerve stimulation
CN110556118B (zh) 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
CN109243471B (zh) * 2018-09-26 2022-09-23 杭州联汇科技股份有限公司 一种快速编码广播用数字音频的方法
WO2020069219A1 (en) 2018-09-26 2020-04-02 Cala Health, Inc. Predictive therapy neurostimulation systems
CN112233682A (zh) * 2019-06-29 2021-01-15 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
US11890468B1 (en) 2019-10-03 2024-02-06 Cala Health, Inc. Neurostimulation systems with event pattern detection and classification
CN114365509B (zh) * 2021-12-03 2024-03-01 北京小米移动软件有限公司 一种立体声音频信号处理方法及设备/存储介质/装置
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6168568B1 (en) * 1996-10-04 2001-01-02 Karmel Medical Acoustic Technologies Ltd. Phonopneumograph system
EP1796083B1 (en) * 2000-04-24 2009-01-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
KR101021079B1 (ko) * 2002-04-22 2011-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 다채널 오디오 표현
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
RU2393550C2 (ru) * 2005-06-30 2010-06-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ кодирования и декодирования звукового сигнала
RU2473062C2 (ru) * 2005-08-30 2013-01-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
WO2007052612A1 (ja) * 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法
US7839948B2 (en) * 2005-12-02 2010-11-23 Qualcomm Incorporated Time slicing techniques for variable data rate encoding
WO2008032787A1 (fr) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
CN101188878B (zh) * 2007-12-05 2010-06-02 武汉大学 立体声音频信号的空间参数量化及熵编码方法和所用系统
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
EP2169665B1 (en) * 2008-09-25 2018-05-02 LG Electronics Inc. A method and an apparatus for processing a signal
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
CN102307323B (zh) * 2009-04-20 2013-12-18 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法
CN101582262B (zh) * 2009-06-16 2011-12-28 武汉大学 一种空间音频参数帧间预测编解码方法
CN102025892A (zh) * 2009-09-16 2011-04-20 索尼株式会社 镜头转换检测方法及装置
EP2478520A4 (en) * 2009-09-17 2013-08-28 Univ Yonsei Iacf METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
CN102667919B (zh) * 2009-09-29 2014-09-10 弗兰霍菲尔运输应用研究公司 音频信号解码器和编码器、提供上混和下混信号表示型态的方法
JP5719372B2 (ja) * 2009-10-20 2015-05-20 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム
CN102157151B (zh) * 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
ES2656815T3 (es) * 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
US9112591B2 (en) * 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
US8305099B2 (en) 2010-08-31 2012-11-06 Nxp B.V. High speed full duplex test interface
CN103026406B (zh) * 2010-09-28 2014-10-08 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
CN103180899B (zh) * 2010-11-17 2015-07-22 松下电器(美国)知识产权公司 立体声信号的编码装置、解码装置、编码方法及解码方法
US9424852B2 (en) * 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
WO2012158333A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
KR101580240B1 (ko) 2012-02-17 2016-01-04 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더
EP2834813B1 (en) * 2012-04-05 2015-09-30 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
CN104380376B (zh) * 2012-06-14 2017-03-15 杜比国际公司 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统
US20140086416A1 (en) * 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
EP2875510A4 (en) 2012-07-19 2016-04-13 Nokia Technologies Oy STEREO AUDIO SIGNAL ENCODER
KR20140017338A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
EP3933836A1 (en) 2012-11-13 2022-01-05 Samsung Electronics Co., Ltd. Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
WO2014108738A1 (en) * 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
CN110379434B (zh) * 2013-02-21 2023-07-04 杜比国际公司 用于参数化多声道编码的方法
EP2989631A4 (en) * 2013-04-26 2016-12-21 Nokia Technologies Oy AUDIO SIGNAL ENCODER
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
KR20160015280A (ko) * 2013-05-28 2016-02-12 노키아 테크놀로지스 오와이 오디오 신호 인코더
CN104282309A (zh) * 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US9595269B2 (en) * 2015-01-19 2017-03-14 Qualcomm Incorporated Scaling for gain shape circuitry
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP6721977B2 (ja) * 2015-12-15 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法
CN115148215A (zh) * 2016-01-22 2022-10-04 弗劳恩霍夫应用研究促进协会 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器

Also Published As

Publication number Publication date
KR20190034302A (ko) 2019-04-01
BR112019002656A2 (pt) 2019-05-28
WO2018028170A1 (zh) 2018-02-15
EP3493203B1 (en) 2022-07-27
EP3493203A4 (en) 2019-06-19
KR20210008566A (ko) 2021-01-22
AU2020267256A1 (en) 2020-12-10
AU2020267256B2 (en) 2022-05-26
JP2021009399A (ja) 2021-01-28
KR102367538B1 (ko) 2022-02-24
CN107731238A (zh) 2018-02-23
US11935548B2 (en) 2024-03-19
JP7443423B2 (ja) 2024-03-05
CA3033225A1 (en) 2018-02-15
AU2022218507A1 (en) 2022-09-08
AU2017310759A1 (en) 2019-02-28
US20210383815A1 (en) 2021-12-09
JP2019527856A (ja) 2019-10-03
US20240161756A1 (en) 2024-05-16
US11133014B2 (en) 2021-09-28
AU2022218507B2 (en) 2024-05-02
EP3493203A1 (en) 2019-06-05
AU2017310759B2 (en) 2020-12-03
EP4120252A1 (en) 2023-01-18
JP2024063059A (ja) 2024-05-10
CN107731238B (zh) 2021-07-16
JP6768924B2 (ja) 2020-10-14
KR20220028159A (ko) 2022-03-08
US20190172474A1 (en) 2019-06-06
JP7091411B2 (ja) 2022-06-27
RU2705427C1 (ru) 2019-11-07
CA3033225C (en) 2021-11-16
ES2928335T3 (es) 2022-11-17
KR102486604B1 (ko) 2023-01-09
KR102205596B1 (ko) 2021-01-20

Similar Documents

Publication Publication Date Title
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
JP7273080B2 (ja) マルチチャネル信号を符号化する方法及びエンコーダ
JP2015517121A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
WO2017206794A1 (zh) 一种声道间相位差参数的提取方法及装置
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
CN107358960B (zh) 多声道信号的编码方法和编码器

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240221

R150 Certificate of patent or registration of utility model

Ref document number: 7443423

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150