[関連出願]
本願は、中国特許出願番号第201610652507.4号、2016年8月10日出願、名称「METHOD FOR ENCODING MULTI−CHANNEL SIGNAL AND ENCODER」の優先権を主張する。該中国特許出願は、参照によりその全体がここに組み込まれる。
[技術分野]
本願は、オーディオ信号符号化分野に、より具体的には、マルチチャネル信号を符号化する方法及びエンコーダに関する。
生活の質が向上するにつれ、人々は高品質オーディオに増大する要件を課している。モノラル信号に比べて、ステレオは、方向の間隔及び種々の音源の分布の間隔を有し、明瞭さ、理解度、及び夢中になれる音体験を向上でき、したがって人々により大いに気に入られる。
ステレオ処理技術は、主に、和差(Mid/Sid、MS)符号化、インテンシティステレオ(Intensity Stereo、IS)符号化、及びパラメトリックステレオ(Parametric Stereo、PS)符号化を含む。
MS符号化では、和差変換が、チャネル間コヒーレンスに基づき、2つの信号に対して実行され、チャネルのエネルギは主に和チャネルに注力されて、チャネル間冗長性が除去される。MS符号化技術では、符号レートの減少は入力信号間のコヒーレンスに依存する。左チャネル信号と右チャネル信号との間のコヒーレンスが乏しいとき、左チャネル信号及び右チャネル信号は別個に送信される必要がある。
IS符号化では、左チャネル信号及び右チャネル信号の高周波数成分は、人間の聴覚システムがチャネルの高周波数成分(例えば2KHzより高い成分)の間の位相差に鈍感であるという特徴に基づき簡略化される。しかしながら、IS符号化技術は、高周波数成分についてのみ効果的である。IS符号化技術が低周波数にまで拡張される場合、深刻な人工雑音が引き起こされる。
PS符号化は、両耳の聴覚モデルに基づく符号化方式である。図1に示すように(図1では、xLは左チャネル時間ドメイン信号であり、xRは右チャネル時間ドメイン信号である)、PS符号化処理では、エンコーダ側はステレオ信号をモノラル信号及び空間音響場を記述する幾つかの空間パラメータ(又は空間認識パラメータ)に変換する。図2に示すように、モノラル信号及び空間パラメータを取得した後に、デコーダ側は、空間パラメータを参照してステレオ信号を復元する。MS符号化に比べて、PS符号化はより高い圧縮比を有する。したがって、PS符号化では、より高い符号化利得が得られ、同時に比較的良好な音響品質が維持される。さらに、PS符号化は、全音響帯域で実行されて良く、ステレオの空間認識効果を良好に復元できる。
PS符号化では、空間パラメータは、チャネル間コヒーレンス(Inter−channel Coherent、IC)、チャネル間レベル差(Inter−channel Level Difference、ILD)、チャネル間時間差(Inter−channel Time Difference、ITD)、及びチャネル間位相差(Inter−channel Phase Difference、IPD)を含む。ICはチャネル間相互相関又はコヒーレンスを記述する。このパラメータは、音響場範囲の認識を決定し、オーディオ信号の空間及び音響安定性の間隔を向上できる。ILDは、ステレオ音源の水平アジマス角を区別するために使用され、チャネル間エネルギ差を記述する。このパラメータは、全スペクトルの周波数成分に影響する。ITD及びIPDは、音源の水平アジマスを表す空間パラメータであり、チャネル間時間及び位相差を記述する。ILD、ITD、及びIPDは、音源の位置に対する人間の耳の認識を決定でき、音響場位置を効果的に決定するために使用でき、ステレオ信号の復元において重要な役割を果たす。
ステレオ録音処理では、背景雑音、反響音、及び複数パーティの会話のような要因の影響により、既存PS符号化方式に従い計算されたITDは、常に不安定である(ITD値は大きく移り変わる)。このようなITDに基づき計算されたダウンミックス信号は不連続である。結果として、デコーダ側で得られるステレオ品質は粗悪である。例えば、デコーダ側で再生されるステレオの音像は、頻繁にジッタを生じ、ぞっとするような聴覚さえも生じる。
本願は、PS符号化におけるITDの安定性を向上し、及びマルチチャネル信号の符号化品質を向上するために、マルチチャネル信号を符号化する方法及びエンコーダを提供する。
第1の態様によると、マルチチャネル信号を符号化する方法であって、現在フレームのマルチチャネル信号を取得するステップと、前記現在フレームの初期ITD値を決定するステップと、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御するステップであって、前記特性情報は、前記マルチチャネル信号の信号対雑音比パラメータ及び前記マルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、前記目標フレームの前のフレームのITD値は前記目標フレームのITD値として再使用される、ステップと、前記現在フレームの前記初期ITD値及び連続的に現れることの許される前記目標フレームの数に基づき、前記現在フレームのITD値を決定するステップと、前記現在フレームの前記ITD値に基づき、前記マルチチャネル信号を符号化するステップと、を含む方法が提供される。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する前記ステップの前に、前記方法は、前記マルチチャネル信号の前記相互相関係数のピーク値の振幅、及び前記マルチチャネル信号の前記相互相関係数のピーク位置のインデックスに基づき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴を決定するステップ、を更に含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数のピーク値の振幅、及び前記マルチチャネル信号の前記相互相関係数のピーク位置のインデックスに基づき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴を決定する前記ステップは、前記マルチチャネル信号の前記相互相関係数の前記ピーク値の前記振幅に基づき、ピーク振幅信頼性パラメータを決定するステップであって、前記ピーク振幅信頼性パラメータは、前記マルチチャネル信号の前記相互相関係数の前記ピーク値の前記振幅の信頼性レベルを表す、ステップと、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応するITD値、及び前記現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定するステップであって、前記ピーク位置変動パラメータは、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応する前記ITD値と前記現在フレームの前記前のフレームの前記ITD値との間の差を表す、ステップと、前記ピーク振幅信頼性パラメータ及び前記ピーク位置変動パラメータに基づき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴を決定するステップと、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数の前記ピーク値の前記振幅に基づき、ピーク振幅信頼性パラメータを決定する前記ステップは、前記ピーク振幅信頼性パラメータとして、前記マルチチャネル信号の前記相互相関係数の前記ピーク値と前記マルチチャネル信号の前記相互相関係数の2番目に大きい値の振幅値との間の差の、前記ピーク値の前記振幅値に対する比を決定するステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応するITD値、及び前記現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定する前記ステップは、前記ピーク位置変動パラメータとして、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応する前記ITD値と、前記現在フレームの前記前のフレームの前記ITD値と、の間の差の絶対値を決定するステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する前記ステップは、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御するステップと、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴がプリセット条件を満たすとき、目標フレームカウント及び前記目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される前記目標フレームの数を減少させるステップであって、前記目標フレームカウントは、現在連続的に現れている目標フレームの数を表すために使用され、前記目標フレームカウントの前記閾は、連続的に現れることの許される前記目標フレームの数を示すために使用される、ステップと、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、目標フレームカウント及び前記目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される前記目標フレームの数を減少させる前記ステップは、前記目標フレームカウントを増大させることにより、連続的に現れることの許される前記目標フレームの数を減少させるステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、目標フレームカウント及び前記目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される前記目標フレームの数を減少させる前記ステップは、前記目標フレームカウントの閾を減少させることにより、連続的に現れることの許される前記目標フレームの数を減少させるステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御する前記ステップは、前記マルチチャネル信号の前記信号対雑音比パラメータがプリセット信号対雑音比条件を満たさないときだけ、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御するステップを含み、前記方法は、前記マルチチャネル信号の前記信号対雑音比が前記信号対雑音比条件を満たすとき、前記現在フレームの前記前のフレームの前記ITD値を前記現在フレームの前記ITD値として再使用することを停止するステップ、を更に含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する前記ステップは、前記マルチチャネル信号の前記信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かを決定するステップと、前記マルチチャネル信号の前記信号対雑音比パラメータが前記信号対雑音比条件を満たさないとき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御するステップ、又は、前記マルチチャネル信号の前記信号対雑音比パラメータが前記信号対雑音比条件を満たすとき、前記現在フレームの前記前のフレームの前記ITD値を前記現在フレームの前記ITD値として再使用することを停止するステップと、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記現在フレームの前記前のフレームの前記ITD値を前記現在フレームの前記ITD値として再使用することを停止する前記ステップは、前記目標フレームカウントの値が前記目標フレームカウントの前記閾より大きく又は等しくなるように、前記目標フレームカウントを増大するステップであって、前記目標フレームカウントは現在連続的に現れている前記目標フレームの数を表すために使用され、前記目標フレームカウントの前記閾は連続的に現れることの許される前記目標フレームの数を示すために使用される、ステップ、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記現在フレームの前記初期ITD値及び連続的に現れることの許される前記目標フレームの数に基づき、前記現在フレームのITD値を決定する前記ステップは、前記現在フレームの前記初期ITD値、前記目標フレームカウント、及び前記目標フレームカウントの前記閾に基づき、前記現在フレームの前記ITD値を決定するステップであって、前記目標フレームカウントは現在連続的に現れている前記目標フレームの数を表すために使用され、前記目標フレームカウントの前記閾は連続的に現れることの許される前記目標フレームの数を示すために使用される、ステップ、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記信号対雑音比パラメータは、前記マルチチャネル信号の修正セグメント信号対雑音比である。
第2の態様によると、第1の態様の方法を実行するよう構成されるユニットを含むエンコーダが提供される。
第3の態様によると、メモリとプロセッサとを含むエンコーダが提供される。前記メモリはプログラムを格納するよう構成され、前記プロセッサは該プログラムを実行するよう構成される。前記プログラムが実行されると、前記プロセッサは第1の態様の方法を実行する。
第4の態様によると、コンピュータ可読媒体が提供される。前記コンピュータ可読媒体は、エンコーダにより実行されるべきプログラムコードを格納する。前記プログラムコードは、第1の態様の方法を実行するために使用される命令を含む。
本願によると、背景雑音、反響、及び複数パーティの会話のような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
従来技術のPS符号化のフローチャートである。
従来技術のPS復号のフローチャートである。
従来技術における時間ドメインに基づくITDパラメータ抽出方法の概略フローチャートである。
従来技術における周波数ドメインに基づくITDパラメータ抽出方法の概略フローチャートである。
本願の一実施形態によるマルチチャネル信号を符号化する方法の概略フローチャートである。
本願の一実施形態によるマルチチャネル信号を符号化する方法の概略フローチャートである。
本願の一実施形態によるエンコーダの概略構造図である。
本願の一実施形態によるエンコーダの概略構造図である。
ステレオ信号はマルチチャネル信号としても参照され得ることに留意すべきである。以上は、マルチチャネル信号のILD、ITD、及びIPDの機能及び意味を簡単に記載した。理解を容易にするために、以下は、第1マイクロフォンにより拾われた信号が第1チャネル信号であり及び第2マイクロフォンにより拾われた信号が第2チャネル信号である一例を用いることにより、ILD、ITD、及びIPDをより詳細な方法で記載する。
ILDは、第1チャネル信号と第2チャネル信号との間のエネルギ差を記述する。例えば、ILDが0より大きい場合、これは、第1チャネル信号のエネルギが第2チャネル信号のエネルギより高いことを示し、ILDが0に等しい場合、これは、第1チャネル信号のエネルギが第2チャネル信号のエネルギに等しいことを示し、ILDが0より小さい場合、これは、第1チャネル信号のエネルギが第2チャネル信号のエネルギより小さいことを示す。別の例では、ILDが0より小さい場合、これは、第1チャネル信号のエネルギが第2チャネル信号のエネルギより高いことを示し、ILDが0に等しい場合、これは、第1チャネル信号のエネルギが第2チャネル信号のエネルギに等しいことを示し、ILDが0より大きい場合、これは、第1チャネル信号のエネルギが第2チャネル信号のエネルギより小さいことを示す。理解されるべきことに、前述の値は単なる例であり、ILD値と、第1チャネル信号及び第2チャネル信号のエネルギ差との間の関係は、経験に基づき又は実際の要件に依存して定められて良い。
ITDは、第1チャネル信号と第2チャネル信号との間の時間差、つまり、音源により生成された音が第1マイクロフォンに到着した時間と音源により生成された音が第2マイクロフォンに到着した時間との間の差、を記述する。例えば、ITDが0より大きい場合、これは、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より早いことを示し、ITDが0に等しい場合、これは、音源により生成された音が第1マイクロフォン及び第2マイクロフォンに同時に到着したことを示し、ITDが0より小さい場合、これは、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より遅いことを示す。別の例では、ITDが0より小さい場合、これは、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より早いことを示し、ITDが0に等しい場合、これは、音源により生成された音が第1マイクロフォン及び第2マイクロフォンに同時に到着したことを示し、ITDが0より大きい場合、これは、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より遅いことを示す。理解されるべきことに、前述の値は単なる例であり、ITD値と、第1チャネル信号及び第2チャネル信号の時間差との間の関係は、経験に基づき又は実際の要件に依存して定められて良い。
IPDは、第1チャネル信号と第2チャネル信号との間の位相差を記述する。このパラメータは、通常、ITDと一緒に使用され、デコーダ側でマルチチャネル信号の位相情報を復元するために使用される。
以上から、既存のITD値計算方法はITD値の不連続性を生じることが分かる。理解を容易にするために、図3及び図4を参照して、以下は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いることにより、既存のITD値計算方法及びその欠点を詳細に記載する。
従来技術では、ITD値は、殆どの場合、マルチチャネル信号の相互相関係数に基づき計算される。複数の特定計算方法が存在し得る。例えば、ITD値は時間ドメインで計算されて良く、又はITD値は周波数ドメインで計算されて良い。
図3は、時間ドメインに基づくITD値計算方法の概略フローチャートである。図3の方法は以下のステップを含む。
310:左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に基づき、ITD値を計算する。
具体的に、ITD値は、時間ドメイン相互相関関数を用いることにより、左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に基づき計算されて良い。例えば、計算は、0≦i≦Tmaxの範囲内で実行される。
max0≦i≦Tmax(cn(i))>max0≦i≦Tmax(cp(i))ならば、T1はmax(cn(i))に対応するインデックス値の反数である。その他の場合、T1はmax(cp(i))に対応するインデックス値である。ここで、iは相互相関関数のインデックス値であり、xLは左チャネル時間ドメイン信号であり、xRは右チャネル時間ドメイン信号であり、Tmaxは異なるサンプリングレートの場合に最大ITD値に対応しており、Lengthはフレーム長である。
320:ITD値に対して量子化処理を実行する。
図4は、周波数ドメインに基づくITD値計算方法の概略フローチャートである。図4の方法は以下のステップを含む。
410:左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して時間−周波数変換を実行して、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号を取得する。
具体的に、時間−周波数変換では、時間ドメイン信号は、離散フーリエ変換(Discrete Fourier Transformation、DFT)又は修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)のような技術を用いて周波数ドメイン信号に変換されて良い。
例えば、DFT変換は、以下の式(3)を用いて、入力された左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して実行されて良い。
ここで、nは時間ドメイン信号のサンプルのインデックス値であり、kは周波数ドメイン信号の周波数ビンのインデックス値であり、Lは時間−周波数変換長であり、x(n)は左チャネル時間ドメイン信号又は右チャネル時間ドメイン信号である。
420:左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号に基づき、ITD値を抽出する。
具体的に、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の各々のL個の周波数ビン(Frequency Bin)は、N個のサブバンドに分けられて良い。N個のサブバンドの中のb番目のサブバンドに含まれる周波数ビンの値範囲は、A
b-1≦k≦A
b−1と定められて良い。−T
max≦j≦T
maxの検索範囲において、以下の式を用いて振幅値が計算され得る。
次に、b番目のサブバンドのITD値は、max−Tmax≦j≦Tmax(mag(j))、つまり、式(4)に従い計算された最大値に対応するサンプルのインデックス値であって良い。
430:ITD値に対して量子化処理を実行する。
従来技術では、現在フレームの中のマルチチャネル信号の相互相関係数のピーク値が比較的小さい場合、計算を通じて取得されたITD値は不正確であると考えられ得る。この場合、現在フレームのITD値はゼロにされる。
背景雑音、反響、及び複数パーティの会話のような要因の影響により、既存PS符号化方式に従い計算されたITD値は、頻繁にゼロにされ、結果としてITD値は大きく移り変わる。このようなITD値に基づき計算されたダウンミックス信号は、フレーム間不連続性を免れず、復号マルチチャネル信号の音像は不安定である。結果として、マルチチャネル信号の粗悪な音響品質が引き起こされる。
ITD値が大きく移り変わる問題を解決するために、実現可能な処理方法は次の通りである。現在フレームの計算を通じて取得されたITD値が不正確であると考えられるとき、現在フレームの前のフレーム(フレームの前のフレームは具体的に該フレームに隣接する前のフレームである)のITD値は、現在フレームのために再使用されて良い。つまり、現在フレームの前のフレームのITD値は、現在フレームのITD値として使用される。この処理方法で、ITD値が大きく移り変わる問題が良好に解決できる。しかしながら、この処理方法は、以下の問題を生じ得る。マルチチャネル信号の信号品質が比較的良好なとき、多くの現在フレームの計算を通じて取得された比較的正確なITD値が不適切に廃棄されることもあり、現在フレームの前のフレームのITD値が再使用される。結果として、マルチチャネル信号の位相情報は失われる。
ITD値が大きく移り変わる問題を回避し、マルチチャネル信号の位相情報を良好に保持するために、図5を参照して、以下は、本願の一実施形態によるマルチチャネル信号を符号化する方法を詳細に記載する。説明を容易にするために、ITD値が前のフレームのITD値を再使用するフレームは、以下で目標フレームとして参照される。
図5の方法は以下のステップを含む。
510:現在フレームのマルチチャネル信号を取得する。
520:現在フレームの初期ITD値を決定する。
例えば、現在フレームの初期ITD値は、図3に示す時間ドメインに基づく方法で計算されて良い。別の例では、現在フレームの初期ITD値は、図4に示す周波数ドメインに基づく方法で計算されて良い。
530:マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する(又は調整する)。ここで、特性情報は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、目標フレームの前のフレームのITD値は目標フレームのITD値として再使用される。
理解されるべきことに、本願の本実施形態では、現在フレームの初期ITD値が先ず計算され、次に、現在フレームのITD値(又は現在フレームの実際のITD値として参照される、又は現在フレームの最終ITD値として参照される)が、現在フレームの初期ITD値に基づき決定される。現在フレームの初期ITD値及び現在フレームのITD値は、同じITD値であって良く、又は異なるITD値であって良い。これは、特定の計算ルールに依存する。例えば、初期ITD値が正確ならば、初期ITD値は現在フレームのITD値として再使用されて良い。別の例では、初期ITD値が不正確ならば、現在フレームの初期ITD値は廃棄されて良く、現在フレームの前のフレームのITD値が現在フレームのITD値として使用される。
理解されるべきことに、現在フレームのマルチチャネル信号の相互相関係数のピーク特徴は、現在フレームのマルチチャネル信号の相互相関係数のピーク値(又は最大値として参照される)の振幅値(又は大きさとして参照される)と、マルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差分特徴であって良く、或いは、現在フレームのマルチチャネル信号の相互相関係数のピーク値の振幅値と閾との間の差分特徴であって良く、或いは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と前のN個のフレームのITD値との間の差分特徴であって良く、或いは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスと、前のN個のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスとの間の差分特徴(又は変動特徴として参照される)であって良い。ここで、Nは1以上の正整数であり、又は前述の特徴の組み合わせであって良い。現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスは、現在フレームの中のマルチチャネル信号の相互相関係数のどの値がピーク値であるかを表して良い。同様に、前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスは、前のフレームの中のマルチチャネル信号の相互相関係数のどの値がピーク値であるかを表して良い。例えば、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスが5であることは、現在フレームの中のマルチチャネル信号の相互相関係数の5番目の値がピーク値であることを示す。別の例では、前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスが4であることは、前のフレームの中のマルチチャネル信号の相互相関係数の4番目の値がピーク値であることを示す。
ステップ530で連続的に現れることの許される目標フレームの数を制御するステップは、目標フレームカウント及び/又は目標フレームカウントの閾を設定することにより実施されて良い。例えば、連続的に現れることの許される目標フレームの数を制御するステップの目的は、目標フレームカウントを強制的に変更することにより達成されて良い。或いは、連続的に現れることの許される目標フレームの数を制御するステップの目的は、目標フレームカウントの閾を強制的に変更することにより達成されて良い。或いは、勿論、連続的に現れることの許される目標フレームの数を制御するステップの目的は、目標フレームカウント及び目標フレームカウントの閾の両方を強制的に変更することにより達成されて良い。目標フレームカウントは、現在連続的に現れている目標フレームの数を示すために使用されて良く、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用されて良い。
540:現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数に基づき、現在フレームのITD値を決定する。
550:現在フレームのITD値に基づき、マルチチャネル信号を符号化する。
例えば、図1に示される、モノラルオーディオ符号化、空間パラメータ符号化、及びビットストリーム多重化のような動作が実行されて良い。特定の符号化方式については、従来技術を参照する。
本願の本実施形態によると、背景雑音、反響、及び複数パーティの会話のような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
留意すべきことに、マルチチャネル信号が前のフレーム又は前のN個のフレームのマルチチャネル信号であると特に断りのない限り、以下に現れるマルチチャネル信号は現在フレームのマルチチャネル信号である。
ステップ530の前に、図5の方法は、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するステップを更に含んで良い。
具体的に、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき決定されて良い。ここで、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅の信頼性レベルを表すために使用されて良い。さらに、ステップ530は、ピーク振幅信頼性パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数を減少させるステップ、又は、ピーク振幅信頼性パラメータがプリセット条件を満たさないとき、連続的に現れることの許される目標フレームの数を不変に保つステップ、を含んで良い。例えば、ピーク振幅信頼性パラメータがプリセット条件を満たすことは、ピーク振幅信頼性パラメータの値が閾より大きいことであって良く、又は、ピーク振幅信頼性パラメータの値がプリセット範囲内であることであって良い。
本願の本実施形態では、ピーク振幅信頼性パラメータは、複数の方法で定められて良い。
例えば、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値と、マルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差であって良い。具体的に、差が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。
別の例では、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であって良い。具体的に、比が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。
別の例では、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値と目標振幅値との間の差であって良い。具体的に、差の絶対値が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。目標振幅値は、経験に基づき又は実際の例に依存して選択されて良く、或いは、固定値であって良く、或いは、現在フレームの中のプリセット位置(該位置は相互相関係数のインデックスを用いて表されて良い)の相互相関係数の振幅値であって良い。
別の例では、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値と目標振幅値との間の差の、ピーク値の振幅値に対する比であって良い。具体的に、比が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。目標振幅値は、経験に基づき又は実際の例に依存して選択されて良く、或いは、固定値であって良く、或いは、現在フレームの中のプリセット位置の相互相関係数の振幅値であって良い。
任意で、幾つかの実施形態では、ステップ530の前に、図5の方法は、マルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、現在フレームのマルチチャネル信号の相互相関係数のピーク特徴を決定するステップを更に含んで良い。
例えば、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値、及び現在フレームの前のN個のフレームのITD値に基づき、決定されて良い。ここで、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差を表すために使用されて良く、Nは1以上の正整数である。
別の例では、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックス及び現在フレームの前のN個のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき決定されて良い。ここで、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスと、現在フレームの前のN個のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスと、の間の差を表すために使用されて良い。
さらに、ステップ530は、ピーク位置変動パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数を減少させるステップ、又は、ピーク位置変動パラメータがプリセット条件を満たさないとき、連続的に現れることの許される目標フレームの数を不変に保つステップ、を含んで良い。例えば、ピーク位置変動パラメータがプリセット条件を満たすことは、ピーク位置変動パラメータの値が閾より大きいことであって良く、又は、ピーク位置変動パラメータの値がプリセット範囲内であることであって良い。例えば、ピーク位置変動パラメータがマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のフレームのITD値に基づき決定されるとき、ピーク位置変動パラメータがプリセット条件を満たすことは、ピーク位置変動パラメータの値が閾より大きいことであって良く、ここで閾は4、5、6、又は別の経験値に設定されて良く、或いは、ピーク位置変動パラメータの値がプリセット範囲内であることであって良く、ここでプリセット範囲は[6,128]又は別の経験値に設定されて良い。具体的に、閾又は値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
本願の本実施形態では、ピーク位置変動パラメータは、複数の方法で定められて良い。
例えば、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、の間の差の絶対値であって良い。
別の例では、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのITD値と、の間の差の絶対値であって良い。
別の例では、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、前のフレームのITD値と、の間の差の分散であって良く、ここでは2以上の正整数である。
任意で、幾つかの実施形態では、ステップ530の前に、図5の方法は、マルチチャネル信号の相互相関係数のピーク値の振幅及びマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するステップを更に含んで良い。
具体的に、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき決定されて良い。ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値に基づき決定される。並びに、マルチチャネル信号の相互相関係数のピーク特徴は、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータに基づき決定される。ピーク振幅信頼性パラメータ及びピーク位置変動パラメータを定める方法については、前述の実施形態を参照する。詳細事項は、ここで再び記載されない。
さらに、本実施形態では、ステップ530は、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータの両方がプリセット条件を満たす場合、連続的に現れることの許される目標フレームの数を制御するステップを含んで良い。
例えば、ピーク振幅信頼性パラメータがプリセットピーク振幅信頼性閾より大きく、且つピーク位置変動パラメータがプリセットピーク位置変動閾より大きいとき、連続的に現れることの許される目標フレームの数は減少される。具体的に、例えば、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であるとき、ピーク振幅信頼性閾は、0.1、0.2、0.3、又は別の経験値に設定されて良い。例えば、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、の間の差の絶対値であるとき、ピーク位置変動閾は、4、5、6、又は別の経験値に設定されて良い。具体的に、閾又は値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
別の例では、ピーク振幅信頼性パラメータの値が2つの閾の間であり、且つピーク位置変動パラメータがプリセットピーク位置変動閾より大きいとき、連続的に現れることの許される目標フレームの数は減少される。
別の例では、ピーク振幅信頼性パラメータの値がプリセットピーク振幅信頼性閾より大きく、且つピーク位置変動パラメータが2つの閾の間であるとき、連続的に現れることの許される目標フレームの数は減少される。
留意すべきことに、幾つかの実施形態では、上述のピーク振幅信頼性パラメータ及び/又はピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータ/1つのパラメータとして参照されて良い。この場合、ステップ530は、マルチチャネル信号の相互相関係数のピーク位置の安定度がプリセット条件を満たす場合、連続的に現れることの許される目標フレームの数を減少するステップを含んで良い。
留意すべきことに、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータが所定条件を満たすことを定める方法は、本願の本実施形態において具体的に限定されない。
任意で、マルチチャネル信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすことは、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータのうちの1又は複数の値がプリセット値範囲内にあること、又は、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータのうちの1又は複数の値がプリセット値範囲を超えていることであって良い。例えば、マルチチャネル信号の相互相関係数のピーク位置の安定度がピーク位置変動パラメータにより表され、且つピーク位置変動パラメータを計算する方法が、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値との、の間の差の絶対値に基づくとき、プリセット値範囲は以下のように設定されて良い。ピーク位置変動パラメータは、5又は別の経験値より大きい。別の例では、マルチチャネル信号の相互相関係数のピーク位置の安定度がピーク位置変動パラメータ及びピーク振幅信頼性パラメータにより表されるとき、ピーク位置変動パラメータを計算する方法は、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値との間の差の絶対値に基づき、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であり、プリセット値範囲は以下のように設定されて良い。ピーク位置変動パラメータは5より大きく、ピーク振幅信頼性パラメータは0.2より大きく、又は別の経験値範囲に設定されて良い。具体的に、値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
以下は、マルチチャネル信号の信号対雑音比パラメータに基づき、連続的に現れることの許される目標フレームの数をどのように制御するかを詳細に記載する。
マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号の信号対雑音比を表すために使用されて良い。
理解されるべきことに、マルチチャネル信号の信号対雑音比パラメータは1又は複数のパラメータにより表されて良い。パラメータを選択する特定の方法は、本願の本実施形態において限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、サブバンド信号対雑音比、修正サブバンド信号対雑音比、セグメント信号対雑音比、修正セグメント信号対雑音比、全帯域信号対雑音比、修正全帯域信号対雑音比、及びマルチチャネル信号の信号対雑音比を表すことのできる別のパラメータ、のうちの少なくとも1つにより表されて良い。
更に理解されるべきことに、マルチチャネル信号の信号対雑音比パラメータを決定する方法は、本願の本実施形態において具体的に限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号全体を用いて計算されて良い。別の例では、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号の幾つかの信号を用いて計算されて良い。つまり、マルチチャネル信号の信号対雑音比は幾つかの信号の信号対雑音比を用いて表される。別の例では、任意のチャネルの信号が、計算を実行するために、マルチチャネル信号から適応的に選択されて良い。つまり、マルチチャネル信号の信号対雑音比は、チャネルの信号の信号対雑音比を用いて表される。別の例では、先ず、新しい信号を形成するために、マルチチャネル信号を表すデータに対して加重平均が実行されて良く、次に、マルチチャネル信号の信号対雑音比が、新しい信号の信号対雑音比を用いて表される。
以下は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いて、マルチチャネル信号の信号対雑音比を計算する方法を記載する。
例えば、先ず、時間−周波数変換が左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号を取得し、左チャネル周波数信号の振幅スペクトル及び右チャネル周波数信号の振幅スペクトルに対して加重平均が実行されて、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルを取得し、次に、修正セグメント信号対雑音比が平均振幅スペクトルに基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
別の例では、先ず、時間−周波数変換が左チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号を取得し、次に、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比が、左チャネル周波数ドメイン信号の振幅スペクトルに基づき計算される。同様に、先ず、時間−周波数変換が右チャネル時間ドメイン信号に対して実行されて良く、右チャネル周波数ドメイン信号を取得し、次に、右チャネル信号の修正セグメント信号対雑音比が、右チャネル時間ドメイン信号の振幅スペクトルに基づき計算される。次に、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の平均値が、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の修正セグメント信号対雑音比に基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
マルチチャネル信号の信号対雑音比パラメータに基づき、連続的に現れることの許される目標フレームの数を制御するステップは、マルチチャネル信号の信号対雑音比パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数を減少するステップ、又は、マルチチャネル信号の信号対雑音比パラメータがプリセット条件を満たさないとき、連続的に現れることの許される目標フレームの数を不変に保つステップ、を含んで良い。例えば、マルチチャネル信号の信号対雑音比パラメータの値がプリセット閾より大きいとき、連続的に現れることの許される目標フレームの数は減少される。別の例では、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲内であるとき、連続的に現れることの許される目標フレームの数は減少される。別の例では、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲を超えるとき、連続的に現れることの許される目標フレームの数は減少される。例えば、マルチチャネル信号の信号対雑音比パラメータがセグメント信号対雑音比であるとき、プリセット閾は6000又は別の経験値であって良く、プリセット値範囲は6000より大きく3000000より小さい、又は別の経験値範囲であって良い。具体的に、閾又は値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
以上は、主に、マルチチャネル信号の相互相関係数のピーク特徴又はマルチチャネル信号の信号対雑音比パラメータに基づき、連続的に現れることの許される目標フレームの数をどのように制御するかを記載した。以下は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数をどのように制御するかを詳細に記載する。
具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット条件を満たし、且つピーク振幅信頼性パラメータ及び/又はマルチチャネル信号の相互相関係数のピーク位置変動パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数が減少されて良い。
例えば、マルチチャネル信号の信号対雑音比パラメータの値が第1閾より大きく且つ第2閾以下であり、ピーク振幅信頼性パラメータは第3閾より大きく、ピーク位置変動パラメータは第4閾より大きいとき、連続して現れることの許される目標フレームの数は減少される。例えば、マルチチャネル信号の信号対雑音比パラメータがセグメント信号対雑音比であるとき、第1閾は5000、6000、7000、又は別の経験値であって良く、第2閾は2900000、3000000、3100000、又は別の経験値範囲であって良い。ピーク振幅信頼性パラメータが、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であるとき、第3閾は、0.1、0.2、0.3、又は別の経験値に設定されて良い。ピーク位置変動パラメータが、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、の間の差の絶対値であるとき、第4閾は、4、5、6、又は別の経験値に設定されて良い。具体的に、閾は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が第1閾以上であり且つ第2閾以下であり、且つ、ピーク振幅信頼性パラメータが第5閾より小さいとき、連続して現れることの許される目標フレームの数は減少される。例えば、マルチチャネル信号の信号対雑音比パラメータがセグメント信号対雑音比であるとき、第1閾は5000、6000、7000、又は別の経験値であって良く、第2閾は2900000、3000000、3100000、又は別の経験値範囲であって良い。ピーク振幅信頼性パラメータが、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であるとき、第5閾は、0.3、0.4、0.5、又は別の経験値に設定されて良い。具体的に、閾は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
理解されるべきことに、連続的に現れることの許される目標フレームの数を減少する多くの方法が存在する。幾つかの実施形態では、連続的に現れることの許される目標フレームの数を示すために使用される値は、予め構成されて良く、連続的に現れることの許される目標フレームの数を減少する目的は、該値を減少させることにより達成されて良い。
幾つかの他の実施形態では、目標フレームカウント及び目標フレームカウントの閾は予め構成されて良い。目標フレームカウントは、現在連続的に現れている目標フレームの数を示すために使用されて良く、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用されて良い。具体的に、連続的に現れることの許される目標フレームの数は、目標フレームカウント及び目標フレームカウントの閾のうちの少なくとも1つを調整することにより減少される。例えば、連続的に現れることの許される目標フレームの数は、目標フレームカウントを増大する(又は強制的に増大するとして参照される)ことにより減少されて良い。別の例では、連続的に現れることの許される目標フレームの数は、目標フレームカウントの閾を減少することにより減少されて良い。別の例では、連続的に現れることの許される目標フレームの数は、目標フレームカウントを増大すること及び目標フレームカウントの閾を減少することにより減少されて良い。
以上は、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御する方法を記載した。幾つかの実施形態では、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数が制御される前に、先ず、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かが決定されて良い。
マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たさない場合、連続的に現れることの許される目標フレームの数は、マルチチャネル信号の相互相関係数のピーク特徴に基づき制御される。或いは、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たす場合、現在フレームの前のフレームのITD値は、現在フレームのITD値として再使用されることを直ちに停止して良い。
代替として、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たす場合、連続的に現れることの許される目標フレームの数は、マルチチャネル信号の相互相関係数のピーク特徴に基づき制御される。或いは、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たさない場合、現在フレームの前のフレームのITD値は、現在フレームのITD値として再使用されることを直ちに停止して良い。
以下は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすか否かを決定する方法、及び現在フレームの前のフレームのITD値を現在フレームのITD値として再使用するのをどのように停止するかを詳細に記載する。
先ず、マルチチャネル信号の信号対雑音比パラメータは1又は複数のパラメータにより表されて良い。パラメータを選択する特定の方法は、本願の本実施形態において限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、サブバンド信号対雑音比、修正サブバンド信号対雑音比、セグメント信号対雑音比、修正セグメント信号対雑音比、全帯域信号対雑音比、修正全帯域信号対雑音比、及びマルチチャネル信号の信号対雑音比を表すことのできる別のパラメータ、のうちの少なくとも1つにより表されて良い。
第2に、マルチチャネル信号の信号対雑音比パラメータを決定する方法は、本願の本実施形態において具体的に限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号全体を用いて計算されて良い。別の例では、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号の幾つかの信号を用いて計算されて良い。つまり、マルチチャネル信号の信号対雑音比は幾つかの信号の信号対雑音比を用いて表される。別の例では、任意のチャネルの信号が、計算を実行するために、マルチチャネル信号から適応的に選択されて良い。つまり、マルチチャネル信号の信号対雑音比は、チャネルの信号の信号対雑音比を用いて表される。別の例では、先ず、新しい信号を形成するために、マルチチャネル信号を表すデータに対して加重平均が実行されて良く、次に、マルチチャネル信号の信号対雑音比が、新しい信号の信号対雑音比を用いて表される。
以下は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いて、マルチチャネル信号の信号対雑音比を計算する方法を記載する。
例えば、先ず、時間−周波数変換が左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号を取得し、左チャネル周波数信号の振幅スペクトル及び右チャネル周波数信号の振幅スペクトルに対して加重平均が実行されて、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルを取得し、次に、修正セグメント信号対雑音比が平均振幅スペクトルに基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
別の例では、先ず、時間−周波数変換が左チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号を取得し、次に、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比が、左チャネル周波数ドメイン信号の振幅スペクトルに基づき計算される。同様に、先ず、時間−周波数変換が右チャネル時間ドメイン信号に対して実行されて良く、右チャネル周波数ドメイン信号を取得し、次に、右チャネル周波数ドメイン信号の修正セグメント信号対雑音比が、右チャネル周波数ドメイン信号の振幅スペクトルに基づき計算される。次に、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の平均値が、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の修正セグメント信号対雑音比に基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値が現在フレームのITD値として再使用されるのを停止するステップは、マルチチャネル信号の信号対雑音比パラメータの値がプリセット閾より大きいとき、現在フレームの前のフレームのITD値を再使用することを停止するステップ、例えば、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲内にあるとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するステップ、別の例では、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲を超えるとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するステップ、を含んで良い
さらに、幾つかの実施形態では、現在フレームの前のフレームのITD値を再使用することを停止するステップは、目標フレームカウントの値が目標フレームカウントの閾以上になるように、目標フレームカウントを増大する(又は強制的に増大するとして参照される)ステップを含んで良い。幾つかの他の実施形態では、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するステップは、停止フラグビットの幾つかの値が、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止することを表すように、停止フラグビットを設定するステップを含んで良い。例えば、停止フラグビットが1に設定される場合、これは、現在フレームの前のフレームのITD値が、現在フレームのITD値として再使用されることを停止することを示し、或いは、停止フラグビットが0に設定される場合、これは、現在フレームの前のフレームのITD値が現在フレームのITD値として再使用されることが許可されることを示す。
特定の例を参照して、以下は、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止する方法を詳細に記載する。
例えば、マルチチャネル信号の信号対雑音比パラメータの値が閾より小さいとき、修正値が目標フレームカウントの閾以上になるように、目標フレームカウントの値は強制的に修正される。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が閾より大きいとき、修正値が目標フレームカウントの閾以上になるように、目標フレームカウントの値は強制的に修正される。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が閾より小さいか又は別の閾より大きいかに関わらず、修正値が目標フレームカウントの閾以上になるように、目標フレームカウントの値は強制的に修正される。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が閾より小さい又は別の閾より大きいとき、停止フラグビットは1に設定される。
留意すべきことに、ステップ540で現在フレームのITD値を決定する複数の方法が存在して良い。これは、本願の本実施形態において具体的に限定されない。
任意で、幾つかの実施形態では、現在フレームのITD値は、現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数の正確さのような要因の包括的検討に基づき決定されて良い(連続的に現れることの許される目標フレームの数は、制御又は調整がステップ530に基づき実行された後に得られる数であって良い)。
任意で、幾つかの他の実施形態では、現在フレームのITD値は、現在フレームの初期ITD値、連続的に現れることの許される目標フレームの数(連続的に現れることの許される目標フレームの数は、制御又は調整がステップ530に基づき実行された後に得られる数であって良い)の正確さ、及び現在フレームが連続音声フレームであるか否か、のような要因の包括的検討に基づき決定されて良い。例えば、現在フレームの初期ITD値の信頼性レベルが高い場合、現在フレームの初期ITD値は、現在フレームのITD値として直接使用されて良い。別の例では、現在フレームの初期ITD値の信頼性レベルが低く、且つ現在フレームが現在フレームの前のフレームのITD値を再使用する条件を満たすとき、現在フレームの前のフレームのITD値は現在フレームのために再使用されて良い。
理解されるべきことに、現在フレームの初期ITD値の信頼性レベルを計算する複数の方法が存在して良い。これは、本願の本実施形態において具体的に限定されない。
例えば、初期ITD値に対応し且つマルチチャネル信号の相互相関係数の値の中の相互相関係数の値がプリセット閾より大きい場合、初期ITD値の信頼性レベルは高いと考えられて良い。
別の例では、初期ITD値に対応し且つマルチチャネル信号の相互相関係数の値の中の相互相関係数の値と、マルチチャネル信号の相互相関係数の2番目に大きい値と、の間の差がプリセット閾より大きい場合、初期ITD値の信頼性レベル値は高いと考えられて良い。
別の例では、マルチチャネル信号の相互相関係数のピーク値の振幅値がプリセット閾より大きい場合、これは、初期ITD値の信頼性レベルが高いと考えられて良い。
理解されるべきことに、現在フレームが現在フレームの前のフレームのITD値を再使用する条件を満たすか否かを決定する複数の方法が存在して良い。
任意で、幾つかの実施形態では、現在フレームが、現在フレームの前のフレームのITD値を再使用する条件を満たすことは、目標フレームカウントが目標フレームカウントの閾より小さいことであって良い。
任意で、幾つかの実施形態では、現在フレームが現在フレームの前のフレームのITD値を再使用する条件を満たすことは、現在フレームの音声活性化検出結果が、現在フレーム及び現在フレームの前のN個(Nは1より大きい正整数である)のフレームが連続音声フレームを形成することであって良い。この場合、現在フレームの前のフレームのITD値は、第1プリセット値に等しくない場合(フレームのITD値が第1プリセット値である場合、フレームの、計算を通じて取得されたITD値は、不正確さのために強制的に第1プリセット値に設定される)、現在フレームのITD値は第1プリセット値に等しく、目標フレームカウントは目標フレームカウントの閾より小さい。例えば、現在フレームの音声活性化検出結果及び現在フレームの前のN個(Nは1より大きい正整数である)のフレームの音声活性化検出結果の両方が音声フレームを示すとき、現在フレームの前のフレームのITD値が0に等しくないならば、現在フレームのITD値は強制的に0に設定され、目標フレームカウントは目標フレームカウントの閾より小さくされる。次に、現在フレームの前のフレームのITD値は、現在フレームのITD値として再使用されて良く、目標フレームカウントの値は増大される。留意すべきことに、現在フレームのITD値を0に強制的に設定する複数の方法が存在して良い。例えば、現在フレームのITD値は0に変更されて良く、或いは、現在フレームのITD値が強制的に0に設定されたことを表すためにフラグビットが設定されて良い。或いは、前述の2つの方法が結合されて良い。
以下は、特定の例を参照して本願の実施形態を詳細に記載する。留意すべきことに、図6の例は、当業者が本願の実施形態を理解するのを助けることを単に意図しており、本願の実施形態を例の中の特定値又は特定シナリオに限定するのではない。明らかに、従来技術において当業者は、図6に示す例に基づき、本願の実施形態の範囲内にも包含される変更又は変形のような種々の等価な変更又は変形を実行する場合がある。
図6は、本願の一実施形態によるマルチチャネル信号を符号化する方法の概略フローチャートである。理解されるべきことに、図6に示す処理ステップ又は動作は単なる例であり、他の動作又は図6の動作の変形が、本願の本実施形態において更に実行されて良い。さらに、図6のステップは、図6に示されたものと異なる順序で実行されて良く、図6の幾つかの動作は実行される必要がなくて良い。図6は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いて記載される。更に理解されるべきことに、図6の実施形態におけるマルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータは、上述のピーク振幅信頼性パラメータ及び/又はピーク位置変動パラメータであって良い。
図6の方法は以下のステップを含む。
602:左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して、時間−周波数変換を実行する。
具体的に、現在フレームのm番目のサブフレームの左チャネル時間ドメイン信号はxm,left(n)により表されて良く、m番目のサブフレームの右チャネル時間ドメイン信号はxm,right(n)により表されて良い。ここで、m=0、1、...、SUBFR_NUM−1であり、SUBFR_NUMはオーディオフレームに含まれるサブフレームの数であり、nはサンプルのインデックス値であり、n=0、1、...、N−1であり、Nは、m番目のサブフレームの左チャネル時間ドメイン信号又は右チャネル時間ドメイン信号に含まれるサンプルの数である。マルチチャネル信号が16KHzのサンプリングレートを有し、オーディオフレームの長さが20msである一例では、オーディオフレームの左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号は、それぞれ、320個のサンプルを含む。オーディオフレームが2つのサブフレームに分割され、且つ各サブフレームの左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号が、それぞれ160個のサンプルを含む場合、Nは160に等しい。
L個のサンプルに基づく高速フーリエ変換は、xm,left(n)及びxm,right(n)に対して別個に実行され、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)を取得する。ここで、k=0、1、...、L−1であり、Lは高速フーリエ変換長であり、例えばLは400又は800であって良い。
604及び605。左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号に基づき修正セグメント信号対雑音比を計算し、修正セグメント信号対雑音比に基づき言語活性化検出を実行する。
具体的に、Xm,left(k)及びXm,right(k)に基づき修正セグメント信号対雑音比を計算する複数の方法が存在する。以下は、具体的な計算方法を提供する。
ステップ1。Xm,left(k)及びXm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)を計算する。
例えば、SPDm(k)は式(5)に従い計算されて良い。
SPDm(k)=A*SPDm,left(k)+(1−A)SPDm,right(k) (5)
ここで、
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2; 且つ、
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2
ここで、k=1、...、L/2−1、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは通常0.5、0.4、0.3、又は別の経験値であって良い。
ステップ2。m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)に基づき、サブバンドエネルギE_bandm(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数である。
例えば、E_band(i)は式(6)を用いて計算されて良い。
ここで、band_tbは、サブバンド分割に使用されるプリセットテーブルであり、band_tb[i]はi番目のサブバンドの下限周波数ビンであり、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンである。
ステップ3。サブバンドエネルギE_band(i)及びサブバンド雑音エネルギ推定E_band_n(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。
例えば、mssnrは式(7)及び式(8)を用いて計算されて良い。
ここで、msnr(i)<Gならば、msnr(i)=msnr(i)
2/Gである。
ここで、msnr(i)は修正サブバンド信号対雑音比であり、Gはプリセットサブバンド信号対雑音比修正閾であり、Gは通常5、6、7、又は別の経験値であって良い。理解されるべきことに、修正セグメント信号対雑音比を計算する複数の方法が存在し、これは本願明細書において単なる一例である。
ステップ4。修正セグメント信号対雑音比及びサブバンドエネルギE_band(i)に基づき、サブバンド雑音エネルギ推定E_band_n(i)を更新する。
具体的に、先ず、平均サブバンドエネルギenergyが式(9)に従い計算されて良い。
VADカウントvad_fm_cntがプリセット初期設定雑音フレーム長より少ない場合、VADカウントは増大されて良い。プリセット初期設定雑音長は、通常、プリセット経験値であり、例えば29、30、31、又は別の経験値であって良い。
VADカウントvad_fm_cntがプリセット初期設定雑音フレーム長より少なく、且つ平均サブバンドエネルギが雑音エネルギ閾ener_thより少ない場合、サブバンド雑音エネルギE_band_n(i)は更新されて良く、雑音エネルギ更新フラグが1に設定される。雑音エネルギ閾は、通常、プリセット経験値であり、例えば35000000、40000000、45000000、又は別の経験値であって良い。
具体的に、サブバンド雑音エネルギは、式(10)を用いて更新されて良い。
ここで、E_band_n
n−1(i)は過去のサブバンド雑音エネルギであり、例えば更新前のサブバンド雑音エネルギであって良い。
或いは、修正セグメント信号対雑音比が雑音更新閾thUPDATEより少ない場合、サブバンド雑音エネルギE_band_n(i)も更新されて良く、雑音エネルギ更新フラグは1に設定される。雑音更新閾thUPDATEは、4、5、6、又は別の経験値であって良い。
具体的に、サブバンド雑音エネルギは、式(11)を用いて更新されて良い。
E_band_n(i)=(1−update_fac)E_band_nn−1(i)+update_fac*E_band(i) (11)
ここで、update_facは、指定雑音更新レートであり、0と1の間の定数値であって良く、例えば0.03、0.04、0.05、又は別の経験値であって良く、E_band_nn−1(i)は過去のサブバンド雑音エネルギであり、例えば更新前のサブバンド雑音エネルギであって良い。
さらに、サブバンド信号対雑音比の計算の効果を保証するために、更新サブバンド雑音エネルギの値は制限されて良く、例えばE_band_n(i)の最小値が1に制限されて良い。
留意すべきことに、修正セグメント信号対雑音比及びE_band(i)に基づきE_band_n(i)を更新する多くの方法が存在する。これは、本願の本実施形態において具体的に限定されず、これは本願明細書における単なる一例である。
次に、修正セグメント信号対雑音比に基づき、m番目のサブフレームに対して音声活性化検出が実行されて良い。具体的に、修正セグメント信号対雑音比が音声活性化検出閾thVADより大きい場合、m番目のサブフレームは音声フレームであり、この場合、m番目のサブフレームの音声活性化検出フラグvad_flag[m]は1に設定される。その他の場合、m番目のサブフレームは背景雑音フレームであり、この場合、m番目のサブフレームの音声活性化検出フラグvad_flag[m]は0に設定されて良い。音声活性化検出閾thVADは、3500、4000、4500、又は別の経験値であって良い。
606〜608。左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号に基づき、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数を計算し、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数に基づき、現在フレームの初期ITD値を計算する。
Xm,left(k)及びXm,right(k)に基づき、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数Xcorr(t)を計算する複数の方法が存在し得る。以下は、特定の実装を提供する。
先ず、m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関パワースペクトルXcorrm(k)が、式(12)に従い計算される。
Xcorrm(k)=Xm,left(k)*Xm,right*(k) (12)
次に、式(13)に従い、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関パワースペクトルに対して、平滑化処理が実行されて、平滑化相互相関パワースペクトルXcorr_smooth(k)を得る。
Xcorr_smooth(k)=smooth_fac*Xcorr_smooth(k)+(1−smooth_fac)*Xcorrm(k) (13)
ここで、smooth_facは平滑化係数であり、平滑化係数は0と1の間の任意の正数であって良く、例えば0.4、0.5、0.6、又は別の経験値であって良い。
次に、Xcorr(t)が、Xcorr_smooth(k)に基づき及び式(14)を用いて計算されて良い。
ここで、IDFT(*)は逆フーリエ変換を示し、計算に含まれるITD値の値範囲は[−ITD_MAX, ITD_MAX]であって良く、ITD値の値範囲に基づきXcorr(t)に対して遮断及び並べ替えが実行されて、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の、現在フレームの初期ITD値を決定するために使用される相互相関係数Xcorr_itd(t)を取得し、この場合、t=0、...、2*ITD_MAXである。
次に、現在フレームの初期ITD値が、Xcorr_itd(t)に基づき及び式(15)を用いて推定されて良い。
ITD=argmax(Xcorr_itd(t))−ITD_MAX (15)
610〜612。現在フレームの初期ITD値の信頼性レベルを決定する。初期ITD値の信頼性レベルが高い場合、目標フレームカウントはプリセット初期値に設定されて良い。
具体的に、現在フレームの初期ITD値の信頼性レベルが先ず決定されて良い。複数の特定決定方法が存在し得る。以下は、例を用いて説明を提供する。
例えば、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値は、プリセット閾と比較されて良い。振幅値がプリセット閾より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられ得る。
別の例では、先ず、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の値は、振幅値の降順にソートされて良い。次に、プリセット位置(位置は相互相関係数のインデックス値を用いて表されて良い)にある目標相互相関係数が、相互相関係数のソートされた値から選択されて良い。次に、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値は、目標相互相関係数の振幅値と比較される。振幅値の間の差がプリセット閾より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。振幅値の間の比がプリセット閾より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。或いは、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の相互相関係数の振幅値が目標相互相関係数の振幅値より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。
さらに、目標相互相関係数が取得された後に、先ず、目標相互相関係数は更に修正されて良い。次に、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値は、修正目標相互相関係数の振幅値と比較される。次に、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値が、修正目標相互相関係数の振幅値より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。
現在フレームの初期ITD値の信頼性レベルが高い場合、初期ITD値は現在フレームのITD値として使用されて良い。さらに、正確なITD値計算を示すフラグビットitd_cal_flagがプリセットされて良い。現在フレームの初期ITD値の信頼性レベルが高い場合、itd_cal_flagは1に設定されて良い。或いは、現在フレームの初期ITD値の信頼性レベルが低い場合、itd_cal_flagは0に設定されて良い。
さらに、現在フレームの初期ITD値の信頼性レベルが高い場合、目標フレームカウントはプリセット初期値に設定されて良く、例えば、目標フレームカウントは0又は1に設定されて良い。
614:初期ITD値の信頼性レベルが低い場合、ITD値修正が初期ITD値に対して実行されて良い。ITD値を修正する多くの方法が存在し得る。例えば、ハングオーバ処理がITD値に対して実行されて良く、又は、ITD値が2つの隣接フレームの相関に基づき修正されて良い。これは、本願の本実施形態において具体的に限定されない。
616〜618。前のフレームのITD値が現在フレームのために再使用されるか否かを決定する。前のフレームのITD値が現在フレームのために再使用される場合、目標フレームカウントの値を増大する。
620〜622。修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たすか否かを決定する。修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たす場合、前のフレームのITD値を現在フレームのITD値として再使用することを停止する。例えば、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するために、修正目標フレームカウントが目標フレームカウントの閾以上になるように(閾は、連続的に現れることの許される目標フレームの数を示して良い)、目標フレームカウントの値が修正されて良い。
修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たすか否かを決定する複数の方法が存在し得る。任意で、幾つかの実施形態では、修正セグメント信号対雑音比が第1閾より小さい又は第2閾より大きいとき、これは、修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たすと考えられて良い。この場合、修正目標フレームカウントが目標フレームカウントの閾以上になるように、目標フレームカウントの値が修正されて良い。
例えば、高信号対雑音比音声閾HIGH_SNR_VOICE_THが10000にプリセットされると仮定すると、第1閾はA1*HIGH_SNR_VOICE_THに設定されて良く、第2閾はA2*HIGH_SNR_VOICE_THに設定され、ここでA1及びA2は正実数であり、A1<A2である。ここで、A1は0.5、0.6、0.7、又は別の経験値であって良く、A2は290、300、310、又は別の経験値であって良い。目標フレームカウントの閾は、9、10、11、又は別の経験値に等しくて良い。
624:修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たさない場合、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータを計算する。
具体的に、修正セグメント信号対雑音比が第1閾以上であり且つ第2閾以下である場合、これは、修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たさないと考えられて良い。この場合、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータが計算される。
本実施形態では、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータは、パラメータグループであって良いパラメータグループは、相互相関係数のピーク振幅信頼性パラメータpeak_mag_prob及びピーク位置変動パラメータpeak_pos_flucを含んで良い。
具体的に、peak_mag_probは以下の方法で計算されて良い。
先ず、左チャネル周波数ドメイン信号及び右ャネル周波数ドメイン信号の相互相関係数の値Xcorr_itd(t)が振幅値の降順又は昇順にソートされ、peak_mag_probは、式(16)を用いて、左チャネル周波数ドメイン信号及び右ャネル周波数ドメイン信号の相互相関係数のソートされた値Xcorr_itd(t)に基づき計算される。
ここで、Xは左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の格納された値のピーク位置のインデックスを表し、Yは左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の格納された値のプリセット位置のインデックスを表す。例えば、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の値Xcorr_itd(i)は、振幅値の昇順に格納され、Xの位置は2*ITD_MAXであり、Yの位置は2*ITD_MAX−1であって良い。この場合、本願の本実施形態において、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク値の振幅値と、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の2番目に大きい値の振幅値と、の間の差の、ピーク値の振幅値に対する比が、相互相関係数のピーク振幅信頼性パラメータ、つまりpeak_mag_probとして使用される。勿論、これは、peak_mag_probを選択する単なる1つの方法である。
さらに、また、peak_pos_flucを計算する複数の方法が存在し得る。任意で、幾つかの実施形態では、peak_pos_flucは、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のN個のフレームのITD値に基づく計算を通じて取得されて良い。ここでNは1以上の整数である。任意で、幾つかの実施形態では、peak_pos_flucは、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックス並びに現在フレームの前のN個のフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックスに基づく計算を通じて取得されて良い。ここでNは1以上の整数である。
例えば、式(17)を参照すると、peak_pos_flucは、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのITD値と、の間の差の絶対値であって良い。
peak_pos_fluc=abs(argmax(Xcorr(t))−ITD_MAX−prev_itd) (17)
ここで、prev_itdは現在フレームの前のフレームのITD値を表し、abs(*)は絶対値を取得する演算を表し、argmaxは最大値の位置を検索する演算を表す。
626〜628。左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすか否かを決定し、安定度がプリセット条件を満たす場合、目標フレームカウントを増大する。
言い換えると、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数が減少される。
例えば、peak_mag_probがピーク振幅信頼性閾thprobより大きく、且つpeak_pos_flucがピーク位置変動閾thflucより大きい場合、目標フレームカウントは増大される。本願の本実施形態では、ピーク振幅信頼性閾thprobは0.1、0.2、0.3、又は別の経験値に設定されて良く、ピーク位置変動閾thflucは4、5、6、又は別の経験値に設定されて良い。
理解されるべきことに、目標フレームカウントを増大する複数の方法が存在し得る。
任意で、幾つかの実施形態では、目標フレームカウントは1だけ直接増大されて良い。
任意で、幾つかの実施形態では、目標フレームカウントの増大量は、修正セグメント信号対雑音比及び/又は異なるチャネルの間の相互相関係数のピーク位置の安定度を表すパラメータのグループのうちの1又は複数に基づき、制御されて良い。
例えば、R1≦mssnr<R2の場合、目標フレームカウントは1だけ増大され、R2≦mssnr<R3の場合、目標フレームカウントは2だけ増大され、又はR3≦mssnr≦R4の場合、目標フレームカウントは3だけ増大される。ここで、R1<R2<R3<R4である。
別の例では、U1<peak_mag_prob<U2且つpeak_pos_fluc>thflucの場合、目標フレームカウントは1だけ増大され、U2<peak_mag_prob<U3且つpeak_pos_fluc>thflucの場合、目標フレームカウントは2だけ増大され、又はU3≦peak_mag_prob且つpeak_pos_fluc>thflucの場合、目標フレームカウントは3だけ増大される。ここで、U1はピーク振幅信頼性閾thprobであって良く、U1<U2<U3である。
630〜634。現在フレームが現在フレームの前のフレームのITD値を再使用するための条件を満たすか否かを決定し、現在フレームが条件を満たす場合、現在フレームの前のフレームのITD値を現在フレームのITD値として使用し、目標フレームカウントを増大し、又はその他の場合、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用するステップをスキップし、次のフレームにおける処理を実行する。
留意すべきことに、現在フレームが現在フレームの前のフレームのITD値を再使用するための条件を満たすか否かは、本願の本実施形態において具体的に限定されない。条件は、初期ITD値の正確さ、目標フレームカウントが閾に達したか否か、及び現在フレームが連続音声フレームか否か、のような1又は複数の要因に基づき設定されて良い。
例えば、現在フレームのm番目のサブフレームの音声活性化検出結果及び前のフレームの音声活性化検出結果の両方が音声フレームを示す場合、前のフレームのITD値が0に等しくないならば、現在フレームの初期ITD値が0に等しいとき、現在フレームの初期ITD値の信頼性レベルは低く(初期ITD値の信頼性レベルはitd_cal_flagの値を用いて特定されて良い、例えば、itd_cal_flagが1に等しくない場合、これは、初期ITD値の信頼性レベルが低いことを示し、詳細についてはステップ612の説明を参照する)、目標フレームカウントが目標フレームカウントの閾より少なく、現在フレームの前のフレームのITD値が現在フレームのITD値として使用されて良く、目標フレームカウントは増大される。
さらに、現在フレームの音声活性化検出結果及び現在フレームの前のフレームのm番目のサブフレームの音声活性化検出結果の両方が音声フレームを示す場合、前のフレームの音声活性化検出結果フラグビットpre_vadは、音声フレームフラグに更新されて良く、つまりpre_vadが1に等しく、その他の場合、前のフレームの音声活性化検出結果pre_vadは、背景雑音フレームフラグに更新され、つまりpre_vadが0に等しい。
以上は、ステップ604を参照して、修正セグメント信号対雑音比を計算する方法を詳細に記載した。しかしながら、本願の本実施形態はこれに限定されない。以下は、修正セグメント信号対雑音比の別の実装を提供する。
任意で、幾つかの実施形態では、修正セグメント信号対雑音比は以下の方法で計算されて良い。
ステップ1。式(18)及び(19)を用いて、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,left(k)、及びm番目のサブフレームの右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,right(k)を計算する。
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2 (18)
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2 (19)
ここで、k=1、...、L/2−1であり、Lは高速フーリエ変換長であり、例えばLは400又は800であって良い。
ステップ2。式(20)及び(21)を用いて、SPD
m,left(k)及びSPD
m,right(k)に基づき、現在フレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPD
left(k)及びSPD
right(k)を計算する。
代替として、式は以下であって良い。
ここで、SUBFR_NUMは音声フレームに含まれるサブフレームの数を表す。
ステップ3。式(22)を用いて、SPDleft(k)及びSPDright(k)に基づき、現在フレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPD(k)を計算する。
SPD(k)=A*SPDleft(k)+(1−A)SPDright(k) (22)
ここで、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは0.4、0.5、0.6又は別の経験値であって良い。
ステップ4。式(23)を用いて、SPD(k)に基づき、サブバンドエネルギE_band(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数を表す。
ここで、band_tbは、サブバンド分割に使用されるプリセットテーブルを表し、band_tb[i]はi番目のサブバンドの下限周波数ビンを表し、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンを表す。
ステップ5。E_band(i)及びサブバンド雑音エネルギ推定E_band_n(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。具体的に、mssnrは式(7)及び式(8)に記載された実装を用いて計算されて良い。詳細事項は、ここで再び記載されない。
ステップ6。E_band(i)に基づきE_band_n(i)を更新する。具体的に、E_band_n(i)は式(9)〜式(11)に記載された実装を用いて更新されて良い。詳細事項は、ここで再び記載されない。
任意で、幾つかの他の実施形態では、修正セグメント信号対雑音比は以下の方法で計算されて良い。
ステップ1。式(24)及び(25)を用いて、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,left(k)、及びm番目のサブフレームの右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,right(k)を計算する。
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2 (24)
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2 (25)
ここで、k=1、...、L/2−1であり、Lは高速フーリエ変換長であり、例えばLは400又は800であって良い。
ステップ2。式(26)を用いて、SPDm,left(k)及びSPDm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)を計算する。
SPDm(k)=A*SPDm,left(k)+(1−A)SPDm,right(k) (26)
ここで、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは0.4、0.5、0.6又は別の経験値であって良い。
ステップ3。式(27)を用いて、SPDm(k)に基づき、現在フレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPD(k)を計算する。
ステップ4。式(28)を用いて、SPD(k)に基づき、サブバンドエネルギE_band(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数である。
ここで、band_tbは、サブバンド分割に使用されるプリセットテーブルを表し、band_tb[i]はi番目のサブバンドの下限周波数ビンを表し、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンを表す。
ステップ5。E_bandm(i)及びサブバンド雑音エネルギ推定E_band(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。具体的に、mssnrは式(7)及び式(8)に記載された実装を用いて計算されて良い。詳細事項は、ここで再び記載されない。
ステップ6。E_band(i)に基づきE_band_n(i)を更新する。具体的に、E_band_n(i)は式(9)〜式(11)に記載された実装を用いて更新されて良い。詳細事項は、ここで再び記載されない。
任意で、幾つかの他の実施形態では、修正セグメント信号対雑音比は以下の方法で計算されて良い。
ステップ1。式(29)を用いて、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号及びm番目のサブフレームの右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)を計算する。
SPDm(k)=A*SPDm,left(k)+(1−A)SPDm,right(k) (29)
ここで、
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2; 且つ、
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2
ここで、k=1、...、L/2−1、Lは高速フーリエ変換長であり、例えばLは400又は800であって良く、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは0.4、0.5、0.6又は別の経験値であって良い。
ステップ2。ステップ(30)を用いて、SPD
m(k)に基づき、m番目のサブフレームのサブバンドエネルギE_band
m(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数である。
ここで、band_tbは、サブバンド分割に使用されるプリセットテーブルを表し、band_tb[i]はi番目のサブバンドの下限周波数ビンを表し、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンを表す。
ステップ3。式(31)を用いて、m番目のサブフレームのサブバンドエネルギE_band
m(i)に基づき、現在フレームのサブバンドエネルギE_band(i)を計算する。
ステップ4。E_band(i)及びサブバンド雑音エネルギ推定E_band_n(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。具体的に、mssnrは式(7)及び式(8)に記載された実装を用いて計算されて良い。詳細事項は、ここで再び記載されない。
ステップ5。E_band(i)に基づきE_band_n(i)を更新する。具体的に、E_band_n(i)は式(9)〜式(11)に記載された実装を用いて更新されて良い。詳細事項は、ここで再び記載されない。
以上は、ステップ605を参照して、音声活性化検出の実装を詳細に記載した。しかしながら、本願の本実施形態はこれに限定されない。以下は、音声活性化検出の別の実装を提供する。
具体的に、修正セグメント信号対雑音比が音声活性化検出閾thVADより大きい場合、現在フレームは音声フレームであり、現在フレームの音声活性化検出フラグvad_flagは1に設定される。その他の場合、現在フレームは背景雑音フレームであり、この場合、現在フレームの音声活性化検出フラグvad_flagは0に設定される。音声活性化検出閾thVADは、通常経験値であり、ここでは3500、4000、4500、等であって良い。
相応して、ステップ630〜634の実装は、以下の実装に修正されて良い。
現在フレームの音声活性化検出結果及び前のフレームの音声活性化検出結果pre_vadの両方が音声フレームを示すとき、前のフレームのITD値が0に等しくない場合、現在フレームのITD値は0に等しく、現在フレームのITD値の信頼性レベルは低く(初期ITD値の信頼性レベルはitd_cal_flagの値を用いて特定されて良い、例えば、itd_cal_flagが1に等しくない場合、これは、初期ITD値の信頼性レベルが低いことを示し、詳細についてはステップ612の説明を参照する)、目標フレームカウントが目標フレームカウントの閾より少なく、前のフレームのITD値が現在フレームのITD値として使用され、目標フレームカウントは増大される。
現在フレームの音声活性化検出結果が音声フレームを示す場合、前のフレームの音声活性化検出結果pre_vadは音声フレームフラグに更新され、つまり、pre_vadは1に等しい。その他の場合、前のフレームの音声活性化検出結果pre_vadは背景雑音フレームフラグに更新され、つまり、pre_vadは0に等しい。
ステップ626〜628を参照して、以上は、連続的に現れることの許される目標フレームの数を調整し又は制御する方法を詳細に記載した。しかしながら、本願の本実施形態はこれに限定されない。以下は、連続的に現れることの許される目標フレームの数を調整し又は制御する別の方法を提供する。
任意で、幾つかの実施形態では、先ず、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすか否かが決定され、安定度がプリセット条件を満たす場合、目標フレームカウントの閾が減少される。言い換えると、本願の本実施形態では、連続的に現れることの許される目標フレームの数は、目標フレームカウントの閾を減少することにより減少される。
留意すべきことに、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすか否かを決定する複数の方法が存在し得る。これは、本願の本実施形態において具体的に限定されない。例えば、プリセット条件は以下であって良い:左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク振幅信頼性パラメータは、プリセットピーク振幅信頼性閾より大きく、ピーク位置変動パラメータはプリセットピーク位置変動閾より大きいく、ここで、ピーク振幅信頼性閾は0.1、0.2、0.3、又は別の経験値であって良く、ピーク位置変動閾は4、5、6、又は別の経験値であって良い。
留意すべきことに、目標フレームカウントの閾を減少する複数の方法が存在し得る。これは、本願の本実施形態において具体的に限定されない。
任意で、幾つかの実施形態では、目標フレームカウントの閾は1だけ直接減少されて良い。
任意で、幾つかの他の実施形態では、目標フレームカウントの閾の減少量は、修正セグメント信号対雑音比及び/又は左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータのグループのうちの1又は複数に基づき、制御されて良い。
例えば、R1≦mssnr<R2の場合、目標フレームカウントの閾は1だけ減少されて良く、R2≦mssnr<R3の場合、目標フレームカウントの閾は2だけ減少されて良く、又はR3≦mssnr≦R4の場合、目標フレームカウントの閾は3だけ減少されて良く、ここで、R1、R2、R3、R4はR1<R2<R3<R4を満たす。
別の例では、U1<peak_mag_prob<U2且つpeak_pos_fluc>thflucの場合、目標フレームカウントの閾は1だけ減少されて良く、U2<peak_mag_prob<U3且つpeak_pos_fluc>thflucの場合、目標フレームカウントの閾は2だけ減少されて良く、又はU3≦peak_mag_prob且つpeak_pos_fluc>thflucの場合、目標フレームカウントの閾は3だけ減少されて良く、ここで、U1、2、及びU3はU1<U2<U3を満たして良く、U1は上述のピーク振幅信頼性閾thprobであって良い。
ステップ624を参照して、以上は、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータを計算する方法を詳細に記載した。ステップ624では、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータは、主に2つのパラメータ:ピーク振幅信頼性パラメータpeak_mag_prob及びピーク位置変動パラメータpeak_pos_flucを含む。しかしながら、本願の本実施形態はこれに限定されない。
任意で、幾つかの実施形態では、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータは、peak_pos_flucのみを含んで良い。相応して、ステップ626は、peak_pos_flucがピーク位置変動閾thflucより大きい場合、目標フレームカウントを増大する、に変更されて良い。
任意で、幾つかの他の実施形態では、異なるチャネルの間の相互相関係数のピーク位置の安定度を表すパラメータは、peak_mag_prob及びpeak_pos_flucに対して線形及び/又は非線形演算が実行された後に得られたピーク位置安定性パラメータpeak_stableであって良い。
例えば、peak_stable、peak_mag_prob、及びpeak_pos_flucの間の関係は、式(32)を用いて表され得る。
peak_stable=peak_mag_prob/(peak_pos_fluc)p (32)
別の例では、peak_stable、peak_mag_prob、及びpeak_pos_flucの間の関係は、式(33)を用いて表され得る。
peak_stable=diff_factor[peak_pos_fluc]*peak_mag_prob (33)
ここで、diff_factorは隣接フレームのITD値のプリセット差係数シーケンスを表し、diff_factorは隣接フレームのITD値のものであり且つpeak_pos_flucの全ての可能な値に対応する差係数を含んで良く、diff_factorは経験に基づき設定されて良く、又は大量データに基づくトレーニングを通じて取得されて良く、Pは左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置変動影響指数を表して良く、Pは1以上の正整数であって良く、例えばPは1、2、3、又は別の経験値であって良い。
相応して、ステップ626は、peak_stableがプリセットピーク位置安定性閾より大きい場合、目標フレームカウントを増大する、に変更されて良い。ここで、プリセットピーク位置安定性閾は、0以上の正実数であって良く、又は別の経験値であって良い。
さらに、幾つかの実施形態では、平滑化ピーク位置安定性パラメータlt_peak_stableを得るために、peak_stableに対して平滑化処理が実行されて良く、後の決定はlt_peak_stableに基づき実行される。
具体的に、lt_peak_stableは式(34)を用いて計算されて良い。
lt_peak_stable=(1−alpha)*lt_peak_stable+alpha*peak_stable (34)
ここで、alphaは長期平滑化係数を表し、通常、0以上且つ1以下の正実数であって良く、例えばalphaは0.4、0.5、0.6、又は別の経験値であって良い。
相応して、ステップ626は、lt_peak_stableがプリセットピーク位置安定性閾より大きい場合、目標フレームカウントを増大する、に変更されて良い。ここで、プリセットピーク位置安定性閾は、0以上の正実数であって良く、又は別の経験値であって良い。
以下は、本願の装置実施形態を記載する。装置実施形態は、前述の方法を実行するために用いられて良い。したがって、詳細に記載されない部分については、前述の方法実施形態を参照する。
図7は、本願の一実施形態によるエンコーダの概略ブロック図である。図7のエンコーダ700は、
現在フレームのマルチチャネル信号を取得するよう構成される取得ユニット710と、
現在フレームの初期ITD値を決定するよう構成される第1決定ユニット720と、
マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御するよう構成される制御ユニットであって、特性情報は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、目標フレームの前のフレームのITD値は目標フレームのITD値として再使用される、制御ユニット730と、
現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数に基づき、現在フレームのITD値を決定するよう構成される第2決定ユニット740と、
現在フレームのITD値に基づき、マルチチャネル信号を符号化するよう構成される符号化ユニット750と、を含む。
本願の本実施形態によると、背景雑音、反響、及び複数パーティの会話にような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
任意で、幾つかの実施形態では、エンコーダ700は、マルチチャネル信号の相互相関係数のピーク値の振幅及びマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するよう構成される第3決定ユニット、を更に含む。
任意で、幾つかの実施形態では、第3決定ユニットは、具体的に、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき、ピーク振幅信頼性パラメータを決定し、ピーク振幅信頼性パラメータはマルチチャネル信号の相互相関係数のピーク値の振幅の信頼性レベルを表し、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定し、ピーク位置変動パラメータはマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差を表し、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定する、よう構成される。
任意で、幾つかの実施形態では、第3決定ユニットは、具体的に、ピーク振幅信頼性パラメータとして、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比を決定するよう構成される。
任意で、幾つかの実施形態では、第3決定ユニットは、具体的に、ピーク位置変動パラメータとして、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差の絶対値を決定するよう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御し、マルチチャネル信号の相互相関係数のピーク特徴がプリセット条件を満たすとき、目標フレームカウント及び目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される目標フレームの数を減少させ、目標フレームカウントは、現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、目標フレームカウントを増大することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、目標フレームカウントの閾を減少することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たさないとき、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御するよう構成され、エンコーダ700は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するよう構成される停止ユニットを更に含む。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かを決定し、マルチチャネル信号の信号対雑音比パラメータが信号対雑音比条件を満たさないとき、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御する、又は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止する、よう構成される。
任意で、幾つかの実施形態では、停止ユニットは、具体的に、目標フレームカウントの値が目標フレームカウントの閾より大きく又は等しくなるように、目標フレームカウントを増大し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、第2決定ユニット740は、具体的に、現在フレームの初期ITD値、目標フレームカウント、及び目標フレームカウントの閾に基づき、現在フレームのITD値を決定し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、信号対雑音比パラメータは、マルチチャネル信号の修正セグメント信号対雑音比である。
図8は、本願の一実施形態によるエンコーダの概略ブロック図である。図8のエンコーダ800は、
プログラムを格納するよう構成されるメモリ810と、
該プログラムを実行するよう構成されるプロセッサ820と、を含み、該プログラムが実行されると、プロセッサ820は、現在フレームのマルチチャネル信号を取得し、現在フレームの初期ITD値を決定し、マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御し、特性情報は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、目標フレームの前のフレームのITD値は目標フレームのITD値として再使用され、現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数に基づき、現在フレームのITD値を決定し、現在フレームのITD値に基づき、マルチチャネル信号を符号化するよう構成される。
本願の本実施形態によると、背景雑音、反響、及び複数パーティの会話のような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
任意で、幾つかの実施形態では、エンコーダ800は、マルチチャネル信号の相互相関係数のピーク値の振幅及びマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するよう更に構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき、ピーク振幅信頼性パラメータを決定し、ピーク振幅信頼性パラメータはマルチチャネル信号の相互相関係数のピーク値の振幅の信頼性レベルを表し、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定し、ピーク位置変動パラメータはマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差を表し、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定する、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、ピーク振幅信頼性パラメータとして、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比を決定するよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、ピーク位置変動パラメータとして、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差の絶対値を決定するよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御し、マルチチャネル信号の相互相関係数のピーク特徴がプリセット条件を満たすとき、目標フレームカウント及び目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される目標フレームの数を減少させ、目標フレームカウントは、現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、目標フレームカウントを増大することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、目標フレームカウントの閾を減少することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たさないときのみ、マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御するよう構成され、エンコーダ800は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するよう更に構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かを決定し、マルチチャネル信号の信号対雑音比パラメータが信号対雑音比条件を満たさないとき、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御する、又は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止する、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、目標フレームカウントの値が目標フレームカウントの閾より大きく又は等しくなるように、目標フレームカウントを増大し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、現在フレームの初期ITD値、目標フレームカウント、及び目標フレームカウントの閾に基づき、現在フレームのITD値を決定し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、信号対雑音比パラメータは、マルチチャネル信号の修正セグメント信号対雑音比である。
当業者は、本願明細書に開示の実施形態で記載された例を参照して、ユニット及びアルゴリズムのステップが、電子ハードウェア又はコンピュータソフトウェア及び電子ハードウェアの組み合わせにより実施され得ることを認識し得る。機能がハードウェア又はソフトウェアにより実行されるかは、技術的ソリューションの特定の適用及び設計制約条件に依存する。当業者は、各々の特定の適用について記載の機能を実施するために異なる方法を使用できるが、実装が本発明の範囲を超えると考えられるべきではない。
便宜上及び簡潔な説明のために、前述のシステム、装置、及びユニットの詳細な動作処理については、前述の方法における対応する処理を参照し、詳細事項はここで再び記載されないことが、当業者により明らかに理解され得る。
本願において提供される幾つかの実施形態では、開示のシステム、機器、及び方法は他の方法で実装されて良いことが理解されるべきである。例えば、記載した機器の実施形態は単なる例である。例えば、ユニットの分割は、単なる論理的機能の区分であり、実際の実装では他の区分であって良い。例えば、複数のユニット又はコンポーネントは、別のシステムに結合又は統合されて良い。或いは、幾つかの機能は無視されるか又は実行されなくて良い。さらに、示した又は議論した相互結合又は直接結合又は通信接続は、幾つかのインタフェースを使用することにより実装されて良い。装置又はユニット間の間接結合又は通信接続は、電気的、機械的又は他の形式で実装されて良い。
別個の部分として記載されたユニットは、物理的に別個であって良く又はそうでなくて良い。また、ユニットとして表示された部分は、物理的なユニットであって良く又はそうでなくて良く、1カ所に置かれて良く或いは複数のネットワークユニットに分散されて良い。一部又は全部のユニットは、実施形態のソリューションの目的を達成するために実際の要件に依存して選択されて良い。
さらに、本願の実施形態における機能ユニットは、1つの処理ユニットに統合されて良く、或いは各ユニットが物理的に単独で存在して良く、或いは2以上のユニットが1つのユニットに統合されて良い。
機能がソフトウェア機能ユニットの形式で実装され、独立した製品として販売され又は使用されるとき、機能は、コンピュータ可読記憶媒体に格納されて良い。このような理解に基づき、本願の基本的技術的ソリューション、又は従来技術に貢献する部分、又は一部の技術的ソリューションは、ソフトウェア製品の形式で実施されて良い。コンピュータソフトウェアプロダクトは、記憶媒体に格納され、コンピュータ装置(パーソナルコンピュータ、サーバ、ネットワーク装置、等であって良い)に、本願の実施形態で記載された方法のステップの全部又は一部を実行するよう指示する複数の命令を含む。記憶媒体は、USBフラッシュドライブ、取り外し可能ハードディスク、読み出し専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクのような、プログラムコードを格納可能な任意の媒体を含む。
上述の説明は、本願の単なる具体的な実装であり、本願の保護範囲を制限するものではない。本願で開示された技術範囲内にある、当業者により直ちに考案される変形又は置換は、本願の保護範囲に包含される。したがって、本願の保護範囲は、請求項の保護範囲に従うべきである。
[関連出願]
本願は、中国特許出願番号第201610652507.4号、2016年8月10日出願、名称「METHOD FOR ENCODING MULTI−CHANNEL SIGNAL AND ENCODER」の優先権を主張する。該中国特許出願は、参照によりその全体がここに組み込まれる。
[技術分野]
本願は、オーディオ信号符号化分野に、より具体的には、マルチチャネル信号を符号化する方法及びエンコーダに関する。
生活の質が向上するにつれ、人々は高品質オーディオに増大する要件を課している。モノラル信号に比べて、ステレオは、方向の間隔及び種々の音源の分布の間隔を有し、明瞭さ、理解度、及び夢中になれる音体験を向上でき、したがって人々により大いに気に入られる。
ステレオ処理技術は、主に、和差(Mid/Side、MS)符号化、インテンシティステレオ(Intensity Stereo、IS)符号化、及びパラメトリックステレオ(Parametric Stereo、PS)符号化を含む。
MS符号化では、和差変換が、チャネル間コヒーレンスに基づき、2つの信号に対して実行され、チャネルのエネルギは主に和チャネルに注力されて、チャネル間冗長性が除去される。MS符号化技術では、符号レートの減少は入力信号間のコヒーレンスに依存する。左チャネル信号と右チャネル信号との間のコヒーレンスが乏しいとき、左チャネル信号及び右チャネル信号は別個に送信される必要がある。
IS符号化では、左チャネル信号及び右チャネル信号の高周波数成分は、人間の聴覚システムがチャネルの高周波数成分(例えば2KHzより高い成分)の間の位相差に鈍感であるという特徴に基づき簡略化される。しかしながら、IS符号化技術は、高周波数成分についてのみ効果的である。IS符号化技術が低周波数にまで拡張される場合、深刻な人工雑音が引き起こされる。
PS符号化は、両耳の聴覚モデルに基づく符号化方式である。図1に示すように(図1では、xLは左チャネル時間ドメイン信号であり、xRは右チャネル時間ドメイン信号である)、PS符号化処理では、エンコーダ側はステレオ信号をモノラル信号及び空間音響場を記述する幾つかの空間パラメータ(又は空間認識パラメータ)に変換する。図2に示すように、モノラル信号及び空間パラメータを取得した後に、デコーダ側は、空間パラメータを参照してステレオ信号を復元する。MS符号化に比べて、PS符号化はより高い圧縮比を有する。したがって、PS符号化では、より高い符号化利得が得られ、同時に比較的良好な音響品質が維持される。さらに、PS符号化は、全音響帯域で実行されて良く、ステレオの空間認識効果を良好に復元できる。
PS符号化では、空間パラメータは、チャネル間コヒーレンス(Inter−channel Coherent、IC)、チャネル間レベル差(Inter−channel Level Difference、ILD)、チャネル間時間差(Inter−channel Time Difference、ITD)、及びチャネル間位相差(Inter−channel Phase Difference、IPD)を含む。ICはチャネル間相互相関又はコヒーレンスを記述する。このパラメータは、音響場範囲の認識を決定し、オーディオ信号の空間及び音響安定性の間隔を向上できる。ILDは、ステレオ音源の水平アジマス角を区別するために使用され、チャネル間エネルギ差を記述する。このパラメータは、全スペクトルの周波数成分に影響する。ITD及びIPDは、音源の水平アジマスを表す空間パラメータであり、チャネル間時間及び位相差を記述する。ILD、ITD、及びIPDは、音源の位置に対する人間の耳の認識を決定でき、音響場位置を効果的に決定するために使用でき、ステレオ信号の復元において重要な役割を果たす。
ステレオ録音処理では、背景雑音、反響音、及び複数パーティの会話のような要因の影響により、既存PS符号化方式に従い計算されたITDは、常に不安定である(ITD値は大きく移り変わる)。このようなITDに基づき計算されたダウンミックス信号は不連続である。結果として、デコーダ側で得られるステレオ品質は粗悪である。例えば、デコーダ側で再生されるステレオの音像は、頻繁にジッタを生じ、ぞっとするような聴覚さえも生じる。
本願は、PS符号化におけるITDの安定性を向上し、及びマルチチャネル信号の符号化品質を向上するために、マルチチャネル信号を符号化する方法及びエンコーダを提供する。
第1の態様によると、マルチチャネル信号を符号化する方法であって、現在フレームのマルチチャネル信号を取得するステップと、前記現在フレームの初期ITD値を決定するステップと、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御するステップであって、前記特性情報は、前記マルチチャネル信号の信号対雑音比パラメータ及び前記マルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、前記目標フレームの前のフレームのITD値は前記目標フレームのITD値として再使用される、ステップと、前記現在フレームの前記初期ITD値及び連続的に現れることの許される前記目標フレームの数に基づき、前記現在フレームのITD値を決定するステップと、前記現在フレームの前記ITD値に基づき、前記マルチチャネル信号を符号化するステップと、を含む方法が提供される。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する前記ステップの前に、前記方法は、前記マルチチャネル信号の前記相互相関係数のピーク値の振幅、及び前記マルチチャネル信号の前記相互相関係数のピーク位置のインデックスに基づき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴を決定するステップ、を更に含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数のピーク値の振幅、及び前記マルチチャネル信号の前記相互相関係数のピーク位置のインデックスに基づき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴を決定する前記ステップは、前記マルチチャネル信号の前記相互相関係数の前記ピーク値の前記振幅に基づき、ピーク振幅信頼性パラメータを決定するステップであって、前記ピーク振幅信頼性パラメータは、前記マルチチャネル信号の前記相互相関係数の前記ピーク値の前記振幅の信頼性レベルを表す、ステップと、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応するITD値、及び前記現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定するステップであって、前記ピーク位置変動パラメータは、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応する前記ITD値と前記現在フレームの前記前のフレームの前記ITD値との間の差を表す、ステップと、前記ピーク振幅信頼性パラメータ及び前記ピーク位置変動パラメータに基づき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴を決定するステップと、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数の前記ピーク値の前記振幅に基づき、ピーク振幅信頼性パラメータを決定する前記ステップは、前記ピーク振幅信頼性パラメータとして、前記マルチチャネル信号の前記相互相関係数の前記ピーク値と前記マルチチャネル信号の前記相互相関係数の2番目に大きい値の振幅値との間の差の、前記ピーク値の前記振幅値に対する比を決定するステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応するITD値、及び前記現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定する前記ステップは、前記ピーク位置変動パラメータとして、前記マルチチャネル信号の前記相互相関係数の前記ピーク位置の前記インデックスに対応する前記ITD値と、前記現在フレームの前記前のフレームの前記ITD値と、の間の差の絶対値を決定するステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する前記ステップは、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御するステップと、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴がプリセット条件を満たすとき、目標フレームカウント及び前記目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される前記目標フレームの数を減少させるステップであって、前記目標フレームカウントは、現在連続的に現れている目標フレームの数を表すために使用され、前記目標フレームカウントの前記閾は、連続的に現れることの許される前記目標フレームの数を示すために使用される、ステップと、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、目標フレームカウント及び前記目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される前記目標フレームの数を減少させる前記ステップは、前記目標フレームカウントを増大させることにより、連続的に現れることの許される前記目標フレームの数を減少させるステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、目標フレームカウント及び前記目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される前記目標フレームの数を減少させる前記ステップは、前記目標フレームカウントの閾を減少させることにより、連続的に現れることの許される前記目標フレームの数を減少させるステップを含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御する前記ステップは、前記マルチチャネル信号の前記信号対雑音比パラメータがプリセット信号対雑音比条件を満たさないときだけ、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御するステップを含み、前記方法は、前記マルチチャネル信号の前記信号対雑音比が前記信号対雑音比条件を満たすとき、前記現在フレームの前記前のフレームの前記ITD値を前記現在フレームの前記ITD値として再使用することを停止するステップ、を更に含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する前記ステップは、前記マルチチャネル信号の前記信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かを決定するステップと、前記マルチチャネル信号の前記信号対雑音比パラメータが前記信号対雑音比条件を満たさないとき、前記マルチチャネル信号の前記相互相関係数の前記ピーク特徴に基づき、連続的に現れることの許される前記目標フレームの数を制御するステップ、又は、前記マルチチャネル信号の前記信号対雑音比パラメータが前記信号対雑音比条件を満たすとき、前記現在フレームの前記前のフレームの前記ITD値を前記現在フレームの前記ITD値として再使用することを停止するステップと、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記現在フレームの前記前のフレームの前記ITD値を前記現在フレームの前記ITD値として再使用することを停止する前記ステップは、前記目標フレームカウントの値が前記目標フレームカウントの前記閾より大きく又は等しくなるように、前記目標フレームカウントを増大するステップであって、前記目標フレームカウントは現在連続的に現れている前記目標フレームの数を表すために使用され、前記目標フレームカウントの前記閾は連続的に現れることの許される前記目標フレームの数を示すために使用される、ステップ、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記現在フレームの前記初期ITD値及び連続的に現れることの許される前記目標フレームの数に基づき、前記現在フレームのITD値を決定する前記ステップは、前記現在フレームの前記初期ITD値、前記目標フレームカウント、及び前記目標フレームカウントの前記閾に基づき、前記現在フレームの前記ITD値を決定するステップであって、前記目標フレームカウントは現在連続的に現れている前記目標フレームの数を表すために使用され、前記目標フレームカウントの前記閾は連続的に現れることの許される前記目標フレームの数を示すために使用される、ステップ、を含む。
第1の態様を参照して、第1の態様の幾つかの実装では、前記信号対雑音比パラメータは、前記マルチチャネル信号の修正セグメント信号対雑音比である。
第2の態様によると、第1の態様の方法を実行するよう構成されるユニットを含むエンコーダが提供される。
第3の態様によると、メモリとプロセッサとを含むエンコーダが提供される。前記メモリはプログラムを格納するよう構成され、前記プロセッサは該プログラムを実行するよう構成される。前記プログラムが実行されると、前記プロセッサは第1の態様の方法を実行する。
第4の態様によると、コンピュータ可読媒体が提供される。前記コンピュータ可読媒体は、エンコーダにより実行されるべきプログラムコードを格納する。前記プログラムコードは、第1の態様の方法を実行するために使用される命令を含む。
本願によると、背景雑音、反響、及び複数パーティの会話のような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
従来技術のPS符号化のフローチャートである。
従来技術のPS復号のフローチャートである。
従来技術における時間ドメインに基づくITDパラメータ抽出方法の概略フローチャートである。
従来技術における周波数ドメインに基づくITDパラメータ抽出方法の概略フローチャートである。
本願の一実施形態によるマルチチャネル信号を符号化する方法の概略フローチャートである。
本願の一実施形態によるマルチチャネル信号を符号化する方法の概略フローチャートである。
本願の一実施形態によるエンコーダの概略構造図である。
本願の一実施形態によるエンコーダの概略構造図である。
ステレオ信号はマルチチャネル信号としても参照され得ることに留意すべきである。以上は、マルチチャネル信号のILD、ITD、及びIPDの機能及び意味を簡単に記載した。理解を容易にするために、以下は、第1マイクロフォンにより拾われた信号が第1チャネル信号であり及び第2マイクロフォンにより拾われた信号が第2チャネル信号である一例を用いることにより、ILD、ITD、及びIPDをより詳細な方法で記載する。
ILDは、第1チャネル信号と第2チャネル信号との間のエネルギ差を記述する。例えば、ILDが0より大きい場合、第1チャネル信号のエネルギが第2チャネル信号のエネルギより高く、ILDが0に等しい場合、第1チャネル信号のエネルギが第2チャネル信号のエネルギに等しく、ILDが0より小さい場合、第1チャネル信号のエネルギが第2チャネル信号のエネルギより小さい。別の例では、ILDが0より小さい場合、第1チャネル信号のエネルギが第2チャネル信号のエネルギより高く、ILDが0に等しい場合、第1チャネル信号のエネルギが第2チャネル信号のエネルギに等しく、ILDが0より大きい場合、第1チャネル信号のエネルギが第2チャネル信号のエネルギより小さい。理解されるべきことに、前述の値は単なる例であり、ILD値と、第1チャネル信号及び第2チャネル信号のエネルギ差との間の関係は、経験に基づき又は実際の要件に依存して定められて良い。
ITDは、第1チャネル信号と第2チャネル信号との間の時間差、つまり、音源により生成された音が第1マイクロフォンに到着した時間と音源により生成された音が第2マイクロフォンに到着した時間との間の差、を記述する。例えば、ITDが0より大きい場合、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より早く、ITDが0に等しい場合、音源により生成された音が第1マイクロフォン及び第2マイクロフォンに同時に到着し、ITDが0より小さい場合、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より遅い。別の例では、ITDが0より小さい場合、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より早く、ITDが0に等しい場合、音源により生成された音が第1マイクロフォン及び第2マイクロフォンに同時に到着し、ITDが0より大きい場合、音源により生成された音が第1マイクロフォンに到着した時間が、音源により生成された音が第2マイクロフォンに到着した時間より遅い。理解されるべきことに、前述の値は単なる例であり、ITD値と、第1チャネル信号及び第2チャネル信号の時間差との間の関係は、経験に基づき又は実際の要件に依存して定められて良い。
IPDは、第1チャネル信号と第2チャネル信号との間の位相差を記述する。このパラメータは、通常、ITDと一緒に使用され、デコーダ側でマルチチャネル信号の位相情報を復元するために使用される。
以上から、既存のITD値計算方法はITD値の不連続性を生じることが分かる。理解を容易にするために、図3及び図4を参照して、以下は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いることにより、既存のITD値計算方法及びその欠点を詳細に記載する。
従来技術では、ITD値は、殆どの場合、マルチチャネル信号の相互相関係数に基づき計算される。複数の特定計算方法が存在し得る。例えば、ITD値は時間ドメインで計算されて良く、又はITD値は周波数ドメインで計算されて良い。
図3は、時間ドメインに基づくITD値計算方法の概略フローチャートである。図3の方法は以下のステップを含む。
310:左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に基づき、ITD値を計算する。
具体的に、ITD値は、時間ドメイン相互相関関数を用いることにより、左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に基づき計算されて良い。例えば、計算は、0≦i≦Tmaxの範囲内で実行される。
max0≦i≦Tmax(cn(i))>max0≦i≦Tmax(cp(i))ならば、T1はmax(cn(i))に対応するインデックス値の反数である。その他の場合、T1はmax(cp(i))に対応するインデックス値である。ここで、iは相互相関関数のインデックス値であり、xLは左チャネル時間ドメイン信号であり、xRは右チャネル時間ドメイン信号であり、Tmaxは異なるサンプリングレートの場合に最大ITD値に対応しており、Lengthはフレーム長である。
320:ITD値に対して量子化処理を実行する。
図4は、周波数ドメインに基づくITD値計算方法の概略フローチャートである。図4の方法は以下のステップを含む。
410:左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して時間−周波数変換を実行して、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号を取得する。
具体的に、時間−周波数変換では、時間ドメイン信号は、離散フーリエ変換(DFT)又は修正離散コサイン変換(MDCT)のような技術を用いて周波数ドメイン信号に変換されて良い。
例えば、DFT
は、以下の式(3)を用いて、入力された左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して実行されて良い。
ここで、nは時間ドメイン信号のサンプルのインデックス値であり、kは周波数ドメイン信号の周波数ビンのインデックス値であり、Lは時間−周波数変換長であり、x(n)は左チャネル時間ドメイン信号又は右チャネル時間ドメイン信号である。
420:左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号に基づき、ITD値を抽出する。
具体的に、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の各々のL個の周波数ビン
は、N個のサブバンドに分けられて良い。N個のサブバンドの中のb番目のサブバンドに含まれる周波数ビンの値範囲は、A
b-1≦k≦A
b−1と定められて良い。−T
max≦j≦T
maxの検索範囲において、以下の式を用いて振幅値が計算され得る。
次に、b番目のサブバンドのITD値は、max−Tmax≦j≦Tmax(mag(j))、つまり、式(4)に従い計算された最大値に対応するサンプルのインデックス値であって良い。
430:ITD値に対して量子化処理を実行する。
従来技術では、現在フレームの中のマルチチャネル信号の相互相関係数のピーク値が比較的小さい場合、計算を通じて取得されたITD値は不正確であると考えられ得る。この場合、現在フレームのITD値はゼロにされる。
背景雑音、反響、及び複数パーティの会話のような要因の影響により、既存PS符号化方式に従い計算されたITD値は、頻繁にゼロにされ、結果としてITD値は大きく移り変わる。このようなITD値に基づき計算されたダウンミックス信号は、フレーム間不連続性を免れず、復号マルチチャネル信号の音像は不安定である。結果として、マルチチャネル信号の粗悪な音響品質が引き起こされる。
ITD値が大きく移り変わる問題を解決するために、実現可能な処理方法は次の通りである。現在フレームの計算を通じて取得されたITD値が不正確であると考えられるとき、現在フレームの前のフレーム(フレームの前のフレームは具体的に該フレームに隣接する前のフレームである)のITD値は、現在フレームのために再使用されて良い。つまり、現在フレームの前のフレームのITD値は、現在フレームのITD値として使用される。この処理方法で、ITD値が大きく移り変わる問題が良好に解決できる。しかしながら、この処理方法は、以下の問題を生じ得る。マルチチャネル信号の信号品質が比較的良好なとき、多くの現在フレームの計算を通じて取得された比較的正確なITD値が不適切に廃棄されることもあり、現在フレームの前のフレームのITD値が再使用される。結果として、マルチチャネル信号の位相情報は失われる。
ITD値が大きく移り変わる問題を回避し、マルチチャネル信号の位相情報を良好に保持するために、図5を参照して、以下は、本願の一実施形態によるマルチチャネル信号を符号化する方法を詳細に記載する。説明を容易にするために、ITD値が前のフレームのITD値を再使用するフレームは、以下で目標フレームとして参照される。
図5の方法は以下のステップを含む。
510:現在フレームのマルチチャネル信号を取得する。
520:現在フレームの初期ITD値を決定する。
例えば、現在フレームの初期ITD値は、図3に示す時間ドメインに基づく方法で計算されて良い。別の例では、現在フレームの初期ITD値は、図4に示す周波数ドメインに基づく方法で計算されて良い。
530:マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御する(又は調整する)。ここで、特性情報は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、目標フレームの前のフレームのITD値は目標フレームのITD値として再使用される。
理解されるべきことに、本願の本実施形態では、現在フレームの初期ITD値が先ず計算され、次に、現在フレームのITD値(又は現在フレームの実際のITD値として参照される、又は現在フレームの最終ITD値として参照される)が、現在フレームの初期ITD値に基づき決定される。現在フレームの初期ITD値及び現在フレームのITD値は、同じITD値であって良く、又は異なるITD値であって良い。これは、特定の計算ルールに依存する。例えば、初期ITD値が正確ならば、初期ITD値は現在フレームのITD値として再使用されて良い。別の例では、初期ITD値が不正確ならば、現在フレームの初期ITD値は廃棄されて良く、現在フレームの前のフレームのITD値が現在フレームのITD値として使用される。
理解されるべきことに、現在フレームのマルチチャネル信号の相互相関係数のピーク特徴は、現在フレームのマルチチャネル信号の相互相関係数のピーク値(又は最大値として参照される)の振幅値(又は大きさとして参照される)と、マルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差分特徴であって良く、或いは、現在フレームのマルチチャネル信号の相互相関係数のピーク値の振幅値と閾との間の差分特徴であって良く、或いは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と前のN個のフレームのITD値との間の差分特徴であって良く、或いは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスと、前のN個のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスとの間の差分特徴(又は変動特徴として参照される)であって良い。ここで、Nは1以上の正整数であり、又は前述の特徴の組み合わせであって良い。現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスは、現在フレームの中のマルチチャネル信号の相互相関係数のどの値がピーク値であるかを表して良い。同様に、前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスは、前のフレームの中のマルチチャネル信号の相互相関係数のどの値がピーク値であるかを表して良い。例えば、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスが5であることは、現在フレームの中のマルチチャネル信号の相互相関係数の5番目の値がピーク値であることを示す。別の例では、前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスが4であることは、前のフレームの中のマルチチャネル信号の相互相関係数の4番目の値がピーク値であることを示す。
ステップ530で連続的に現れることの許される目標フレームの数を制御するステップは、目標フレームカウント及び/又は目標フレームカウントの閾を設定することにより実施されて良い。例えば、連続的に現れることの許される目標フレームの数を制御するステップの目的は、目標フレームカウントを強制的に変更することにより達成されて良い。或いは、連続的に現れることの許される目標フレームの数を制御するステップの目的は、目標フレームカウントの閾を強制的に変更することにより達成されて良い。或いは、勿論、連続的に現れることの許される目標フレームの数を制御するステップの目的は、目標フレームカウント及び目標フレームカウントの閾の両方を強制的に変更することにより達成されて良い。目標フレームカウントは、現在連続的に現れている目標フレームの数を示すために使用されて良く、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用されて良い。
540:現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数に基づき、現在フレームのITD値を決定する。
550:現在フレームのITD値に基づき、マルチチャネル信号を符号化する。
例えば、図1に示される、モノラルオーディオ符号化、空間パラメータ符号化、及びビットストリーム多重化のような動作が実行されて良い。特定の符号化方式については、従来技術を参照する。
本願の本実施形態によると、背景雑音、反響、及び複数パーティの会話のような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
留意すべきことに、マルチチャネル信号が前のフレーム又は前のN個のフレームのマルチチャネル信号であると特に断りのない限り、以下に現れるマルチチャネル信号は現在フレームのマルチチャネル信号である。
ステップ530の前に、図5の方法は、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するステップを更に含んで良い。
具体的に、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき決定されて良い。ここで、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅の信頼性レベルを表すために使用されて良い。さらに、ステップ530は、ピーク振幅信頼性パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数を減少させるステップ、又は、ピーク振幅信頼性パラメータがプリセット条件を満たさないとき、連続的に現れることの許される目標フレームの数を不変に保つステップ、を含んで良い。例えば、ピーク振幅信頼性パラメータがプリセット条件を満たすことは、ピーク振幅信頼性パラメータの値が閾より大きいことであって良く、又は、ピーク振幅信頼性パラメータの値がプリセット範囲内であることであって良い。
本願の本実施形態では、ピーク振幅信頼性パラメータは、複数の方法で定められて良い。
例えば、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値と、マルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差であって良い。具体的に、差が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。
別の例では、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であって良い。具体的に、比が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。
別の例では、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値と目標振幅値との間の差であって良い。具体的に、差の絶対値が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。目標振幅値は、経験に基づき又は実際の例に依存して選択されて良く、或いは、固定値であって良く、或いは、現在フレームの中のプリセット位置(該位置は相互相関係数のインデックスを用いて表されて良い)の相互相関係数の振幅値であって良い。
別の例では、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値と目標振幅値との間の差の、ピーク値の振幅値に対する比であって良い。具体的に、比が大きいほど、ピーク値の振幅の信頼性レベルが高いことを示す。目標振幅値は、経験に基づき又は実際の例に依存して選択されて良く、或いは、固定値であって良く、或いは、現在フレームの中のプリセット位置の相互相関係数の振幅値であって良い。
任意で、幾つかの実施形態では、ステップ530の前に、図5の方法は、マルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、現在フレームのマルチチャネル信号の相互相関係数のピーク特徴を決定するステップを更に含んで良い。
例えば、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値、及び現在フレームの前のN個のフレームのITD値に基づき、決定されて良い。ここで、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差を表すために使用されて良く、Nは1以上の正整数である。
別の例では、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックス及び現在フレームの前のN個のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき決定されて良い。ここで、ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスと、現在フレームの前のN個のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスと、の間の差を表すために使用されて良い。
さらに、ステップ530は、ピーク位置変動パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数を減少させるステップ、又は、ピーク位置変動パラメータがプリセット条件を満たさないとき、連続的に現れることの許される目標フレームの数を不変に保つステップ、を含んで良い。例えば、ピーク位置変動パラメータがプリセット条件を満たすことは、ピーク位置変動パラメータの値が閾より大きいことであって良く、又は、ピーク位置変動パラメータの値がプリセット範囲内であることであって良い。例えば、ピーク位置変動パラメータがマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のフレームのITD値に基づき決定されるとき、ピーク位置変動パラメータがプリセット条件を満たすことは、ピーク位置変動パラメータの値が閾より大きいことであって良く、ここで閾は4、5、6、又は別の経験値に設定されて良く、或いは、ピーク位置変動パラメータの値がプリセット範囲内であることであって良く、ここでプリセット範囲は[6,128]又は別の経験値に設定されて良い。具体的に、閾又は値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
本願の本実施形態では、ピーク位置変動パラメータは、複数の方法で定められて良い。
例えば、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、の間の差の絶対値であって良い。
別の例では、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのITD値と、の間の差の絶対値であって良い。
別の例では、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、前のフレームのITD値と、の間の差の分散であって良く、ここでは2以上の正整数である。
任意で、幾つかの実施形態では、ステップ530の前に、図5の方法は、マルチチャネル信号の相互相関係数のピーク値の振幅及びマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するステップを更に含んで良い。
具体的に、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき決定されて良い。ピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値に基づき決定される。並びに、マルチチャネル信号の相互相関係数のピーク特徴は、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータに基づき決定される。ピーク振幅信頼性パラメータ及びピーク位置変動パラメータを定める方法については、前述の実施形態を参照する。詳細事項は、ここで再び記載されない。
さらに、本実施形態では、ステップ530は、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータの両方がプリセット条件を満たす場合、連続的に現れることの許される目標フレームの数を制御するステップを含んで良い。
例えば、ピーク振幅信頼性パラメータがプリセットピーク振幅信頼性閾より大きく、且つピーク位置変動パラメータがプリセットピーク位置変動閾より大きいとき、連続的に現れることの許される目標フレームの数は減少される。具体的に、例えば、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であるとき、ピーク振幅信頼性閾は、0.1、0.2、0.3、又は別の経験値に設定されて良い。例えば、ピーク位置変動パラメータは、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、の間の差の絶対値であるとき、ピーク位置変動閾は、4、5、6、又は別の経験値に設定されて良い。具体的に、閾又は値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
別の例では、ピーク振幅信頼性パラメータの値が2つの閾の間であり、且つピーク位置変動パラメータがプリセットピーク位置変動閾より大きいとき、連続的に現れることの許される目標フレームの数は減少される。
別の例では、ピーク振幅信頼性パラメータの値がプリセットピーク振幅信頼性閾より大きく、且つピーク位置変動パラメータが2つの閾の間であるとき、連続的に現れることの許される目標フレームの数は減少される。
留意すべきことに、幾つかの実施形態では、上述のピーク振幅信頼性パラメータ及び/又はピーク位置変動パラメータは、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータ/1つのパラメータとして参照されて良い。この場合、ステップ530は、マルチチャネル信号の相互相関係数のピーク位置の安定度がプリセット条件を満たす場合、連続的に現れることの許される目標フレームの数を減少するステップを含んで良い。
留意すべきことに、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータが所定条件を満たすことを定める方法は、本願の本実施形態において具体的に限定されない。
任意で、マルチチャネル信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすことは、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータのうちの1又は複数の値がプリセット値範囲内にあること、又は、マルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータのうちの1又は複数の値がプリセット値範囲を超えていることであって良い。例えば、マルチチャネル信号の相互相関係数のピーク位置の安定度がピーク位置変動パラメータにより表され、且つピーク位置変動パラメータを計算する方法が、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値との、の間の差の絶対値に基づくとき、プリセット値範囲は以下のように設定されて良い。ピーク位置変動パラメータは、5又は別の経験値より大きい。別の例では、マルチチャネル信号の相互相関係数のピーク位置の安定度がピーク位置変動パラメータ及びピーク振幅信頼性パラメータにより表されるとき、ピーク位置変動パラメータを計算する方法は、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値との間の差の絶対値に基づき、ピーク振幅信頼性パラメータは、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であり、プリセット値範囲は以下のように設定されて良い。ピーク位置変動パラメータは5より大きく、ピーク振幅信頼性パラメータは0.2より大きく、又は別の経験値範囲に設定されて良い。具体的に、値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
以下は、マルチチャネル信号の信号対雑音比パラメータに基づき、連続的に現れることの許される目標フレームの数をどのように制御するかを詳細に記載する。
マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号の信号対雑音比を表すために使用されて良い。
理解されるべきことに、マルチチャネル信号の信号対雑音比パラメータは1又は複数のパラメータにより表されて良い。パラメータを選択する特定の方法は、本願の本実施形態において限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、サブバンド信号対雑音比、修正サブバンド信号対雑音比、セグメント信号対雑音比、修正セグメント信号対雑音比、全帯域信号対雑音比、修正全帯域信号対雑音比、及びマルチチャネル信号の信号対雑音比を表すことのできる別のパラメータ、のうちの少なくとも1つにより表されて良い。
更に理解されるべきことに、マルチチャネル信号の信号対雑音比パラメータを決定する方法は、本願の本実施形態において具体的に限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号全体を用いて計算されて良い。別の例では、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号の幾つかの信号を用いて計算されて良い。つまり、マルチチャネル信号の信号対雑音比は幾つかの信号の信号対雑音比を用いて表される。別の例では、任意のチャネルの信号が、計算を実行するために、マルチチャネル信号から適応的に選択されて良い。つまり、マルチチャネル信号の信号対雑音比は、チャネルの信号の信号対雑音比を用いて表される。別の例では、先ず、新しい信号を形成するために、マルチチャネル信号を表すデータに対して加重平均が実行されて良く、次に、マルチチャネル信号の信号対雑音比が、新しい信号の信号対雑音比を用いて表される。
以下は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いて、マルチチャネル信号の信号対雑音比を計算する方法を記載する。
例えば、先ず、時間−周波数変換が左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号を取得し、左チャネル周波数信号の振幅スペクトル及び右チャネル周波数信号の振幅スペクトルに対して加重平均が実行されて、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルを取得し、次に、修正セグメント信号対雑音比が平均振幅スペクトルに基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
別の例では、先ず、時間−周波数変換が左チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号を取得し、次に、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比が、左チャネル周波数ドメイン信号の振幅スペクトルに基づき計算される。同様に、先ず、時間−周波数変換が右チャネル時間ドメイン信号に対して実行されて良く、右チャネル周波数ドメイン信号を取得し、次に、右チャネル周波数ドメイン信号の修正セグメント信号対雑音比が、右チャネル周波数ドメイン信号の振幅スペクトルに基づき計算される。次に、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の平均値が、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の修正セグメント信号対雑音比に基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
マルチチャネル信号の信号対雑音比パラメータに基づき、連続的に現れることの許される目標フレームの数を制御するステップは、マルチチャネル信号の信号対雑音比パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数を減少するステップ、又は、マルチチャネル信号の信号対雑音比パラメータがプリセット条件を満たさないとき、連続的に現れることの許される目標フレームの数を不変に保つステップ、を含んで良い。例えば、マルチチャネル信号の信号対雑音比パラメータの値がプリセット閾より大きいとき、連続的に現れることの許される目標フレームの数は減少される。別の例では、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲内であるとき、連続的に現れることの許される目標フレームの数は減少される。別の例では、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲を超えるとき、連続的に現れることの許される目標フレームの数は減少される。例えば、マルチチャネル信号の信号対雑音比パラメータがセグメント信号対雑音比であるとき、プリセット閾は6000又は別の経験値であって良く、プリセット値範囲は6000より大きく3000000より小さい、又は別の経験値範囲であって良い。具体的に、閾又は値範囲は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
以上は、主に、マルチチャネル信号の相互相関係数のピーク特徴又はマルチチャネル信号の信号対雑音比パラメータに基づき、連続的に現れることの許される目標フレームの数をどのように制御するかを記載した。以下は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数をどのように制御するかを詳細に記載する。
具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット条件を満たし、且つピーク振幅信頼性パラメータ及び/又はマルチチャネル信号の相互相関係数のピーク位置変動パラメータがプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数が減少されて良い。
例えば、マルチチャネル信号の信号対雑音比パラメータの値が第1閾より大きく且つ第2閾以下であり、ピーク振幅信頼性パラメータは第3閾より大きく、ピーク位置変動パラメータは第4閾より大きいとき、連続して現れることの許される目標フレームの数は減少される。例えば、マルチチャネル信号の信号対雑音比パラメータがセグメント信号対雑音比であるとき、第1閾は5000、6000、7000、又は別の経験値であって良く、第2閾は2900000、3000000、3100000、又は別の経験値範囲であって良い。ピーク振幅信頼性パラメータが、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であるとき、第3閾は、0.1、0.2、0.3、又は別の経験値に設定されて良い。ピーク位置変動パラメータが、現在フレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と、の間の差の絶対値であるとき、第4閾は、4、5、6、又は別の経験値に設定されて良い。具体的に、閾は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が第1閾以上であり且つ第2閾以下であり、且つ、ピーク振幅信頼性パラメータが第5閾より小さいとき、連続して現れることの許される目標フレームの数は減少される。例えば、マルチチャネル信号の信号対雑音比パラメータがセグメント信号対雑音比であるとき、第1閾は5000、6000、7000、又は別の経験値であって良く、第2閾は2900000、3000000、3100000、又は別の経験値範囲であって良い。ピーク振幅信頼性パラメータが、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比であるとき、第5閾は、0.3、0.4、0.5、又は別の経験値に設定されて良い。具体的に、閾は、異なるパラメータ計算方法、異なる要件、異なる適用シナリオ、等に依存して設定されて良い。
理解されるべきことに、連続的に現れることの許される目標フレームの数を減少する多くの方法が存在する。幾つかの実施形態では、連続的に現れることの許される目標フレームの数を示すために使用される値は、予め構成されて良く、連続的に現れることの許される目標フレームの数を減少する目的は、該値を減少させることにより達成されて良い。
幾つかの他の実施形態では、目標フレームカウント及び目標フレームカウントの閾は予め構成されて良い。目標フレームカウントは、現在連続的に現れている目標フレームの数を示すために使用されて良く、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用されて良い。具体的に、連続的に現れることの許される目標フレームの数は、目標フレームカウント及び目標フレームカウントの閾のうちの少なくとも1つを調整することにより減少される。例えば、連続的に現れることの許される目標フレームの数は、目標フレームカウントを増大する(又は強制的に増大するとして参照される)ことにより減少されて良い。別の例では、連続的に現れることの許される目標フレームの数は、目標フレームカウントの閾を減少することにより減少されて良い。別の例では、連続的に現れることの許される目標フレームの数は、目標フレームカウントを増大すること及び目標フレームカウントの閾を減少することにより減少されて良い。
以上は、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御する方法を記載した。幾つかの実施形態では、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数が制御される前に、先ず、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かが決定されて良い。
マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たさない場合、連続的に現れることの許される目標フレームの数は、マルチチャネル信号の相互相関係数のピーク特徴に基づき制御される。或いは、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たす場合、現在フレームの前のフレームのITD値は、現在フレームのITD値として再使用されることを直ちに停止して良い。
代替として、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たす場合、連続的に現れることの許される目標フレームの数は、マルチチャネル信号の相互相関係数のピーク特徴に基づき制御される。或いは、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たさない場合、現在フレームの前のフレームのITD値は、現在フレームのITD値として再使用されることを直ちに停止して良い。
以下は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすか否かを決定する方法、及び現在フレームの前のフレームのITD値を現在フレームのITD値として再使用するのをどのように停止するかを詳細に記載する。
先ず、マルチチャネル信号の信号対雑音比パラメータは1又は複数のパラメータにより表されて良い。パラメータを選択する特定の方法は、本願の本実施形態において限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、サブバンド信号対雑音比、修正サブバンド信号対雑音比、セグメント信号対雑音比、修正セグメント信号対雑音比、全帯域信号対雑音比、修正全帯域信号対雑音比、及びマルチチャネル信号の信号対雑音比を表すことのできる別のパラメータ、のうちの少なくとも1つにより表されて良い。
第2に、マルチチャネル信号の信号対雑音比パラメータを決定する方法は、本願の本実施形態において具体的に限定されない。例えば、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号全体を用いて計算されて良い。別の例では、マルチチャネル信号の信号対雑音比パラメータは、マルチチャネル信号の幾つかの信号を用いて計算されて良い。つまり、マルチチャネル信号の信号対雑音比は幾つかの信号の信号対雑音比を用いて表される。別の例では、任意のチャネルの信号が、計算を実行するために、マルチチャネル信号から適応的に選択されて良い。つまり、マルチチャネル信号の信号対雑音比は、チャネルの信号の信号対雑音比を用いて表される。別の例では、先ず、新しい信号を形成するために、マルチチャネル信号を表すデータに対して加重平均が実行されて良く、次に、マルチチャネル信号の信号対雑音比が、新しい信号の信号対雑音比を用いて表される。
以下は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いて、マルチチャネル信号の信号対雑音比を計算する方法を記載する。
例えば、先ず、時間−周波数変換が左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号を取得し、左チャネル周波数信号の振幅スペクトル及び右チャネル周波数信号の振幅スペクトルに対して加重平均が実行されて、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルを取得し、次に、修正セグメント信号対雑音比が平均振幅スペクトルに基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
別の例では、先ず、時間−周波数変換が左チャネル時間ドメイン信号に対して実行されて良く、左チャネル周波数ドメイン信号を取得し、次に、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比が、左チャネル周波数ドメイン信号の振幅スペクトルに基づき計算される。同様に、先ず、時間−周波数変換が右チャネル時間ドメイン信号に対して実行されて良く、右チャネル周波数ドメイン信号を取得し、次に、右チャネル周波数ドメイン信号の修正セグメント信号対雑音比が、右チャネル周波数ドメイン信号の振幅スペクトルに基づき計算される。次に、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の平均値が、左チャネル周波数ドメイン信号の修正セグメント信号対雑音比及び右チャネル周波数ドメイン信号の修正セグメント信号対雑音比の修正セグメント信号対雑音比に基づき計算され、マルチチャネル信号の信号対雑音比特徴を表すパラメータとして使用される。
マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値が現在フレームのITD値として再使用されるのを停止するステップは、マルチチャネル信号の信号対雑音比パラメータの値がプリセット閾より大きいとき、現在フレームの前のフレームのITD値を再使用することを停止するステップ、例えば、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲内にあるとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するステップ、別の例では、マルチチャネル信号の信号対雑音比パラメータの値がプリセット値範囲を超えるとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するステップ、を含んで良い
さらに、幾つかの実施形態では、現在フレームの前のフレームのITD値を再使用することを停止するステップは、目標フレームカウントの値が目標フレームカウントの閾以上になるように、目標フレームカウントを増大する(又は強制的に増大するとして参照される)ステップを含んで良い。幾つかの他の実施形態では、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するステップは、停止フラグビットの幾つかの値が、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止することを表すように、停止フラグビットを設定するステップを含んで良い。例えば、停止フラグビットが1に設定される場合、現在フレームの前のフレームのITD値が、現在フレームのITD値として再使用されることを停止し、或いは、停止フラグビットが0に設定される場合、現在フレームの前のフレームのITD値が現在フレームのITD値として再使用されることが許可される。
特定の例を参照して、以下は、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止する方法を詳細に記載する。
例えば、マルチチャネル信号の信号対雑音比パラメータの値が閾より小さいとき、修正値が目標フレームカウントの閾以上になるように、目標フレームカウントの値は強制的に修正される。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が閾より大きいとき、修正値が目標フレームカウントの閾以上になるように、目標フレームカウントの値は強制的に修正される。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が閾より小さいか又は別の閾より大きいかに関わらず、修正値が目標フレームカウントの閾以上になるように、目標フレームカウントの値は強制的に修正される。
別の例では、マルチチャネル信号の信号対雑音比パラメータの値が閾より小さい又は別の閾より大きいとき、停止フラグビットは1に設定される。
留意すべきことに、ステップ540で現在フレームのITD値を決定する複数の方法が存在して良い。これは、本願の本実施形態において具体的に限定されない。
任意で、幾つかの実施形態では、現在フレームのITD値は、現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数の正確さのような要因の包括的検討に基づき決定されて良い(連続的に現れることの許される目標フレームの数は、制御又は調整がステップ530に基づき実行された後に得られる数であって良い)。
任意で、幾つかの他の実施形態では、現在フレームのITD値は、現在フレームの初期ITD値、連続的に現れることの許される目標フレームの数(連続的に現れることの許される目標フレームの数は、制御又は調整がステップ530に基づき実行された後に得られる数であって良い)の正確さ、及び現在フレームが連続音声フレームであるか否か、のような要因の包括的検討に基づき決定されて良い。例えば、現在フレームの初期ITD値の信頼性レベルが高い場合、現在フレームの初期ITD値は、現在フレームのITD値として直接使用されて良い。別の例では、現在フレームの初期ITD値の信頼性レベルが低く、且つ現在フレームが現在フレームの前のフレームのITD値を再使用する条件を満たすとき、現在フレームの前のフレームのITD値は現在フレームのために再使用されて良い。
理解されるべきことに、現在フレームの初期ITD値の信頼性レベルを計算する複数の方法が存在して良い。これは、本願の本実施形態において具体的に限定されない。
例えば、初期ITD値に対応し且つマルチチャネル信号の相互相関係数の値の中の相互相関係数の値がプリセット閾より大きい場合、初期ITD値の信頼性レベルは高いと考えられて良い。
別の例では、初期ITD値に対応し且つマルチチャネル信号の相互相関係数の値の中の相互相関係数の値と、マルチチャネル信号の相互相関係数の2番目に大きい値と、の間の差がプリセット閾より大きい場合、初期ITD値の信頼性レベル値は高いと考えられて良い。
別の例では、マルチチャネル信号の相互相関係数のピーク値の振幅値がプリセット閾より大きい場合、これは、初期ITD値の信頼性レベルが高いと考えられて良い。
理解されるべきことに、現在フレームが現在フレームの前のフレームのITD値を再使用する条件を満たすか否かを決定する複数の方法が存在して良い。
任意で、幾つかの実施形態では、現在フレームが、現在フレームの前のフレームのITD値を再使用する条件を満たすことは、目標フレームカウントが目標フレームカウントの閾より小さいことであって良い。
任意で、幾つかの実施形態では、現在フレームが現在フレームの前のフレームのITD値を再使用する条件を満たすことは、現在フレームの音声活性化検出結果が、現在フレーム及び現在フレームの前のN個(Nは1より大きい正整数である)のフレームが連続音声フレームを形成することであって良い。この場合、現在フレームの前のフレームのITD値は、第1プリセット値に等しくない場合(フレームのITD値が第1プリセット値である場合、フレームの、計算を通じて取得されたITD値は、不正確さのために強制的に第1プリセット値に設定される)、現在フレームのITD値は第1プリセット値に等しく、目標フレームカウントは目標フレームカウントの閾より小さい。例えば、現在フレームの音声活性化検出結果及び現在フレームの前のN個(Nは1より大きい正整数である)のフレームの音声活性化検出結果の両方が音声フレームを示すとき、現在フレームの前のフレームのITD値が0に等しくないならば、現在フレームのITD値は強制的に0に設定され、目標フレームカウントは目標フレームカウントの閾より小さくされる。次に、現在フレームの前のフレームのITD値は、現在フレームのITD値として再使用されて良く、目標フレームカウントの値は増大される。留意すべきことに、現在フレームのITD値を0に強制的に設定する複数の方法が存在して良い。例えば、現在フレームのITD値は0に変更されて良く、或いは、現在フレームのITD値が強制的に0に設定されたことを表すためにフラグビットが設定されて良い。或いは、前述の2つの方法が結合されて良い。
以下は、特定の例を参照して本願の実施形態を詳細に記載する。留意すべきことに、図6の例は、当業者が本願の実施形態を理解するのを助けることを単に意図しており、本願の実施形態を例の中の特定値又は特定シナリオに限定するのではない。明らかに、従来技術において当業者は、図6に示す例に基づき、本願の実施形態の範囲内にも包含される変更又は変形のような種々の等価な変更又は変形を実行する場合がある。
図6は、本願の一実施形態によるマルチチャネル信号を符号化する方法の概略フローチャートである。理解されるべきことに、図6に示す処理ステップ又は動作は単なる例であり、他の動作又は図6の動作の変形が、本願の本実施形態において更に実行されて良い。さらに、図6のステップは、図6に示されたものと異なる順序で実行されて良く、図6の幾つかの動作は実行される必要がなくて良い。図6は、マルチチャネル信号が左チャネル信号及び右チャネル信号を含む一例を用いて記載される。更に理解されるべきことに、図6の実施形態におけるマルチチャネル信号の相互相関係数のピーク位置の安定度を表すパラメータは、上述のピーク振幅信頼性パラメータ及び/又はピーク位置変動パラメータであって良い。
図6の方法は以下のステップを含む。
602:左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して、時間−周波数変換を実行する。
具体的に、現在フレームのm番目のサブフレームの左チャネル時間ドメイン信号はxm,left(n)により表されて良く、m番目のサブフレームの右チャネル時間ドメイン信号はxm,right(n)により表されて良い。ここで、m=0、1、...、SUBFR_NUM−1であり、SUBFR_NUMはオーディオフレームに含まれるサブフレームの数であり、nはサンプルのインデックス値であり、n=0、1、...、N−1であり、Nは、m番目のサブフレームの左チャネル時間ドメイン信号又は右チャネル時間ドメイン信号に含まれるサンプルの数である。マルチチャネル信号が16KHzのサンプリングレートを有し、オーディオフレームの長さが20msである一例では、オーディオフレームの左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号は、それぞれ、320個のサンプルを含む。オーディオフレームが2つのサブフレームに分割され、且つ各サブフレームの左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号が、それぞれ160個のサンプルを含む場合、Nは160に等しい。
L個のサンプルに基づく高速フーリエ変換は、xm,left(n)及びxm,right(n)に対して別個に実行され、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)を取得する。ここで、k=0、1、...、L−1であり、Lは高速フーリエ変換長であり、例えばLは400又は800であって良い。
604及び605。左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号に基づき修正セグメント信号対雑音比を計算し、修正セグメント信号対雑音比に基づき音声活性化検出を実行する。
具体的に、Xm,left(k)及びXm,right(k)に基づき修正セグメント信号対雑音比を計算する複数の方法が存在する。以下は、具体的な計算方法を提供する。
ステップ1。Xm,left(k)及びXm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)を計算する。
例えば、SPDm(k)は式(5)に従い計算されて良い。
SPDm(k)=A*SPDm,left(k)+(1−A)SPDm,right(k) (5)
ここで、
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2; 且つ、
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2
ここで、k=1、...、L/2−1、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは通常0.5、0.4、0.3、又は別の経験値であって良い。
ステップ2。m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)に基づき、サブバンドエネルギE_bandm(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数である。
例えば、E_band(i)は式(6)を用いて計算されて良い。
ここで、band_
rbは、サブバンド分割に使用されるプリセットテーブルであり、band_tb[i]はi番目のサブバンドの下限周波数ビンであり、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンである。
ステップ3。サブバンドエネルギE_band(i)及びサブバンド雑音エネルギ推定E_band_n(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。
例えば、mssnrは式(7)及び式(8)を用いて計算されて良い。
ここで、msnr(i)<Gならば、msnr(i)=msnr(i)
2/Gである。
ここで、msnr(i)は修正サブバンド信号対雑音比であり、Gはプリセットサブバンド信号対雑音比修正閾であり、Gは通常5、6、7、又は別の経験値であって良い。理解されるべきことに、修正セグメント信号対雑音比を計算する複数の方法が存在し、これは本願明細書において単なる一例である。
ステップ4。修正セグメント信号対雑音比及びサブバンドエネルギE_band(i)に基づき、サブバンド雑音エネルギ推定E_band_n(i)を更新する。
具体的に、先ず、平均サブバンドエネルギ
が式(9)に従い計算されて良い。
VADカウントvad_fm_cntがプリセット初期雑音フレーム長より少ない場合、VADカウントは増大されて良い。プリセット初期雑音長は、通常、プリセット経験値であり、例えば29、30、31、又は別の経験値であって良い。
VADカウントvad_fm_cntがプリセット初期設定雑音フレーム長より少なく、且つ平均サブバンドエネルギが雑音エネルギ閾ener_thより少ない場合、サブバンド雑音エネルギ推定E_band_n(i)は更新されて良く、雑音エネルギ更新フラグが1に設定される。雑音エネルギ閾は、通常、プリセット経験値であり、例えば35000000、40000000、45000000、又は別の経験値であって良い。
具体的に、サブバンド雑音エネルギ
推定は、式(10)を用いて更新されて良い。
ここで、E_band_n
n−1(i)は過去のサブバンド雑音エネルギであり、例えば更新前のサブバンド雑音エネルギであって良い。
或いは、修正セグメント信号対雑音比が雑音更新閾thUPDATEより少ない場合、サブバンド雑音エネルギ推定E_band_n(i)も更新されて良く、雑音エネルギ更新フラグは1に設定される。雑音更新閾thUPDATEは、4、5、6、又は別の経験値であって良い。
具体的に、サブバンド雑音エネルギ推定は、式(11)を用いて更新されて良い。
E_band_n(i)=(1−update_fac)E_band_nn−1(i)+update_fac*E_band(i) (11)
ここで、update_facは、指定雑音更新レートであり、0と1の間の定数値であって良く、例えば0.03、0.04、0.05、又は別の経験値であって良く、E_band_nn−1(i)は過去のサブバンド雑音エネルギであり、例えば更新前のサブバンド雑音エネルギ推定であって良い。
さらに、サブバンド信号対雑音比の計算の効果を保証するために、更新サブバンド雑音エネルギの値は制限されて良く、例えばE_band_n(i)の最小値が1に制限されて良い。
留意すべきことに、修正セグメント信号対雑音比及びE_band(i)に基づきE_band_n(i)を更新する多くの方法が存在する。これは、本願の本実施形態において具体的に限定されず、これは本願明細書における単なる一例である。
次に、修正セグメント信号対雑音比に基づき、m番目のサブフレームに対して音声活性化検出が実行されて良い。具体的に、修正セグメント信号対雑音比が音声活性化検出閾thVADより大きい場合、m番目のサブフレームは音声フレームであり、この場合、m番目のサブフレームの音声活性化検出フラグvad_flag[m]は1に設定される。その他の場合、m番目のサブフレームは背景雑音フレームであり、この場合、m番目のサブフレームの音声活性化検出フラグvad_flag[m]は0に設定されて良い。音声活性化検出閾thVADは、3500、4000、4500、又は別の経験値であって良い。
606〜608。左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号に基づき、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数を計算し、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数に基づき、現在フレームの初期ITD値を計算する。
Xm,left(k)及びXm,right(k)に基づき、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数Xcorr(t)を計算する複数の方法が存在し得る。以下は、特定の実装を提供する。
先ず、m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関パワースペクトルXcorrm(k)が、式(12)に従い計算される。
Xcorrm(k)=Xm,left(k)*Xm,right*(k) (12)
次に、式(13)に従い、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関パワースペクトルに対して、平滑化処理が実行されて、平滑化相互相関パワースペクトルXcorr_smooth(k)を得る。
Xcorr_smooth(k)=smooth_fac*Xcorr_smooth(k)+(1−smooth_fac)*Xcorrm(k) (13)
ここで、smooth_facは平滑化係数であり、平滑化係数は0と1の間の任意の正数であって良く、例えば0.4、0.5、0.6、又は別の経験値であって良い。
次に、Xcorr(t)が、Xcorr_smooth(k)に基づき及び式(14)を用いて計算されて良い。
ここで、IDFT(*)は逆フーリエ変換を示し、計算に含まれるITD値の値範囲は[−ITD_MAX, ITD_MAX]であって良く、ITD値の値範囲に基づきXcorr(t)に対して遮断及び並べ替えが実行されて、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の、現在フレームの初期ITD値を決定するために使用される相互相関係数Xcorr_itd(t)を取得し、この場合、t=0、...、2*ITD_MAXである。
次に、現在フレームの初期ITD値が、Xcorr_itd(t)に基づき及び式(15)を用いて推定されて良い。
ITD=argmax(Xcorr_itd(t))−ITD_MAX (15)
610〜612。現在フレームの初期ITD値の信頼性レベルを決定する。初期ITD値の信頼性レベルが高い場合、目標フレームカウントはプリセット初期値に設定されて良い。
具体的に、現在フレームの初期ITD値の信頼性レベルが先ず決定されて良い。複数の特定決定方法が存在し得る。以下は、例を用いて説明を提供する。
例えば、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値は、プリセット閾と比較されて良い。振幅値がプリセット閾より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられ得る。
別の例では、先ず、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の値は、振幅値の降順にソートされて良い。次に、プリセット位置(位置は相互相関係数のインデックス値を用いて表されて良い)にある目標相互相関係数が、相互相関係数のソートされた値から選択されて良い。次に、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値は、目標相互相関係数の振幅値と比較される。振幅値の間の差がプリセット閾より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。振幅値の間の比がプリセット閾より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。或いは、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の相互相関係数の振幅値が目標相互相関係数の振幅値より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。
さらに、目標相互相関係数が取得された後に、先ず、目標相互相関係数は更に修正されて良い。次に、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値は、修正目標相互相関係数の振幅値と比較される。次に、初期ITD値に対応する且つ左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の振幅値の中の、相互相関係数の振幅値が、修正目標相互相関係数の振幅値より大きい場合、これは、現在フレームの初期ITD値の信頼性レベルが高いと考えられて良い。
現在フレームの初期ITD値の信頼性レベルが高い場合、初期ITD値は現在フレームのITD値として使用されて良い。さらに、正確なITD値計算を示すフラグビットitd_cal_flagがプリセットされて良い。現在フレームの初期ITD値の信頼性レベルが高い場合、itd_cal_flagは1に設定されて良い。或いは、現在フレームの初期ITD値の信頼性レベルが低い場合、itd_cal_flagは0に設定されて良い。
さらに、現在フレームの初期ITD値の信頼性レベルが高い場合、目標フレームカウントはプリセット初期値に設定されて良く、例えば、目標フレームカウントは0又は1に設定されて良い。
614:初期ITD値の信頼性レベルが低い場合、ITD値修正が初期ITD値に対して実行されて良い。ITD値を修正する多くの方法が存在し得る。例えば、ハングオーバ処理がITD値に対して実行されて良く、又は、ITD値が2つの隣接フレームの相関に基づき修正されて良い。これは、本願の本実施形態において具体的に限定されない。
616〜618。前のフレームのITD値が現在フレームのために再使用されるか否かを決定する。前のフレームのITD値が現在フレームのために再使用される場合、目標フレームカウントの値を増大する。
620〜622。修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たすか否かを決定する。修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たす場合、前のフレームのITD値を現在フレームのITD値として再使用することを停止する。例えば、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するために、修正目標フレームカウントが目標フレームカウントの閾以上になるように(閾は、連続的に現れることの許される目標フレームの数を示して良い)、目標フレームカウントの値が修正されて良い。
修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たすか否かを決定する複数の方法が存在し得る。任意で、幾つかの実施形態では、修正セグメント信号対雑音比が第1閾より小さい又は第2閾より大きいとき、これは、修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たすと考えられて良い。この場合、修正目標フレームカウントが目標フレームカウントの閾以上になるように、目標フレームカウントの値が修正されて良い。
例えば、高信号対雑音比音声閾HIGH_SNR_VOICE_THが10000にプリセットされると仮定すると、第1閾はA1*HIGH_SNR_VOICE_THに設定されて良く、第2閾はA2*HIGH_SNR_VOICE_THに設定され、ここでA1及びA2は正実数であり、A1<A2である。ここで、A1は0.5、0.6、0.7、又は別の経験値であって良く、A2は290、300、310、又は別の経験値であって良い。目標フレームカウントの閾は、9、10、11、又は別の経験値に等しくて良い。
624:修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たさない場合、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータを計算する。
具体的に、修正セグメント信号対雑音比が第1閾以上であり且つ第2閾以下である場合、これは、修正セグメント信号対雑音比がプリセット信号対雑音比条件を満たさないと考えられて良い。この場合、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータが計算される。
本実施形態では、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータは、パラメータグループであって良いパラメータグループは、相互相関係数のピーク振幅信頼性パラメータpeak_mag_prob及びピーク位置変動パラメータpeak_pos_flucを含んで良い。
具体的に、peak_mag_probは以下の方法で計算されて良い。
先ず、左チャネル周波数ドメイン信号及び右ャネル周波数ドメイン信号の相互相関係数の値Xcorr_itd(t)が振幅値の降順又は昇順にソートされ、peak_mag_probは、式(16)を用いて、左チャネル周波数ドメイン信号及び右ャネル周波数ドメイン信号の相互相関係数のソートされた値Xcorr_itd(t)に基づき計算される。
ここで、Xは左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の格納された値のピーク位置のインデックスを表し、Yは左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の格納された値のプリセット位置のインデックスを表す。例えば、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の値Xcorr_itd(i)は、振幅値の昇順に格納され、Xの位置は2*ITD_MAXであり、Yの位置は2*ITD_MAX−1であって良い。この場合、本願の本実施形態において、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク値の振幅値と、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数の2番目に大きい値の振幅値と、の間の差の、ピーク値の振幅値に対する比が、相互相関係数のピーク振幅信頼性パラメータ、つまりpeak_mag_probとして使用される。勿論、これは、peak_mag_probを選択する単なる1つの方法である。
さらに、また、peak_pos_flucを計算する複数の方法が存在し得る。任意で、幾つかの実施形態では、peak_pos_flucは、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のN個のフレームのITD値に基づく計算を通じて取得されて良い。ここでNは1以上の整数である。任意で、幾つかの実施形態では、peak_pos_flucは、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックス並びに現在フレームの前のN個のフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックスに基づく計算を通じて取得されて良い。ここでNは1以上の整数である。
例えば、式(17)を参照すると、peak_pos_flucは、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置のインデックスに対応するITD値と、現在フレームの前のフレームのITD値と、の間の差の絶対値であって良い。
peak_pos_fluc=abs(argmax(Xcorr(t))−ITD_MAX−prev_itd) (17)
ここで、prev_itdは現在フレームの前のフレームのITD値を表し、abs(*)は絶対値を取得する演算を表し、argmaxは最大値の位置を検索する演算を表す。
626〜628。左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすか否かを決定し、安定度がプリセット条件を満たす場合、目標フレームカウントを増大する。
言い換えると、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすとき、連続的に現れることの許される目標フレームの数が減少される。
例えば、peak_mag_probがピーク振幅信頼性閾thprobより大きく、且つpeak_pos_flucがピーク位置変動閾thflucより大きい場合、目標フレームカウントは増大される。本願の本実施形態では、ピーク振幅信頼性閾thprobは0.1、0.2、0.3、又は別の経験値に設定されて良く、ピーク位置変動閾thflucは4、5、6、又は別の経験値に設定されて良い。
理解されるべきことに、目標フレームカウントを増大する複数の方法が存在し得る。
任意で、幾つかの実施形態では、目標フレームカウントは1だけ直接増大されて良い。
任意で、幾つかの実施形態では、目標フレームカウントの増大量は、修正セグメント信号対雑音比及び/又は異なるチャネルの間の相互相関係数のピーク位置の安定度を表すパラメータのグループのうちの1又は複数に基づき、制御されて良い。
例えば、R1≦mssnr<R2の場合、目標フレームカウントは1だけ増大され、R2≦mssnr<R3の場合、目標フレームカウントは2だけ増大され、又はR3≦mssnr≦R4の場合、目標フレームカウントは3だけ増大される。ここで、R1<R2<R3<R4である。
別の例では、U1<peak_mag_prob<U2且つpeak_pos_fluc>thflucの場合、目標フレームカウントは1だけ増大され、U2<peak_mag_prob<U3且つpeak_pos_fluc>thflucの場合、目標フレームカウントは2だけ増大され、又はU3≦peak_mag_prob且つpeak_pos_fluc>thflucの場合、目標フレームカウントは3だけ増大される。ここで、U1はピーク振幅信頼性閾thprobであって良く、U1<U2<U3である。
630〜634。現在フレームが現在フレームの前のフレームのITD値を再使用するための条件を満たすか否かを決定し、現在フレームが条件を満たす場合、現在フレームの前のフレームのITD値を現在フレームのITD値として使用し、目標フレームカウントを増大し、又はその他の場合、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用するステップをスキップし、次のフレームにおける処理を実行する。
留意すべきことに、現在フレームが現在フレームの前のフレームのITD値を再使用するための条件を満たすか否かは、本願の本実施形態において具体的に限定されない。条件は、初期ITD値の正確さ、目標フレームカウントが閾に達したか否か、及び現在フレームが連続音声フレームか否か、のような1又は複数の要因に基づき設定されて良い。
例えば、現在フレームのm番目のサブフレームの音声活性化検出結果及び前のフレームの音声活性化検出結果の両方が音声フレームを示す場合、前のフレームのITD値が0に等しくないならば、現在フレームの初期ITD値が0に等しいとき、現在フレームの初期ITD値の信頼性レベルは低く(初期ITD値の信頼性レベルはitd_cal_flagの値を用いて特定されて良い、例えば、itd_cal_flagが1に等しくない場合、初期ITD値の信頼性レベルが低く、詳細についてはステップ612の説明を参照する)、目標フレームカウントが目標フレームカウントの閾より少なく、現在フレームの前のフレームのITD値が現在フレームのITD値として使用されて良く、目標フレームカウントは増大される。
さらに、現在フレームの音声活性化検出結果及び現在フレームの前のフレームのm番目のサブフレームの音声活性化検出結果の両方が音声フレームを示す場合、前のフレームの音声活性化検出結果フラグビットpre_vadは、音声フレームフラグに更新されて良く、つまりpre_vadが1に等しく、その他の場合、前のフレームの音声活性化検出結果pre_vadは、背景雑音フレームフラグに更新され、つまりpre_vadが0に等しい。
以上は、ステップ604を参照して、修正セグメント信号対雑音比を計算する方法を詳細に記載した。しかしながら、本願の本実施形態はこれに限定されない。以下は、修正セグメント信号対雑音比の別の実装を提供する。
任意で、幾つかの実施形態では、修正セグメント信号対雑音比は以下の方法で計算されて良い。
ステップ1。式(18)及び(19)を用いて、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,left(k)、及びm番目のサブフレームの右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,right(k)を計算する。
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2 (18)
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2 (19)
ここで、k=1、...、L/2−1であり、Lは高速フーリエ変換長であり、例えばLは400又は800であって良い。
ステップ2。式(20)及び(21)を用いて、SPD
m,left(k)及びSPD
m,right(k)に基づき、現在フレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPD
left(k)及びSPD
right(k)を計算する。
代替として、式は以下であって良い。
ここで、SUBFR_NUMは音声フレームに含まれるサブフレームの数を表す。
ステップ3。式(22)を用いて、SPDleft(k)及びSPDright(k)に基づき、現在フレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPD(k)を計算する。
SPD(k)=A*SPDleft(k)+(1−A)SPDright(k) (22)
ここで、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは0.4、0.5、0.6又は別の経験値であって良い。
ステップ4。式(23)を用いて、SPD(k)に基づき、サブバンドエネルギE_band(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数を表す。
ここで、band_
rbは、サブバンド分割に使用されるプリセットテーブルを表し、band_tb[i]はi番目のサブバンドの下限周波数ビンを表し、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンを表す。
ステップ5。E_band(i)及びサブバンド雑音エネルギ推定E_band_n(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。具体的に、mssnrは式(7)及び式(8)に記載された実装を用いて計算されて良い。詳細事項は、ここで再び記載されない。
ステップ6。E_band(i)に基づきE_band_n(i)を更新する。具体的に、E_band_n(i)は式(9)〜式(11)に記載された実装を用いて更新されて良い。詳細事項は、ここで再び記載されない。
任意で、幾つかの他の実施形態では、修正セグメント信号対雑音比は以下の方法で計算されて良い。
ステップ1。式(24)及び(25)を用いて、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,left(k)、及びm番目のサブフレームの右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm,right(k)を計算する。
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2 (24)
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2 (25)
ここで、k=1、...、L/2−1であり、Lは高速フーリエ変換長であり、例えばLは400又は800であって良い。
ステップ2。式(26)を用いて、SPDm,left(k)及びSPDm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)を計算する。
SPDm(k)=A*SPDm,left(k)+(1−A)SPDm,right(k) (26)
ここで、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは0.4、0.5、0.6又は別の経験値であって良い。
ステップ3。式(27)を用いて、SPDm(k)に基づき、現在フレームの左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の平均振幅スペクトルSPD(k)を計算する。
ステップ4。式(28)を用いて、SPD(k)に基づき、サブバンドエネルギE_band(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数である。
ここで、band_
rbは、サブバンド分割に使用されるプリセットテーブルを表し、band_tb[i]はi番目のサブバンドの下限周波数ビンを表し、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンを表す。
ステップ5。E_bandm(i)及びサブバンド雑音エネルギ推定E_band(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。具体的に、mssnrは式(7)及び式(8)に記載された実装を用いて計算されて良い。詳細事項は、ここで再び記載されない。
ステップ6。E_band(i)に基づきE_band_n(i)を更新する。具体的に、E_band_n(i)は式(9)〜式(11)に記載された実装を用いて更新されて良い。詳細事項は、ここで再び記載されない。
任意で、幾つかの他の実施形態では、修正セグメント信号対雑音比は以下の方法で計算されて良い。
ステップ1。式(29)を用いて、m番目のサブフレームの左チャネル周波数ドメイン信号Xm,left(k)及びm番目のサブフレームの右チャネル周波数ドメイン信号Xm,right(k)に基づき、m番目のサブフレームの左チャネル周波数ドメイン信号及びm番目のサブフレームの右チャネル周波数ドメイン信号の平均振幅スペクトルSPDm(k)を計算する。
SPDm(k)=A*SPDm,left(k)+(1−A)SPDm,right(k) (29)
ここで、
SPDm,left(k)=(real{Xm,left(k)})2+(imag{Xm,left(k)})2; 且つ、
SPDm,right(k)=(real{Xm,right(k)})2+(imag{Xm,right(k)})2
ここで、k=1、...、L/2−1、Lは高速フーリエ変換長であり、例えばLは400又は800であって良く、Aはプリセット左/右チャネル振幅スペクトル混合比係数であり、Aは0.4、0.5、0.6又は別の経験値であって良い。
ステップ2。
式(30)を用いて、SPD
m(k)に基づき、m番目のサブフレームのサブバンドエネルギE_band
m(i)を計算する。ここで、i=0、1、...、BAND_NUM−1であり、BAND_NUMはサブバンドの数である。
ここで、band_
rbは、サブバンド分割に使用されるプリセットテーブルを表し、band_tb[i]はi番目のサブバンドの下限周波数ビンを表し、band_tb[i+1]−1はi番目のサブバンドの上限周波数ビンを表す。
ステップ3。式(31)を用いて、m番目のサブフレームのサブバンドエネルギE_band
m(i)に基づき、現在フレームのサブバンドエネルギE_band(i)を計算する。
ステップ4。E_band(i)及びサブバンド雑音エネルギ推定E_band_n(i)に基づき、修正セグメント信号対雑音比mssnrを計算する。具体的に、mssnrは式(7)及び式(8)に記載された実装を用いて計算されて良い。詳細事項は、ここで再び記載されない。
ステップ5。E_band(i)に基づきE_band_n(i)を更新する。具体的に、E_band_n(i)は式(9)〜式(11)に記載された実装を用いて更新されて良い。詳細事項は、ここで再び記載されない。
以上は、ステップ605を参照して、音声活性化検出の実装を詳細に記載した。しかしながら、本願の本実施形態はこれに限定されない。以下は、音声活性化検出の別の実装を提供する。
具体的に、修正セグメント信号対雑音比が音声活性化検出閾thVADより大きい場合、現在フレームは音声フレームであり、現在フレームの音声活性化検出フラグvad_flagは1に設定される。その他の場合、現在フレームは背景雑音フレームであり、この場合、現在フレームの音声活性化検出フラグvad_flagは0に設定される。音声活性化検出閾thVADは、通常経験値であり、ここでは3500、4000、4500、等であって良い。
相応して、ステップ630〜634の実装は、以下の実装に修正されて良い。
現在フレームの音声活性化検出結果及び前のフレームの音声活性化検出結果pre_vadの両方が音声フレームを示すとき、前のフレームのITD値が0に等しくない場合、現在フレームの初期ITD値は0に等しく、現在フレームの初期ITD値の信頼性レベルは低く(初期ITD値の信頼性レベルはitd_cal_flagの値を用いて特定されて良い、例えば、itd_cal_flagが1に等しくない場合、初期ITD値の信頼性レベルが低く、詳細についてはステップ612の説明を参照する)、目標フレームカウントが目標フレームカウントの閾より少なく、前のフレームのITD値が現在フレームのITD値として使用され、目標フレームカウントは増大される。
現在フレームの音声活性化検出結果が音声フレームを示す場合、前のフレームの音声活性化検出結果pre_vadは音声フレームフラグに更新され、つまり、pre_vadは1に等しい。その他の場合、前のフレームの音声活性化検出結果pre_vadは背景雑音フレームフラグに更新され、つまり、pre_vadは0に等しい。
ステップ626〜628を参照して、以上は、連続的に現れることの許される目標フレームの数を調整し又は制御する方法を詳細に記載した。しかしながら、本願の本実施形態はこれに限定されない。以下は、連続的に現れることの許される目標フレームの数を調整し又は制御する別の方法を提供する。
任意で、幾つかの実施形態では、先ず、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすか否かが決定され、安定度がプリセット条件を満たす場合、目標フレームカウントの閾が減少される。言い換えると、本願の本実施形態では、連続的に現れることの許される目標フレームの数は、目標フレームカウントの閾を減少することにより減少される。
留意すべきことに、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度がプリセット条件を満たすか否かを決定する複数の方法が存在し得る。これは、本願の本実施形態において具体的に限定されない。例えば、プリセット条件は以下であって良い:左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク振幅信頼性パラメータは、プリセットピーク振幅信頼性閾より大きく、ピーク位置変動パラメータはプリセットピーク位置変動閾より大きいく、ここで、ピーク振幅信頼性閾は0.1、0.2、0.3、又は別の経験値であって良く、ピーク位置変動閾は4、5、6、又は別の経験値であって良い。
留意すべきことに、目標フレームカウントの閾を減少する複数の方法が存在し得る。これは、本願の本実施形態において具体的に限定されない。
任意で、幾つかの実施形態では、目標フレームカウントの閾は1だけ直接減少されて良い。
任意で、幾つかの他の実施形態では、目標フレームカウントの閾の減少量は、修正セグメント信号対雑音比及び/又は左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータのグループのうちの1又は複数に基づき、制御されて良い。
例えば、R1≦mssnr<R2の場合、目標フレームカウントの閾は1だけ減少されて良く、R2≦mssnr<R3の場合、目標フレームカウントの閾は2だけ減少されて良く、又はR3≦mssnr≦R4の場合、目標フレームカウントの閾は3だけ減少されて良く、ここで、R1、R2、R3、R4はR1<R2<R3<R4を満たす。
別の例では、U1<peak_mag_prob<U2且つpeak_pos_fluc>thflucの場合、目標フレームカウントの閾は1だけ減少されて良く、U2<peak_mag_prob<U3且つpeak_pos_fluc>thflucの場合、目標フレームカウントの閾は2だけ減少されて良く、又はU3≦peak_mag_prob且つpeak_pos_fluc>thflucの場合、目標フレームカウントの閾は3だけ減少されて良く、ここで、U1、2、及びU3はU1<U2<U3を満たして良く、U1は上述のピーク振幅信頼性閾thprobであって良い。
ステップ624を参照して、以上は、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータを計算する方法を詳細に記載した。ステップ624では、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータは、主に2つのパラメータ:ピーク振幅信頼性パラメータpeak_mag_prob及びピーク位置変動パラメータpeak_pos_flucを含む。しかしながら、本願の本実施形態はこれに限定されない。
任意で、幾つかの実施形態では、左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置の安定度を表すパラメータは、peak_pos_flucのみを含んで良い。相応して、ステップ626は、peak_pos_flucがピーク位置変動閾thflucより大きい場合、目標フレームカウントを増大する、に変更されて良い。
任意で、幾つかの他の実施形態では、異なるチャネルの間の相互相関係数のピーク位置の安定度を表すパラメータは、peak_mag_prob及びpeak_pos_flucに対して線形及び/又は非線形演算が実行された後に得られたピーク位置安定性パラメータpeak_stableであって良い。
例えば、peak_stable、peak_mag_prob、及びpeak_pos_flucの間の関係は、式(32)を用いて表され得る。
peak_stable=peak_mag_prob/(peak_pos_fluc)p (32)
別の例では、peak_stable、peak_mag_prob、及びpeak_pos_flucの間の関係は、式(33)を用いて表され得る。
peak_stable=diff_factor[peak_pos_fluc]*peak_mag_prob (33)
ここで、diff_factorは隣接フレームのITD値のプリセット差係数シーケンスを表し、diff_factorは隣接フレームのITD値のものであり且つpeak_pos_flucの全ての可能な値に対応する差係数を含んで良く、diff_factorは経験に基づき設定されて良く、又は大量データに基づくトレーニングを通じて取得されて良く、Pは左チャネル周波数ドメイン信号及び右チャネル周波数ドメイン信号の相互相関係数のピーク位置変動影響指数を表して良く、Pは1以上の正整数であって良く、例えばPは1、2、3、又は別の経験値であって良い。
相応して、ステップ626は、peak_stableがプリセットピーク位置安定性閾より大きい場合、目標フレームカウントを増大する、に変更されて良い。ここで、プリセットピーク位置安定性閾は、0以上の正実数であって良く、又は別の経験値であって良い。
さらに、幾つかの実施形態では、平滑化ピーク位置安定性パラメータlt_peak_stableを得るために、peak_stableに対して平滑化処理が実行されて良く、後の決定はlt_peak_stableに基づき実行される。
具体的に、lt_peak_stableは式(34)を用いて計算されて良い。
lt_peak_stable=(1−alpha)*lt_peak_stable+alpha*peak_stable (34)
ここで、alphaは長期平滑化係数を表し、通常、0以上且つ1以下の正実数であって良く、例えばalphaは0.4、0.5、0.6、又は別の経験値であって良い。
相応して、ステップ626は、lt_peak_stableがプリセットピーク位置安定性閾より大きい場合、目標フレームカウントを増大する、に変更されて良い。ここで、プリセットピーク位置安定性閾は、0以上の正実数であって良く、又は別の経験値であって良い。
以下は、本願の装置実施形態を記載する。装置実施形態は、前述の方法を実行するために用いられて良い。したがって、詳細に記載されない部分については、前述の方法実施形態を参照する。
図7は、本願の一実施形態によるエンコーダの概略ブロック図である。図7のエンコーダ700は、
現在フレームのマルチチャネル信号を取得するよう構成される取得ユニット710と、
現在フレームの初期ITD値を決定するよう構成される第1決定ユニット720と、
マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御するよう構成される制御ユニットであって、特性情報は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、目標フレームの前のフレームのITD値は目標フレームのITD値として再使用される、制御ユニット730と、
現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数に基づき、現在フレームのITD値を決定するよう構成される第2決定ユニット740と、
現在フレームのITD値に基づき、マルチチャネル信号を符号化するよう構成される符号化ユニット750と、を含む。
本願の本実施形態によると、背景雑音、反響、及び複数パーティの会話にような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
任意で、幾つかの実施形態では、エンコーダ700は、マルチチャネル信号の相互相関係数のピーク値の振幅及びマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するよう構成される第3決定ユニット、を更に含む。
任意で、幾つかの実施形態では、第3決定ユニットは、具体的に、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき、ピーク振幅信頼性パラメータを決定し、ピーク振幅信頼性パラメータはマルチチャネル信号の相互相関係数のピーク値の振幅の信頼性レベルを表し、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定し、ピーク位置変動パラメータはマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差を表し、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定する、よう構成される。
任意で、幾つかの実施形態では、第3決定ユニットは、具体的に、ピーク振幅信頼性パラメータとして、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比を決定するよう構成される。
任意で、幾つかの実施形態では、第3決定ユニットは、具体的に、ピーク位置変動パラメータとして、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差の絶対値を決定するよう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御し、マルチチャネル信号の相互相関係数のピーク特徴がプリセット条件を満たすとき、目標フレームカウント及び目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される目標フレームの数を減少させ、目標フレームカウントは、現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、目標フレームカウントを増大することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、目標フレームカウントの閾を減少することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たさないとき、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御するよう構成され、エンコーダ700は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するよう構成される停止ユニットを更に含む。
任意で、幾つかの実施形態では、制御ユニット730は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かを決定し、マルチチャネル信号の信号対雑音比パラメータが信号対雑音比条件を満たさないとき、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御する、又は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止する、よう構成される。
任意で、幾つかの実施形態では、停止ユニットは、具体的に、目標フレームカウントの値が目標フレームカウントの閾より大きく又は等しくなるように、目標フレームカウントを増大し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、第2決定ユニット740は、具体的に、現在フレームの初期ITD値、目標フレームカウント、及び目標フレームカウントの閾に基づき、現在フレームのITD値を決定し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、信号対雑音比パラメータは、マルチチャネル信号の修正セグメント信号対雑音比である。
図8は、本願の一実施形態によるエンコーダの概略ブロック図である。図8のエンコーダ800は、
プログラムを格納するよう構成されるメモリ810と、
該プログラムを実行するよう構成されるプロセッサ820と、を含み、該プログラムが実行されると、プロセッサ820は、現在フレームのマルチチャネル信号を取得し、現在フレームの初期ITD値を決定し、マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御し、特性情報は、マルチチャネル信号の信号対雑音比パラメータ及びマルチチャネル信号の相互相関係数のピーク特徴のうちの少なくとも1つを含み、目標フレームの前のフレームのITD値は目標フレームのITD値として再使用され、現在フレームの初期ITD値及び連続的に現れることの許される目標フレームの数に基づき、現在フレームのITD値を決定し、現在フレームのITD値に基づき、マルチチャネル信号を符号化するよう構成される。
本願の本実施形態によると、背景雑音、反響、及び複数パーティの会話のような環境要因の、ITD値の計算結果の正確さ及び安定性に及ぼす影響が低減でき、背景雑音、反響、及び複数パーティの会話が存在するとき、又は信号高調波特徴が明らかでないとき、PS符号化におけるITD値の安定性は向上され、ITD値の不要な移り変わりが大幅に低減され、それにより、ダウンミックス信号のフレーム間不連続性及び復号信号の音像の不安定性を回避する。さらに、本願の本実施形態によると、ステレオ信号の位相情報が良好に維持でき、音響品質が向上される。
任意で、幾つかの実施形態では、エンコーダ800は、マルチチャネル信号の相互相関係数のピーク値の振幅及びマルチチャネル信号の相互相関係数のピーク位置のインデックスに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定するよう更に構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の相互相関係数のピーク値の振幅に基づき、ピーク振幅信頼性パラメータを決定し、ピーク振幅信頼性パラメータはマルチチャネル信号の相互相関係数のピーク値の振幅の信頼性レベルを表し、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値及び現在フレームの前のフレームのITD値に基づき、ピーク位置変動パラメータを決定し、ピーク位置変動パラメータはマルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差を表し、ピーク振幅信頼性パラメータ及びピーク位置変動パラメータに基づき、マルチチャネル信号の相互相関係数のピーク特徴を決定する、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、ピーク振幅信頼性パラメータとして、マルチチャネル信号の相互相関係数のピーク値の振幅値とマルチチャネル信号の相互相関係数の2番目に大きい値の振幅値との間の差の、ピーク値の振幅値に対する比を決定するよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、ピーク位置変動パラメータとして、マルチチャネル信号の相互相関係数のピーク位置のインデックスに対応するITD値と現在フレームの前のフレームのITD値との間の差の絶対値を決定するよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御し、マルチチャネル信号の相互相関係数のピーク特徴がプリセット条件を満たすとき、目標フレームカウント及び目標フレームカウントの閾のうちの少なくとも1つを調整することにより、連続的に現れることの許される目標フレームの数を減少させ、目標フレームカウントは、現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は、連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、目標フレームカウントを増大することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、目標フレームカウントの閾を減少することにより、連続的に現れることの許される目標フレームの数を減少させるよう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たさないときのみ、マルチチャネル信号の特性情報に基づき、連続的に現れることの許される目標フレームの数を制御するよう構成され、エンコーダ800は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止するよう更に構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、マルチチャネル信号の信号対雑音比パラメータがプリセット信号対雑音比条件を満たすか否かを決定し、マルチチャネル信号の信号対雑音比パラメータが信号対雑音比条件を満たさないとき、マルチチャネル信号の相互相関係数のピーク特徴に基づき、連続的に現れることの許される目標フレームの数を制御する、又は、マルチチャネル信号の信号対雑音比が信号対雑音比条件を満たすとき、現在フレームの前のフレームのITD値を現在フレームのITD値として再使用することを停止する、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、目標フレームカウントの値が目標フレームカウントの閾より大きく又は等しくなるように、目標フレームカウントを増大し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、エンコーダ800は、具体的に、現在フレームの初期ITD値、目標フレームカウント、及び目標フレームカウントの閾に基づき、現在フレームのITD値を決定し、目標フレームカウントは現在連続的に現れている目標フレームの数を表すために使用され、目標フレームカウントの閾は連続的に現れることの許される目標フレームの数を示すために使用される、よう構成される。
任意で、幾つかの実施形態では、信号対雑音比パラメータは、マルチチャネル信号の修正セグメント信号対雑音比である。
当業者は、本願明細書に開示の実施形態で記載された例を参照して、ユニット及びアルゴリズムのステップが、電子ハードウェア又はコンピュータソフトウェア及び電子ハードウェアの組み合わせにより実施され得ることを認識し得る。機能がハードウェア又はソフトウェアにより実行されるかは、技術的ソリューションの特定の適用及び設計制約条件に依存する。当業者は、各々の特定の適用について記載の機能を実施するために異なる方法を使用できるが、実装が本発明の範囲を超えると考えられるべきではない。
便宜上及び簡潔な説明のために、前述のシステム、装置、及びユニットの詳細な動作処理については、前述の方法における対応する処理を参照し、詳細事項はここで再び記載されないことが、当業者により明らかに理解され得る。
本願において提供される幾つかの実施形態では、開示のシステム、機器、及び方法は他の方法で実装されて良いことが理解されるべきである。例えば、記載した機器の実施形態は単なる例である。例えば、ユニットの分割は、単なる論理的機能の区分であり、実際の実装では他の区分であって良い。例えば、複数のユニット又はコンポーネントは、別のシステムに結合又は統合されて良い。或いは、幾つかの機能は無視されるか又は実行されなくて良い。さらに、示した又は議論した相互結合又は直接結合又は通信接続は、幾つかのインタフェースを使用することにより実装されて良い。装置又はユニット間の間接結合又は通信接続は、電気的、機械的又は他の形式で実装されて良い。
別個の部分として記載されたユニットは、物理的に別個であって良く又はそうでなくて良い。また、ユニットとして表示された部分は、物理的なユニットであって良く又はそうでなくて良く、1カ所に置かれて良く或いは複数のネットワークユニットに分散されて良い。一部又は全部のユニットは、実施形態のソリューションの目的を達成するために実際の要件に依存して選択されて良い。
さらに、本願の実施形態における機能ユニットは、1つの処理ユニットに統合されて良く、或いは各ユニットが物理的に単独で存在して良く、或いは2以上のユニットが1つのユニットに統合されて良い。
機能がソフトウェア機能ユニットの形式で実装され、独立した製品として販売され又は使用されるとき、機能は、コンピュータ可読記憶媒体に格納されて良い。このような理解に基づき、本願の基本的技術的ソリューション、又は従来技術に貢献する部分、又は一部の技術的ソリューションは、ソフトウェア製品の形式で実施されて良い。コンピュータソフトウェアプロダクトは、記憶媒体に格納され、コンピュータ装置(パーソナルコンピュータ、サーバ、ネットワーク装置、等であって良い)に、本願の実施形態で記載された方法のステップの全部又は一部を実行するよう指示する複数の命令を含む。記憶媒体は、USBフラッシュドライブ、取り外し可能ハードディスク、読み出し専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクのような、プログラムコードを格納可能な任意の媒体を含む。
上述の説明は、本願の単なる具体的な実装であり、本願の保護範囲を制限するものではない。本願で開示された技術範囲内にある、当業者により直ちに考案される変形又は置換は、本願の保護範囲に包含される。したがって、本願の保護範囲は、請求項の保護範囲に従うべきである。