JP7301073B2

JP7301073B2 - 音声類似度評価器、音声符号化器、方法およびコンピュータプログラム

Info

Publication number: JP7301073B2
Application number: JP2020567028A
Authority: JP
Inventors: ザシャ・ディッシュ; スティーブン・ヴァン・デー・パー; アンドレアス・ニーダーマイアー; エレナ・バルディエル・ペレス; ベルント・エドラー
Original assignee: フラウンホファーゲセルシャフトツールフェールデルンクダーアンゲヴァンテンフォルシュンクエー．ファオ．
Priority date: 2018-05-30
Filing date: 2019-05-29
Publication date: 2023-06-30
Anticipated expiration: 2039-05-29
Also published as: KR102640748B1; EP4270393A3; BR112020024361A2; CN112470220A; JP2021526240A; CA3101911A1; US20210082447A1; KR20210021490A; EP4270393A2; EP3803865B1; CA3101911C; EP3576088A1; EP3803865A1; MX2020012886A; CA3165021A1; ES2960785T3; EP3803865C0; WO2019229190A1

Description

本発明による実施形態は、音声類似度評価器に関係する。

本発明によるさらなる実施形態は、音声符号化器に関係する。

本発明によるさらなる実施形態は、音声信号間の類似度を評価するための方法に関係する。

本発明によるさらなる実施形態は、音声信号を符号化するための方法に関係する。

本発明によるさらなる実施形態は、前記方法を実行するためのコンピュータプログラムに関係する。

一般に、本発明による実施形態は、効率的な知覚的音声コーデック(perceptual audio codec)のための改善された心理音響モデルに関係する。

音声コーディングは新興技術分野となっているが、それは移動体通信、音声ストリーミング、音声放送、テレビなど、多くの技術分野において音声コンテンツの符号化および復号が欠かせないものであるからである。

以下では、知覚的コーディングについて紹介する。次の段落で説明される定義および詳細は、任意選択で本明細書において開示されている実施形態と併せて適用できることに留意されたい。

知覚的コーデック
mp3またはAACのような知覚的音声コーデックは、今日のマルチメディアアプリケーションにおいて音声をコーディングするために広く使用されている[1]。大半の人気のあるコーデックは、いわゆる波形コーダであり、すなわち、音声の時間領域波形を保持し、ほとんどの場合に、知覚的に制御された量子化を適用することにより、音声の時間領域波形に(聞き取れない)ノイズを加える。量子化は、典型的には、時間周波数領域で行われ得るが、時間領域でも適用され得る[2]。加えられたノイズを聞き取れなくするために、それは心理音響モデル、典型的には知覚的マスキングモデルの制御下で整形される。

今日の音声アプリケーションでは、より低いビットレートに対する要求が常にある。知覚的音声コーデックは、伝統的に、これらの低ビットレートでも満足の行く知覚的品質を達成するために音声帯域幅を制限する。High Efficiency Advanced Audio Coding (HE-AAC)[4]におけるスペクトル帯域幅複製(SBR)[3]またはMPEG-H 3D Audio[6]および3gpp Enhanced Voice Services (EVS)[7]におけるIntelligent Gap Filling (IGF) [5]のような効率的なセミパラメトリック技術は、帯域制限された音声を復号器側の全帯域幅まで拡大するために使用される。このような技術は、帯域幅拡大(BWE)と呼ばれる。これらの技術は、いくつかのパラメータによって制御される欠落高周波数成分の推定値を挿入する。典型的には、最も重要なBWE側の情報は、包絡線関連のデータである。通常、推定処理は心理音響モデルではなくヒューリスティックスによって導かれる。

知覚モデル
音声コーディングで使用される心理音響モデルは、主に、誤り信号が符号化されるべき元の音声信号によって知覚的にマスクされているかどうかを評価することに依存する。このアプローチは、誤り信号が典型的には波形符号化器で使用される量子化プロセスによって引き起こされるときに功を奏する。しかしながら、SBRまたはIGFなどのパラメトリック信号表現については、アーチファクトがほとんど聞こえないときでも誤り信号は大きくなる。

これは、人間の聴覚系が音声信号の正確な波形を処理しないという事実の結果であり、ある状況においては、聴覚系は位相に鈍感であり、スペクトルバンドの時間的包絡線が、評価される主な聴覚情報となる。たとえば、正弦波の異なる開始位相(滑らかなオンセットおよびオフセットを有する)は、知覚可能な効果を有しない。しかしながら、調波複合音については、相対的開始位相が知覚的に重要な場合があり、特に複数の高調波が1つの聴覚的臨界帯域内に収まっているときにそうである[8]。これらの高調波の相対位相、さらにはその振幅は、1つの聴覚的臨界帯域内で表現される時間的包絡線形状に影響を及ぼし、原理上、人間の聴覚系で処理することができる。

このような状況を鑑みて、音声信号を比較し、および/または計算の複雑性と知覚的関連性との間の改善されたトレードオフを提供し、および/もしくは心理音響モデルの制御の下でパラメトリック技術を初めて使用することを可能にするコーディングパラメータを決定する概念が必要とされている。

本発明による実施形態では、音声類似度評価器を作成する。

音声類似度評価器は、(たとえば、スペクトルサブバンドにおける包絡線復調を実行するために)入力音声信号に基づき複数の(好ましくは重なり合う)周波数範囲の包絡線信号を(たとえば、聴覚系におけるプリマスキングおよび/またはポストマスキングをモデル化し得るフィルタバンクまたはガンマトーン・フィルタバンクおよび整流および時間的ローパスフィルタリングおよび1つまたは複数の適応プロセスを使用して)取得するように構成される。

音声類似度評価器は、(たとえば、変調フィルタバンクを使用して、または変調フィルタを使用して)複数の変調周波数範囲に対する包絡線信号に関連付けられている変調情報(たとえば、変調フィルタの出力信号)を取得するように構成されており、変調情報は、(たとえば、変調フィルタバンクの出力信号の形態で、または変調フィルタの出力信号の形態で)包絡線信号の変調を記述する(および、たとえば、内部表現として考慮され得る)。たとえば、音声類似度評価器は、包絡線変調分析を実行するように構成されていてよい。

音声類似度評価器は、入力音声信号と基準音声信号との間の類似度に関する情報(たとえば、入力音声信号と基準音声信号との間の知覚的類似性を記述する単一の値)を取得するために、取得された変調情報(たとえば、内部表現)を、基準音声信号に関連付けられている基準変調情報と比較するように構成される(たとえば、内部差分表現を使用して、ただし、内部差分表現は、たとえば、取得された変調情報と基準変調情報との間の差分を記述するものであってよく、共変調の程度または内部差分表現の正および負の値の非対称重み付けに基づく内部差分表現のスケーリングのような、1つまたは複数の重み付け動作または修正動作が適用され得る)。

本発明によるこの実施形態は、複数の変調周波数範囲に対する包絡線信号に関連付けられている変調情報が、適度の労力(たとえば、包絡線信号を取得するために第1のフィルタバンクを使用し、変調フィルタバンクであってもよい第2のフィルタバンクを使用して、変調情報を取得する。ただし、いくつかのマイナーな追加の処理ステップも、精度を改善するために使用される)で取得され得るという知見に基づく。

さらに、このような変調情報は、多くの状況において人間の聴感印象によく適合していることがわかり、このことは、変調情報の類似性は、音声コンテンツの類似する知覚に対応することを意味し、一方、変調情報が大きく異なることは、典型的には、音声コンテンツが異なるものとして知覚されることを意味する。したがって、入力音声信号の変調情報と基準音声信号に関連付けられている変調情報とを比較することによって、入力音声信号が基準音声信号の音声コンテンツと類似していると知覚されるかどうかが結論づけられ得る。言い換えると、入力音声信号に関連付けられている変調情報と基準音声信号に関連付けられている変調情報との間の類似度または差分を表す定量的尺度は、入力音声信号の音声コンテンツと基準音声信号の音声コンテンツとの間の類似度を知覚的重み付け方式で表す(定量的な)類似度情報として使用できる。

このように、音声類似度評価器によって取得される類似度情報(たとえば、入力音声信号(および/または基準音声信号)の特定のパッセージ(たとえば、フレーム)に関連付けられている単一のスカラー値)は、「入力音声信号」が基準音声信号に関して知覚的にどの程度劣化しているか(たとえば、入力音声信号が基準音声信号の劣化バージョンであると仮定されている場合に)を(たとえば、定量的方式で)決定するのに好適である。

この類似度尺度は、たとえば、非可逆音声符号化、特に非可逆非波形維持音声符号化の品質を決定するために使用され得ることがわかった。たとえば、類似度情報は、1つまたは複数の周波数範囲における「変調」(包絡線信号の)が大きく変化した場合に比較的大きな偏差を示し、これは典型的には結果として聴感印象の低下につながる。他方では、類似度評価器によって提供される類似度情報は、実際の信号波形が実質的に異なっていても、入力音声信号と基準音声信号とで異なる周波数帯域における変調が類似している場合には、典型的には比較的大きな類似度(または、同等であるが、比較的小さな差または偏差)を示すであろう。したがって、結果は、人間の聴取者が、典型的には、実際の波形に対して特に敏感ではないが、異なる周波数帯域における音声コンテンツの変調特性に関してより敏感であるという知見と一致している。

結論として、本明細書において説明されている類似度評価器は、人間の聴感印象によく適合している類似度情報を提供する。

好ましい実施形態において、音声類似度評価器は、包絡線信号を取得するために、重なり合うフィルタ特性(たとえば、重なり合う通過帯域)を有する複数のフィルタまたはフィルタリング動作(たとえば、フィルタバンクもしくはガンマトーン・フィルタバンクの)を適用するように構成されている(好ましくは、フィルタまたはフィルタリング動作の帯域幅は、フィルタの中心周波数の増大に伴って増大する)。たとえば、異なる包絡線信号は、入力音声信号の異なる音響周波数範囲に関連付けられ得る。

この実施形態は、重なり合うフィルタ特性を有するフィルタまたはフィルタリング動作を使用して、包絡線信号を適度な労力で取得することができるという知見に基づいており、これは人間の聴覚系とよく一致しているからである。さらに、周波数を高くするとともにフィルタまたはフィルタリング動作の帯域幅を増大させることが有利であることがわかったが、これは、人間の聴覚系とよく一致しており、さらに、知覚的に重要な低周波数領域において良好な周波数分解能を提供しながらフィルタの数を十分に少なく保つのに役立つからである。したがって、異なる包絡線信号は、典型的には、入力音声信号の異なる音響周波数範囲に関連付けられ、これは、妥当な周波数分解能を有する正確な類似度情報を取得するのに役立つ。たとえば、異なる周波数範囲における異なる信号劣化(たとえば、基準音声信号に関する入力音声信号の劣化)は、この方式で考慮することができる。

好ましい実施形態において、音声類似度評価器は、フィルタまたはフィルタリング動作の出力信号に整流(たとえば、半波整流)を適用して、複数の整流された信号を取得するように構成される(たとえば、内有毛細胞をモデル化するために)。

フィルタまたはフィルタリング動作の出力信号に整流を適用することによって、内有毛細胞の挙動を理解することが可能である。さらに、ローパスフィルタと組み合わせた整流により、異なる周波数範囲の強度を反映する包絡線信号が得られる。また、整流(および場合によってはローパスフィルタリング)により、数値表現が比較的容易になる(たとえば、正の値のみを表現すればよいため)。さらに、より高い周波数に対する位相固定およびその損失の現象は、前記の処理によってモデル化される。

好ましい実施形態において、音声類似度評価器は、半波整流された信号(たとえば、内有毛細胞をモデル化するために)にローパスフィルタまたはローパスフィルタリング(たとえば、2500Hzより小さい、または1500Hzより小さいカットオフ周波数を有する)を適用するように構成される。

ローパスフィルタまたはローパスフィルタリング(たとえば、異なる周波数範囲に関連付けられている複数の包絡線信号のうちの各包絡線信号に個別に適用され得る)を使用することによって、内有毛細胞の不活性がモデル化され得る。さらに、データサンプルの量は、ローパスフィルタリングを実行することによって低減され、ローパスフィルタリングされた(好ましくは整流された)バンドパス信号のさらなる処理が円滑にされる。したがって、複数のフィルタまたはフィルタリング動作の好ましくは整流されたローパスフィルタリングされた出力信号は、包絡線信号として機能し得る。

好ましい実施形態において、音声類似度評価器は、包絡線信号を取得するために、自動利得制御を適用するように構成される。

自動利得制御を適用して包絡線信号を取得することによって、包絡線信号のダイナミックレンジが制限され、これにより数値的な問題が軽減される。さらに、利得の適応にいくつかの時定数を使用する、自動利得制御の使用は、音声類似度評価器によって取得される情報の類似度が人間の聴感印象を反映するように、聴覚系で発生するマスク効果をモデル化することがわかった。

好ましい実施形態において、音声類似度評価器は、入力音声信号に基づき複数のフィルタまたはフィルタリング動作によって提供される、整流されローパスフィルタリングされた信号に基づき包絡線信号を導出するために適用される利得を変化させるように構成される。

複数のフィルタまたはフィルタリング動作によって(入力音声信号に基づき)提供される整流されローパスフィルタリングされた信号に基づき包絡線信号を導出するために適用される利得を変化させることは、自動利得制御を実装するための効率的な手段であることがわかった。自動利得制御は、複数のフィルタまたはフィルタリング動作によって提供される信号を整流しローパスフィルタリングした後に容易に実装され得ることができることがわかった。言い換えれば、自動利得制御は、周波数範囲毎に個別に適用され、そのような挙動は人間の聴覚系とよく一致していることがわかった。

好ましい実施形態において、音声類似度評価器は、一連の2つまたはそれ以上の適応ループ(好ましくは5つの適応ループ)を使用して入力音声信号に基づき複数のフィルタまたはフィルタリング動作によって提供される(たとえばガンマトーン・フィルタバンクによって提供される)整流され、ローパルフィルタリングされたバージョンを処理するように構成され、これは時変利得値に応じて時変スケーリングを適用する(たとえば、多段自動利得制御を行うため。利得値はそれぞれの段の比較的大きい入力信号または出力信号に対して比較的小さい値に設定され、利得値はそれぞれの段の比較的小さい入力値または出力値に対して比較的大きい値に設定されている)。任意選択で、たとえば、オーバーシュートを制限または回避するための、1つまたは複数の出力信号の制限、たとえば「リミッター」がある。

音声類似度評価器は、異なる時定数を使用して異なる時変利得値(一連の適応ループ内の異なる段に関連付けられている)を調整するように構成される(たとえば、音声信号のオンセットでのプリマスキングをモデル化するため、および/または音声信号のオフセット後のポストマスキングをモデル化するため)。

時変利得値に依存して時変スケーリングを適用する一連の2つまたはそれ以上の適応ループの使用は、人間の聴覚系で発生する異なる時定数をモデル化するのによく適合していることが認識されている。カスケード適応ループのうちの異なるもので使用される、異なる時変利得値を調整するときに、プリマスキングおよびポストマスキングの異なる時定数が考慮され得る。また、人間の聴覚系で発生する、追加の適応マスキングプロセスは、適度な計算量でそのような方式によりモデル化され得る。たとえば、時変利得値のうちの異なるものを調整するために使用される、異なる時定数は、それに応じて人間の聴覚系において異なる時定数に適応され得る。

結論として、時変スケール値に依存して時変スケーリングを適用する、一連の(もしくはカスケードの)2つまたはそれ以上の適応ループを使用することで、入力音声信号と基準音声信号との間の類似度を記述する類似度情報を取得する目的によく適合する包絡線信号を提供する。

好ましい実施形態において、音声類似度評価器は、異なる(しかし場合によっては重なり合う)通過帯域を有する複数の変調フィルタ(たとえば、複数の変調フィルタバンク)を包絡線信号に適用し(たとえば、異なる変調周波数を有する包絡線信号の成分が少なくとも部分的に分離されるように)、変調情報を取得するように構成される(たとえば、異なる変調周波数範囲に関連付けられている複数の変調フィルタは、第1の音響周波数範囲に関連付けられている第1の包絡線信号に適用され、たとえば、異なる変調周波数範囲に関連付けられている複数の変調フィルタは、第1の音響周波数範囲と異なる第2の音響周波数範囲に関連付けられている第2の包絡線信号に適用される)。

包絡線信号(異なる周波数範囲に関連付けられている)の変調を表す意味のある情報が、包絡線信号をフィルタリングする変調フィルタを使用して少ない労力で取得され得ることがわかった。たとえば、異なる通過帯域を有する一組の変調フィルタを包絡線信号のうちの1つに適用した結果、所与の包絡線信号(または所与の包絡線信号に関連付けられている、もしくは入力音声信号の周波数範囲に関連付けられている)に対する信号(または値)のセットが得られる。したがって、複数の変調信号が、単一の包絡線信号に基づき取得され、変調信号の異なるセットが、複数の包絡線信号に基づき取得され得る。変調信号の各々は、変調周波数または変調周波数の範囲に関連付けられ得る。その結果、変調信号(変調フィルタによって出力され得る)、より正確には、その強度は、包絡線信号(特定の周波数範囲に関連付けられている)がどのように変調されるか(たとえば、時間変調されるか)を記述し得る。このように、異なる包絡線信号に対して変調信号の別々のセットが取得され得る。

これらの変調信号は、変調情報を取得するために使用されてよく、変調フィルタによって提供される変調信号から変調情報(基準音声信号に関連付けられている変調情報と比較される)を導出するために、種々の後処理動作が使用される。

結論として、複数の変調フィルタの使用は、情報のために変調利得の導出に使用できる実装が容易なアプローチであることがわかった。

好ましい実施形態において、変調フィルタは、異なる周波数(たとえば、異なる変調周波数)を有する包絡線信号の成分を少なくとも部分的に分離するように構成され、第1の最低周波数変調フィルタの中心周波数は5Hzより小さく、最高周波数変調フィルタの中心周波数は200Hzから300Hzの間の範囲内にある。

変調フィルタのそのような中心周波数を使用することで人間の知覚に最も関連する変調周波数の範囲がカバーされることがわかった。

好ましい実施形態において、音声類似度評価器は、変調情報を取得するときにDC成分を除去するように構成される(たとえば、変調フィルタの出力信号を、たとえば、それぞれの変調フィルタの中心周波数の半分のカットオフ周波数でローパスフィルタリングすることによって、またローパスフィルタリングの結果生じる信号を変調フィルタの出力信号から減算することによって)。

変調情報を取得するときの直流成分の除去は、包絡線信号に典型的には含まれる強い直流成分による変調情報の劣化を回避するのに役立つことがわかった。また、包絡線信号に基づき変調情報を取得するときに直流成分除去を使用することによって、変調フィルタの急峻さは、適度に小さく抑えることができ、変調フィルタの実装を円滑にする。

好ましい実施形態において、音声類似度評価器は、変調情報を取得するときに位相情報を除去するように構成される。

位相情報を除去することによって、入力音声信号に関連付けられている変調情報と基準音声信号に関連付けられている変調情報との比較において、多くの状況下で人間の聴取者にとって典型的には特に関連性が高いものではない、そのような情報を無視することが可能である。変調フィルタの出力信号の位相情報は、特に入力音声信号に非波形維持修正(たとえば、非波形維持符号化および復号動作のような)が適用される場合に、典型的には比較結果を劣化させるであろうことがわかった。したがって、人間の知覚が信号を非常に類似しているものとして分類するとしても、入力音声信号および基準音声信号を小さなレベルの類似度を有するものとして分類することが回避される。

好ましい実施形態において、音声類似度評価器は、取得された変調情報(たとえば、内部表現)と基準音声信号に関連付けられている基準変調情報との間の差分を表すスカラー値(たとえば、複数の音響周波数範囲に対するサンプル値および音響周波数範囲毎の複数の変調周波数範囲に対するサンプル値を含み得る、取得された変調情報と、複数の音響周波数範囲に対するサンプル値および音響周波数範囲毎の複数の変調周波数範囲に対するサンプル値も含み得る、基準変調情報との間の平方差の和を表す値)を導出するように構成される。

(単一の)スカラー値は、入力音声信号に関連付けられている変調情報と基準音声信号に関連付けられている変調情報との間の差分をよく表し得ることがわかった。たとえば、変調情報は、異なる変調周波数および複数の周波数範囲に対する個別の信号または値を含み得る。これらすべての信号または値の間の差分を単一のスカラー値(「距離尺度」または「ノルム」の形をとり得る)にまとめることによって、入力音声信号と基準音声信号との間の類似度のコンパクトで意味のある評価を有することが可能である。また、このような単一のスカラー値は、コーディングパラメータ(たとえば、符号化パラメータおよび/または復号パラメータ)を選択するための機構、または入力音声信号の処理に適用され得る他の任意の音声信号処理パラメータを決定するための機構によって容易に使用可能であり得る。

差分表現の決定は、類似度情報を導出するための効率的な中間ステップであり得ることがわかった。たとえば、差分表現は、入力音声信号を基準音声信号と比較するときに異なる変調周波数ビン(たとえば、変調周波数ビンの別個のセットは、異なる周波数範囲に関連付けられている異なる包絡線信号に関連付けられ得る)の間の差異を表現するものとしてよい。

たとえば、差分表現は、ベクトルであってもよく、ベクトルの各成分は、変調周波数および考察対象の(入力音声信号または基準音声信号の)周波数範囲に関連付けられ得る。このような差分表現は、後処理に好適であり、また、類似度情報を表す単一のスカラー値の単純な導出を可能にする。

好ましい実施形態において、音声類似度評価器は、取得された変調情報(たとえば、内部表現)を基準音声信号に関連付けられている基準変調情報と比較するために差分表現(たとえば、IDR)を決定するように構成される。

好ましい実施形態において、音声類似度評価器は、2つもしくはそれ以上の隣接する音響周波数範囲における取得された包絡線信号もしくは変調情報の間、または基準信号に関連付けられている包絡線信号の間、または2つもしくはそれ以上の隣接する音響周波数範囲における基準変調情報の間の共変調に依存して、取得された変調情報(たとえば、内部表現)と基準音声信号に関連付けられている基準変調情報との間の差分の重み付けを調整するように構成される(たとえば、取得された変調情報と基準変調情報との間の差分は、比較的低い程度の共変調が見つかる場合と比較したときに比較的高い程度の共変調が見つかる場合において高い重みが付けられる)(また、共変調の程度は、異なる音響周波数範囲に関連付けられている時間的包絡線の間の共分散を決定することによって見つかる)。

取得された変調情報と基準変調情報との間の差分(たとえば、「差分表現」によって表され得る)の重み付けを、共変調情報に応じて調整することは有利であることがわかったが、それは、変調情報の間の差分が、隣接する周波数範囲内に共変調が存在する場合に人間の聴取者によってより強いものとして知覚され得るからである。たとえば、比較的低い程度または量の共変調が見つかる場合と比較したときに比較的高い程度の共変調が見つかる場合に取得された変調情報と基準変調情報との間の差分に大きくした重みを関連付けることによって、類似度情報の決定は、人間の聴覚系の特性に適合させることができる。その結果、類似度情報の品質が改善され得る。

好ましい実施形態において、音声類似度評価器は、取得された変調情報(たとえば、内部表現)と基準音声信号に関連付けられている基準変調情報との間の差分により高い重み付けをして、取得された変調情報(たとえば、内部表現)と基準音声信号に関連付けられている基準変調情報との間の差分と比較したときに入力音声信号が追加の信号成分を含むことを示し、入力音声信号と基準音声信号との間の類似度に関する情報(たとえば、類似度に関する情報を記述する単一のスカラー値)を決定するときに入力音声信号が信号成分を欠いていることを示すように構成される。

音声信号が追加の信号成分を含むことを示す取得された変調情報と基準信号に関連付けられている基準変調情報との差分に(入力音声信号が信号成分を欠いていることを示す差分と比較して)大きい重みを付けると、入力音声信号と基準音声信号との差分に関する情報を決定するときの追加された信号(または信号成分、またはキャリア)の寄与を強調することになる。追加された信号(または信号成分またはキャリア)は、典型的には、欠落した信号(または信号成分またはキャリア)と比較したときにより歪んでいると知覚されることがわかった。この事実は、入力音声信号に関連付けられている変調情報と基準音声信号に関連付けられている変調情報との間の正および負の差分のこのような「非対称的」重み付けによって考慮され得る。類似度情報は、この方式で人間の聴覚系の特性に適合させることができる。

好ましい実施形態において、音声類似度評価器は、入力音声信号と基準音声信号との間の類似度に関する情報を決定するときに異なる重みを使用して取得された変調情報と基準変調情報との間の差分(典型的には多数の値を含む)の正の値および負の値を重み付けするように構成される。

取得された変調情報と基準変調情報との間の(より正確には、上述したようにベクトルの要素の間の)差分の正の値および負の値に異なる重み付けることにより、追加されたおよび欠落した信号または信号成分またはキャリアの異なる影響を、非常に小さな計算労力で考慮することができる。

本発明による別の実施形態では、音声信号を符号化するための音声符号化器を作成する。音声符号化器は、符号化されるべき音声信号と符号化された音声信号との間の類似度の評価に依存して1つまたは複数のコーディングパラメータ(たとえば、好ましくは、音声符号化器によって音声復号器に信号として送られる、符号化パラメータまたは復号パラメータ)を決定するように構成される。この音声符号化器は、本明細書において説明されているような音声類似度評価器を使用して、符号化されるべき音声信号と符号化された音声信号(たとえば、その復号されたバージョン)との間の類似度を評価するように構成される(符号化されるべき音声信号は、基準音声信号として使用され、1つまたは複数の候補パラメータを用いて符号化された音声信号の復号されたバージョンは、音声類似度評価器に対する入力音声信号として使用される)。

この音声符号化器は、上述した類似度情報の決定が、音声符号化によって取得可能な聴感印象の評価に好適であるという知見に基づく。たとえば、類似度情報の決定のために基準信号として符号化されるべき音声信号を使用して、また入力音声信号として符号化されるべき音声信号の符号化され、その後復号されるバージョンを使用して類似度情報を取得することによって、符号化および復号プロセスが、知覚的な損失が少ない符号化されるべき音声信号を再構築するのに適しているかどうかが評価され得る。しかしながら、上述した類似度情報の決定は、波形の一致ではなく、むしろ達成され得る聴感印象に重点を置いている。したがって、取得された類似度情報を使用することで、どのコーディングパラメータ(特定の選択されたコーディングパラメータのうちからの)が最良の(または少なくとも十分に良好な)聴感印象をもたらすかがわかる。このように、上述した類似度情報の決定は、波形の同一性(または類似性)を必要とすることなく、コーディングパラメータに関して決定を行うために使用され得る。

したがって、非現実的な制約(波形の類似度のような)を回避しつつ、コーディングパラメータが確実に選択され得る。

好ましい実施形態において、音声符号化器は、音声符号化器(たとえば、音声符号化器がパラメトリックまたはセミパラメトリック音声符号化器である)によって符号化された異なる周波数範囲の音声コンテンツに基づき欠落している音声コンテンツ(たとえば、音声符号化器によって波形維持するように符号化されていない高周波コンテンツ)を導出するために音声復号器の側で使用されるべき処理ルールを定義する1つまたは複数の帯域幅拡大パラメータを符号化するように構成される。

上述した類似度情報の決定は、帯域幅拡大パラメータの選択に好適であることがわかった。なお、帯域拡大パラメータであるパラメトリック帯域拡大は、典型的には、波形維持性がないことに留意されたい。また、上述した音声信号の類似度の決定は、帯域幅拡大が典型的にはアクティブであり、人間の聴覚系が典型的には位相に鈍感である、より高い音声周波数範囲での類似度または差異を評価するのに非常に適していることがわかった。したがって、この概念は、効率的で知覚的に正確な方式を用いて、たとえば、低周波成分に基づき高周波成分を導出し得る帯域幅拡大概念を判断することを可能にする。

好ましい実施形態において、音声符号化器は、(たとえば、本出願の出願日において利用可能であるバージョンもしくはその修正バージョンで、たとえば、MPEG-H3D Audio規格で定義されているような)インテリジェントギャップフィリングを使用するように構成され、音声符号化器は、符号化されるべき音声信号と符号化された音声信号との間の類似度の評価を使用してインテリジェントギャップフィリングの1つまたは複数のパラメータを決定するように構成される(たとえば、符号化されるべき音声信号は、基準音声信号として使用され、たとえば、1つまたは複数の候補のインテリジェントギャップフィリングパラメータを使用して符号化された音声信号の復号バージョンは、音声類似度評価のための入力音声信号として使用される)。

音声信号間の類似度の評価に対する上述した概念は、音声信号間の類似度の決定が、聴感印象に対して非常に重要である基準を考慮するので、「インテリジェントギャップフィリング」の文脈での使用に適していることがわかった。

好ましい実施形態において、音声符号化器は、符号化されるべき音声信号と符号化された音声信号との間の類似度の評価に依存して、帯域幅拡大のためのソース周波数範囲とターゲット周波数範囲との間の1つまたは複数の関連付け(たとえば、複数の選択可能なソース周波数範囲のうちのどのソース周波数範囲に基づきターゲット周波数範囲の音声コンテンツが決定されるべきかを決定する関連付け)および/または帯域幅拡大のための1つまたは複数の処理動作パラメータ(たとえば、ソース周波数範囲に基づき目標周波数範囲の音声コンテンツを提供するときに実行される、ホワイトニング動作またはランダムノイズ置換、および/またはトーン特性の適応および/またはスペクトル包絡線の適応のような、処理動作のパラメータを決定し得る)を選択するように構成される。

ソース周波数範囲とターゲット周波数範囲との間の1つもしくは複数の関連付けの選択および/または帯域幅拡大のための1つもしくは複数の処理動作パラメータの選択は、音声信号間の類似度の評価に対して上述したアプローチを使用して実行され、良い結果を得られることがわかった。符号化されるべき「元」の音声信号を、符号化および復号されたバージョン(1つのソース周波数範囲と1つのターゲット周波数範囲との間、または複数のソース周波数範囲と複数のターゲット周波数範囲との間の特定の関連付けおよび/または特定の処理を使用して再び符号化および復号される)と比較することによって、特定の関連付けが元のものに類似する聴感印象をもたらすかどうかが判断され得る。

他の処理動作パラメータの選択についても同様である。したがって、音声符号化(および音声復号)の異なる設定について、符号化された音声信号および復号された音声信号が(元の)入力音声信号とどの程度一致するかをチェックすることによって、音声コンテンツの符号化されたバージョンおよび復号されたバージョンを音声コンテンツの元のバージョンと比較したときにどの特定の関連付け(1つのソース周波数範囲と1つのターゲット周波数範囲との間、または複数のソース周波数範囲と複数のターゲット周波数範囲との間の)が最良の類似度(または少なくとも十分に良好な類似度)を提供するかがわかる。したがって、適切な符号化設定(たとえば、ソース周波数範囲とターゲット周波数範囲との間の適切な関連付け)が選択され得る。さらに、追加の処理動作パラメータも、同様のアプローチを使用して選択され得る。

好ましい実施形態において、音声符号化器は、帯域幅拡大のためのソース周波数範囲とターゲット周波数範囲との間の1つまたは複数の関連付けを選択するように構成される。音声符号化器は、古いターゲット周波数範囲または新しいターゲット周波数範囲における包絡線(たとえば、符号化されるべき音声信号の)の変調の評価に依存して、ソース周波数範囲とターゲット周波数範囲との間の関連付けの変更を選択的に許可または禁止するように構成される。

このような概念を使用することによって、ソース周波数範囲とターゲット周波数範囲との間の関連付けの変更は、ソース周波数範囲とターゲット周波数範囲との間の関連付けのそのような変更が顕著なアーチファクトをもたらす場合には、禁止することができる。したがって、インテリジェントギャップフィリングの周波数シフトの切り替えは制限され得る。たとえば、ソース周波数範囲とターゲット周波数範囲との間の関連付けの変更は、関連付けの変更によって引き起こされる変調を(十分に)マスクする包絡線の十分な変調がある(たとえば、特定の閾値より高い)ことが判明した場合に選択的に許可され得る。

好ましい実施形態において、音声符号化器は、符号化器のフレームレートに対応する変調周波数範囲における(古いまたは新しい)ターゲット周波数範囲における包絡線の変調強度を決定し、決定された変調強度に依存して(たとえば、類似度尺度が変調強度に反比例するように)感度尺度を決定するように構成される。

音声符号化器は、感度尺度に依存して、ターゲット周波数範囲とソース周波数範囲との間の関連付けを変更することが許可されるかまたは禁止されるか(たとえば、感度尺度が所定の閾値よりも小さいときにのみターゲット周波数範囲とソース周波数範囲との間の関連付けの変更を許可するか、またはターゲット周波数範囲内で閾値レベルより大きい変調強度があるときにのみターゲット周波数範囲とソース周波数範囲との間の関連付けの変更を許可する)を決定するように構成される。

したがって、ターゲット周波数範囲とソース周波数範囲との間の関連付けの変更は、そのような変更によって引き起こされる(寄生)変調が(寄生変調が入り込むであろう)ターゲット周波数範囲内の(元の)変調によって十分にマスクされている場合にのみ発生するという結論に達し得る。したがって、可聴アーチファクトは効率的に回避され得る。

本発明による一実施形態では、音声信号を符号化するための音声符号化器を作成し、音声符号化器は、ニューラルネットワークを使用して符号化されるべき音声信号に依存して1つまたは複数のコーディングパラメータを決定するように構成される。ニューラルネットワークは、本明細書において説明されているように音声類似度評価器を使用して訓練される。

上述した音声類似度評価器を使用して訓練されるニューラルネットワークを、1つまたは複数のコーディングパラメータを決定するために使用することによって、計算複雑度がさらに低減され得る。言い換えると、本明細書において説明されている音声類似度評価器は、ニューラルネットワークのための訓練データを提供するために使用することができ、ニューラルネットワークは、音声類似度評価器を使用して音声品質を評価することによって取得されるコーディングパラメータ決定に十分に類似しているコーディングパラメータ決定を行うように自己適応することができる(または適応させることができる)。

音声類似度評価器は、入力音声信号と基準音声信号との間の類似度に関する情報(たとえば、入力音声信号と基準音声信号との間の知覚的類似度を記述する単一の値)を取得するために、入力音声信号の分析表現(たとえば、取得された変調情報または時間周波数領域表現のような「内部表現」)を、基準音声信号に関連付けられている基準分析表現と比較するように構成される(たとえば、内部差分表現を使用して。内部差分表現は、たとえば、取得された分析表現と基準分析表現との間の差分を記述してもよく、共変調の程度に基づく内部差分表現のスケーリングまたは内部差分表現の正および負の値の非対称的重み付けのような、1つまたは複数の重み付け動作または修正動作が適用され得る)。

音声類似度評価器は、入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲内の共変調(たとえば、取得された包絡線信号もしくは取得された変調情報の間の)に依存して、または基準音声信号の2つもしくはそれ以上の音響周波数範囲内の共変調(たとえば、基準信号に関連付けられている包絡線信号の間、または基準変調情報の間の)に依存して、取得された分析表現(たとえば、変調情報、たとえば、内部表現)と基準分析表現(たとえば、基準音声信号に関連付けられている基準変調情報)との間の差分の重み付けを調整するように構成される(たとえば、比較的低い程度の共変調が見つかった場合と比較したときに比較的高い程度の共変調が見つかった場合に差分に大きな重みが与えられる)(共変調の程度は、たとえば、異なる音響周波数範囲に関連付けられている時間的包絡線の間の共分散を決定することによって見つけられる)。

この実施形態は、2つまたはそれ以上の隣接する周波数範囲における共変調が、典型的には、そのような共変調された周波数範囲における歪みが、共変調されていない(または弱く共変調されている)隣接する周波数範囲における歪みよりも強く知覚されるという効果を有するという知見に基づく。したがって、比較されるべき音声信号間の偏差(たとえば、入力音声信号と基準音声信号との間の偏差)を、強く共変調された周波数範囲内で相対的に強く重み付けすることによって(共変調されていないかまたは弱く共変調された周波数範囲内の重み付けと比較したときに)、音声品質の評価は、人間の知覚によく適合された方式で実行され得る。典型的には、複数の周波数範囲に対する包絡線信号に基づき得る、取得された分析表現の間の差分が比較され、そのような分析表現において、比較的高い共変調を含む、周波数範囲は、比較的小さい共変調を含む周波数範囲より強く重み付けされ得る。したがって、類似度評価は、人間の知覚によく適合され得る。

本発明による一実施形態は、音声信号間の類似度を評価するための方法を確立する。

この方法は、(たとえば、スペクトルサブバンドにおける包絡線復調を実行するために)入力音声信号に基づき複数の(好ましくは重なり合う)周波数範囲の包絡線信号を(たとえば、聴覚系におけるプリマスキングおよび/またはポストマスキングをモデル化し得るフィルタバンクまたはガンマトーン・フィルタバンクおよび1つまたは複数の適応プロセスを使用して)取得することを含む。

この方法は、(たとえば、変調フィルタバンクを使用して、または変調フィルタを使用して)複数の変調周波数範囲に対する包絡線信号に関連付けられている変調情報(たとえば、変調フィルタの出力信号)を取得することを含む。変調情報は、(たとえば、変調フィルタバンクの出力信号の形態で、または変調フィルタの出力信号の形態で)包絡線信号の変調を記述する(たとえば、時間的包絡線信号またはスペクトル包絡線信号)。変調情報は、たとえば、内部表現と考えられ、たとえば、包絡線変調解析を実行するために使用されてよい。

この方法は、入力音声信号と基準音声信号との間の類似度に関する情報(たとえば、入力音声信号と基準音声信号との間の知覚的類似性を記述する単一の値)を取得するために、取得された変調情報(たとえば、内部表現)を、基準音声信号に関連付けられている基準変調情報と比較することを含む(たとえば、内部差分表現を使用して、ただし、内部差分表現は、たとえば、取得された変調情報と基準変調情報との間の差分を記述するものであってよく、共変調の程度または内部差分表現の正および負の値の非対称重み付けに基づく内部差分表現のスケーリングのような、1つまたは複数の重み付け動作または修正動作が適用され得る)。

本発明による一実施形態は、音声信号を符号化するための方法を確立し、この方法は、符号化されるべき音声信号と符号化された音声信号との間の類似度の評価に依存して、1つまたは複数のコーディングパラメータを決定することを含み、この方法は、本明細書において説明されているように符号化されるべき音声信号と符号化された音声信号との間の類似度を評価することを含む(たとえば、符号化されるべき音声信号は、基準音声信号として使用され、1つまたは複数の候補パラメータを使用して符号化された音声信号の復号されたバージョンは、音声類似度評価器の入力音声信号として使用される)。

本発明による一実施形態は、音声信号を符号化するための方法を確立する。

この方法は、ニューラルネットワークを使用して符号化されるべき音声信号に依存して1つまたは複数のコーディングパラメータを決定することを含み、
ニューラルネットワークは、本明細書において説明されているように音声信号の間の類似度を評価するための方法を使用して訓練される。

本発明による一実施形態は、音声信号の間の(たとえば、入力音声信号と基準音声信号との間の)類似度を評価するための方法を確立する。

この方法は、入力音声信号と基準音声信号との間の類似度に関する情報(たとえば、入力音声信号と基準音声信号との間の知覚的類似度を記述する単一の値)を取得するために、入力音声信号の分析表現(たとえば、取得された変調情報または時間周波数領域表現のような「内部表現」)を、基準音声信号に関連付けられている基準分析表現と比較することを含む(たとえば、内部差分表現を使用して。内部差分表現は、たとえば、取得された分析表現と基準分析表現との間の差分を記述してもよく、共変調の程度に基づく内部差分表現のスケーリングまたは内部差分表現の正および負の値の非対称的重み付けのような、1つまたは複数の重み付け動作または修正動作が適用され得る)。

方法は、取得された分析表現(たとえば、変調情報、たとえば、内部表現)と基準分析表現(たとえば、基準音声信号に関連付けられている基準変調情報)との間の差分の重み付けを、共変調に依存して調整することを含む。たとえば、重み付けは、入力音声信号の2つまたはそれ以上の隣接する音響周波数範囲内の共変調(たとえば、取得された包絡線信号または取得された変調情報の間の)に依存して調整される。あるいは、重み付けは、基準音声信号の2つまたはそれ以上の隣接する音響周波数範囲内の共変調(たとえば、基準信号に関連付けられている包絡線信号の間の、または基準変調情報の間の)に依存して調整される。たとえば、共変調の比較的低い程度が見つかった場合と比較したときに共変調の比較的高い程度が見つかった場合に、差分に大きな重みが与えられる。共変調の程度は、たとえば、異なる音響周波数範囲に関連付けられている時間的包絡線の間の共分散を決定することによって見つけられる。

これらの方法は、上述した音声類似度評価器および上述した音声符号化器と同じ考察に基づいている。

さらに、これらの方法は、音声類似度評価器に関して、および音声符号化器に関して、本明細書において説明されている任意の特徴、機能性、および詳細によって補完され得る。これらの方法は、そのような特徴、機能性、および詳細によって、個別に、および組み合わせて、補完され得る。

本発明による一実施形態は、コンピュータプログラムがコンピュータ上で実行されたときに本明細書において説明されている方法を実行するためのコンピュータプログラムを作成する。

コンピュータプログラムは、対応する装置および方法に関して本明細書において説明されている特徴、機能性、および詳細のいずれかによって補完され得る。

続いて、本発明による実施形態が、添付図を参照しつつ説明される。

本発明の一実施形態による音声類似度評価器の概略ブロック図である。本発明の一実施形態による音声類似度評価器の概略ブロック図である。本発明の一実施形態による音声類似度評価器の概略ブロック図である。本発明の一実施形態による音声類似度評価器の概略ブロック図である。本発明の一実施形態による音声類似度評価器の概略ブロック図である。本発明の一実施形態による、自動選択機能を有する音声符号化器の概略ブロック図である。本発明の一実施形態による、変更ゲーティング(change gating)を有する音声符号化器の概略ブロック図である。本発明の一実施形態による、動作モードにおけるニューラルネットを有する音声符号化器の概略ブロック図である。本発明の一実施形態による、訓練モードにおいて音声符号化器で使用するニューラルネットの概略ブロック図である。本発明の一実施形態による音声類似度評価器の概略ブロック図である。 Dauらの聴覚処理モデルの信号フローおよび処理ブロックの概略図である。ガンマトーン・フィルタバンク・インパルス応答の概略図である。コルチ器官の概略図である([14]から修正)。 IGFを使用する音声復号器の概略ブロック図である。 IGFタイル選択の概略図である。 IGF自動選択項目の生成の概略ブロック図である。自動制御を通じての音声抜粋「trilogy」のためのIGFタイルの選択肢の概略図であり、各フレーム(円)について、ソースタイル「sT」の選択肢[0,1,2,3]が、3つのターゲットタイルの各々について、スペクトログラム上に重なる黒線として示されている。自動制御を通じての音声抜粋「trilogy」のためのIGFホワイトニングレベルの選択肢の概略図であり、各フレーム(円)について、ホワイトニングレベルの選択肢[0,1,2]が、3つのターゲットタイルの各々について、スペクトログラム上に重なる黒線として示されている。提案されている自動化および固定IGFコントロールの絶対MUSHRAスコアのグラフィック表現である。提案されている自動化IGFコントロールと固定IGFコントロールとを比較した差分MUSHRAスコアのグラフィック表現である。

次に、本出願による実施形態が説明される。しかしながら、次に説明されている実施形態は、個別に使用することができ、また組み合わせて使用することもできることに留意されたい。

さらに、以下の実施形態に関して説明されている特徴、機能性、および詳細は、個別に、また組み合わせて、請求項によって定められるような実施形態のうちのどれかに任意選択で導入され得ることに留意されたい。

さらに、次に説明されている実施形態は、請求項において定義されているような特徴、機能性、および詳細のいずれかによって、任意選択で補完され得ることに留意されたい。

1. 図1による音声類似度評価器
図1は、本発明の一実施形態による音声類似度評価器の概略ブロック図である。

図1による音声類似度評価器100は入力音声信号110(たとえば、音声類似度評価器の入力音声信号)を受け取り、入力音声信号に基づき、たとえば、スカラー値の形をとり得る、類似度情報112を与える。

音声類似度評価器100は、入力音声信号に基づき複数の周波数範囲に対する包絡線信号122a、122b、122cを取得するように構成されている包絡線信号決定部(または包絡線信号決定器)120を備える。好ましくは、包絡線信号122a～122cが与えられる周波数範囲は、重なっていてもよい。たとえば、包絡線信号決定器は、フィルタバンクまたはガンマトーン・フィルタバンクと、整流および時間的ローパスフィルタリングと、たとえば聴覚系におけるプリマスキングおよび/またはポストマスキングをモデル化し得る1つまたは複数の適応プロセスとを使用し得る。言い換えれば、包絡線信号決定部120は、たとえば、入力音声信号のスペクトルサブバンドの包絡線復調を実行してよい。

さらに、音声類似度評価器100は、包絡線信号122a～122cを受信し、それに基づき変調情報162a～162cを与える変調情報決定部(または変調情報決定器)160を備える。一般的に、変調情報決定部160は、複数の変調周波数範囲に対して包絡線信号122a～122cに関連付けられている変調情報162a～162cを取得するように構成されている。変調情報は、包絡線信号の(時間的)変調を記述するものである。

変調情報162a～162cは、たとえば、変調フィルタの出力信号に基づき、または変調フィルタバンクの出力信号に基づき提供され得る。たとえば、変調情報162aは、第1の周波数範囲に関連付けられていてもよく、たとえば、複数の変調周波数範囲に対する第1の包絡線信号122a(この第1の周波数範囲に関連付けられている)の変調を記述してもよい。言い換えれば、変調情報162aは、スカラー値でない場合があるが、入力音声信号の第1の周波数範囲に関連付けられている第1の包絡線信号122aに存在する異なる変調周波数に関連付けられている複数の値(または値の複数のシーケンス)を含み得る。同様に、第2の変調情報162bは、スカラー値でない場合があるが、入力音声信号110の第2の周波数範囲に関連付けられている第2の包絡線信号122bに存在する異なる変調周波数範囲に関連付けられている複数の値さらには値の複数のシーケンスを含み得る。このように、考察対象の複数の周波数範囲の各々について(別個の包絡線信号122a～122cが包絡線信号決定器120によって提供される)、変調情報は、複数の変調周波数範囲について提供され得る。さらに別の言い方をすれば、入力音声信号110の一部(たとえばフレーム)について、変調情報値の複数のセットが提供され、異なるセットは、入力音声信号の異なる周波数範囲に関連付けられ、セットの各々は、複数の変調周波数範囲を記述する(すなわち、セットの各々は、1つの包絡線信号の変調を記述する)。

さらに、音声類似度評価器は、比較部または比較器180を備え、これは変調情報162a～162cを受け取り、基準音声信号に関連付けられている基準変調情報182a～182cも受け取る。さらに、比較部180は、入力音声信号110と基準音声信号との間の(知覚的に判断された)類似度に関する情報を取得するために、取得された変調情報162a～162c(入力音声信号110に基づいて取得された)を基準信号に関連付けられている基準変調情報182a～182cと比較するように構成されている。

たとえば、比較部180は、入力音声信号と基準音声信号との間の知覚的な類似度を記述する単一の値を類似度情報112として取得し得る。さらに、比較部180は、たとえば、内部差分表現を使用してもよく、内部差分表現は、たとえば、取得された変調情報と基準変調情報との間の差分を記述するものとしてよいことに留意されたい。たとえば、共変調の程度に基づく内部差分表現のスケーリング、および/または類似度情報を導出するときの内部差分表現の正および負の値の非対称的重み付けのような1つまたは複数の重み付け動作または修正動作が適用されてもよい。

しかしながら、包絡線信号決定部120、変調情報決定部160、および比較部180の追加の(任意選択の)詳細は、以下で説明されており、個別に、および組み合わせて、任意選択で、図1の音声類似度評価器100に導入され得ることに留意されたい。

任意選択で、基準変調情報182a～182cは、基準音声信号192に基づき、任意選択の基準変調情報決定190を用いて取得され得る。基準変調情報決定は、たとえば、基準音声信号192に基づき、包絡線信号決定部120および変調情報決定部160と同じような機能を実行し得る。

しかしながら、参照変調情報182a～182cは、別のソース、たとえば、データベースから、またはメモリから、または音声類似度評価器の一部ではないリモートデバイスからも取得することができることに留意されたい。

以下に詳述するように、図1に示されているブロックは、ハードウェア実装またはソフトウェア実装の(機能)ブロックまたは(機能)ユニットと考えられ得ることにさらに留意されたい。

2. 図2による音声類似度評価器
図2a-1、図2a-2、図2b-1および図2b-2は、本発明の一実施形態による音声類似度評価器200の概略ブロック図である。

音声類似度評価器200は、入力音声信号210を受信し、それに基づき類似度情報212を提供するように構成されている。さらに、音声類似度評価器200は、基準変調情報282を受け取るように、または基準変調情報282をそれ自体で計算するように構成されていてもよい(たとえば、変調情報が計算されるのと同じ方式で)。基準変調情報282は、典型的には、基準音声信号に関連付けられている。

音声類似度評価器200は、包絡線信号決定部220を備え、これは、たとえば、包絡線信号決定部120の機能を備えるものとしてよい。また、音声類似度評価器は、たとえば、変調情報決定部160の機能を含み得る変調情報決定部260を備えてもよい。さらに、音声類似度評価器は、たとえば、比較部180に対応し得る比較部280を備え得る。

さらに、音声類似度評価器200は、任意選択で、異なる入力信号に基づき動作し、異なる方式で実施され得る、共変調決定部を含み得る。共変調決定に対する例は、音声類似度評価器でも示される。

次に、音声類似度評価器200の個々の機能ブロックまたは機能ユニットの詳細が説明される。

包絡線信号決定部220は、入力音声信号210を受信し、それに基づき、複数のフィルタリングされた(好ましくはバンドパスフィルタリングされた)信号232a～232eを与えるフィルタリング部230を備える。フィルタリング部230は、たとえば、フィルタバンクを使用して実装されてよく、たとえば、基底膜フィルタリングをモデル化し得る。たとえば、フィルタは、「聴覚フィルタ」と考えられてもよく、たとえば、ガンマトーン・フィルタバンクを使用して実装され得る。言い換えると、フィルタリングを実行するバンドパスフィルタの帯域幅は、フィルタの中心周波数が高くなるのに伴って増大し得る。したがって、フィルタリングされた信号232a～232eの各々は、入力音声信号の特定の周波数範囲を表すものとしてよく、周波数範囲は、重なっていてもよい(または、いくつかの実装形態では重ならない場合もある)。

さらに、同様の処理がフィルタリングされた信号232aの各々に適用されてよいが、1つの与えられた(代表的な)フィルタリングされた信号232cに対する1つの処理経路のみが以下で説明される。しかしながら、フィルタリングされた信号232cの処理に関して提示される説明は、他のフィルタリングされた信号232a、232b、232d、232eの処理に関して引き継がれ得る(この例では、簡単にするため5つのフィルタリングされた信号のみが示されているが、実際の実装形態では、かなり多い数のフィルタリングされた信号が使用され得る)。

考察対象のフィルタリングされた信号232cを処理する処理チェーンは、たとえば、整流部236、ローパスフィルタリング部240、および適応部250を備える。

たとえば、半波整流部236(たとえば、負の半波を除去し、脈動する正の半波を生成し得る)が、フィルタリングされた信号232cに適用され、それによって整流された信号238を取得し得る。さらに、ローパスフィルタリング240が、整流された信号238に適用され、それによって滑らかなローパス信号242を取得する。ローパスフィルタリングは、たとえば、1000Hzのカットオフ周波数を含み得るが、異なるカットオフ周波数(好ましくは、1500Hzより低い、または2000Hzより低い)が適用され得る。

ローパスフィルタリングされた信号242は、適応部250によって処理され、たとえば、カスケードされた複数の「自動利得制御」段、任意選択で1つまたは複数の制限段を含み得る。自動利得制御段は、「適応ループ」とみなされてもよい。たとえば、自動利得制御(または適応利得制御)段の各々は、ループ構造を備え得る。自動利得制御段(または適応ループ)の入力信号(たとえば、第1の自動利得制御段については、ローパスフィルタリングされた信号242、それ以降の自動利得制御段については、前の自動利得制御段の出力信号)は、適応利得制御部254によってスケーリングされ得る。自動利得制御段の出力信号259は、それぞれの自動利得制御段の入力信号のスケーリングされたバージョンであり得るか、またはスケーリングされたバージョン255の限定されたバージョンであり得る(たとえば、信号の値の範囲を制限する、任意選択の制限256が使用されている場合)。特に、スケーリング254において適用される利得は、時変であってよく、受け入れ段で提供されるスケーリングされた信号255に依存して、個々の自動利得制御段に関連付けられている時定数により、調整され得る。たとえば、ローパスフィルタリング257は、適応利得制御部254の利得(またはスケーリング係数)を決定する利得制御情報258を導出するために適用され得る。ローパスフィルタリング257の時定数は、段毎に変化し、それによって人間の聴覚系において生じる異なるマスク効果をモデル化し得る。複数の自動利得制御段の使用は、特に良好な結果をもたらすことが判明しており、5つのカスケード自動利得制御段の使用が推奨される(しかし、必要というわけではない)。

整流およびローパスフィルタリングの(任意選択の)代替的形態として、たとえば、信号242を取得するために、フィルタまたはフィルタリング動作230の出力信号232a～232eに基づきヒルベルト包絡線を取得することも可能である。

概して、たとえば、信号242を取得するために、フィルタまたはフィルタリング動作230の出力信号232a～232eを復調することが(任意選択で)可能である。

結論として、適応部250は、自動利得制御段のシーケンス(またはカスケード)を含み、利得制御段の各々は、その入力信号(ローパスフィルタリングされた信号242、または前段の出力信号)のスケーリング、および任意選択で、制限動作(それによって、過度に大きな信号を回避する)を実行する。自動利得制御段の各々において適用される利得またはスケーリング係数は、それぞれのスケーリング動作の出力に依存してフィードバックループ構造を使用して決定され、何らかの不活性(または遅延)が、たとえば、フィードバック経路内のローパスフィルタを使用して導入される。

適応に関するさらなる詳細については、以下の説明も参照され、以下に説明される詳細のいずれも、任意選択で適応部250に導入され得る。

適応部250は、適応信号252を与え、この適応信号252は、自動利得制御段のカスケード(またはシーケンス)の最後の自動利得制御段の出力信号であってよい。適応信号252は、たとえば、包絡線信号と考えられてよく、たとえば、包絡線信号122a～122cのうちの1つに対応し得る。

あるいは、包絡線信号(222a～222e)を取得するために対数変換が任意選択で適用され得る。

別の代替的形態として、包絡線信号(222a～222e)を取得するために、順方向マスキングの別のモデリングが任意選択で適用されてよい。

すでに述べられているように、包絡線信号決定部220は、異なる周波数範囲に関連付けられている個々の包絡線信号を提供し得る。たとえば、1つの包絡線信号が、フィルタリングされた信号(バンドパス信号)232a～232e毎に与えられ得る。

次に、変調情報決定部の詳細について説明する。

変調情報決定部は、複数の包絡線信号222a～222e(たとえば、考察対象の入力音声信号の周波数範囲毎に1つの包絡線信号)を受信する。さらに、変調情報決定部260は、変調情報262a～262e(たとえば、考察対象の包絡線信号222a～222eの各々に対する)を提供する。以下では、代表的な1つの包絡線信号222cについての処理が説明されるが、考察される包絡線信号222a～222eのすべてについて、類似のまたは同一の処理が実行され得る。

たとえば、フィルタリング264が、包絡線信号222cに適用される。あるいは、フィルタリング264の中で、またはフィルタリング264に加えて、ダウンサンプリングが適用され得る。フィルタリングは、変調フィルタバンクによって、または複数の変調フィルタによって実行され得る。言い換えれば、包絡線信号222cの異なる周波数範囲は、フィルタリングツール264によって分離され得る(前記周波数範囲は、任意選択で、重なっていてもよい)。したがって、フィルタリング264は、典型的には、包絡線信号222cに基づき、変調フィルタリングされた複数の信号266a～266eを与える。(任意選択の)DC除去270および(任意選択の)位相情報除去274は、変調フィルタリングされた信号266a～266eの各々に適用されてよく、それによって、後処理された変調フィルタリング済みの信号276a～276eが導出される。後処理された変調フィルタリング済みの信号276a～276eは、入力音声信号210の1つの周波数範囲内の異なる変調周波数(または変調周波数範囲)に関連付けられている。言い換えれば、後処理された変調フィルタリング済みの信号276a～276eは、包絡線信号222cが基づく入力音声信号210の周波数範囲に関連付けられている変調値のセットを表し得る。同様に、異なる包絡線信号222a、222b、222d、222eに基づき入力音声信号の異なる周波数範囲に関連付けられている後処理され変調フィルタリングされた信号が取得されてもよく、入力音声信号のそれぞれの周波数範囲に関連付けられている変調値のさらなるセットを表し得る。

結論として、変調情報決定部260は、考察対象の入力音声信号の各周波数範囲に対する変調値のセットを提供する。

たとえば、変調周波数毎(または変調周波数範囲毎)および考察対象の周波数範囲毎に1つの変調値のみが提供されるような方式で、情報の量が減らされ得る(これにより、後処理された変調フィルタリング済みの信号276a～276eは、事実上、各々単一の値によって表され、この単一の値は、変調値とみなされ得る)。

次に、比較部280に関する詳細が説明される。

比較部280は、前に説明された変調情報決定部260によって提供される、変調値のセット262a～262eを受け取る。また、比較部280は、典型的には基準音声信号に関連付けられ、その全体が基準変調情報282と考えられる、基準変調値のセット282a～282eを受け取る。

比較280は、任意選択で、変調値のセット262a～262eの個別の変調値に対して時間平滑化284を適用する。さらに、比較部280は、それぞれの変調値とそれらの関連付けられている基準変調値との間の差分を形成(または計算)する。

次に、1つの個別の(代表的な)変調値(変調周波数または変調周波数範囲に関連付けられ、入力音声信号210の周波数範囲にも関連付けられている)に対する処理が説明される。ここで、考察対象の変調値が276cで指定され、その関連付けられている基準変調値が283cとして指定されていることに留意されたい。これからわかるように、時間平滑化284cは、差分形成288cが適用される前に変調値276cに任意選択で適用される。差分形成288cは、変調値276cとその関連付けられている基準変調値283cとの間の差分を決定する。したがって、差分値289cが取得され、任意選択で、時間平滑化290cが差分値289cに適用され得る。さらに、重み付け292cが、差分値289cまたはそれの時間平滑化されたバージョン291cに適用される。重み付け292cは、たとえば、差分値289cが関連付けられている周波数範囲に関連付けられている共変調情報に依存し得る。さらに、重み付け292cは、任意選択で、符号依存または「非対称」であってもよい。

たとえば、差分値289cに関連付けられている周波数範囲が、1つまたは複数の隣接する周波数範囲との比較的高い共変調を含む場合は、比較的高い重みが差分値289cに、またはそれの時間平滑化されたバージョン291cに適用されてよく、差分値289cが関連付けられている周波数範囲が、1つまたは複数の隣接する周波数範囲との比較的小さい共変調を含む場合は、比較的小さい重みが差分値289cに、またはそれの時間平滑化されたバージョン291cに適用されてよい。さらに、差分値289cの負の値、またはそれの時間平滑化されたバージョン291cと比較したときの差分値289cの正の値、またはそれの時間平滑化されたバージョン291cに、比較的高い重みが適用され得る(またはその逆もあり得る)。言い換えれば、一般的に言えば、符号依存重み付けは、差分値289cに、またはそれの時間平滑化されたバージョン291に適用され得る。したがって、重み付けされた差分値294cが取得される。

しかしながら、一般的に言えば、重み付けされた差分値(または任意選択の重み付けが省略された場合には、重み付けされていない差分値)が、考察対象の入力音声信号の各周波数範囲の考察対象となっている各変調周波数(または変調周波数範囲)について取得されることに留意されたい。したがって、比較的多数の重み付けされた差分値が取得され、組合せ処理または評価処理部298に入力される。

組合せ処理または評価処理部298は、たとえば、重み付けされた差分値に基づき、類似度情報212を構成する単一のスカラー値を形成し得る(これらが一緒になって「差分表現」または「内部差分表現IDR」を形成する)。たとえば、組合せ処理または評価処理部は、重み付けされた差分値294a～294eの2乗和の組合せを実行し、それによって類似度情報212を導出し得る。

結論として、包絡線信号決定部220は、包絡線信号222a～222eを、たとえば、考察対象の(入力音声信号の)周波数帯域毎に1つずつ提供する。この処理では、フィルタリングまたはフィルタバンク、整流、ローパスフィルタリング、および適応が使用され得る。変調情報決定部は、たとえば、考察対象の変調周波数(または変調周波数帯域)毎に、および考察対象の周波数帯域(入力音声信号の)毎に、変調値を1つずつ決定する。したがって、考察対象の周波数範囲(入力音声信号の)毎に変調値のセットが1つ存在する。この処理では、フィルタリング、DC除去、および位相情報除去が使用され得る。最後に、比較部280は、入力音声信号に基づき取得された変調値を、基準音声信号に関連付けられている基準変調値と比較し、任意選択で、差分値の重み付けが適用される。最後に、重み付けされた差分値は、単一のスカラー値の形をとり得る、コンパクトな類似度情報に組み合わされる。事実上、比較は、入力音声信号に基づき取得された変調値と基準音声信号に関連付けられている変調値との間の差部を表す(スカラー)値を決定し得る。比較は、たとえば、「距離値」または「ノルム」を形成するものとしてよく、異なるタイプの重み付けが任意選択で適用され得る。

次に、共変調値(または共変調情報)を決定するためのいくつかのオプションが説明されるが、共変調情報は、たとえば、差分値(たとえば、差分値289c)またはそれの時間平滑化されたバージョン(たとえば、時間平滑化された差分値291c)の重み付けを調整するために使用されてよいことに留意されたい。

一例として、共変調は、包絡線信号222a～222eに基づき決定され得る。たとえば、共変調決定器299aは、包絡線信号222a～222eを受信し、それに基づき共変調情報299bを提供する。たとえば、共変調決定器299aは、ローパスフィルタリングを異なる包絡線信号222a～222eに(たとえば、個別に)適用し得る。さらに、共変調決定器299aは、たとえば、2つまたはそれ以上の隣接する(ローパスフィルタリングされた)包絡線信号の共分散を決定して、それによって特定の周波数範囲に関連付けられている共変調情報を取得し得る。たとえば、共変調決定器299aは、所与の(ローパスフィルタリングされた)包絡線信号222cと、隣接する周波数範囲に関連付けられている2つ、3つ、4つ、またはそれ以上の包絡線信号222a、222b、222d、222eとの間の共分散を決定し、それによって考察対象の周波数範囲に関連付けられている共変調情報を導出し得る。しかしながら、共変調決定器299は、複数の周波数範囲(またはそれと同等であるが、複数の包絡線信号に関連付けられている)に対する個別の共変調情報を決定し得る。

しかしながら、あるいは、変調情報262a～262eに基づき変調情報299dを決定する共変調決定器299cが使用されてもよい。たとえば、共変調決定器299cは、隣接する周波数範囲に関連付けられている変調情報を比較して、それによって(たとえば、異なる周波数範囲に対する)共変調情報を取得してもよい。たとえば、所与の周波数範囲に隣接する1つ、2つ、3つ、4つ、またはそれ以上の周波数範囲における変調が、所与の周波数範囲における変調に類似している場合、比較的高い程度の共変調が、共変調情報によって示され得る(また、その逆も同様である)。したがって、共変調決定器299aと同様に、共変調決定器299cは、異なる周波数範囲に関連付けられている個別の共変調情報を提供し得る。

あるいは、基準音声信号に基づき変調情報299fを決定する共変調決定器299eが使用されてもよい。たとえば、共変調決定器299eは、基準変調情報282a～282eに基づき共変調情報299fを決定し得る。たとえば、共変調決定器299eは、共変調決定器299cと同じ機能を有し得る。

しかしながら、共変調決定器299eは、共変調決定器299aと同じアプローチを用いて基準音声信号に基づき共変調情報299fを決定してもよい。

しかしながら、共変調情報を決定するための異なる概念も有用であり得ることに留意されたい。また、共変調情報の決定は、全体として任意選択であると考えるべきであることにも留意されたい。

任意選択で、基準変調情報282a～282eは、基準音声信号281に基づき、任意選択の基準変調情報決定281aを用いて取得され得る。基準変調情報決定281aは、たとえば、基準音声信号281に基づき、包絡線信号決定部220および変調情報決定部260と同じような機能を実行し得る。

しかしながら、参照変調情報282a～282eは、別のソース、たとえば、データベースから、またはメモリから、または音声類似度評価器の一部ではないリモートデバイスからも取得することができることに留意されたい。

結論として、図2a-1、図2a-2、図2b-1および図2b-2は、本発明の一実施形態による、音声類似度評価器の機能を開示している。しかしながら、個々の機能は、基本概念から逸脱することなく、実質的に省略または修正され得ることに留意されたい。音声類似度評価器100の概念を超える詳細はどれも、任意選択であると考えられるべきであり、個別に省略または修正され得ることに留意されたい。

3. 図3による音声符号化器
図3は、本発明の一実施形態による音声符号化器300の概略ブロック図である。

符号化器300は、入力音声信号310(符号化されるべき音声信号、または「元の音声信号」である)を受信し、それに基づき、符号化された音声信号312を与えるように構成される。符号化器300は、入力音声信号310に基づき、符号化音声信号312を与えるように構成されている、符号化部(または符号化器、またはコア符号化器)320を備える。たとえば、符号化部320は、音声コンテンツの周波数領域符号化を実行してよく、これは、AAC符号化の概念またはその拡張の1つに基づくものとしてよい。しかしながら、符号化部320は、たとえば、スペクトルの一部についてのみ周波数領域符号化を実行してよく、パラメトリック帯域幅拡大パラメータ決定および/またはパラメトリックギャップフィリング(たとえば、「インテリジェントギャップフィリング」IGFとして)パラメータ決定を適用して、それによって、符号化された音声信号(スペクトル値の符号化された表現、および1つまたは複数の符号化パラメータもしくは帯域幅拡大パラメータの符号化された表現を含むビットストリームであり得る)を提供し得る。

本明細書の説明では、符号化パラメータについて言及していることに留意されたい。しかしながら、その代わりに、符号化パラメータであれば、すべての実施形態は、一般的に、「コーディングパラメータ」を使用することができ、これは、符号化パラメータ(典型的には、符号化器と復号器の両方で使用されるか、または符号化器のみで使用される)または復号パラメータ(典型的には、復号器のみで使用されるが、典型的には、符号化器によって復号器に信号として送信される)であってよい。

典型的には、符号化部320は、1つまたは複数の符号化パラメータ324を使用して、信号の特性、および/または所望のコーディング均等性に合わせて調整され得る。符号化パラメータは、たとえば、スペクトル値の符号化を記述することができ、および/または、ソースタイルとターゲットタイルとの間の関連付け、ホワイトニングパラメータなどのような、帯域幅拡大(またはギャップフィリング)の1つまたは複数の特徴を記述し得る。

しかしながら、線形予測コーディングベースの符号化のような、異なる符号化概念も使用できることに留意されたい。

さらに、音声符号化器は、符号化されるべき音声信号と符号化された音声信号との間の類似度の評価に依存して、1つまたは複数の符号化パラメータを決定するように構成されている符号化パラメータ決定部を備える。特に、符号化パラメータ決定部330は、音声類似度評価器340を使用して、符号化されるべき音声信号(すなわち、入力音声信号310)と符号化された音声信号との間の類似度を評価するように構成される。たとえば、符号化されるべき音声信号(すなわち、入力音声信号310)は、音声類似度評価器340による類似度評価のための基準音声信号192、281として使用され、考察対象の1つまたは複数の符号化パラメータを使用して符号化された音声信号352の復号バージョン362は、音声類似度評価器340に対する入力信号(たとえば、信号110、210)として使用される。言い換えれば、元の音声信号310の符号化され、その後復号されたバージョン362は、音声類似度評価器に対する入力信号110、210として使用され、元の音声信号310は、音声類似度評価器に対する基準信号192、281として使用される。

したがって、符号化パラメータ決定部330は、たとえば、符号化部350と復号部360と、さらには符号化パラメータ選択部370を備え得る。たとえば、符号化パラメータ選択部370は、符号化部350(および任意選択で復号部360も)と結合され、それによって符号化部350によって使用される符号化パラメータ(典型的には復号部360によって使用される復号パラメータに対応する)を制御し得る。したがって、入力音声信号310の符号化されたバージョン352は、符号化部350によって取得され、符号化され復号されたバージョン362は、復号部360によって取得され、入力音声信号310の符号化され復号されたバージョン362は、類似度評価のための入力信号として使用される。類似度評価に入る前に、信号経路350および360を介して信号経路に入り込む可能性のあるコーデック遅延は、好ましくは直接経路310において補償されるべきである。

したがって、符号化パラメータ選択部370は、音声類似度評価器340から類似度情報342を受け取る。典型的には、符号化パラメータ選択部370は、異なる符号化パラメータまたは符号化パラメータのセットに対する類似度情報342を受け取り、次いで、音声符号化器によって出力される(たとえば、音声復号器に送信されるか、または記憶される音声ビットストリームの形で)符号化された音声信号312の提供のために、符号化パラメータまたは符号化パラメータのセットのうちのどれが使用されるべきかを決定する。

たとえば、符号化パラメータ選択部370は、異なる符号化パラメータについて(または符号化パラメータの異なるセットについて)取得される類似度情報を比較し、結果として最良の類似度情報をもたらす、または少なくとも許容できる程度に良好な類似度情報をもたらす符号化された音声信号312を与えるためにそれらの符号化パラメータを選択するものとしてよい。

さらに、類似度評価340は、たとえば、図1による音声類似度評価器100を使用して、または図2による音声類似度評価器200を使用して(または本明細書において説明されている他の音声類似度評価器のうちのどれかを使用して)実装され得ることに留意されたい。さらに、符号化部320は、任意選択で省略されてもよいことに留意されたい。たとえば、1つまたは複数の符号化パラメータを選択するときに中間情報として提供される符号化された音声情報352は、保持され(たとえば、一時情報として保存されて)、符号化された音声信号312を提供する際に使用され得る。

図3による音声符号化器300は、個別に、または組み合わせて、本明細書において説明されている特徴、機能、および詳細のうちのどれかによって補完され得ることに留意されたい。特に、本明細書において説明されている音声類似度評価器の詳細はどれも、音声類似度評価器340に導入することができる。

4. 図4による音声符号化器400
図4は、本発明の一実施形態による音声符号化器400の概略ブロック図である。

音声符号化器400は、音声符号化器300に類似しており、上記の説明も当てはまることに留意されたい。ここで、音声符号化器400は、入力音声信号410を受信し、それに基づき、符号化された音声信号または符号化された音声情報412を提供するように構成されており、音声情報412は、たとえば、符号化されたスペクトル値および符号化された符号化パラメータを含むビットストリームの形をとり得る。

音声符号化器400は、符号化部420を備え、たとえば、符号化部320に対応するものとしてよい。しかしながら、符号化部420は、たとえば、帯域幅拡大パラメータ提供部422を備えるものとしてよく、これは音声復号器の側で、パラメータ誘導帯域幅拡大(たとえば、ギャップフィリングのような)のために使用できる(好ましくは符号化された)帯域幅拡大パラメータを提供し得る。したがって、符号化部は、たとえば、符号化された量子化されたMDCTスペクトルのような(たとえば、低周波数範囲内の)符号化されたスペクトル値を与え得る。さらに、符号化部420は、たとえば、1つまたは複数のソースタイルと1つまたは複数のターゲットタイルとの間の関連付けおよび任意選択で、ホワイトニングレベルを記述し得る(好ましくは符号化された)帯域幅拡大パラメータを提供し得る。たとえば、帯域幅拡大パラメータは、インテリジェントギャップフィリング(IGF)側の情報の形をとり得る。しかしながら、帯域幅拡大パラメータは、任意の他の帯域幅拡大概念にも対応し得る。したがって、符号化されたスペクトル値および帯域幅拡大パラメータは両方とも、符号化された音声表現の中に入れられ、これはビットストリームの形をとり得る。

さらに、音声符号化器400は、符号化パラメータ決定部430を備え、これは符号化パラメータ決定部330に対応し得る。たとえば、符号化パラメータ決定部430は、帯域幅拡大における1つまたは複数のソースタイルと1つまたは複数のターゲットタイルとの間の関連付けを記述する1つまたは複数のパラメータのような、1つまたは複数の帯域幅拡大パラメータ、および任意選択で、ホワイトニングレベルを記述するパラメータを決定するために使用され得る。

任意選択で、符号化パラメータ決定部430は、関連付け変更制限部480も含む。関連付け変更制限480は、符号化パラメータの変更、特にソースタイルとターゲットタイルとの間の関連付けの変更を、パラメータのそのような変更が可聴歪みを引き起こすであろう場合に防ぐように構成される。たとえば、関連付け変更制限部480は、たとえば、包絡線信号における変調の強さ485を決定し得る変調強度決定部484を備えてよく、変調強度決定部484によって考慮される変調周波数は、入力音声信号のフレームレートに対応し得る。さらに、関連付け変更制限部480は、変調強度決定部484によって提供される変調強度情報に基づき感度情報を決定する感度尺度決定部486を備え得る。感度尺度決定部486によって決定される感度尺度は、たとえば、ソースタイルとターゲットタイルとの間の関連付けの変更によって聴感印象がどの程度低下するかを記述し得る。感度尺度決定部486によって提供される感度尺度が、ソースタイルとターゲットタイルとの間の関連付けの変更が聴感印象に強い(または著しい、または顕著な)影響を与えるであろうことを示している場合に、ソースタイルとターゲットタイルとの間の関連付けの変更は、関連付け変更ゲーティング(association change gating)488によって防止される。たとえば、感度尺度の評価は、感度尺度487を閾値と比較する閾値比較部489を使用して実行され、それにより関連付けの変更が許可されるべきか防止されるべきかを判断し得る。

したがって、符号化パラメータ情報424は、「制限された」符号化パラメータの形で提供され、ソースタイルとターゲットタイルとの間の関連付けの変更に対して関連付け変更制限部480によって制限が課される。

結論として、任意選択の関連付け変更制限部480は、符号化パラメータのそのような変更が可聴歪みを引き起こすときに符号化パラメータの変更を防ぐことができる。特に、関連付け変更制限部480は、帯域幅拡大におけるソースタイルとターゲットタイルとの間の関連付けの変更を、そのような関連付けの変更の結果、聴感印象の強いまたは著しいまたは顕著な劣化が生じる場合に防ぐことができる。聴感印象の劣化が生じるかどうかの評価は、上で説明されているように、変調強度の評価に基づき行われる。

しかしながら、音声符号化器400は、任意選択で、他の音声符号化器のうちのどれに関しても、個別に、または組み合わせて、特徴、機能、および詳細のどれかによって補完され得る。

5. 図5による音声符号化器
図5aは、本発明の一実施形態による音声符号化器500の概略ブロック図である。

音声符号化器500は、入力音声信号510を受信し、それに基づき、符号化された音声信号512を与えるように構成される。入力音声信号510は、たとえば、入力音声信号310に対応し、符号化音声信号512は、たとえば、実質的に、符号化音声信号312に対応し得る。

音声符号化器500は、符号化部520も備え、たとえば、上で説明されている符号化部320に実質的に対応するものとしてよい。符号化部520は、符号化パラメータ決定部330の代わりをする、ニューラルネット530から符号化パラメータ情報524を受け取る。ニューラルネット530は、たとえば、入力音声信号510を受信し、それに基づき、符号化パラメータ情報524を提供する。

ニューラルネット530は、本明細書において開示されているような音声類似度評価器を使用して、または本明細書において開示されているような符号化パラメータ決定部330、430を使用して提供される訓練データ532を使用して訓練されることに留意されたい。言い換えれば、訓練データ532の一部としてニューラルネット530に提供される符号化パラメータは、本明細書において開示されているような音声類似度評価器100、200を使用して取得される。

したがって、ニューラルネット530は、典型的には、音声符号化器300または音声符号化器400を使用して取得される符号化パラメータに非常によく似た符号化パラメータ524を提供し、そのような音声類似度評価器100、200を使用して符号化パラメータに関する決定を実際に行う。言い換えれば、ニューラルネット530は、符号化パラメータ決定部330、430の機能を近似するように訓練され、ニューラルネット530を訓練するための訓練データの一部として音声類似度評価器100、200を用いて取得される符号化パラメータを使用することによって到達する。

音声符号化器500に関する、および一般的に、音声符号化器におけるニューラルネット530の使用に関するさらなる詳細が、以下で提示される。

なおも別の言い方をすると、符号化パラメータ決定部330または符号化パラメータ決定部430は、ニューラルネット530に対する訓練データを提供するために使用され、それにより、符号化パラメータ決定部330、430の機能に可能な限り類似する機能を実行するようにニューラルネットを訓練することが可能である。

訓練モードにおけるニューラルネット530の訓練が、図5Bに示されている。訓練について、好ましくは、異なる訓練入力音声信号および異なる訓練入力音声信号に関連付けられている訓練符号化パラメータは、訓練データとしてニューラルネットに与えられる。訓練入力音声信号は、ニューラルネットへの入力信号として働き、訓練符号化パラメータは、ニューラルネットの所望の出力信号となる。訓練データとしてニューラルネットに提供される(訓練)符号化パラメータは、典型的には、本明細書において説明されるように音声類似度評価器を使用して予め、または本明細書において説明されているように(訓練モード時にニューラルネットに与えられる訓練入力音声信号に基づき)符号化パラメータの決定によって、取得される。

しかしながら、音声符号化器500は、個別に、または組み合わせて、本明細書において説明されている特徴、機能、および詳細のうちのどれかによって任意選択で補完され得ることに留意されたい。

6. 図6による音声類似度評価器
図6は、本発明の一実施形態による音声類似度評価器600の概略ブロック図である。音声類似度評価器600は、入力音声信号610を受信し、それに基づき類似度情報612を提供するように構成されている。

音声類似度評価器600は、入力音声信号610に基づき複数の(好ましくは重なり合う)周波数範囲に対する包絡線信号622a～622cを取得するように構成されている、包絡線信号決定部620を備える。たとえば、包絡線信号622a～622cを与えるためにフィルタバンクまたはガンマトーン・フィルタバンクが使用され得る。任意選択で、整流および/または時間的ローパスフィルタリングおよび/または1つまたは複数の適応処理(たとえば、聴覚系におけるプリマスキングおよび/またはポストマスキングをモデル化し得る)も、包絡線信号622a～622cを取得するために使用されてもよい。

さらに、音声類似度評価器は、分析表現662a～662cを取得するように構成されている。分析表現662a～662cは、たとえば、包絡線信号622a～622cに対応するか、または、たとえば、包絡線信号622a～622cに基づくものとしてよい。分析表現662a～662cは、たとえば、変調情報または時間周波数領域表現のような「内部表現」であってもよい。

さらに、音声類似度評価器600は、比較部(または比較器)680を備え、したがって、入力音声信号の分析表現662a～662cを、基準音声信号に関連付けられている基準分析表現682a～682cと比較するように構成される。たとえば、比較部680は、内部差分表現を形成することを含んでよく、内部差分表現は、たとえば、取得された分析表現と基準分析表現との間の差分を記述し得る。共変調の程度に基づく内部差分表現のスケーリングおよび/または内部差分表現の正および負の値の非対称的重み付けのような、1つまたは複数の重み付け動作または修正動作が、内部差分表現を決定するときに適用されてよい。したがって、類似度情報(入力音声信号と基準音声信号との間の類似度に関する情報と考えられ得る)が取得され得る。類似度情報は、たとえば、入力音声信号と基準音声信号との間の知覚的類似度を記述する単一の値の形をとり得る。

音声類似度評価器は、取得された分析表現662a～662c(たとえば、変調情報または一般的には「内部表現」)と基準分析情報682a～682c(たとえば、基準音声信号に関連付けられている基準変調情報)との間の差分の重み付けを、入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲内の共変調(たとえば、取得された包絡線信号622a～622cもしくは取得された変調情報の間の)に依存して、または基準音声信号の2つ以上の音響周波数範囲内の共変調(たとえば、基準信号に関連付けられている包絡線信号の間、または基準音声信号に関連付けられている基準変調情報の間の)に依存して調整するように構成される。たとえば、(考察対象の周波数範囲に対して)比較的低い程度の共変調が見つかった場合と比較したときに(考察対象の周波数範囲に対して)比較的高い程度の共変調が見つかった場合に差分に大きな重みを付けてもよい。共変調の程度は、たとえば、異なる音響周波数範囲に関連付けられている時間的包絡線の間の共分散を決定することによって(または他の何らかの概念によって)見つけられ得る。

言い換えれば、音声類似度評価器600において、他の隣接する周波数帯域との比較的高い共変調を有する周波数帯域に関連付けられている、分析表現662a～662c(典型的には、入力音声信号の単一フレームに対する複数の値を含む)と基準分析表現682a～682c(典型的には、入力音声信号または基準音声信号の単一フレームに対する複数の個別の値を含む)との間の差分のそのような成分は強調される(相対的に強く重み付けされる)。

したがって、比較部680では、比較的高い共変調を含む周波数帯域内で生じる、分析表現662a～662cと基準分析表現682a～682cとの間の差分は強調される(一方、差分は、比較的小さい共変調を含む周波数帯域にある場合に低い重み付けをされる)。このような音声類似度評価は、良好な信頼性(および知覚的印象との一致)を有する類似度情報612をもたらすことがわかった。

しかしながら、音声類似度評価器600は、個別に、または組み合わせて、本明細書において説明されている特徴、機能、および詳細のうちのどれかによって任意選択で補完され得ることに留意されたい。

7. 音声品質および音声類似度の評価に関する考察
7.1 Dauのモデル
臨界帯域内に存在する時間的包絡線情報の知覚処理に関する特定の仮定を組み込んだモデリングアプローチがDauらによって提案された[9,10]。末梢聴覚系の効果的信号処理を表す様々な処理ステップのほかに([11]参照)、このモデルでは、各臨界帯域内で見られる時間的包絡線の形状が変調フィルタのバンクによって処理されると仮定している。変調フィルタのこのバンクは、変調領域における聴覚系のスペクトル分解能を表している([12]参照)。

Dauのモデル、またはDauのモデルから派生した(もしくはそれに基づく)モデルは、音声類似度の評価に対して使用され良好なパフォーマンスを示し得ることがわかった(たとえば、本明細書において開示されている音声類似度評価器および音声符号化器において)。

7.2 BWEの制御に対するモデルの利点
本発明の一態様により、このようなモデリングアプローチを使用することは、BWEなどのパラメトリック信号表現に有益である場合がある。より具体的には、音楽において出現することが多い音高信号について、複合音の低周波数部分をより高い周波数で複製すると、パラメトリック表現された波形それ自体が元の信号の波形と実質的に異なるときであっても、元の信号の包絡線構造にかなりよく似た周期的な包絡線構造を形成することがわかった。

本発明の一態様により、この時間的包絡線情報の知覚された類似度を評価することができる知覚モデルは、BWEおよび類似の技術におけるノイズおよびトーナリティ調整などの時間的包絡線に影響を与える符号化決定を誘導するのに役立つ。

したがって、本発明による実施形態では、音声の類似度の評価、およびどの符号化パラメータが使用されるべきかを決定するために、Dauのモデル、またはそれから派生したモデルを使用する。

8. 提案される心理音響モデル
8.1 一般的考慮事項
このセクションでは、最初の処理段階が図7に示されているようなDauら[9]のものにほぼ似ているモデルが提示される。後の処理段階では、モデルは任意選択で、いくつかの追加の知覚現象を含み、このモデルを、局所的なスケールおよびより大域的な時間的スケールに対して知覚的結果を有する符号化決定の両方に適したものにするように拡張される。Dauら[9]の元のモデルに沿って、モデルへの入力は、いわゆる内部表現(IR)に変換される。このIRは、さらなる聴覚処理に利用可能なすべての情報を含む知覚領域への入力信号の変換である。IRに内部ノイズが加わるので、入力信号の変化によるIRの小さな変化は検出可能でない。このプロセスでは、入力信号の変化の知覚的検出可能性をモデル化する。

図7は、Dauらの聴覚処理モデルの信号フローおよび処理ブロックの概略図である。モデル700は、基底膜フィルタリング部720を備え、たとえば、基底膜フィルタリングを入力音声信号710に適用し得る。基底膜フィルタリング720は、たとえば、入力音声信号710の異なる(場合によっては重なり合う)周波数範囲をカバーする複数のバンドパス信号を提供する。基底膜フィルタリング720の出力信号732a～732eは、たとえば、フィルタリング部230によって提供される信号232a～232eに対応するものとしてよい。

モデル700は、基底膜フィルタリング部720の異なる出力信号732a～732eに作用する複数の並列信号経路を備える。簡単にするため、1つの単一の処理パスのみが示されており、この処理パスは、たとえば、整流部236および包絡線信号決定部220のローパスフィルタリング部240に対応し得る半波整流およびローパスフィルタリング部736を備える。さらに、モデルは、たとえば、適応部250に対応し得る適応部750も備える。したがって、半波整流およびローパスフィルタリング部736の結果を受け取る、適応部の出力において(基底膜フィルタリング部720のそれぞれの出力信号732cに適用される)、包絡線信号722cが与えられ、これは包絡線信号222cに対応するものとしてよい。さらに、モデル700は、基底膜フィルタリング部720の周波数範囲に関連付けられている、変調フィルタバンク760も備える(たとえば、基底膜フィルタリング部720の1つの出力信号732cを伴う)。言い換えれば、基底膜フィルタリング部の異なる周波数範囲に関連付けられている複数の(たとえば、別個の)変調フィルタバンクがあってもよい。変調フィルタバンク760は、その出力において、異なる変調周波数に関連付けられている変調信号766a～766eを与える。

モデル700は、任意選択で、変調フィルタバンク760の出力信号にノイズを付加するノイズ付加部768を備える。モデル700は、たとえば、比較部280に対応し得る「最適検出器」780も備える。

言い換えれば、モデル700のコンポーネントは、たとえば、本明細書において開示されている音声類似度評価器において使用され得る。したがって、モデル700の個別のコンポーネントに関して次に説明されている特徴、機能性、および詳細は、任意選択で、本明細書において開示されている音声類似度評価器および音声符号化器内に、個別に、および組み合わせて、実装することができる。

8.2 ガンマトーン・フィルタバンク(詳細は任意選択である)
たとえば、包絡線信号決定器120、220、またはフィルタリング部230において使用され得る、提案されるモデルは、たとえば、150Hzから16kHzまでの範囲にまたがる周波数範囲にわたって知覚スケール上に一様な間隔で並ぶ、たとえば、42個のフィルタからなる4次ガンマトーン・フィルタバンクを用いて入力信号110、210、710を処理することから始まる。この段階は、聴覚蝸牛内のスペクトル信号分析を表す。基底膜インパルス応答における明らかな特徴は、高周波数インパルス応答が、ガンマトーン・フィルタバンクインパルス応答の概略図を示す図8に見られるような低周波数インパルス応答よりかなり短いということである。

聴覚フィルタ帯域幅の一般的な推定値([13]を参照)に沿って中心周波数の約12%の周波数分解能を達成するために必要な時間的解析窓の長さは、中心周波数が高くなるのに比例して短くなる時間窓で求めることができる。これは、基底膜の底の高周波数部分のインパルス応答が低周波数部分の先端よりも短い理由の説明になっている。中心周波数の12%という周波数分解能は、もちろん、絶対的な意味では、基底膜の高周波数領域が低いスペクトル分解能しか達成しないが高い時間分解能を達成することを意味し、低周波数領域ではその逆が言える。

8.3 内有毛細胞(詳細は任意選択である)
各ガンマトーン・フィルタの出力は、内有毛細胞の単純なモデルによって処理され、これは、たとえば、半波整流とその後に続く1000Hzのカットオフ周波数を有するローパスフィルタ(たとえば、参照番号736に示されている)からなる。この内有毛細胞モデルの出力は、ここでは限られた時間分解能を有すると仮定される聴覚神経の線維上の活動電位の変化率を表す。

単純有毛細胞モデルにおける半波整流は、不動毛(「毛」)が片側に押されたときにのみそのイオンカナルを開き、結果として細胞内の電位が変化するという事実に関係している(コルチ器官の概略図を示す図9を参照)。結果として生じる電位の変化率は制限されている。したがって、聴覚神経の発火率は、比較的低い周波数に対してのみ、基底膜の動きの微細な構造に同期され得る。この一般的挙動は、ローパスフィルタ(これは、たとえば、参照番号736にも示されている)によって実装される。

内有毛細胞モデルの機能は、たとえば、包絡線信号決定部220のブロック236、240において実装され得る。

8.4 適応プロセス、マスキング(詳細は任意選択である)
内有毛細胞処理の後、(たとえば)5つの適応ループのシーケンスが続く(たとえば、適応部750に含まれる)。これらは、音声信号のオフセット後に観察される順方向マスキング(ポストマスキング)の現象で現れる聴覚系において生じる適応プロセスを表す。たとえば、各適応ループは、同じ適応ループ(すなわちフィードバックループ)のローパスフィルタリングされた出力によって減衰される適応利得制御からなる(または含む)。このような適応ループの機能を理解するために、信号のオンセットおよびオフセットを考察する。信号のオンセットでは、以前に入出力がなかったので初期減衰が小さく、結果として適応ループの大きな「オーバーシュート」出力が生じる。ローパスフィルタリングされた出力が上昇し、適応ループの出力を減衰させ始め、平衡状態に近づいて行く。

一定レベルの入力信号については、たとえば5つの適応ループの定常状態出力は、たとえば、音の大きさのわれわれの知覚に沿ったデシベル変換に非常によく似たものになるように直線的にスケーリングされ得る。このモデルでは、信号のオンセット時の相当のオーバーシュートを回避するために、適応ループの出力に、デシベル変換された入力信号に等しいハードリミットが適用される。信号のオフセットでは、ローパスフィルタの効果が弱まるまで減衰がしばらく続く。この減衰は、順方向マスキングの効果、すなわち、先行する聴覚的な「マスカー」信号によるターゲット信号の検出感度の低下をモデル化するものである。

このような適応は、たとえば、適応部250によってなされ得る。

8.5 変調フィルタバンク(詳細は任意選択である)
適応ループの後に、たとえば、変調フィルタバンク760が続く。これは、たとえば0Hzから20Hzまでの中心周波数を有する一連の、たとえば5Hz幅のフィルタからなり、この後に、たとえば243Hzの最大中心周波数に達するまで変調フィルタの帯域幅に対応するステップで分離されているQ=4を有するフィルタが続く。したがって、このモデルでは、変調領域におけるスペクトル分解能が[9]の場合よりも高く、最高変調周波数は、人間が処理できる最高変調周波数により一致するように制限される([15]参照)。フィルタ出力は、たとえば、複素数値をとり、正の周波数のみを表す。

さらなる修正が、変調フィルタに(任意選択で)加えられる。Q値がわずか4である場合、各変調フィルタは包絡線のDC成分を制限された程度のみに減衰させることが予想され得る。包絡線のDC成分が変調された成分に関して高い振幅を有しているとすれば、変調フィルタが高い中心周波数に同調されるときでも、DC成分は変調フィルタの出力に支配的な役割を果たし得る。

このDC成分を除去するために、各変調フィルタの出力は、たとえば、変調フィルタの中心周波数の半分のカットオフ周波数でローパスフィルタリングされる。次いで、変調フィルタバンクの出力とローパスフィルタの絶対値は、たとえば、互いから減算される。このようにして、DC成分、さらには、ここでは聴覚系によって直接処理されないと仮定されている変調位相情報が除去される。このような機能は、たとえば、DC除去270によって実行され得る。

時間的包絡線の位相情報の処理は、聴覚事象の正確なタイミングが知覚可能であろうということを意味する。Vafinらの研究[16]は、聴取者がオンセットのタイミングでは小さなシフトに鈍感であることを示した。DC除去は、本明細書において説明されている符号化器制御段において特に関連性を有する(たとえば、後述(9.3項))。この段階は、任意選択で、一方の符号化オプションから他方の符号化オプションへの切り替えが許されているかどうかを決定するための入力として、DC成分を有しない変調の強度を必要とする(または、好ましくは有するべきである)。

変調フィルタバンクの機能は、たとえば、フィルタリング264によって実行され得る。この機能は、たとえば、DC除去270および位相情報除去274によって補完され得る。

8.6 内部表現(IR)(詳細は任意選択である)
すべての聴覚フィルタにわたるすべての変調フィルタの結果として得られる出力は、たとえば、内部表現(IR)を構成する。原理上、元の信号と符号化された信号のIRは、比較することができ、たとえば、完全なIRにわたるすべての平方差分和は、元の信号と符号化された信号との間の差分の可聴性に対するメトリックを提供する([17]参照)。たとえば、そのような比較は、比較ブロック280によって実行され得る(たとえば、組合せ/評価部298を使用して)。

聴覚処理のさらなる段階のいくつかの態様を含めるために、3つの修正が(任意選択で)両方のIRの間の差分(内部差分表現(IDR)と称される)に対してなされる。

結果として得られるIDRは、利用可能な符号化オプションについての決定(または、別の言い方をすれば、符号化パラメータについての決定)を行うために使用することができる。各符号化オプションは、符号化が行われるパラメータの特定の選択を伴う。IDRは、対応する符号化オプションによって生じる知覚的歪みのレベルを予測するメトリックを提供する。次いで、最小の予測知覚的歪みをもたらす符号化オプションが選択される(たとえば、符号化パラメータ選択部370を使用して)。

8.7 共変調マスキング解除(CMR)(詳細は任意選択である)
IDRの最初の(任意選択の)修正は、スペクトルバンドの共変調に関係する。周波数帯域間で一時的に共変調されるマスカーの場合、追加されたトーンは、時間的に無相関のマスカーよりかなり低いレベルで検出され得ることがわかった([18]参照)。この効果は、共変調マスキング解除(CMR)と呼ばれている。また、高周波数では、周波数帯域の共変調はマスキングを減少させる[19]。

このことから、共変調信号については、元の信号と符号化された信号との間のIRの差もより容易に検出されると推論した(たとえば、人間の聴取者によって)。

この効果を考慮するために、IDRは、共変調の程度に基づき任意選択でスケールアップされる(たとえば、重み付け292a～292eで)。

共変調の程度は、たとえば、4つの隣接する聴覚フィルタ(考察されているフィルタの下に2つ、上に2つ)を用いて考察されている聴覚フィルタの時間的包絡線との間の共分散の程度を測定することによって決定される。たとえば、適応ループおよび、その後に続く、任意選択のローパスフィルタ(時定数は0.01秒)の出力は、聴覚フィルタの出力の時間的包絡線を表現するために使用された。

共変調の程度のこの決定は、たとえば、共変調決定器299aによって実行され得る。

モデル予測と主観的評定との予備的な比較において、CMR効果をモデルに含めることにより良好な予測が取得された。それでも、把握している限りでは、CMRは、これまでに知覚的音声コーディングの文脈において考慮されていなかった。

8.8 時間平滑化(詳細は任意選択である)
第2に、内部表現は、約100ミリ秒の持続時間にわたって(任意選択で)時間的に平滑化される。この時間平滑化は、たとえば、時間平滑化290a～290eによって実行されてもよい。

これに対する動機は、人間の聴取者が、ノイズの時間的変動の存在を十分に知覚することはできるものの、これらの確率的変動の詳細には比較的鈍感であるということである。言い換えれば、変調の強さだけがそのようなものとして知覚され、変調の時間的詳細はあまり知覚されないということである。Hanna[20]の研究では、同じノイズ発生器によって生成された特に長いノイズトークンは、互いに区別され得ないことを示した。

8.9 知覚的非対称性(詳細は任意選択である)
第3に、信号を符号化するときに追加される信号成分は、削除される成分よりも音声品質の面でより有害な効果をもたらすと考えられた。基礎となる前提は、追加されたコンポーネントは、共通の特性を元の音声信号と共有していないことが多く、そのような理由から、アーチファクトとしてより顕著になることである。

これは(任意選択で)IRの差分の正および負の値の非対称的重み付けによって実装された。非対称的重み付けは、たとえば、重み付け292a～292eによって実行され得る。

モデル予測と主観的データとの予備的比較において、非対称的重み付けはより良好な予測をもたらすことがわかった。

9. 心理音響モデルによるIGF制御
次に、本明細書において説明されている音声類似度評価器を用いて(たとえば、本明細書において説明されているような音声符号化器で)、帯域幅拡大(たとえば、インテリジェントギャップフィリング、IGF)(または帯域幅拡大のパラメータ)がどのように制御され得るかについて説明される。

9.1 IGFツール(詳細は任意選択である)
インテリジェントギャップフィリング(IGF)[5]は、2013年のMPEG-H 3D Audioの標準化プロセス[21][6]で初めて導入されたセミパラメトリック音声コーディング技術であり、復号された音声信号内のスペクトルギャップにコンパクトサイド情報によって導かれた欠落信号の推定値を充填するものである。そのようなものとして、IGFのアプリケーションは非波形維持である。IGFは、従来のBWEとして動作することもでき、空の高周波領域全体を推定信号で埋めるように構成され得るが、波形コーディングされたコンテンツを推定コンテンツと混合して残りのスペクトルギャップを埋めるために従来のBWEの機能を超えて使用することもできる。そのようにして、従来のBWEにとって重要であることが知られているコンテンツ、たとえばスイープ信号は忠実にコーディングされ得る。

図10において、IGFを用いたデコーダが示されている。伝送される修正離散コサイン変換(MDCT)係数(たとえば、デマルチプレクサおよびエントロピー復号器1020を使用して入力ビットストリーム1010から抽出された量子化されたMDCTスペクトル1022の)を逆量子化した後(たとえば、逆量子化器1040で)、これらの値(たとえば、逆量子化されたスペクトル値1042)およびIGFサイド情報1024(たとえば、デマルチプレクサおよびエントロピー復号器1020によって入力ビットストリーム1010から導出され得る)は、IGF復号器1050に渡される。サイド情報1024を使用することで、IGF復号器1050は、スペクトルの伝送低帯域1042からMDCT係数を選択して、高帯域推定値1052を組み立てる。したがって、低帯域および高帯域は、いわゆるIGFソースタイルおよびターゲットタイルにそれぞれ編成される。

図11に示されているように、スペクトルの下側部分内のIGF最小周波数からIGF開始周波数まで延びるIGFソース範囲は、重なり合う4つのソースタイルsT[i](ここで、たとえば、iは0から3までの値をとり得る)に分割される。IGFターゲット範囲、すなわち再構成されるべき高周波数スペクトル帯域は、IGF開始周波数と停止周波数によって決定される。ここでもまた、より高い周波数の方へ増加する帯域幅の最大4つまでの連続ターゲットタイル(たとえば、タイル[0]からタイル[4]で指定される)に分割される。

IGF復号プロセスの実行中、IGF範囲は、好適なソースタイルをターゲットタイルにコピーアップし、伝送サイド情報を使用して元の信号に最もよく一致するようにトーン特性[22]とスペクトル包絡線[23]を適応させることで再構成される。

このセクションで説明されている復号プロセスは、たとえば、音声符号化器による符号化パラメータの適切な提供によって制御され得ることに留意されたい。たとえば、符号化パラメータは、IGFソースタイル(たとえば、sT[0]からsT[3])とIGFターゲットタイル(たとえば、タイル[0]からタイル[4])との間の関連付けを記述し得る。これらの符号化パラメータは、たとえば、音声符号化器300、400において決定されてもよい。

9.2 IGF制御
スペクトルギャップを知覚的に最もよく一致するスペクトルコンテンツで埋めることができるように、IGFは、そのようなコンテンツを作成するための多くの自由度を有する。基本的に、高帯域(HF)を埋めるための信号は、低帯域(LF)をソースとする時間周波数タイル(たとえば、sT[0]からsT[3])から構成される。実際のマッピングに対するソースおよびターゲットのスペクトル範囲(たとえば、sT[0]からsT[3]およびタイル[0]からタイル[4])は、各時間フレームについて多くの可能性のうちから個別に選択され得る。

トーナリティを適応させるために、IGFホワイトニング[22]が使用され、それによりトーンソース領域から取り出された時間周波数タイルのスペクトルを平坦化し、ノイズの多いターゲット領域内に挿入される。IGFは3つのホワイトニングレベル、すなわち、「off」、「medium」、および「strong」を用意しており、「strong」ホワイトニングはタイルの元のコンテンツをランダムノイズで置き換えることからなる。

タイルのフレキシブルな選択およびホワイトニングオプションを組合せとしてとるだけで、n=(4⁴)(3⁴)=20736個の膨大な数の個別の組合せが得られ、(4⁴)はすべての異なるソースタイル選択の可能性であり、(3⁴)はすべての異なるホワイトニングオプションであり、これらは各タイルに対して独立して選択可能である。(この例では、4つのターゲットタイルがあると仮定され、各々4つのソースタイルに別々に関連付けられ、3つのホワイトニングモードのうちの1つに別々に関連付けられ得る)。

われわれは、上で説明されているような知覚モデルを採用して、これらの組合せのうちから知覚的に最も近いものを選択して高帯域を推定することを提案する。言い換えれば、本明細書において説明されている知覚モデルは、たとえば、インテリジェントギャップフィリングに対するパラメータ、たとえば、ソースタイルとターゲットタイルとの間の関連付けを記述するパラメータ、およびホワイトニングモードを記述するパラメータを選択するために音声符号化器300、400において使用することができる。

このために、IDRは、たとえば、入り込む知覚歪みの可聴性に対するメトリックとして(たとえば、類似度情報112、212、342、424として)働く平方差分和を導出するために使用される(たとえば、比較部180において、または比較部280において)。この和は、任意選択で、たとえば、単一の符号化フレームを超えるより長い時間間隔にわたって決定されることに留意されたい。これは、選択された符号化オプションの頻繁な変更を回避する。

モデル内の時間平滑化(第8.8項を参照)は、過度のトーン高帯域推定に向かう潜在的バイアスを効果的に回避する。

しかしながら、上記の戦略で行われる符号化決定は、本質的にはまだ局所的決定基準に基づいており、したがって2つのタイリングオプション間の切り替えだけで発生する可能性のある知覚効果は考慮していない。この効果を改善するために、われわれは、知覚的に必要とされる場合に安定性を確実にする基準を任意選択で導入した(これは、たとえば、関連付け変更制限部380において実装され得る)。

9.3 安定化基準(任意選択、詳細も任意選択)
説明されているように、IGFは、IGFタイリングの多くの異なる代替的選択肢で高周波数挿入に対するスペクトルのソースおよびターゲット範囲を選択することを可能にする。スペクトル周波数挿入の正確なシフトがフレーム単位で時間の経過とともに変化するときに、単一の連続的トーン成分が時間の経過とともに異なる高周波数の間で切り替わることが生じ得る。これは、非常に目立つ厄介なアーチファクトをもたらす。これが発生する理由は、周波数のシフトが、符号化器のフレームレートにおおよそ対応する変調周波数において符号化された信号内に導入される変調につながるためと仮定される。より長い時間スケールでのみ発生するこの種のアーチファクトを回避するために、IGF周波数シフト間の切り替えに対する制限が任意選択で組み込まれた。IGF周波数シフト間の(または、同等のことであるが、帯域幅拡大のソースタイルとターゲットタイルとの間の異なる関連付けの間の)切り替えのこの制限は、たとえば、関連付け変更制限部480によって達成される。

IGF周波数シフト(またはソースタイルとターゲットタイルとの間の関連付け)の変更は、元の信号がIGF周波数シフト(たとえば、ソースタイルとターゲットタイルとの間の関連付けの変更によって引き起こされる)(すなわち、符号化器のフレームレートに対応する)があるときに持ち込まれるであろう変調に対応する範囲内の(比較的)強い変調成分を有することを条件としてのみ許可されることが仮定された。そのような理由から、タイリングの変化によって誘発される周波数シフトの持ち込むことに対して聴取者がどれだけ敏感になるかを予測する感度尺度が任意選択で導出された(たとえば、ブロック486において)。この感度尺度は、たとえば、符号化器のフレームレートに対応する変調フィルタにおける変調強度に単純に反比例する。感度がこの固定された基準以下であるときのみ、IGFのタイリング選択の変更が許容可能である。これは、たとえば、閾値比較489および関連付け変更ゲーティング480によって到達することができる。

10 実験(設備および詳細は任意選択である)
10.1 概要
提案される心理音響モデルがパラメトリックコーディング技術の知覚的に最適化されたパラメータ選択を行う能力を評価するために、Multi-Stimulus Test with Hidden Reference and Anchor(MUSHRA)[24]リスニングテストが用意された。リスニングテストの項目は、次に説明されているようにセミパラメトリックIGFツールを2つのフレーバーで関与させたMPEG-H 3Dオーディオコーデックの実験的なオフライン環境で生成された。特徴駆動型ホワイトニングレベル推定と組み合わされた固定タイリング選択が、提案される心理音響モデルによって引き起こされる、両方のパラメータの自動選択と比較された。

10.2 項目生成
リスニングテストでは、すべての項目が、MPEG-H符号化器/復号器のオフラインチェーンを通じて処理された。ビットレートは、IGFによって持ち込まれるもの以外の知覚効果の影響を排除するために非常に高い値に設定された。MPEG-H 3D Audio符号化器のパラメータは、IGF帯域に対する最適に満たない推定値があれば明らかに聞こえるほどの影響を及ぼすように設定された。したがって、IGF開始周波数は4.2kHzと低く設定され、IGF停止周波数は8.0kHzと低く設定された。その結果、元の項目は、処理されたバージョンとの比較を適切に行えるように8.4kHzに帯域制限された。

この設定により、IGFタイリングは3つのターゲットタイルのみに制限され、それによって評価されるべき可能なIGFパラメータの組合せの数を実際的な実験において計算の複雑さに関して処理できる数にまで大幅に減らす。組合せの数をさらに減らすために、「strong」ホワイトニングが個々のタイルのランダムノイズ置換からなるという事実により、少なくとも1つの「strong」ホワイトニング設定を含む同等の組合せがセットから削除された(第3.2項参照)。最初に、「strong」ホワイトニングを伴わない(2³)(4³)=512通りの異なるIGF設定の組合せがある。1つ、2つ、または3つすべてのターゲットタイルが強いホワイトニングを採用する場合、この結果、3(2¹)(4¹)+3(2²)(4²)+1=217の組合せが追加される。要約すると、最終的に、われわれは、(第9.2項の最大組合せ数n=(3³)(4³)=1728の代わりに)729通りの組合せだけ考察することになる。

比較条件を生成するために、コーデックは、「1313」の固定タイリングを使用して操作され(第10.2項参照)、ホワイトニングは、本質的に、スペクトル平坦度尺度(SFM)の評価によって制御された。これは、たとえば、コピーアップの適応調整がサポートされていないSBRにおいて採用されているものに、また現在のIGF符号化器実装形態にも直接対応し、したがって、公正な比較条件を形成する。

自動選択は、IGF自動選択項目の生成の概略表現を示す、図6に示されているような3つの連続する処理ステップで実装される「力ずくアプローチ」を使用して生成された。

第1のステップでは、IGFタイリングおよびIGFホワイトニングのすべての利用可能な組合せに対する出力(たとえば、パラメータのすべてのセットに対する符号化され、再び復号された音声信号1230)が、(たとえば、入力信号1210に基づき、音声符号化器またはMPEG-H符号化器および音声復号器もしくはMPEG-H復号器1224を使用して)強制定数パラメータモード内で生成された。このように、符号化器1220は、強制的IGFタイリングパラメータおよびIGFホワイトニングパラメータを変更せず、1つのバージョンの符号化中にそれらを一定に保った。このようにして、処理された項目に対するすべての可能なIGFタイリングおよびIGFホワイトニングバージョン1230が生成され、WAV形式で記憶された。

第2のステップでは、第1のステップで取得された各処理結果の知覚品質が、心理音響モデル1240(たとえば、音声類似度評価器100、200に対応するか、または音声類似度評価器100、200と比較したときに類似または同一の機能を備え得る)を通じてこれらのWAVファイルをフレーム単位で分析することによって推定された。全体として、決定データ1252を取得し、テキストファイルに書き込むためにN=729の異なる処理結果(たとえば、異なる入力音声信号に対する「類似度情報」112、212に対応し得る)の品質推定値が(たとえば、決定ブロック1250によって)比較された。

図13および図14は、項目「trilogy」に対するモデルから取得された決定データ1252(たとえば、選択された符号化パラメータ324、424に対応していてもよい)を表示している。相当の回数の切り替え、したがって動的適応が起こっていることを観察することができる。そのような決定データは、たとえば、符号化パラメータ選択部370または符号化パラメータ決定部430によって提供され得る。別の言い方をすれば、図13は、ソースタイルのうちのどのタイルが、考察対象の3つのターゲットタイルに関連付けられているかを示す時間的発展を示している。図13は、3つのターゲットタイルにホワイトニングモード(またはホワイトニングレベル)が使用される時間的発展を示している。

第3の処理ステップにおいて、決定データ(フレーム毎のIGFタイリング選択およびIGFホワイティングパラメータ)が、テキストファイルから、上で詳細を述べているように構成されているMPEG-H符号化器/復号器チェーン1260、1270に与えられ、これを使用して手元で動的選択を行った。結果として得られたWAVファイルは最終的に、提案されたモデルを通じた自動選択を特徴とする、符号化され、復号されたバージョン1272を生成した。

オフライン計算セットアップは、「力ずくアプローチ」とともに、原理的にわれわれの提案したモデルが適切であることを実証し、したがって、そのモデルを使用して品質上限を提供するために選択された。現実的なアプリケーションでは、たとえば(任意選択で)、ディープニューラルネットワーク(DNN)(たとえば、ニューラルネットワーク530)が、現在の計算コストの何分の1かでモデル出力(たとえば、類似度情報112、212、342、または符号化パラメータ情報324、424)を学習し、事実上代替し得る。このようなセットアップでは、提案されたモデルは、適切な訓練のために(たとえば、ニューラルネット訓練データ532を取得するために)大量の音声素材に自動的にアノテーションを付けることができる。

結論として、ブロック1220、1224、1240、1250、1260の機能は、たとえば、音声符号化器300、400において実行され得る(たとえば、ブロック350、360、340、370、320、またはブロック430、420によって)。したがって、音声符号化器は、音声類似度評価器100、200、340で(完全にまたは部分的に)実装される、提案されたモデルを使用して、符号化パラメータを選択してもよい。しかしながら、音声符号化器の実装は、図5の実施形態に示されているように、ニューラルネットを使用したときに、より効率的であり得、ニューラルネットに対する訓練データは、提案されたモデルを使用して(たとえば、本明細書において説明されている音声類似度評価器を使用して)取得される。

11. 結果
Table 1（表1）は、リスニングテストの項目を示す表である。

Table 2（表2）は、リスニングテストの条件を示す表である。

MUSHRAのリスニングテストの項目として、Table 1（表1）に示されている11曲の楽曲抜粋のセットが用意された。このテストは、Table 2（表2）に示されている5つの条件を完全に含んでいた。リスニングは、15名の専門家の聴取者によりリビングルームのような環境内で静電STAXヘッドフォンおよびアンプを使って実行された。MUSHRAテストでは、テスト対象の全項目が元のものと比較される。われわれは(第10.2項で説明された理由により)8.4kHzに帯域制限されている元のものを使用したので、これらは「優」、「良」、「並」、「可」から「不可」までのスケールで「優」の絶対評価に対応している。

図15は聴取者の絶対スコアを表示している。コーディングされた項目の知覚的品質レベルは、絶対スコアにおいて見られるようにすべて「並」から「良」の範囲内で評価された。自動化条件の評価は、全体を通して「良」である。

図16は、提案された自動化条件と固定タイリングベースライン条件の差分スコアを示している。これらの差分スコアから、5点以上のMUSHRAポイントの有意な平均的改善があると結論づけることができる。項目「B」、「C」、「G」、「H」、「I」、および「J」は、それぞれ、18点、7点、7点、3点、9点、および10点の有意な個別の改善を示している。個別の項目はいずれも有意な劣化を示していない。

12. 議論
リスニングテストの結果は、提案された符号化方法による音声品質の有意な全体的改善を示している。この結果から、2つの主要な結論が導き出され得る。第1に、結果は、セミパラメトリックIGFツールについて、フレーム単位で単一の抜粋の符号化における異なる符号化設定を切り替えることが、知覚品質の改善につながり得ることを示しています。第2に、この目的のために、新たに提案された心理音響モデル(およびそれに応じて、提案された音声類似度評価器100、200、340)が、パラメトリック符号化器(たとえば、符号化部320、420)の符号化パラメータを自動化方式で制御することが可能であることが示された。

適応符号化(リスニングテストでは自動化条件)は、タイリング選択(たとえば、ソースタイルとターゲットタイルとの間の関連付け)とホワイトニングレベルのすべての利用可能な組合せの間で潜在的に切り替えることを可能にした。ほとんどの抜粋において、これは、トーンアーチファクトを持ち込むことなく高い周波数でのノイズに似た(粗い)特性の低減を引き起こした。

特に、心理音響モデルは、二重の仕方で適用された。

一方では、局所的な時間スケールで利用可能な様々な符号化オプションに関連付けられている知覚劣化に関する予測を行った。このことから、最良の「局所的」符号化オプションが選択されることも可能である。

しかしながら、以前の実験では、この局所ベースの符号化最適条件を直接適用すると顕著な切り替えアーチファクトが発生することが多いこと示された。最も具体的には、安定した高周波数トーン成分が存在するときに別のタイリングオプションに切り替えると非常に顕著な周波数変調アーチファクトが発生する。

その一方で、これは、任意選択で、符号化オプションの時機を逸した切り替えによって誘発されるアーチファクトを回避するための安定化基準を提供した(そのような安定化メカニズムは、たとえば、関連付け変更制限を使用して実装され得る)。その結果、モデル(または関連付け変更制限部480)は、音声信号内のどの時点で一方のタイリングから他方のタイリングに切り替えることが可能であったかを決定するために使用された。これのための基準として、元の音声抜粋が多くの変調を伴わずに高トーン周波数領域を示すときに、切り替えは回避されるべきであると仮定された。

われわれの現在の実装形態において、更新された符号化パラメータのどのセットが切り替え許容がある場合に局所的に最良の品質をもたらすかが決定される(たとえば、符号化パラメータの決定において)。音声抜粋が進行するにつれ、最良の符号化パラメータの別の特定のセットが選択されることがよく起こり得るが、このセットへの切り替えは(たとえば、関連付け変更制限によって)長時間にわたって禁止されることになる。それによって、初期の符号化パラメータが最適を大きく下回るものになる場合、符号化器はそのような大域的に最適を下回るセットをより長い時間にわたって保持しなければならない。この問題を解決することに向けた任意選択のアプローチは、心理音響モデルに十分な先読み時間を持たせ、現在の符号化決定が抜粋の将来の部分に向けて品質にどのように影響するかを考慮することであり得る。

固定符号化方法と比較して自動符号化方法についてはまずまずの全体的な改善が見られるが、個々の項目「B」では非常に大きな改善が見られ、項目「C」、「G」、「I」、および「J」についても相当の改善が見られた。ここで、一般的な観察結果と一致して、自動化バージョンの方が固定バージョンよりも聞こえるノイズがかなり少なく、これは心理音響モデル駆動型アプローチがタイリング選択とホワイトニングレベルの知覚的に適切な組合せを選択できるという一般的な考え方を支持していた。

13. まとめ
従来の聴覚マスキングモデルは、波形維持コーデックを制御するために非常に成功していることが示されているが、これらのモデルは、パラメトリックコーディングツールを同様に操るには不適当であることが判明している。

本明細書では、本発明の一態様により、われわれは、非波形維持知覚コーディング技術(たとえば、符号化部320または符号化部420)のパラメータ化(たとえば、符号化パラメータ)を制御するために、改良された励起ベースの心理音響モデル(たとえば、音声類似度評価器に実装され得る)を採用することを提案している。このモデルから、いわゆる内部差分表現(IDR)(たとえば、差分表現294a～294e)が、手元にある利用可能な符号化オプションの各々について取得される。IDRは、対応する符号化オプションを適用することによって生じる知覚歪みのレベルを予測するメトリックを提供することが示されている。最終的な符号化プロセスを制御するために、最小の予測された知覚歪みにつながる符号化オプションが選択される(たとえば、符号化パラメータ決定部330、430、または符号化パラメータ選択部370によって)。

われわれは、従来の知覚モデルとは対照的に、提案された励起ベースのアプローチが、MPEG-H 3D Audioおよびそのセミパラメトリックインテリジェントギャップフィリング(IGF)ツールの例において現代的な音声コーダ内のパラメトリックコーディングツールの信号適応的な適用を操ることに成功し得ることを実証した。MUSHRAのリスニングテストの場合、われわれは、自動化されたIGFパラメータ選択の良さを証明した。平均して、「自動化されたパラメータ選択」の条件では、固定IGFタイリングスキームおよびトーナリティベースのホワイトニングを使用した単純設定と比較して5点を超えるMUSHRAスコアを有意に取得した。

本明細書において説明されている実験は、適応的IGFパラメータ選択を制御するためにそのような高度なモデルの原理的適用可能性を証明するもっぱら理論的なものである。われわれは、現在の「力ずくアプローチ」を使用することで、計算の複雑度が高くならざるを得ないことを認識している。

したがって、われわれは、任意選択の修正として、モデル出力上でディープニューラルネットワーク(DNN)を訓練し、それにより、提案されたモデルの実用的アプリケーションにおける複雑さを大幅に削減することを企図している。

14. 任意選択の拡大
次に、「効率的知覚音声コーデックの改善された心理音響モデル」の任意選択の拡大および修正について説明する。

14.1. 拡大への導入
上述した本発明の主な説明は、提案された心理音響モデルを詳細に説明し、MPEG-H 3D音声符号化器内のIGFパラメータの推定のためのコントローラとして提案されたモデルを使用する好ましい実施形態を示している。

実験セットアップでは、網羅的なアプローチ(「力ずく」)を使用する実験の概略を示しており、たとえば、推定されるべきパラメータのすべての可能な組合せが使用され、多数の出力を生成し、その後比較して最良のものを選択する。

同時に、われわれは、そのようなアプローチでは計算が非常に複雑になると言っておく。

したがって、実際にディープニューラルネットワーク(DNN)を使用して、任意選択でモデルそれ自体のコストのかかる分析的な計算を繰り返し適用することを置き換えることを提案することにした。

14.2. DNNアプローチ
DNNアプローチの使用は任意選択であり、上述した概念の代替として、または上述した概念と組み合わせて使用可能であることに留意されたい。

このようなDNNベースのアプローチは、提案された心理音響モデルの出力によって自動的にアノテーションを付けられた(たとえば、本明細書において説明されている音声類似度評価器を使用して)十分な量の音声素材でDNN(たとえば、ニューラルネット530)を訓練することからなる(心理音響モデルの出力によってアノテーションを付けられた音声素材は、ニューラルネット訓練データ532として考慮され得る)。

したがって、計算複雑度は、自動的にアノテーションを付けられた素材を生成するための(たとえば、ニューラルネット訓練データ532として)DNN訓練の(オフラインの)準備段階にシフトされ、さらに、層内のDNNノードの適切な重みを推定するための(たとえば、ニューラルネット530の)訓練段階にシフトされる。

適用フェーズでは、たとえば、符号化パラメータを決定するために音声符号化器で使用され得るDNN(たとえば、ニューラルネット530)は、そのアーキテクチャにより適度な複雑度を有するだけである。

実際に使用するうえで、そのような符号化器(たとえば、音声符号化器500)は、説明されている分析的心理音響モデルの出力(たとえば、音声類似度評価器100、200、340の出力、または、たとえば、符号化パラメータ選択部330、430の出力)を精密に模倣する容易に訓練されるDNN(たとえば、音声類似度評価器を使用して訓練音声情報から導出されたパラメータ情報を使用して訓練される)を備える。

14.3. 実施形態(詳細は任意選択である)
一実装形態において、学習されるべき(たとえば、DNNによって)前記モデル出力は、音声フレーム当たりの品質尺度(たとえば、音声類似度評価器によって取得される)としての単一の数値、元のものの品質尺度とコーディングされたバージョンの品質尺度とを減算することを通じて取得される単一の数値の差、または内部表現の複数の数値もしくは元のものに関するそれらの差であってよい。

別の実装形態において、DNNは、入力信号(場合によっては以下で説明されているような異なる表現を使用する)と、図6の「ステップ2」(最適なタイリングおよびホワイトニング)から取得された決定データで、説明されている分析的心理音響モデルを使用して(または音声類似度評価器を使用して)直接訓練される。次いで、DNN出力は、コーディングパラメータを知覚的に最適な方式で適応させるように符号化器(たとえばMPEG-H符号化器)を制御するために直接使用され得る(符号化パラメータは、たとえば、ニューラルネットによって出力される)。したがって、上述した力ずくアプローチで必要とされるように、入力信号を複数の異なる設定で符号化する必要がなくなる。

DNNは、種々のトポロジー(畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、...)を有することができる。DNNは、種々の入力(PCMデータ[フレーム]、スペクトルデータ(フーリエスペクトル、定数Q変換、ガンマトーン・フィルタバンク、...)上で訓練され得る。

15. 追加のコメントおよび備考
3つのIGFホワイトニングレベル(オフ==処理なし、中==トーンピークの減衰、強==ノイズ置換)もまた、ノイズ置換を含み、この場合、タイルのコンテンツは破棄され、無相関ノイズで置換されることに留意されたい。これらのモードは、たとえば、音声符号化器において決定され得る。言い換えれば、IGFにおけるホワイトニングレベル「強」は、技術的には、無相関ノイズによりソースタイルを置き換える。

さらに、一実施形態において、任意選択で、音声信号の特定の(たとえば、予め定められた)スペクトル成分のみ、たとえば、高帯域または高周波数帯域のみが説明されているように分析される。これは、たとえば、スペクトルのいくつかの部分のみが符号化決定の影響を受ける場合に、複雑度を下げるために有用であり得る。たとえば、これは、4.2kHzから8.4kHzの間の範囲を外れるスペクトルのどの部分も分析結果の影響を受けないので、IGFを使用することで説明されている例において有用である。

16. 結論
結論として、mp3などの初期の知覚的音声コーダ以降、符号化プロセスを制御する基礎となる心理音響モデルはあまり劇的な変化を受けていない。一方、現代的な音声コーダは、音声帯域幅拡大などのセミパラメトリックまたはパラメトリックコーディングツールを備えている。それによって、追加された量子化ノイズを考慮するだけで、知覚的コーダで使用される初期の心理音響モデルは、部分的に不適であることがわかった。

一般的に言えば、本発明による実施形態は、たとえば、音声信号の類似度の、たとえば音声符号化器における評価のために、1997年にDauらによって考案された既存のモデルに基づき改良された心理音響励起モデルの使用を提案するものである。この変調ベースのモデルは、内部聴覚表現を計算することで、正確な入力波形から本質的に独立している。われわれは、MPEG-H 3D Audioおよびそのセミパラメトリックインテリジェントギャップフィリング(IGF)ツールの例を使用して、IGFパラメータ選択プロセスをうまく制御して全体的に改善された知覚品質を達成できることを実証している。

しかしながら、本明細書において開示されている概念は、任意の特定の音声符号化器の使用、または帯域幅拡大概念に限定されないことに留意されたい。

17. さらなる備考
本明細書において、発明の異なる実施形態および態様は、たとえば、「提案された心理音響モデル」および「心理音響モデルによるIGF制御」の章で説明される。

しかしながら、他の任意の章において説明されている特徴、機能、および詳細は、任意選択で、本発明による実施形態にも導入され得る。

また、さらなる実施形態は、同封の請求項の範囲によって定義される。

請求項の範囲によって定義されているような任意の実施形態は、上述の章において説明されている詳細(特徴および機能)のいずれかによって補足され得ることに留意されたい。

また、上述の章において説明されている実施形態は、個別に使用することができ、また、別の章の特徴のうちのどれか、または請求項に含まれる任意の特徴によって補完され得る。

また、本明細書において説明されている個別の態様は、個別にまたは組み合わせて使用できることにも留意されたい。したがって、詳細は、前記個別の態様の各々に、前記態様のうちの他方の態様に詳細を追加することなく、追加することができる。

また、本開示は、音声符号化器(入力音声信号の符号化された表現を提供するための装置)において使用可能な特徴を明示的にまたは暗示的に説明していることにも留意されたい。したがって、本明細書において説明されている特徴はどれも、音声符号化器の文脈において使用することができる。

さらに、方法に関係する本明細書において開示されている特徴および機能は、装置(そのような機能を実行するように構成されている)においても使用することができる。さらに、装置に関して本明細書において開示されている任意の特徴および機能は、対応する方法においても使用することができる。言い換えると、本明細書において開示されている方法は、装置に関して説明されている特徴および機能のうちのどれによっても補完され得る。

また、本明細書において説明されている特徴および機能はどれも、「実装の代替的形態」の項で説明されるように、ハードウェアまたはソフトウェアで、またはハードウェアとソフトウェアの組合せを使用して実装され得る。

18. 実装の代替的形態
いくつかの態様が装置の文脈内で説明されているが、これらの態様は対応する方法の説明にもなっており、ブロックまたは装置は方法ステップまたは方法ステップの特徴に対応することは明らかである。それと同様に、方法ステップの文脈内において説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明ともなっている。方法ステップのうちのいくつかまたはすべては、たとえばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のような、ハードウェア装置によって(またはそれを使用することで)実行され得る。いくつかの実施形態において、最も重要な方法ステップのうちの1つまたは複数は、そのような装置によって実行され得る。

いくつかの実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装形態は、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムと連携する(または連携することができる)、電子的に読み取り可能な制御信号が記憶される、デジタル記憶媒体、たとえば、フロッピィディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、またはFLASH（登録商標）メモリを使用して実行され得る。したがって、デジタル記憶媒体は、コンピュータ可読であるものとしてよい。

本発明によるいくつかの実施形態は、本明細書で説明されている方法の内の1つが実行されるようなプログラム可能なコンピュータシステムと連携することができる、電子的に読み取り可能な制御信号を収めたデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実装することができ、プログラムコードはコンピュータプログラム製品がコンピュータ上で稼動するときに方法のうちの1つを実行するように動作可能である。プログラムコードは、たとえば、マシン可読キャリア上に記憶され得る。

他の実施形態は、機械可読媒体上に記憶されている、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを含む。

したがって、言い換えると、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で稼動しているときに、本明細書で説明されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムが記録されるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、また記録媒体は、典型的には、有形であり、および/または非一時的なものである。

したがって、発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、データ通信ネットワーク、たとえばインターネットを介して、転送されるように構成され得る。

さらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するように構成されるか、または適合される処理手段、たとえば、コンピュータ、またはプログラム可能な論理デバイスを含む。

さらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。

本発明によるさらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを受信器に(たとえば、電子的にまたは光学的に)転送するように構成されている装置またはシステムを含む。受信器は、たとえば、コンピュータ、モバイルデバイス、メモリデバイス、または同様のものであってよい。装置またはシステムは、たとえば、コンピュータプログラムを受信器に転送するためのファイルサーバを含み得る。

いくつかの実施形態において、プログラム可能な論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)は、本明細書で説明されている方法の機能のうちのいくつかまたはすべてを実行するために使用されてよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書で説明されている方法のうちの1つを実行するためにマイクロプロセッサと連携し得る。一般的に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書で説明されている装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実装され得る。

本明細書で説明されている装置、または本明細書で説明されている装置の任意のコンポーネントは、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装され得る。

本明細書で説明されている方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実行され得る。

本明細書で説明されている方法、または本明細書で説明されている装置の任意のコンポーネントは、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行され得る。

本明細書において説明されている実施形態は、単に、本発明の原理について例示しているだけである。本明細書で説明されている配置構成および詳細の修正および変更は、当業者には明らかであることは理解される。したがって、次に示す特許請求項の範囲によってのみ制限され、本明細書の実施形態の記述および説明を用いて提示されている具体的詳細によって制限されないことが意図されている。

(参考文献)
[1] Herre, J. and Disch, S., Perceptual Audio Coding, pp. 757-799, Academic press, Elsevier Ltd., 2013.

[2] Schuller, G. and Harma, A., “Low delay audio compression using predictive coding,” in 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pp. 1853-1856, 2002.

[3] Dietz, M., Liljeryd, L., Kjorling, K., and Kunz, O., “Spectral Band Replication, a Novel Approach in Audio Coding,” in Audio Engineering Society Convention 112, 2002.

[4] Herre, J. and Dietz, M., “MPEG-4 high-efficiency AAC coding [Standards in a Nutshell],” Signal Processing Magazine, IEEE, (Vol. 25, 2008), pp. 137-142, 2008.

[5] Disch, S., Niedermeier, A., Helmrich, C. R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F.,
Nagel, F., and Edler, B., “Intelligent Gap Filling in Perceptual Transform Coding of Audio,” in Audio Engineering Society Convention 141, 2016.

[6] ISO/IEC (MPEG-H) 23008-3, “High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio,” 2015.

[7] 3GPP, TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12), 2014.

[8] Laitinen, M.-V., Disch, S., and Pulkki, V., “Sensitivity of Human Hearing to Changes in Phase Spectrum,” J. Audio Eng. Soc (Journal of the AES), (Vol. 61, No. 11, 2013), pp. 860-877, 2013.

[9] Dau, T., Kollmeier, B., and Kohlrausch, A., “Modelling auditory processing of amplitude modulation. I. Detection and masking with narrow-band carriers,” J. Acoust. Soc. Am., 102, pp. 2892-2905, 1997.

[10] Dau, T., Modeling auditory processing of amplitude modulation, Ph.D. thesis, 1996.

[11] Dau, T., Puschel, D., and Kohlrausch, A., “A quantization model of the ’effective’ signal processing in the auditory system. I. Model structure,” J. Acoust. Soc. Am., 99, pp. 3615-3622, 1996.

[12] Ewert, S., Verhey, J., and Dau, T., “Spectro-temporal processing in the envelope-frequency domain,” J. Acoust. Soc. Am., (112), pp. 2921-2931, 2003.

[13] Glasberg, B. and Moore, B., “Derivation of auditory filter shapes from notched-noise data,” Hearing Research, (47), pp. 103-138, 1990.

[14] https://commons.wikimedia.org/wiki/File:Cochlea crosssection.svg, July 2018.

[15] Kohlrausch, A., Fassel, R., and Dau, T., “The influence of carrier level and frequency on modulation and beat detection thresholds for sinusoidal carriers,” J. Acoust. Soc. Am., 108, pp. 723-734, 2000.

[16] Vafin, R., Heusdens, R., van de Par, S., and Kleijn, W., “Improving modeling of audio signals by modifying
transient locations,” in Proceedings of the IEEE Workshop on Applications of Signal Processing to Audio and
Acoustics, pp. 143-146, 2001.

[17] van de Par, S., Koppens, J., Oomen,W., and Kohlrausch, A., “A new perceptual model for audio coding based on spectro-temporal masking,” in 124th AES Convention, 2008.

[18] Hall, J., Haggard, M., and Fernandes, M., “Detection in noise by spectro-temporal pattern analysis,” J. Acoust. Soc. Am., (76), pp. 50-56, 1984.

[19] van de Par, S. and Kohlrausch, A., “Comparison of monaural (CMR) and binaural (BMLD) masking release,” J. Acoust. Soc. Am., 103, pp. 1573-1579, 1998.

[20] Hanna, T., “Discrimination of reproducible noise as a function of bandwidth and duration,” Percept. Psychophys., 36, pp. 409-416, 1984.

[21] Herre, J., Hilpert, J., Kuntz, A., and Plogsties, J., “MPEG-H Audio - The New Standard for UniversalSpatial / 3D Audio Coding,” 137th AES Convention, 2014.

[22] Schmidt, K. and Neukam, C., “Low complexity tonality control in the Intelligent Gap Filling tool,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 644-648, 2016.

[23] Helmrich, C., Niedermeier, A., Disch, S., and Ghido, F., “Spectral Envelope Reconstruction via IGF for Audio Transform Coding,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015.

[24] ITU-R, Recommendation BS.1534-1 Method for subjective assessment of intermediate sound quality(MUSHRA), Geneva, 2003.

100 音声類似度評価器
110 入力音声信号
112 類似度情報
120 包絡線信号決定部(または包絡線信号決定器)
122a、122b、122c 包絡線信号
160 変調情報決定部(または変調情報決定器)
162a～162c 変調情報
180 比較部または比較器
182a～182c 基準変調情報
200 音声類似度評価器
210 入力音声信号
212 類似度情報
220 包絡線信号決定部
222a、222b、222d、222e 包絡線信号
230 フィルタリング部
232a～232e フィルタリングされた(好ましくはバンドパスフィルタリングされた)信号
236 整流部
238 整流された信号
240 ローパスフィルタリング部
242 滑らかなローパス信号
250 適応部
254 適応利得制御部
255 スケーリングされたバージョン
256 任意選択の制限
257 ローパスフィルタリング
258 利得制御情報
259 出力信号
260 変調情報決定部
262a～262e 変調値のセット
264 フィルタリング
266a～266e 信号
270 DC除去
274 位相情報除去
276a～276e 信号
280 比較部
281 基準音声信号
281a 基準変調情報決定
282 基準変調情報
282a～282e 基準変調値のセット
283c 基準変調値
284 時間平滑化
284c 時間平滑化
288c 差分形成
289c 差分値
290c 時間平滑化
291 時間平滑化されたバージョン
291c 時間平滑化されたバージョン
292a～292e 重み付け
294a～294e 差分値
298 組合せ処理または評価処理部
299 共変調決定器
299a 共変調決定器
299c 共変調決定器
299d 変調情報
299e 共変調決定器
299f 変調情報
300 音声符号化器
310 入力音声信号
312 符号化された音声信号
320 符号化部(または符号化器、またはコア符号化器)
324、424 コーディングパラメータ
330 符号化パラメータ決定部
340 音声類似度評価器
342 類似度情報
350 符号化部
352 音声信号
360 復号部
362 復号バージョン
370 符号化パラメータ選択部
400 音声符号化器
420 符号化部
422 帯域幅拡大パラメータ提供部
424 コーディングパラメータ情報
430 コーディングパラメータ決定部
480 関連付け変更制限部
484 変調強度決定部
485 強さ
486 感度尺度決定部
487 感度尺度
488 関連付け変更ゲーティング
489 閾値比較部
500 音声符号化器
510 入力音声信号
512 符号化された音声信号
520 符号化部
524 コーディングパラメータ情報
530 ニューラルネット
532 訓練データ
600 音声類似度評価器
610 入力音声信号
612 類似度情報
620 包絡線信号決定部
622a～622c 包絡線信号
662a～662c 分析表現
680 比較部(または比較器)
682a～682c 基準分析表現
700 モデル
710 入力音声信号
720 基底膜フィルタリング部
732a～732e 出力信号
736 半波整流およびローパスフィルタリング部
750 適応部
760 変調フィルタバンク
766a～766e 変調信号
768 ノイズ付加部
780 「最適検出器」
1010 入力ビットストリーム
1020 デマルチプレクサおよびエントロピー復号器
1022 量子化されたMDCTスペクトル
1024 IGFサイド情報
1040 逆量子化器
1042 逆量子化されたスペクトル値
1050 IGF復号器
1052 高帯域推定値
1210 入力信号
1220 符号化器
1224 MPEG-H復号器
1230 符号化され、再び復号された音声信号
1240 心理音響モデル
1250 決定ブロック
1252 決定データ
1260、1270 MPEG-H符号化器/復号器チェーン
1272 符号化され、復号されたバージョン

Claims

音声類似度評価器(100、200、340)であって、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a～122c、222a～222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a～162c、262a～262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a～182c、282a～282e)と比較するように構成される音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記包絡線信号(122a～122c、222a～222e)を取得するために、重なり合うフィルタ特性を有する複数のフィルタまたはフィルタリング動作(230)を適用するように構成される請求項1に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、フィルタまたは1つもしくは複数のフィルタリング動作(230)の出力信号(232a～232e)に整流(236)を適用して、複数の整流された信号(238)を取得するように構成されるか、または前記音声類似度評価器は、前記フィルタまたはフィルタリング動作(230)の出力信号(232a～232e)に基づきヒルベルト包絡線を取得するように構成されるか、または前記音声類似度評価器は、前記フィルタまたはフィルタリング動作(230)の前記出力信号(232a～232e)を復調するように構成される請求項1または請求項2に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記整流された信号(238)にローパスフィルタまたはローパスフィルタリング(240)を適用するように構成される請求項3に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記包絡線信号(222aから222e)を取得するために自動利得制御(250)を適用するか、または前記包絡線信号(222aから222e)を取得するために対数変換を適用するか、または前記包絡線信号(222aから222e)を取得するために順方向マスキングのモデリングを適用するように構成される請求項1から4のいずれか一項に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記入力音声信号に基づき複数のフィルタまたはフィルタリング動作(240)によって提供される、整流されローパスフィルタリングされた信号(242)に基づき前記包絡線信号(222aから222e)を導出するために適用される利得を変化させるように構成される請求項5に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、時変利得値(258)に依存して時変スケーリングを適用する、一連の2つまたはそれ以上の適応ループ(254、256、257)を使用して、入力音声信号(210)に基づき複数のフィルタまたはフィルタリング動作(230)によって供給される信号(232aから232e)の整流されローパスフィルタリングされたバージョン(242)を処理するように構成され、
前記音声類似度評価器は、異なる時定数を使用して、異なる前記時変利得値(258)を調整するように構成される請求項1から6のいずれか一項に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、異なる通過帯域を有する複数の変調フィルタ(264)を前記包絡線信号(222aから222e)に適用して、前記変調情報(262aから262e)を取得するように構成され、および/または前記音声類似度評価器は、ダウンサンプリングを前記包絡線信号(222aから222e)に適用して、前記変調情報(262aから262e)を取得するように構成される請求項1から7のいずれか一項に記載の音声類似度評価器(100、200、340)。
前記変調フィルタ(264)は、異なる周波数を有する前記包絡線信号(222a～222e)の成分を少なくとも部分的に分離するように構成され、最低周波数変調フィルタの中心周波数は5Hzより低く、最高周波数変調フィルタの中心周波数は200Hzから300Hzの範囲内にある請求項8に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記変調情報(262aから262e)を取得するときにDC成分を除去するように構成される請求項8または請求項9に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記変調情報(262aから262e)を取得するときに位相情報を除去するように構成される請求項8から10のいずれか一項に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記取得された変調情報(262aから262e)と、基準音声信号(310)に関連付けられている前記基準変調情報(282aから282e)との間の差分を表すスカラー値(112、212、342)を導出するように構成される請求項1から11のいずれか一項による音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記取得された変調情報(262aから262e)を基準音声信号に関連付けられている前記基準変調情報(282aから282e)と比較するために、差分表現(294aから294e)を決定するように構成される請求項1から12のいずれか一項に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、2つもしくはそれ以上の隣接する音響周波数範囲内の前記取得された包絡線信号(222a～222e)もしくは変調情報(262a～262e)の間の、または2つもしくはそれ以上の隣接する音響周波数範囲内の前記基準音声信号に関連付けられている包絡線信号の間のもしくは前記基準変調情報(282a～282e)の間の共変調に依存して、前記取得された変調情報(262a～262e)と基準音声信号に関連付けられている前記基準変調情報(282a～282e)との間の差分(289a～289e)の重み付けを調整するように構成される請求項1から13のいずれか一項に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記入力音声信号と前記基準音声信号との間の類似度に関する情報(212)を決定するときに、前記取得された変調情報(262a～262e)と基準音声信号に関連付けられている前記基準変調情報(282a～282e)との間の、前記入力音声信号(210)が追加の信号成分を含むことを示す差分(289a～289e)に対し、前記取得された変調情報(262a～262e)と基準音声信号に関連付けられている前記基準変調情報(282a～282e)との間の、入力音声信号が信号成分を欠いていることを示す差分(289a～289e)と比較して、より高い重み付けをするように構成される請求項1から14のいずれか一項に記載の音声類似度評価器(100、200、340)。
前記音声類似度評価器は、前記入力音声信号と前記基準音声信号との間の前記類似度に関する前記情報を決定するときに、前記取得された変調情報(262a～262e)と前記基準変調情報(282a～282e)との間の差分(289a～289e)の正の値と負の値とを、異なる重みを使用して重み付けするように構成される請求項1から15のいずれか一項による音声類似度評価器(100、200、340)。
音声信号(310、410)を符号化するための音声符号化器(300、400)であって、
前記音声符号化器は、符号化されるべき音声信号(310、410)と符号化されて復号された音声信号(362)との間の類似度の評価に依存して1つまたは複数のコーディングパラメータ(324、424)を決定するように構成され、
前記音声符号化器は、符号化されるべき前記音声信号(310、410)と前記符号化されて復号された音声信号(352)との間の前記類似度を評価するように構成された請求項1から16のいずれか一項による音声類似度評価器(100、200、340)を含む、音声符号化器(300、400)。
前記音声符号化器は、前記音声符号化器によって符号化された異なる周波数範囲の音声コンテンツ(1042)に基づき欠落している音声コンテンツ(1052)を導出するために音声復号器(1000)の側で使用されるべき処理ルールを定義する1つまたは複数の帯域幅拡大パラメータ(324、424)を符号化するように構成され、および/または
前記音声符号化器は、音声復号器の側で使用されるべき処理ルールを定義する1つまたは複数の音声復号器構成パラメータを符号化するように構成される請求項17に記載の音声符号化器(300、400)。
前記音声符号化器は、インテリジェントギャップフィリングをサポートするように構成され、
前記音声符号化器は、符号化されるべき前記音声信号(310、410)と前記符号化されて復号された音声信号(352)との間の前記類似度の評価を使用して前記インテリジェントギャップフィリングの1つまたは複数のパラメータ(324、424)を決定するように構成される請求項17または請求項18に記載の音声符号化器(300、400)。
前記音声符号化器は、符号化されるべき音声信号(310、410)と符号化されて復号された音声信号(362)との間の類似度の評価に依存して、帯域幅拡大のためのソース周波数範囲(sT[.])とターゲット周波数範囲(tile[.])との間の1つまたは複数の関連付け、および/または帯域幅拡大のための1つまたは複数の処理動作パラメータを選択するように構成される請求項17から19のいずれか一項に記載の音声符号化器(300、400)。
前記音声符号化器は、帯域幅拡大のためのソース周波数範囲とターゲット周波数範囲との間の1つまたは複数の関連付けを選択するように構成され、
前記音声符号化器は、古いターゲット周波数範囲または新しいターゲット周波数範囲における包絡線の変調の評価に依存してソース周波数範囲とターゲット周波数範囲との間の関連付けの変更を選択的に許可または禁止するように構成される請求項17から20のいずれか一項に記載の音声符号化器(300、400)。
前記音声符号化器は、前記符号化器のフレームレートに対応する変調周波数範囲内の目標周波数範囲内の包絡線の変調強度(485)を決定し、前記決定された変調強度に依存して感度尺度(487)を決定するように構成され、
前記音声符号化器は、前記感度尺度に依存してターゲット周波数範囲とソース周波数範囲との間の関連付けを変更することが許可または禁止されるかを決定するように構成される請求項21に記載の音声符号化器(300、400)。
音声信号を符号化するための音声符号化器(500)であって、
前記音声符号化器は、ニューラルネットワーク(524)を使用して、符号化されるべき音声信号(510)に依存して1つまたは複数のコーディングパラメータ(524)を決定するように構成され、
前記音声符号化器は、請求項1から16のいずれか一項に記載の音声類似度評価器(100、200)を備え、
前記ニューラルネットワークは、前記音声類似度評価器(100、200)を使用して訓練される音声符号化器(500)。
音声類似度評価器(600)であって、
前記音声類似度評価器は、入力音声信号(610)に基づき複数の周波数範囲に対する包絡線信号(622a～622c)を取得するように構成され、
前記音声類似度評価器は、前記入力音声信号と基準音声信号との間の類似度に関する情報(612)を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現(622a～622c)を前記基準音声信号に関連付けられている基準分析表現(682a～682c)と比較するように構成され、
前記音声類似度評価器は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連付けられている包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現(622a～622c)と前記基準分析表現(682a～682c)との間の差分の重み付けを調整するように構成される音声類似度評価器(600)。
音声信号間の類似度を評価するための方法であって、
前記方法は、入力音声信号に基づき複数の周波数範囲に対する包絡線信号を取得するステップを含み、
前記方法は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報を取得するステップを含み、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記方法は、前記入力音声信号と基準音声信号との間の類似度に関する情報を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報と比較するステップを含む方法。
音声信号を符号化するための方法であって、
前記方法は、符号化されるべき音声信号と符号化されて復号された音声信号との間の類似度の評価に依存して1つまたは複数のコーディングパラメータを決定するステップを含み、
前記方法は、請求項25に従って、前記符号化されるべき音声信号と前記符号化されて復号された音声信号との間の前記類似度を評価するステップを含む方法。
音声信号を符号化するための方法であって、
前記方法は、請求項25に記載の音声信号間の類似度を評価するための方法を使用してニューラルネットワークを訓練するステップを含み、
前記方法は、前記ニューラルネットワークを使用して、符号化されるべき音声信号に依存して1つまたは複数のコーディングパラメータを決定するステップを含む方法。
音声信号間の類似度を評価するための方法であって、
前記方法は、入力音声信号に基づき複数の周波数範囲に対する包絡線信号を取得するステップを含み、
前記方法は、前記入力音声信号と基準音声信号との間の類似度に関する情報を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現を前記基準音声信号に関連付けられている基準分析表現と比較するステップを含み、
前記方法は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連する包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現と前記基準分析表現との間の差分の重み付けを調整するステップを含む方法。
請求項25から28のいずれか一項に記載の前記方法を実行するためのコンピュータプログラムであって、前記コンピュータプログラムはコンピュータ上で実行されるコンピュータプログラム。
音声類似度評価器(100、200、340)であって、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a～122c、222a～222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a～162c、262a～262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a～182c、282a～282e)と比較するように構成され、
前記入力音声信号は、前記基準音声信号の劣化バージョンである、音声類似度評価器(100、200、340)。
音声類似度評価器(100、200、340)であって、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a～122c、222a～222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a～162c、262a～262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a～182c、282a～282e)と比較するように構成され、
前記入力音声信号は、符号化されるべき音声信号の符号化されて復号されたバージョンであり、
前記基準音声信号は、符号化されるべき前記音声信号である、音声類似度評価器(100、200、340)。
音声信号(310、410)を符号化するための音声符号化器(300、400)であって、
前記音声符号化器は、符号化されるべき音声信号(310、410)と符号化されて復号された音声信号(362)との間の類似度の評価に依存して1つまたは複数のコーディングパラメータ(324、424)を決定するように構成され、
前記音声符号化器は、符号化されるべき前記音声信号(310、410)と前記符号化されて復号された音声信号(352)との間の前記類似度を評価するように構成された音声類似度評価器(100、200、340)を含み、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a～122c、222a～222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a～162c、262a～262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a～182c、282a～282e)と比較するように構成される、音声符号化器(300、400)。
音声類似度評価器(600)であって、
前記音声類似度評価器は、入力音声信号(610)に基づき複数の周波数範囲に対する包絡線信号(622a～622c)を取得するように構成され、
前記音声類似度評価器は、前記入力音声信号と基準音声信号との間の類似度に関する情報(612)を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現(622a～622c)を前記基準音声信号に関連付けられている基準分析表現(682a～682c)と比較するように構成され、
前記音声類似度評価器は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連付けられている包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現(622a～622c)と前記基準分析表現(682a～682c)との間の差分の重み付けを調整するように構成され、
前記入力音声信号は、前記基準音声信号の劣化バージョンである、音声類似度評価器(600)。
音声類似度評価器(600)であって、
前記音声類似度評価器は、入力音声信号(610)に基づき複数の周波数範囲に対する包絡線信号(622a～622c)を取得するように構成され、
前記音声類似度評価器は、前記入力音声信号と基準音声信号との間の類似度に関する情報(612)を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現(622a～622c)を前記基準音声信号に関連付けられている基準分析表現(682a～682c)と比較するように構成され、
前記音声類似度評価器は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連付けられている包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現(622a～622c)と前記基準分析表現(682a～682c)との間の差分の重み付けを調整するように構成され、
前記入力音声信号は、符号化されるべき音声信号の符号化されて復号されたバージョンであり、
前記基準音声信号は、符号化されるべき前記音声信号である、音声類似度評価器(600)。