JP6558748B2

JP6558748B2 - 音声／オーディオ信号処理方法および装置

Info

Publication number: JP6558748B2
Application number: JP2018140054A
Authority: JP
Inventors: ▲澤▼新 ▲劉▼; 磊苗
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-03-01
Filing date: 2018-07-26
Publication date: 2019-08-14
Anticipated expiration: 2033-03-01
Also published as: ES2741849T3; EP3193331B1; EP3193331A1; BR112014021407A2; JP2015512060A; WO2013127364A1; KR101702281B1; EP3534365A1; RU2014139605A; SG11201404954WA; CN103295578B; CA2865533C; US20180374488A1; US9691396B2; JP6378274B2; PT2821993T; US10559313B2; DK3534365T3; EP2821993B1; MX345604B

Description

本発明はデジタル信号処理技術の分野に関し、具体的には、音声/オーディオ信号処理方法および装置に関する。

デジタル通信の分野では、モバイル電話での通話、電話/ビデオ会議、ブロードキャストテレビ、およびマルチメディアエンターテイメントなどの広い範囲のアプリケーションで、音声、画像、オーディオ、およびビデオの送信が必要とされている。オーディオはデジタル化され、オーディオ通信ネットワークを使用して、ある端末から別の端末へと送信される。本明細書の端末は、モバイル電話、デジタル電話端末、または他の任意のタイプのオーディオ端末でよく、デジタル電話端末は、たとえばVOIP電話、ISDN電話、コンピュータ、またはケーブル通信電話である。記憶または送信中に音声/オーディオ信号によって占有されるリソースを減少させるために、送信側で音声/オーディオ信号が圧縮されて、次いで受信側に送信され、また受信側で音声/オーディオ信号が解凍処理によって復元されて再生される。

現在のマルチレート音声/オーディオ符号化では、異なるネットワーク状態のために、ネットワークがビットストリームを異なるビットレートで切り捨て、ビットストリームが符号器からネットワークに送信されて、切り捨てられたビットストリームが復号器で異なる帯域幅の音声/オーディオ信号に復号化される。その結果、出力された音声/オーディオ信号が異なる帯域幅間で切り替わる。

異なる帯域幅の信号間で突然切り替わることによって、人間の耳に明らかな聴覚不快感がもたらされる。さらに、時間-周波数変換または周波数-時間変換の間にフィルタの状態を更新することは、一般的に連続するフレーム間でパラメータの使用を必要とするので、帯域幅の切替え中に何らかの適切な処理が行われていない場合、これらの状態の更新中にエラーが発生することがあり、急激なエネルギー変化および聴覚品質の低下のいくつかの現象を引き起こす。

本発明の実施形態の目的は、音声/オーディオ信号の帯域幅切替え中の聴覚の快適さを改善するために、音声/オーディオ信号処理方法および装置を提供することである。

本発明の実施形態によれば、音声/オーディオ信号処理方法は、
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するステップと、
補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。

本発明の別の実施形態によれば、音声/オーディオ信号処理方法は、
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するステップと、
初期の高周波数信号の時間領域グローバルゲインパラメータを取得するステップと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するステップとを含む。

本発明の別の実施形態によれば、音声/オーディオ信号処理装置は、
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニットと、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するように構成されたパラメータ取得ユニットと、
補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。

本発明の別の実施形態によれば、音声/オーディオ信号処理装置は、
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニットと、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニットと、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニットと、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニットとを含む。

本発明の実施形態では、広い周波数帯域と狭い周波数帯域との間で切り替わる間、広い周波数帯域と狭い周波数帯域との間の高周波数信号のスムースな移行を実現できるようにするために高周波数信号が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムが同じ信号領域内にあるので、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。

本発明の実施形態、または従来技術における技術的ソリューションをより明確に説明するために、以下で、本実施形態または従来技術を説明するために必要な添付の図面を簡単に紹介する。以下の説明における添付の図面は、本発明のいくつかの実施形態を示すにすぎず、当業者は依然として創造的努力なしにこれらの図面から他の図面を取得することができることは明らかである。

本発明による音声/オーディオ信号処理方法の実施形態の概略的流れ図である。本発明による音声/オーディオ信号処理方法の別の実施形態の概略的流れ図である。本発明による音声/オーディオ信号処理方法の別の実施形態の概略的流れ図である。本発明による音声/オーディオ信号処理方法の別の実施形態の概略的流れ図である。本発明による音声/オーディオ信号処理装置の実施形態の概略的構造図である。本発明による音声/オーディオ信号処理装置の実施形態の概略的構造図である。本発明によるパラメータ取得ユニットの実施形態の概略的構造図である。本発明によるグローバルゲインパラメータ取得ユニットの実施形態の概略的構造図である。本発明による獲得ユニットの実施形態の概略的構造図である。本発明による音声/オーディオ信号処理装置の別の実施形態の概略的構造図である。

以下で、本発明の実施形態における添付の図面を参照して、本発明の実施形態における技術的ソリューションを明確かつ完全に説明する。説明される実施形態は、本発明の実施形態のすべてではなく、その一部にすぎないことは明らかである。本発明の実施形態に基づいて、創造的努力なしに当業者によって取得される他のすべての実施形態は、本発明の保護範囲に含まれるものとする。

デジタル信号処理の分野では、モバイル電話、無線装置、携帯情報端末(PDA)、ハンドヘルドまたはポータブルコンピュータ、GPS受信機/ナビゲータ、カメラ、オーディオ/ビデオプレイヤ、ビデオカメラ、ビデオ記録装置、およびモニタリングデバイスなどの様々な電子デバイスに、オーディオコーデックおよびビデオコーデックが広く適用されている。通常、このタイプの電子デバイスはオーディオ符号器またはオーディオ復号器を含み、オーディオ符号器または復号器は、たとえばDSP(デジタル信号プロセッサ)などのデジタル回路またはチップによって直接実装されてもよく、ソフトウェアコード内の処理を実行するためにプロセッサを駆動するソフトウェアコードによって実装されてもよい。

従来技術では、ネットワーク内で送信される音声/オーディオ信号の帯域幅が異なるので、音声/オーディオ信号の送信処理において音声/オーディオ信号の帯域幅が頻繁に変化して、狭い周波数音声/オーディオ信号から広い周波数音声/オーディオ信号への切替え、および広い周波数音声/オーディオ信号から狭い周波数音声/オーディオ信号への切替えの現象が起きる。高周波数帯域と低周波数帯域との間で音声/オーディオ信号を切り替えるそのような処理は、帯域幅切替えと呼ばれる。帯域幅切替えは、狭い周波数信号から広い周波数信号への切替えと、広い周波数信号から狭い周波数信号への切替えとを含む。本発明で言及される狭い周波数信号は、低い周波数成分だけを有する音声信号であり、高周波数成分はアップサンプリングおよびローパスフィルタリングの後は空であり、広い周波数音声/オーディオ信号は低周波数信号成分と高周波数信号成分の両方を有する。狭い周波数信号および広い周波数信号は関連性がある。たとえば、狭帯域信号にとって広帯域信号は広い周波数信号であり、広帯域信号にとって超広帯域信号は広い周波数信号である。一般的に、狭帯域信号はサンプリングレートが8キロヘルツの音声/オーディオ信号であり、広帯域信号はサンプリングレートが16キロヘルツの音声/オーディオ信号であり、超広帯域信号は、サンプリングレートが32キロヘルツの音声/オーディオ信号である。

切替え前の高周波数信号の符号化/復号化アルゴリズムが、異なる信号タイプによって時間領域符号化/復号化アルゴリズムと周波数領域符号化/復号化アルゴリズムとの間で選択される場合、または切替え前の高周波数信号の符号化アルゴリズムが時間領域符号化アルゴリズムである場合、切替えの間の出力信号の連続性を保証するために、切替えアルゴリズムは処理のために信号領域内で保持され、信号領域は切替え前の高周波数符号化/復号化アルゴリズムの信号領域と同じである。すなわち、切替え前に高周波数信号のために時間領域符号化/復号化アルゴリズムが使用される場合、使用されるべき切替えアルゴリズムとして時間領域切替えアルゴリズムが使用され、切替え前に高周波数信号のために周波数領域符号化/復号化アルゴリズムが使用される場合、使用されるべき切替えアルゴリズムとして周波数領域切替えアルゴリズムが使用される。従来技術では、切替え前に時間領域周波数帯域拡張アルゴリズムが使用され、切替え後は類似の時間領域切替え技術は使用されない。

音声/オーディオ符号化では、一般的に、フレームを単位として使用することによって処理が行われる。処理される必要がある現在の入力オーディオフレームは、音声/オーディオ信号の現在のフレームである。音声/オーディオ信号の現在のフレームは、狭い周波数信号および高周波数信号、すなわち、狭い周波数信号の現在のフレームおよび高周波数信号の現在のフレームを含む。高周波数信号の現在のフレームの前の音声/オーディオ信号の任意のフレームは、音声/オーディオ信号の過去のフレームであり、狭い周波数信号の過去のフレームおよび高周波数信号の過去のフレームも含む。音声/オーディオ信号の現在のフレームの前の音声/オーディオ信号のフレームは、音声/オーディオ信号の前のフレームである。

図1を参照すると、本発明の音声/オーディオ信号処理方法の実施形態は、以下を含む。

S101:音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得する。

音声/オーディオ信号の現在のフレームは、狭い周波数信号の現在のフレームおよび高周波数時間領域信号の現在のフレームを含む。帯域幅切替えは、狭い周波数信号から広い周波数信号への切替えと、広い周波数信号から狭い周波数信号への切替えとを含む。狭い周波数信号から広い周波数信号に切り替わる場合、音声/オーディオ信号の現在のフレームは広い周波数信号の現在のフレームであり、狭い周波数信号および高周波数信号を含み、音声/オーディオ信号の現在のフレームの初期の高周波数信号は実信号であり、音声/オーディオ信号の現在のフレームから直接取得され得る。広い周波数から狭い周波数に切り替わる場合、音声/オーディオ信号の現在のフレームは、高周波数時間領域信号の現在のフレームが空である狭い周波数信号の現在のフレームであり、音声/オーディオ信号の現在のフレームの初期の高周波数信号は予測された信号であり、狭い周波数信号の現在のフレームに対応する高周波数信号が予測されて、初期の高周波数信号として使用される必要がある。

S102:初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得する。

狭い周波数信号から広い周波数信号に切り替わる場合、高周波数信号の時間領域グローバルゲインパラメータは復号化によって取得され得る。広い周波数信号から狭い周波数信号に切り替わる場合、高周波数信号の時間領域グローバルゲインパラメータは信号の現在のフレームによって取得され得る。高周波数信号の時間領域グローバルゲインパラメータは、狭い周波数信号のスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって取得される。

S103:エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用して、エネルギー比が、音声/オーディオ信号の過去のフレームの高周波数時間領域信号のエネルギーと音声/オーディオ信号の現在のフレームの初期の高周波数信号のエネルギーとの間の比率である。

最終出力音声/オーディオ信号の過去のフレームが音声/オーディオ信号の過去のフレームとして使用され、初期の高周波数信号が音声/オーディオ信号の現在のフレームとして使用される。エネルギー比はRatio=Esyn(-1)/Esyn_tmpであり、上式でEsyn(-1)は過去のフレームの出力された高周波数時間領域信号synのエネルギーを表し、Esyn_tmpは、現在のフレームに対応する初期の高周波数時間領域信号synのエネルギーを表す。

予測されたグローバルゲインパラメータはgain=alfa*Ratio+beta*gain'であり、gain'は時間領域グローバルゲインパラメータであり、alfa+beta=1であり、alfaの値とbetaの値は異なる信号タイプによって異なる。

S104:補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正する。

補正は、信号が乗算されること、すなわち、初期の高周波数信号に予測されたグローバルゲインパラメータが乗算されることを指す。別の実施形態では、ステップS102で、初期の高周波数信号に対応する時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータが取得される。したがって、ステップS104で、補正された高周波数時間領域信号を取得するために、初期の高周波数信号が、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することよって補正される。すなわち、補正された高周波数時間領域信号を取得するために、予測された高周波数信号に時間領域エンベロープパラメータおよび予測された時間領域グローバルゲインパラメータが乗算される。

狭い周波数信号から広い周波数信号に切り替わる場合、高周波数信号の時間領域エンベロープパラメータは復号化によって取得され得る。広い周波数信号から狭い周波数信号に切り替わる場合、高周波数信号の時間領域エンベロープパラメータは、信号の現在のフレームによって取得され得る。一連のあらかじめ定められた値、または過去のフレームの高周波数時間領域エンベロープパラメータは、音声/オーディオ信号の現在のフレームの高周波数時間領域エンベロープパラメータとして使用され得る。

S105: 現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力する。

上述の実施形態では、広い周波数帯域と狭い周波数帯域との間で切り替わる間、広い周波数帯域と狭い周波数帯域との間の高周波数信号のスムースな移行を実現できるようにするために高周波数信号が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムが同じ信号領域内にあるので、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。

図2を参照すると、本発明の音声/オーディオ信号処理方法の別の実施形態は、以下を含む。

S201:広い周波数信号が狭い周波数信号に切り替わる時に、狭い周波数信号の現在のフレームに対応する予測された高周波数信号を予測する。

広い周波数信号が狭い周波数信号に切り替わる時、以前のフレームは広い周波数信号であり、現在のフレームは狭い周波数信号である。狭い周波数信号の現在のフレームに対応する予測された高周波数信号を予測するステップは、狭い周波数信号の現在のフレームによって音声/オーディオ信号の現在のフレームの高周波数信号の励磁信号を予測するステップと、音声/オーディオ信号の現在のフレームの高周波数信号のLPC(Linear Predictive Coding、線形予測符号化)係数を予測するステップと、予測された高周波数信号syn_tmpを取得するために、予測された高周波数励磁信号とLPC係数とを合成するステップとを含む。

ある実施形態では、ピッチ周期、代数コードブック、およびゲインなどのパラメータを狭い周波数信号から抽出することができ、再サンプリングおよびフィルタリングによって高周波数励磁信号が予測される。

別の実施形態では、高周波励磁信号を予測するために、アップサンプリング、ローパス、絶対値または平方の取得などの操作が、狭い周波数時間領域信号または狭い周波数時間領域励磁信号に対して実行され得る。

高周波数信号のLPC係数を予測するために、過去のフレームの高周波LPC係数、または一連のあらかじめ定められた値が現在のフレームのLPC係数として使用されてもよく、異なる信号タイプについて異なる予測方法が使用されてもよい。

S202:予測された高周波数信号に対応する、時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを取得する。

一連のあらかじめ定められた値が、現在のフレームの高周波数時間領域エンベロープパラメータとして使用され得る。一般的に、狭帯域信号はいくつかのタイプに分類することができ、一連の値がタイプごとにあらかじめ設定されてよく、あらかじめ設定された時間領域エンベロープパラメータのグループが狭帯域信号の現在のフレームのタイプによって選択されてよく、または時間領域エンベロープ値のグループが、たとえば時間領域エンベロープの数がMである時に設定されてよく、あらかじめ設定された値はM 0.3536sでよい。この実施形態では、時間領域エンベロープパラメータを取得するステップは任意であり、必要なステップではない。

高周波数信号の時間領域グローバルゲインパラメータが、狭い周波数信号のスペクトルチルトパラメータ、および現在のフレーム狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって取得され、ある実施形態では以下のステップを含む。

S2021:音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類して、ある実施形態では、第1のタイプの信号が摩擦信号であり、第2のタイプの信号が非摩擦信号であって、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号を摩擦信号として分類し、残りを非摩擦信号として分類する。

現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係を示すパラメータcorは、同じ周波数帯域の信号間のエネルギーの大小関係によって決定されてもよく、いくつかの同じ周波数帯域間のエネルギー関係によって決定されてもよく、時間領域信号間の自己相関または相互相関を示す、または時間領域励磁信号間の自己相関または相互相関を示す式によって計算されてもよい。

S2022:音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用する。すなわち、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1のあらかじめ定められた値以下の場合、スペクトルチルトパラメータの元の値がスペクトルチルトパラメータ制限値として保持され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1のあらかじめ定められた値を上回る場合、第1のあらかじめ定められた値がスペクトルチルトパラメータ制限値として使用される。

時間領域グローバルゲインパラメータgain'は、以下の式によって取得される。

上式で、tiltはスペクトルチルトパラメータであり、∂1は第1のあらかじめ定められた値である。

S2023:音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用する。すなわち、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータは第1の範囲に属し、スペクトルチルトパラメータの元の値がスペクトルチルトパラメータ制限値として保持され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1の範囲の上限を上回る場合、第1の範囲の上限がスペクトルチルトパラメータ制限値として使用され、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータが第1の範囲の下限を下回る場合、第1の範囲の下限がスペクトルチルトパラメータ制限値として使用される。

上式で、tiltはスペクトルチルトパラメータであり、[a,b]は第1の範囲である。

ある実施形態では、狭い周波数信号のスペクトルチルトパラメータtilt、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係を示すパラメータcorが取得され、信号の現在のフレームが、tiltおよびcorによって摩擦と非摩擦の2つのタイプに分類され、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦信号として分類され、残りが非摩擦信号であり、tiltが0.5<=tilt<=1.0の値の範囲内に制限されて、非摩擦の時間領域グローバルゲインパラメータとして使用され、tiltはtilt<=8.0の値の範囲に制限されて、摩擦の時間領域グローバルゲインパラメータとして使用される。摩擦にとって、スペクトルチルトパラメータは5を上回る任意の値でよく、非摩擦にとって、スペクトルチルトパラメータは5以下の任意の値でもよく、5を上回ってもよい。スペクトルチルトパラメータtiltが、推定された時間領域グローバルゲインパラメータとして使用され得ることを保証するために、tiltが値の範囲内に制限されて、次いで時間領域グローバルゲインパラメータとして使用される。すなわち、tilt>8の場合、tilt=8が摩擦の時間領域グローバルゲインパラメータとして使用されると決定され、tilt<0.5の場合、tilt=0.5であると決定され、またはtilt>1.0の場合、tilt=1.0であると決定され、0.5または1.0が非摩擦の時間領域グローバルゲインパラメータとして使用される。

S203:エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用して、エネルギー比が、音声/オーディオ信号の過去のフレームの高周波数時間領域信号のエネルギーと音声/オーディオ信号の現在のフレームの初期の高周波数信号のエネルギーとの間の比率である。

エネルギー比Ratio=Esyn(-1)/Esyn_tmpに計算が実行され、tiltの重み付けされた値およびRatioが、現在のフレームの予測されたグローバルゲインパラメータgainとして使用され、すなわちgain=alfa*Ratio+beta*gain'であり、gain'は時間領域グローバルゲインパラメータであり、alfa+beta=1であり、alfaの値とbetaの値は異なる信号タイプによって異なり、Esyn(-1)は過去のフレームの最終的に出力された高周波数時間領域信号synのエネルギーを表し、Esyn_tmpは、現在のフレームの予測された高周波数時間領域信号synのエネルギーを表す。

S204:補正された高周波数時間領域信号を取得するために、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することによって予測された高周波数信号を補正する。

補正された高周波数時間領域信号を取得するために、予測された高周波数信号に時間領域エンベロープパラメータおよび予測された時間領域グローバルゲインパラメータが乗算される。

この実施形態では、時間領域エンベロープパラメータは任意である。時間領域グローバルゲインパラメータだけが含まれる場合、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって予測された高周波数信号が補正される。すなわち、補正された高周波数時間領域信号を取得するために、予測された高周波数信号に予測されたグローバルゲインパラメータが乗算される。

S205:現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力する。

次のフレームの時間領域グローバルゲインパラメータを予測するために、高周波数時間領域信号synのエネルギーEsynが使用される。すなわち、Esynの値がEsyn(-1)に割り当てられる。

上述の実施形態では、広い周波数帯域と狭い周波数帯域との間の高周波数部分のスムースな移行を実現できるようにするために、広い周波数信号に続く狭い周波数信号の高周波数帯域が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切換えの間に対応する処理がフレームに実行されるので、パラメータおよびステータス更新の間に発生する問題が間接的に排除される。切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムを、同じ信号領域内に保持することによって、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。

図3を参照すると、本発明の音声/オーディオ信号処理方法の別の実施形態は、以下を含む。

S301:狭い周波数信号が広い周波数信号に切り替わる時に、高周波数信号の現在のフレームを取得する。

狭い周波数信号が広い周波数信号に切り替わる時、以前のフレームは狭い周波数信号であり、現在のフレームは広い周波数信号である。

S302:高周波数信号に対応する時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを取得する。

時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータは、高周波数信号の現在のフレームから直接取得することができる。時間領域エンベロープパラメータを取得するステップは任意のステップである。

S303:エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用して、エネルギー比が、音声/オーディオ信号の過去のフレームの高周波数時間領域信号のエネルギーと音声/オーディオ信号の現在のフレームの初期の高周波数信号のエネルギーとの間の比率である。

現在のフレームは広い周波数信号なので、高周波数信号のパラメータは復号化によってすべて取得することができる。切り替わる間のスムースな移行を保証するために、時間領域グローバルゲインパラメータが以下の方法で平滑化される。

エネルギー比Ratio=Esyn(-1)/Esyn_tmpに計算が実行され、Esyn(-1)は過去のフレームの最終的に出力された高周波数時間領域信号synのエネルギーを表し、Esyn_tmpは現在のフレームの高周波数時間領域信号synのエネルギーを表す。

復号化によって取得された時間領域グローバルゲインパラメータgainの重み付けされた値およびRatioが、現在のフレームの予測されたグローバルゲインパラメータgainとして使用され、すなわち、gain=alfa*Ratio+beta*gain'であり、上式でgain'は時間領域グローバルゲインパラメータであり、alfa+beta=1であり、alfaの値とbetaの値は異なる信号タイプによって異なる。

現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、ステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaが、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用され、alfaが0になるまで減衰がフレームごとに実行される。

連続するフレームの狭い周波数信号が同じ信号タイプである場合、または、連続するフレームの狭い周波数信号間の相互関係が条件を満たす場合、すなわち、連続するフレームが相互関係を有するか、連続するフレームの信号タイプが類似している場合、ステップサイズによって、alfaが0に減衰されるまでalfaがフレームごとに減衰され、連続するフレームの狭い周波数信号が相互関係を有しない場合、alfaは0に直接減衰され、すなわち、重み付けまたは補正を実行せずに現在の復号結果が保持される。

S304:補正された高周波数時間領域信号を取得するために、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することによって高周波数信号を補正する。

補正は、補正された高周波数時間領域信号を取得するために、高周波数信号に時間領域エンベロープパラメータおよび予測された時間領域グローバルゲインパラメータが乗算されることを指す。

この実施形態では、時間領域エンベロープパラメータは任意である。時間領域グローバルゲインパラメータだけが含まれる場合、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって高周波数信号が補正され得る。すなわち、補正された高周波数時間領域信号を取得するために、高周波数信号に予測されたグローバルゲインパラメータが乗算される。

S305: 現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力する。

上述の実施形態では、広い周波数帯域と狭い周波数帯域との間の高周波数部分のスムースな移行を実現できるようにするために、狭い周波数信号に続く広い周波数信号の高周波数帯域が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除して、さらに、切換えの間に対応する処理がフレームに実行されるので、パラメータおよびステータス更新の間に発生する問題が間接的に排除される。切替え前の高周波数信号の帯域幅切替えアルゴリズムおよび符号化/復号化アルゴリズムを、同じ信号領域内に保持することによって、余分な遅延が追加されずにアルゴリズムがシンプルであることを保証するだけでなく、出力信号の性能も保証する。

図4を参照すると、本発明の音声/オーディオ信号処理方法の別の実施形態は、以下を含む。

S401:音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得する。

広い周波数信号が狭い周波数信号に切り替わる時、以前のフレームは広い周波数信号であり、現在のフレームは狭い周波数信号である。狭い周波数信号の現在のフレームに対応する初期の高周波数信号を予測するステップは、狭い周波数信号の現在のフレームによって音声/オーディオ信号の現在のフレームの高周波数信号の励磁信号を予測するステップと、音声/オーディオ信号の現在のフレームの高周波数信号のLPC係数を予測するステップと、予測された高周波数信号syn_tmpを取得するために、予測された高周波数励磁信号とLPC係数とを合成するステップとを含む。

S402:音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得する。

ある実施形態では、以下のステップが含まれる。

S2021:音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類して、ある実施形態では、第1のタイプの信号が摩擦信号であり、第2のタイプの信号が非摩擦信号である。

ある実施形態では、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦信号として分類され、残りが非摩擦信号である。現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係を示すパラメータcorは、同じ周波数帯域の信号間のエネルギーの大小関係によって決定されてもよく、いくつかの同じ周波数帯域間のエネルギー関係によって決定されてもよく、時間領域信号間の自己相関または相互相関を示す、または時間領域励磁信号間の自己相関または相互相関を示す式によって計算されてもよい。

音声/オーディオ信号の現在のフレームが摩擦信号の場合、時間領域グローバルゲインパラメータgain'は、以下の式によって取得される。

音声/オーディオ信号の現在のフレームが非摩擦信号の場合、時間領域グローバルゲインパラメータgain'は、以下の式によって取得される。

ある実施形態では、狭い周波数信号のスペクトルチルトパラメータtilt、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係を示すパラメータcorが取得され、信号の現在のフレームが、tiltおよびcorによって摩擦と非摩擦の2つのタイプに分類され、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦信号として分類され、残りが非摩擦信号であり、tiltが0.5<=tilt<=1.0の値の範囲内に制限されて、非摩擦の時間領域グローバルゲインパラメータとして使用され、tiltはtilt<=8.0の値の範囲に制限されて、摩擦の時間領域グローバルゲインパラメータとして使用される。摩擦にとって、スペクトルチルトパラメータは5を上回る任意の値でよく、非摩擦にとって、スペクトルチルトパラメータは5以下の任意の値でもよく、5を上回ってもよい。スペクトルチルトパラメータtiltが、予測されたグローバルゲインパラメータとして使用され得ることを保証するために、tiltが値の範囲内に制限されて、次いで時間領域グローバルゲインパラメータとして使用される。すなわち、tilt>8の場合、tilt=8で、8が摩擦信号の時間領域グローバルゲインパラメータとして使用されると決定され、tilt<0.5の場合、tilt=0.5であると決定され、またはtilt>1.0の場合、tilt=1.0であると決定され、0.5または1.0が非摩擦信号の時間領域グローバルゲインパラメータとして使用される。

S403:補正された高周波数時間領域信号を取得するために、時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正する。

ある実施形態では、補正された高周波数時間領域信号を取得するために、初期の高周波数信号に時間領域グローバルゲインパラメータが乗算される。

別の実施形態では、ステップS403は、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するステップであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるステップと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップとを含むことができ、すなわち、補正された高周波数時間領域信号を取得するために、初期の高周波数信号に予測されたグローバルゲインパラメータが乗算される。

任意で、ステップS403の前に、本方法は、
初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するステップをさらに含むことができ、
予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップは、
時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するステップを含む。

S404: 現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力する。

上記の実施形態では、広い周波数帯域から狭い周波数帯域に切り替わる時に、スペクトルチルトパラメータおよびフレーム間の相互関係によって高周波数信号の時間領域グローバルゲインパラメータが取得される。高周波数信号のエネルギーをより良好に推定することができるようにするために、狭い周波数スペクトルチルトパラメータを使用することによって、狭い周波数信号と高周波数信号との間のエネルギー関係を正確に推定することができる。フレーム間の相互関係を使用することによって、狭い周波数フレーム間の相互関係を良好に使用して高周波数信号間のフレーム間の相互関係を推定することができる。このように、高周波数グローバルゲインを取得するために重み付けが実行されると、上記の実情報を良好に使用することができ、望ましくないノイズが導入されない。広い周波数帯域と狭い周波数帯域との間で高周波数部分のスムースな移行を実現できるようにするために、時間領域グローバルゲインパラメータを使用することによって高周波数信号が補正され、それによって、広い周波数帯域と狭い周波数帯域との間の切替えに起因する聴覚不快感を効率的に排除する。

上記の方法実施形態に関連して、本発明は音声/オーディオ信号処理装置をさらに提供する。本装置は、端末デバイス、ネットワークデバイス、または検査デバイスに配置されてよい。音声/オーディオ信号処理装置は、ハードウェア回路によって実装されてもよく、ハードウェアと組み合わされたソフトウェアによって実装されてもよい。たとえば、図5を参照すると、音声/オーディオ信号処理を実現するために、プロセッサが音声/オーディオ信号処理装置を呼び出す。音声/オーディオ信号処理装置は、上記の方法実施形態における方法および処理を実行することができる。

図6を参照すると、音声/オーディオ信号処理装置の実施形態は、
音声/オーディオ信号が帯域幅を切り替える時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された獲得ユニット601と、
初期の高周波数信号に対応する時間領域グローバルゲインパラメータを取得するように構成されたパラメータ取得ユニット602と、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニット603であって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるユニットと、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット604と、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニット605とを含む。

ある実施形態では、帯域幅切替えが広い周波数信号から狭い周波数信号への切替えであり、パラメータ取得ユニット602は、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニットを含む。

図7を参照すると、別の実施形態では、帯域幅切替えが広い周波数信号から狭い周波数信号への切替えであり、パラメータ取得ユニット602は、
音声/オーディオ信号の現在のフレームの高周波数時間領域エンベロープパラメータとして、一連のあらかじめ設定された値を使用するように構成された時間領域エンベロープ取得ユニット701と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって、高周波数信号の時間領域グローバルゲインパラメータを取得するように構成されたグローバルゲインパラメータ取得ユニット702とを含む。

したがって、補正ユニット604は、補正された高周波数時間領域信号を取得するために、時間領域エンベロープパラメータおよび予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。

さらに、図8を参照すると、グローバルゲインパラメータ取得ユニット702の実施形態は、
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。

さらに、ある実施形態では、第1のタイプの信号が摩擦信号であり、第2のタイプの信号が非摩擦信号であって、スペクトルチルトパラメータがtilt>5であり、相互関係パラメータcorが所与の値未満の場合、狭い周波数信号が摩擦信号として分類され、残りが非摩擦信号であり、第1のあらかじめ定められた値は8であり、第1のあらかじめ設定された範囲は[0.5,1]である。

図9を参照すると、ある実施形態では、獲得ユニット601は、
音声/オーディオ信号の現在のフレームによって高周波数信号の励磁信号を予測するように構成された励磁信号取得ユニット901と、
高周波数信号のLPC係数を予測するように構成されたLPC係数取得ユニット902と、
予測された高周波数信号を取得するために、高周波数信号の励磁信号と、高周波数信号のLPC係数とを合成するように構成された生成ユニット903とを含む。

ある実施形態では、帯域幅切替えが狭い周波数信号から広い周波数信号への切替えであり、音声/オーディオ信号処理装置は、
音声/オーディオ信号の現在のオーディオフレームの狭帯域信号と、音声/オーディオ信号の以前のフレームとがあらかじめ定められた相互関係を有する場合、ステップサイズによる減衰によって取得された値、音声/オーディオ信号の以前のフレームに対応するエネルギー比の重み付け係数alfaを、現在のオーディオフレームに対応するエネルギー比の重み付け係数として使用するように構成された重み付け係数設定ユニットをさらに含み、alfaが0になるまで減衰がフレームごとに実行される。

図10を参照すると音声/オーディオ信号処理装置の別の実施形態は、
音声/オーディオ信号が広い周波数信号から狭い周波数信号に切り替わる時に、音声/オーディオ信号の現在のフレームに対応する初期の高周波数信号を取得するように構成された予測ユニット1001と、
音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータによる高周波数信号の時間領域グローバルゲインパラメータと、現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係とを取得するように構成されたパラメータ取得ユニット1002と、
補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成された補正ユニット1003と、
現在のフレームの狭い周波数時間領域信号と補正された高周波数時間領域信号とを合成して、合成された信号を出力するように構成された合成ユニット1004とを含む。

図8を参照すると、パラメータ取得ユニット1002は、
音声/オーディオ信号の現在のフレームを、音声/オーディオ信号の現在のフレームのスペクトルチルトパラメータ、および現在のフレームの狭い周波数信号と過去のフレームの狭い周波数信号との間の相互関係によって第1のタイプの信号または第2のタイプの信号として分類するように構成された分類ユニット801と、
音声/オーディオ信号の現在のフレームが第1のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第1の制限ユニット802と、
音声/オーディオ信号の現在のフレームが第2のタイプの信号の場合、スペクトルチルトパラメータ制限値を取得するために、スペクトルチルトパラメータを第1の範囲内の値に制限して、高周波数信号の時間領域グローバルゲインパラメータとしてスペクトルチルトパラメータ制限値を使用するように構成された第2の制限ユニット803とを含む。

任意で、ある実施形態では、音声/オーディオ信号処理装置は、
エネルギー比および時間領域グローバルゲインパラメータに重み付け処理を行って、取得された重み付けされた値を予測されたグローバルゲインパラメータとして使用するように構成された重み付け処理ユニットであって、エネルギー比が、過去のフレームの高周波数時間領域信号のエネルギーと現在のフレームの初期の高周波数信号のエネルギーとの間の比率であるユニットをさらに含み、
補正ユニットは、補正された高周波数時間領域信号を取得するために、予測されたグローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。

別の実施形態では、パラメータ取得ユニットは、初期の高周波数信号に対応する時間領域エンベロープパラメータを取得するようにさらに構成され、補正ユニットは、時間領域エンベロープパラメータおよび時間領域グローバルゲインパラメータを使用することによって初期の高周波数信号を補正するように構成されている。

当業者は、本実施形態における方法の処理のすべてまたは一部は、関連するハードウェアに指示するコンピュータプログラムによって実現され得ることを理解できるだろう。プログラムは、コンピュータ可読記憶媒体に格納され得る。プログラムが実行されると、本実施形態における方法の処理が実行される。記憶媒体は、磁気ディスク、光ディスク、読出し専用メモリ(Read-Only Memory、ROM)、またはランダムアクセスモリ(Random Access Memory、RAM)を含み得る。

上記は、本発明を例示するための例示的実施形態にすぎず、本発明の範囲はそれに限定されない。従来技術の当業者には、本発明の趣旨および範囲から逸脱することなしに、修正または変形が容易に明らかである。

601 獲得ユニット
602 パラメータ取得ユニット
603 重み付け処理ユニット
604 補正ユニット
605 合成ユニット
701 時間領域エンベロープ取得ユニット
702 グローバルゲインパラメータ取得ユニット
801 分類ユニット
802 第1の制限ユニット
803 第2の制限ユニット
901 励磁信号取得ユニット
902 LPC係数取得ユニット
903 生成ユニット
1001 予測ユニット
1002 パラメータ取得ユニット
1003 補正ユニット
1004 合成ユニット

Claims

現在のフレームの信号が狭い周波数信号であり、前記現在のフレームの以前のフレームの信号が広い周波数信号である場合、音声/オーディオ信号の前記現在のフレームに対応する初期の高周波数時間領域信号を取得するステップと、
前記初期の高周波数時間領域信号の時間領域グローバルゲインパラメータを取得するステップと、
予測されたグローバルゲインパラメータとして重み付けされた値を取得するために、エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行うステップであって、前記エネルギー比が、前記以前のフレームの高周波数時間領域信号のエネルギーと前記現在のフレームの前記初期の高周波数時間領域信号のエネルギーとの間の比率である、ステップと、
補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数時間領域信号を補正するステップと、
前記現在のフレームの狭い周波数時間領域信号と前記補正された高周波数時間領域信号とによって合成された信号を合成するステップと
を備える、音声/オーディオ信号処理方法。
前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得する前記ステップが、
音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の相互関係によって、前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得するステップを備える、請求項1に記載の方法。
音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の相互関係によって、前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得する前記ステップが、
音声/オーディオ信号の前記現在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の前記相互関係によって、第1のタイプの信号または第2のタイプの信号として分類するステップと、
音声/オーディオ信号の前記現在のフレームが前記第1のタイプの信号の場合、制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するステップと、
音声/オーディオ信号の前記現在のフレームが前記第2のタイプの信号の場合、前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するステップと、
前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータとして前記制限されたスペクトルチルトパラメータ値を使用するステップと
を備える、請求項2に記載の方法。
前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを前記第1のあらかじめ定められた値以下に制限する前記ステップが、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値以下である場合、前記スペクトルチルトパラメータの値が前記制限されたスペクトルチルトパラメータ値として保持され、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値より大きい場合、前記第1のあらかじめ定められた値が前記制限されたスペクトルチルトパラメータ値として使用される、請求項3に記載の方法。
前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを前記第1の範囲内の値に制限する前記ステップが、
前記スペクトルチルトパラメータの値が前記第1の範囲に属する場合、前記スペクトルチルトパラメータの値が前記制限されたスペクトルチルトパラメータ値として保持され、
前記スペクトルチルトパラメータの値が前記第1の範囲の上限より大きい場合、前記第1の範囲の上限が前記制限されたスペクトルチルトパラメータ値として使用され、
前記スペクトルチルトパラメータの値が前記第1の範囲の下限より小さい場合、前記第1の範囲の下限が前記制限されたスペクトルチルトパラメータ値として使用される、請求項3に記載の方法。
前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号である、請求項3から5のいずれか1項に記載の方法。
前記第1のあらかじめ定められた値が8であり、前記第1の範囲が[0.5,1]である、請求項3から6のいずれか1項に記載の方法。
音声/オーディオ信号の前記現在のフレームに対応する前記初期の高周波数時間領域信号を取得する前記ステップが、
前記音声/オーディオ信号の前記現在のフレームによって高周波数励磁信号を予測するステップと、
線形予測符号化(LPC)係数を予測するステップと、
前記高周波数励磁信号と前記LPC係数とによって前記初期の高周波数時間領域信号を合成するステップと
を備える、請求項1から7のいずれか1項に記載の方法。
音声/オーディオ信号処理装置であって、
命令を記憶するメモリストレージと、
前記メモリストレージと通信している1つまたは複数のプロセッサと
を備え、
前記1つまたは複数のプロセッサが、
現在のフレームの信号が狭い周波数信号であり、前記現在のフレームの以前のフレームの信号が広い周波数信号である場合、音声/オーディオ信号の前記現在のフレームに対応する初期の高周波数時間領域信号を取得するステップであって、前記以前のフレームが前記現在のフレームに隣接している、ステップと、
前記初期の高周波数時間領域信号の時間領域グローバルゲインパラメータを取得するステップと、
予測されたグローバルゲインパラメータとして重み付けされた値を取得するために、エネルギー比および前記時間領域グローバルゲインパラメータに重み付け処理を行うステップであって、前記エネルギー比が、前記以前のフレームの高周波数時間領域信号のエネルギーと前記現在のフレームの前記初期の高周波数時間領域信号のエネルギーとの間の比率である、ステップと、
補正された高周波数時間領域信号を取得するために、前記予測されたグローバルゲインパラメータを使用することによって前記初期の高周波数時間領域信号を補正するステップと、
前記現在のフレームの狭い周波数時間領域信号と前記補正された高周波数時間領域信号とによって合成された信号を合成するステップと
を行うための前記命令を実行する、音声/オーディオ信号処理装置。
前記1つまたは複数のプロセッサが、
音声/オーディオ信号の前記現在のフレームのスペクトルチルトパラメータ、および前記現在のフレームの狭い周波数信号と前記以前のフレームの狭い周波数信号との間の相互関係によって、前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータを取得するステップを行うための前記命令を実行する、請求項9に記載の音声/オーディオ信号処理装置。
前記1つまたは複数のプロセッサが、
音声/オーディオ信号の前記現在のフレームを、音声/オーディオ信号の前記現在のフレームの前記スペクトルチルトパラメータ、および前記現在のフレームの前記狭い周波数信号と前記以前のフレームの前記狭い周波数信号との間の前記相互関係によって第1のタイプの信号または第2のタイプの信号として分類するステップと、
音声/オーディオ信号の前記現在のフレームが前記第1のタイプの信号の場合、制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1のあらかじめ定められた値以下に制限するステップと、
音声/オーディオ信号の前記現在のフレームが前記第2のタイプの信号の場合、前記制限されたスペクトルチルトパラメータ値を取得するために、前記スペクトルチルトパラメータを第1の範囲内の値に制限するステップと、
前記初期の高周波数時間領域信号の前記時間領域グローバルゲインパラメータとして前記制限されたスペクトルチルトパラメータ値を使用するステップと
を行うための前記命令を実行する、請求項10に記載の音声/オーディオ信号処理装置。
前記1つまたは複数のプロセッサが、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値以下である場合、前記スペクトルチルトパラメータの値を、前記制限されたスペクトルチルトパラメータ値として使用するステップと、
前記スペクトルチルトパラメータの値が前記第1のあらかじめ定められた値より大きい場合、前記第1のあらかじめ定められた値を、前記制限されたスペクトルチルトパラメータ値として使用するステップと
を行うための前記命令を実行する、請求項11に記載の音声/オーディオ信号処理装置。
前記1つまたは複数のプロセッサが、
前記スペクトルチルトパラメータの値が前記第1の範囲に属する場合、前記スペクトルチルトパラメータの値を、前記制限されたスペクトルチルトパラメータ値として使用するステップと、
前記スペクトルチルトパラメータの値が前記第1の範囲の上限より大きい場合、前記第1の範囲の上限を、前記制限されたスペクトルチルトパラメータ値として使用するステップと、
前記スペクトルチルトパラメータの値が前記第1の範囲の下限より小さい場合、前記第1の範囲の下限を、前記制限されたスペクトルチルトパラメータ値として使用するステップと
を行うための前記命令を実行する、請求項11に記載の音声/オーディオ信号処理装置。
前記第1のタイプの信号が摩擦信号であり、前記第2のタイプの信号が非摩擦信号である、請求項11から13のいずれか1項に記載の音声/オーディオ信号処理装置。
前記第1のあらかじめ定められた値が8であり、前記第1の範囲が[0.5,1]である、請求項11から14のいずれか1項に記載の音声/オーディオ信号処理装置。
前記1つまたは複数のプロセッサが、
前記音声/オーディオ信号の前記現在のフレームによって高周波数励磁信号を予測するステップと、
線形予測符号化(LPC)係数を予測するステップと、
前記高周波数励磁信号と前記LPC係数とによって前記初期の高周波数時間領域信号を合成するステップと
を行うための前記命令を実行する、請求項9から13のいずれか1項に記載の音声/オーディオ信号処理装置。
請求項1から8のいずれかに記載の方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。