本発明の諸実施形態では、音声符号化のオーバヘッドを削減するための音声符号化方法および関連装置を提供する。
当業者に本発明の技術的解決策をより良く理解させるように、以下では、本発明の当該実施形態における添付図面を参照して、本発明の当該実施形態における技術的解決策を明確かつ十分に説明する。明らかに、説明した実施形態は本発明の諸実施形態の全部ではなく一部にすぎない。当業者が創造的努力なしに本発明の諸実施形態に基づいて取得する他の全ての実施形態は本発明の保護範囲に入るものとする。
詳細を以下で別々に説明する。
本発明の明細書、特許請求の範囲、および添付図面では、「第1の」、「第2の」、「第3の」、「第4の」等の用語は異なるオブジェクトを区別するためのものであり、特定の順序を示すものではない。さらに、「含む」、「有する」という用語、およびその他の任意の変形は非包括的な包含をカバーしようとするものである。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、または装置は、列挙したステップまたはユニットに限定されず、列挙しないステップまたはユニットを任意選択でさらに含み、または、当該プロセス、当該方法、当該製品、または当該装置の別の固有なステップまたはユニットを任意選択でさらに含む。
以下では先ず、本発明の当該実施形態で提供する音声符号化方法を説明する。本発明の当該実施形態で提供する音声符号化方法を音声符号化器により実行してもよい。当該音声符号化器が、音声信号を収集、格納、または外部に送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
本発明の音声符号化方法の1実施形態では、当該音声符号化方法が、現在の音声フレームの基準線形予測効率を推定するステップと、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップと、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するステップを含んでもよい。
先ず、図1を参照すると、図1は、本発明の1実施形態に従う音声符号化方法の略流れ図である。図1に示すように、本発明の当該実施形態で提供する音声符号化方法が以下の内容を含んでもよい。
101.現在の音声フレームの基準線形予測効率を推定する。
実際の適用では、現在の音声フレームの基準線形予測効率を、複数の利用可能なアルゴリズムを用いて推定してもよい。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。説明の簡単さのため、線形予測効率の値範囲が0‐1(即ち、0‐100%)である例を以下で主に使用し、別の値範囲をこれから導出してもよい。
102.上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を決定する。
本発明の幾つかの実施形態では、音声フレームの音声符号化方式と基準線形予測効率との間の1組のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよく、または、異なる音声符号化方式が異なる基準線形予測効率間隔に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
103.上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って、音声符号化を上述の現在の音声フレームに実施する。
本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを最初に決定してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。即ち、ステップ101乃至ステップ103は、現在の音声フレームが会話音声フレームであるかどうかまたは非会話音声フレームであるかどうかに関らず実行される。
本実施形態の技術的解決策では、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは別の音声フレーム)の基準統合線形予測効率は当該音声フレームの基準長期線形予測効率および当該音声フレームの基準短期線形予測効率に基づいて取得される。例えば、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測(ACELP、Algebraic Code Excited Linear Prediction)符号化、変換符号化励起(TCX、Transform Coded Excitation)等を含んでもよく、線形予測に基づかない音声符号化方式が、汎用音声符号化(GAC、Generic Audio Coding)を含んでもよく、GACが、例えば、修正離散余弦変換(MDCT、Modified Discrete Cosine Transform)符号化または離散余弦変換(DCT、Discrete Cosine Transform)符号化を含んでもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式を決定するステップを含む。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ0‐30%GAC、30‐70%TCX、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式(例えば、GAC)であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔が線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式(例えば、TCX)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔70‐100%に入る(即ち、第1の線形予測効率間隔が線形予測効率間隔70‐100%である)場合、線形予測効率間隔70‐100%に対応する音声符号化方式(例えば、ACELP符号化)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式(例えば、GAC)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式(例えば、TCX)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定される。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔60‐100%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔60‐100%である)場合、線形予測効率間隔60‐100%に対応する音声符号化方式(例えば、ACELP符号化)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するステップを含む。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式(例えば、GAC)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式(例えば、TCX)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定される。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔80‐100%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔80‐100%である)場合、線形予測効率間隔80‐100%に対応する音声符号化方式(例えば、ACELP符号化)は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオをこれから導出してもよい。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が、0.2、0.5、0.6、0、8、0.9等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が、0.3、0.3、0.6、0.8、0.9等であってもよく、別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。例えば、線形予測に基づく音声符号化方式(例えば、TCXまたはACELP符号化)を好適に選択して音声フレームを符号化する場合、対応する閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、または第6の閾値)を比較的小さく設定してもよい。線形予測に基づかない音声符号化方式(例えば、GAC符号化)を好適に選択して音声フレームを符号化する場合、対応する閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、または第6の閾値)を比較的大きく設定してもよい、等である。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を、推定により以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより取得してもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより取得される。N1は正の整数であり(例えば、N1が1、2、3、または別の値に等しくてもよい)、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率を各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよく(例えば、上述のN11個の履歴音声フレームが音声フレームF1、F2、およびF3である場合、音声フレームF1の線形予測効率は音声フレームF1の以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、音声フレームF2の線形予測効率は音声フレームF2の以下の線形予測効率、即ち、音声フレームF3の長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、音声フレームF3の線形予測効率は、音声フレームF3の以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つである。音声フレームF1の統合線形予測効率を上述の音声フレームF1の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、音声フレームF2の統合線形予測効率を上述の音声フレームF2の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、音声フレームF3の統合線形予測効率を上述の音声フレームF3の長期線形予測効率および短期線形予測効率に基づいて取得してもよく、N11が別の値であるシナリオはこれから導出される)、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである(N11はN1以下である)。上述のN1個の履歴音声フレームが、上述の現在の音声フレームの任意のN1個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN1個の履歴音声フレームであってもよい。上述のN1個の履歴音声フレーム内の上述のN11個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN11個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が例えば、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより取得してもよい。N2は正の整数であり(例えば、N2が1、2、3、または別の値に等しくてもよい)、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである(N21はN2以下である)。上述のN2個の履歴音声フレームが、上述の現在の音声フレームの任意のN2個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN2個の履歴音声フレームであってもよい。上述のN2個の履歴音声フレーム内の上述のN21個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN21個の履歴音声フレームの線形予測効率と異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより取得してもよい。N3およびN4は正の整数であり(例えば、N3およびN4が1、2、3、または別の値に等しくてもよい)、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、N31はN3以下である。上述のN3個の履歴音声フレームが、上述の現在の音声フレームの任意のN3個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN3個の履歴音声フレームであってもよい。上述のN3個の履歴音声フレームにおける、上述のN31個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN31個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、N41はN4以下である。上述のN4個の履歴音声フレームが、上述の現在の音声フレームの任意のN4個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN4個の履歴音声フレームであってもよい。上述のN4個の履歴音声フレームにおける、上述のN41個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN41個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率は推定により、例えば、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより取得される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより取得してもよい。N5は正の整数であり(例えば、N5が1、2、3、または別の値に等しくてもよい)、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである(N51はN5以下である)。上述のN5個の履歴音声フレームが、上述の現在の音声フレームの任意のN5個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN5個の履歴音声フレームであってもよい。上述のN5個の履歴音声フレーム内の上述のN51個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN51個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより取得してもよい。N6は正の整数であり(例えば、N6が1、2、3、または別の値に等しくてもよい)、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである(N61はN6以下である)。上述のN6個の履歴音声フレームが、上述の現在の音声フレームの任意のN6個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN6個の履歴音声フレームであってもよい。上述のN6個の履歴音声フレームにおける、上述のN61個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN61個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより取得してもよい。N7およびN8は正の整数であり(例えば、N7およびN8が1、2、3、または別の値に等しくてもよい)、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットである(N71はN7以下である)。上述のN7個の履歴音声フレームが、上述の現在の音声フレームの任意のN7個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN7個の履歴音声フレームであってもよい。上述のN7個の履歴音声フレームにおける、上述のN71個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN71個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである(N81はN8以下である)。上述のN8個の履歴音声フレームが、上述の現在の音声フレームの任意のN8個の履歴音声フレームであってもよく、または、時間領域における上述の現在の音声フレームに隣接するN8個の履歴音声フレームであってもよい。上述のN8個の履歴音声フレームにおける、上述のN81個の履歴音声フレームを除く残りの履歴音声フレームの線形予測効率が上述のN81個の履歴音声フレームの線形予測効率とは異なる別のタイプの線形予測効率であってもよく、ここでは詳細をさらに提供することはしない。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得するステップが、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップを含んでもよい。
本発明の幾つかの実施形態では、例えば、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップを含む。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得するステップが、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップを含んでもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するステップを含んでもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、上述の相関が時間領域歪みおよび/または周波数領域歪みであってもよい(当該周波数領域歪みをまた、スペクトル歪みと称してもよい)。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。
一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起と固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第1の履歴線形予測励起が別のタイプのコードブック励起であってもよい。
本発明の当該実施形態では、音声フレームの履歴音声フレーム(例えば、時間領域内の現在の音声フレームまたは現在の音声フレームに先行するかもしくは続く音声フレーム)は、同一の音声ストリーム内の時間領域における当該音声フレームに先行する音声フレームを指すことは理解されうる。履歴音声フレームが相対的な概念であることは理解できる。例えば、同一の音声ストリームに含まれる4つの音声フレームの時間領域シーケンスは音声フレームy1−>音声フレームy2−>音声フレームy3−>音声フレームy4であり、音声フレームy1、音声フレームy2、および音声フレームy3は音声フレームy4の履歴音声フレームであり、音声フレームy1および音声フレームy2は音声フレームy3の履歴音声フレームであり、音声フレームy1は音声フレームy2の履歴音声フレームであると仮定する。音声フレームy4は音声フレームy3の履歴音声フレームではなく、音声フレームy4は音声フレームy2または音声フレームy1の履歴音声フレームではなく、別のシナリオをこれから導出してもよいことは理解されうる。
本発明の当該実施形態における上述の技術的態様をより良く理解するのを支援するために、幾つかの特定の適用シナリオを以下で説明を行うための例として使用する。
先ず、図2を参照すると、図2は本発明の1実施形態に従う音声符号化方法の略流れ図である。図2に示すように、本発明の当該実施形態で提供する音声符号化方法が以下の内容を含んでもよい。
201.現在の音声フレームが会話音声フレームであるかどうかを判定する。
そうである場合、ステップ202が実行される。
そうでない場合、ステップ203が実行される。
202.会話符号化方式に基づいて音声符号化を上述の現在の音声フレームに実施する。
本発明の幾つかの実施形態では、現在の音声フレームが会話音声フレームである場合、音声符号化を、代数符号励起線形予測(ACELP、Algebraic Code Excited Linear Prediction)符号化に基づいて上述の現在の音声フレームに実施してもよい。例えば、現在の音声フレームが会話音声フレームである場合、現在の音声フレームを音声符号化のためにACELPサブ符号化器に入力してもよい。当該ACELPサブ符号化器はACELP符号化を使用するサブ符号化器である。
203.現在の音声フレームの基準線形予測効率を推定する。
現在の音声フレームの基準線形予測効率を、複数のアルゴリズムを用いて推定してもよい。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
204.上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を決定する。
本発明の幾つかの実施形態では、音声フレームの音声符号化方式と基準線形予測効率との間のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式が、変換符号化励起(TCX、Transform Coded Excitation)であってもよく、または、汎用音声符号化(GAC、Generic Audio Coding)であってもよく、GACが例えば、修正離散余弦変換(Modified Discrete Cosine Transform)符号化であってもよい。
205.上述の決定された音声符号化方式に従って、音声符号化を上述の現在の音声フレームに実施する。
当該実施形態の技術的解決策では、現在の音声フレームが会話音声フレームであるかどうかが先ず決定され、現在の音声フレームが会話音声フレームである場合、音声符号化が会話符号化方式に基づいて上述の現在の音声フレームに実施されるか、または、現在の音声フレームが非会話音声フレームである場合は、現在の音声フレームの基準線形予測効率が先ず推定され、当該推定された基準線形予測効率にマッチする音声符号化方式が上述の現在の音声フレームの推定された基準線形予測効率を用いて決定され、音声符号化が、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って上述の現在の音声フレームに実施されることは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含む。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式を決定するステップであって、上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である、ステップを含む。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ、0‐30%、30‐70%、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式を決定するステップを含む。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップが、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するステップ、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するステップを含んでもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するステップは、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式を決定するステップを含む。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより取得してもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率は以下の方式における推定、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより取得される。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、例えば、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより取得してもよい。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、上述の現在の音声フレームの基準長期線形予測効率を、推定により、例えば、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより取得してもよい。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率は推定により、例えば、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより取得される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより取得してもよい。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより取得してもよい。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、上述の現在の音声フレームの基準短期線形予測効率を、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより取得してもよい。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得するステップが、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップを含んでもよい。
本発明の幾つかの実施形態では、例えば、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得するステップは、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するステップを含む。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得するステップが、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップを含んでもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの時間領域信号を、分析フィルタA(Z)を用いることによりフィルタして、現在の音声フレームの線形予測残差Rを取得してもよい。フィルタA(Z)のフィルタ係数は現在の音声フレームの線形予測係数である。
詳細については、以下の式1を参照されたい
式1のS(i)は、現在の音声フレームのi番目の時間領域標本点の信号を示し、a(k)は現在の音声フレームのk番目の次数の線形予測係数を示し、Mはフィルタの次数の総数であり、Nは現在の音声フレームの時間領域長であり、R(i)は現在の音声フレームのi番目の時間領域標本点の線形予測残差を示す。
任意の音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測残差を上述の例の方式で取得してもよいことは理解されうる。
例えば、全ての音声フレームまたは幾つかの音声フレームの線形予測励起または線形予測残差をキャッシュしてもよく、その結果、当該線形予測励起または当該線形予測残差を、可能な次の音声フレームにおいて使用できる履歴線形予測励起または履歴線形予測残差として使用して、当該履歴線形予測励起または当該履歴線形予測残差と当該次の音声フレームの線形予測残差との間の相関を計算する。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するステップを含んでもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値である。
本発明の任意の実装方式では、周波数領域における相互相関の関数値が計算されると、時間周波数変換(例えば、離散フーリエ変換(DFT、Discrete Fourier Transform)または離散余弦変換(DCT、discrete Cosine Transform))を現在の音声フレームの線形予測残差に実施して、現在の音声フレームの線形予測残差の周波数領域信号を取得してもよく、時間周波数変換(例えば、DFTまたはDCT)を第1の履歴線形予測信号に実施して、第1の履歴線形予測信号の周波数領域信号を取得してもよい。以下は相関計算式を列挙する。当該式は式1で示される。
上述の式2のCは、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の時間領域における相互相関の関数値を示し、R(i)は、現在の音声フレームのi番目の時間領域標本点の線形予測残差を示し、E(i)は、第1の履歴線形予測信号のi番目の時間領域標本点の信号を示し、Nは、音声フレームの時間領域標本点の総量を示す。または、上述の式2のCは、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の周波数領域における相互相関の関数値を示し、R(i)は、現在の音声フレームの線形予測残差のi番目のスペクトル・エンベロープを示し、E(i)は、第1の履歴線形予測信号のi番目のスペクトル・エンベロープの信号を示し、Nは、音声フレームのスペクトル・エンベロープの総量を示す。確かに、別の相関計算方法は本発明では限定されない。
本発明における周波数領域相関を計算する別の実施形態において、ピッチ・ジッタをより良く克服するために、相互相関が計算される前にシフト処理を先ずR(i)またはE(i)の信号に実施してもよい。これは例えば式3で示される。
式2に基づいて、シフト処理がさらに上述の式3におけるE(i)に実施され、jはシフト量を示し、jが整数であってもよく、シフト処理をR(i)に実施する方式は、シフト処理をE(i)に実施する方式と同様である。
本発明の他の実施形態では、上述の相関が、例えば、時間領域歪みおよび/または周波数領域歪みであってもよい。
本発明の任意の実装方式では、周波数領域歪みが計算されているとき、時間周波数変換(例えば、DFTまたはDCT)を、現在の音声フレームの線形予測残差に実施して現在の音声フレームの線形予測残差の周波数領域信号を取得してもよく、時間周波数変換(例えば、DFTまたはDCT)を、第1の履歴線形予測信号に実施して、第1の履歴線形予測信号の周波数領域信号を取得してもよい。現在の音声フレームの線形予測残差の周波数領域信号と第1の履歴線形予測信号の周波数領域信号との間の歪みDが計算される。
より小さな歪みDは、より強い相関およびより高い長期線形予測効率を示す。以下は歪みDの計算式を列挙する。これを式4に示す。
式4のNは、音声フレームの時間領域標本点の総量を示してもよく、R(k)は、現在の音声フレームのk番目の時間領域標本点の線形予測残差を示し、E(k)は、第1の履歴線形予測信号のk番目の時間領域標本点の信号を示す。または、式4のNは、音声フレームのスペクトル・エンベロープの総量を示してもよく、R(k)は、現在の音声フレームの線形予測残差のk番目のスペクトル・エンベロープを示し、E(k)は、第1の履歴線形予測信号のk番目のスペクトル・エンベロープを示す。
以下は歪みDの2つの他の計算式を列挙する。これを式5または式6に示す。
式5および式6のNは、音声フレームの時間領域標本点の総量を示してもよく、R(k)は、現在の音声フレームのk番目の時間領域標本点の線形予測残差を示し、E(k)は、第1の履歴線形予測信号のk番目の時間領域標本点の信号を示す。または、式5および式6のNは、音声フレームのスペクトル・エンベロープの総量を示してもよく、R(k)は、現在の音声フレームの線形予測残差のk番目のスペクトル・エンベロープを示し、E(k)は、第1の履歴線形予測信号のk番目のスペクトル・エンベロープを示す。
式5および式6のGは利得因子を示し、最小の歪みDは、Gの正しい値を選択することによって取得することができる。式4では、利得因子GはE(k)に適用され、式5では、利得因子GはR(k)に適用される。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよい。K1およびK2は正の整数である。
以下はさらに歪みDの3つの計算式を列挙する。これを式7または式8または式9に示す。
式7乃至式9においてP(k)は重み付け係数のグループであり、P(k)が心理音響モデルを反映する知覚重み付け係数または他の重み付け係数のグループであってもよい。
式7乃至式9におけるN、R(k)、E(k)、およびGの意味は式5と同じである。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよい。
以下でさらに、上述の解決策を実装するための関連装置を提供する。
図3−aを参照すると、図3−aは本発明の別の実施形態に従う音声符号化器300の略構造図である。
時間領域音声信号を、フレームの単位で、本発明の当該実施形態で提供される音声符号化器300に入力してもよく、音声符号化器300により実施される符号化処理を受けた後、当該入力された音声フレームを比較的小さいビットストリームに圧縮してもよい。当該ビットストリームを記憶または送信に対して使用してもよく、当該元の時間領域音声フレームを、音声復号器を用いて復元してもよい。
本実施形態の音声符号化器300が、複数のサブ符号化器を含んでもよく、特に、少なくとも1つの線形予測ベースのサブ符号化器(説明の簡単さのため、線形予測ベースのサブ符号化器を以下の説明においてタイプAのサブ符号化器と称してもよい)と、線形予測に基づかないサブコードである少なくとも1つのサブ符号化器(説明の簡単さのため、線形予測に基づかないサブ符号化器を以下の説明ではタイプBの符号化器と称してもよい)を含んでもよい。
図3−aに示すように、音声符号化器300は、選択器301、タイプAのサブ符号化器302、タイプBのサブ符号化器303、および制御されたルータ304を含む。
選択器301は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化器を決定し、ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームを上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化器(例えば、Aタイプのサブ符号化器302またはBタイプのサブ符号化器303)に出力するように、制御されたルータ304を制御するように構成される。Aタイプのサブ符号化器302またはBタイプのサブ符号化器303は、音声符号化を当該入力された現在の音声フレームに実施し、符号化された音声信号を出力するように構成される。例えば、Aタイプのサブ符号化器302がTCX符号化器であってもよく、Bタイプのサブ符号化器302が、GAC符号化器であってもよく、例えば、Bタイプのサブ符号化器302がMDCT符号化器であってもよい。
本発明の幾つかの実施形態では、図3−bに示すように、図3−aに示すアーキテクチャを有する音声符号化器300に基づいて、分類器305およびサブ符号化器306をさらに追加してもよい。
分類器305は、現在の音声フレームが会話音声フレームであるかどうかを判定し、当該音声フレームが会話音声フレームである場合、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをサブ符号化器306に出力するように、制御されたルータ304を制御するように構成される。符号化器306は会話音声フレームの符号化に適したサブ符号化器であり、例えば、サブ符号化器306はACELP符号化器である。符号化器306は、音声符号化を当該入力された現在の音声フレームに実施し、当該符号化された音声信号を出力するように構成される。
本発明の幾つかの実施形態では、図3−cに示すように、選択器301が、判定ユニット3013、第1の推定ユニット3011、および第2の推定ユニット3022を備えてもよい。音声フレームの基準線形予測効率は、当該音声フレームの基準長期線形予測効率および基準短期線形予測効率を含む。
第1の推定ユニット3011は、現在の音声フレームの基準長期線形予測効率を推定するように構成される。
第2の推定ユニット3012は、現在の音声フレームの基準短期線形予測効率を推定するように構成される。
判定ユニット3013は、第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ、/または、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器303に出力するように、制御されたルータ304を制御するか、または第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器302に出力するように、制御されたルータ304を制御するように構成される。
本発明の幾つかの実施形態では、図3−dと図3−eに示すように、選択器301は第1の推定ユニット3011を備えないか、または、第2の推定ユニット3012を備えない。
図3−dに示すアーキテクチャでは、判定ユニット3013が、第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器303に出力するように、制御されたルータ304を制御するか、または、第1の推定ユニット3011により推定された上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器302に出力するように、制御されたルータ304を制御するように構成されてもよい。
図3−eに示すアーキテクチャでは、判定ユニット3013が、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器303に出力するように、制御されたルータ304を制御するか、または、第2の推定ユニット3012により推定された上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定し、当該ルーティング制御信号を制御されたルータ304に送信して、制御されたルータ304に入力された現在の音声フレームをBタイプのサブ符号化器302に出力するように、制御されたルータ304を制御するように構成されてもよい。
本発明の幾つかの実施形態では、図3−fに示すように、図3−cに示すアーキテクチャを有する音声符号化器300に基づいて、音声符号化器300がさらに、現在の音声フレームの線形予測残差を取得するように構成されたプリプロセッサ3014を備えてもよい。プリプロセッサ3014が特に、分析フィルタA(Z)を用いて現在の音声フレームの時間領域信号をフィルタして、現在の音声フレームの線形予測残差Rを取得するように構成されてもよい。フィルタA(Z)のフィルタ係数は現在の音声フレームの線形予測係数である。
第1の推定ユニット3011は特に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得し、当該相関と現在の音声フレームの長期線形予測効率との間のマッピング関係に基づいて、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を取得するように構成される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。
本発明の幾つかの実施形態では、図3−gに示すように、図3−fに示すアーキテクチャを有する音声符号化器300に基づいて、音声符号化器300がさらにキャッシュ308を備えてもよい。キャッシュ308が、全ての音声フレームまたは幾つかの音声フレームの線形予測励起または線形予測残差をキャッシュしてもよく、その結果、当該線形予測励起または当該線形予測残差を、可能な次の音声フレームにおいて使用できる履歴線形予測励起または履歴線形予測残差として使用して、当該履歴線形予測励起または当該履歴線形予測残差と当該次の音声フレームの線形予測残差との間の相関を計算する。第1の推定ユニット3011が第1の履歴線形予測信号をキャッシュ308から取得してもよい。
本発明の幾つかの実施形態では、図3−hに示すように、キャッシュ308によりキャッシュされた履歴線形予測励起または履歴線形予測残差がローカル音声復号器311からのものであってもよい。ローカル音声復号器311が、Aタイプのサブ符号化器302およびBタイプのサブ符号化器303による符号化によって取得された後に出力された符号化された音声フレームに復号化処理を実施し、復号化された音声フレームを出力してもよく、線形予測器312が、ローカル音声復号器311により出力された時間領域音声フレームに線形予測を実施して、当該音声フレームの線形予測残差または線形予測励起を取得してもよい。
本発明の幾つかの実施形態では、図3−iに示すように、キャッシュ308によりキャッシュされた履歴線形予測励起がまた、Aタイプのサブ符号化器302からのものであってもよい。Aタイプのサブ符号化器302は当該音声フレームを符号化するプロセスにおいて音声フレームの線形予測励起を取得し、Aタイプのサブ符号化器302は、当該音声フレームの当該取得された線形予測励起をキャッシュのためにキャッシュ308に出力してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの長期線形予測効率を推定するために第1の推定ユニット3011により使用される当該第1の履歴線形予測励起または上述の第1の履歴線形予測残差を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた他の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた少なくとも1つの他の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた別の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、キャッシュ308によりキャッシュされた少なくとも1つの他の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関以上である。
音声符号化器300が、音声信号を収集、格納、または外部に送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
図4を参照すると、図4は本発明の別の実施形態に従う音声符号化器400の略構造図である。音声符号化器400が、推定ユニット410、決定ユニット420、および符号化ユニット430を備えてもよい。
推定ユニット410は、現在の音声フレームの基準線形予測効率を推定するように構成される。
決定ユニット420は、推定ユニット410により推定された上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定するように構成される。
符号化ユニット430は、上述の現在の音声フレームの基準線形予測効率にマッチする、決定ユニット420により決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
例えば、現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
本発明の幾つかの実施形態では、当該推定ユニットが特に、現在の音声フレームが非会話音声フレームであるとき上述の現在の音声フレームの基準線形予測効率を推定するように構成されてもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは別の音声フレーム)の基準統合線形予測効率は当該音声フレームの基準長期線形予測効率および当該音声フレームの基準短期線形予測効率に基づいて取得される。上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、決定ユニット420により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。
以下では例を用いて幾つかの可能な実施形態の方式を示す。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式を決定するように構成される。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式を決定するように構成される。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、決定ユニット420は特に、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式を決定するように構成される。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式がACELP符号化、TCX等を含んでもよく、非線形予測に基づく音声符号化方式がGACを含んでもよく、当該GACが、例えば、MDCT符号化またはDCT符号化を含んでもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が0.2、0.5、0.6、0、8等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が0.3、0.3、0.6、0.8等であってもよく別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよいことは理解されうる。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に、異なる方式で推定ユニット410により推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
本発明の幾つかの実施形態では、現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、現在の音声フレームの長期線形予測効率を推定するように構成される。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得し、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するように構成される。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得し、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するように構成される。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
本発明の他の実施形態では、上述の現在の音声フレームの基準長期線形予測効率を推定する態様において、推定ユニット410は特に、推定により現在の音声フレームの長期線形予測効率を取得し、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得し、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得し、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するように構成される。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、現在の音声フレームの短期線形予測効率を推定するように構成されてもよい。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得し、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するように構成されてもよい。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得し、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するように構成されてもよい。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により、推定ユニット410により得られた第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の他の実施形態では、上述の現在の音声フレームの基準短期線形予測効率を推定する態様において、上述の推定ユニット410が特に、推定により現在の音声フレームの短期線形予測効率を取得し、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得し、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得し、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するように構成されてもよい。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの短期線形予測効率を取得する態様において、推定ユニット410は特に、現在の音声フレームの短期線形予測効率を現在の音声フレームの線形予測残差に基づいて取得するように構成される。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、推定ユニット410が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述のエネルギ変化率は上述の現在の音声フレームの短期線形予測効率であり、または、上述の現在の音声フレームの短期線形予測効率は上述のエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率は、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率である。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、上述の推定ユニット410が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の計算に従って取得するように構成されてもよい。上述の相関は上述の現在の音声フレームの長期線形予測効率であるか、または、上述の現在の音声フレームの長期線形予測効率は上述の相関に基づいて取得され、上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って様々な方式で推定ユニット410により取得してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を、現在の音声フレームの線形予測残差および第1の履歴線形予測信号の計算に従って取得する態様において、上述の推定ユニット410が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するか、または、現在の音声フレームの線形予測残差に利得因子を乗じて、上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するように構成されてもよく、上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関であるか、
または、
第1の履歴線形予測信号に利得因子を乗じて、増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号の間の相関を計算により取得するように構成されてもよく、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関が時間領域歪みおよび/または周波数領域歪みであってもよい。本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起は、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起である。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差は上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得される。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差は上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得される。上述の現在の音声フレームの線形予測係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起は適応コードブック励起および固定コードブック励起の重合せ励起であるか、または、上述の第1の履歴線形予測励起は適応コードブック励起である。
本実施形態における音声符号化器400の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装されてもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器400が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
この装置の実施形態に含まれる閾値の値(例えば、第1の閾値および第2の閾値)およびその他のパラメータ(例えば、N1、N11、N21、およびN2)の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。
本実施形態の技術的解決策では、音声符号化器400が先ず現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
図5を参照すると、図5は、本発明の別の実施形態に従う会話音声ビットストリームを復号するための符号化器の構造を説明する。当該符号化器は、少なくとも1つのバス501、バス501に接続された少なくとも1つのプロセッサ502、およびバス501に接続された少なくとも1つのメモリ503を備える。
バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
本発明の幾つかの実施形態では、音声フレームの音声符号化方式と基準線形予測効率との間の1組のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよく、または、異なる音声符号化方式が異なる基準線形予測効率間隔に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率を推定する前に、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502をさらに、現在の音声フレームが会話音声フレームであるかどうかを先ず判定するように構成してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、プロセッサ502により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式を決定するように構成される。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ、0‐30%、30‐70%、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第2の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であると仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成される。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成される。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成される。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測(ACELP)符号化、変換符号化励起(TCX)等を含んでもよく、非線形予測に基づく音声符号化方式が汎用音声符号化(GAC)を含んでもよく、GACが、例えば、修正離散余弦変換(MDCT)符号化または離散余弦変換(DCT)符号化を含んでもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が0.2、0.5、0.6、0、8等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が0.3、0.3、0.6、0.8等であってもよく別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成される。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502は特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成される。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502が特に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するように構成されてもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得する態様において、バス501を用いて、メモリ503に格納されたコードを起動することによって、プロセッサ502が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するように構成されてもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は、上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、上述の相関が時間領域歪みおよび/または周波数領域歪みであってもよい(当該周波数領域歪みをまた、スペクトル歪みと称してもよい)。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。
一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第1の履歴線形予測励起が別のタイプのコードブック励起であってもよい。
本実施形態における音声符号化器500の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器500が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置であってもよく、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
この装置の実施形態に含まれる閾値(例えば、第1の閾値および第2の閾値)およびその他のパラメータ(例えば、N1、N11、N21、およびN2)の値の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。
本実施形態の技術的解決策では、音声符号化器500は先ず、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
図6を参照すると、図6は、本発明の別の実施形態に従う音声符号化器600の構造ブロック図である。音声符号化器600が、少なくとも1つのプロセッサ601、少なくとも1つのネットワーク・インタフェース604または別のユーザ・インタフェース603、メモリ605、および少なくとも1つの通信バス602を備えてもよい。通信バス602は、これらのコンポーネントの間の接続および通信を実装するように構成される。音声符号化器600は任意選択でユーザ・インタフェース603を備える。ユーザ・インタフェース603は、ディスプレイ(例えば、タッチスクリーン、LCD、CRT、ホログラフィ(Holographic)、またはプロジェクタ(Projector))、クリック装置(例えば、マウス、トラックボール(trackball)、タッチパッド、またはタッチスクリーン)、カメラおよび/またはピックアップ装置等を含む。
メモリ602が、読取り専用メモリおよびランダム・アクセス・メモリを含んでもよく、命令およびデータをプロセッサ601に提供してもよい。メモリ602の一部がさらに、不揮発性ランダム・アクセス・メモリ(NVRAM)を備えてもよい。
幾つかの実装方式では、メモリ605は以下の要素、即ち、様々なシステム・プログラムを含み、様々な基本サービスを実装しハードウェアベースのタスクを処理するように構成されたオペレーティング・システム6051と、様々なアプリケーション・プログラムを含み、様々なアプリケーション・サービスを実装するように構成されたアプリケーション・プログラム・モジュール6052と、実行可能モジュールまたはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを格納する。
アプリケーション・プログラム・モジュール6052は、推定ユニット410、決定ユニット420、符号化ユニット430等を備えるがこれらに限られない。
本発明の当該実施形態では、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601は、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定し、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施するように構成される。
本発明の当該実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の基準線形予測効率を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより大きい基準線形予測効率は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、上述の基準線形予測効率は、以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つを含む。上述の基準統合線形予測効率は上述の基準長期線形予測効率および上述の基準短期線形予測効率に基づいて取得される。
現在の音声フレームの基準長期線形予測効率を現在の音声フレームの長期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準短期線形予測効率を現在の音声フレームの短期線形予測効率に基づいて取得してもよく、現在の音声フレームの基準統合線形予測効率を、例えば、現在の音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得してもよい。
基準線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x1(x1は正の数である)であってもよく、基準長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x2(x2は正の数である)であってもよく、基準短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x3(x3は正の数である)であってもよく、基準統合線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x4(x4は正の数である)であってもよく、長期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x5(x5は正の数である)であってもよく、短期線形予測効率の値範囲が0‐1(即ち、0‐100%)であってもよいか、または、値範囲が0‐x6(x6は正の数である)であってもよく、x1、x2、x3、x4、x5、またはx6が、例えば、0.5、0.8、1.5、2、5、10、50、100、または別の正の数であってもよいことは理解されうる。
本発明の幾つかの実施形態では、音声フレームの音声符号化方式と基準線形予測効率との間の1組のマッピング関係があってもよい。例えば、異なる音声符号化方式が異なる基準線形予測効率に対応してもよく、または、異なる音声符号化方式が異なる基準線形予測効率間隔に対応してもよい。例えば、上述の現在の音声フレームの推定された基準線形予測効率にマッチする音声符号化方式を少なくとも2つの音声符号化方式から決定してもよい。
本発明の幾つかの実施形態では、現在の音声フレームの基準線形予測効率を推定する前に、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601をさらに現在の音声フレームが会話音声フレームであるかどうかを先ず判定するように構成してもよい。例えば、現在の音声フレームの基準線形予測効率を推定するステップが、現在の音声フレームが非会話音声フレームであるとき、上述の現在の音声フレームの基準線形予測効率を推定するステップを含んでもよい。さらに、現在の音声フレームの基準線形予測効率が推定される前に、現在の音声フレームが会話音声フレームであるかどうかを区別しなくてもよい。
本発明の幾つかの実施形態では、上述の現在の音声フレームの基準統合線形予測効率が、例えば、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率の合計値、重み付き合計値(ここでの重み付き合計値に対応する重み付き値を実際の要件に従って設定してもよく、重み付き値が、例えば、0.5、1、2、3、5、10、または別の値であってもよい)、または平均値であってもよい。確かに、上述の現在の音声フレームの基準統合線形予測効率をまた、別のアルゴリズムを用いることにより、上述の現在の音声フレームの基準長期線形予測効率および現在の音声フレームの基準短期線形予測効率に基づいて取得してもよい。
上述の現在の音声フレームの基準線形予測効率は異なるタイプの線形予測効率を含むので、プロセッサ601により、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する異なる特定の方式があってもよいことは理解されうる。以下では例を用いて幾つかの可能な実施形態の方式を示す。
例えば、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率および上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値より小さく、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第1の閾値以上であり、かつ/または、上述の現在の音声フレームの基準短期線形予測効率が第2の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が第3の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準長期線形予測効率が第4の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準長期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準長期線形予測効率が入る第1の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第1の線形予測効率間隔とマッピング関係にある第1の音声符号化方式を決定するように構成されてもよい。上述の第1の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第1の音声符号化方式は線形予測に基づく音声符号化方式または線形予測に基づかない音声符号化方式である。異なる線形予測効率間隔は異なる音声符号化方式に対応する。例えば、3つの線形予測効率間隔があり、それぞれ、0‐30%、30‐70%、および70‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐30%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔0‐30%である)場合、線形予測効率間隔0‐30%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔30‐70%に入る(即ち、第1の線形予測効率間隔は線形予測効率間隔30‐70%である)場合、線形予測効率間隔30‐70%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよく、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準短期線形予測効率が第5の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準短期線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準短期線形予測効率が入る第2の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第2の線形予測効率間隔とマッピング関係にある第2の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成されてもよい。上述の第2の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、第2の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐40%、40‐60%、および60‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐40%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔0‐40%である)場合、線形予測効率間隔0‐40%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔40‐60%に入る(即ち、第2の線形予測効率間隔が線形予測効率間隔40‐60%である)場合、線形予測効率間隔40‐60%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明のさらに他の実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値以上である場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づく音声符号化方式であると判定するか、または、上述の現在の音声フレームの基準統合線形予測効率が第6の閾値より小さい場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式は線形予測に基づかない音声符号化方式であると判定するように構成されてもよい。
別の例として、本発明の幾つかの実施形態では、上述の現在の音声フレームの基準線形予測効率が上述の現在の音声フレームの基準統合線形予測効率を含む場合、上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式を決定する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの基準統合線形予測効率が入る第3の線形予測効率間隔を決定し、線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係に従って、上述の第3の線形予測効率間隔とマッピング関係にある第3の音声符号化方式または線形予測に基づかない音声符号化方式を決定するように構成されてもよい。上述の第3の音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であり、上述の第3の音声符号化方式は線形予測に基づく音声符号化方式である。例えば、3つの線形予測効率間隔があり、それぞれ0‐50%、50‐80%、および80‐100%であってもよいと仮定する。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔0‐50%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔0‐50%である)場合、線形予測効率間隔0‐50%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定してもよい。上述の現在の音声フレームの基準長期線形予測効率が線形予測効率間隔50‐80%に入る(即ち、第3の線形予測効率間隔が線形予測効率間隔50‐80%である)場合、線形予測効率間隔50‐80%に対応する音声符号化方式は上述の現在の音声フレームの基準線形予測効率にマッチする音声符号化方式であると判定され、別のシナリオはこれから導出される。線形予測効率間隔と線形予測に基づく音声符号化方式との間のマッピング関係を異なる適用シナリオの要件に従って設定してもよい。
本発明の幾つかの実施形態では、線形予測に基づく音声符号化方式が、代数符号励起線形予測(ACELP)符号化、変換符号化励起(TCX)等を含んでもよく、非線形予測に基づく音声符号化方式が汎用音声符号化(GAC)を含んでもよく、GACが、例えば、修正離散余弦変換(MDCT)符号化または離散余弦変換(DCT)符号化を含んでもよい。
上述の例で言及した閾値(例えば、第1の閾値、第2の閾値、第3の閾値、第4の閾値、第5の閾値、および第6の閾値)の具体的な値を、要件に従って、または、適用環境および適用シナリオに従って設定してもよいことは理解されうる。例えば、上述の現在の音声フレームの基準長期線形予測効率の値範囲が0‐1である場合、第1の閾値の値が0.2、0.5、0.6、0、8等であってもよく、上述の現在の音声フレームの基準短期線形予測効率の値範囲が0‐1である場合、第2の閾値の値が0.3、0.3、0.6、0.8等であってもよく、別のシナリオはこれから導出される。さらに、当該閾値の値をさらに、要件に従って動的かつ適合的な方式で調整してもよい。
上述の現在の音声フレームの基準線形予測効率に含まれる異なるタイプの線形予測効率を特に異なる方式で推定してもよいことは理解されうる。以下では、幾つかの可能な実施形態の方式を1例として使用して説明を行う。
例えば、本発明の幾つかの実施形態では、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、現在の音声フレームの長期線形予測効率を推定するステップにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。上述の現在の音声フレームの長期線形予測効率は上述の現在の音声フレームの基準長期線形予測効率である。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN1個の履歴音声フレームの線形予測効率を取得するステップと、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の第1の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。N1は正の整数であり、上述の第1の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N11個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN11個の履歴音声フレームは上述のN1個の履歴音声フレームのサブセットである。上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第1の統計値が、上述のN1個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの長期線形予測効率の例えば、合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN2個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の第2の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。N2は正の整数であり、上述の第2の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N21個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN21個の履歴音声フレームは上述のN2個の履歴音声フレームのサブセットである。上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の計算により取得された第2の統計値は、例えば、上述のN2個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの長期線形予測効率を取得するステップと、上述の現在の音声フレームのN4個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN3個の履歴音声フレームの線形予測効率を取得するステップと、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の第3の統計値を計算するステップとにより現在の音声フレームの基準長期線形予測効率を取得するように構成されてもよい。N3およびN4は正の整数であり、上述の第3の統計値は上述の現在の音声フレームの基準長期線形予測効率であり、N31個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N41個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、上述のN31個の履歴音声フレームは上述のN3個の履歴音声フレームのサブセットであり、上述のN41個の履歴音声フレームは上述のN4個の履歴音声フレームのサブセットであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN3個の履歴音声フレームおよび上述のN4個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の計算により取得された第3の統計値は、例えば、上述のN3個の履歴音声フレームの線形予測効率、上述のN4個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの長期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値である。
例えば、本発明の幾つかの実施形態では、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、現在の音声フレームの短期線形予測効率を推定するステップにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。上述の現在の音声フレームの短期線形予測効率は上述の現在の音声フレームの基準短期線形予測効率である。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN5個の履歴音声フレームの線形予測効率を取得するステップと、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の第4の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。N5は正の整数であり、上述の第4の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N51個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、上述のN51個の履歴音声フレームは上述のN5個の履歴音声フレームのサブセットである。上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第4の統計値が、上述のN5個の履歴音声フレームの線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN6個の履歴音声フレームの基準線形予測効率を取得するステップと、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の第5の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。N6は正の整数であり、上述の第5の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N61個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得され、上述のN61個の履歴音声フレームは上述のN6個の履歴音声フレームのサブセットである。上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の計算により取得された第5の統計値が、上述のN6個の履歴音声フレームの基準線形予測効率および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
あるいは、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、推定により、以下の方式、即ち、推定により現在の音声フレームの短期線形予測効率を取得するステップと、上述の現在の音声フレームのN8個の履歴音声フレームの基準線形予測効率を取得するステップと、上述の現在の音声フレームのN7個の履歴音声フレームの線形予測効率を取得するステップと、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の第6の統計値を計算するステップとにより現在の音声フレームの基準短期線形予測効率を取得するように構成されてもよい。N7およびN8は正の整数であり、上述の第6の統計値は上述の現在の音声フレームの基準短期線形予測効率であり、N71個の履歴音声フレームの各履歴音声フレームの線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、長期線形予測効率、短期線形予測効率、および統合線形予測効率のうち少なくとも1つであり、N81個の履歴音声フレームの各履歴音声フレームの基準線形予測効率は、各履歴音声フレームの以下の線形予測効率、即ち、基準長期線形予測効率、基準短期線形予測効率、および基準統合線形予測効率のうち少なくとも1つであり、各履歴音声フレームの統合線形予測効率は各履歴音声フレームの長期線形予測効率および短期線形予測効率に基づいて取得され、各履歴音声フレームの基準統合線形予測効率は各履歴音声フレームの基準長期線形予測効率および基準短期線形予測効率に基づいて取得される。上述のN71個の履歴音声フレームは上述のN7個の履歴音声フレームのサブセットであり、上述のN81個の履歴音声フレームは上述のN8個の履歴音声フレームのサブセットである。上述のN7個の履歴音声フレームおよび上述のN8個の履歴音声フレームの積集合が、空集合であってもよく、または、空集合でなくてもよい。上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の計算により取得された第6の統計値が、上述のN7個の履歴音声フレームの線形予測効率、上述のN8個の履歴音声フレームの基準線形予測効率、および上述の現在の音声フレームの短期線形予測効率の合計値、重み付き合計値、幾何平均値、算術平均値、移動平均値、または重み付け平均値であってもよい。
本発明の幾つかの実施形態では、音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測効率(例えば、長期線形予測効率または短期線形予測効率)を使用して、線形予測を当該音声フレームに実施できる範囲を表してもよい。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)の線形予測結果は当該音声フレームの線形予測値を指す。音声フレーム(例えば、現在の音声フレームまたは現在の音声フレームの履歴音声フレーム)のより高い線形予測効率(例えば、長期線形予測効率または短期線形予測効率)は線形予測を当該音声フレームに実施できるより広い範囲を示す。
本発明の幾つかの実施形態では、現在の音声フレームの線形予測残差に基づいて現在の音声フレームの短期線形予測効率を取得する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、短期線形予測が現在の音声フレームに実施される前と後に取得された現在の音声フレームのエネルギ変化率を計算するように構成されてもよい。上述の計算されたエネルギ変化率は現在の音声フレームの短期線形予測効率であるか、または、現在の音声フレームの短期線形予測効率は上述の計算されたエネルギ変化率に基づく変換により取得され、短期線形予測が現在の音声フレームに実施された後に取得された上述の現在の音声フレームのエネルギは上述の現在の音声フレームの線形予測残差のエネルギである。例えば、現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係があってもよく、上述の計算されたエネルギ変化率とマッピング関係にある、現在の音声フレームの短期線形予測効率を現在の音声フレームのエネルギ変化率と短期線形予測効率との間のマッピング関係に基づいて取得してもよい。一般に、短期線形予測が現在の音声フレームに実施される前および後に取得された現在の音声フレームのより大きなエネルギ変化率は現在の音声フレームのより大きな短期線形予測効率を示す。
例えば、短期線形予測が現在の音声フレームに実施される前または後に取得された上述の現在の音声フレームのエネルギ変化率が、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギの、上述の現在の音声フレームの線形予測残差のエネルギに対する比率または比率の逆数であってもよい。一般に、短期線形予測が現在の音声フレームに実施される前に取得された上述の現在の音声フレームのエネルギを上述の現在の音声フレームの線形予測残差のエネルギで除することにより得られるより大きな比率は現在の音声フレームのより大きな短期線形予測効率を示す。
本発明の幾つかの実施形態では、推定により現在の音声フレームの長期線形予測効率を取得する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するように構成されてもよい。上述の相関は現在の音声フレームの長期線形予測効率であるか、または、現在の音声フレームの長期線形予測効率は上述の変換に基づいて取得される。上述の第1の履歴線形予測信号は第1の履歴線形予測励起または第1の履歴線形予測残差であり、上述の第1の履歴線形予測残差は上述の現在の音声フレームの履歴音声フレームの線形予測残差であり(例えば、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である現在の音声フレームの履歴音声フレームの線形予測残差であってもよく、または、上述の第1の履歴線形予測残差が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測残差であってもよい)、上述の第1の履歴線形予測励起は上述の現在の音声フレームの履歴音声フレームの線形予測励起である(例えば、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、上述の現在の音声フレームの履歴音声フレームの線形予測励起であってもよく、または、上述の第1の履歴線形予測励起が、期間が上述の現在の音声フレームの期間と同じかまたは同様である、現在の音声フレームの2つの隣接する履歴音声フレームの幾つかの連続音声信号の線形予測励起であってもよい)。例えば、音声フレームの相関と長期線形予測効率との間にマッピング関係があり、上述の計算された相関とマッピング関係にある上述の現在の音声フレームの長期線形予測効率を音声フレームの相関と長期線形予測効率との間のマッピング関係に基づいて取得してもよい。
上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関を、様々な方式で現在の音声フレームの線形予測残差および第1の履歴線形予測信号に従って取得してもよい。
例えば、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得する態様において、メモリ605に格納されたプログラムまたは命令を起動することによって、プロセッサ601が特に、現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を計算するように構成されてもよい。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、現在の音声フレームの線形予測残差に利得因子を乗じて上述の現在の音声フレームの増幅された線形予測残差を取得し、上述の現在の音声フレームの増幅された線形予測残差と第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの増幅された線形予測残差と上述の第1の履歴線形予測信号との間の計算により取得された相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
あるいは、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号に従って現在の音声フレームの線形予測残差と第1の履歴線形予測信号との間の相関を取得するステップが、第1の履歴線形予測信号に利得因子を乗じて増幅された第1の履歴線形予測信号を取得し、上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の相関を計算により取得するステップを含んでもよい。上述の現在の音声フレームの線形予測残差と上述の増幅された第1の履歴線形予測信号との間の計算により得られた相関は、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間の相関である。
上述の第1の履歴線形予測残差または上述の第1の履歴線形予測励起を、上述の現在の音声フレームのピッチに基づいて決定してもよい。例えば、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は上述の現在の音声フレームの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測励起と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測励起と線形予測残差との間の時間領域相関以上である。例えば、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの別の履歴線形予測残差と線形予測残差との間の時間領域相関以上であるか、または、上述の第1の履歴線形予測残差と上述の現在の音声フレームの線形予測残差との間の時間領域相関は、上述の現在の音声フレームの少なくとも1つの他の履歴線形予測残差と線形予測残差との間の時間領域相関以上である。
一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより大きい相関は、上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の相関は、例えば、時間領域における相互相関の関数値および/または周波数領域における相互相関の関数値であるか、または、上述の相関が時間領域歪みおよび/または周波数領域歪みであってもよい(当該周波数領域歪みをまた、スペクトル歪みと称してもよい)。
本発明の幾つかの実施形態では、上述の周波数領域歪みが周波数領域内のK1個の周波数ビンの歪みの合計値または重み付き合計値であってもよいか、または、上述の周波数領域歪みが周波数領域内のK2個のサブバンドの歪みの合計値または重み付き合計値であってもよく、K1およびK2は正の整数である。
一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の時間領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差および上述の第1の履歴線形予測信号の周波数領域におけるより大きな相互相関関数値が上述の現在の音声フレームのより大きい長期線形予測効率を示してもよい。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな周波数領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。一般に、上述の現在の音声フレームの線形予測残差と上述の第1の履歴線形予測信号との間のより小さな時間領域歪みは上述の現在の音声フレームのより大きい長期線形予測効率を示す。
本発明の幾つかの実施形態では、上述の歪みの重み付き合計値に対応する重み付け係数は心理音響モデルを反映する知覚重み付け係数である。確かに、上述の歪みの重み付き合計値に対応する重み付け係数がまた、実際の要件に基づいて設定された別の重み付け係数であってもよい。当該知覚重み付け係数の使用は、計算された歪みが主観的な品質をより良く満たすことを支援し、それにより性能向上を支援することが、試験により分かる。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が、線形予測ベースの符号化方式を用いて音声符号化を上述の現在の音声フレームの履歴音声フレームに実施することによって生成された線形予測励起であってもよい。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測残差を上述の現在の音声フレームの第1の履歴音声フレームの時間領域信号および上述の第1の履歴音声フレームの線形予測係数に基づいて取得してもよい。上述の第1の履歴音声フレームの線形予測符号化係数は量子化された線形予測係数または量子化されていない線形予測係数である。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の現在の音声フレームの線形予測残差を上述の現在の音声フレームの時間領域信号および上述の現在の音声フレームの線形予測係数に基づいて取得してもよい。上述の現在の音声フレームの線形予測係数が、量子化された線形予測係数または量子化されていない線形予測係数であってもよい。量子化された線形予測係数は一般に、実際の符号化および復号化プロセスにおける最終品質に影響を及ぼすので、量子化された線形予測係数を使用して線形予測残差を計算することは、当該計算された相関をより正確にするのを支援する。
本発明の幾つかの実施形態では、上述の第1の履歴線形予測励起が適応コードブック励起および固定コードブック励起の重合せ励起であってもよく、または、上述の第1の履歴線形予測励起が適応コードブック励起であってもよく、または、上述の第1の履歴線形予測励起が別のタイプのコードブック励起であってもよい。
本実施形態における音声符号化器600の機能モジュールの機能を特に上述の方法の実施形態における方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは再度説明しない。音声符号化器600が、音声信号を収集し、格納する必要があるかまたは外部に送信できる任意の装置であってもよく、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
この装置の実施形態に含まれる閾値(例えば、第1の閾値および第2の閾値)およびその他のパラメータ(例えば、N1、N11、N21、およびN2)の値の例については、上述の方法の実施形態における値の関連する例を参照されたい。詳細についてはここでは再度説明しない。
本実施形態の技術的解決策では、音声符号化器600は先ず、現在の音声フレームの基準線形予測効率を推定し、上述の現在の音声フレームの推定された基準線形予測効率を用いて、当該推定された基準線形予測効率にマッチする音声符号化方式を決定し、当該推定された基準線形予測効率にマッチする決定された音声符号化方式に従って音声符号化を上述の現在の音声フレームに実施することは理解できる。上述の解決策における音声符号化方式を決定するプロセスでは、既存の閉ループ選択モードにおいて実行が必要とされる、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する動作を実行する必要はなく、代わりに、選択が必要な音声符号化方式が現在の音声フレームの基準線形予測効率を用いて決定される。現在の音声フレームの基準線形予測効率を推定する計算量は一般に、各音声符号化方式を用いて完全な符号化を現在の音声フレームに実施する計算量よりもかなり少ない。したがって、既存の機構と比べて、本発明の当該実施形態における上述の解決策では音声符号化の動作の複雑性軽減が支援され、さらに音声符号化のオーバヘッドが減る。
本発明の1実施形態ではさらにコンピュータ記憶媒体を提供する。当該コンピュータ記憶媒体はプログラムを格納してもよい。実行されたとき、当該プログラムは、上述の方法の実施形態で説明した任意の音声符号化方法の一部または全部のステップを含む。
説明を簡単にするために、上述の方法の実施形態は一連の動作として表現されていることに留意すべきである。しかし、本発明によれば、幾つかのステップを他の順序で実施するかまたは同時に実施してもよいので、本発明は説明した動作の順序に限定されないことは当業者は理解すべきである。さらに、当業者はまた、本明細書で説明された全ての実施形態が好適な実施形態であり、関連する動作とモジュールは本発明に必ずしも必須ではないことも理解すべきである。
上述の実施形態では、各実施形態の説明はそれぞれの焦点を有する。1実施形態で詳細に説明されていない部分については、他の実施形態の関連説明を参照されたい。
本願で提供した幾つかの実施形態において、開示した装置を別の方式で実装してもよいことは理解されるべきである。例えば、説明した装置の実施形態は例示的なものにすぎない。例えば、当該ユニット分割は論理的な機能分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントを別のシステムに組み合わせるかまたは統合してもよく、または幾つかの機能を無視するかまたは実装しなくてもよい。さらに、幾つかのインタフェースを通じて、説明または議論した相互結合または直接結合または通信接続を実装してもよい。当該装置またはユニット間の間接結合または通信接続を、電気または他の形態で実装してもよい。
別々の部分として説明されたユニットが物理的に分離されていてもいなくてもよく、ユニットとして表示した部分が物理ユニットであってもなくてもよく、1つの位置に配置されてもよく、または、複数のネットワーク・ユニットに分散されてもよい。当該ユニットの一部または全部を、当該諸実施形態の解決策の目的を実現するための実際のニーズに従って選択してもよい。
さらに、当該本発明の諸実施形態における機能ユニットを1つの処理ユニットに統合してもよく、または、当該ユニットの各々が物理的に単体で存在してもよく、または、2つまたは複数のユニットが1つのユニットに統合される。上述の統合されたユニットをハードウェアの形態で実装してもよく、または、ソフトウェア機能ユニットの形態で実装してもよい。
当該統合されたユニットがソフトウェア機能ユニットの形態で実装され、独立な製品として販売または使用されるとき、当該統合されたユニットをコンピュータ可読記憶媒体に格納してもよい。かかる理解に基づいて、本発明の技術的解決策を本質的に、または先行技術に寄与する部分、または当該技術的解決策の全部もしくは一部をソフトウェア製品の形で実装してもよい。当該コンピュータ・ソフトウェア製品は記憶媒体に格納され、本発明の諸実施形態で説明した方法のステップの全部または一部を実施するように(パーソナル・コンピュータ、サーバ、またはネットワーク装置であってもよい)コンピュータ装置に指示するための幾つかの命令を含む。上述の記憶媒体は、USBフラッシュ・ドライブ、読取専用メモリ(ROM、Read−Only Memory)、ランダム・アクセス・メモリ(RAM、Random Access Memory)、取外し可能ハード・ディスク、磁気ディスク、または光ディスクのようなプログラム・コードを格納できる任意の媒体を含む。
上述の実施形態は本発明の技術的解決策を説明するためのものにすぎず、本発明を限定するためのものではない。上述の実施形態を参照して本発明を詳細に説明したが、当業者は本発明の諸実施形態の技術的解決策の趣旨と範囲から逸脱せずに、上述の実施形態で説明した技術的解決策に依然として修正を行ってもよく、または、その幾つかの技術的特徴に均等な置換えを行ってもよいことを当業者は理解すべきである。