JP2023510556A

JP2023510556A - オーディオ符号化および復号方法ならびにオーディオ符号化および復号デバイス

Info

Publication number: JP2023510556A
Application number: JP2022542749A
Authority: JP
Inventors: 丙寅夏; 佳蔚李; ▲ジー▼ 王
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-01-13
Filing date: 2021-01-12
Publication date: 2023-03-14
Anticipated expiration: 2041-01-12
Also published as: CN113192523A; US20220358941A1; EP4084001A4; CN113192523B; KR20220123108A; US12039984B2; EP4084001A1; WO2021143692A1; JP7443534B2

Abstract

本出願の実施形態は、復号されたオーディオ信号の品質を向上させるための、オーディオ符号化および復号方法ならびにオーディオ符号化および復号デバイスを開示する。オーディオ符号化方法は、オーディオ信号の現在のフレームを取得するステップであって、現在のフレームが高周波帯域信号と低周波帯域信号とを含む、ステップと、高周波帯域信号と低周波帯域信号とに基づいて第1の符号化パラメータを取得するステップと、高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するステップであって、第2の符号化パラメータが音調成分情報を含む、ステップと、第1の符号化パラメータと第2の符号化パラメータとに対してビットストリーム多重化を実行して、符号化ビットストリームを取得するステップとを含む。

Description

本出願は、2020年1月13日に中国国家知識産権局に提出された「オーディオ符号化および復号方法ならびにオーディオ符号化および復号デバイス」と題する中国特許出願第202010033326.X号の優先権を主張するものであり、同中国特許出願は参照によりその全体が本明細書に組み込まれる。

本出願は、オーディオ信号符号化および復号技術の分野に関し、特に、オーディオ符号化および復号方法ならびにオーディオ符号化および復号デバイスに関する。

生活の質が向上するにつれて、高品質のオーディオに対する要求が絶えず高まっている。限られた帯域幅でオーディオ信号をより良好に送信するため、オーディオ信号は通常、最初に符号化する必要があり、次いで符号化されたビットストリームが復号器側へ送信される。復号器側は、受信したビットストリームを復号して復号されたオーディオ信号を取得し、復号されたオーディオ信号は再生に使用される。

復号されたオーディオ信号の品質をどのように向上させるかが、緊急に解決する必要がある技術的問題となっている。

本出願の実施形態は、復号されたオーディオ信号の品質を向上させるため、オーディオ符号化および復号方法ならびにオーディオ符号化および復号デバイスを提供する。

前述の技術的問題を解決するため、本出願の実施形態は以下の技術的なソリューションを提供する。

本発明の第1の態様はオーディオ符号化方法を提供する。該方法は、オーディオ信号の現在のフレームを取得するステップであって、現在のフレームが高周波帯域信号と低周波帯域信号とを含む、ステップと、高周波帯域信号と低周波帯域信号とに基づいて第1の符号化パラメータを取得するステップと、高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するステップであって、第2の符号化パラメータが音調成分情報を含む、ステップと、第1の符号化パラメータと第2の符号化パラメータとに対してビットストリーム多重化を実行して、符号化ビットストリームを取得するステップとを含む。

第1の態様を参照し、一実装において、高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するステップは、高周波帯域信号が音調成分を含むかどうかを検出するステップと、高周波帯域信号が音調成分を含む場合に、高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するステップとを含む。

第1の態様と第1の態様の前述の実装とを参照し、一実装において、音調成分情報は、音調成分数量情報、音調成分位置情報、音調成分振幅情報、または音調成分エネルギー情報のうちの少なくとも1つを含む。

第1の態様と第1の態様の前述の実装とを参照し、一実装において、第2の符号化パラメータはノイズフロアパラメータをさらに含む。

第1の態様と第1の態様の前述の実装とを参照し、一実装において、ノイズフロアパラメータはノイズフロアエネルギーを示すために使用される。

本発明の第2の態様はオーディオ復号方法を提供する。該方法は、符号化ビットストリームを取得するステップと、符号化ビットストリームに対してビットストリーム逆多重化を実行して、オーディオ信号の現在のフレームの第1の符号化パラメータと現在のフレームの第2の符号化パラメータとを取得するステップであって、現在のフレームの第2の符号化パラメータが音調成分情報を含む、ステップと、第1の符号化パラメータに基づいて現在のフレームの第1の高周波帯域信号と現在のフレームの第1の低周波帯域信号を取得するステップと、第2の符号化パラメータに基づいて現在のフレームの第2の高周波帯域信号を取得するステップであって、第2の高周波帯域信号が再構成音調信号を含む、ステップと、現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するステップとを含む。

第2の態様を参照し、一実装において、第1の高周波帯域信号は、第1の符号化パラメータに基づいて直接復号を実行することによって得られる復号高周波帯域信号と、第1の低周波帯域信号に基づいて周波数帯域拡張を実行することによって得られる拡張高周波帯域信号とのうちの少なくとも一方を含む。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、第1の高周波帯域信号が拡張高周波帯域信号を含む場合、現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するステップは、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、現在の周波数での拡張高周波帯域信号のスペクトルと現在のサブバンドのノイズフロア情報とに基づいて現在の周波数での融合高周波帯域信号を取得するステップ、または、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、現在の周波数での再構成音調信号のスペクトルに基づいて現在の周波数での融合高周波帯域信号を取得するステップを含む。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、ノイズフロア情報はノイズフロア利得パラメータを含む。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、現在のサブバンドのノイズフロア利得パラメータは、現在のサブバンドの幅と、現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、現在のサブバンドのノイズフロアエネルギーとに基づいて得られる。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、第1の高周波帯域信号が復号高周波帯域信号と拡張高周波帯域信号とを含む場合、現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するステップは、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、現在の周波数での再構成音調信号のスペクトルに基づいて現在の周波数での融合高周波帯域信号を取得するステップ、または、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、現在の周波数での拡張高周波帯域信号のスペクトルと、現在の周波数での復号高周波帯域信号のスペクトルと、現在のサブバンドのノイズフロア情報とに基づいて、現在の周波数での融合高周波帯域信号を取得するステップを含む。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、現在のサブバンドのノイズフロア利得パラメータは、現在のサブバンドの幅と、現在のサブバンドのノイズフロアエネルギーと、現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、現在のサブバンドの復号高周波帯域信号のスペクトルのエネルギーとに基づいて得られる。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、第1の高周波帯域信号が復号高周波帯域信号と拡張高周波帯域信号とを含む場合、該方法は、既定の指示情報、または復号によって得られる指示情報に基づいて、復号高周波帯域信号、拡張高周波帯域信号、および再構成音調信号から少なくとも1つの信号を選択して、現在のフレームの融合高周波帯域信号を取得するステップをさらに含む。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、第2の符号化パラメータは、ノイズフロアエネルギーを示すために使用されるノイズフロアパラメータをさらに含む。

第2の態様と第2の態様の前述の実装とを参照し、一実装において、既定の条件は、再構成音調信号のスペクトルの値が0または既定の閾値未満であることを含む。

本発明の第3の態様は、オーディオ信号の現在のフレームを取得するように構成された信号取得ユニットであって、現在のフレームが高周波帯域信号と低周波帯域信号とを含む、信号取得ユニットと、高周波帯域信号と低周波帯域信号とに基づいて第1の符号化パラメータを取得し、且つ高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するように構成されたパラメータ取得ユニットであって、第2の符号化パラメータが音調成分情報を含む、パラメータ取得ユニットと、第1の符号化パラメータと第2の符号化パラメータとに対してビットストリーム多重化を実行して、符号化ビットストリームを取得するように構成された符号化ユニットとを含む、オーディオ符号化器を提供する。

第3の態様を参照し、一実装において、パラメータ取得ユニットは、具体的には、高周波帯域信号が音調成分を含むかどうかを検出し、且つ高周波帯域信号が音調成分を含む場合に、高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するようにさらに構成される。

第3の態様と第3の態様の前述の実装とを参照し、一実装において、音調成分情報は、音調成分数量情報、音調成分位置情報、音調成分振幅情報、または音調成分エネルギー情報のうちの少なくとも1つを含む。

第3の態様と第3の態様の前述の実装とを参照し、一実装において、第2の符号化パラメータはノイズフロアパラメータをさらに含む。

第3の態様と第3の態様の前述の実装とを参照し、一実装において、ノイズフロアパラメータはノイズフロアエネルギーを示すために使用される。

本発明の第4の態様は、符号化ビットストリームを取得するように構成された受信ユニットと、符号化ビットストリームに対してビットストリーム逆多重化を実行して、オーディオ信号の現在のフレームの第1の符号化パラメータと現在のフレームの第2の符号化パラメータとを取得するように構成された逆多重化ユニットであって、現在のフレームの第2の符号化パラメータが音調成分情報を含む、逆多重化ユニットと、第1の符号化パラメータに基づいて現在のフレームの第1の高周波帯域信号と現在のフレームの第1の低周波帯域信号を取得し、且つ第2の符号化パラメータに基づいて現在のフレームの第2の高周波帯域信号を取得するように構成された取得ユニットであって、第2の高周波帯域信号が再構成音調信号を含む、取得ユニットと、現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するように構成された融合ユニットとを含む、オーディオ復号器を提供する。

第4の態様を参照し、一実装において、第1の高周波帯域信号は、第1の符号化パラメータに基づいて直接復号を実行することによって得られる復号高周波帯域信号と、第1の低周波帯域信号に基づいて周波数帯域拡張を実行することによって得られる拡張高周波帯域信号とのうちの少なくとも一方を含む。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、第1の高周波帯域信号が拡張高周波帯域信号を含む場合、融合ユニットは、具体的には、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、現在の周波数での拡張高周波帯域信号のスペクトルと現在のサブバンドのノイズフロア情報とに基づいて現在の周波数での融合高周波帯域信号を取得し、または、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、現在の周波数での再構成音調信号のスペクトルに基づいて現在の周波数での融合高周波帯域信号を取得するように構成される。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、ノイズフロア情報はノイズフロア利得パラメータを含む。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、現在のサブバンドのノイズフロア利得パラメータは、現在のサブバンドの幅と、現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、現在のサブバンドのノイズフロアエネルギーとに基づいて得られる。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、第1の高周波帯域信号が復号高周波帯域信号と拡張高周波帯域信号とを含む場合、融合ユニットは、具体的には、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、現在の周波数での再構成音調信号のスペクトルに基づいて現在の周波数での融合高周波帯域信号を取得し、または、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、現在の周波数での拡張高周波帯域信号のスペクトルと、現在の周波数での復号高周波帯域信号のスペクトルと、現在のサブバンドのノイズフロア情報とに基づいて、現在の周波数での融合高周波帯域信号を取得するように構成される。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、現在のサブバンドのノイズフロア利得パラメータは、現在のサブバンドの幅と、現在のサブバンドのノイズフロアエネルギーと、現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、現在のサブバンドの復号高周波帯域信号のスペクトルのエネルギーとに基づいて得られる。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、第1の高周波帯域信号が復号高周波帯域信号と拡張高周波帯域信号とを含む場合、融合ユニットは、既定の指示情報、または復号によって得られる指示情報に基づいて、復号高周波帯域信号、拡張高周波帯域信号、および再構成音調信号から少なくとも1つの信号を選択して、現在のフレームの融合高周波帯域信号を取得するようにさらに構成される。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、第2の符号化パラメータは、ノイズフロアエネルギーを示すために使用されるノイズフロアパラメータをさらに含む。

第4の態様と第4の態様の前述の実装とを参照し、一実装において、既定の条件は、再構成音調信号のスペクトルの値が0または既定の閾値未満であることを含む。

本発明の第5の態様は、少なくとも1つのプロセッサを含むオーディオ符号化デバイスを提供する。少なくとも1つのプロセッサは、メモリに接続され、且つメモリ内の命令を読み取って実行して、第1の態様の方法を実施するように構成される。

本発明の第6の態様は、少なくとも1つのプロセッサを含むオーディオ復号デバイスを提供する。少なくとも1つのプロセッサは、メモリに接続され、且つメモリ内の命令を読み取って実行して、第2の態様の方法を実施するように構成される。

第7の態様によると、本出願の一実施形態はコンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は命令を格納し、命令がコンピュータ上で実行されると、コンピュータは第1の態様または第2の態様の方法を実施することが可能になる。

第8の態様によると、本出願の一実施形態は命令を含むコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータは第1の態様または第2の態様の方法を実施することが可能になる。

第9の態様によると、本出願の一実施形態は通信装置を提供する。通信装置は、オーディオ符号化・復号デバイスまたはチップなどのエンティティを含み得る。通信装置はプロセッサを含む。任意に選べることとして、通信装置はメモリをさらに含む。メモリは、命令を格納するように構成され、プロセッサは、メモリ内の命令を実行するように構成され、これにより、通信装置は第1の態様または第2の態様の方法を実施する。

第10の態様によると、本出願はチップシステムを提供する。チップシステムは、例えば、前述の方法でデータおよび／または情報を送信または処理するなど、前述の態様の機能を実施するにあたってオーディオ符号化・復号デバイスを支援するように構成されたプロセッサを含む。可能な一設計において、チップシステムはメモリをさらに含み、メモリは、オーディオ符号化・復号デバイスに必要なプログラム命令とデータを格納するように構成される。チップシステムはチップを含み得、またはチップと別のディスクリートコンポーネントとを含み得る。

本発明の実施形態において、オーディオ符号化器が音調成分情報を符号化し、その結果、オーディオ復号器が受信した音調成分情報に基づいてオーディオ信号を復号でき、オーディオ信号の音調成分をより正確に復元でき、これにより、復号されたオーディオ信号の品質が向上することは、以上の説明から分かる。

本出願の一実施形態によるオーディオ符号化・復号システムの構造の概略図である。本出願の一実施形態によるオーディオ符号化方法の概略フローチャートである。本出願の一実施形態によるオーディオ復号方法の概略フローチャートである。本出願の一実施形態によるモバイル端末の概略図である。本出願の一実施形態によるネットワークエレメントの概略図である。本出願の一実施形態によるオーディオ符号化デバイスの組成構造の概略図である。本出願の一実施形態によるオーディオ復号デバイスの組成構造の概略図である。本出願の一実施形態による別のオーディオ符号化デバイスの組成構造の概略図である。本出願の一実施形態による別のオーディオ復号デバイスの組成構造の概略図である。

以下、添付の図面を参照しながら本出願の実施形態を説明する。

本出願の明細書、特許請求の範囲、および添付の図面において、「第1」、「第2」などの用語は、類似する対象を区別することを意図しているが、必ずしも特定の順序または順番を示すものではない。そのように使用される用語は適切な状況において交換可能であり、これは、本出願の実施形態において同じ属性を有する対象を説明するための単なる区別方法であることを理解されたい。加えて、「含む」、「有する」という用語、および他の何らかの異形は非排他的包含をカバーすることを意味し、一連のユニットを含むプロセス、方法、システム、製品、またはデバイスは、必ずしもそれらのユニットに限定されず、明示的に列挙されていない他のユニットを、またはそのようなプロセス、方法、システム、製品、もしくはデバイスに固有の他のユニットを、含み得る。

本出願の実施形態におけるオーディオ信号はオーディオ符号化デバイスにおける入力信号であり、オーディオ信号は複数のフレームを含み得る。例えば、現在のフレームは、具体的にはオーディオ信号内のフレームであり得る。本出願の実施形態では、現在のフレームのオーディオ信号を符号化し復号する一例が説明のために使用される。オーディオ信号における現在のフレームの前または後のフレームは、現在のフレームのオーディオ信号の符号化および復号モードに従って相応に符号化され復号され得る。オーディオ信号における現在のフレームの前または後のフレームの符号化および復号プロセスについては説明しない。加えて、本出願の実施形態におけるオーディオ信号は、モノラルオーディオ信号であってよく、またはステレオ信号であってもよい。ステレオ信号は元のステレオ信号であってよく、またはマルチチャネル信号に含まれる2チャネルの信号（左チャネルの信号と右チャネルの信号）によって形成されるステレオ信号であってもよく、またはマルチチャネル信号に含まれる少なくとも3チャネルの信号によって生成される2チャネルの信号によって形成されるステレオ信号でもあってよい。これは本出願の実施形態で限定されない。

図1は、本出願の例示的な実施形態によるオーディオ符号化・復号システムの構造の概略図である。オーディオ符号化・復号システムは、符号化コンポーネント110と復号コンポーネント120とを含む。

符号化コンポーネント110は、周波数領域または時間領域において現在のフレーム（オーディオ信号）を符号化するように構成される。任意に選べることとして、符号化コンポーネント110はソフトウェアによって実装されてよく、またはハードウェアによって実装されてもよく、またはソフトウェアとハードウェアとの組み合わせの形態で実装されてもよい。これは本出願の本実施形態で限定されない。

符号化コンポーネント110が周波数領域または時間領域で現在のフレームを符号化するときには、可能な一実装において、図2に示されているステップが含まれてよい。

任意に選べることとして、符号化コンポーネント110は有線または無線で復号コンポーネント120に接続されてよい。復号コンポーネント120は、復号コンポーネント120と符号化コンポーネント110との間の接続を使用することによって、符号化コンポーネント110によって生成される符号化ビットストリームを取得することができる。あるいは、符号化コンポーネント110は生成された符号化ビットストリームをメモリに格納でき、復号コンポーネント120はメモリ内の符号化ビットストリームを読み取る。

任意に選べることとして、復号コンポーネント120はソフトウェアによって実装されてよく、またはハードウェアによって実装されてよく、またはソフトウェアとハードウェアとの組み合わせの形態で実装されてよい。これは本出願の本実施形態で限定されない。

復号コンポーネント120が周波数領域または時間領域で現在のフレーム（オーディオ信号）を復号するときには、可能な一実装において、図3に示されているステップが含まれてよい。

任意に選べることとして、符号化コンポーネント110と復号コンポーネント120は同じデバイス内に配置されてよく、または別々のデバイス内に配置されてもよい。デバイスは、携帯電話機、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、Bluetooth（登録商標）スピーカ、ペンレコーダ、またはウェアラブルデバイスなどのオーディオ信号処理機能を有する端末であってよい。あるいはデバイスは、コアネットワークまたは無線ネットワーク内のオーディオ信号処理能力を有するネットワークエレメントであってもよい。これは本実施形態で限定されない。

例えば、図4に示されているように、本実施形態では以下の一例を説明に用いる。符号化コンポーネント110はモバイル端末130内に配置され、復号コンポーネント120内はモバイル端末140に配置される。モバイル端末130とモバイル端末140は、オーディオ信号処理能力を有する互いに独立した電子機器である。例えば、モバイル端末130とモバイル端末140は、携帯電話機、ウェアラブルデバイス、仮想現実（virtual reality、VR）デバイス、または拡張現実（augmented reality、AR）デバイスであってよい。加えて、モバイル端末130とモバイル端末140は無線または有線ネットワークを用いて接続される。

任意に選べることとして、モバイル端末130は、収集コンポーネント131と、符号化コンポーネント110と、チャネル符号化コンポーネント132とを含み得る。収集コンポーネント131は符号化コンポーネント110に接続され、符号化コンポーネント110は符号化コンポーネント132に接続される。

任意に選べることとして、モバイル端末140は、オーディオ再生コンポーネント141と、復号コンポーネント120と、チャネル復号コンポーネント142とを含み得る。オーディオ再生コンポーネント141は復号コンポーネント120に接続され、復号コンポーネント120はチャネル復号コンポーネント142に接続される。

モバイル端末130は、収集コンポーネント131を通じてオーディオ信号を収集した後に、符号化コンポーネント110を用いてオーディオ信号を符号化して符号化ビットストリームを取得し、次いで、チャネル符号化コンポーネント132を用いて符号化ビットストリームを符号化して伝送信号を取得する。

モバイル端末130は、無線または有線ネットワークを用いてモバイル端末140へ伝送信号を送信する。

モバイル端末140は、伝送信号を受信した後に、チャネル復号コンポーネント142を用いて伝送信号を復号して符号化ビットストリームを取得し、復号コンポーネント110を用いて符号化ビットストリームを復号してオーディオ信号を取得し、オーディオ再生コンポーネントを用いてオーディオ信号を再生する。モバイル端末130が代わりにモバイル端末140に含まれているコンポーネントを含み得、モバイル端末140が代わりにモバイル端末130に含まれているコンポーネントを含み得ることは理解されよう。

例えば、図5に示されているように、以下の一例を説明に用いる。符号化コンポーネント110と復号コンポーネント120は、コアネットワークまたは無線ネットワーク内のオーディオ信号処理能力を有する1つのネットワークエレメント150内に配置される。

任意に選べることとして、ネットワークエレメント150は、チャネル復号コンポーネント151と、復号コンポーネント120と、符号化コンポーネント110と、チャネル符号化コンポーネント152とを含む。チャネル復号コンポーネント151は復号コンポーネント120に接続され、復号コンポーネント120は符号化コンポーネント110に接続され、符号化コンポーネント110はチャネル符号化コンポーネント152に接続される。

チャネル復号コンポーネント151は、別のデバイスによって送信される伝送信号を受信した後に、伝送信号を復号して第1の符号化ビットストリームを取得する。復号コンポーネント120は符号化ビットストリームを復号してオーディオ信号を取得する。符号化コンポーネント110はオーディオ信号を符号化して第2の符号化ビットストリームを取得する。チャネル符号化コンポーネント152は第2の符号化ビットストリームを符号化して伝送信号を取得する。

別のデバイスはオーディオ信号処理能力を有するモバイル端末であってよく、またはオーディオ信号処理能力を有する別のネットワークエレメントであってもよい。これは本実施形態で限定されない。

任意に選べることとして、ネットワークエレメント内の符号化コンポーネント110と復号コンポーネント120は、モバイル端末によって送信される符号化ビットストリームをトランスコードできる。

任意に選べることとして、本出願の本実施形態では、符号化コンポーネント110が設置されたデバイスがオーディオ符号化デバイスと呼ばれることがある。実際の実装では、オーディオ符号化デバイスがオーディオ復号機能をも有し得る。これは本出願の本実施形態で限定されない。

任意に選べることとして、本出願の本実施形態では、復号コンポーネント120が設置されたデバイスがオーディオ復号デバイスと呼ばれることがある。実際の実装では、オーディオ復号デバイスがオーディオ符号化機能をも有し得る。これは本出願の本実施形態で限定されない。

図2は、本発明の一実施形態によるオーディオ符号化方法の手順を説明するものである。

201：オーディオ信号の現在のフレームを取得し、現在のフレームは高周波帯域信号と低周波帯域信号とを含む。

現在のフレームはオーディオ信号内のいずれかのフレームであってよく、現在のフレームは高周波帯域信号と低周波帯域信号とを含み得る。高周波帯域信号と低周波帯域信号との分割は周波数帯域閾値を使用して決定でき、周波数帯域閾値より高い信号は高周波帯域信号であり、周波数帯域閾値より低い信号は低周波帯域信号である。周波数帯域閾値は、符号化コンポーネント110と復号コンポーネント120の伝送帯域幅とデータ処理能力とに基づいて決定できる。これはここで限定されない。

高周波帯域信号と低周波帯域信号は相対的である。例えば、或る周波数より低い信号は低周波帯域信号であるが、該周波数より高い信号は高周波帯域信号である（該周波数に一致する信号は低周波帯域信号であり得、または高周波帯域信号であり得る）。周波数は現在のフレームの帯域幅によって異なる。例えば、現在のフレームが0～8 kHzの広帯域信号であるなら、周波数は4 kHzであり得る。現在のフレームが0 kHz～16 kHzの超広帯域信号であるなら、周波数は8 kHzであり得る。

202：高周波帯域信号と低周波帯域信号とに基づいて第1の符号化パラメータを取得する。

第1の符号化パラメータは、具体的に述べると、時間領域ノイズシェーピングパラメータ、周波数領域ノイズシェーピングパラメータ、スペクトル量子化パラメータ、周波数帯域拡張パラメータなどを含み得る。

203：高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得し、第2の符号化パラメータは音調成分情報を含む。

一実装において、音調成分情報は、音調成分数量情報、音調成分位置情報、音調成分振幅情報、または音調成分エネルギー情報のうちの少なくとも1つを含む。振幅情報は1つしかなく、エネルギー情報は1つしかない。

一実装において、ステップ203は、高周波帯域信号が音調成分を含む場合にのみ実行されてよい。この場合、高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するステップは、高周波帯域信号が音調成分を含むかどうかを検出するステップと、高周波帯域信号が音調成分を含む場合に、高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するステップとを含み得る。

一実装において、第2の符号化パラメータはノイズフロアパラメータをさらに含み得る。例えば、ノイズフロアパラメータはノイズフロアエネルギーを示すために使用されてよい。

204：第1の符号化パラメータと第2の符号化パラメータとに対してビットストリーム多重化を実行して、符号化ビットストリームを取得する。

本発明の本実施形態において、オーディオ符号化器が音調成分情報を符号化し、その結果、オーディオ復号器が受信した音調成分情報に基づいてオーディオ信号を復号でき、オーディオ信号の音調成分をより正確に復元でき、これにより、復号されたオーディオ信号の品質が向上することは、以上の説明から分かる。

図3は、本発明の別の一実施形態によるオーディオ復号方法の手順を説明するものである。

301：符号化ビットストリームを取得する。

302：符号化ビットストリームに対してビットストリーム逆多重化を実行して、オーディオ信号の現在のフレームの第1の符号化パラメータと現在のフレームの第2の符号化パラメータとを取得し、現在のフレームの第2の符号化パラメータは音調成分情報を含む。

第1の符号化パラメータと第2の符号化パラメータについては、符号化方法を参照されたい。ここでは詳細を再度説明しない。

303：第1の符号化パラメータに基づいて現在のフレームの第1の高周波帯域信号と現在のフレームの第1の低周波帯域信号を取得する。

第1の高周波帯域信号は、第1の符号化パラメータに基づいて直接復号を実行することによって得られる復号高周波帯域信号と、第1の低周波帯域信号に基づいて周波数帯域拡張を実行することによって得られる拡張高周波帯域信号とのうちの少なくとも一方を含む。

304：第2の符号化パラメータに基づいて現在のフレームの第2の高周波帯域信号を取得し、第2の高周波帯域信号は再構成音調信号を含む。

第1の高周波帯域信号が拡張高周波帯域信号を含む場合、現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するステップは、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、現在の周波数での拡張高周波帯域信号のスペクトルと現在のサブバンドのノイズフロア情報とに基づいて現在の周波数での融合高周波帯域信号を取得するステップ、または、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、現在の周波数での再構成音調信号のスペクトルに基づいて現在の周波数での融合高周波帯域信号を取得するステップを含み得る。

ノイズフロア情報はノイズフロア利得パラメータを含み得る。一実装において、現在のサブバンドのノイズフロア利得パラメータは、現在のサブバンドの幅と、現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、現在のサブバンドのノイズフロアエネルギーとに基づいて得られる。

第1の高周波帯域信号が復号高周波帯域信号と拡張高周波帯域信号とを含む場合、現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するステップは、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、現在の周波数での再構成音調信号のスペクトルに基づいて現在の周波数での融合高周波帯域信号を取得するステップ、または、現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、現在の周波数での拡張高周波帯域信号のスペクトルと、現在の周波数での復号高周波帯域信号のスペクトルと、現在のサブバンドのノイズフロア情報とに基づいて、現在の周波数での融合高周波帯域信号を取得するステップを含み得る。

ノイズフロア情報はノイズフロア利得パラメータを含む。現在のサブバンドのノイズフロア利得パラメータは、現在のサブバンドの幅と、現在のサブバンドのノイズフロアエネルギーと、現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、現在のサブバンドの復号高周波帯域信号のスペクトルのエネルギーとに基づいて得られる。

本発明の一実施形態において、既定の条件は、再構成音調信号のスペクトルの値が0であることを含む。本発明の別の一実施形態において、既定の条件は、再構成音調信号のスペクトルの値が既定の閾値未満であり、既定の閾値が0より大きい実数であることを含む。

305：現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて、現在のフレームの融合高周波帯域信号を取得する。

別の一実施形態において、第1の高周波帯域信号が復号高周波帯域信号と拡張高周波帯域信号とを含む場合、図3に記載されているオーディオ復号方法は、
既定の指示情報、または復号によって得られる指示情報に基づいて、復号高周波帯域信号、拡張高周波帯域信号、および再構成音調信号から少なくとも1つの信号を選択して、現在のフレームの融合高周波帯域信号を取得するステップを含む。

例えば、本発明の一実施形態において、現在のフレームの高周波帯域信号のsfb番目のサブバンドにおいて、第1の符号化パラメータに基づいて直接復号を実行することによって得られる復号高周波帯域信号のスペクトルはenc_spec［sfb］と表され、第1の低周波帯域信号に基づいて周波数帯域拡張を実行することによって得られる拡張高周波帯域信号のスペクトルはpatch_spec［sfb］と表され、再構成音調信号のスペクトルはrecon_spec［sfb］と表される。ノイズフロアエネルギーはE_{noise_floor}［sfb］と表される。例えば、ノイズフロアエネルギーは、スペクトル間隔とサブバンドとの対応関係に従ってスペクトル間隔のノイズフロアエネルギーパラメータE_{noise_floor}［tile］に基づいて取得することができ、すなわち、tile番目のスペクトル間隔における各sfbのノイズフロアエネルギーは、E_{noise_floor}［tile］に等しい。

sfb番目の高周波サブバンドの場合、現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するステップは、以下のケースを含み得る。

ケース1：
sfb番目のサブバンドにpatch_spec［sfb］のみが存在する場合、sfb番目のサブバンドの融合信号スペクトルは、
merge_spec［sfb］［k］＝patch_spec［sfb］［k］，k∈［sfb_offset［sfb］，sfb_offset［sfb＋1］）と表される。

ここで、merge_spec［sfb］［k］は、sfb番目のサブバンドのk番目の周波数での融合信号スペクトルを表し、sfb_offsetはサブバンド分割テーブルであり、sfb_offset［sfb］とsfb_offset［sfb＋1］は、それぞれsfb番目のサブバンドと（sfb＋1）番目のサブバンドの開始点である。

ケース2：
sfb番目のサブバンドにpatch_spec［sfb］とenc_spec［sfb］のみが存在する場合は、patch_spec［sfb］とenc_spec［sfb］を結合することによってsfb番目のサブバンドの融合信号スペクトルが得られる。

enc_spec［sfb］［k］がsfb番目のサブバンドのk番目の周波数において0である場合は、
merge_spec［sfb］［k］＝patch_spec［sfb］［k］，if enc_spec［sfb］［k］＝0である。

enc_spec［sfb］［k］がsfb番目のサブバンドのk番目の周波数において0でない場合は、
merge_spec［sfb］［k］＝enc_spec［sfb］［k］，if enc_spec［sfb］［k］！＝0である。

ケース3：
sfb番目のサブバンドにpatch_spec［sfb］とrecon_spec［sfb］のみが存在する場合は、patch_spec［sfb］とrecon_spec［sfb］を結合することによってsfb番目のサブバンドの融合信号スペクトルが得られる。

recon_spec［sfb］［k］がsfb番目のサブバンドのk番目の周波数において0である場合は、
merge_spec［sfb］［k］＝g_{noise_floor}［sfb］＊patch_spec［sfb］［k］，if recon_spec［sfb］［k］＝0である。

ここで、g_{noise_floor}［sfb］はsfb番目のサブバンドのノイズフロア利得パラメータであり、sfb番目のサブバンドのノイズフロアエネルギーパラメータとpatch_spec［sfb］のエネルギーとに基づく計算によって得られる、すなわち、

である。

ここで、sfb_width［sfb］はsfb番目のサブバンドの幅であり、
sfb_width［sfb］＝sfb_offset［sfb＋1］－sfb_offset［sfb］と表される。

ここで、E_patch［sfb］はpatch_spec［sfb］のエネルギーである。計算プロセスは、
E_patch［sfb］＝Σ_k（patch_spec［sfb］［k］）²である。

ここで、kの値の範囲は、k∈［sfb_offset［sfb］、sfb_offset［sfb＋1］）である。

recon_spec［sfb］［k］がsfb番目のサブバンドのk番目の周波数において0でない場合は、
merge_spec［sfb］［k］＝recon_spec［sfb］［k］，if enc_spec［sfb］［k］！＝0である。

ケース4：
sfb番目のサブバンドにenc_spec［sfb］、patch_spec［sfb］、およびrecon_spec［sfb］が存在する場合は、enc_spec［sfb］、patch_spec［sfb］、およびrecon_spec［sfb］を結合することによって融合信号を得ることができる。

2つの融合方式が存在し得る。1つは、enc_spec［sfb］、patch_spec［sfb］、およびrecon_spec［sfb］のスペクトルを結合するものであり、recon_spec［sfb］は主成分であり、enc_spec［sfb］のエネルギーとエネルギーpatch_spec［sfb］はノイズフロアエネルギーレベルに調整される。もう1つは、enc_spec［sfb］とpatch_spec［sfb］を結合するものである。

方式1：
patch_spec［sfb］とenc_spec［sfb］とに基づいて得られる高周波信号のスペクトルをノイズフロア利得を用いて調整し、recon_spec［sfb］をpatch_spec［sfb］およびenc_spec［sfb］と結合することで、融合信号スペクトルを得る。

具体的な方法は以下の通りである。

recon_spec［sfb］［k］がsfb番目のサブバンドのk番目の周波数において0でない場合は、
merge_spec［sfb］［k］＝recon_spec［sfb］［k］，if recon_spec［sfb］［k］！＝0である。

recon_spec［sfb］［k］がsfb番目のサブバンドのk番目の周波数において0である場合は、
merge_spec［sfb］［k］＝g_{noise_floor}［sfb］＊（patch_spec［sfb］［k］＋enc_spec［sfb］［k］），if recon_spec［sfb］［k］＝0である。

ここで、g_{noise_floor}［sfb］はsfb番目のサブバンドのノイズフロア利得パラメータであり、sfb番目のサブバンドのノイズフロアエネルギーパラメータと、patch_spec［sfb］のエネルギーと、enc_spec［sfb］のエネルギーとに基づく計算によって得られる、すなわち

である。

ここで、E_patch［sfb］はpatch_spec［sfb］のエネルギーである。

E_enc［sfb］はenc_spec［sfb］のエネルギーである。計算プロセスは、
E_enc［sfb］＝Σ_k（enc_spec［sfb］［k］）²である。

方式2：
Recon_spec［sfb］は予約されていない。融合信号はpatch_spec［sfb］とenc_spec［sfb］とを含む。

具体的な実装はケース2のそれと同じである。

方式1と方式2における選択方針：

方式1と方式2における前述の2つの高周波スペクトル融合方法のうちの1つは、予め設定された方式で選択されてよく、または特定の方式で決定されてよい。例えば、方式1は信号が既定の条件を満たす場合に選択される。具体的な選択方式は本発明の本実施形態で限定されない。

図6は、本発明の一実施形態によるオーディオ符号化器の構造を説明するものであり、これは、
オーディオ信号の現在のフレームを取得するように構成された信号取得ユニット601であって、現在のフレームが高周波帯域信号と低周波帯域信号とを含む、信号取得ユニット601と、
高周波帯域信号と低周波帯域信号とに基づいて第1の符号化パラメータを取得し、且つ高周波帯域信号に基づいて現在のフレームの第2の符号化パラメータを取得するように構成されたパラメータ取得ユニット602であって、第2の符号化パラメータが音調成分情報を含む、パラメータ取得ユニット602と、
第1の符号化パラメータと第2の符号化パラメータとに対してビットストリーム多重化を実行して、符号化ビットストリームを取得するように構成された符号化ユニット603とを含む。

オーディオ符号化器の具体的な実装については、前述のオーディオ符号化方法を参照されたい。ここでは詳細を再度説明しない。

図7は、本発明の一実施形態によるオーディオ復号器の構造を説明するものであって、これは、
符号化ビットストリームを取得するように構成された受信ユニット701と、
符号化ビットストリームに対してビットストリーム逆多重化を実行して、オーディオ信号の現在のフレームの第1の符号化パラメータと現在のフレームの第2の符号化パラメータとを取得するように構成された逆多重化ユニット702であって、現在のフレームの第2の符号化パラメータが音調成分情報を含む、逆多重化ユニット702と、
第1の符号化パラメータに基づいて現在のフレームの第1の高周波帯域信号と現在のフレームの第1の低周波帯域信号を取得し、且つ第2の符号化パラメータに基づいて現在のフレームの第2の高周波帯域信号を取得するように構成された取得ユニット703であって、第2の高周波帯域信号が再構成音調信号を含む、取得ユニット703と、
現在のフレームの第2の高周波帯域信号と現在のフレームの第1の高周波帯域信号とに基づいて現在のフレームの融合高周波帯域信号を取得するように構成された融合ユニット704とを含む。

オーディオ復号器の具体的な実装については、前述のオーディオ復号方法を参照されたい。ここでは詳細を再度説明しない。

装置のモジュール／ユニット間の情報交換やその実行プロセスといった内容が、本出願の方法の実施形態と同じ考えに基づいており、本出願の方法の実施形態と同じ技術的効果をもたらすことに注意されたい。具体的な内容については、本出願の方法の実施形態の前述の説明を参照されたく、ここでは詳細を再度説明しない。

本発明の一実施形態は、命令を含むコンピュータ可読記憶媒体をさらに提供する。命令がコンピュータ上で実行されると、コンピュータは、前述のオーディオ符号化方法を、または前述のオーディオ復号方法を、実施することが可能になる。

本発明の一実施形態は、命令を含むコンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータは、前述のオーディオ符号化方法を、または前述のオーディオ復号方法を、実施することが可能になる。

本出願の一実施形態は、コンピュータ記憶媒体をさらに提供する。コンピュータ記憶媒体はプログラムを格納し、プログラムは、方法の実施形態で説明されているステップの一部または全部を実行するために使用される。

以下では、本出願の一実施形態による別のオーディオ符号化デバイスについて説明する。図8を参照すると、オーディオ符号化デバイス1000は、
受信器1001と、送信器1002と、プロセッサ1003と、メモリ1004とを含む（オーディオ符号化デバイス1000には1つ以上のプロセッサ1003があってよく、図8では1つのプロセッサがある一例が使用されている）。本出願のいくつかの実施形態において、受信器1001、送信器1002、プロセッサ1003、およびメモリ1004は、バスを使用して、または別の方式で、接続されてよい。図8では、受信器1001、送信器1002、プロセッサ1003、およびメモリ1004がバスを使用して接続される一例が使用されている。

メモリ1004は読み取り専用メモリとランダムアクセスメモリを含み得、プロセッサ1003に命令とデータを提供できる。メモリ1004の一部は不揮発性ランダムアクセスメモリ（non-volatile random access memory、NVRAM）をさらに含み得る。メモリ1004は、オペレーティングシステムおよび作業命令、実行可能モジュールもしくはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを格納する。作業命令は、様々な作業を実施するための様々な作業命令を含み得る。オペレーティングシステムは、様々な基本サービスを実施し、ハードウェアベースのタスクを処理する、様々なシステムプログラムを含み得る。

プロセッサ1003はオーディオ符号化デバイスの動作を制御し、プロセッサ1003は中央処理装置（central processing unit、CPU）と呼ばれることもある。具体的な用途では、オーディオ符号化デバイスのコンポーネントがバスシステムを使用して互いに接続される。データバスに加えて、バスシステムは、電力バス、制御バス、および状態信号バスをさらに含み得る。しかしながら、説明を明確にするため、図では様々なタイプのバスがバスシステムとして示されている。

本出願の実施形態で開示されている方法はプロセッサ1003に適用されてよく、またはプロセッサ1003によって実施されてよい。プロセッサ1003は集積回路チップであってよく、信号処理能力を有する。実施過程において、前述の方法のステップは、プロセッサ1003内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形をとる命令を使用することによって、実施できる。プロセッサ1003は、汎用プロセッサ、デジタル信号プロセッサ（digital signal processor、DSP）、特定用途向け集積回路（application specific integrated circuit、ASIC）、フィールドプログラマブルゲートアレイ（field-programmable gate array、FPGA）もしくは別のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタロジックデバイス、またはディスクリートハードウェアコンポーネントであってよい。プロセッサは、本出願の実施形態で開示されている方法、ステップ、および論理ブロック図を実施または実行できる。汎用プロセッサはマイクロプロセッサであってよく、またはプロセッサは従来のいずれかのプロセッサなどであってよい。本出願の実施形態を参照して開示されている方法のステップは、ハードウェア復号プロセッサによって直接実行および完了されてよく、または復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせを使用して実行および完了されてもよい。ソフトウェアモジュールは当技術の成熟した記憶媒体に、例えば、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、電気的消去可能プログラム可能メモリ、またはレジスタに、配置されてよい。記憶媒体はメモリ1004に配置され、プロセッサ1003はメモリ1004内の情報を読み取り、プロセッサのハードウェアと共同して前述の方法のステップを完遂する。

受信器1001は、入力された数字または文字情報を受け取り、且つオーディオ符号化デバイスの関連設定および機能制御に関連する信号入力を生成するように構成されてよい。送信器1002はディスプレイなどの表示装置を含み得、送信器1002は、外部インターフェイスを通じて数字または文字情報を出力するように構成されてよい。

本出願の本実施形態において、プロセッサ1003は、前述のオーディオ符号化方法を実施するように構成される。

以下では、本出願の一実施形態による別のオーディオ復号デバイスについて説明する。図9を参照すると、オーディオ復号デバイス1100は、
受信器1101と、送信器1102と、プロセッサ1103と、メモリ1104とを含む（オーディオ復号デバイス1100には1つ以上のプロセッサ1103があってよく、図9では1つのプロセッサがある一例が使用されている）。本出願のいくつかの実施形態において、受信器1101、送信器1102、プロセッサ1103、およびメモリ1104は、バスを使用して、または別の方式で、接続されてよい。図9では、受信器1101、送信器1102、プロセッサ1103、およびメモリ1104がバスを使用して接続される一例が使用されている。

メモリ1104は読み取り専用メモリとランダムアクセスメモリを含み得、プロセッサ1103に命令とデータを提供できる。メモリ1104の一部はNVRAMをさらに含み得る。メモリ1104は、オペレーティングシステムおよび作業命令、実行可能モジュールもしくはデータ構造、それらのサブセット、またはそれらの拡張セットを格納する。作業命令は、様々な作業を実施するための様々な作業命令を含み得る。オペレーティングシステムは、様々な基本サービスを実施し、ハードウェアベースのタスクを処理する、様々なシステムプログラムを含み得る。

プロセッサ1103はオーディオ復号デバイスの動作を制御し、プロセッサ1103はCPUと呼ばれることもある。具体的な用途では、オーディオ復号デバイスのコンポーネントがバスシステムを使用して互いに接続される。データバスに加えて、バスシステムは、電力バス、制御バス、および状態信号バスをさらに含み得る。しかしながら、説明を明確にするため、図では様々なタイプのバスがバスシステムとして示されている。

本出願の実施形態で開示されている方法はプロセッサ1103に適用されてよく、またはプロセッサ1103によって実施されてよい。プロセッサ1103は集積回路チップであってよく、信号処理能力を有する。実施過程において、前述の方法のステップは、プロセッサ1103内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形をとる命令を使用することによって、完遂できる。プロセッサ1103は、汎用プロセッサ、DSP、ASIC、FPGAもしくは別のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタロジックデバイス、またはディスクリートハードウェアコンポーネントであってよい。プロセッサは、本出願の実施形態で開示されている方法、ステップ、および論理ブロック図を実施または実行できる。汎用プロセッサはマイクロプロセッサであってよく、またはプロセッサは従来のいずれかのプロセッサなどであってよい。本出願の実施形態を参照して開示されている方法のステップは、ハードウェア復号プロセッサによって直接実行および完了されてよく、または復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせを使用して実行および完了されてもよい。ソフトウェアモジュールは当技術の成熟した記憶媒体に、例えば、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、電気的消去可能プログラム可能メモリ、またはレジスタに、配置されてよい。記憶媒体はメモリ1104に配置され、プロセッサ1103はメモリ1104内の情報を読み取り、プロセッサのハードウェアと共同して前述の方法のステップを完遂する。

本出願の本実施形態において、プロセッサ1103は、前述のオーディオ復号方法を実施するように構成される。

別の可能な一設計において、オーディオ符号化デバイスまたはオーディオ復号デバイスが端末内のチップである場合は、チップは処理ユニットと通信ユニットとを含む。処理ユニットは、例えば、プロセッサであってよい。通信ユニットは、例えば、入出力インターフェイス、ピン、または回路であってよい。処理ユニットはストレージユニットに格納されたコンピュータ実行可能命令を実行でき、その結果、端末内のチップが第1の態様の方法を実施する。任意に選べることとして、ストレージユニットはチップ内のストレージユニットであり、例えば、レジスタまたはキャッシュである。あるいは、ストレージユニットは、端末内にあってチップの外部に位置するストレージユニットであってもよく、例えば、読み取り専用メモリ（read-only memory、ROM）、または静的情報および命令を格納できる別種の静的記憶装置であってもよく、例えば、ランダムアクセスメモリ（random access memory、RAM）であってもよい。

上記のどこかで言及されているプロセッサは、汎用中央処理装置、マイクロプロセッサ、ASIC、または第1の態様による方法のプログラム実行を制御するように構成された1つ以上の集積回路であってよい。

加えて、記述されている装置の実施形態が単なる例であることに注意されたい。別々の部分として記述されているユニットは物理的に別々であってもなくてよく、ユニットとして表示されている部分は物理的なユニットであってもなくてよく、1箇所に配置されてよく、または複数のネットワークユニット上に分散されてもよい。実施形態のソリューションの目的を達成するため、実際のニーズに従ってモジュールの一部または全部が選択されてよい。加えて、本出願で提供される装置の実施形態の添付の図面では、モジュール間の接続関係がモジュールが互いに通信接続を有することを示しており、これは具体的には1つ以上の通信バスまたは信号ケーブルとして実装されてよい。

当業者なら、本出願が、必要な汎用ハードウェアに加えてソフトウェアによって実装されてよいことを、または当然ながら、特定用途向け集積回路、専用CPU、専用メモリ、専用コンポーネントなどを含む専用ハードウェアによって実装されてよいことを、前述の実装の説明に基づいて明確に理解できる。一般的に、コンピュータプログラムによって実行できるどの機能も対応するハードウェアを使用することによって容易に実装でき、同じ機能を達成するために使用される具体的なハードウェア構造は、様々な形態であってよく、例えば、アナログ回路、デジタル回路、専用回路などの形態であってよい。しかしながら、本出願では、ほとんどの場合、ソフトウェアプログラム実装がより良い実装である。このような理解に基づいて、本出願の技術的なソリューションは本質的に、または従来の技術に寄与する部分は、ソフトウェア製品の形態で実装されてよい。ソフトウェア製品は、コンピュータのフロッピー（登録商標）ディスク、USBフラッシュドライブ、リムーバブルハードディスク、ROM、RAM、磁気ディスク、またはCD-ROMなどの可読記憶媒体に格納され、本出願の実施形態で説明されている方法を実施することをコンピュータデバイス（パーソナルコンピュータ、サーバ、ネットワークデバイスなどであってよい）に命令するいくつかの命令を含む。

前述の実施形態の全部または一部は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせを使用することによって実装されてよい。ソフトウェアを使用して実施形態を実装する場合は、実施形態の全部または一部がコンピュータプログラム製品の形態で実装されてよい。

コンピュータプログラム製品は1つ以上のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータに読み込まれて実行されると、本出願の実施形態による手順または機能が全面的か部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または別のプログラム可能な装置であってよい。コンピュータ命令はコンピュータ可読記憶媒体に格納されてよく、または或るコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体へ送信されてよい。例えば、コンピュータ命令は、或るウェブサイト、コンピュータ、サーバ、またはデータセンタから別のウェブサイト、コンピュータ、サーバ、またはデータセンタへ、有線方式（例えば、同軸ケーブル、光ファイバ、またはデジタル加入者回線（DSL））で、または無線方式（例えば、赤外線、電波、またはマイクロ波）で、送信されてよい。コンピュータ可読記憶媒体はコンピュータによってアクセス可能ないずれかの使用可能な媒体であってよく、または1つ以上の使用可能な媒体を統合したサーバやデータセンタなどのデータ記憶装置であってよい。使用可能な媒体は、磁気媒体（例えば、フロッピー（登録商標）ディスク、ハードディスク、または磁気テープ）、光媒体（例えば、DVD）、半導体媒体（例えば、ソリッドステートドライブ（Solid State Drive、SSD））などであってよい。

110 符号化コンポーネント
120 復号コンポーネント
130 モバイル端末
131 収集コンポーネント
132 チャネル符号化コンポーネント
140 モバイル端末
141 オーディオ再生コンポーネント
142 チャネル復号コンポーネント
150 ネットワークエレメント
151 チャネル復号コンポーネント
152 チャネル符号化コンポーネント
601 信号取得ユニット
602 パラメータ取得ユニット
603 符号化ユニット
701 受信ユニット
702 逆多重化ユニット
703 取得ユニット
704 融合ユニット
1000 オーディオ符号化デバイス
1001 受信器
1002 送信器
1003 プロセッサ
1004 メモリ
1100 オーディオ復号デバイス
1101 受信器
1102 送信器
1103 プロセッサ
1104 メモリ

Claims

オーディオ符号化方法であって、
オーディオ信号の現在のフレームを取得するステップであって、前記現在のフレームが高周波帯域信号と低周波帯域信号とを含む、ステップと、
前記高周波帯域信号と前記低周波帯域信号とに基づいて第1の符号化パラメータを取得するステップと、
前記高周波帯域信号に基づいて前記現在のフレームの第2の符号化パラメータを取得するステップであって、前記第2の符号化パラメータが音調成分情報を含む、ステップと、
前記第1の符号化パラメータと前記第2の符号化パラメータとに対してビットストリーム多重化を実行して、符号化ビットストリームを取得するステップと
を含む方法。
前記高周波帯域信号に基づいて前記現在のフレームの第2の符号化パラメータを取得する前記ステップは、
前記高周波帯域信号が音調成分を含むかどうかを検出するステップと、
前記高周波帯域信号が音調成分を含む場合に、前記高周波帯域信号に基づいて前記現在のフレームの前記第2の符号化パラメータを取得するステップと
を含む、請求項1に記載の方法。
前記音調成分情報は、音調成分数量情報、音調成分位置情報、音調成分振幅情報、または音調成分エネルギー情報のうちの少なくとも1つを含む、請求項1または2に記載の方法。
前記第2の符号化パラメータはノイズフロアパラメータをさらに含む、請求項1から3のいずれか一項に記載の方法。
前記ノイズフロアパラメータはノイズフロアエネルギーを含む、請求項4に記載の方法。
オーディオ復号方法であって、
符号化ビットストリームを取得するステップと、
前記符号化ビットストリームに対してビットストリーム逆多重化を実行して、オーディオ信号の現在のフレームの第1の符号化パラメータと前記現在のフレームの第2の符号化パラメータとを取得するステップであって、前記現在のフレームの前記第2の符号化パラメータが音調成分情報を含む、ステップと、
前記第1の符号化パラメータに基づいて前記現在のフレームの第1の高周波帯域信号と前記現在のフレームの第1の低周波帯域信号とを取得するステップと、
前記第2の符号化パラメータに基づいて前記現在のフレームの第2の高周波帯域信号を取得するステップであって、前記第2の高周波帯域信号が再構成音調信号を含む、ステップと、
前記現在のフレームの前記第2の高周波帯域信号と前記現在のフレームの前記第1の高周波帯域信号とに基づいて前記現在のフレームの融合高周波帯域信号を取得するステップと
を含む方法。
前記第1の高周波帯域信号は、前記第1の符号化パラメータに基づいて直接復号を実行することによって得られる復号高周波帯域信号と、前記第1の低周波帯域信号に基づいて周波数帯域拡張を実行することによって得られる拡張高周波帯域信号とのうちの少なくとも一方を含む、請求項6に記載の方法。
前記第1の高周波帯域信号が前記拡張高周波帯域信号を含む場合、前記現在のフレームの前記第2の高周波帯域信号と前記現在のフレームの前記第1の高周波帯域信号とに基づいて前記現在のフレームの融合高周波帯域信号を取得する前記ステップは、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、前記現在の周波数での拡張高周波帯域信号のスペクトルと前記現在のサブバンドのノイズフロア情報とに基づいて前記現在の周波数での融合高周波帯域信号を取得するステップ、または、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、前記現在の周波数での前記再構成音調信号の前記スペクトルに基づいて前記現在の周波数での融合高周波帯域信号を取得するステップ
を含む、請求項7に記載の方法。
前記ノイズフロア情報はノイズフロア利得パラメータを含む、請求項8に記載の方法。
前記現在のサブバンドの前記ノイズフロア利得パラメータは、前記現在のサブバンドの幅と、前記現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、前記現在のサブバンドのノイズフロアエネルギーとに基づいて得られる、請求項9に記載の方法。
前記第1の高周波帯域信号が前記復号高周波帯域信号と前記拡張高周波帯域信号とを含む場合、前記現在のフレームの前記第2の高周波帯域信号と前記現在のフレームの前記第1の高周波帯域信号とに基づいて前記現在のフレームの融合高周波帯域信号を取得する前記ステップは、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、前記現在の周波数での前記再構成音調信号の前記スペクトルに基づいて前記現在の周波数での融合高周波帯域信号を取得するステップ、または、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、前記現在の周波数での拡張高周波帯域信号のスペクトルと、前記現在の周波数での復号高周波帯域信号のスペクトルと、前記現在のサブバンドのノイズフロア情報とに基づいて、前記現在の周波数での融合高周波帯域信号を取得するステップ
を含む、請求項7に記載の方法。
前記ノイズフロア情報はノイズフロア利得パラメータを含む、請求項11に記載の方法。
前記現在のサブバンドの前記ノイズフロア利得パラメータは、前記現在のサブバンドの幅と、前記現在のサブバンドのノイズフロアエネルギーと、前記現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、前記現在のサブバンドの復号高周波帯域信号のスペクトルのエネルギーとに基づいて得られる、請求項12に記載の方法。
前記第1の高周波帯域信号が前記復号高周波帯域信号と前記拡張高周波帯域信号とを含む場合、前記方法は、
既定の指示情報、または復号によって得られる指示情報に基づいて、前記復号高周波帯域信号、前記拡張高周波帯域信号、および前記再構成音調信号から少なくとも1つの信号を選択して、前記現在のフレームの前記融合高周波帯域信号を取得するステップ
をさらに含む、請求項7に記載の方法。
前記第2の符号化パラメータは、前記ノイズフロアエネルギーを示すために使用されるノイズフロアパラメータを含む、請求項10または13に記載の方法。
前記既定の条件は、前記再構成音調信号の前記スペクトルの前記値が0または既定の閾値未満であることを含む、請求項8または11に記載の方法。
オーディオ信号の現在のフレームを取得するように構成された信号取得ユニットであって、前記現在のフレームが高周波帯域信号と低周波帯域信号とを含む、信号取得ユニットと、
前記高周波帯域信号と前記低周波帯域信号とに基づいて第1の符号化パラメータを取得し、且つ前記高周波帯域信号に基づいて前記現在のフレームの第2の符号化パラメータを取得するように構成されたパラメータ取得ユニットであって、前記第2の符号化パラメータが音調成分情報を含む、パラメータ取得ユニットと、
前記第1の符号化パラメータと第2の前記符号化パラメータとに対してビットストリーム多重化を実行して、符号化ビットストリームを取得するように構成された符号化ユニットと
を含む、オーディオ符号化器。
前記パラメータ取得ユニットは、
前記高周波帯域信号が音調成分を含むかどうかを検出し、且つ
前記高周波帯域信号が音調成分を含む場合に、前記高周波帯域信号に基づいて前記現在のフレームの前記第2の符号化パラメータを取得する
ようにさらに構成される、請求項17に記載のオーディオ符号化器。
前記音調成分情報は、音調成分数量情報、音調成分位置情報、音調成分振幅情報、または音調成分エネルギー情報のうちの少なくとも1つを含む、請求項17または18に記載のオーディオ符号化器。
前記第2の符号化パラメータはノイズフロアパラメータをさらに含む、請求項17から19のいずれか一項に記載のオーディオ符号化器。
前記ノイズフロアパラメータはノイズフロアエネルギーを示すために使用される、請求項20に記載のオーディオ符号化器。
符号化ビットストリームを取得するように構成された受信ユニットと、
前記符号化ビットストリームに対してビットストリーム逆多重化を実行して、オーディオ信号の現在のフレームの第1の符号化パラメータと前記現在のフレームの第2の符号化パラメータとを取得するように構成された逆多重化ユニットであって、前記現在のフレームの前記第2の符号化パラメータが音調成分情報を含む、逆多重化ユニットと、
前記第1の符号化パラメータに基づいて前記現在のフレームの第1の高周波帯域信号と前記現在のフレームの第1の低周波帯域信号を取得し、且つ前記第2の符号化パラメータに基づいて前記現在のフレームの第2の高周波帯域信号を取得するように構成された取得ユニットであって、前記第2の高周波帯域信号が再構成音調信号を含む、取得ユニットと、
前記現在のフレームの前記第2の高周波帯域信号と前記現在のフレームの前記第1の高周波帯域信号とに基づいて前記現在のフレームの融合高周波帯域信号を取得するように構成された融合ユニットと
を含む、オーディオ復号器。
前記第1の高周波帯域信号は、前記第1の符号化パラメータに基づいて直接復号を実行することによって得られる復号高周波帯域信号と、前記第1の低周波帯域信号に基づいて周波数帯域拡張を実行することによって得られる拡張高周波帯域信号とのうちの少なくとも一方を含む、請求項22に記載のオーディオ復号器。
前記第1の高周波帯域信号が前記拡張高周波帯域信号を含む場合、前記融合ユニットは、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、前記現在の周波数での拡張高周波帯域信号のスペクトルと前記現在のサブバンドのノイズフロア情報とに基づいて前記現在の周波数での融合高周波帯域信号を取得し、または、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、前記現在の周波数での前記再構成音調信号の前記スペクトルに基づいて前記現在の周波数での融合高周波帯域信号を取得する
ようにさらに構成される、請求項23に記載のオーディオ復号器。
前記ノイズフロア情報はノイズフロア利得パラメータを含む、請求項24に記載のオーディオ復号器。
前記現在のサブバンドの前記ノイズフロア利得パラメータは、前記現在のサブバンドの幅と、前記現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、前記現在のサブバンドのノイズフロアエネルギーとに基づいて得られる、請求項25に記載のオーディオ復号器。
前記第1の高周波帯域信号が前記復号高周波帯域信号と前記拡張高周波帯域信号とを含む場合、前記融合ユニットは、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たさない場合に、前記現在の周波数での前記再構成音調信号の前記スペクトルに基づいて前記現在の周波数での融合高周波帯域信号を取得し、または、
前記現在のフレームの現在のサブバンドの現在の周波数での再構成音調信号のスペクトルの値が既定の条件を満たす場合に、前記現在の周波数での拡張高周波帯域信号のスペクトルと、前記現在の周波数での復号高周波帯域信号のスペクトルと、前記現在のサブバンドのノイズフロア情報とに基づいて、前記現在の周波数での融合高周波帯域信号を取得する
ようにさらに構成される、請求項23に記載のオーディオ復号器。
前記ノイズフロア情報はノイズフロア利得パラメータを含む、請求項27に記載のオーディオ復号器。
前記現在のサブバンドの前記ノイズフロア利得パラメータは、前記現在のサブバンドの幅と、前記現在のサブバンドのノイズフロアエネルギーと、前記現在のサブバンドの拡張高周波帯域信号のスペクトルのエネルギーと、前記現在のサブバンドの復号高周波帯域信号のスペクトルのエネルギーとに基づいて得られる、請求項28に記載のオーディオ復号器。
前記第1の高周波帯域信号が前記復号高周波帯域信号と前記拡張高周波帯域信号とを含む場合、前記融合ユニットは、
既定の指示情報、または復号によって得られる指示情報に基づいて、前記復号高周波帯域信号、前記拡張高周波帯域信号、および前記再構成音調信号から少なくとも1つの信号を選択して、前記現在のフレームの前記融合高周波帯域信号を取得する
ようにさらに構成される、請求項23に記載のオーディオ復号器。
前記第2の符号化パラメータは、前記ノイズフロアエネルギーを示すために使用されるノイズフロアパラメータを含む、請求項26または29に記載のオーディオ復号器。
前記既定の条件は、前記再構成音調信号の前記スペクトルの前記値が0または既定の閾値未満であることを含む、請求項31または34に記載のオーディオ復号器。
オーディオ符号化デバイスであって、少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、メモリに接続され、且つ前記メモリ内の命令を読み取って実行して、請求項1から5のいずれか一項に記載の方法を実施するように構成される、オーディオ符号化デバイス。
オーディオ復号デバイスであって、少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、メモリに接続され、且つ前記メモリ内の命令を読み取って実行して、請求項6から16のいずれか一項に記載の方法を実施するように構成される、オーディオ復号デバイス。
命令を記憶したコンピュータ可読記憶媒体であって、前記命令がコンピュータ上で実行されると、前記コンピュータは請求項1から16のいずれか一項に記載の方法を実施することが可能になる、コンピュータ可読記憶媒体。