JP7470800B2

JP7470800B2 - オーディオ・エンコードおよびデコード方法ならびにオーディオ・エンコードおよびデコード装置

Info

Publication number: JP7470800B2
Application number: JP2022542649A
Authority: JP
Inventors: シア，ビンイン; リ，ジィアウエイ; ワン，ジョ
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-01-13
Filing date: 2021-01-12
Publication date: 2024-04-18
Anticipated expiration: 2041-01-12
Also published as: WO2021143694A1; US20220343927A1; EP4080504A4; KR20220123109A; JP2023510831A; CN113192521A; EP4080504A1

Description

本願は、2020年1月13日に中国国家知識産権局に出願され、「オーディオ・エンコードおよびデコード方法ならびにオーディオ・エンコードおよびデコード装置」と題された中国特許出願第202010033429.6号に対する優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。

技術分野
本願は、オーディオ信号のエンコードおよびデコード技術の分野に関し、特に、オーディオ・エンコードおよびデコード方法およびオーディオ・エンコードおよびデコード装置に関する。

生活の質が向上するにつれて、高品質のオーディオに対する要求が増し続けている。限られた帯域幅でオーディオ信号をより良く伝送するために、オーディオ信号は、通例、まずエンコードされる必要があり、次いで、エンコードされたビットストリームが、デコーダ側に伝送される。デコーダ側は、受信したビットストリームをデコードして、デコードされたオーディオ信号を取得し、デコードされたオーディオ信号が再生のために使用される。

よって、オーディオ信号に対して周波数領域エンコードおよびデコードを実行する際のエンコードおよびデコード効率を改善する方法が、緊急に解決される必要のある技術的課題となる。

本願の実施形態は、オーディオ信号のエンコードおよびデコード効率を改善するために、オーディオ・エンコードおよびデコード方法ならびにオーディオ・エンコードおよびデコード装置を提供する。

前述の技術的課題を解決するために、本願の実施形態は、以下の技術的解決策を提供する。

本発明の第1の側面は、オーディオ・エンコード方法を提供する。本方法は：
オーディオ信号の現在フレームを得るステップであって、前記現在フレームは高周波数帯域信号および低周波数帯域信号を含む、ステップと；
前記高周波数帯域信号および前記低周波数帯域信号に基づいて前記現在フレームの第1のエンコード・パラメータを得るステップと；
前記高周波数帯域信号に基づいて前記現在フレームの第2のエンコード・パラメータを得るステップであって、前記第2のエンコード・パラメータが前記高周波数帯域信号のトーン成分情報を含む、ステップと；
前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得るステップであって、前記第3のエンコード・パラメータは、エンコードされる必要がある前記高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む、ステップと；
前記第1のエンコード・パラメータ、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに対してビットストリーム多重化を実行して、エンコードされたビットストリームを得るステップとを含む。

第1の側面を参照して、ある実装では、前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得ることは：前記高周波数帯域信号内にあり、かつ、トーン成分を含むサブバンドに基づいて、そのサブバンド包絡情報がエンコードされる必要があるサブバンドを決定することを含み、そのサブバンド包絡情報がエンコードされる必要がある該サブバンドは、トーン成分を含む前記サブバンドと交わりを有しない。

第1の側面または第1の側面の上記実装を参照して、ある実装では、前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得ることは：前記第2のエンコード・パラメータおよび前記高周波数帯域信号に基づいて前記現在フレームの前記第3のエンコード・パラメータを得ることを含む。

第1の側面または第1の側面の上記実装を参照して、ある実装では、前記高周波数帯域信号の前記トーン成分情報は、前記高周波数帯域信号のトーン成分の位置情報を含み、前記トーン成分の位置情報は、前記高周波数帯域信号内にあり、かつトーン成分を含む前記サブバンドを示す。

本発明の第2の側面は、オーディオ・デコード方法であって：エンコードされたビットストリームを取得するステップと；前記エンコードされたビットストリームに対してビットストリーム多重分離を実行して、オーディオ信号の現在フレームの第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータを取得するステップであって、前記第2のエンコード・パラメータは前記現在フレームの高周波数帯域信号のトーン成分情報を含み、前記第3のエンコード・パラメータは前記高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む、ステップと；前記第1のエンコード・パラメータに基づいて前記現在フレームの第1の高周波数帯域信号および第1の低周波数帯域信号を取得するステップと；前記第2のエンコード・パラメータに基づいて前記現在フレームの第2の高周波数帯域信号を取得するステップであって、前記第2の高周波数帯域信号は再構成されたトーン信号を含む、ステップと；前記第1の低周波数帯域信号、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、前記現在フレームの第3の高周波数帯域信号を取得するステップと；前記現在フレームの前記第1の高周波数帯域信号、前記第2の高周波数帯域信号、および前記第3の高周波数帯域信号に基づいて、前記現在フレームの融合高周波数帯域信号を取得するステップと；前記第1の低周波数帯域信号および前記融合高周波数帯域信号に基づいて前記現在フレームの出力オーディオ信号を得るステップとを含む、オーディオ・デコード方法を提供する。

第2の側面を参照して、ある実装では、前記トーン成分情報は、前記現在フレームの前記高周波数帯域信号に含まれるトーン成分の数量情報および位置情報を含み、前記トーン成分の前記位置情報は、前記高周波数帯域信号に含まれるサブバンドに対応し；前記第1の低周波数帯域信号、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、前記現在フレームの第3の高周波数帯域信号を取得するステップは：前記トーン成分の前記数量情報および前記位置情報に基づいて、前記現在フレームの前記高周波数帯域信号内にあり、トーン成分を含むサブバンドを決定するステップと；トーン成分を含む前記サブバンドに基づいてサブバンドの前記一部の位置情報を決定するステップであって、トーン成分を含む前記サブバンドはサブバンドの前記一部と交わりをもたない、ステップと；前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドのサブバンド包絡情報を取得するステップと；前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドの前記サブバンド包絡情報と、サブバンドの前記一部の前記サブバンド包絡情報と、前記第1の低周波数帯域信号とに基づいて周波数帯域拡張を実行して、前記現在フレームの前記第3の高周波数帯域信号を得るステップとを含む。

第2の側面または第2の側面の上記実装を参照して、ある実装では、トーン成分を含む前記サブバンドの前記サブバンド包絡情報は、プリセット値である。

本発明の第3の側面は、オーディオ・エンコーダであって：オーディオ信号の現在フレームを得るように構成された信号取得ユニットであって、前記現在フレームは高周波数帯域信号および低周波数帯域信号を含む、信号取得ユニットと；前記高周波数帯域信号および前記低周波数帯域信号に基づいて前記現在フレームの第1のエンコード・パラメータを得るステップと；前記高周波数帯域信号に基づいて前記現在フレームの第2のエンコード・パラメータを得るステップであって、前記第2のエンコード・パラメータが前記高周波数帯域信号のトーン成分情報を含む、ステップと；前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得るステップであって、前記第3のエンコード・パラメータは、エンコードされる必要がある前記高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む、ステップとを実行するように構成されたパラメータ取得ユニットと；前記第1のエンコード・パラメータ、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに対してビットストリーム多重化を実行して、エンコードされたビットストリームを得るように構成されたエンコード・ユニットとを含む、オーディオ・エンコーダを提供する。

第3の側面を参照して、ある実装では、前記パラメータ取得ユニットは具体的には：前記高周波数帯域信号内にあり、かつ、トーン成分を含むサブバンドに基づいて、そのサブバンド包絡情報がエンコードされる必要があるサブバンドを決定するように構成され、そのサブバンド包絡情報がエンコードされる必要がある該サブバンドは、トーン成分を含む前記サブバンドと交わりを有しない。

第3の側面または第3の側面の上記実装を参照して、ある実装では、前記パラメータ取得ユニットは具体的には：前記第2のエンコード・パラメータおよび前記高周波数帯域信号に基づいて前記現在フレームの前記第3のエンコード・パラメータを得るように構成されている。

第3の側面または第3の側面の上記実装を参照して、ある実装では、前記高周波数帯域信号の前記トーン成分情報は、前記高周波数帯域信号のトーン成分の位置情報を含み、前記トーン成分の位置情報は、前記高周波数帯域信号内にあり、かつトーン成分を含む前記サブバンドを示す。

本発明の第4の側面は、オーディオ・デコーダであって：エンコードされたビットストリームを取得するように構成された受領ユニットと；前記エンコードされたビットストリームに対してビットストリーム多重分離を実行して、オーディオ信号の現在フレームの第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータを取得するように構成された多重分離ユニットであって、前記第2のエンコード・パラメータは前記現在フレームの高周波数帯域信号のトーン成分情報を含み、前記第3のエンコード・パラメータは前記高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む、多重分離ユニットと；前記第1のエンコード・パラメータに基づいて前記現在フレームの第1の高周波数帯域信号および第1の低周波数帯域信号を取得するステップと；前記第2のエンコード・パラメータに基づいて前記現在フレームの第2の高周波数帯域信号を取得するステップであって、前記第2の高周波数帯域信号は再構成されたトーン信号を含む、ステップと；前記第1の低周波数帯域信号、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、前記現在フレームの第3の高周波数帯域信号を取得するステップとを実行するように構成されたデコード・ユニットと；前記現在フレームの前記第1の高周波数帯域信号、前記第2の高周波数帯域信号、および前記第3の高周波数帯域信号に基づいて、前記現在フレームの融合高周波数帯域信号を取得するように構成された融合ユニットと；前記第1の低周波数帯域信号および前記融合高周波数帯域信号に基づいて前記現在フレームの出力オーディオ信号を得るように構成された再構成ユニットとを含む、オーディオ・デコーダを提供する。

第4の側面を参照して、ある実装では、前記トーン成分情報は、前記現在フレームの前記高周波数帯域信号に含まれるトーン成分の数量情報および位置情報を含み、前記トーン成分の前記位置情報は、前記高周波数帯域信号に含まれるサブバンドに対応し；前記デコード・ユニットは具体的には：前記トーン成分の前記数量情報および前記位置情報に基づいて、前記現在フレームの前記高周波数帯域信号内にあり、トーン成分を含むサブバンドを決定するステップと；トーン成分を含む前記サブバンドに基づいてサブバンドの前記一部の位置情報を決定するステップであって、トーン成分を含む前記サブバンドはサブバンドの前記一部と交わりをもたない、ステップと；前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドのサブバンド包絡情報を取得するステップと；前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドの前記サブバンド包絡情報と、サブバンドの前記一部の前記サブバンド包絡情報と、前記第1の低周波数帯域信号とに基づいて周波数帯域拡張を実行して、前記現在フレームの前記第3の高周波数帯域信号を得るステップとを実行するように構成される。

第4の側面を参照して、ある実装では、トーン成分を含む前記サブバンドの前記サブバンド包絡情報は、プリセット値である。

本発明の第5の側面は、第5の側面によれば、本願のある実施形態は、コンピュータ読み取り可能な記憶媒体を提供する。コンピュータ読み取り可能な記憶媒体は命令を記憶し、該命令がコンピュータ上で実行されると、該コンピュータは、第1の側面または第2の側面の方法を実行できるようにされる。

第6の側面によれば、本願のある実施形態は、命令を含むコンピュータ・プログラム・プロダクトを提供する。コンピュータ・プログラム・プロダクトがコンピュータ上で実行される場合、コンピュータは、第1の側面または第2の側面で方法を実行できるようにされる。

第7の側面によれば、本願のある実施形態は、通信装置を提供する。通信装置は、オーディオ・エンコードおよびデコード装置またはチップのようなエンティティを含んでいてもよい。通信装置は、プロセッサを含む。任意的に、通信装置は、メモリをさらに含む。メモリは、命令を記憶するように構成され、プロセッサは、メモリ内の命令を実行するように構成され、それにより、通信装置が第1の側面または第2の側面の方法を実行するようにする。

第8の側面によれば、本願は、チップ・システムを提供する。チップ・システムは、前述の諸側面における機能、たとえば前述の方法におけるデータおよび／または情報の送信または処理を実現するために、オーディオ・エンコードおよびデコード装置をサポートするように構成されたプロセッサを含む。ある可能な設計では、チップ・システムは、メモリをさらに含み、メモリは、オーディオ・エンコードおよびデコード装置のために必要なプログラム命令およびデータを格納するように構成される。チップ・システムは、チップを含んでいてもよく、またはチップおよび別の離散的コンポーネントを含んでいてもよい。

前述の説明から、本発明の実施形態において、第3のエンコード・パラメータが、第2のエンコード・パラメータに基づいて取得されることがわかる。このため、エンコードされるべき第3のエンコード・パラメータは、第2のエンコード・パラメータに含まれないパラメータのみを含み、それにより、冗長な情報のエンコードを回避し、ビット消費を低減する。具体的には、第3のエンコード・パラメータにおいてエンコードされる必要のあるサブバンド包絡は、第2のエンコード・パラメータにおけるトーン成分に基づいて決定されてもよく、それにより、トーン成分とサブバンド包絡は同じサブバンドについてエンコードされず、それにより、情報冗長性を低減し、エンコード効率を改善する。

本願のある実施形態による、オーディオ・エンコードおよびデコード・システムの構造の概略図である。

本願のある実施形態によるオーディオ・エンコード方法の概略フローチャートである。

本願のある実施形態によるオーディオ・デコード方法の概略フローチャートである。

本願のある実施形態による移動端末の概略図である。

本願のある実施形態によるネットワーク要素の概略図である。

本願のある実施形態によるオーディオ・エンコード装置の組成構造の概略図である。

本願のある実施形態によるオーディオ・デコード装置の組成構造の概略図である。

本願のある実施形態による、他のオーディオ・エンコード装置の組成構造の概略図である。

本願のある実施形態による、別のオーディオ・デコード装置の組成構造の概略図である。

下記は、添付の図面を参照して、本願の実施形態を記載する。

本願の明細書、特許請求の範囲および添付の図面において、「第1」、「第2」等の用語は、類似のオブジェクトを区別することを意図しており、必ずしも特定の順序または配列を示すものではない。そのような仕方で使用される用語は、適切な状況においては交換可能であり、これは単に、本願の実施形態において同じ属性を有するオブジェクトを記述するための識別態様であることを理解されたい。さらに、用語「含む」、「有する」、および任意の他の変形は、非排他的な包含をカバーすることを意味し、一連のユニットを含むプロセス、方法、システム、製品、またはデバイスがそれらのユニットに必ずしも限定されるものではなく、明示的に列挙されていない、またはそのようなプロセス、方法、システム、製品、またはデバイスに固有ではない他のユニットを含んでいてもよい。

本願の実施形態におけるオーディオ信号は、オーディオ・エンコード装置における入力信号であり、オーディオ信号は複数のフレームを含んでいてもよい。たとえば、現在フレームは、具体的には、オーディオ信号内のフレームであってもよい。本願の実施形態において、記述のために、現在フレームのオーディオ信号をエンコードおよびデコードする例が使用される。オーディオ信号における現在フレームの前後のフレームは、対応して、現在フレームのオーディオ信号のエンコードおよびデコード・モードに従ってエンコードおよびデコードされてもよい。オーディオ信号における現在フレームの前後のフレームのエンコードおよびデコード・プロセスは記述されない。さらに、本願の実施形態におけるオーディオ信号は、モノラルオーディオ信号であってもよく、またはステレオ信号であってもよい。ステレオ信号は、オリジナルのステレオ信号であってもよく、またはマルチチャネル信号に含まれる2つのチャネルの信号（左チャネル信号および右チャネル信号）によって形成されるステレオ信号であってもよく、またはマルチチャネル信号に含まれる少なくとも3つのチャネルの信号によって生成される2つのチャネルの信号によって形成されるステレオ信号であってもよい。これは、本願の実施側面において限定されない。

図1は、本願の例示的実施形態による、オーディオ・エンコードおよびデコード・システムの構造の概略図である。オーディオ・エンコードおよびデコード・システムは、エンコード・コンポーネント110およびデコード・コンポーネント120を含む。

エンコード・コンポーネント110は、周波数領域または時間領域における現在フレーム（オーディオ信号）をエンコードするように構成される。任意的に、エンコード・コンポーネント110は、ソフトウェアによって実装されてもよく、またはハードウェアによって実装されてもよく、またはソフトウェアとハードウェアの組み合わせの形で実装されてもよい。これは、本願のこの実施形態において限定されない。

エンコード・コンポーネント110が周波数領域または時間領域における現在フレームをエンコードするとき、ある可能な実装では、図2に示されるステップが含まれてもよい。

本願のこの実施形態では、エンコードを完了した後、エンコード・コンポーネント110はエンコードされたビットストリームを生成してもよく、エンコード・コンポーネント110はエンコードされたビットストリームをデコード・コンポーネント120に送信して、デコード・コンポーネント120がエンコードされたビットストリームを受信できるようにしてもよい。次いで、デコード・コンポーネント120は、エンコードされたビットストリームからオーディオ出力信号を取得する。

図2に示されるエンコード方法は、限定ではなく単なる例であることに留意されたい。図2のステップの実行シーケンスは、本願のこの実施形態では限定されない。あるいはまた、図2に示されるエンコード方法は、より多くのステップまたはより少ないステップを含んでいてもよい。これは、本願のこの実施形態において限定されない。

任意的に、エンコード・コンポーネント110は、デコード・コンポーネント120に有線または無線で接続されてもよい。デコード・コンポーネント120は、デコード・コンポーネント120とエンコード・コンポーネント110との間の接続を使用することによって、エンコード・コンポーネント110によって生成されたエンコードされたビットストリームを得ることができる。あるいはまた、エンコード・コンポーネント110は、生成されたエンコードされたビットストリームをメモリに記憶することができ、デコード・コンポーネント120は、メモリ内のエンコードされたビットストリームを読み出す。

任意的に、デコード・コンポーネント120は、ソフトウェアによって実装されてもよく、またはハードウェアによって実装されてもよく、またはソフトウェアとハードウェアの組み合わせの形で実装されてもよい。これは、本願のこの実施携帯において限定されない。

デコード・コンポーネント120が周波数領域または時間領域において現在フレーム（オーディオ信号）をデコードする場合、ある可能な実装では、図3に示されるステップが含まれてもよい。

任意的に、エンコード・コンポーネント110およびデコード・コンポーネント120は、同じ装置内に配置されてもよく、または異なる装置内に配置されてもよい。装置は、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ブルートゥーススピーカー、ペンレコーダー、またはウェアラブル装置のようなオーディオ信号処理機能を有する端末であってもよい。あるいはまた、装置は、コア・ネットワークまたは無線ネットワークにおけるオーディオ信号処理能力を有するネットワーク要素であってもよい。これは、この実施形態では限定されない。

たとえば、図4に示されるように、以下の例は、この実施形態における説明に使用される。エンコード・コンポーネント110は、移動端末130内に配置され、デコード・コンポーネント120は、移動端末140内に配置される。移動端末130および移動端末140は、オーディオ信号処理能力を有する相互に独立した電子装置である。たとえば、移動端末130および移動端末140は、携帯電話、ウェアラブル装置、仮想現実（virtual reality、VR）装置、または拡張現実（augmented reality、AR）装置であってもよい。さらに、移動端末130および移動端末140は、無線または有線ネットワークを使用して接続される。

任意的に、移動端末130は、収集コンポーネント131、エンコード・コンポーネント110、およびチャネル・エンコード・コンポーネント132を含んでいてもよい。収集コンポーネント131は、エンコード・コンポーネント110に接続され、エンコード・コンポーネント110は、エンコード・コンポーネント132に接続される。

任意的に、移動端末140は、オーディオ再生コンポーネント141、デコード・コンポーネント120、およびチャネル・デコード・コンポーネント142を含んでいてもよい。オーディオ再生コンポーネント141は、デコード・コンポーネント120に接続され、デコード・コンポーネント120は、チャネル・デコード・コンポーネント142に接続される。

収集コンポーネント131を通じてオーディオ信号を収集した後、移動端末130はエンコード・コンポーネント110を使用してオーディオ信号をエンコードし、エンコードされたビットストリームを得て；次いで、チャネル・エンコード・コンポーネント132を使用して、エンコードされたビットストリームをエンコードして、伝送信号を得る。

移動端末130は、無線または有線ネットワークを使用して、移動端末140に伝送信号を送信する。

伝送信号を受信した後、移動端末140は、チャネル・デコード・コンポーネント142を使用して伝送信号をデコードして、エンコードされたビットストリームを取得し；デコード・コンポーネント110を使用して、エンコードされたビットストリームをデコードして、オーディオ信号を取得し；オーディオ再生コンポーネントを使用してオーディオ信号を再生する。移動端末130は、移動端末140に含まれるコンポーネントを代替的に含むことができ、移動端末140は、移動端末130に含まれるコンポーネントを代替的に含むことができることが理解されよう。

たとえば、図5に示されるように、以下の例が説明に使用される。エンコード・コンポーネント110およびデコード・コンポーネント120は、コア・ネットワークまたは無線ネットワーク内のオーディオ信号処理能力を有する1つのネットワーク要素150内に配置される。

任意的に、ネットワーク要素150は、チャネル・デコード・コンポーネント151、デコード・コンポーネント120、エンコード・コンポーネント110、およびチャネル・エンコード・コンポーネント152を含む。チャネル・デコード・コンポーネント151は、デコード・コンポーネント120に接続され、デコード・コンポーネント120は、エンコード・コンポーネント110に接続され、エンコード・コンポーネント110は、チャネル・エンコード・コンポーネント152に接続される。

他の装置によって送信された伝送信号を受信した後、チャネル・デコード・コンポーネント151は、伝送信号をデコードして第1のエンコードされたビットストリームを得る。デコード・コンポーネント120は、エンコードされたビットストリームをデコードしてオーディオ信号を得る。エンコード・コンポーネント110は、オーディオ信号をエンコードするために、第2のエンコードされたビットストリームを得る。チャネル・エンコード・コンポーネント152は、第2のエンコードされたビットストリームをエンコードして、伝送信号を得る。

該他の装置は、オーディオ信号処理能力を有する移動端末であってもよく、またはオーディオ信号処理能力を有する他のネットワーク要素であってもよい。これは、この実施形態では限定されない。

任意的に、ネットワーク要素内のエンコード・コンポーネント110およびデコード・コンポーネント120は、移動端末によって送信されたエンコードされたビットストリームをトランスコードすることができる。

任意的に、本願のこの実施形態では、エンコード・コンポーネント110が組み込まれた装置は、オーディオ・エンコード装置と称されてもよい。実際の実装では、オーディオ・エンコード装置は、オーディオ・デコード機能を有してもよい。これは、本願のこの実施形態において限定されない。

任意的に、本願のこの実施形態では、デコード・コンポーネント120が組み込まれている装置は、オーディオ・デコード装置と称されてもよい。実際の実装では、オーディオ・デコード装置は、オーディオ・エンコード機能を有してもよい。これは、本願のこの実施形態において限定されない。

図2は、本発明のある実施形態によるオーディオ・エンコード方法の手順を記載している。

201：オーディオ信号の現在フレームを得る。ここで、現在フレームは高周波数帯域信号および低周波数帯域信号を含む。

現在フレームは、オーディオ信号内の任意のフレームでありえ、現在フレームは、高周波数帯域信号および低周波数帯域信号を含むことができる。高周波数帯域信号と低周波数帯域信号との分割は、周波数帯域閾値を用いて決定されてもよく、周波数帯域閾値よりも高い信号は高周波数帯域信号であり、周波数帯域閾値よりも低い信号は低周波数帯域信号である。周波数帯域閾値は、エンコード・コンポーネント110およびデコード・コンポーネント120の伝送帯域幅およびデータ処理能力に基づいて決定されてもよい。これは、本明細書において限定されない。

高周波数帯域信号および低周波数帯域信号は相対的である。たとえば、ある周波数より低い信号は低周波数帯域信号であるが、その周波数より高い信号は高周波数帯域信号である（その周波数に対応する信号は低周波数帯域信号または高周波数帯域信号でありうる）。周波数は、現在フレームの帯域幅によって変化する。たとえば、現在フレームが0～8kHzの広帯域信号である場合、周波数は4kHzであってもよい。現在フレームが0～16kHzの超広帯域信号である場合、周波数は8kHzであってもよい。

202：高周波数帯域信号および低周波数帯域信号に基づいて現在フレームの第1のエンコード・パラメータを得る。

203：高周波数帯域信号に基づいて現在フレームの第2のエンコード・パラメータを得る。ここで、第2のエンコード・パラメータは高周波数帯域信号のトーン成分情報を含む。

ある実装では、トーン成分情報は、トーン成分数量情報、トーン成分位置情報、トーン成分振幅情報、またはトーン成分エネルギー情報のうちの少なくとも1つを含む。振幅情報は1つのみ、エネルギー情報は1つのみ存在する。

204：高周波数帯域信号に基づいて現在フレームの第3のエンコード・パラメータを得る。ここで、第3のエンコード・パラメータは、エンコードされる必要がある高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む。

本発明のこの実施形態では、第3のエンコード・パラメータは、周波数帯域拡張を実行するために使用されるパラメータであってもよく、たとえば、サブバンド包絡情報を含んでいてもよい。

ある実装では、高周波数帯域信号に基づいて現在フレームの第3のエンコード・パラメータを得ることは、高周波数帯域信号内にあり、かつ、トーン成分を含むサブバンドに基づいて、サブバンド包絡情報がエンコードされる必要があるところのサブバンドを決定することを含み、サブバンド包絡情報がエンコードされる必要があるところのサブバンドは、トーン成分を含む前記サブバンドと交わりを有しない。

ある実施形態では、高周波数帯域信号のトーン成分情報は、高周波数帯域信号のトーン成分の位置情報を含み、トーン成分の位置情報は、高周波数帯域信号内にあり、かつトーン成分を含むサブバンドを示す。この場合、高周波数帯域信号に基づいて現在フレームの第3のエンコード・パラメータを得ることは、第2のエンコード・パラメータと高周波数帯域信号に基づいて現在フレームの第3のエンコード・パラメータを得ることを含む。

いくつかの実装では、第2のエンコード・パラメータと第3のエンコード・パラメータとの間に、いくつかの冗長部分が存在しうる。よって、第2のエンコード・パラメータに基づいて、エンコードされる必要がある第3のエンコード・パラメータに対してスクリーニングが実行されて、第3のエンコード・パラメータ内にあり、かつ、第2のエンコード・パラメータに含まれない部分が得られてもよい。たとえば、いくつかの実装では、トーン成分とサブバンド包絡は冗長であると考えられてもよい。したがって、サブバンドがトーン成分を含む場合、すなわち、第2のエンコード・パラメータがそのサブバンドのトーン成分情報を含む場合、サブバンドの包絡がデコーダに送信される必要はない。

ある実装では、スクリーニング・プロセスは：トーン成分の数量情報および位置情報に基づいて、各高周波数サブバンドに含まれるトーン成分の数量情報を得るステップと；各高周波数サブバンドに含まれるトーン成分の数量情報に基づいて、高周波数サブバンドの包絡情報に対するスクリーニングを実行するステップと；現在の高周波数サブバンドのトーン成分の数量情報が0でない場合、すなわち、現在の高周波数サブバンドがトーン成分を含んでいる場合、現在の高周波数サブバンドの包絡をエンコードすることをスキップし、またはそれ以外の場合には、送信のために現在のサブバンドの包絡情報をエンコードするステップとを含んでいてもよい。

具体的には、ある実装では、第2のエンコード・パラメータに基づいて現在フレームの第3のエンコード・パラメータを取得するステップは：高周波数帯域信号におけるトーン成分の位置情報に基づいて、高周波数帯域信号内にあり、トーン成分を含むサブバンドを決定するステップと；高周波数帯域信号内にあり、トーン成分を含むサブバンドに基づいて、サブバンド包絡情報がエンコードされる必要があるサブバンドを決定するステップであって、サブバンド包絡情報がエンコードされる必要があるサブバンドは、トーン成分を含むサブバンドと交わりを有しない、ステップとを含んでいてもよい。

205：第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータに対してビットストリーム多重化を実行して、エンコードされたビットストリームを得る。

前述の説明から、本発明のこの実施形態では、第3のエンコード・パラメータは、第2のエンコード・パラメータに基づいて得られることがわかる。よって、エンコードされるべき第3のエンコード・パラメータは、第2のエンコード・パラメータに含まれないパラメータのみを含み、それにより、冗長情報のエンコードを回避し、ビット消費を低減する。具体的には、第3のエンコード・パラメータにおいてエンコードされる必要のあるサブバンド包絡は、第2のエンコード・パラメータに含まれるトーン成分に基づいて決定されてもよく、よって、前記トーン成分および前記サブバンド包絡は同じサブバンドについてはエンコードされず、それにより、情報の冗長性を低減し、エンコード効率を向上させる。

高周波数帯域信号における各サブバンドがトーン成分を含む場合、サブバンド包絡情報がエンコードされる必要がある高周波数帯域信号内のサブバンドは存在しないことが理解されうる。この場合、第3のエンコード・パラメータが、エンコードされる必要があるサブバンド包絡情報のみを含む場合、オーディオ・エンコーダは、第3エンコード・パラメータを取得しない。すなわち、オーディオ・エンコーダは、第1のエンコード・パラメータと第2のエンコード・パラメータを取得し、ビットストリーム多重化を実行するだけでよい。対応して、オーディオ・デコーダは、第1のエンコード・パラメータおよび第2のエンコード・パラメータに基づいて、直接、デコードを実行してもよい。

同様に、高周波数帯域信号内のどのサブバンドも、トーン成分を含まなくてもよい。この場合、第2エンコード・パラメータがトーン成分情報のみを含む場合、オーディオ・エンコーダは第2のエンコード・パラメータを取得しない。すなわち、オーディオ・エンコーダは、第1のエンコード・パラメータと第3のエンコード・パラメータを取得し、ビットストリーム多重化を実行するだけでよい。対応して、オーディオ・デコーダは、第1のエンコード・パラメータおよび第3のエンコード・パラメータに基づいて、直接、デコードを実行してもよい。

図3は、本発明のある実施形態による、オーディオ・デコード方法の手順を示す。

301：エンコードされたビットストリームを取得する。

302：エンコードされたビットストリームに対してビットストリーム多重分離を実行して、オーディオ信号の現在フレームの第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータを得る。ここで、第2のエンコード・パラメータは、現在フレームの高周波数帯域信号のトーン成分情報を含み、第3のエンコード・パラメータは高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む。

トーン成分情報は、現在フレームの高周波数帯域信号に含まれるトーン成分の数量情報および位置情報を含み、トーン成分の位置情報は、高周波数帯域信号に含まれるサブバンドに対応する。

303：第1のエンコード・パラメータに基づいて、現在フレームの第1の高周波数帯域信号および第1の低周波数帯域信号を得る。

304：第2のエンコード・パラメータに基づいて、現在フレームの第2の高周波数帯域信号を得る。ここで、第2の高周波数帯域信号は、再構成されたトーン信号を含む。

305：第1の低周波数帯域信号、第2のエンコード・パラメータ、第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、現在フレームの第3の高周波数帯域信号を得る。

ある実装では、第3の高周波数帯域信号は、次の仕方で得られてもよい：トーン成分情報におけるトーン成分の数量情報および位置情報に基づいて、各高周波数サブバンドにおけるトーン成分の数量情報を得て、第3のエンコード・パラメータにおけるいくつかの高周波数サブバンドの包絡情報を参照して、各サブバンドにおける前記トーン成分の数量情報に基づいて、すべての高周波数サブバンドの包絡情報を取得し；すべての高周波数サブバンドおよび第1の低周波数帯域信号の包絡情報に基づいて、拡張された高周波数帯域信号（すなわち、第3の高周波数帯域信号）を取得する。

ある具体的な実装では、第1の低周波数帯域信号、第2のエンコード・パラメータ、第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、現在フレームの第3の高周波数帯域信号を得ることは、具体的には：前記トーン成分の数量情報および位置情報に基づいて、現在フレームの高周波数帯域信号内の、トーン成分を含むサブバンドを決定するステップと；トーン成分を含む前記サブバンドに基づいて、サブバンドの前記一部の位置情報を決定するステップであって、トーン成分を含む前記サブバンドはサブバンドの前記一部と交わりをもたない、ステップと；現在フレームの高周波数帯域信号内にあり、かつ、トーン成分を含む前記サブバンドのサブバンド包絡情報を取得するステップと；現在フレームの高周波数帯域信号内にあり、かつ、トーン成分を含む前記サブバンドの前記サブバンド包絡情報、サブバンドの前記一部の前記サブバンド包絡情報および前記第1の低周波数帯域信号に基づいて、周波数帯域拡張を実行して、現在フレームの第3の高周波数帯域信号を得るステップとを含んでいてもよい。

ある実装では、トーン成分を含む前記サブバンドの前記サブバンド包絡情報は、プリセット値である。

306：現在フレームの第1の高周波数帯域信号、第2の高周波数帯域信号、第3の高周波数帯域信号に基づいて、現在フレームの融合高周波数帯域信号を得る。

307：第1の低周波数帯域信号および融合高周波数帯域信号に基づいて、現在フレームの出力オーディオ信号を取得する。

ある実装では、高周波数帯域信号に対してトーン成分検出が実行されるとき、高周波数帯域信号におけるトーン成分の数量tone_cnt[tile]が得られてもよく、このトーン成分の数量は、高周波数帯域信号におけるトーン成分の位置情報を参照して、高周波数帯域信号の各サブバンドにおけるトーン成分の数量に変換されてもよく、tone_cnt_sfb[sfb]と表される。ここで、sfbはサブバンド・シーケンス番号であり、sfbの値域は[0,N_sfb－1]であり、N_sfbは現在フレームの高周波数帯域信号におけるサブバンドの数である。

高周波数帯域信号の各サブバンドのサブバンド包絡は、周波数帯域拡張アルゴリズムを使用することによって得られてもよく、env_sfb[sfb]と表される。

高周波数帯域信号のN_sfb個のサブバンドについて、各サブバンドのtone_cnt_sfb[sfb]が0であるかどうかが判定される。tone_cnt_sfb[sfb]が0でなければ、env_sfb[sfb]は除去される。この場合、env_sfb[sfb]はエンコードされる必要はない。

前述の処理プロセスの後、残りの高周波数サブバンド包絡パラメータenv_sfb_modの長さは、高周波数帯域信号内のサブバンドの数から、トーン成分を含むサブバンドの数を引いたもの、すなわち、N_sfb－N_{sfb_has_tone}である。ここで、N_{sfb_has_tone}は、高周波数帯域信号のすべてのサブバンドにおける、トーン成分を含むサブバンドの数である。

高周波数帯域信号に含まれるサブバンドの数は5、すなわち、サブバンドのシーケンス番号は0～4であり、tone_cnt_sfb[1]とtone_cnt_sfb[3]は0ではないとする。したがって、env_sfb[1]とenv_sfb[3]を削除できる。高周波数帯域信号の対応するサブバンド包絡シーケンスの長さも、5から5－2、すなわち3に変更される。

対応して、デコード・プロセスは、以下のように表されうる。

デコーダは、エンコードされたビットストリーム（bitstream）から現在フレームの信号クラス情報を取得する。信号クラス情報は、現在フレームがトーン成分を含むか否かを示すことができる。信号クラスがトーン成分が含まれていることを示す場合には、現在フレームの高周波数帯域信号におけるトーン成分の数量パラメータおよび位置パラメータがビットストリームからさらに得られ、各サブバンドのトーン成分の数量パラメータtone_cnt_sfbに変換される。該パラメータの長さはN_sfbである。

サブバンドのトーン成分の数量パラメータtone_cnt_sfbと高周波数サブバンドの数量パラメータN_sfbに基づいて、帯域幅拡張アルゴリズムにおいて使用される必要のあるデコードされるべきサブバンド包絡の数量が決定されうる。決定プロセスは以下の通りである。

（0からN_sfb－1の値範囲における）サブバンド・シーケンス番号sfbについて、tone_cnt_sfb[sfb]が0であるかどうかが判定され、tone_cnt_sfb[sfb]が0でないサブバンドの数量、すなわち、N_{sfb_has_tone}と表されるトーン成分を含む高周波数サブバンドの数に関して統計収集が実行される。

帯域幅拡張アルゴリズムでは、復号されるべきサブバンド包絡の数量は、高周波数帯域信号におけるサブバンドの数から、高周波数帯域信号におけるトーン成分を含むサブバンドの数を引いたもの、すなわち、N_sfb－N_{sfb_has_tone}である。

トーン成分を含まない高周波数サブバンドのサブバンド包絡が、デコードを通じてビットストリームから得られ、サブバンド包絡の長さはN_sfb－N_{sfb_has_tone}である。

トーン成分を含まない高周波数サブバンドのサブバンド包絡シーケンスenv_sfb_modが、各高周波数サブバンドにマッピングされる。すなわち、長さがN_sfb－N_{sfb_has_tone}であるenv_sfb_modが、長さがN_sfbであるenv_sfbに復元される。

復元プロセスは以下のように記述される。

すべてのサブバンドsfb（0からN_sfb－1の値の範囲内）について、そのサブバンドがトーン成分を含まないならば、すなわち、tone_cnt_sfb[sfb]が0であるならば、サブバンド包絡env_sfb_mod[idx]（idxの初期値は0）は、デコードを通じて得られたサブバンド包絡シーケンスenv_sfb_modから選択されて、sfb番目のサブバンドのサブバンド包絡env_sfb[sfb]のはたらきをする。idxは1だけインクリメントされる。そのサブバンドがトーン成分を含む場合、env_sfb[sfb]は1に設定される。

擬似コードは次のように記述される：
idx=0
for sfb = 0 to N_sfb－1
if tone_cnt_sfb[sfb] == 0
env_sfb[sfb] = env_sfb_mod[idx]
idx = idx + 1
else
env_sfb[sfb] = 1
end
end

現在のサブバンドsfbがトーン成分を含まない場合、デコードを通じて得られたサブバンド包絡env_sfb[sfb]を用いて周波数帯域拡張が実行される。

現在のサブバンドsfbがトーン成分を含む場合、トーン成分は再構成され、ノイズフロア情報に基づいて、拡張された高周波数帯域信号およびデコードされた高周波数帯域信号と融合されてもよい。あるいはまた、ある実装では、トーン成分を含むサブバンドのサブバンド包絡は、プリセット値に設定されてもよい。

図6は、信号取得ユニット601と、パラメータ取得ユニット602と、エンコード・ユニット603とを含む、本発明のある実施形態によるオーディオ・エンコーダの構造を示す。

信号取得ユニット601は、オーディオ信号の現在フレームを得るように構成される。ここで、現在フレームは、高周波数帯域信号および低周波数帯域信号を含む。

パラメータ取得ユニット602は：高周波数帯域信号および低周波数帯域信号に基づいて、現在フレームの第1のエンコード・パラメータを取得するステップと；高周波数帯域信号に基づいて、現在フレームの第2のエンコード・パラメータを取得するステップであって、第2のエンコード・パラメータは、高周波数帯域信号のトーン成分情報を含む、ステップと；高周波数帯域信号に基づいて、現在フレームの第3のエンコード・パラメータを取得するステップであって、第3のエンコード・パラメータは、エンコードされる必要がある高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む、ステップとを実行するように構成される。

ある実施形態では、高周波数帯域信号に基づいて現在フレームの第3のエンコード・パラメータを取得するとき、パラメータ取得ユニット602は、具体的には、高周波数帯域信号内であり、かつ、トーン成分を含むサブバンドに基づいて、サブバンド包絡情報がエンコードされる必要があるサブバンドを決定するように構成されてもよい。ここで、サブバンド包絡情報がエンコードされる必要があるサブバンドは、トーン成分を含むサブバンドと交わりをもたない。

ある実施形態では、高周波数帯域信号のトーン成分情報は、高周波数帯域信号のトーン成分の位置情報を含み、トーン成分の位置情報は、高周波数帯域信号内であり、かつトーン成分を含むサブバンドを示す。高周波数帯域信号に基づいて現在フレームの第3のエンコード・パラメータを取得するとき、パラメータ取得ユニット602は、具体的には、第2のエンコード・パラメータおよび高周波数帯域信号に基づいて、現在フレームの第3のエンコード・パラメータを取得するように構成されていてもよい。

エンコード・ユニット603は、第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータに対してビットストリーム多重化を実行して、エンコードされたビットストリームを得るように構成される。

エンコーダの具体的な実装については、前述のオーディオ・エンコード方法を参照されたい。詳細は、ここでは再度説明しない。

図7は、受信ユニット701、多重分離ユニット702、デコード・ユニット703、融合ユニット704、再構成ユニット705を含む、本発明のある実施形態によるオーディオ・デコーダの構造を示す。

受信ユニット701は、エンコードされたビットストリームを取得するように構成される。

多重分離ユニット702は、エンコードされたビットストリームに対してビットストリーム多重分離を実行して、オーディオ信号の現在フレームの第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータを得るように構成される。第2のエンコード・パラメータは、現在フレームの高周波数帯域信号のトーン成分情報を含み、第3のエンコード・パラメータは、高周波数帯域信号のサブバンドの一部のサブバンド包絡情報を含む。

デコード・ユニット703は：第1のエンコード・パラメータに基づいて、現在フレームの第1の高周波数帯域信号および第1の低周波数帯域信号を取得するステップと；第2のエンコード・パラメータに基づいて、現在フレームの第2の高周波数帯域信号を取得するステップであって、第2の高周波数帯域信号は、再構成されたトーン信号を含む、ステップと；第1の低周波数帯域信号、第2のエンコード・パラメータ、および第3のエンコード・パラメータに基づいて、周波数帯域拡張を実行し、現在フレームの第3の高周波数帯域信号を取得するステップとを実行するように構成される。

ある実装では、第1の低周波数帯域信号、第2のエンコード・パラメータ、および第3のエンコード・パラメータに基づいて、周波数帯域拡張を実行し、現在フレームの第3の高周波数帯域信号を取得するとき、デコード・ユニット703は、具体的には：前記トーン成分の数

情報および位置情報に基づいて、現在フレームの高周波数帯域信号内にあり、トーン成分を含むサブバンドを決定するステップと；トーン成分を含むサブバンドに基づいて、サブバンドの前記一部の位置情報を決定するステップであって、トーン成分を含むサブバンドはサブバンドの前記一部と交わりをもたない、ステップと；現在フレームの高周波数帯域信号内にあり、トーン成分を含むサブバンドのサブバンド包絡情報を取得するステップと；現在フレームの高周波数帯域信号内にあり、トーン成分を含むサブバンドのサブバンド包絡情報、サブバンドの前記一部のサブバンド包絡情報、および第1の低周波数帯域信号に基づいて、周波数帯域拡張を実行して、現在フレームの第3の高周波数帯域信号を得るステップとを実行するように構成される。

ある実装では、トーン成分を含むサブバンドのサブバンド包絡情報は、プリセット値である。

融合ユニット704は、現在フレームの第1の高周波数帯域信号、第2の高周波数帯域信号、第3の高周波数帯域信号に基づいて、現在フレームの融合高周波数帯域信号を得るように構成されている。

再構成ユニット705は、第1の低周波数帯域信号および融合高周波数帯域信号に基づいて、現在フレームの出力オーディオ信号を得るように構成される。

デコーダの具体的な実装については、前述のオーディオ・デコード方法を参照されたい。詳細は、ここでは再度説明しない。

本願のある実施形態は、コンピュータ記憶媒体をさらに提供する。コンピュータ記憶媒体はプログラムを記憶する。プログラムは、方法実施形態において記載されたステップのいくつかまたは全部を実行するために実行される。

以下は、本願のある実施形態による別のオーディオ・エンコード装置について説明する。図8を参照すると、オーディオ・エンコード装置800は：
受信機801、送信機802、プロセッサ803、およびメモリ804を含む（オーディオ・エンコード装置800には一つまたは複数のプロセッサ803が存在してもよく、図8では1つのプロセッサが使用される例が使用される）。本願のいくつかの実施形態では、受信機801、送信機802、プロセッサ803、およびメモリ804は、バスを通じて、または別の仕方で接続されてもよい。図8では、受信機801、送信機802、プロセッサ803、およびメモリ804がバスを通じて接続されている例が使用される。

メモリ804は、読み出し専用メモリおよびランダム・アクセス・メモリを含んでいてもよく、命令およびデータをプロセッサ803に提供する。メモリ804の一部は、不揮発性ランダム・アクセス・メモリ（non-volatile random access memory、NVRAM）をさらに含んでいてもよい。メモリ804は、オペレーティング・システムおよび動作命令、実行可能モジュールもしくはデータ構造、またはそれらのサブネット、またはそれらの拡張セットを記憶する。動作命令は、さまざまな動作を実施するためにさまざまな動作命令を含みうる。オペレーティング・システムは、さまざまな基本サービスを実装し、ハードウェア・ベースのタスクを処理するためのさまざまなシステム・プログラムを含みうる。

プロセッサ803は、オーディオ・エンコード装置の動作を制御し、プロセッサ803は、中央処理装置（central processing unit、CPU）と称されることもある。特定の用途では、オーディオ・エンコード装置の構成要素は、バス・システムを使用することによって互いに結合される。データバスに加えて、バス・システムは、電力バス、制御バス、およびステータス信号バスをさらに含んでいてもよい。ただし、明確な記述のため、図中のさまざまなタイプのバスがバス・システムとしてマークされている。

本願の前述の実施形態において開示される方法は、プロセッサ803に適用されてもよく、またはプロセッサ803によって実装されてもよい。プロセッサ803は、集積回路チップであってもよく、信号処理能力を有する。ある実装プロセスでは、前述の方法におけるステップは、プロセッサ803内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形の命令を使用することによって、実装できる。プロセッサ803は、汎用プロセッサ、デジタル信号プロセッサ（digital signal processor、DSP）、特定用途向け集積回路（application-specific integrated circuit、ASIC）、フィールドプログラマブルゲートアレイ（field-programmable gate array、FPGA）、または別のプログラマブル論理デバイス、離散的ゲートまたはトランジスタ論理デバイス、または離散的ハードウェアコンポーネントであってもよい。プロセッサは、本願の実施形態において開示される方法、ステップ、および論理ブロック図を実装または実行してもよい。汎用プロセッサは、マイクロプロセッサ、任意の従来のプロセッサ等であってもよい。本願の実施形態に関連して開示された方法のステップは、ハードウェアデコードプロセッサによって直接的に実行および完了されてもよく、またはデコードプロセッサ内のハードウェアモジュールおよびソフトウェア・モジュールの組み合わせを使用して実行および完了されてもよい。ソフトウェア・モジュールは、たとえば、ランダム・アクセス・メモリ、フラッシュ・メモリ、リード・オンリー・メモリ、プログラマブル・リード・オンリー・メモリ、電気的に消去可能なプログラマブル・メモリ、またはレジスタのような、当該技術分野における成熟した記憶媒体内に位置してもよい。記憶媒体はメモリ804内に位置し、プロセッサ803は、プロセッサのハードウェアと組み合わせて、メモリ804内の情報を読み、前述の方法のステップを完了する。

受信機801は：入力番号または文字情報を受信し、オーディオ・エンコード装置の関連する設定および機能制御に関連する信号入力を生成するように構成されてもよい。送信機802は、ディスプレイなどの表示装置を含んでいてもよく、送信機802は、外部インターフェースを通じて数字または文字情報を出力するように構成されてもよい。

本願のこの実施形態では、プロセッサ803は、図2に示す前述のオーディオ・エンコード方法を実行するように構成される。

以下は、本願のある実施形態による別のオーディオ・デコード装置について説明する。図9を参照すると、オーディオ・デコード装置900は：
受信機901、送信機902、プロセッサ903、およびメモリ904を含む（オーディオ・デコード装置900内に一つまたは複数のプロセッサ903が存在してもよく、図9では1つのプロセッサが使用される例が使用される）。本願のいくつかの実施形態では、受信機901、送信機902、プロセッサ903、およびメモリ904は、バスを通じて、または別の仕方で接続されてもよい。図9では、受信機901、送信機902、プロセッサ903、およびメモリ904がバスを通じて接続されている例が使用される。

メモリ904は、読み出し専用メモリおよびランダム・アクセス・メモリを含み、命令およびデータをプロセッサ903に提供する。メモリ904の一部は、NVRAMをさらに含んでいてもよい。メモリ904は、オペレーティング・システムおよび動作命令、実行可能モジュールもしくはデータ構造、またはそれらのサブセット、またはそれらの拡張セットを記憶する。動作命令は、さまざまな動作を実装するためのさまざまな動作命令を含むことができる。オペレーティング・システムは、さまざまな基本サービスを実装し、ハードウェア・ベースのタスクを処理するためのさまざまなシステム・プログラムを含みうる。

プロセッサ903は、オーディオ・デコード装置の動作を制御し、プロセッサ903は、CPUとも呼ばれうる。特定の用途では、オーディオ・デコード装置の構成要素は、バス・システムを使用することによって互いに結合される。データバスに加えて、バス・システムは、電力バス、制御バス、およびステータス信号バスをさらに含んでいてもよい。ただし、明確な記述のため、図中のさまざまなタイプのバスがバス・システムとしてマークされる。

本願の前述の実施形態において開示される方法は、プロセッサ903に適用されてもよく、またはプロセッサ903によって実装されてもよい。プロセッサ903は、集積回路チップであってもよく、信号処理能力を有する。ある実装プロセスでは、前述の方法におけるステップは、プロセッサ903内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形の命令を使用することによって、実装できる。上記のプロセッサ903は、汎用プロセッサ、DSP、ASIC、FPGA、または別のプログラマブル論理デバイス、離散的ゲートまたはトランジスタ論理デバイス、または離散的ハードウェアコンポーネントであってもよい。プロセッサは、本願の実施形態において開示される方法、ステップ、および論理ブロック図を実装または実行してもよい。汎用プロセッサは、マイクロプロセッサ、任意の従来のプロセッサ等であってもよい。本願の実施形態に関連して開示された方法のステップは、ハードウェアデコードプロセッサによって直接的に実行および完了されてもよく、またはデコードプロセッサ内のハードウェアモジュールおよびソフトウェア・モジュールの組み合わせを使用して実行および完了されてもよい。ソフトウェア・モジュールは、たとえば、ランダム・アクセス・メモリ、フラッシュ・メモリ、リード・オンリー・メモリ、プログラマブル・リード・オンリー・メモリ、電気的に消去可能なプログラマブル・メモリ、またはレジスタのような、当該技術分野における成熟した記憶媒体内に位置してもよい。記憶媒体はメモリ904内に位置し、プロセッサ903は、プロセッサのハードウェアと組み合わせて、メモリ904内の情報を読み、前述の方法のステップを完了する。

本願のこの実施形態では、プロセッサ903は、図3に示される前述のオーディオ・デコード方法を実行するように構成される。

別の可能な設計では、オーディオ・エンコード装置またはオーディオ・デコード装置が端末内のチップである場合、チップは、処理ユニットおよび通信ユニットを含む。処理ユニットは、たとえば、プロセッサであってもよい。通信ユニットは、たとえば、入出力インターフェース、ピン、または回路であってもよい。処理ユニットは、記憶ユニットに記憶されたコンピュータ実行可能命令を実行して、端末内のチップが第1の側面で方法を実行するようにしてもよい。任意的に、記憶ユニットは、チップ内の記憶ユニット、たとえばレジスタまたはキャッシュである。あるいはまた、記憶ユニットは、端末内にあり、チップの外部に位置する記憶ユニット、たとえば、読み出し専用メモリ（read-only memory、ROM）、または、静的情報および命令を記憶することができる他のタイプの静的記憶デバイス、たとえば、ランダム・アクセス・メモリ（random access memory、RAM）であってもよい。

これまでのどこかで言及されたプロセッサは、第1の側面による方法のプログラム実行を制御するように構成された汎用中央処理装置、マイクロプロセッサ、ASIC、または一つまたは複数の集積回路であってもよい。

さらに、記載された装置実施形態は、単に例であることに留意されたい。別個の部品として記載されるユニットは、物理的に別個であってもなくてもよく、ユニットとして表示される部品は、物理的ユニットであってもなくてもよく、1つの位置に配置されてもよく、または複数のネットワークユニット上に分散されていてもよい。いくつかのまたは全部のモジュールは、実施形態の解決策の目的を達成する実際の必要性に従って選択されうる。加えて、本願において提供される装置実施形態の添付の図面において、モジュール間の接続関係は、それらのモジュールが、一つまたは複数の通信バスまたは信号ケーブルとして具体的に実装されうる、互いとの通信接続を有することを示す。

上記の実装の説明に基づいて、当業者は、本願が、必要な汎用ハードウェアに加えてソフトウェアによって実装されてもよく、あるいは、むろん、特定用途向け集積回路、専用CPU、専用メモリ、専用コンポーネントなどを含む専用ハードウェアによって実装されてもよいことを明確に理解することができる。一般に、コンピュータ・プログラムによって実行できる任意の機能は、対応するハードウェアを使用することによって容易に実現することができ、同じ機能を達成するために使用される特定のハードウェア構造はさまざまな形でありえ、たとえば、アナログ回路、デジタル回路、専用回路などの形態の形であってもよい。しかしながら、本願では、ほとんどの場合、ソフトウェアプログラム実装がより良い実装である。そのような理解に基づいて、本願の技術的解決策は本質的に、または従来の技術に寄与する部分は、ソフトウェア製品の形で実装されてもよい。ソフトウェア製品は、フロッピーディスク、USBフラッシュドライブ、リムーバブルハードディスク、ROM、RAM、磁気ディスク、またはコンピュータのコンパクトディスクのような読み取り可能な記憶媒体に記憶され、コンピュータ装置（これは、パーソナルコンピュータ、サーバー、ネットワーク装置などであってもよい）に本願の実施形態に記載される方法を実行するように指示するためのいくつかの命令を含む。

前述の実施形態の全部または一部は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせを使用することによって実装されうる。実施形態を実装するためにソフトウェアが使用される場合、実施形態の全部または一部は、コンピュータ・プログラム・プロダクトの形で実装されうる。

コンピュータ・プログラム・プロダクトは、一つまたは複数のコンピュータ命令を含む。該コンピュータ・プログラム命令がコンピュータ上でロードされ、実行されると、本願の実施形態による手順または機能が、全部または部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラム可能な装置であってもよい。コンピュータ命令は、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、またはコンピュータ読み取り可能な記憶媒体から別のコンピュータ読み取り可能な記憶媒体に送信されてもよい。たとえば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバー、またはデータセンターから、有線（たとえば、同軸ケーブル、光ファイバー、またはデジタル加入者線（DSL））または無線（たとえば、赤外線、電波、またはマイクロ波）方式で、別のウェブサイト、コンピュータ、サーバー、またはデータセンターに送信されうる。コンピュータ読み取り可能な記憶媒体は、コンピュータによってアクセス可能な任意の使用可能な媒体、または一つまたは複数の使用可能な媒体を統合する、サーバーまたはデータセンターのようなデータ記憶装置であってもよい。使用可能な媒体は、磁気媒体（たとえば、フロッピーディスク、ハードディスクまたは磁気テープ）、光媒体（たとえば、DVD）、半導体媒体（たとえば、ソリッドステートドライブ（Solid-State Drive、SSD））などである。

Claims

オーディオ・エンコード方法であって、当該方法は：
オーディオ信号の現在フレームを得るステップであって、前記現在フレームは高周波数帯域信号および低周波数帯域信号を含む、ステップと；
前記高周波数帯域信号および前記低周波数帯域信号に基づいて前記現在フレームの第1のエンコード・パラメータを得るステップと；
前記高周波数帯域信号に基づいて前記現在フレームの第2のエンコード・パラメータを得るステップであって、前記第2のエンコード・パラメータは前記高周波数帯域信号のトーン成分情報を含む、ステップと；
前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得るステップであって、前記第3のエンコード・パラメータは、エンコードされる必要がある前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドのサブバンド包絡情報を含む、ステップと；
前記第1のエンコード・パラメータ、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに対してビットストリーム多重化を実行して、エンコードされたビットストリームを得るステップとを含む、
方法。
前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得ることは：
前記高周波数帯域信号内にあり、かつ、トーン成分を含むサブバンドに基づいて、サブバンド包絡情報がエンコードされる必要があるサブバンドを決定することを含み、サブバンド包絡情報がエンコードされる必要があるサブバンドは、トーン成分を含むサブバンドと交わりを有しない、
請求項１に記載の方法。
前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得ることは：
前記第2のエンコード・パラメータおよび前記高周波数帯域信号に基づいて前記現在フレームの前記第3のエンコード・パラメータを得ることを含む、
請求項１または２に記載の方法。
前記高周波数帯域信号の前記トーン成分情報は、前記高周波数帯域信号のトーン成分の位置情報を含み、前記トーン成分の位置情報は、前記高周波数帯域信号内にあり、かつトーン成分を含む前記サブバンドを示す、
請求項１ないし３のうちいずれか一項に記載の方法。
オーディオ・デコード方法であって：
エンコードされたビットストリームを取得するステップと；
前記エンコードされたビットストリームに対してビットストリーム多重分離を実行して、オーディオ信号の現在フレームの第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータを取得するステップであって、前記第2のエンコード・パラメータは前記現在フレームの高周波数帯域信号のトーン成分情報を含み、前記第3のエンコード・パラメータは前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドのサブバンド包絡情報を含む、ステップと；
前記第1のエンコード・パラメータに基づいて前記現在フレームの第1の高周波数帯域信号および第1の低周波数帯域信号を取得するステップと；
前記第2のエンコード・パラメータに基づいて前記現在フレームの第2の高周波数帯域信号を取得するステップであって、前記第2の高周波数帯域信号は再構成されたトーン信号を含む、ステップと；
前記第1の低周波数帯域信号、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、前記現在フレームの第3の高周波数帯域信号を取得するステップと；
前記現在フレームの前記第1の高周波数帯域信号、前記第2の高周波数帯域信号、および前記第3の高周波数帯域信号に基づいて、前記現在フレームの融合高周波数帯域信号を取得するステップと；
前記第1の低周波数帯域信号および前記融合高周波数帯域信号に基づいて前記現在フレームの出力オーディオ信号を得るステップとを含む、
方法。
前記トーン成分情報は、前記現在フレームの前記高周波数帯域信号に含まれるトーン成分の数量情報および位置情報を含み、前記トーン成分の前記位置情報は、前記高周波数帯域信号に含まれるサブバンドに対応し；
前記第1の低周波数帯域信号、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、前記現在フレームの第3の高周波数帯域信号を取得するステップは：
前記トーン成分の前記数量情報および前記位置情報に基づいて、前記現在フレームの前記高周波数帯域信号内にあり、トーン成分を含むサブバンドを決定し；トーン成分を含む前記サブバンドに基づいて、前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドの位置情報を決定するステップと；
前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドのサブバンド包絡情報を取得するステップと；
前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドの前記サブバンド包絡情報と、前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドの前記サブバンド包絡情報と、前記第1の低周波数帯域信号とに基づいて周波数帯域拡張を実行して、前記現在フレームの前記第3の高周波数帯域信号を得るステップとを含む、
請求項５に記載の方法。
トーン成分を含む前記サブバンドの前記サブバンド包絡情報は、プリセット値である、請求項６に記載の方法。
オーディオ・エンコーダであって：
オーディオ信号の現在フレームを得るように構成された信号取得ユニットであって、前記現在フレームは高周波数帯域信号および低周波数帯域信号を含む、信号取得ユニットと；
前記高周波数帯域信号および前記低周波数帯域信号に基づいて前記現在フレームの第1のエンコード・パラメータを得るステップと；前記高周波数帯域信号に基づいて前記現在フレームの第2のエンコード・パラメータを得るステップであって、前記第2のエンコード・パラメータは前記高周波数帯域信号のトーン成分情報を含む、ステップと；前記高周波数帯域信号に基づいて前記現在フレームの第3のエンコード・パラメータを得るステップであって、前記第3のエンコード・パラメータは、エンコードされる必要がある前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドのサブバンド包絡情報を含む、ステップとを実行するように構成されたパラメータ取得ユニットと；
前記第1のエンコード・パラメータ、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに対してビットストリーム多重化を実行して、エンコードされたビットストリームを得るように構成されたエンコード・ユニットとを有する、
オーディオ・エンコーダ。
前記パラメータ取得ユニットは具体的には：前記高周波数帯域信号内にあり、かつ、トーン成分を含むサブバンドに基づいて、サブバンド包絡情報がエンコードされる必要があるサブバンドを決定するように構成され、サブバンド包絡情報がエンコードされる必要があるサブバンドは、トーン成分を含むサブバンドと交わりを有しない、請求項８に記載のオーディオ・エンコーダ。
前記パラメータ取得ユニットは具体的には：前記第2のエンコード・パラメータおよび前記高周波数帯域信号に基づいて前記現在フレームの前記第3のエンコード・パラメータを得るように構成されている、請求項８または９に記載のオーディオ・エンコーダ。
前記高周波数帯域信号の前記トーン成分情報は、前記高周波数帯域信号のトーン成分の位置情報を含み、前記トーン成分の位置情報は、前記高周波数帯域信号内にあり、かつトーン成分を含む前記サブバンドを示す、請求項８ないし１０のうちいずれか一項に記載のオーディオ・エンコーダ。
オーディオ・デコーダであって：
エンコードされたビットストリームを取得するように構成された受領ユニットと；
前記エンコードされたビットストリームに対してビットストリーム多重分離を実行して、オーディオ信号の現在フレームの第1のエンコード・パラメータ、第2のエンコード・パラメータ、および第3のエンコード・パラメータを取得するように構成された多重分離ユニットであって、前記第2のエンコード・パラメータは前記現在フレームの高周波数帯域信号のトーン成分情報を含み、前記第3のエンコード・パラメータは前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドのサブバンド包絡情報を含む、多重分離ユニットと；
前記第1のエンコード・パラメータに基づいて前記現在フレームの第1の高周波数帯域信号および第1の低周波数帯域信号を取得するステップと；前記第2のエンコード・パラメータに基づいて前記現在フレームの第2の高周波数帯域信号を取得するステップであって、前記第2の高周波数帯域信号は再構成されたトーン信号を含む、ステップと；前記第1の低周波数帯域信号、前記第2のエンコード・パラメータ、および前記第3のエンコード・パラメータに基づいて周波数帯域拡張を実行して、前記現在フレームの第3の高周波数帯域信号を取得するステップとを実行するように構成されたデコード・ユニットと；
前記現在フレームの前記第1の高周波数帯域信号、前記第2の高周波数帯域信号、および前記第3の高周波数帯域信号に基づいて、前記現在フレームの融合高周波数帯域信号を取得するように構成された融合ユニットと；
前記第1の低周波数帯域信号および前記融合高周波数帯域信号に基づいて前記現在フレームの出力オーディオ信号を得るように構成された再構成ユニットとを有する、
オーディオ・デコーダ。
前記トーン成分情報は、前記現在フレームの前記高周波数帯域信号に含まれるトーン成分の数量情報および位置情報を含み、前記トーン成分の前記位置情報は、前記高周波数帯域信号に含まれるサブバンドに対応し；
前記デコード・ユニットは具体的には：前記トーン成分の前記数量情報および前記位置情報に基づいて、前記現在フレームの前記高周波数帯域信号内にあり、トーン成分を含むサブバンドを決定するステップと；トーン成分を含む前記サブバンドに基づいて、前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドの位置情報を決定するステップと；前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドのサブバンド包絡情報を取得するステップと；前記現在フレームの前記高周波数帯域信号内の、トーン成分を含む前記サブバンドの前記サブバンド包絡情報と、前記高周波数帯域信号のサブバンドであって、トーン成分を含むサブバンドと交わりを有しないサブバンドの前記サブバンド包絡情報と、前記第1の低周波数帯域信号とに基づいて周波数帯域拡張を実行して、前記現在フレームの前記第3の高周波数帯域信号を得るステップとを実行するように構成される、
請求項１２に記載のオーディオ・デコーダ。
トーン成分を含む前記サブバンドの前記サブバンド包絡情報は、プリセット値である、請求項１３に記載のオーディオ・デコーダ。
少なくとも1つのプロセッサを有するオーディオ・エンコード装置であって、前記少なくとも1つのプロセッサは：メモリに結合され、前記メモリにおける命令を読み、実行して請求項１ないし４のうちいずれか一項に記載の方法を実装するように構成されている、オーディオ・エンコード装置。
少なくとも1つのプロセッサを有するオーディオ・デコード装置であって、前記少なくとも1つのプロセッサは：メモリに結合され、前記メモリにおける命令を読み、実行して請求項５ないし７のうちいずれか一項に記載の方法を実装するように構成されている、オーディオ・デコード装置。
命令を有するコンピュータ読み取り可能な記憶媒体であって、前記命令がコンピュータ上で実行されると、該コンピュータは、請求項１ないし７のうちいずれか一項に記載の方法を実行できるようにされる、記憶媒体。
コンピュータに請求項１ないし７のうちいずれか一項に記載の方法を実行させるように構成された、媒体上に記憶されたコンピュータ・プログラム。