JP7599030B2

JP7599030B2 - オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム

Info

Publication number: JP7599030B2
Application number: JP2023538141A
Authority: JP
Inventors: 俊斌梁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-09
Filing date: 2022-03-17
Publication date: 2024-12-12
Anticipated expiration: 2042-03-17
Also published as: EP4239630A1; CN112767956A; WO2022213787A1; US20230046509A1; CN112767956B; EP4239630A4; US20250378840A1; US12444427B2; JP2024501933A

Description

（関連出願への相互参照）
本願は、出願番号が第２０２１１０３８０５４７．９号であり、出願日が２０２１年４月９日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本願に組み込まれる。

本願は、オーディオ及びビデオ技術の分野に関し、特に、オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器、コンピューター可読記憶媒体及びコンピュータープログラム製品に関する。

音声符号化技術は、収集されたオリジナルロスレスオーディオ信号に対して、オーディオモデルを用いて時間領域と周波数領域の冗長分析及び圧縮を行い、それによって音声伝送帯域幅とストレージ空間を低減させ、同時に良好なオーディオ品質を維持することである。音声エンコーダの入力パラメータは、一般的にサンプリングレート、チャネル数及び符号化コードレートなどを含む。ここで、符号化コードレートが大きいほど、符号化コードストリームが占有する帯域幅が多くなり、符号化ファイルが占有するストレージ空間が大きくなり、音声符号化の品質が高くなる。

関連技術では、符号化コードレートは一般的に実験経験値によって設定される。例えば、実験室環境では、主観的な音声品質評価（ＰＥＳＱ：ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ）の方法を使用して、異なる符号化パラメータにおける対応するＰＥＳＱ値を測定し、次にＰＥＳＱ値と音声品質の目標要求に基づいてマッチングを行い、さらに必要な音声符号化コードレートを決定する。該音声符号化コードレートは実際のビジネスに使用され、音声符号化圧縮の全プロセスでは、符号化コードレートは通常固定される。

明らかに、関連技術における固定の符号化コードレートを使用する音声符号化方法では、音声信号自体が時変信号であり、異なる時刻、異なる音声信号の音声エンコーダ内部における圧縮プロセスに大きな差が存在するため、同じ符号化コードレートでは、異なる音声信号の符号化品質の差が大きく、音声符号化の品質を保証することができない。

本願の実施例は、オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器、コンピューター可読記憶媒体及びコンピュータープログラム製品を提供し、オーディオ符号化の品質を向上させることができる。該技術案は次のような態様を含む。

本願の実施例は、オーディオ符号化方法を提供し、前記オーディオ符号化方法は、
第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第２サンプルオーディオを得るステップと、
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは前記第１サンプルオーディオと前記第２サンプルオーディオによって決定されるものである、ステップと、を含む。

本願の実施例は、オーディオ符号化方法を提供し、前記オーディオ符号化方法は、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、ステップと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するステップと、を含む。

本願の実施例は、オーディオ復号化方法を提供し、前記オーディオ復号化方法は、
上記のオーディオ符号化方法により符号化された後の目標オーディオデータを取得するステップと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るステップと、を含む。

本願の実施例は、オーディオ符号化装置を提供し、前記オーディオ符号化装置は、
第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第１取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第１処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第１符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第２サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第１サンプルオーディオと前記第２サンプルオーディオによって決定されるものである、トレーニングモジュールと、を備える。

本願の実施例は、オーディオ符号化装置を提供し、前記オーディオ符号化装置は、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第４取得モジュールと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第２処理モジュールであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第２処理モジュールと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第２符号化モジュールと、を備える。

本願の実施例は、オーディオ復号化装置を提供し、前記オーディオ復号化装置は、
上記のオーディオ符号化方法により符号化された後の目標オーディオデータを取得するように構成される第５取得モジュールと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備える。

本願の実施例は、コンピューター機器を提供し、前記コンピューター機器は、プロセッサと、メモリとを含み、前記メモリに少なくとも１つのプログラムが記憶され、前記少なくとも１つのプログラムが前記プロセッサによってロード及び実行されて、上記の態様に記載のオーディオ符号化方法又はオーディオ復号化方法を実現する。

本願の実施例は、コンピューター可読記憶媒体を提供し、前記記憶媒体に少なくとも１つのプログラムが記憶され、前記少なくとも１つのプログラムがプロセッサによってロード及び実行されて、上記の態様に記載のオーディオ符号化方法又はオーディオ復号化方法を実現する。

本願の実施例は、コンピュータープログラム製品又はコンピュータープログラムを提供し、該コンピュータープログラム製品又はコンピュータープログラムは、コンピューター命令を含み、該コンピューター命令はコンピューター可読記憶媒体に記憶される。コンピューター機器のプロセッサは、コンピューター可読記憶媒体から該コンピューター命令を読み取り、プロセッサは該コンピューター命令を実行して、該コンピューター機器に、上記の選択可能な実現態様に提供されるオーディオ符号化方法又はオーディオ復号化方法を実行させる。

本願の実施例によって提供される技術案は、以下の有益な効果を含むことができる。

オーディオ符号化シーンでは、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、オーディオ特徴パラメータに基づいてオーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールする目的を実現し、各オーディオフレームのためにオーディオ特徴パラメータにマッチングするオーディオ符号化コードレートを決定することができ、それによってオーディオ全体の符号化品質を向上させる。関連技術における固定の符号化コードレートを使用することと比較して、動的な符号化コードレートを使用してオーディオ符号化を行うことは、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。

以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本願を制限するものではないことを理解すべきである。

関連技術におけるオーディオ符号化のプロセス模式図である。本願の実施例による実施環境の模式図である。本願の実施例によるオーディオ符号化方法のフローチャートである。本願の実施例によるオーディオ符号化方法のフローチャートである。本願の実施例によるオーディオ符号化方法のフローチャートである。本願の実施例によるオーディオ符号化方法のフローチャートである。本願の実施例による完全なモデルのトレーニングプロセスの模式図である。本願の実施例によるオーディオ符号化方法のフローチャートである。本願の実施例によるオーディオ符号化方法のフローチャートである。本願の実施例によるオーディオ符号化プロセスの模式図である。本願の実施例によるオーディオ符号化装置の構造的ブロック図である。本願の実施例によるオーディオ符号化装置の構造的ブロック図である。本願の実施例によるコンピューター機器の構造的ブロック図である。

以上の図面は明細書に組み込まれて本明細書の一部を構成し、本願と一致する実施例を示し、明細書と共に本願の原理を解釈することに用いられる。

ここで、例示的な実施例を詳細に説明し、その例が図面に示される。下記の説明が図面に関わる場合、特に明記しない限り、異なる図面の同じ数字は、同様又は類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本願と一致するすべての実施形態を表すものではない。逆に、それらは、添付された特許請求の範囲に詳述されたように、本願のいくつの態様と一致する装置及び方法の例にすぎない。

理解を容易にするために、以下において、本願に係る名詞について解釈する。
１）オーディオ符号化：オーディオ符号化は、初めて収集されたオリジナルロスレスオーディオ信号に対して、オーディオモデルにより時間領域と周波数領域の冗長分析及び圧縮を行い、それによって音声伝送帯域幅とストレージ空間を低減させる同時に、良好なオーディオ品質を維持することである。オーディオエンコーダの入力パラメータは、サンプリングレート、チャネル数及び符号化コードレートなどを含み、ここで、オーディオ符号化の時に使用される符号化コードレートが大きいほど、音声符号化の品質がよくなるが、符号化コードストリームが占有する帯域幅が多くなり、オーディオ符号化後のオーディオファイルが占有するストレージ空間が大きくなる。
２）人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピューター又はデジタルコンピューターによって制御される機械を使用して、人間の知能をシミュレート、延伸、拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。つまり、人工知能は、コンピューター科学の総合技術であり、知能の本質を理解し、人間の知能に似た方法で反応する新しい知能機械を生産しようとするものである。人工知能は、つまり、各種の知能機械の設計原理と実現方法を研究し、機械に感知、推理と決定の機能を持たせる。人工知能基礎技術は一般的に、例えばセンサー、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、操作／インタラクションシステム、機電一体化などの技術を含む。人工知能ソフトウェア技術は主にコンピュータービジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などのいくつかのテーマを含む。

本願の実施例は、主に人工知能の技術分野における機械学習の技術分野に関することを説明すべきである。

図１を参照すると、図１は関連技術におけるオーディオ符号化のプロセス模式図を示す。音声通話シーンにおけるオーディオ符号化を例として、往々にして音声通話が開始される前に、実験経験値に基づいてオーディオエンコーダに固定の符号化パラメータを予め設定し、送信端１０１が音声通話を開始するとき、現在の音声通話シーンに設定される符号化パラメータ１０４に基づいて、収集されたオリジナル音声１０３に対して音声符号化とチャネル符号化を行った後、符号化結果をインターネットを介して受信端１０２に伝送し、受信端１０２は、符号化結果に対してチャネル復号化及び音声復号化を行い、対応する声信号１０５を生成する。音声通話プロセス全体において、符号化パラメータ（符号化コードレート）は一般的に固定しており、パケットロス状態１０６に基づいて適切に調整されるだけである。

明らかに、固定の符号化コードレートでオーディオ信号を符号化することは、音声信号自体が時変信号であり、異なる時刻、異なる音声信号の音声エンコーダ内部における圧縮プロセスに大きな差が存在するため、同じ符号化コードレートでは、異なる音声信号の符号化品質の差が大きく、音声符号化の品質を保証することができない。

関連技術における問題について、本願の実施例は、オーディオ特徴パラメータに基づいてオーディオ符号化コードレートを動的に調整する方法（即ち、オーディオ符号化方法及びオーディオ復号化方法）を提供し、図２を参照すると、図２は本願の実施例による実施環境の模式図を示す。該実施環境は、第１端末２１０、サーバ２２０及び第２端末２３０を含むことができる。

第１端末２１０にはインターネット通話技術をサポートするアプリケーションプログラムがインストール及び実行される。それは、スマートフォン、デスクトップコンピューター、タブレットコンピューター、マルチメディアプレーヤー、スマートウォッチ、スマートスピーカー、ラップトップコンピューターなどの電子機器であってもよい。ここで、該アプリケーションプログラムは、ソーシャル系プログラム、ライブ系プログラム、ショッピング系プログラム、ゲーム系プログラム、ビデオ系プログラム、オーディオ系プログラム、インスタントメッセージング系プログラムなどであってもよい。

いくつかの実施例では、第１端末２１０に符号化コードレート予測モデルが記憶される。該符号化コードレート予測モデルは、オーディオ信号に対応するオーディオ特徴パラメータに基づいて、オーディオ符号化コードレートを動的にコントロールし、予測して得られたオーディオ符号化コードレートに基づいてオーディオ符号化を行い、符号化して得られたオーディオデータストリームを、サーバ２２０により第２端末２３０にプッシュすることができる。例えば、符号化後のオーディオデータをネットワークにより伝送する必要がある場合、オーディオデータをより良い品質で受信端（例えば、第２端末２３０）に伝送することができるようにするために、符号化コードレートを予測するときに、受信端によってフィードバックされたネットワーク状態パラメータを追加することができる。例えば、特定のシーン（該特定のシーンは、オーディオ及びビデオ通話のシーン、ライブシーンなどであってもよい）では符号化して得られたオーディオデータをネットワークにより受信端に伝送する必要がある以外、他の可能な応用シーンでは、符号化後のオーディオデータをネットワークにより伝送する必要がなく、ローカル又は他の記憶媒体に保存する必要だけがあり、対応して、オーディオ符号化コードレートを予測するときに、ネットワーク状態パラメータを考慮する必要もない。

説明すべきこととして、第１端末２１０に予め記憶された符号化コードレート予測モデルは、他のコンピューター機器（図示せず）によってトレーニングされてもよく、該符号化コードレート予測モデルを第１端末２１０にプッシュし、第１端末２１０に、実際の適用プロセスで該符号化コードレート予測モデルに基づいてオーディオ符号化コードレートを動的に調整する目的を実現させることができる。例えば、該コンピューター機器は、第１端末２１０におけるアプリケーションプログラムに対応するバックグラウンドサーバであってもよい。

ここで、第１端末２１０とサーバ２２０との間は、無線ネットワーク又は有線ネットワークを介して接続されてもよい。

サーバ２２０は、第１端末２１０又は第２端末２３０におけるアプリケーションプログラム（例えば、ネットワーク通話を行うことができるアプリケーションプログラム）にバックグラウンドサービスを提供するように構成される。例えば、サーバ２２０は、上述のアプリケーションプログラムのバックグラウンドサーバであってもよい。サーバ２２０は、１つのサーバであってもよく、又は複数のサーバから構成されるサーバクラスタであってもよく、ここで、複数のサーバがブロックチェーンを形成することができ、サーバはブロックチェーン上のノード、又はクラウドコンピューティングサービスセンターである。本願の実施例では、サーバ２２０は、第１端末２１０からのオーディオデータストリームを受信し、該オーディオデータストリームを指示された第２端末２３０にプッシュすることができる。例えば、サーバ２２０は、第２端末２３０によってフィードバックされたネットワーク状態パラメータを受信し、第１端末２１０が該ネットワーク状態パラメータに基づいてオーディオ符号化コードレートを調整するように、該ネットワーク状態パラメータを第１端末２１０にフィードバックすることができる。

ここで、第２端末２３０とサーバ２２０との間は、無線ネットワーク又は有線ネットワークを介して接続されてもよい。

第２端末２３０にはインターネット通話技術をサポートするアプリケーションプログラムがインストール及び実行される。それは、スマートフォン、デスクトップコンピューター、タブレットコンピューター、マルチメディアプレーヤー、スマートウォッチ、スマートスピーカー、ラップトップコンピューターなどの電子機器であってもよい。ここで、該アプリケーションプログラムは、ソーシャル系プログラム、ライブ系プログラム、ショッピング系プログラム、ゲーム系プログラム、ビデオ系プログラム、オーディオ系プログラム、インスタントメッセージング系プログラムなどであってもよい。本実施例では、第２端末２３０は、第１端末２１０によって送信されたオーディオデータストリームを受信し、オーディオデータストリームを復号化し、伝送されたオーディオを呈することができる。例えば、第２端末２３０はネットワーク状態パラメータを第１端末２１０にフィードバックすることができ、第１端末２１０にネットワーク状態パラメータに基づいてオーディオ符号化コードレートを動的に調整させることができる。例えば、特定のシーン（該特定のシーンは、オーディオ及びビデオ通話のシーン、ライブシーンなどであってもよい）では符号化して得られたオーディオデータをネットワークにより受信端に伝送する必要がある以外、他の可能な応用シーンでは、符号化後のオーディオデータをネットワークにより伝送する必要がなく、ローカル又は他の記憶媒体に保存する必要だけがあり、対応して、オーディオ符号化コードレートを予測するときに、ネットワーク状態パラメータを考慮する必要もない。

説明すべきこととして、本願の実施例におけるオーディオは、通話オーディオに限らず、録音、ライブオーディオ等であってもよい。ここで、上述の端末は、様々なタイプのアプリケーション、例えば、インスタントメッセージングアプリケーション、ビデオ再生アプリケーション、録音アプリケーション、ライブアプリケーションなどを含むことができる。

いくつかの実施例では、上記のオーディオ符号化方法及びオーディオ復号化方法は、クラウドゲーム、音声通話、及びビデオ生放送などのシーンに適用されることに限定されない。

図３を参照すると、図３は、本願の実施例によるオーディオ符号化方法のフローチャートを示す。本願の実施例は、該方法が図２に示す第１端末２１０に適用されることを例として説明し、該方法は、次のステップ３０１～３０３を含む。

ステップ３０１において、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得する。

オリジナルオーディオは、端末によって収集された音声であってもよく、概略的に、オリジナルオーディオは、ネットワーク音声通話シーン又はビデオ通話シーンで収集された声信号であってもよく、ライブシーンで収集された声信号であってもよく、オンラインカラオケシーンで収集された声信号であってもよく、音声放送シーンで収集された声信号であってもよい。例えば、オリジナルオーディオは、音声記憶シーンで取得されたオーディオであってもよく、概略的に、オリジナルオーディオは音声、音楽、ビデオなどであってもよく、本願の実施例は、オリジナルオーディオの形式に限定されない。

オーディオのストレージと長距離伝送を容易にすることができるために、通常、取得したオリジナルオーディオに対してオーディオ符号化を行うことで、オーディオのストレージ空間を減少させ、又は長距離伝送によって消費されるトラフィック帯域幅を減少させる必要があり、関連技術では、オーディオ符号化を行うプロセスで、一般に、前期測定により異なる応用シーンに適用されるオーディオ符号化コードレートを得、それによって実際の適用プロセスでは、該オーディオ符号化コードレートを使用して、取得したオリジナルオーディオに対して符号化を行い、つまり、ある応用シーンにおけるすべてのオーディオについては、いずれも固定の符号化コードレートを使用する。音声信号を例として、音声信号自体は時変信号であり、固定の符号化コードレートを使用して異なる音声信号に対して符号化を行うと、異なる時刻、異なる音声信号のオーディオエンコーダ内部における圧縮品質に大きな差が明らかに存在し、音声符号化の品質を保証することができない可能性がある。

本願の実施例では、オーディオ信号の特徴（可変性）を考慮して、オーディオ符号化品質を向上させるために、１つの可能な実施形態では、同じオリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、該オーディオ特徴パラメータに基づいて各オーディオフレームに対応するオーディオ符号化コードレートをそれぞれ予測して得、オーディオ符号化コードレートが異なるオーディオ特徴パラメータに基づいて動的にコントロールされ得るようにし、それによって各フレームのオーディオフレームがいずれも符号化品質要求に到達することができ、さらにオリジナルオーディオの符号化品質が向上する。

例えば、オリジナルオーディオに対してオーディオフレームの分割を行う場合、設定された時間長に従って分割を行うことができ、概略的に、２０ｍｓは１フレームのオーディオフレームである。

例えば、オーディオ特徴パラメータは、固定ゲイン、適応ゲイン、ピッチ周期、及び線スペクトル対パラメータなどを含むことができ、本願の実施例では、固定ゲイン、適応ゲイン、ピッチ周期及び線スペクトル対パラメータに限定されない。

ピッチ周期は、声門の隣接する２回の開閉の間の時間間隔又は開閉の周波数を反映するために使用される。概略的に、人が発音するとき、声帯が振動して濁音を生成する（清音は空気の摩擦によって生成される）。濁音の発音プロセスは次のとおりである。肺部からの気流が声門に当たり、声門の開閉を引き起こし、一連の準周期的な気流パルスを形成し、声道（口腔と鼻腔を含む）の共振と唇歯放射を経て、最終的に音声信号を形成する。したがって、濁音の波形は一定の準周期性を呈し、ピッチ周期はこのような準周期性にとってのものである。例えば、オーディオ信号に対応するピッチ周期を抽出する場合、自己相関法、ケプストラム法、平均振幅差関数法、線形予測法、ウェーブレット－自己相関関数法、スペクトル減－自己相関関数法などを採用することができる。概略的に、一般的に濁音は比較的高い符号化コードレートが必要であり（符号化コードレートは濁音コードレート閾値よりも大きい）、清音は比較的低い符号化コードレートが必要であるため（符号化コードレートは清音コードレート閾値よりも大きい）、異なる音声信号に対して、それを所定の符号化品質に到達させるために必要な符号化コードレートも異なり、対応して、符号化コードレート予測モデルをトレーニングするプロセスでは、オーディオフレームに対応するピッチ周期を抽出することにより、該ピッチ周期に対応するオーディオフレームに必要な符号化コードレートをさらに分析する。

携帯電話などの機器で収集されたオリジナルオーディオは往々にして、時にはラウドネスが低く、時にはラウドネスが高く、音が大きくなったり小さくなったりすることをもたらし、リスナーの主観的な感覚に影響を与えるため、オーディオ符号化のプロセスでは、出力された声が人間の耳の主観的な感覚に適するように、入力された声に対して順方向又は負方向の調節を行う必要がある。該プロセスは、即ちオリジナルオーディオに対するゲインコントロールプロセスであり、異なる時刻の音声信号は、ラウドネスの高さの差により、対応する適応ゲインに差があり、オーディオフレームに対してゲインを行うプロセスでは、オーディオ信号におけるノイズ信号も同様に増加するが、オーディオ符号化の実質は、オーディオにおける冗長性（即ちノイズ信号）を減少させるためのものであり、明らかに、異なるゲインは該オーディオ信号の符号化コードレートに影響を与えるため、異なるオーディオフレームに対応するゲインに基づいてそれに対応する符号化コードレートを決定する必要がある。

線スペクトル対パラメータは、オーディオ信号のスペクトル特徴を反映するために使用される。線スペクトル対パラメータは、誤差の相対的な独立性を持ち、つまり、ある周波数ポイントにおける線スペクトル対パラメータの偏差は、該周波数付近の音声スペクトルにのみ影響を与え、他の周波数における線スペクトル対パラメータ音声スペクトルにほとんど影響を与えない。このようにして、線スペクトル対パラメータの量子化と補間に有利であり、より小さな符号化コードレートで同じ品質の符号化オーディオを達成し、オーディオ信号に対応する線スペクトル対パラメータは符号化コードレートの決定に役立つことが分かる。

例えば、対応するオーディオ特徴抽出モデルを設定し、オリジナルオーディオを該オーディオ特徴抽出モデルに入力し、オリジナルオーディオに含まれる各オーディオフレームに対してオーディオ特徴抽出を行い、それによって各フレームのオーディオフレームに対応するオーディオ特徴パラメータを出力することができる。

例えば、オーディオ特徴パラメータは多くの特徴次元を含むため、オーディオ特徴抽出の効率を向上させるために、符号化結果に比較的大きな影響を与える（符号化結果の影響が影響閾値より大きい）Ｎ種類のオーディオ特徴次元における特徴パラメータをその中から選択することができ、対応して、該Ｎ種類のオーディオ特徴次元におけるオーディオ特徴パラメータのみを抽出する必要があり、ここで、Ｎは正の整数である。例えば、異なるオーディオ種類に対して、異なるオーディオ特徴抽出次元を設定することができる。

ステップ３０２において、符号化コードレート予測モデルによりオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、オーディオフレームのオーディオ符号化コードレートを得る。

ここで、符号化コードレート予測モデルは、目標符号化品質スコアを目標としてトレーニングされるため、該符号化コードレート予測モデルを符号化コードレート予測に適用するプロセスでは、各オーディオフレームに対応するオーディオ特徴パラメータに基づいて、オリジナルオーディオに対応するオーディオ符号化品質を目標符号化品質スコアに到達させる場合、各オーディオフレームに対応するオーディオ符号化コードレートを予測することができる。ここで、異なるオーディオ特徴パラメータは、異なるオーディオ符号化コードレートに対応する。

ここで、端末に符号化コードレート予測モデルが設定され、該符号化コードレート予測モデルは、各オーディオフレームに対応するオーディオ特徴パラメータに基づいて、各オーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールすることができる。各フレームのオーディオフレームに対応するオーディオ特徴パラメータを該符号化コードレート予測モデルに入力し、それによって該オーディオフレームに対応するオーディオ符号化コードレートを得ることができ、後続で該オーディオ符号化コードレートに基づいてオーディオフレームに対してオーディオ符号化を行うことができるようにする。

概略的に、符号化コードレート予測モデルのトレーニングプロセスについては、以下の実施例を参照することができ、本願の実施例は、ここで詳細に説明しない。

ステップ３０３において、オーディオ符号化コードレートに基づいてオーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成する。

いくつかの実施例では、異なるオーディオフレームに対応するオーディオ符号化コードレートを取得した後、該オーディオ符号化コードレートに基づいてオーディオフレームに対して符号化を行い、さらに各オーディオフレームに対応する符号化結果を組み合わせて、オリジナルオーディオに対応する目標オーディオデータを生成する。

概略的に、オリジナルオーディオがオーディオフレーム１～オーディオフレーム５０に分割されると、対応して、オーディオフレームに対応するオーディオ特徴パラメータは、オーディオ特徴パラメータ１～オーディオ特徴パラメータ５０であり、各オーディオフレームに対応するオーディオ特徴パラメータをそれぞれ符号化コードレート予測モデルに入力し、オーディオフレームに対応する符号化コードレート（即ち、符号化コードレート１～符号化コードレート５０）を得、次に、それぞれ各オーディオフレームに対応するオーディオ符号化コードレートに基づいてオーディオフレームに対してオーディオ符号化を行い、各オーディオフレームに対応するオーディオ符号化結果（オーディオ符号化結果１～オーディオ符号化結果５０）を得、それによってオーディオ符号化結果１～オーディオ符号化結果５０を組み合わせて、オリジナルオーディオに対応する目標オーディオデータを得る。

本願の実施例のオーディオ符号化方法はパルス符号化変調（ＰＣＭ：ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）符号化、波形オーディオファイル（ＷＡＶ）符号化、ＭＰ３符号化等であってもよいことを説明すべきである。

例えば、該目標オーディオデータは、端末に記憶されてもよく、ネットワークを介して他の機器に伝送されてもよい。例えば、特定のシーン（例えば、オーディオ及びビデオ通話のシーン、ライブシーンなど）では符号化して得られた目標オーディオデータをネットワークを介して受信端に伝送する必要があり、受信端は、オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより目標オーディオデータに対してオーディオ復号化を行い、復号化後の目標オーディオデータを得、復号化後の目標オーディオデータをロスレスに再生する。

例えば、同じオリジナルオーディオに対して、いくつかの連続するオーディオフレーム間のオーディオ特徴の差は一般的に小さく、対応するオーディオ符号化コードレートの差も小さく、又は一般的に同じオーディオ符号化コードレートに対応し、符号化コードレート予測モデルによる偶発的な誤差がオーディオ符号化結果に影響を与えることを回避するために、取得された各オーディオフレームに対応するオーディオ符号化コードレートを平滑化することで、予測誤差がオーディオ符号化品質に与える影響を低減させることができる。

以上から分かるように、本願の実施例では、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、オーディオ特徴パラメータに基づいてオーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールする目的を実現し、各オーディオフレームのためにオーディオ特徴パラメータにマッチングするオーディオ符号化コードレートを決定することができ、それによってオーディオ全体の符号化品質を向上させる。関連技術における固定の符号化コードレートを使用することと比較して、本願の実施例における動的な符号化コードレートを使用してオーディオ符号化を行うことは、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。

符号化コードレート予測モデルがオーディオ符号化コードレートを動的にコントロールする目標を実現できるようにするために、予め大量のサンプルオーディオにより符号化コードレート予測モデルをトレーニングする必要があり、該符号化コードレート予測モデルに、異なるオーディオ特徴パラメータに対応するオーディオに適用されるオーディオ符号化コードレートを学習させることができ、適用プロセスでは、該符号化コードレート予測モデルに基づいてオーディオ符号化コードレートを動的にコントロールすることができるようにする。

図４を参照すると、図４は本願の実施例によるオーディオ符号化方法のフローチャートを示す。本願の実施例は、コンピューター機器を例として例示的な説明を行い、該方法は次のステップ４０１～４０５を含む。

ステップ４０１において、第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する。

説明すべきこととして、符号化コードレート予測モデルは、異なるオーディオ特徴パラメータに対応するオーディオ符号化コードレートをマッチングするために使用され、符号化コードレート予測モデルのトレーニングプロセスでは、符号化コードレート予測モデルをトレーニングするための、大量のサンプルオーディオ、及びサンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する必要がある。

例えば、サンプルオーディオ特徴パラメータは、オーディオ特徴抽出モデルによって抽出され得る。

例えば、符号化コードレート予測モデルがより多くの応用シーンに適用され得るようにするために、第１サンプルオーディオを取得するときに、異なる種類のオーディオ、例えば、音声、音楽、オーディオ及びビデオにおけるオーディオなどを取得することができる。

概略的に、第１サンプルオーディオの数が多いほど、符号化コードレート予測モデルの予測正確度が高くなり、第１サンプルオーディオの種類が豊富であるほど、符号化コードレート予測モデルの予測範囲と予測正確度も高くなる。

例えば、第１サンプルオーディオフレームを選択するときに、異なるタイプのオーディオを選択することができる以外、同じタイプのオーディオに対して、異なるオーディオコンテンツ、異なるオーディオ時間長のサンプルオーディオを選択することもできる。同じサンプルオーディオに対して、第１サンプルオーディオを、後続でオーディオ特徴パラメータを抽出するための、異なるオーディオフレームに分割することもできる。

ステップ４０２において、符号化コードレート予測モデルによりサンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、サンプルオーディオフレームのサンプル符号化コードレートを得る。

いくつかの実施例では、各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを符号化コードレート予測モデルに入力し、符号化コードレート予測モデルによって出力される各サンプルオーディオフレームに対応するサンプル符号化コードレートを得ることができる。

例えば、符号化コードレート予測モデルは、全接続ネットワークをメインネットワークとして採用してもよく、ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、再帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）などのニューラルネットワークを採用してもよく、又は開発者が実際のニーズに基づいてニューラルネットワークを構築し、本願の実施例は符号化コードレート予測モデルの構造に限定されない。異なるサンプルオーディオ特徴パラメータは、異なるサンプル符号化コードレートに対応する。

ステップ４０３において、サンプル符号化コードレートに基づいてサンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成する。

符号化コードレート予測モデルが出力するサンプル符号化コードレート又はオーディオ符号化コードレートはオーディオ符号化シーンに対応するため、対応して、符号化コードレート予測モデルが出力する符号化コードレートがオーディオフレームにマッチングするかどうかを評価する場合、該サンプル符号化コードレートを使用してサンプルオーディオフレームに対してオーディオ符号化を行った後、さらにオーディオ符号化結果に基づいて、符号化コードレート予測モデルをトレーニングする根拠の１つとする必要がある。

いくつかの実施例では、第１サンプルオーディオに対して、該第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプル符号化コードレートを取得し、各サンプルオーディオフレームに対応するサンプル符号化コードレートに基づいて、各サンプルオーディオフレームに対してオーディオ符号化を行い、それによって各フレームのサンプルオーディオフレームに対応する符号化結果に基づいて、第１サンプルオーディオに対応する今回の音声符号化品質を後続で評価するために、サンプルオーディオデータを生成する。

ステップ４０４において、サンプルオーディオデータに対してオーディオ復号化を行い、サンプルオーディオデータに対応する第２サンプルオーディオを得る。

音声符号化品質を評価するために、サンプルオーディオデータに対してオーディオ復号化を行うことで、サンプルオーディオデータに基づいて生成された第２サンプルオーディオを得、これにより第２サンプルオーディオとオリジナルサンプルオーディオとを比較することで、第１サンプルオーディオのオーディオ符号化品質を決定する。

ステップ４０５において、第１サンプルオーディオと第２サンプルオーディオに基づいて、符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了する。

ここで、サンプル符号化品質スコアは、第１サンプルオーディオと第２サンプルオーディオによって決定されるものである。

いくつかの実施例では、オリジナルオーディオ（第１サンプルオーディオ）とオーディオ符号化及び復号化を行った後のオーディオ（第２サンプルオーディオ）とを比較することにより、今回の符号化パラメータに対応する符号化品質を決定し、それによって該符号化品質に基づいて符号化コードレート予測モデルの各パラメータを調整し、さらにいくつかのトレーニングサイクルにより符号化コードレート予測モデルのトレーニングプロセスを完了する。

符号化コードレート予測モデルのトレーニングプロセスでは、符号化コードレート予測モデルによって出力される符号化コードレートを使用してサンプルオーディオに対してオーディオ符号化を行った後、サンプルオーディオのサンプル符号化品質スコアを目標符号化品質スコアに到達させる場合、符号化コードレート予測モデルのトレーニングプロセスが完了することを決定することができる。概略的に、該目標符号化品質スコアは５分であってもよい。例えば、実際の応用シーン要求に基づいて符号化コードレート予測モデルに対応する目標符号化品質スコアを設定することもできる。

ここで、サンプル符号化品質を決定する方法については、主観的音声品質評価（ＰＥＳＱ：ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ）テスト方法を採用することができ、第１サンプルオーディオと第２サンプルオーディオに対応する差異値を計算し、さらに、平均オピニオン値（ＭＯＳ：ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）にマッピングすることによって、第１サンプルオーディオと第２サンプルオーディオの差異が大きいほど、対応する音声符号化品質は悪くなり、ＭＯＳ値は低くなる。

以上から分かるように、本願の実施例では、符号化コードレート予測モデルをトレーニングすることにより、符号化コードレート予測モデルがサンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータに基づいてオーディオ符号化コードレートを動的にコントロールすることができ、実際の応用プロセスでは、符号化コードレート予測モデルに基づいて予測して得られたオーディオ符号化コードレートを、よりオーディオ信号の特徴に一致させ、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。

一節のオーディオについて、異なる時刻においていずれも変化するが、連続するマルチフレームのオーディオフレーム間の差は小さく、つまり、隣接するオーディオフレーム間のオーディオ特徴パラメータの差は小さく、現在のオーディオフレームに対応するオーディオ符号化コードレートを予測する場合。前フレームのオーディオフレームに対応するオーディオ符号化コードレートは、現在のオーディオフレームに対して一定の参照意義を持ち、オーディオ符号化コードレートの予測正確度をさらに向上させるために、前フレームのオーディオフレームに対応するオーディオ符号化コードレートを、次のフレームのオーディオフレームの符号化コードレート予測プロセスに再帰することができる。

図５を参照すると、図５は本願の実施例によるオーディオ符号化方法のフローチャートを示す。本願の実施例は、コンピューター機器を例として例示的な説明を行い、該方法は次のステップ５０１～５０７を含む。

ステップ５０１において、第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する。

ステップ５０１の実施方法については、ステップ４０１を参照することができ、本願の実施例は、ここで詳細に説明しない。

例えば、サンプルオーディオ特徴パラメータは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも１つを含むことができる。

ステップ５０２において、ｉ－１フレーム目のサンプルオーディオフレームに対応するｉ－１番目のサンプル符号化コードレートを取得する。

ここで、ｉは逓増する整数であり、且つ値の範囲が１＜ｉ≦Ｎであり、Ｎはサンプルオーディオフレームの数であり、Ｎは１より大きい整数である。

いくつかの実施例では、前フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートを符号化コードレート予測モデルに再帰することによって、次のフレームのサンプルオーディオフレームに対応するサンプル符号化コードレートを予測する場合、前フレームのサンプル符号化コードレートを参照することができ、サンプル符号化コードレートの変動が大きい状況をできるだけ回避することができる。

ステップ５０３において、符号化コードレート予測モデルにより、ｉ番目のサンプルオーディオ特徴パラメータ及びｉ－１番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、ｉフレーム目のサンプルオーディオフレームに対応するｉ番目のサンプル符号化コードレートを得る。

いくつかの実施例では、ｉフレーム目のサンプルオーディオフレームに対応するｉ番目のサンプル符号化コードレートを予測する場合、取得されたｉ－１フレーム目のサンプル符号化コードレート及びｉ番目のサンプルオーディオ特徴パラメータを、一緒に符号化コードレート予測モデルに入力し、ｉ番目のサンプル符号化コードレートに予測根拠を提供することができ、符号化コードレートの予測正確度をさらに向上させることができる。

概略的に、第１サンプルオーディオがサンプルオーディオフレーム１～サンプルオーディオフレーム６０に分割されると、対応して、符号化コードレート予測プロセスでは、符号化コードレート予測モデルが１０フレーム目のサンプルオーディオフレームに対応する１０番目のサンプル符号化コードレートを出力する場合、１１フレーム目のサンプルオーディオフレームに対応する１１番目のサンプル符号化コードレートを予測するとき、１０番目のサンプル符号化コードレート及び１１番目のサンプルオーディオ特徴パラメータを、一緒に符号化コードレート予測モデルに入力し、１１番目のサンプル符号化コードレートを得ることができる。

ステップ５０４において、サンプル符号化コードレートに基づいてサンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成する。

ステップ５０５において、サンプルオーディオデータに対してオーディオ復号化を行い、サンプルオーディオデータに対応する第２サンプルオーディオを得る。

ステップ５０４及びステップ５０５の実施方法については、前述の実施例を参照することができ、本願の実施例は、ここで詳細に説明しない。

ステップ５０６において、第１サンプルオーディオと第２サンプルオーディオに基づいて、第１サンプルオーディオに対応するサンプル符号化品質スコアを決定する。

いくつかの実施例では、第１サンプルオーディオ及び第２サンプルオーディオに対してＰＥＳＱテストを行い、さらに測定結果をＭＯＳ値にマッピングすることによって、該ＭＯＳ値を第１サンプルオーディオに対応するサンプル符号化品質スコアとして決定する。

概略的に、ＭＯＳ値の値範囲は０～５であってもよく、ここで、ＭＯＳ値が高いほど、オーディオ符号化品質が優れることを表す。

ステップ５０７において、サンプル符号化品質スコアと目標符号化品質スコアに基づいて、符号化コードレート予測モデルをトレーニングする。

ここで、目標符号化品質スコアは、オーディオ符号化の予期目標を示し、開発者によって設定され、符号化コードレート予測モデルの応用シーンに基づいて異なる目標符号化品質スコアを設定することができ、概略的に、符号化コードレート予測モデルが音声通話シーンに適用される場合、目標符号化品質スコアを４に設定することができ、符号化コードレート予測モデルがオーディオストレージシーンに適用される場合、目標符号化品質スコアを５に設定することができる。

例えば、異なる目標符号化品質スコアに対して異なる符号化コードレート予測モデルをトレーニングすることもでき、これにより、実際の応用プロセスでは、目標符号化品質スコアに対する実際の応用シーンの要求に基づいて、対応する符号化コードレート予測モデルを選択することができる。

いくつかの実施例では、サンプル符号化品質スコアを目標符号化品質スコアと比較することによって、今回の符号化結果と予期目標との間のギャップを決定し、さらに該オーディオギャップに基づいて符号化コードレート予測モデルをトレーニングし、それによって符号化コードレート予測モデルにおける各パラメータを更新する。

オーディオ符号化プロセスでは、目標符号化品質スコアに加えて、符号化コードレートの選択も符号化品質を評価する指標の１つとすべきであり、概略的に、同じオーディオ信号に対して、符号化コードレートＡと符号化コードレートＢを使用していずれも同じ符号化品質を達成することができるが、符号化コードレートＡは符号化コードレートＢよりも小さく、符号化コードレートが大きいほど、より多くのストレージ空間とトラフィック帯域幅を消費する可能性があるため、符号化コードレートＡと符号化コードレートＢから比較的小さい符号化コードレートを決定する必要があり、対応して、モデルのトレーニングプロセスでは、符号化コードレートも符号化コードレート予測モデルの損失パラメータの１つとする。

例示的に、符号化コードレート予測モデルをトレーニングするプロセスは、以下のステップをさらに含むことができる。

ステップ１において、第１サンプルオーディオに対応する平均符号化コードレートを決定し、平均符号化コードレートは各フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートによって決定されるものである。

本願の実施例では、オーディオ符号化プロセスにおいて、各フレームのサンプルオーディオフレームに対して、いずれも対応するサンプル符号化コードレートを予測し、比較的小さなサンプル符号化コードレートを達成することができるかどうかを評価するとき、各フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートに対して平均値を取り、平均符号化コードレートを求め、さらに該平均符号化コードレートを、オーディオ符号化品質を評価するパラメータの１つとして決定することができる。

ステップ２において、平均符号化コードレート、サンプル符号化品質スコア及び目標符号化品質スコアに基づいて、第１サンプルオーディオに対応する第１符号化損失を構築する。

いくつかの実施例では、符号化コードレート及び符号化品質スコアの２つのパラメータ次元を組み合わせることによって、第１サンプルオーディオに対応する符号化損失を共同で評価し、即ち平均符号化コードレート、サンプル符号化品質スコア、及び目標符号化品質スコアに基づいて、第１サンプルオーディオに対応する第１符号化損失を計算して得る。

例えば、開発者は、応用シーンの要求に基づいて、２つのパラメータ次元における重みを自分で調整することができ、概略的に、音声通話シーンについて、符号化コードレートに比較的大きな重みを設定することができ、オーディオストレージシーンについて、符号化品質スコアに比較的大きな重みを設定することができる。

例示的に、第１符号化損失を構築するプロセスは、以下のステップをさらに含むことができる。

ステップ１において、平均符号化コードレートに対応する第１損失重み、及び符号化品質スコアに対応する第２損失重みを取得し、符号化品質スコアはサンプル符号化品質スコアと目標符号化品質スコアによって決定されるものである。

いくつかの実施例では、符号化損失を計算するとき、平均符号化コードレート及び符号化品質スコアに対応する損失重みをそれぞれ取得し、さらに、各パラメータに対応する損失重みに基づいて第１符号化損失を計算して得ることができる。

例えば、第１損失重み及び第２損失重みは、開発者によって設定される。符号化コードレート予測モデルの応用シーンの違いに基づいて、トレーニングして得られた符号化コードレート予測モデルがより該応用シーンの要求に適用されるように、異なる第１損失重みと第２損失重みをそれぞれ設定することができる。

例えば、異なる損失重みの組み合わせに対して異なる符号化コードレート予測モデルをトレーニングすることもでき、さらに、実際の応用プロセスでは、異なる応用シーンの要求に対して、対応する符号化コードレート予測モデルを選択することができる。

ステップ２において、平均符号化コードレート、第１損失重み、符号化品質スコア及び第２損失重みに基づいて、第１サンプルオーディオに対応する第１符号化損失を構築する。

例示的に、第１符号化損失を計算する式は、次のように表すことができる。

ここで、ａは値が０～１である重み係数（即ち、損失重み）を表し、ａｖｅｒａｇｅ（．）は平均関数を求めることを表し、ｂｉｔｒａｔｅは符号化コードレートを表し、ｐｏｗｅｒ（．）はべき乗関数を表し、ＭＯＳ＿ＳＥＴは音声客観品質ＭＯＳ分の所定の目標値（即ち、目標符号化品質スコア）を表し、ｍｏｓはサンプル符号化品質スコアを表し、関数ｆ（ｘ）は、ｘ≦０の場合、ｆ（ｘ）＝０、ｘ＞０の場合、ｆ（ｘ）＝ｘと定義される。

いくつかの実施例では、平均符号化コードレート、第１損失重み、サンプル符号化品質スコア、目標符号化品質スコア、及び第２損失重みを上記の式に代入し、第１サンプルオーディオに対応する第１符号化損失を計算して得ることができる。

ステップ３において、第１符号化損失と所定の符号化損失に基づいて、符号化コードレート予測モデルをトレーニングする。

いくつかの実施例では、符号化コードレート予測モデルをトレーニングするプロセスにおいてクロスエントロピー（Ｃｒｏｓｓ－Ｅｎｔｒｏｐｙ）準則を使用し、つまり、所定の符号化損失が予め設定され、第１符号化損失が所定の符号化損失に限りなく近い場合にのみ、符号化コードレート予測モデルのトレーニングが完了することを決定することができる。

いくつかの実施例では、前フレームのサンプル符号化コードレートを符号化コードレート予測モデルに再帰することによって、次のフレームのサンプル符号化コードレートの予測のために一定の参照価値を提供することができ、それによって予測プロセスにおいて符号化コードレートの変動振幅が大きいことを回避し、さらに、符号化コードレートの予測正確度を向上させることができる。それ以外に、小さな符号化コードレートと良好な符号化品質を目標として符号化コードレート予測モデルをトレーニングし、これにより、符号化コードレート予測モデルが応用プロセスにおいて音声符号化コードレートを制御する場合、音声符号化品質が目標要求を満たす前提で符号化コードレートが最小であることを達成し、対応して、同等の帯域幅又はストレージ空間の条件で、オーディオ符号化品質が最もよくなることができる。

特定の応用シーンでは、オーディオ符号化を行った後のオーディオデータを、ネットワークを介して他の端末に伝送する必要があり、例えば、音声通話シーンでは、符号化後の音声データを他のクライアントに伝送する必要があり、受信端が良いオーディオ信号を取得することができるかどうかは、符号化コードレートだけでなく、ネットワーク伝送プロセスのネットワーク環境状態にも依存するため、該特定のシーンにおいて受信端が品質の良いオーディオ信号を取得できるようにするために、オーディオ符号化コードレートを予測するプロセスでは、現在のネットワーク状態パラメータを考慮する必要もあり、対応して、モデルのトレーニングプロセスでは、ネットワーク状態パラメータもモデルトレーニングに参加する必要がある。

例示的に、図４に基づいて、図６に示すように、ステップ４０２は、ステップ６０１及びステップ６０２によって置き換えられてもよい。

ステップ６０１において、第１サンプルオーディオのサンプルネットワーク状態パラメータを取得する。

符号化コードレート予測モデルをトレーニングする場合、予測されたオーディオ符号化コードレートを現在のネットワーク状態に適用するようにするために、ネットワーク状態パラメータを、符号化コードレート予測モデルをトレーニングするトレーニングサンプルに追加することもできる。概略的に、サンプルネットワーク状態パラメータは、パケットロス率、ネットワーク伝送速度などであってもよい。

例えば、必要なサンプルネットワーク状態パラメータをランダムにシミュレートすることができる。概略的に、異なるサンプルオーディオに対して異なるサンプルネットワーク状態パラメータを生成し、又は異なるサンプルオーディオフレームに対して対応するサンプルネットワーク状態パラメータを生成し、又は所定の期間ごとに対応するサンプルネットワーク状態パラメータを生成することができる。

対応して、サンプルオーディオフレームに対応するサンプル符号化コードレートを予測するとき、サンプルネットワーク状態パラメータ及び該サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを、共同で符号化コードレート予測モデルに入力し、符号化コードレートの予測を行うことができる。

ステップ６０２において、符号化コードレート予測モデルにより、サンプルネットワーク状態パラメータ及びサンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、サンプルオーディオフレームのサンプル符号化コードレートを得る。

いくつかの実施例では、サンプルオーディオフレームに対応するサンプル符号化コードレートを予測するとき、該サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する必要がある以外、今回の予測に使用されるサンプルネットワーク状態パラメータを取得する必要もあり、サンプルネットワーク状態パラメータ及び該サンプルオーディオ特徴パラメータを、共同で符号化コードレート予測モデルに入力し、それによって符号化コードレート予測モデルによって出力されるサンプル符号化コードレートを得る。

例えば、特定の応用シーンにおける符号化予測の正確度をさらに向上させるために、符号化コードレートを予測するプロセスでは、前フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートを符号化コードレート予測モデルに再帰し、次のフレームのサンプルオーディオフレームに対応するサンプル符号化コードレートに予測参照を提供することもできる。

いくつかの実施例では、サンプルネットワーク状態パラメータ、ｉ－１番目のサンプル符号化コードレート（ｉ－１フレーム目のサンプルオーディオフレームに対応する符号化コードレート）、及びｉ番目のサンプルオーディオ特徴パラメータを符号化コードレート予測モデルに入力することができ、ここで、サンプルネットワーク状態パラメータは現在のネットワーク状態参照を提供し、ｉ－１番目のサンプル符号化コードレートは符号化コードレート予測参照を提供し、さらにｉ番目のサンプルオーディオフレームに対応するｉ番目のサンプル符号化コードレートを生成する。

いくつかの実施例では、トレーニングプロセスにおいてネットワーク状態パラメータを追加することにより、符号化コードレート予測モデルが符号化コードレートを予測するときに、ネットワーク状態が符号化コードレートに与える影響を考慮することができ、特定のシーン（例えば、音声通話シーン）における対応するオーディオ符号化品質をさらに向上させる。

図７を参照すると、図７は本願の実施例による完全なモデルのトレーニングプロセスの模式図を示す。第１サンプル音声７０１に基づいて符号化コードレート予測モデル７０２をトレーニングするプロセスでは、第１サンプル音声７０１をいくつかのサンプルオーディオフレームに分割し、各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータ７０４、ネットワークパケットロスフラグ７０３を符号化コードレート予測モデル７０２に入力し、符号化コードレート予測モデル７０２が出力する現在のフレームの符号化コードレート７０５を得、該現在のフレームの符号化コードレート７０５は、音声符号化だけでなく、現在のフレームの符号化コードレート７０５を符号化コードレート予測モデル７０２に再帰して、次のフレームの符号化コードレートの予測にも用いられてもよく、各フレームのサンプルオーディオフレームに対応する符号化コードレートに基づいてオーディオ符号化を行い、オーディオ符号化結果を得、次に、音声符号化結果に対してオーディオ復号化を行った後、第２サンプル音声７０６を生成し、第１サンプル音声７０１及び第２サンプル音声７０６に対してＰＥＳＱテストを行うことにより、続いてテスト結果に基づいて符号化コードレート予測モデル７０２をトレーニングする。

例示的に、符号化コードレート予測モデル７０２は、全結合層（ＤＥＮＳＥ）及びゲートリカレントユニット（ＧＲＵ）を含み、概略的に、ＧＲＵ１のニューロンの数は２４であり、ＤＥＮＳＥ２のニューロンの数は９６であり、ＧＲＵ２とＧＲＵ３のニューロンの数はいずれも２５６であり、ＤＥＮＳＥ３のニューロンの数は１である。ネットワークパケットロスフラグ７０３をＤＥＮＳＥ１に入力し、ネットワーク状態特徴を抽出し、同時にサンプルオーディオ特徴パラメータ７０４を、オーディオ特徴を抽出するために、ＤＥＮＳＥ２に入力し、次にＧＲＵ２とＧＲＵ３により特徴融合を行い、ＤＥＮＳＥ３に入力し、ＤＥＮＳＥ３によって各所定の符号化コードレートの確率を出力し、さらに最も確率の高い所定の符号化コードレートを現在のサンプルオーディオフレームに対応する現在のフレームの符号化コードレートとして決定する。

例えば、符号化コードレート予測モデル７０２は、他のネットワーク構造を採用することもでき、例えば、符号化コードレート予測モデル７０２は、全結合層のみを含む。

モデルのトレーニングプロセスでは、前フレームの符号化コードレートをネットワークモデルに再帰して、次のフレームの符号化コードレートを予測する根拠とし、対応して、実際の応用プロセスでは、オーディオ符号化品質をさらに向上させるために、各フレームの符号化コードレート予測モデルによって出力されるオーディオ符号化コードレートをモデルに再帰し、次のフレームの符号化コードレートの予測のために参照を提供することもできる。

図３に基づいて、図８に示すように、ステップ３０２はステップ８０１及びステップ８０２によって置き換えられてもよい。

ステップ８０１において、ｊ－１フレーム目のオーディオフレームに対応するｊ－１番目のオーディオ符号化コードレートを取得する。

ここで、ｊは逓増する整数であり、且つ値の範囲が１＜ｊ≦Ｍであり、Ｍはオーディオフレームの数であり、Ｍは１より大きい整数である。

いくつかの実施例では、符号化コードレート予測モデルがｊ－１フレーム目のオーディオフレームに対応するｊ－１番目のオーディオ符号化コードレートを予測した後、後続で該ｊ－１番目のオーディオ符号化コードレートに基づいてｊ－１番目のオーディオフレームに対してオーディオ符号化を行うことに適用される以外、ｊ－１番目のオーディオ符号化コードレートを符号化コードレート予測モデルに再入力して、ｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ符号化コードレートを予測するために参照根拠を提供することもできる。

ステップ８０２において、符号化コードレート予測モデルにより、ｊ－１番目のオーディオ符号化コードレート及びｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、ｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ符号化コードレートを得る。

いくつかの実施例では、ｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ符号化コードレートを予測するとき、ｊ－１フレーム目のオーディオフレームに対応するｊ－１番目のオーディオ符号化コードレートを取得することができ、これによりｊ－１番目のオーディオ符号化コードレートとｊ番目のオーディオ特徴パラメータを、共同で符号化コードレート予測モデルに入力し、ｊ－１番目のオーディオ符号化コードレートによってｊ番目のオーディオ符号化コードレートに予測根拠を提供し、さらに符号化コードレート予測モデルが出力するｊ番目のオーディオ符号化コードレートを得る。

いくつかの実施例では、前フレームのオーディオ符号化コードレートを符号化コードレート予測モデルに再帰することによって、次のフレームのオーディオ符号化コードレートの予測のために参照の役割を果たすことができ、符号化コードレートの予測プロセスにおいてオーディオ符号化コードレートの変動振幅が大きいことを回避することができ、さらに、オーディオ符号化コードレートの予測正確度を向上させることができる。

いくつかの特定の応用シーン、例えば、音声通話シーン、ライブシーンなどのオーディオデータをオンラインで伝送する必要があるシーンについて、ネットワーク状態が受信端によって受信される音声品質に影響を与えるため、該特定の応用シーンでは、ネットワーク状態が音声品質に与える影響を回避するために、オーディオ符号化コードレートを生成するときに現在のネットワーク状態の影響を考慮する必要がある。

図３に基づいて、図９に示すように、ステップ３０２はステップ９０１及びステップ９０２によって置き換えられてもよい。

ステップ９０１において、受信端によってフィードバックされる現在のネットワーク状態パラメータを取得し、受信端は、ネットワークを介して伝送される目標オーディオデータを受信するために使用される。

１つの可能な応用シーンでは、オーディオ符号化後の目標オーディオデータを、ネットワークを介して他の端末（即ち、受信端）に伝送する必要があり、ネットワーク状態もオーディオ符号化プロセスに一定の影響を与え、概略的に、ネットワーク状態が悪い場合、対応して比較的小さい符号化コードレートを採用し、ネットワーク状態が良好な場合、比較的大きな符号化コードレートを採用する。したがって、ネットワーク伝送に使用されるオーディオデータについて、符号化コードレートを予測するプロセスでは、受信端によってフィードバックされる現在のネットワーク状態パラメータも考慮する必要がある。

ここで、該ネットワーク状態パラメータは受信端によって返されてもよく、ネットワーク状態パラメータがパケットロス率であることを例として、受信端は一定時間内のネットワークパケットロス率を統計し、該ネットワークパケットロス率を送信端に返すことにより、送信端が該パケットロス率を受信する場合、該パケットロス率をネットワーク状態パラメータとして符号化コードレート予測モデルに入力することができ、これにより、オーディオ符号化コードレートを予測するときに、現在のネットワーク状態を考慮することができる。

概略的に、送信端末は設定時間ごとに受信端からネットワーク状態パラメータを取得してもよく、又は受信端は予定時間ごとにネットワーク状態パラメータを送信端末にフィードバックしてもよい。ここで、設定時間は３０分（ｍｉｎ）であってもよい。

ステップ９０２において、符号化コードレート予測モデルにより、現在のネットワーク状態パラメータ及びオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、オーディオフレームのオーディオ符号化コードレートを得る。

いくつかの実施例では、オーディオフレームに対応するオーディオ符号化コードレートを予測するときに、現在のネットワーク状態の影響を考慮して、取得された現在のネットワーク状態パラメータ及びオーディオフレームに対応するオーディオ特徴パラメータを符号化コードレート予測モデルに入力することができ、オーディオ符号化コードレートを予測するときに、現在のネットワーク状態という影響因子を両立させ、それによって符号化コードレート予測モデルによって出力されるオーディオ符号化コードレートを得る。

送信端が該オーディオ符号化コードレートに基づいてオーディオを符号化し、符号化結果をネットワークを介して受信端に伝送した後、オーディオ符号化プロセスに使用されるオーディオ符号化コードレートは、現在のネットワーク状況を考慮したものであるため、受信端が良好なオーディオ信号を受信することを保証することができる。

例えば、特定の応用シーンにおける符号化予測の正確度をさらに向上させるために、符号化コードレートを予測するプロセスでは、前フレームのオーディオフレームに対応するオーディオ符号化コードレートを符号化コードレート予測モデルに再帰し、次のフレームのオーディオフレームに対応するオーディオ符号化コードレートに予測参照を提供することもできる。

いくつかの実施例では、ネットワーク状態パラメータ、ｊ－１番目のオーディオ符号化コードレート（即ち、ｊ－１番目のオーディオフレームに対応するオーディオ符号化コードレート）、及びｊ番目のオーディオ特徴パラメータを符号化コードレート予測モデルに入力することができ、ネットワーク状態パラメータによってｊ番目のオーディオ符号化コードレートにネットワーク状態参照を提供し、ｊ－１番目のオーディオ符号化コードレートによってｊ番目のオーディオ符号化コードレートに符号化コードレート予測参照を提供し、さらに、符号化コードレート予測モデルによってｊ番目のオーディオフレームに対応するｊ番目のオーディオ符号化コードレートを出力し、ｊは１より大きい整数である。

いくつかの実施例では、オーディオ符号化コードレートを予測するプロセスでは、ネットワーク状態パラメータを追加することにより、符号化コードレート予測モデルは、符号化コードレートを予測するときに、ネットワーク状態が符号化コードレートに与える影響を考慮することができ、特定のシーン（例えば、音声通話シーン）における対応するオーディオ符号化品質をさらに向上させる。

図１０を参照すると、図１０は本願の実施例によるオーディオ符号化プロセスの模式図を示す。モデルの応用プロセスでは、ネットワークパケットロスフラグ１００１（即ち、ネットワーク状態パラメータ）とオーディオ特徴パラメータ１００２を符号化コードレート予測モデル１００３に入力し、それによって現在のフレームの符号化コードレート１００４を出力することができる。例えば、現在のフレームの符号化コードレート１００４を符号化コードレート予測モデルに入力し、次のフレームの符号化コードレートを予測するために参照根拠を提供することができ、さらに各フレームのオーディオフレームに対応するオーディオ符号化コードレートに基づいてオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいてオリジナルオーディオに対応するオーディオ符号化データを生成する。

図１１を参照すると、図１１は本願の実施例によるオーディオ符号化装置の構造的ブロック図を示す。該オーディオ符号化装置は、ソフトウェア、ハードウェア、又は両者の組み合わせによってコンピューター機器の全部又は一部として実現されてもよい。該オーディオ符号化装置は、
第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第１取得モジュール１１０１と、符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第１処理モジュール１１０２と、前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第１符号化モジュール１１０３と、前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第２サンプルオーディオを得るように構成されるオーディオ復号化モジュール１１０４と、前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュール１１０５であって、前記サンプル符号化品質スコアは前記第１サンプルオーディオと前記第２サンプルオーディオによって決定されるものである、トレーニングモジュール１１０５と、を備えてもよい。

いくつかの実施例では、前記オーディオ符号化装置は、さらに、前記第１サンプルオーディオのサンプルネットワーク状態パラメータを取得するように構成される第２取得モジュール１１０５を備え、前記第１処理モジュール１１０２は、前記符号化コードレート予測モデルにより前記サンプルネットワーク状態パラメータ及び前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第１処理ユニットを備える。

いくつかの実施例では、前記オーディオ符号化装置は、さらに、ｉ－１フレーム目のサンプルオーディオフレームに対応するｉ－１番目のサンプル符号化コードレートを取得するように構成される第３取得モジュールを備え、
前記第１処理モジュール１１０２は、前記符号化コードレート予測モデルによりｉ番目のサンプルオーディオ特徴パラメータ及び前記ｉ－１番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、ｉフレーム目のサンプルオーディオフレームに対応するｉ番目のサンプル符号化コードレートを得るように構成される第２処理ユニットを備え、ｉは逓増する整数であり、且つ値の範囲が１＜ｉ≦Ｎであり、Ｎは前記サンプルオーディオフレームの数であり、Ｎは１より大きい整数である。

いくつかの実施例では、前記トレーニングモジュール１１０５は、前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記第１サンプルオーディオに対応する前記サンプル符号化品質スコアを決定するように構成される決定ユニットと、前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングするように構成されるトレーニングユニットと、を備える。

いくつかの実施例では、前記トレーニングユニットは、さらに、前記第１サンプルオーディオに対応する平均符号化コードレートを決定し、前記平均符号化コードレートは各フレームのサンプルオーディオフレームに対応する前記サンプル符号化コードレートによって決定されるものであり、前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第１サンプルオーディオに対応する第１符号化損失を構築し、前記第１符号化損失と所定の符号化損失に基づいて、前記符号化コードレート予測モデルをトレーニングするように構成される。

いくつかの実施例では、前記トレーニングユニットは、さらに、前記平均符号化コードレートに対応する第１損失重み、及び符号化品質スコアに対応する第２損失重みを取得し、前記符号化品質スコアは前記サンプル符号化品質スコアと前記目標符号化品質スコアによって決定されるものであり、前記平均符号化コードレート、前記第１損失重み、前記符号化品質スコア及び前記第２損失重みに基づいて、前記第１サンプルオーディオに対応する前記第１符号化損失を構築するように構成される。

いくつかの実施例では、前記サンプルオーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも１つを含む。

以上から分かるように、本願の実施例では、符号化コードレート予測モデルをトレーニングするプロセスにおいて、サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを分析することにより、サンプルオーディオ特徴パラメータに基づいて各フレームのサンプルオーディオフレームに対応するサンプルオーディオ符号化コードレートを予測し、さらに各フレームに対応するサンプル符号化コードレートに基づいてサンプルオーディオフレームに対してオーディオ符号化を行い、オーディオ符号化結果に対してオーディオ復号化を行った後、オーディオ復号化後のオーディオとオリジナルオーディオとの間の関係を比較して、符号化コードレート予測モデルをトレーニングし、実際の応用プロセスでは、符号化コードレート予測モデルに、オーディオ特徴パラメータに基づいてオーディオ符号化コードレートを動的にコントロールすることができる機能を持たせ、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。

図１２を参照すると、図１２は本願の実施例によるオーディオ符号化装置の構造的ブロック図を示す。該オーディオ符号化装置は、ソフトウェア、ハードウェア、又は両者の組み合わせによってコンピューター機器の全部又は一部として実現されてもよい。該オーディオ符号化装置は、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第４取得モジュール１２０１と、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第２処理モジュール１２０２であって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第２処理モジュール１２０２と、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第２符号化モジュール１２０３と、を備えてもよい。

いくつかの実施例では、前記目標オーディオデータはネットワーク伝送に使用され、
前記オーディオ符号化装置は、さらに、
受信端によってフィードバックされる現在のネットワーク状態パラメータを取得するように構成される第５取得モジュールであって、前記受信端はネットワークを介して伝送される目標オーディオデータを受信するために使用される、第５取得モジュールを備え、前記第２処理モジュール１２０２は、前記符号化コードレート予測モデルにより前記現在のネットワーク状態パラメータ及び前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第３処理ユニットを備える。

いくつかの実施例では、前記オーディオ符号化装置は、さらに、
ｊ－１フレーム目のオーディオフレームに対応するｊ－１番目のオーディオ符号化コードレートを取得するように構成される第６取得モジュールを備え、前記第２処理モジュール１２０２は、前記符号化コードレート予測モデルにより前記ｊ－１番目のオーディオ符号化コードレート及びｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、ｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ符号化コードレートを得るように構成される第４処理ユニットを備え、ここで、ｊは逓増する整数であり、且つ値の範囲が１＜ｊ≦Ｍであり、Ｍは前記オーディオフレームの数であり、Ｍは１より大きい整数である。

いくつかの実施例では、前記オーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも１つを含む。

以上から分かるように、本願の実施例では、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、オーディオ特徴パラメータに基づいてオーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールする目的を実現し、各オーディオフレームのためにオーディオ特徴パラメータにマッチングするオーディオ符号化コードレートを決定することができ、それによってオーディオ全体の符号化品質を向上させる。関連技術における固定の符号化コードレートを使用することと比較して、本実施例における動的な符号化コードレートを使用してオーディオ符号化を行うことは、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。

本願の実施例は、オーディオ復号化装置をさらに提供し、該オーディオ復号化装置は、ソフトウェア、ハードウェア、又は両者の組み合わせによってコンピューター機器の全部又は一部として実現されてもよい。該オーディオ復号化装置は、
符号化された後の目標オーディオデータを取得するように構成される第５取得モジュールと、オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備えてもよい。

図１３を参照すると、図１３は本願の実施例によるコンピューター機器の構造的ブロック図を示す。該コンピューター機器は、上記の実施例で提供されるオーディオ符号化方法又はオーディオ復号化方法を実施するために使用されてもよい。具体的に、
前記コンピューター機器１３００は、中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１３０１、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３０２及び読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）１３０３を含むシステムメモリ１３０４、及びシステムメモリ１３０４と中央処理ユニット１３０１とを接続するシステムバス１３０５を含む。前記コンピューター機器１３００は、コンピューター機器内の各デバイス間の情報伝送を支援する基本入力／出力システム（Ｉ／Ｏシステム：Ｉｎｐｕｔ／Ｏｕｔｐｕｔシステム）１３０６と、オペレーティングシステム１３１３、アプリケーションプログラム１３１４及び他のプログラムモジュール１３１５を記憶するための大容量記憶装置１３０７とをさらに含む。

前記基本入力／出力システム１３０６は、情報を表示するためのディスプレイ１３０８と、ユーザが情報を入力するためのマウス、キーボードなどの入力装置１３０９とを含む。ここで、前記ディスプレイ１３０８と入力装置１３０９は共に、システムバス１３０５に接続される入出力コントローラ１３１０を介して中央処理ユニット１３０１に接続される。前記基本入力／出力システム１３０６は、キーボード、マウス、又は電子スタイラスなどの複数の他のデバイスからの入力を受信及び処理するための入出力コントローラ１３１０をさらに含むことができる。同様に、入出力コントローラ１３１０は、ディスプレイスクリーン、プリンタ、又は他のタイプに出力する出力装置をさらに提供する。

前記大容量記憶装置１３０７は、システムバス１３０５に接続される大容量記憶コントローラ（図示せず）を介して中央処理ユニット１３０１に接続される。前記大容量記憶装置１３０７及びそれに関連するコンピューター可読記憶媒体は、コンピューター機器１３００に不揮発性記憶を提供する。つまり、前記大容量記憶装置１３０７は、ハードディスク又はコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）ドライブなどのコンピューター可読記憶媒体（図示せず）を含むことができる。

一般的に、前記コンピューター可読記憶媒体は、コンピューター記憶媒体及び通信媒体を含むことができる。コンピューター記憶媒体は、コンピューター可読記憶命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するためのいかなる方法又は技術によって実現される、揮発性及び不揮発性、移動可能及び移動不可な媒体を含む。コンピューター記憶媒体は、ＲＡＭ、ＲＯＭ、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、電気的消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ：Ｅｌｅｃｔｒｉｃａｌｌｙ－ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ又は他のソリッドステートストレージ技術、ＣＤ－ＲＯＭ、デジタル多機能ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）又は他の光学ストレージ、テープカートリッジ、磁気テープ、磁気ディスクストレージ又は他の磁気記憶装置を含む。当然ながら、当業者は、前記コンピューター記憶媒体が上述のものに限定されないことを分かる。上述のシステムメモリ１３０４及び大容量記憶装置１３０７は、総称してメモリということができる。

メモリは１つ又は複数のプログラムが記憶され、１つ又は複数のプログラムは１つ又は複数の中央処理ユニット１３０１によって実行されるように構成され、１つ又は複数のプログラムは、上述の方法の実施例を実現するための命令を含み、中央処理ユニット１３０１は、該１つ又は複数のプログラムを実行して、上述の各方法の実施例によって提供される方法を実現する。

本願の様々な実施例によれば、前記コンピューター機器１３００は、インターネットなどのネットワークを介してネットワーク上のリモートサーバに接続して実行することもできる。即ち、コンピューター機器１３００は、前記システムバス１３０５に接続されるネットワークインターフェースユニット１３１１を介してネットワーク１３１２に接続することができ、又は、ネットワークインターフェースユニット１３１１を使用して、他のタイプのネットワーク又はリモートサーバシステム（図示せず）に接続することもできる。

前記メモリはさらに、１つ又は１つ以上のプログラムを含み、前記１つ又は１つ以上のプログラムはメモリに記憶され、前記１つ又は１つ以上のプログラムは、本願の実施例によって提供される方法を実行するためにコンピューター機器によって実行されるステップを含む。

本願の実施例は、コンピューター可読記憶媒体を提供し、該コンピューター可読記憶媒体に少なくとも１つの命令が記憶され、前記少なくとも１つの命令がプロセッサによってロード及び実行されて、上記の各実施例に記載のオーディオ符号化方法又はオーディオ復号化方法を実現する。

当業者は、明細書を考慮し、本明細書に開示された発明を実践した後に、本願の他の実施方案を容易に想到し得る。本願は、本願のいかなる変形、用途又は適応変化を網羅することを意図し、これらの変形、用途又は適応変化は、本願の一般的原理に準拠し、本願によって開示されない本技術分野における公知知識又は慣用技術手段を含む。明細書と実施例は、単なる例示と見なされ、本願の真の範囲及び精神は下記の特許請求の範囲によって指摘される。

理解すべきこととして、本願は、上記に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱しなく様々な修正及び変更を行うことができる。本願の範囲は、添付の特許請求の範囲のみによって制限される。

１０１送信端
１０２受信端
１０３オリジナル音声
１０４設定される符号化パラメータ
１０５声信号
１０６パケットロス状態
２１０第１端末
２２０サーバ
２３０第２端末
７０１第１サンプル音声
７０２符号化コードレート予測モデル
７０３ネットワークパケットロスフラグ
７０４サンプルオーディオ特徴パラメータ
７０５現在のフレームの符号化コードレート
７０６第２サンプル音声
１００１ネットワークパケットロスフラグ
１００２オーディオ特徴パラメータ
１００３符号化コードレート予測モデル
１００４現在のフレームの符号化コードレート
１１０１第１取得モジュール
１１０２第１処理モジュール
１１０３第１符号化モジュール
１１０４オーディオ復号化モジュール
１１０５トレーニングモジュール
１２０１第４取得モジュール
１２０２第２処理モジュール
１２０３第２符号化モジュール
１３００コンピューター機器
１３０１中央処理ユニット
１３０２ランダムアクセスメモリ
１３０３読み取り専用メモリ
１３０４システムメモリ
１３０５システムバス
１３０６入力／出力システム
１３０７大容量記憶装置
１３０８ディスプレイ
１３０９入力装置
１３１０入出力コントローラ
１３１１ネットワークインターフェースユニット
１３１２ネットワーク
１３１３オペレーティングシステム
１３１４アプリケーションプログラム
１３１５他のプログラムモジュール

Claims

コンピューター機器が実行する、オーディオ符号化方法であって、
第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第２サンプルオーディオを得るステップと、
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは、前記第１サンプルオーディオと前記第２サンプルオーディオとの差異によって決定されるものである、ステップと、を含む、
オーディオ符号化方法。
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
前記第１サンプルオーディオのサンプルネットワーク状態パラメータを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記サンプルネットワーク状態パラメータ及び前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップを含む、
請求項１に記載のオーディオ符号化方法。
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
ｉ－１フレーム目のサンプルオーディオフレームに対応するｉ－１番目のサンプル符号化コードレートを取得するステップをさらに含み、
前記符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルによりｉ番目のサンプルオーディオ特徴パラメータ及び前記ｉ－１番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、ｉフレーム目のサンプルオーディオフレームに対応するｉ番目のサンプル符号化コードレートを得るステップを含み、
ｉは逓増する整数であり、且つ値の範囲が１＜ｉ≦Ｎであり、Ｎは前記サンプルオーディオフレームの数であり、Ｎは１より大きい整数である、
請求項１に記載のオーディオ符号化方法。
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記第１サンプルオーディオに対応する前記サンプル符号化品質スコアを決定するステップと、
前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項１から３のいずれか一項に記載のオーディオ符号化方法。
前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第１サンプルオーディオに対応する平均符号化コードレートを決定するステップであって、前記平均符号化コードレートは各フレームのサンプルオーディオフレームに対応する前記サンプル符号化コードレートによって決定されるものである、ステップと、
前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第１サンプルオーディオに対応する第１符号化損失を構築するステップと、
前記第１符号化損失と所定の符号化損失に基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項４に記載のオーディオ符号化方法。
前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第１サンプルオーディオに対応する第１符号化損失を構築する前記ステップは、
前記平均符号化コードレートに対応する第１損失重み、及び符号化品質スコアに対応する第２損失重みを取得するステップであって、前記符号化品質スコアは前記サンプル符号化品質スコアと前記目標符号化品質スコアによって決定されるものである、ステップと、
前記平均符号化コードレート、前記第１損失重み、前記符号化品質スコア及び前記第２損失重みに基づいて、前記第１サンプルオーディオに対応する前記第１符号化損失を構築するステップと、を含む、
請求項５に記載のオーディオ符号化方法。
前記サンプルオーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも１つを含む、
請求項１から３のいずれか一項に記載のオーディオ符号化方法。
コンピューター機器が実行する、オーディオ符号化方法であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときの各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、ステップと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するステップと、を含み、
前記符号化コードレート予測モデルは、
第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第２サンプルオーディオを得るステップと、
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは、前記第１サンプルオーディオと前記第２サンプルオーディオとの差異によって決定されるものである、ステップと、によってトレーニングされる、
オーディオ符号化方法。
前記目標オーディオデータはネットワーク伝送に使用され、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
受信端によってフィードバックされる現在のネットワーク状態パラメータを取得するステップであって、前記受信端はネットワークを介して伝送される目標オーディオデータを受信するために使用される、ステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記現在のネットワーク状態パラメータ及び前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップを含む、
請求項８に記載のオーディオ符号化方法。
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
ｊ－１フレーム目のオーディオフレームに対応するｊ－１番目のオーディオ符号化コードレートを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記ｊ－１番目のオーディオ符号化コードレート及びｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、ｊフレーム目のオーディオフレームに対応するｊ番目のオーディオ符号化コードレートを得るステップを含み、
ｊは逓増する整数であり、且つ値の範囲が１＜ｊ≦Ｍであり、Ｍは前記オーディオフレームの数であり、Ｍは１より大きい整数である、
請求項８に記載のオーディオ符号化方法。
前記オーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも１つを含む、
請求項８から１０のいずれか一項に記載のオーディオ符号化方法。
コンピューター機器が実行する、オーディオ復号化方法であって、前記オーディオ復号化方法は、請求項８から１１のいずれか一項に記載のオーディオ符号化方法によって符号化された後の目標オーディオデータに適用され、
前記オーディオ復号化方法は、
前記符号化された後の目標オーディオデータを取得するステップと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るステップと、を含む、
オーディオ復号化方法。
オーディオ符号化装置であって、
第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第１取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第１処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第１符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第２サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第１サンプルオーディオと前記第２サンプルオーディオとの差異によって決定されるものである、トレーニングモジュールと、を備える、
オーディオ符号化装置。
オーディオ符号化装置であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第４取得モジュールと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第２処理モジュールであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときの各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第２処理モジュールと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第２符号化モジュールと、を備え、
前記符号化コードレート予測モデルは、
第１サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第１取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第１処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第１符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第２サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第１サンプルオーディオと前記第２サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第１サンプルオーディオと前記第２サンプルオーディオとの差異によって決定されるものである、トレーニングモジュールと、によってトレーニングされる、
オーディオ符号化装置。
オーディオ復号化装置であって、
請求項８から１１のいずれか一項に記載のオーディオ符号化方法によって符号化された後の目標オーディオデータを取得するように構成される第５取得モジュールと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備える、
オーディオ復号化装置。
コンピューター機器であって、
プロセッサと、
前記プロセッサにロードおよび実行されると、前記プロセッサに、請求項１から７のいずれか一項に記載のオーディオ符号化方法を実現させ、又は請求項８から１１のいずれか一項に記載のオーディオ符号化方法を実現させ、又は請求項１２に記載のオーディオ復号化方法を実現させる、少なくとも１つのプログラムを記憶するメモリと、を含む、
コンピューター機器。
コンピューターに、請求項１から７のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項８から１１のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項１２に記載のオーディオ復号化方法を実行させる、コンピュータープログラム。