JP2023553629A

JP2023553629A - オーディオ信号強化方法、装置、コンピュータ機器及びコンピュータプログラム

Info

Publication number: JP2023553629A
Application number: JP2023535590A
Authority: JP
Inventors: 蒙王; ▲慶▼博黄; ▲ウェイ▼ 肖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-30
Filing date: 2022-04-15
Publication date: 2023-12-25
Also published as: CN113763973A; WO2022228144A1; US20230099343A1; EP4297025A1

Abstract

本願はコンピュータ機器が実行するオーディオ信号強化方法に関する。前記方法は、受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングし、オーディオ信号を取得するステップ（Ｓ３０２）と、前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップ（Ｓ３０４）と、前記音声パケットを復号することで得られた線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップ（Ｓ３０６）と、前記特徴パラメータ、前記音声パケットを復号することで得られた長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップ（Ｓ３０８）と、前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップ（Ｓ３１０）と、を含む。

Description

本願は２０２１年０４月３０日にて中国特許庁に提出され、出願番号が２０２１１０４８４１９６６であり、発明名称が「オーディオ信号強化方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照により本願に援用される。

本願はコンピュータ技術分野に関して、特に、オーディオ信号強化方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム製品に関する。

符号化／復号中において、通常、オーディオ信号には量子化雑音が導入されるため、復号及び合成出された音声が歪んでしまう。従来の態様において、一般的にピッチフィルタ(ＰｉｔｃｈＦｉｌｔｅｒ)又はニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）による後処理を採用して、オーディオ信号を強化させることで、量子化雑音による音声品質の影響を低減させる。

しかしながら、従来の態様の信号処理の速度が低く、大きな遅延が存在し、達成可能な音声品質の向上効果が限られており、オーディオ信号強化の適時性が悪い。

本願の各種の実施例はオーディオ信号強化方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム製品を提供する。

コンピュータ機器が実行するオーディオ信号強化方法であって、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を含む。

一実施例において、前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記強化された音声励起信号を線形合成フィルタリングするステップは、
前記線形フィルタリング係数に基づいて、線形予測フィルタに対してパラメータ構成を行うステップと、
前記音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得するステップと、
前記履歴音声パケットに対応するエネルギーゲイン値及び前記音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定するステップと、
前記エネルギー調整パラメータによって前記履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得するステップと、
前記調整された履歴長期フィルタリング励起信号及び前記強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記調整された履歴長期フィルタリング励起信号に基づいて、前記強化された音声励起信号を線形合成フィルタリングするステップと、を含む。

オーディオ信号強化装置であって、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得する音声パケット処理モジュールと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出する特徴パラメータ抽出モジュールと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換する信号変換モジュールと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する音声強化モジュールと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する音声合成モジュールと、を含む。

コンピュータプログラムが記憶されたメモリとプロセッサーとを含むコンピュータ機器であって、前記プロセッサーは前記コンピュータプログラムを実行すると、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を実現する。

コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムはプロセッサーによって実行されると、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を実現する。

コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令はコンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ機器のプロセッサーは前記コンピュータ読み取り可能な記憶媒体から前記コンピュータ命令を読み取って、前記コンピュータ命令を実行することで、前記コンピュータ機器に、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を実行させる。

本願の１つ又は複数の実施例の詳細は以下の図面及び記載によって提出される。本願の他の特徴及び利点は明細書、図面及び請求項によって分かりやすくなる。

ここで説明される図面は本願に対するさらなる理解を提供し、本願の一部を構成する。本願の概略的な実施例及びその説明は本願を限定せず、解釈するためのものである。

一実施例に係る励起信号による音声生成モデルの概略図である。一実施例に係るオーディオ信号強化方法の適用環境図である。一実施例に係るオーディオ信号強化方法のフロー概略図である。一実施例に係るオーディオ信号伝送のフロー概略図である。一実施例に係る長期予測フィルタの振幅周波数応答図である。一実施例に係る音声パケットの復号及びフィルタリングステップのフロー概略図である。一実施例に係る長期逆フィルタの振幅周波数応答図である。一実施例に係る信号強化モデルの概略図である。別の実施例に係るオーディオ信号強化方法のフロー概略図である。別の実施例に係るオーディオ信号強化方法のフロー概略図である。一実施例に係るオーディオ信号強化装置の構造ブロック図である。別の実施例に係るオーディオ信号強化装置の構造ブロック図である。一実施例に係るコンピュータ機器の内部構造図である。別の実施例に係るコンピュータ機器の内部構造図である。

以下、本願の目的、技術案及び利点をより明らかにするために、図面及び実施例を組み合わせて本願をさらに詳しく説明する。なお、ここに記載の具体的な実施例は、単に本願を解釈するためのものとして、本願を限定してはいない。

本願によるオーディオ信号強化方法を説明する前に、まず、音声生成モデルを説明する。図１の励起信号による音声生成モデルを参照すると、励起信号による音声生成モデルの物理理論基礎は人間の声の生成過程であり、当該過程は以下のステップを含む。
（１）気管では、一定のエネルギーを有する雑音類の衝撃信号を生成し、当該衝撃信号は励起信号による音声生成モデルにおける励起信号に対応する。
（２）衝撃信号は人間の声帯を衝撃して、周期的な開閉を生成し、口腔によって拡大された後、声を出し、出された声は励起信号による音声生成モデルにおけるフィルタに対応する。

実際の過程では、声の特点を配慮すると、励起信号による音声生成モデルにおけるフィルタを長期予測（ＬｏｎｇＴｅｒｍＰｒｅｄｉｃｔｉｏｎ、ＬＴＰ）フィルタ及び線形予測（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ、ＬＰＣ）フィルタに細分化し、ＬＴＰフィルタは音声の長期関連性によってオーディオ信号を強化させ、ＬＰＣフィルタは音声の短期関連性によってオーディオ信号を強化させる。具体的に、有声音類の周期的な信号に対して、励起信号による音声生成モデルにおいて、励起信号はＬＴＰフィルタ及びＬＰＣフィルタをそれぞれ衝撃し、無声音類非周期的な信号に対して、励起信号はＬＰＣフィルタのみを衝撃する。

本願の実施例による態様は人工知能の機械学習などの技術に関し、具体的に、以下の実施例によって説明する。本願は、コンピュータ機器が実行するオーディオ信号強化方法を提供し、具体的に、図２の適用環境に適用される。端末２０２はネットワークを介してサーバー２０４と通信し、サーバー２０４から送信された音声パケット、又はサーバー２０４を介して他の機器から転送された音声パケットを受信し、サーバー２０４は端末から送信された音声パケット、又は他の機器から送信された音声パケットを受信する。上記のオーディオ信号強化方法は端末２０２又はサーバー２０４に適用され、端末２０２が実行することを例として説明すると、端末２０２は受信した音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングしてオーディオ信号を取得し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出し、線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換し、特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。

端末２０２は各種のパーソナルコンピュータ、ノートパソコン、スマートフォン、タブレット及び携帯型ウェアラブル機器であってもよいが、これらに限定されず、サーバー２０４は独立した物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティーサービス、ＣＤＮ、及びビッグデータや人工知能プラットフォームなどの基礎クラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。

一実施例において、図３に示すように、オーディオ信号強化方法を提供する。当該方法が図２のコンピュータ機器（端末又はサーバー）に適用されることを例として説明すると、以下のステップＳ３０２、Ｓ３０４、Ｓ３０６、Ｓ３０８、Ｓ３１０を含む。

Ｓ３０２において、受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングしてオーディオ信号を取得する。

受信された音声パケットは前方誤り訂正（ＦｅｅｄｆｏｒｗａｒｄＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎ、ＦＥＣ）技術によるパケットロス防止シナリオにおける音声パケットであってもよい。

前方誤り訂正技術はエラー制御方式として、信号が伝送チャネルに送られる前に、予め一定のアルゴリズムに従って符号化処理し、信号自体の特徴を有する冗長コードを追加し、受信側で、該当するアルゴリズムに従って受信した信号を復号することで、伝送過程で生成されたエラーコードを探し出して修正する技術である。

冗長コードは冗長情報とも呼ばれる。本願の実施例において、図４を参照すると、信号送信側は現在の音声フレーム（現在フレームと略称される）のオーディオ信号を符号化する場合、直前の音声フレーム（直前のフレームと略称される）のオーディオ信号情報を冗長情報として現在フレームのオーディオ信号に対応する音声パケットに符号化し、符号化が完了すると、現在フレームのオーディオ信号に対応する音声パケットを受信側に送信し、受信側は当該音声パケットを受信する。これにより、信号伝送過程で異常が生じて、受信側がある音声パケットを受信していないか又はある音声パケットにエラーコードが出現しても、その次の音声フレーム（次のフレームと略称される）のオーディオ信号に対応する音声パケットを復号することで、ロス又はエラーコードの音声パケットに対応するオーディオ信号を取得し、信号伝送の信頼性を向上させる。受信側は図２の端末２０２であってもよい。

具体的に、端末は、音声パケットを受信した場合、受信した音声パケットをキャッシュに記憶して、再生対象となる音声フレームに対応する音声パケットをキャッシュから取り出し、当該音声パケットに対して復号及びフィルタリングを行って、オーディオ信号を取得し、当該音声パケットが直前のタイミングで復号された履歴音声パケットの隣接パケットであり、且つ直前のタイミングで復号された履歴音声パケットにおいて異常がない場合、取得されたオーディオ信号を直接出力し、又は当該オーディオ信号をオーディオ信号強化処理して、音声強化信号を取得し出力する。当該音声パケットが直前のタイミングで復号された履歴音声パケットの隣接パケットではない場合、又は当該音声パケットが直前のタイミングで復号された履歴音声パケットの隣接パケットであるが、直前のタイミングで復号された履歴音声パケットに異常がある場合、当該オーディオ信号をオーディオ信号強化処理して、音声強化信号を取得し出力する。ここで、当該音声強化信号には、直前のタイミングで復号された履歴音声パケットの隣接パケットに対応するオーディオ信号が含まれる。

復号は具体的に、エントロピー復号であってもよく、エントロピー復号はエントロピー符号化に対応する復号の態様である。具体的に、送信側は、オーディオ信号を符号化する場合、エントロピー符号化の態様によってオーディオ信号を符号化して、音声パケットを取得する。これにより、受信側は音声パケットを受信した場合、エントロピー復号の態様によって受信した音声パケットを復号する。

一実施例において、端末は音声パケットを受信した場合、受信した音声パケットを復号処理して、残差信号及びフィルタパラメータを取得し、フィルタパラメータに基づいて残差信号に対して信号合成フィルタリングを行って、オーディオ信号を取得する。ここで、フィルタパラメータは、長期フィルタリングパラメータ及び線形フィルタリングパラメータを含む。

具体的に、送信側は、現在フレームのオーディオ信号を符号化する場合、直前のフレームのオーディオ信号を分析することで、フィルタパラメータを取得し、取得したフィルタパラメータに基づいてフィルタに対してパラメータ構成を行い、構成済みのフィルタによって現在フレームのオーディオ信号に対して分析フィルタリングを行って、現在フレームのオーディオ信号の残差信号を取得し、残差信号及び分析によるフィルタパラメータによってオーディオ信号を符号化して、音声パケットを取得し、当該音声パケットを受信側に送信する。これにより、受信側は音声パケットを受信すると、受信した音声パケットに対して復号処理を行って、残差信号及びフィルタパラメータを取得し、フィルタパラメータに基づいて残差信号を信号合成フィルタリングして、オーディオ信号を取得する。

一実施例において、フィルタパラメータは線形フィルタリングパラメータ及び長期フィルタリングパラメータを含み、送信側は、現在フレームのオーディオ信号を符号化する場合、直前のフレームのオーディオ信号を分析することで線形フィルタリングパラメータ及び長期フィルタリングパラメータを取得し、線形フィルタリングパラメータに基づいて、現在フレームのオーディオ信号を線形分析フィルタリングして、線形フィルタリング励起信号を取得し、長期フィルタリングパラメータに基づいて、線形フィルタリング励起信号を長期分析フィルタリングして、現在フレームのオーディオ信号に対応する残差信号を取得し、残差信号、分析による線形フィルタリングパラメータ及び長期フィルタリングパラメータによって現在フレームのオーディオ信号を符号化し、音声パケットを取得して受信側に送信する。

具体的に、線形フィルタリングパラメータに基づいて、現在フレームのオーディオ信号を線形分析フィルタリングするステップは、具体的に、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形分析フィルタリングして、線形フィルタリング励起信号を取得するステップを含む。ここで、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、線形フィルタリング係数はＬＰＣＡＲと記され、エネルギーゲイン値はＬＰＣｇａｉｎと記され、線形予測フィルタの式は以下の通りである。

ただし、e(n)は現在フレームのオーディオ信号に対応する線形フィルタリング励起信号であり、s(n)は現在フレームのオーディオ信号であり、ｐは各フレームのオーディオ信号に含まれたサンプリング点の数であり、a_iは直前のフレームのオーディオ信号を分析することで得られた線形フィルタリング係数であり、s_adj(n-i)は現在フレームのオーディオ信号s(n)の直前のフレームのオーディオ信号s(n-i)のエネルギー調整後状態であり、s_adj(n-i)は以下の式から取得される。

ただし、s(n-i)は現在フレームのオーディオ信号s(n)の直前のフレームのオーディオ信号であり、gain_adjは直前のフレームのオーディオ信号s(n-i)のエネルギー調整パラメータであり、gain_adjは以下の式から取得される。

ただし、gain(n)は現在フレームのオーディオ信号に対応するエネルギーゲイン値であり、gain(n-i)は直前のフレームのオーディオ信号に対応するエネルギーゲイン値である。

長期フィルタリングパラメータに基づいて、線形フィルタリング励起信号を長期分析フィルタリングするステップは、具体的に、長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期分析フィルタリングして、現在フレームのオーディオ信号の対応する残差信号を取得するステップを含む。ここで、長期フィルタリングパラメータはピッチ周期及び対応する振幅ゲイン値を含み、ピッチ周期はＬＴＰｐｉｔｃｈと記され、対応する振幅ゲイン値はＬＴＰｇａｉｎと記され、長期予測フィルタの周波数領域は以下のように示され、周波数領域はＺドメインと記される。

上記の式において、p(z)は長期予測フィルタの振幅周波数応答であり、zは周波数領域変換の回転因子であり、γは振幅ゲイン値ＬＴＰｇａｉｎであり、Tはピッチ周期ＬＴＰｐｉｔｃｈであり、図５は一実施例において、γ＝１、Ｔ＝８０の場合、対応する長期予測フィルタの振幅周波数応答図を示す。

長期予測フィルタの時間領域は以下のように示される。

ただし、δ(n)は現在フレームのオーディオ信号に対応する残差信号であり、e(n)は現在フレームのオーディオ信号に対応する線形フィルタリング励起信号であり、γは振幅ゲイン値ＬＴＰｇａｉｎであり、Tはピッチ周期ＬＴＰｐｉｔｃｈであり、e(n-T)は現在フレームのオーディオ信号の直前のピッチ周期のオーディオ信号に対応する線形フィルタリング励起信号である。

一実施例において、端末が復号を行うことで得られたフィルタパラメータは長期フィルタリングパラメータ及び線形フィルタリングパラメータを含み、信号合成フィルタリングは長期フィルタリングパラメータによる長期合成フィルタリング、及び線形フィルタリングパラメータによる線形合成フィルタリングを含む。端末は、音声パケットを復号して残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得した後、長期フィルタリングパラメータに基づいて、残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得してから、線形フィルタリングパラメータに基づいて、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。

一実施例において、端末は、残差信号を取得すると、取得した残差信号を複数のサブフレームに分けて、複数のサブ残差信号を取得し、各サブ残差信号に対して、それぞれ該当する長期フィルタリングパラメータに基づいて、長期合成フィルタリングを行って、各サブフレームに対応する長期フィルタリング励起信号を取得してから、各サブフレームのシーケンスに従って、各サブフレームに対応する長期フィルタリング励起信号を組み合わせて、対応する長期フィルタリング励起信号を取得する。

例えば、１つの音声パケットは２０ｍｓのオーディオ信号に対応する場合、即ち、取得された残差信号は２０ｍｓである場合、当該残差信号を４つのサブフレームに分けて、４つの５ｍｓのサブ残差信号を取得し、各５ｍｓのサブ残差信号に対して、それぞれ該当する長期フィルタリングパラメータに基づいて、長期合成フィルタリングを行って、４つの５ｍｓの長期フィルタリング励起信号を取得してから、各サブフレームのシーケンスに従って、当該４つの５ｍｓの長期フィルタリング励起信号を組み合わせて、１つの２０ｍｓの長期フィルタリング励起信号を取得する。

一実施例において、端末は、長期フィルタリング励起信号を取得すると、取得した長期フィルタリング励起信号を複数のサブフレームに分けて、複数のサブ長期フィルタリング励起信号を取得してから、各サブ長期フィルタリング励起信号に対して、それぞれ該当する線形フィルタリングパラメータに基づいて、線形合成フィルタリングを行って、各サブフレームに対応するサブ線形フィルタリング励起信号を取得してから、各サブフレームのシーケンスに従って、各サブフレームに対応する線形フィルタリング励起信号を組み合わせて、対応する線形フィルタリング励起信号を取得する。

例えば、１つの音声パケットは２０ｍｓのオーディオ信号に対応する場合、即ち、取得された長期フィルタリング励起信号は２０ｍｓである場合、当該長期フィルタリング励起信号を２つのサブフレームに分けて、２つの１０ｍｓのサブ長期フィルタリング励起信号を取得し、各１０ｍｓのサブ長期フィルタリング励起信号に対して、それぞれ該当する線形フィルタリングパラメータに基づいて、線形合成フィルタリングを行って、２つの１０ｍｓのサブオーディオ信号を取得してから、各サブフレームのシーケンスに従って、当該２つの１０ｍｓのサブオーディオ信号を組み合わせて、１つの２０ｍｓのオーディオ信号を取得する。

Ｓ３０４において、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出する。

オーディオ信号が前方誤り訂正フレーム信号であることは、当該オーディオ信号の履歴隣接フレームのオーディオ信号に異常が存在することを意味し、履歴隣接フレームのオーディオ信号に異常が存在することは、具体的に、履歴隣接フレームのオーディオ信号に対応する音声パケットが受信されていないこと、又は受信された履歴隣接フレームのオーディオ信号に対応する音声パケットは正常に復号されていないことを含む。特徴パラメータはケプストラム特徴パラメータを含む。

一実施例において、端末は、受信した音声パケットに対して復号及びフィルタリングを行ってオーディオ信号を取得した後、当該音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定し、復号された履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされた現在のオーディオ信号が前方誤り訂正フレーム信号であると決定する。

具体的に、端末は、当該音声パケットを復号する直前のタイミングで復号された履歴音声パケットに対応する履歴オーディオ信号が、当該音声パケットを復号することで得られたオーディオ信号の直前のフレームのオーディオ信号であるか否かを決定し、ＹＥＳであれば、当該履歴音声パケットにデータ異常がないと決定し、ＮＯであれば、当該履歴音声パケットにデータ異常があると決定する。

本実施例において、端末は、現在の音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定することで、復号及びフィルタリングされた現在のオーディオ信号が前方誤り訂正フレーム信号であるか否かを決定し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号を強化処理して、オーディオ信号の品質をさらに向上させる。

一実施例において、復号されたオーディオ信号が前方誤り訂正フレーム信号である場合、復号されたオーディオ信号から特徴パラメータを抽出し、抽出した特徴パラメータは具体的にケプストラム特徴パラメータであってもよい。具体的に、オーディオ信号をフーリエ変換して、フーリエ変換したオーディオ信号を取得するステップと、フーリエ変換したオーディオ信号を対数処理して、対数結果を取得するステップと、取得した対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得するステップと、を含む。具体的に、以下の式で、オーディオ信号からケプストラム特徴パラメータを抽出することを実現する。

ただし、C(n)は復号及びフィルタリングされたオーディオ信号S(n)のケプストラム特徴パラメータであり、S(F)はオーディオ信号S(n)をフーリエ変換することで得られたフーリエ変換されたオーディオ信号である。

上記の実施例において、端末は、オーディオ信号からケプストラム特徴パラメータを抽出することで、抽出したケプストラム特徴パラメータに基づいて、オーディオ信号を強化させ、オーディオ信号の品質を向上させる。

一実施例において、オーディオ信号が前方誤り訂正フレーム信号ではない場合、即ち、復号及びフィルタリングされた現在のオーディオ信号の直前のフレームのオーディオ信号に異常がない場合、復号及びフィルタリングされた現在のオーディオ信号から特徴パラメータを抽出して、当該復号及びフィルタリングされた現在のオーディオ信号をオーディオ信号強化処理してもよい。

Ｓ３０６において、線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換する。

具体的に、端末は、音声パケットに対して復号及びフィルタリングを行ってオーディオ信号を取得した後、さらに、音声パケットを復号することで得られた線形フィルタリングパラメータを取得し、線形フィルタリングパラメータに基づいて、取得したオーディオ信号を線形分析フィルタリングしてもよく、これにより、オーディオ信号をフィルタ音声励起信号に変換することを実現する。

一実施例において、Ｓ３０６は具体的に、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得するステップを含む。

線形解析フィルタリングは線形分析フィルタリングとも呼ばれる。本願の実施例において、オーディオ信号を線形分析フィルタリングする場合、フレーム全体のオーディオ信号に対してサブフレーム分割処理を行う必要がなくなり、フレーム全体のオーディオ信号に対して線形分析フィルタリングを直接行う。

具体的に、端末は、以下の式によってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得する。

ただし、D(n)は音声パケットに対して復号及びフィルタリングを行って取得されたオーディオ信号S(n)に対応するフィルタ音声励起信号であり、S(n)は音声パケットに対して復号及びフィルタリングを行って取得されたオーディオ信号であり、S_adj(n-i)は取得されたオーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、ｐは各フレームのオーディオ信号に含まれたサンプリング点の数であり、A_iは音声パケットを復号することで得られた線形フィルタリング係数である。

上記の実施例において、端末は線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換して、フィルタ音声励起信号を強化させることで、オーディオ信号の強化を実現し、オーディオ信号の品質を向上させる。

Ｓ３０８において、特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。

長期フィルタリングパラメータはピッチ周期及び振幅ゲイン値を含む。

一実施例において、Ｓ３０８は、ピッチ周期、振幅ゲイン値、線形フィルタリングパラメータ及びケプストラム特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップを含む。

具体的に、オーディオ信号を音声強化処理するステップは、具体的に、事前訓練された信号強化モデルによって実現される。信号強化モデルはニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ、ＮＮ）モデルであり、当該ニューラルネットワークモデルは具体的にＬＳＴＭ及びＣＮＮレベルの構造にしてもよい。

上記の実施例において、端末はピッチ周期、振幅ゲイン値、線形フィルタリングパラメータ及びケプストラム特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号に基づいて、オーディオ信号の強化を実現し、オーディオ信号の品質を向上させる。

一実施例において、端末は、取得した特徴パラメータ、長期フィルタリングパラメータ、線形フィルタリングパラメータ、フィルタ音声励起信号を事前訓練された信号強化モデルに入力し、これにより、信号強化モデルは特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。

上記の実施例において、端末は、事前訓練された信号強化モデルによって音声励起信号の強化を実現し、強化された音声励起信号に基づいて、オーディオ信号の強化を実現し、オーディオ信号の品質及びオーディオ信号の強化処理の効率を向上させる。

なお、本願の実施例において、事前訓練された信号強化モデルによってフィルタ音声励起信号に対して音声強化処理を行う過程で、フレーム全体のフィルタ音声励起信号に対してサブフレーム分割処理を行う必要がなくなり、フレーム全体のフィルタ音声励起信号に対して音声強化処理を行う。

Ｓ３１０において、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。

音声合成は線形フィルタリングパラメータに基づいて行われた線形合成フィルタリングであってよい。

一実施例において、端末は、強化された音声励起信号を取得すると、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得する。

線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、線形フィルタリング係数はＬＰＣＡＲと記され、エネルギーゲイン値はＬＰＣｇａｉｎと記され、線形合成フィルタリングは、送信側がオーディオ信号を符号化する時に行われる線形分析フィルタリングの逆過程であるため、線形合成フィルタリングを実行する線形予測フィルタは線形逆フィルタとも呼ばれ、線形予測フィルタの時間領域は以下のように示される。

ただし、S_enh(n)は音声強化信号であり、D_enh(n)はフィルタ音声励起信号D(n)に対して音声強化処理を行って取得された強化された音声励起信号であり、S_adj(n-i)は取得されたオーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、ｐは各フレームのオーディオ信号に含まれたサンプリング点の数であり、A_iは音声パケットを復号することで得られた線形フィルタリング係数である。

オーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であるS_adj(n-i)は以下の式から取得される。

上記の式において、S_adj(n-i)は直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、gain_adjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータである。

本実施例において、端末は、強化された音声励起信号を線形合成フィルタリングすることで、音声強化信号を取得し、即ち、オーディオ信号に対する強化処理を実現し、オーディオ信号の品質を向上させる。

なお、本願の実施例において、音声合成の過程は、フレーム全体の強化された音声励起信号に対してサブフレーム分割処理を行う必要がなくなり、フレーム全体の強化された音声励起信号に対して音声合成を行う。

上記のオーディオ信号強化方法によれば、端末は、音声パケットを受信すると、音声パケットに対して復号及びフィルタリングを順に行って、オーディオ信号を取得し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出し、音声パケットを復号することで得られた線形フィルタリング係数に基づいて、オーディオ信号をフィルタ音声励起信号に変換して、特徴パラメータ及び音声パケットを復号することで得られた長期フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。これにより、オーディオ信号の強化処理を短時間内で完了し、よい信号強化効果を達成し、オーディオ信号強化の適時性を向上させる。

一実施例において、図６に示すように、Ｓ３０２は具体的に以下のステップＳ６０２、Ｓ６０４を含む。

Ｓ６０２において、長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得する。

長期フィルタリングパラメータはピッチ周期及び対応する振幅ゲイン値を含み、ピッチ周期はＬＴＰｐｉｔｃｈと記され、ＬＴＰｐｉｔｃｈはピッチ周期とも呼ばれ、対応する振幅ゲイン値はＬＴＰｇａｉｎと記され、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングする。長期合成フィルタリングは、送信側がオーディオ信号を符号化する時に行われる長期分析フィルタリングの逆過程であるため、長期合成フィルタリングを実行する長期予測フィルタは長期逆フィルタとも呼ばれ、即ち、長期逆フィルタを採用して残差信号を処理し、式（１）に対応する長期逆フィルタの周波数領域は以下のように示される。

ただし、p^-1(z)は長期逆フィルタの振幅周波数応答であり、zは周波数領域変換の回転因子であり、γは振幅ゲイン値ＬＴＰｇａｉｎであり、Tはピッチ周期ＬＴＰｐｉｔｃｈであり、図７は一実施例において、γ＝１、Ｔ＝８０である場合、対応する長期逆予測フィルタの振幅周波数応答図を示す。

式（１０）に対応する長期逆フィルタの時間領域は以下のように示される。

上記の式において、E(n)は音声パケットに対応する長期フィルタリング励起信号であり、δ(n)は音声パケットに対応する残差信号であり、γは振幅ゲイン値ＬＴＰｇａｉｎであり、Tはピッチ周期ＬＴＰｐｉｔｃｈであり、E(n-T)は音声パケットの直前のピッチ周期のオーディオ信号に対応する長期フィルタリング励起信号である。ここで、本実施例において、受信側が長期逆フィルタによって残差信号に対して長期合成フィルタリングを行うことで得られた長期フィルタリング励起信号E(n)と、送信側が符号化を行う際、線形フィルタによってオーディオ信号を線形分析フィルタリングすることで得られた線形フィルタリング励起信号e(n)とは同じである。

Ｓ６０４において、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。

上記の式において、S(n)は音声パケットに対応するオーディオ信号であり、E(n)は音声パケットに対応する長期フィルタリング励起信号であり、S_adj(n-i)は取得されたオーディオ信号S(n)の直前のフレームのオーディオ信号S(n-i)のエネルギー調整後状態であり、ｐは各フレームのオーディオ信号に含まれたサンプリング点の数であり、A_iは音声パケットを復号することで得られた線形フィルタリング係数である。

ただし、gain_adjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータであり、gain(n)は音声パケットを復号することで得られたエネルギーゲイン値であり、gain(n-i)は直前のフレームのオーディオ信号に対応するエネルギーゲイン値である。

上記の実施例において、端末は長期フィルタリングパラメータに基づいて、残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得し、復号された線形フィルタリングパラメータに基づいて、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。これにより、オーディオ信号が前方誤り訂正フレーム信号ではない場合、オーディオ信号を直接出力し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号を強化させてから出力し、オーディオ信号出力の適時性を向上させる。

一実施例において、Ｓ６０４は具体的に、長期フィルタリング励起信号を少なくとも２つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得するステップと、復号された線形フィルタリングパラメータをグループに分けて、少なくとも２つの線形フィルタリングパラメータセットを取得するステップと、線形フィルタリングパラメータセットに基づいて、少なくとも２つの線形予測フィルタに対してパラメータ構成をそれぞれ行うステップと、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得するステップと、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得するステップと、を含む。

線形フィルタリングパラメータセットは線性フィルタリング係数セット及びエネルギーゲイン値セットという２つのタイプを有する。

具体的に、各サブフレームに対応するサブ長期フィルタリング励起信号に対して、式（１２）に対応する線形逆フィルタによって線形合成フィルタリングを行う場合、式（１２）におけるS(n)は何れか１つのサブフレームに対応するサブオーディオ信号であり、E(n)は当該サブフレームに対応する長期フィルタリング励起信号であり、S_adj(n-i)は取得されたサブオーディオ信号S(n)の直前のサブフレームのサブオーディオ信号のS(n-i)のエネルギー調整後状態であり、ｐは各サブフレームのオーディオ信号に含まれたサンプリング点の数であり、A_iは当該サブフレームに対応する線形フィルタリング係数セットであり、式（１３）におけるgain_adjは当該サブオーディオ信号の直前のサブフレームのサブオーディオ信号のエネルギー調整パラメータであり、gain(n)は当該サブオーディオ信号のエネルギーゲイン値であり、gain(n-i)は当該サブオーディオ信号の直前のサブフレームのサブオーディオ信号のエネルギーゲイン値である。

上記の実施例において、端末は長期フィルタリング励起信号を少なくとも２つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、復号された線形フィルタリングパラメータをグループに分けて、少なくとも２つの線形フィルタリングパラメータセットを取得し、線形フィルタリングパラメータセットに基づいて、少なくとも２つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得する。これにより、取得されたオーディオ信号は送信側から送信されたオーディオ信号をよく復元できることを確保し、復元されたオーディオ信号の品質を向上させる。

一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、Ｓ６０４は、長期フィルタリング励起信号における第１のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第１のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得するステップと、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第１のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定するステップと、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行って、エネルギー調整された履歴サブ長期フィルタリング励起信号を取得するステップと、をさらに含む。

履歴長期フィルタリング励起信号は現在フレームの長期フィルタリング励起信号の直前のフレームの長期フィルタリング励起信号であり、履歴長期フィルタリング励起信号における第１のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号は、直前のフレームの長期フィルタリング励起信号の最後のサブフレームに対応するサブ長期フィルタリング励起信号である。

例えば、現在フレームの長期フィルタリング励起信号を２つのサブフレームに分けて、第１のサブフレームに対応するサブ長期フィルタリング励起信号及び第２のサブフレームに対応するサブ長期フィルタリング励起信号を取得すると、直前のフレームの長期フィルタリング励起信号の第２のサブフレームに対応するサブ長期フィルタリング励起信号と、現在フレームの第１のサブフレームに対応するサブ長期フィルタリング励起信号とは隣接しているサブフレームである。

一実施例において、端末はエネルギー調整された履歴サブ長期フィルタリング励起信号を取得した後、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第１のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第１のサブフレームに対応するサブオーディオ信号を取得する。

例えば、１つの音声パケットは２０ｍｓのオーディオ信号に対応する場合、即ち、取得された長期フィルタリング励起信号は２０ｍｓである場合、音声パケットを復号することで得られたＡＲ係数は{A₁, A₂, …, A_p-1, A_p, A_p+1, … A_2p-1, A_2p}であり、音声パケットを復号することで得られたエネルギーゲイン値は{gain₁(n), gain₂(n)}であり、長期フィルタリング励起信号を２つのサブフレームに分けて、前の１０ｍｓに対応する第１のサブフィルタリング励起信号E₁(n)及び次の１０ｍｓに対応する第２のサブフィルタリング励起信号E₂(n)を取得し、ＡＲ係数をグループに分けて、ＡＲ係数セット１{A₁, A₂, …, A_p-1, A_p}及びＡＲ係数セット２{A_p+1, … A_2p-1, A_2p}を取得し、エネルギーゲイン値をグループに分けて、エネルギーゲイン値セット１{gain₁(n)}及びエネルギーゲイン値セット２{gain₂(n)}を取得し、そうすれば、第１のサブフィルタリング励起信号E₁(n)の直前のサブフレームのサブフィルタリング励起信号はE₂(n-i)であり、第１のサブフィルタリング励起信号E₁(n)の直前のサブフレームのエネルギーゲイン値セットは{gain₂(n-i)}であり、第２のサブフィルタリング励起信号E₂(n)の直前のサブフレームのサブフィルタリング励起信号はE₁(n)であり、第２のサブフィルタリング励起信号E₂(n)の直前のサブフレームのエネルギーゲイン値セットは{gain₁(n)}であり、そうすれば、第１のサブフィルタリング励起信号E₁(n)に対応するサブオーディオ信号は、対応するパラメータを式（１２）及び式（１３）に代入することで求められ、第２のサブフィルタリング励起信号E₂(n)に対応するサブオーディオ信号は、対応するパラメータを式（１２）及び式（１３）に代入することで求められる。

上記の実施例において、端末は長期フィルタリング励起信号における第１のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第１のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得し、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第１のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第１のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第１のサブフレームに対応するサブオーディオ信号を取得する。これにより、取得された各サブフレームのオーディオ信号は送信側から送信された各サブフレームのオーディオ信号をよく復元できることを確保し、復元されたオーディオ信号の品質を向上させる。

一実施例において、特徴パラメータはケプストラム特徴パラメータを含み、Ｓ３０８は、ケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得するステップと、特徴ベクトル、フィルタ音声励起信号を事前訓練された信号強化モデルに入力するステップと、信号強化モデルによって特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得するステップと、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得するステップと、を含む。

信号強化モデルは多重レベルネットワーク構造であり、具体的に、第１の特徴スティッチング層、第２の特徴スティッチング層、第１のニューラルネットワーク層及び第２のニューラルネットワーク層を含む。ターゲット特徴ベクトルは強化された特徴ベクトルである。

具体的に、端末は信号強化モデルの第１の特徴スティッチング層によってケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得し、取得した特徴ベクトルを信号強化モデルの第１のニューラルネットワーク層に入力し、第１のニューラルネットワーク層によって特徴ベクトルに対して特徴抽出を行って、一次特徴ベクトルを取得し、一次特徴ベクトル、及び線形フィルタリングパラメータにおける線形フィルタリング係数に対してフーリエ変換を行うことで得られた包絡情報を信号強化モデルの第２の特徴スティッチング層に入力して、スティッチングされた一次特徴ベクトルを取得し、スティッチングされた一次特徴ベクトルを信号強化モデルの第２のニューラルネットワーク層に入力し、第２のニューラルネットワーク層によってスティッチングされた一次特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する。

上記の実施例において、端末はケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得し、特徴ベクトル、フィルタ音声励起信号を事前訓練された信号強化モデルに入力し、信号強化モデルによって特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する。これにより、信号強化モデルによってオーディオ信号に対する強化処理を実現し、オーディオ信号の品質及びオーディオ信号の強化処理の効率を向上させる。

一実施例において、端末はターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得するステップは、フィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得するステップと、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させるステップと、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得するステップと、を含む。

具体的に、端末はフィルタ音声励起信号に対してフーリエ変換を行って、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させた後、未強化の周波数領域音声励起信号の位相特徴を結合して、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得する。

図８に示すように、２つの特徴スティッチング層はそれぞれｃｏｎｃａｔ１及びｃｏｎｃａｔ２であり、２つのニューラルネットワーク層はそれぞれＮＮｐａｒｔ１及びＮＮｐａｒｔ２であり、ｃｏｎｃａｔ１によって次元が４０であるケプストラム特徴パラメータＣｅｐｓｔｒｕｍ、次元が１であるピッチ周期ＬＴＰｐｉｔｃｈ及び次元が１である振幅ゲイン値ＬＴＰＧａｉｎをスティッチングして、次元が４２である特徴ベクトルを形成し、当該次元が４２である特徴ベクトルをＮＮｐａｒｔ１に入力し、ＮＮｐａｒｔ１は１つの２層の畳み込みニューラルネットワーク及び２層の完全接続ネットワークから構成され、第１の層の畳み込みコアの次元は（１、１２８、３、１）であり、第２の層の畳み込みコアの次元は（１２８、１２８、３、１）であり、完全接続層のノード数は１２８及び８であり、各層のエンドの活性化関数はＴａｎｈ関数であり、ＮＮｐａｒｔ１によって特徴ベクトルから高層特徴を抽出して、次元が１０２４である一次特徴ベクトルを取得してから、ｃｏｎｃａｔ２によって次元が１０２４である一次特徴ベクトルと、線形フィルタリングパラメータにおける線形フィルタリング係数ＬＰＣＡＲに対してフーリエ変換を行うことで得られた、次元が１６１である包絡情報Ｅｎｖｅｌｏｐｅと、をスティッチングして、次元が１１８５であるスティッチングされた一次特徴ベクトルを取得し、次元が１１８５であるスティッチングされた一次特徴ベクトルをＮＮｐａｒｔ２に入力し、ＮＮｐａｒｔ２は１つの２層の完全接続ネットワークであり、ノード数はそれぞれ２５６及び１６１であり、各層のエンドの活性化関数はＴａｎｈ関数であり、ＮＮｐａｒｔ２によってターゲット特徴ベクトルを取得してから、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号に対してフーリエ変換を行うことで得られた周波数領域音声励起信号の振幅値特徴Ｅｘｃｉｔａｔｉｏｎを強化させ、振幅値特徴Ｅｘｃｉｔａｔｉｏｎが強化されたフィルタ音声励起信号をフーリエ逆変換して、強化された音声励起信号D_enh(n)を取得する。

上記の実施例において、端末はフィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させ、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得し、オーディオ信号の位相情報が変わらないことを確保しながら、オーディオ信号の強化処理を実現して、オーディオ信号の品質を向上させる。

一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、端末は線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングするステップは、線形フィルタリング係数に基づいて線形予測フィルタに対してパラメータ構成を行うステップと、音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得するステップと、履歴音声パケットに対応するエネルギーゲイン値及び音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定するステップと、エネルギー調整パラメータによって履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得するステップと、調整された履歴長期フィルタリング励起信号及び強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは調整された履歴長期フィルタリング励起信号に基づいて、強化された音声励起信号を線形合成フィルタリングするステップと、を含む。

履歴音声パケットに対応する履歴オーディオ信号は現在の音声パケットに対応する現在フレームのオーディオ信号の直前のフレームのオーディオ信号である。履歴音声パケットに対応するエネルギーゲイン値は、履歴音声のフレーム全体のオーディオ信号に対応するエネルギーゲイン値であってもよいし、履歴音声パケットの一部のサブフレームのオーディオ信号に対応するエネルギーゲイン値であってもよい。

具体的に、オーディオ信号が前方誤り訂正フレーム信号ではない場合、即ち、現在フレームのオーディオ信号の直前のフレームのオーディオ信号が端末によって履歴音声パケットを正常に復号することで得られた場合、端末が履歴音声パケットを復号することで得られた履歴音声パケットのエネルギーゲイン値を取得し、履歴音声パケットのエネルギーゲイン値に基づいてエネルギー調整パラメータを決定し、オーディオ信号が前方誤り訂正フレーム信号である場合、即ち、現在フレームのオーディオ信号の直前のフレームのオーディオ信号が端末によって履歴音声パケットを正常に復号することで得られていない場合、所定のエネルギーゲイン補償メカニズムに基づいて、直前のフレームのオーディオ信号に対応する補償エネルギーゲイン値を決定して、当該補償エネルギーゲイン値を履歴音声パケットのエネルギーゲイン値として決定し、履歴音声パケットのエネルギーゲイン値に基づいてエネルギー調整パラメータを決定する。

一実施例において、オーディオ信号が前方誤り訂正フレーム信号ではない場合、直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータgain_adjは以下の式によって計算されて取得される。

ただし、gain_adjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータであり、gain(n-i)は直前のフレームのオーディオ信号S(n-i)のエネルギーゲイン値であり、gain(n)は現在フレームのオーディオ信号のエネルギーゲイン値である。式（１４）は、履歴音声のフレーム全体のオーディオ信号に対応するエネルギーゲイン値に基づいてエネルギー調整パラメータを計算する。

一実施例において、オーディオ信号が前方誤り訂正フレーム信号ではない場合、直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータgain_adjは以下の式から取得される。

ただし、gain_adjは直前のフレームのオーディオ信号S(n-i)のエネルギー調整パラメータであり、gain_m(n-i)は直前のフレームのオーディオ信号S(n-i)の第ｍのサブフレームのエネルギーゲイン値であり、gain_m(n)は現在フレームのオーディオ信号の第ｍのサブフレームのエネルギーゲイン値であり、ｍは各オーディオ信号に対応するサブフレーム数であり、{gain₁(n)+…+gain(n)}/mは現在フレームのオーディオ信号のエネルギーゲイン値である。式（１５）は、履歴音声の一部のサブフレームのオーディオ信号に対応するエネルギーゲイン値に基づいてエネルギー調整パラメータを計算する。

上記の実施例において、端末は線形フィルタリング係数に基づいて線形予測フィルタに対してパラメータ構成を行い、音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得し、履歴音声パケットに対応するエネルギーゲイン値及び音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得し、調整された履歴長期フィルタリング励起信号及び強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは調整された履歴長期フィルタリング励起信号に基づいて、強化された音声励起信号を線形合成フィルタリングして、異なるフレームの間のオーディオ信号を平滑化して、異なるフレームのオーディオ信号から構成された音声の品質を向上させる。

一実施例において、図９に示すように、オーディオ信号強化方法を提供し、当該方法は図２のコンピュータ機器（端末又はサーバー）に適用されることを例として説明すると、
音声パケットを復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得するＳ９０２と、
長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得するＳ９０４と、
長期フィルタリング励起信号を少なくとも２つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得するＳ９０６と、
線形フィルタリングパラメータをグループに分けて、少なくとも２つの線形フィルタリングパラメータセットを取得するＳ９０８と、
線形フィルタリングパラメータセットに基づいて、少なくとも２つの線形予測フィルタに対してパラメータ構成をそれぞれ行うＳ９１０と、
取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得するＳ９１２と、
各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得するＳ９１４と、
音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定するＳ９１６と、
履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされたオーディオ信号が前方誤り訂正フレーム信号であると決定するＳ９１８と、
オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号をフーリエ変換して、フーリエ変換されたオーディオ信号を取得し、フーリエ変換されたオーディオ信号を対数処理して、対数結果を取得し、対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得するＳ９２０と、
線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得するＳ９２２と、
特徴パラメータ、長期フィルタリングパラメータ、線形フィルタリングパラメータ、フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、信号強化モデルは特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するＳ９２４と、
線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得するＳ９２６と、を含む。

本願は、上記のオーディオ信号強化方法が適用される適用シナリオをさらに提供する。具体的に、当該オーディオ信号強化方法の当該適用シナリオにおける適用は以下の通りである。

Ｆｓが１６０００Ｈｚである広帯域信号を例として説明するが、本願は他のサンプリング率のシナリオにも適用され、例えば、Ｆｓが８０００Ｈｚ、３２０００Ｈｚ又は４８０００Ｈｚであってもよい。オーディオ信号のフレーム長さを２０ｍｓに設定し、Ｆｓ＝１６０００Ｈｚの場合、各フレームには３２０個のサンプル点が含まれることに相当する。図１０を参照すると、端末は、１フレームのオーディオ信号に対応する音声パケットを受信すると、当該音声パケットに対してエントロピー復号を行って、δ(n)、ＬＴＰｐｉｔｃｈ、ＬＴＰｇａｉｎ、ＬＰＣＡＲ及びＬＰＣｇａｉｎを取得し、ＬＴＰｐｉｔｃｈ及びＬＴＰｇａｉｎに基づいてδ(n)に対してＬＴＰ合成フィルタリングを行ってE(n)を取得し、ＬＰＣＡＲ及びＬＰＣｇａｉｎに基づいてE(n)の各サブフレームに対してＬＰＣ合成フィルタリングをそれぞれ行い、ＬＰＣ合成フィルタリング結果を組み合わせて１のフレームS(n)を取得してから、S(n)に対してケプストラム分析を行って、C(n)を取得し、ＬＰＣＡＲ及びＬＰＣｇａｉｎに基づいてフレーム全体のS(n)に対してＬＰＣ解析フィルタリングを行って、フレーム全体のD(n)を取得し、ＬＴＰｐｉｔｃｈ、ＬＴＰｇａｉｎ、ＬＰＣＡＲのフーリエ変換された包絡情報、C(n)及びD(n)を事前訓練された信号強化モデルＮＮｐｏｓｔｆｉｌｔｅｒに入力し、ＮＮｐｏｓｔｆｉｌｔｅｒによってフレーム全体のD(n)を強化させ、フレーム全体のD_enh(n)を取得し、ＬＰＣＡＲ及びＬＰＣｇａｉｎに基づいてフレーム全体のD_enh(n)に対してＬＰＣ合成フィルタリングを行って、S_enh(n)を取得する。

なお、図３、図４、図６、図９及び図１０のフローチャートにおける各ステップは矢印の指示に従って順に示されるが、これらのステップは必ずしも矢印が示した順序に従って順に実行されるわけではない。本明細書に明示的に説明されていない限り、これらのステップの実行は厳しい順序制限はなく、これらのステップは他の順序に従って実行されてもよい。そして、図３、図４、図６、図９及び図１０における少なくとも一部のステップは複数のステップ又は複数の階段を含んでもよく、これらのステップ又は階段は必ずしも同一時点で実行されて完成されるわけではなく、異なる時点で実行されてもよく、これらのステップ又は階段の実行順序も必ずしも順に行われるわけではなく、他のステップ又は他のステップにおけるステップ又は階段の少なくとも一部と順に又は交互に実行されてもよい。

一実施例において、図１１に示すように、オーディオ信号強化装置を提供する。当該装置はソフトウェアモジュール又はハードウェアモジュール、或いはは両者の組合せでコンピュータ機器の一部となり、当該装置は具体的に、
受信された音声パケットを順に復号及びフィルタリングして、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングして、オーディオ信号を取得する音声パケット処理モジュール１１０２と、
オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出する特徴パラメータ抽出モジュール１１０４と、
線形フィルタリングパラメータに基づいて、オーディオ信号をフィルタ音声励起信号に変換する信号変換モジュール１１０６と、
特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する音声強化モジュール１１０８と、
強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する音声合成モジュール１１１０と、を含む。

上記の実施例において、コンピュータ機器は受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、残差信号をフィルタリングして、オーディオ信号を取得し、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号から特徴パラメータを抽出し、音声パケットを復号することで得られた線形フィルタリング係数に基づいて、オーディオ信号をフィルタ音声励起信号に変換して、特徴パラメータ及び音声パケットを復号することで得られた長期フィルタリングパラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得し、強化された音声励起信号及び線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する。これにより、オーディオ信号の強化処理を短時間内で完了し、よい信号強化効果を達成し、オーディオ信号強化の適時性を向上させる。

一実施例において、音声パケット処理モジュール１１０２はさらに、長期フィルタリングパラメータに基づいて、長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得し、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する。

一実施例において、音声パケット処理モジュール１１０２はさらに、長期フィルタリング励起信号を少なくとも２つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、線形フィルタリングパラメータをグループに分けて、少なくとも２つの線形フィルタリングパラメータセットを取得し、線形フィルタリングパラメータセットに基づいて、少なくとも２つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得する。

上記の実施例において、端末は長期フィルタリング励起信号を少なくとも２つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、線形フィルタリングパラメータをグループに分けて、少なくとも２つの線形フィルタリングパラメータセットを取得し、線形フィルタリングパラメータセットに基づいて、少なくとも２つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、線形予測フィルタは線形フィルタリングパラメータセットに基づいて、サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、各サブフレームのシーケンスに従ってサブオーディオ信号を組み合わせて、オーディオ信号を取得する。これにより、取得されたオーディオ信号は送信側から送信されたオーディオ信号をよく復元できることを確保し、復元されたオーディオ信号の品質を向上させる。

一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、音声パケット処理モジュール１１０２はさらに、長期フィルタリング励起信号における第１のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第１のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値を取得し、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第１のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第１のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第１のサブフレームに対応するサブオーディオ信号を取得する。

上記の実施例において、端末は長期フィルタリング励起信号における第１のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、第１のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得し、履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び第１のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは線形フィルタリング係数及びエネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、第１のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第１のサブフレームに対応するサブオーディオ信号を取得する。これにより、取得された各サブフレームのオーディオ信号は送信側から送信された各サブフレームのオーディオ信号を復元できることを確保し、復元されたオーディオ信号の品質を向上させる。

一実施例において、図１２に示すように、装置は、音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定するデータ異常決定モジュール１１１２と、履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされたオーディオ信号が前方誤り訂正フレーム信号であると決定する前方誤り訂正フレーム信号決定モジュール１１１４と、をさらに含む。

上記の実施例において、端末は現在の音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定することで、復号及びフィルタリングされた現在のオーディオ信号が前方誤り訂正フレーム信号であるか否かを決定する。これにより、オーディオ信号が前方誤り訂正フレーム信号である場合、オーディオ信号の強化処理を行って、オーディオ信号の品質をさらに向上させる。

一実施例において、特徴パラメータはケプストラム特徴パラメータを含み、特徴パラメータ抽出モジュール１１０４はさらに、オーディオ信号をフーリエ変換して、フーリエ変換されたオーディオ信号を取得し、フーリエ変換されたオーディオ信号を対数処理して、対数結果を取得し、対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得する。

上記の実施例において、端末はオーディオ信号からケプストラム特徴パラメータを抽出することで、抽出したケプストラム特徴パラメータに基づいて、オーディオ信号を強化させ、オーディオ信号の品質を向上させる。

一実施例において、長期フィルタリングパラメータはピッチ周期及び振幅ゲイン値を含み、音声強化モジュール１１０８はさらに、ピッチ周期、振幅ゲイン値、線形フィルタリングパラメータ及びケプストラム特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。

一実施例において、信号変換モジュール１１０６はさらに線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによってオーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得する。

一実施例において、音声強化モジュール１１０８はさらに特徴パラメータ、長期フィルタリングパラメータ、線形フィルタリングパラメータ、フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、信号強化モデルは特徴パラメータに基づいて、フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する。

上記の実施例において、端末は事前訓練された信号強化モデルによって音声励起信号の強化を実現し、強化された音声励起信号に基づいて、オーディオ信号の強化を実現し、オーディオ信号の品質及びオーディオ信号の強化処理の効率を向上させる。

一実施例において、特徴パラメータはケプストラム特徴パラメータを含み、音声強化モジュール１１０８はさらに、ケプストラム特徴パラメータ、長期フィルタリングパラメータ及び線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得し、特徴ベクトル、フィルタ音声励起信号を事前訓練された信号強化モデルに入力し、信号強化モデルによって特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルに基づいて、フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する。

一実施例において、音声強化モジュール１１０８はさらに、フィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させ、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得する。

上記の実施例において、端末はフィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得し、ターゲット特徴ベクトルに基づいて、周波数領域音声励起信号の振幅値特徴を強化させ、振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得する。これにより、オーディオ信号の位相情報が変わらないことを確保しながら、オーディオ信号の強化処理を実現して、オーディオ信号の品質を向上させる。

一実施例において、音声合成モジュール１１１０はさらに、線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得する。

本実施例において、端末は強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得し、即ち、オーディオ信号に対する強化処理を実現し、オーディオ信号の品質を向上させる。

一実施例において、線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、音声合成モジュール１１１０はさらに線形フィルタリング係数に基づいて線形予測フィルタに対してパラメータ構成を行い、音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得し、履歴音声パケットに対応するエネルギーゲイン値及び音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定し、エネルギー調整パラメータによって履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得し、調整された履歴長期フィルタリング励起信号及び強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、線形予測フィルタは調整された履歴長期フィルタリング励起信号に基づいて、強化された音声励起信号を線形合成フィルタリングする。

オーディオ信号強化装置の具体的な限定について、これまでのオーディオ信号強化方法の限定を参照すればよいため、ここでは説明を省略する。上記のオーディオ信号強化装置における各モジュールの全て又は一部はソフトウェア、ハードウェア及びその組み合わせで実現されてもよい。上記の各モジュールはハードウェア形態でコンピュータ機器におけるプロセッサーに埋め込まれてもよいし、個別に存在してもよく、さらに、ソフトウェア形態でコンピュータ機器におけるメモリに記憶されることで、プロセッサーが呼び出すように以上の各モジュールに対応する操作を実行する。

一実施例において、コンピュータ機器を提供し、当該コンピュータ機器はサーバーであってもよく、その内部構造図について図１３を参照すればよい。当該コンピュータ機器は、システムバスによって接続されたプロセッサー、メモリ及びネットワークインターフェースを含む。当該コンピュータ機器のプロセッサーは計算及び制御機能を提供する。当該コンピュータ機器のメモリは不揮発性記憶媒体、内蔵メモリを含む。当該不揮発性記憶媒体にはオペレーティングシステム、コンピュータプログラム及びデータベースが記憶される。当該内蔵メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムが実行可能な環境を提供する。当該コンピュータ機器のデータベースは音声パケットデータを記憶する。当該コンピュータ機器のネットワークインターフェースはネットワークを介して外部の端末と接続して通信する。当該コンピュータ読み取り可能な命令はプロセッサーによって実行されると、オーディオ信号強化方法を実現する。

一実施例において、コンピュータ機器を提供し、当該コンピュータ機器は端末であってもよく、その内部構造図について図１４を参照すればよい。当該コンピュータ機器はシステムバスによって接続されたプロセッサー、メモリ、通信インターフェース、ディスプレイスクリーン及び入力装置を含む。当該コンピュータ機器のプロセッサーは計算及び制御機能を提供する。当該コンピュータ機器のメモリは不揮発性記憶媒体、内蔵メモリを含む。当該不揮発性記憶媒体にはオペレーティングシステム及びコンピュータプログラムが記憶される。当該内蔵メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムが実行可能な環境を提供する。当該コンピュータ機器の通信インターフェースは外部の端末と有線又は無線方式の通信を行って、無線方式はＷＩＦＩ、オペレータネットワーク、ＮＦＣ（近距離通信）又は他の技術で実現される。当該コンピュータプログラムはプロセッサーによって実行されると、オーディオ信号強化方法を実現する。当該コンピュータ機器のディスプレイスクリーンは液晶ディスプレイスクリーン又は電子インクディスプレイスクリーンであってもよく、当該コンピュータ機器の入力装置はディスプレイスクリーンをカバーしたタッチ層であってもよいし、コンピュータ機器のハウジングに配置されたボタン、トラックボール又はタッチパッドであってもよいし、外付けのキーボード、タッチパッド又はマウスなどであってもよい。

当業者であれば理解できるように、図１３又は図１４の構造は本願の態様が適用されるコンピュータ機器を限定せず、単に本願の態様に関連する一部の構造のブロック図であり、具体的なコンピュータ機器は、図示より多く又は少ない部材を含み、或いはいくつかの部材を組み合わせ、若しくは異なる部材配置を有する。

一実施例において、コンピュータプログラムが記憶されたメモリ及びプロセッサーを含むコンピュータ機器をさらに提供し、当該プロセッサーはコンピュータプログラムを実行すると、上記の各方法実施例におけるステップを実現する。

一実施例において、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータプログラムはプロセッサーによって実行されると、上記の各方法実施例におけるステップを実現する。

一実施例において、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ命令を含み、当該コンピュータ命令はコンピュータ読み取り可能な記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ読み取り可能な記憶媒体から当該コンピュータ命令を読み取って、実行することで、当該コンピュータ機器に上記の各方法実施例におけるステップを実行させる。

当業者であれば理解できるように、上記の実施例方法における全て又は一部のフローは、コンピュータプログラムが関するハードウェアに命令することで実現されてもよく、前記コンピュータプログラムは不揮発性コンピュータ読み取り可能な取記憶媒体に記憶され、当該コンピュータプログラムが実行される時、上記の各方法の実施例のフローを含んでもよい。本願が提供した各実施例におけるメモリ、ストレージ、データベース又は他の媒体に対する何れかの援用は、何れも不揮発性及び揮発性メモリのうちの少なくとも１つを含む。不揮発性メモリは読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、磁気テープ、フレキシブルディスク、フラッシュメモリ又は光メモリなどを含む。揮発性メモリはランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）又は外部キャッシュメモリを含む。限定ではなく、説明として、ＲＡＭは多種の形態、例えば静的ランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭ）又は動的ランダムアクセスメモリ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＲＡＭ）などであってもよい。

以上の実施例の各技術特徴を任意に組み合わせてもよく、記載を簡潔にするために、上記の実施例における各技術特徴の全ての可能な組み合わせを記載してはいないが、これらの技術特徴の組み合わせは矛盾しない限り、何れも本明細書の記載範囲に該当する。

以上の実施例は本願のいくつかの実施形態のみを示し、その記載は具体的且つ詳細であるが、発明特許範囲を限定したりしない。ここで、当業者にとって、本願の構想から逸脱しないことを前提として、いくつかの変更及び改善を行ってもよく、これらは何れも本願の保護範囲に属する。従って、本願特許の保護範囲は添付の請求項を準とする。

１０２端末
１０４サーバー

Claims

コンピュータ機器が実行するオーディオ信号強化方法であって、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得するステップと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出するステップと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得するステップと、を含むことを特徴とするオーディオ信号強化方法。
前記残差信号をフィルタリングして、オーディオ信号を取得する前記ステップは、
前記長期フィルタリングパラメータに基づいて長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって前記残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得するステップと、
前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得するステップと、を含むことを特徴とする請求項１に記載のオーディオ信号強化方法。
前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得する前記ステップは、
前記長期フィルタリング励起信号を少なくとも２つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得するステップと、
前記線形フィルタリングパラメータをグループに分けて、少なくとも２つの線形フィルタリングパラメータセットを取得するステップと、
前記線形フィルタリングパラメータセットに基づいて、少なくとも２つの線形予測フィルタに対してパラメータ構成をそれぞれ行うステップと、
取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、前記線形予測フィルタが前記線形フィルタリングパラメータセットに基づいて、前記サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得するステップと、
各前記サブフレームのシーケンスに従って、前記サブオーディオ信号を組み合わせて、オーディオ信号を取得するステップと、を含むことを特徴とする請求項２に記載のオーディオ信号強化方法。
前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、
前記長期フィルタリング励起信号における第１のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、前記第１のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得するステップと、
前記履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び前記第１のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、前記サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定するステップと、
前記エネルギー調整パラメータによって前記履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行うステップと、をさらに含み、
前記取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、前記線形予測フィルタが前記線形フィルタリングパラメータセットに基づいて、前記サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得する前記ステップは、
取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記線形フィルタリング係数、及び前記エネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、前記第１のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第１のサブフレームに対応するサブオーディオ信号を取得するステップを含むことを特徴とする請求項３に記載のオーディオ信号強化方法。
前記音声パケットが復号される前に復号された履歴音声パケットにデータ異常があるか否かを決定するステップと、
前記履歴音声パケットにデータ異常がある場合、復号及びフィルタリングされた前記オーディオ信号が前方誤り訂正フレーム信号であると決定するステップと、をさらに含むことを特徴とする請求項１に記載のオーディオ信号強化方法。
前記特徴パラメータはケプストラム特徴パラメータを含み、
前記オーディオ信号から特徴パラメータを抽出する前記ステップは、
前記オーディオ信号をフーリエ変換して、フーリエ変換されたオーディオ信号を取得するステップと、
前記フーリエ変換されたオーディオ信号を対数処理して、対数結果を取得するステップと、
前記対数結果をフーリエ逆変換して、ケプストラム特徴パラメータを取得するステップと、を含むことを特徴とする請求項１に記載のオーディオ信号強化方法。
前記長期フィルタリングパラメータはピッチ周期及び振幅ゲイン値を含み、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する前記ステップは、
前記ピッチ周期、振幅ゲイン値、前記線形フィルタリングパラメータ及び前記ケプストラム特徴パラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップを含むことを特徴とする請求項６に記載のオーディオ信号強化方法。
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換するステップは、
前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって、前記オーディオ信号を線形解析フィルタリングして、フィルタ音声励起信号を取得するステップを含むことを特徴とする請求項１に記載のオーディオ信号強化方法。
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する前記ステップは、
前記特徴パラメータ、前記長期フィルタリングパラメータ、前記線形フィルタリングパラメータ、前記フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、前記信号強化モデルが前記特徴パラメータに基づいて前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得するステップを含むことを特徴とする請求項１に記載のオーディオ信号強化方法。
前記特徴パラメータはケプストラム特徴パラメータを含み、
前記特徴パラメータ、前記長期フィルタリングパラメータ、前記線形フィルタリングパラメータ、前記フィルタ音声励起信号を事前訓練された信号強化モデルに入力して、前記信号強化モデルが前記特徴パラメータに基づいて前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する前記ステップは、
前記ケプストラム特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータをベクトル化処理して、ベクトル化処理による結果をスティッチングして特徴ベクトルを取得するステップと、
前記特徴ベクトル、前記フィルタ音声励起信号を事前訓練された信号強化モデルに入力するステップと、
前記信号強化モデルによって前記特徴ベクトルに対して特徴抽出を行って、ターゲット特徴ベクトルを取得するステップと、
前記ターゲット特徴ベクトルに基づいて前記フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得するステップと、を含むことを特徴とする請求項９に記載のオーディオ信号強化方法。
前記ターゲット特徴ベクトルに基づいて前記フィルタ音声励起信号を強化処理して、強化された音声励起信号を取得する前記ステップは、
前記フィルタ音声励起信号をフーリエ変換して、周波数領域音声励起信号を取得するステップと、
前記ターゲット特徴ベクトルに基づいて前記周波数領域音声励起信号の振幅値特徴を強化させるステップと、
前記振幅値特徴が強化された周波数領域音声励起信号をフーリエ逆変換して、強化された音声励起信号を取得するステップと、を含むことを特徴とする請求項１０に記載のオーディオ信号強化方法。
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する前記ステップは、
前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記強化された音声励起信号を線形合成フィルタリングして、音声強化信号を取得するステップを含むことを特徴とする請求項１に記載のオーディオ信号強化方法。
前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、
前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記強化された音声励起信号を線形合成フィルタリングする前記ステップは、
前記線形フィルタリング係数に基づいて、線形予測フィルタに対してパラメータ構成を行うステップと、
前記音声パケットが復号される前に復号された履歴音声パケットに対応するエネルギーゲイン値を取得するステップと、
前記履歴音声パケットに対応するエネルギーゲイン値及び前記音声パケットに対応するエネルギーゲイン値に基づいて、エネルギー調整パラメータを決定するステップと、
前記エネルギー調整パラメータによって前記履歴音声パケットに対応する履歴長期フィルタリング励起信号に対してエネルギー調整を行って、調整された履歴長期フィルタリング励起信号を取得するステップと、
前記調整された履歴長期フィルタリング励起信号及び前記強化された音声励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記調整された履歴長期フィルタリング励起信号に基づいて、前記強化された音声励起信号を線形合成フィルタリングするステップと、を含むことを特徴とする請求項１２に記載のオーディオ信号強化方法。
オーディオ信号強化装置であって、
受信された音声パケットを順に復号して、残差信号、長期フィルタリングパラメータ及び線形フィルタリングパラメータを取得し、前記残差信号をフィルタリングして、オーディオ信号を取得する音声パケット処理モジュールと、
前記オーディオ信号が前方誤り訂正フレーム信号である場合、前記オーディオ信号から特徴パラメータを抽出する特徴パラメータ抽出モジュールと、
前記線形フィルタリングパラメータに基づいて、前記オーディオ信号をフィルタ音声励起信号に変換する信号変換モジュールと、
前記特徴パラメータ、前記長期フィルタリングパラメータ及び前記線形フィルタリングパラメータに基づいて、前記フィルタ音声励起信号を音声強化処理し、強化された音声励起信号を取得する音声強化モジュールと、
前記強化された音声励起信号及び前記線形フィルタリングパラメータに基づいて音声合成を行って、音声強化信号を取得する音声合成モジュールと、を含むことを特徴とするオーディオ信号強化装置。
前記音声パケット処理モジュールはさらに、
前記長期フィルタリングパラメータに基づいて長期予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの長期予測フィルタによって前記残差信号を長期合成フィルタリングして、長期フィルタリング励起信号を取得し、
前記線形フィルタリングパラメータに基づいて、線形予測フィルタに対してパラメータ構成を行い、パラメータ構成済みの線形予測フィルタによって前記長期フィルタリング励起信号を線形合成フィルタリングして、オーディオ信号を取得することを特徴とする請求項１４に記載のオーディオ信号強化装置。
前記音声パケット処理モジュールはさらに、
前記長期フィルタリング励起信号を少なくとも２つのサブフレームに分けて、サブ長期フィルタリング励起信号を取得し、
前記線形フィルタリングパラメータをグループに分けて、少なくとも２つの線形フィルタリングパラメータセットを取得し、
前記線形フィルタリングパラメータセットに基づいて、少なくとも２つの線形予測フィルタに対してパラメータ構成をそれぞれ行い、
取得されたサブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタにそれぞれ入力して、前記線形予測フィルタが前記線形フィルタリングパラメータセットに基づいて、前記サブ長期フィルタリング励起信号を線形合成フィルタリングして、各サブフレームに対応するサブオーディオ信号を取得し、
各前記サブフレームのシーケンスに従って、前記サブオーディオ信号を組み合わせて、オーディオ信号を取得することを特徴とする請求項１５に記載のオーディオ信号強化装置。
前記線形フィルタリングパラメータは線形フィルタリング係数及びエネルギーゲイン値を含み、
前記音声パケット処理モジュールはさらに、
前記長期フィルタリング励起信号における第１のサブフレームに対応するサブ長期フィルタリング励起信号に対して、履歴長期フィルタリング励起信号における、前記第１のサブフレームに対応するサブ長期フィルタリング励起信号に隣接するサブフレームの履歴サブ長期フィルタリング励起信号のエネルギーゲイン値を取得し、
前記履歴サブ長期フィルタリング励起信号に対応するエネルギーゲイン値及び前記第１のサブフレームに対応するサブ長期フィルタリング励起信号のエネルギーゲイン値に基づいて、前記サブ長期フィルタリング励起信号に対応するエネルギー調整パラメータを決定し、
前記エネルギー調整パラメータによって前記履歴サブ長期フィルタリング励起信号に対してエネルギー調整を行い、
取得されたサブ長期フィルタリング励起信号及びエネルギー調整された履歴サブ長期フィルタリング励起信号をパラメータ構成済みの線形予測フィルタに入力して、前記線形予測フィルタが前記線形フィルタリング係数、及び前記エネルギー調整された履歴サブ長期フィルタリング励起信号に基づいて、前記第１のサブフレームに対応するサブ長期フィルタリング励起信号を線形合成フィルタリングして、第１のサブフレームに対応するサブオーディオ信号を取得することを特徴とする請求項１６に記載のオーディオ信号強化装置。
コンピュータプログラムが記憶されたメモリとプロセッサーとを含むコンピュータ機器であって、前記プロセッサーは前記コンピュータプログラムを実行すると、請求項１～１３の何れか１項に記載のオーディオ信号強化方法のステップを実現することを特徴とするコンピュータ機器。
コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムはプロセッサーによって実行されると、請求項１～１３の何れか１項に記載のオーディオ信号強化方法のステップを実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
プロセッサーによって実行されると、請求項１～１３の何れか１項に記載のオーディオ信号強化方法のステップを実現するコンピュータプログラムを含むことを特徴とするコンピュータプログラム製品。