JP2022527810A

JP2022527810A - 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム

Info

Publication number: JP2022527810A
Application number: JP2021558881A
Authority: JP
Inventors: ▲ウェイ▼ 肖; 孝明黄; 家君 ▲陳▼; 燕南王
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2020-09-14
Publication date: 2022-06-06
Anticipated expiration: 2040-09-14
Also published as: US20220068285A1; EP3923282B1; CN110556123A; JP7297367B2; WO2021052285A1; EP3923282A1; EP3923282A4; CN110556123B

Abstract

本発明の実施例は、周波数帯域拡張方法、装置、電子デバイス、およびコンピュータ読み取り可能な記憶媒体を提供し、この方法は、電子デバイスによって実行され、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定するステップと、低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得るステップと、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成するステップと、ターゲット高周波数振幅スペクトルと高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得るステップと、低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得るステップと、を含む。

Description

［関連出願への相互参照］

本願は、２０１９年９月１８日に中国特許庁に出願された、出願番号が２０１９１０８８３３７４．５であり、発明名称が「周波数帯域拡張方法、装置、電子デバイスおよびコンピュータ読み取り可能な記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容が、参照により本願に組み込まれる。

［技術分野］

本願は、オーディオ信号処理の技術分野に関し、具体的には、本願は、周波数帯域拡張方法、装置、電子デバイスおよびコンピュータ読み取り可能な記憶媒体に関する。

周波数帯域拡張は、周波数帯域コピーとも呼ばれることができ、オーディオコーディング分野におけるクラシックな技術である。周波数帯域拡張技術は、パラメータコーディング技術であり、周波数帯域拡張により、受信側で有効帯域幅を拡張してオーディオ信号の品質を向上させることができ、これにより、ユーザは、より明るい音色、より大きな音量、より優れた明瞭度を直観的に感じることができる。

従来の技術において、周波数帯域拡張の１つのクラシックな実現方法は、音声信号における高周波数と低周波数との間の相関性を利用して周波数帯域拡張を実行するものであり、オーディオコーディングシステムにおいて、上記の相関性をサイド情報（ｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）として使用し、符号化端では、上記のサイド情報をコードストリームに統合して送信し、復号端では、復号により、低周波数スペクトラムを順次に復元するとともに、周波数帯域拡張動作を実行して高周波数スペクトラムを復元する。しかし、当該方法は、システムが相応的なビットを消費する（例えば、低周波数部分の情報をコーディングする上に、上記のサイド情報をコーディングするために追加の１０％のビットがかかる）必要があり、つまり、コーディングのために追加のビットが必要とされ、また、上位互換性（ＦｏｒｗａｒｄｓＣｏｍｐａｔｉｂｉｌｉｔｙ）という問題も存在している。

周波数帯域拡張の別のよく使用されている方法は、データ分析に基づくブランドスキームであり、このスキームは、ニューラルネットワークまたは深層学習に基づくものであり、入力が低周波数係数であり、出力が高周波数係数である。このような係数－係数のマッピング方式は、ネットワークの一般化能力に対する要求がすごく高く、効果を確保するために、ネットワークの深度および体積が大きくなり、複雑度が高くなってしまい、実際のプロセスにおいて、訓練ライブラリに含まれているモードを超えるシーンにおいて、当該方法の性能が、それほど良好といえない。

本願の実施例の主要な目的は、周波数帯域拡張方法、装置、電子デバイスおよびコンピュータ読み取り可能な記憶媒体を提供することで、従来技術に存在している少なくとも１つの技術的欠陥を解決し、実際の適用のニーズをよりよく満たすことである。本願の実施例によって提供される技術案は、以下の通りである。

第１態様において、本発明の実施例は、電子デバイスによって実行される周波数帯域拡張方法を提供し、この方法は、
処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定するステップであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれるステップと、
前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得るステップであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれるステップと、
前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、
前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成するステップと、
前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得るステップと、
前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得るステップと、を含む。

第２態様において、本発明の実施例は、周波数帯域拡張装置を提供し、この装置は、
処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定する低周波数スペクトラムパラメータ決定モジュールであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる低周波数スペクトラムパラメータ決定モジュールと、
前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得る相関性パラメータ決定モジュールであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれる相関性パラメータ決定モジュールと、
前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る高周波数振幅スペクトル決定モジュールと、
前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する高周波数位相スペクトル生成モジュールと、
前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得る高周波数スペクトラム決定モジュールと、
前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る広帯域信号決定モジュールと、を含む。

第３態様において、本発明の実施例は、電子デバイスを提供し、前記電子デバイスには、プロセッサとメモリとが含まれ、前記メモリには、読み取り可能な命令が記憶されており、前記読み取り可能な命令が前記プロセッサによってロードされて実行されると、上記の周波数帯域拡張方法が実現される。

第４態様において、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記読み取り可能な命令は、電子デバイスプロセッサによってロードされて実行されると、上記の周波数帯域拡張方法が実現される。

本願の実施例における技術案をより明確に説明するために、以下、本願の実施例の説明において必要とされる図面について簡単に説明する。

本願の実施例において提供される周波数帯域拡張方法のシーン図を示す。本願の実施例において提供される周波数帯域拡張方法の模式的フローチャートを示す。本願の実施例において提供されるニューラルネットワークモデルのネットワーク構造の模式図を示す。本願の実施例において提供される周波数帯域拡張方法の一例の模式的フローチャートを示す。本願の実施例において提供される周波数帯域拡張装置の構造の模式図を示す。本願の実施例において提供される電子デバイスの構造の模式図を示す。

本願の目的、特徴、利点をより明らかでかつ理解しやすくするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術案を明確かつ完全に説明し、明らかに、説明する実施例は、本願の実施例の一部に過ぎず、すべての実施例においてない。本願の実施例に基づいて、当業者が創造的な努力をしていない前提で取得する他のすべての実施例は、本願の保護の範囲に属する。

以下、本願の実施例を詳細に説明し、当該実施例の例示的な例は、図面に示されており、この中で最初から最後まで同一または類似の符号は、同一または類似の構成要素、または同一または類似の機能を有する構成要素を示す。以下、図面を参照することで説明する実施例は、例示的なものであり、本願を解釈するためにのみ使用され、本願に対する制限として解釈され得ない。

当業者は、特に明記しない限り、本明細書で使用される単数形「一」、「１つ」、「前記」および「当該」が複数形を含み得る、ということを理解することができる。さらに理解すべきものとして、本願の明細書で使用される用語「含む」は、特徴、整数、ステップ、動作、構成要素および／またはコンポーネントが存在するが、１つまたは複数の其他の特徴、整数、ステップ、動作、構成要素、コンポーネントおよび／またはそれらの組み合わせの存在または追加を除外しない、ということを指す。理解すべきものとして、構成要素が別の構成要素に「接続」または「結合」されていると言うとき、それが、他の構成要素に直接に接続または結合されてもよく、または中間構成要素が存在してもよい。さらに、ここで使用される「接続」または「結合」は、無線接続または無線結合を含むことができる。ここで使用される用語「および／または」は、１つまたは複数の関連付けられたリスト項目のすべて、または任意のユニットおよびすべての組み合わせを含む。

本願の実施例の解決手段をよりよく理解、説明するために、以下、本願の実施例に係る技術的用語のいくつかを簡単に説明する。

周波数帯域拡張（ＢＷＥ：ＢａｎｄＷｉｄｔｈＥｘｔｅｎｓｉｏｎ）は、オーディオコーディング分野における、狭周波数帯域信号を広帯域信号に拡張する技術である。

スペクトラムは、周波数スペクトル密度の略語であり、周波数の分散曲線である。

スペクトラムエンベロープ（ＳＥ：ＳｐｅｃｔｒｕｍＥｎｖｅｌｏｐｅ）は、信号に対応する周波数軸において、信号に対応するスペクトル係数のエネルギー表現であり、サブ帯域に対しては、サブ帯域に対応するスペクトル係数のエネルギー表現であり、例えば、サブ帯域に対応するスペクトル係数の平均エネルギーである。

スペクトラム平坦度（ＳＦ：ＳｐｅｃｔｒｕｍＦｌａｔｎｅｓｓ）は、測定対象信号の所在するチャネル内の、この測定対象信号のパワーの平坦の度合いを特徴づける。

ニューラルネットワーク（ＮＮ：ＮｅｕｒａｌＮｅｔｗｏｒｋ）は、動物のニューラルネットワークの行為特徴を模倣して、分散的並列情報処理を行うアルゴリズム数学モデルである。このようなネットワークは、システムの複雑度に依存し、内部の大量のノード間の相互接続の関係を調整することにより、情報処理の目的を達成させる。

深層学習（ＤＬ：ＤｅｅｐＬｅａｒｎｉｎｇ）は、機械学習の一種であり、深層学習は、下位層の特徴を組み合わせることによって、より抽象的な高位層の表現属性カテゴリまたは特徴を形成し、これにより、データの分散的特徴表示を発見する。

公衆交換電話ネットワーク（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）は、よく使用されている旧式の電話システムであり、つまり、私たちの日常生活でよく使用されている電話網である。

ネットワーク電話（ＶｏＩＰ：ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）は、音声通話技術であり、インターネットプロトコルを介して音声通話およびマルチメディア会議を実現し、つまり、インターネットを介して通信を行うことである。

３ＧＰＰＥＶＳについては、３ＧＰＰ（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ、第３世代パートナーシッププロジェクト）は、主に、グローバルモバイル通信システムに基づく、無線インターフェースのための第３世代技術仕様を制定し、ＥＶＳ（ＥｎｈａｎｃｅＶｏｉｃｅＳｅｒｖｉｃｅｓ、強化型音声サービス）エンコーダは、新世代の音声エンコーダであり、音声や音楽信号の両方に対して、非常に高いオーディオ品質を提供することができるだけでなく、非常に強力なアンチロストフレームおよびアンチディレイジッタの能力をも持っており、ユーザにまったく新たな体験をもたらすことができる。

ＩＥＦＴＯＰＵＳについては、Ｏｐｕｓは、インターネットエンジニアリングタスクフォース（ＩＥＴＦ：ＴｈｅＩｎｔｅｒｎｅｔＥｎｇｉｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅ）により開発された損失性音声コーディングフォーマットである。

ＳＩＬＫについては、Ｓｉｌｋオーディオエンコーダは、Ｓｋｙｐｅネットワーク電話で第３方の開発者およびハードウェアメーカーにロイヤリティフリー認証を提供するためのＳｉｌｋ広帯域である。

周波数帯域拡張は、オーディオコーディング分野におけるクラシックな技術であり、以上の説明から分かるように、従来技術において、周波数帯域拡張は、以下の方式によって実現され得る。

第１方式は、低サンプリングレートでの狭周波数帯域信号の場合、狭周波数帯域信号における低周波数部分のスペクトラムを選択して高周波数にコピーし、予め記録されたサイド情報（高周波数と低周波数との間のエネルギー相関性を説明する情報）に従って、狭周波数帯域信号（即ち、狭帯域信号）を広周波数帯域信号（即ち、広帯域信号）に拡張することである。

第２方式は、ブランド周波数帯域拡張であって、その名前の通りに考えているように、追加のビットを必要とせず、直接に周波数帯域拡張を完成し、低サンプリングレートでの狭周波数帯域信号の場合、入力を狭周波数帯域信号の低周波数スペクトラム、出力を高周波数スペクトラムとするニューラルネットワークまたは深層学習などの技術を利用し、高周波数スペクトラムに基づいて、狭周波数帯域信号を広周波数帯域信号に拡張することである。

しかし、第１方式により周波数帯域拡張を行うと、その中のサイド情報が、相応的なビットを消費する必要があり、かつ、上位互換性という問題が存在しており、例えば、１つの典型的なシーンは、ＰＳＴＮ（狭帯域音声）とＶｏＩＰ（広帯域音声）が互いに通信するシーンである。ＰＳＴＮからＶｏＩＰ（ＰＳＴＮ－ＶｏＩＰと略される）への伝送方向において、伝送プロトコルを修正（対応する周波数帯域拡張コードストリームを追加）しないと、ＰＳＴＮ－ＶｏＩＰの伝送方向において広帯域音声を出力するという目的を達成することができない。第２方式により周波数帯域拡張を行うと、入力は低周波数スペクトラムであり、出力は高周波数スペクトラムである。このような方式は、追加のビットを消費する必要がないが、ネットワークの一般化能力に対して要求がすごく高くて、ネットワーク出力の正確性を確保するために、ネットワークの深度および体積が大きくなり、複雑度が高くなり、性能が悪くなってしまう。したがって、上記の２種類の周波数帯域拡張方式に基づいて、いずれも実際の周波数帯域拡張の性能要件を満たすことはできない。

従来技術に存在している問題に対して、および、実際の適用のニーズをよりよく満たすために、本願の実施例は、周波数帯域拡張方法を提供し、この方法によれば、追加のビットを必要としないだけでなく、ネットワークの深度および体積を減少し、ネットワークの複雑度を低減させることもできる。

本願の実施例において、ＰＳＴＮとＶｏＩＰが互いに通信する音声シーンを例として本願の解決手段を説明し、即ち、ＰＳＴＮ－ＶｏＩＰの伝送方向において、狭帯域音声を広帯域音声に拡張する。実際の適用において、本願は、上記の適用シーンに限定されず、他のコーディングシステムに適用されることもでき、このようなコーディングシステムは、３ＧＰＰＥＶＳ、ＩＥＦＴＯＰＵＳ、ＳＩＬＫなどの主流となるオーディオエンコーダを含むが、これらに限定されない。

以下、具体的な実施例を使用して本願の技術案および本願の技術案が上記の技術的課題をどのように解決するかについて詳細に説明する。以下のいくつかの具体的な実施例を互いに組み合わせることができ、同一または類似の概念や過程については、いくつかの実施例において再度言及しない場合がある。以下、図面を参照しながら、本願の実施例を説明する。

説明すべきものとして、以下、ＰＳＴＮとＶｏＩＰが互いに通信する音声シーンを例として本願の解決手段を説明する場合、サンプリングレートは、８０００Ｈｚであり、１フレームの音声フレームのフレーム長は、１０ｍｓである（８０個のサンプリング点／フレームに相当する）。実際の適用において、ＰＳＴＮフレームのフレーム長が２０ｍｓであることを考慮すると、各ＰＳＴＮフレームに対して２回の動作を実行するだけで済む。

本願の実施例の説明において、データフレーム長を１０ｍｓに固定することを例とするが、当業者にとって明らかなものとして、フレーム長が他の値であるシーン、例えば２０ｍｓ（１６０個のサンプリング点／フレームに相当）のシーンでも、本願は、依然として適用可能であり、ここでは限定していない。同様に、本願の実施例において、サンプリングレートが８０００Ｈｚであることを例とすることは、本願の実施例によって提供される周波数帯域拡張の作用範囲を限定することではない。例えば、本願の主な実施例は、サンプリングレートが８０００Ｈｚである信号をサンプリングレートが１６０００Ｈｚである信号に周波数帯域拡張するが、本願は、他のサンプリングレートのシーン、例えばサンプリングレートが１６０００Ｈｚである信号をサンプリングレートが３２０００Ｈｚである信号に拡張したり、サンプリングレートが８０００Ｈｚである信号をサンプリングレートが１２０００Ｈｚである信号に拡張したりするなどのシーンにも適用され得る。本願の実施例の解決手段は、信号の周波数帯域拡張の実行を必要とする任意のシーンに適用され得る。

図１Ａは、本願の実施例において提供される周波数帯域拡張方法の適用シーン図を示す。図１Ａに示すように、電子デバイスは、携帯電話１１０またはノートパソコン１１２を含むことができるが、これに限られない。電子デバイスが携帯電話１１０であることを例として、残りは類似なものである。携帯電話１１０は、ネットワーク１２を介してサーバデバイス１３と通信する。ここで、この例において、サーバデバイス１３は、ニューラルネットワークモデルを含む。携帯電話１１０は、処理対象となる狭帯域信号をサーバデバイス１３におけるニューラルネットワークモデルに入力し、図１Ｂに示す方法により、周波数帯域が拡張された広帯域信号を取得して出力する。

図１Ａの例において、ニューラルネットワークモデルは、サーバデバイス１３に配置されるが、別の実現形態において、ニューラルネットワークモデルは、電子デバイスに配置されてもよい（図示せず）。

図１Ｂは、本願によって提供される周波数帯域拡張方法の模式的フローチャートを示し、図に示すように、当該方法は、図５に示す電子デバイスによって実行されてもよく、ステップＳ１１０～ステップＳ１６０を含み、これらのうち、

ステップＳ１１０で、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定し、ここで、低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる。

ここで、処理対象となる狭帯域信号は、周波数帯域拡張を必要とする音声フレーム信号であってもよく、例えば、ＰＳＴＮ－ＶｏＩＰパスにおいて、ＰＳＴＮ狭帯域音声信号をＶｏＩＰ広帯域音声信号に拡張する必要がある場合、狭帯域信号は、ＰＳＴＮ狭帯域音声信号であってもよい。狭帯域信号が音声フレームである場合、当該狭帯域信号は、１フレームの音声フレームの全部または一部の音声信号であってもよい。

具体的には、実際の適用シーンにおいて、処理を必要とする信号に対して、当該信号を狭帯域信号として周波数帯域拡張を一度に完成してもよく、当該信号を複数のサブ信号に分割して、複数のサブ信号に対してそれぞれ処理してもよいし、例えば、上記のＰＳＴＮフレームのフレーム長が２０ｍｓである場合、この２０ｍｓの音声フレームの信号に対して周波数帯域拡張を一度に行ってもよく、この２０ｍｓの音声フレームを２つの１０ｍｓの音声フレームに分割して、２つの１０ｍｓの音声フレームに対して周波数帯域拡張をそれぞれ行ってもよい。

ステップＳ１２０で、低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得て、ここで、相関性パラメータは、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、相関性パラメータには、高周波数スペクトラムエンベロープが含まれる。

ここで、ニューラルネットワークモデルは、サンプル信号の低周波数スペクトラムパラメータに基づいて予め訓練して得られたモデルであってもよく、このモデルは、信号の相関性パラメータを予測するために使用される。ターゲット広周波数スペクトラムとは、狭帯域信号を拡張することにより得られようとする広帯域信号（ターゲット広帯域信号）に対応するスペクトラムを指す。ターゲット広周波数スペクトラムは、狭帯域信号の低周波数スペクトラムに基づいて得られたものであってもよく、例えば、ターゲット広周波数スペクトラムは、狭帯域信号の低周波数スペクトラムをコピーして得られたものであってもよい。

ステップＳ１３０で、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る。

相関性パラメータがターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけることができるので、この相関性パラメータと低周波数振幅スペクトル（低周波数部分に対応するパラメータ）に基づいて、拡張して得られる必要がある広帯域信号のターゲット高周波数スペクトラムパラメータ（高周波数部分に対応するパラメータ）を予測することができる。

ステップＳ１４０で、狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する。

ここで、低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する方式は、本願の実施例に限定されず、以下のいずれか１つを含むことができるが、これらに限定されない。

第１種類は、低周波数位相スペクトルをコピーすることによって、対応する高周波数位相スペクトルを得る方式である。

第２種類は、低周波数位相スペクトルをフリッピングし（折り返し）、フリッピングされた後に低周波数位相スペクトルと同じ位相スペクトルを得て、この２つの低周波数位相スペクトルを対応する高周波数の周波数ポイント（高周波数ポイント）にマッピングして、対応する高周波数位相スペクトルを得る方式である。

ステップＳ１５０で、高周波数振幅スペクトルと高周波数位相スペクトルに基づいて、高周波数スペクトラムを得る。

ステップＳ１６０：低周波数スペクトラムと高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る。

高周波数振幅スペクトルと高周波数位相スペクトルに基づいて高周波数スペクトラムを得た後、低周波数スペクトラムと高周波数スペクトラムをマージし、マージされたスペクトラムに対して、時間－周波数逆変換、即ち、周波数－時間変換を行い、新しい広帯域信号を得ることができ、これにより、狭帯域信号の周波数帯域拡張が実現される。

拡張して得られた広帯域信号の帯域幅が狭帯域信号の帯域幅よりも大きいため、当該広帯域信号に基づいて、音色が大きくてよく通る、音量が比較的大きい音声フレームを得ることができ、これにより、ユーザは、より良好な聴覚体験を有することができる。

本願の実施例によって提供される周波数帯域拡張方法は、ニューラルネットワークモデルの出力から上記の相関性パラメータを得て、ニューラルネットワークモデルを使用して予測を行うため、追加のビットをコーディングする必要がなく、これがブランド分析方法であり、良好な上位互換性を有し、かつ、モデルの出力がターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を反映できるパラメータであるため、スペクトラムパラメータから相関性パラメータへのマッピングが実現され、係数から係数への従来のマッピング方式と比べて、より良い一般化能力を持っている。本願の実施例の周波数帯域拡張の解決手段によれば、音色が大きくてよく通る、音量が比較的大きい信号を得ることができ、これにより、ユーザは、より良好な聴覚体験を得ることができる。

本願の解決手段では、ニューラルネットワークモデルは、サンプルデータに基づいて予め訓練して得られたモデルであってもよく、各サンプルデータには、サンプル狭帯域信号と当該サンプル狭帯域信号に対応するサンプル広帯域信号とが含まれ、各サンプルデータに対して、そのサンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分との間の相関性パラメータ（当該パラメータは、サンプルデータのラベル情報、即ちサンプルラベルとして理解されてもよく、ラベル結果と略される）を決定することができ、当該相関性パラメータには、高周波数スペクトラムエンベロープが含まれ、また、サンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分との間の相対平坦度情報がさらに含まれており、サンプルデータに基づいてニューラルネットワークモデルを訓練する際に、初期のニューラルネットワークモデルの入力は、サンプル狭帯域信号の低周波数スペクトラムパラメータであり、出力は、予測された相関性パラメータ（予測結果と略される）であり、各サンプルデータに対応する予測結果とラベル結果との間の類似度に基づいて、モデル訓練が終了したかどうかを判断することができ、例えば、各サンプルデータの予測結果とラベル結果との間の差異の度合いを特徴づけるための、モデルの損失関数が収束したかどうかにより、モデル訓練が終了したかどうかを判断し、訓練が終了した際のモデルを、本願の実施例に適用されるニューラルネットワークモデルとする。

ニューラルネットワークモデルを適用する段階では、上記の狭帯域信号に対して、当該狭帯域信号の低周波数スペクトラムパラメータを訓練済みのニューラルネットワークモデルに入力し、当該狭帯域信号に対応する相関性パラメータを得ることができる。サンプルデータに基づいてモデルを訓練する際に、サンプルデータのサンプルラベルは、サンプル広帯域信号の高周波数部分と低周波数部分との間の相関性パラメータであるため、したがって、当該ニューラルネットワークモデルの出力に基づいて当該狭帯域信号の相関性パラメータを得る場合、当該相関性パラメータは、ターゲット広帯域信号のスペクトラムの高周波数部分と低周波数部分との間の相関性をよく特徴付けることができる。本願の解決手段では、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定することは、
狭帯域信号に対して、サンプリングファクターを第１所定値とするアップサンプリング処理を行い、アップサンプリング信号を得ることと、
アップサンプリング信号に対して時間－周波数変換を行い、低周波数の周波数ドメイン係数を得ることと、
低周波数の周波数ドメイン係数に基づいて、狭帯域信号の低周波数振幅スペクトルを決定することと、を含むことができる。

さらに、狭帯域信号の低周波数振幅スペクトルを決定した後、低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを決定することもできる。

本願の一実施例において、上記の低周波数スペクトラムパラメータには、狭帯域信号の低周波数スペクトラムエンベロープがさらに含まれる。

具体的には、ニューラルネットワークモデルに入力されるデータをより豊富にするために、低周波数部分のスペクトラムに関連するパラメータをニューラルネットワークモデルの入力として選択することもでき、狭帯域信号の低周波数スペクトラムエンベロープが信号のスペクトラムに関連する情報である場合、低周波数スペクトラムエンベロープをニューラルネットワークモデルの入力とすることができ、これにより、低周波数スペクトラムエンベロープと低周波数振幅スペクトルに基づいて、より正確な相関性パラメータを得ることができる。これによって、低周波数スペクトラムエンベロープと低周波数振幅スペクトルをニューラルネットワークモデルに入力し、相関性パラメータを得ることができる。

本願によって提供される解決手段をよりよく説明するために、以下、一例を参照しながら、低周波数スペクトラムパラメータの決定方式をさらに詳細に説明する。この例において、以上で説明した、ＰＳＴＮとＶｏＩＰｈが互いに通信する音声シーン、音声信号のサンプリングレートが８０００Ｈｚであり、１フレームの音声フレームのフレーム長が１０ｍｓである場合を例として説明する。

この例において、ＰＳＴＮ信号のサンプリングレートが８０００Ｈｚであり、Ｎｙｑｕｉｓｔ（ナイキスト）サンプリング定理に従って、狭帯域信号の有効帯域幅が４０００Ｈｚになる。本例の目的は、当該狭帯域信号に対して周波数帯域拡張を行った後、帯域幅が８０００Ｈｚである信号を得る、ことであり、即ち、広帯域信号の帯域幅が８０００Ｈｚである。実際の音声通信シーンにおいて、有効帯域幅が４０００Ｈｚである信号を考慮すると、その有効帯域幅の上限は、一般的に３５００Ｈｚになる。従って、本解決手段では、実際に得られた広帯域信号の有効帯域幅は７０００Ｈｚになり、このようにして、本例の目的は、帯域幅が３５００Ｈｚである信号に対して周波数帯域拡張を行って、帯域幅が７０００Ｈｚである広帯域信号を得る、即ち、サンプリングレートが８０００Ｈｚである信号に対して周波数帯域拡張を行って、サンプリングレートが１６０００Ｈｚである信号になる、ことである。

本例において、サンプリングファクターが２であり、狭帯域信号に対して、サンプリングファクターが２であるアップサンプリング処理を行い、サンプリングレートが１６０００Ｈｚであるアップサンプリング信号を得る。狭帯域信号のサンプリングレートが８０００Ｈｚであり、フレーム長が１０ｍｓであるため、このアップサンプリング信号は、１６０個のサンプルポイントに対応する。

その後、アップサンプリング信号に対して時間－周波数変換を行い、時間－周波数変換には、短時間フーリエ変換（ＳＴＦＴ：Ｓｈｏｒｔ－ＴｅｒｍＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）および高速フーリエ変換（ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）が使用されてもよく、具体的な時間－周波数変換プロセスは、以下のとおりであり、即ち、

アップサンプリング信号に対して短時間フーリエ変換を行う場合、フレーム間データの不連続性を解消することを考慮すると、１つ前のフレームの音声フレームに対応する周波数ポイントと、現在の音声フレーム（処理対象となる狭帯域信号）に対応する周波数ポイントとを１つの配列に組み合わせることができ、そして、この配列における周波数ポイントに対してウィンドウイング処理を行って、本実施例において、ハニングウィンドウ（Ｈａｎｎｉｎｇｗｉｎｄｏｗ）を使用してウィンドウイング処理を行ってもよい。続いて、ウィンドウイング処理後の信号に対して高速フーリエ変換を行い、低周波数の周波数ドメイン係数を得て、高速フーリエ変換の共役対称関係を考慮すると、一番目の係数が直流成分であるため、得られた低周波数の周波数ドメイン係数がＭ個であれば、（１＋Ｍ／２）個の低周波数の周波数ドメイン係数を選択して後続の処理を行うことができる。

具体的には、１６０個のサンプル点を含む上記のアップサンプリング信号に対して、１つ前の音声フレームに対応する１６０個のサンプル点と、現在の音声フレームに対応する１６０個のサンプル点とを、３２０個のサンプル点を含む配列に組み合わせる。続いて、この配列におけるサンプル点に対してウィンドウイング処理を行い（例えば、ハニングウィンドウを使用してウィンドウイング処理を行い）、得られた、ウィンドウイングされてオーバーラップされた信号が、ｓ_Ｌｏｗ（ｉ，ｊ）になると仮定する。その後、ｓ_Ｌｏｗ（ｉ，ｊ）に高速フーリエ変換を行い、３２０個の低周波数の周波数ドメイン係数Ｓ_Ｌｏｗ（ｉ，ｊ）を得て、同様に、ｉは、音声フレームのフレームインデックスであり、ｊは、フレーム内サンプルインデックス（ｊ＝０、１、…、３１９）である。ＦＦＴの共役対称関係を考慮すると、一番目の係数が直流成分であり、したがって、最初の１６１個の低周波数の周波数ドメイン係数だけを考慮してもよい。

低周波数の周波数ドメイン係数を得た後、低周波数の周波数ドメイン係数に基づいて、狭帯域信号の低周波数振幅スペクトルを決定することができ、具体的には、以下の式（１）により、低周波数振幅スペクトルを算出することができる。

ここで、Ｐ_Ｌｏｗ（ｉ，ｊ）は、低周波数振幅スペクトルを示し、Ｓ_Ｌｏｗ（ｉ，ｊ）は、低周波数の周波数ドメイン係数であり、ＲｅａｌおよびＩｍａｇは、それぞれ、低周波数の周波数ドメイン係数の実数部および虚数部であり、ＳＱＲＴは、平方根演算である。狭帯域信号は、サンプリングレートが１６０００Ｈｚであり、帯域幅が０～３５００Ｈｚである信号であれば、狭帯域信号のサンプリングレートとフレーム長とに基づいて、低周波数の周波数ドメイン係数から、７０個の低周波数振幅スペクトルのスペクトル係数（低周波数振幅スペクトル係数）Ｐ_Ｌｏｗ（ｉ，ｊ）、ｊ＝０、１、…６９を決定することができる。実際の適用において、算出された７０個の低周波数振幅スペクトル係数を直接に狭帯域信号の低周波数振幅スペクトルとすることができ、さらに、算出を容易にするために、さらに低周波数振幅スペクトルを対数ドメインに変換し、即ち、式（１）により算出された振幅スペクトルに対して対数演算を行い、対数演算後の振幅スペクトルを後続処理時の低周波数振幅スペクトルとすることもできる。

７０個の係数を含む低周波数振幅スペクトルを得た後、低周波数振幅スペクトルに基づいて、狭帯域信号の低スペクトラムエンベロープを決定することができる。

本願の解決手段では、この方法は、
低周波数振幅スペクトルを第２数のサブ振幅スペクトルに分割するステップと、
各サブ振幅スペクトルに対応するサブスペクトラムエンベロープをそれぞれ決定するステップであって、低周波数スペクトラムエンベロープには、決定された第２数のサブスペクトラムエンベロープが含まれるステップと、をさらに含むことができる。

具体的には、低周波数振幅スペクトルのスペクトル係数をＭ個（第２数）のサブ振幅スペクトルに分割する実現可能な形態は、狭帯域信号に対して、バンディング処理を行い、Ｍ個のサブ振幅スペクトルを得て、各サブ帯域が、同じまたは異なる数のサブ振幅スペクトルのスペクトル係数に対応することができ、すべてのサブ帯域に対応するスペクトル係数の総数が、低周波数振幅スペクトルのスペクトル係数の個数に等しい、ことである。

Ｍ個のサブ振幅スペクトルに分割した後、各サブ振幅スペクトルに基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定することができ、ここで、１つの実現可能な形態は、各サブ振幅スペクトルに対応する低周波数振幅スペクトルのスペクトル係数に基づいて、各サブ帯域のサブスペクトラムエンベロープ、即ち、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定することができ、Ｍ個のサブ振幅スペクトルが、決定されたＭ個のサブスペクトラムエンベロープに対応することができ、このような場合、低周波数スペクトラムエンベロープが、決定されたＭ個のサブスペクトラムエンベロープを含む、ことである。

一例として、例えば、上記の７０個の低周波数振幅スペクトルのスペクトル係数（式（１）に基づいて算出された係数であってよく、式（１）に基づいて算出してから対数ドメインに変換された係数であってよい）に対して、各サブ帯域には、同じ数、例えば５個のスペクトル係数が含まれる場合、５個のサブ振幅スペクトルごとのスペクトル係数に対応する周波数帯域は、１つのサブ帯域として分割され得て、この場合、合計１４（Ｍ＝１４）個のサブ帯域に分割され、各サブ帯域は、５個のスペクトル係数に対応する。このような場合、１４個のサブ振幅スペクトルに分割した後、この１４個のサブ振幅スペクトルに基づいて、１４個のサブスペクトラムエンベロープを決定することができる。

ここで、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定するステップは、
各サブ振幅スペクトルに含まれるスペクトル係数の対数値に基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得るステップを、含むことができる。

具体的には、各サブ振幅スペクトルのスペクトル係数に基づいて、式（２）により、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定する。

ここで、式（２）は、下記の通りである。

ここで、ｅ_Ｌｏｗ（ｉ，ｋ）は、サブスペクトラムエンベロープを示し、ｉは、音声フレームのフレームインデックスであり、ｋは、サブ帯域のインデックス番号を示し、合計Ｍ（ｋ＝０、１、２……Ｍ）個のサブ帯域があり、この場合、低周波数スペクトラムエンベロープには、Ｍ個のサブスペクトラムエンベロープが含まれる。

一般的に、サブ帯域のスペクトルエンベロープは、隣接する係数の平均エネルギーとして定義され（または、さらに対数表現に変換され）、しかし、このような方式は、幅値が小さい係数が実質的な役割を果たすことができない、ということをもたらす場合があり、本願の実施例によって提供される下記のような解決手段、即ち、各サブ振幅スペクトルに含まれるスペクトル係数の対数標識に対して平均値を直接に求めて、サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得る解決手段は、既存のよく使用されているエンベロープの決定のための解決手段と比較して、ニューラルネットワークモデルの訓練プロセスの歪み制御において、幅値がより小さい係数をよりよく保護することができ、これにより、より多くの信号パラメータは、周波数帯域拡張において、相応的な役割を果たすことができる。

一例として、例えば、低周波数振幅スペクトルのスペクトル係数が７０個であり、各サブ帯域に対応するスペクトル係数の個数が同じであり、合計１４個のサブ帯域に分割され、このような場合、サブ振幅スペクトルは、１４個であり、各サブ振幅スペクトルは、５個のスペクトル係数が対応し、即ち、隣接する５個のスペクトル係数が１つのサブ帯域として対応され、各サブ帯域は、５個のスペクトル係数に対応し、低周波数スペクトラムエンベロープには、１４個のサブスペクトラムエンベロープが含まれている。

これにより、低周波数振幅スペクトルと低周波数スペクトラムエンベロープをニューラルネットワークモデルの入力とし、低周波数振幅スペクトルを７０次元のデータ、低周波数スペクトラムエンベロープを１４次元のデータとすれば、モデルの入力は、８４次元のデータになり、これによって、本解決手段におけるニューラルネットワークモデルは、体積が小さくなり、複雑度が低くなる。

本願の解決手段では、相関性パラメータと低周波数振幅スペクトルに基づいて、ターゲット高周波数振幅スペクトルを得るステップＳ１３０は、
低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを得るステップと、
低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成するステップと、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップと、を含むことができる。

ここで、具体的には、低周波数振幅スペクトルをコピーすることによって初期高周波数振幅スペクトルを得ることができる。理解できるものとして、実際の適用において、低周波数振幅スペクトルをコピーする具体的な方式については、最後に必要とされる広帯域信号の周波数帯域幅、コピーしようとする、選択された低周波数振幅スペクトル部分の周波数帯域幅によって、コピー方式が異なっている。例えば、広帯域信号の周波数帯域幅が狭帯域信号の２倍であり、かつ、狭帯域信号のすべての低周波数振幅スペクトルをコピーするように選択すれば、１回のコピーだけで十分であり、狭帯域信号の一部の低周波数振幅スペクトルをコピーするように選択すれば、選択された部分に対応する周波数帯域幅に従って、対応する回数のコピーを行う必要があり、例えば、狭帯域信号の１／２の低周波数振幅スペクトルをコピーするように選択すれば、２回のコピーが必要となり、狭帯域信号の１／４の低周波数振幅スペクトルをコピーするように選択すれば、４回のコピーが必要となる。

一例として、例えば、拡張後の広帯域信号の帯域幅が７ｋＨｚであり、選択された、コピー対象となる低周波数振幅スペクトルに対応する帯域幅が１．７５ｋＨｚであれば、低周波数振幅スペクトルに対応する帯域幅と拡張後的広帯域信号の帯域幅に基づいて、低周波数振幅スペクトルに対応する帯域幅を３回コピーし、初期高周波数振幅スペクトルに対応する帯域幅（５．２５ｋＨｚ）を得ることができる。選択された、コピー対象となる低周波数振幅スペクトルに対応する帯域幅が３．５ｋＨｚであり、拡張後の広帯域信号の帯域幅が７ｋＨｚであれば、低周波数振幅スペクトルに対応する帯域幅を１回コピーすると、初期高周波数振幅スペクトルに対応する帯域幅（３．５ｋＨｚ）を得ることができる。

本願の実施形態では、低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成する一実現形態は、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーし、初期高周波数振幅スペクトルを得る、ことであることができる。

低周波数振幅スペクトルの低周波数バンド部分には、大量の高調波が含まれてしまい、拡張後の広帯域信号の信号品質に影響を与えるため、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーするように選択して、初期高周波数振幅スペクトルを得ることができる。

一例として、上記のようなシーンを例としてさらに説明し、低周波数振幅スペクトルは、合計７０個の周波数ポイントに対応し、低周波数振幅スペクトルに対応する３５～６９の周波数ポイント（低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトル）をコピー対象となる周波数ポイント、即ち「テンプレート」として選択し、かつ、拡張後の広帯域信号の有効帯域幅が７０００Ｈｚであれば、選択された低周波数振幅スペクトルに対応する周波数ポイントをコピーして、７０個の周波数ポイントを含む初期高周波数振幅スペクトルを得る必要があり、７０個の周波数ポイントを含むこの初期高周波数振幅スペクトルを得るために、低周波数振幅スペクトルに対応する３５～６９の、つまり合計３５個の周波数ポイントを２回コピーして、初期高周波数振幅スペクトルを生成することができる。同様に、低周波数振幅スペクトルに対応する０～６９個の周波数ポイントをコピー対象となる周波数ポイントとして選択し、かつ、拡張後の広帯域信号の有効帯域幅が７０００Ｈｚであれば、低周波数振幅スペクトルに対応する０～６９個の、つまり合計７０個の周波数ポイントを１回コピーして、初期高周波数振幅スペクトルを生成することができ、当該初期高周波数振幅スペクトルには、合計７０個の周波数ポイントが含まれている。

低周波数振幅スペクトルに対応する信号には大量の高調波が含まれる可能性があるため、コピーにより得られた初期高周波数振幅スペクトルに対応する信号には、同様に大量の高調波が含まれ、このような場合、周波数帯域が拡張された広帯域信号における高調波を減少するために、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差によって、初期高周波数振幅スペクトルを調整し、調整された初期高周波数振幅スペクトルをターゲット高周波数振幅スペクトルとすることができ、これによって、最終的に周波数ポイントが拡張されて得られた広帯域信号における高調波が減少され得る。

本願の解決手段では、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープは、いずれも、対数ドメインのスペクトラムエンベロープであり、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップは、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定するステップと、
差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップと、を含むことができる。

具体的には、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープを対数ドメインのスペクトラムエンベロープによって表現することができ、このような場合、対数ドメインのスペクトラムエンベロープによって決定された差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得ることができ、計算を容易にするために、対数ドメインのスペクトラムエンベロープによって高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープを表現する。

本願の解決手段では、高周波数スペクトラムエンベロープには、第１数の第１サブスペクトラムエンベロープが含まれ、初期高周波数振幅スペクトルには、第１数のサブ振幅スペクトルが含まれ、ここで、各第１サブスペクトラムエンベロープは、初期高周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されたものである。

さらに、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定し、差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得るステップは、
各第１サブスペクトラムエンベロープと、低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ（以下、低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープは、第２サブスペクトラムエンベロープとして説明される）との間の差を決定するステップと、
各第１サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、第１数の調整されたサブ振幅スペクトルを得るステップと、
第１数の調整されたサブ振幅スペクトルに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、を含むことができる。

具体的には、１つの第１サブスペクトラムエンベロープは、対応する初期高周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されてもよく、１つの第２サブスペクトラムエンベロープは、対応する低周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されてもよい。各サブ振幅スペクトルに対応するスペクトル係数の数は、同じであってもよく、異なってもよいし、各サブスペクトラムエンベロープが、対応する振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されたものであれば、各サブスペクトラムエンベロープに対応する振幅スペクトルにおけるサブ振幅スペクトルのスペクトル係数の数も異なってもよい。ここで、第１数と第２数は、同じであってもよく、異なってもよいし、第１数は、通常、第２数以上である。

上記のシーンを例としてさらに説明し、第１数と第２数が同じであり、モデルの出力が１４次元の高周波数スペクトラムエンベロープ（第１数が１４）であり、モデルの入力が低周波数振幅スペクトルと低周波数スペクトラムエンベロープを含み、ここで、低周波数振幅スペクトルが７０次元の低周波数の周波数ドメイン係数を含み、低周波数スペクトラムエンベロープが１４次元のサブスペクトラムエンベロープ（第２数が１４）を含む場合、モデルの入力は、８４次元のデータであり、出力次元は、入力次元よりも遥かに小さくて、これにより、低周波数スペクトラムエンベロープを第３数のサブスペクトラムエンベロープに分割することによって、ニューラルネットワークモデルの体積および深度を減少させ、モデルの複雑度を低下させることができる。

具体的には、ニューラルネットワークモデルによって得られた高周波数スペクトラムエンベロープは、第１数の第１サブスペクトラムエンベロープを含んでもよく、上記から分かるように、この第１数の第１サブスペクトラムエンベロープは、低周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定され、即ち、１つのサブスペクトラムエンベロープは、低周波数振幅スペクトルのうちの対応する１つのサブ振幅スペクトルに基づいて決定される。上記のシーンを例としてさらに説明し、低周波数振幅スペクトルにおけるサブ振幅スペクトルが１４個である場合、高周波数スペクトラムエンベロープは、１４個のサブスペクトラムエンベロープを含む。

このようにして、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差は、各第１サブスペクトラムエンベロープと、対応する第２サブスペクトラムエンベロープとの間の差であり、差に基づいて高周波数スペクトラムエンベロープを調整することは、各第１サブスペクトラムエンベロープと、対応する第２サブスペクトラムエンベロープとの間の差に基づいて、対応する初期サブ振幅スペクトルを調整することになる。上記のシーンを例としてさらに説明し、第１数と第２数が同じであり、すなわち、高周波数スペクトラムエンベロープが１４個の第１サブスペクトラムエンベロープを含み、低周波数スペクトラムエンベロープが１４個の第２サブスペクトラムエンベロープを含む場合、決定された１４個の第２サブスペクトラムエンベロープと、対応する１４個の第１サブスペクトラムエンベロープに基づいて、１４個の差を決定し、この１４個の差に基づいて、相応的なサブ帯域に対応する初期サブ振幅スペクトルを調整することができる。

本願の解決手段では、相関性パラメータには、相対平坦度情報がさらに含まれており、相対平坦度情報は、前記ターゲット広周波数スペクトラムの高周波数部分のスペクトラム平坦度と低周波数部分のスペクトラム平坦度との間の相関性を特徴づけ、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定するステップは、
相対平坦度情報および低周波数スペクトラムのエネルギー情報に基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定するステップと、
ゲイン調整値に基づいて、高周波数スペクトラムエンベロープを調整し、調整された高周波数スペクトラムエンベロープを得るステップと、
調整された高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差を決定するステップと、を含むことができる。

ここで、以上の説明に基づいて、ニューラルネットワークモデルの訓練プロセスにおいて、ラベル結果は、相対平坦度情報を含んでもよく、即ち、サンプルデータのサンプルラベルは、サンプル広帯域信号の高周波数部分と低周波数部分との間の相対平坦度情報を含み、当該相対平坦度情報は、サンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分とに基づいて決定され、従って、ニューラルネットワークモデルを適用する際には、モデルの入力が狭帯域信号の低周波数スペクトラムパラメータである場合、当該ニューラルネットワークモデルの出力に基づいて、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相対平坦度情報を予測することができる。

ここで、相対平坦度情報は、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相対スペクトラム平坦度、即ち、高周波数部分が低周波数部分のスペクトラムに対して平坦であるかどうかを反映することができ、相関性パラメータが相対平坦度情報をさらに含む場合、まず、相対平坦度情報と、低周波数スペクトラムのエネルギー情報とに基づいて、高周波数スペクトラムエンベロープを調整し、次に、調整された高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差に基づいて、初期高周波数スペクトラムを調整することができ、これにより、最終的に得られた広帯域信号における高調波はより小さくなっている。ここで、低周波数スペクトラムのエネルギー情報は、低周波数振幅スペクトルのスペクトル係数に基づいて決定され得て、低周波数スペクトラムのエネルギー情報は、スペクトラム平坦度を示すことができる。

本願の実施例において、上記の相関性パラメータは、高周波数スペクトラムエンベロープと相対平坦度情報とを含んでもよく、ニューラルネットワークモデルは、少なくとも入力層と出力層を含み、入力層は、低周波数スペクトラムパラメータの特徴ベクトル（当該特徴ベクトルは、７０次元の低周波数振幅スペクトルと１４次元の低周波数スペクトラムエンベロープを含む）を入力し、出力層は、少なくとも片側長期短期記憶ネットワーク（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）層、およびＬＳＴＭ層にそれぞれ接続されている２つの完全接続ネットワーク層を含み、各完全接続ネットワーク層は、少なくとも１つの完全接続層を含んでもよく、ここで、ＬＳＴＭ層は、入力層で処理された特徴ベクトルを変換し、そのうちの一方の完全接続ネットワーク層は、ＬＳＴＭ層で変換されたベクトル値に基づいて第１分類処理を行って、高周波数スペクトラムエンベロープ（１４次元）を出力し、他方の完全接続ネットワーク層は、ＬＳＴＭ層で変換されたベクトル値に基づいて第２分類処理を行って、相対平坦度情報（４次元）を出力する。

一例として、図２は、本願の実施例によって提供されるニューラルネットワークモデルの構造の模式図を示し、図に示すように、当該ニューラルネットワークモデルは、主に、片側ＬＳＴＭ層と２つの完全接続層との２つの部分を含み、即ち、この例において、各完全接続ネットワーク層は、１つの完全接続層を含み、一方の完全接続層の出力は、高周波数スペクトラムエンベロープであり、他方の完全接続層の出力は、相対平坦度情報である。

本願の解決手段では、相対平坦度情報には、高周波数部分の少なくとも２つのサブ帯域領域に対応する相対平坦度情報が含まれており、１つのサブ帯域領域に対応する相対平坦度情報は、高周波数部分の１つのサブ帯域領域のスペクトラム平坦度と、低周波数部分の高周波数の周波数バンド（高周波数バンド）のスペクトラム平坦度との間の相関性を特徴づける。

ここで、相対平坦度情報は、サンプル広帯域信号のスペクトラムの高周波数部分と低周波数部分に基づいて決定され、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であり、したがって、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択し、この低周波数部分の高周波数の周波数バンドをテンプレートとし、サンプル広帯域信号の高周波数部分を少なくとも２つのサブ帯域領域に分割することができ、各サブ帯域領域の相対平坦度情報は、対応するサブ帯域領域のスペクトラムと、低周波数部分のスペクトラムとに基づいて決定されるものである。

以上の説明に基づいて、ニューラルネットワークモデルの訓練プロセスにおいて、ラベル結果は、各サブ帯域領域の相対平坦度情報を含んでもよく、即ち、サンプルデータのサンプルラベルは、サンプル広帯域信号の高周波数部分の各サブ帯域領域と低周波数部分との間の相対平坦度情報を含んでもよく、当該相対平坦度情報は、サンプル広帯域信号の高周波数部分のサブ帯域領域のスペクトラムと低周波数部分のスペクトラムに基づいて決定され、したがって、ニューラルネットワークモデルを適用する際に、モデルの入力が狭帯域信号の低周波数スペクトラムパラメータである場合、当該ニューラルネットワークモデルの出力に基づいて、ターゲット広周波数スペクトラムの高周波数部分のサブ帯域領域と低周波数部分との間の相対平坦度情報を予測することができる。

ここで、高周波数部分には、少なくとも２つのサブ帯域領域の振幅スペクトルが含まれている場合、この少なくとも２つのサブ帯域領域に対応し、相対平坦度情報にも、少なくとも２つのサブ帯域領域に対応する相対平坦度情報が含まれている。低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であり、したがって、低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択し、当該低周波数部分の高周波数の周波数バンドをテンプレートとし、高周波数部分の少なくとも２つのサブ帯域領域の振幅スペクトルと低周波数部分の振幅スペクトルとに基づいて、相対平坦度情報を決定する。

ここで、周波数帯域拡張の目的を達成させるために、ターゲット広周波数スペクトラムの低周波数部分の振幅スペクトルのスペクトル係数の個数は、高周波数部分の振幅スペクトルのスペクトル係数の個数と同じであってもよく、異なってもよいし、各サブ帯域領域に対応するスペクトル係数の数は、同じであってもよく、異なってもよいし、少なくとも２つのサブ帯域領域に対応するスペクトル係数の総数が、初期高周波数振幅スペクトルに対応するスペクトル係数の数と一致すればよい。

一例として、例えば、上記の少なくとも２つのサブ帯域領域は、それぞれが第１サブ帯域領域と第２サブ帯域領域である２つのサブ帯域領域であり、低周波数部分の高周波数の周波数バンドは、３５番目～６９番目の周波数ポイントに対応する周波数バンドであり、第１サブ帯域領域に対応するスペクトル係数の数と、第２サブ帯域領域に対応するスペクトル係数の数は同じであり、第１サブ帯域領域および第２サブ帯域領域に対応するスペクトル係数の総数は、低周波数部分に対応するスペクトル係数の数と同じであり、この場合、第１サブ帯域領域に対応する周波数バンドは、７０番目～１０４番目の周波数ポイントに対応する周波数バンドであり、第２サブ帯域領域に対応する周波数バンドは、１０５番目～１３９番目の周波数ポイントに対応する周波数バンドであり、各サブ帯域領域の振幅スペクトルのスペクトル係数の個数は３５個であり、低周波数部分の高周波数の周波数バンドの振幅スペクトルのスペクトル係数の個数と同じである。選択された低周波数部分の高周波数の周波数バンドが５６番目～６９番目の周波数ポイントに対応する周波数バンドであれば、高周波数部分を５個のサブ帯域領域に分割することができ、各サブ帯域領域は、１４個のスペクトル係数に対応する。

相対平坦度情報と低周波数スペクトラムのエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定するステップは、
各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップを含むことができ、
ここで、ゲイン調整値に基づいて高周波数スペクトラムエンベロープを調整するステップは、
高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップを含むことができる。

具体的には、高周波数部分に少なくとも２つのサブ帯域領域が含まれている場合、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、各サブ帯域領域に対応する高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定し、そして、決定されたゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整することができる。

一例として、以上で説明するように、少なくとも２つのサブ帯域領域は、それぞれが第１サブ帯域領域および第２サブ帯域領域である２つのサブ帯域領域であり、第１サブ帯域領域と低周波数部分の高周波数の周波数バンドとの間の相対平坦度情報は第１相対平坦度情報であり、第２サブ帯域領域と低周波数部分の高周波数の周波数バンドとの間の相対平坦度情報は第２相対平坦度情報であれば、第１相対平坦度情報と、第１サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて決定されたゲイン調整値は、第１サブ帯域領域に対応する高周波数スペクトラムエンベロープのエンベロープ部分の調整、第２相対平坦度情報と、第２サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて決定されたゲイン調整値は、第２サブ帯域領域に対応する高周波数スペクトラムエンベロープのエンベロープ部分の調整に使用され得る。

本願の解決手段では、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であるため、したがって、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択し、当該低周波数部分の高周波数の周波数バンドをテンプレートとし、サンプル広帯域信号の高周波数部分を少なくとも２つのサブ帯域領域に分割し、高周波数部分の各サブ帯域領域のスペクトラムと、低周波数部分のスペクトラムとに基づいて、各サブ帯域領域の相対平坦度情報を決定することができる。

以上の説明に基づいて、ニューラルネットワークモデルの訓練段階では、サンプルデータ（サンプルデータには、サンプル狭帯域信号と、対応するサンプル広帯域信号とが含まれている）に基づいて、分散解析法によって、サンプル広帯域信号のスペクトラムの高周波数部分の各サブ帯域領域の相対平坦度情報を決定することができる。

一例として、サンプル広帯域信号の高周波数部分が、それぞれが第１サブ帯域領域および第２サブ帯域領域である２つのサブ帯域領域に分割された場合、サンプル広帯域信号の高周波数部分と低周波数部分との間の相対平坦度情報は、第１サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第１相対平坦度情報、および第２サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第２相対平坦度情報とすることができる。

ここで、第１相対平坦度情報および第２相対平坦度情報への決定方式は、具体的には、以下のとおりであってもよい。

サンプル狭帯域信号の振幅スペクトルＰ_{Ｌｏｗ，ｓａｍｐｌｅ}（ｉ，ｊ）およびサンプル広帯域信号の高周波数部分の振幅スペクトルＰ_{Ｈｉｇｈ，ｓａｍｐｌｅ}（ｉ，ｊ）に基づいて、式（３）～式（５）により、以下の３つの分散を算出する。

ここで、式（３）は、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドの振幅スペクトルの分散であり、式（４）は、第１サブ帯域領域の振幅スペクトルの分散であり、式（５）は、第２サブ帯域領域の振幅スペクトルの分散であり、ｖａｒ（）は、分散を求めることを示す。

上記の３つの分散に基づいて、式（６）および式（７）により、各サブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を決定する。

ここで、ｆｃ（０）は、第１サブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第１相対平坦度情報を示し、ｆｃ（１）は、第２サブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第２相対平坦度情報を示す。

ここで、上記の２つの値ｆｃ（０）とｆｃ（１）は、０以上であるかどうかによって分類されてもよく（本願の実施例において、１は、０以上であることを示すために使用され、０は、０より小さいことを示すために使用される）、ｆｃ（０）およびｆｃ（１）は、１つの二分類配列として定義されてもよく、したがって、この配列には、４種類の順列・組み合わせ、即ち、｛０,０｝、｛０,１｝、｛１,０｝、｛１,１｝が含まれている。

これにより、モデルによって出力された相対平坦度情報は、４個の確率値であってもよく、この確率値は、相対平坦度情報が上記の４個の配列に属する確率を示すために使用されるものである。

確率最大という原則に従って、４個の配列の順列・組み合わせのうちの１つを、予測された、２つのサブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報とすることができる。具体的には、式（８）によって示され得る。
ｖ（ｉ，ｋ）＝０ｏｒ１、ｋ＝０、１（８）

ここで、ｖ（ｉ，ｋ）は、２つのサブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を示し、ｋは、異なるサブ帯域領域のインデックスを示し、各サブ帯域領域は、１つの相対平坦度情報に対応してもよく、例えば、ｋ＝０である場合、ｖ（ｉ，ｋ）＝０は、第１サブ帯域領域が低周波数部分に対してより発振しており、即ち、平坦度が低いことを示し、ｖ（ｉ，ｋ）＝１は、第１サブ帯域領域が低周波数部分に対してより平坦であり、即ち平坦度が良好であることを示す。

本願の実施例において、狭帯域信号の低周波数スペクトラムパラメータを訓練済みのニューラルネットワークモデルに入力することで、ニューラルネットワークモデルによってターゲット広周波数スペクトラムの高周波数部分の相対平坦度情報を予測し得ることができる。狭帯域信号の低周波数部分の高周波数の周波数バンドに対応する低周波数スペクトラムパラメータをニューラルネットワークモデルの入力として選択すれば、この訓練済みのニューラルネットワークモデルに基づいて、ターゲット広周波数スペクトラムの高周波数部分の少なくとも２つのサブ帯域領域の相対平坦度情報を予測し得ることができる。本願の解決手段では、高周波数スペクトラムエンベロープには、第１数の第１サブスペクトラムエンベロープが含まれる場合、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップは、

各第１サブスペクトラムエンベロープについて、低周波数スペクトラムエンベロープにおける、第１サブスペクトラムエンベロープに対応するスペクトラムエンベロープ（以下、低周波数スペクトラムエンベロープにおける、第１サブスペクトラムエンベロープに対応するスペクトラムエンベロープは、第２サブスペクトラムエンベロープとして説明される）が対応するスペクトラムエネルギー情報、第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応する相対平坦度情報、および第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報に基づいて、第１サブスペクトラムエンベロープのゲイン調整値を決定するステップを含むことができ、
高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップは、
高周波数スペクトラムエンベロープにおける各第１サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第１サブスペクトラムエンベロープを調整するステップを含むことができる。

具体的には、高周波数スペクトラムエンベロープの各第１サブスペクトラムエンベロープは、１つのゲイン調整値に対応し、当該ゲイン調整値は、第２サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報、第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応する相対平坦度情報、第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報に基づいて決定され、かつ、当該第２サブスペクトラムエンベロープは、当該第１サブスペクトラムエンベロープに対応し、高周波数スペクトラムエンベロープには、第１数の第１サブスペクトラムエンベロープが含まれ、この場合、高周波数スペクトラムエンベロープには、対応する第１数のゲイン調整値が含まれる。

理解できるものとして、高周波数部分には少なくとも２つのサブ帯域領域に対応する高周波数スペクトラムエンベロープが含まれていれば、少なくとも２つのサブ帯域領域に対応する高周波数スペクトラムエンベロープについては、各サブ帯域領域に対応する第１サブスペクトラムエンベロープが対応するゲイン調整値に基づいて、対応するサブ帯域領域の第１サブスペクトラムエンベロープを調整することができる。

一例として、以下、第１サブ帯域領域には３５個の周波数ポイントが含まれることを例として、第２サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報、第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応する相対平坦度情報、および第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報に基づいて、第２サブスペクトラムエンベロープに対応する第１サブスペクトラムエンベロープのゲイン調整値を決定する１つの実現可能な解決手段は、
（１）ｖ（ｉ，ｋ）を解析し、１であれば、高周波数部分が非常に平坦であり、０であれば、高周波数部分が発振していることを示す。

（２）第１サブ帯域領域における３５個の周波数ポイントを７個のサブ帯域に分割し、各サブ帯域は、１つの第１サブスペクトラムエンベロープに対応する。各サブ帯域の平均エネルギーｐｏｗ＿ｅｎｖ（第２サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報）をそれぞれ算出して、上記の７個のサブ帯域の平均エネルギーの平均値Ｍｐｏｗ＿ｅｎｖ（第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報）を算出する。ここで、各サブ帯域の平均エネルギーは、対応する低周波数振幅スペクトルに基づいて決定され、例えば、各低周波数振幅スペクトルのスペクトル係数の絶対値の二乗が、１つの低周波数振幅スペクトルのエネルギーとされ、１つのサブ帯域が５個の低周波数振幅スペクトルのスペクトル係数に対応し、このような場合、１つのサブ帯域に対応する低周波数振幅スペクトルのエネルギーの平均値は、当該サブ帯域の平均エネルギーとされてもよい。

（３）解析された第１サブ帯域領域に対応する相対平坦度情報、平均エネルギーｐｏｗ＿ｅｎｖ、および平均値Ｍｐｏｗ＿ｅｎｖに基づいて、各第１サブスペクトラムエンベロープのゲイン調整値を算出し、具体的には、以下のことを含む。

ｖ（ｉ，ｋ）＝１である場合、Ｇ（ｊ）＝ａ_１＋ｂ_１＊ＳＱＲＴ（Ｍｐｏｗ＿ｅｎｖ／ｐｏｗ＿ｅｎｖ（ｊ））、ｊ＝０,１,…,６；
ｖ（ｉ，ｋ）＝０である場合、Ｇ（ｊ）＝ａ_０＋ｂ_０＊ＳＱＲＴ（Ｍｐｏｗ＿ｅｎｖ／ｐｏｗ＿ｅｎｖ（ｊ））、ｊ＝０,１,…,６；

ここで、１つの解決手段として、ａ_１＝０．８７５，ｂ_１＝０．１２５，ａ_０＝０．９２５，ｂ_０＝０．０７５であり、Ｇ（ｊ）は、ゲイン調整値である。

ここで、ｖ（ｉ，ｋ）＝０である場合について、ゲイン調整値は１になり、即ち、高周波数スペクトラムエンベロープに対して平坦化操作（調整）を行う必要がない。

上記方式に基づいて、高周波数スペクトラムエンベロープのうちの７個の第１サブスペクトラムエンベロープのゲイン調整値を決定し、７個の第１サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第１サブスペクトラムエンベロープを調整することができ、上記の操作は、異なるサブ帯域の平均エネルギーの間の差を縮め、第１サブ帯域領域に対応するスペクトラムに対して、異なる程度の平坦化処理を行うことができる。

理解できるものとして、上記と同じ方式によって、第２サブ帯域領域に対応する高周波数スペクトラムエンベロープを調整することもでき、ここでは、再度言及しない。高周波数スペクトラムエンベロープには、合計１４個のサブ周波数帯域が含まれており、このような場合、１４個のゲイン調整値を対応的に決定し、この１４個のゲイン調整値に基づいて、対応するサブスペクトラムエンベロープを調整することができる。

本願の解決手段では、低周波数の周波数ドメインパラメータには、低周波数の周波数ドメイン係数がさらに含まれており、高周波数振幅スペクトルおよび高周波数位相スペクトルに基づいて、高周波数スペクトラムを得るステップは、
高周波数振幅スペクトルおよび高周波数位相スペクトルに基づいて、高周波数の周波数ドメイン（高周波数ドメイン）係数を生成するステップと、
低周波数の周波数ドメイン係数および高周波数の周波数ドメイン係数に基づいて、高周波数スペクトラムを生成するステップと、を含むことができる。

本願の解決手段では、低周波数スペクトラムと高周波数スペクトラムに基づいて、周波数帯域が拡張された広帯域信号を得るステップＳ１６０は、
低周波数スペクトラムと高周波数スペクトラムをマージして、広周波数帯域スペクトラムを得るステップと、
広周波数帯域スペクトラムに対して周波数－時間変換を行い、周波数帯域が拡張された広帯域信号を得るステップと、を含むことができる。

具体的には、広帯域信号には、狭帯域信号における低周波数部分の信号および拡張後の高周波数部分の信号が含まれている場合、低周波数部分に対応する低周波数スペクトラムおよび高周波数部分に対応する高周波数スペクトラムが得られた後、低周波数スペクトラムと高周波数スペクトラムをマージし、広周波数帯域スペクトラムを得て、さらに、広周波数帯域スペクトラムに周波数－時間変換（時間－周波数変換の逆変換であって、周波数ドメイン信号を時間ドメイン信号に変換することである）を実行し、これにより、周波数帯域が拡張されたターゲット音声信号を得ることができる。

本願の解決手段では、狭帯域信号には、少なくとも２つの関連する信号が含まれる場合、この方法は、
少なくとも２つの関連する信号を融合して、狭帯域信号を得るステップ、
または、
少なくとも２つの関連する信号のうちの各信号をそれぞれ狭帯域信号とするステップ、をさらに含むことができる。

具体的には、狭帯域信号は、複数の関連する信号、例えば、隣接する音声フレームであってもよく、このような場合、少なくとも２つの関連する信号を融合して、１つ信号を得て、この１つの信号を狭帯域信号とし、次に、本願における周波数帯域拡張方法によって、当該狭帯域信号を拡張して、広帯域信号を得ることができる。

または、少なくとも２つの関連する信号のうちの各信号を狭帯域信号とし、本願における周波数帯域拡張方法によって、当該狭帯域信号を拡張して、対応する少なくとも２つの広帯域信号を得ることもでき、当該少なくとも２つの広帯域信号は、１つの信号としてマージし出力されてもよく、それぞれ出力されてもよいし、本願において限定されていない。

本願の実施例によって提供される方法をよりよく理解できるために、以下、具体的な適用シーンの例を参照して、本願の実施例の解決手段をさらに詳細に説明する。

一例として、適用シーンは、ＰＳＴＮ（狭帯域音声）とＶｏＩＰ（広帯域音声）が互いに通信するシーンであり、即ち、ＰＳＴＮ電話機に対応する狭帯域音声を処理対象となる狭帯域信号として、この処理対象となる狭帯域信号に対して周波数帯域拡張を行い、ＶｏＩＰ受信側で受信される音声フレームを広帯域音声とすることによって、受信側での聴覚的体験を向上させる。

本例において、処理対象となる狭帯域信号は、サンプリングレートが８０００Ｈｚであり、フレーム長が１０ｍｓである信号であり、Ｎｙｑｕｉｓｔサンプリング定理に従って、処理対象となる狭帯域信号の有効帯域幅は、４０００Ｈｚになる。実際の音声通信シーンにおいて、有効帯域幅の上限が一般的に３５００Ｈｚである。したがって、本例において、拡張後の広帯域信号の有効帯域幅が７０００Ｈｚであることを例として説明する。

図３に示すように、本実施例の方法は、図５に示す電子デバイスが実行されてもよく、当該方法は、以下のステップを含むことができる。

ステップＳ１で、フロントエンド信号を処理する。

処理対象となる狭帯域信号に対して、ファクターを２とするアップサンプリング処理を行い、サンプリングレートが１６０００Ｈｚであるアップサンプリング信号を出力する。

狭帯域信号のサンプリングレートが８０００Ｈｚであり、フレーム長が１０ｍｓであるため、この場合、アップサンプリング信号は、１６０個のサンプル点（周波数ポイント）に対応し、アップサンプリング信号に対して短時間フーリエ変換を行い、具体的には、１つ前の音声フレームに対応する１６０個のサンプル点と、現在の音声フレーム（処理対象となる狭帯域信号）に対応する１６０個のサンプル点とを、３２０個のサンプル点を含む１つの配列として組み合わせる。続いて、この配列におけるサンプル点に対してウィンドウイング処理を行い、得られた、ウィンドウイングされてオーバーラップされた信号が、ｓ_Ｌｏｗ（ｉ，ｊ）になると仮定する。その後、ｓ_Ｌｏｗ（ｉ，ｊ）に対して高速フーリエ変換を行い、３２０個の低周波数の周波数ドメイン係数Ｓ_Ｌｏｗ（ｉ，ｊ）を得て、同様に、ｉは、音声フレームのフレームインデックスであり、ｊは、フレーム内サンプルインデックス（ｊ＝０、１、…、３１９）である。ＦＦＴの共役対称関係を考慮すると、一番目の係数が直流成分であり、したがって、最初の１６１個の低周波数の周波数ドメイン係数だけを考慮してもよい。

ステップＳ２で、特徴を抽出する。

ａ）低周波数の周波数ドメイン係数に基づいて、式（１）により低周波数振幅スペクトルを算出する。

ここで、Ｐ_Ｌｏｗ（ｉ，ｊ）は、低周波数振幅スペクトルを示し、Ｓ_Ｌｏｗ（ｉ，ｊ）は、低周波数の周波数ドメイン係数であり、ＲｅａｌおよびＩｍａｇは、それぞれ、低周波数の周波数ドメイン係数の実数部および虚数部であり、ＳＱＲＴは、平方根演算である。狭帯域信号は、サンプリングレートが８０００Ｈｚであり、有効帯域幅が０～３５００Ｈｚである信号であれば、狭帯域信号のサンプリングレートとフレーム長とに基づいて、低周波数の周波数ドメイン係数から、７０個の低周波数振幅スペクトルのスペクトル係数（低周波数振幅スペクトル係数）Ｐ_Ｌｏｗ（ｉ，ｊ）、ｊ＝０、１、…６９を決定することができる。実際の適用において、算出された７０個の低周波数振幅スペクトル係数を直接に狭帯域信号の低周波数振幅スペクトルとすることができ、さらに、算出を容易にするために、さらに低周波数振幅スペクトルを対数ドメインに変換することもできる。

７０個の係数を含む低周波数振幅スペクトルが得られた後、低周波数振幅スペクトルに基づいて、狭帯域信号の低スペクトラムエンベロープを決定することができる。

ｂ）さらに、以下の方式によって、低周波数振幅スペクトルに基づいて、低周波数スペクトラムエンベロープを決定することもできる。

狭帯域信号をバンディングし、７０個の低周波数振幅スペクトルのスペクトル係数に対して、５個ずつの隣接するサブ振幅スペクトルのスペクトル係数に対応する周波数帯域を１つのサブ帯域として分割し、合計１４個のサブ帯域に分割することができ、各サブ帯域は、５個のスペクトル係数に対応する。各サブ帯域に対して、当該サブ帯域の低周波数スペクトラムエンベロープは、隣接するスペクトル係数の平均エネルギーとして定義される。具体的には、式（２）により算出され得る。

ここで、ｅ_Ｌｏｗ（ｉ，ｋ）は、サブスペクトラムエンベロープ（各サブ帯域の低周波数スペクトラムエンベロープ）を示し、ｋは、サブ帯域のインデックス番号を示し、合計１４個のサブ帯域、ｋ＝０、１、２……１３があり、この場合、低周波数スペクトラムエンベロープには、１４個のサブスペクトラムエンベロープが含まれる。

一般的に、サブ帯域のスペクトルエンベロープは、隣接する係数の平均エネルギーとして定義され（または、さらに対数表現に変換され）、しかし、このような方式は、幅値が小さい係数が実質的な役割を果たすことができない、ということをもたらす場合があり、本願の実施例によって提供される下記のような解決手段、即ち、各サブ振幅スペクトルに含まれるスペクトル係数の対数標識に対して平均値を直接に求めて、サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得る解決手段は、既存のよく使用されているエンベロープの決定のための解決手段と比較して、ニューラルネットワークモデルの訓練プロセスの歪み制御において、幅値がより小さな係数をよりよく保護することができ、これにより、より多くの信号パラメータは、周波数帯域拡張において、相応的な役割を果たすことができる。

これによって、７０次元の低周波数振幅スペクトルおよび１４次元の低周波数スペクトラムエンベロープをニューラルネットワークモデルの入力とすることができる。

ステップＳ３で、ニューラルネットワークモデルに入力する。

入力層で、ニューラルネットワークモデルに上記の８４次元の特徴ベクトルを入力し、
出力層で、本実施例において周波数帯域拡張のターゲット広帯域が７０００Ｈｚであることを考慮するため、３５００～７０００Ｈｚの周波数バンドに対する１４個のサブ帯域の高周波数スペクトラムエンベロープを予測する必要があり、そうすると、基本的な周波数帯域拡張機能を達成することができる。通常、音声フレームの低周波数部分には、大量の基音や共振ピークなどの高調波のような構造が含まれており、高周波数部分のスペクトラムはより平坦になり、単純に低周波数スペクトラムを高周波数にコピーして初期高周波数振幅スペクトルを取得し、初期高周波数振幅スペクトルに対してサブ帯域に基づくゲイン制御を実行すれば、再構築された高周波数部分は、過剰な高調波のような構造が発生し、歪みを引き起こし、聴感に影響を与えてしまう。したがって、本例において、ニューラルネットワークモデルにより予測された相対平坦度情報に基づいて、低周波数部分と高周波数部分との間の相対平坦度を記述し、初期高周波数振幅スペクトルを調整し、これにより、調整された高周波数部分はより平坦になり、高調波による干渉を減少させる。

本例において、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルを２回コピーすることにより、初期高周波数振幅スペクトルを生成すると共に、高周波数部分の周波数バンドを、それぞれが第１サブ帯域領域と第２サブ帯域領域である２つのサブ帯域領域に等分し、これにより、高周波数部分は、７０個のスペクトル係数に対応し、各サブ帯域領域は、３５個のスペクトル係数に対応しており、したがって、高周波数部分に対して２回の平坦度分析を実行し、即ち、サブ帯域領域ごとに１回の平坦度分析を実行し、低周波数部分、特に、１０００Ｈｚ以下に対応する周波数バンドでは、高調波成分がより豊富であるため、本実施例において、３５～６９の周波数ポイントに対応するスペクトル係数を「テンプレート」として選択し、このようにすれば、第１サブ帯域領域に対応する周波数バンドは、７０番目～１０４番目の周波数ポイントに対応する周波数バンドであり、第２サブ帯域領域に対応する周波数バンドは、１０５番目～１３９番目の周波数ポイントに対応する周波数バンドである。

平坦度分析には、クラシックな統計学において定義された分散（Ｖａｒｉａｎｃｅ）分析方法が使用され得る。分散分析方法によれば、スペクトラムの発振の度合いを記述することができ、値が大きいほど、高調波成分が豊富になるということを示す。

以上の説明に基づいて、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であるため、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択することができ、即ち、当該低周波数部分の高周波数の周波数バンド（３５～６９の周波数ポイントに対応する周波数バンド）をテンプレートとし、相応的に、サンプル広帯域信号の高周波数部分を少なくとも２つのサブ帯域領域に分割し、高周波数部分の各サブ帯域領域のスペクトラムおよび低周波数部分のスペクトラムに基づいて、各サブ帯域領域の相対平坦度情報を決定することができる。

ニューラルネットワークモデルの訓練段階では、サンプルデータ（サンプルデータには、サンプル狭帯域信号と、対応するサンプル広帯域信号とが含まれている）に基づいて、分散分析法によって、サンプル広帯域信号のスペクトラムの高周波数部分の各サブ帯域領域の相対平坦度情報を決定することができる。

一例として、サンプル広帯域信号の高周波数部分が、それぞれが第１サブ帯域領域と第２サブ帯域領域である２つのサブ帯域領域に分割された場合、サンプル広帯域信号の高周波数部分と低周波数部分との間の相対平坦度情報は、第１サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第１相対平坦度情報、および第２サブ帯域領域とサンプル広帯域信号の低周波数部分の高周波数の周波数バンドとの間の第２相対平坦度情報であってもよい。

ここで、第１相対平坦度情報および第２相対平坦度情報の決定方式は、具体的には、以下のとおりであってもよい。

サンプル狭帯域信号の振幅スペクトルＰ_{Ｌｏｗ，ｓａｍｐｌｅ}（ｉ，ｊ）およびサンプル広帯域信号の高周波数部分の振幅スペクトルＰ_{Ｈｉｇｈ，ｓａｍｐｌｅ}（ｉ，ｊ）に基づいて、式（３）～式（５）によって、以下の３つの分散を算出する。

上記の３つの分散に基づいて、式（６）および式（７）により、各サブ帯域領域の振幅スペクトルと低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を決定する。

ここで、ｆｃ（０）は、第１サブ帯域領域の振幅スペクトルと低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第１相対平坦度情報を示し、ｆｃ（１）は、第２サブ帯域領域の振幅スペクトルと低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の第２相対平坦度情報を示す。

ここで、上記の２つの値ｆｃ（０）とｆｃ（１）は、０以上であるかどうかによって分類されてもよく、ｆｃ（０）およびｆｃ（１）は、１つの二分類配列として定義されてもよく、したがって、この配列には、４種類の順列・組み合わせ、即ち、｛０,０｝、｛０,１｝、｛１,０｝、｛１,１｝が含まれている。

ここで、ｖ（ｉ，ｋ）は、２つのサブ帯域領域の振幅スペクトルと、低周波数部分の高周波数の周波数バンドの振幅スペクトルとの間の相対平坦度情報を示し、ｋは、異なるサブ帯域領域のインデックスを示し、例えば、ｋが０である場合、第１サブ帯域領域が示され、ｋが１である場合、第２サブ帯域領域が示され、この場合、各サブ帯域領域は、１つの相対平坦度情報に対応することができる。

ステップＳ４で、高周波数振幅スペクトルを生成する。

上記したとおり、低周波数振幅スペクトル（３５～６９の、合計３５個の周波数ポイント）を２回コピーし、高周波数の振幅スペクトル（合計７０個の周波数ポイント）を生成し、狭帯域信号に対応する低周波数スペクトラムパラメータに基づいて、訓練済みのニューラルネットワークモデルによって、予測されたターゲット広周波数スペクトラムの高周波数部分の相対平坦度情報を取得することができる。本例で選択されたのは、３５～６９に対応する低周波数振幅スペクトルの周波数ドメイン係数であるため、この訓練済みのニューラルネットワークモデルによって、ターゲット広周波数スペクトラムの高周波数部分の少なくとも２つのサブ帯域領域の相対平坦度情報を予測して取得することができ、即ち、ターゲット広広周波数スペクトラムの高周波数部分は、少なくとも２つのサブ帯域領域に分割され、本例において、２個のサブ帯域領域を例として、ニューラルネットワークモデルの出力は、この２個サブ帯域領域に対する相対平坦度情報である。

予測された、２個のサブ帯域領域に対応する相対平坦度情報に基づいて、再構築された高周波数振幅スペクトルに対して、ポストフィルタリングを行う。そのうちの第１サブ帯域領域を例とすると、主なステップは、以下のことを含み、即ち、
（１）ｖ（ｉ，ｋ）を解析し、１であれば、高周波数部分が非常に平坦であり、０であれば、高周波数部分が発振していることを示す。

（２）第１サブ帯域領域における３５個の周波数ポイントを７個のサブ帯域に分割し、高周波数スペクトラムエンベロープには、１４個の第１サブスペクトラムエンベロープが含まれ、低周波数スペクトラムエンベロープには、１４個の第２サブスペクトラムエンベロープが含まれており、このような場合、各サブ帯域は、１つの第１サブスペクトラムエンベロープに対応することができる。各サブ帯域の平均エネルギーｐｏｗ＿ｅｎｖ（第２サブスペクトラムエンベロープに対応するスペクトラムエネルギー情報）をそれぞれ算出して、上記の７個の平均エネルギーの平均値Ｍｐｏｗ＿ｅｎｖ（第２サブスペクトラムエンベロープに対応するサブ帯域領域が対応するスペクトラムエネルギー情報）を算出する。ここで、各サブ帯域の平均エネルギーは、対応する低周波数振幅スペクトルに基づいて決定され、例えば、各低周波数振幅スペクトルのスペクトル係数の絶対値の二乗を、１つの低周波数振幅スペクトルのエネルギーとし、１つのサブ帯域が５個の低周波数振幅スペクトルのスペクトル係数に対応させ、このような場合、１つのサブ帯域に対応する低周波数振幅スペクトルのエネルギーの平均値を、このサブ帯域の平均エネルギーとすることができる。

（３）解析された第１サブ帯域領域に対応する相対平坦度情報、平均エネルギーｐｏｗ＿ｅｎｖ、および平均値Ｍｐｏｗ＿ｅｎｖに基づいて、各第１サブスペクトラムエンベロープのゲイン調整値を算出し、具体的には、以下のことを含み、即ち、
ｖ（ｉ，ｋ）＝１である場合、Ｇ（ｊ）＝ａ_１＋ｂ_１＊ＳＱＲＴ（Ｍｐｏｗ＿ｅｎｖ／ｐｏｗ＿ｅｎｖ（ｊ））の場合、ｊ＝０,１,…,６；
ｖ（ｉ，ｋ）＝０である場合、Ｇ（ｊ）＝ａ_０＋ｂ_０＊ＳＱＲＴ（Ｍｐｏｗ＿ｅｎｖ／ｐｏｗ＿ｅｎｖ（ｊ））の場合、ｊ＝０,１,…,６；

ここで、本例において、ａ_１＝０．８７５，ｂ_１＝０．１２５，ａ_０＝０．９２５，ｂ_０＝０．０７５であり、Ｇ（ｊ）は、ゲイン調整値である。

ここで、ｖ（ｉ，ｋ）＝０である場合、ゲイン調整値は１になり、即ち、高周波数スペクトラムエンベロープに対して平坦化操作（調整）を行う必要がない。

４）上記の方式に基づいて、高周波数スペクトラムエンベロープｅ_ｈｉｇｈ（ｉ，ｋ）における各第１サブスペクトラムエンベロープに対応するゲイン調整値を決定し、各第１サブスペクトラムエンベロープに対応するゲイン調整値に基づいて、対応する第１サブスペクトラムエンベロープを調整することができ、上記の操作は、異なるサブ帯域の平均エネルギーの間の差を縮め、第１サブ帯域領域に対応するスペクトラムに対して、異なる程度の平坦化処理を行うことができる。

理解できるものとして、上記と同じ方式によって、第２サブ帯域領域に対応する高周波数スペクトラムエンベロープを調整することができ、ここで再度言及しない。高周波数スペクトラムエンベロープは、合計１４個のサブ周波数帯域を含み、このような場合、１４個のゲイン調整値を相応的に決定し、この１４個のゲイン調整値に基づいて、対応するサブスペクトラムエンベロープを調整することができる。

さらに、調整後の高周波数スペクトラムエンベロープに基づいて、調整後の高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差を決定し、差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルＰ_Ｈｉｇｈ（ｉ，ｊ）を得る。

ステップＳ５で、高周波数スペクトラムを生成する。

低周波数位相スペクトルＰｈ_ｌｏｗ（ｉ，ｊ）に基づいて、対応する高周波数位相スペクトルＰｈ_Ｈｉｇｈ（ｉ，ｊ）を生成するステップは、以下のいずれかを含むことができる。

第１種類は、低周波数位相スペクトルをコピーすることにより、対応する高周波数位相スペクトルを得る方式である。

第２種類は、低周波数位相スペクトルをフリッピングし、フリッピングされた後に低周波数位相スペクトルと同じ位相スペクトルを得て、この２つの低周波数位相スペクトルを対応する高周波数の周波数ポイントにマッピングして、対応する高周波数位相スペクトルを得る方式である。

高周波数振幅スペクトルと高周波数位相スペクトルに従って、高周波数の周波数ドメイン係数Ｓ_Ｈｉｇｈ（ｉ，ｊ）を生成し、低周波数の周波数ドメイン係数と高周波ドメイン係数に基づいて、高周波数スペクトラムを生成する。

ステップＳ６で、周波数－時間変換を行う。

低周波数スペクトラムと高周波数スペクトラムに基づいて、周波数帯域が拡張された広帯域信号を得る。

具体的には、低周波数の周波数ドメイン係数Ｓ_Ｌｏｗ（ｉ，ｊ）と、高周波数の周波数ドメイン係数Ｓ_Ｈｉｇｈ（ｉ，ｊ）をマージして、高周波数スペクトラムを生成し、低周波数スペクトラムと高周波数スペクトラムに基づいて、時間－周波数変換の逆変換を行うと、新しい音声フレームｓ_Ｒｅｃ（ｉ，ｊ）、即ち広帯域信号を生成することができる。このとき、処理対象となる狭帯域信号の有効スペクトラムは、７０００Ｈｚに拡張された。

本解決手段の方法によれば、ＰＳＴＮとＶｏＩＰが互いに通信する音声通信シーンにおいて、ＶｏＩＰ側でＰＳＴＮからの狭帯域音声（サンプリングレートが８ｋＨｚであり、有効帯域幅が一般的に３．５ｋＨｚである）しか受信することができない。ユーザの直感的な感覚は、音色が十分に明るくなく、音量が十分に大きくなく、明瞭度が普通的であるということです。本願で開示された技術案に基づいて周波数帯域拡張を行うと、追加のビットを必要とせずに、ＶｏＩＰ受信側で有効帯域幅を７ｋＨｚに拡張することができる。ユーザは、より明るい音色、より大きな音量、およびより良好な明瞭度を直観的に感じることができる。また、本解決手段によれば、上位互換性という問題が存在しないため、プロトコルを変更する必要がなくなり、これにより、ＰＳＴＮと完全に互換性があることができる。

本願の実施例において、本願の方法が、ＰＳＴＮ－ＶｏＩＰチャンネルの下り側に適用されてもよく、例えば、会議システムがインストールされているクライアントに、本願の実施例によって提供される解決手段の機能モジュールが集積されると、クライアントで狭周波数帯域信号に対する周波数帯域拡張を実現することができ、これにより、広帯域信号を得ることができる。具体的には、このシーンでの信号処理は、信号後処理技術であり、ＰＳＴＮ（コーディングシステムはＩＴＵ－ＴＧ．７１１としてもよい）を例として、会議システムのクライアントの内部では、Ｇ．７１１の復号が完了した後、音声フレームが復元される。音声フレームに対して本願実施に係る後処理技術を実行すると、送信側が狭帯域信号であっても、ＶｏＩＰユーザは、広帯域信号を受信することもできる。

本願の実施例の方法は、ＰＳＴＮ－ＶｏＩＰチャンネルのミキシングサーバに適用されてもよく、当該ミキシングサーバにより周波数帯域拡張が行われた後、周波数帯域拡張後の広帯域信号がＶｏＩＰクライアントに送信され、ＶｏＩＰクライアントは、広帯域信号に対応するＶｏＩＰコードストリームを受信した後、ＶｏＩＰコードストリームを復号することにより、周波数帯域拡張されて出力された広帯域音声を復元することができる。ミキシングサーバの１つの典型的な機能は、トランスコーディングであり、例えば、ＰＳＴＮリンクのコードストリームをＶｏＩＰでよく使用されているコードストリーム（例えばＯＰＵＳまたはＳＩＬＫなど）にトランスコーディングする（例えば、Ｇ．７１１の符号化を使用する）。ミキシングサーバでは、Ｇ．７１１の復号が実行された後の音声フレームを１６０００Ｈｚにアップサンプリングし、そして、本願の実施例によって提供される解決手段を使用して、周波数帯域拡張を完成し、その後、ＶｏＩＰでよく使用されているコードストリームにトランスコーディングすることができる。ＶｏＩＰクライアントは、１つまたは複数のＶｏＩＰコードストリームを受信した後、復号を通じて、周波数帯域拡張されて出力された広帯域音声を復元することができる。

図１Ｂに示す方法と同じ原理に基づいて、本発明の実施例は、また、周波数帯域拡張装置２０を提供し、図４に示すように、この周波数帯域拡張装置１０には、低周波数スペクトラムパラメータ決定モジュール２１０、相関性パラメータ決定モジュール２２０、高周波数振幅スペクトル決定モジュール２３０、高周波数位相スペクトル生成モジュール２４０、高周波数スペクトラム決定モジュール２５０、および広帯域信号決定モジュール２６０が含まれており、ここで、
低周波数スペクトラムパラメータ決定モジュール２１０は、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定し、ここで、低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる。

相関性パラメータ決定モジュール２２０は、低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得て、ここで、相関性パラメータは、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、相関性パラメータには、高周波数スペクトラムエンベロープが含まれる。

高周波数振幅スペクトル決定モジュール２３０は、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る。

高周波数位相スペクトル生成モジュール２４０は、狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する。

高周波数スペクトラム決定モジュール２５０は、高周波数振幅スペクトルと高周波数位相スペクトルに基づいて、高周波数スペクトラムを得る。

広帯域信号決定モジュール２６０は、低周波数スペクトラムと高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る。

本実施例における解決手段により、処理対象となる狭帯域信号の低周波数スペクトラムパラメータに基づいて、ニューラルネットワークモデルの出力から上記の相関性パラメータを得て、ニューラルネットワークモデルを使用して予測を行うため、追加のビットをコーディングする必要がなく、これがブランド分析方法であり、良好な上位互換性を有し、かつ、モデルの出力がターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を反映できるパラメータであるため、スペクトラムパラメータから相関性パラメータへのマッピングが実現され、係数から係数への従来のマッピング方式と比べて、より良い一般化能力を持っている。本願の実施例の周波数帯域拡張の解決手段によれば、音色が大きくてよく通る、音量が比較的大きい信号を得ることができ、これにより、ユーザは、より良好な聴覚体験を得ることができる。

高周波数振幅スペクトル決定モジュール２３０は、相関性パラメータと低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る場合、具体的には、
低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを得ることと、
低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成することと、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される。

高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープは、いずれも、対数ドメインのスペクトラムエンベロープであり、高周波数振幅スペクトル決定モジュール２３０は、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープに基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得る場合、具体的には、
高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定することと、
差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される。

高周波数振幅スペクトル決定モジュール２３０は、低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成する場合、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーすること、を実行するために使用される。

高周波数スペクトラムエンベロープには、第１数の第１サブスペクトラムエンベロープが含まれ、初期高周波数振幅スペクトルには、第１数のサブ振幅スペクトルが含まれ、ここで、各第１サブスペクトラムエンベロープは、初期高周波数振幅スペクトルのうちの対応するサブ振幅スペクトルに基づいて決定されたものである。

高周波数振幅スペクトル決定モジュール２３０は、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定し、差に基づいて、初期高周波数振幅スペクトルを調整し、ターゲット高周波数振幅スペクトルを得る場合、具体的には、
各第１サブスペクトラムエンベロープと、低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープとの間の差を決定することと、
各第１サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、第１数の調整されたサブ振幅スペクトルを得ることと、
第１数の調整されたサブ振幅スペクトルに基づいて、ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される。

相関性パラメータには、相対平坦度情報がさらに含まれており、相対平坦度情報は、ターゲット広周波数スペクトラムの高周波数部分のスペクトラム平坦度と低周波数部分のスペクトラム平坦度との間の相関性を特徴づける。

高周波数振幅スペクトル決定モジュール２３０は、高周波数スペクトラムエンベロープと低周波数スペクトラムエンベロープとの間の差を決定する場合、具体的には、
相対平坦度情報および低周波数スペクトラムのエネルギー情報に基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定することと、
ゲイン調整値に基づいて、高周波数スペクトラムエンベロープを調整し、調整された高周波数スペクトラムエンベロープを得ることと、
調整された高周波数スペクトラムエンベロープと、低周波数スペクトラムエンベロープとの間の差を決定することと、を実行するために使用される。

相対平坦度情報には、高周波数部分の少なくとも２つのサブ帯域領域に対応する相対平坦度情報が含まれており、１つのサブ帯域領域に対応する相対平坦度情報は、前記高周波数部分の１つのサブ帯域領域のスペクトラム平坦度と、低周波数部分の高周波数の周波数バンドのスペクトラム平坦度との間の相関性を特徴づける。

高周波数振幅スペクトル決定モジュール２３０は、相対平坦度情報と低周波数スペクトラムのエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのゲイン調整値を決定する場合、具体的には、
各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定すること、を実行するために使用される。

高周波数振幅スペクトル決定モジュール２３０は、ゲイン調整値に基づいて高周波数スペクトラムエンベロープを調整する場合、具体的には、
高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整すること、を実行するために使用される。

高周波数スペクトラムエンベロープには、第１数の第１サブスペクトラムエンベロープが含まれており、高周波数振幅スペクトル決定モジュールは、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定する場合、具体的には、
各第１サブスペクトラムエンベロープについて、低周波数スペクトラムエンベロープにおける、第１サブスペクトラムエンベロープに対応するスペクトラムエンベロープが対応するスペクトラムエネルギー情報と、低周波数スペクトラムエンベロープにおける、第１サブスペクトラムエンベロープに対応するスペクトラムエンベロープの対応するサブ帯域領域が対応する相対平坦度情報と、低周波数スペクトラムエンベロープにおける、第１サブスペクトラムエンベロープに対応するスペクトラムエンベロープの対応するサブ帯域領域が対応するスペクトラムエネルギー情報とに基づいて、第１サブスペクトラムエンベロープのゲイン調整値を決定すること、を実行するために使用される。

高周波数振幅スペクトル決定モジュールは、高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整する場合、具体的には、
高周波数スペクトラムエンベロープにおける各第１サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第１サブスペクトラムエンベロープを調整すること、を実行するために使用される。

低周波数スペクトラムパラメータには、狭帯域信号の低周波数スペクトラムエンベロープがさらに含まれる。

この装置は、さらに、
低周波数振幅スペクトルを第２数のサブ振幅スペクトルに分割することと、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープをそれぞれ決定することであって、低周波数スペクトラムエンベロープには、決定された第２数のサブスペクトラムエンベロープが含まれることと、を実行するために使用される低周波数振幅スペクトル処理モジュール、を含む。

低周波数振幅スペクトル処理モジュールは、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定する場合、具体的には、
各サブ振幅スペクトルに含まれるスペクトル係数の対数値に基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得ること、を実行するために使用される。

狭帯域信号には、少なくとも２つの関連する信号が含まれる場合、この装置は、さらに、
少なくとも２つの関連する信号を融合して、狭帯域信号を得ること、または、少なくとも２つの関連する信号のうちの各信号をそれぞれ狭帯域信号とすること、を実行するために使用される狭帯域信号決定モジュール、を含む。

本願の実施例によって提供される周波数帯域拡張装置は、本願の実施例における周波数帯域拡張方法を実行することができる装置であるため、本願の実施例において提供される周波数帯域拡張方法に基づいて、当業者は、本願の実施例の周波数帯域拡張装置の具体的な実施形態およびその様々な変化形態を理解することができ、したがって、当該装置が本願の実施例における周波数帯域拡張方法をどのように実現するかについては、さらに詳細に説明しない。本願の実施例における周波数帯域拡張方法を当業者が実施するために使用される周波数帯域拡張装置であれば、いずれも、本願の保護範囲に属する。

本願の実施例によって提供される周波数帯域拡張方法および周波数帯域拡張装置と同じ原理に基づいて、本願の実施例は、また、電子デバイスを提供し、当該電子デバイスには、プロセッサとメモリとが含まれてもよい。ここで、メモリには、読み取り可能な命令が記憶されており、読み取り可能な命令は、プロセッサによってロードされて実行されると、本願のいずれかの実施例に示す方法を実現することができる。

一例として、図５は、本願の実施例の解決手段が適用される電子デバイス４０００の構造の模式図を示し、図５に示すように、この電子デバイス４０００は、プロセッサ４００１とメモリ４００３とを含んでもよい。ここで、プロセッサ４００１とメモリ４００３は接続され、例えばバス４００２を介して接続されている。電子デバイス４０００は、また、トランシーバ４００４を含んでもよい。説明すべきものとして、実際の適用において、トランシーバ４００４は、１つに限定されず、この電子デバイス４０００の構造は、本願の実施例に対する限定を構成するものではない。

プロセッサ４００１は、中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、汎用プロセッサ、データ信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）または他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部品、またはそれらの任意の組み合わせであってもよく、本願で開示された内容と組み合わせて説明された各例示的なロジックブロック、モジュールおよび回路を実現または実行することができる。プロセッサ４００１は、計算機能を実現するための組み合わせであってもよく、例えば、１つまたは複数のマイクロプロセッサの組み合わせ、ＤＳＰとマイクロプロセッサの組み合わせなどを含む。

バス４００２は、チャンネルを含んでもよく、上記のコンポーネントの間で情報を伝送する。バス４００２は、ペリフェラルコンポーネントインターコネクト（ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス、または拡張業界標準アーキテクチャ（ＥＩＳＡ：ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バスなどであってもよい。バス４００２は、アドレスバス、データバス、制御バスなどに分けられることができる。表示を容易にするために、図５には、それを表すために、１本の太線のみが使用されているが、それは、１つのバスまたは１つのタイプのバスしかないことを意味するものではない。

メモリ４００３は、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）または静的情報や命令を記憶することができる他のタイプの静的記憶デバイス、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）または情報や命令を記憶することができる他のタイプの動的記憶デバイスであってもよく、電気的に消去可能でプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）または他の光ディスク記憶、ディスク記憶（コンパクトディスク、レーザーディスク（登録商標）、光ディスク、デジタル汎用ディスク、ブルーレイディスクなどを含む）、磁気ディスク記憶媒体または他の磁気記憶デバイス、または命令またはデータ構造形式を有する所望のプログラムコードを携帯または記憶することができ、かつコンピュータによりアクセス可能な任意の他の媒体であってもよいが、これらに限定されない。

メモリ４００３は、本願の解決手段を実行するためのアプリケーションプログラムコードを記憶するために使用され、また実行するためにプロセッサ４００１によって制御される。プロセッサ４００１は、メモリ４００３に記憶されているアプリケーションプログラムコードを実行することにより、上記のいずれかの方法実施例に示す解決手段を実現することに使用される。

本願の実施例は、また、コンピュータプログラム製品またはコンピュータプログラムを提供し、当該コンピュータプログラム製品またはコンピュータプログラムには、コンピュータ命令が含まれ、当該コンピュータ命令は、コンピュータ読み取り可能な記憶媒体に記憶されている。電子デバイスのプロセッサは、コンピュータ読み取り可能な記憶媒体から当該コンピュータ命令を読み取り、プロセッサは、当該コンピュータ命令を実行ことにより、当該電子デバイスに上記周波数帯域拡張方法を実行させる。

本願の実施例によって提供される周波数帯域拡張の解決手段は、処理対象となる狭帯域信号の低周波数スペクトラムパラメータに基づいて、ニューラルネットワークモデルの出力から上記の相関性パラメータを得ることができ、ニューラルネットワークモデルを使用して予測を行うため、追加のビットをコーディングする必要がなく、これがブランド分析方法であり、良好な上位互換性を有し、かつ、モデルの出力がターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を反映できるパラメータであるため、スペクトラムパラメータから相関性パラメータへのマッピングが実現され、係数から係数への従来のマッピング方式と比べて、より良い一般化能力を持っている。本願の実施例の周波数帯域拡張の解決手段によれば、音色が大きくてよく通る、音量が比較的大きい信号を得ることができ、これにより、ユーザは、より良好な聴覚体験を得ることができる。

理解すべきものとして、図面のフローチャートにおける各々のステップは、矢印の指示に従って順次に表示されているが、これらのステップは、必ずしも矢印の順序で順次に実行されるわけではない。本明細書で明確に説明されていない限り、これらのステップの実行は、順序については、厳密な順序制限がなく、他の順序で実行されてもよい。しかも、図面のフローチャートにおける少なくとも一部のステップは、複数のサブステップまたは複数の段階を含んでもよく、これらのサブステップまたは段階は、必ずしも同じ時刻で実行されるわけではなく、異なる時刻で実行されてもよいし、これらの実行順序も必ずしも順次に行うものではなく、他のステップ、または他のステップのサブステップまたは段階の少なくとも一部と順番にまたは交互に実行されてもよい。

以上は、本願の実施形態の一部に過ぎず、指摘すべきものとして、当業者であれば、本願の原理を逸脱しない前提で、いくつかの改良や潤飾を行うこともでき、これらの改良や潤飾も本願の保護範囲とみなすべきである。

20 周波数帯域拡張装置
210 低周波数スペクトラムパラメータ決定モジュール
220 相関性パラメータ決定モジュール
230 高周波数振幅スペクトル決定モジュール
240 高周波数位相スペクトル生成モジュール
250 高周波数スペクトラム決定モジュール
260 広帯域信号決定モジュール
4000 電子デバイス
4001 プロセッサ
4003 メモリ
4004 トランシーバ

本願の実施例において提供される周波数帯域拡張方法の適用シーン図を示す。本願の実施例において提供される周波数帯域拡張方法の模式的フローチャートを示す。本願の実施例において提供されるニューラルネットワークモデルのネットワーク構造の模式図を示す。本願の実施例において提供される周波数帯域拡張方法の一例の模式的フローチャートを示す。本願の実施例において提供される周波数帯域拡張装置の構造の模式図を示す。本願の実施例において提供される電子デバイスの構造の模式図を示す。

ここで、処理対象となる狭帯域信号は、周波数帯域拡張を必要とする音声フレーム信号であってもよく、例えば、ＰＳＴＮ－ＶｏＩＰパスにおいて、ＰＳＴＮ狭帯域音声信号をＶｏＩＰ広帯域音声信号に拡張する必要がある場合、狭帯域信号は、ＰＳＴＮ狭帯域音声信号であってもよい。狭帯域信号が音声フレームの信号である場合、当該狭帯域信号は、１フレームの音声フレームの全部または一部の音声信号であってもよい。

７０個の係数を含む低周波数振幅スペクトルを得た後、低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを決定することができる。

一例として、上記のようなシーンを例としてさらに説明し、低周波数振幅スペクトルは、合計７０個の周波数ポイントに対応し、低周波数振幅スペクトルに対応する３５～６９番目の周波数ポイント（低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトル）をコピー対象となる周波数ポイント、即ち「テンプレート」として選択し、かつ、拡張後の広帯域信号の有効帯域幅が７０００Ｈｚであれば、選択された低周波数振幅スペクトルに対応する周波数ポイントをコピーして、７０個の周波数ポイントを含む初期高周波数振幅スペクトルを得る必要があり、７０個の周波数ポイントを含むこの初期高周波数振幅スペクトルを得るために、低周波数振幅スペクトルに対応する３５～６９番目の、つまり合計３５個の周波数ポイントを２回コピーして、初期高周波数振幅スペクトルを生成することができる。同様に、低周波数振幅スペクトルに対応する０～６９個の周波数ポイントをコピー対象となる周波数ポイントとして選択し、かつ、拡張後の広帯域信号の有効帯域幅が７０００Ｈｚであれば、低周波数振幅スペクトルに対応する０～６９個の、つまり合計７０個の周波数ポイントを１回コピーして、初期高周波数振幅スペクトルを生成することができ、当該初期高周波数振幅スペクトルには、合計７０個の周波数ポイントが含まれている。

一例として、図２は、本願の実施例によって提供されるニューラルネットワークモデルの構造の模式図を示し、図に示すように、当該ニューラルネットワークモデルは、主に、片側ＬＳＴＭ層と２つの完全接続ネットワーク層との２つの部分を含み、即ち、この例において、各完全接続ネットワーク層は、１つの完全接続層を含み、一方の完全接続ネットワーク層の出力は、高周波数スペクトラムエンベロープであり、他方の完全接続ネットワーク層の出力は、相対平坦度情報である。

７０個の係数を含む低周波数振幅スペクトルが得られた後、低周波数振幅スペクトルに基づいて、狭帯域信号の低周波数スペクトラムエンベロープを決定することができる。

入力層で、ニューラルネットワークモデルに上記の８４次元の特徴ベクトルを入力し、
出力層で、本実施例において周波数帯域拡張のターゲット帯域幅が７０００Ｈｚであることを考慮するため、３５００～７０００Ｈｚの周波数バンドに対する１４個のサブ帯域の高周波数スペクトラムエンベロープを予測する必要があり、そうすると、基本的な周波数帯域拡張機能を達成することができる。通常、音声フレームの低周波数部分には、大量の基音や共振ピークなどの高調波のような構造が含まれており、高周波数部分のスペクトラムはより平坦になり、単純に低周波数スペクトラムを高周波数にコピーして初期高周波数振幅スペクトルを取得し、初期高周波数振幅スペクトルに対してサブ帯域に基づくゲイン制御を実行すれば、再構築された高周波数部分は、過剰な高調波のような構造が発生し、歪みを引き起こし、聴感に影響を与えてしまう。したがって、本例において、ニューラルネットワークモデルにより予測された相対平坦度情報に基づいて、低周波数部分と高周波数部分との間の相対平坦度を記述し、初期高周波数振幅スペクトルを調整し、これにより、調整された高周波数部分はより平坦になり、高調波による干渉を減少させる。

本例において、低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルを２回コピーすることにより、初期高周波数振幅スペクトルを生成すると共に、高周波数部分の周波数バンドを、それぞれが第１サブ帯域領域と第２サブ帯域領域である２つのサブ帯域領域に等分し、これにより、高周波数部分は、７０個のスペクトル係数に対応し、各サブ帯域領域は、３５個のスペクトル係数に対応しており、したがって、高周波数部分に対して２回の平坦度分析を実行し、即ち、サブ帯域領域ごとに１回の平坦度分析を実行し、低周波数部分、特に、１０００Ｈｚ以下に対応する周波数バンドでは、高調波成分がより豊富であるため、本実施例において、３５～６９番目の周波数ポイントに対応するスペクトル係数を「テンプレート」として選択し、このようにすれば、第１サブ帯域領域に対応する周波数バンドは、７０番目～１０４番目の周波数ポイントに対応する周波数バンドであり、第２サブ帯域領域に対応する周波数バンドは、１０５番目～１３９番目の周波数ポイントに対応する周波数バンドである。

以上の説明に基づいて、サンプル狭帯域信号の低周波数部分の低周波数の周波数バンドに含まれる高調波がより豊富であるため、サンプル狭帯域信号の低周波数部分の高周波数の周波数バンドを、相対平坦度情報を決定するための参照として選択することができ、即ち、当該低周波数部分の高周波数の周波数バンド（３５～６９番目の周波数ポイントに対応する周波数バンド）をテンプレートとし、相応的に、サンプル広帯域信号の高周波数部分を少なくとも２つのサブ帯域領域に分割し、高周波数部分の各サブ帯域領域のスペクトラムおよび低周波数部分のスペクトラムに基づいて、各サブ帯域領域の相対平坦度情報を決定することができる。

上記したとおり、低周波数振幅スペクトル（３５～６９番目の、合計３５個の周波数ポイント）を２回コピーし、高周波数の振幅スペクトル（合計７０個の周波数ポイント）を生成し、狭帯域信号に対応する低周波数スペクトラムパラメータに基づいて、訓練済みのニューラルネットワークモデルによって、予測されたターゲット広周波数スペクトラムの高周波数部分の相対平坦度情報を取得することができる。本例で選択されたのは、３５～６９番目の周波数ポイントに対応する低周波数振幅スペクトルの周波数ドメイン係数であるため、この訓練済みのニューラルネットワークモデルによって、ターゲット広周波数スペクトラムの高周波数部分の少なくとも２つのサブ帯域領域の相対平坦度情報を予測して取得することができ、即ち、ターゲット広広周波数スペクトラムの高周波数部分は、少なくとも２つのサブ帯域領域に分割され、本例において、２個のサブ帯域領域を例として、ニューラルネットワークモデルの出力は、この２個サブ帯域領域に対する相対平坦度情報である。

図１Ｂに示す方法と同じ原理に基づいて、本発明の実施例は、また、周波数帯域拡張装置２０を提供し、図４に示すように、この周波数帯域拡張装置２０には、低周波数スペクトラムパラメータ決定モジュール２１０、相関性パラメータ決定モジュール２２０、高周波数振幅スペクトル決定モジュール２３０、高周波数位相スペクトル生成モジュール２４０、高周波数スペクトラム決定モジュール２５０、および広帯域信号決定モジュール２６０が含まれており、ここで、
低周波数スペクトラムパラメータ決定モジュール２１０は、処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定し、ここで、低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる。

高周波数スペクトラムエンベロープには、第１数の第１サブスペクトラムエンベロープが含まれており、高周波数振幅スペクトル決定モジュール２３０は、各サブ帯域領域に対応する相対平坦度情報と、低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定する場合、具体的には、
各第１サブスペクトラムエンベロープについて、低周波数スペクトラムエンベロープにおける、第１サブスペクトラムエンベロープに対応するスペクトラムエンベロープの、対応するスペクトラムエネルギー情報と、対応するサブ帯域領域が対応する相対平坦度情報と、対応するサブ帯域領域が対応するスペクトラムエネルギー情報とに基づいて、第１サブスペクトラムエンベロープのゲイン調整値を決定すること、を実行するために使用される。

高周波数振幅スペクトル決定モジュール２３０は、高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整する場合、具体的には、
高周波数スペクトラムエンベロープにおける各第１サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第１サブスペクトラムエンベロープを調整すること、を実行するために使用される。

Claims

電子デバイスが実行する周波数帯域拡張方法であって、
処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定するステップであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれるステップと、
前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得るステップであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれるステップと、
前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップと、
前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成するステップと、
前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得るステップと、
前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得るステップと、
を含むことを特徴とする周波数帯域拡張方法。
前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得るステップは、
前記低周波数振幅スペクトルに基づいて、前記狭帯域信号の低周波数スペクトラムエンベロープを得るステップと、
前記低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成するステップと、
前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとに基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープは、いずれも、対数ドメインのスペクトラムエンベロープであり、前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとに基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップは、
前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定するステップと、
前記差に基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップと、を含む、
ことを特徴とする請求項２に記載の方法。
前記低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成するステップは、
前記低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーするステップ、を含む、
ことを特徴とする請求項２に記載の方法。
前記高周波数スペクトラムエンベロープには、第１数の第１サブスペクトラムエンベロープが含まれ、前記初期高周波数振幅スペクトルには、前記第１数のサブ振幅スペクトルが含まれ、各前記第１サブスペクトラムエンベロープは、前記初期高周波数振幅スペクトルにおける対応するサブ振幅スペクトルに基づいて決定され、
前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定し、前記差に基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得るステップは、
各第１サブスペクトラムエンベロープと、前記低周波数スペクトラムエンベロープのうち対応するスペクトラムエンベロープとの間の差を決定するステップと、
各第１サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、前記第１数の調整されたサブ振幅スペクトルを得るステップと、
前記第１数の調整されたサブ振幅スペクトルに基づいて、前記ターゲット高周波数振幅スペクトルを得るステップと、を含む、
ことを特徴とする請求項３に記載の方法。
前記相関性パラメータには、相対平坦度情報がさらに含まれ、前記相対平坦度情報は、前記ターゲット広周波数スペクトラムの高周波数部分のスペクトラム平坦度と低周波数部分のスペクトラム平坦度との間の相関性を特徴づけ、
前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定する前記ステップは、
前記相対平坦度情報と、前記低周波数スペクトラムのエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのゲイン調整値を決定するステップと、
前記ゲイン調整値に基づいて、前記高周波数スペクトラムエンベロープを調整し、調整された高周波数スペクトラムエンベロープを得るステップと、
前記調整された高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定するステップと、を含む、
ことを特徴とする請求項３～５のいずれか１項に記載の方法。
前記相対平坦度情報には、前記高周波数部分の少なくとも２つのサブ帯域領域に対応する相対平坦度情報が含まれ、１つのサブ帯域領域に対応する相対平坦度情報は、前記高周波数部分の１つのサブ帯域領域のスペクトラム平坦度と、前記低周波数部分の高周波数の周波数バンドのスペクトラム平坦度との間の相関性を特徴づけ、
前記相対平坦度情報と、前記低周波数スペクトラムのエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのゲイン調整値を決定するステップは、
各サブ帯域領域に対応する相対平坦度情報と、前記低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップ、を含み、
前記ゲイン調整値に基づいて、前記高周波数スペクトラムエンベロープを調整するステップは、
前記高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップ、を含む、
ことを特徴とする請求項６に記載の方法。
前記高周波数スペクトラムエンベロープが第１数の第１サブスペクトラムエンベロープを含む場合、各サブ帯域領域に対応する相対平坦度情報と、前記低周波数スペクトラムにおける各サブ帯域領域に対応するスペクトラムエネルギー情報とに基づいて、前記高周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープ部分のゲイン調整値を決定するステップは、
各第１サブスペクトラムエンベロープに対して、前記低周波数スペクトラムエンベロープにおける前記第１サブスペクトラムエンベロープに対応するスペクトラムエンベロープの、対応するスペクトラムエネルギー情報と、対応するサブ帯域領域が対応する相対平坦度情報と、対応するサブ帯域領域が対応するスペクトラムエネルギー情報とに基づいて、前記第１サブスペクトラムエンベロープのゲイン調整値を決定するステップ、を含み、
前記高周波数スペクトラムエンベロープのうちの対応する各スペクトラムエンベロープ部分のゲイン調整値に基づいて、対応するスペクトラムエンベロープ部分を調整するステップは、
前記高周波数スペクトラムエンベロープにおける各第１サブスペクトラムエンベロープのゲイン調整値に基づいて、対応する第１サブスペクトラムエンベロープを調整するステップ、を含む、
ことを特徴とする請求項７に記載の方法。
前記低周波数スペクトラムパラメータには、前記狭帯域信号の低周波数スペクトラムエンベロープがさらに含まれる、
ことを特徴とする請求項１～５のいずれか１項に記載の方法。
前記方法は、さらに、
前記低周波数振幅スペクトルを第２数のサブ振幅スペクトルに分割するステップと、
各サブ振幅スペクトルに対応するサブスペクトラムエンベロープをそれぞれ決定するステップであって、前記低周波数スペクトラムエンベロープには、決定された前記第２数のサブスペクトラムエンベロープが含まれるステップと、を含む、
ことを特徴とする請求項９に記載の方法。
各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを決定するステップは、
各サブ振幅スペクトルに含まれるスペクトル係数の対数値に基づいて、各サブ振幅スペクトルに対応するサブスペクトラムエンベロープを得るステップ、を含む、
ことを特徴とする請求項１０に記載の方法。
前記狭帯域信号が少なくとも２つの関連する信号を含む場合、前記方法は、さらに、
前記少なくとも２つの関連する信号を融合して、前記狭帯域信号を得るステップ、を含む、
ことを特徴とする請求項１～５のいずれか１項に記載の方法。
前記狭帯域信号が少なくとも２つの関連する信号を含む場合、前記方法は、さらに、
前記少なくとも２つの関連する信号のうちの各信号をそれぞれ前記狭帯域信号とするステップ、を含む、
ことを特徴とする請求項１～５のいずれか１項に記載の方法。
周波数帯域拡張装置であって、
処理対象となる狭帯域信号の低周波数スペクトラムパラメータを決定する低周波数スペクトラムパラメータ決定モジュールであって、前記低周波数スペクトラムパラメータには、低周波数振幅スペクトルが含まれる低周波数スペクトラムパラメータ決定モジュールと、
前記低周波数スペクトラムパラメータをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルの出力に基づいて、相関性パラメータを得る相関性パラメータ決定モジュールであって、前記相関性パラメータが、ターゲット広周波数スペクトラムの高周波数部分と低周波数部分との間の相関性を特徴づけ、前記相関性パラメータには、高周波数スペクトラムエンベロープが含まれる相関性パラメータ決定モジュールと、
前記相関性パラメータと前記低周波数振幅スペクトルとに基づいて、ターゲット高周波数振幅スペクトルを得る高周波数振幅スペクトル決定モジュールと、
前記狭帯域信号の低周波数位相スペクトルに基づいて、対応する高周波数位相スペクトルを生成する高周波数位相スペクトル生成モジュールと、
前記ターゲット高周波数振幅スペクトルと前記高周波数位相スペクトルとに基づいて、高周波数スペクトラムを得る高周波数スペクトラム決定モジュールと、
前記低周波数スペクトラムと前記高周波数スペクトラムとに基づいて、周波数帯域が拡張された広帯域信号を得る広帯域信号決定モジュールと、
を含むことを特徴とする周波数帯域拡張装置。
前記高周波数振幅スペクトル決定モジュールは、さらに、
前記低周波数振幅スペクトルに基づいて、前記狭帯域信号の低周波数スペクトラムエンベロープを得ることと、
前記低周波数振幅スペクトルに基づいて、初期高周波数振幅スペクトルを生成することと、
前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとに基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得ること、を実行するために使用される、
ことを特徴とする請求項１４に記載の装置。
前記高周波数振幅スペクトル決定モジュールは、さらに、
前記高周波数スペクトラムエンベロープと前記低周波数スペクトラムエンベロープとの間の差を決定することと、
前記差に基づいて、前記初期高周波数振幅スペクトルを調整し、前記ターゲット高周波数振幅スペクトルを得ることと、を実行するために使用される、
ことを特徴とする請求項１５に記載の装置。
前記高周波数振幅スペクトル決定モジュールは、さらに、
前記低周波数振幅スペクトルにおける高周波数バンド部分の振幅スペクトルをコピーすること、を実行するために使用される、
ことを特徴とする請求項１５に記載の装置。
前記高周波数振幅スペクトル決定モジュールは、さらに、
各第１サブスペクトラムエンベロープと、前記低周波数スペクトラムエンベロープのうちの対応するスペクトラムエンベロープとの間の差を決定することと、
各第１サブスペクトラムエンベロープに対応する差に基づいて、対応する初期サブ振幅スペクトルを調整し、前記第１数の調整されたサブ振幅スペクトルを得ることと、
前記第１数の調整されたサブ振幅スペクトルに基づいて、前記ターゲット高周波数振幅スペクトルを得る、を実行するために使用される、
ことを特徴とする請求項１６に記載の装置。
電子デバイスであって、
前記電子デバイスには、プロセッサとメモリとが含まれ、
前記メモリには、読み取り可能な命令が記憶されており、前記読み取り可能な命令が前記プロセッサによってロードされて実行されると、請求項１～１３のいずれか１項に記載の方法が実現される、
ことを特徴とする電子デバイス。
コンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体には、読み取り可能な命令が記憶されており、前記読み取り可能な命令は、プロセッサによってロードされて実行されるとき、請求項１～１３のいずれか１項に記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。