JP2024512095A

JP2024512095A - ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置

Info

Publication number: JP2024512095A
Application number: JP2023559800A
Authority: JP
Inventors: 澤華陳; 俊儀呉; 玉玉蔡; 巍雪; 帆楊; 国宏丁; 曉冬何
Original assignee: 京▲東▼科技控股股▲フン▼有限公司
Priority date: 2021-04-06
Filing date: 2022-03-25
Publication date: 2024-03-18
Also published as: WO2022213825A1; CN115188389A; US20240194212A1; CN115188389B

Abstract

本開示によって提供されるニューラルネットワークに基づくエンドツーエンド音声補強方法、装置、媒体、及びデバイスにおいて、方法は、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、原始の音声信号の時間領域平滑化特徴を得るステップと、原始の音声信号及び原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップとを含む。

Description

本出願は、２０２１年０４月０６日に出願された出願番号が２０２１１０３６７１８６．４であり、発明の名称が「ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置」である中国特許出願の優先権を主張するものであり、当該中国特許出願の開示全体をここに参照のために取り込む。

本開示は、音声信号処理の分野に関し、詳細には、ニューラルネットワークに基づくエンドツーエンド音声補強方法、音声補強装置、コンピュータ読み取り可能な記憶媒体、及び電子デバイスに関する。

近年、ディープラーニング技術の急速な発展に伴い、音声認識技術の認識効果も大幅に向上し、当該技術のノイズのないシーンでの音声の認識精度は、既に人手を代替できる音声認識基準に達している。

現在、音声認識技術は主にスマート顧客サービス、会議録音の転写、スマートハードウェア等のシーンに適用することができる。しかし、背景環境にノイズがある場合、例えば、スマート顧客サービスの通話時のユーザの周囲環境のノイズや議事録の音声における背景ノイズ等、このようなノイズの影響を受け、音声認識技術は話者の語意を正確に識別できない可能性があり、さらに音声認識の全体的な正確度に影響を与える。

従って、ノイズがある場合の音声認識精度をどのように向上させるかは音声認識技術の次の課題となっている。

なお、上記の背景技術の部分で開示された情報は、本開示の背景の理解を高めるためだけのものであり、したがって、当業者に知られている従来技術を構成しない情報を含み得ることに留意されたい。

本開示の第一態様によれば、ニューラルネットワークに基づくエンドツーエンド音声補強方法が提供され、当該方法は、
時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む。

本開示の例示的な実施例において、前記時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップは、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得るステップと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、を含む。

本開示の例示的な実施例において、前記コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップは、
複数の時間領域平滑化係数を初期化するステップと、
予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得るステップと、を含む。

本開示の例示的な実施例において、前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得るステップと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む。

本開示の例示的な実施例において、前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して時間領域コンボリューションカーネルの重み行列をトレーニングするステップは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築するステップと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、を含む。

本開示の例示的な実施例において、前記トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得るステップと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得るステップと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得るステップと、を含む。

本開示の第二態様によれば、ニューラルネットワークに基づくエンドツーエンド音声補強装置が提供され、当該装置は、
時間領域コンボリューションカーネルを利用して処理した原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域平滑化特徴抽出モジュールと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る組み合わせ特徴抽出モジュールと、を含む。

本開示の第三態様によれば、コンピュータ読み取り可能な記憶媒体が提供され、その上にコンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサによって実行されると、上述のいずれか一項に記載の方法を実施する。

本開示の第四態様によれば、電子デバイスが提供され、プロセッサと、前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、前記プロセッサは、前記実行可能命令を実行することで、上述のいずれか一項に記載の方法を実行するように構成される。

なお、前述の一般的な説明及び以下の詳細な説明は、例示的かつ説明的なものにすぎず、本開示を限定するものではないことを理解されたい。

添付の図面は、本明細書に組み込まれ、本明細書の一部を構成し、本開示と一致する実施例を示し、本明細書とともに、本開示の原理を説明するために使用される。明らかに、以下の説明における図面は、本開示のいくつかの実施例にすぎず、当業者であれば、創造的な労力を要することなく、これらの図面から他の図面を得ることができる。

本開示の実施例が適用され得るエンドツーエンド音声補強方法及び装置の例示的なシステムアーキテクチャの概略図を示す。本開示の実施例の電子デバイスを実現するのに適したコンピュータシステムの概略構造図を示す。本開示の一実施例によるエンドツーエンド音声補強方法のフローチャートを概略的に示す。本開示の一実施例による時間領域平滑化特徴抽出のフローチャートを概略的に示す。本開示の一実施例による補強音声信号取得のフローチャートを概略的に示す。本開示の一実施例による組み合わせ特徴の抽出のフローチャートを概略的に示す。本開示の一実施例によるエンドツーエンド音声補強方法のフローチャートを概略的に示す。本開示の一実施例によるエンドツーエンド音声補強装置のブロック図を概略的に示す。

以下、添付の図面を参照して例示的な実施形態についてより完全に説明する。しかしながら、例示的な実施形態は、様々な形態で実施することができ、本明細書に記載される例に限定されると解釈されるべきではなく、むしろ、これらの実施形態を提供することで、本開示はより全面的かつ完全になり、しかも例示的な実施形態の概念を当業者に全面的に伝えることができる。説明される特徴、構造、または特性は、１つ以上の実施形態において任意の好適な様式で組み合わせられてもよい。以下の説明では、本開示の実施形態の十分な理解を与えるために、多くの具体的な詳細が提供する。しかしながら、当業者であれば、本開示の技術的な態様が、特定の詳細のうちの１つまたは複数を省略して実施され得るか、または他の方法、構成要素、装置、ステップなどが採用され得ることを認識するであろう。その他の状況では、本開示の態様を不明瞭にすることを避けるために、よく知られている技術的な解決策は詳細に示されず、または説明されない。

さらに、図面は、本開示の概略図にすぎず、必ずしも縮尺通りに描かれていない。図における同一または類似の部分には同一符号を付してその説明は繰返さない。図面に示されるブロック図のいくつかは、機能的エンティティであり、必ずしも物理的または論理的に独立したエンティティに対応する必要はない。これらの機能エンティティは、ソフトウェアで、または１つもしくは複数のハードウェアモジュールもしくは集積回路で、実現してもよく、または異なるネットワーク及び／またはプロセッサ装置及び／またはマイクロコントローラデバイスで実現されてもよく。

図１は、本開示の実施例が適用され得るエンドツーエンド音声補強方法及び装置の例示的なアプリケーション環境のシステムアーキテクチャの概略図を示す。

図１に示すように、システムアーキテクチャ１００は、端末設備１０１、１０２、１０３のうちの１つまたは複数、ネットワーク１０４、及びサーバ１０５を含むことができる。ネットワーク１０４は、端末設備１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するための媒体である。ネットワーク１０４は、例えば、有線、無線通信リンク、または光ファイバなどの様々な接続タイプを含むことができる。端末設備１０１、１０２、１０３は、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、及びタブレットコンピュータ等を含むが、これらに限定されない、ディスプレイスクリーンを有する様々な電子デバイスであってもよい。なお、図１における端末設備、ネットワーク、及びサーバの数は例示的なものにすぎないことを理解されたい。実装のニーズに応じて、任意の数の端末設備、ネットワーク、及びサーバを有することができる。例えば、サーバ１０５は、複数のサーバからなるサーバクラスタであってもよい。

本開示の実施例によって提供されるエンドツーエンド音声補強方法は、一般にサーバ１０５によって実行され、それに応じて、エンドツーエンド音声補強装置は、一般にサーバ１０５内に設置される。しかしながら、当業者であれば、本開示の実施例によって提供されるエンドツーエンド音声補強方法が端末設備１０１、１０２、１０３によって実行されてもよく、それに応じて、エンドツーエンド音声補強装置が端末設備１０１、１０２、１０３内に設置されてもよく、本例示的な実施例では特に限定されないことを容易に理解するであろう。

図２は、本開示の実施例の電子デバイスを実現するのに適したコンピュータシステムの概略構造図を示す。

なお、図２に示される電子デバイスのコンピュータシステム２００は、例示にすぎず、本開示の実施例の機能及び使用範囲に何ら制限を与えるべきではない。

図２に示すように、コンピュータシステム２００は、中央処理装置（ＣＰＵ）２０１を含み、これは、読み出し専用メモリ（ＲＯＭ）２０２に記憶されたプログラム、または記憶部２０８からランダムアクセスメモリ（ＲＡＭ）２０３にロードされたプログラムに従って、様々な適切な動作及び処理を実行することができる。ＲＡＭ２０３において、システムの操作に必要な各種のプログラムとデータが記憶される。ＣＰＵ２０１、ＲＯＭ２０２及びＲＡＭ２０３は、バス２０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース２０５もバス２０４に接続されている。

Ｉ／Ｏインタフェース２０５には、キーボード、マウスなどを含む入力部２０６、陰極線管（ＣＲＴ）、液晶表示装置（ＬＣＤ）など及びスピーカなどを含む出力部２０７、ハードディスクなどを含む記憶部２０８、及びＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部２０９が接続されている。通信部２０９は、インターネットなどのネットワークを介して通信処理を実行する。Ｉ／Ｏインタフェース２０５には、必要に応じてドライブ２１０が接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア２１１は、必要に応じてドライブ２１０に取り付けられ、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部２０８にインストールされる。

特に、本開示の実施例によれば、フローチャートを参照して以下に説明されるプロセスは、コンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、コンピュータ読み取り可能な媒体上に担持されたコンピュータプログラムを含み、当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部２０９を介してネットワークからダウンロードされてインストールされてもよいし、及び／またはリムーバブルメディア２１１からインストールされてもよい。当該コンピュータプログラムが中央処理装置（ＣＰＵ）２０１によって実行されると、本出願の方法及び装置において限定されている各種の機能が実行される。

別の態様として、本出願は、さらにコンピュータ読み取り可能な媒体を提供し、当該コンピュータ読み取り可能な媒体は、上述の実施例に記載の電子デバイスに含まれてもよいし、単独で存在して当該電子デバイスに組み込まれなくてもよい。上述のコンピュータ読み取り可能な媒体は、１つまたは複数のプログラムを担持し、上述の１つまたは複数のプログラムが１つの当該電子デバイスによって実行されると、当該電子デバイスに下記の実施例に記載の方法を実現させる。例えば、前記電子デバイスは図３から図７に示す各ステップ等を実現することができる。

なお、本開示で示されるコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体、あるいは上述両方の任意の組み合せであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置、またはデバイス、あるいはこれらの任意の組み合せとすることができるが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例は、１つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、またはこれらの任意の適切な組合せを含むことができるが、これらに限定されない。本開示において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置、またはデバイスによって、あるいはこれらに関連して使用することができるプログラムを含む、または記憶する、任意の有形媒体であってもよい。さらに、本開示において、コンピュータ読み取り可能な信号媒体は、ベースバンドにおいてまたはキャリアの一部として伝搬するデータ信号を含むことができ、その中にコンピュータ読み取り可能なプログラムコードが担持される。このような伝搬されるデータ信号は、電磁信号、光信号、または上述の任意の適切な組合せを含むが、これらに限定はされない、様々な形態をとることができる。コンピュータ読み取り可能な信号媒体はまた、命令実行システム、装置、またはデバイスによって、あるいはこれらに関連して使用するためのプログラムを、送信、伝搬、または伝送することができる、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよい。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ファイバ、ＲＦなど、または上述の任意の適切な組み合せを含むが、これらに限定されない任意の適切な媒体を使用して伝送することができる。

以下では、本開示の実施例の技術的解決手段について、詳細に説明する。
時間領域において、実際に観測された音声信号は、クリーンな音声信号とノイズ信号との和として表すことができる。即ち、次のようになる。

ｙ（ｎ）＝ｘ（ｎ）＋ｗ（ｎ）
ここで、ｙ（ｎ）は時間領域ノイズ付きの音声信号を表し、ｘ（ｎ）は時間領域クリーンな音声信号を表し、ｗ（ｎ）は時間領域ノイズ信号を表す。

音声信号に対して補強処理を行う場合、ノイズ付きの音声信号を短時間フーリエ変換（Ｓｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＳＴＦＴ）によって一次元時間領域信号から複素領域二次元変量Ｙ（ｋ，ｌ）に変換し、且つ当該変量の振幅情報を取得することができ、対応して以下の通りである。

｜Ｙ（ｋ，ｌ）｜＝｜Ｘ（ｋ，ｌ）｜＋｜Ｗ（ｋ，ｌ）｜
ここで、｜Ｙ（ｋ，ｌ）｜は複素領域音声信号の振幅情報を表し、｜Ｘ（ｋ，ｌ）｜は複素領域クリーンな音声信号の振幅情報を表し、｜Ｗ（ｋ，ｌ）｜は複素領域ノイズ信号の振幅情報を表し、ｋは周波数軸上のｋ番目の周波数ビンを表し、ｌは時間軸上のｌ番目の時間フレームを表す。

具体的には、ゲイン関数Ｇ（ｋ，ｌ）を解くことによって、音声信号のノイズ低減を実現することができる。ここで、ゲイン関数は、時間変化且つ周波数依存の関数とすることができ、ゲイン関数及びノイズ付きの音声信号Ｙ（ｋ，ｌ）によって、予測されるクリーンな音声信号ｘ＾（ｎ）のＳＴＦＴパラメータＸ＾（ｋ，ｌ）を得ることができる。即ち、次のようになる。

Ｘ＾（ｋ，ｌ）＝Ｇ（ｋ，ｌ）×｜Ｙ（ｋ，ｌ）｜
ディープニューラルネットワークをトレーニングしてｆθ（Ｙ（ｋ，ｌ））を得ることで、クリーンな音声信号Ｘ＾（ｋ，ｌ）を推定することもできる。即ち、次のようになる。

Ｘ＾（ｋ，ｌ）＝ｆθ（｜Ｙ（ｋ，ｌ）｜）
上述の音声補強方法において、ノイズ付きの音声信号Ｙ（ｋ，ｌ）における振幅情報に基づいてクリーンな音声信号ｘ＾（ｎ）を予測する際、Ｙ（ｋ，ｌ）の位相情報を補強していない。位相情報を補強しないと、Ｙ（ｋ，ｌ）の信号対ノイズ比が高い場合、Ｙ（ｋ，ｌ）の位相情報と予測されたＸ＾（ｋ，ｌ）から復元されたｘ＾（ｎ）は、実際のクリーンな音声信号ｘ（ｎ）とあまり差がない。しかしながら、Ｙ（ｋ，ｌ）の信号対ノイズ比が低い場合、例えば、信号対ノイズ比が０ｄｂ以下である場合、振幅情報のみを補強し、位相情報を無視すると、最終的に復元されたｘ＾（ｎ）と実際のクリーンな音声ｘ（ｎ）との差が大きくなり、全体的な音声補強効果が悪くなる。

上述の１つまたは複数の課題に基づき、本例示的な実施形態はニューラルネットワークに基づくエンドツーエンド音声補強方法を提供し、当該方法は上述のサーバ１０５に適用されてもよく、上述の端末装置１０１、１０２、１０３のうちの１つまたは複数に適用されてもよく、本例示的な実施例においてこれを特に限定しない。図３に示す通り、当該エンドツーエンド音声補強方法は以下のステップＳ３１０及びステップＳ３２０を含むことができる。

ステップＳ３１０：時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得る。

ステップＳ３２０：前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。

本開示の例示的な実施形態が提供する音声補強方法において、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行うことにより、前記原始の音声信号の時間領域平滑化特徴を得る。前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。一方では、原始の音声信号における振幅情報及び位相情報の両方を補強することにより、音声補強の全体的な効果を向上させることができる。他方では、コンボリューションニューラルネットワークによって原始の音声信号に対して時間領域平滑化特徴を抽出し、且つディープニューラルネットワークを結合して時間領域ノイズ低減パラメータの自己学習を実現することができ、さらに音声信号の品質を向上させる。

以下、本例示的な実施形態の上述ステップについてより詳細に説明する。
ステップＳ３１０において、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得る。

エンドツーエンド音声補強は、原始の音声信号を直接処理し、中間変換による音響学特徴を抽出することを回避することができる。音声通信過程における環境ノイズの干渉は避けられず、実際に観測される原始の音声信号は、一般に、時間領域におけるノイズ付きの音声信号である。原始の音声信号に対して特徴抽出を行う前に、まず当該原始の音声信号を取得することができる。

原始の音声信号は、連続的に変化するアナログ信号であり、アナログの音声信号は、サンプリング、量子化、及び符号化によって離散的なデジタル信号に変換することができる。例示的には、アナログ信号のアナログ量の値は、一定の周波数で一定時間ごとに測定されてもよく、サンプリングされた点は量子化されてもよく、量子化された値は一連のバイナリで表されてもよい。したがって、取得された原始の音声信号は、一次元ベクトルで表すことができる。

例示的な実施形態において、原始の音声信号は、時間変化の特徴抽出のためにディープニューラルネットワークに入力されてもよい。例えば、当該原始の音声信号の局所特徴は、音声信号の隣接フレーム間の相関に基づいて、時間次元で平滑化処理を行うことによって算出することができ、ここで、原始の音声信号における位相情報及び振幅情報の両方に対して音声補強を行うことができる。

時間領域における原始の音声認識信号に対してノイズ低減処理を行うことができ、原始の音声信号を補強することによって音声認識の正確度を向上させる。例えば、ディープニューラルネットワークモデルを利用して音声補強を行うことができ、平滑化アルゴリズムによって時間領域音声信号に対してノイズ低減処理を行う時、平滑化アルゴリズムをディープニューラルネットワークのコンボリューションモジュールに組み込むことができ、コンボリューションモジュールにおいて多層フィルタを用いて異なる特徴の抽出を実現することができ、次に異なる特徴から新たな異なる特徴に組み合わせる。

例示的には、時間領域平滑化アルゴリズムを一次元コンボリューションモジュールとしてディープニューラルネットワークに組み込むことができ、当該一次元コンボリューションモジュールはＴＲＡＬ（Ｔｉｍｅ－ＤｏｍａｉｎＲｅｃｕｒｓｉｖｅＡｖｅｒａｇｉｎｇＬａｙｅｒ、時間領域再帰平滑化層）モジュールであってもよく、時間軸次元のノイズ平滑化に対応する。原始のの音声信号をＴＲＡＬモジュールの入力とし、ＴＲＡＬモジュールによって原始のの音声信号に対してフィルタリング処理を行い、つまり時間軸次元のノイズ平滑化を行う。例えば、重み付け移動平均法を用いて平滑化対象の時間軸における各時点の振幅スペクトル情報を予測することができ、ここで、重み付け移動平均法は同一の移動セグメント内の異なる時間のデータが予測値に与える影響の程度（異なる重みに対応する）に基づいて将来値を予測することができる。

図４を参照すると、ステップＳ４１０～ステップＳ４３０に基づいて、時間領域音声信号に対してノイズ平滑化を行うことができる。

ステップＳ４１０：コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定する。

例示的な実施形態において、ＴＲＡＬモジュールは、複数の時間領域平滑化係数を用いて原始の入力情報を処理することができ、具体的には、ＴＲＡＬモジュールによる時間領域音声信号の平滑化は、一つのスライド窓によって実現することができ、対応する平滑化アルゴリズムは、以下の通りである。

ここで、ｎ：原始の音声信号のサンプリングポイントを示す。
Ｄ：スライド窓の幅を示し、その幅は実際の状況に応じて設定することができ、本例示において、好ましくはスライド窓の幅を３２フレームに設定することができる。

α：時間領域平滑化係数であって、時間領域音声信号に対して平滑化処理を行う時、スライド窓の幅内の各サンプリングポイントの音声信号ｙ（ｎ）に対する利用程度を示し、［α_０・・・ α_Ｎ］は異なる平滑化係数であり、各平滑化係数の値の範囲は［０，１］であり、αの値に対応して、ＴＲＡＬモジュールにおけるコンボリューションカーネルの数はＮであってもよい。

ｙ（ｎ）：スライド窓の幅内の各サンプリングポイントの音声信号を示す。本例示において、各サンプリングポイントの音声信号を利用することができ、例示的には、３２フレーム目のサンプリングポイントの音声信号はスライド窓の幅内の前の３１フレームのサンプリングポイントの音声信号で構成されてもよい。

Ｒ（ｎ）：スライド窓の幅内の各履歴サンプリングポイントの音声信号を重ね合わせて得られた新たな音声信号であり、時間領域の平滑化を経て得られた音声信号である。

なお、ＴＲＡＬモジュールにおいて、コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定することができ、即ちスライド窓の幅Ｄ及び時間領域平滑化係数α＝［α_０・・・ α_Ｎ］に基づいて第一時間領域平滑化パラメータ行列［α^０・・・ α^Ｄ－１］及び第二時間領域平滑化パラメータ行列［１－α］を決定することができる。

ステップＳ４２０：前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得る。

原始の音声信号に対して時間領域特徴抽出を行う前に、まず時間領域コンボリューションカーネルの重み行列を決定することができる。例えば、複数の時間領域平滑化係数αを初期化することができ、例えばα＝［α_０・・・ α_Ｎ］にであり、且つ予め設定されたコンボリューションスライド窓及び複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得る。具体的には、時間軸を平滑化する時、ＴＲＡＬモジュールにおいて対応してＮ個のコンボリューションカーネルを有することができ、各コンボリューションカーネルは異なる平滑化係数に対応し、ここで各コンボリューションカーネルに対応する第一時間領域平滑化パラメータ行列は［α^０・・・ α^Ｄ－１］であってもよく、第二時間領域平滑化パラメータ行列［１－α］を結合し、例えば第一時間領域平滑化パラメータ行列と第二時間領域平滑化パラメータ行列を積演算して時間領域コンボリューションカーネルの最終重み行列Ｎ（α）を得ることができる。

ステップＳ４３０：前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得る。

原始の音声信号を原始の入力とすることができ、当該原始の音声信号は１＊Ｎの一次元ベクトルであってもよく、当該一次元ベクトルと時間領域コンボリューションカーネルの重み行列Ｎ（α）に対してコンボリューション演算を行い、原始の音声信号の時間領域平滑化特徴を得ることができる。本例示において、コンボリューションニューラルネットワークにおけるコンボリューションカーネルの思想を利用し、ノイズ低減アルゴリズムをコンボリューションカーネルに作成し、且つ複数のコンボリューションカーネルの組み合わせにより、ニューラルネットワークにおいて時間変化音声信号のノイズ低減を実現する。且つ、時間領域におけるノイズ付きの音声信号を平滑化することにより、原始の入力情報の信号対ノイズ比を向上させることができ、ここで、入力情報はノイズ付きの音声信号の振幅情報及び位相情報を含むことができる。

ステップＳ３２０において、前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。

図５を参考すると、ステップＳ５１０～Ｓ５３０に基づいて、補強音声信号を得ることができる。

ステップＳ５１０：前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴を結合し、補強対象の音声信号を得る。

例示的な実施形態において、原始の入力の音声特徴をよりよく保存するために、原始の入力の特徴とＴＲＡＬモジュールの出力をつなぎ合わせることができ、これにより原始の音声信号の特徴を保存することができるとともに、深いレベルの特徴を学習することができる。

これに対応して、ディープニューラルネットワークの入力は、原始の入力ｙ（ｎ）から組み合わせ入力に変更することができ、当該組み合わせ入力は下記の通りである。

ここで、Ｉ_ｉ（ｎ）は組み合わせて得られた補強対象の音声信号であり、ｙ（ｎ）は原始の入力のノイズ付きの音声信号であり、Ｒ（ｎ）はＴＲＡＬモジュールの出力であり、即ち時間軸に沿って平滑化された音声信号である。

本例示において、ＴＲＡＬモジュール内の１つのフィルタの平滑化係数は０であり、即ち、原始の情報に対して平滑化処理を行わず、原始の入力を保持する。他のフィルタは、異なる平滑化係数を用いて原始の情報に対して異なる平滑化処理を実行することができ、これにより、原始の情報の入力を保持するだけでなく、ディープニューラルネットワークの入力情報も増加する。また、ＴＲＡＬモジュールは、専門家の知識によって開発されたノイズ低減アルゴリズムの解釈可能性と、ニューラルネットワークに組み込まれた後に形成される強大なフィッティング能力とを兼ね備えており、解釈可能性を有するニューラルネットワークモジュールであり、音声ノイズ低減の分野における高度な信号処理アルゴリズムとディープニューラルネットワークとを効果的に結合することができる。

ステップＳ５２０：前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングする。

補強対象の音声信号をディープニューラルネットワークに入力し、平均二乗誤差損失関数などの時間領域損失関数が構築することができる。ディープニューラルネットワークに基づいて、時間領域における音声補強のタスクは、次のように表すことができる。

ｘ＾（ｎ）＝ｆθ（Ｉ_ｉ（ｎ））
例示的な実施形態において、エンコーダ－デコーダ構造を有するＵ－Ｎｅｔコンボリューションニューラルネットワークモデルを構築してエンドツーエンドの音声補強モデルとし、且つＴＲＡＬモジュールを当該ニューラルネットワークモデルに組み込むことができる。Ｕ－Ｎｅｔコンボリューションニューラルネットワークモデルは完全コンボリューション部分（Ｅｎｃｏｄｅｒ層）及び逆コンボリューション部分（Ｄｅｃｏｄｅｒ層）を含むことができる。ここで、完全コンボリューション部分は特徴を抽出することに用いることができ、低解像度の特徴図を得ることができ、時間領域におけるフィルタに相当し、入力情報を符号化することができ、また上位層Ｅｎｃｏｄｅｒ層の出力情報を再び符号化することもでき、上層特徴の抽出を実現する。逆コンボリューション部分は小さいサイズの特徴図をアップサンプリングすることによって原始のサイズと同じである特徴図を得ることができ、即ちＥｎｃｏｄｅｒ層が符号化した後の情報を復号することができる。また、Ｅｎｃｏｄｅｒ層とＤｅｃｏｄｅｒ層との間にスキップ接続を行うことができ、復号効果を補強する。

具体的には、以下に基づいて、

補強音声信号を算出することができる。ここで、Ｉ_ｉ（ｎ）はＵ－Ｎｅｔコンボリューションニューラルネットワークにおける最終入力情報であり、即ち組み合わせて得られた補強対象の音声信号である。ｗ^ＬはＵ－Ｎｅｔコンボリューションニューラルネットワークにおける第Ｌ層の重み行列を表すことができる。ｇ^Ｌは第Ｌ層の非線形活性化関数を表すことができる。以上から分かるように、Ｅｎｃｏｄｅｒ層及びＤｅｃｏｄｅｒ層の重み行列ｗ^Ｌはパラメータ自己学習の方式によって実現することができ、即ちフィルタは勾配返送の方式によって、トレーニング過程において学習によって自動生成され、まず低レベル特徴を生成し、次に低レベル特徴から高レベル特徴を組み合わせることができる。

時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して時間領域コンボリューションカーネルの重み行列Ｎ（α）、ニューラルネットワークの重み行列ｗ^Ｌをトレーニングする。例示的には、ニューラルネットワークモデルのトレーニング過程はＢＰ（ｅｒｒｏｒＢａｃｋＰｒｏｐａｇａｔｉｏｎ、誤差方向伝搬）アルゴリズムを用いることができ、ランダムの初期化パラメータにより、トレーニングが進むにつれて、パラメータを絶えず更新する。例えば、原始の入力に基づいて前から後へ順に算出し、出力層の出力を得ることができる。現在の出力と目標出力との差を算出することができ、即ち時間領域損失関数を算出する。勾配降下アルゴリズム、Ａｄａｍ最適化アルゴリズム等を利用して時間領域損失関数を最小化することができ、後から前へ順にパラメータを更新し、即ち時間領域コンボリューションカーネルの重み行列Ｎ（α）、ニューラルネットワークの重み行列ｗ^Ｌを順に更新する。

ここで、誤差返送の過程はｊ回目の重み値であってもよく、つまり、ｊ－１回目の重みから学習率及び誤差勾配を引いたものであり、即ち、

ステップＳ５３０：トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。

原始の音声信号をＴＲＡＬモジュールに入力することができ、且つ原始の音声信号及びＴＲＡＬモジュールの出力をＵ－ＮＥＴコンボリューションニューラルネットワークモデルに結合して入力し、各重み係数をトレーニングした後、原始の入力、ＴＲＡＬモジュールの出力に対して組み合わせ特徴の抽出を行うことができる。

図６を参照すると、ステップＳ６１０～ステップＳ６３０に基づいて、組み合わせ特徴の抽出を実現することができる。

ステップＳ６１０：トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得る。

ステップＳ６２０：トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得る。

ステップＳ６３０：前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得る。

本例示において、時間領域信号平滑化アルゴリズムを一次元ＴＲＡＬモジュールに作成し、且つディープニューラルネットワークモデルに成功して組み込むことができ、コンボリューションニューラルネットワーク、再帰ニューラルネットワーク、完全接続ニューラルネットワークといずれも理想的に結合することができ、勾配伝導を実現し、これによりＴＲＡＬモジュールにおけるコンボリューションカーネルパラメータ、即ちノイズ低減アルゴリズムパラメータはデータによって駆動することができ、専門家の知識を先験的な情報とする必要がなく、統計的な意味での最適な重み係数を得ることができる。また、ノイズ付きの時間領域音声信号に対して音声補強を直接行うことによってクリーンな音声信号を予測する場合、当該時間領域音声信号における振幅情報及び位相情報を利用することができ、当該音声補強方法はより実際的であり、音声補強効果がよりよい。

図７は、ＴＲＡＬモジュールとディープニューラルネットワークとを組み合わせた音声補強のフローチャートを概略的に示しており、この過程は、ステップＳ７０１～Ｓ７０３を含むことができる。

ステップＳ７０１：音声信号ｙ（ｎ）を入力し、当該信号はノイズ付きの音声信号であり、クリーンな音声信号及びノイズ信号を含む。

ステップＳ７０２：当該ノイズ付きの音声信号をＴＲＡＬモジュールに入力し、当該ノイズ付きの音声信号の位相情報及び振幅情報に対して時間領域平滑化特徴を抽出し、時間軸に沿ってノイズを低減した後の音声信号Ｒ（ｎ）を得る。

ステップＳ７０３：ディープニューラルネットワークに入力する：当該ノイズ付きの音声信号ｙ（ｎ）及び時間軸に沿ってノイズを低減した後の音声信号Ｒ（ｎ）をディープニューラルネットワークに結合して入力し、これにより組み合わせ特徴の抽出を行い、補強後の音声信号を得る。

本例示において、エンドツーエンド（即ち、シーケンスツーシーケンス）の音声補強のタスクに時間領域信号平滑化アルゴリズムを追加し、当該アルゴリズムを一次元コンボリューションモジュール、即ちＴＲＡＬモジュールにし、専門家知識を含むフィルタを追加することに相当し、原始の入力情報の信号対ノイズ比を向上させ、ディープニューラルネットワークの入力情報を増加させることができ、さらに、ＰＥＳＱ（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ、音声品質知覚評価指標）、ＳＴＯＩ（Ｓｈｏｒｔ－ＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ、短時間客観的理解度指標）、ｆｗＳＮＲ（ｆｒｅｎｑｕｅｎｃｙ－ｗｅｉｇｈｔｅｄＳＮＲ、周波数重み付け信号対ノイズ比）などの音声補強評価指標を向上させることができる。また、ＴＲＡＬモジュールとディープニューラルネットワークは勾配返送の方式によって接続することができ、ノイズ低減パラメータの自己学習を実現することができ、これにより統計的な意味での最適なパラメータを得ることができ、当該過程には、オペレータを手動で設計したり、専門家の知識を先験とする必要がない。即ちこのＴＲＡＬモジュールは信号処理分野を有する専門家の知識を組み込むだけでなく、ディープニューラルネットワークの勾配返送アルゴリズムを結合してパラメータ最適化を行う。両者の優位性を融合し、最終的な音声補強効果を向上させる。

なお、本開示における方法の各ステップは、特定の順序で図面に示されているが、これは、所望の結果を達成するために、これらのステップが特定の順序で実行されなければならないこと、またはすべての示されたステップが実行されなければならないことを要求または暗示するものではないことに留意されたい。追加的または代替的に、いくつかのステップを省略すること、いくつかのステップを１つのステップに組み合わせて実行すること、及び／または１つのステップをいくつかのステップに分割して実行することなどが可能である。

さらに、本例示的な実施形態において、ニューラルネットワークに基づくエンドツーエンド音声補強装置がさらに提供され、当該装置は、サーバまたは端末設備に適用されることができる。図８を参照すると、エンドツーエンド音声補強装置８００は、時間領域平滑化特徴抽出モジュール８１０及び組み合わせ特徴抽出モジュール８２０を含むことができ、ここで、
時間領域平滑化特徴抽出モジュール８１０は、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる。

組み合わせ特徴抽出モジュール８２０は、前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。

選択可能な実施形態において、時間領域平滑化特徴抽出モジュール８１０は、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するパラメータ行列決定ユニットと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得ることに用いられる重み行列決定ユニットと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域演算ユニットと、を含む。

選択可能な実施形態において、パラメータ行列決定ユニットは、
複数の時間領域平滑化係数を初期化することに用いられるデータ初期化サブユニットと、
前記予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得ることに用いられる行列決定サブユニットと、を含む。

選択可能な実施形態において、組み合わせ特徴抽出モジュール８２０は、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得ることに用いられる入力信号取得ユニットと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられる重み行列トレーニングユニットと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得ることに用いられる補強音声信号取得ユニットと、を含む。

選択可能な実施形態において、重み行列トレーニングユニットは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築することに用いられるデータ入力サブユニットと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられるデータトレーニングサブユニットと、を含む。

選択可能な実施形態において、補強音声信号取得ユニットは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得ることに用いられる第一特徴図取得サブユニットと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得ることに用いられる第二特徴図取得サブユニットと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得ることに用いられる特徴組み合わせサブユニットと、を含む。

上述のエンドツーエンド音声補強装置における各モジュールの具体的な詳細は、対応する音声補強方法において既に詳細に説明されているので、ここでは繰り返し説明しない。

なお、上記の詳細な説明では、動作実行のための装置のいくつかのモジュールまたはユニットについて言及したが、そのような分割は必須ではないことに留意されたい。実際、本開示の実施例によれば、上述の２つ以上のモジュールまたはユニットの特徴及び機能は、１つのモジュールまたはユニットにおいて具現化されることができる。逆に、上述の１つのモジュールまたはユニットの特徴及び機能は、複数のモジュールまたはユニットにおいて具現化されるようにさらに分割されることができる。

なお、本開示は、上記で説明され且つ添付の図面に示された精確な構成に限定されず、本開示の範囲から逸脱することなく様々な修正及び変更が行われ得ることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ限定される。

Claims

ニューラルネットワークに基づくエンドツーエンド音声補強方法であって、
時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む
ニューラルネットワークに基づくエンドツーエンド音声補強方法。
前記時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップは、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得るステップと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、を含む
請求項１に記載のエンドツーエンド音声補強方法。
前記コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップは、
複数の時間領域平滑化係数を初期化するステップと、
予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得るステップと、を含む
請求項２に記載のエンドツーエンド音声補強方法。
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得るステップと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む
請求項１に記載のエンドツーエンド音声補強方法。
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築するステップと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、を含む
請求項４に記載のエンドツーエンド音声補強方法。
前記トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得るステップと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得るステップと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得るステップと、を含む
請求項４に記載のエンドツーエンド音声補強方法。
ニューラルネットワークに基づくエンドツーエンド音声補強装置であって、
時間領域コンボリューションカーネルを利用して処理した原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域平滑化特徴抽出モジュールと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る組み合わせ特徴抽出モジュールと、を含む
ニューラルネットワークに基づくエンドツーエンド音声補強装置。
前記時間領域平滑化特徴抽出モジュールは、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定することに用いられるパラメータ行列決定ユニットと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得ることに用いられる重み行列決定ユニットと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域演算ユニットと、を含む
請求項７に記載のエンドツーエンド音声補強装置。
前記パラメータ行列決定ユニットは、
複数の時間領域平滑化係数を初期化することに用いられるデータ初期化サブユニットと、
予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得ることに用いられる行列決定サブユニットと、を含む
請求項８に記載のエンドツーエンド音声補強装置。
前記組み合わせ特徴抽出モジュールは、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得ることに用いられる入力信号取得ユニットと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられる重み行列トレーニングユニットと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得ることに用いられる補強音声信号取得ユニットと、を含む
請求項７に記載のエンドツーエンド音声補強装置。
前記重み行列トレーニングユニットは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築することに用いられるデータ入力サブユニットと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられるデータトレーニングサブユニットと、を含む
請求項１０に記載のエンドツーエンド音声補強装置。
前記補強音声信号取得ユニットは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得ることに用いられる第一特徴図取得サブユニットと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得ることに用いられる第二特徴図取得サブユニットと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得ることに用いられる特徴組み合わせサブユニットと、を含む
請求項１０に記載のエンドツーエンド音声補強装置。
コンピュータ読み取り可能な記憶媒体であって、その上にコンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサによって実行されると、請求項１～６のいずれか一項に記載の方法を実現する
コンピュータ読み取り可能な記憶媒体。
電子デバイスであって、
プロセッサと、
前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能命令を実行することで、請求項１～６のいずれか一項に記載の方法を実行するように構成される
電子デバイス。