JP2024512095A - ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置 - Google Patents
ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置 Download PDFInfo
- Publication number
- JP2024512095A JP2024512095A JP2023559800A JP2023559800A JP2024512095A JP 2024512095 A JP2024512095 A JP 2024512095A JP 2023559800 A JP2023559800 A JP 2023559800A JP 2023559800 A JP2023559800 A JP 2023559800A JP 2024512095 A JP2024512095 A JP 2024512095A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- time domain
- time
- domain
- original audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 48
- 230000002787 reinforcement Effects 0.000 title claims description 53
- 230000005236 sound signal Effects 0.000 claims abstract description 201
- 230000003190 augmentative effect Effects 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 230000003416 augmentation Effects 0.000 claims abstract description 16
- 238000009499 grossing Methods 0.000 claims description 97
- 239000011159 matrix material Substances 0.000 claims description 82
- 238000012549 training Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Complex Calculations (AREA)
Abstract
本開示によって提供されるニューラルネットワークに基づくエンドツーエンド音声補強方法、装置、媒体、及びデバイスにおいて、方法は、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、原始の音声信号の時間領域平滑化特徴を得るステップと、原始の音声信号及び原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップとを含む。
Description
本出願は、2021年04月06日に出願された出願番号が202110367186.4であり、発明の名称が「ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置」である中国特許出願の優先権を主張するものであり、当該中国特許出願の開示全体をここに参照のために取り込む。
本開示は、音声信号処理の分野に関し、詳細には、ニューラルネットワークに基づくエンドツーエンド音声補強方法、音声補強装置、コンピュータ読み取り可能な記憶媒体、及び電子デバイスに関する。
近年、ディープラーニング技術の急速な発展に伴い、音声認識技術の認識効果も大幅に向上し、当該技術のノイズのないシーンでの音声の認識精度は、既に人手を代替できる音声認識基準に達している。
現在、音声認識技術は主にスマート顧客サービス、会議録音の転写、スマートハードウェア等のシーンに適用することができる。しかし、背景環境にノイズがある場合、例えば、スマート顧客サービスの通話時のユーザの周囲環境のノイズや議事録の音声における背景ノイズ等、このようなノイズの影響を受け、音声認識技術は話者の語意を正確に識別できない可能性があり、さらに音声認識の全体的な正確度に影響を与える。
従って、ノイズがある場合の音声認識精度をどのように向上させるかは音声認識技術の次の課題となっている。
なお、上記の背景技術の部分で開示された情報は、本開示の背景の理解を高めるためだけのものであり、したがって、当業者に知られている従来技術を構成しない情報を含み得ることに留意されたい。
本開示の第一態様によれば、ニューラルネットワークに基づくエンドツーエンド音声補強方法が提供され、当該方法は、
時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む。
時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む。
本開示の例示的な実施例において、前記時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップは、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得るステップと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、を含む。
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得るステップと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、を含む。
本開示の例示的な実施例において、前記コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップは、
複数の時間領域平滑化係数を初期化するステップと、
予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得るステップと、を含む。
複数の時間領域平滑化係数を初期化するステップと、
予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得るステップと、を含む。
本開示の例示的な実施例において、前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得るステップと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む。
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得るステップと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む。
本開示の例示的な実施例において、前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して時間領域コンボリューションカーネルの重み行列をトレーニングするステップは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築するステップと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、を含む。
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築するステップと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、を含む。
本開示の例示的な実施例において、前記トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得るステップと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得るステップと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得るステップと、を含む。
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得るステップと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得るステップと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得るステップと、を含む。
本開示の第二態様によれば、ニューラルネットワークに基づくエンドツーエンド音声補強装置が提供され、当該装置は、
時間領域コンボリューションカーネルを利用して処理した原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域平滑化特徴抽出モジュールと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る組み合わせ特徴抽出モジュールと、を含む。
時間領域コンボリューションカーネルを利用して処理した原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域平滑化特徴抽出モジュールと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る組み合わせ特徴抽出モジュールと、を含む。
本開示の第三態様によれば、コンピュータ読み取り可能な記憶媒体が提供され、その上にコンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサによって実行されると、上述のいずれか一項に記載の方法を実施する。
本開示の第四態様によれば、電子デバイスが提供され、プロセッサと、前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、前記プロセッサは、前記実行可能命令を実行することで、上述のいずれか一項に記載の方法を実行するように構成される。
なお、前述の一般的な説明及び以下の詳細な説明は、例示的かつ説明的なものにすぎず、本開示を限定するものではないことを理解されたい。
添付の図面は、本明細書に組み込まれ、本明細書の一部を構成し、本開示と一致する実施例を示し、本明細書とともに、本開示の原理を説明するために使用される。明らかに、以下の説明における図面は、本開示のいくつかの実施例にすぎず、当業者であれば、創造的な労力を要することなく、これらの図面から他の図面を得ることができる。
以下、添付の図面を参照して例示的な実施形態についてより完全に説明する。しかしながら、例示的な実施形態は、様々な形態で実施することができ、本明細書に記載される例に限定されると解釈されるべきではなく、むしろ、これらの実施形態を提供することで、本開示はより全面的かつ完全になり、しかも例示的な実施形態の概念を当業者に全面的に伝えることができる。説明される特徴、構造、または特性は、1つ以上の実施形態において任意の好適な様式で組み合わせられてもよい。以下の説明では、本開示の実施形態の十分な理解を与えるために、多くの具体的な詳細が提供する。しかしながら、当業者であれば、本開示の技術的な態様が、特定の詳細のうちの1つまたは複数を省略して実施され得るか、または他の方法、構成要素、装置、ステップなどが採用され得ることを認識するであろう。その他の状況では、本開示の態様を不明瞭にすることを避けるために、よく知られている技術的な解決策は詳細に示されず、または説明されない。
さらに、図面は、本開示の概略図にすぎず、必ずしも縮尺通りに描かれていない。図における同一または類似の部分には同一符号を付してその説明は繰返さない。図面に示されるブロック図のいくつかは、機能的エンティティであり、必ずしも物理的または論理的に独立したエンティティに対応する必要はない。これらの機能エンティティは、ソフトウェアで、または1つもしくは複数のハードウェアモジュールもしくは集積回路で、実現してもよく、または異なるネットワーク及び/またはプロセッサ装置及び/またはマイクロコントローラデバイスで実現されてもよく。
図1は、本開示の実施例が適用され得るエンドツーエンド音声補強方法及び装置の例示的なアプリケーション環境のシステムアーキテクチャの概略図を示す。
図1に示すように、システムアーキテクチャ100は、端末設備101、102、103のうちの1つまたは複数、ネットワーク104、及びサーバ105を含むことができる。ネットワーク104は、端末設備101、102、103とサーバ105との間に通信リンクを提供するための媒体である。ネットワーク104は、例えば、有線、無線通信リンク、または光ファイバなどの様々な接続タイプを含むことができる。端末設備101、102、103は、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、及びタブレットコンピュータ等を含むが、これらに限定されない、ディスプレイスクリーンを有する様々な電子デバイスであってもよい。なお、図1における端末設備、ネットワーク、及びサーバの数は例示的なものにすぎないことを理解されたい。実装のニーズに応じて、任意の数の端末設備、ネットワーク、及びサーバを有することができる。例えば、サーバ105は、複数のサーバからなるサーバクラスタであってもよい。
本開示の実施例によって提供されるエンドツーエンド音声補強方法は、一般にサーバ105によって実行され、それに応じて、エンドツーエンド音声補強装置は、一般にサーバ105内に設置される。しかしながら、当業者であれば、本開示の実施例によって提供されるエンドツーエンド音声補強方法が端末設備101、102、103によって実行されてもよく、それに応じて、エンドツーエンド音声補強装置が端末設備101、102、103内に設置されてもよく、本例示的な実施例では特に限定されないことを容易に理解するであろう。
図2は、本開示の実施例の電子デバイスを実現するのに適したコンピュータシステムの概略構造図を示す。
なお、図2に示される電子デバイスのコンピュータシステム200は、例示にすぎず、本開示の実施例の機能及び使用範囲に何ら制限を与えるべきではない。
図2に示すように、コンピュータシステム200は、中央処理装置(CPU)201を含み、これは、読み出し専用メモリ(ROM)202に記憶されたプログラム、または記憶部208からランダムアクセスメモリ(RAM)203にロードされたプログラムに従って、様々な適切な動作及び処理を実行することができる。RAM203において、システムの操作に必要な各種のプログラムとデータが記憶される。CPU201、ROM202及びRAM203は、バス204を介して相互に接続されている。入力/出力(I/O)インターフェース205もバス204に接続されている。
I/Oインタフェース205には、キーボード、マウスなどを含む入力部206、陰極線管(CRT)、液晶表示装置(LCD)など及びスピーカなどを含む出力部207、ハードディスクなどを含む記憶部208、及びLANカード、モデムなどのネットワークインタフェースカードを含む通信部209が接続されている。通信部209は、インターネットなどのネットワークを介して通信処理を実行する。I/Oインタフェース205には、必要に応じてドライブ210が接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア211は、必要に応じてドライブ210に取り付けられ、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部208にインストールされる。
特に、本開示の実施例によれば、フローチャートを参照して以下に説明されるプロセスは、コンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、コンピュータ読み取り可能な媒体上に担持されたコンピュータプログラムを含み、当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部209を介してネットワークからダウンロードされてインストールされてもよいし、及び/またはリムーバブルメディア211からインストールされてもよい。当該コンピュータプログラムが中央処理装置(CPU)201によって実行されると、本出願の方法及び装置において限定されている各種の機能が実行される。
別の態様として、本出願は、さらにコンピュータ読み取り可能な媒体を提供し、当該コンピュータ読み取り可能な媒体は、上述の実施例に記載の電子デバイスに含まれてもよいし、単独で存在して当該電子デバイスに組み込まれなくてもよい。上述のコンピュータ読み取り可能な媒体は、1つまたは複数のプログラムを担持し、上述の1つまたは複数のプログラムが1つの当該電子デバイスによって実行されると、当該電子デバイスに下記の実施例に記載の方法を実現させる。例えば、前記電子デバイスは図3から図7に示す各ステップ等を実現することができる。
なお、本開示で示されるコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体、あるいは上述両方の任意の組み合せであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置、またはデバイス、あるいはこれらの任意の組み合せとすることができるが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例は、1つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、またはこれらの任意の適切な組合せを含むことができるが、これらに限定されない。本開示において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置、またはデバイスによって、あるいはこれらに関連して使用することができるプログラムを含む、または記憶する、任意の有形媒体であってもよい。さらに、本開示において、コンピュータ読み取り可能な信号媒体は、ベースバンドにおいてまたはキャリアの一部として伝搬するデータ信号を含むことができ、その中にコンピュータ読み取り可能なプログラムコードが担持される。このような伝搬されるデータ信号は、電磁信号、光信号、または上述の任意の適切な組合せを含むが、これらに限定はされない、様々な形態をとることができる。コンピュータ読み取り可能な信号媒体はまた、命令実行システム、装置、またはデバイスによって、あるいはこれらに関連して使用するためのプログラムを、送信、伝搬、または伝送することができる、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよい。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ファイバ、RFなど、または上述の任意の適切な組み合せを含むが、これらに限定されない任意の適切な媒体を使用して伝送することができる。
以下では、本開示の実施例の技術的解決手段について、詳細に説明する。
時間領域において、実際に観測された音声信号は、クリーンな音声信号とノイズ信号との和として表すことができる。即ち、次のようになる。
時間領域において、実際に観測された音声信号は、クリーンな音声信号とノイズ信号との和として表すことができる。即ち、次のようになる。
y(n)=x(n)+w(n)
ここで、y(n)は時間領域ノイズ付きの音声信号を表し、x(n)は時間領域クリーンな音声信号を表し、w(n)は時間領域ノイズ信号を表す。
ここで、y(n)は時間領域ノイズ付きの音声信号を表し、x(n)は時間領域クリーンな音声信号を表し、w(n)は時間領域ノイズ信号を表す。
音声信号に対して補強処理を行う場合、ノイズ付きの音声信号を短時間フーリエ変換(Short-Time Fourier Transform、STFT)によって一次元時間領域信号から複素領域二次元変量Y(k,l)に変換し、且つ当該変量の振幅情報を取得することができ、対応して以下の通りである。
|Y(k,l)|=|X(k,l)|+|W(k,l)|
ここで、|Y(k,l)|は複素領域音声信号の振幅情報を表し、|X(k,l)|は複素領域クリーンな音声信号の振幅情報を表し、|W(k,l)|は複素領域ノイズ信号の振幅情報を表し、kは周波数軸上のk番目の周波数ビンを表し、lは時間軸上のl番目の時間フレームを表す。
ここで、|Y(k,l)|は複素領域音声信号の振幅情報を表し、|X(k,l)|は複素領域クリーンな音声信号の振幅情報を表し、|W(k,l)|は複素領域ノイズ信号の振幅情報を表し、kは周波数軸上のk番目の周波数ビンを表し、lは時間軸上のl番目の時間フレームを表す。
具体的には、ゲイン関数G(k,l)を解くことによって、音声信号のノイズ低減を実現することができる。ここで、ゲイン関数は、時間変化且つ周波数依存の関数とすることができ、ゲイン関数及びノイズ付きの音声信号Y(k,l)によって、予測されるクリーンな音声信号x^(n)のSTFTパラメータX^(k,l)を得ることができる。即ち、次のようになる。
X^(k,l)=G(k,l)×|Y(k,l)|
ディープニューラルネットワークをトレーニングしてfθ(Y(k,l))を得ることで、クリーンな音声信号X^(k,l)を推定することもできる。即ち、次のようになる。
ディープニューラルネットワークをトレーニングしてfθ(Y(k,l))を得ることで、クリーンな音声信号X^(k,l)を推定することもできる。即ち、次のようになる。
X^(k,l)=fθ(|Y(k,l)|)
上述の音声補強方法において、ノイズ付きの音声信号Y(k,l)における振幅情報に基づいてクリーンな音声信号x^(n)を予測する際、Y(k,l)の位相情報を補強していない。位相情報を補強しないと、Y(k,l)の信号対ノイズ比が高い場合、Y(k,l)の位相情報と予測されたX^(k,l)から復元されたx^(n)は、実際のクリーンな音声信号x(n)とあまり差がない。しかしながら、Y(k,l)の信号対ノイズ比が低い場合、例えば、信号対ノイズ比が0db以下である場合、振幅情報のみを補強し、位相情報を無視すると、最終的に復元されたx^(n)と実際のクリーンな音声x(n)との差が大きくなり、全体的な音声補強効果が悪くなる。
上述の音声補強方法において、ノイズ付きの音声信号Y(k,l)における振幅情報に基づいてクリーンな音声信号x^(n)を予測する際、Y(k,l)の位相情報を補強していない。位相情報を補強しないと、Y(k,l)の信号対ノイズ比が高い場合、Y(k,l)の位相情報と予測されたX^(k,l)から復元されたx^(n)は、実際のクリーンな音声信号x(n)とあまり差がない。しかしながら、Y(k,l)の信号対ノイズ比が低い場合、例えば、信号対ノイズ比が0db以下である場合、振幅情報のみを補強し、位相情報を無視すると、最終的に復元されたx^(n)と実際のクリーンな音声x(n)との差が大きくなり、全体的な音声補強効果が悪くなる。
上述の1つまたは複数の課題に基づき、本例示的な実施形態はニューラルネットワークに基づくエンドツーエンド音声補強方法を提供し、当該方法は上述のサーバ105に適用されてもよく、上述の端末装置101、102、103のうちの1つまたは複数に適用されてもよく、本例示的な実施例においてこれを特に限定しない。図3に示す通り、当該エンドツーエンド音声補強方法は以下のステップS310及びステップS320を含むことができる。
ステップS310:時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得る。
ステップS320:前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。
本開示の例示的な実施形態が提供する音声補強方法において、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行うことにより、前記原始の音声信号の時間領域平滑化特徴を得る。前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。一方では、原始の音声信号における振幅情報及び位相情報の両方を補強することにより、音声補強の全体的な効果を向上させることができる。他方では、コンボリューションニューラルネットワークによって原始の音声信号に対して時間領域平滑化特徴を抽出し、且つディープニューラルネットワークを結合して時間領域ノイズ低減パラメータの自己学習を実現することができ、さらに音声信号の品質を向上させる。
以下、本例示的な実施形態の上述ステップについてより詳細に説明する。
ステップS310において、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得る。
ステップS310において、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得る。
エンドツーエンド音声補強は、原始の音声信号を直接処理し、中間変換による音響学特徴を抽出することを回避することができる。音声通信過程における環境ノイズの干渉は避けられず、実際に観測される原始の音声信号は、一般に、時間領域におけるノイズ付きの音声信号である。原始の音声信号に対して特徴抽出を行う前に、まず当該原始の音声信号を取得することができる。
原始の音声信号は、連続的に変化するアナログ信号であり、アナログの音声信号は、サンプリング、量子化、及び符号化によって離散的なデジタル信号に変換することができる。例示的には、アナログ信号のアナログ量の値は、一定の周波数で一定時間ごとに測定されてもよく、サンプリングされた点は量子化されてもよく、量子化された値は一連のバイナリで表されてもよい。したがって、取得された原始の音声信号は、一次元ベクトルで表すことができる。
例示的な実施形態において、原始の音声信号は、時間変化の特徴抽出のためにディープニューラルネットワークに入力されてもよい。例えば、当該原始の音声信号の局所特徴は、音声信号の隣接フレーム間の相関に基づいて、時間次元で平滑化処理を行うことによって算出することができ、ここで、原始の音声信号における位相情報及び振幅情報の両方に対して音声補強を行うことができる。
時間領域における原始の音声認識信号に対してノイズ低減処理を行うことができ、原始の音声信号を補強することによって音声認識の正確度を向上させる。例えば、ディープニューラルネットワークモデルを利用して音声補強を行うことができ、平滑化アルゴリズムによって時間領域音声信号に対してノイズ低減処理を行う時、平滑化アルゴリズムをディープニューラルネットワークのコンボリューションモジュールに組み込むことができ、コンボリューションモジュールにおいて多層フィルタを用いて異なる特徴の抽出を実現することができ、次に異なる特徴から新たな異なる特徴に組み合わせる。
例示的には、時間領域平滑化アルゴリズムを一次元コンボリューションモジュールとしてディープニューラルネットワークに組み込むことができ、当該一次元コンボリューションモジュールはTRAL(Time-Domain Recursive Averaging Layer、時間領域再帰平滑化層)モジュールであってもよく、時間軸次元のノイズ平滑化に対応する。原始のの音声信号をTRALモジュールの入力とし、TRALモジュールによって原始のの音声信号に対してフィルタリング処理を行い、つまり時間軸次元のノイズ平滑化を行う。例えば、重み付け移動平均法を用いて平滑化対象の時間軸における各時点の振幅スペクトル情報を予測することができ、ここで、重み付け移動平均法は同一の移動セグメント内の異なる時間のデータが予測値に与える影響の程度(異なる重みに対応する)に基づいて将来値を予測することができる。
図4を参照すると、ステップS410~ステップS430に基づいて、時間領域音声信号に対してノイズ平滑化を行うことができる。
ステップS410:コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定する。
例示的な実施形態において、TRALモジュールは、複数の時間領域平滑化係数を用いて原始の入力情報を処理することができ、具体的には、TRALモジュールによる時間領域音声信号の平滑化は、一つのスライド窓によって実現することができ、対応する平滑化アルゴリズムは、以下の通りである。
ここで、n:原始の音声信号のサンプリングポイントを示す。
D:スライド窓の幅を示し、その幅は実際の状況に応じて設定することができ、本例示において、好ましくはスライド窓の幅を32フレームに設定することができる。
D:スライド窓の幅を示し、その幅は実際の状況に応じて設定することができ、本例示において、好ましくはスライド窓の幅を32フレームに設定することができる。
α:時間領域平滑化係数であって、時間領域音声信号に対して平滑化処理を行う時、スライド窓の幅内の各サンプリングポイントの音声信号y(n)に対する利用程度を示し、[α0 ・・・ αN]は異なる平滑化係数であり、各平滑化係数の値の範囲は[0,1]であり、αの値に対応して、TRALモジュールにおけるコンボリューションカーネルの数はNであってもよい。
y(n):スライド窓の幅内の各サンプリングポイントの音声信号を示す。本例示において、各サンプリングポイントの音声信号を利用することができ、例示的には、32フレーム目のサンプリングポイントの音声信号はスライド窓の幅内の前の31フレームのサンプリングポイントの音声信号で構成されてもよい。
R(n):スライド窓の幅内の各履歴サンプリングポイントの音声信号を重ね合わせて得られた新たな音声信号であり、時間領域の平滑化を経て得られた音声信号である。
なお、TRALモジュールにおいて、コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定することができ、即ちスライド窓の幅D及び時間領域平滑化係数α=[α0 ・・・ αN]に基づいて第一時間領域平滑化パラメータ行列[α0 ・・・ αD-1]及び第二時間領域平滑化パラメータ行列[1-α]を決定することができる。
ステップS420:前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得る。
原始の音声信号に対して時間領域特徴抽出を行う前に、まず時間領域コンボリューションカーネルの重み行列を決定することができる。例えば、複数の時間領域平滑化係数αを初期化することができ、例えばα=[α0 ・・・ αN]にであり、且つ予め設定されたコンボリューションスライド窓及び複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得る。具体的には、時間軸を平滑化する時、TRALモジュールにおいて対応してN個のコンボリューションカーネルを有することができ、各コンボリューションカーネルは異なる平滑化係数に対応し、ここで各コンボリューションカーネルに対応する第一時間領域平滑化パラメータ行列は [α0 ・・・ αD-1]であってもよく、第二時間領域平滑化パラメータ行列[1-α]を結合し、例えば第一時間領域平滑化パラメータ行列と第二時間領域平滑化パラメータ行列を積演算して時間領域コンボリューションカーネルの最終重み行列N(α)を得ることができる。
ステップS430:前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得る。
原始の音声信号を原始の入力とすることができ、当該原始の音声信号は1*Nの一次元ベクトルであってもよく、当該一次元ベクトルと時間領域コンボリューションカーネルの重み行列N(α)に対してコンボリューション演算を行い、原始の音声信号の時間領域平滑化特徴を得ることができる。本例示において、コンボリューションニューラルネットワークにおけるコンボリューションカーネルの思想を利用し、ノイズ低減アルゴリズムをコンボリューションカーネルに作成し、且つ複数のコンボリューションカーネルの組み合わせにより、ニューラルネットワークにおいて時間変化音声信号のノイズ低減を実現する。且つ、時間領域におけるノイズ付きの音声信号を平滑化することにより、原始の入力情報の信号対ノイズ比を向上させることができ、ここで、入力情報はノイズ付きの音声信号の振幅情報及び位相情報を含むことができる。
ステップS320において、前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。
図5を参考すると、ステップS510~S530に基づいて、補強音声信号を得ることができる。
ステップS510:前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴を結合し、補強対象の音声信号を得る。
例示的な実施形態において、原始の入力の音声特徴をよりよく保存するために、原始の入力の特徴とTRALモジュールの出力をつなぎ合わせることができ、これにより原始の音声信号の特徴を保存することができるとともに、深いレベルの特徴を学習することができる。
これに対応して、ディープニューラルネットワークの入力は、原始の入力y(n)から組み合わせ入力に変更することができ、当該組み合わせ入力は下記の通りである。
ここで、Ii(n)は組み合わせて得られた補強対象の音声信号であり、y(n)は原始の入力のノイズ付きの音声信号であり、R(n)はTRALモジュールの出力であり、即ち時間軸に沿って平滑化された音声信号である。
本例示において、TRALモジュール内の1つのフィルタの平滑化係数は0であり、即ち、原始の情報に対して平滑化処理を行わず、原始の入力を保持する。他のフィルタは、異なる平滑化係数を用いて原始の情報に対して異なる平滑化処理を実行することができ、これにより、原始の情報の入力を保持するだけでなく、ディープニューラルネットワークの入力情報も増加する。また、TRALモジュールは、専門家の知識によって開発されたノイズ低減アルゴリズムの解釈可能性と、ニューラルネットワークに組み込まれた後に形成される強大なフィッティング能力とを兼ね備えており、解釈可能性を有するニューラルネットワークモジュールであり、音声ノイズ低減の分野における高度な信号処理アルゴリズムとディープニューラルネットワークとを効果的に結合することができる。
ステップS520:前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングする。
補強対象の音声信号をディープニューラルネットワークに入力し、平均二乗誤差損失関数などの時間領域損失関数が構築することができる。ディープニューラルネットワークに基づいて、時間領域における音声補強のタスクは、次のように表すことができる。
x^(n)=fθ(Ii(n))
例示的な実施形態において、エンコーダ-デコーダ構造を有するU-Netコンボリューションニューラルネットワークモデルを構築してエンドツーエンドの音声補強モデルとし、且つTRALモジュールを当該ニューラルネットワークモデルに組み込むことができる。U-Netコンボリューションニューラルネットワークモデルは完全コンボリューション部分(Encoder層)及び逆コンボリューション部分(Decoder層)を含むことができる。ここで、完全コンボリューション部分は特徴を抽出することに用いることができ、低解像度の特徴図を得ることができ、時間領域におけるフィルタに相当し、入力情報を符号化することができ、また上位層Encoder層の出力情報を再び符号化することもでき、上層特徴の抽出を実現する。逆コンボリューション部分は小さいサイズの特徴図をアップサンプリングすることによって原始のサイズと同じである特徴図を得ることができ、即ちEncoder層が符号化した後の情報を復号することができる。また、Encoder層とDecoder層との間にスキップ接続を行うことができ、復号効果を補強する。
例示的な実施形態において、エンコーダ-デコーダ構造を有するU-Netコンボリューションニューラルネットワークモデルを構築してエンドツーエンドの音声補強モデルとし、且つTRALモジュールを当該ニューラルネットワークモデルに組み込むことができる。U-Netコンボリューションニューラルネットワークモデルは完全コンボリューション部分(Encoder層)及び逆コンボリューション部分(Decoder層)を含むことができる。ここで、完全コンボリューション部分は特徴を抽出することに用いることができ、低解像度の特徴図を得ることができ、時間領域におけるフィルタに相当し、入力情報を符号化することができ、また上位層Encoder層の出力情報を再び符号化することもでき、上層特徴の抽出を実現する。逆コンボリューション部分は小さいサイズの特徴図をアップサンプリングすることによって原始のサイズと同じである特徴図を得ることができ、即ちEncoder層が符号化した後の情報を復号することができる。また、Encoder層とDecoder層との間にスキップ接続を行うことができ、復号効果を補強する。
具体的には、以下に基づいて、
補強音声信号を算出することができる。ここで、Ii(n)はU-Netコンボリューションニューラルネットワークにおける最終入力情報であり、即ち組み合わせて得られた補強対象の音声信号である。wLはU-Netコンボリューションニューラルネットワークにおける第L層の重み行列を表すことができる。gLは第L層の非線形活性化関数を表すことができる。以上から分かるように、Encoder層及びDecoder層の重み行列wLはパラメータ自己学習の方式によって実現することができ、即ちフィルタは勾配返送の方式によって、トレーニング過程において学習によって自動生成され、まず低レベル特徴を生成し、次に低レベル特徴から高レベル特徴を組み合わせることができる。
時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して時間領域コンボリューションカーネルの重み行列N(α)、ニューラルネットワークの重み行列wLをトレーニングする。例示的には、ニューラルネットワークモデルのトレーニング過程はBP(error Back Propagation、誤差方向伝搬)アルゴリズムを用いることができ、ランダムの初期化パラメータにより、トレーニングが進むにつれて、パラメータを絶えず更新する。例えば、原始の入力に基づいて前から後へ順に算出し、出力層の出力を得ることができる。現在の出力と目標出力との差を算出することができ、即ち時間領域損失関数を算出する。勾配降下アルゴリズム、Adam最適化アルゴリズム等を利用して時間領域損失関数を最小化することができ、後から前へ順にパラメータを更新し、即ち時間領域コンボリューションカーネルの重み行列N(α)、ニューラルネットワークの重み行列wLを順に更新する。
ここで、誤差返送の過程はj回目の重み値であってもよく、つまり、j-1回目の重みから学習率及び誤差勾配を引いたものであり、即ち、
ステップS530:トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。
原始の音声信号をTRALモジュールに入力することができ、且つ原始の音声信号及びTRALモジュールの出力をU-NETコンボリューションニューラルネットワークモデルに結合して入力し、各重み係数をトレーニングした後、原始の入力、TRALモジュールの出力に対して組み合わせ特徴の抽出を行うことができる。
図6を参照すると、ステップS610~ステップS630に基づいて、組み合わせ特徴の抽出を実現することができる。
ステップS610:トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得る。
ステップS620:トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得る。
ステップS630:前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得る。
本例示において、時間領域信号平滑化アルゴリズムを一次元TRALモジュールに作成し、且つディープニューラルネットワークモデルに成功して組み込むことができ、コンボリューションニューラルネットワーク、再帰ニューラルネットワーク、完全接続ニューラルネットワークといずれも理想的に結合することができ、勾配伝導を実現し、これによりTRALモジュールにおけるコンボリューションカーネルパラメータ、即ちノイズ低減アルゴリズムパラメータはデータによって駆動することができ、専門家の知識を先験的な情報とする必要がなく、統計的な意味での最適な重み係数を得ることができる。また、ノイズ付きの時間領域音声信号に対して音声補強を直接行うことによってクリーンな音声信号を予測する場合、当該時間領域音声信号における振幅情報及び位相情報を利用することができ、当該音声補強方法はより実際的であり、音声補強効果がよりよい。
図7は、TRALモジュールとディープニューラルネットワークとを組み合わせた音声補強のフローチャートを概略的に示しており、この過程は、ステップS701~S703を含むことができる。
ステップS701:音声信号y(n)を入力し、当該信号はノイズ付きの音声信号であり、クリーンな音声信号及びノイズ信号を含む。
ステップS702:当該ノイズ付きの音声信号をTRALモジュールに入力し、当該ノイズ付きの音声信号の位相情報及び振幅情報に対して時間領域平滑化特徴を抽出し、時間軸に沿ってノイズを低減した後の音声信号R(n)を得る。
ステップS703:ディープニューラルネットワークに入力する:当該ノイズ付きの音声信号y(n)及び時間軸に沿ってノイズを低減した後の音声信号R(n)をディープニューラルネットワークに結合して入力し、これにより組み合わせ特徴の抽出を行い、補強後の音声信号を得る。
本例示において、エンドツーエンド(即ち、シーケンスツーシーケンス)の音声補強のタスクに時間領域信号平滑化アルゴリズムを追加し、当該アルゴリズムを一次元コンボリューションモジュール、即ちTRALモジュールにし、専門家知識を含むフィルタを追加することに相当し、原始の入力情報の信号対ノイズ比を向上させ、ディープニューラルネットワークの入力情報を増加させることができ、さらに、PESQ(Perceptual Evalution of Speech Quality、音声品質知覚評価指標)、STOI(Short-Time Objective Intelligibility、短時間客観的理解度指標)、fw SNR(frenquency-weighted SNR、周波数重み付け信号対ノイズ比)などの音声補強評価指標を向上させることができる。また、TRALモジュールとディープニューラルネットワークは勾配返送の方式によって接続することができ、ノイズ低減パラメータの自己学習を実現することができ、これにより統計的な意味での最適なパラメータを得ることができ、当該過程には、オペレータを手動で設計したり、専門家の知識を先験とする必要がない。即ちこのTRALモジュールは信号処理分野を有する専門家の知識を組み込むだけでなく、ディープニューラルネットワークの勾配返送アルゴリズムを結合してパラメータ最適化を行う。両者の優位性を融合し、最終的な音声補強効果を向上させる。
本開示の例示的な実施形態が提供する音声補強方法において、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行うことにより、前記原始の音声信号の時間領域平滑化特徴を得る。前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。一方では、原始の音声信号における振幅情報及び位相情報の両方を補強することにより、音声補強の全体的な効果を向上させることができる。他方では、コンボリューションニューラルネットワークによって原始の音声信号に対して時間領域平滑化特徴を抽出し、且つディープニューラルネットワークを結合して時間領域ノイズ低減パラメータの自己学習を実現することができ、さらに音声信号の品質を向上させる。
なお、本開示における方法の各ステップは、特定の順序で図面に示されているが、これは、所望の結果を達成するために、これらのステップが特定の順序で実行されなければならないこと、またはすべての示されたステップが実行されなければならないことを要求または暗示するものではないことに留意されたい。追加的または代替的に、いくつかのステップを省略すること、いくつかのステップを1つのステップに組み合わせて実行すること、及び/または1つのステップをいくつかのステップに分割して実行することなどが可能である。
さらに、本例示的な実施形態において、ニューラルネットワークに基づくエンドツーエンド音声補強装置がさらに提供され、当該装置は、サーバまたは端末設備に適用されることができる。図8を参照すると、エンドツーエンド音声補強装置800は、時間領域平滑化特徴抽出モジュール810及び組み合わせ特徴抽出モジュール820を含むことができ、ここで、
時間領域平滑化特徴抽出モジュール810は、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる。
時間領域平滑化特徴抽出モジュール810は、時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる。
組み合わせ特徴抽出モジュール820は、前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る。
選択可能な実施形態において、時間領域平滑化特徴抽出モジュール810は、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するパラメータ行列決定ユニットと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得ることに用いられる重み行列決定ユニットと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域演算ユニットと、を含む。
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するパラメータ行列決定ユニットと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得ることに用いられる重み行列決定ユニットと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域演算ユニットと、を含む。
選択可能な実施形態において、パラメータ行列決定ユニットは、
複数の時間領域平滑化係数を初期化することに用いられるデータ初期化サブユニットと、
前記予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得ることに用いられる行列決定サブユニットと、を含む。
複数の時間領域平滑化係数を初期化することに用いられるデータ初期化サブユニットと、
前記予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得ることに用いられる行列決定サブユニットと、を含む。
選択可能な実施形態において、組み合わせ特徴抽出モジュール820は、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得ることに用いられる入力信号取得ユニットと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられる重み行列トレーニングユニットと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得ることに用いられる補強音声信号取得ユニットと、を含む。
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得ることに用いられる入力信号取得ユニットと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられる重み行列トレーニングユニットと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得ることに用いられる補強音声信号取得ユニットと、を含む。
選択可能な実施形態において、重み行列トレーニングユニットは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築することに用いられるデータ入力サブユニットと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられるデータトレーニングサブユニットと、を含む。
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築することに用いられるデータ入力サブユニットと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられるデータトレーニングサブユニットと、を含む。
選択可能な実施形態において、補強音声信号取得ユニットは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得ることに用いられる第一特徴図取得サブユニットと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得ることに用いられる第二特徴図取得サブユニットと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得ることに用いられる特徴組み合わせサブユニットと、を含む。
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得ることに用いられる第一特徴図取得サブユニットと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得ることに用いられる第二特徴図取得サブユニットと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得ることに用いられる特徴組み合わせサブユニットと、を含む。
上述のエンドツーエンド音声補強装置における各モジュールの具体的な詳細は、対応する音声補強方法において既に詳細に説明されているので、ここでは繰り返し説明しない。
なお、上記の詳細な説明では、動作実行のための装置のいくつかのモジュールまたはユニットについて言及したが、そのような分割は必須ではないことに留意されたい。実際、本開示の実施例によれば、上述の2つ以上のモジュールまたはユニットの特徴及び機能は、1つのモジュールまたはユニットにおいて具現化されることができる。逆に、上述の1つのモジュールまたはユニットの特徴及び機能は、複数のモジュールまたはユニットにおいて具現化されるようにさらに分割されることができる。
なお、本開示は、上記で説明され且つ添付の図面に示された精確な構成に限定されず、本開示の範囲から逸脱することなく様々な修正及び変更が行われ得ることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ限定される。
Claims (14)
- ニューラルネットワークに基づくエンドツーエンド音声補強方法であって、
時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む
ニューラルネットワークに基づくエンドツーエンド音声補強方法。 - 前記時間領域コンボリューションカーネルを利用して原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップは、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得るステップと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得るステップと、を含む
請求項1に記載のエンドツーエンド音声補強方法。 - 前記コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定するステップは、
複数の時間領域平滑化係数を初期化するステップと、
予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得るステップと、を含む
請求項2に記載のエンドツーエンド音声補強方法。 - 前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得るステップと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップと、を含む
請求項1に記載のエンドツーエンド音声補強方法。 - 前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築するステップと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングするステップと、を含む
請求項4に記載のエンドツーエンド音声補強方法。 - 前記トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得るステップは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得るステップと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得るステップと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得るステップと、を含む
請求項4に記載のエンドツーエンド音声補強方法。 - ニューラルネットワークに基づくエンドツーエンド音声補強装置であって、
時間領域コンボリューションカーネルを利用して処理した原始の音声信号に対して特徴抽出を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域平滑化特徴抽出モジュールと、
前記原始の音声信号及び前記原始の音声信号の時間領域平滑化特徴に対して組み合わせ特徴の抽出を行い、補強音声信号を得る組み合わせ特徴抽出モジュールと、を含む
ニューラルネットワークに基づくエンドツーエンド音声補強装置。 - 前記時間領域平滑化特徴抽出モジュールは、
コンボリューションスライド窓及び時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を決定することに用いられるパラメータ行列決定ユニットと、
前記時間領域平滑化パラメータ行列に対して積演算を行い、前記時間領域コンボリューションカーネルの重み行列を得ることに用いられる重み行列決定ユニットと、
前記時間領域コンボリューションカーネルの重み行列と前記原始の音声信号に対してコンボリューション演算を行い、前記原始の音声信号の時間領域平滑化特徴を得ることに用いられる時間領域演算ユニットと、を含む
請求項7に記載のエンドツーエンド音声補強装置。 - 前記パラメータ行列決定ユニットは、
複数の時間領域平滑化係数を初期化することに用いられるデータ初期化サブユニットと、
予め設定されたコンボリューションスライド窓及び前記複数の時間領域平滑化係数に基づいて時間領域平滑化パラメータ行列を得ることに用いられる行列決定サブユニットと、を含む
請求項8に記載のエンドツーエンド音声補強装置。 - 前記組み合わせ特徴抽出モジュールは、
前記原始の音声信号と前記原始の音声信号の時間領域平滑化特徴とを結合し、補強対象の音声信号を得ることに用いられる入力信号取得ユニットと、
前記補強対象の音声信号をディープニューラルネットワークの入力とし、逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられる重み行列トレーニングユニットと、
トレーニングにより得られた重み行列に基づいて前記補強対象の音声信号に対して組み合わせ特徴の抽出を行い、補強音声信号を得ることに用いられる補強音声信号取得ユニットと、を含む
請求項7に記載のエンドツーエンド音声補強装置。 - 前記重み行列トレーニングユニットは、
前記補強対象の音声信号をディープニューラルネットワークに入力し、且つ時間領域損失関数を構築することに用いられるデータ入力サブユニットと、
前記時間領域損失関数に基づき、誤差逆伝搬アルゴリズムを利用して前記時間領域コンボリューションカーネルの重み行列をトレーニングすることに用いられるデータトレーニングサブユニットと、を含む
請求項10に記載のエンドツーエンド音声補強装置。 - 前記補強音声信号取得ユニットは、
トレーニングにより得られた重み行列と前記補強対象の音声信号における原始の音声信号に対してコンボリューション演算を行い、第一時間領域特徴図を得ることに用いられる第一特徴図取得サブユニットと、
トレーニングにより得られた重み行列と前記補強対象の音声信号における平滑化特徴に対してコンボリューション演算を行い、第二時間領域特徴図を得ることに用いられる第二特徴図取得サブユニットと、
前記第一時間領域特徴図及び前記第二時間領域特徴図を組み合わせ、前記補強音声信号を得ることに用いられる特徴組み合わせサブユニットと、を含む
請求項10に記載のエンドツーエンド音声補強装置。 - コンピュータ読み取り可能な記憶媒体であって、その上にコンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサによって実行されると、請求項1~6のいずれか一項に記載の方法を実現する
コンピュータ読み取り可能な記憶媒体。 - 電子デバイスであって、
プロセッサと、
前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能命令を実行することで、請求項1~6のいずれか一項に記載の方法を実行するように構成される
電子デバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110367186.4 | 2021-04-06 | ||
CN202110367186.4A CN115188389B (zh) | 2021-04-06 | 2021-04-06 | 基于神经网络的端到端语音增强方法、装置 |
PCT/CN2022/083112 WO2022213825A1 (zh) | 2021-04-06 | 2022-03-25 | 基于神经网络的端到端语音增强方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024512095A true JP2024512095A (ja) | 2024-03-18 |
Family
ID=83511889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023559800A Pending JP2024512095A (ja) | 2021-04-06 | 2022-03-25 | ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240194212A1 (ja) |
JP (1) | JP2024512095A (ja) |
CN (1) | CN115188389B (ja) |
WO (1) | WO2022213825A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315886B (zh) * | 2023-09-07 | 2024-04-12 | 安徽建筑大学 | 一种基于uwb雷达的人员即将跌倒检测方法及装置 |
CN117894306B (zh) * | 2024-03-18 | 2024-06-07 | 深圳市龙芯威半导体科技有限公司 | 一种语音处理方法、装置、计算机设备及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8160273B2 (en) * | 2007-02-26 | 2012-04-17 | Erik Visser | Systems, methods, and apparatus for signal separation using data driven techniques |
US10339921B2 (en) * | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
CN106847302B (zh) * | 2017-02-17 | 2020-04-14 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
EP3474280B1 (en) * | 2017-10-19 | 2021-07-07 | Goodix Technology (HK) Company Limited | Signal processor for speech signal enhancement |
CN108447495B (zh) * | 2018-03-28 | 2020-06-09 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
CN109360581B (zh) * | 2018-10-12 | 2024-07-05 | 平安科技(深圳)有限公司 | 基于神经网络的语音增强方法、可读存储介质及终端设备 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110867181B (zh) * | 2019-09-29 | 2022-05-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
CN111445921B (zh) * | 2020-03-20 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 音频特征的提取方法、装置、计算机设备及存储介质 |
CN111540378A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置和存储介质 |
CN112037809A (zh) * | 2020-09-09 | 2020-12-04 | 南京大学 | 基于多特征流结构深度神经网络的残留回声抑制方法 |
CN112151059A (zh) * | 2020-09-25 | 2020-12-29 | 南京工程学院 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
CN112466297B (zh) * | 2020-11-19 | 2022-09-30 | 重庆兆光科技股份有限公司 | 一种基于时域卷积编解码网络的语音识别方法 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与系统 |
-
2021
- 2021-04-06 CN CN202110367186.4A patent/CN115188389B/zh active Active
-
2022
- 2022-03-25 US US18/553,221 patent/US20240194212A1/en active Pending
- 2022-03-25 WO PCT/CN2022/083112 patent/WO2022213825A1/zh active Application Filing
- 2022-03-25 JP JP2023559800A patent/JP2024512095A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022213825A1 (zh) | 2022-10-13 |
CN115188389A (zh) | 2022-10-14 |
US20240194212A1 (en) | 2024-06-13 |
CN115188389B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102213013B1 (ko) | 신경망을 이용한 주파수 기반 오디오 분석 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
RU2552184C2 (ru) | Устройство для расширения полосы частот | |
CN113808607B (zh) | 基于神经网络的语音增强方法、装置及电子设备 | |
JP2024512095A (ja) | ニューラルネットワークに基づくエンドツーエンド音声補強方法、装置 | |
CN104966517B (zh) | 一种音频信号增强方法和装置 | |
CN112767959B (zh) | 语音增强方法、装置、设备及介质 | |
CN114242044B (zh) | 语音质量评估方法、语音质量评估模型训练方法及装置 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
Yu et al. | Speech enhancement using a DNN-augmented colored-noise Kalman filter | |
EP3906551B1 (en) | Method, apparatus and system for hybrid speech synthesis | |
WO2023278889A1 (en) | Compressing audio waveforms using neural networks and vector quantizers | |
CN111722696A (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN116913304A (zh) | 实时语音流降噪方法、装置、计算机设备及存储介质 | |
CN116959462A (zh) | 房间脉冲响应估算方法、装置、设备及可读存储介质 | |
CN113823312B (zh) | 语音增强模型生成方法和装置、语音增强方法和装置 | |
CN115662461A (zh) | 降噪模型训练方法、装置以及设备 | |
CN114141256A (zh) | 基于小波神经网络的声纹特征提取模型构建方法及系统 | |
Li et al. | Dynamic attention based generative adversarial network with phase post-processing for speech enhancement | |
CN117334198B (zh) | 语音信号处理方法、装置、电子设备和计算机可读介质 | |
Li et al. | An improved speech enhancement algorithm based on combination of OMLSA and IMCRA | |
CN113744754B (zh) | 语音信号的增强处理方法和装置 | |
CN114267368B (zh) | 音频降噪模型的训练方法、音频降噪方法及装置 | |
KR20220050924A (ko) | 오디오 코딩을 위한 다중 래그 형식 | |
CN114333889A (zh) | 降噪参数优化方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241001 |