JP2021167977A - 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 - Google Patents

音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2021167977A
JP2021167977A JP2021120083A JP2021120083A JP2021167977A JP 2021167977 A JP2021167977 A JP 2021167977A JP 2021120083 A JP2021120083 A JP 2021120083A JP 2021120083 A JP2021120083 A JP 2021120083A JP 2021167977 A JP2021167977 A JP 2021167977A
Authority
JP
Japan
Prior art keywords
audio signal
frequency domain
target
signal
processing target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021120083A
Other languages
English (en)
Other versions
JP7214798B2 (ja
Inventor
ジンフェン バイ,
Jinfeng Bai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021167977A publication Critical patent/JP2021167977A/ja
Application granted granted Critical
Publication of JP7214798B2 publication Critical patent/JP7214798B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】音声信号処理の効率及び効果を向上させ、後続の音声認識の精度及び音声通信の品質を向上させる音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体を提供する。
【解決手段】音声信号処理方法は、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいてターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。
【選択図】図1

Description

本出願は、音声技術及び深層学習などの人工知能技術の分野に関し、特に音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体に関する。
人工知能とは、コンピュータに人間の思考過程や知能行動(例えば学習、推論、思考、計画など)をシミュレートさせる学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能技術は、一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能フトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの大きな方向を含む。
スマートホームやモバイルインターネットの急速な発展に伴い、スマートスピーカー、スマートテレビ、車載音声デバイスなどの、音声インタラクションに基づくデバイスがますます人気を集めており、人々の日常生活に入り始めているため、音声信号を認識処理することは非常に重要である。
関連技術では、主に音声信号ごとに個別に残響除去を行い、ウェイクアップと複数のマイクデータを用いて音声シークを行い、複数の音声を1つの音声に合成し、外部の固定方向のノイズ干渉源などを抑制し、最後にゲイン制御モジュールで音声の振幅を調整し、このような方式は、更新効率と効果が比較的悪く、時間の経過につれて音声認識効果に影響を与える。
本出願は、上記技術的課題を解決することができる音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、処理対象音声信号及び参照音声信号を取得するステップと、前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するステップと、前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップと、前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいてターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップと、を含む音声信号処理方法が提供される。
第2の態様によれば、処理対象音声信号及び参照音声信号を取得するように構成される第1の取得モジュールと、前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するように構成される第1の前処理モジュールと、前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するように構成される第2の取得モジュールと、前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいてターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される処理モジュールと、を備える音声信号処理装置が提供される。
第3の態様によれば、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが上記実施例に記載の音声信号処理方法を実行できる電子機器が提供される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令が、コンピュータに上記実施例に記載の音声信号処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体が提供される。
第5の態様によれば、コンピュータに上記実施例に記載の音声信号処理方法を実行させるコンピュータプログラムが提供される。
本出願の上記実施例は、少なくとも以下のような利点または有益な効果を奏する。
処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。
なお、この概要部分に記載されている内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の第1の実施例に係る音声信号処理方法の概略フローチャートである。 本出願の実施例に係る音声信号の例示図である。 本出願の実施例に係る音声信号の例示図である。 本出願の実施例に係る音声信号処理の例示図である。 本出願の実施例に係る音声信号処理の例示図である。 本出願の第2の実施例に係る音声信号処理方法の概略フローチャートである。 本出願の実施例に係る音声信号サンプルを取得するシーンの例示図である。 本出願の第3の実施例に係る音声信号処理方法のシーンの概略図である。 本出願の第3の実施例に係る音声信号処理方法のシーンの概略図である。 本出願の第3の実施例に係る音声信号処理方法のシーンの概略図である。 本出願の第4の実施例に係る音声信号処理装置の概略構成図である。 本出願の第5の実施例に係る音声信号処理装置の概略構成図である。 本出願の第6の実施例に係る音声信号処理装置の概略構成図である。 本出願の実施例の音声信号処理方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照して本出願の実施例の音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体を説明する。
実際の応用シーンでは、スマートスピーカー、スマートテレビ、車載音声デバイスなどの音声インタラクションに基づくデバイスが、音声信号を認識処理する必要があるため、マイクアレイなどのオーディオ収集機器によって収集された音声信号を処理することは非常に重要である。
関連技術では、フロントエンド信号処理アルゴリズムに基づいてマイクアレイなどの音声収集機器によって収集された音声信号を処理する方式があるが、スマートデバイス側とリモート認識バージョンの継続的な更新に伴い、このような音声信号処理方式の更新効率と効果が比較的悪く、時間の経過につれて音声認識効果に影響を与えるという問題がある。
本出願は、音声認識を行う前に、複素ニューラルネットワークによってトレーニングされた複素ニューラルネットワークモデルを使用して、収集された処理対象音声信号及び参照音声信号に対して振幅及び位相の処理を同時に行い、すなわち、参照回路の振幅及び位相と、元のマイクなどのオーディオ収集機器の回路の振幅及び位相との間の関係を学習して、より正確な認識対象ターゲット音声信号を取得することにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる音声信号処理方法を提案する。
具体的には、図1は、本出願の第1の実施例に係る音声信号処理方法の概略フローチャートであり、図1に示すように、当該方法は、以下のステップ101〜ステップ104を含む。
ステップ101において、処理対象音声信号及び参照音声信号を取得する。
本出願の実施例において、スマートスピーカー、スマートテレビなどのスマートデバイスはすべて、1つまたは複数のマイクアレイなどのオーディオ収集機器によって収集された処理対象音声信号を有する。
なお、スマートデバイスが、モノラルスピーカー、デュアルチャンネルスピーカー、4チャンネルスピーカーなどのスピーカーを備え、スピーカーから再生された音声信号は、つまりスマートデバイスのスピーカー回路によって収集された参照信号であってもよいことを理解されたい。従って、マイクアレイなどのオーディオ収集機器によって収集された処理対象音声信号は、認識対象ターゲット音声信号及び通信対象ターゲット音声信号を含むだけでなく、スピーカーから再生された参照信号もマイクアレイなどのオーディオ収集機器によって収集される。音声認識効果を向上させるために、処理対象音声信号から、収集された参照信号を除去する必要がある。
本出願の実施例において、直接収集された音声信号すべては時間領域音声信号であり、例えば、図2に示すように、各サンプリング点に対する1次元の時間領域音声信号である。
ステップ102において、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。
本出願の実施例において、処理対象音声信号及び参照音声信号を取得してから、それぞれ前処理し、すなわち時間領域音声信号をフレーム化し、周波数領域信号に変換する。
本出願の実施例において、処理対象音声信号と参照音声信号をそれぞれ前処理する方式はたくさんあり、具体的な応用シーンに応じて選択して設定することができる。第1の例において、処理対象音声信号及び参照音声信号に対して高速フーリエ変換を行って、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。第2の例において、処理対象音声信号に対して高速フーリエ変換を行って、参照音声信号に対してウェーブレット変換を行って、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。第3の例において、処理対象音声信号に対してウェーブレット変換を行って、関数空間分解式によって参照音声信号を処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。
ここで、処理対象周波数領域音声信号及び参照周波数領域音声信号は、2次元の音声信号であり、例えば、図3に示す2次元の音声信号のように、横方向が時間次元であり、縦方向が周波数次元であり、すなわち異なる時刻における各周波数の振幅及び位相である。
ステップ103において、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得する。
本出願の実施例において、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得した後、同時に複素ニューラルネットワークモデルに入力し、ここで、複素ニューラルネットワークモデルは、音声信号サンプル及び周波数領域音声信号の理想的な比に基づいて複素ニューラルネットワークによって事前にトレーニングされることによって生成され、入力が処理対象周波数領域音声信号及び参照周波数領域音声信号であり、出力がターゲット音声信号と処理対象音声信号との周波数領域音声信号比である。
ここで、周波数領域音声信号比は、前処理後の同じ時刻、すなわち各フレームの各周波数帯域の各周波数帯域比係数、すなわち振幅及び位相比として理解することができる。
可能な一実現形態として、各時刻における各周波数の処理対象振幅及び位相と、参照振幅及び位相とを複素ニューラルネットワークモデルに入力して、各時刻、すなわち連続するN個の時刻における各周波数のターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、ここで、Nは正の整数であり、時刻の単位は一般に秒である。
なお、同じ時刻における各周波数帯域の振幅及び位相比について、最終的に異なる時刻における各周波数帯域の振幅及び位相比を得ることができる。また、処理効率を向上させるために、振幅及び位相比は、振幅と位相からなる複素比、振幅と振幅からなる比、及び位相と位相からなる比のうちの1つまたは複数であってもよい。
ステップ104において、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。
本出願の実施例において、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得する方式はたくさんあり、可能な一実現形態として、各同じ時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得する。
例えば、スピーカーからの参照音声信号が80%を占め、外部から受信された認識対象ターゲット音声信号が20%を占めると仮定すると、受信された処理対象音声信号に0.2を掛けることによってターゲット音声信号が取得される。ここで、各時刻の各周波数帯域が異なる比率係数、すなわち周波数領域音声信号比を有するため、時刻と周波数を1対1で対応させて処理する必要がある。
図4に示すように、図4aは、処理対象周波数領域音声信号を示し、図4bは周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得することを示す。
さらに、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得し、すなわち、周波数領域音声信号を時間領域音声信号に変換することにより、後続に音声認識モデルに入力して音声認識を行う。これにより、音声認識の精度がさらに向上する。
要約すると、本出願の実施例の音声信号処理方法は、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。
上記実施例の説明に基づいて、複素ニューラルネットワークモデルは事前に音声信号サンプル及び複素ニューラルネットワークによってトレーニングされて生成されるものであると理解することができ、具体的には図5を参照して詳細に説明する。
図5は、本出願の第2の実施例に係る音声信号処理方法の概略フローチャートであり、図5に示すように、当該方法は、以下のステップ201〜ステップ203を含む。
ステップ201において、複数の処理対象音声信号サンプル、複数の参照音声信号サンプル、及び複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得する。
本出願の実施例において、使用される音声信号サンプルは、一般的にシミュレート及びエミュレートされる。具体的には、一方では、実際に記録されラベル付けられたデータ(またはオンラインで収集されラベル付けられたデータ)を採用してもよく、他方では、シミュレートされたデータを採用してもよく、シミュレートプロセスには2つの状況が含まれ、1つは近接場音声が複数の処理対象遠方場音声にエミュレートされることであり、もう1つは複数の処理対象遠方場音声が内部ノイズのある全二重音声にエミュレートされることである。
ここで、近接場音声が遠方場音声にシミュレートされる方式は3つあり、1つ目は、シミュレートされたインパルス応答関数によってシミュレートすることであり、2つ目は、実際に記録されたインパルス応答関数によってシミュレートすることであり、3つ目は近接場信号を再生してシミュレートすることである。
ここで、遠方場音声から全二重音声へのシミュレーションにも3つの方式があり、1つ目は、実際に記録された外部が静かなデバイス動作のデータを使用して、全二重音声を生成することである。2つ目は、デバイスによって記録されたインパルス応答関数によってシミュレートすることにより、全二重音声を生成することである。3つ目は、近接場再生とデバイス動作を同時に記録することにより、全二重音声を取得することである。
可能な一実現形態として、図6に示すように、異なるサイズの空間領域と異なる位置のマイクアレイなどのオーディオ収集機器に対してシミュレートし、複数のシミュレートインパルス応答を取得し、または実際の部屋で複数のリアルインパルス応答を記録し、すなわち複数のインパルス応答を取得し、近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答(シミュレートインパルス応答及びリアルインパルス応答を含む)に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得し、異なるオーディオデバイスの複数の処理対象音声信号を収集して(収集時に外部が静かなままであることが要求される)、前記複数のシミュレート外部音声信号と予め設定された信号対ノイズ比に基づいて加算し、前記複数の処理対象音声信号サンプルを取得し、異なるオーディオデバイスの複数のスピーカー音声信号を複数の参照音声信号サンプルとして取得する。
なお、図6は単なる一例であり、マイクとスピーカーの数は具体的な応用シーンに応じて選択して設定でき、例えば、2つのマイクと1つのスピーカーのみがあり、つまり2つの処理対象音声信号、及び1つのスピーカー回路によって収集された参照音声信号があり、実際の応用では1つのマイクのみがあり、または3つ以上のマイクがあるなど可能性があり、スピーカーも2つ以上があり、いずれも具体的に選択して設定でき、これにより、モデルの有効性と実用性が向上する。
なお、対応する複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比に従って、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルをシミュレート及びエミュレートする。
ステップ202において、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得する。
本出願の実施例において、複素ニューラルネットワークは、複素畳み込みニューラルネットワーク、複素バッチ正規化、複素完全接続、複素アクティブ化、及び複素循環ニューラルネットワーク(複素長短期記憶人工ニューラルネットワークLSTM(Long Short−Term Memory)、複素ゲート制御循環単位ネットワークGRU(Gated Recurrent Unit)、及び複素エンコーダTransformerを備える)などからなる。
本出願の実施例において、複素ニューラルネットワーク層は、周波数の観点から2つのカテゴリで動作することができ、1つは各周波数が独立して処理され、異なる周波数間の結合がなく、結合関係が、同じ周波数の異なる時刻の間でのみ発生し、もう1つは周波数ハイブリッド処理である。1つ目は隣接する周波数間の結合であり、2つ目はすべての周波数間の結合である。
本出願の実施例において、複素ニューラルネットワークは、時間次元の観点から2つのカテゴリで動作することができ、1つは各時刻での独立した処理であり、もう1つは各時刻でのハイブリッド処理であり、1つ目は隣接する時間に基づく有限時刻の結合であり、2つ目はすべての時刻の結合である。
可能な一実現形態として、各時刻の各周波数の処理対象振幅及び位相サンプル、及び参照振幅及び位相サンプルを複素ニューラルネットワークモデルに入力して、各時刻の各周波数ターゲット音声信号と処理対象音声信号との周波数領域音声信号トレーニング比、すなわち振幅及び位相トレーニング比を取得する。
ステップ203において、予め設定された損失関数によって周波数領域音声信号の理想的な比及び周波数領域音声信号トレーニング比を算出し、複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、複素ニューラルネットワークモデルを取得する。
本出願の実施例において、例えば、最小二乗誤差損失関数によって周波数領域音声信号の理想的な比及び周波数領域音声信号トレーニング比を計算することによって最小二乗誤差を取得し、複素ニューラルネットワークのネットワークパラメータが、例えば各ネットワーク処理によって得られた周波数領域音声信号トレーニング比と周波数領域音声信号の理想的な比とが同じまたは差が小さいような、予め設定された要件を満たすまで、複素ニューラルネットワークの各ネットワークのネットワークパラメータを最小二乗誤差に基づいて調整し、複素ニューラルネットワークモデルを取得する。
これにより、トレーニングされた複素ニューラルネットワークモデルが音声信号を処理する場合、参照音声信号の同じ周波数の「振幅」と「位相」は、空気の伝播を経て、他の周波数に拡散することなく、すなわち「周波数の振幅と位相には安定性がある」。参照音声信号の「振幅」及び「位相」と、異なる処理対象音声信号の「振幅」及び「位相」との間に、一定の物理的依存関係があり、専用の複素ネットワークを設計して学習し、すなわち複素完全接続を使用する。参照音声信号の「振幅」及び「位相」と、異なる処理対象音声信号の「振幅」及び「位相」との間に時間とともに一定の関連性があり、専用の複素ネットワークを設計して学習し、すなわち複素LSTM、複素GRU、複素Transformerを使用する。参照音声信号の「振幅」及び「位相」と、異なる処理対象音声信号の「振幅」及び「位相」との相互関係は、比較的大きなスケールで「並進不変性」があり、専用の複素ネットワークを設計して学習し、すなわち複素循環畳み込みネットワークを使用する。
上記実施例の説明によれば、本出願の複素ニューラルネットワークモデルは、図7に示すようなトレーニングされた1つまたは複数の同じまたは異なる複素ニューラルネットワークモデルであってもよく、複数の処理対象音声信号及び対応する参照信号を同時に処理してもよいし、処理対象音声信号を周波数分割規則に従って複数グループの処理対象音声信号に分割してもよいし、時間ウィンドウに従って複数グループの処理対象音声信号に分割してそれぞれ処理してから組み合わせてもよい。
具体的には、図7を例として説明し、図7は1つの参照信号と1つの処理対象信号の処理の概略図であり、処理対象音声信号M(t)及び参照音声信号R(t)に対して高速フーリエ変換(FFT、Fast Fourier Transform)を行ってから、多層の異なる複素ニューラルネットワーク(例えば、Complex BNニューラルネットワークにおける複雑な正規化ネットワーク層batch−normalization、異なる層の畳み込みニューラルネットワーク:第1の複雑な畳み込みニューラルネットワーク層 Complex f COV:4@1X4、第2の複雑な畳み込みニューラルネットワーク層 Complex f COV:2@1X4及び第3の複雑な畳み込みニューラルネットワーク層 Complex f COV:4@1X4など)に入力して、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、さらに各同じ時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得して、音声認識モデルに入力することができる。
具体的には、図8を例として説明し、図8は、参照信号と処理対象信号の処理の概略図であり、処理対象音声信号M(t)と参照音声信号R(t)に対して高速フーリエ変換(FFT、Fast Fourier Transform)を行ってから、多層の異なる複素ニューラルネットワーク(例えば、Complex BNニューラルネットワークにおける複雑な正規化ネットワーク層batch−normalization、異なる層の畳み込みニューラルネットワーク:第1の複雑な畳み込みニューラルネットワーク層 Complex f COV:4@1X4、第2の複雑な畳み込みニューラルネットワーク層 Complex f COV:2@1X4及び第3の複雑な畳み込みニューラルネットワーク層 Complex f COV:4@1X4など)に入力して、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、さらに各同じ時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得して、音声認識モデルに入力することができる。
なお、参照信号入力の数はスピーカー回路の数に依存し、これは、スピーカー回路の数と同じ数の参照信号入力があるからである。具体的には、図9に示すように、R1(t)〜RM(t)に対して高速フーリエ変換(FFT、Fast Fourier Transform)を行ってから、多層の異なる複素ニューラルネットワーク(例えば、Complex BNニューラルネットワークにおける複雑な正規化ネットワーク層batch−normalization、異なる層の畳み込みニューラルネットワーク:第1の複雑な畳み込みニューラルネットワーク層 Complex f COV:4@1X4、第2の複雑な畳み込みニューラルネットワーク層 Complex f COV:2@1X4及び第3の複雑な畳み込みニューラルネットワーク層 Complex f COV:4@1X4など)に入力して処理し、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、さらに各時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得して、音声認識モデルに入力する。ここで、Mは1よりも大きい正の整数であり、M(t)が1つか複数かは、シーンの設定に応じて選択できる。
なお、図7〜図9は単なる例であり、1つの参照信号及び1つの処理対象信号の処理であってもよいし、複数の処理対象及び複数の参照を一緒に処理してもよいし、複数の参照信号と1つの処理対象信号の処理であってもよいし、複数の参照信号と1つの処理対象信号が時間及び周波数分割を行なわれた処理であってもよい。具体的な応用シーンに応じて選択して設定することができる。
本出願の実施例において、周波数領域音声信号は、1つの文(数秒から数十秒)の各時刻における各周波数の振幅及び位相であり、すなわち周波数領域音声信号は、連続するN個の時刻における各周波数の振幅及び位相であり、ここで、Nは1よりも大きい正の整数であり、予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割し、1つの文の周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの処理対象振幅及び位相を取得し、予め設定された周波数分割規則に従って1つの周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの参照振幅及び位相を取得する。
例えば、16kサンプリング16bit量子化された処理対象音声信号は、前処理されることによって256個の周波数が得られてからグループ化され、先頭の0〜63が1グループ、64〜127が1グループ、128〜191が1グループ、192〜256が1グループ。各グループがそれぞれ複素ニューラルネットワークモデルに入力されて処理される。
具体的には、前処理された処理対象周波数領域音声信号及び参照周波数領域音声信号を分割し、その後、分割によって得られた各グループをそれぞれ複素ニューラルネットワークモデルに入力し、またはそれぞれ予め設定された異なる複素ニューラルネットワークモデルに入力し、最終的にターゲット音声に関連する比率を取得する。また、この分割には参考音声の信号の分割も含まれなければならず、それらは対応している。
本出願の実施例において、周波数領域音声信号は、1つの文(数秒から数十秒)の各時刻における各周波数の振幅及び位相であり、すなわち周波数領域音声信号は、連続するN個の時刻における各周波数の振幅及び位相であり、ここで、Nは1よりも大きい正の整数であり、時間スライディングウィンドウアルゴリズムによって1つの文の周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割し、すなわち時間に従ってスライディングウィンドウ分割を行って、複数グループの処理対象振幅及び位相を取得する。時間スライディングウィンドウアルゴリズムによって、1つの文の周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割し、すなわち時間に従ってスライディングウィンドウ分割を行って、複数グループの参照振幅及び位相を取得する。ここで、処理対象音声信号におけるターゲット音声信号が、一般的に過去一定期間の処理対象音声信号と参照音声信号とに関連するが、より古い時間の音声信号とは無関係である。
なお、周波数に従って分割することと時間スライディングウィンドウに従って分割することを組み合わせて処理することができ、すなわち周波数に従って分割しても、時間スライディングウィンドウに従って分割しても、複数グループの処理対象振幅及び位相、及び参照振幅及び位相を取得することができ、音声信号処理の効果がさらに向上する。
さらに、複数グループの処理対象振幅及び位相、複数グループの参照振幅及び位相をそれぞれ異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、複数グループのターゲット音声信号と処理対象音声信号との振幅と及び位相比を組み合わせて、ターゲット音声信号と処理対象音声信号との振幅及び位相比を取得する。同じ複素ニューラルネットワークモデルに入力してもよいが、異なる複素ニューラルネットワークモデルによって処理することによって、音声信号処理の効果をさらに向上させることができる。
上記実施例を実現するために、本出願は、音声信号処理装置をさらに提案する。図10は、本出願の第4の実施例に係る音声信号処理装置の概略構成図であり、図10に示すように、当該音声信号処理装置は、第1の取得モジュール1001と、第1の前処理モジュール1002と、第2の取得モジュール1003と、処理モジュール1004と、を備える。
第1の取得モジュール1001は、処理対象音声信号及び参照音声信号を取得するように構成される。
第1の前処理モジュール1002は、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するように構成される。
第2の取得モジュール1003は、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得するように構成される。
処理モジュール1004は、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得するように構成される。
なお、前述した音声信号処理方法の説明は、本発明の実施例の音声信号処理装置にも適用でき、その実現原理は類似しているので、ここでは説明を省略する。
要約すると、本出願の実施例に係る音声信号処理装置は、マイクアレイによって収集された処理対象音声信号及びスピーカー回路によって収集された参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。
本出願の一実施例において、図11に示すように、図10をもとに、前記音声信号処理装置は、第3の取得モジュール1005と、第4の取得モジュール1006と、第2の前処理モジュール1007と、トレーニングモジュール1008と、をさらに備える。
ここで、第3の取得モジュール1005は、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するように構成される。
第4の取得モジュール1006は、複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するように構成される。
第2の前処理モジュール1007は、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するように構成される。
トレーニングモジュール1008は、予め設定された損失関数によって周波数領域音声信号の理想的な比及び周波数領域音声信号トレーニング比を算出し、複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、複素ニューラルネットワークモデルを取得するように構成される。
本出願の一実施例において、第3の取得モジュール1005は、具体的には、複数のインパルス応答を取得し、近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、近接場ノイズ信号及び近接場音声信号をそれぞれ複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得し、異なるオーディオデバイスの複数の処理対象音声信号を収集して、予め設定された信号対ノイズ比に基づいて複数のシミュレート外部音声信号と加算して、複数の処理対象音声信号サンプルを取得し、異なるオーディオデバイスの複数のスピーカー音声信号を複数の参照音声信号サンプルとして取得するように構成される。
本出願の一実施例において、周波数領域音声信号は、1つの文(数秒から数十秒)の各時刻における各周波数の振幅及び位相であり、図12に示すように、図10をもとに、前記音声信号処理装置は、第1の分割モジュール1009と、第2の分割モジュール1010と、第3の分割モジュール1011と、第4の分割モジュール1012と、をさらに備える。
第1の分割モジュール1009は、予め設定された周波数分割規則に従って処理対象周波数領域音声信号を分割し、1つの文の周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの処理対象振幅及び位相を取得するように構成される。
第2の分割モジュール1010は、前記予め設定された周波数分割規則に従って前記参照周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの参照振幅及び位相を取得するように構成される。
第3の分割モジュール1011は、時間スライディングウィンドウアルゴリズムによって、周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割して、複数グループの処理対象振幅及び位相を取得するように構成される。
第4の分割モジュール1012は、前記時間スライディングウィンドウアルゴリズムによって、参照周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割して、複数グループの参照振幅及び位相を取得するように構成される。
本出願の一実施例において、第2の取得モジュール1003は、具体的には、前記複数グループの処理対象振幅及び位相、及び前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するように構成される。
本出願の一実施例において、処理モジュール1004は、具体的には、各同じ時刻における同じ周波数の前記処理周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される。
なお、前述した音声信号処理方法の説明は、本発明の実施例に係る音声信号処理装置にも適用でき、その実現原理は類似しているので、ここでは説明を省略する。要約すると、本出願の実施例に係る音声信号処理装置は、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図13、本出願の実施例に係る音声信号処理方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図13に示すように、当該電子機器は、1つ又は複数のプロセッサ1301と、メモリ1302と、高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図13では、1つのプロセッサ1301を例とする。
メモリ1302は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願により提供される音声信号処理方法を実行するように、少なくとも1つのプロセッサによって実行される命令を記憶が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供される音声信号処理方法を実行するためのコンピュータ命令を記憶する。
メモリ1302は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における音声信号処理方法に対応するプログラム命令/モジュール(例えば、図8に示す第1の取得モジュール1001、第1の前処理モジュール1002、第2の取得モジュール1003、及び処理モジュール1004)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ1301は、メモリ1302に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声信号処理方法を実現する。
メモリ1302は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、音声信号処理方法ことに基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ1302は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ1302は、プロセッサ1301に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して音声信号処理の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
音声信号処理方法を実現するための電子機器は、入力装置1303と出力装置1304とをさらに備えることができる。プロセッサ1301、メモリ1302、入力装置1303、及び出力装置1304は、バス又は他の方式を介して接続することができ、図13では、バスを介して接続することを例とする。
入力装置1303は、入力された数字又は文字情報を受信することができ、及び音声信号処理の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1304は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を備える。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系の中のホスト製品であり、従来の物理ホストとVPS(Virtual Private Server 仮想プライベートサーバ)サービスでは、管理が難しく、業務拡張性が弱いという欠点を解決している。
本出願の実施例の技術案によれば、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (17)

  1. 処理対象音声信号及び参照音声信号を取得するステップと、
    前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するステップと、
    前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップと、
    前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップと、
    を含む音声信号処理方法。
  2. 前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力するステップの前に、
    複数の処理対象音声信号サンプル、複数の参照音声信号サンプル、及び複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するステップと、
    前記複数の処理対象音声信号サンプル及び前記複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するステップと、
    予め設定された損失関数によって前記周波数領域音声信号の理想的な比及び前記周波数領域音声信号トレーニング比を算出し、前記複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、前記複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、前記複素ニューラルネットワークモデルを取得するステップと、
    を含む請求項1に記載の音声信号処理方法。
  3. 前記複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するステップが、
    複数のインパルス応答を取得するステップと、
    近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得するステップと、
    異なるオーディオデバイスの複数の処理対象音声信号を収集して、予め設定された信号対ノイズ比に基づいて前記複数のシミュレート外部音声信号と加算して、前記複数の処理対象音声信号サンプルを取得するステップと、
    前記異なるオーディオデバイスの複数のスピーカー音声信号を前記複数の参照音声信号サンプルとして取得するステップと、
    を含む請求項2に記載の音声信号処理方法。
  4. 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
    予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するステップと、
    前記予め設定された周波数分割規則に従って、前記参照周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの参照振幅及び位相を取得するステップと、
    を含む請求項1に記載の音声信号処理方法。
  5. 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
    時間スライディングウィンドウアルゴリズムによって、前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するステップと、
    前記時間スライディングウィンドウアルゴリズムによって、前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するステップと、
    を含む請求項1に記載の音声信号処理方法。
  6. 前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記ターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップが、
    前記複数グループの処理対象振幅及び位相、前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得するステップと、
    前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するステップと、
    を含む請求項4または5に記載の音声信号処理方法。
  7. 前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップが、
    各同じ時刻における同じ周波数の前記処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップを含む請求項1に記載の音声信号処理方法。
  8. 処理対象音声信号及び参照音声信号を取得するように構成される第1の取得モジュールと、
    前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理してから、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するように構成される第1の前処理モジュールと、
    前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するように構成される第2の取得モジュールと、
    前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される処理モジュールと、
    を備える音声信号処理装置。
  9. 複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するように構成される第3の取得モジュールと、
    複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するように構成される第4の取得モジュールと、
    前記複数の処理対象音声信号サンプル及び前記複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するように構成される第2の前処理モジュールと、
    予め設定された損失関数によって前記周波数領域音声信号の理想的な比及び前記周波数領域音声信号トレーニング比を算出し、前記複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、前記複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、前記複素ニューラルネットワークモデルを取得するように構成されるトレーニングモジュールと、
    を備える請求項8に記載の音声信号処理装置。
  10. 前記第3の取得モジュールが、
    複数のインパルス応答を取得し、
    近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得し、
    異なるオーディオデバイスの複数の処理対象音声信号を収集して、前記予め設定された信号対ノイズ比に基づいて前記複数のシミュレート外部音声信号と加算し、前記複数の処理対象音声信号サンプルを取得し、
    前記異なるオーディオデバイスの複数のスピーカー音声信号を前記複数の参照音声信号サンプルとして取得する請求項9に記載の音声信号処理装置。
  11. 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
    予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するように構成される第1の分割モジュールと、
    前記予め設定された周波数分割規則に従って前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するように構成される第2の分割モジュールと、
    を備える請求項8に記載の音声信号処理装置。
  12. 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
    時間スライディングウィンドウアルゴリズムによって前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するように構成される第3の分割モジュールと、
    前記時間スライディングウィンドウアルゴリズムによって前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するように構成される第4の分割モジュールと、
    を備える請求項8に記載の音声信号処理装置。
  13. 前記第2の取得モジュールが、
    前記複数グループの処理対象振幅及び位相、前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、
    前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するように構成される請求項11または12に記載の音声信号処理装置。
  14. 前記処理モジュールが、
    各同じ時刻における同じ周波数の前記処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される請求項8に記載の音声信号処理装置。
  15. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から7のいずれか一項に記載の音声信号処理方法を実行できる電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から7のいずれか一項に記載の音声信号処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータに請求項1から7のいずれか一項に記載の音声信号処理方法を実行させるコンピュータプログラム。
JP2021120083A 2020-10-12 2021-07-21 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 Active JP7214798B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011086047.6A CN112420073B (zh) 2020-10-12 2020-10-12 语音信号处理方法、装置、电子设备和存储介质
CN202011086047.6 2020-10-12

Publications (2)

Publication Number Publication Date
JP2021167977A true JP2021167977A (ja) 2021-10-21
JP7214798B2 JP7214798B2 (ja) 2023-01-30

Family

ID=74854413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021120083A Active JP7214798B2 (ja) 2020-10-12 2021-07-21 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20210319802A1 (ja)
JP (1) JP7214798B2 (ja)
CN (1) CN112420073B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112998B (zh) * 2021-05-11 2024-03-15 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、混响效果复现方法、设备及可读存储介质
CN113689878A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 回声消除方法、回声消除装置及计算机可读存储介质
CN113823314B (zh) * 2021-08-12 2022-10-28 北京荣耀终端有限公司 语音处理方法和电子设备
CN114141224B (zh) * 2021-11-30 2023-06-09 北京百度网讯科技有限公司 信号处理方法和装置、电子设备、计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028618A (ja) * 2016-08-18 2018-02-22 日本電信電話株式会社 マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP2020148909A (ja) * 2019-03-13 2020-09-17 株式会社東芝 信号処理装置、信号処理方法およびプログラム
WO2021171829A1 (ja) * 2020-02-26 2021-09-02 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
JP2021184587A (ja) * 2019-11-12 2021-12-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100758206B1 (ko) * 2006-09-14 2007-09-12 주식회사 쏠리테크 반향성분 제거 시스템 및 반향성분 제거방법
EP2673778B1 (en) * 2011-02-10 2018-10-10 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
JP6260504B2 (ja) * 2014-02-27 2018-01-17 株式会社Jvcケンウッド オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
US9881631B2 (en) * 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US11456005B2 (en) * 2017-11-22 2022-09-27 Google Llc Audio-visual speech separation
US10546593B2 (en) * 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
WO2019143759A1 (en) * 2018-01-18 2019-07-25 Knowles Electronics, Llc Data driven echo cancellation and suppression
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN108564963B (zh) * 2018-04-23 2019-10-18 百度在线网络技术(北京)有限公司 用于增强语音的方法和装置
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN109841206B (zh) * 2018-08-31 2022-08-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN111261179A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 回声消除方法及装置和智能设备
US10803881B1 (en) * 2019-03-28 2020-10-13 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US11393487B2 (en) * 2019-03-28 2022-07-19 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
EP3716270B1 (en) * 2019-03-29 2022-04-06 Goodix Technology (HK) Company Limited Speech processing system and method therefor
CN110992974B (zh) * 2019-11-25 2021-08-24 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110970046B (zh) * 2019-11-29 2022-03-11 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN110808063A (zh) * 2019-11-29 2020-02-18 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于处理语音的装置
CN111048061B (zh) * 2019-12-27 2022-12-27 西安讯飞超脑信息科技有限公司 回声消除滤波器的步长获取方法、装置及设备
CN111223493B (zh) * 2020-01-08 2022-08-02 北京声加科技有限公司 语音信号降噪处理方法、传声器和电子设备
CN111292759B (zh) * 2020-05-11 2020-07-31 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028618A (ja) * 2016-08-18 2018-02-22 日本電信電話株式会社 マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP2020148909A (ja) * 2019-03-13 2020-09-17 株式会社東芝 信号処理装置、信号処理方法およびプログラム
JP2021184587A (ja) * 2019-11-12 2021-12-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
WO2021171829A1 (ja) * 2020-02-26 2021-09-02 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム

Also Published As

Publication number Publication date
CN112420073A (zh) 2021-02-26
CN112420073B (zh) 2024-04-16
JP7214798B2 (ja) 2023-01-30
US20210319802A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP2021167977A (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
CN103426435B (zh) 具有移动约束的通过独立分量分析的源分离
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
KR102577513B1 (ko) 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치
US20190198036A1 (en) Information processing apparatus, information processing method, and recording medium
CN103426434A (zh) 结合源方向信息通过独立分量分析的源分离
CN103426437A (zh) 使用利用混合多元概率密度函数的独立分量分析的源分离
CN113921022B (zh) 音频信号分离方法、装置、存储介质和电子设备
Barker et al. The CHiME challenges: Robust speech recognition in everyday environments
CN113643714B (zh) 音频处理方法、装置、存储介质及计算机程序
Chen et al. Sound localization by self-supervised time delay estimation
US20240244390A1 (en) Audio signal processing method and apparatus, and computer device
CN112542176B (zh) 信号增强方法、装置及存储介质
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
CN112466327B (zh) 语音处理方法、装置和电子设备
WO2024018429A1 (en) Audio signal processing method, audio signal processing apparatus, computer device and storage medium
Li et al. A fast convolutional self-attention based speech dereverberation method for robust speech recognition
CN117373468A (zh) 远场语音增强处理方法、装置、计算机设备和存储介质
JP2022020062A (ja) 特徴情報のマイニング方法、装置及び電子機器
Li RETRACTED ARTICLE: Speech-assisted intelligent software architecture based on deep game neural network
Yang et al. RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization
CN114446316B (zh) 音频分离方法、音频分离模型的训练方法、装置及设备
Zhou et al. MetaRL-SE: a few-shot speech enhancement method based on meta-reinforcement learning
Shalev et al. Indoors audio classification with structure image method for simulating multi-room acoustics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230118

R150 Certificate of patent or registration of utility model

Ref document number: 7214798

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150