JP2021167977A

JP2021167977A - 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体

Info

Publication number: JP2021167977A
Application number: JP2021120083A
Authority: JP
Inventors: ジンフェンバイ，; Jinfeng Bai
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-12
Filing date: 2021-07-21
Publication date: 2021-10-21
Anticipated expiration: 2041-07-21
Also published as: CN112420073A; CN112420073B; JP7214798B2; US20210319802A1

Abstract

【課題】音声信号処理の効率及び効果を向上させ、後続の音声認識の精度及び音声通信の品質を向上させる音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体を提供する。
【解決手段】音声信号処理方法は、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいてターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。
【選択図】図１

Description

本出願は、音声技術及び深層学習などの人工知能技術の分野に関し、特に音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体に関する。

人工知能とは、コンピュータに人間の思考過程や知能行動（例えば学習、推論、思考、計画など）をシミュレートさせる学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能技術は、一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能フトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの大きな方向を含む。

スマートホームやモバイルインターネットの急速な発展に伴い、スマートスピーカー、スマートテレビ、車載音声デバイスなどの、音声インタラクションに基づくデバイスがますます人気を集めており、人々の日常生活に入り始めているため、音声信号を認識処理することは非常に重要である。

関連技術では、主に音声信号ごとに個別に残響除去を行い、ウェイクアップと複数のマイクデータを用いて音声シークを行い、複数の音声を１つの音声に合成し、外部の固定方向のノイズ干渉源などを抑制し、最後にゲイン制御モジュールで音声の振幅を調整し、このような方式は、更新効率と効果が比較的悪く、時間の経過につれて音声認識効果に影響を与える。

本出願は、上記技術的課題を解決することができる音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体を提供する。

第１の態様によれば、処理対象音声信号及び参照音声信号を取得するステップと、前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するステップと、前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップと、前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいてターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップと、を含む音声信号処理方法が提供される。

第２の態様によれば、処理対象音声信号及び参照音声信号を取得するように構成される第１の取得モジュールと、前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するように構成される第１の前処理モジュールと、前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するように構成される第２の取得モジュールと、前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいてターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される処理モジュールと、を備える音声信号処理装置が提供される。

第３の態様によれば、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが上記実施例に記載の音声信号処理方法を実行できる電子機器が提供される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令が、コンピュータに上記実施例に記載の音声信号処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体が提供される。

第５の態様によれば、コンピュータに上記実施例に記載の音声信号処理方法を実行させるコンピュータプログラムが提供される。

本出願の上記実施例は、少なくとも以下のような利点または有益な効果を奏する。
処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。

なお、この概要部分に記載されている内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の第１の実施例に係る音声信号処理方法の概略フローチャートである。本出願の実施例に係る音声信号の例示図である。本出願の実施例に係る音声信号の例示図である。本出願の実施例に係る音声信号処理の例示図である。本出願の実施例に係る音声信号処理の例示図である。本出願の第２の実施例に係る音声信号処理方法の概略フローチャートである。本出願の実施例に係る音声信号サンプルを取得するシーンの例示図である。本出願の第３の実施例に係る音声信号処理方法のシーンの概略図である。本出願の第３の実施例に係る音声信号処理方法のシーンの概略図である。本出願の第３の実施例に係る音声信号処理方法のシーンの概略図である。本出願の第４の実施例に係る音声信号処理装置の概略構成図である。本出願の第５の実施例に係る音声信号処理装置の概略構成図である。本出願の第６の実施例に係る音声信号処理装置の概略構成図である。本出願の実施例の音声信号処理方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、図面を参照して本出願の実施例の音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体を説明する。

実際の応用シーンでは、スマートスピーカー、スマートテレビ、車載音声デバイスなどの音声インタラクションに基づくデバイスが、音声信号を認識処理する必要があるため、マイクアレイなどのオーディオ収集機器によって収集された音声信号を処理することは非常に重要である。

関連技術では、フロントエンド信号処理アルゴリズムに基づいてマイクアレイなどの音声収集機器によって収集された音声信号を処理する方式があるが、スマートデバイス側とリモート認識バージョンの継続的な更新に伴い、このような音声信号処理方式の更新効率と効果が比較的悪く、時間の経過につれて音声認識効果に影響を与えるという問題がある。

本出願は、音声認識を行う前に、複素ニューラルネットワークによってトレーニングされた複素ニューラルネットワークモデルを使用して、収集された処理対象音声信号及び参照音声信号に対して振幅及び位相の処理を同時に行い、すなわち、参照回路の振幅及び位相と、元のマイクなどのオーディオ収集機器の回路の振幅及び位相との間の関係を学習して、より正確な認識対象ターゲット音声信号を取得することにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる音声信号処理方法を提案する。

具体的には、図１は、本出願の第１の実施例に係る音声信号処理方法の概略フローチャートであり、図１に示すように、当該方法は、以下のステップ１０１〜ステップ１０４を含む。

ステップ１０１において、処理対象音声信号及び参照音声信号を取得する。

本出願の実施例において、スマートスピーカー、スマートテレビなどのスマートデバイスはすべて、1つまたは複数のマイクアレイなどのオーディオ収集機器によって収集された処理対象音声信号を有する。

なお、スマートデバイスが、モノラルスピーカー、デュアルチャンネルスピーカー、４チャンネルスピーカーなどのスピーカーを備え、スピーカーから再生された音声信号は、つまりスマートデバイスのスピーカー回路によって収集された参照信号であってもよいことを理解されたい。従って、マイクアレイなどのオーディオ収集機器によって収集された処理対象音声信号は、認識対象ターゲット音声信号及び通信対象ターゲット音声信号を含むだけでなく、スピーカーから再生された参照信号もマイクアレイなどのオーディオ収集機器によって収集される。音声認識効果を向上させるために、処理対象音声信号から、収集された参照信号を除去する必要がある。

本出願の実施例において、直接収集された音声信号すべては時間領域音声信号であり、例えば、図２に示すように、各サンプリング点に対する１次元の時間領域音声信号である。

ステップ１０２において、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。

本出願の実施例において、処理対象音声信号及び参照音声信号を取得してから、それぞれ前処理し、すなわち時間領域音声信号をフレーム化し、周波数領域信号に変換する。

本出願の実施例において、処理対象音声信号と参照音声信号をそれぞれ前処理する方式はたくさんあり、具体的な応用シーンに応じて選択して設定することができる。第１の例において、処理対象音声信号及び参照音声信号に対して高速フーリエ変換を行って、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。第２の例において、処理対象音声信号に対して高速フーリエ変換を行って、参照音声信号に対してウェーブレット変換を行って、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。第３の例において、処理対象音声信号に対してウェーブレット変換を行って、関数空間分解式によって参照音声信号を処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得する。

ここで、処理対象周波数領域音声信号及び参照周波数領域音声信号は、２次元の音声信号であり、例えば、図３に示す２次元の音声信号のように、横方向が時間次元であり、縦方向が周波数次元であり、すなわち異なる時刻における各周波数の振幅及び位相である。

ステップ１０３において、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得する。

本出願の実施例において、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得した後、同時に複素ニューラルネットワークモデルに入力し、ここで、複素ニューラルネットワークモデルは、音声信号サンプル及び周波数領域音声信号の理想的な比に基づいて複素ニューラルネットワークによって事前にトレーニングされることによって生成され、入力が処理対象周波数領域音声信号及び参照周波数領域音声信号であり、出力がターゲット音声信号と処理対象音声信号との周波数領域音声信号比である。

ここで、周波数領域音声信号比は、前処理後の同じ時刻、すなわち各フレームの各周波数帯域の各周波数帯域比係数、すなわち振幅及び位相比として理解することができる。

可能な一実現形態として、各時刻における各周波数の処理対象振幅及び位相と、参照振幅及び位相とを複素ニューラルネットワークモデルに入力して、各時刻、すなわち連続するＮ個の時刻における各周波数のターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、ここで、Ｎは正の整数であり、時刻の単位は一般に秒である。

なお、同じ時刻における各周波数帯域の振幅及び位相比について、最終的に異なる時刻における各周波数帯域の振幅及び位相比を得ることができる。また、処理効率を向上させるために、振幅及び位相比は、振幅と位相からなる複素比、振幅と振幅からなる比、及び位相と位相からなる比のうちの1つまたは複数であってもよい。

ステップ１０４において、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。

本出願の実施例において、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得する方式はたくさんあり、可能な一実現形態として、各同じ時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得する。

例えば、スピーカーからの参照音声信号が８０％を占め、外部から受信された認識対象ターゲット音声信号が２０％を占めると仮定すると、受信された処理対象音声信号に０．２を掛けることによってターゲット音声信号が取得される。ここで、各時刻の各周波数帯域が異なる比率係数、すなわち周波数領域音声信号比を有するため、時刻と周波数を１対１で対応させて処理する必要がある。

図４に示すように、図４ａは、処理対象周波数領域音声信号を示し、図４ｂは周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得することを示す。

さらに、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得し、すなわち、周波数領域音声信号を時間領域音声信号に変換することにより、後続に音声認識モデルに入力して音声認識を行う。これにより、音声認識の精度がさらに向上する。

要約すると、本出願の実施例の音声信号処理方法は、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。

上記実施例の説明に基づいて、複素ニューラルネットワークモデルは事前に音声信号サンプル及び複素ニューラルネットワークによってトレーニングされて生成されるものであると理解することができ、具体的には図５を参照して詳細に説明する。

図５は、本出願の第２の実施例に係る音声信号処理方法の概略フローチャートであり、図５に示すように、当該方法は、以下のステップ２０１〜ステップ２０３を含む。

ステップ２０１において、複数の処理対象音声信号サンプル、複数の参照音声信号サンプル、及び複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得する。

本出願の実施例において、使用される音声信号サンプルは、一般的にシミュレート及びエミュレートされる。具体的には、一方では、実際に記録されラベル付けられたデータ（またはオンラインで収集されラベル付けられたデータ）を採用してもよく、他方では、シミュレートされたデータを採用してもよく、シミュレートプロセスには２つの状況が含まれ、１つは近接場音声が複数の処理対象遠方場音声にエミュレートされることであり、もう１つは複数の処理対象遠方場音声が内部ノイズのある全二重音声にエミュレートされることである。

ここで、近接場音声が遠方場音声にシミュレートされる方式は３つあり、１つ目は、シミュレートされたインパルス応答関数によってシミュレートすることであり、２つ目は、実際に記録されたインパルス応答関数によってシミュレートすることであり、３つ目は近接場信号を再生してシミュレートすることである。

ここで、遠方場音声から全二重音声へのシミュレーションにも３つの方式があり、１つ目は、実際に記録された外部が静かなデバイス動作のデータを使用して、全二重音声を生成することである。２つ目は、デバイスによって記録されたインパルス応答関数によってシミュレートすることにより、全二重音声を生成することである。３つ目は、近接場再生とデバイス動作を同時に記録することにより、全二重音声を取得することである。

可能な一実現形態として、図６に示すように、異なるサイズの空間領域と異なる位置のマイクアレイなどのオーディオ収集機器に対してシミュレートし、複数のシミュレートインパルス応答を取得し、または実際の部屋で複数のリアルインパルス応答を記録し、すなわち複数のインパルス応答を取得し、近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答（シミュレートインパルス応答及びリアルインパルス応答を含む）に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得し、異なるオーディオデバイスの複数の処理対象音声信号を収集して（収集時に外部が静かなままであることが要求される）、前記複数のシミュレート外部音声信号と予め設定された信号対ノイズ比に基づいて加算し、前記複数の処理対象音声信号サンプルを取得し、異なるオーディオデバイスの複数のスピーカー音声信号を複数の参照音声信号サンプルとして取得する。

なお、図６は単なる一例であり、マイクとスピーカーの数は具体的な応用シーンに応じて選択して設定でき、例えば、２つのマイクと１つのスピーカーのみがあり、つまり２つの処理対象音声信号、及び１つのスピーカー回路によって収集された参照音声信号があり、実際の応用では１つのマイクのみがあり、または３つ以上のマイクがあるなど可能性があり、スピーカーも２つ以上があり、いずれも具体的に選択して設定でき、これにより、モデルの有効性と実用性が向上する。

なお、対応する複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比に従って、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルをシミュレート及びエミュレートする。

ステップ２０２において、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得する。

本出願の実施例において、複素ニューラルネットワークは、複素畳み込みニューラルネットワーク、複素バッチ正規化、複素完全接続、複素アクティブ化、及び複素循環ニューラルネットワーク（複素長短期記憶人工ニューラルネットワークＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ）、複素ゲート制御循環単位ネットワークＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）、及び複素エンコーダＴｒａｎｓｆｏｒｍｅｒを備える）などからなる。

本出願の実施例において、複素ニューラルネットワーク層は、周波数の観点から２つのカテゴリで動作することができ、１つは各周波数が独立して処理され、異なる周波数間の結合がなく、結合関係が、同じ周波数の異なる時刻の間でのみ発生し、もう１つは周波数ハイブリッド処理である。１つ目は隣接する周波数間の結合であり、２つ目はすべての周波数間の結合である。

本出願の実施例において、複素ニューラルネットワークは、時間次元の観点から２つのカテゴリで動作することができ、１つは各時刻での独立した処理であり、もう１つは各時刻でのハイブリッド処理であり、１つ目は隣接する時間に基づく有限時刻の結合であり、２つ目はすべての時刻の結合である。

可能な一実現形態として、各時刻の各周波数の処理対象振幅及び位相サンプル、及び参照振幅及び位相サンプルを複素ニューラルネットワークモデルに入力して、各時刻の各周波数ターゲット音声信号と処理対象音声信号との周波数領域音声信号トレーニング比、すなわち振幅及び位相トレーニング比を取得する。

ステップ２０３において、予め設定された損失関数によって周波数領域音声信号の理想的な比及び周波数領域音声信号トレーニング比を算出し、複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、複素ニューラルネットワークモデルを取得する。

本出願の実施例において、例えば、最小二乗誤差損失関数によって周波数領域音声信号の理想的な比及び周波数領域音声信号トレーニング比を計算することによって最小二乗誤差を取得し、複素ニューラルネットワークのネットワークパラメータが、例えば各ネットワーク処理によって得られた周波数領域音声信号トレーニング比と周波数領域音声信号の理想的な比とが同じまたは差が小さいような、予め設定された要件を満たすまで、複素ニューラルネットワークの各ネットワークのネットワークパラメータを最小二乗誤差に基づいて調整し、複素ニューラルネットワークモデルを取得する。

これにより、トレーニングされた複素ニューラルネットワークモデルが音声信号を処理する場合、参照音声信号の同じ周波数の「振幅」と「位相」は、空気の伝播を経て、他の周波数に拡散することなく、すなわち「周波数の振幅と位相には安定性がある」。参照音声信号の「振幅」及び「位相」と、異なる処理対象音声信号の「振幅」及び「位相」との間に、一定の物理的依存関係があり、専用の複素ネットワークを設計して学習し、すなわち複素完全接続を使用する。参照音声信号の「振幅」及び「位相」と、異なる処理対象音声信号の「振幅」及び「位相」との間に時間とともに一定の関連性があり、専用の複素ネットワークを設計して学習し、すなわち複素ＬＳＴＭ、複素ＧＲＵ、複素Ｔｒａｎｓｆｏｒｍｅｒを使用する。参照音声信号の「振幅」及び「位相」と、異なる処理対象音声信号の「振幅」及び「位相」との相互関係は、比較的大きなスケールで「並進不変性」があり、専用の複素ネットワークを設計して学習し、すなわち複素循環畳み込みネットワークを使用する。

上記実施例の説明によれば、本出願の複素ニューラルネットワークモデルは、図７に示すようなトレーニングされた１つまたは複数の同じまたは異なる複素ニューラルネットワークモデルであってもよく、複数の処理対象音声信号及び対応する参照信号を同時に処理してもよいし、処理対象音声信号を周波数分割規則に従って複数グループの処理対象音声信号に分割してもよいし、時間ウィンドウに従って複数グループの処理対象音声信号に分割してそれぞれ処理してから組み合わせてもよい。

具体的には、図７を例として説明し、図７は１つの参照信号と１つの処理対象信号の処理の概略図であり、処理対象音声信号Ｍ（ｔ）及び参照音声信号Ｒ（ｔ）に対して高速フーリエ変換（ＦＦＴ、ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行ってから、多層の異なる複素ニューラルネットワーク（例えば、ＣｏｍｐｌｅｘＢＮニューラルネットワークにおける複雑な正規化ネットワーク層ｂａｔｃｈ−ｎｏｒｍａｌｉｚａｔｉｏｎ、異なる層の畳み込みニューラルネットワーク：第１の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：４＠１Ｘ４、第２の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：２＠１Ｘ４及び第３の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：４＠１Ｘ４など）に入力して、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、さらに各同じ時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得して、音声認識モデルに入力することができる。

具体的には、図８を例として説明し、図８は、参照信号と処理対象信号の処理の概略図であり、処理対象音声信号Ｍ（ｔ）と参照音声信号Ｒ（ｔ）に対して高速フーリエ変換（ＦＦＴ、ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行ってから、多層の異なる複素ニューラルネットワーク（例えば、ＣｏｍｐｌｅｘＢＮニューラルネットワークにおける複雑な正規化ネットワーク層ｂａｔｃｈ−ｎｏｒｍａｌｉｚａｔｉｏｎ、異なる層の畳み込みニューラルネットワーク：第１の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：４＠１Ｘ４、第２の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：２＠１Ｘ４及び第３の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：４＠１Ｘ４など）に入力して、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、さらに各同じ時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得して、音声認識モデルに入力することができる。

なお、参照信号入力の数はスピーカー回路の数に依存し、これは、スピーカー回路の数と同じ数の参照信号入力があるからである。具体的には、図９に示すように、Ｒ１（ｔ）〜ＲＭ（ｔ）に対して高速フーリエ変換（ＦＦＴ、ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行ってから、多層の異なる複素ニューラルネットワーク（例えば、ＣｏｍｐｌｅｘＢＮニューラルネットワークにおける複雑な正規化ネットワーク層ｂａｔｃｈ−ｎｏｒｍａｌｉｚａｔｉｏｎ、異なる層の畳み込みニューラルネットワーク：第１の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：４＠１Ｘ４、第２の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：２＠１Ｘ４及び第３の複雑な畳み込みニューラルネットワーク層ＣｏｍｐｌｅｘｆＣＯＶ：４＠１Ｘ４など）に入力して処理し、ターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、さらに各時刻における同じ周波数の処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得して、音声認識モデルに入力する。ここで、Ｍは１よりも大きい正の整数であり、Ｍ(ｔ)が１つか複数かは、シーンの設定に応じて選択できる。

なお、図７〜図９は単なる例であり、１つの参照信号及び１つの処理対象信号の処理であってもよいし、複数の処理対象及び複数の参照を一緒に処理してもよいし、複数の参照信号と１つの処理対象信号の処理であってもよいし、複数の参照信号と１つの処理対象信号が時間及び周波数分割を行なわれた処理であってもよい。具体的な応用シーンに応じて選択して設定することができる。

本出願の実施例において、周波数領域音声信号は、１つの文（数秒から数十秒）の各時刻における各周波数の振幅及び位相であり、すなわち周波数領域音声信号は、連続するＮ個の時刻における各周波数の振幅及び位相であり、ここで、Ｎは１よりも大きい正の整数であり、予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割し、1つの文の周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの処理対象振幅及び位相を取得し、予め設定された周波数分割規則に従って1つの周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの参照振幅及び位相を取得する。

例えば、１６ｋサンプリング１６ｂｉｔ量子化された処理対象音声信号は、前処理されることによって２５６個の周波数が得られてからグループ化され、先頭の０〜６３が１グループ、６４〜１２７が１グループ、１２８〜１９１が１グループ、１９２〜２５６が１グループ。各グループがそれぞれ複素ニューラルネットワークモデルに入力されて処理される。

具体的には、前処理された処理対象周波数領域音声信号及び参照周波数領域音声信号を分割し、その後、分割によって得られた各グループをそれぞれ複素ニューラルネットワークモデルに入力し、またはそれぞれ予め設定された異なる複素ニューラルネットワークモデルに入力し、最終的にターゲット音声に関連する比率を取得する。また、この分割には参考音声の信号の分割も含まれなければならず、それらは対応している。

本出願の実施例において、周波数領域音声信号は、１つの文（数秒から数十秒）の各時刻における各周波数の振幅及び位相であり、すなわち周波数領域音声信号は、連続するＮ個の時刻における各周波数の振幅及び位相であり、ここで、Ｎは１よりも大きい正の整数であり、時間スライディングウィンドウアルゴリズムによって1つの文の周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割し、すなわち時間に従ってスライディングウィンドウ分割を行って、複数グループの処理対象振幅及び位相を取得する。時間スライディングウィンドウアルゴリズムによって、1つの文の周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割し、すなわち時間に従ってスライディングウィンドウ分割を行って、複数グループの参照振幅及び位相を取得する。ここで、処理対象音声信号におけるターゲット音声信号が、一般的に過去一定期間の処理対象音声信号と参照音声信号とに関連するが、より古い時間の音声信号とは無関係である。

なお、周波数に従って分割することと時間スライディングウィンドウに従って分割することを組み合わせて処理することができ、すなわち周波数に従って分割しても、時間スライディングウィンドウに従って分割しても、複数グループの処理対象振幅及び位相、及び参照振幅及び位相を取得することができ、音声信号処理の効果がさらに向上する。

さらに、複数グループの処理対象振幅及び位相、複数グループの参照振幅及び位相をそれぞれ異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、複数グループのターゲット音声信号と処理対象音声信号との振幅と及び位相比を組み合わせて、ターゲット音声信号と処理対象音声信号との振幅及び位相比を取得する。同じ複素ニューラルネットワークモデルに入力してもよいが、異なる複素ニューラルネットワークモデルによって処理することによって、音声信号処理の効果をさらに向上させることができる。

上記実施例を実現するために、本出願は、音声信号処理装置をさらに提案する。図１０は、本出願の第４の実施例に係る音声信号処理装置の概略構成図であり、図１０に示すように、当該音声信号処理装置は、第１の取得モジュール１００１と、第１の前処理モジュール１００２と、第２の取得モジュール１００３と、処理モジュール１００４と、を備える。

第１の取得モジュール１００１は、処理対象音声信号及び参照音声信号を取得するように構成される。

第１の前処理モジュール１００２は、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するように構成される。

第２の取得モジュール１００３は、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得するように構成される。

処理モジュール１００４は、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得するように構成される。

なお、前述した音声信号処理方法の説明は、本発明の実施例の音声信号処理装置にも適用でき、その実現原理は類似しているので、ここでは説明を省略する。

要約すると、本出願の実施例に係る音声信号処理装置は、マイクアレイによって収集された処理対象音声信号及びスピーカー回路によって収集された参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。

本出願の一実施例において、図１１に示すように、図１０をもとに、前記音声信号処理装置は、第３の取得モジュール１００５と、第４の取得モジュール１００６と、第２の前処理モジュール１００７と、トレーニングモジュール１００８と、をさらに備える。

ここで、第３の取得モジュール１００５は、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するように構成される。

第４の取得モジュール１００６は、複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するように構成される。

第２の前処理モジュール１００７は、複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するように構成される。

トレーニングモジュール１００８は、予め設定された損失関数によって周波数領域音声信号の理想的な比及び周波数領域音声信号トレーニング比を算出し、複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、複素ニューラルネットワークモデルを取得するように構成される。

本出願の一実施例において、第３の取得モジュール１００５は、具体的には、複数のインパルス応答を取得し、近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、近接場ノイズ信号及び近接場音声信号をそれぞれ複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得し、異なるオーディオデバイスの複数の処理対象音声信号を収集して、予め設定された信号対ノイズ比に基づいて複数のシミュレート外部音声信号と加算して、複数の処理対象音声信号サンプルを取得し、異なるオーディオデバイスの複数のスピーカー音声信号を複数の参照音声信号サンプルとして取得するように構成される。

本出願の一実施例において、周波数領域音声信号は、１つの文（数秒から数十秒）の各時刻における各周波数の振幅及び位相であり、図１２に示すように、図１０をもとに、前記音声信号処理装置は、第１の分割モジュール１００９と、第２の分割モジュール１０１０と、第３の分割モジュール１０１１と、第４の分割モジュール１０１２と、をさらに備える。

第１の分割モジュール１００９は、予め設定された周波数分割規則に従って処理対象周波数領域音声信号を分割し、1つの文の周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの処理対象振幅及び位相を取得するように構成される。

第２の分割モジュール１０１０は、前記予め設定された周波数分割規則に従って前記参照周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの参照振幅及び位相を取得するように構成される。

第３の分割モジュール１０１１は、時間スライディングウィンドウアルゴリズムによって、周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割して、複数グループの処理対象振幅及び位相を取得するように構成される。

第４の分割モジュール１０１２は、前記時間スライディングウィンドウアルゴリズムによって、参照周波数領域音声信号を複数の独立した時間サブセグメント音声信号に分割して、複数グループの参照振幅及び位相を取得するように構成される。

本出願の一実施例において、第２の取得モジュール１００３は、具体的には、前記複数グループの処理対象振幅及び位相、及び前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するように構成される。

本出願の一実施例において、処理モジュール１００４は、具体的には、各同じ時刻における同じ周波数の前記処理周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される。

なお、前述した音声信号処理方法の説明は、本発明の実施例に係る音声信号処理装置にも適用でき、その実現原理は類似しているので、ここでは説明を省略する。要約すると、本出願の実施例に係る音声信号処理装置は、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図１３、本出願の実施例に係る音声信号処理方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図１３に示すように、当該電子機器は、１つ又は複数のプロセッサ１３０１と、メモリ１３０２と、高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図１３では、１つのプロセッサ１３０１を例とする。

メモリ１３０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本出願により提供される音声信号処理方法を実行するように、少なくとも１つのプロセッサによって実行される命令を記憶が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供される音声信号処理方法を実行するためのコンピュータ命令を記憶する。

メモリ１３０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における音声信号処理方法に対応するプログラム命令／モジュール（例えば、図８に示す第１の取得モジュール１００１、第１の前処理モジュール１００２、第２の取得モジュール１００３、及び処理モジュール１００４）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ１３０１は、メモリ１３０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声信号処理方法を実現する。

メモリ１３０２は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、音声信号処理方法ことに基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ１３０２は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ１３０２は、プロセッサ１３０１に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して音声信号処理の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

音声信号処理方法を実現するための電子機器は、入力装置１３０３と出力装置１３０４とをさらに備えることができる。プロセッサ１３０１、メモリ１３０２、入力装置１３０３、及び出力装置１３０４は、バス又は他の方式を介して接続することができ、図１３では、バスを介して接続することを例とする。

入力装置１３０３は、入力された数字又は文字情報を受信することができ、及び音声信号処理の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１３０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を備える。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系の中のホスト製品であり、従来の物理ホストとＶＰＳ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ仮想プライベートサーバ）サービスでは、管理が難しく、業務拡張性が弱いという欠点を解決している。

本出願の実施例の技術案によれば、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims

処理対象音声信号及び参照音声信号を取得するステップと、
前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するステップと、
前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップと、
前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップと、
を含む音声信号処理方法。
前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力するステップの前に、
複数の処理対象音声信号サンプル、複数の参照音声信号サンプル、及び複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するステップと、
前記複数の処理対象音声信号サンプル及び前記複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するステップと、
予め設定された損失関数によって前記周波数領域音声信号の理想的な比及び前記周波数領域音声信号トレーニング比を算出し、前記複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、前記複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、前記複素ニューラルネットワークモデルを取得するステップと、
を含む請求項１に記載の音声信号処理方法。
前記複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するステップが、
複数のインパルス応答を取得するステップと、
近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得するステップと、
異なるオーディオデバイスの複数の処理対象音声信号を収集して、予め設定された信号対ノイズ比に基づいて前記複数のシミュレート外部音声信号と加算して、前記複数の処理対象音声信号サンプルを取得するステップと、
前記異なるオーディオデバイスの複数のスピーカー音声信号を前記複数の参照音声信号サンプルとして取得するステップと、
を含む請求項２に記載の音声信号処理方法。
前記周波数領域音声信号が、連続するＮ個の時刻における各周波数の振幅及び位相であり、Ｎが、１よりも大きい正の整数であり、
予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するステップと、
前記予め設定された周波数分割規則に従って、前記参照周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの参照振幅及び位相を取得するステップと、
を含む請求項１に記載の音声信号処理方法。
前記周波数領域音声信号が、連続するＮ個の時刻における各周波数の振幅及び位相であり、Ｎが、１よりも大きい正の整数であり、
時間スライディングウィンドウアルゴリズムによって、前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するステップと、
前記時間スライディングウィンドウアルゴリズムによって、前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するステップと、
を含む請求項１に記載の音声信号処理方法。
前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記ターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップが、
前記複数グループの処理対象振幅及び位相、前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得するステップと、
前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するステップと、
を含む請求項４または５に記載の音声信号処理方法。
前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップが、
各同じ時刻における同じ周波数の前記処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップを含む請求項１に記載の音声信号処理方法。
処理対象音声信号及び参照音声信号を取得するように構成される第１の取得モジュールと、
前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理してから、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するように構成される第１の前処理モジュールと、
前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するように構成される第２の取得モジュールと、
前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される処理モジュールと、
を備える音声信号処理装置。
複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するように構成される第３の取得モジュールと、
複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するように構成される第４の取得モジュールと、
前記複数の処理対象音声信号サンプル及び前記複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するように構成される第２の前処理モジュールと、
予め設定された損失関数によって前記周波数領域音声信号の理想的な比及び前記周波数領域音声信号トレーニング比を算出し、前記複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、前記複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、前記複素ニューラルネットワークモデルを取得するように構成されるトレーニングモジュールと、
を備える請求項８に記載の音声信号処理装置。
前記第３の取得モジュールが、
複数のインパルス応答を取得し、
近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得し、
異なるオーディオデバイスの複数の処理対象音声信号を収集して、前記予め設定された信号対ノイズ比に基づいて前記複数のシミュレート外部音声信号と加算し、前記複数の処理対象音声信号サンプルを取得し、
前記異なるオーディオデバイスの複数のスピーカー音声信号を前記複数の参照音声信号サンプルとして取得する請求項９に記載の音声信号処理装置。
前記周波数領域音声信号が、連続するＮ個の時刻における各周波数の振幅及び位相であり、Ｎが、１よりも大きい正の整数であり、
予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するように構成される第１の分割モジュールと、
前記予め設定された周波数分割規則に従って前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するように構成される第２の分割モジュールと、
を備える請求項８に記載の音声信号処理装置。
前記周波数領域音声信号が、連続するＮ個の時刻における各周波数の振幅及び位相であり、Ｎが、１よりも大きい正の整数であり、
時間スライディングウィンドウアルゴリズムによって前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するように構成される第３の分割モジュールと、
前記時間スライディングウィンドウアルゴリズムによって前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するように構成される第４の分割モジュールと、
を備える請求項８に記載の音声信号処理装置。
前記第２の取得モジュールが、
前記複数グループの処理対象振幅及び位相、前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、
前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するように構成される請求項１１または１２に記載の音声信号処理装置。
前記処理モジュールが、
各同じ時刻における同じ周波数の前記処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される請求項８に記載の音声信号処理装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１から７のいずれか一項に記載の音声信号処理方法を実行できる電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から７のいずれか一項に記載の音声信号処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１から７のいずれか一項に記載の音声信号処理方法を実行させるコンピュータプログラム。