JP2023183390A

JP2023183390A - ディープラーニングに基づくノイズ除去方法および装置

Info

Publication number: JP2023183390A
Application number: JP2023094030A
Authority: JP
Inventors: ギジュンキム; Ki Jun Kim
Original assignee: Line Plus Corp
Current assignee: Line Plus Corp
Priority date: 2022-06-15
Filing date: 2023-06-07
Publication date: 2023-12-27
Also published as: KR20230172288A

Abstract

【課題】ディープラーニングに基づいて、演算量の少ない後処理方式によって残余ノイズを除去する、ノイズ除去方法および装置を提供する。【解決手段】ノイズ除去方法は、ノイズを含む入力音声信号を第１ネットワークに入力して位相が復元されてノイズが１次除去された第１音声信号を生成することと、第１音声信号に第１ウインドウを適用することと、第１音声信号にＦＦＴを実行して振幅信号および位相信号を取得することと、第２ネットワークに振幅信号を入力して振幅信号に対して適用されるマスクを取得することと、振幅信号に加重値が適用されたマスクを適用することと、マスクが適用された振幅信号および位相信号を使用してＩＦＦＴを実行してノイズが除去された第２音声信号を生成することと、第２音声信号に第２ウインドウを適用することと、を含む。【選択図】図３

Description

実施形態は、ディープラーニングに基づくノイズ除去方法および装置に関する。

近年は、ＶｏＩＰのようなインターネット通話や音声／サウンド信号を活用したコンテンツの開発および提供に対する関心が高まっており、これに伴って音声信号からノイズを除去する技術に対する関心も高まっている。

ディープラーニングを活用した従来のノイズ除去技術は、周波数領域からノイズ成分を除去する方式や、時間領域でクリーン音声を推論する方式が研究されてきた。しかし、従来の方法には性能に限界があった。

先ず、周波数領域からノイズを除去する方式は、大きく、周波数の振幅を調節する方式と、振幅と位相を調節する方式がある。周波数の振幅を調節する方式は、ノイズが少ない環境では優れた性能を発揮するが、ノイズが強い環境ではノイズの位相情報が音声の位相情報よりも優勢であるため振幅のノイズ成分を除去しても位相のノイズ成分が残り、きれいな音を復元することができないという問題があった。

これを解決するために、振幅と位相を同時に調節する方式も試されたが、位相のランダム性によって適切に学習がなされず、これによって全体的な性能も良くなかった。

このような周波数領域における技術の短所を克服するために、時間領域でクリーン音声を推論するための方法が開発された。この方式は、クリーン音声のロー（ｒａｗ）な信号を生成するため、周波数成分の位相と振幅が同時に自動調節される。しかし、時間領域では高周波成分がランダム特性を示すため、高周波数帯域の信号が適切に学習されず、ノイズ除去後にホワイトノイズ（ｗｈｉｔｅｎｏｉｓｅ）形態のノイズが残在するようになるという問題があった。

さらに、ディープラーニングに基づいて開発された従来の音声ノイズ除去技術は、ノイズが強い場合にはこれをきれいに除去することができず、残余ノイズが残るという問題があった。

上述した情報は理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含みうるし、従来技術が当業者に提示できるものを含まないこともある。

韓国公開特許第１０－２０１８－００６７６０８号公報（公開日２０１８年６月２０日）

演算量の少ない後処理方式によって残余ノイズを除去する、ノイズ除去方法および装置を提供する。

少なくとも１つのプロセッサを含むコンピュータシステムのノイズ除去方法であって、前記少なくとも１つのプロセッサが、音声信号の第１振幅信号に対して適用されるマスクを推定するように訓練された第１機械学習モデルを利用して前記第１振幅信号のためのマスクを取得する段階、前記少なくとも１つのプロセッサが、前記第１振幅信号に前記マスクを適用して、復元された音声の振幅信号を取得する段階、前記少なくとも１つのプロセッサが、前記復元された音声の振幅信号を入力として前記マスクのための加重値を出力するように学習された第２機械学習モデルを利用して前記マスクのための加重値を取得する段階、前記少なくとも１つのプロセッサが、前記マスクに前記加重値を適用して、加重値が適用されたマスクを生成する段階、および前記少なくとも１つのプロセッサが、前記第１振幅信号に前記加重値が適用されたマスクを適用して第２振幅信号を生成する段階を含む、ノイズ除去方法を提供する。

一側面によると、前記加重値が適用されたマスクを生成する段階は、前記マスクの値に前記加重値の値をべき乗することによって前記マスクに前記加重値を適用することを特徴としてよい。

他の側面によると、前記マスクの値は０～１までの範囲に含まれる実数値を含み、前記加重値の値は１～２までの範囲に含まれる実数値を含むことを特徴としてよい。

また他の側面によると、前記復元された音声の振幅信号を取得する段階は、前記第１振幅信号に前記マスクを掛けて、前記復元された音声の振幅信号を取得することを特徴としてよい。

また他の側面によると、前記第２機械学習モデルは、ニューラルネットワークのレイヤを利用して実現されるｕ－ｎｅｔ構造の機械学習モデルを含むことを特徴としてよい。

また他の側面によると、前記ノイズ除去方法は、前記少なくとも１つのプロセッサが、時間領域からノイズが除去された音声を推論するように訓練された第３機械学習モデルにノイズを含む音声入力信号を入力することで前記音声入力信号の位相が復元され、ノイズが１次除去された第１音声信号として前記音声信号を取得する段階をさらに含んでよい。

また他の側面によると、前記ノイズ除去方法は、前記少なくとも１つのプロセッサが、前記音声信号に第１ウィンドウを適用する段階、および前記第１ウィンドウが適用された音声信号にＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行して前記第１振幅信号および位相信号を取得する段階をさらに含んでよい。

また他の側面によると、前記ノイズ除去方法は、前記少なくとも１つのプロセッサが、前記第２振幅信号および前記音声信号の位相信号を使用して前記音声信号にＩＦＦＴ（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行することによって、ノイズが除去された第２音声信号を生成する段階、および前記少なくとも１つのプロセッサが、前記第２音声信号に第２ウィンドウを適用する段階をさらに含んでよい。

また他の側面によると、前記第２音声信号を生成する段階は、前記第２振幅信号および前記位相信号に基づいてノイズが除去された音声信号のＦＦＴ係数を復元する段階、および前記復元されたＦＦＴ係数に基づいてＩＦＦＴを実行することによって、ノイズが除去された前記第２音声信号を復元する段階を含むことを特徴としてよい。

また他の側面によると、前記第１振幅信号のためのマスクを取得する段階は、前記第１機械学習モデルに対して前記第１振幅信号のうちの第１周波数帯域の第１－１振幅信号を入力させて、前記第１機械学習モデルの出力として前記第１－１振幅信号に対して適用される第１マスクを取得する段階、前記第１振幅信号のうちの前記第１周波数帯域よりも大きい周波数帯域である第２周波数帯域の第１－２振幅信号を複数の帯域幅区間の振幅信号で区分する段階、前記区分された振幅信号のそれぞれに対する平均エネルギーを計算する段階、および前記第１機械学習モデルに対して前記計算された平均エネルギーを入力させて、前記第１機械学習モデルの出力として前記第１－２振幅信号に対して適用される第２マスクを取得する段階を含むことを特徴としてよい。

また他の側面によると、前記第１－２振幅信号は、前記第２周波数帯域をバーク尺度（ｂａｒｋｓｃａｌｅ）単位で区分することによって前記複数の帯域幅区間の振幅信号で区分されることを特徴としてよい。

コンピュータシステムと結合して前記方法をコンピュータシステムに実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

前記方法を実行するコンピュータ読み取り可能記録媒体に記録される、プログラムを提供する。

コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサが、音声信号の第１振幅信号に対して適用されるマスクを推定するように訓練された第１機械学習モデルを利用して前記第１振幅信号のためのマスクを取得し、前記第１振幅信号に前記マスクを適用して復元された音声の振幅信号を取得し、前記復元された音声の振幅信号を入力として前記マスクのための加重値を出力するように学習された第２機械学習モデルを利用して前記マスクのための加重値を取得し、前記マスクに前記加重値を適用して加重値が適用されたマスクを生成し、前記第１振幅信号に前記加重値が適用されたマスクを適用して第２振幅信号を生成することを特徴とする、コンピュータ装置を提供する。

演算量の少ない後処理方式によって残余ノイズを除去することができる。

一実施形態における、ノイズを含む音声信号を処理してノイズが除去された音声信号を復元する方法を示した図である。一実施形態における、ノイズを含む音声信号を処理してノイズを除去するコンピュータシステムの構造を示した図である。一実施形態における、ノイズ除去方法を示したフローチャートである。一例における、機械学習モデルを使用して振幅信号に対して適用されるマスクを取得する方法を示したフローチャートである。一例における、機械学習モデルを使用して振幅信号のうちの第１周波数帯域の第１振幅信号に対して適用されるマスクを生成するにあたり、機械学習モデルに対して入力されるパラメータを決定する方法を示したフローチャートである。一例における、マスクに加重値を適用する方法を示したフローチャートである。一例における、入力音声信号および機械学習モデルからのマスクを使用してノイズが除去された音声信号を復元する方法を示したフローチャートである。一例における、機械学習モデルによって推定されるマスクを示した図である。一例における、第１ネットワークの例を示した図である。一例における、第２ネットワークの例を示した図である。一例における、第３ネットワークの例を示した図である。一実施形態における、性能評価の例を示した図である。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。各図面に提示された同一の参照符号は、同一の部材を示す。

図１は、一実施形態における、ノイズを含む音声信号を処理してノイズが除去された音声信号を復元する方法を示した図である。

図１を参照しながら、ノイズ（Ｎｏｉｓｅ）および音声信号（Ｖｏｉｃｅｓｉｇｎａｌ）を含む入力音声信号１１０からノイズが除去されて復元された音声信号１９０を取得する方法について説明する。

モバイル環境でリアルタイムに技術を適用するために、入力音声信号１１０に対するフレーム単位の演算が実行されてよい。入力音声信号１１０は、一例として、サンプリングレートが１６ｋＨｚの信号であってよく、一フレームの長さは４８０サンプル（ｓａｍｐｌｅ）であってよい。Ｈｏｐｓｉｚｅは２４０サンプルであり、５０％のオーバーラップ加算（ｏｖｅｒｌａｐａｄｄ）で動作してよい。

実施形態の入力音声信号１１０からノイズを除去する方法は、後述するコンピュータシステム１００によって実行されてよい。

強いノイズ環境での音声信号の位相を復元してノイズを１次除去するために、入力音声信号１１０のロー（ｒａｗ）波形をＴｉｍｅＮＳｎｅｔ１２０の入力に使用してよい。ＴｉｍｅＮＳｎｅｔ１２０は、ｕ－ｎｅｔ構造で設計されたネットワークであってよい。このようなＴｉｍｅＮＳｎｅｔ１２０は、ニューラルネットワーク（例えば、ＣＮＮ、ＤＮＮ、またはＤｅｎｓｅ）によって実現されてよい。例えば、合計１２個で構成された各レイヤの大きさが５１２－２５６－１２８－６４－３２－１６－１６－３２－６４－１２８－２５６－５１２のように前のレイヤの半分になるように構成されてよい。このようなＴｉｍｅＮＳｎｅｔ１２０の構成としてｕ－ｎｅｔを使用することが重要であるだけで、詳細事項はチューニングによって差があってよい。ＴｉｍｅＮＳｎｅｔ１２０の出力は１次推定されたロー（ｒａｗ）な第１音声信号であって、第１音声信号には弱いホワイトノイズ（ｗｈｉｔｅｎｏｉｓｅ）成分が混ざっている。

第１音声信号には、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）１４０を実行する前に、ＦＦＴ１４０の出力特性を適切にするためのウィンドウが適用されてよい。また、前フレームと現在フレームのオーバーラップ加算区間における不連続性によって発生するノイズを除去するためにもウィンドウを適用しなければならない。図１では、ＦＦＴ１４０を実行する前に、第１ウィンドウ（Ｆｉｒｓｔｗｉｎｄｏｗ）１３０が、ＩＦＦＴ（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）１７０の後に第２ウィンドウ（Ｓｅｃｏｎｄｗｉｎｄｏｗ）１８０がそれぞれ適用されることを示している。適用可能なウィンドウには多くの種類があるが、一例として、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）でのＴＤＡＣ（ｔｉｍｅｄｏｍａｉｎａｌｉａｓｉｎｇｃａｎｃｅｌｌａｔｉｏｎ）のために使用するＫＢＤ（Ｋａｉｓｅｒ－ｂｅｓｓｅｌ－ｄｅｒｉｖｅｄ）ウィンドウが活用されてよい。本来の目的とは異なるが、ＫＢＤウィンドウは、オーバーラップ区間でのウィンドウの二乗和が１を満たし、ＦＦＴ１４０の前とＩＦＦＴ１７０の後に同時にウィンドウ適用（ＫＢＤウィンドウ１３０、１８０）が可能である。このように２つの区間でウィンドウを適用すれば、フレーム間の不連続性によるノイズをより効果的に除去することができる。実際に実現された技術でＫＢＤウィンドウを適用したときに最良の性能を発揮した。

一方、第１ウィンドウ１３０が適用された第１音声信号にはＦＦＴ１４０が実行されてよく、このようなＦＦＴ１４０が実行された第１音声信号から、入力音声信号１１０の振幅（ｍａｇｎｉｔｕｄｅ）を示す振幅信号（Ｍａｇｎｉｔｕｄｅｓｉｇｎａｌ）と位相（ｐｈａｓｅ）を示す位相信号（Ｐｈａｓｅｓｉｇｎａｌ）がそれぞれ取得されてよい。

図に示すように、実施形態では、低帯域（例えば、８ｋＨｚ未満の帯域幅）に属する振幅信号は、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０を使用して復元されてよい。一方、高帯域（例えば、８ｋＨｚ以上の帯域幅）に属する振幅信号は、バーク尺度単位で区分され、区分された振幅信号の平均エネルギーがＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０に入力されて復元されてよい。また、低帯域に属する振幅信号とともに、この低帯域に属する振幅信号に基づいて生成された１つ以上のＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）がＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０にパラメータとして入力されてよい。

ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０は、例えば、ニューラルネットワーク（例えば、ＣＮＮ、ＤＮＮ、またはＤｅｎｓｅ）によってｕ－ｎｅｔ構造で実現されてよい。

一方、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０からの出力は、ＦＦＴ１４０から出力されたＦＦＴ係数としての振幅に対して適用するためのマスク（Ｒａｔｉｏｍａｓｋ（ＲＭ））であってよい。このようなＲＭの値は、０～１までの範囲に含まれる実数値であってよい。このとき、１よりも小さいＲＭの値が振幅に適用（乗算）されることによって出力が小さくなってノイズを除去する効果を発生させる。このとき、本実施形態では、ＲＭの値に加重値（ｗｅｉｇｈｔ、Ｗ）をべき乗することによってＲＭの値を追加で調節してよい。図１において、Ｐｏｗ（ＲＭ、Ｗ）１６３は、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０から出力されるＲＭの値にＰｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２から出力されるＷをべき乗する関数であってよい。ここで、加重値であるＷは、１～２までの範囲に含まれる実数値であってよい。ＲＭの値が１に近いほど音声である確率が高く、ＲＭの値が０に近いほどノイズである確率が高いが、このようなＲＭの値に１～２までの範囲に含まれる実数値であるＷをべき乗することによってＲＭのノイズ除去能力を大きく高めることができる。例えば、ＲＭの値が１に近いほど音声である確率が高く、べき乗の値（ＲＭ＾Ｗ）は本来のＲＭの値に大きな影響を及ぼさない。この反面、ＲＭの値が０に近いほどノイズである確率が高く、べき乗の値（ＲＭ＾Ｗ）はＲＭの値を大きく減少させる。このような動作により、Ｗの精度が低くても音声を適切に保存しながら、調節されたＲＭの値によってノイズを効果的に除去することができる。

また、Ｐｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２は、本来のＲＭの値によって復元された音声の振幅（Ｍａｇｎｉｔｕｄｅｏｆｒｅｃｏｖｅｒｅｄｖｏｉｃｅ）を入力として受け取ってＷを出力するように学習したディープラーニングモデルであってよい。図１の実施形態では、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０からの出力としてのＲＭの値と振幅が掛けられることによって（１６３）、Ｐｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２の入力のための復元された音声の振幅を取得することができる。Ｐｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２が出力するＷの範囲はすべての実数が可能である。しかし、実験的にＷとして１以下の値を適用したときにはノイズ除去の性能が低下した。また、Ｗとして２を超える値を適用したときには、Ｗとして２までの値を適用したときと比べて大きな性能の差はなかった。したがって、本実施形態では、Ｗの値を１～２までの範囲に含まれる実数値に制限し、Ｐｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２は１～２までの範囲に含まれる実数値としてのＷの値を出力するように学習されるようにした。

一方、Ｗが適用されたＲＭの値（ＲＭ＾Ｗ）は、振幅に掛けられることによって（１６３）、ポストプロセッシングが適用された振幅（Ｍａｇｎｉｔｕｄｅａｐｐｌｉｅｄｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）が計算されてＩＦＦＴ１７０に伝達されてよい。

また、位相信号は、特別な処理なく、ＩＦＦＴ１７０の実行のために使用されてよい。この場合、ポストプロセッシングが適用された振幅とＦＦＴ１４０から出力されたＦＦＴ係数としての位相信号を使用してノイズが２次除去されてよい。例えば、ポストプロセッシングが適用された振幅と位相信号を使用して第１音声信号のＦＦＴ係数が復元されてよく、ＩＦＦＴ１７０が実行されることによってノイズが２次除去されて復元音声信号１９０が出力されてよい。

このとき、上述したように、ＩＦＦＴ１７０の出力に対して第２ウィンドウ１８０が適用されることで、フレームの不連続性によるノイズを最小化することができる。

実施形態では、（例えば、高帯域に属する振幅信号をそのままＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０に入力させる場合に比べて）高帯域に属する振幅信号を使用することで、ノイズを除去するための演算量を著しく減らすことができる。

このように、実施形態では、周波数領域と時間領域に対するそれぞれのネットワークを構成して２つのネットワークが相互互換的に優れた性能を発揮できるように学習させることにより、ノイズが強い環境でも優れたノイズ除去性能を提供することができる。

ノイズを含む入力音声信号１１０を処理してノイズが除去された復元音声信号１９０を生成する方法については、図２～９を参照しながらより詳しく説明する。

図２は、一実施形態における、ノイズを含む音声信号を処理してノイズを除去するコンピュータシステムの構造を示した図である。

図に示したコンピュータシステム１００は、図１を参照しながら説明したコンピュータシステム１００に対応してよい。コンピュータシステム１００は、入力音声信号１１０からノイズを除去するための軽量化された推論モデル（例えば、機械学習モデル（ＴｉｍｅＮＳｎｅｔ１２０、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０、およびＰｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２））を搭載している電子装置であってよい。または、図に示したものとは異なり、コンピュータシステム１００は、コンピュータシステム１００の外部の電子装置またはサーバに存在する機械学習モデル１２０、１５０、１６２を使用して、入力音声信号１１０からノイズが除去された復元音声信号１９０を取得するための装置であってよい。このとき、コンピュータシステム１００は、外部の電子装置またはサーバとの通信によって入力音声信号１１０を取得してもよい。

コンピュータシステム１００は、例えば、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ（ｌａｐｔｏｐｃｏｍｐｕｔｅｒ）、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、タブレット（ｔａｂｌｅｔ）、ウェアラブルコンピュータ（ｗｅａｒａｂｌｅｃｏｍｐｕｔｅｒ）、ＩｏＴ（ＩｎｔｅｒｎｅｔＯｆＴｈｉｎｇｓ）機器などを含んでよい。一例として、コンピュータシステム１００は、モバイル端末のような装置であって、高性能のＰＣまたはサーバのようなコンピューティング装置には該当しなくてもよい。

コンピュータシステム１００は、通信部（Ｃｏｍｍｕｎｉｃａｔｏｒ）２１０、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）２２０、およびメモリ（Ｍｅｍｏｒｙ）２２１を含んでよい。コンピュータシステム１００は、ユーザから入力音声信号１１０の入力を受け取るためのマイク（Ｍｉｃｒｏｐｈｏｎｅ）２３０を含んでよく、ノイズが除去された復元音声信号１９０を出力するためのスピーカ（Ｓｐｅａｋｅｒ）２４０を含んでよい。マイク２３０は、ユーザまたは外部から入力される音声から音声信号を生成してよく、スピーカ２４０は、音声信号を出力するように構成されてよい。

また、コンピュータシステム１００は、図には示してはいないが、ユーザから入力される情報および／またはユーザの要求にしたがって提供される情報／コンテンツを表示するディスプレイをさらに含んでよい。

通信部２１０はコンピュータシステム１００が他のサーバや他の装置と通信するための装置であってよい。言い換えれば、通信部２１０は、他のサーバや他の装置に対してデータおよび／または情報を送信／受信する、コンピュータシステム１００のネットワークインタフェースカード、ネットワークインタフェースチップ、およびネットワーキングインタフェースポートなどのようなハードウェアモジュール、および／またはネットワークデバイスドライバ（ｄｒｉｖｅｒ）またはネットワーキングプログラムのようなソフトウェアモジュールであってよい。実施形態によって、入力音声信号１１０は、通信部２１０を通じて他のサーバや他の装置から受信してもよく、復元音声信号１９０は、通信部２１０を通じて他のサーバや他の装置に送信されてもよい。

プロセッサ２２０は、コンピュータシステム１００の構成要素を管理してよく、コンピュータシステム１００が使用するプログラムまたはアプリケーションを実行してよい。例えば、プロセッサ２２０は、マイク２３０を通じて入力されるか予め入力された音声信号１１０を取得し、機械学習モデル１２０、１５０、１６２によって入力音声信号１１０を処理してよく、入力音声信号１１０からノイズが除去された復元音声信号１９０を生成してよい。プロセッサ２２０は、このような動作を実行するために要求されるプログラムまたはアプリケーションの実行およびデータの処理などに必要な演算を処理してよい。プロセッサ２２０は、コンピュータシステム１００の少なくとも１つのプロセッサまたはプロセッサ内の少なくとも１つのコア（ｃｏｒｅ）であってよい。

メモリ２２１は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含んでよい。ここで、ＲＯＭと永続的大容量記録装置は、メモリ２２１と分離される個別の永続的記録装置として含まれてよい。また、メモリ２２１には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２２１とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない、通信部２１０を通じてメモリ２２１にロードされてもよい。ここで、機械学習モデル１２０、１５０、１６２は、実質的には、メモリにロードされたプログラムコードによってプロセッサ２２０によって実行されるソフトウェアモジュールであってよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２２１または通信部２１０によってプロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２２１にロードされたプログラムコードによって受信される命令を実行するように構成されてよい。このようなプロセッサ２２０による動作により、コンピュータシステム１００は、入力音声信号１１０からノイズが除去された復元音声信号１９０を生成してよい。

一例として、プロセッサ２２０は、ノイズを含む入力音声信号１１０を、時間領域でクリーン音声を推論するように訓練されたｕ－ｎｅｔ構造の第１ネットワークに入力して位相が復元されてノイズが１次除去された第１音声信号を生成し、第１音声信号に第１ウィンドウ１３０を適用し、第１ウィンドウ１３０が適用された第１音声信号にＦＦＴ１４０を実行して振幅（ｍａｇｎｉｔｕｄｅ）信号および位相（ｐｈａｓｅ）信号を取得してよい。また、プロセッサ２２０は、振幅信号に対して適用されるマスク（ＲＭ）を推定するように訓練されたｕ－ｎｅｔ構造の第２ネットワークに振幅信号を入力して、第２ネットワークの出力として振幅信号に対して適用されるマスク（ＲＭ）を取得してよい。この後、プロセッサ２２０は、マスク（ＲＭ）に加重値（Ｗ）をべき乗することで、残余ノイズの除去のためのマスク（ＲＭ＾Ｗ）を取得してよい。この後、プロセッサ２２０は、振幅にマスク（ＲＭ＾Ｗ）を適用することで、ポストプロセッシングが適用された振幅を計算してよい。一方、加重値（Ｗ）は、復元された音声の振幅を入力として受け取って加重値（Ｗ）を出力するように学習されたｕ－ｎｅｔ構造の第３ネットワークを利用して取得されるようにしてよい。この後、プロセッサ２２０は、ポストプロセッシングが適用された振幅信号と位相信号を使用して第１ウィンドウ１３０が適用された第１音声信号にＩＦＦＴ１７０を実行することによってノイズが２次除去された第２音声信号を生成してよく、第２音声信号に第２ウィンドウ１８０を適用してノイズが除去された復元入力信号１９０を生成してよい。

このとき、第１ネットワークの例として使用されたＴｉｍｅＮＳｎｅｔ１２０は、入力音声信号１１０に対して時間領域でクリーン音声を推論するために位相を復元してノイズを１次除去するように予め訓練された機械学習モデルであってよく、第２ネットワークの例として使用されたＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０は、入力音声信号１１０に含まれたノイズを除去するために入力音声信号１１０に対して適用されるマスク（ＲＭ）を推定するように予め訓練されたモデルであってよい。ＴｉｍｅＮＳｎｅｔ１２０およびＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０は、正解が分かっている複数の訓練用入力音声信号のセットによって訓練されたものであってよい。さらに、第３ネットワークの例として使用されたＰｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２は、復元された音声の振幅によって加重値（Ｗ）の値を出力するように訓練されたモデルであってよい。一方、ＴｉｍｅＮＳｎｅｔ１２０、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０、およびＰｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２のそれぞれは、ニューラルネットワーク（例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、またはＤｅｎｓｅ）に基づくｕ－ｎｅｔ構造で実現されてよい。機械学習モデル１２０、１５０、１６２は、ニューラルネットワークを構成するｕ－ｎｅｔ構造の複数のレイヤを含んでよい。

以下では、コンピュータシステム１００を使用してノイズを含む入力音声信号１１０を処理して、ノイズが除去された復元音声信号１９０を生成するための具体的な方法について詳しく説明する。

後述する詳細な説明において、コンピュータシステム１００またはプロセッサ２２０の構成によって実行される動作や、コンピュータシステム１００またはプロセッサ２２０が実行するアプリケーション／プログラムによって実行される動作は、説明の便宜上、コンピュータシステム１００によって実行される動作として説明する。

図３は、一実施形態における、ノイズ除去方法を示したフローチャートである。

段階３１０で、コンピュータシステム１００は、ノイズを含む入力音声信号を、時間領域でクリーン音声（一例として、ノイズが除去された音声）を推論するように訓練されたｕ－ｎｅｔ構造の第１ネットワークに入力し、位相が復元されてノイズが１次除去された第１音声信号を生成してよい。ここで、入力音声信号は、図１を参照しながら説明した入力音声信号１１０に対応してよく、図２を参照しながら説明したマイク２３０を通じてコンピュータシステム１００に入力された音声信号であるか、コンピュータシステム１００に予め格納された音声信号、またはコンピュータシステム１００が外部ソースからネットワークを介して受信した音声信号であってよい。入力音声信号が含むノイズは、振幅信号および／または位相信号に含まれたノイズであってよく、ユーザが聴取を所望する音声信号以外のノイズを示してよい。

上述したように、第１ネットワークは、ＴｉｍｅＮＳｎｅｔ１２０のような機械学習モデルに対応してよく、ｕ－ｎｅｔ構造を活用して入力音声信号の位相を復元してノイズを１次除去するように予め学習されてよい。段階３１０で出力される第１音声信号は、弱いホワイトノイズ成分を含んでよい。

段階３２０で、コンピュータシステム１００は、第１音声信号に第１ウィンドウを適用してよい。上述したように、第１ウィンドウは、ＭＤＣＴでのＴＤＡＣのために使用するＫＢＤウィンドウを含んでよいが、これに限定されることはない。

段階３３０で、コンピュータシステム１００は、第１ウィンドウが適用された第１音声信号にＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行して振幅（ｍａｇｎｉｔｕｄｅ）信号および位相（ｐｈａｓｅ）信号を取得してよい。一例として、コンピュータシステム１００は、第１ウィンドウが適用された第１音声信号に対して５１２ＦＦＴを実行してよい。

段階３４０で、コンピュータシステム１００は、振幅信号に対して適用されるマスクを推定するように訓練されたｕ－ｎｅｔ構造の第２ネットワークに振幅信号を入力して、第２ネットワークの出力として振幅信号に対して適用されるマスクを取得してよい。例えば、コンピュータシステム１００は、５１２ＦＦＴの出力に対して振幅成分を抽出し、２５６の振幅データを第２ネットワークの入力として使用してよい。ここで、第２ネットワークは、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０のような機械学習モデルに対応してよく、入力される振幅信号に対して適用されるマスクを推定するように訓練されてよい。振幅信号に対して適用されるマスクを取得する具体的な方法については、図４および図５を参照しながらより詳しく説明する。

入力音声信号の振幅信号（および／または、該当となる振幅信号から得られたパラメータ）は、第２ネットワークでの推論を実行するための入力パラメータとなってよい。

段階３５０で、コンピュータシステム１００は、マスクに加重値を適用してよい。加重値は、復元された音声の振幅を入力として受け取って加重値を出力するように訓練された第３ネットワークを利用して得られてよい。このような段階３５０については、図６を参照しながらさらに詳しく説明する。

段階３６０で、コンピュータシステム１００は、振幅信号に加重値が適用されたマスクを適用してよい。例えば、コンピュータシステム１００は、加重値が適用されたマスクを、第１ウィンドウが適用された第１音声信号の振幅信号に対して適用することにより（例えば、掛けることにより）、周波数領域のノイズが除去された振幅信号を得ることができる。

段階３７０で、コンピュータシステム１００は、マスクが適用された振幅信号および位相信号を使用して第１ウィンドウが適用された第１音声信号にＩＦＦＴ（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行して、ノイズが２次除去された第２音声信号を生成してよい。第２音声信号を取得する方法については、図７を参照しながらさらに詳しく説明する。

段階３８０で、コンピュータシステム１００は、第２音声信号に第２ウィンドウを適用してよい。上述したように、第１ウィンドウは、ＭＤＣＴでのＴＤＡＣのために使用するＫＢＤウィンドウを含んでよいが、これに限定されることはない。第１ウィンドウと第２ウィンドウは、入力音声信号に対してモバイル環境でリアルタイムに技術を適用するために、フレーム単位の演算を実行することによってフレームの不連続性によって発生するノイズを最小化するために活用されてよい。

図４は、一例における、機械学習モデルを使用して、振幅信号に対して適用されるマスクを取得する方法を示したフローチャートである。図４の段階４１０～４４０を参照しながら、振幅信号に対して適用されるマスクを取得する具体的な方法ついて説明する。

段階４１０で、コンピュータシステム１００は、第２ネットワークに対して、第１ウィンドウが適用された第１音声信号の振幅信号のうちの第１周波数帯域の第１振幅信号を入力させてよく、第２ネットワークの出力として第１振幅信号に対して適用される第１マスクを取得してよい。第１周波数帯域の第１振幅信号は、第１ウィンドウが適用された第１音声信号の振幅信号のうちで、低帯域に該当する振幅信号を示してよい。例えば、第２周波数帯域は０以上８ｋＨｚ未満の帯域を示してよく、第１振幅信号はこのような０以上８ｋＨｚ未満の帯域の振幅信号を示してよい。

第１振幅信号（および／または、該当となる第１振幅信号から得られたパラメータ）は、第２ネットワークでの推論を実行するための入力パラメータとなってよい。第２ネットワークによって出力される第１マスクを第１振幅信号に対して適用することにより（例えば、掛けることにより）、ノイズが除去された振幅信号（すなわち、ノイズが除去された第１振幅信号）が得られてよい。

ここで、第１マスクは、第１振幅信号に対するＩｄｅａｌＲａｔｉｏＭａｓｋ（ＩＲＭ）（または、ＲａｔｉｏＭａｓｋ（ＲＭ））であってよい。上述したように、このような第１マスクは、第１振幅信号との乗算によって第１振幅信号に対して適用されてよい。

段階４２０で、コンピュータシステム１００は、第１ウィンドウが適用された第１音声信号の振幅信号のうちで、第１周波数帯域よりも大きい周波数帯域である第２周波数帯域の第２振幅信号を複数の帯域幅区間の振幅信号で区分してよい。第２周波数帯域の第２振幅信号は、第１ウィンドウが適用された第１音声信号の振幅信号のうちで高帯域に該当する振幅信号を示してよい。例えば、第１周波数帯域は８ｋＨｚ以上１６ｋＨｚ未満の帯域を示してよく、第２振幅信号はこのような８ｋＨｚ以上１６ｋＨｚ未満の帯域の振幅信号を示してよい。

例えば、コンピュータシステム１００は、第２振幅信号の第２周波数帯域を少なくとも１つのバーク尺度（ｂａｒｋｓｃａｌｅ）単位で区分することにより、第２振幅信号を複数の帯域幅区間の振幅信号に区分してよい。

バーク尺度は、音響心理学に基づく尺度であってよい。これは、人間が聴覚器官を利用して区分することができる音の振幅と高さ、長さ、音色などのような音の特徴と関連するものであり、音の特徴を具体的に示すために互いに異なる音を区別するための尺度であってよい。

音響心理学的な（ｐｓｙｃｈｏａｃｏｕｓｔｉｃｓ）理論により、ユーザは、高帯域（例えば、８～１６ｋＨｚ帯域幅）の振幅信号を低い解像度として認知するようになるため、このような高帯域の音声信号に該当する振幅信号をバーク尺度単位で区分することにより、複数の帯域幅区間の振幅信号に区分することができる。複数の帯域幅区間はバーク尺度によって、例えば、８０００～９６００Ｈｚ、９６００～１２０００Ｈｚ、および１２０００～１５６００Ｈｚであってよく、高帯域の音声信号に該当する振幅信号は上述した各帯域幅区間の振幅信号で区分されてよい。

段階４３０で、コンピュータシステム１００は、段階４２０で区分された振幅信号のそれぞれに対する平均エネルギーを計算してよい。コンピュータシステム１００は、区分された振幅信号のそれぞれに対して、各振幅信号が該当する帯域幅区間における平均エネルギー（すなわち、周波数エネルギーの平均）を計算してよい。

段階４４０で、コンピュータシステム１００は、第２ネットワークに対して段階４３０で計算された平均エネルギーを入力してよく、第２ネットワークの出力として第２振幅信号に対して適用される第２マスクを取得してよい。

このように、段階４３０で計算された平均エネルギーは、第２ネットワークでの推論を実行するための入力パラメータとなってよい。第２ネットワークによって出力される第２マスクを第２振幅信号に対して適用することにより（例えば、掛けることにより）、ノイズが除去された振幅信号（すなわち、ノイズが除去された第２振幅信号）を得ることができる。

第２マスクは、段階４３０で計算された平均エネルギーに対するＩＲＭであってよい。上述したように、このような第２マスクは、第２振幅信号と掛けられることによって第２振幅信号に対して適用されてよい。

実施形態では、段階４１０のように、低帯域の振幅信号は第２ネットワークに入力されてよく（すなわち、低帯域の振幅信号が第２ネットワークに対する入力パラメータとなってよく）、第２ネットワークによる推論によってノイズ除去のための作業が実行されてよい。

ただし、段階４２０～４４０のように、高帯域の振幅信号に対しては、複数の帯域幅区間で区分された振幅信号のそれぞれの平均エネルギーが計算され、計算された平均エネルギーが第２ネットワークに対する入力パラメータとして使用されることにより、高帯域の振幅信号に対する第２ネットワークでの演算量を減らすことができる。

図５は、一例における、機械学習モデルを使用して振幅信号のうちの第１周波数帯域の第１振幅信号に対して適用されるマスクを生成するにあたり、機械学習モデルに対して入力されるパラメータを決定する方法を示したフローチャートである。

図５の段階５１０－１～５２０－２を参照しながら、振幅信号のうちの低帯域に該当する第１周波数帯域の第１振幅信号に基づいて、第２ネットワークに対して入力されるパラメータを決定する方法について説明する。

段階５１０－１で、コンピュータシステム１００は、第１周波数帯域の第１振幅信号に基づいて、予め決定された個数のＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）を計算してよい。

段階５２０－１で、コンピュータシステム１００は、第１振幅信号に対して適用される第１マスクを取得するために、計算されたＭＦＣＣを機械学習モデル１５０に対して入力させてよい。

すなわち、第１振幅信号とともに、第１振幅信号に対するＭＦＣＣは、第２ネットワークでの推論を実行するための入力パラメータとなってよい。第１振幅信号に対する所定の個数（例えば、２０個）の係数（ｃｏｅｆｆｉｃｉｅｎｔ）が計算されて第２ネットワークに入力されてよい。ＭＦＣＣは、第１振幅信号の周波数全体の形状に関する情報を提供してよい。

ＭＦＣＣは、音声信号を特徴ベクトル化するために必要な係数であってよい。

例えば、ＭＦＣＣは、第１振幅信号の特徴量（ｆｅａｔｕｒｅ）となってよい。

ＭＦＣＣは、相対的に低周波帯域の音声信号を適切に認識し、高周波帯域の音声信号を適切に認識することができない蝸牛の特性を考慮するメールスケール（Ｍｅｌ－ｓｃａｌｅ）に基づいて第１振幅信号から計算（抽出）されてよい。ＭＦＣＣは、メールスケールによって第１振幅信号を複数の区間に区分し、各区間に対して計算されてよい。

段階５１０－２で、コンピュータシステム１００は、第１周波数帯域の第１振幅信号に基づいてＺＣＲ（ＺｅｒｏＣｒｏｓｓｉｎｇＲａｔｅ）を計算してよい。

段階５２０－２で、コンピュータシステム１００は、第１振幅信号に対して適用される第１マスクを取得するために、計算されたＺＣＲを第２ネットワークに対して入力させてよい。

すなわち、第１振幅信号とともに、第１振幅信号に対するＺＣＲは、第２ネットワークでの推論を実行するための入力パラメータとなってよい。ＺＣＲは、第１振幅信号を時間軸に分析することによって計算されてよい。ＺＣＲは、第１振幅信号の時間軸成分が含むノイズに関する情報を提供してよい。ＺＣＲは、（音声）信号による符号変化率、すなわち、信号が変化する比率を示してよい。すなわち、ＺＣＲは、信号が０を有する、信号の符号が変わる比率を示してよい。

コンピュータシステム１００は、第１振幅信号、第１振幅信号に対するＭＦＣＣ、および第１振幅信号に対するＺＣＲを第２ネットワークに対して入力させてよく、第２ネットワークの出力として第１振幅信号に対して適用される第１マスクを取得してよい。

図６は、一例における、マスクに加重値を適用する方法を示したフローチャートである。

図６の段階６１０～６３０を参照しながら、マスクに加重値を適用する方法について具体的に説明する。

段階６１０で、コンピュータシステム１００は、振幅信号にマスクを適用して復元された音声の振幅信号を取得してよい。ここで、振幅信号は、第１ウィンドウが適用された第１音声信号の振幅信号を含んでよい。例えば、振幅信号は、５１２ＦＦＴの出力に対して振幅成分を抽出して得られた２５６の振幅データを含んでよい。マスクは、ＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０のような第２ネットワークの出力として提供されるＲＭ（または、ＩＲＭ）であってよい。このようなマスクは、上述した第１マスクおよび第２マスクを含んでよい。この場合、コンピュータシステム１００は、該当となる振幅信号に対してマスクＲＭの値を掛けることにより、復元された音声の振幅信号（ノイズが除去された振幅信号）を推定してよい。

段階６２０で、コンピュータシステム１００は、復元された音声の振幅信号を後処理モデルに入力してマスクの加重値を取得してよい。ここで、後処理モデルは、上述したＰｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２を含んでよい。上述したように、Ｐｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２は、ＣＮＮベースのｕ－ｎｅｔ構造でなされてよい。このようなＰｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２の構造については、以下でさらに詳しく説明する。

段階６３０で、コンピュータシステム１００は、マスクに加重値を適用してマスクの値を調節してよい。例えば、コンピュータシステム１００は、マスクＲＭの値に加重値Ｗをべき乗（ＲＭ＾Ｗ）することにより、マスクＲＭの値を追加で調節してよい。上述したように、ＲＭの値は０～１までの範囲に含まれる実数値であってよく、加重値であるＷは１～２までの範囲に含まれる実数値であってよい。ＲＭの値が１に近いほど音声である確率が高く、ＲＭの値が０に近いほどノイズである確率が高いが、このようなＲＭの値に１～２までの範囲に含まれる実数値であるＷをべき乗することによってＲＭのノイズ除去能力を大きく高めることができる。例えば、ＲＭの値が１に近いほど音声である確率が高く、べき乗の値（ＲＭ＾Ｗ）は本来のＲＭの値に大きい影響を及ぼさない。この反面、ＲＭの値が０に近いほどノイズである確率が高く、べき乗の値（ＲＭ＾Ｗ）はＲＭの値を大きく減少させる。このような動作でより、Ｗの精度が低くても、音声を適切に保存しながら、調節されたＲＭの値によってノイズを効果的に除去することができる。

図７は、一例における、入力音声信号および機械学習モデルからのマスクを使用してノイズが除去された音声信号を復元する方法を示したフローチャートである。

図７の段階７１０～７４０を参照しながら、ノイズが除去された音声信号を復元する方法について具体的に説明する。

段階７１０で、コンピュータシステム１００は、振幅信号に加重値が適用されたマスクを適用してよい。例えば、第１ウィンドウが適用された第１音声信号の振幅信号に加重値が適用されたマスクを乗算することにより、ノイズ除去振幅信号（ノイズが除去された振幅信号）を推定してよい。図４の実施形態を考慮すると、第１振幅信号には加重値が適用された第１マスクが乗算されてノイズが除去された第１振幅信号が推定されてよく、第２振幅信号には加重値が適用された第２マスクが乗算されてノイズが除去された第２振幅信号が推定されてよい。

段階７２０で、コンピュータシステム１００は、ノイズ除去振幅信号および位相信号に基づいて、ノイズが除去された復元音声信号のＦＦＴ係数を復元してよい。言い換えれば、コンピュータシステム１００は、第１ウィンドウが適用された第１音声信号に対して、段階７１０によって取得されたノイズが除去された振幅信号と、段階３３０によってノイズが除去された位相信号（段階３１０で第１ネットワークによってノイズが除去された位相信号）に基づいて、ノイズが除去された復元音声信号のＦＦＴ係数を復元してよい。

段階７３０で、コンピュータシステム１００は、復元されたＦＦＴ係数に基づいてＩＦＦＴ（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行することにより、ノイズが除去された復元音声信号を生成してよい。段階６７０で生成される復元音声信号は、図１の復元音声信号１９０と比べると第２ウィンドウが適用される前の第２音声信号であってよく、段階３８０で第２ウィンドウが適用されることによって図１の復元音声信号１９０となってよい。

復元音声信号１９０は、コンピュータシステム１００から、例えば、スピーカ２４０から出力されてよい。

図８は、一例における、機械学習モデルによって推定されるマスクを示した図である。

図８に示す（ａ）～（ｄ）のそれぞれは、第２ネットワークによる推論によって推定されるマスク（ＲＭ、ＩＲＭ、またはＣＩＲＭ）の例を示している。言い換えれば、図に示した（ａ）～（ｄ）のそれぞれは、第２ネットワークによって推定される最適値を示してよい。

マスクが、第１ウィンドウが適用された第１音声信号の振幅信号に対して掛けられることにより、第１ウィンドウが適用された第１音声信号に含まれたノイズが抑制（ｓｕｐｐｒｅｓｓ）されてよい。このとき、マスクに加重値が適用されることによって抑制性能が向上し、残余ノイズをより効果的に除去することができる。

図に示した（ａ）～（ｄ）において、例えば、ｘ軸は周波数（または時間）を、ｙ軸は第１ウィンドウが適用された第１音声信号に対して掛けられる値を示してよい。

第２ネットワークによって推定されるマスクの形態および値の振幅は、上述した第２ネットワークに対する入力パラメータと第２ネットワークによる推定の結果によって示したものとは異なってよい。

図９は、一例における、第１ネットワークの例を示しており、図１０は、一例における、第２ネットワークの例を示しており、図１１は、一例における、第３ネットワークの例を示している。上述したように、第１ネットワーク、第２ネットワーク、第３ネットワークはそれぞれ、ｕ－ｎｅｔ構造の機械学習モデルであってよい。ｕ－ｎｅｔ構造は、図９に示すように、各レイヤの大きさが５１２－２５６－１２８－６４－３２－１６－１６－３２－６４－１２８－２５６－５１２のように前のレイヤの半分になるように構成される特徴を有し、このようなレイヤの形状は「Ｕ」字を示している。図９では、図１を参照しながら説明したＴｉｍｅＮＳｎｅｔ１２０がＣＮＮの合計１２個のレイヤを使用して実現される例を示しており、図１０では、図１を参照しながら説明したＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０がＤｅｎｓｅの合計６個のレイヤを使用して実現される例を示している。さらに、図１１では、図１を参照しながら説明したＰｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２がＣＮＮの合計６個のレイヤを使用して実現される例を示している。

特に、Ｐｏｓｔｐｒｏｃｅｓｓｉｎｇｎｅｔ１６２は、エンコード（ｅｎｃｏｄｅ）レイヤとデコード（ｄｅｃｏｄｅ）レイヤがそれぞれ２つで構成されており、ＣＮＮでのそれぞれのマスクは４つで構成されている。演算量を減らすために、ＣＮＮは、Ｄｅｐｔｈ－ｗｉｓｅＳｅｐａｒａｂｌｅＣｏｎｖｏｌｕｔｉｏｎ方式で動作するように実現した。本実施形態において、ネットワークの入力は、５１２－ＦＦＴの振幅信号とＦｒｅｑｕｅｎｃｙＮＳｎｅｔ１５０の出力マスクの倍である２５６個の推論された振幅であってよく、出力は２５６個の加重値であってよい。

これは、第１ネットワーク、第２ネットワーク、および第３ネットワークを構成する１つの実施例に過ぎず、これに限定されることはない。

図１２は、一実施形態における、性能評価の例を示した図である。図１２は、クリーン音声信号１２１０と、ノイズが含まれた音声信号１２２０を示している。また、図１２は、マスクＲＭに加重値を適用する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）を行わない場合に第１復元された音声信号１２３０と、後処理を行った場合に第２復元された音声信号１２４０の例を示している。このとき、第１復元された音声信号１２３０には残余ノイズが存在しているが、第２復元された音声信号１２４０からは残余ノイズが除去された例を示している。

このように、本発明の実施形態によると、周波数領域からノイズを除去する方式の問題点と、時間領域でクリーン音声を推論する方式の問題点を解決するために、周波数領域の情報と時間領域の情報を同時に活用および調節できるように周波数領域と時間領域に対するそれぞれのネットワークを構成し、２つのネットワークが相互補完的に優れた性能を発揮するように学習を行うことにより、ノイズが強い環境でも優れた性能を発揮することができる。また、演算量の少ない後処理方式によって残余ノイズを除去することができる。

上述した装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特定用途コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、個別またはまとめて処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付の特許請求の範囲に属する。

Claims

少なくとも１つのプロセッサを含むコンピュータシステムのノイズ除去方法であって、
前記少なくとも１つのプロセッサが、音声信号の第１振幅信号に対して適用されるマスクを推定するように訓練された第１機械学習モデルを利用して前記第１振幅信号のためのマスクを取得する段階、
前記少なくとも１つのプロセッサが、前記第１振幅信号に前記マスクを適用して、復元された音声の振幅信号を取得する段階、
前記少なくとも１つのプロセッサが、前記復元された音声の振幅信号を入力として前記マスクのための加重値を出力するように学習された第２機械学習モデルを利用して前記マスクのための加重値を取得する段階、
前記少なくとも１つのプロセッサが、前記マスクに前記加重値を適用して、加重値が適用されたマスクを生成する段階、および
前記少なくとも１つのプロセッサが、前記第１振幅信号に前記加重値が適用されたマスクを適用して第２振幅信号を生成する段階
を含む、ノイズ除去方法。
前記加重値が適用されたマスクを生成する段階は、
前記マスクの値に前記加重値の値をべき乗することによって前記マスクに前記加重値を適用することを特徴とする、請求項１に記載のノイズ除去方法。
前記マスクの値は０～１までの範囲に含まれる実数値を含み、
前記加重値の値は１～２までの範囲に含まれる実数値を含むこと
を特徴とする、請求項２に記載のノイズ除去方法。
前記復元された音声の振幅信号を取得する段階は、
前記第１振幅信号に前記マスクを掛けて、前記復元された音声の振幅信号を取得することを特徴とする、請求項１に記載のノイズ除去方法。
前記第２機械学習モデルは、ニューラルネットワークのレイヤを利用して実現されるｕ－ｎｅｔ構造の機械学習モデルを含むことを特徴とする、請求項１に記載のノイズ除去方法。
前記少なくとも１つのプロセッサが、時間領域からノイズが除去された音声を推論するように訓練された第３機械学習モデルにノイズを含む音声入力信号を入力することで、前記音声入力信号の位相が復元されてノイズが１次除去された第１音声信号として前記音声信号を取得する段階
をさらに含む、請求項１に記載のノイズ除去方法。
前記少なくとも１つのプロセッサが、前記音声信号に第１ウィンドウを適用する段階、および
前記第１ウィンドウが適用された音声信号にＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行して前記第１振幅信号および位相信号を取得する段階
をさらに含む、請求項１に記載のノイズ除去方法。
前記少なくとも１つのプロセッサが、前記第２振幅信号および前記音声信号の位相信号を使用して前記音声信号にＩＦＦＴ（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行することによって、ノイズが除去された第２音声信号を生成する段階、および
前記少なくとも１つのプロセッサが、前記第２音声信号に第２ウィンドウを適用する段階
をさらに含む、請求項１に記載のノイズ除去方法。
前記第２音声信号を生成する段階は、
前記第２振幅信号および前記位相信号に基づいて、ノイズが除去された音声信号のＦＦＴ係数を復元する段階、および
前記復元されたＦＦＴ係数に基づいてＩＦＦＴを実行することによって、ノイズが除去された前記第２音声信号を復元する段階
を含むことを特徴とする、請求項８に記載のノイズ除去方法。
前記第１振幅信号のためのマスクを取得する段階は、
前記第１機械学習モデルに対して前記第１振幅信号のうちの第１周波数帯域の第１－１振幅信号を入力させ、前記第１機械学習モデルの出力として前記第１－１振幅信号に対して適用される第１マスクを取得する段階、
前記第１振幅信号のうちの前記第１周波数帯域よりも大きい周波数帯域である第２周波数帯域の第１－２振幅信号を複数の帯域幅区間の振幅信号で区分する段階、
前記区分された振幅信号それぞれに対する平均エネルギーを計算する段階、および
前記第１機械学習モデルに対して前記計算された平均エネルギーを入力させ、前記第１機械学習モデルの出力として前記第１－２振幅信号に対して適用される第２マスクを取得する段階
を含むことを特徴とする、請求項１に記載のノイズ除去方法。
前記第１－２振幅信号は、前記第２周波数帯域をバーク尺度（ｂａｒｋｓｃａｌｅ）単位で区分することによって、前記複数の帯域幅区間の振幅信号に区分されることを特徴とする、請求項１０に記載のノイズ除去方法。
コンピュータシステムと結合して請求項１～１１のうちのいずれか一項に記載の方法をコンピュータシステムに実行させるためのコンピュータプログラム。
請求項１～１１のうちのいずれか一項に記載の方法を実行するコンピュータ読み取り可能記録媒体に記録されたプログラム。
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサが、
音声信号の第１振幅信号に対して適用されるマスクを推定するように訓練された第１機械学習モデルを利用して前記第１振幅信号のためのマスクを取得し、
前記第１振幅信号に前記マスクを適用して、復元された音声の振幅信号を取得し、
前記復元された音声の振幅信号を入力として前記マスクのための加重値を出力するように学習された第２機械学習モデルを利用して前記マスクのための加重値を取得し、
前記マスクに前記加重値を適用して、加重値が適用されたマスクを生成し、
前記第１振幅信号に前記加重値が適用されたマスクを適用して第２振幅信号を生成すること
を特徴とする、コンピュータ装置。
前記加重値が適用されたマスクを生成するために、前記少なくとも１つのプロセッサが、
前記マスクの値に前記加重値の値をべき乗することによって前記マスクに前記加重値を適用すること
を特徴とする、請求項１４に記載のコンピュータ装置。
前記復元された音声の振幅信号を取得するために、前記少なくとも１つのプロセッサが、
前記第１振幅信号に前記マスクを掛けて、前記復元された音声の振幅信号を取得すること
を特徴とする、請求項１４に記載のコンピュータ装置。
前記第２機械学習モデルは、ニューラルネットワークのレイヤを利用して実現されるｕ－ｎｅｔ構造の機械学習モデルを含むこと
を特徴とする、請求項１４に記載のコンピュータ装置。
前記少なくとも１つのプロセッサが、
時間領域からノイズが除去された音声を推論するように訓練された第３機械学習モデルにノイズを含む音声入力信号を入力することで、前記音声入力信号の位相が復元されてノイズが１次除去された第１音声信号として前記音声信号を取得すること
を特徴とする、請求項１４に記載のコンピュータ装置。
前記少なくとも１つのプロセッサが、
前記音声信号に第１ウィンドウを適用し、
前記第１ウィンドウが適用された音声信号にＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行して前記第１振幅信号および位相信号を取得すること
を特徴とする、請求項１４に記載のコンピュータ装置。
前記少なくとも１つのプロセッサが、
前記第２振幅信号および前記音声信号の位相信号を使用して前記音声信号にＩＦＦＴ（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を実行することによって、ノイズが除去された第２音声信号を生成し、
前記第２音声信号に第２ウィンドウを適用すること
を特徴とする、請求項１４に記載のコンピュータ装置。