JP2023122018A

JP2023122018A - 信号処理装置、信号処理プログラム及び信号処理方法

Info

Publication number: JP2023122018A
Application number: JP2022025439A
Authority: JP
Inventors: 大藤枝; Masaru Fujieda; 宗大原; Munehiro Hara; 悠介 ▲高▼橋; Yusuke Takahashi; 一浩片桐; Kazuhiro Katagiri; 哲司小川; Tetsuji Ogawa; 里久荻野; Satohisa Ogino
Original assignee: Waseda University; Oki Electric Industry Co Ltd
Current assignee: Waseda University; Oki Electric Industry Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-09-01

Abstract

【課題】歪みを含む音声信号と当該音声信号に対応する歪みのない正解信号のペアデータを必要とせずに、音声強調技術によって生じた信号の歪みを低減させる。【解決手段】本発明は、信号処理装置に関する。そして、本発明の信号処理装置は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段を備え、深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。【選択図】図１

Description

本発明は、信号処理装置、信号処理プログラム、及び信号処理方法に関し、例えば、任意の信号処理により歪みの生じた音声信号から歪みを低減する処理に適用し得る。

現在、妨害音が混合された観測信号から、目的音成分を強調する音声強調技術は、様々な音声処理における前処理として欠かせない要素技術となっている。ここで得られる強調音声は、妨害音源が除去されていることに加え、耳障りな処理歪みを含んでいないことが望ましい。

従来の音声強調技術は、線形処理に基づくアプローチと、非線形処理に基づくアプローチに大別される。時間・周波数マスキング（非特許文献１参照）やＤＡＥ（ＤｅｎｏｉｓｉｎｇＡｕｔｏＥｎｃｏｄｅｒ）（非特許文献２参照）等の非線形な音声強調処理により得た音声には，妨害音の消し残り（残留雑音）に加え、主に目的音源のスペクトル成分が欠損することで生じる人工的で耳障りな歪みが含まれる。

それに対し、従来、ケプストラム領域において時間平滑化を行うことで非線形歪みを抑圧する手法などが提案されている（非特許文献２参照）。

また、時間周波数マスキングと敵対的ＤＡＥを統合することで、目的音源の処理歪みを低減しながら、妨害音成分を抑圧する試みがなされている（非特許文献３参照）。この敵対的学習に基づく手法では、観測信号と対となる正解信号へのマッピングを学習することで、時間周波数マスキングで欠損したスペクトル成分の復元が可能となり、処理歪みの激しい信号に対する音声強調を達成している。

Ozgur Yilmaz, Scott Rickard,"Blind Separation of Speech Mixtures via Time-Frequency Masking", IEEE Trans. on signal Proc, 1830-1847, 2004,［２０２２年２月１１日検索］、［Online］INTERNET、<URL: https://www.ee.columbia.edu/~dpwe/papers/YilR02-bsstfm.pdf > Xugang Lu, Yu Tsao, Shigeki Matsuda, Chiori Hori1,"Speech Enhancement Based on Deep Denoising Autoencoder", INTERSPEECH, 436-440, 2013,［２０２２年２月１１日検索］、［Online］INTERNET、<URL:https://www.citi.sinica.edu.tw/papers/yu.tsao/3582-F.pdf> Naohiro Tawara, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa,"Adversarial autoencoder for reducing nonlinear distortion", IPSJ,2018,［２０２２年２月１１日検索］、［Online］INTERNET、<URL: http://www.apsipa.org/proceedings/2018/pdfs/0001669.pdf>

ところで、人工的な処理歪み、及び残留雑音は、時間・周波数スペクトログラム上で局所的に生じる。このため、時間・周波数スペクトログラムを大域的に捉えて設計された従来の技術では、それぞれ別の課題が生じている。

具体的には、非特許文献２に記載の技術では、残響に似た別の歪みが生じるという課題があった。また、非特許文献３に記載の技術は、教師あり学習であるため、観測信号と対となる正解信号へのマッピングを学習するために、観測信号と正解信号のペアデータを用意する必要があった。以上のように、従来技術では、あらゆる利用シーンを想定して観測信号と正解信号のペアデータを用意することは現実的ではないため、当該技術には実用的ではないという課題があった。

以上のような問題に鑑みて、歪みを含む音声信号と当該音声信号に対応する歪みのない正解信号のペアデータを必要とせずに、音声強調技術によって生じた信号の歪みを低減させることができる信号処理装置、信号処理プログラム及び信号処理方法が望まれている。

第１の本発明の信号処理装置は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段を備え、前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。

第２の本発明の信号処理プログラムは、コンピュータを、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段として機能させ、前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。

第３の本発明は、信号処理装置が行う信号処理方法において、前記信号処理装置は、歪み補正手段を備え、前記歪み補正手段は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正し、前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。

本発明によれば歪みを含む音声信号と当該音声信号に対応する歪みのない正解信号のペアデータを必要とせずに、音声強調技術によって生じた信号の歪みを低減させることができる。

実施形態に係る信号処理装置の機能的構成について示したブロック図である。実施形態に係る信号処理装置のハードウェア構成について示したブロック図である。実施形態に係る信号処理装置を構成する歪み補正ＤＮＮを学習させる際の構成について示したブロック図である。実施形態に係る歪み補正ＤＮＮを敵対的学習させる際に用いる識別器に適用するモデルの例について示した図（イメージ図）である。実施形態に係る収音装置のシミュレーションに適用するモデルについて示した図（その１）である。実施形態に係る収音装置のシミュレーションに適用するモデルについて示した図（その２）である。実施形態に係る収音装置の評価結果について示した図（その１）である。実施形態に係る収音装置の評価結果について示した図（その２）である。実施形態に係る収音装置の評価結果について示した図（その３）である。実施形態に係る歪み補正手段（歪み補正ＤＮＮ）の学習時に、循環による一貫性を持つ敵対的ネットワークの枠組みを適用した場合の構成について示したブロック図（その１）である。実施形態に係る歪み補正手段（歪み補正ＤＮＮ）の学習時に、循環による一貫性を持つ敵対的ネットワークの枠組みを適用した場合の構成について示したブロック図（その２）である。実施形態に係る歪み補正手段（歪み補正ＤＮＮ）の学習時に、循環による一貫性を持つ敵対的ネットワークの枠組みを適用した場合の構成について示したブロック図（その３）である。

（Ａ）主たる実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の一実施形態を、図面を参照しながら詳述する。

（Ａ－１）実施形態の構成
図１は、この実施形態の信号処理装置１０の全体構成を示すブロック図である。

信号処理装置１０は、非線形音声強調手段１１と歪み補正手段１２を有している。

非線形音声強調手段１１は、目的音としての音声成分を含む音声信号（音響信号）である「観測信号Ｓ１」を非線形な音声強調処理（以下、「非線形音声強調処理」とも呼ぶ）により処理して、「音声強調信号Ｓ２」を出力する機能を担っている。

歪み補正手段１２は、音声強調信号Ｓ２に含まれる歪み（非線形音声強調処理により生じた歪み）を補正して歪の補正された音声信号（音響信号）である「歪み補正済信号Ｓ３」を得る。

歪み補正手段１２は、歪み補正ＤＮＮ１２１を用いて歪みを補正する。歪み補正ＤＮＮ１２１は、後述する学習処理により学習するＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ；深層ニューラルネットワーク）である。

観測信号Ｓ１の構成や形式は限定されないものである。図１に示すように、この実施形態の例では、観測信号Ｓ１は、２つのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）を備えるマイクアレイ部２０で観測（捕捉）された音声信号（音響信号）であるものとする。マイクロホンアレイＭＡ１、ＭＡ２は、それぞれ２つのマイクロホンＭ（Ｍ１、Ｍ２）を備える２ｃｈマイクロホンアレイであるものとする。各マイクロホンアレイＭＡ１、ＭＡ２は、目的音源（発話話者）が位置する目的エリアの存在する空間の任意の場所に配置されているものとする。なお、マイクアレイ部２０が備えるマイクロホン／マイクロホンアレイの数や種類については限定されないものであり、非線形音声強調手段１１に対応する種々の構成を適用することができる。

また、非線形音声強調手段１１による非線形の音声強調技術については限定されないものであるが、この実施形態の例では、ＭＵＢＡＳＥ（Ｍｕｌｔｉｐｌｅｂｅａｍ－ｆｏｒｍｉｎｇａｒｅａｓｏｕｎｄｅｎｈａｎｃｅｍｅｎt）（参考文献１参照）を適用するものとして説明する。ＭＵＢＡＳＥによる処理では、各マイクロホンアレイＭＡの正面方向に構成した扇形の空間フィルタの共通部分を強調することで、特定の領域に含まれる音源（目的エリアを音源とする音）のみを強調する。言い換えると、ＭＵＢＡＳＥでは、複数のマイクロホンアレイＭＡのビームフォーマ出力に基づいて、目的エリアを音源（目的エリア内の話者を音源）とする目的エリア音を収音する処理（以下、「エリア収音処理」とも呼ぶ）により目的エリア音である音声を強調した信号が得られる。この実施形態では、非線形音声強調手段１１として上記のＭＵＢＡＳＥを適用する例について説明するが、その他の非線形な音声強調技術を適用するようにしてもよい。

［参考文献１］ Kazuhiro Katagiri, Tokuo Yamaguchi, Takashi Yazu, and Yoong Keok Lee,“Multiple beam-forming area sound enhancement (MUBASE) and stereophonic area sound reproduction (SASR) system”, SIGGRAPH Asia 2015 Emerging Technologies, 2015，［２０２２年２月１１日検索］、［Online］INTERNET、<URL: https://dl.acm.org/doi/10.1145/2818466.2818493>
次に、信号処理装置１０のハードウェア構成の例について説明する。

信号処理装置１０は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。信号処理装置１０は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の信号処理プログラムを含む）をインストールすることにより構成するようにしてもよい。

図２は、信号処理装置１０のハードウェア構成の例について示したブロック図である。

図２では、信号処理装置１０を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図２に示す信号処理装置１０は、ハードウェア的な構成要素として、プログラム（実施形態の収音プログラムを含む）がインストールされたコンピュータ４００を有している。また、コンピュータ４００は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図２に示すコンピュータ４００は、プロセッサ４０１、一次記憶部４０２、及び二次記憶部４０３を有している。一次記憶部４０２は、プロセッサ４０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部４０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨ（商標登録）メモリやＨＤＤやＳＳＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ４００では、プロセッサ４０１が起動する際、二次記憶部４０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部４０２上に展開して実行する。なお、コンピュータ４００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部４０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部４０３については除外した構成としてもよい。

次に、歪み補正ＤＮＮ１２１の詳細構成について説明する。

図３は、歪み補正ＤＮＮ１２１の学習時の構成について示したブロック図である。

図３に示すように、歪み補正ＤＮＮ１２１は、敵対的学習を行うＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；敵対的生成ネットワーク）の枠組みにより、教師なしで学習することが可能となっている。

この場合、ＧＡＮの枠組みでは、歪み補正ＤＮＮ１２１が生成器（Ｇｅｎｅｒａｔｏｒ）に相当することになる。また、図３では、ＧＡＮの枠組みにおける識別器(Ｄｉｓｃｒｉｍｉｎａｔｏｒ)の要素として識別器１２２が配置されている。

なお、図３では、学習済の歪み補正ＤＮＮ１２１による入出力（Ｓ２、Ｓ３）と区別するため、学習中の歪み補正ＤＮＮ１２１の入力信号をＳ４、出力信号をＳ５と図示している。また、図３では、識別器１２２に入力される無歪み音声信号を「Ｓ６」と図示し、識別器１２２で取得される識別ロス（識別損失）を「Ｓ７」と図示している。

この場合、識別器１２２が無歪み音声信号Ｓ６(真)と生成器（歪み補正ＤＮＮ１２１）の出力信号Ｓ５(偽)を判別する処理を行う。そして、歪み補正ＤＮＮ１２１は、無歪み音声信号Ｓ６(真)と生成器（歪み補正ＤＮＮ１２１）の出力信号Ｓ５(偽)を判別する識別器１２２を騙すように学習する。

このとき、入力信号Ｓ４としては、音声強調処理を施した歪みを含む信号を適用するようにしてもよい。具体的には、例えば、非線形音声強調手段１１により出力された信号を、入力信号Ｓ４として適用するようにしてもよい。また、このとき、無歪み音声信号Ｓ６としては、入力信号Ｓ４（歪みを含む信号）に対応する正解信号（入力信号Ｓ４に含まれる歪みの無い目的音の信号）である必要はない。つまり、無歪み音声信号Ｓ６は、入力信号Ｓ４（歪みを含む信号）自体に対応するペアデータ（正解信号）である必要はない。

そして、図３に示す枠組みでは、歪み補正ＤＮＮ１２１の入力信号Ｓ４と出力信号Ｓ５との間のロス（損失）である入出力ロスＳ８を算出する入出力ロス算出手段１２３が配置されている。入出力ロスＳ８の詳細については後述する。

以上のように、この実施形態の歪み補正ＤＮＮ１２１では、図３に示すようなＧＡＮの枠組みで敵対的学習を行うことで、入力信号Ｓ４に対応する正解信号の対（ペアデータ）を必要としないことは、歪み補正手段１２を実環境で得られる信号のみを用いて構築・運用するための重要な要件である。

次に、図３に示す歪み補正ＤＮＮ１２１を学習させる際のＧＡＮの枠組みで用いられるパラメータについて説明する。

ここで、識別器１２２のパラメータθ_Ｄと歪み補正ＤＮＮ１２１（生成器）のパラメータθ_Ｇは、（１）式で示される目的関数Ｌ_Ｄ、Ｌ_Ｇを最小化することで得られる。

（１）式において、「ｃ」は無歪み音声信号Ｓ６を表し、「ｘ」は非線形音声強調手段１１によって得られる音声強調信号Ｓ２を表し、「λ」は識別ロスＳ７と入出力ロスＳ８のバランスを調整する係数を表している。

（１）式において、Ｌ_ＢＣＥ（ｃ）は、識別器１２２における識別損失（識別ロスＳ７）である。ここでは、識別器１２２の識別損失（識別ロスＳ７）に用いる損失関数（Ｌ_ＢＣＥ（ｃ）に適用する損失関数）として、バイナリクロスエントロピー損失を用いるものとするがこれに限定されないものである。識別器１２２の識別損失（識別ロスＳ７）に用いる損失関数としては、例えば、最小二乗損失やＥＭＤ（ＥａｒｔｈＭｏｖｅｒＤｉｓｔａｎｃｅ）を適用してもよい。

また、（１）式において、Ｌ_Ｌ１（ｘ，Ｇ（ｘ））は、歪み補正ＤＮＮ１２１（生成器）における入力信号Ｓ４と出力信号Ｓ５の入出力損失（入出力ロスＳ８）を示している。つまり、Ｌ_Ｌ１（ｘ，Ｇ（ｘ））は、入出力ロス算出手段１２３により算出される入出力ロスＳ８を示している。ここでは、入出力ロス算出手段１２３（入出力ロスＳ８）に用いる損失関数（Ｌ_Ｌ１（ｘ，Ｇ（ｘ））に適用する損失関数）として、Ｌ１ロス（Ｌ１損失）を用いるものとするがこれに限定されないものである。例えば、入出力ロス算出手段１２３（入出力ロスＳ８）において損失関数としてＬ２ロス（Ｌ２損失）を用いるようにしてもよい。

さらに、（１）式において、Ｇ（ｘ）は、歪み補正ＤＮＮ１２１（生成器）の入力信号Ｓ４に対する出力信号Ｓ５である。（１）式において、Ｌ１損失（Ｌ_Ｌ１（ｘ，Ｇ（ｘ））は、出力信号Ｓ５において音声信号の波形らしさを保つための制約として加えた。

次に、歪み補正ＤＮＮ１２１の具体的なモデルについて説明する。

ここでは、歪み補正ＤＮＮ１２１をＧＡＮ（敵対的学習）の枠組みで構築するときのモデル構造について述べる。ここでは、歪み補正ＤＮＮ１２１で処理される信号（入力信号Ｓ４、出力信号Ｓ５）は、短時間フーリエ変換により得られる時間・周波数領域の信号であるものとする。

歪み補正ＤＮＮ１２１には、任意のモデルのＤＮＮを適用できるが、ＧＡＮ（敵対的学習）に基づく音声強調の多くで利用されているエンコーダ・デコーダ型のＤＮＮであるＵ－ｎｅｔ型を適用するのが好適である。歪み補正ＤＮＮ１２１に適用可能なＵ－ｎｅｔ型のモデルとしては、例えば、参考文献２に記載されたモデルを適用することができる。
［参考文献２］ Olaf Ronneberger, Philipp Fischer, Thomas Brox,“Ｕ－ｎｅｔ: Convolutional Networks for Biomedical Image Segmentation”, MICCAI, 2015,［２０２２年２月１１日検索］、［Online］INTERNET、<URL: https://arxiv.org/pdf/1505.04597.pdf >
識別器１２２についてもＧＡＮの枠組みで用いられる任意のモデルを適用することができる。この実施形態の例において、識別器１２２に適用するモデルとしては以下の２種類のいずれかを適用するものとして説明するがこれに限定されない。図４は、この実施形態の識別器１２２に適用するモデルの例について示した図（イメージ図である）。

この実施形態において、識別器１２２に適用する第１のモデルは、入力される時間・周波数スペクトル全体に対して二次元畳み込み（２ＤＣｏｎｖｏｌｕｔｉｏｎ）を行い、入力全体に対して真偽を判定するモデル（以下、「二次元畳み込み型モデル」又は「２ＤＣｏｎｖＧＡＮ」と表す）である。識別器１２２に適用する二次元畳み込み型モデル（２ＤＣｏｎｖＧＡＮ）としては、例えば、参考文献３、４のような構成が挙げられる。
［参考文献３］ Santiago Pascual, Antonio Bonafonte, Joan Serra,“SEGAN: Speech Enhancement Generative Adversarial Network”, arXiv preprint arXiv:1703.09452,2017,［２０２２年２月１１日検索］、［Online］INTERNET、<URL: https://arxiv.org/pdf/1703.09452.pdf>
［参考文献４］ Alec Radford, Luke Metz, Soumith Chintala,“UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS”, CoRR abs/1511. 06434, 2015,［２０２２年２月１１日検索］、［Online］INTERNET、<URL: https://arxiv.org/pdf/1511.06434.pdf >
また、この実施形態の識別器１２２に適用する第２のモデルは、最終層まで畳み込みを行い、入力スペクトルに対する局所的なパッチ（Ｐａｔｃｈ）ごとに真偽を判定するモデル（以下、「局所的パッチ型モデル」又は「ＰａｔｃｈＧＡＮ」と表す）である。識別器１２２に適用する局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）としては、例えば、参考文献５のような構成が挙げられる。観測信号Ｓ１について非線形音声強調処理がなされた音声強調信号Ｓ２では、残留雑音や人工的な処理歪みは時間・周波数スペクトル上で局所的に生じるため、パッチごとに真偽(歪みの有無)を判別する識別器を用いることが望ましく、その点で局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）は好適である。
［参考文献５］ Chuan Li, Michael Wand, “Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks”, Proc. ECCV, 702-716, 2016,［２０２２年２月１１日検索］、［Online］INTERNET、<URL: https://arxiv.org/pdf/1604.04382.pdf >
図４（ａ）は識別器１２２が二次元畳み込み型モデのモデルで識別処理を行う例について示したイメージ図であり、図４（ｂ）は識別器１２２が局所的パッチ型モデルで識別処理を行う例について示したイメージ図である。

図４では、識別器１２２に判別対象の信号（時間・周波数スペクトル）として入力される行列をＤ１０１と図示している。

図４（ａ）では、行列Ｄ１０１を二次元畳み込み型モデルで二次元畳み込みする過程の行列をＤ１０１ａとしている。また、図４（ａ）では、二次元畳み込み型モデルによるＤ１０１に対する識別結果の数値をＲ１としている。

二次元畳み込み型モデルによる識別処理では、図４（ａ）に示すように、入力されるＤ１０１全体に対して畳み込みを行った結果得られる識別結果Ｒ１として、１つの数値が出力される。ここでは、識別器１２２による識別結果（真偽（Ｒｅａｌ／Ｆａｋｅ）の結果）は、０．０～１．０の範囲の数値で出力されるものとする。

図４（ｂ）では、局所的パッチ型モデルにおいて、入力される行列Ｄ１０１の一部（パッチ）の領域をＤ２０１としている。そして、図４（ｂ）では、局所的パッチ型モデルで、パッチ領域Ｄ２０１を二次元畳み込みする過程の行列をＤ２０１ａとしている。図４（ｂ）に示すように、局所的パッチ型モデルで、パッチ領域Ｄ２０１に対して畳み込みを行った結果得られる識別結果Ｒ２０１として、１つの数値（０．０～１．０の範囲の数値）が出力されるものとする。図４（ｂ）に示す局所的パッチ型モデルでは、入力Ｄ１０１全体を１６個（４×４個）のパッチ（ブロック）に分割して二次元畳み込みを行うことにより、１６個（４×４個）の識別結果としての数値（Ｒ２０１と同様の形式の数値）が得られる。図４（ｂ）では、各パッチの識別結果（１６個の識別結果）全体を指して識別結果群Ｒ２としている。なお、図４（ｂ）に示すモデルでは、説明を簡易とするため、入力Ｄ１０１に１６個（４×４個）のパッチを設定しているが、識別器１２２において局所的パッチ型モデルを適用する場合において入力Ｄ１０１に設定するパッチの数や位置（範囲）については限定されないものである。識別器１２２において、識別結果群Ｒ２に基づいて入力Ｄ１０１全体に対して評価する処理を行い、最終的な識別結果として、１つの数値（０．０～１．０の範囲の数値）を出力することになる。この場合、識別器１２２が、識別結果群Ｒ２を評価する方法については限定されないものである。例えば、識別器１２２は、識別結果群Ｒ２を構成する各数値の平均値を最終的な識別結果として出力するようにしてもよい。また、例えば、識別器１２２は、識別結果群Ｒ２を構成する数値から一部の数値（例えば、上位又は下位から所定数の数値）を抽出して、抽出した数値の平均値を最終的な識別結果として出力するようにしてもよい。

この実施形態の歪み補正手段１２では、歪み補正ＤＮＮ１２１に対して学習処理を実行させる動作モード（以下、「学習処理モード」と呼ぶ）と、歪み補正ＤＮＮ１２１に対して音声強調信号Ｓ２の歪み補正処理を実行させる動作モード（以下、「信号処理モード」と呼ぶ）の両方に対応しているものとする。

歪み補正手段１２は、学習処理モードで動作する場合、非線形な音声強調処理による歪みを含む音声信号（以下、「歪み含有音声信号」と呼ぶ）のサンプル（入力信号Ｓ４となるサンプル）と、歪みの無いクリーンな音声信号（無歪み音声信号）のサンプル（無歪み音声信号Ｓ６となるサンプル）を含む学習用データが供給されると、図３に示すようなＧＡＮの枠組みで、歪み補正ＤＮＮ１２１に学習用データを用いた敵対的学習を実行させる。これにより、歪み補正ＤＮＮ１２１では、供給された学習用データに基づいて学習（ディープラーニング）した学習モデルを取得することができる。

以上のように、この実施形態の信号処理装置１０では、非線形な音声強調技術によって処理された歪みを含む音声強調信号Ｓ２から歪みのない音声信号へ変換するための学習モデルを獲得するために、歪み補正ＤＮＮ１２１を、敵対的学習（ＧＡＮ）に基づく教師なし学習により学習する。敵対的学習（ＧＡＮ）の枠組みでは歪み補正ＤＮＮ１２１が生成器に相当し、無歪み音声信号Ｓ６（真）と生成器の出力信号Ｓ５（偽）を判別する識別器１２２を騙すように学習される。なお、音声強調技術によって生じる人工的な処理歪み、および残留雑音は、時間・周波数スペクトログラム上で局所的に生じることから、この実施形態の信号処理装置１０では、識別器１２２による歪みの有無の真偽判定に局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）を適用することが好適である。また、この実施形態の信号処理装置１０では、入出力ロス算出手段１２３が、歪み補正ＤＮＮ１２１の入力信号Ｓ４（信号の歪みと残留雑音を含む信号）と出力信号Ｓ５との損失である入出力ロスＳ８を歪み補正ＤＮＮ１２１にフィードバックしている。さらに、この実施形態では、（１）式に示すように、歪み補正ＤＮＮ１２１の目的関数が入出力ロスＳ８を含むように構成されている。さらにまた、この実施形態の信号処理装置１０では、歪み補正ＤＮＮ１２１が、エンコーダ・デコーダ型のＤＮＮであるＵ－ｎｅｔ型により構成されている。

（Ａ－２）実施形態の動作
次に、以上のような構成を有するこの実施形態の信号処理装置１０の動作（実施形態に係る信号処理方法）を説明する。

まず、信号処理装置１０の歪み補正手段１２（歪み補正ＤＮＮ１２１）が学習処理モードで動作する場合の処理について説明する。

学習処理モードで動作する歪み補正手段１２に学習用データが供給されると、歪み補正手段１２は、図３に示すＧＡＮの枠組みに当該学習用データを入力して、歪み補正ＤＮＮ１２１に学習処理（ニューラルネットワークにより目的エリア音を抽出する処理の学習）を実行させる。このとき、学習用データには、歪み含有音声信号のサンプルと、無歪み含有音声信号のサンプルが含まれている。

図３に示すＧＡＮの枠組みにおいて、歪み補正ＤＮＮ１２１と入出力ロス算出手段１２３に、学習用データに含まれる歪み含有音声信号のサンプルが入力信号Ｓ４として供給される。また、識別器１２２に、学習用データに含まれる無歪み音声信号が、無歪み音声信号Ｓ６として供給される。これにより、歪み補正ＤＮＮ１２１では、入力信号Ｓ４がＤＮＮにより処理され、処理結果が出力信号Ｓ５として出力される。また、識別器１２２では、出力信号Ｓ５について識別処理が行われ、その識別処理結果として識別ロスＳ７が取得されて、歪み補正ＤＮＮ１２１にフィードバックされる。さらに、入出力ロス算出手段１２３では、入力信号Ｓ４と出力信号Ｓ５との間の入出力ロス（Ｌ１損失）が取得されて、歪み補正ＤＮＮ１２１にフィードバックされる。以上のような処理により、歪み補正ＤＮＮ１２１では、学習処理（深層ニューラルネットワークによる歪み補正処理の学習）が行われる。

次に、信号処理装置１０の歪み補正手段１２（歪み補正ＤＮＮ１２１）が信号処理モードで動作する場合の動作について説明する。

観測信号Ｓ１が非線形音声強調手段１１に供給され、非線形音声強調手段１１で当該観測信号について非線形の音声強調処理が行われて音声強調信号Ｓ２が出力される。そして、この音声強調信号Ｓ２が、信号処理モードで動作する歪み補正手段１２（歪み補正ＤＮＮ１２１）に供給されると、歪み補正ＤＮＮ１２１では学習済のＤＮＮにより音声強調信号Ｓ２に対する歪み補正が行われて、歪み補正済信号Ｓ３として出力される。

次に、本願発明者が、信号処理装置１０を構築して品質評価するために行ったシミュレーション（以下、「本シミュレーション」と呼ぶ）について説明する。

まず、本シミュレーションの条件について説明する。

図５は、本シミュレーションにおいて、観測信号Ｓ１を取得（観測）するモデル（条件）について示した図である。

本シミュレーションでは、図５に示すように、２つのマイクロホンアレイＭＡ１、ＭＡ２（２ｃｈマイクロホンアレイ）、目的音源、妨害音源が全て同じ平面上に存在するものとする。また、本シミュレーションでは、図５に示すモデル環境の音場を構成する部屋の大きさは、７ｍ×７ｍ×３ｍの大きさ（床面の広さが７ｍ×７ｍで高さが３ｍの部屋）であるものとする。また、本シミュレーションでは、シミュレーションの条件として残響は無しとした。

図５では、マイクロホンアレイＭＡ１、ＭＡ２において、２つのマイクロホンＭ１、Ｍ２の位置（中心位置）を結んだ線を、それぞれＬ１、Ｌ２としている。また、図５では、マイクロホンアレイＭＡ１、ＭＡ２において、２つのマイクロホンＭ１、Ｍ２の位置（中心位置）の中間の位置（マイクロホンアレイの中心点；線Ｌ１、Ｌ２上の中間点の位置）をそれぞれＰ１、Ｐ２と図示している。さらに、図５では、マイクロホンアレイＭＡ１、ＭＡ２の位置Ｐ１、Ｐ２を結んだ線Ｌ０の中点の位置（マイクロホンアレイＭＡ１、ＭＡ２の中間位置）をＰ０と図示している。さらにまた、図５では、Ｐ０からみてマイクロホンアレイＭＡ２（位置Ｐ２）の方向を０°、Ｐ０からみてマイクロホンアレイＭＡ１（位置Ｐ１）の方向を１８０°とし、目的音源及び妨害音源はＰ０からみて０°～１８０°のいずれかの角度から到来するものとする。以下では、Ｐ０から見た目的音源及び妨害音源の存在する方向を「到来角」又は「到来方向」とも呼ぶものとする。また、図５では、線Ｌ０とマイクロホンアレイＭＡ１の向きを示す線Ｌ１との成す角をθ_ＭＡ１とし、線Ｌ０とマイクロホンアレイＭＡ２の向きを示す線Ｌ２との成す角をθ_ＭＡ２としている。

本シミュレーションでは、各マイクロホンアレイＭＡ１、ＭＡ２において、マイクロホンＭ１、Ｍ２の間の間隔を３ｃｍとした。また、本シミュレーションでは、マイクロホンアレイＭＡ１、ＭＡ２間の距離（位置Ｐ１とＰ２との間の距離）を４０ｃｍとした。さらに、本シミュレーションでは、θ_ＭＡ１、θ_ＭＡ２をそれぞれ２５°とした。つまり、本シミュレーションでは、各マイクロホンアレイＭＡ１、ＭＡ２を、正面方向より２５°の角度を付け配置している。

図６は、本シミュレーションで図５に示す環境内における各音源の位置について示した図である。

図６に示すように、目的音源の位置はＰ０から０．４ｍの距離の半円上に存在し、妨害音源（非目的エリアの音源）の位置はＰ０から０．８ｍの距離の半円の線上であるものとする。また、本シミュレーションでは、目的音源の到来方向を正面方向（９０°）とし、妨害音源の到来方向を１５°、４５°、１３５°、１６５°方向のいずれかに配置した。

本シミュレーションでは、図５、図６のようなモデルの環境においてマイクロホンアレイＭＡ１、ＭＡ２で捕捉される観測信号（音響信号）をコンピュータ上のシミュレーションにより取得し、さらに取得した観測信号を信号処理装置１０に入力した結果を評価した。具体的には、本シミュレーションでは、ＰｙＲｏｏｍＡｃｏｕｓｔｉｃｓ（以下の参考文献６参照）を用いて、図５、図６のようなモデル環境を設定してインパルス応答を取得し、取得したインパルス応答を上記のドライソース（目的音源及び妨害音源のドライソース）に畳み込むことで、観測信号Ｓ１（マイクロホンアレイＭＡ１、ＭＡ２の観測信号）を得た。

［参考文献６］Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018
本シミュレーションでは、観測信号Ｓ１の取得時（図５に示すシミュレーション環境での取得時）のドライソース信号として用いる音源（目的音源及び妨害音源）、及び識別器１２２に入力する無歪み音声信号Ｓ６の音源（以下、「学習用無歪み音声データ」と呼ぶ）として、ＴＩＭＩＴコーパス（以下の参考文献７参照）から２３１０発話（発話データ）を用いた。

［参考文献７］J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G.Fiscus, D. S. Pallett, N. L. Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,”Linguistic Data Consotrium, 1992.
本シミュレーションでは、歪み補正ＤＮＮ１２１を構成するＵ－ｎｅｔ型のＤＮＮのうち、エンコーダ側（前半）に８層の二次元畳み込み層（Ｃｏｎｖ２Ｄ×８層）を適用し、デコーダ側（後半）に８層の二次元逆畳み込み層（Ｃｏｎｖ２ＤＴｒａｎｓ×８層）を適用した。また、本シミュレーションでは、歪み補正ＤＮＮ１２１で入出力される信号は１６ｋＨｚの音声データとした。さらに、本シミュレーションでは、歪み補正ＤＮＮ１２１を構成するＵ－ｎｅｔ型のＤＮＮのパラメータ数を５７８２２３３７とした。

本シミュレーションでは、識別器１２２に、二次元畳み込み型モデル（２ＤＣｏｎｖＧＡＮ）を適用した場合の評価と、局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）を適用した場合の評価の両方を行った。また、本シミュレーションでは、識別器１２２としては、５層の二次元畳み込み層（２ＤＣｏｎｖ×５層）を適用した。さらに、本シミュレーションでは、２種類のモデルの識別器１２２について、それぞれパラメータ数が同程度になるように構造を調整して、パラメータ数の違いが評価結果に影響しないようにした。具体的には、本シミュレーションでは、二次元畳み込み型モデル（２ＤＣｏｎｖＧＡＮ）を適用した場合における識別器１２２のパラメータ数を２７９２１２９とし、局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）を適用した場合における識別器１２２のパラメータ数を２７６４４８１とした。さらにまた、本シミュレーションでは、識別器１２２に局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）が適用される場合、出力信号Ｓ５の時間・周波数スペクトルに対して３１×２０個のパッチを設定して識別するようにした。

本シミュレーションでは、学習時（学習処理モード）に用いられる観測信号Ｓ１（以下、「学習用観測データ」と呼ぶ）として、目的音源と妨害音源を－５ｄＢ～５ｄＢのレベルで重畳して得た混合音１１０００発話を用いた。また、本シミュレーションでは、評価時（信号処理モード）に用いられる観測信号Ｓ１（以下、「評価用観測データ」と呼ぶ）として、目的音源と妨害音源を－３［ｄＢ］、０［ｄＢ］、３［ｄＢ］のそれぞれのレベルで重畳して得た混合音１０００発話を用いた。以下では、観測信号Ｓ１に目的音源と妨害音源を重畳するレベルを「重畳レベル」と呼ぶ。なお、学習用無歪み音声データ、学習用観測データ、及び評価用観測データの元となる音源（ドライソース信号）は異なり、発話者も異なるものとする。

本シミュレーションでは、非線形音声強調手段１１に適用する非線形の音声強調処理として、上記の通りＭＵＢＡＳＥを用いた。本シミュレーションでは、学習用観測データにＭＵＢＡＳＥの処理（エリア収音処理）を施し、歪み補正手段１２（歪み補正ＤＮＮ１２１）に入力信号Ｓ４として入力した。

本シミュレーションでは、歪み補正ＤＮＮ１２１の学習時（図３に示すＧＡＮの枠組み）において、最適化アルゴリズムにＡｄａｍ（以下の参考文献８を参照）を用いた。また、本シミュレーションでは、歪み補正ＤＮＮ１２１の学習時（図３に示すＧＡＮの枠組み）において（１）式のλを３．５、ミニバッチサイズを１００、エポック数を２５０、学習率は０．００１とした。

［参考文献８］D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR),2015.
次に、本シミュレーションの結果について図７～図９を用いて説明する。

図７～図９では、本シミュレーションにおける無処理の観測信号Ｓ１（以下、「Ｏｂｓｅｒｖａｔｉｏｎ」とも表す）、音声強調信号Ｓ２（従来のＭＵＢＡＳＥにより音声強調処理（エリア収音）された信号）（以下、単に「ＭＵＢＡＳＥ」とも表す）、及び歪み補正済信号Ｓ３（音声強調信号Ｓ２を歪み補正ＤＮＮ１２１で歪み補正処理した信号）の音質を評価した結果について示している。図７～図９では、歪み補正済信号Ｓ３については、２ＤＣｏｎｖＧＡＮ（二次元畳み込み型モデル）を適用した学習モデルにより歪み補正処理された信号（以下、「ＭＵＢＡＳＥ－２ＤＣｏｎｖＧＡＮ」とも表す）と、ＰａｔｃｈＧＡＮ（局所的パッチ型モデル）を適用した学習モデルにより歪み補正処理された信号（以下、「ＭＵＢＡＳＥ－ＰａｔｃｈＧＡＮ」とも表す）の音質評価結果について示している。

図７～図９では、Ｏｂｓｅｒｖａｔｉｏｎ、ＭＵＢＡＳＥ、ＭＵＢＡＳＥ－２ＤＣｏｎｖＧＡＮ、ＭＵＢＡＳＥ－ＰａｔｃｈＧＡＮのそれぞれについて、評価用観測データの重畳レベルをー３ｄＢ、０ｄＢ、３ｄＢで変化させた場合の音声品質の評価結果を示している。図７～図９では、それぞれ、音声信号の歪み補正性能を評価するための尺度として、音声音質の評価尺度であるＰＥＳＱ（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎＯｆＳｐｅｅｃｈＱｕａｌｉｔｙ）、ＳＴＯＩ（Ｓｈｏｒｔ－ＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ）、及びＳＤＲ（Ｓｉｇｎａｌ－ｔｏ－ＤｉｓｔｏｒｔｉｏｎＲａｔｉｏ）を用いている。

図７～図９の評価結果から、全ての評価指標（ＰＥＳＱ、ＳＴＯＩ、及びＳＤＲ）において、ＭＵＢＡＳＥによる出力よりも、歪み補正ＤＮＮ１２１で歪み補正した出力（ＭＵＢＡＳＥ－２ＤＣｏｎｖＧＡＮ及びＭＵＢＡＳＥ－ＰａｔｃｈＧＡＮ）の方が、音声品質が改善されていることがわかる。また、図７～図９の評価結果から、全ての評価指標（ＰＥＳＱ、ＳＴＯＩ、及びＳＤＲ）において、歪み補正ＤＮＮ１２１で歪み補正した出力の中でも、ＭＵＢＡＳＥ－２ＤＣｏｎｖＧＡＮ（二次元畳み込み型モデルを適用した歪み補正処理）よりも、ＭＵＢＡＳＥ－ＰａｔｃｈＧＡＮ（局所的パッチ型モデルを適用した歪み補正処理）の方が高音質であることが分かる。以上のように、歪み補正ＤＮＮ１２１によりＭＵＢＡＳＥ出力の音質が改善されること、および、ＭＵＢＡＳＥ－ＰａｔｃｈＧＡＮ（局所的パッチ型モデルを適用した歪み補正処理）の優位性は明らかである。

（Ａ－３）実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

この実施形態の信号処理装置１０では、上記のように、ＧＡＮの枠組みを用いて敵対的学習を行う歪み補正ＤＮＮ１２１で、音声強調信号Ｓ２の歪みを補正する処理を行う。これにより、この実施形態の信号処理装置１０では、ペアデータ（入力信号Ｓ４とそれに対応する正解信号）を必要とせずに学習済のＤＮＮを用いた歪み補正処理を行うことができる。また、上記のシミュレーション結果の通り、この実施形態では、歪み補正ＤＮＮ１２１を用いて歪み補正処理を行うことにより、処理後に別の歪みを生じさせずに、非線形音声強調手段１１による非線形処理（音声強調処理）によって生じた信号の歪みと残留雑音を低減させ、聞き心地の良い音声強調信号を得ることができる。

また、この実施形態の信号処理装置１０では、歪み補正ＤＮＮ１２１の学習に用いる識別器１２２のモデルとして、二次元畳み込み型モデル（２ＤＣｏｎｖＧＡＮ）又は局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）を適用する例を示している。音声強調技術によって生じる人工的な処理歪み及び残留雑音は、時間・周波数スペクトログラム上で局所的に生じることから、識別器１２２による歪みの有無の真偽判定に局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）を適用することが好適である。そして、識別器１２２に局所的パッチ型モデル（ＰａｔｃｈＧＡＮ）を適用することが好適であることは、上記のシミュレーション結果によっても裏付けられている。

さらに、この実施形態の信号処理装置１０では、入出力ロス算出手段１２３の処理により、歪み補正ＤＮＮ１２１の目的関数が、入力信号Ｓ４（信号の歪みと残留雑音を含む信号）と出力信号Ｓ５との損失（入出力ロスＳ８）を含む構成となっている。仮に、信号処理装置１０において、入出力ロス算出手段１２３を備えない場合、識別器１２２による判定が真値となれば良いため、例えば、ＤＮＮが入力信号Ｓ４の音量に関わらず出力信号Ｓ５の音量が乱高下するような歪み補正処理を学習してしまうことがある。しかしながら、この実施形態の信号処理装置１０では、入出力ロス算出手段１２３を備えることにより、上記のような学習を抑制し、歪み補正ＤＮＮ１２１の出力信号Ｓ５において入力信号Ｓ４に似た特徴を持つ歪みを補正した出力信号Ｓ５を得ることができる。

（Ｂ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｂ－１）上記の実施形態の信号処理装置１０（歪み補正手段１２）において、学習処理モードに対応しない構成（例えば、既に学習モデルを取得しているか外部から学習モデルを取得する構成等）としてもよい。なお、歪み補正手段１２は、学習処理モードにも対応する場合（信号処理モードと学習処理モードの両方に対応する場合は、識別器１２２と入出力ロス算出手段１２３を備える必要がある。一方、歪み補正手段１２は、学習処理モードに対応しない場合（信号処理モードにのみ対応する場合）は、識別器１２２と入出力ロス算出手段１２３を除外するようにしてもよい。

（Ｂ－２）上記の実施形態では、信号処理装置１０が非線形音声強調手段１１を備える構成となっていたが、歪み補正手段１２だけを備え、供給される音声強調信号Ｓ２から歪みを補正する処理だけを行う装置としてもよい。

（Ｂ－３）上記の実施形態では、入出力ロス算出手段１２３が算出する損失の例としてＬ１損失やＬ２損失を挙げたが、この場合、出力信号Ｓ５を人工的な処理歪みと残留雑音を含む入力信号Ｓ４に似せてしまうため、出力信号Ｓ５において、処理歪みや残留雑音を補正しきれない恐れがある。そのため、歪み補正手段１２の学習時に、循環による一貫性（Ｃｙｃｌｅ－Ｃｏｎｓｉｓｔｅｎｃｙ）を持つ敵対的ネットワークの枠組みを用いた教師なし学習を行うようにしてもよい。歪み補正手段１２において適用可能な敵対的ネットワークとしては、例えば、参考文献９のような技術が存在する。
［参考文献９］ Zhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang (Fred) Juang,“S Cycle-Consistent Speech Enhancement”, arXiv:1809.02253v2 [eess.AS] 30 Apr 2019,［２０２２年２月１５日検索］、［Online］INTERNET、<URL: https://arxiv.org/pdf/1809.02253.pdf >
図１０～図１２は、歪み補正手段１２の学習時に、循環による一貫性を持つ敵対的ネットワークの枠組みを適用した場合の構成について示したブロック図である。

この場合、歪み補正手段１２では、図１０のように、学習処理モード（学習時）において、歪み補正ＤＮＮ１２１の逆変換に相当する歪み復元ＤＮＮ１２４と、識別器１２２（以下、「無歪み識別器１２２Ａ」とも呼ぶ）とは逆に、処理歪みや残留雑音を含む信号を真値とし、無歪みな音声信号を偽値として判別する第２の識別器１２５（以下、「歪み識別器１２５」とも呼ぶ）と、歪み復元ＤＮＮ１２４の入出力の損失（ロス）を取得する第２の入出力算出手段１２６（以下、「歪み復元ロス算出手段１２６」と呼ぶ）をさらに備える必要がある。なお、以下では、入出力ロス算出手段１２３を「歪み補正ロス算出手段１２３Ａ」とも呼ぶものとする。

この場合、学習処理モードで動作する歪み補正手段１２では、歪み補正ＤＮＮ１２１と歪み復元ＤＮＮ１２４が結合学習することになる。

このとき、歪み補正ＤＮＮ１２１と歪み復元ＤＮＮ１２４の目的関数が、（ａ）処理歪みや残留雑音を含む入力信号Ｓ４（Ｘ）を歪み補正ＤＮＮ１２１に通して得た出力信号Ｓ５（Ｙｏ）を無歪み識別器１２２Ａに入力して得られる無歪み識別ロスＳ７（Ｌｄｃ）に加え、（ｂ）入力信号Ｓ４（Ｘ）と出力信号Ｓ５（Ｙｏ）を歪み復元ＤＮＮ１２４に通して得た歪み復元信号Ｓ９（Ｘｒ）との歪み復元ロスＳ１０（Ｌｎｎ）と、（ｃ）無歪み音声信号Ｓ６（Ｙ）を歪み復元ＤＮＮ１２４に通して得た歪み復元信号Ｓ１１（Ｘｏ）を歪み識別器１２５に入力して得られる歪み識別ロスＳ１２（Ｌｄｎ）と、（ｄ）無歪み音声信号Ｓ６（Ｙ）と歪み復元信号Ｓ１１（Ｘｏ）を歪み補正ＤＮＮ１２１に通して得た歪み補正信号Ｓ１３（Ｙｒ）との歪み補正ロスＳ１４（Ｌｃｃ）を含むものとする。また、このとき、歪み補正ＤＮＮ１２１と歪み復元ＤＮＮ１２４の目的関数は、さらに、（ｅ）図１１のように、処理歪みや残留雑音を含む入力信号Ｓ４（Ｘ）と、該Ｘを歪み復元ＤＮＮ１２４に通して得た恒等歪み信号Ｓ１５（Ｘｉ）との恒等歪みロスＳ１６（Ｌｉｎ）と、（ｆ）図１２のように、無歪み音声信号Ｓ６（Ｙ）と、該Ｙを歪み補正ＤＮＮ１２１に通して得た恒等無歪み信号Ｓ１７（Ｙｉ）との恒等無歪みロスＳ１８（Ｌｉｃ）をも含むようにしても良い。
ここで、歪み補正ＤＮＮ１２１（生成器）のパラメータは、（２）式で示される目的関数Ｌ（Ｆ，Ｇ，Ｄｖ，Ｄｕ）を最小化することで得られる。

（２）式において、Ｆは歪み補正ＤＮＮ１２１（生成器）、Ｇは歪み復元ＤＮＮ１２４、Ｄｖは無歪み識別器１２２Ａ、Ｄｕは歪み識別器１２５である。また、Ｌｎｎは歪み復元ロスＳ１０、Ｌｃｃは歪み補正ロスＳ１４、Ｌｄｃは無歪み識別ロスＳ７、Ｌｄｎは歪み識別ロスＳ１２、Ｌｉｎは恒等歪みロスＳ１６、Ｌｉｃは恒等無歪みロスＳ１８である。また、λ１、λ２，λ３、λ４、λ５は、複数のロスのバランスを調整する係数を表している。

１０…信号処理装置、１１…非線形音声強調手段、１２…歪み補正手段、２０…マイクアレイ部、１２２…識別器、１２３…入出力ロス算出手段、Ｍ，Ｍ１，Ｍ２…マイクロホン、ＭＡ，ＭＡ１，ＭＡ２…マイクロホンアレイ、Ｓ１…観測信号、Ｓ２…音声強調信号、Ｓ３…歪み補正済信号、Ｓ４…入力信号、Ｓ５…出力信号、Ｓ６…無歪み音声信号、Ｓ７…識別ロス、Ｓ８…入出力ロス。

Claims

非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段を備え、
前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有する
ことを特徴とする信号処理装置。
前記生成器には、前記深層ニューラルネットワークが用いられることを特徴とする請求項１に記載の信号処理装置。
前記生成器としての前記深層ニューラルネットワークの目的関数が、前記深層ニューラルネットワークの入力信号と出力信号との入出力損失を含むことを特徴とする請求項２に記載の信号処理装置。
前記入出力損失に適用する損失関数がＬ１損失であることを特徴とする請求項３に記載の信号処理装置。
前記深層ニューラルネットワークは、循環による一貫性を持つ敵対的ネットワークの枠組みで学習した学習モデルを有することを特徴とする請求項２に記載の信号処理装置。
前記識別器には、歪みの有無の識別を局所的なパッチごとに行うことを特徴とする請求項１～５のいずれかに記載の信号処理装置。
前記入力信号は、複数のマイクロホンアレイのビームフォーマ出力に基づいて、目的エリアを音源とする目的エリア音を収音するエリア収音処理により得られた音響信号であることを特徴とする請求項１～６のいずれかに記載された信号処理装置。
前記深層ニューラルネットワークは、Ｕ－ｎｅｔ型のモデルで構成されていることを特徴とする請求項１～７のいずれかに記載の信号処理装置。
コンピュータを、
非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段として機能させ、
前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有する
ことを特徴とする信号処理プログラム。
信号処理装置が行う信号処理方法において、
前記信号処理装置は、歪み補正手段を備え、
前記歪み補正手段は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正し、
前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有する
ことを特徴とする信号処理方法。