JP2023122018A - 信号処理装置、信号処理プログラム及び信号処理方法 - Google Patents
信号処理装置、信号処理プログラム及び信号処理方法 Download PDFInfo
- Publication number
- JP2023122018A JP2023122018A JP2022025439A JP2022025439A JP2023122018A JP 2023122018 A JP2023122018 A JP 2023122018A JP 2022025439 A JP2022025439 A JP 2022025439A JP 2022025439 A JP2022025439 A JP 2022025439A JP 2023122018 A JP2023122018 A JP 2023122018A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- distortion
- signal processing
- neural network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 127
- 238000012937 correction Methods 0.000 claims abstract description 101
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 17
- 238000003491 array Methods 0.000 claims description 16
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 20
- 238000004088 simulation Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 23
- 238000011156 evaluation Methods 0.000 description 16
- 230000002452 interceptive effect Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 235000008529 Ziziphus vulgaris Nutrition 0.000 description 1
- 244000126002 Ziziphus vulgaris Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】 歪みを含む音声信号と当該音声信号に対応する歪みのない正解信号のペアデータを必要とせずに、音声強調技術によって生じた信号の歪みを低減させる。【解決手段】 本発明は、信号処理装置に関する。そして、本発明の信号処理装置は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段を備え、深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。【選択図】 図1
Description
本発明は、信号処理装置、信号処理プログラム、及び信号処理方法に関し、例えば、任意の信号処理により歪みの生じた音声信号から歪みを低減する処理に適用し得る。
現在、妨害音が混合された観測信号から、目的音成分を強調する音声強調技術は、様々な音声処理における前処理として欠かせない要素技術となっている。ここで得られる強調音声は、妨害音源が除去されていることに加え、耳障りな処理歪みを含んでいないことが望ましい。
従来の音声強調技術は、線形処理に基づくアプローチと、非線形処理に基づくアプローチに大別される。時間・周波数マスキング(非特許文献1参照)やDAE(Denoising Auto Encoder)(非特許文献2参照)等の非線形な音声強調処理により得た音声には,妨害音の消し残り(残留雑音)に加え、主に目的音源のスペクトル成分が欠損することで生じる人工的で耳障りな歪みが含まれる。
それに対し、従来、ケプストラム領域において時間平滑化を行うことで非線形歪みを抑圧する手法などが提案されている(非特許文献2参照)。
また、時間周波数マスキングと敵対的DAEを統合することで、目的音源の処理歪みを低減しながら、妨害音成分を抑圧する試みがなされている(非特許文献3参照)。この敵対的学習に基づく手法では、観測信号と対となる正解信号へのマッピングを学習することで、時間周波数マスキングで欠損したスペクトル成分の復元が可能となり、処理歪みの激しい信号に対する音声強調を達成している。
Ozgur Yilmaz, Scott Rickard,"Blind Separation of Speech Mixtures via Time-Frequency Masking", IEEE Trans. on signal Proc, 1830-1847, 2004,[2022年2月11日検索]、[Online]INTERNET、<URL: https://www.ee.columbia.edu/~dpwe/papers/YilR02-bsstfm.pdf >
Xugang Lu, Yu Tsao, Shigeki Matsuda, Chiori Hori1,"Speech Enhancement Based on Deep Denoising Autoencoder", INTERSPEECH, 436-440, 2013,[2022年2月11日検索]、[Online]INTERNET、<URL:https://www.citi.sinica.edu.tw/papers/yu.tsao/3582-F.pdf>
Naohiro Tawara, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa,"Adversarial autoencoder for reducing nonlinear distortion", IPSJ,2018,[2022年2月11日検索]、[Online]INTERNET、<URL: http://www.apsipa.org/proceedings/2018/pdfs/0001669.pdf>
ところで、人工的な処理歪み、及び残留雑音は、時間・周波数スペクトログラム上で局所的に生じる。このため、時間・周波数スペクトログラムを大域的に捉えて設計された従来の技術では、それぞれ別の課題が生じている。
具体的には、非特許文献2に記載の技術では、残響に似た別の歪みが生じるという課題があった。また、非特許文献3に記載の技術は、教師あり学習であるため、観測信号と対となる正解信号へのマッピングを学習するために、観測信号と正解信号のペアデータを用意する必要があった。以上のように、従来技術では、あらゆる利用シーンを想定して観測信号と正解信号のペアデータを用意することは現実的ではないため、当該技術には実用的ではないという課題があった。
以上のような問題に鑑みて、歪みを含む音声信号と当該音声信号に対応する歪みのない正解信号のペアデータを必要とせずに、音声強調技術によって生じた信号の歪みを低減させることができる信号処理装置、信号処理プログラム及び信号処理方法が望まれている。
第1の本発明の信号処理装置は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段を備え、前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。
第2の本発明の信号処理プログラムは、コンピュータを、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段として機能させ、前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。
第3の本発明は、信号処理装置が行う信号処理方法において、前記信号処理装置は、歪み補正手段を備え、前記歪み補正手段は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正し、前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有することを特徴とする。
本発明によれば歪みを含む音声信号と当該音声信号に対応する歪みのない正解信号のペアデータを必要とせずに、音声強調技術によって生じた信号の歪みを低減させることができる。
(A)主たる実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の一実施形態を、図面を参照しながら詳述する。
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の一実施形態を、図面を参照しながら詳述する。
(A-1)実施形態の構成
図1は、この実施形態の信号処理装置10の全体構成を示すブロック図である。
図1は、この実施形態の信号処理装置10の全体構成を示すブロック図である。
信号処理装置10は、非線形音声強調手段11と歪み補正手段12を有している。
非線形音声強調手段11は、目的音としての音声成分を含む音声信号(音響信号)である「観測信号S1」を非線形な音声強調処理(以下、「非線形音声強調処理」とも呼ぶ)により処理して、「音声強調信号S2」を出力する機能を担っている。
歪み補正手段12は、音声強調信号S2に含まれる歪み(非線形音声強調処理により生じた歪み)を補正して歪の補正された音声信号(音響信号)である「歪み補正済信号S3」を得る。
歪み補正手段12は、歪み補正DNN121を用いて歪みを補正する。歪み補正DNN121は、後述する学習処理により学習するDNN(Deep Neural Network;深層ニューラルネットワーク)である。
観測信号S1の構成や形式は限定されないものである。図1に示すように、この実施形態の例では、観測信号S1は、2つのマイクロホンアレイMA(MA1、MA2)を備えるマイクアレイ部20で観測(捕捉)された音声信号(音響信号)であるものとする。マイクロホンアレイMA1、MA2は、それぞれ2つのマイクロホンM(M1、M2)を備える2chマイクロホンアレイであるものとする。各マイクロホンアレイMA1、MA2は、目的音源(発話話者)が位置する目的エリアの存在する空間の任意の場所に配置されているものとする。なお、マイクアレイ部20が備えるマイクロホン/マイクロホンアレイの数や種類については限定されないものであり、非線形音声強調手段11に対応する種々の構成を適用することができる。
また、非線形音声強調手段11による非線形の音声強調技術については限定されないものであるが、この実施形態の例では、MUBASE(Multiple beam-forming area sound enhancement)(参考文献1参照)を適用するものとして説明する。MUBASEによる処理では、各マイクロホンアレイMAの正面方向に構成した扇形の空間フィルタの共通部分を強調することで、特定の領域に含まれる音源(目的エリアを音源とする音)のみを強調する。言い換えると、MUBASEでは、複数のマイクロホンアレイMAのビームフォーマ出力に基づいて、目的エリアを音源(目的エリア内の話者を音源)とする目的エリア音を収音する処理(以下、「エリア収音処理」とも呼ぶ)により目的エリア音である音声を強調した信号が得られる。この実施形態では、非線形音声強調手段11として上記のMUBASEを適用する例について説明するが、その他の非線形な音声強調技術を適用するようにしてもよい。
[参考文献1] Kazuhiro Katagiri, Tokuo Yamaguchi, Takashi Yazu, and Yoong Keok Lee,“Multiple beam-forming area sound enhancement (MUBASE) and stereophonic area sound reproduction (SASR) system”, SIGGRAPH Asia 2015 Emerging Technologies, 2015,[2022年2月11日検索]、[Online]INTERNET、<URL: https://dl.acm.org/doi/10.1145/2818466.2818493>
次に、信号処理装置10のハードウェア構成の例について説明する。
次に、信号処理装置10のハードウェア構成の例について説明する。
信号処理装置10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。信号処理装置10は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の信号処理プログラムを含む)をインストールすることにより構成するようにしてもよい。
図2は、信号処理装置10のハードウェア構成の例について示したブロック図である。
図2では、信号処理装置10を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
図2に示す信号処理装置10は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ400を有している。また、コンピュータ400は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
図2に示すコンピュータ400は、プロセッサ401、一次記憶部402、及び二次記憶部403を有している。一次記憶部402は、プロセッサ401の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部403は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(商標登録)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ400では、プロセッサ401が起動する際、二次記憶部403に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部402上に展開して実行する。なお、コンピュータ400の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部402が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部403については除外した構成としてもよい。
次に、歪み補正DNN121の詳細構成について説明する。
図3は、歪み補正DNN121の学習時の構成について示したブロック図である。
図3に示すように、歪み補正DNN121は、敵対的学習を行うGAN(Generative Adversarial Network;敵対的生成ネットワーク)の枠組みにより、教師なしで学習することが可能となっている。
この場合、GANの枠組みでは、歪み補正DNN121が生成器(Generator)に相当することになる。また、図3では、GANの枠組みにおける識別器(Discriminator)の要素として識別器122が配置されている。
なお、図3では、学習済の歪み補正DNN121による入出力(S2、S3)と区別するため、学習中の歪み補正DNN121の入力信号をS4、出力信号をS5と図示している。また、図3では、識別器122に入力される無歪み音声信号を「S6」と図示し、識別器122で取得される識別ロス(識別損失)を「S7」と図示している。
この場合、識別器122が無歪み音声信号S6(真)と生成器(歪み補正DNN121)の出力信号S5(偽)を判別する処理を行う。そして、歪み補正DNN121は、無歪み音声信号S6(真)と生成器(歪み補正DNN121)の出力信号S5(偽)を判別する識別器122を騙すように学習する。
このとき、入力信号S4としては、音声強調処理を施した歪みを含む信号を適用するようにしてもよい。具体的には、例えば、非線形音声強調手段11により出力された信号を、入力信号S4として適用するようにしてもよい。また、このとき、無歪み音声信号S6としては、入力信号S4(歪みを含む信号)に対応する正解信号(入力信号S4に含まれる歪みの無い目的音の信号)である必要はない。つまり、無歪み音声信号S6は、入力信号S4(歪みを含む信号)自体に対応するペアデータ(正解信号)である必要はない。
そして、図3に示す枠組みでは、歪み補正DNN121の入力信号S4と出力信号S5との間のロス(損失)である入出力ロスS8を算出する入出力ロス算出手段123が配置されている。入出力ロスS8の詳細については後述する。
以上のように、この実施形態の歪み補正DNN121では、図3に示すようなGANの枠組みで敵対的学習を行うことで、入力信号S4に対応する正解信号の対(ペアデータ)を必要としないことは、歪み補正手段12を実環境で得られる信号のみを用いて構築・運用するための重要な要件である。
次に、図3に示す歪み補正DNN121を学習させる際のGANの枠組みで用いられるパラメータについて説明する。
ここで、識別器122のパラメータθDと歪み補正DNN121(生成器)のパラメータθGは、(1)式で示される目的関数LD、LGを最小化することで得られる。
(1)式において、「c」は無歪み音声信号S6を表し、「x」は非線形音声強調手段11によって得られる音声強調信号S2を表し、「λ」は識別ロスS7と入出力ロスS8のバランスを調整する係数を表している。
(1)式において、LBCE(c)は、識別器122における識別損失(識別ロスS7)である。ここでは、識別器122の識別損失(識別ロスS7)に用いる損失関数(LBCE(c)に適用する損失関数)として、バイナリクロスエントロピー損失を用いるものとするがこれに限定されないものである。識別器122の識別損失(識別ロスS7)に用いる損失関数としては、例えば、最小二乗損失やEMD(Earth Mover Distance)を適用してもよい。
また、(1)式において、LL1(x,G(x))は、歪み補正DNN121(生成器)における入力信号S4と出力信号S5の入出力損失(入出力ロスS8)を示している。つまり、LL1(x,G(x))は、入出力ロス算出手段123により算出される入出力ロスS8を示している。ここでは、入出力ロス算出手段123(入出力ロスS8)に用いる損失関数(LL1(x,G(x))に適用する損失関数)として、L1ロス(L1損失)を用いるものとするがこれに限定されないものである。例えば、入出力ロス算出手段123(入出力ロスS8)において損失関数としてL2ロス(L2損失)を用いるようにしてもよい。
さらに、(1)式において、G(x)は、歪み補正DNN121(生成器)の入力信号S4に対する出力信号S5である。(1)式において、L1損失(LL1(x,G(x))は、出力信号S5において音声信号の波形らしさを保つための制約として加えた。
次に、歪み補正DNN121の具体的なモデルについて説明する。
ここでは、歪み補正DNN121をGAN(敵対的学習)の枠組みで構築するときのモデル構造について述べる。ここでは、歪み補正DNN121で処理される信号(入力信号S4、出力信号S5)は、短時間フーリエ変換により得られる時間・周波数領域の信号であるものとする。
歪み補正DNN121には、任意のモデルのDNNを適用できるが、GAN(敵対的学習)に基づく音声強調の多くで利用されているエンコーダ・デコーダ型のDNNであるU-net型を適用するのが好適である。歪み補正DNN121に適用可能なU-net型のモデルとしては、例えば、参考文献2に記載されたモデルを適用することができる。
[参考文献2] Olaf Ronneberger, Philipp Fischer, Thomas Brox,“U-net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI, 2015,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1505.04597.pdf >
識別器122についてもGANの枠組みで用いられる任意のモデルを適用することができる。この実施形態の例において、識別器122に適用するモデルとしては以下の2種類のいずれかを適用するものとして説明するがこれに限定されない。図4は、この実施形態の識別器122に適用するモデルの例について示した図(イメージ図である)。
[参考文献2] Olaf Ronneberger, Philipp Fischer, Thomas Brox,“U-net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI, 2015,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1505.04597.pdf >
識別器122についてもGANの枠組みで用いられる任意のモデルを適用することができる。この実施形態の例において、識別器122に適用するモデルとしては以下の2種類のいずれかを適用するものとして説明するがこれに限定されない。図4は、この実施形態の識別器122に適用するモデルの例について示した図(イメージ図である)。
この実施形態において、識別器122に適用する第1のモデルは、入力される時間・周波数スペクトル全体に対して二次元畳み込み(2D Convolution)を行い、入力全体に対して真偽を判定するモデル(以下、「二次元畳み込み型モデル」又は「2DConvGAN」と表す)である。識別器122に適用する二次元畳み込み型モデル(2DConvGAN)としては、例えば、参考文献3、4のような構成が挙げられる。
[参考文献3] Santiago Pascual, Antonio Bonafonte, Joan Serra,“SEGAN: Speech Enhancement Generative Adversarial Network”, arXiv preprint arXiv:1703.09452,2017,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1703.09452.pdf>
[参考文献4] Alec Radford, Luke Metz, Soumith Chintala,“UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS”, CoRR abs/1511. 06434, 2015,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1511.06434.pdf >
また、この実施形態の識別器122に適用する第2のモデルは、最終層まで畳み込みを行い、入力スペクトルに対する局所的なパッチ(Patch)ごとに真偽を判定するモデル(以下、「局所的パッチ型モデル」又は「PatchGAN」と表す)である。識別器122に適用する局所的パッチ型モデル(PatchGAN)としては、例えば、参考文献5のような構成が挙げられる。観測信号S1について非線形音声強調処理がなされた音声強調信号S2では、残留雑音や人工的な処理歪みは時間・周波数スペクトル上で局所的に生じるため、パッチごとに真偽(歪みの有無)を判別する識別器を用いることが望ましく、その点で局所的パッチ型モデル(PatchGAN)は好適である。
[参考文献5] Chuan Li, Michael Wand, “Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks”, Proc. ECCV, 702-716, 2016,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1604.04382.pdf >
図4(a)は識別器122が二次元畳み込み型モデのモデルで識別処理を行う例について示したイメージ図であり、図4(b)は識別器122が局所的パッチ型モデルで識別処理を行う例について示したイメージ図である。
[参考文献3] Santiago Pascual, Antonio Bonafonte, Joan Serra,“SEGAN: Speech Enhancement Generative Adversarial Network”, arXiv preprint arXiv:1703.09452,2017,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1703.09452.pdf>
[参考文献4] Alec Radford, Luke Metz, Soumith Chintala,“UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS”, CoRR abs/1511. 06434, 2015,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1511.06434.pdf >
また、この実施形態の識別器122に適用する第2のモデルは、最終層まで畳み込みを行い、入力スペクトルに対する局所的なパッチ(Patch)ごとに真偽を判定するモデル(以下、「局所的パッチ型モデル」又は「PatchGAN」と表す)である。識別器122に適用する局所的パッチ型モデル(PatchGAN)としては、例えば、参考文献5のような構成が挙げられる。観測信号S1について非線形音声強調処理がなされた音声強調信号S2では、残留雑音や人工的な処理歪みは時間・周波数スペクトル上で局所的に生じるため、パッチごとに真偽(歪みの有無)を判別する識別器を用いることが望ましく、その点で局所的パッチ型モデル(PatchGAN)は好適である。
[参考文献5] Chuan Li, Michael Wand, “Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks”, Proc. ECCV, 702-716, 2016,[2022年2月11日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1604.04382.pdf >
図4(a)は識別器122が二次元畳み込み型モデのモデルで識別処理を行う例について示したイメージ図であり、図4(b)は識別器122が局所的パッチ型モデルで識別処理を行う例について示したイメージ図である。
図4では、識別器122に判別対象の信号(時間・周波数スペクトル)として入力される行列をD101と図示している。
図4(a)では、行列D101を二次元畳み込み型モデルで二次元畳み込みする過程の行列をD101aとしている。また、図4(a)では、二次元畳み込み型モデルによるD101に対する識別結果の数値をR1としている。
二次元畳み込み型モデルによる識別処理では、図4(a)に示すように、入力されるD101全体に対して畳み込みを行った結果得られる識別結果R1として、1つの数値が出力される。ここでは、識別器122による識別結果(真偽(Real/Fake)の結果)は、0.0~1.0の範囲の数値で出力されるものとする。
図4(b)では、局所的パッチ型モデルにおいて、入力される行列D101の一部(パッチ)の領域をD201としている。そして、図4(b)では、局所的パッチ型モデルで、パッチ領域D201を二次元畳み込みする過程の行列をD201aとしている。図4(b)に示すように、局所的パッチ型モデルで、パッチ領域D201に対して畳み込みを行った結果得られる識別結果R201として、1つの数値(0.0~1.0の範囲の数値)が出力されるものとする。図4(b)に示す局所的パッチ型モデルでは、入力D101全体を16個(4×4個)のパッチ(ブロック)に分割して二次元畳み込みを行うことにより、16個(4×4個)の識別結果としての数値(R201と同様の形式の数値)が得られる。図4(b)では、各パッチの識別結果(16個の識別結果)全体を指して識別結果群R2としている。なお、図4(b)に示すモデルでは、説明を簡易とするため、入力D101に16個(4×4個)のパッチを設定しているが、識別器122において局所的パッチ型モデルを適用する場合において入力D101に設定するパッチの数や位置(範囲)については限定されないものである。識別器122において、識別結果群R2に基づいて入力D101全体に対して評価する処理を行い、最終的な識別結果として、1つの数値(0.0~1.0の範囲の数値)を出力することになる。この場合、識別器122が、識別結果群R2を評価する方法については限定されないものである。例えば、識別器122は、識別結果群R2を構成する各数値の平均値を最終的な識別結果として出力するようにしてもよい。また、例えば、識別器122は、識別結果群R2を構成する数値から一部の数値(例えば、上位又は下位から所定数の数値)を抽出して、抽出した数値の平均値を最終的な識別結果として出力するようにしてもよい。
この実施形態の歪み補正手段12では、歪み補正DNN121に対して学習処理を実行させる動作モード(以下、「学習処理モード」と呼ぶ)と、歪み補正DNN121に対して音声強調信号S2の歪み補正処理を実行させる動作モード(以下、「信号処理モード」と呼ぶ)の両方に対応しているものとする。
歪み補正手段12は、学習処理モードで動作する場合、非線形な音声強調処理による歪みを含む音声信号(以下、「歪み含有音声信号」と呼ぶ)のサンプル(入力信号S4となるサンプル)と、歪みの無いクリーンな音声信号(無歪み音声信号)のサンプル(無歪み音声信号S6となるサンプル)を含む学習用データが供給されると、図3に示すようなGANの枠組みで、歪み補正DNN121に学習用データを用いた敵対的学習を実行させる。これにより、歪み補正DNN121では、供給された学習用データに基づいて学習(ディープラーニング)した学習モデルを取得することができる。
以上のように、この実施形態の信号処理装置10では、非線形な音声強調技術によって処理された歪みを含む音声強調信号S2から歪みのない音声信号へ変換するための学習モデルを獲得するために、歪み補正DNN121を、敵対的学習(GAN)に基づく教師なし学習により学習する。敵対的学習(GAN)の枠組みでは歪み補正DNN121が生成器に相当し、無歪み音声信号S6(真)と生成器の出力信号S5(偽)を判別する識別器122を騙すように学習される。なお、音声強調技術によって生じる人工的な処理歪み、および残留雑音は、時間・周波数スペクトログラム上で局所的に生じることから、この実施形態の信号処理装置10では、識別器122による歪みの有無の真偽判定に局所的パッチ型モデル(PatchGAN)を適用することが好適である。また、この実施形態の信号処理装置10では、入出力ロス算出手段123が、歪み補正DNN121の入力信号S4(信号の歪みと残留雑音を含む信号)と出力信号S5との損失である入出力ロスS8を歪み補正DNN121にフィードバックしている。さらに、この実施形態では、(1)式に示すように、歪み補正DNN121の目的関数が入出力ロスS8を含むように構成されている。さらにまた、この実施形態の信号処理装置10では、歪み補正DNN121が、エンコーダ・デコーダ型のDNNであるU-net型により構成されている。
(A-2)実施形態の動作
次に、以上のような構成を有するこの実施形態の信号処理装置10の動作(実施形態に係る信号処理方法)を説明する。
次に、以上のような構成を有するこの実施形態の信号処理装置10の動作(実施形態に係る信号処理方法)を説明する。
まず、信号処理装置10の歪み補正手段12(歪み補正DNN121)が学習処理モードで動作する場合の処理について説明する。
学習処理モードで動作する歪み補正手段12に学習用データが供給されると、歪み補正手段12は、図3に示すGANの枠組みに当該学習用データを入力して、歪み補正DNN121に学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)を実行させる。このとき、学習用データには、歪み含有音声信号のサンプルと、無歪み含有音声信号のサンプルが含まれている。
図3に示すGANの枠組みにおいて、歪み補正DNN121と入出力ロス算出手段123に、学習用データに含まれる歪み含有音声信号のサンプルが入力信号S4として供給される。また、識別器122に、学習用データに含まれる無歪み音声信号が、無歪み音声信号S6として供給される。これにより、歪み補正DNN121では、入力信号S4がDNNにより処理され、処理結果が出力信号S5として出力される。また、識別器122では、出力信号S5について識別処理が行われ、その識別処理結果として識別ロスS7が取得されて、歪み補正DNN121にフィードバックされる。さらに、入出力ロス算出手段123では、入力信号S4と出力信号S5との間の入出力ロス(L1損失)が取得されて、歪み補正DNN121にフィードバックされる。以上のような処理により、歪み補正DNN121では、学習処理(深層ニューラルネットワークによる歪み補正処理の学習)が行われる。
次に、信号処理装置10の歪み補正手段12(歪み補正DNN121)が信号処理モードで動作する場合の動作について説明する。
観測信号S1が非線形音声強調手段11に供給され、非線形音声強調手段11で当該観測信号について非線形の音声強調処理が行われて音声強調信号S2が出力される。そして、この音声強調信号S2が、信号処理モードで動作する歪み補正手段12(歪み補正DNN121)に供給されると、歪み補正DNN121では学習済のDNNにより音声強調信号S2に対する歪み補正が行われて、歪み補正済信号S3として出力される。
次に、本願発明者が、信号処理装置10を構築して品質評価するために行ったシミュレーション(以下、「本シミュレーション」と呼ぶ)について説明する。
まず、本シミュレーションの条件について説明する。
図5は、本シミュレーションにおいて、観測信号S1を取得(観測)するモデル(条件)について示した図である。
本シミュレーションでは、図5に示すように、2つのマイクロホンアレイMA1、MA2(2chマイクロホンアレイ)、目的音源、妨害音源が全て同じ平面上に存在するものとする。また、本シミュレーションでは、図5に示すモデル環境の音場を構成する部屋の大きさは、7m×7m×3mの大きさ(床面の広さが7m×7mで高さが3mの部屋)であるものとする。また、本シミュレーションでは、シミュレーションの条件として残響は無しとした。
図5では、マイクロホンアレイMA1、MA2において、2つのマイクロホンM1、M2の位置(中心位置)を結んだ線を、それぞれL1、L2としている。また、図5では、マイクロホンアレイMA1、MA2において、2つのマイクロホンM1、M2の位置(中心位置)の中間の位置(マイクロホンアレイの中心点;線L1、L2上の中間点の位置)をそれぞれP1、P2と図示している。さらに、図5では、マイクロホンアレイMA1、MA2の位置P1、P2を結んだ線L0の中点の位置(マイクロホンアレイMA1、MA2の中間位置)をP0と図示している。さらにまた、図5では、P0からみてマイクロホンアレイMA2(位置P2)の方向を0°、P0からみてマイクロホンアレイMA1(位置P1)の方向を180°とし、目的音源及び妨害音源はP0からみて0°~180°のいずれかの角度から到来するものとする。以下では、P0から見た目的音源及び妨害音源の存在する方向を「到来角」又は「到来方向」とも呼ぶものとする。また、図5では、線L0とマイクロホンアレイMA1の向きを示す線L1との成す角をθMA1とし、線L0とマイクロホンアレイMA2の向きを示す線L2との成す角をθMA2としている。
本シミュレーションでは、各マイクロホンアレイMA1、MA2において、マイクロホンM1、M2の間の間隔を3cmとした。また、本シミュレーションでは、マイクロホンアレイMA1、MA2間の距離(位置P1とP2との間の距離)を40cmとした。さらに、本シミュレーションでは、θMA1、θMA2をそれぞれ25°とした。つまり、本シミュレーションでは、各マイクロホンアレイMA1、MA2を、正面方向より25°の角度を付け配置している。
図6は、本シミュレーションで図5に示す環境内における各音源の位置について示した図である。
図6に示すように、目的音源の位置はP0から0.4mの距離の半円上に存在し、妨害音源(非目的エリアの音源)の位置はP0から0.8mの距離の半円の線上であるものとする。また、本シミュレーションでは、目的音源の到来方向を正面方向(90°)とし、妨害音源の到来方向を15°、45°、135°、165°方向のいずれかに配置した。
本シミュレーションでは、図5、図6のようなモデルの環境においてマイクロホンアレイMA1、MA2で捕捉される観測信号(音響信号)をコンピュータ上のシミュレーションにより取得し、さらに取得した観測信号を信号処理装置10に入力した結果を評価した。具体的には、本シミュレーションでは、PyRoomAcoustics(以下の参考文献6参照)を用いて、図5、図6のようなモデル環境を設定してインパルス応答を取得し、取得したインパルス応答を上記のドライソース(目的音源及び妨害音源のドライソース)に畳み込むことで、観測信号S1(マイクロホンアレイMA1、MA2の観測信号)を得た。
[参考文献6]Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018
本シミュレーションでは、観測信号S1の取得時(図5に示すシミュレーション環境での取得時)のドライソース信号として用いる音源(目的音源及び妨害音源)、及び識別器122に入力する無歪み音声信号S6の音源(以下、「学習用無歪み音声データ」と呼ぶ)として、TIMITコーパス(以下の参考文献7参照)から2310発話(発話データ)を用いた。
本シミュレーションでは、観測信号S1の取得時(図5に示すシミュレーション環境での取得時)のドライソース信号として用いる音源(目的音源及び妨害音源)、及び識別器122に入力する無歪み音声信号S6の音源(以下、「学習用無歪み音声データ」と呼ぶ)として、TIMITコーパス(以下の参考文献7参照)から2310発話(発話データ)を用いた。
[参考文献7]J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G.Fiscus, D. S. Pallett, N. L. Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,”Linguistic Data Consotrium, 1992.
本シミュレーションでは、歪み補正DNN121を構成するU-net型のDNNのうち、エンコーダ側(前半)に8層の二次元畳み込み層(Conv2D×8層)を適用し、デコーダ側(後半)に8層の二次元逆畳み込み層(Conv2DTrans×8層)を適用した。また、本シミュレーションでは、歪み補正DNN121で入出力される信号は16kHzの音声データとした。さらに、本シミュレーションでは、歪み補正DNN121を構成するU-net型のDNNのパラメータ数を57822337とした。
本シミュレーションでは、歪み補正DNN121を構成するU-net型のDNNのうち、エンコーダ側(前半)に8層の二次元畳み込み層(Conv2D×8層)を適用し、デコーダ側(後半)に8層の二次元逆畳み込み層(Conv2DTrans×8層)を適用した。また、本シミュレーションでは、歪み補正DNN121で入出力される信号は16kHzの音声データとした。さらに、本シミュレーションでは、歪み補正DNN121を構成するU-net型のDNNのパラメータ数を57822337とした。
本シミュレーションでは、識別器122に、二次元畳み込み型モデル(2DConvGAN)を適用した場合の評価と、局所的パッチ型モデル(PatchGAN)を適用した場合の評価の両方を行った。また、本シミュレーションでは、識別器122としては、5層の二次元畳み込み層(2DConv×5層)を適用した。さらに、本シミュレーションでは、2種類のモデルの識別器122について、それぞれパラメータ数が同程度になるように構造を調整して、パラメータ数の違いが評価結果に影響しないようにした。具体的には、本シミュレーションでは、二次元畳み込み型モデル(2DConvGAN)を適用した場合における識別器122のパラメータ数を2792129とし、局所的パッチ型モデル(PatchGAN)を適用した場合における識別器122のパラメータ数を2764481とした。さらにまた、本シミュレーションでは、識別器122に局所的パッチ型モデル(PatchGAN)が適用される場合、出力信号S5の時間・周波数スペクトルに対して31×20個のパッチを設定して識別するようにした。
本シミュレーションでは、学習時(学習処理モード)に用いられる観測信号S1(以下、「学習用観測データ」と呼ぶ)として、目的音源と妨害音源を-5dB~5dBのレベルで重畳して得た混合音11000発話を用いた。また、本シミュレーションでは、評価時(信号処理モード)に用いられる観測信号S1(以下、「評価用観測データ」と呼ぶ)として、目的音源と妨害音源を-3[dB]、0[dB]、3[dB]のそれぞれのレベルで重畳して得た混合音1000発話を用いた。以下では、観測信号S1に目的音源と妨害音源を重畳するレベルを「重畳レベル」と呼ぶ。なお、学習用無歪み音声データ、学習用観測データ、及び評価用観測データの元となる音源(ドライソース信号)は異なり、発話者も異なるものとする。
本シミュレーションでは、非線形音声強調手段11に適用する非線形の音声強調処理として、上記の通りMUBASEを用いた。本シミュレーションでは、学習用観測データにMUBASEの処理(エリア収音処理)を施し、歪み補正手段12(歪み補正DNN121)に入力信号S4として入力した。
本シミュレーションでは、歪み補正DNN121の学習時(図3に示すGANの枠組み)において、最適化アルゴリズムにAdam(以下の参考文献8を参照)を用いた。また、本シミュレーションでは、歪み補正DNN121の学習時(図3に示すGANの枠組み)において(1)式のλを3.5、ミニバッチサイズを100、エポック数を250、学習率は0.001とした。
[参考文献8]D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR),2015.
次に、本シミュレーションの結果について図7~図9を用いて説明する。
次に、本シミュレーションの結果について図7~図9を用いて説明する。
図7~図9では、本シミュレーションにおける無処理の観測信号S1(以下、「Observation」とも表す)、音声強調信号S2(従来のMUBASEにより音声強調処理(エリア収音)された信号)(以下、単に「MUBASE」とも表す)、及び歪み補正済信号S3(音声強調信号S2を歪み補正DNN121で歪み補正処理した信号)の音質を評価した結果について示している。図7~図9では、歪み補正済信号S3については、2DConvGAN(二次元畳み込み型モデル)を適用した学習モデルにより歪み補正処理された信号(以下、「MUBASE-2DConvGAN」とも表す)と、PatchGAN(局所的パッチ型モデル)を適用した学習モデルにより歪み補正処理された信号(以下、「MUBASE-PatchGAN」とも表す)の音質評価結果について示している。
図7~図9では、Observation、MUBASE、MUBASE-2DConvGAN、MUBASE-PatchGANのそれぞれについて、評価用観測データの重畳レベルをー3dB、0dB、3dBで変化させた場合の音声品質の評価結果を示している。図7~図9では、それぞれ、音声信号の歪み補正性能を評価するための尺度として、音声音質の評価尺度であるPESQ(Perceptual Evaluation Of Speech Quality)、STOI(Short-Time Objective Intelligibility)、及びSDR(Signal-to-Distortion Ratio)を用いている。
図7~図9の評価結果から、全ての評価指標(PESQ、STOI、及びSDR)において、MUBASEによる出力よりも、歪み補正DNN121で歪み補正した出力(MUBASE-2DConvGAN及びMUBASE-PatchGAN)の方が、音声品質が改善されていることがわかる。また、図7~図9の評価結果から、全ての評価指標(PESQ、STOI、及びSDR)において、歪み補正DNN121で歪み補正した出力の中でも、MUBASE-2DConvGAN(二次元畳み込み型モデルを適用した歪み補正処理)よりも、MUBASE-PatchGAN(局所的パッチ型モデルを適用した歪み補正処理)の方が高音質であることが分かる。以上のように、歪み補正DNN121によりMUBASE出力の音質が改善されること、および、MUBASE-PatchGAN(局所的パッチ型モデルを適用した歪み補正処理)の優位性は明らかである。
(A-3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
この実施形態によれば、以下のような効果を奏することができる。
この実施形態の信号処理装置10では、上記のように、GANの枠組みを用いて敵対的学習を行う歪み補正DNN121で、音声強調信号S2の歪みを補正する処理を行う。これにより、この実施形態の信号処理装置10では、ペアデータ(入力信号S4とそれに対応する正解信号)を必要とせずに学習済のDNNを用いた歪み補正処理を行うことができる。また、上記のシミュレーション結果の通り、この実施形態では、歪み補正DNN121を用いて歪み補正処理を行うことにより、処理後に別の歪みを生じさせずに、非線形音声強調手段11による非線形処理(音声強調処理)によって生じた信号の歪みと残留雑音を低減させ、聞き心地の良い音声強調信号を得ることができる。
また、この実施形態の信号処理装置10では、歪み補正DNN121の学習に用いる識別器122のモデルとして、二次元畳み込み型モデル(2DConvGAN)又は局所的パッチ型モデル(PatchGAN)を適用する例を示している。音声強調技術によって生じる人工的な処理歪み及び残留雑音は、時間・周波数スペクトログラム上で局所的に生じることから、識別器122による歪みの有無の真偽判定に局所的パッチ型モデル(PatchGAN)を適用することが好適である。そして、識別器122に局所的パッチ型モデル(PatchGAN)を適用することが好適であることは、上記のシミュレーション結果によっても裏付けられている。
さらに、この実施形態の信号処理装置10では、入出力ロス算出手段123の処理により、歪み補正DNN121の目的関数が、入力信号S4(信号の歪みと残留雑音を含む信号)と出力信号S5との損失(入出力ロスS8)を含む構成となっている。仮に、信号処理装置10において、入出力ロス算出手段123を備えない場合、識別器122による判定が真値となれば良いため、例えば、DNNが入力信号S4の音量に関わらず出力信号S5の音量が乱高下するような歪み補正処理を学習してしまうことがある。しかしながら、この実施形態の信号処理装置10では、入出力ロス算出手段123を備えることにより、上記のような学習を抑制し、歪み補正DNN121の出力信号S5において入力信号S4に似た特徴を持つ歪みを補正した出力信号S5を得ることができる。
(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B-1)上記の実施形態の信号処理装置10(歪み補正手段12)において、学習処理モードに対応しない構成(例えば、既に学習モデルを取得しているか外部から学習モデルを取得する構成等)としてもよい。なお、歪み補正手段12は、学習処理モードにも対応する場合(信号処理モードと学習処理モードの両方に対応する場合は、識別器122と入出力ロス算出手段123を備える必要がある。一方、歪み補正手段12は、学習処理モードに対応しない場合(信号処理モードにのみ対応する場合)は、識別器122と入出力ロス算出手段123を除外するようにしてもよい。
(B-2)上記の実施形態では、信号処理装置10が非線形音声強調手段11を備える構成となっていたが、歪み補正手段12だけを備え、供給される音声強調信号S2から歪みを補正する処理だけを行う装置としてもよい。
(B-3) 上記の実施形態では、入出力ロス算出手段123が算出する損失の例としてL1損失やL2損失を挙げたが、この場合、出力信号S5を人工的な処理歪みと残留雑音を含む入力信号S4に似せてしまうため、出力信号S5において、処理歪みや残留雑音を補正しきれない恐れがある。そのため、歪み補正手段12の学習時に、循環による一貫性(Cycle-Consistency)を持つ敵対的ネットワークの枠組みを用いた教師なし学習を行うようにしてもよい。歪み補正手段12において適用可能な敵対的ネットワークとしては、例えば、参考文献9のような技術が存在する。
[参考文献9] Zhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang (Fred) Juang,“S Cycle-Consistent Speech Enhancement”, arXiv:1809.02253v2 [eess.AS] 30 Apr 2019,[2022年2月15日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1809.02253.pdf >
図10~図12は、歪み補正手段12の学習時に、循環による一貫性を持つ敵対的ネットワークの枠組みを適用した場合の構成について示したブロック図である。
[参考文献9] Zhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang (Fred) Juang,“S Cycle-Consistent Speech Enhancement”, arXiv:1809.02253v2 [eess.AS] 30 Apr 2019,[2022年2月15日検索]、[Online]INTERNET、<URL: https://arxiv.org/pdf/1809.02253.pdf >
図10~図12は、歪み補正手段12の学習時に、循環による一貫性を持つ敵対的ネットワークの枠組みを適用した場合の構成について示したブロック図である。
この場合、歪み補正手段12では、図10のように、学習処理モード(学習時)において、歪み補正DNN121の逆変換に相当する歪み復元DNN124と、識別器122(以下、「無歪み識別器122A」とも呼ぶ)とは逆に、処理歪みや残留雑音を含む信号を真値とし、無歪みな音声信号を偽値として判別する第2の識別器125(以下、「歪み識別器125」とも呼ぶ)と、歪み復元DNN124の入出力の損失(ロス)を取得する第2の入出力算出手段126(以下、「歪み復元ロス算出手段126」と呼ぶ)をさらに備える必要がある。なお、以下では、入出力ロス算出手段123を「歪み補正ロス算出手段123A」とも呼ぶものとする。
この場合、学習処理モードで動作する歪み補正手段12では、歪み補正DNN121と歪み復元DNN124が結合学習することになる。
このとき、歪み補正DNN121と歪み復元DNN124の目的関数が、(a)処理歪みや残留雑音を含む入力信号S4(X)を歪み補正DNN121に通して得た出力信号S5(Yo)を無歪み識別器122Aに入力して得られる無歪み識別ロスS7(Ldc)に加え、(b)入力信号S4(X)と出力信号S5(Yo)を歪み復元DNN124に通して得た歪み復元信号S9(Xr)との歪み復元ロスS10(Lnn)と、(c)無歪み音声信号S6(Y)を歪み復元DNN124に通して得た歪み復元信号S11(Xo)を歪み識別器125に入力して得られる歪み識別ロスS12(Ldn)と、(d)無歪み音声信号S6(Y)と歪み復元信号S11(Xo)を歪み補正DNN121に通して得た歪み補正信号S13(Yr)との歪み補正ロスS14(Lcc)を含むものとする。また、このとき、歪み補正DNN121と歪み復元DNN124の目的関数は、さらに、(e)図11のように、処理歪みや残留雑音を含む入力信号S4(X)と、該Xを歪み復元DNN124に通して得た恒等歪み信号S15(Xi)との恒等歪みロスS16(Lin)と、(f)図12のように、無歪み音声信号S6(Y)と、該Yを歪み補正DNN121に通して得た恒等無歪み信号S17(Yi)との恒等無歪みロスS18(Lic)をも含むようにしても良い。
ここで、歪み補正DNN121(生成器)のパラメータは、(2)式で示される目的関数L(F,G,Dv,Du)を最小化することで得られる。
ここで、歪み補正DNN121(生成器)のパラメータは、(2)式で示される目的関数L(F,G,Dv,Du)を最小化することで得られる。
(2)式において、Fは歪み補正DNN121(生成器)、Gは歪み復元DNN124、Dvは無歪み識別器122A、Duは歪み識別器125である。また、Lnnは歪み復元ロスS10、Lccは歪み補正ロスS14、Ldcは無歪み識別ロスS7、Ldnは歪み識別ロスS12、Linは恒等歪みロスS16、Licは恒等無歪みロスS18である。また、λ1、λ2,λ3、λ4、λ5は、複数のロスのバランスを調整する係数を表している。
10…信号処理装置、11…非線形音声強調手段、12…歪み補正手段、20…マイクアレイ部、122…識別器、123…入出力ロス算出手段、M,M1,M2…マイクロホン、MA,MA1,MA2…マイクロホンアレイ、S1…観測信号、S2…音声強調信号、S3…歪み補正済信号、S4…入力信号、S5…出力信号、S6…無歪み音声信号、S7…識別ロス、S8…入出力ロス。
Claims (10)
- 非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段を備え、
前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有する
ことを特徴とする信号処理装置。 - 前記生成器には、前記深層ニューラルネットワークが用いられることを特徴とする請求項1に記載の信号処理装置。
- 前記生成器としての前記深層ニューラルネットワークの目的関数が、前記深層ニューラルネットワークの入力信号と出力信号との入出力損失を含むことを特徴とする請求項2に記載の信号処理装置。
- 前記入出力損失に適用する損失関数がL1損失であることを特徴とする請求項3に記載の信号処理装置。
- 前記深層ニューラルネットワークは、循環による一貫性を持つ敵対的ネットワークの枠組みで学習した学習モデルを有することを特徴とする請求項2に記載の信号処理装置。
- 前記識別器には、歪みの有無の識別を局所的なパッチごとに行うことを特徴とする請求項1~5のいずれかに記載の信号処理装置。
- 前記入力信号は、複数のマイクロホンアレイのビームフォーマ出力に基づいて、目的エリアを音源とする目的エリア音を収音するエリア収音処理により得られた音響信号であることを特徴とする請求項1~6のいずれかに記載された信号処理装置。
- 前記深層ニューラルネットワークは、U-net型のモデルで構成されていることを特徴とする請求項1~7のいずれかに記載の信号処理装置。
- コンピュータを、
非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正する歪み補正手段として機能させ、
前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有する
ことを特徴とする信号処理プログラム。 - 信号処理装置が行う信号処理方法において、
前記信号処理装置は、歪み補正手段を備え、
前記歪み補正手段は、非線形な音声強調処理が施された入力信号の歪みを深層ニューラルネットワークを用いて補正し、
前記深層ニューラルネットワークは、生成器と識別器とを用いた敵対的生成ネットワークの枠組みで学習した学習モデルを有する
ことを特徴とする信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022025439A JP2023122018A (ja) | 2022-02-22 | 2022-02-22 | 信号処理装置、信号処理プログラム及び信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022025439A JP2023122018A (ja) | 2022-02-22 | 2022-02-22 | 信号処理装置、信号処理プログラム及び信号処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023122018A true JP2023122018A (ja) | 2023-09-01 |
Family
ID=87798961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022025439A Pending JP2023122018A (ja) | 2022-02-22 | 2022-02-22 | 信号処理装置、信号処理プログラム及び信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023122018A (ja) |
-
2022
- 2022-02-22 JP JP2022025439A patent/JP2023122018A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kinoshita et al. | A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research | |
Li et al. | On the importance of power compression and phase estimation in monaural speech dereverberation | |
Liu et al. | VoiceFixer: Toward general speech restoration with neural vocoder | |
Tzirakis et al. | Multi-channel speech enhancement using graph neural networks | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
Swami et al. | Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients | |
Lan et al. | Combining multi-perspective attention mechanism with convolutional networks for monaural speech enhancement | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
Nossier et al. | Mapping and masking targets comparison using different deep learning based speech enhancement architectures | |
Zhang et al. | Weighted magnitude-phase loss for speech dereverberation | |
Ashraf et al. | Underwater ambient-noise removing GAN based on magnitude and phase spectra | |
Mira et al. | LA-VocE: Low-SNR audio-visual speech enhancement using neural vocoders | |
Dong et al. | Towards real-world objective speech quality and intelligibility assessment using speech-enhancement residuals and convolutional long short-term memory networks | |
Liu et al. | A robust acoustic feature extraction approach based on stacked denoising autoencoder | |
JP2020012980A (ja) | 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置 | |
Zhou et al. | Speech Enhancement via Residual Dense Generative Adversarial Network. | |
JP2023122018A (ja) | 信号処理装置、信号処理プログラム及び信号処理方法 | |
Briegleb et al. | Exploiting spatial information with the informed complex-valued spatial autoencoder for target speaker extraction | |
Kashani et al. | Speech enhancement via deep spectrum image translation network | |
Guzewich et al. | Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. | |
Li et al. | Beamformed feature for learning-based dual-channel speech separation | |
Yin et al. | Blind source separation and identification for speech signals | |
Li et al. | Integrated speech enhancement method based on weighted prediction error and DNN for dereverberation and denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220602 |