JP7333878B2 - 信号処理装置、信号処理方法、及び信号処理プログラム - Google Patents

信号処理装置、信号処理方法、及び信号処理プログラム Download PDF

Info

Publication number
JP7333878B2
JP7333878B2 JP2022577446A JP2022577446A JP7333878B2 JP 7333878 B2 JP7333878 B2 JP 7333878B2 JP 2022577446 A JP2022577446 A JP 2022577446A JP 2022577446 A JP2022577446 A JP 2022577446A JP 7333878 B2 JP7333878 B2 JP 7333878B2
Authority
JP
Japan
Prior art keywords
feature
sequence
normalization
normalization parameter
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022577446A
Other languages
English (en)
Other versions
JPWO2022168251A5 (ja
JPWO2022168251A1 (ja
Inventor
祥幹 三井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2022168251A1 publication Critical patent/JPWO2022168251A1/ja
Publication of JPWO2022168251A5 publication Critical patent/JPWO2022168251A5/ja
Application granted granted Critical
Publication of JP7333878B2 publication Critical patent/JP7333878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本開示は、信号処理装置、信号処理方法、及び信号処理プログラムに関する。
近年、複数の音が混在している混合音を示す混合音信号の中から、所望の音の信号を取り出す研究が進められている。特に、1つの音の信号を取り出すことは、音源強調と呼ばれている。また、2つ以上の音の信号を取り出すことは、音源分離と呼ばれている。例えば、近年では、音源分離の方法として、ニューラルネットワーク(Neural Network:NN)に基づく方法が、用いられている。例えば、非特許文献1では、NNを用いる方法により、混合音信号の中から所望の音声の信号が、取り出される。
以下の説明では、音源強調、音源分離など1つ以上の所望の音信号を取り出すことを音源抽出と呼ぶ。
Z.Q. Wang et al.,Alternative Objective Functions for Deep Clustering,Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2018年 Yi Luo and Nima Mesgarani,Conv-TasNet:Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation,IEEE/ACM Transactions on Audio,Speech,and Language Processing,Volume.27,Issue.8,2019年
特許5433696号公報
非特許文献1に示されるようなNNに基づく音源抽出手法では、事前に大量の学習用信号が準備され、学習用信号を上手く分離できるようにNNが学習させられる。これにより、NNに基づく音源抽出手法では、高精度な音源抽出が実現される。しかし、学習フェーズで用いられた学習用信号に基づく音を収録した環境と、活用フェーズで用いられる音を収録した環境とが異なる場合、NNに基づく音源抽出手法を活用フェーズで用いることは、音源抽出の精度を低下させる。なお、環境とは、収録に用いるマイクロホンの音量(例えば、ゲイン)、周波数特性、指向性、部屋の広さ、残響などが挙げられる。
本開示の目的は、高精度な音源抽出を実現することである。
本開示の一態様に係る信号処理装置が提供される。信号処理装置は、目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得する取得部と、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記一時正規化パラメータが示す第1の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第1の次元を補正する方法である第1の補正方法を用いて、前記一時正規化パラメータを補正し、補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、を有する。
本開示によれば、高精度な音源抽出を実現することができる。
実施の形態1の信号処理システムを示す図である。 実施の形態1の信号処理装置が有するハードウェアを示す図である。 実施の形態1の信号処理装置の機能を示すブロック図である。 実施の形態1の特徴量系列のイメージ図である。 実施の形態1の特徴量正規化部の機能を示すブロック図である。 実施の形態1の学習装置が有するハードウェアを示す図である。 実施の形態1の学習装置の機能を示すブロック図である。 実施の形態1の信号処理装置が実行する処理の例を示すフローチャートである。 実施の形態1の正規化処理の例を示すフローチャートである。 実施の形態1の学習装置が実行する処理の例を示すフローチャートである。 実施の形態1の第1の学習処理の例を示すフローチャートである。 実施の形態1の第2の学習処理の例を示すフローチャートである。 実施の形態1の正規化パラメータ記憶部に格納されている正規化パラメータの分散ベクトルの一例を示す図である。 実施の形態1の一時正規化パラメータ算出部により算出された正規化パラメータの分散ベクトルの一例を示す図である。 実施の形態1の第1の補正方法を用いることで得られた分散ベクトルの一例を示す図である。 実施の形態1の第2の補正方法を用いることで得られた分散ベクトルの一例を示す図である。 実施の形態2の特徴量正規化部の機能を示すブロック図である。 実施の形態2の第2の学習処理の例を示すフローチャートである。
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
図1は、実施の形態1の信号処理システムを示す図である。信号処理システムは、信号処理装置100と学習装置200とを含む。
信号処理装置100は、信号処理方法を実行する装置である。例えば、信号処理装置100は、エッジデバイス又はサーバである。
信号処理装置100は、混合音を示す対象入力信号を取得する。ここで、混合音とは、目的音と非目的音とが混ざっている音である。目的音は、信号処理装置100の抽出対象の音である。非目的音は、信号処理装置100の抽出対象外の音である。言い換えれば、非目的音は、除去対象の音である。信号処理装置100は、対象入力信号の中から目的音を示す信号である対象出力信号を抽出し、対象出力信号を出力する。
学習装置200は、学習用信号に基づいて、正規化パラメータと学習済モデルとを生成する。
ここで、学習用信号を説明する。学習用信号は、正規化パラメータと学習済モデルとを生成するために用いられる信号である。例えば、学習用信号は、目的音、非目的音、混合音などを示す信号である。例えば、目的音は、音声、楽器から発せられた音である。学習用信号には、1以上の目的音を示す音信号が含まれる。例えば、非目的音は、騒音である。学習用信号には、非目的音が含まれてもよいし、非目的音が含まれていなくてもよい。以下の説明では、学習用信号には、非目的音が含まれるものとする。2つ以上の目的音を示す音信号が学習用信号に含まれている場合、学習装置200は、学習により、音源分離に用いられる正規化パラメータと学習済モデルとを生成することができる。1つの目的音を示す音信号が学習用信号に含まれている場合、学習装置200は、学習により、音源強調に用いられる正規化パラメータと学習済モデルとを生成することができる。このように、学習装置200は、学習により、音源抽出に用いられる正規化パラメータと学習済モデルとを生成することができる。学習には、目的音を示す全ての音信号と混合音を示す音信号とが必要である。なお、非目的音を示す全ての信号が学習用信号に含まれている場合、混合音を示す音信号は、学習用信号に含まれていなくてもよい。混合音を示す音信号が、学習用信号に含まれていない場合、学習装置200は、目的音を示す全ての音信号と非目的音を示す全ての音信号とを加算することで、混合音を示す音信号を作成する。以下、目的音を示す音信号は、目的音信号と呼ぶ。非目的音を示す音信号は、非目的音信号と呼ぶ。
正規化パラメータは、信号処理装置100に取得される。正規化パラメータの詳細については、後で説明する。
学習済モデルを説明する。学習済モデルは、モデルパラメータと呼んでもよい。学習済モデルは、信号処理装置100に取得される。例えば、学習済モデルは、NNの接続構造を定義するための情報、NNのエッジの重みを示す情報を含む。なお、例えば、NNの接続構造は、全結合型NN、畳み込みNN(Convolutional NN:CNN)、回帰型NN(Recurrent NN:RNN)、長・短期記憶(Long short-term memory:LSTM)、ゲート付き回帰型ユニット(Gated recurrent unit:GRU)などの公知の構造でもよいし、これらの構造の組合せでもよい。
次に、信号処理装置100が有するハードウェアを説明する。
図2は、実施の形態1の信号処理装置が有するハードウェアを示す図である。信号処理装置100は、プロセッサ101、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース104を有する。
プロセッサ101は、信号処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、信号処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
揮発性記憶装置102は、信号処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、信号処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
インタフェース104は、学習装置200と通信する。また、例えば、インタフェース104は、マイクロホンと通信する。なお、マイクロホンの図示は、省略されている。
次に、信号処理装置100が有する機能を説明する。
図3は、実施の形態1の信号処理装置の機能を示すブロック図である。信号処理装置100は、正規化パラメータ記憶部111、学習済モデル記憶部112、一時正規化パラメータ記憶部113、取得部120、特徴量抽出部130、特徴量正規化部140、算出部150、信号生成部160、及び出力部170を有する。
正規化パラメータ記憶部111、学習済モデル記憶部112、及び一時正規化パラメータ記憶部113は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
取得部120、特徴量抽出部130、特徴量正規化部140、算出部150、信号生成部160、及び出力部170の一部又は全部は、処理回路によって実現してもよい。また、取得部120、特徴量抽出部130、特徴量正規化部140、算出部150、信号生成部160、及び出力部170の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、信号処理プログラムとも言う。例えば、信号処理プログラムは、記録媒体に記録されている。
正規化パラメータ記憶部111は、後述する正規化パラメータを記憶してもよい。学習済モデル記憶部112は、後述する学習済モデルを記憶してもよい。一時正規化パラメータ記憶部113は、後述する一時正規化パラメータを記憶してもよい。
取得部120は、対象入力信号を取得する。例えば、取得部120は、対象入力信号をマイクロホンから取得する。また、例えば、取得部120は、揮発性記憶装置102又は不揮発性記憶装置103から対象入力信号を取得する。
また、取得部120は、学習済モデルを取得する。例えば、取得部120は、学習済モデルを学習済モデル記憶部112から取得する。また、例えば、取得部120は、学習済モデルを外部装置(例えば、クラウドサーバ)から取得する。
取得部120は、正規化パラメータを取得してもよい。例えば、取得部120は、正規化パラメータを正規化パラメータ記憶部111から取得する。また、例えば、取得部120は、正規化パラメータを外部装置から取得する。
特徴量抽出部130は、対象入力信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。ここで、特徴量系列のイメージを具体的に説明する。
図4は、実施の形態1の特徴量系列のイメージ図である。特徴量抽出部130は、対象入力信号の一部の区間を切り出すことで得られる信号断片に、特徴量抽出処理を施すことで、特徴量を抽出する。特徴量系列は、複数の特徴量を並べることで得られる。言い換えれば、特徴量系列は、複数の特徴量を示している。そして、例えば、特徴量系列は、行列で表される。例えば、特徴量は、列ベクトルで表される。図4の表の縦方向は、特徴量ベクトル方向を示している。縦方向の単位は、次元と呼んでもよい。図4の表の横方向は、時間方向を示している。横方向の単位は、フレームと呼んでもよい。
なお、区間の切り出し処理では、特徴量抽出部130は、一定の時間間隔ごとに区間を切り出してもよい。また、特徴量抽出部130は、他の区間の一部を含むように、区間を切り出してもよい。切り出された区間の一部は、当該他の区間の一部と重複する。
まず、第2の特徴量系列の抽出方法を説明する。特徴量抽出部130は、対象入力信号に基づいて、第2の特徴量系列を抽出する。言い換えれば、特徴量抽出部130は、対象入力信号と予め設定された方法とを用いて、第2の特徴量系列を抽出する。予め設定された方法とは、高速フーリエ変換(fast Fourier transform:FFT)、ウェーブレット変換、定Q変換などである。FFTを用いる場合を説明する。特徴量抽出部130は、信号断片とFFTとを用いて、複素スペクトルを示すベクトルを特徴量として抽出する。以下、当該抽出された特徴量は、第2の特徴量と呼ぶ。同様に、信号断片ごとに第2の特徴量が抽出される。抽出された複数の第2の特徴量を並べることで、第2の特徴量系列が、生成される。
次に、第1の特徴量系列の抽出方法を説明する。特徴量抽出部130は、第2の特徴量系列に基づいて、第1の特徴量系列を抽出する。例えば、特徴量抽出部130は、第2の特徴量系列(すなわち、複数の第2の特徴量)の絶対値を算出する。算出することにより得られた値に対して自然対数を用いることで、第1の特徴量系列が、抽出される。第1の特徴量系列は、複数の特徴量を示す特徴量系列である。当該特徴量は、第1の特徴量と呼ぶ。
なお、信号断片の単位、又は特徴量を数える単位として、上記のフレームが用いられる。また、特徴量抽出処理にFFTが用いられる場合、特徴量系列は、複素スペクトログラムと呼ばれる。
図3に戻って、特徴量正規化部140を説明する。
特徴量正規化部140は、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が得られる。ここで、正規化処理とは、学習済モデルに入力されるデータに対して、予め定められた手続きに則った変換を行う処理を指す。例えば、正規化処理により、当該データの値が分布している範囲が、変更される。また、例えば、正規化処理により、当該データの値のばらつきが、吸収される。このように、特徴量正規化部140は、学習済モデルから出力される情報の正確性を高めるために、正規化処理を実行する。また、特徴量正規化部140の機能の詳細については、後で説明する。
算出部150は、正規化済特徴量系列と学習済モデルとを用いて、目的音特徴量系列を算出する。なお、目的音特徴量系列は、目的音の複数の特徴量を示す特徴量系列である。また、算出部150は、第2の特徴量系列、正規化済特徴量系列、及び学習済モデルを用いて、目的音特徴量系列を算出してもよい。以下の説明では、算出部150は、第2の特徴量系列、正規化済特徴量系列、及び学習済モデルを用いて、目的音特徴量系列を算出するものとする。また、複数の目的音を含む混合音を示す対象入力信号が取得された場合、算出部150は、複数の目的音特徴量系列を算出する。すなわち、算出部150は、目的音の数の目的音特徴量系列を算出する。
信号生成部160は、目的音特徴量系列に基づいて、目的音を示す対象出力信号を生成する。詳細には、信号生成部160は、目的音特徴量系列を示す複数の特徴量を複数の信号断片に変換する。例えば、信号生成部160は、逆高速フーリエ変換(inverse fast Fourier transform:IFFT)を用いて、当該複数の特徴量を複数の信号断片に変換する。信号生成部160は、複数の信号断片を合成する。これにより、対象出力信号が、生成される。なお、複数の目的音特徴量系列が算出された場合、信号生成部160は、目的音ごとに、上記の処理を実行する。
また、信号断片の区間を切り出す際、他の区間の一部を含むように、区間が切り出された場合、次の処理が行われてもよい。信号生成部160は、複数の信号断片を合成するときに、公知の重畳加算法(Overlap-and-add)を用いて、重複区間を削除する。
出力部170は、対象出力信号を出力する。例えば、出力部170は、対象出力信号を外部装置に出力する。また、出力部170は、揮発性記憶装置102又は不揮発性記憶装置103に対象出力信号を出力してもよい。
次に、特徴量正規化部140を詳細に説明する。
図5は、実施の形態1の特徴量正規化部の機能を示すブロック図である。特徴量正規化部140は、一時正規化パラメータ算出部141、一時正規化パラメータ補正部142、及び正規化部143を含む。
一時正規化パラメータ算出部141は、第1の特徴量系列に基づいて、第1の特徴量を示すベクトルの要素ごとに、一時正規化パラメータを算出する。例えば、一時正規化パラメータは、特徴量を示すベクトルを集め、要素ごとに計算された平均及び分散である。また、一時正規化パラメータは、特徴量を示すベクトルと同一の大きさを示すベクトルである。以下の説明では、一時正規化パラメータは、平均ベクトル及び分散ベクトルとする。
一時正規化パラメータ算出部141は、一時正規化パラメータを一時正規化パラメータ記憶部113に格納する。このように、一時正規化パラメータ算出部141は、一時正規化パラメータを算出する度に、一時正規化パラメータを一時正規化パラメータ記憶部113に格納する。これにより、一時正規化パラメータ記憶部113には、一時正規化パラメータが蓄積される。
ここで、次の処理により、一時正規化パラメータが算出されてもよい。まず、取得部120は、過去に算出された一時正規化パラメータを取得する。例えば、取得部120は、過去に算出された一時正規化パラメータを一時正規化パラメータ記憶部113から取得する。また、例えば、取得部120は、過去に算出された一時正規化パラメータを外部装置から取得する。一時正規化パラメータ算出部141は、算出によって得られた一時正規化パラメータと、過去に算出された一時正規化パラメータとに基づいて、新たな一時正規化パラメータを算出する。当該算出の処理により、次の効果が期待できる。例えば、対象入力信号が長い場合、対象入力信号が2つに分割される。前半部分の対象入力信号に基づく一時正規化パラメータが、一時正規化パラメータ記憶部113に格納される。ここで、後半部分の対象入力信号に含まれている目的音の信号の状態が悪い場合がある。後半部分の対象入力信号に基づく一時正規化パラメータが算出される。当該一時正規化パラメータと、前半部分の対象入力信号に基づく一時正規化パラメータとにより算出された一時正規化パラメータには、前半部分と後半部分との情報が含まれることになる。そのため、新たに算出された一時正規化パラメータを用いて音源抽出が実行されることで、目的音の抽出精度が、高くなる。なお、新たな一時正規化パラメータは、一時正規化パラメータ補正部142で用いられる。
ここで、混合音に無音区間が含まれている場合がある。当該場合、一時正規化パラメータ算出部141は、第1の特徴量系列に基づいて、無音区間を特定する。一時正規化パラメータ算出部141は、無音区間以外の第1の特徴量系列に基づいて、一時正規化パラメータを算出する。これにより、一時正規化パラメータ算出部141は、一時正規化パラメータに無音区間の影響が反映されることを防ぐことができる。
一時正規化パラメータ補正部142は、予め設定された補正方法を用いて、一時正規化パラメータを補正する。これにより、補正済正規化パラメータが、生成される。なお、予め設定された補正方法とは、第1の補正方法又は第2の補正方法である。第1の補正方法又は第2の補正方法については、後で説明する。
正規化部143は、補正済正規化パラメータを用いて、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。
このように、補正済正規化パラメータを用いることで生成された正規化済特徴量系列は、学習済モデルに入力されるデータとして、好ましいデータとなる。そのため、信号処理装置100は、補正済正規化パラメータを用いることで、音源抽出の精度を向上できる。
次に、学習装置200が有するハードウェアを説明する。
図6は、実施の形態1の学習装置が有するハードウェアを示す図である。学習装置200は、プロセッサ201、揮発性記憶装置202、不揮発性記憶装置203、及びインタフェース204を有する。
プロセッサ201は、学習装置200全体を制御する。例えば、プロセッサ201は、CPU、FPGAなどである。プロセッサ201は、マルチプロセッサでもよい。また、学習装置200は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
揮発性記憶装置202は、学習装置200の主記憶装置である。例えば、揮発性記憶装置202は、RAMである。不揮発性記憶装置203は、学習装置200の補助記憶装置である。例えば、不揮発性記憶装置203は、HDD又はSSDである。
インタフェース204は、信号処理装置100と通信する。また、例えば、インタフェース204は、マイクロホンと通信する。なお、当該マイクロホンの図示は、省略されている。
次に、学習装置200が有する機能を説明する。
図7は、実施の形態1の学習装置の機能を示すブロック図である。学習装置200は、正規化パラメータ記憶部211、モデルパラメータ記憶部212、取得部220、特徴量抽出部230、正規化パラメータ算出部240、特徴量正規化部250、算出部260、更新部270、及び出力部280を有する。
正規化パラメータ記憶部211及びモデルパラメータ記憶部212は、揮発性記憶装置202又は不揮発性記憶装置203に確保した記憶領域として実現してもよい。
取得部220、特徴量抽出部230、正規化パラメータ算出部240、特徴量正規化部250、算出部260、更新部270、及び出力部280の一部又は全部は、処理回路によって実現してもよい。また、取得部220、特徴量抽出部230、正規化パラメータ算出部240、特徴量正規化部250、算出部260、更新部270、及び出力部280の一部又は全部は、プロセッサ201が実行するプログラムのモジュールとして実現してもよい。
正規化パラメータ記憶部211及びモデルパラメータ記憶部212が格納している情報については、後で説明する。
取得部220は、学習用信号を取得する。例えば、取得部220は、学習用信号をマイクロホンから取得する。また、例えば、取得部220は、揮発性記憶装置202又は不揮発性記憶装置203から学習用信号を取得する。なお、学習用信号は、上述した通りである。
特徴量抽出部230は、学習用信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。第1の特徴量系列と第2の特徴量系列との抽出方法は、特徴量抽出部130が実行する、第1の特徴量系列と第2の特徴量系列との抽出方法と同じである。
正規化パラメータ算出部240は、第1の特徴量系列に基づいて、正規化パラメータを算出する。正規化パラメータ算出部240を詳細に説明する。正規化パラメータ算出部240は、一時正規化パラメータ算出部141と同じ機能を有する。そのため、正規化パラメータ算出部240の算出により得られた正規化パラメータは、一時正規化パラメータと同じである。ここで、正規化パラメータ記憶部211には、過去に算出された一時正規化パラメータに基づく一時正規化パラメータが格納されている。正規化パラメータ算出部240は、算出された正規化パラメータに基づいて、正規化パラメータ記憶部211に格納されている正規化パラメータを更新する。
特徴量正規化部250は、正規化パラメータ記憶部211に格納されている正規化パラメータを用いて、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。
算出部260は、正規化済特徴量系列、及びモデルパラメータ記憶部212に格納されているモデルパラメータを用いて、目的音特徴量系列を算出する。また、算出部260は、正規化済特徴量系列、第2の特徴量系列、及びモデルパラメータ記憶部212に格納されているモデルパラメータを用いて、目的音特徴量系列を算出してもよい。以下の説明では、算出部260は、正規化済特徴量系列、第2の特徴量系列、及びモデルパラメータ記憶部212に格納されているモデルパラメータを用いて、目的音特徴量系列を算出するものとする。なお、目的音特徴量系列は、1以上の目的音を示す特徴量系列である。算出部260は、正規化済特徴量系列、第2の特徴量系列、及びモデルパラメータ記憶部212に格納されているモデルパラメータを用いて、非目的音特徴量系列を算出してもよい。なお、非目的音特徴量系列は、非目的音を示す特徴量系列である。
また、算出部260と算出部150とで行われる処理は、同じでもよい。算出部260は、算出部150が実行しない処理を、追加の処理として、実行してもよい。追加の処理の実行により得られた情報は、補助情報と呼ぶ。具体的に補助情報の出力を説明する。例えば、算出部260は、音源抽出のために用いられる学習済モデルを用いて、補助情報を出力する。また、例えば、算出部260は、補助モデルを用いて、補助情報を出力してもよい。なお、補助モデルは、公知の配線構造を有するNNである。例えば、補助モデルは、モデルパラメータ記憶部212に格納されている。
更新部270は、学習用信号に含まれている目的音信号に基づいて、教師特徴量系列を抽出する。当該抽出の方法は、学習用信号から第2の特徴量系列が抽出される方法と同じである。更新部270は、目的音特徴量系列と教師特徴量系列との差分が小さくなるように、モデルパラメータを更新する。例えば、更新部270は、モデルパラメータを更新する場合、逆誤差伝播法を用いて勾配を求めた後、確率的勾配降下法(Stochastic Gradient Descent:SGD)、Adam法などの公知の最適化手法を用いることで、モデルパラメータを更新する。
このように、学習装置200は、学習用信号を取得する度に、モデルパラメータの更新を繰り返す。モデルパラメータの更新が繰り返されることで、学習済モデルが生成される。
また、更新部270は、モデルパラメータを更新する場合、非目的音特徴量系列又は補助情報を用いて、モデルパラメータを更新してもよい。さらに、更新部270は、モデルパラメータを更新すると共に、モデルパラメータ記憶部212に格納されている補助モデルを更新してもよい。
出力部280は、正規化パラメータと学習済モデルとを出力する。例えば、出力部280は、ネットワークを介して、正規化パラメータと学習済モデルとを信号処理装置100に出力する。
次に、信号処理装置100が実行する処理を、フローチャートを用いて、説明する。
図8は、実施の形態1の信号処理装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部120は、対象入力信号を取得する。
(ステップS12)特徴量抽出部130は、対象入力信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。
ここで、第1の特徴量系列を示す行列の各要素を、Xin(f,t)とする。第2の特徴量系列を示す行列の各要素を、Xraw(f,t)とする。なお、fは、“1≦f≦F”を満たす整数である。Fは、特徴量の次元数を示す。tは、“1≦t≦T”を満たす整数である。Tは、総フレーム数を示す。
in(f,t)とXraw(f,t)との関係は、式(1)で表される。
Figure 0007333878000001
(ステップS13)特徴量正規化部140は、正規化処理を実行する。これにより、正規化済特徴量系列が得られる。正規化済特徴量系列を示す行列は、Xmod(f,t)とする。
(ステップS14)算出部150は、正規化済特徴量系列、第2の特徴量系列、及び学習済モデルを用いて、目的音特徴量系列を算出する。
ここで、学習済モデルは、マスクと呼ばれる時系列データを、目的音の数だけ出力することができる。例えば、マスクは、第2の特徴量系列を示す行列の各要素において、目的音に由来する成分が含まれている割合を示す行列である。ここで、n番目の目的音に対応するマスクを示す行列の各要素を、M(f,t)と表記する。なお、nは、“1≦n≦N”を満たす整数である。Nは、信号処理装置100が出力すべき目的音の総数である。学習済モデルでは、Xmod(f,t)に基づいて、M(f,t)が算出される。n番目の目的音特徴量系列がY(f,t)である場合、M(f,t)とXraw(f,t)との関係は、式(2)で表される。
Figure 0007333878000002
(ステップS15)信号生成部160は、目的音特徴量系列に基づいて、対象出力信号を生成する。
(ステップS16)出力部170は、対象出力信号を出力する。
図9は、実施の形態1の正規化処理の例を示すフローチャートである。図9の処理は、ステップS13に対応する。
(ステップS21)一時正規化パラメータ算出部141は、第1の特徴量系列に基づいて、一時正規化パラメータを算出する。前述したように、一時正規化パラメータは、平均ベクトル及び分散ベクトルである。平均ベクトルの要素は、μin(f)と表記する。平均ベクトルの要素μin(f)は、式(3)を用いて表現される。
Figure 0007333878000003
また、分散ベクトルの要素は、σin^2(f)と表記する。分散ベクトルの要素σin^2(f)は、式(4)を用いて表現される。
Figure 0007333878000004
ここで、表記の便宜上、2乗平均を示すベクトルの要素をξin(f)と定義する。ξin(f)は、式(5)を用いて表現される。
Figure 0007333878000005
このように、ξin(f)は、平均ベクトルの要素μin(f)と分散ベクトルの要素σin^2(f)とを用いて、容易に算出される。
(ステップS22)一時正規化パラメータ補正部142は、一時正規化パラメータを補正する。一時正規化パラメータを補正方法には、第1の補正方法と第2の補正方法とがある。
まず、第1の補正方法を説明する。第1の補正方法は、一時正規化パラメータが示すf番目の次元(例えば、第1の次元とも言う。)を含み、かつ連続する複数の次元(f-f,f-f+1,…,f-1,f,f+1,…,f+f番目の次元)を重み付けし統合することで、当該f番目の次元を補正する方法である。一時正規化パラメータ補正部142は、第1の補正方法を用いて、一時正規化パラメータを補正する。補正により、補正済正規化パラメータが生成される。ここで、補正済正規化パラメータの平均ベクトルの要素を、μmod1(f)と表記する。μmod1(f)は、式(6)を用いて表現される。なお、wmod1(f,f’)は、一時正規化パラメータのf番目の次元を補正する際に、f’番目の次元をどの程度重視するかを定めている重みである。
Figure 0007333878000006
補正済正規化パラメータの分散ベクトルの要素を、σmod1^2(f)と表記する。また、2乗平均を示すベクトルの要素を、ξmod1(f)と表記する。ξmod1(f)は、式(7)を用いて表現される。
Figure 0007333878000007
また、σmod1^2(f)は、式(8)を用いて表現される。
Figure 0007333878000008
mod1(f,f’)は、予め定められてもよい。また、次の処理により、重み(すなわち、wmod1(f,f’))は、選択されてもよい。取得部120は、重みの複数の候補を取得する。特徴量正規化部140(例えば、一時正規化パラメータ補正部142)は、複数の候補の中から、一時正規化パラメータを所望の値に近づけられる候補を重みとして、選択する。例えば、所望の値は、次の処理で算出されてもよい。一時正規化パラメータの隣接する次元の要素間で差分が算出される。当該算出が、全ての要素間で実行される。当該実行により得られた複数の差分ベクトルの絶対値が算出される。複数の差分ベクトルの絶対値の総和が、所望の値として算出される。なお、所望の値は、滑らかさを示す指標と呼んでもよい。特許文献1に示されている滑らかさを示す指標が、用いられてもよい。
例えば、wmod1(f,f’)は、式(9)を用いて表現される。
Figure 0007333878000009
及びfは、次元の幅を示す0以上の整数である。f及びfを大きくすることは、一時正規化パラメータの補正において、より多くの情報を用いることを意味する。f及びfは、予め定められてもよい。また、f及びfは、第1の特徴量系列のフレーム数に応じて決定されてもよい。言い換えれば、重み(すなわち、wmod1(f,f’))は、第1の特徴量系列のフレーム数に応じて決定されてもよい。ここで、一時正規化パラメータのベクトルに基づく形状は、総フレーム数Tが大きいほど、滑らかな形状となる。そのため、例えば、総フレーム数Tが小さい場合、f及びfには、大きな値が設定される。総フレーム数Tが大きい場合、f及びfには、小さな値が設定される。なお、総フレーム数T、f、及びfの関係は、予め実験により、導かれてもよい。そして、当該関係を示すテーブルは、信号処理装置100に格納されてもよい。
このように、第1の補正方法では、一時正規化パラメータが示すf番目の次元を含み、かつ連続する複数の次元(f-f,f-f+1,…,f-1,f,f+1,…,f+f番目の次元)を重み付けし統合することで、当該f番目の次元が、補正される。
次に、第2の補正方法を説明する。第2の補正方法は、正規化パラメータを用いる方法である。正規化パラメータは、学習装置200に入力された学習用信号に基づいて、抽出された第1の特徴量系列を正規化する際に用いられた正規化パラメータである。一時正規化パラメータ補正部142は、正規化パラメータを用いて、一時正規化パラメータを補正する。正規化パラメータの平均ベクトルの要素を、μpre(f)と表記する。正規化パラメータの分散ベクトルの要素を、σpre^2(f)と表記する。2乗平均を示すベクトルの要素を、ξpre(f)と表記する。ξpre(f)は、式(10)を用いて表現される。
Figure 0007333878000010
第2の補正方法により、補正済正規化パラメータが生成される。ここで、補正済正規化パラメータの平均ベクトルの要素を、μmod2(f)と表記する。μmod2(f)は、式(11)を用いて表現される。なお、winとwpreは、重みである。重みwinと重みwpreは、一時正規化パラメータを補正する際に、一時正規化パラメータと正規化パラメータとを、どの程度重視するかを定める定数である。重みwinと重みwpreには、予め適当な値が定められてもよい。
Figure 0007333878000011
補正済正規化パラメータの分散ベクトルの要素を、σmod2^2(f)と表記する。また、2乗平均を示すベクトルの要素を、ξmod2(f)と表記する。ξmod2(f)は、式(12)を用いて表現される。
Figure 0007333878000012
また、σmod2^2(f)は、式(13)を用いて表現される。
Figure 0007333878000013
一時正規化パラメータ補正部142は、第1の補正方法により生成された補正済正規化パラメータに対して、第2の補正方法を実行してもよい。当該第2の補正方法により、補正済正規化パラメータが生成される。ここで、生成された補正済正規化パラメータの平均ベクトルの要素を、μmod2’(f)と表記する。μmod2’(f)は、式(14)を用いて表現される。なお、重みwmod1’と重みwpre’は、重みである。重みwmod1’と重みwpre’には、予め適当な値が定められてもよい。
Figure 0007333878000014
生成された補正済正規化パラメータの分散ベクトルの要素を、σmod2’^2(f)と表記する。また、2乗平均を示すベクトルの要素を、ξmod2’(f)と表記する。ξmod2’(f)は、式(15)を用いて表現される。
Figure 0007333878000015
また、σmod2’^2(f)は、式(16)を用いて表現される。
Figure 0007333878000016
このように、第1の補正方法の後に第2の補正方法が実行されることで、2つの補正方法の利点が反映された補正済正規化パラメータが、生成される。
(ステップS23)正規化部143は、補正済正規化パラメータを用いて、第1の特徴量系列を正規化する。正規化により、正規化済特徴量系列が生成される。正規化済特徴量系列を示す行列Xmod(f,t)は、式(17)を用いて表現される。ここで、μmod1(f)、μmod2(f)、又はμmod2’(f)は、μmod(f)と表記する。また、σmod1^2(f)、σmod2^2(f)、又はσmod2’^2(f)は、σmod^2(f)と表記する。
Figure 0007333878000017
次に、学習装置200が実行する処理を、フローチャートを用いて、説明する。
図10は、実施の形態1の学習装置が実行する処理の例を示すフローチャートである。
(ステップS31)第1の学習処理が実行される。
(ステップS32)終了条件が満たされているか否かが判定される。例えば、当該終了条件は、ステップS31が実行された回数が予め設定された回数を超えているか否かである。当該終了条件を満たす場合、処理は、ステップS33に進む。当該終了条件を満たさない場合、処理は、ステップS31に進む。
(ステップS33)第2の学習処理が実行される。
(ステップS34)出力部280は、学習の終了条件を満たすか否かを判定する。例えば、当該終了条件は、ステップS33が実行された回数が予め設定された回数を超えているか否かである。また、例えば、当該終了条件は、後述するステップS55の差分が予め設定された閾値よりも小さいか否かである。
当該終了条件を満たす場合、処理は、ステップS35に進む。当該終了条件を満たさない場合、処理は、ステップS33に進む。
(ステップS35)出力部280は、モデルパラメータ記憶部212に格納されているモデルパラメータに基づく学習済モデルと、正規化パラメータとを出力する。
図11は、実施の形態1の第1の学習処理の例を示すフローチャートである。図11の処理は、ステップS31に対応する。
(ステップS41)取得部220は、学習用信号を取得する。
(ステップS42)特徴量抽出部230は、学習用信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。
(ステップS43)正規化パラメータ算出部240は、第1の特徴量系列に基づいて、正規化パラメータを算出する。正規化パラメータ算出部240は、算出された正規化パラメータに基づいて、正規化パラメータ記憶部211に格納されている正規化パラメータを更新する。
当該更新を詳細に説明する。正規化パラメータ記憶部211に格納されている正規化パラメータを平均μpre(f)及び分散σpre^2(f)とする。また、これまでの正規化パラメータの算出に用いられた累計フレーム数をTpreとする。正規化パラメータ算出部240は、式(10)を用いて、ξpre(f)を算出する。正規化パラメータ算出部240は、ステップS42で抽出された第1の特徴量系列と式(3)とを用いて、μin(f)を算出する。正規化パラメータ算出部240は、式(5)を用いて、ξin(f)を算出する。なお、式(3)及び式(5)の中のTは、当該第1の特徴量系列のフレーム数とする。正規化パラメータ算出部240は、式(11)~(13)を用いて、平均μmod2(f)及び分散σmod2^2(f)を算出する。なお、式(11)~(13)の中のwpreは、“Tpre/Tpre+T”とする。また、式(11)~(13)の中のwinは、“T/Tpre+T”とする。正規化パラメータ算出部240は、平均μpre(f)及び分散σpre^2(f)を、平均μmod2(f)及び分散σmod2^2(f)に更新する。また、正規化パラメータ算出部240は、Tpreを“Tpre+T”に更新する。
図12は、実施の形態1の第2の学習処理の例を示すフローチャートである。図12の処理は、ステップS33に対応する。
(ステップS51)取得部220は、学習用信号を取得する。
(ステップS52)特徴量抽出部230は、学習用信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。
(ステップS53)特徴量正規化部250は、正規化パラメータ記憶部211に格納されている正規化パラメータを用いて、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。当該正規化済特徴量系列を示す行列は、式(17)を用いて表現される。なお、当該式(17)のμmod(f)は、正規化パラメータの平均ベクトルの要素を示す。当該式(17)のσmod^2(f)は、正規化パラメータの分散ベクトルの要素を示す。
(ステップS54)算出部260は、正規化済特徴量系列、第2の特徴量系列、及びモデルパラメータ記憶部212に格納されているモデルパラメータを用いて、目的音特徴量系列を算出する。
(ステップS55)更新部270は、学習用信号に含まれている目的音信号に基づいて、教師特徴量系列を抽出する。更新部270は、目的音特徴量系列と教師特徴量系列との差分が小さくなるように、モデルパラメータを更新する。
上述したように、信号処理装置100で行われる正規化と、学習装置200で行われる正規化とは、異なる。ここで、一時正規化パラメータ算出部141と一時正規化パラメータ補正部142とが、特徴量正規化部140に含まれていない場合を考える。当該場合の信号処理装置を、第1の他の信号処理装置と呼ぶ。当該場合、正規化部143は、正規化パラメータ記憶部111に格納されている正規化パラメータを用いて、第1の特徴量系列を正規化する。
正規化パラメータ記憶部111に格納されている正規化パラメータは、学習装置200で、学習用信号に基づく第1の特徴量系列から得られた値である。そのため、正規化パラメータの値は、学習用信号に基づく音を収録した環境に大きく依存する。なお、環境とは、収録に用いるマイクロホンの音量(例えば、ゲイン)、周波数特性、部屋の広さなどである。また、目的音又は非目的音が音声である場合、正規化パラメータの値は、話者の性別、声道特性、発話内容などにも依存する。
上述したように、対象入力信号に基づく第1の特徴量系列の正規化では、第1の他の信号処理装置は、学習装置200が算出した正規化パラメータを用いる。しかし、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが異なる場合、当該正規化により生成された正規化済特徴量系列は、学習装置200で生成された正規化済特徴量系列と特性又は分布が大きく異なる場合がある。対象入力信号が学習用信号に似ている場合、学習済モデルは、良い推定結果を出力する。一方、対象入力信号が学習用信号に似ていない場合、学習済モデルが、良い推定結果を出力できない場合が多い。そのため、対象入力信号が学習用信号に似ていない場合、第1の他の信号処理装置の音源抽出の精度は、高いと言えない。そのため、信号処理装置100は、一時正規化パラメータを補正する。これにより、対象入力信号が学習用信号に似ていない場合でも、信号処理装置100で生成される正規化済特徴量系列は、学習装置200で生成される正規化済特徴量系列と似た特性になる。よって、信号処理装置100で生成される正規化済特徴量系列が学習済モデルに入力されることで、信号処理装置100は、高精度な音源抽出を実現することができる。
また、一時正規化パラメータ補正部142が、特徴量正規化部140に含まれていない場合を考える。当該場合の信号処理装置を、第2の他の信号処理装置と呼ぶ。当該場合、正規化部143は、一時正規化パラメータ算出部141が算出した一時正規化パラメータを用いて、第1の特徴量系列を正規化する。
まず、正規化パラメータ記憶部211に格納されている正規化パラメータの分散ベクトルの一例を示す。
図13は、実施の形態1の正規化パラメータ記憶部に格納されている正規化パラメータの分散ベクトルの一例を示す図である。図13は、分散ベクトル301を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
次に、一時正規化パラメータ算出部141が算出した一時正規化パラメータの分散ベクトルの一例を示す。
図14は、実施の形態1の一時正規化パラメータ算出部により算出された正規化パラメータの分散ベクトルの一例を示す図である。図14は、分散ベクトル302を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
分散ベクトル301と分散ベクトル302とを比較した場合、分散ベクトル301は、分散ベクトル302よりも滑らかな形状を示している。分散ベクトル301の形状と分散ベクトル302の形状とが異なる理由は、次の通りである。分散ベクトル301は、多くの学習用信号に基づいて、得られた分散ベクトルである。一方、分散ベクトル302は、1つの対象入力信号に基づいて、得られた分散ベクトルである。このように、サンプル数が大きく異なっているため、分散ベクトル301の形状と分散ベクトル302の形状とが異なる。多くのサンプル数(すなわち、多くの第1の特徴量系列)を用いることで、特徴量系列の分布の偏りが、緩和される。そして、分散ベクトルの形状が、滑らかになる。
次に、第1の補正方法を用いて、一時正規化パラメータ算出部141が算出した一時正規化パラメータを補正することにより得られた分散ベクトルの一例を示す。
図15は、実施の形態1の第1の補正方法を用いることで得られた分散ベクトルの一例を示す図である。図15は、分散ベクトル303を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
分散ベクトル303は、隣接する次元の要素が重み付けされることで算出される。そのため、突飛な値が緩和される。分散ベクトル303の形状の滑らかさは、分散ベクトル301の形状の滑らかさと同等程度である。なお、f及びfに大きな値を設定することで、分散ベクトル303の形状は、更に滑らかになる。
次に、第2の補正方法を用いて、一時正規化パラメータ算出部141が算出した一時正規化パラメータを補正することにより得られた分散ベクトルの一例を示す。
図16は、実施の形態1の第2の補正方法を用いることで得られた分散ベクトルの一例を示す図である。図16は、分散ベクトル304を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
分散ベクトル304は、分散ベクトル302よりも滑らかな形状の分散ベクトル301を用いて、算出される。そのため、分散ベクトル304の形状は、分散ベクトル302の形状よりも滑らかである。
分散ベクトル302における滑らかでない成分は、第1の特徴量系列が持つ細部の特性を示していると考えられる。そのため、第2の他の信号処理装置における、分散ベクトル302を用いることにより得られた正規化済特徴量系列は、学習装置200が分散ベクトル301を用いて算出した正規化済特徴量系列よりも、細部の特性を失っていると考えられる。そして、学習装置200は、細部の特性が失われていない正規化済特徴量系列を用いて、学習済モデルを生成する。第2の他の信号処理装置は、分散ベクトル302を用いることにより得られた正規化済特徴量系列を、当該学習済モデルに入力する。そのため、第2の他の信号処理装置の音源抽出の性能は、高いと言えない。一方、信号処理装置100が第1の補正方法又は第2の補正方法を用いて補正を実行することで、正規化済特徴量系列の細部の特性が失われずに済む。そして、当該正規化済特徴量系列が学習済モデルに入力されることで、信号処理装置100は、高精度な音源抽出を実現することができる。
実施の形態1によれば、信号処理装置100は、第1の補正方法又は第2の補正方法を用いることで、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境との違いを補正できる。また、信号処理装置100は、第2の補正方法を用いることで、対象入力信号が有する特性を失われすぎないようにできる。よって、信号処理装置100は、高精度な音源抽出を実現することができる。
実施の形態1の変形例.
式(17)で示したように、正規化部143及び特徴量正規化部250により、第1の特徴量系列が、正規化される。正規化部143及び特徴量正規化部250は、公知のバッチ正規化法(Batch Normalization)を用いて、第1の特徴量系列を正規化してもよい。また、正規化パラメータ記憶部111に格納されている正規化パラメータは、学習装置200で移動平均として算出された値でもよい。
式(1)で示したように、特徴量抽出部130及び特徴量抽出部230は、第1の特徴量系列を抽出する。特徴量抽出部130及び特徴量抽出部230は、第1の特徴量系列を抽出する場合、第2の特徴量系列と同じ方法で第1の特徴量系列を抽出してもよい。これにより、第1の特徴量系列と第2の特徴量系列とは、同じになる。よって、第2の特徴量系列は、第1の特徴量系列と読み替えられる。そのため、特徴量抽出部130は、対象入力信号に基づいて、1つの特徴量系列を抽出すればよい。抽出された特徴量系列は、第1の特徴量系列と考えてもよい。また、特徴量抽出部230は、学習用信号に基づいて、1つの特徴量系列を抽出すればよい。抽出された特徴量系列は、第1の特徴量系列と考えてもよい。
また、特徴量抽出部130及び特徴量抽出部230は、対象入力信号と学習済モデルとを用いて、第1の特徴量系列と第2の特徴量系列とを抽出してもよい。信号生成部160は、学習済モデルを用いて、目的音特徴量系列を示す複数の特徴量を複数の信号断片に変換してもよい。特徴量抽出部130及び特徴量抽出部230に用いられる学習済モデルと、信号生成部160に用いられる学習済モデルとは、不揮発性記憶装置103又は不揮発性記憶装置203に格納されていてもよい。2つの学習済モデルは、更新部270による更新が繰り返されることで、生成されてもよい。
特徴量抽出部130及び特徴量抽出部230は、公知の1次元CNN構造を持つ学習済モデルを用いて、信号断片の切り出しと、特徴量抽出とを同時に行ってもよい。1次元CNNのモデルを利用する装置として、非特許文献2に開示されているConv-TasNetが、挙げられる。
実施の形態2.
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
実施の形態1では、第1の補正方法又は第2の補正方法により得られた補正済正規化パラメータを用いて、第1の特徴量系列が正規化された。一方、学習装置200では、正規化パラメータを用いて、第1の特徴量系列が正規化された。このように、信号処理装置100と学習装置200とで実行される正規化の方法が、異なっていた。
学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが異なる場合、信号処理装置100は、高精度な音源抽出を実現することができる。しかし、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが一致又は類似する場合、信号処理装置100では、音源抽出の精度が下がる可能性が考えられる。そこで、実施の形態2では、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが一致又は類似する場合でも、信号処理装置100が、高精度な音源抽出する場合を説明する。
実施の形態2の信号処理装置100は、実施の形態1の信号処理装置100と同じである。また、実施の形態2の学習装置200の構成は、実施の形態1の学習装置200の構成と同じである。但し、実施の形態2の学習装置200が有する特徴量正規化部の機能が、実施の形態1の特徴量正規化部250と異なる。そのため、実施の形態2では、学習装置200が有する特徴量正規化部を説明する。また、学習装置200が有する特徴量正規化部は、特徴量正規化部250aと呼ぶ。
図17は、実施の形態2の特徴量正規化部の機能を示すブロック図である。特徴量正規化部250aは、一時正規化パラメータ算出部251、一時正規化パラメータ補正部252、及び正規化部253を含む。
一時正規化パラメータ算出部251の機能は、一時正規化パラメータ算出部141の機能と同じである。
一時正規化パラメータ補正部252の機能は、一時正規化パラメータ補正部142の機能と同じである。
正規化部253の機能は、正規化部143の機能と同じである。
次に、学習装置200が実行する処理を、フローチャートを用いて説明する。例えば、以下のフローチャートが示す処理は、実施の形態1における学習装置200の学習処理が終了した後に実行されてもよい。すなわち、学習装置200は、対象入力信号に基づく音を収録する環境と異なる環境で収録された音に基づく学習用信号を用いて、学習済モデルを生成する。当該学習済モデルが生成された後、学習装置200は、対象入力信号(詳細には、目的音信号)に基づく音を収録する環境と一致又は類似する環境で収録された音を含む学習用信号を用いて、学習済モデルを生成する。例えば、当該学習済モデルは、再学習により生成された学習済モデルと呼んでもよい。
図18は、実施の形態2の第2の学習処理の例を示すフローチャートである。図18の処理は、ステップS32に対応する。図18の処理は、ステップS51a~51cが実行される点が図12の処理と異なる。そのため、図18では、ステップS51a~51cを説明する。そして、ステップS51a~51c以外の処理の説明は、省略する。
(ステップS51a)一時正規化パラメータ算出部251は、第1の特徴量系列に基づいて、一時正規化パラメータを算出する。なお、第1の特徴量系列は、対象入力信号に基づく音を収録する環境と一致又は類似する環境で収録された音を含む学習用信号を用いて、学習装置200(すなわち、特徴量抽出部230)により抽出された値である。
(ステップS51b)一時正規化パラメータ補正部252は、第1の補正方法又は第2の補正方法を用いて、一時正規化パラメータを補正する。これにより、補正済正規化パラメータが、生成される。
なお、一時正規化パラメータ補正部252は、第1の補正方法を実行した後に、第2の補正方法を実行してもよい。
(ステップS51c)正規化部253は、補正済正規化パラメータを用いて、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。
そして、学習装置200は、特徴量正規化部250aにより生成された正規化済特徴量系列を用いて学習することにより、学習済モデルを生成する。信号処理装置100は、当該学習済モデルを用いて、音源抽出を行う。
実施の形態2によれば、学習フェーズと活用フェーズとで正規化の方法が、統一される。そのため、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが一致又は類似する場合でも、信号処理装置100が、高精度な音源抽出を実現することができる。
また、実用例として、信号処理装置100は、カーナビゲーション、スマートフォンに搭載可能である。信号処理装置100は、騒音又は非目的話者の音声を含む混合音を示す対象入力信号の中から目的話者の音声を示す音声信号を抽出することができる。また、信号処理装置100が、遠隔電話会議システムに用いられることが考えられる。
以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
100 信号処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 104 インタフェース、 111 正規化パラメータ記憶部、 112 学習済モデル記憶部、 113 一時正規化パラメータ記憶部、 120 取得部、 130 特徴量抽出部、 140 特徴量正規化部、 141 一時正規化パラメータ算出部、 142 一時正規化パラメータ補正部、 143 正規化部、 150 算出部、 160 信号生成部、 170 出力部、 200 学習装置、 201 プロセッサ、 202 揮発性記憶装置、 203 不揮発性記憶装置、 204 インタフェース、 211 正規化パラメータ記憶部、 212 モデルパラメータ記憶部、 220 取得部、 230 特徴量抽出部、 240 正規化パラメータ算出部、 250 特徴量正規化部、 250a 特徴量正規化部、 251 一時正規化パラメータ算出部、 252 一時正規化パラメータ補正部、 253 正規化部、 260 算出部、
270 更新部、 280 出力部、 301 分散ベクトル、 302 分散ベクトル、 303 分散ベクトル、 304 分散ベクトル。

Claims (14)

  1. 目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得する取得部と、
    前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、
    前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記一時正規化パラメータが示す第1の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第1の次元を補正する方法である第1の補正方法を用いて、前記一時正規化パラメータを補正し、補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、
    正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、
    前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、
    を有する信号処理装置。
  2. 前記重み付けで用いられる重みは、前記特徴量系列のフレーム数に応じて決定される、
    請求項1に記載の信号処理装置。
  3. 前記取得部は、前記重み付けで用いられる重みの複数の候補を取得し、
    前記特徴量正規化部は、前記複数の候補の中から、前記一時正規化パラメータを所望の値に近づけられる候補を前記重みとして、選択する、
    請求項1に記載の信号処理装置。
  4. 目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得する取得部と、
    前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、
    前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記正規化パラメータを用いる方法である第2の補正方法を用いて、前記一時正規化パラメータを補することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、
    正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、
    前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、
    を有する信号処理装置。
  5. 前記特徴量抽出部は、前記対象入力信号に基づいて、複数の特徴量を示す第2の特徴量系列を抽出し、前記第2の特徴量系列に基づいて、第1の特徴量系列を抽出
    前記特徴量正規化部は、前記第1の特徴量系列に基づいて前記一時正規化パラメータを算出し、前記第1の補正方法又は前記第2の補正方法を用いて前記一時正規化パラメータを補正することにより得られた前記補正済正規化パラメータを用いて、前記第1の特徴量系列を正規化し、
    前記第2の特徴量系列は、前記対象入力信号の一部の区間を切り出すことで得られる信号断片に、高速フーリエ変換、ウェーブレット変換、又は定Q変換を用いて抽出される第2の特徴量を複数並べることで生成され、
    前記第1の特徴量系列は、前記第2の特徴量系列の絶対値を算出し、得られた値に対して自然対数を用いることで抽出される、
    請求項1から4のいずれか1項に記載の信号処理装置。
  6. 前記算出部は、前記第2の特徴量系列と前記正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音特徴量系列を算出する、
    請求項5に記載の信号処理装置。
  7. 前記取得部は、過去に算出された一時正規化パラメータを取得
    前記特徴量正規化部は、算出によって得られた前記一時正規化パラメータと、前記過去に算出された一時正規化パラメータとに基づいて、新たな一時正規化パラメータを算出し、前記第1の補正方法又は前記第2の補正方法を用いて前記新たな一時正規化パラメータを補正する
    請求項1から6のいずれか1項に記載の信号処理装置。
  8. 前記特徴量正規化部は、前記混合音に無音区間が含まれている場合、前記特徴量系列に基づいて、前記無音区間を特定し、前記無音区間以外の前記特徴量系列に基づいて、一時正規化パラメータを算出する
    請求項1から7のいずれか1項に記載の信号処理装置。
  9. 前記学習済モデルは、正規化済特徴量系列に基づいて学習装置により生成された学習済モデルであり、
    当該正規化済特徴量系列は、補正済正規化パラメータを用いて、複数の特徴量を示す特徴量系列を正規化することにより得られた値であり、
    当該補正済正規化パラメータは、前記第1の補正方法又は前記第2の補正方法を用いて、一時正規化パラメータを補正により得られた値であり、
    当該一時正規化パラメータは、当該特徴量系列に基づいて算出された値であり、
    当該特徴量系列は、前記対象入力信号に基づく音を収録する環境と一致又は類似する環境で収録された音を含む学習用信号を用いて、前記学習装置により抽出された値である、
    請求項1から8のいずれか1項に記載の信号処理装置。
  10. 前記対象出力信号を出力する出力部をさらに有する、
    請求項1から9のいずれか1項に記載の信号処理装置。
  11. 信号処理装置が、
    目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得し、
    前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、
    前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
    前記一時正規化パラメータが示す第1の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第1の次元を補正する方法である第1の補正方法を用いて、前記一時正規化パラメータを補正し、
    補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
    正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
    前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
    信号処理方法。
  12. 信号処理装置が、
    目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得し、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
    前記正規化パラメータを用いる方法である第2の補正方法を用いて、前記一時正規化パラメータを補することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
    正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
    前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
    信号処理方法。
  13. 信号処理装置に、
    目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得し、
    前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、
    前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
    前記一時正規化パラメータが示す第1の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第1の次元を補正する方法である第1の補正方法を用いて、前記一時正規化パラメータを補正し、
    補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
    正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
    前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
    処理を実行させる信号処理プログラム。
  14. 信号処理装置に、
    目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得し、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
    前記正規化パラメータを用いる方法である第2の補正方法を用いて、前記一時正規化パラメータを補することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
    正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
    前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
    処理を実行させる信号処理プログラム。
JP2022577446A 2021-02-05 2021-02-05 信号処理装置、信号処理方法、及び信号処理プログラム Active JP7333878B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/004220 WO2022168251A1 (ja) 2021-02-05 2021-02-05 信号処理装置、信号処理方法、及び信号処理プログラム

Publications (3)

Publication Number Publication Date
JPWO2022168251A1 JPWO2022168251A1 (ja) 2022-08-11
JPWO2022168251A5 JPWO2022168251A5 (ja) 2023-03-15
JP7333878B2 true JP7333878B2 (ja) 2023-08-25

Family

ID=82740984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022577446A Active JP7333878B2 (ja) 2021-02-05 2021-02-05 信号処理装置、信号処理方法、及び信号処理プログラム

Country Status (2)

Country Link
JP (1) JP7333878B2 (ja)
WO (1) WO2022168251A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008311866A (ja) 2007-06-13 2008-12-25 Toshiba Corp 音響信号処理方法及び装置
JP2009020460A (ja) 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
US20190066713A1 (en) 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US20190318757A1 (en) 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
JP2020122896A (ja) 2019-01-31 2020-08-13 日本電信電話株式会社 時間周波数マスク推定器学習装置、時間周波数マスク推定器学習方法、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008311866A (ja) 2007-06-13 2008-12-25 Toshiba Corp 音響信号処理方法及び装置
JP2009020460A (ja) 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
US20190066713A1 (en) 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US20190318757A1 (en) 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
JP2020122896A (ja) 2019-01-31 2020-08-13 日本電信電話株式会社 時間周波数マスク推定器学習装置、時間周波数マスク推定器学習方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIN,Kin wah et al.,"ZERO-MEAN CONVOLUTIONAL NETWORK WITH DATA AUGMENTATION FOR SOUND LEVEL INVARIANT SINGING VOICE SEPARATION",2019 IEEE International Conference on Acoustics, Speech and Signal Processing,2019年04月17日,251-255

Also Published As

Publication number Publication date
JPWO2022168251A1 (ja) 2022-08-11
WO2022168251A1 (ja) 2022-08-11

Similar Documents

Publication Publication Date Title
US9824683B2 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
US9355649B2 (en) Sound alignment using timing information
US10373604B2 (en) Noise compensation in speaker-adaptive systems
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
WO2012036305A1 (ja) 音声認識装置、音声認識方法、及びプログラム
CN111292763B (zh) 重音检测方法及装置、非瞬时性存储介质
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6157926B2 (ja) 音声処理装置、方法およびプログラム
JPWO2019044401A1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
JP2013114151A (ja) 雑音抑圧装置、方法及びプログラム
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP2014029407A (ja) 雑音抑圧装置、方法、及びプログラム
Cipli et al. Multi-class acoustic event classification of hydrophone data
Badeau et al. Nonnegative matrix factorization
JP6139430B2 (ja) 信号処理装置、方法及びプログラム
JP4762176B2 (ja) 音声認識装置および音声認識プログラム
Jonathan et al. Implementation of Recursive Least Square for Basic Piano Chords Noise Reduction
JPWO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム
JP6734233B2 (ja) 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム
JP2023079258A (ja) 音抽出システム及び音抽出方法
Bosshard et al. Prosodic Feature Modelling in Transformers for Speaker Verification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221215

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230815

R150 Certificate of patent or registration of utility model

Ref document number: 7333878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150