JP7333878B2

JP7333878B2 - 信号処理装置、信号処理方法、及び信号処理プログラム

Info

Publication number: JP7333878B2
Application number: JP2022577446A
Authority: JP
Inventors: 祥幹三井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2023-08-25
Anticipated expiration: 2041-02-05
Also published as: JPWO2022168251A1; WO2022168251A1

Description

本開示は、信号処理装置、信号処理方法、及び信号処理プログラムに関する。

近年、複数の音が混在している混合音を示す混合音信号の中から、所望の音の信号を取り出す研究が進められている。特に、１つの音の信号を取り出すことは、音源強調と呼ばれている。また、２つ以上の音の信号を取り出すことは、音源分離と呼ばれている。例えば、近年では、音源分離の方法として、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ：ＮＮ）に基づく方法が、用いられている。例えば、非特許文献１では、ＮＮを用いる方法により、混合音信号の中から所望の音声の信号が、取り出される。

以下の説明では、音源強調、音源分離など１つ以上の所望の音信号を取り出すことを音源抽出と呼ぶ。

Ｚ．Ｑ．Ｗａｎｇｅｔａｌ．，ＡｌｔｅｒｎａｔｉｖｅＯｂｊｅｃｔｉｖｅＦｕｎｃｔｉｏｎｓｆｏｒＤｅｅｐＣｌｕｓｔｅｒｉｎｇ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１８年ＹｉＬｕｏａｎｄＮｉｍａＭｅｓｇａｒａｎｉ,Ｃｏｎｖ－ＴａｓＮｅｔ：ＳｕｒｐａｓｓｉｎｇＩｄｅａｌＴｉｍｅ－ＦｒｅｑｕｅｎｃｙＭａｇｎｉｔｕｄｅＭａｓｋｉｎｇｆｏｒＳｐｅｅｃｈＳｅｐａｒａｔｉｏｎ，ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌｕｍｅ．２７，Ｉｓｓｕｅ．８，２０１９年

特許５４３３６９６号公報

非特許文献１に示されるようなＮＮに基づく音源抽出手法では、事前に大量の学習用信号が準備され、学習用信号を上手く分離できるようにＮＮが学習させられる。これにより、ＮＮに基づく音源抽出手法では、高精度な音源抽出が実現される。しかし、学習フェーズで用いられた学習用信号に基づく音を収録した環境と、活用フェーズで用いられる音を収録した環境とが異なる場合、ＮＮに基づく音源抽出手法を活用フェーズで用いることは、音源抽出の精度を低下させる。なお、環境とは、収録に用いるマイクロホンの音量（例えば、ゲイン）、周波数特性、指向性、部屋の広さ、残響などが挙げられる。

本開示の目的は、高精度な音源抽出を実現することである。

本開示の一態様に係る信号処理装置が提供される。信号処理装置は、目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得する取得部と、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記一時正規化パラメータが示す第１の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第１の次元を補正する方法である第１の補正方法を用いて、前記一時正規化パラメータを補正し、補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、を有する。

本開示によれば、高精度な音源抽出を実現することができる。

実施の形態１の信号処理システムを示す図である。実施の形態１の信号処理装置が有するハードウェアを示す図である。実施の形態１の信号処理装置の機能を示すブロック図である。実施の形態１の特徴量系列のイメージ図である。実施の形態１の特徴量正規化部の機能を示すブロック図である。実施の形態１の学習装置が有するハードウェアを示す図である。実施の形態１の学習装置の機能を示すブロック図である。実施の形態１の信号処理装置が実行する処理の例を示すフローチャートである。実施の形態１の正規化処理の例を示すフローチャートである。実施の形態１の学習装置が実行する処理の例を示すフローチャートである。実施の形態１の第１の学習処理の例を示すフローチャートである。実施の形態１の第２の学習処理の例を示すフローチャートである。実施の形態１の正規化パラメータ記憶部に格納されている正規化パラメータの分散ベクトルの一例を示す図である。実施の形態１の一時正規化パラメータ算出部により算出された正規化パラメータの分散ベクトルの一例を示す図である。実施の形態１の第１の補正方法を用いることで得られた分散ベクトルの一例を示す図である。実施の形態１の第２の補正方法を用いることで得られた分散ベクトルの一例を示す図である。実施の形態２の特徴量正規化部の機能を示すブロック図である。実施の形態２の第２の学習処理の例を示すフローチャートである。

以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態１．
図１は、実施の形態１の信号処理システムを示す図である。信号処理システムは、信号処理装置１００と学習装置２００とを含む。
信号処理装置１００は、信号処理方法を実行する装置である。例えば、信号処理装置１００は、エッジデバイス又はサーバである。

信号処理装置１００は、混合音を示す対象入力信号を取得する。ここで、混合音とは、目的音と非目的音とが混ざっている音である。目的音は、信号処理装置１００の抽出対象の音である。非目的音は、信号処理装置１００の抽出対象外の音である。言い換えれば、非目的音は、除去対象の音である。信号処理装置１００は、対象入力信号の中から目的音を示す信号である対象出力信号を抽出し、対象出力信号を出力する。
学習装置２００は、学習用信号に基づいて、正規化パラメータと学習済モデルとを生成する。

ここで、学習用信号を説明する。学習用信号は、正規化パラメータと学習済モデルとを生成するために用いられる信号である。例えば、学習用信号は、目的音、非目的音、混合音などを示す信号である。例えば、目的音は、音声、楽器から発せられた音である。学習用信号には、１以上の目的音を示す音信号が含まれる。例えば、非目的音は、騒音である。学習用信号には、非目的音が含まれてもよいし、非目的音が含まれていなくてもよい。以下の説明では、学習用信号には、非目的音が含まれるものとする。２つ以上の目的音を示す音信号が学習用信号に含まれている場合、学習装置２００は、学習により、音源分離に用いられる正規化パラメータと学習済モデルとを生成することができる。１つの目的音を示す音信号が学習用信号に含まれている場合、学習装置２００は、学習により、音源強調に用いられる正規化パラメータと学習済モデルとを生成することができる。このように、学習装置２００は、学習により、音源抽出に用いられる正規化パラメータと学習済モデルとを生成することができる。学習には、目的音を示す全ての音信号と混合音を示す音信号とが必要である。なお、非目的音を示す全ての信号が学習用信号に含まれている場合、混合音を示す音信号は、学習用信号に含まれていなくてもよい。混合音を示す音信号が、学習用信号に含まれていない場合、学習装置２００は、目的音を示す全ての音信号と非目的音を示す全ての音信号とを加算することで、混合音を示す音信号を作成する。以下、目的音を示す音信号は、目的音信号と呼ぶ。非目的音を示す音信号は、非目的音信号と呼ぶ。

正規化パラメータは、信号処理装置１００に取得される。正規化パラメータの詳細については、後で説明する。

学習済モデルを説明する。学習済モデルは、モデルパラメータと呼んでもよい。学習済モデルは、信号処理装置１００に取得される。例えば、学習済モデルは、ＮＮの接続構造を定義するための情報、ＮＮのエッジの重みを示す情報を含む。なお、例えば、ＮＮの接続構造は、全結合型ＮＮ、畳み込みＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮＮ：ＣＮＮ）、回帰型ＮＮ（ＲｅｃｕｒｒｅｎｔＮＮ：ＲＮＮ）、長・短期記憶（Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ：ＬＳＴＭ）、ゲート付き回帰型ユニット（Ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ：ＧＲＵ）などの公知の構造でもよいし、これらの構造の組合せでもよい。

次に、信号処理装置１００が有するハードウェアを説明する。
図２は、実施の形態１の信号処理装置が有するハードウェアを示す図である。信号処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、不揮発性記憶装置１０３、及びインタフェース１０４を有する。

プロセッサ１０１は、信号処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、信号処理装置１００は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。

揮発性記憶装置１０２は、信号処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。不揮発性記憶装置１０３は、信号処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。
インタフェース１０４は、学習装置２００と通信する。また、例えば、インタフェース１０４は、マイクロホンと通信する。なお、マイクロホンの図示は、省略されている。

次に、信号処理装置１００が有する機能を説明する。
図３は、実施の形態１の信号処理装置の機能を示すブロック図である。信号処理装置１００は、正規化パラメータ記憶部１１１、学習済モデル記憶部１１２、一時正規化パラメータ記憶部１１３、取得部１２０、特徴量抽出部１３０、特徴量正規化部１４０、算出部１５０、信号生成部１６０、及び出力部１７０を有する。

正規化パラメータ記憶部１１１、学習済モデル記憶部１１２、及び一時正規化パラメータ記憶部１１３は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。

取得部１２０、特徴量抽出部１３０、特徴量正規化部１４０、算出部１５０、信号生成部１６０、及び出力部１７０の一部又は全部は、処理回路によって実現してもよい。また、取得部１２０、特徴量抽出部１３０、特徴量正規化部１４０、算出部１５０、信号生成部１６０、及び出力部１７０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、信号処理プログラムとも言う。例えば、信号処理プログラムは、記録媒体に記録されている。

正規化パラメータ記憶部１１１は、後述する正規化パラメータを記憶してもよい。学習済モデル記憶部１１２は、後述する学習済モデルを記憶してもよい。一時正規化パラメータ記憶部１１３は、後述する一時正規化パラメータを記憶してもよい。

取得部１２０は、対象入力信号を取得する。例えば、取得部１２０は、対象入力信号をマイクロホンから取得する。また、例えば、取得部１２０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３から対象入力信号を取得する。

また、取得部１２０は、学習済モデルを取得する。例えば、取得部１２０は、学習済モデルを学習済モデル記憶部１１２から取得する。また、例えば、取得部１２０は、学習済モデルを外部装置（例えば、クラウドサーバ）から取得する。

取得部１２０は、正規化パラメータを取得してもよい。例えば、取得部１２０は、正規化パラメータを正規化パラメータ記憶部１１１から取得する。また、例えば、取得部１２０は、正規化パラメータを外部装置から取得する。

特徴量抽出部１３０は、対象入力信号に基づいて、第１の特徴量系列と第２の特徴量系列とを抽出する。ここで、特徴量系列のイメージを具体的に説明する。

図４は、実施の形態１の特徴量系列のイメージ図である。特徴量抽出部１３０は、対象入力信号の一部の区間を切り出すことで得られる信号断片に、特徴量抽出処理を施すことで、特徴量を抽出する。特徴量系列は、複数の特徴量を並べることで得られる。言い換えれば、特徴量系列は、複数の特徴量を示している。そして、例えば、特徴量系列は、行列で表される。例えば、特徴量は、列ベクトルで表される。図４の表の縦方向は、特徴量ベクトル方向を示している。縦方向の単位は、次元と呼んでもよい。図４の表の横方向は、時間方向を示している。横方向の単位は、フレームと呼んでもよい。

なお、区間の切り出し処理では、特徴量抽出部１３０は、一定の時間間隔ごとに区間を切り出してもよい。また、特徴量抽出部１３０は、他の区間の一部を含むように、区間を切り出してもよい。切り出された区間の一部は、当該他の区間の一部と重複する。

まず、第２の特徴量系列の抽出方法を説明する。特徴量抽出部１３０は、対象入力信号に基づいて、第２の特徴量系列を抽出する。言い換えれば、特徴量抽出部１３０は、対象入力信号と予め設定された方法とを用いて、第２の特徴量系列を抽出する。予め設定された方法とは、高速フーリエ変換（ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ：ＦＦＴ）、ウェーブレット変換、定Ｑ変換などである。ＦＦＴを用いる場合を説明する。特徴量抽出部１３０は、信号断片とＦＦＴとを用いて、複素スペクトルを示すベクトルを特徴量として抽出する。以下、当該抽出された特徴量は、第２の特徴量と呼ぶ。同様に、信号断片ごとに第２の特徴量が抽出される。抽出された複数の第２の特徴量を並べることで、第２の特徴量系列が、生成される。

次に、第１の特徴量系列の抽出方法を説明する。特徴量抽出部１３０は、第２の特徴量系列に基づいて、第１の特徴量系列を抽出する。例えば、特徴量抽出部１３０は、第２の特徴量系列（すなわち、複数の第２の特徴量）の絶対値を算出する。算出することにより得られた値に対して自然対数を用いることで、第１の特徴量系列が、抽出される。第１の特徴量系列は、複数の特徴量を示す特徴量系列である。当該特徴量は、第１の特徴量と呼ぶ。

なお、信号断片の単位、又は特徴量を数える単位として、上記のフレームが用いられる。また、特徴量抽出処理にＦＦＴが用いられる場合、特徴量系列は、複素スペクトログラムと呼ばれる。

図３に戻って、特徴量正規化部１４０を説明する。
特徴量正規化部１４０は、第１の特徴量系列を正規化する。これにより、正規化済特徴量系列が得られる。ここで、正規化処理とは、学習済モデルに入力されるデータに対して、予め定められた手続きに則った変換を行う処理を指す。例えば、正規化処理により、当該データの値が分布している範囲が、変更される。また、例えば、正規化処理により、当該データの値のばらつきが、吸収される。このように、特徴量正規化部１４０は、学習済モデルから出力される情報の正確性を高めるために、正規化処理を実行する。また、特徴量正規化部１４０の機能の詳細については、後で説明する。

算出部１５０は、正規化済特徴量系列と学習済モデルとを用いて、目的音特徴量系列を算出する。なお、目的音特徴量系列は、目的音の複数の特徴量を示す特徴量系列である。また、算出部１５０は、第２の特徴量系列、正規化済特徴量系列、及び学習済モデルを用いて、目的音特徴量系列を算出してもよい。以下の説明では、算出部１５０は、第２の特徴量系列、正規化済特徴量系列、及び学習済モデルを用いて、目的音特徴量系列を算出するものとする。また、複数の目的音を含む混合音を示す対象入力信号が取得された場合、算出部１５０は、複数の目的音特徴量系列を算出する。すなわち、算出部１５０は、目的音の数の目的音特徴量系列を算出する。

信号生成部１６０は、目的音特徴量系列に基づいて、目的音を示す対象出力信号を生成する。詳細には、信号生成部１６０は、目的音特徴量系列を示す複数の特徴量を複数の信号断片に変換する。例えば、信号生成部１６０は、逆高速フーリエ変換（ｉｎｖｅｒｓｅｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ：ＩＦＦＴ）を用いて、当該複数の特徴量を複数の信号断片に変換する。信号生成部１６０は、複数の信号断片を合成する。これにより、対象出力信号が、生成される。なお、複数の目的音特徴量系列が算出された場合、信号生成部１６０は、目的音ごとに、上記の処理を実行する。

また、信号断片の区間を切り出す際、他の区間の一部を含むように、区間が切り出された場合、次の処理が行われてもよい。信号生成部１６０は、複数の信号断片を合成するときに、公知の重畳加算法（Ｏｖｅｒｌａｐ－ａｎｄ－ａｄｄ）を用いて、重複区間を削除する。

出力部１７０は、対象出力信号を出力する。例えば、出力部１７０は、対象出力信号を外部装置に出力する。また、出力部１７０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に対象出力信号を出力してもよい。

次に、特徴量正規化部１４０を詳細に説明する。
図５は、実施の形態１の特徴量正規化部の機能を示すブロック図である。特徴量正規化部１４０は、一時正規化パラメータ算出部１４１、一時正規化パラメータ補正部１４２、及び正規化部１４３を含む。

一時正規化パラメータ算出部１４１は、第１の特徴量系列に基づいて、第１の特徴量を示すベクトルの要素ごとに、一時正規化パラメータを算出する。例えば、一時正規化パラメータは、特徴量を示すベクトルを集め、要素ごとに計算された平均及び分散である。また、一時正規化パラメータは、特徴量を示すベクトルと同一の大きさを示すベクトルである。以下の説明では、一時正規化パラメータは、平均ベクトル及び分散ベクトルとする。

一時正規化パラメータ算出部１４１は、一時正規化パラメータを一時正規化パラメータ記憶部１１３に格納する。このように、一時正規化パラメータ算出部１４１は、一時正規化パラメータを算出する度に、一時正規化パラメータを一時正規化パラメータ記憶部１１３に格納する。これにより、一時正規化パラメータ記憶部１１３には、一時正規化パラメータが蓄積される。

ここで、次の処理により、一時正規化パラメータが算出されてもよい。まず、取得部１２０は、過去に算出された一時正規化パラメータを取得する。例えば、取得部１２０は、過去に算出された一時正規化パラメータを一時正規化パラメータ記憶部１１３から取得する。また、例えば、取得部１２０は、過去に算出された一時正規化パラメータを外部装置から取得する。一時正規化パラメータ算出部１４１は、算出によって得られた一時正規化パラメータと、過去に算出された一時正規化パラメータとに基づいて、新たな一時正規化パラメータを算出する。当該算出の処理により、次の効果が期待できる。例えば、対象入力信号が長い場合、対象入力信号が２つに分割される。前半部分の対象入力信号に基づく一時正規化パラメータが、一時正規化パラメータ記憶部１１３に格納される。ここで、後半部分の対象入力信号に含まれている目的音の信号の状態が悪い場合がある。後半部分の対象入力信号に基づく一時正規化パラメータが算出される。当該一時正規化パラメータと、前半部分の対象入力信号に基づく一時正規化パラメータとにより算出された一時正規化パラメータには、前半部分と後半部分との情報が含まれることになる。そのため、新たに算出された一時正規化パラメータを用いて音源抽出が実行されることで、目的音の抽出精度が、高くなる。なお、新たな一時正規化パラメータは、一時正規化パラメータ補正部１４２で用いられる。

ここで、混合音に無音区間が含まれている場合がある。当該場合、一時正規化パラメータ算出部１４１は、第１の特徴量系列に基づいて、無音区間を特定する。一時正規化パラメータ算出部１４１は、無音区間以外の第１の特徴量系列に基づいて、一時正規化パラメータを算出する。これにより、一時正規化パラメータ算出部１４１は、一時正規化パラメータに無音区間の影響が反映されることを防ぐことができる。

一時正規化パラメータ補正部１４２は、予め設定された補正方法を用いて、一時正規化パラメータを補正する。これにより、補正済正規化パラメータが、生成される。なお、予め設定された補正方法とは、第１の補正方法又は第２の補正方法である。第１の補正方法又は第２の補正方法については、後で説明する。
正規化部１４３は、補正済正規化パラメータを用いて、第１の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。

このように、補正済正規化パラメータを用いることで生成された正規化済特徴量系列は、学習済モデルに入力されるデータとして、好ましいデータとなる。そのため、信号処理装置１００は、補正済正規化パラメータを用いることで、音源抽出の精度を向上できる。

次に、学習装置２００が有するハードウェアを説明する。
図６は、実施の形態１の学習装置が有するハードウェアを示す図である。学習装置２００は、プロセッサ２０１、揮発性記憶装置２０２、不揮発性記憶装置２０３、及びインタフェース２０４を有する。

プロセッサ２０１は、学習装置２００全体を制御する。例えば、プロセッサ２０１は、ＣＰＵ、ＦＰＧＡなどである。プロセッサ２０１は、マルチプロセッサでもよい。また、学習装置２００は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。

揮発性記憶装置２０２は、学習装置２００の主記憶装置である。例えば、揮発性記憶装置２０２は、ＲＡＭである。不揮発性記憶装置２０３は、学習装置２００の補助記憶装置である。例えば、不揮発性記憶装置２０３は、ＨＤＤ又はＳＳＤである。
インタフェース２０４は、信号処理装置１００と通信する。また、例えば、インタフェース２０４は、マイクロホンと通信する。なお、当該マイクロホンの図示は、省略されている。

次に、学習装置２００が有する機能を説明する。
図７は、実施の形態１の学習装置の機能を示すブロック図である。学習装置２００は、正規化パラメータ記憶部２１１、モデルパラメータ記憶部２１２、取得部２２０、特徴量抽出部２３０、正規化パラメータ算出部２４０、特徴量正規化部２５０、算出部２６０、更新部２７０、及び出力部２８０を有する。

正規化パラメータ記憶部２１１及びモデルパラメータ記憶部２１２は、揮発性記憶装置２０２又は不揮発性記憶装置２０３に確保した記憶領域として実現してもよい。

取得部２２０、特徴量抽出部２３０、正規化パラメータ算出部２４０、特徴量正規化部２５０、算出部２６０、更新部２７０、及び出力部２８０の一部又は全部は、処理回路によって実現してもよい。また、取得部２２０、特徴量抽出部２３０、正規化パラメータ算出部２４０、特徴量正規化部２５０、算出部２６０、更新部２７０、及び出力部２８０の一部又は全部は、プロセッサ２０１が実行するプログラムのモジュールとして実現してもよい。

正規化パラメータ記憶部２１１及びモデルパラメータ記憶部２１２が格納している情報については、後で説明する。
取得部２２０は、学習用信号を取得する。例えば、取得部２２０は、学習用信号をマイクロホンから取得する。また、例えば、取得部２２０は、揮発性記憶装置２０２又は不揮発性記憶装置２０３から学習用信号を取得する。なお、学習用信号は、上述した通りである。

特徴量抽出部２３０は、学習用信号に基づいて、第１の特徴量系列と第２の特徴量系列とを抽出する。第１の特徴量系列と第２の特徴量系列との抽出方法は、特徴量抽出部１３０が実行する、第１の特徴量系列と第２の特徴量系列との抽出方法と同じである。

正規化パラメータ算出部２４０は、第１の特徴量系列に基づいて、正規化パラメータを算出する。正規化パラメータ算出部２４０を詳細に説明する。正規化パラメータ算出部２４０は、一時正規化パラメータ算出部１４１と同じ機能を有する。そのため、正規化パラメータ算出部２４０の算出により得られた正規化パラメータは、一時正規化パラメータと同じである。ここで、正規化パラメータ記憶部２１１には、過去に算出された一時正規化パラメータに基づく一時正規化パラメータが格納されている。正規化パラメータ算出部２４０は、算出された正規化パラメータに基づいて、正規化パラメータ記憶部２１１に格納されている正規化パラメータを更新する。

特徴量正規化部２５０は、正規化パラメータ記憶部２１１に格納されている正規化パラメータを用いて、第１の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。

算出部２６０は、正規化済特徴量系列、及びモデルパラメータ記憶部２１２に格納されているモデルパラメータを用いて、目的音特徴量系列を算出する。また、算出部２６０は、正規化済特徴量系列、第２の特徴量系列、及びモデルパラメータ記憶部２１２に格納されているモデルパラメータを用いて、目的音特徴量系列を算出してもよい。以下の説明では、算出部２６０は、正規化済特徴量系列、第２の特徴量系列、及びモデルパラメータ記憶部２１２に格納されているモデルパラメータを用いて、目的音特徴量系列を算出するものとする。なお、目的音特徴量系列は、１以上の目的音を示す特徴量系列である。算出部２６０は、正規化済特徴量系列、第２の特徴量系列、及びモデルパラメータ記憶部２１２に格納されているモデルパラメータを用いて、非目的音特徴量系列を算出してもよい。なお、非目的音特徴量系列は、非目的音を示す特徴量系列である。

また、算出部２６０と算出部１５０とで行われる処理は、同じでもよい。算出部２６０は、算出部１５０が実行しない処理を、追加の処理として、実行してもよい。追加の処理の実行により得られた情報は、補助情報と呼ぶ。具体的に補助情報の出力を説明する。例えば、算出部２６０は、音源抽出のために用いられる学習済モデルを用いて、補助情報を出力する。また、例えば、算出部２６０は、補助モデルを用いて、補助情報を出力してもよい。なお、補助モデルは、公知の配線構造を有するＮＮである。例えば、補助モデルは、モデルパラメータ記憶部２１２に格納されている。

更新部２７０は、学習用信号に含まれている目的音信号に基づいて、教師特徴量系列を抽出する。当該抽出の方法は、学習用信号から第２の特徴量系列が抽出される方法と同じである。更新部２７０は、目的音特徴量系列と教師特徴量系列との差分が小さくなるように、モデルパラメータを更新する。例えば、更新部２７０は、モデルパラメータを更新する場合、逆誤差伝播法を用いて勾配を求めた後、確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ：ＳＧＤ）、Ａｄａｍ法などの公知の最適化手法を用いることで、モデルパラメータを更新する。
このように、学習装置２００は、学習用信号を取得する度に、モデルパラメータの更新を繰り返す。モデルパラメータの更新が繰り返されることで、学習済モデルが生成される。

また、更新部２７０は、モデルパラメータを更新する場合、非目的音特徴量系列又は補助情報を用いて、モデルパラメータを更新してもよい。さらに、更新部２７０は、モデルパラメータを更新すると共に、モデルパラメータ記憶部２１２に格納されている補助モデルを更新してもよい。

出力部２８０は、正規化パラメータと学習済モデルとを出力する。例えば、出力部２８０は、ネットワークを介して、正規化パラメータと学習済モデルとを信号処理装置１００に出力する。

次に、信号処理装置１００が実行する処理を、フローチャートを用いて、説明する。
図８は、実施の形態１の信号処理装置が実行する処理の例を示すフローチャートである。
（ステップＳ１１）取得部１２０は、対象入力信号を取得する。
（ステップＳ１２）特徴量抽出部１３０は、対象入力信号に基づいて、第１の特徴量系列と第２の特徴量系列とを抽出する。

ここで、第１の特徴量系列を示す行列の各要素を、Ｘ_ｉｎ（ｆ，ｔ）とする。第２の特徴量系列を示す行列の各要素を、Ｘ_ｒａｗ（ｆ，ｔ）とする。なお、ｆは、“１≦ｆ≦Ｆ”を満たす整数である。Ｆは、特徴量の次元数を示す。tは、“１≦ｔ≦Ｔ”を満たす整数である。Ｔは、総フレーム数を示す。
Ｘ_ｉｎ（ｆ，ｔ）とＸ_ｒａｗ（ｆ，ｔ）との関係は、式（１）で表される。

（ステップＳ１３）特徴量正規化部１４０は、正規化処理を実行する。これにより、正規化済特徴量系列が得られる。正規化済特徴量系列を示す行列は、Ｘ_ｍｏｄ（ｆ，ｔ）とする。

（ステップＳ１４）算出部１５０は、正規化済特徴量系列、第２の特徴量系列、及び学習済モデルを用いて、目的音特徴量系列を算出する。
ここで、学習済モデルは、マスクと呼ばれる時系列データを、目的音の数だけ出力することができる。例えば、マスクは、第２の特徴量系列を示す行列の各要素において、目的音に由来する成分が含まれている割合を示す行列である。ここで、ｎ番目の目的音に対応するマスクを示す行列の各要素を、Ｍ_ｎ（ｆ，ｔ）と表記する。なお、ｎは、“１≦ｎ≦Ｎ”を満たす整数である。Ｎは、信号処理装置１００が出力すべき目的音の総数である。学習済モデルでは、Ｘ_ｍｏｄ（ｆ，ｔ）に基づいて、Ｍ_ｎ（ｆ，ｔ）が算出される。ｎ番目の目的音特徴量系列がＹ_ｎ（ｆ，ｔ）である場合、Ｍ_ｎ（ｆ，ｔ）とＸ_ｒａｗ（ｆ，ｔ）との関係は、式（２）で表される。

（ステップＳ１５）信号生成部１６０は、目的音特徴量系列に基づいて、対象出力信号を生成する。
（ステップＳ１６）出力部１７０は、対象出力信号を出力する。

図９は、実施の形態１の正規化処理の例を示すフローチャートである。図９の処理は、ステップＳ１３に対応する。
（ステップＳ２１）一時正規化パラメータ算出部１４１は、第１の特徴量系列に基づいて、一時正規化パラメータを算出する。前述したように、一時正規化パラメータは、平均ベクトル及び分散ベクトルである。平均ベクトルの要素は、μ_ｉｎ（ｆ）と表記する。平均ベクトルの要素μ_ｉｎ（ｆ）は、式（３）を用いて表現される。

また、分散ベクトルの要素は、σ_ｉｎ＾２（ｆ）と表記する。分散ベクトルの要素σ_ｉｎ＾２（ｆ）は、式（４）を用いて表現される。

ここで、表記の便宜上、２乗平均を示すベクトルの要素をξ_ｉｎ（ｆ）と定義する。ξ_ｉｎ（ｆ）は、式（５）を用いて表現される。

このように、ξ_ｉｎ（ｆ）は、平均ベクトルの要素μ_ｉｎ（ｆ）と分散ベクトルの要素σ_ｉｎ＾２（ｆ）とを用いて、容易に算出される。

（ステップＳ２２）一時正規化パラメータ補正部１４２は、一時正規化パラメータを補正する。一時正規化パラメータを補正方法には、第１の補正方法と第２の補正方法とがある。

まず、第１の補正方法を説明する。第１の補正方法は、一時正規化パラメータが示すｆ番目の次元（例えば、第１の次元とも言う。）を含み、かつ連続する複数の次元（ｆ－ｆ_１，ｆ－ｆ_１＋１，…，ｆ－１，ｆ，ｆ＋１，…，ｆ＋ｆ_２番目の次元）を重み付けし統合することで、当該ｆ番目の次元を補正する方法である。一時正規化パラメータ補正部１４２は、第１の補正方法を用いて、一時正規化パラメータを補正する。補正により、補正済正規化パラメータが生成される。ここで、補正済正規化パラメータの平均ベクトルの要素を、μ_ｍｏｄ１（ｆ）と表記する。μ_ｍｏｄ１（ｆ）は、式（６）を用いて表現される。なお、ｗ_ｍｏｄ１（ｆ，ｆ’）は、一時正規化パラメータのｆ番目の次元を補正する際に、ｆ’番目の次元をどの程度重視するかを定めている重みである。

補正済正規化パラメータの分散ベクトルの要素を、σ_ｍｏｄ１＾２（ｆ）と表記する。また、２乗平均を示すベクトルの要素を、ξ_ｍｏｄ１（ｆ）と表記する。ξ_ｍｏｄ１（ｆ）は、式（７）を用いて表現される。

また、σ_ｍｏｄ１＾２（ｆ）は、式（８）を用いて表現される。

ｗ_ｍｏｄ１（ｆ，ｆ’）は、予め定められてもよい。また、次の処理により、重み（すなわち、ｗ_ｍｏｄ１（ｆ，ｆ’））は、選択されてもよい。取得部１２０は、重みの複数の候補を取得する。特徴量正規化部１４０（例えば、一時正規化パラメータ補正部１４２）は、複数の候補の中から、一時正規化パラメータを所望の値に近づけられる候補を重みとして、選択する。例えば、所望の値は、次の処理で算出されてもよい。一時正規化パラメータの隣接する次元の要素間で差分が算出される。当該算出が、全ての要素間で実行される。当該実行により得られた複数の差分ベクトルの絶対値が算出される。複数の差分ベクトルの絶対値の総和が、所望の値として算出される。なお、所望の値は、滑らかさを示す指標と呼んでもよい。特許文献１に示されている滑らかさを示す指標が、用いられてもよい。
例えば、ｗ_ｍｏｄ１（ｆ，ｆ’）は、式（９）を用いて表現される。

ｆ_１及びｆ_２は、次元の幅を示す０以上の整数である。ｆ_１及びｆ_２を大きくすることは、一時正規化パラメータの補正において、より多くの情報を用いることを意味する。ｆ_１及びｆ_２は、予め定められてもよい。また、ｆ_１及びｆ_２は、第１の特徴量系列のフレーム数に応じて決定されてもよい。言い換えれば、重み（すなわち、ｗ_ｍｏｄ１（ｆ，ｆ’））は、第１の特徴量系列のフレーム数に応じて決定されてもよい。ここで、一時正規化パラメータのベクトルに基づく形状は、総フレーム数Ｔが大きいほど、滑らかな形状となる。そのため、例えば、総フレーム数Ｔが小さい場合、ｆ_１及びｆ_２には、大きな値が設定される。総フレーム数Ｔが大きい場合、ｆ_１及びｆ_２には、小さな値が設定される。なお、総フレーム数Ｔ、ｆ_１、及びｆ_２の関係は、予め実験により、導かれてもよい。そして、当該関係を示すテーブルは、信号処理装置１００に格納されてもよい。

このように、第１の補正方法では、一時正規化パラメータが示すｆ番目の次元を含み、かつ連続する複数の次元（ｆ－ｆ_１，ｆ－ｆ_１＋１，…，ｆ－１，ｆ，ｆ＋１，…，ｆ＋ｆ_２番目の次元）を重み付けし統合することで、当該ｆ番目の次元が、補正される。

次に、第２の補正方法を説明する。第２の補正方法は、正規化パラメータを用いる方法である。正規化パラメータは、学習装置２００に入力された学習用信号に基づいて、抽出された第１の特徴量系列を正規化する際に用いられた正規化パラメータである。一時正規化パラメータ補正部１４２は、正規化パラメータを用いて、一時正規化パラメータを補正する。正規化パラメータの平均ベクトルの要素を、μ_ｐｒｅ（ｆ）と表記する。正規化パラメータの分散ベクトルの要素を、σ_ｐｒｅ＾２（ｆ）と表記する。２乗平均を示すベクトルの要素を、ξ_ｐｒｅ（ｆ）と表記する。ξ_ｐｒｅ（ｆ）は、式（１０）を用いて表現される。

第２の補正方法により、補正済正規化パラメータが生成される。ここで、補正済正規化パラメータの平均ベクトルの要素を、μ_ｍｏｄ２（ｆ）と表記する。μ_ｍｏｄ２（ｆ）は、式（１１）を用いて表現される。なお、ｗ_ｉｎとｗ_ｐｒｅは、重みである。重みｗ_ｉｎと重みｗ_ｐｒｅは、一時正規化パラメータを補正する際に、一時正規化パラメータと正規化パラメータとを、どの程度重視するかを定める定数である。重みｗ_ｉｎと重みｗ_ｐｒｅには、予め適当な値が定められてもよい。

補正済正規化パラメータの分散ベクトルの要素を、σ_ｍｏｄ２＾２（ｆ）と表記する。また、２乗平均を示すベクトルの要素を、ξ_ｍｏｄ２（ｆ）と表記する。ξ_ｍｏｄ２（ｆ）は、式（１２）を用いて表現される。

また、σ_ｍｏｄ２＾２（ｆ）は、式（１３）を用いて表現される。

一時正規化パラメータ補正部１４２は、第１の補正方法により生成された補正済正規化パラメータに対して、第２の補正方法を実行してもよい。当該第２の補正方法により、補正済正規化パラメータが生成される。ここで、生成された補正済正規化パラメータの平均ベクトルの要素を、μ_{ｍｏｄ２’}（ｆ）と表記する。μ_{ｍｏｄ２’}（ｆ）は、式（１４）を用いて表現される。なお、重みｗ_{ｍｏｄ１’}と重みｗ_ｐｒｅ’は、重みである。重みｗ_{ｍｏｄ１’}と重みｗ_ｐｒｅ’には、予め適当な値が定められてもよい。

生成された補正済正規化パラメータの分散ベクトルの要素を、σ_{ｍｏｄ２’}＾２（ｆ）と表記する。また、２乗平均を示すベクトルの要素を、ξ_{ｍｏｄ２’}（ｆ）と表記する。ξ_{ｍｏｄ２’}（ｆ）は、式（１５）を用いて表現される。

また、σ_{ｍｏｄ２’}＾２（ｆ）は、式（１６）を用いて表現される。

このように、第１の補正方法の後に第２の補正方法が実行されることで、２つの補正方法の利点が反映された補正済正規化パラメータが、生成される。

（ステップＳ２３）正規化部１４３は、補正済正規化パラメータを用いて、第１の特徴量系列を正規化する。正規化により、正規化済特徴量系列が生成される。正規化済特徴量系列を示す行列Ｘ_ｍｏｄ（ｆ，ｔ）は、式（１７）を用いて表現される。ここで、μ_ｍｏｄ１（ｆ）、μ_ｍｏｄ２（ｆ）、又はμ_{ｍｏｄ２’}（ｆ）は、μ_ｍｏｄ（ｆ）と表記する。また、σ_ｍｏｄ１＾２（ｆ）、σ_ｍｏｄ２＾２（ｆ）、又はσ_{ｍｏｄ２’}＾２（ｆ）は、σ_ｍｏｄ＾２（ｆ）と表記する。

次に、学習装置２００が実行する処理を、フローチャートを用いて、説明する。
図１０は、実施の形態１の学習装置が実行する処理の例を示すフローチャートである。
（ステップＳ３１）第１の学習処理が実行される。
（ステップＳ３２）終了条件が満たされているか否かが判定される。例えば、当該終了条件は、ステップＳ３１が実行された回数が予め設定された回数を超えているか否かである。当該終了条件を満たす場合、処理は、ステップＳ３３に進む。当該終了条件を満たさない場合、処理は、ステップＳ３１に進む。
（ステップＳ３３）第２の学習処理が実行される。

（ステップＳ３４）出力部２８０は、学習の終了条件を満たすか否かを判定する。例えば、当該終了条件は、ステップＳ３３が実行された回数が予め設定された回数を超えているか否かである。また、例えば、当該終了条件は、後述するステップＳ５５の差分が予め設定された閾値よりも小さいか否かである。
当該終了条件を満たす場合、処理は、ステップＳ３５に進む。当該終了条件を満たさない場合、処理は、ステップＳ３３に進む。

（ステップＳ３５）出力部２８０は、モデルパラメータ記憶部２１２に格納されているモデルパラメータに基づく学習済モデルと、正規化パラメータとを出力する。

図１１は、実施の形態１の第１の学習処理の例を示すフローチャートである。図１１の処理は、ステップＳ３１に対応する。
（ステップＳ４１）取得部２２０は、学習用信号を取得する。
（ステップＳ４２）特徴量抽出部２３０は、学習用信号に基づいて、第１の特徴量系列と第２の特徴量系列とを抽出する。

（ステップＳ４３）正規化パラメータ算出部２４０は、第１の特徴量系列に基づいて、正規化パラメータを算出する。正規化パラメータ算出部２４０は、算出された正規化パラメータに基づいて、正規化パラメータ記憶部２１１に格納されている正規化パラメータを更新する。

当該更新を詳細に説明する。正規化パラメータ記憶部２１１に格納されている正規化パラメータを平均μ_ｐｒｅ（ｆ）及び分散σ_ｐｒｅ＾２（ｆ）とする。また、これまでの正規化パラメータの算出に用いられた累計フレーム数をＴ_ｐｒｅとする。正規化パラメータ算出部２４０は、式（１０）を用いて、ξ_ｐｒｅ（ｆ）を算出する。正規化パラメータ算出部２４０は、ステップＳ４２で抽出された第１の特徴量系列と式（３）とを用いて、μ_ｉｎ（ｆ）を算出する。正規化パラメータ算出部２４０は、式（５）を用いて、ξ_ｉｎ（ｆ）を算出する。なお、式（３）及び式（５）の中のＴは、当該第１の特徴量系列のフレーム数とする。正規化パラメータ算出部２４０は、式（１１）～（１３）を用いて、平均μ_ｍｏｄ２（ｆ）及び分散σ_ｍｏｄ２＾２（ｆ）を算出する。なお、式（１１）～（１３）の中のｗ_ｐｒｅは、“Ｔ_ｐｒｅ／Ｔ_ｐｒｅ＋Ｔ”とする。また、式（１１）～（１３）の中のｗ_ｉｎは、“Ｔ／Ｔ_ｐｒｅ＋Ｔ”とする。正規化パラメータ算出部２４０は、平均μ_ｐｒｅ（ｆ）及び分散σ_ｐｒｅ＾２（ｆ）を、平均μ_ｍｏｄ２（ｆ）及び分散σ_ｍｏｄ２＾２（ｆ）に更新する。また、正規化パラメータ算出部２４０は、Ｔ_ｐｒｅを“Ｔ_ｐｒｅ＋Ｔ”に更新する。

図１２は、実施の形態１の第２の学習処理の例を示すフローチャートである。図１２の処理は、ステップＳ３３に対応する。
（ステップＳ５１）取得部２２０は、学習用信号を取得する。
（ステップＳ５２）特徴量抽出部２３０は、学習用信号に基づいて、第１の特徴量系列と第２の特徴量系列とを抽出する。
（ステップＳ５３）特徴量正規化部２５０は、正規化パラメータ記憶部２１１に格納されている正規化パラメータを用いて、第１の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。当該正規化済特徴量系列を示す行列は、式（１７）を用いて表現される。なお、当該式（１７）のμ_ｍｏｄ（ｆ）は、正規化パラメータの平均ベクトルの要素を示す。当該式（１７）のσ_ｍｏｄ＾２（ｆ）は、正規化パラメータの分散ベクトルの要素を示す。

（ステップＳ５４）算出部２６０は、正規化済特徴量系列、第２の特徴量系列、及びモデルパラメータ記憶部２１２に格納されているモデルパラメータを用いて、目的音特徴量系列を算出する。
（ステップＳ５５）更新部２７０は、学習用信号に含まれている目的音信号に基づいて、教師特徴量系列を抽出する。更新部２７０は、目的音特徴量系列と教師特徴量系列との差分が小さくなるように、モデルパラメータを更新する。

上述したように、信号処理装置１００で行われる正規化と、学習装置２００で行われる正規化とは、異なる。ここで、一時正規化パラメータ算出部１４１と一時正規化パラメータ補正部１４２とが、特徴量正規化部１４０に含まれていない場合を考える。当該場合の信号処理装置を、第１の他の信号処理装置と呼ぶ。当該場合、正規化部１４３は、正規化パラメータ記憶部１１１に格納されている正規化パラメータを用いて、第１の特徴量系列を正規化する。

正規化パラメータ記憶部１１１に格納されている正規化パラメータは、学習装置２００で、学習用信号に基づく第１の特徴量系列から得られた値である。そのため、正規化パラメータの値は、学習用信号に基づく音を収録した環境に大きく依存する。なお、環境とは、収録に用いるマイクロホンの音量（例えば、ゲイン）、周波数特性、部屋の広さなどである。また、目的音又は非目的音が音声である場合、正規化パラメータの値は、話者の性別、声道特性、発話内容などにも依存する。

上述したように、対象入力信号に基づく第１の特徴量系列の正規化では、第１の他の信号処理装置は、学習装置２００が算出した正規化パラメータを用いる。しかし、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが異なる場合、当該正規化により生成された正規化済特徴量系列は、学習装置２００で生成された正規化済特徴量系列と特性又は分布が大きく異なる場合がある。対象入力信号が学習用信号に似ている場合、学習済モデルは、良い推定結果を出力する。一方、対象入力信号が学習用信号に似ていない場合、学習済モデルが、良い推定結果を出力できない場合が多い。そのため、対象入力信号が学習用信号に似ていない場合、第１の他の信号処理装置の音源抽出の精度は、高いと言えない。そのため、信号処理装置１００は、一時正規化パラメータを補正する。これにより、対象入力信号が学習用信号に似ていない場合でも、信号処理装置１００で生成される正規化済特徴量系列は、学習装置２００で生成される正規化済特徴量系列と似た特性になる。よって、信号処理装置１００で生成される正規化済特徴量系列が学習済モデルに入力されることで、信号処理装置１００は、高精度な音源抽出を実現することができる。

また、一時正規化パラメータ補正部１４２が、特徴量正規化部１４０に含まれていない場合を考える。当該場合の信号処理装置を、第２の他の信号処理装置と呼ぶ。当該場合、正規化部１４３は、一時正規化パラメータ算出部１４１が算出した一時正規化パラメータを用いて、第１の特徴量系列を正規化する。

まず、正規化パラメータ記憶部２１１に格納されている正規化パラメータの分散ベクトルの一例を示す。
図１３は、実施の形態１の正規化パラメータ記憶部に格納されている正規化パラメータの分散ベクトルの一例を示す図である。図１３は、分散ベクトル３０１を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。

次に、一時正規化パラメータ算出部１４１が算出した一時正規化パラメータの分散ベクトルの一例を示す。
図１４は、実施の形態１の一時正規化パラメータ算出部により算出された正規化パラメータの分散ベクトルの一例を示す図である。図１４は、分散ベクトル３０２を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。

分散ベクトル３０１と分散ベクトル３０２とを比較した場合、分散ベクトル３０１は、分散ベクトル３０２よりも滑らかな形状を示している。分散ベクトル３０１の形状と分散ベクトル３０２の形状とが異なる理由は、次の通りである。分散ベクトル３０１は、多くの学習用信号に基づいて、得られた分散ベクトルである。一方、分散ベクトル３０２は、１つの対象入力信号に基づいて、得られた分散ベクトルである。このように、サンプル数が大きく異なっているため、分散ベクトル３０１の形状と分散ベクトル３０２の形状とが異なる。多くのサンプル数（すなわち、多くの第１の特徴量系列）を用いることで、特徴量系列の分布の偏りが、緩和される。そして、分散ベクトルの形状が、滑らかになる。

次に、第１の補正方法を用いて、一時正規化パラメータ算出部１４１が算出した一時正規化パラメータを補正することにより得られた分散ベクトルの一例を示す。
図１５は、実施の形態１の第１の補正方法を用いることで得られた分散ベクトルの一例を示す図である。図１５は、分散ベクトル３０３を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。

分散ベクトル３０３は、隣接する次元の要素が重み付けされることで算出される。そのため、突飛な値が緩和される。分散ベクトル３０３の形状の滑らかさは、分散ベクトル３０１の形状の滑らかさと同等程度である。なお、ｆ_１及びｆ_２に大きな値を設定することで、分散ベクトル３０３の形状は、更に滑らかになる。

次に、第２の補正方法を用いて、一時正規化パラメータ算出部１４１が算出した一時正規化パラメータを補正することにより得られた分散ベクトルの一例を示す。
図１６は、実施の形態１の第２の補正方法を用いることで得られた分散ベクトルの一例を示す図である。図１６は、分散ベクトル３０４を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。

分散ベクトル３０４は、分散ベクトル３０２よりも滑らかな形状の分散ベクトル３０１を用いて、算出される。そのため、分散ベクトル３０４の形状は、分散ベクトル３０２の形状よりも滑らかである。

分散ベクトル３０２における滑らかでない成分は、第１の特徴量系列が持つ細部の特性を示していると考えられる。そのため、第２の他の信号処理装置における、分散ベクトル３０２を用いることにより得られた正規化済特徴量系列は、学習装置２００が分散ベクトル３０１を用いて算出した正規化済特徴量系列よりも、細部の特性を失っていると考えられる。そして、学習装置２００は、細部の特性が失われていない正規化済特徴量系列を用いて、学習済モデルを生成する。第２の他の信号処理装置は、分散ベクトル３０２を用いることにより得られた正規化済特徴量系列を、当該学習済モデルに入力する。そのため、第２の他の信号処理装置の音源抽出の性能は、高いと言えない。一方、信号処理装置１００が第１の補正方法又は第２の補正方法を用いて補正を実行することで、正規化済特徴量系列の細部の特性が失われずに済む。そして、当該正規化済特徴量系列が学習済モデルに入力されることで、信号処理装置１００は、高精度な音源抽出を実現することができる。

実施の形態１によれば、信号処理装置１００は、第１の補正方法又は第２の補正方法を用いることで、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境との違いを補正できる。また、信号処理装置１００は、第２の補正方法を用いることで、対象入力信号が有する特性を失われすぎないようにできる。よって、信号処理装置１００は、高精度な音源抽出を実現することができる。

実施の形態１の変形例．
式（１７）で示したように、正規化部１４３及び特徴量正規化部２５０により、第１の特徴量系列が、正規化される。正規化部１４３及び特徴量正規化部２５０は、公知のバッチ正規化法（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）を用いて、第１の特徴量系列を正規化してもよい。また、正規化パラメータ記憶部１１１に格納されている正規化パラメータは、学習装置２００で移動平均として算出された値でもよい。

式（１）で示したように、特徴量抽出部１３０及び特徴量抽出部２３０は、第１の特徴量系列を抽出する。特徴量抽出部１３０及び特徴量抽出部２３０は、第１の特徴量系列を抽出する場合、第２の特徴量系列と同じ方法で第１の特徴量系列を抽出してもよい。これにより、第１の特徴量系列と第２の特徴量系列とは、同じになる。よって、第２の特徴量系列は、第１の特徴量系列と読み替えられる。そのため、特徴量抽出部１３０は、対象入力信号に基づいて、１つの特徴量系列を抽出すればよい。抽出された特徴量系列は、第１の特徴量系列と考えてもよい。また、特徴量抽出部２３０は、学習用信号に基づいて、１つの特徴量系列を抽出すればよい。抽出された特徴量系列は、第１の特徴量系列と考えてもよい。

また、特徴量抽出部１３０及び特徴量抽出部２３０は、対象入力信号と学習済モデルとを用いて、第１の特徴量系列と第２の特徴量系列とを抽出してもよい。信号生成部１６０は、学習済モデルを用いて、目的音特徴量系列を示す複数の特徴量を複数の信号断片に変換してもよい。特徴量抽出部１３０及び特徴量抽出部２３０に用いられる学習済モデルと、信号生成部１６０に用いられる学習済モデルとは、不揮発性記憶装置１０３又は不揮発性記憶装置２０３に格納されていてもよい。２つの学習済モデルは、更新部２７０による更新が繰り返されることで、生成されてもよい。

特徴量抽出部１３０及び特徴量抽出部２３０は、公知の１次元ＣＮＮ構造を持つ学習済モデルを用いて、信号断片の切り出しと、特徴量抽出とを同時に行ってもよい。１次元ＣＮＮのモデルを利用する装置として、非特許文献２に開示されているＣｏｎｖ－ＴａｓＮｅｔが、挙げられる。

実施の形態２．
次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。

実施の形態１では、第１の補正方法又は第２の補正方法により得られた補正済正規化パラメータを用いて、第１の特徴量系列が正規化された。一方、学習装置２００では、正規化パラメータを用いて、第１の特徴量系列が正規化された。このように、信号処理装置１００と学習装置２００とで実行される正規化の方法が、異なっていた。

学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが異なる場合、信号処理装置１００は、高精度な音源抽出を実現することができる。しかし、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが一致又は類似する場合、信号処理装置１００では、音源抽出の精度が下がる可能性が考えられる。そこで、実施の形態２では、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが一致又は類似する場合でも、信号処理装置１００が、高精度な音源抽出する場合を説明する。

実施の形態２の信号処理装置１００は、実施の形態１の信号処理装置１００と同じである。また、実施の形態２の学習装置２００の構成は、実施の形態１の学習装置２００の構成と同じである。但し、実施の形態２の学習装置２００が有する特徴量正規化部の機能が、実施の形態１の特徴量正規化部２５０と異なる。そのため、実施の形態２では、学習装置２００が有する特徴量正規化部を説明する。また、学習装置２００が有する特徴量正規化部は、特徴量正規化部２５０ａと呼ぶ。

図１７は、実施の形態２の特徴量正規化部の機能を示すブロック図である。特徴量正規化部２５０ａは、一時正規化パラメータ算出部２５１、一時正規化パラメータ補正部２５２、及び正規化部２５３を含む。
一時正規化パラメータ算出部２５１の機能は、一時正規化パラメータ算出部１４１の機能と同じである。
一時正規化パラメータ補正部２５２の機能は、一時正規化パラメータ補正部１４２の機能と同じである。
正規化部２５３の機能は、正規化部１４３の機能と同じである。

次に、学習装置２００が実行する処理を、フローチャートを用いて説明する。例えば、以下のフローチャートが示す処理は、実施の形態１における学習装置２００の学習処理が終了した後に実行されてもよい。すなわち、学習装置２００は、対象入力信号に基づく音を収録する環境と異なる環境で収録された音に基づく学習用信号を用いて、学習済モデルを生成する。当該学習済モデルが生成された後、学習装置２００は、対象入力信号（詳細には、目的音信号）に基づく音を収録する環境と一致又は類似する環境で収録された音を含む学習用信号を用いて、学習済モデルを生成する。例えば、当該学習済モデルは、再学習により生成された学習済モデルと呼んでもよい。

図１８は、実施の形態２の第２の学習処理の例を示すフローチャートである。図１８の処理は、ステップＳ３２に対応する。図１８の処理は、ステップＳ５１ａ～５１ｃが実行される点が図１２の処理と異なる。そのため、図１８では、ステップＳ５１ａ～５１ｃを説明する。そして、ステップＳ５１ａ～５１ｃ以外の処理の説明は、省略する。

（ステップＳ５１ａ）一時正規化パラメータ算出部２５１は、第１の特徴量系列に基づいて、一時正規化パラメータを算出する。なお、第１の特徴量系列は、対象入力信号に基づく音を収録する環境と一致又は類似する環境で収録された音を含む学習用信号を用いて、学習装置２００（すなわち、特徴量抽出部２３０）により抽出された値である。

（ステップＳ５１ｂ）一時正規化パラメータ補正部２５２は、第１の補正方法又は第２の補正方法を用いて、一時正規化パラメータを補正する。これにより、補正済正規化パラメータが、生成される。
なお、一時正規化パラメータ補正部２５２は、第１の補正方法を実行した後に、第２の補正方法を実行してもよい。

（ステップＳ５１ｃ）正規化部２５３は、補正済正規化パラメータを用いて、第１の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。

そして、学習装置２００は、特徴量正規化部２５０ａにより生成された正規化済特徴量系列を用いて学習することにより、学習済モデルを生成する。信号処理装置１００は、当該学習済モデルを用いて、音源抽出を行う。

実施の形態２によれば、学習フェーズと活用フェーズとで正規化の方法が、統一される。そのため、学習用信号に基づく音を収録した環境と、対象入力信号に基づく音を収録した環境とが一致又は類似する場合でも、信号処理装置１００が、高精度な音源抽出を実現することができる。

また、実用例として、信号処理装置１００は、カーナビゲーション、スマートフォンに搭載可能である。信号処理装置１００は、騒音又は非目的話者の音声を含む混合音を示す対象入力信号の中から目的話者の音声を示す音声信号を抽出することができる。また、信号処理装置１００が、遠隔電話会議システムに用いられることが考えられる。

以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

１００信号処理装置、１０１プロセッサ、１０２揮発性記憶装置、１０３不揮発性記憶装置、１０４インタフェース、１１１正規化パラメータ記憶部、１１２学習済モデル記憶部、１１３一時正規化パラメータ記憶部、１２０取得部、１３０特徴量抽出部、１４０特徴量正規化部、１４１一時正規化パラメータ算出部、１４２一時正規化パラメータ補正部、１４３正規化部、１５０算出部、１６０信号生成部、１７０出力部、２００学習装置、２０１プロセッサ、２０２揮発性記憶装置、２０３不揮発性記憶装置、２０４インタフェース、２１１正規化パラメータ記憶部、２１２モデルパラメータ記憶部、２２０取得部、２３０特徴量抽出部、２４０正規化パラメータ算出部、２５０特徴量正規化部、２５０ａ特徴量正規化部、２５１一時正規化パラメータ算出部、２５２一時正規化パラメータ補正部、２５３正規化部、２６０算出部、
２７０更新部、２８０出力部、３０１分散ベクトル、３０２分散ベクトル、３０３分散ベクトル、３０４分散ベクトル。

Claims

目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得する取得部と、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記一時正規化パラメータが示す第１の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第１の次元を補正する方法である第１の補正方法を用いて、前記一時正規化パラメータを補正し、補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、
を有する信号処理装置。
前記重み付けで用いられる重みは、前記特徴量系列のフレーム数に応じて決定される、
請求項１に記載の信号処理装置。
前記取得部は、前記重み付けで用いられる重みの複数の候補を取得し、
前記特徴量正規化部は、前記複数の候補の中から、前記一時正規化パラメータを所望の値に近づけられる候補を前記重みとして、選択する、
請求項１に記載の信号処理装置。
目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得する取得部と、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記正規化パラメータを用いる方法である第２の補正方法を用いて、前記一時正規化パラメータを補正することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、
を有する信号処理装置。
前記特徴量抽出部は、前記対象入力信号に基づいて、複数の特徴量を示す第２の特徴量系列を抽出し、前記第２の特徴量系列に基づいて、第１の特徴量系列を抽出し、
前記特徴量正規化部は、前記第１の特徴量系列に基づいて前記一時正規化パラメータを算出し、前記第１の補正方法又は前記第２の補正方法を用いて前記一時正規化パラメータを補正することにより得られた前記補正済正規化パラメータを用いて、前記第１の特徴量系列を正規化し、
前記第２の特徴量系列は、前記対象入力信号の一部の区間を切り出すことで得られる信号断片に、高速フーリエ変換、ウェーブレット変換、又は定Ｑ変換を用いて抽出される第２の特徴量を複数並べることで生成され、
前記第１の特徴量系列は、前記第２の特徴量系列の絶対値を算出し、得られた値に対して自然対数を用いることで抽出される、
請求項１から４のいずれか１項に記載の信号処理装置。
前記算出部は、前記第２の特徴量系列と前記正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音特徴量系列を算出する、
請求項５に記載の信号処理装置。
前記取得部は、過去に算出された一時正規化パラメータを取得し、
前記特徴量正規化部は、算出によって得られた前記一時正規化パラメータと、前記過去に算出された一時正規化パラメータとに基づいて、新たな一時正規化パラメータを算出し、前記第１の補正方法又は前記第２の補正方法を用いて前記新たな一時正規化パラメータを補正する、
請求項１から６のいずれか１項に記載の信号処理装置。
前記特徴量正規化部は、前記混合音に無音区間が含まれている場合、前記特徴量系列に基づいて、前記無音区間を特定し、前記無音区間以外の前記特徴量系列に基づいて、一時正規化パラメータを算出する、
請求項１から７のいずれか１項に記載の信号処理装置。
前記学習済モデルは、正規化済特徴量系列に基づいて学習装置により生成された学習済モデルであり、
当該正規化済特徴量系列は、補正済正規化パラメータを用いて、複数の特徴量を示す特徴量系列を正規化することにより得られた値であり、
当該補正済正規化パラメータは、前記第１の補正方法又は前記第２の補正方法を用いて、一時正規化パラメータを補正により得られた値であり、
当該一時正規化パラメータは、当該特徴量系列に基づいて算出された値であり、
当該特徴量系列は、前記対象入力信号に基づく音を収録する環境と一致又は類似する環境で収録された音を含む学習用信号を用いて、前記学習装置により抽出された値である、
請求項１から８のいずれか１項に記載の信号処理装置。
前記対象出力信号を出力する出力部をさらに有する、
請求項１から９のいずれか１項に記載の信号処理装置。
信号処理装置が、
目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得し、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記一時正規化パラメータが示す第１の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第１の次元を補正する方法である第１の補正方法を用いて、前記一時正規化パラメータを補正し、
補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
信号処理方法。
信号処理装置が、
目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得し、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記正規化パラメータを用いる方法である第２の補正方法を用いて、前記一時正規化パラメータを補正することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
信号処理方法。
信号処理装置に、
目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得し、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記一時正規化パラメータが示す第１の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第１の次元を補正する方法である第１の補正方法を用いて、前記一時正規化パラメータを補正し、
補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
処理を実行させる信号処理プログラム。
信号処理装置に、
目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得し、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記正規化パラメータを用いる方法である第２の補正方法を用いて、前記一時正規化パラメータを補正することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
処理を実行させる信号処理プログラム。