JP2019164618A

JP2019164618A - 信号処理装置、信号処理方法およびプログラム

Info

Publication number: JP2019164618A
Application number: JP2018052404A
Authority: JP
Inventors: 典太笹谷; Tenta Sasaya
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2019-09-26
Anticipated expiration: 2038-03-20
Also published as: US11599784B2; JP6773707B2; US20190294963A1

Abstract

【課題】前段の信号処理の出力信号を利用する後段の信号処理をより高精度に実行可能とする。【解決手段】信号処理装置は、信号処理部と、変換部と、第１ロス算出部と、学習部と、を備える。信号処理部は、入力信号に対してニューラルネットワークにより第１信号処理を行い、第１出力信号を出力する。変換部は、第１出力信号を、他の信号処理装置が実行する第２信号処理の精度に関連する第１ロスを算出するための第２出力信号に変換する。第１ロス算出部は、第２出力信号と正解信号とに基づいて、第１ロスを算出する。学習部は、算出された第１ロスを用いてニューラルネットワークのパラメータを学習する。【選択図】図１

Description

本発明の実施形態は、信号処理装置、信号処理方法およびプログラムに関する。

近年、ニューラルネットワークによる、センサ信号（１次元信号や画像）の認識処理は目覚ましい進歩があり、アカデミックな世界に留まらず、自動運転に代表されるような産業応用も進みつつある。しかし、アカデミックな分野で開発された認識処理はＳＮ比が高い理想的なセンサ信号を対象としていることが多く、産業応用をする場合には、センサ信号に含まれる不要成分（ノイズ等）を除去する前処理が必要不可欠である。

K. Zhang et al, "Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising", IEEE Trans. Image Process, Vol. 26, No. 7, 2017

しかしながら、従来技術では、ノイズ除去などの信号処理を事前に行っても、後段の信号処理（認識処理など）を高精度に実行できない場合があった。

実施形態の信号処理装置は、信号処理部と、変換部と、第１ロス算出部と、学習部と、を備える。信号処理部は、入力信号に対してニューラルネットワークにより第１信号処理を行い、第１出力信号を出力する。変換部は、第１出力信号を、他の信号処理装置が実行する第２信号処理の精度に関連する第１ロスを算出するための第２出力信号に変換する。第１ロス算出部は、第２出力信号と正解信号とに基づいて、第１ロスを算出する。学習部は、算出された第１ロスを用いてニューラルネットワークのパラメータを学習する。

第１の実施形態に係る信号処理装置のブロック図。第１の実施形態における学習処理のフローチャート。第１の実施形態における変換部の構成例を示す図。信号処理の構成例を示す図。信号処理の構成例を示す図。信号処理の構成例を示す図。信号処理の構成例を示す図。第２の実施形態にかかる信号処理装置のブロック図。第２の実施形態における学習処理のフローチャート。第２の実施形態における変換部の構成例を示す図。第３の実施形態にかかる信号処理装置のブロック図。第３の実施形態における統計情報算出処理のフローチャート。第３の実施形態における信頼度算出処理のフローチャート。統計情報および信頼度の算出方法の一例を説明するための図。第１から第３の実施形態にかかる信号処理装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。

認識処理などの信号処理の前処理としては、例えば、上述のノイズ除去などのように信号を復元する信号処理（信号復元処理）が知られている。以下の実施形態を適用する前処理としての信号処理は、信号復元処理に限られず、どのような信号処理であってもよい。

信号復元処理は長年研究されており、信号強度よりノイズ強度が小さい一般的なケースについては有効な手法が数多く存在する。その一方で信号強度よりノイズ強度が大きいようなＳＮ比が著しく低いケースに対しては有効な手法は確立されていない。

信号のＳＮ比が著しく低くなるシーンとして以下の例が挙げられる。
・早期発見や予兆検知を目的とした計測のため、対象となる信号が微弱である
・計測時間の制約や環境特有の外乱により、ノイズが増大する

認識処理だけでなく、信号復元処理を含む前処理としての信号処理に関してもニューラルネットワークを用いた手法が開発されている。信号復元処理を行う世界最高性能のニューラルネットワークは、畳み込みニューラルネットワークという種類のものである。畳み込みニューラルネットワークは、従来の信号処理で行っていたようなフィルタ処理を学習させる方式である。畳み込みニューラルネットワークを用いた信号復元が対象とするノイズは小さいため、二乗誤差をロスとして学習することでノイズ低減が可能である。しかし、前述したような信号のＳＮ比が著しく低くなる問題にそのまま適用することは困難だと予想される。

例えば二乗誤差のみに基づいて最適化する方法では、ノイズの強度が高い場合に信号成分も抑制される可能性がある。特に復元対象信号よりもノイズ強度が大きい場合、全体の信号強度を抑制することで二乗誤差を大幅に小さくできるためである。このような場合、従来の方法でノイズ除去などの信号処理を行っても後段の信号処理にとって有用な復元信号は得られず、結果として後段の信号処理を高精度に実行できないという場合があった。

（第１の実施形態）
第１の実施形態では、後段の信号処理の精度に関連するロスを用いて、前段の信号処理を学習する。例えば本実施形態では、前段の信号処理による出力信号を、後段の信号処理の精度に関連するロスを算出するための出力信号に変換し、変換後の出力信号を用いてロスを算出する。そして、算出したロスを用いて前段の信号処理で用いるニューラルネットワークのパラメータが学習される。

このように本実施形態では、信号復元処理などの前段の信号処理と、その信号処理の結果である出力信号を処理する後段の信号処理を含む運用形態を対象とする。本実施形態により、後段の信号処理をより高精度に実行可能となる。例えば入力信号にノイズが多い場合であっても、信号復元処理においてノイズのみを正しく抑制し、信号成分の抑制を防ぐことが可能となる。

ここで、ニューラルネットワークの学習（パラメータ最適化）の流れについて説明する。ニューラルネットワークは、ネットワークパラメータＷ（重み行列）による線形変換と、活性化関数ｆ（・）による非線形変換と、の組み合わせによって、入力信号ｘから所望の信号ｙを出力する関数のことを指す。学習を行うにあたり、入力信号に対する正解データｔと信号ｙとの誤差であるロスＥ（Ｗ）を事前に定義する。

ニューラルネットワークの学習は、ロスの最小化問題を解くことに相当し、ロスをネットワークパラメータＷで偏微分して得られる勾配に基づいて、勾配法によってネットワークパラメータＷを繰り返し更新していく処理となる。また、勾配の算出に関しては、ロスが活性化関数を含んだ入れ子構造となっているため、効率的に偏微分を行うための誤差逆伝播法という手法が一般的に用いられている。

図１は、第１の実施形態に係る信号処理装置１００の構成の一例を示すブロック図である。図１に示すように信号処理装置１００は、信号処理部１０１と、変換部１０２と、ロス算出部１０３と、学習部１０４と、記憶部１２１と、を備えている。信号処理装置１００には、入力信号３０１と正解信号３０２とが入力され、復元信号３０３が、信号処理装置２００に出力される。

入力信号３０１は、少なくとも１つ以上の多次元信号である。多次元信号は、例えば画像および音声などの信号であるが、これら以外のどのような信号であってもよい。画像または音声を一定区間（フレームなど）で分割した複数の多次元信号を入力信号として入力されてもよい。多次元信号が時系列信号であってもよい。

信号処理部１０１は、入力信号３０１に対するニューラルネットワークを用いた信号処理（第１信号処理）を行い、信号処理の結果である出力信号（第１出力信号）を出力する。例えば信号処理部１０１は、信号復元処理を行うニューラルネットワークによる信号処理を行う。以下では、主に信号復元処理による処理結果である復元信号３０３が出力信号として出力される場合を例に説明する。

信号処理は１種類である必要はなく、２種類以上の信号処理を組み合わせた信号処理であってもよい。信号処理部１０１が用いるニューラルネットワークは、ロス算出部１０３で算出されたロスをもとに最適化される。

復元信号３０３は、ニューラルネットワークによって復元された１つ以上の多次元信号である。例えば復元信号３０３は、入力信号３０１と同じ次元、かつ、同じ個数の多次元信号である。

なお、信号処理装置２００は、復元信号３０３に対して所定の信号処理（第２信号処理）を実行する。例えば信号処理装置２００は、信号処理部１０１が実行する信号復元処理以外の信号処理を行う。信号処理装置２００による信号処理は、例えば、分類、認識、検出、セグメンテーション、キャプショニング、および、機械翻訳のうち少なくとも１つ以上の処理である。後述する図４〜図７の例と同様に、２以上の処理は、複数の処理を直列に実行してもよいし、並列に実行してもよいし、直接の処理と並列の処理を組み合わせてもよい。複数の処理を並列に実行した後に、複数の処理の結果を合成して出力してもよい。

信号処理装置１００は、信号処理装置２００と物理的に異なる装置として構成してもよいし、信号処理装置２００と一体に構成してもよい。信号処理装置１００が備える機能を、複数の物理的に異なる装置に分散して備えてもよい。例えば信号処理装置１００の機能の少なくとも一部は、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。

正解信号３０２は、少なくとも１つ以上の多次元信号である。例えば正解信号３０２は、復元信号３０３と同じ次元、かつ、同じ個数の多次元信号である。

変換部１０２は、復元信号３０３を、信号処理装置２００が実行する信号処理の精度に関連するロス（第１ロス）を算出するための出力信号（第２出力信号）に変換する。さらに変換部１０２は、正解信号３０２も復元信号３０３と同様に変換する。すなわち変換部１０２は、復元信号３０３を変換後の復元信号３０５に変換し、正解信号３０２を変換後の正解信号３０４に変換する。

変換部１０２による変換処理は、信号処理装置２００の信号処理と同じであってもよいし、異なっていてもよい。例えば信号処理装置２００でキャプショニングを行う場合、変換部１０２の処理はキャプショニングでもよいし、画像分類でもよい。また、変換部１０２は、信号処理装置２００から指定される変換方法により、変換処理を行ってもよい。例えば変換部１０２は、信号処理装置２００から処理内容を受け取り、この処理内容に従い、信号処理装置２００と同一の信号処理を行ってもよい。信号処理装置２００の信号処理がニューラルネットワークによって行われる場合、変換部１０２は、例えばネットワーク構造および学習済みのパラメータを、処理内容として受け取ってもよい。

ロス算出部１０３は、変換後の復元信号３０５と変換後の正解信号３０４とに基づいて、信号処理装置２００の処理精度と関連のあるロスを算出する。ロス算出部１０３が算出するロスは、例えば以下のうちいずれか、または、これらのうち２つ以上を組み合わせた指標とすることができる。
・真陽性率（True positive ratio）
・偽陽性率（False positive ratio）
・適合率（Precision）
・再現率（Recall）
・正確度（Accuracy）
・Ｆ値（F-measure）
・ＡＵＣ（Area Under the ROC Curve）
・Ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ
・Ｔｒｉｐｌｅｔｌｏｓｓ
・交差エントロピー（Cross entropy）
・ＫＬダイバージェンス（Kullback-Leibler divergence）
・ＪＳダイバージェンス（Jensen Shannon divergence）
・ワッサースタイン距離（Wasserstein distance）
・ＩｏＵ（Intersection of Union）
・ＢＬＥＵ（BiLingual Evaluation Understudy）スコア
・ＷＥＲ（Word Error Rate）
・ＭＥＴＥＯＲ（Metric for Evaluation of Translation with Explicit ORdering）

例えば、信号処理装置２００の信号処理が分類の場合、ロス算出部１０３は、交差エントロピーだけをロスとしてもよいし、交差エントロピーおよびＡＵＣの両方を何らかの演算によって組み合わせた指標をロスとしてもよい。

学習部１０４は、算出されたロスを用いて、信号処理部１０１が用いるニューラルネットワークのパラメータを更新する。例えば学習部１０４は、誤差逆伝播法によりロスの勾配を計算し、勾配法などによってニューラルネットワークのパラメータを更新する。勾配計算方法は誤差逆伝播法に限られず、どのような方法であってもよい。

学習部１０４は、ニューラルネットワークの最適化処理の途中で、ロスの種類を１回以上切り替えてもよい。例えば学習部１０４は、信号処理装置２００の信号処理が分類の場合、学習序盤は交差エントロピーをロスとして用い、学習終盤はＡＵＣをロスとして用いて最適化を実行する。連続的に変化する交差エントロピーを学習序盤に用いることで、学習停滞を回避し、離散的に変化するＡＵＣを学習終盤に用いることで学習の収束が期待される。

記憶部１２１は、信号処理装置１００で用いられる各種情報を記憶する。例えば記憶部１２１は、信号処理部１０１が用いるニューラルネットワークのパラメータを示す情報、入力された情報（入力信号３０１など）、各種処理の中間データ、および、処理結果を示す情報（復元信号など）などを記憶する。

記憶部１２１は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

上記各部（信号処理部１０１、変換部１０２、ロス算出部１０３、および、学習部１０４）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

次に、このように構成された第１の実施形態にかかる信号処理装置１００による学習処理について図２を用いて説明する。図２は、第１の実施形態における学習処理の一例を示すフローチャートである。

信号処理部１０１は、信号処理部１０１で用いるニューラルネットワークに入力信号３０１を入力して信号処理を実行し、学習中の信号復元処理によって復元された復元信号３０３を出力する（ステップＳ１０１）。

変換部１０２は、復元信号３０３および正解信号３０２をそれぞれ変換し、変換後の復元信号３０５と変換後の正解信号３０４を出力する（ステップＳ１０２）。

ロス算出部１０３は、変換後の復元信号３０５および変換後の正解信号３０４から、信号処理装置２００の処理精度と関連のあるロスを算出する（ステップＳ１０３）。

学習部１０４は、算出したロスに基づいて、勾配を算出し、その勾配に基づいて信号処理部１０１で用いるニューラルネットワークのパラメータを更新する（ステップＳ１０４）。学習部１０４は、学習を終了するか否かを判定する（ステップＳ１０５）。例えば学習部１０４は、パラメータの更新回数が所定の繰り返し回数に達していれば学習を終了すると判定する。

学習を終了しない場合（ステップＳ１０５：Ｎｏ）、ステップＳ１０１に戻り処理が繰り返される。学習を終了する場合（ステップＳ１０５：Ｙｅｓ）、学習処理が終了される。

以下、第１の実施形態の信号変換処理および算出されるロスの具体例について説明する。

（音声分類または音声認識）
図３は、第１の実施形態における変換部１０２の構成例を示す図である。図３は、音声信号である復元信号３０３および正解信号３０２を用いる例を示す。すなわち、入力信号３０１が音声信号であり、信号処理装置２００による信号処理が音声分類または音声認識の場合の例を示す。

この場合、信号処理部１０１での信号復元処理は例えばノイズ除去であり、復元信号３０３は音声信号、正解信号３０２は音声信号、変換部１０２の信号変換処理は二値化、変換後の復元信号３０５は二値信号、および、変換後の正解信号３０４は二値信号となる。

変換部１０２は、変換後の復元信号３０５と変換後の正解信号３０４の各成分を、例えば、設定した閾値によってノイズ成分「０」と信号成分「１」のような二値のラベルに変換する。ここで、変換後の復元信号３０５をｙ＝｛ｙ_１，ｙ_２，・・・，ｙ_Ｎ｜ｙ_ｉ∈０，１｝、変換後の正解信号３０４をｔ＝｛ｔ_１，ｔ_２，・・・，ｔ_Ｎ｜ｔ_ｉ∈０，１｝とする。Ｎは、各信号の次元数である。ロス算出部１０３は、以下の（１）式により真陽性率ＴＰＲを算出し、（１−ＴＰＲ）をロスとして算出する。ＴＰＲは真のものを正しく真と判断した割合を意味し、ノイズ成分と信号成分の２クラス分類の場合、信号成分の検出率に相当する。

学習部１０４は、算出されたロスが小さくなるように信号処理部１０１で用いるニューラルネットワークのパラメータを更新する。これによって、信号処理装置２００の処理精度が改善するような復元信号３０３を出力するように信号処理部１０１で用いるニューラルネットワークが最適化される。

ロスはこれに限られるものではなく、例えば偽陽性率をロスに追加してもよい。例えばロス算出部１０３は、以下の（２）式により偽陽性率ＦＰＲを算出し、（１−ＴＰＲ）とＦＰＲとの和をロスとして算出する。学習部１０４は、このロスを用いて、信号処理部１０１で用いるニューラルネットワークのパラメータを最適化する。ＦＰＲは偽のものを真と判断した割合を意味し、ノイズ成分と信号成分の２クラス分類の場合、ノイズ成分を信号成分として検出した誤検出率に相当する。

（画像分類または画像認識）
例えば、入力信号３０１が画像であり、信号処理装置２００の信号処理が画像分類または画像認識であるとする。この場合、例えば、信号処理部１０１での信号復元処理はノイズ除去、復元信号３０３は画像、正解信号３０２は画像、変換部１０２の信号変換処理は画像分類または画像認識の１つ以上組み合わせた処理、および、変換後の復元信号３０５と変換後の正解信号３０４はＮ個のクラスに対する帰属度を示す０から１の値を取るＮ次元の確率ベクトルとなる。

ここで、変換後の復元信号３０５をｙ＝｛ｙ_１，ｙ_２，・・・，ｙ_Ｎ｜０≦ｙ_ｉ≦１｝、変換後の正解信号３０４をｔ＝｛ｔ_１，ｔ_２，・・・，ｔ_Ｎ｜０≦ｔ_ｉ≦１｝とする。ロス算出部１０３は、以下の（３）式により交差エントロピーＣＥをロスとして算出する。

ロスはこれに限られるものではなく、ＫＬダイバージェンス、ＪＳダイバージェンス、および、ワッサースタイン距離を用いてもよい。またロス算出部１０３は、これらのうち２つ以上を組み合わせた値をロスとして算出してもよい。例えばロス算出部１０３は、（交差エントロピー＋ＫＬダイバージェンス）／２をロスとして算出してもよい。

（セグメンテーションまたはキャプショニング）
例えば、入力信号３０１が画像であり、信号処理装置２００の信号処理がセグメンテーションまたはキャプショニングであるとする。この場合、例えば、信号処理部１０１での信号復元処理はノイズ除去、復元信号３０３は画像、正解信号３０２は画像、変換部１０２の信号変換処理は二値化、および、変換後の復元信号３０５と変換後の正解信号３０４は二値にラベル付けされた画像となる。

ここで、変換後の復元信号３０５をｙ＝｛ｙ_１，ｙ_２，・・・，ｙ_Ｎ｜ｙ_ｉ∈０，１｝、変換後の正解信号３０４をｔ＝｛ｔ_１，ｔ_２，・・・，ｔ_Ｎ｜ｔ_ｉ∈０，１｝とする。ロス算出部１０３は、上記（１）式により真陽性率ＴＰＲを算出し、（１−ＴＰＲ）をロスとして算出する。

音声分類または音声認識の場合と同様に、例えば偽陽性率をロスに追加してもよい。例えばロス算出部１０３は、上記（２）式により偽陽性率ＦＰＲを算出し、（１−ＴＰＲ）とＦＰＲとの和をロスとして算出する。

また、例えば変換部１０２の信号変換処理は、セグメンテーション、キャプショニング、または、画素値の大きさに基づくクラスタリングとし、変換後の復元信号３０５と変換後の正解信号３０４は多値にラベル付けされた画像としてもよい。ここで、セグメンテーションは画像を入力とし、その画像中の各画素に物体のクラスを意味するラベル付けを行うもの等であり、キャプショニングは画像を入力とし、その画像を説明する文章を出力するもの等を指す。この場合、ロス算出部１０３は、クラスごとにＩｏＵ（Intersection of Union）を算出し、（１−ＩｏＵ）の平均値をロスとして算出しもよい。ＩｏＵは、推定領域と正解領域の共通部分の面積を、推定領域と正解領域の面積で除算した指標であり、１に近い程、高性能であることを示す。

（機械翻訳）
例えば、入力信号３０１が音声信号で、信号処理装置２００の信号処理が機械翻訳であるとする。この場合、例えば、信号処理部１０１での信号復元処理はノイズ除去、復元信号３０３は音声信号、正解信号３０２は音声信号、変換部１０２の信号変換処理は音声またはノイズにラベル付けをする二値化、および、変換後の復元信号３０５と変換後の正解信号３０４は、ニ値にラベル付けされた信号のいずれかとなる。

音声分類または音声認識などの場合と同様に、例えば偽陽性率をロスに追加してもよい。例えばロス算出部１０３は、上記（２）式により偽陽性率ＦＰＲを算出し、（１−ＴＰＲ）とＦＰＲとの和をロスとして算出する。

次に、信号処理部１０１のニューラルネットワークによる信号処理の具体例について説明する。信号処理部１０１による信号処理は、例えば、ノイズ除去、超解像、物体除去、ボケ除去、欠損修復、アーチファクト除去、および、音声強調（Speech enhancement）のいずれか、または、これらのうち２つ以上を組み合わせた処理である。欠損修復には、例えばインペインティング（Ｉｎｐａｉｎｔｉｎｇ）が含まれる。

図４〜図７は、信号処理の構成例を示す図である。図４は、１つの信号処理を適用する例である（単体）。図５は、複数の信号処理を順番に適用する例である（直列）。図６は、入力信号にそれぞれ信号処理を適用し、最後に合成する例である（並列）。図７は、直列と並列とを混在させる例である（混在）。例えば、低解像度かつノイズレベルが高い入力信号に対しては、超解像とノイズ除去を直列で行うように構成してもよい。上記のように、信号処理装置２００による信号処理も、図４〜図７に示すような４パターンの構成を適用できる。

このように、第１の実施形態にかかる信号処理装置では、後段の信号処理の精度に関連するロスを用いて、前段の信号処理を学習する。これにより、後段の信号処理をより高精度に実行可能となる。

（第２の実施形態）
第２の実施形態にかかる信号処理装置は、変換前の復元信号および正解信号から算出されるロスをさらに考慮してニューラルネットワークのパラメータを学習する。

図８は、第２の実施形態にかかる信号処理装置１００−２の構成の一例を示すブロック図である。図８に示すように、信号処理装置１００−２は、信号処理部１０１と、変換部１０２と、ロス算出部１０３と、学習部１０４−２と、ロス算出部１０５−２と、ロス合成部１０６−２と、記憶部１２１と、を備えている。

第２の実施形態では、ロス算出部１０５−２とロス合成部１０６−２とを追加したこと、および、学習部１０４−２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる信号処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

ロス算出部１０５−２は、復元信号３０３と正解信号３０２から信号同士の誤差であるロス（第２ロス）を算出する。ロス算出部１０５−２が算出するロスは、例えば以下のうちいずれか、または、これらのうち２つ以上を組み合わせた指標とすることができる。
・Ｌ１ロス
・Ｌ２ロス
・Ｃｈａｒｂｏｎｎｉｅｒロス
・Ｈｕｂｅｒロス

例えば、信号処理装置２００の信号処理がノイズ除去の場合、ロス算出部１０５−２は、Ｌ２ロスだけをロスとしてもよいし、Ｌ１ロスおよびＬ２ロスの両方を何らかの演算によって組み合わせた指標をロスとしてもよい。

ロス合成部１０６−２は、ロス算出部１０３によって算出されたロスと、ロス算出部１０５−２によって算出されたロスとを、何らかの演算によって１つの値に合成する。例えばロス合成部１０６−２は、第１ロスと第２ロスの少なくとも一方に重みを乗算してから加算する。この重みは、ニューラルネットワークの学習中に固定である必要はなく、学習の進み具合に応じて動的に値の大きさを変更してもよい。これにより一種のカリキュラムラーニングを行うことが可能となる。

学習部１０４−２は、ロス合成部１０６−２によって合成されたロスを用いてニューラルネットワークのパラメータを学習する。学習部１０４−２は、ニューラルネットワークの最適化処理の途中で、使用するロスの種類を１回以上切り替えてもよい。例えば学習部１０４−２は、信号処理装置２００の信号処理がノイズ除去の場合、学習序盤はＬ２ロスを用い、学習終盤はＬ１ロスを用いて最適化を実行する。Ｌ２ロスは大きい誤差に対して大きなペナルティを与えるが、Ｌ１ロスのペナルティは誤差の大きな対して線形であるため、学習終盤にＬ１ロスに切り替えることで信号の微細な構造を復元できることが期待される。

次に、このように構成された第２の実施形態にかかる信号処理装置１００−２による学習処理について図９を用いて説明する。図９は、第２の実施形態における学習処理の一例を示すフローチャートである。

ステップＳ２０１からステップＳ２０３は、第１の実施形態にかかる信号処理装置１００におけるステップＳ１０１からステップＳ１０３までと同様の処理なので、その説明を省略する。

ロス算出部１０５−２は、変換前の復元信号３０３と変換前の正解信号３０２とからロス（第２ロス）を算出する（ステップＳ２０４）。ロス合成部１０６−２は、ステップＳ２０３で算出されたロスと、ステップＳ２０４で算出されたロスと、を１つの値に合成する（ステップＳ２０５）。学習部１０４は、合成したロスに基づいて、勾配を算出し、その勾配に基づいて信号処理部１０１で用いるニューラルネットワークのパラメータを更新する（ステップＳ２０６）。

ステップＳ２０７は、第１の実施形態にかかる信号処理装置１００におけるステップＳ１０５と同様の処理なので、その説明を省略する。

以下、第２の実施形態の信号変換処理および算出されるロスの具体例について説明する。

（音声分類または音声認識）
図１０は、第２の実施形態における変換部１０２の構成例を示す図である。図１０は、音声信号である復元信号３０３および正解信号３０２を用いる例を示す。すなわち、入力信号３０１が音声信号であり、信号処理装置２００による信号処理が音声分類の場合の例を示す。

ロス算出部１０３は、第１の実施形態と同様に、例えば（１−ＴＰＲ）を第１ロスとして算出する。ロス算出部１０５−２は、復元信号３０３と正解信号３０２からＬ２ロスを第２ロスとして算出する。ロス合成部１０６−２は、例えば第１ロスと第２ロスとの重み付き和を最終的なロスとして合成する。学習部１０４は、算出されたロスが小さくなるように信号処理部１０１で用いるニューラルネットワークのパラメータを更新する。

第１の実施形態と同様に、例えば偽陽性率をロスに追加してもよい。例えばロス算出部１０３は、上記（２）式により偽陽性率ＦＰＲを算出し、（１−ＴＰＲ）とＦＰＲとの和を第１ロスとして算出する。

ロス算出部１０３は、第１の実施形態と同様に、例えば交差エントロピーＣＥを第１ロスとして算出する。ロス算出部１０５−２は、復元信号３０３と正解信号３０２とからＬ２ロスを第２ロスとして算出する。ロス合成部１０６−２は、第１ロスと第２ロスとの重み付き和を最終的なロスとして合成する。学習部１０４−２は、合成されたロスを用いて信号処理部１０１で用いるニューラルネットワークのパラメータを更新する。

第１の実施形態と同様に、第１ロスは、ＫＬダイバージェンス、ＪＳダイバージェンス、ワッサースタイン距離のいずれか、または、これらのうち２つ以上を組み合わせた値であってもよい。

（セグメンテーションまたはキャプショニング）
例えば、入力信号３０１が画像であり、信号処理装置２００の信号処理がセグメンテーションまたはキャプショニングであるとする。この場合、例えば、信号処理部１０１での信号復元処理はノイズ除去、復元信号３０３は画像、正解信号３０２は多値にラベル付けされた画像、変換部１０２の信号変換処理は二値化で、変換後の復元信号３０５と変換後の正解信号３０４は二値にラベル付けされた画像となる。

ロス算出部１０３は、第１の実施形態と同様に、例えば真陽性率を第１ロスとして算出する。ロス算出部１０５−２は、復元信号３０３と正解信号３０２からＬ２ロスを第２ロスとして算出する。ロス合成部１０６−２は、第１ロスと第２ロスとの重み付き和を最終的なロスとして合成する。学習部１０４−２は、合成されたロスに基づいて信号処理部１０１で用いるニューラルネットワークのパラメータを更新する。

また、例えば偽陽性率をロスに追加してもよい。例えばロス算出部１０３は、上記（２）式により偽陽性率ＦＰＲを算出し、（１−ＴＰＲ）とＦＰＲとの和をロスとして算出する。

また、例えば変換部１０２の信号変換処理は、セグメンテーション、キャプショニング、または、画素値の大きさに基づくクラスタリングとし、変換後の復元信号３０５と変換後の正解信号３０４は多値にラベル付けされた画像としてもよい。この場合、ロス算出部１０３は、クラスごとにＩｏＵを算出し、（１−ＩｏＵ）の平均値をロスとしてもよい。

（機械翻訳）
例えば、入力信号３０１が音声信号で、信号処理装置２００の信号処理が機械翻訳であるとする。この場合、例えば、信号処理部１０１での信号復元処理はノイズ除去、復元信号３０３は音声信号、正解信号３０２は機械翻訳結果のベクトル、変換部１０２の信号変換処理は二値化、および、変換後の復元信号３０５と変換後の正解信号３０４は二値にラベル付けされた信号となる。

ロス算出部１０３は、第１の実施形態と同様に、例えば（１−ＴＰＲ）を第１ロスとして算出する。ロス算出部１０５−２は、復元信号３０３と正解信号３０２からＬ２ロスを第２ロスとして算出する。ロス合成部１０６−２は、第１ロスと第２ロスとの重み付き和を最終的なロスとして合成する。学習部１０４−２は、合成されたロスに基づいて信号処理部１０１で用いるニューラルネットワークのパラメータを更新する。

このように、第２の実施形態にかかる信号処理装置では、変換前の復元信号および正解信号から算出されるロスをさらに考慮してニューラルネットワークのパラメータを学習することができる。これにより、後段の信号処理をさらに高精度に実行可能となる。

（第３の実施形態）
信号復元処理は後段の信号処理装置２００での信号処理の前処理として位置づけられる。一方、例えば後段処理の説明の観点等から、信号復元処理の結果を確認可能とすることが要求される状況が予想される。このような状況に対応するため、第３の実施形態では、復元信号の信頼度を算出して出力する。例えば、信頼度に応じて後段の処理を切り替えれば、信頼度の低いデータに対してより適切な処理をすることによってより適切な処理結果が得られる。なお以下では第１の実施形態に機能を追加して本実施形態とする例を説明するが、第２の実施形態に対しても同様の機能追加を行うことができる。

図１１は、第３の実施形態にかかる信号処理装置１００−３の構成の一例を示すブロック図である。図１１に示すように、信号処理装置１００−３は、信号処理部１０１−３と、変換部１０２と、ロス算出部１０３と、学習部１０４と、統計情報算出部１０７−３と、信頼度算出部１０８−３と、制御部１０９−３と、記憶部１２１と、を備えている。

第３の実施形態では、統計情報算出部１０７−３と、信頼度算出部１０８−３と、制御部１０９−３と、を追加したこと、および、信号処理部１０１−３の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる信号処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

統計情報算出部１０７−３は、変換後の復元信号３０５の統計情報を算出する。統計情報算出部１０７−３は、例えば学習時に、変換後の復元信号３０５（学習信号セットに含まれるすべての復元信号）の統計情報３０６−３を算出する。統計情報算出部１０７−３は、推論時には、変換後の復元信号３０５（評価対象となる単一の復元信号）を入力し、推論時の統計情報３０６−３を算出する。

信頼度算出部１０８−３は、学習時の統計情報３０６−３と推論時の統計情報３０６−３とに基づいて、推論時の復元信号３０３の信頼度を算出する。統計情報の算出方法、および、信頼度の算出方法の詳細は後述する。

制御部１０９−３は、例えば変換後の復元信号３０５に応じて、信号処理部１０１−３が実行する信号処理を制御する。例えば制御部１０９−３は、変換後の復元信号３０５から算出される信頼度が予め定められた閾値より小さい場合に、信号処理部１０１−３がニューラルネットワークを用いない信号処理を実行するように制御する。この場合、信号処理部１０１は、ニューラルネットワークを用いない信号処理の処理結果を信号処理装置２００に出力する。

制御部１０９−３は、信頼度が閾値より小さい場合に、変換後の復元信号３０５を入力信号として信号処理部１０１−３に入力し、信頼度が閾値以上となるまで信号復元処理を繰り返し実行させるように構成してもよい。

信号処理部１０１−３は、さらに、ニューラルネットワークを用いない信号処理を実行可能な点が、上記実施形態の信号処理部１０１と異なっている。例えば信号処理部１０１−３は、算出された信頼度が閾値より低い場合に、制御部１０９−３からの指示に応じて、ニューラルネットワークを用いない信号復元処理を実行する。ニューラルネットワークを用いない信号復元処理は、例えば、フィルタを用いた信号復元処理を含む。フィルタは、ガウシアンフィルタ、および、メディアンフィルタなどのローパスフィルタを用いることができる。多次元信号が画像の場合、ＢＭ３Ｄ（Block Matching and 3D Collaborative Filtering）などのハンドクラフト方式を適用してもよい。

次に、このように構成された第３の実施形態にかかる信号処理装置１００−３による統計情報算出処理について図１２を用いて説明する。図１２は、第３の実施形態における統計情報算出処理の一例を示すフローチャートである。

統計情報算出部１０７−３は、学習時における変換後の復元信号３０５から統計情報を算出する（ステップＳ３０１）。統計情報算出部１０７−３は、算出した統計情報を、例えば記憶部１２１に記憶する（ステップＳ３０２）。その他にも、例えば変換後の復元信号を成功データと失敗データに分けて統計情報を算出してもよいし、例えば変換後の正解データから算出してもよい。

次に、第３の実施形態にかかる信号処理装置１００−３による信頼度算出処理について図１３を用いて説明する。図１３は、第３の実施形態における信頼度算出処理の一例を示すフローチャートである。

統計情報算出部１０７−３は、推論時における変換後の復元信号３０５から統計情報を算出する（ステップＳ４０１）。信頼度算出部１０８−３は、得られた統計情報と記憶部１２１などに記憶された統計情報とから、信頼度を算出する（ステップＳ４０２）。その他にも、例えば学習時に変換後の復元信号を成功データと失敗データに分けて統計情報を算出した場合、その２つの統計情報と推論時の統計情報から信頼度を計算してもよい。この後、制御部１０９−３が、算出された信頼度に応じて、上記のような制御を行ってもよい。

以下に、統計情報の算出方法、および、信頼度の算出方法の具体例について説明する。

（音声分類または音声認識）
図１４は、統計情報および信頼度の算出方法の一例を説明するための図である。図１４の上部は、学習時における変換後の復元信号３０５、および、得られた統計情報３０６−３の例を示す。図１４の下部は、推論時における変換後の復元信号３０５、得られた統計情報３０６−３、信頼度の算出方法を示すグラフ１４０１、および、算出される信頼度１４０２の例を示す。

入力信号３０１が音声信号、信号処理装置２００が音声分類または音声認識、変換後の復元信号３０５が二値信号である場合の例である。この場合、統計情報算出部１０７−３は、複数の変換後の復元信号３０５それぞれについて、ラベル「１」の合計（信号成分の個数）を算出する。統計情報算出部１０７−３は、合計の値ごとの度数を示すヒストグラムを、統計情報３０６−３として算出する。ヒストグラムは、例えば度数の最大値が１となるように正規化されてもよい。

推論時には、統計情報算出部１０７−３は、推論時における変換後の復元信号３０５について、ラベル「１」の合計を算出する。

信頼度算出部１０８−３は、学習時の統計情報３０６−３のヒストグラムの平均値（Ｍｅａｎ）と標準偏差（ＳＤ）に基づいて、推論時の統計情報が示す合計値（Ｓｕｍ）の学習時の統計情報３０６−３の平均値（Ｍｅａｎ）からの離れ度合を信頼度１４０２として算出する。例えば、ＳｕｍがＭｅａｎより大きい場合、信頼度を１−ｍａｘ（０，Ｓｕｍ−Ｍｅａｎ＋ＳＤ)として算出する。同様に、ＳｕｍがＭｅａｎより小さい場合、１−ｍａｘ（０，Ｍｅａｎ−ＳＤ−Ｓｕｍ)を信頼度として計算する。

このような構成によって、推論時の復元信号３０３に対して信頼度が得られる。

（画像分類または画像認識）
例えば、入力信号３０１が画像であり、信号処理装置２００の信号処理が画像分類または画像認識であり、変換後の復元信号３０５が分類結果の確率ベクトルであるとする。この場合、例えば、統計情報算出部１０７−３は、各クラスの帰属度ベクトルの平均を、統計情報３０６−３として算出する。

推論時には、統計情報算出部１０７−３は、推論時における変換後の復元信号３０５の確率ベクトルを、統計情報３０６−３として算出する。信頼度算出部１０８−３は、学習時の統計情報３０６−３と学習時の統計情報３０６−３に基づいて、交差エントロピーのような分布間距離を信頼度として算出する。

例えば、推論時の分類結果の帰属度ベクトルが学習時の帰属度ベクトルの平均から離れている場合、復元信号３０３の信頼度が低いということになる。

（セグメンテーション）
例えば、入力信号３０１が画像であり、信号処理装置２００の信号処理がセグメンテーションであり、変換後の復元信号３０５が多値にラベル付けされた画像であるとする。この場合、例えば、統計情報算出部１０７−３は、複数のラベルごとに、各ラベルが付与された画素の個数（画素数）の和を算出する。統計情報算出部１０７−３は、画素数の値ごとの度数を示すヒストグラムを、統計情報３０６−３として算出する。ヒストグラムは、ラベルごとに算出される。ヒストグラムは、例えば度数の最大値が１となるように正規化されてもよい。

推論時には、統計情報算出部１０７−３は、推論時における変換後の復元信号３０５の各ラベルの画素数の和を統計情報３０６−３として算出する。信頼度算出部１０８−３は、ラベルごとに、画素数の和に対応するヒストグラムの度数を算出し、算出した複数の度数の平均を、信頼度として算出する。

例えば、人というラベルがついた画素数が学習時に比べて多い場合、信号復元の失敗によってセグメンテーションが失敗している可能性があると推測することができる。

（キャプショニング）
例えば、入力信号３０１が画像であり、信号処理装置２００の信号処理がキャプショニングであり、変換後の復元信号３０５がキャプション結果の単語のベクトルであるとする。この場合、例えば、統計情報算出部１０７−３は、キャプション結果を示す単語ごとに、単語の出現回数を算出する。統計情報算出部１０７−３は、単語の出現回数ごとの度数を示すヒストグラムを、統計情報３０６−３として算出する。ヒストグラムは、単語ごとに算出される。ヒストグラムは、例えば度数の最大値が１となるように正規化されてもよい。

推論時には、統計情報算出部１０７−３は、推論時における変換後の復元信号３０５の各単語の出現回数を、統計情報３０６−３として算出する。信頼度算出部１０８−３は、単語ごとに、単語の出現回数に対応するヒストグラムの度数を算出し、算出した度数の平均を、信頼度として算出する。

例えば、学習時に出現回数が少ない単語が推論時の復元信号３０３に含まれるとき、ノイズの影響によって誤認識している可能性があると推測される（対象の画像群が共通のカテゴリに属するという仮定をした場合）。

（機械翻訳）
例えば、入力信号３０１が音声信号であり、信号処理装置２００の信号処理が機械翻訳であり、変換後の復元信号３０５が機械翻訳結果の単語のベクトルであるとする。この場合、例えば、統計情報算出部１０７−３は、機械翻訳結果を示す単語ごとに、単語の出現回数を算出する。統計情報算出部１０７−３は、単語の出現回数ごとの度数を示すヒストグラムを、統計情報３０６−３として算出する。ヒストグラムは、単語ごとに算出される。ヒストグラムは、例えば度数の最大値が１となるように正規化されてもよい。

このように、第３の実施形態にかかる信号処理装置では、例えば推論時において復元信号３０３の信頼度が得られる。

（変形例１）
正解信号は、変換部１０２により変換しなくてもよい。例えば上記の変換後の正解信号３０４の形式に予め変換された信号を正解信号３０２とし、変換部１０２において正解信号３０２に信号変換処理を実行しなくてもよい。第２の実施形態の場合は、変換後の正解信号３０４の形式に予め変換された信号と、復元信号３０３に対する正解信号と同一の形式を有する信号との２つを正解信号３０２とし、変換部１０２において正解信号３０２に信号変換処理を実行しないように構成してもよい。

以上説明したとおり、第１から第３の実施形態によれば、前段の信号処理の出力信号を利用する後段の信号処理をより高精度に実行可能となる。また、各実施形態によれば、信号成分の抑制を防ぐような学習が可能となる。

次に、第１から第３の実施形態にかかる信号処理装置のハードウェア構成について図１５を用いて説明する。図１５は、第１から第３の実施形態にかかる信号処理装置のハードウェア構成例を示す説明図である。

第１から第３の実施形態にかかる信号処理装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第３の実施形態にかかる信号処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第３の実施形態にかかる信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第３の実施形態にかかる信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第３の実施形態にかかる信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第３の実施形態にかかる信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００−２、１００−３、２００信号処理装置
１０１、１０１−３信号処理部
１０２変換部
１０３ロス算出部
１０４、１０４−２学習部
１０５−２ロス算出部
１０６−２ロス合成部
１０７−３統計情報算出部
１０８−３信頼度算出部
１０９−３制御部
１２１記憶部

Claims

入力信号に対してニューラルネットワークにより第１信号処理を行い、第１出力信号を出力する信号処理部と、
前記第１出力信号を、他の信号処理装置が実行する第２信号処理の精度に関連する第１ロスを算出するための第２出力信号に変換する変換部と、
前記第２出力信号と正解信号とに基づいて、前記第１ロスを算出する第１ロス算出部と、
算出された前記第１ロスを用いて前記ニューラルネットワークのパラメータを学習する学習部と、
を備える信号処理装置。
前記第１ロス算出部は、前記第２出力信号と、前記第１ロスを算出するための形式に変換された正解信号とに基づいて前記第１ロスを算出し、
前記第１出力信号と、前記第１ロスを算出するための形式に変換されていない正解信号とに基づいて第２ロスを算出する第２ロス算出部をさらに備え、
前記学習部は、算出された前記第１ロスおよび前記第２ロスを用いて前記パラメータを学習する、
請求項１に記載の信号処理装置。
前記学習部は、学習の進行に応じて、前記第１ロスおよび前記第２ロスの少なくとも一方の重みを変更する、
請求項２に記載の信号処理装置。
前記正解信号は、第１ロスを算出するための形式に予め変換された信号である、
請求項１に記載の信号処理装置。
前記変換部は、前記他の信号処理装置から指定される変換方法により、前記第１出力信号を変換する、
請求項１に記載の信号処理装置。
前記第２出力信号の統計情報を算出する統計情報算出部と、
学習に用いられる複数の入力信号に対応する複数の第２出力信号から算出された第１統計情報と、推論に用いられる入力信号に対応する第２出力信号から算出された第２統計情報とに基づいて、推論に用いられる入力信号に対応する前記第１出力信号の信頼度を算出する信頼度算出部をさらに備える、
請求項１に記載の信号処理装置。
入力信号に対してニューラルネットワークにより第１信号処理を行い、第１出力信号を出力する信号処理ステップと、
前記第１出力信号を、他の信号処理装置が実行する第２信号処理の精度に関連する第１ロスを算出するための第２出力信号に変換する変換ステップと、
前記第２出力信号と正解信号とに基づいて、前記第１ロスを算出する第１ロス算出ステップと、
算出された前記第１ロスを用いて前記ニューラルネットワークのパラメータを学習する学習ステップと、
を含む信号処理方法。
コンピュータを、
入力信号に対してニューラルネットワークにより第１信号処理を行い、第１出力信号を出力する信号処理部と、
前記第１出力信号を、他の信号処理装置が実行する第２信号処理の精度に関連する第１ロスを算出するための第２出力信号に変換する変換部と、
前記第２出力信号と正解信号とに基づいて、前記第１ロスを算出する第１ロス算出部と、
算出された前記第１ロスを用いて前記ニューラルネットワークのパラメータを学習する学習部と、
として機能させるためのプログラム。
入力信号に対してニューラルネットワークにより第１信号処理を行い、第１出力信号を出力する信号処理部と、
前記第１出力信号を、他の信号処理装置が実行する第２信号処理の精度に関連する第１ロスを算出するための第２出力信号に変換する変換部と、
前記第１ロスを用いた前記ニューラルネットワークのパラメータの学習に用いられる複数の入力信号に対応する複数の第２出力信号に応じ、実行する信号処理を制御する制御部と、
を備える信号処理装置。