JP2019164618A - 信号処理装置、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理方法およびプログラム Download PDF

Info

Publication number
JP2019164618A
JP2019164618A JP2018052404A JP2018052404A JP2019164618A JP 2019164618 A JP2019164618 A JP 2019164618A JP 2018052404 A JP2018052404 A JP 2018052404A JP 2018052404 A JP2018052404 A JP 2018052404A JP 2019164618 A JP2019164618 A JP 2019164618A
Authority
JP
Japan
Prior art keywords
signal
loss
signal processing
unit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018052404A
Other languages
English (en)
Other versions
JP6773707B2 (ja
Inventor
典太 笹谷
Tenta Sasaya
典太 笹谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018052404A priority Critical patent/JP6773707B2/ja
Priority to US16/117,350 priority patent/US11599784B2/en
Publication of JP2019164618A publication Critical patent/JP2019164618A/ja
Application granted granted Critical
Publication of JP6773707B2 publication Critical patent/JP6773707B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

【課題】前段の信号処理の出力信号を利用する後段の信号処理をより高精度に実行可能とする。【解決手段】信号処理装置は、信号処理部と、変換部と、第1ロス算出部と、学習部と、を備える。信号処理部は、入力信号に対してニューラルネットワークにより第1信号処理を行い、第1出力信号を出力する。変換部は、第1出力信号を、他の信号処理装置が実行する第2信号処理の精度に関連する第1ロスを算出するための第2出力信号に変換する。第1ロス算出部は、第2出力信号と正解信号とに基づいて、第1ロスを算出する。学習部は、算出された第1ロスを用いてニューラルネットワークのパラメータを学習する。【選択図】図1

Description

本発明の実施形態は、信号処理装置、信号処理方法およびプログラムに関する。
近年、ニューラルネットワークによる、センサ信号(1次元信号や画像)の認識処理は目覚ましい進歩があり、アカデミックな世界に留まらず、自動運転に代表されるような産業応用も進みつつある。しかし、アカデミックな分野で開発された認識処理はSN比が高い理想的なセンサ信号を対象としていることが多く、産業応用をする場合には、センサ信号に含まれる不要成分(ノイズ等)を除去する前処理が必要不可欠である。
K. Zhang et al, "Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising", IEEE Trans. Image Process, Vol. 26, No. 7, 2017
しかしながら、従来技術では、ノイズ除去などの信号処理を事前に行っても、後段の信号処理(認識処理など)を高精度に実行できない場合があった。
実施形態の信号処理装置は、信号処理部と、変換部と、第1ロス算出部と、学習部と、を備える。信号処理部は、入力信号に対してニューラルネットワークにより第1信号処理を行い、第1出力信号を出力する。変換部は、第1出力信号を、他の信号処理装置が実行する第2信号処理の精度に関連する第1ロスを算出するための第2出力信号に変換する。第1ロス算出部は、第2出力信号と正解信号とに基づいて、第1ロスを算出する。学習部は、算出された第1ロスを用いてニューラルネットワークのパラメータを学習する。
第1の実施形態に係る信号処理装置のブロック図。 第1の実施形態における学習処理のフローチャート。 第1の実施形態における変換部の構成例を示す図。 信号処理の構成例を示す図。 信号処理の構成例を示す図。 信号処理の構成例を示す図。 信号処理の構成例を示す図。 第2の実施形態にかかる信号処理装置のブロック図。 第2の実施形態における学習処理のフローチャート。 第2の実施形態における変換部の構成例を示す図。 第3の実施形態にかかる信号処理装置のブロック図。 第3の実施形態における統計情報算出処理のフローチャート。 第3の実施形態における信頼度算出処理のフローチャート。 統計情報および信頼度の算出方法の一例を説明するための図。 第1から第3の実施形態にかかる信号処理装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。
認識処理などの信号処理の前処理としては、例えば、上述のノイズ除去などのように信号を復元する信号処理(信号復元処理)が知られている。以下の実施形態を適用する前処理としての信号処理は、信号復元処理に限られず、どのような信号処理であってもよい。
信号復元処理は長年研究されており、信号強度よりノイズ強度が小さい一般的なケースについては有効な手法が数多く存在する。その一方で信号強度よりノイズ強度が大きいようなSN比が著しく低いケースに対しては有効な手法は確立されていない。
信号のSN比が著しく低くなるシーンとして以下の例が挙げられる。
・早期発見や予兆検知を目的とした計測のため、対象となる信号が微弱である
・計測時間の制約や環境特有の外乱により、ノイズが増大する
認識処理だけでなく、信号復元処理を含む前処理としての信号処理に関してもニューラルネットワークを用いた手法が開発されている。信号復元処理を行う世界最高性能のニューラルネットワークは、畳み込みニューラルネットワークという種類のものである。畳み込みニューラルネットワークは、従来の信号処理で行っていたようなフィルタ処理を学習させる方式である。畳み込みニューラルネットワークを用いた信号復元が対象とするノイズは小さいため、二乗誤差をロスとして学習することでノイズ低減が可能である。しかし、前述したような信号のSN比が著しく低くなる問題にそのまま適用することは困難だと予想される。
例えば二乗誤差のみに基づいて最適化する方法では、ノイズの強度が高い場合に信号成分も抑制される可能性がある。特に復元対象信号よりもノイズ強度が大きい場合、全体の信号強度を抑制することで二乗誤差を大幅に小さくできるためである。このような場合、従来の方法でノイズ除去などの信号処理を行っても後段の信号処理にとって有用な復元信号は得られず、結果として後段の信号処理を高精度に実行できないという場合があった。
(第1の実施形態)
第1の実施形態では、後段の信号処理の精度に関連するロスを用いて、前段の信号処理を学習する。例えば本実施形態では、前段の信号処理による出力信号を、後段の信号処理の精度に関連するロスを算出するための出力信号に変換し、変換後の出力信号を用いてロスを算出する。そして、算出したロスを用いて前段の信号処理で用いるニューラルネットワークのパラメータが学習される。
このように本実施形態では、信号復元処理などの前段の信号処理と、その信号処理の結果である出力信号を処理する後段の信号処理を含む運用形態を対象とする。本実施形態により、後段の信号処理をより高精度に実行可能となる。例えば入力信号にノイズが多い場合であっても、信号復元処理においてノイズのみを正しく抑制し、信号成分の抑制を防ぐことが可能となる。
ここで、ニューラルネットワークの学習(パラメータ最適化)の流れについて説明する。ニューラルネットワークは、ネットワークパラメータW(重み行列)による線形変換と、活性化関数f(・)による非線形変換と、の組み合わせによって、入力信号xから所望の信号yを出力する関数のことを指す。学習を行うにあたり、入力信号に対する正解データtと信号yとの誤差であるロスE(W)を事前に定義する。
ニューラルネットワークの学習は、ロスの最小化問題を解くことに相当し、ロスをネットワークパラメータWで偏微分して得られる勾配に基づいて、勾配法によってネットワークパラメータWを繰り返し更新していく処理となる。また、勾配の算出に関しては、ロスが活性化関数を含んだ入れ子構造となっているため、効率的に偏微分を行うための誤差逆伝播法という手法が一般的に用いられている。
図1は、第1の実施形態に係る信号処理装置100の構成の一例を示すブロック図である。図1に示すように信号処理装置100は、信号処理部101と、変換部102と、ロス算出部103と、学習部104と、記憶部121と、を備えている。信号処理装置100には、入力信号301と正解信号302とが入力され、復元信号303が、信号処理装置200に出力される。
入力信号301は、少なくとも1つ以上の多次元信号である。多次元信号は、例えば画像および音声などの信号であるが、これら以外のどのような信号であってもよい。画像または音声を一定区間(フレームなど)で分割した複数の多次元信号を入力信号として入力されてもよい。多次元信号が時系列信号であってもよい。
信号処理部101は、入力信号301に対するニューラルネットワークを用いた信号処理(第1信号処理)を行い、信号処理の結果である出力信号(第1出力信号)を出力する。例えば信号処理部101は、信号復元処理を行うニューラルネットワークによる信号処理を行う。以下では、主に信号復元処理による処理結果である復元信号303が出力信号として出力される場合を例に説明する。
信号処理は1種類である必要はなく、2種類以上の信号処理を組み合わせた信号処理であってもよい。信号処理部101が用いるニューラルネットワークは、ロス算出部103で算出されたロスをもとに最適化される。
復元信号303は、ニューラルネットワークによって復元された1つ以上の多次元信号である。例えば復元信号303は、入力信号301と同じ次元、かつ、同じ個数の多次元信号である。
なお、信号処理装置200は、復元信号303に対して所定の信号処理(第2信号処理)を実行する。例えば信号処理装置200は、信号処理部101が実行する信号復元処理以外の信号処理を行う。信号処理装置200による信号処理は、例えば、分類、認識、検出、セグメンテーション、キャプショニング、および、機械翻訳のうち少なくとも1つ以上の処理である。後述する図4〜図7の例と同様に、2以上の処理は、複数の処理を直列に実行してもよいし、並列に実行してもよいし、直接の処理と並列の処理を組み合わせてもよい。複数の処理を並列に実行した後に、複数の処理の結果を合成して出力してもよい。
信号処理装置100は、信号処理装置200と物理的に異なる装置として構成してもよいし、信号処理装置200と一体に構成してもよい。信号処理装置100が備える機能を、複数の物理的に異なる装置に分散して備えてもよい。例えば信号処理装置100の機能の少なくとも一部は、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。
正解信号302は、少なくとも1つ以上の多次元信号である。例えば正解信号302は、復元信号303と同じ次元、かつ、同じ個数の多次元信号である。
変換部102は、復元信号303を、信号処理装置200が実行する信号処理の精度に関連するロス(第1ロス)を算出するための出力信号(第2出力信号)に変換する。さらに変換部102は、正解信号302も復元信号303と同様に変換する。すなわち変換部102は、復元信号303を変換後の復元信号305に変換し、正解信号302を変換後の正解信号304に変換する。
変換部102による変換処理は、信号処理装置200の信号処理と同じであってもよいし、異なっていてもよい。例えば信号処理装置200でキャプショニングを行う場合、変換部102の処理はキャプショニングでもよいし、画像分類でもよい。また、変換部102は、信号処理装置200から指定される変換方法により、変換処理を行ってもよい。例えば変換部102は、信号処理装置200から処理内容を受け取り、この処理内容に従い、信号処理装置200と同一の信号処理を行ってもよい。信号処理装置200の信号処理がニューラルネットワークによって行われる場合、変換部102は、例えばネットワーク構造および学習済みのパラメータを、処理内容として受け取ってもよい。
ロス算出部103は、変換後の復元信号305と変換後の正解信号304とに基づいて、信号処理装置200の処理精度と関連のあるロスを算出する。ロス算出部103が算出するロスは、例えば以下のうちいずれか、または、これらのうち2つ以上を組み合わせた指標とすることができる。
・真陽性率(True positive ratio)
・偽陽性率(False positive ratio)
・適合率(Precision)
・再現率(Recall)
・正確度(Accuracy)
・F値(F-measure)
・AUC(Area Under the ROC Curve)
・Contrastive loss
・Triplet loss
・交差エントロピー(Cross entropy)
・KLダイバージェンス(Kullback-Leibler divergence)
・JSダイバージェンス(Jensen Shannon divergence)
・ワッサースタイン距離(Wasserstein distance)
・IoU(Intersection of Union)
・BLEU(BiLingual Evaluation Understudy)スコア
・WER(Word Error Rate)
・METEOR(Metric for Evaluation of Translation with Explicit ORdering)
例えば、信号処理装置200の信号処理が分類の場合、ロス算出部103は、交差エントロピーだけをロスとしてもよいし、交差エントロピーおよびAUCの両方を何らかの演算によって組み合わせた指標をロスとしてもよい。
学習部104は、算出されたロスを用いて、信号処理部101が用いるニューラルネットワークのパラメータを更新する。例えば学習部104は、誤差逆伝播法によりロスの勾配を計算し、勾配法などによってニューラルネットワークのパラメータを更新する。勾配計算方法は誤差逆伝播法に限られず、どのような方法であってもよい。
学習部104は、ニューラルネットワークの最適化処理の途中で、ロスの種類を1回以上切り替えてもよい。例えば学習部104は、信号処理装置200の信号処理が分類の場合、学習序盤は交差エントロピーをロスとして用い、学習終盤はAUCをロスとして用いて最適化を実行する。連続的に変化する交差エントロピーを学習序盤に用いることで、学習停滞を回避し、離散的に変化するAUCを学習終盤に用いることで学習の収束が期待される。
記憶部121は、信号処理装置100で用いられる各種情報を記憶する。例えば記憶部121は、信号処理部101が用いるニューラルネットワークのパラメータを示す情報、入力された情報(入力信号301など)、各種処理の中間データ、および、処理結果を示す情報(復元信号など)などを記憶する。
記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
上記各部(信号処理部101、変換部102、ロス算出部103、および、学習部104)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
次に、このように構成された第1の実施形態にかかる信号処理装置100による学習処理について図2を用いて説明する。図2は、第1の実施形態における学習処理の一例を示すフローチャートである。
信号処理部101は、信号処理部101で用いるニューラルネットワークに入力信号301を入力して信号処理を実行し、学習中の信号復元処理によって復元された復元信号303を出力する(ステップS101)。
変換部102は、復元信号303および正解信号302をそれぞれ変換し、変換後の復元信号305と変換後の正解信号304を出力する(ステップS102)。
ロス算出部103は、変換後の復元信号305および変換後の正解信号304から、信号処理装置200の処理精度と関連のあるロスを算出する(ステップS103)。
学習部104は、算出したロスに基づいて、勾配を算出し、その勾配に基づいて信号処理部101で用いるニューラルネットワークのパラメータを更新する(ステップS104)。学習部104は、学習を終了するか否かを判定する(ステップS105)。例えば学習部104は、パラメータの更新回数が所定の繰り返し回数に達していれば学習を終了すると判定する。
学習を終了しない場合(ステップS105:No)、ステップS101に戻り処理が繰り返される。学習を終了する場合(ステップS105:Yes)、学習処理が終了される。
以下、第1の実施形態の信号変換処理および算出されるロスの具体例について説明する。
(音声分類または音声認識)
図3は、第1の実施形態における変換部102の構成例を示す図である。図3は、音声信号である復元信号303および正解信号302を用いる例を示す。すなわち、入力信号301が音声信号であり、信号処理装置200による信号処理が音声分類または音声認識の場合の例を示す。
この場合、信号処理部101での信号復元処理は例えばノイズ除去であり、復元信号303は音声信号、正解信号302は音声信号、変換部102の信号変換処理は二値化、変換後の復元信号305は二値信号、および、変換後の正解信号304は二値信号となる。
変換部102は、変換後の復元信号305と変換後の正解信号304の各成分を、例えば、設定した閾値によってノイズ成分「0」と信号成分「1」のような二値のラベルに変換する。ここで、変換後の復元信号305をy={y,y,・・・,y|y∈0,1}、変換後の正解信号304をt={t,t,・・・,t|t∈0,1}とする。Nは、各信号の次元数である。ロス算出部103は、以下の(1)式により真陽性率TPRを算出し、(1−TPR)をロスとして算出する。TPRは真のものを正しく真と判断した割合を意味し、ノイズ成分と信号成分の2クラス分類の場合、信号成分の検出率に相当する。
学習部104は、算出されたロスが小さくなるように信号処理部101で用いるニューラルネットワークのパラメータを更新する。これによって、信号処理装置200の処理精度が改善するような復元信号303を出力するように信号処理部101で用いるニューラルネットワークが最適化される。
ロスはこれに限られるものではなく、例えば偽陽性率をロスに追加してもよい。例えばロス算出部103は、以下の(2)式により偽陽性率FPRを算出し、(1−TPR)とFPRとの和をロスとして算出する。学習部104は、このロスを用いて、信号処理部101で用いるニューラルネットワークのパラメータを最適化する。FPRは偽のものを真と判断した割合を意味し、ノイズ成分と信号成分の2クラス分類の場合、ノイズ成分を信号成分として検出した誤検出率に相当する。
(画像分類または画像認識)
例えば、入力信号301が画像であり、信号処理装置200の信号処理が画像分類または画像認識であるとする。この場合、例えば、信号処理部101での信号復元処理はノイズ除去、復元信号303は画像、正解信号302は画像、変換部102の信号変換処理は画像分類または画像認識の1つ以上組み合わせた処理、および、変換後の復元信号305と変換後の正解信号304はN個のクラスに対する帰属度を示す0から1の値を取るN次元の確率ベクトルとなる。
ここで、変換後の復元信号305をy={y,y,・・・,y|0≦y≦1}、変換後の正解信号304をt={t,t,・・・,t|0≦t≦1}とする。ロス算出部103は、以下の(3)式により交差エントロピーCEをロスとして算出する。
ロスはこれに限られるものではなく、KLダイバージェンス、JSダイバージェンス、および、ワッサースタイン距離を用いてもよい。またロス算出部103は、これらのうち2つ以上を組み合わせた値をロスとして算出してもよい。例えばロス算出部103は、(交差エントロピー+KLダイバージェンス)/2をロスとして算出してもよい。
(セグメンテーションまたはキャプショニング)
例えば、入力信号301が画像であり、信号処理装置200の信号処理がセグメンテーションまたはキャプショニングであるとする。この場合、例えば、信号処理部101での信号復元処理はノイズ除去、復元信号303は画像、正解信号302は画像、変換部102の信号変換処理は二値化、および、変換後の復元信号305と変換後の正解信号304は二値にラベル付けされた画像となる。
ここで、変換後の復元信号305をy={y,y,・・・,y|y∈0,1}、変換後の正解信号304をt={t,t,・・・,t|t∈0,1}とする。ロス算出部103は、上記(1)式により真陽性率TPRを算出し、(1−TPR)をロスとして算出する。
音声分類または音声認識の場合と同様に、例えば偽陽性率をロスに追加してもよい。例えばロス算出部103は、上記(2)式により偽陽性率FPRを算出し、(1−TPR)とFPRとの和をロスとして算出する。
また、例えば変換部102の信号変換処理は、セグメンテーション、キャプショニング、または、画素値の大きさに基づくクラスタリングとし、変換後の復元信号305と変換後の正解信号304は多値にラベル付けされた画像としてもよい。ここで、セグメンテーションは画像を入力とし、その画像中の各画素に物体のクラスを意味するラベル付けを行うもの等であり、キャプショニングは画像を入力とし、その画像を説明する文章を出力するもの等を指す。この場合、ロス算出部103は、クラスごとにIoU(Intersection of Union)を算出し、(1−IoU)の平均値をロスとして算出しもよい。IoUは、推定領域と正解領域の共通部分の面積を、推定領域と正解領域の面積で除算した指標であり、1に近い程、高性能であることを示す。
(機械翻訳)
例えば、入力信号301が音声信号で、信号処理装置200の信号処理が機械翻訳であるとする。この場合、例えば、信号処理部101での信号復元処理はノイズ除去、復元信号303は音声信号、正解信号302は音声信号、変換部102の信号変換処理は音声またはノイズにラベル付けをする二値化、および、変換後の復元信号305と変換後の正解信号304は、ニ値にラベル付けされた信号のいずれかとなる。
ここで、変換後の復元信号305をy={y,y,・・・,y|y∈0,1}、変換後の正解信号304をt={t,t,・・・,t|t∈0,1}とする。ロス算出部103は、上記(1)式により真陽性率TPRを算出し、(1−TPR)をロスとして算出する。
音声分類または音声認識などの場合と同様に、例えば偽陽性率をロスに追加してもよい。例えばロス算出部103は、上記(2)式により偽陽性率FPRを算出し、(1−TPR)とFPRとの和をロスとして算出する。
次に、信号処理部101のニューラルネットワークによる信号処理の具体例について説明する。信号処理部101による信号処理は、例えば、ノイズ除去、超解像、物体除去、ボケ除去、欠損修復、アーチファクト除去、および、音声強調(Speech enhancement)のいずれか、または、これらのうち2つ以上を組み合わせた処理である。欠損修復には、例えばインペインティング(Inpainting)が含まれる。
図4〜図7は、信号処理の構成例を示す図である。図4は、1つの信号処理を適用する例である(単体)。図5は、複数の信号処理を順番に適用する例である(直列)。図6は、入力信号にそれぞれ信号処理を適用し、最後に合成する例である(並列)。図7は、直列と並列とを混在させる例である(混在)。例えば、低解像度かつノイズレベルが高い入力信号に対しては、超解像とノイズ除去を直列で行うように構成してもよい。上記のように、信号処理装置200による信号処理も、図4〜図7に示すような4パターンの構成を適用できる。
このように、第1の実施形態にかかる信号処理装置では、後段の信号処理の精度に関連するロスを用いて、前段の信号処理を学習する。これにより、後段の信号処理をより高精度に実行可能となる。
(第2の実施形態)
第2の実施形態にかかる信号処理装置は、変換前の復元信号および正解信号から算出されるロスをさらに考慮してニューラルネットワークのパラメータを学習する。
図8は、第2の実施形態にかかる信号処理装置100−2の構成の一例を示すブロック図である。図8に示すように、信号処理装置100−2は、信号処理部101と、変換部102と、ロス算出部103と、学習部104−2と、ロス算出部105−2と、ロス合成部106−2と、記憶部121と、を備えている。
第2の実施形態では、ロス算出部105−2とロス合成部106−2とを追加したこと、および、学習部104−2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
ロス算出部105−2は、復元信号303と正解信号302から信号同士の誤差であるロス(第2ロス)を算出する。ロス算出部105−2が算出するロスは、例えば以下のうちいずれか、または、これらのうち2つ以上を組み合わせた指標とすることができる。
・L1ロス
・L2ロス
・Charbonnierロス
・Huberロス
例えば、信号処理装置200の信号処理がノイズ除去の場合、ロス算出部105−2は、L2ロスだけをロスとしてもよいし、L1ロスおよびL2ロスの両方を何らかの演算によって組み合わせた指標をロスとしてもよい。
ロス合成部106−2は、ロス算出部103によって算出されたロスと、ロス算出部105−2によって算出されたロスとを、何らかの演算によって1つの値に合成する。例えばロス合成部106−2は、第1ロスと第2ロスの少なくとも一方に重みを乗算してから加算する。この重みは、ニューラルネットワークの学習中に固定である必要はなく、学習の進み具合に応じて動的に値の大きさを変更してもよい。これにより一種のカリキュラムラーニングを行うことが可能となる。
学習部104−2は、ロス合成部106−2によって合成されたロスを用いてニューラルネットワークのパラメータを学習する。学習部104−2は、ニューラルネットワークの最適化処理の途中で、使用するロスの種類を1回以上切り替えてもよい。例えば学習部104−2は、信号処理装置200の信号処理がノイズ除去の場合、学習序盤はL2ロスを用い、学習終盤はL1ロスを用いて最適化を実行する。L2ロスは大きい誤差に対して大きなペナルティを与えるが、L1ロスのペナルティは誤差の大きな対して線形であるため、学習終盤にL1ロスに切り替えることで信号の微細な構造を復元できることが期待される。
次に、このように構成された第2の実施形態にかかる信号処理装置100−2による学習処理について図9を用いて説明する。図9は、第2の実施形態における学習処理の一例を示すフローチャートである。
ステップS201からステップS203は、第1の実施形態にかかる信号処理装置100におけるステップS101からステップS103までと同様の処理なので、その説明を省略する。
ロス算出部105−2は、変換前の復元信号303と変換前の正解信号302とからロス(第2ロス)を算出する(ステップS204)。ロス合成部106−2は、ステップS203で算出されたロスと、ステップS204で算出されたロスと、を1つの値に合成する(ステップS205)。学習部104は、合成したロスに基づいて、勾配を算出し、その勾配に基づいて信号処理部101で用いるニューラルネットワークのパラメータを更新する(ステップS206)。
ステップS207は、第1の実施形態にかかる信号処理装置100におけるステップS105と同様の処理なので、その説明を省略する。
以下、第2の実施形態の信号変換処理および算出されるロスの具体例について説明する。
(音声分類または音声認識)
図10は、第2の実施形態における変換部102の構成例を示す図である。図10は、音声信号である復元信号303および正解信号302を用いる例を示す。すなわち、入力信号301が音声信号であり、信号処理装置200による信号処理が音声分類の場合の例を示す。
この場合、信号処理部101での信号復元処理は例えばノイズ除去であり、復元信号303は音声信号、正解信号302は音声信号、変換部102の信号変換処理は二値化、変換後の復元信号305は二値信号、および、変換後の正解信号304は二値信号となる。
ロス算出部103は、第1の実施形態と同様に、例えば(1−TPR)を第1ロスとして算出する。ロス算出部105−2は、復元信号303と正解信号302からL2ロスを第2ロスとして算出する。ロス合成部106−2は、例えば第1ロスと第2ロスとの重み付き和を最終的なロスとして合成する。学習部104は、算出されたロスが小さくなるように信号処理部101で用いるニューラルネットワークのパラメータを更新する。
第1の実施形態と同様に、例えば偽陽性率をロスに追加してもよい。例えばロス算出部103は、上記(2)式により偽陽性率FPRを算出し、(1−TPR)とFPRとの和を第1ロスとして算出する。
(画像分類または画像認識)
例えば、入力信号301が画像であり、信号処理装置200の信号処理が画像分類または画像認識であるとする。この場合、例えば、信号処理部101での信号復元処理はノイズ除去、復元信号303は画像、正解信号302は画像、変換部102の信号変換処理は画像分類または画像認識の1つ以上組み合わせた処理、および、変換後の復元信号305と変換後の正解信号304はN個のクラスに対する帰属度を示す0から1の値を取るN次元の確率ベクトルとなる。
ロス算出部103は、第1の実施形態と同様に、例えば交差エントロピーCEを第1ロスとして算出する。ロス算出部105−2は、復元信号303と正解信号302とからL2ロスを第2ロスとして算出する。ロス合成部106−2は、第1ロスと第2ロスとの重み付き和を最終的なロスとして合成する。学習部104−2は、合成されたロスを用いて信号処理部101で用いるニューラルネットワークのパラメータを更新する。
第1の実施形態と同様に、第1ロスは、KLダイバージェンス、JSダイバージェンス、ワッサースタイン距離のいずれか、または、これらのうち2つ以上を組み合わせた値であってもよい。
(セグメンテーションまたはキャプショニング)
例えば、入力信号301が画像であり、信号処理装置200の信号処理がセグメンテーションまたはキャプショニングであるとする。この場合、例えば、信号処理部101での信号復元処理はノイズ除去、復元信号303は画像、正解信号302は多値にラベル付けされた画像、変換部102の信号変換処理は二値化で、変換後の復元信号305と変換後の正解信号304は二値にラベル付けされた画像となる。
ロス算出部103は、第1の実施形態と同様に、例えば真陽性率を第1ロスとして算出する。ロス算出部105−2は、復元信号303と正解信号302からL2ロスを第2ロスとして算出する。ロス合成部106−2は、第1ロスと第2ロスとの重み付き和を最終的なロスとして合成する。学習部104−2は、合成されたロスに基づいて信号処理部101で用いるニューラルネットワークのパラメータを更新する。
また、例えば偽陽性率をロスに追加してもよい。例えばロス算出部103は、上記(2)式により偽陽性率FPRを算出し、(1−TPR)とFPRとの和をロスとして算出する。
また、例えば変換部102の信号変換処理は、セグメンテーション、キャプショニング、または、画素値の大きさに基づくクラスタリングとし、変換後の復元信号305と変換後の正解信号304は多値にラベル付けされた画像としてもよい。この場合、ロス算出部103は、クラスごとにIoUを算出し、(1−IoU)の平均値をロスとしてもよい。
(機械翻訳)
例えば、入力信号301が音声信号で、信号処理装置200の信号処理が機械翻訳であるとする。この場合、例えば、信号処理部101での信号復元処理はノイズ除去、復元信号303は音声信号、正解信号302は機械翻訳結果のベクトル、変換部102の信号変換処理は二値化、および、変換後の復元信号305と変換後の正解信号304は二値にラベル付けされた信号となる。
ロス算出部103は、第1の実施形態と同様に、例えば(1−TPR)を第1ロスとして算出する。ロス算出部105−2は、復元信号303と正解信号302からL2ロスを第2ロスとして算出する。ロス合成部106−2は、第1ロスと第2ロスとの重み付き和を最終的なロスとして合成する。学習部104−2は、合成されたロスに基づいて信号処理部101で用いるニューラルネットワークのパラメータを更新する。
第1の実施形態と同様に、例えば偽陽性率をロスに追加してもよい。例えばロス算出部103は、上記(2)式により偽陽性率FPRを算出し、(1−TPR)とFPRとの和を第1ロスとして算出する。
このように、第2の実施形態にかかる信号処理装置では、変換前の復元信号および正解信号から算出されるロスをさらに考慮してニューラルネットワークのパラメータを学習することができる。これにより、後段の信号処理をさらに高精度に実行可能となる。
(第3の実施形態)
信号復元処理は後段の信号処理装置200での信号処理の前処理として位置づけられる。一方、例えば後段処理の説明の観点等から、信号復元処理の結果を確認可能とすることが要求される状況が予想される。このような状況に対応するため、第3の実施形態では、復元信号の信頼度を算出して出力する。例えば、信頼度に応じて後段の処理を切り替えれば、信頼度の低いデータに対してより適切な処理をすることによってより適切な処理結果が得られる。なお以下では第1の実施形態に機能を追加して本実施形態とする例を説明するが、第2の実施形態に対しても同様の機能追加を行うことができる。
図11は、第3の実施形態にかかる信号処理装置100−3の構成の一例を示すブロック図である。図11に示すように、信号処理装置100−3は、信号処理部101−3と、変換部102と、ロス算出部103と、学習部104と、統計情報算出部107−3と、信頼度算出部108−3と、制御部109−3と、記憶部121と、を備えている。
第3の実施形態では、統計情報算出部107−3と、信頼度算出部108−3と、制御部109−3と、を追加したこと、および、信号処理部101−3の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
統計情報算出部107−3は、変換後の復元信号305の統計情報を算出する。統計情報算出部107−3は、例えば学習時に、変換後の復元信号305(学習信号セットに含まれるすべての復元信号)の統計情報306−3を算出する。統計情報算出部107−3は、推論時には、変換後の復元信号305(評価対象となる単一の復元信号)を入力し、推論時の統計情報306−3を算出する。
信頼度算出部108−3は、学習時の統計情報306−3と推論時の統計情報306−3とに基づいて、推論時の復元信号303の信頼度を算出する。統計情報の算出方法、および、信頼度の算出方法の詳細は後述する。
制御部109−3は、例えば変換後の復元信号305に応じて、信号処理部101−3が実行する信号処理を制御する。例えば制御部109−3は、変換後の復元信号305から算出される信頼度が予め定められた閾値より小さい場合に、信号処理部101−3がニューラルネットワークを用いない信号処理を実行するように制御する。この場合、信号処理部101は、ニューラルネットワークを用いない信号処理の処理結果を信号処理装置200に出力する。
制御部109−3は、信頼度が閾値より小さい場合に、変換後の復元信号305を入力信号として信号処理部101−3に入力し、信頼度が閾値以上となるまで信号復元処理を繰り返し実行させるように構成してもよい。
信号処理部101−3は、さらに、ニューラルネットワークを用いない信号処理を実行可能な点が、上記実施形態の信号処理部101と異なっている。例えば信号処理部101−3は、算出された信頼度が閾値より低い場合に、制御部109−3からの指示に応じて、ニューラルネットワークを用いない信号復元処理を実行する。ニューラルネットワークを用いない信号復元処理は、例えば、フィルタを用いた信号復元処理を含む。フィルタは、ガウシアンフィルタ、および、メディアンフィルタなどのローパスフィルタを用いることができる。多次元信号が画像の場合、BM3D(Block Matching and 3D Collaborative Filtering)などのハンドクラフト方式を適用してもよい。
次に、このように構成された第3の実施形態にかかる信号処理装置100−3による統計情報算出処理について図12を用いて説明する。図12は、第3の実施形態における統計情報算出処理の一例を示すフローチャートである。
統計情報算出部107−3は、学習時における変換後の復元信号305から統計情報を算出する(ステップS301)。統計情報算出部107−3は、算出した統計情報を、例えば記憶部121に記憶する(ステップS302)。その他にも、例えば変換後の復元信号を成功データと失敗データに分けて統計情報を算出してもよいし、例えば変換後の正解データから算出してもよい。
次に、第3の実施形態にかかる信号処理装置100−3による信頼度算出処理について図13を用いて説明する。図13は、第3の実施形態における信頼度算出処理の一例を示すフローチャートである。
統計情報算出部107−3は、推論時における変換後の復元信号305から統計情報を算出する(ステップS401)。信頼度算出部108−3は、得られた統計情報と記憶部121などに記憶された統計情報とから、信頼度を算出する(ステップS402)。その他にも、例えば学習時に変換後の復元信号を成功データと失敗データに分けて統計情報を算出した場合、その2つの統計情報と推論時の統計情報から信頼度を計算してもよい。この後、制御部109−3が、算出された信頼度に応じて、上記のような制御を行ってもよい。
以下に、統計情報の算出方法、および、信頼度の算出方法の具体例について説明する。
(音声分類または音声認識)
図14は、統計情報および信頼度の算出方法の一例を説明するための図である。図14の上部は、学習時における変換後の復元信号305、および、得られた統計情報306−3の例を示す。図14の下部は、推論時における変換後の復元信号305、得られた統計情報306−3、信頼度の算出方法を示すグラフ1401、および、算出される信頼度1402の例を示す。
入力信号301が音声信号、信号処理装置200が音声分類または音声認識、変換後の復元信号305が二値信号である場合の例である。この場合、統計情報算出部107−3は、複数の変換後の復元信号305それぞれについて、ラベル「1」の合計(信号成分の個数)を算出する。統計情報算出部107−3は、合計の値ごとの度数を示すヒストグラムを、統計情報306−3として算出する。ヒストグラムは、例えば度数の最大値が1となるように正規化されてもよい。
推論時には、統計情報算出部107−3は、推論時における変換後の復元信号305について、ラベル「1」の合計を算出する。
信頼度算出部108−3は、学習時の統計情報306−3のヒストグラムの平均値(Mean)と標準偏差(SD)に基づいて、推論時の統計情報が示す合計値(Sum)の学習時の統計情報306−3の平均値(Mean)からの離れ度合を信頼度1402として算出する。例えば、SumがMeanより大きい場合、信頼度を1−max(0,Sum−Mean+SD)として算出する。同様に、SumがMeanより小さい場合、1−max(0,Mean−SD−Sum)を信頼度として計算する。
このような構成によって、推論時の復元信号303に対して信頼度が得られる。
(画像分類または画像認識)
例えば、入力信号301が画像であり、信号処理装置200の信号処理が画像分類または画像認識であり、変換後の復元信号305が分類結果の確率ベクトルであるとする。この場合、例えば、統計情報算出部107−3は、各クラスの帰属度ベクトルの平均を、統計情報306−3として算出する。
推論時には、統計情報算出部107−3は、推論時における変換後の復元信号305の確率ベクトルを、統計情報306−3として算出する。信頼度算出部108−3は、学習時の統計情報306−3と学習時の統計情報306−3に基づいて、交差エントロピーのような分布間距離を信頼度として算出する。
例えば、推論時の分類結果の帰属度ベクトルが学習時の帰属度ベクトルの平均から離れている場合、復元信号303の信頼度が低いということになる。
(セグメンテーション)
例えば、入力信号301が画像であり、信号処理装置200の信号処理がセグメンテーションであり、変換後の復元信号305が多値にラベル付けされた画像であるとする。この場合、例えば、統計情報算出部107−3は、複数のラベルごとに、各ラベルが付与された画素の個数(画素数)の和を算出する。統計情報算出部107−3は、画素数の値ごとの度数を示すヒストグラムを、統計情報306−3として算出する。ヒストグラムは、ラベルごとに算出される。ヒストグラムは、例えば度数の最大値が1となるように正規化されてもよい。
推論時には、統計情報算出部107−3は、推論時における変換後の復元信号305の各ラベルの画素数の和を統計情報306−3として算出する。信頼度算出部108−3は、ラベルごとに、画素数の和に対応するヒストグラムの度数を算出し、算出した複数の度数の平均を、信頼度として算出する。
例えば、人というラベルがついた画素数が学習時に比べて多い場合、信号復元の失敗によってセグメンテーションが失敗している可能性があると推測することができる。
(キャプショニング)
例えば、入力信号301が画像であり、信号処理装置200の信号処理がキャプショニングであり、変換後の復元信号305がキャプション結果の単語のベクトルであるとする。この場合、例えば、統計情報算出部107−3は、キャプション結果を示す単語ごとに、単語の出現回数を算出する。統計情報算出部107−3は、単語の出現回数ごとの度数を示すヒストグラムを、統計情報306−3として算出する。ヒストグラムは、単語ごとに算出される。ヒストグラムは、例えば度数の最大値が1となるように正規化されてもよい。
推論時には、統計情報算出部107−3は、推論時における変換後の復元信号305の各単語の出現回数を、統計情報306−3として算出する。信頼度算出部108−3は、単語ごとに、単語の出現回数に対応するヒストグラムの度数を算出し、算出した度数の平均を、信頼度として算出する。
例えば、学習時に出現回数が少ない単語が推論時の復元信号303に含まれるとき、ノイズの影響によって誤認識している可能性があると推測される(対象の画像群が共通のカテゴリに属するという仮定をした場合)。
(機械翻訳)
例えば、入力信号301が音声信号であり、信号処理装置200の信号処理が機械翻訳であり、変換後の復元信号305が機械翻訳結果の単語のベクトルであるとする。この場合、例えば、統計情報算出部107−3は、機械翻訳結果を示す単語ごとに、単語の出現回数を算出する。統計情報算出部107−3は、単語の出現回数ごとの度数を示すヒストグラムを、統計情報306−3として算出する。ヒストグラムは、単語ごとに算出される。ヒストグラムは、例えば度数の最大値が1となるように正規化されてもよい。
推論時には、統計情報算出部107−3は、推論時における変換後の復元信号305の各単語の出現回数を、統計情報306−3として算出する。信頼度算出部108−3は、単語ごとに、単語の出現回数に対応するヒストグラムの度数を算出し、算出した度数の平均を、信頼度として算出する。
例えば、学習時に出現回数が少ない単語が推論時の復元信号303に含まれるとき、ノイズの影響によって誤認識している可能性があると推測される(対象の画像群が共通のカテゴリに属するという仮定をした場合)。
このように、第3の実施形態にかかる信号処理装置では、例えば推論時において復元信号303の信頼度が得られる。
(変形例1)
正解信号は、変換部102により変換しなくてもよい。例えば上記の変換後の正解信号304の形式に予め変換された信号を正解信号302とし、変換部102において正解信号302に信号変換処理を実行しなくてもよい。第2の実施形態の場合は、変換後の正解信号304の形式に予め変換された信号と、復元信号303に対する正解信号と同一の形式を有する信号との2つを正解信号302とし、変換部102において正解信号302に信号変換処理を実行しないように構成してもよい。
以上説明したとおり、第1から第3の実施形態によれば、前段の信号処理の出力信号を利用する後段の信号処理をより高精度に実行可能となる。また、各実施形態によれば、信号成分の抑制を防ぐような学習が可能となる。
次に、第1から第3の実施形態にかかる信号処理装置のハードウェア構成について図15を用いて説明する。図15は、第1から第3の実施形態にかかる信号処理装置のハードウェア構成例を示す説明図である。
第1から第3の実施形態にかかる信号処理装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1から第3の実施形態にかかる信号処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1から第3の実施形態にかかる信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1から第3の実施形態にかかる信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1から第3の実施形態にかかる信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1から第3の実施形態にかかる信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100−2、100−3、200 信号処理装置
101、101−3 信号処理部
102 変換部
103 ロス算出部
104、104−2 学習部
105−2 ロス算出部
106−2 ロス合成部
107−3 統計情報算出部
108−3 信頼度算出部
109−3 制御部
121 記憶部

Claims (9)

  1. 入力信号に対してニューラルネットワークにより第1信号処理を行い、第1出力信号を出力する信号処理部と、
    前記第1出力信号を、他の信号処理装置が実行する第2信号処理の精度に関連する第1ロスを算出するための第2出力信号に変換する変換部と、
    前記第2出力信号と正解信号とに基づいて、前記第1ロスを算出する第1ロス算出部と、
    算出された前記第1ロスを用いて前記ニューラルネットワークのパラメータを学習する学習部と、
    を備える信号処理装置。
  2. 前記第1ロス算出部は、前記第2出力信号と、前記第1ロスを算出するための形式に変換された正解信号とに基づいて前記第1ロスを算出し、
    前記第1出力信号と、前記第1ロスを算出するための形式に変換されていない正解信号とに基づいて第2ロスを算出する第2ロス算出部をさらに備え、
    前記学習部は、算出された前記第1ロスおよび前記第2ロスを用いて前記パラメータを学習する、
    請求項1に記載の信号処理装置。
  3. 前記学習部は、学習の進行に応じて、前記第1ロスおよび前記第2ロスの少なくとも一方の重みを変更する、
    請求項2に記載の信号処理装置。
  4. 前記正解信号は、第1ロスを算出するための形式に予め変換された信号である、
    請求項1に記載の信号処理装置。
  5. 前記変換部は、前記他の信号処理装置から指定される変換方法により、前記第1出力信号を変換する、
    請求項1に記載の信号処理装置。
  6. 前記第2出力信号の統計情報を算出する統計情報算出部と、
    学習に用いられる複数の入力信号に対応する複数の第2出力信号から算出された第1統計情報と、推論に用いられる入力信号に対応する第2出力信号から算出された第2統計情報とに基づいて、推論に用いられる入力信号に対応する前記第1出力信号の信頼度を算出する信頼度算出部をさらに備える、
    請求項1に記載の信号処理装置。
  7. 入力信号に対してニューラルネットワークにより第1信号処理を行い、第1出力信号を出力する信号処理ステップと、
    前記第1出力信号を、他の信号処理装置が実行する第2信号処理の精度に関連する第1ロスを算出するための第2出力信号に変換する変換ステップと、
    前記第2出力信号と正解信号とに基づいて、前記第1ロスを算出する第1ロス算出ステップと、
    算出された前記第1ロスを用いて前記ニューラルネットワークのパラメータを学習する学習ステップと、
    を含む信号処理方法。
  8. コンピュータを、
    入力信号に対してニューラルネットワークにより第1信号処理を行い、第1出力信号を出力する信号処理部と、
    前記第1出力信号を、他の信号処理装置が実行する第2信号処理の精度に関連する第1ロスを算出するための第2出力信号に変換する変換部と、
    前記第2出力信号と正解信号とに基づいて、前記第1ロスを算出する第1ロス算出部と、
    算出された前記第1ロスを用いて前記ニューラルネットワークのパラメータを学習する学習部と、
    として機能させるためのプログラム。
  9. 入力信号に対してニューラルネットワークにより第1信号処理を行い、第1出力信号を出力する信号処理部と、
    前記第1出力信号を、他の信号処理装置が実行する第2信号処理の精度に関連する第1ロスを算出するための第2出力信号に変換する変換部と、
    前記第1ロスを用いた前記ニューラルネットワークのパラメータの学習に用いられる複数の入力信号に対応する複数の第2出力信号に応じ、実行する信号処理を制御する制御部と、
    を備える信号処理装置。
JP2018052404A 2018-03-20 2018-03-20 信号処理装置、信号処理方法およびプログラム Active JP6773707B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018052404A JP6773707B2 (ja) 2018-03-20 2018-03-20 信号処理装置、信号処理方法およびプログラム
US16/117,350 US11599784B2 (en) 2018-03-20 2018-08-30 Signal processing device, signal processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018052404A JP6773707B2 (ja) 2018-03-20 2018-03-20 信号処理装置、信号処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019164618A true JP2019164618A (ja) 2019-09-26
JP6773707B2 JP6773707B2 (ja) 2020-10-21

Family

ID=67985169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018052404A Active JP6773707B2 (ja) 2018-03-20 2018-03-20 信号処理装置、信号処理方法およびプログラム

Country Status (2)

Country Link
US (1) US11599784B2 (ja)
JP (1) JP6773707B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056566A (ja) * 2019-09-27 2021-04-08 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、予測装置および予測方法
WO2021220450A1 (ja) * 2020-04-30 2021-11-04 日本電気株式会社 識別装置、識別方法及び記録媒体
US11921818B2 (en) 2020-12-01 2024-03-05 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image preprocessing apparatus, and method of training neural network

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7055769B2 (ja) * 2019-04-23 2022-04-18 株式会社東芝 データ生成装置、データ生成方法およびプログラム
JP7051749B2 (ja) * 2019-06-03 2022-04-11 株式会社東芝 信号処理装置、信号処理システム、信号処理方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101187A (ja) * 1991-10-09 1993-04-23 Kawasaki Steel Corp 画像認識装置及びその学習方法
JPH05225163A (ja) * 1992-02-13 1993-09-03 Hitachi Ltd ニューラルネットシステムおよびニューラルネットの学習方法
US20170076200A1 (en) * 2015-09-15 2017-03-16 Kabushiki Kaisha Toshiba Training device, speech detection device, training method, and computer program product
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679643B2 (en) * 2016-08-31 2020-06-09 Gregory Frederick Diamos Automatic audio captioning
US10915817B2 (en) * 2017-01-23 2021-02-09 Fotonation Limited Method of training a neural network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101187A (ja) * 1991-10-09 1993-04-23 Kawasaki Steel Corp 画像認識装置及びその学習方法
JPH05225163A (ja) * 1992-02-13 1993-09-03 Hitachi Ltd ニューラルネットシステムおよびニューラルネットの学習方法
US20170076200A1 (en) * 2015-09-15 2017-03-16 Kabushiki Kaisha Toshiba Training device, speech detection device, training method, and computer program product
JP2017058877A (ja) * 2015-09-15 2017-03-23 株式会社東芝 学習装置、音声検出装置、学習方法およびプログラム
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
JP2019514107A (ja) * 2016-03-15 2019-05-30 イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056566A (ja) * 2019-09-27 2021-04-08 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、予測装置および予測方法
JP7294031B2 (ja) 2019-09-27 2023-06-20 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、予測装置および予測方法
WO2021220450A1 (ja) * 2020-04-30 2021-11-04 日本電気株式会社 識別装置、識別方法及び記録媒体
JP7464114B2 (ja) 2020-04-30 2024-04-09 日本電気株式会社 識別装置、識別方法及び記録媒体
US11921818B2 (en) 2020-12-01 2024-03-05 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image preprocessing apparatus, and method of training neural network

Also Published As

Publication number Publication date
US11599784B2 (en) 2023-03-07
US20190294963A1 (en) 2019-09-26
JP6773707B2 (ja) 2020-10-21

Similar Documents

Publication Publication Date Title
JP6773707B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP6581068B2 (ja) 画像処理装置、画像処理方法、プログラム、運転制御システム、および、車両
US9779354B2 (en) Learning method and recording medium
CN108229290B (zh) 视频物体分割方法和装置、电子设备、存储介质
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
US10812815B2 (en) Methods, systems, and computer readable media for compressing video images
JP2019194821A (ja) 目標認識装置、目標認識方法及びプログラム
CN111178363B (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN111144484B (zh) 一种图像识别方法及装置
CN111444847A (zh) 一种交通标志检测识别方法、系统、装置及存储介质
JP2020177582A (ja) 学習装置、学習方法、プログラムおよび認識装置
US20220261641A1 (en) Conversion device, conversion method, program, and information recording medium
CN111507252A (zh) 人体跌倒检测装置、方法、电子终端及存储介质
CN113807407B (zh) 目标检测模型训练方法、模型性能检测方法及装置
CN113139906B (zh) 一种生成器的训练方法、装置与存储介质
CN111402164B (zh) 矫正网络模型的训练方法和装置、文本识别方法和装置
KR102305981B1 (ko) 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법
US20210232947A1 (en) Signal processing device, signal processing method, and computer program product
JP2023069083A (ja) 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム
KR20200135044A (ko) 영상 변환을 이용한 머신러닝 기반 결함 분류 장치 및 방법
US20230112822A1 (en) Character recognition method, character recognition device and non-transitory computer readable medium
US20210004681A1 (en) Data processing apparatus, training apparatus, method of detecting an object, method of training, and medium
US11361424B2 (en) Neural network-type image processing device, appearance inspection apparatus and appearance inspection method
JP2024051786A (ja) 情報処理装置
CN116385941A (zh) 用于生成中间特征的神经网络的训练方法、装置及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201001

R151 Written notification of patent or utility model registration

Ref document number: 6773707

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151