JP7188589B2 - 復元装置、復元方法、およびプログラム - Google Patents

復元装置、復元方法、およびプログラム Download PDF

Info

Publication number
JP7188589B2
JP7188589B2 JP2021528089A JP2021528089A JP7188589B2 JP 7188589 B2 JP7188589 B2 JP 7188589B2 JP 2021528089 A JP2021528089 A JP 2021528089A JP 2021528089 A JP2021528089 A JP 2021528089A JP 7188589 B2 JP7188589 B2 JP 7188589B2
Authority
JP
Japan
Prior art keywords
signal
clipped
restoration
neural network
clipped signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021528089A
Other languages
English (en)
Other versions
JPWO2020255242A1 (ja
Inventor
暁 江村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020255242A1 publication Critical patent/JPWO2020255242A1/ja
Application granted granted Critical
Publication of JP7188589B2 publication Critical patent/JP7188589B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)

Description

この発明は、クリップ後の信号からクリップ前の信号を復元する技術に関する。
装置間で信号を入出力する際に、信号振幅が装置の入出力レンジより大きい部分は一定値にクリッピングされる。クリッピングは、例えば、センサーから信号を得るとき、信号を何らかの機器に出力するとき、アナログ信号をA/Dコンバータに入力してデジタル化するとき等、広範囲な状況で生じる可能性がある。そこで、クリップされた信号からクリップ前の信号波形を復元する研究がこれまでなされてきた。
そのような方法として、SPADE(SParse Audio DEclipper)と呼ばれる方法が提案されている(非特許文献1)。以下、SPADEについて説明する。
なお、文中で使用する記号「」「^」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「z-」は数式中では次式で表される。
Figure 0007188589000001
また、例えば、「z^」は数式中では次式で表される。
Figure 0007188589000002
本来の信号(クリップ前の信号)を信号ベクトルx=[x1, …, xN]、クリップされた信号を信号ベクトルy=[y1, …, yN]で表現する。クリッピング前後の信号の各サンプルは、式(1)の関係がある。
Figure 0007188589000003
ここでθはクリッピングレベルである。クリッピング後の信号サンプルは、上限でクリップされる信号サンプルS+、クリップされない信号サンプルSr、下限でクリップされる信号サンプルS-のいずれかに属する。
SPADEでは、まず辞書行列Dを定める。そして、辞書行列Dの逆行列D-1を信号ベクトルxにかけて得られる信号表現ベクトルzに注目して、信号の複雑さをz中の非ゼロ要素の数、すなわちzのL0ノルム||z||0ではかる。辞書行列Dとしては、DFT行列(Discrete Fourier Transform Matrix)やDCT行列(Discrete Cosine Transform Matrix)等が用いられる。
SPADEは、クリップ前の信号の複雑さをkとし、所定の更新量sを複雑さkの初期値として想定する。まず、入力信号すなわちクリップ後の信号yを、D-1で信号表現ベクトルzへ変換する。z中で絶対値の大きい方からk個の要素を残し、それ以外の値を0にすることで、複雑さkの信号表現ベクトルz-へと変換する。この操作はhard thresholdingと呼ばれ、数式でz-=Hk(z)と表現される(下記表1のステップ2に対応)。次に、この信号表現ベクトルz-にDをかけて、推定信号ベクトルx-=Dz-へ変換する。推定信号ベクトルx-は、この段階でのクリップ前の信号ベクトルxの推定結果になる。通常、この推定信号ベクトルx-と入力信号ベクトルyでは非クリップ部分でも乖離がある。そこで下記の二つの条件を満たす信号表現ベクトルz^を求める(下記表1のステップ3に対応)。
条件1.クリップされたDz^がyと一致する。
条件2.z^とz-の距離が最小になる。
z^とz-の距離があらかじめ決めた値より大きい場合には、「想定する信号の複雑さkが不足しているためにターゲット信号を表現できない」と判定して複雑さkを更新量sずつ増やし、上記の処理を繰り返す。
以上の処理を、最適化手法ADMM(非特許文献2)を用いて実装すると、表1のアルゴリズムが得られる。
Figure 0007188589000004
SPADEは、通常のフレーム信号処理と組み合わせて使用される。つまり、入力されたクリップ後の信号は、重なりをもつ一定長のフレームに分割され、各フレームに窓かけ処理をした後、上記SPADE処理が適用される。そして、その処理結果にフレーム合成処理が適用され、復元したクリップ前の信号が得られる。
S. Kitic, N. Bertin, and R. Gribnoval, "Sparsity and cosparsity for audio declipping: a flexible non-convex approach", The 12thInternational conference on Latent Variable Analysis and Signal Separation (LVA/ICA2015), 2015. S. Boyd, N. Parkikh, E. Chu, B. Peleato, and J. Eckstein, "Distributed optimization and statistical learning via the alternating direction method of multipliers", Foundation and Trend in Machine Learning, vol. 3, no. 1, 2011.
しかしながら、SPADEには、リアルタイムにセンサー信号の波形を復元する必要がある場合には、演算量が変動する、という問題がある。これは、SPADEが複雑さの想定を順次増やしながら繰り返し型で波形復元処理を進めるためであり、かつ、そもそも入力信号の複雑さが未知であり絶えず変動しているためである。また、クリップされる部分が増えるほど、元の信号の特性が復元後の信号に反映されにくくなる、という問題もある。
この発明の目的は、上記のような技術的課題に鑑みて、一定の演算量で精度よくクリップされた信号を復元することができる技術を実現することである。
上記の課題を解決するために、この発明の一態様の復元装置は、クリップ後信号と当該クリップ後信号のうちクリップされた部分を表すクリップ情報とを含む入力データから信号復元ニューラルネットワークを用いて当該クリップ後信号に対応するクリップ前信号を推定する復元部を含み、信号復元ニューラルネットワークは、クリップ前信号と当該クリップ前信号に対応するクリップ後信号と当該クリップ後信号に関するクリップ情報とを学習データとして、入力データを入力とし、クリップ前信号の推定値を出力するよう学習されたものである。
この発明の復元技術によれば、一定の演算量で精度よくクリップされた信号を復元することができる。
図1は、波形復元装置の機能構成を例示する図である。 図2は、波形復元部の構成を例示する図である。 図3は、波形復元方法の処理手順を例示する図である。 図4は、第二実施形態の波形復元部の機能構成を例示する図である。 図5は、コンピュータの機能構成を例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の信号復元装置(以下、「復元装置」とも呼ぶ)は、ゲート付き畳み込みニューラルネットワーク(Gated Convolutional Neural Network)(例えば、参考文献1,2参照)から構成される信号復元ニューラルネットワークにより、クリップ後の信号からクリップ前の信号を復元する信号処理装置である。ニューラルネットワークの演算は固定であるため、信号復元ニューラルネットワークによる信号復元処理全体の演算量は一定となる。また、十分な学習データを用いて事前に十分に信号復元ニューラルネットワークを学習させることで、復元後の信号にクリップ前の信号の特性がより良く反映されることが期待できる。
〔参考文献1〕Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, "Language Modeling with Gated Convolutional Networks," arXiv:1612.08083, Submitted on 23 Dec 2016 (v1).
〔参考文献2〕J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. S. Huang, "Free-Form Image Inpainting with Gated Convolution," arXiv:1806.03589, Submitted on 10 Jun 2018.
第一実施形態の波形復元装置1は、図1に例示するように、フレーム分割部11、波形復元部12(以下、「復元部」とも呼ぶ)、およびフレーム合成部13を備える。波形復元部12は、図2に例示するように、信号復元ニューラルネットワーク121および置換部122を備える。この波形復元装置1が、図3に例示する各ステップの処理を行うことにより第一実施形態の波形復元方法が実現される。
波形復元装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。波形復元装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。波形復元装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。波形復元装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
図2を参照して、信号復元ニューラルネットワーク121内で、入力データがどのように中間データに変換されていき、最終的に出力されるかを説明する。
はじめに、信号復元ニューラルネットワーク121の前段階(例えば、フレーム分割部11等)において、波形復元装置1に入力されたクリップ後信号のベクトルと上限クリップ情報のベクトルと下限クリップ情報のベクトルとから入力データを構成する。クリップ後信号のベクトルは、Lサンプルのクリップ後信号からなるL次元ベクトルである。上限クリップ情報は、上限値以上の信号サンプルがあった場所に1、それ以外の場所に0が設定されているL次元ベクトルである。下限クリップ情報は、下限値以下の信号サンプルがあった場所に1、それ以外の場所に0が設定されているL次元ベクトルである。すなわち、図2に示すように、クリップ後信号のベクトルを上限クリップ情報のベクトルと下限クリップ情報のベクトルに挟んで構成したL×3行列が入力データになる。
信号復元ニューラルネットワークを学習する際には、上記の入力データとクリップ前信号が学習データとして与えられる。学習済みの信号復元ニューラルネットワークで推定する際には、復元したいクリップ後信号に関する入力データを入力し、その出力をクリップ前信号の推定値とする。最後に、置換部122が、クリップ後信号のベクトル中で上限クリップもしくは下限クリップされている部分を、信号復元ニューラルネットワークで推定された値に置き換えて、復元されたクリップ前信号として出力する。
信号復元ニューラルネットワークは、多層のゲート付き畳み込みニューラルネットワークで構成される。畳み込みニューラルネットワークは、入力データ(信号)を時間方向に複数切り出してフィルタをかけ、活性化関数に通すことで特徴ベクトルを出力する。信号長L=1024のとき、フィルタ長には、例えば3~20タップを用いる。フィルタの種類を増やすことで特徴ベクトルの数、すなわちチャネル数を増やす。図2において、四角形で示したデータ(L1~L5)は各中間データであり、その縦幅が時間方向サンプル数に、その横幅がチャネル数に対応する。通常の畳み込みニューラルネットワークの1層分の変換は、Yを入力ベクトルとして、次式で表される。
Figure 0007188589000005
一方、ゲート付き畳み込みニューラルネットワークでは、この変換が次式になる。
Figure 0007188589000006
ただし、
Figure 0007188589000007
は要素ごとの積(element-wise product)であり、σは活性化関数であり、W, b, V, cは学習済みのパラメータである。本実施形態では、入力される信号および出力する信号は共に正負の値を取るため、活性化関数には正負の値を出力する関数(例えば、tanhなど)を用いる。
信号復元ニューラルネットワークは、クリップ後信号を高次の特徴量へエンコードしていく過程と、高次の特徴量を復元信号へデコードする過程とからなり、最終的にデコード過程からL次元ベクトルが出力される。エンコードの過程では、フィルタの種類を増やすことでチャネル数を増やすと同時にマックスプーリングを用いて時間方向サンプル数を減らしていく。デコードの過程では、逆にフィルタの種類を減らすことでチャネル数を減らすと同時にアップサンプリングを用いて時間方向サンプル数を増やしていく。図2では隠れ層が5層の構成を示したが、本発明の層数はこれに限定されない。これより層数の少ない構成も多い構成も考えられる。
なお、入力データから中間データ、中間データから中間データ、中間データから出力への各変換(G1~G6)には、図2に示すように、ゲート付き畳み込みニューラルネットワークとマックスプーリング、バッチノーマライゼーションが使われる。また、信号復元ニューラルネットワーク全体を学習するときのコスト関数には、参考文献2と同様に、クリップ前の信号と復元後の信号との差信号のL1ノルムを用いる。
以下、図3を参照して、第一実施形態の波形復元装置1が実行する波形復元方法の処理手続きを説明する。
波形復元装置1には、クリップ後信号と、クリップ後信号に関する上限クリップ情報と、クリップ後信号に関する下限クリップ情報とが入力される。
ステップS11において、フレーム分割部11は、入力されたクリップ後信号と上限クリップ情報と下限クリップ情報とをそれぞれLサンプルずつに分割して入力データを生成する。すなわち、入力データは、Lサンプルのクリップ後信号を表すL次元ベクトルと、クリップ後信号の各サンプルに対応する上限クリップ情報を表すL次元ベクトルと、クリップ後信号の各サンプルに対応する下限クリップ情報を表すL次元ベクトルとを組にしたデータである。より具体的には、L次元のクリップ後信号のベクトルがL次元の上限クリップ情報のベクトルとL次元の下限クリップ情報のベクトルとに挟まれたL×3行列が入力データとなる。フレーム分割部11は、生成した入力データを波形復元部12へ送る。
ステップS12において、波形復元部12は、信号復元ニューラルネットワーク121を用いて入力データからクリップ前信号を推定する。すなわち、波形復元部12は、フレーム分割部11から受け取った入力データを信号復元ニューラルネットワーク121へ入力し、置換部122で入力データのクリップ後信号のベクトルのうち上限値でクリップまたは下限値でクリップされている部分を信号復元ニューラルネットワーク121で推定された値に置換することで、クリップ前信号のベクトルを生成する。波形復元部12は、推定したクリップ前信号のベクトルをフレーム合成部13へ送る。
ステップS13において、フレーム合成部13は、推定されたクリップ前信号のベクトルにフレーム合成処理を適用し、クリップ前信号を復元する。
[第二実施形態]
第一実施形態の信号復元ニューラルネットワークでは、信号のおおまかな形状は復元されるが、細部の形状は復元されにくい傾向がある。そこで、第二実施形態の波形復元部では、細部形状の復元精度を上げるために、図4に示すように、信号復元ニューラルネットワークを二段直列に接続する。すなわち、第一実施形態の信号復元ニューラルネットワーク121-1により復元された信号ベクトルに対して、さらに二段目の信号復元ニューラルネットワーク121-2を適用し、クリップ前信号のベクトルを推定するように構成する。
第一実施形態と同様に、入力データは、クリップ後信号のベクトルを上限クリップ情報のベクトルと下限クリップ情報のベクトルとで挟んで構成する。信号長がLのとき、入力データはL×3行列になる。二段目の信号復元ニューラルネットワーク121-2を学習する際は、この入力データとクリップ前信号とを学習データとして与える。学習後、信号復元ニューラルネットワークで推定する際は、入力データを一段目の信号復元ニューラルネットワーク121-1へ入力し、二段目の信号復元ニューラルネットワーク121-2の出力をクリップ前信号の推定値とする。
二段目の信号復元ニューラルネットワーク121-2の内部構成は、図2に示した第一実施形態の信号復元ニューラルネットワークと同様である。すなわち、信号復元ニューラルネットワーク121-2は、クリップ後の信号を高次の特徴量へエンコードしていく過程と、高次の特徴量を復元信号へデコードする過程とからなり、最後にデコード過程からL次元ベクトルが出力される。各中間データの時間方向サンプル数およびチャネル数は、一段目の信号復元ニューラルネットワーク121-1と同一であってもよいし、違っていてもよい。また層数についても一段目の信号復元ニューラルネットワーク121-1と同じであってもよいし、違っていてもよい。
[第二実施形態の変形例]
クリップ後の信号ではなく欠落のある信号を対象として元の信号を復元する場合にも、クリップ後の信号と同様に元の信号の細部の情報が復元された信号から失われやすい。そのため、欠落のある信号を復元する場合にも、第二実施形態の構成を適用できる。この場合、入力データは、欠落有り信号ベクトルと欠落情報ベクトルからなるL×2行列になる。図4に示すように、二段目の信号復元ニューラルネットワークを用いることで、一段目の推定信号から、より復元精度の高い復元信号を推定することができる。
[発明のポイント]
本発明のポイントは以下の3点である。
1.クリップ後信号をゲートつき畳み込みニューラルネットワークを用いて復元する信号復元ニューラルネットワークにおいて、上限クリップ情報のベクトルと下限クリップ情報のベクトルとでクリップ後信号のベクトルを挟んで、入力データを構成する。
2.ゲートつき畳み込みニューラルネットワークの内部では、正負の値を出力する関数(tanh)を活性化関数として使う。
3.信号の復元精度を高めるために、信号復元ニューラルネットワークを二段構成にする。はじめに一段目の信号復元ニューラルネットワークを学習させる。その学習後の推定結果を用いて二段目の信号復元ニューラルネットワークを学習させる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図5に示すコンピュータの記憶部1020に読み込ませ、制御部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. クリップ後信号と当該クリップ後信号のうちクリップされた部分を表すクリップ情報とを含む入力データから信号復元ニューラルネットワークを用いて当該クリップ後信号に対応するクリップ前信号を推定する復元部を含み、
    上記信号復元ニューラルネットワークは、クリップ前信号と当該クリップ前信号に対応するクリップ後信号と当該クリップ後信号に関するクリップ情報とを学習データとして、上記入力データを入力とし、上記クリップ前信号の推定値を出力するよう学習されたものであり
    上記クリップ情報は、上限値でクリップされた部分を表す上限クリップ情報と下限値でクリップされた部分を表す下限クリップ情報とからなる、
    復元装置。
  2. クリップ後信号と当該クリップ後信号のうちクリップされた部分を表すクリップ情報とを含む入力データから信号復元ニューラルネットワークを用いて当該クリップ後信号に対応するクリップ前信号を推定する復元部を含み、
    上記信号復元ニューラルネットワークは、クリップ前信号と当該クリップ前信号に対応するクリップ後信号と当該クリップ後信号に関するクリップ情報とを学習データとして、上記入力データを入力とし、上記クリップ前信号の推定値を出力するよう学習されたものであり、
    上記信号復元ニューラルネットワークは、ゲート付き畳み込みニューラルネットワークであり、活性化関数が正負の値を出力する関数である、
    復元装置。
  3. クリップ後信号と当該クリップ後信号のうちクリップされた部分を表すクリップ情報とを含む入力データから信号復元ニューラルネットワークを用いて当該クリップ後信号に対応するクリップ前信号を推定する復元部を含み、
    上記信号復元ニューラルネットワークは、クリップ前信号と当該クリップ前信号に対応するクリップ後信号と当該クリップ後信号に関するクリップ情報とを学習データとして、上記入力データを入力とし、上記クリップ前信号の推定値を出力するよう学習されたものであり、
    上記復元部は、上記信号復元ニューラルネットワークを二段直列に接続し、一段目の信号復元ニューラルネットワークの出力と上記クリップ情報とからなる入力データを二段目の信号復元ニューラルネットワークへ入力して二段目の信号復元ニューラルネットワークの出力を上記クリップ前信号の推定値とする、
    復元装置。
  4. 復元部が、クリップ後信号と当該クリップ後信号のうちクリップされた部分を表すクリップ情報とを含む入力データから信号復元ニューラルネットワークを用いて当該クリップ後信号に対応するクリップ前信号を推定し、
    上記信号復元ニューラルネットワークは、クリップ前信号と当該クリップ前信号に対応するクリップ後信号と当該クリップ後信号に関するクリップ情報とを学習データとして、上記入力データを入力とし、上記クリップ前信号の推定値を出力するよう学習されたものであり
    上記クリップ情報は、上限値でクリップされた部分を表す上限クリップ情報と下限値でクリップされた部分を表す下限クリップ情報とからなる、
    復元方法。
  5. 復元部が、クリップ後信号と当該クリップ後信号のうちクリップされた部分を表すクリップ情報とを含む入力データから信号復元ニューラルネットワークを用いて当該クリップ後信号に対応するクリップ前信号を推定し、
    上記信号復元ニューラルネットワークは、クリップ前信号と当該クリップ前信号に対応するクリップ後信号と当該クリップ後信号に関するクリップ情報とを学習データとして、上記入力データを入力とし、上記クリップ前信号の推定値を出力するよう学習されたものであり、
    上記信号復元ニューラルネットワークは、ゲート付き畳み込みニューラルネットワークであり、活性化関数が正負の値を出力する関数である、
    復元方法。
  6. 復元部が、クリップ後信号と当該クリップ後信号のうちクリップされた部分を表すクリップ情報とを含む入力データから信号復元ニューラルネットワークを用いて当該クリップ後信号に対応するクリップ前信号を推定し、
    上記信号復元ニューラルネットワークは、クリップ前信号と当該クリップ前信号に対応するクリップ後信号と当該クリップ後信号に関するクリップ情報とを学習データとして、上記入力データを入力とし、上記クリップ前信号の推定値を出力するよう学習されたものであり、
    上記復元部は、上記信号復元ニューラルネットワークを二段直列に接続し、一段目の信号復元ニューラルネットワークの出力と上記クリップ情報とからなる入力データを二段目の信号復元ニューラルネットワークへ入力して二段目の信号復元ニューラルネットワークの出力を上記クリップ前信号の推定値とする、
    復元方法。
  7. 請求項1からのいずれかに記載の復元装置としてコンピュータを機能させるためのプログラム。
JP2021528089A 2019-06-18 2019-06-18 復元装置、復元方法、およびプログラム Active JP7188589B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/024058 WO2020255242A1 (ja) 2019-06-18 2019-06-18 復元装置、復元方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2020255242A1 JPWO2020255242A1 (ja) 2020-12-24
JP7188589B2 true JP7188589B2 (ja) 2022-12-13

Family

ID=74037011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021528089A Active JP7188589B2 (ja) 2019-06-18 2019-06-18 復元装置、復元方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220375489A1 (ja)
JP (1) JP7188589B2 (ja)
WO (1) WO2020255242A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11765011B2 (en) * 2021-07-06 2023-09-19 Huawei Technologies Co., Ltd. Method and apparatus for transmitting and receiving data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275410A (ja) 2004-03-23 2005-10-06 Herman Becker Automotive Systems-Wavemakers Inc ニューラルネットワークを利用してスピーチ信号を分離する。
JP2013162347A (ja) 2012-02-06 2013-08-19 Sony Corp 画像処理装置、画像処理方法、プログラム、および装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275410A (ja) 2004-03-23 2005-10-06 Herman Becker Automotive Systems-Wavemakers Inc ニューラルネットワークを利用してスピーチ信号を分離する。
JP2013162347A (ja) 2012-02-06 2013-08-19 Sony Corp 画像処理装置、画像処理方法、プログラム、および装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IIZUKA,Satoshi et al.,Globally and Locally Consistent Image Completion,[onlone],米国,ACM,2017年07月,pages:1-14,[Retrieved from the Internet]<URL:https://dl.acm.org/doi/pdf/10.1145/3072959.3073659>
YU,Jiahui et al.,Free-Form Image Inpainting with Gated Convolution,[online],米国,arXiv,2018年06月10日,pages:1-12,[retrieved on 2022.8.24],Retrieved from the Internet:<URL:https://arxiv.org/pdf/1806.03589v1.pdf>

Also Published As

Publication number Publication date
WO2020255242A1 (ja) 2020-12-24
US20220375489A1 (en) 2022-11-24
JPWO2020255242A1 (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
EP3340129B1 (en) Artificial neural network class-based pruning
JP6998968B2 (ja) ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム
JP7007488B2 (ja) ハードウェアベースのプーリングのシステムおよび方法
Chen et al. Signal recovery on graphs: Variation minimization
JP2019079305A (ja) データ分析装置、データ分析方法、およびデータ分析プログラム
WO2020003434A1 (ja) 機械学習方法、機械学習装置、及び機械学習プログラム
US12045961B2 (en) Image denoising method and apparatus based on wavelet high-frequency channel synthesis
Wei et al. Deep unfolding with normalizing flow priors for inverse problems
KR20210043295A (ko) 뉴럴 네트워크의 데이터를 양자화하는 방법 및 장치
CN111783938A (zh) 时间序列的预测方法和装置
CN113454648A (zh) 循环神经网络中的勒让德存储器单元
JP7188589B2 (ja) 復元装置、復元方法、およびプログラム
JP7118882B2 (ja) 変数変換装置、潜在パラメータ学習装置、潜在パラメータ生成装置、これらの方法及びプログラム
Zeng et al. Slice-based online convolutional dictionary learning
KR20210038027A (ko) 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법
JP7047665B2 (ja) 学習装置、学習方法及び学習プログラム
CN113793329A (zh) 一种空间边缘增强的轻量级显著物体检测方法
WO2020137641A1 (ja) 復元装置、復元方法、およびプログラム
Castro et al. From linear to nonlinear identification: One step at a time
WO2021090465A1 (ja) 帯域拡張装置、帯域拡張方法、およびプログラム
JP6994572B2 (ja) データ処理システムおよびデータ処理方法
JP7055211B2 (ja) データ処理システムおよびデータ処理方法
JPWO2020054402A1 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
JP7000586B2 (ja) データ処理システムおよびデータ処理方法
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221114

R150 Certificate of patent or registration of utility model

Ref document number: 7188589

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150