JP6925995B2 - 信号処理装置、音声強調装置、信号処理方法およびプログラム - Google Patents

信号処理装置、音声強調装置、信号処理方法およびプログラム Download PDF

Info

Publication number
JP6925995B2
JP6925995B2 JP2018008649A JP2018008649A JP6925995B2 JP 6925995 B2 JP6925995 B2 JP 6925995B2 JP 2018008649 A JP2018008649 A JP 2018008649A JP 2018008649 A JP2018008649 A JP 2018008649A JP 6925995 B2 JP6925995 B2 JP 6925995B2
Authority
JP
Japan
Prior art keywords
feature amount
signal processing
signal
weight
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018008649A
Other languages
English (en)
Other versions
JP2019128402A (ja
Inventor
達馬 石原
達馬 石原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018008649A priority Critical patent/JP6925995B2/ja
Publication of JP2019128402A publication Critical patent/JP2019128402A/ja
Application granted granted Critical
Publication of JP6925995B2 publication Critical patent/JP6925995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、信号処理装置、音声強調装置、信号処理方法およびプログラムに関する。
音声認識システムの認識率を向上させるため、音声を強調する信号処理などを実行する技術が提案されている。音声強調装置で用いられている技術として、信号の空間情報を利用して特定の方向の音声を強調するビームフォーミングが知られている。信号処理をより高精度に実行するためには、信号処理に用いる情報(特徴量など)をより高精度に算出することが望ましい。
特許第5044581号公報
しかしながら、従来技術では信号処理に用いる情報を高精度に算出できない場合があった。例えば、ビームフォーミングでは、忘却機能を設けることにより、現在の音源位置を優先して強調する場合がある。しかし、音源が移動しない場合にも忘却機能が働き、強調の効果が低下する場合があった。
実施形態の信号処理装置は、記憶部と、類似度算出部と、重み算出部と、更新部と、信号処理部と、を備える。記憶部は、第1入力信号の特徴を表す第1特徴量を記憶する。類似度算出部は、第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する。重み算出部は、類似度および第2特徴量に基づいて、第1特徴量に対する第1重みを算出する。更新部は、第1重みを乗算した第1特徴量と、第2特徴量とに基づいて、第3特徴量を算出し、第3特徴量により記憶部に記憶された第1特徴量を更新する。信号処理部は、更新された第1特徴量を用いた信号処理を実行する。
第1の実施形態にかかる信号処理装置のハードウェア図。 第1の実施形態にかかる信号処理装置のブロック図。 第1の実施形態における信号処理のフローチャート。 特徴量を算出および更新する処理の流れを説明するための図。 第2の実施形態にかかる信号処理装置のハードウェア構成図。 第2の実施形態にかかる信号処理装置のブロック図。 第2の実施形態における信号処理のフローチャート。
以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。なお以下では主に音声を強調する信号処理を実行する装置を例に説明するが、適用可能な信号処理は音声強調処理に限られない。音声以外の任意の信号の処理に適用できる。また、信号を強調する以外の信号処理を適用してもよい。
ビームフォーミングでは、通常、音源の到来方向は一定であることが仮定されている。このため、話者が切り替わる場合、および、音声を入力する音声入力装置(マイクなど)に対して話者が相対的に移動する場合には音源が固定されている場合より強調の効果が発揮されづらい。そこで、上述のような忘却機能を設け、過去の音源位置より現在の音源位置を優先して強調する技術が提案されている。しかし、話者が相対的に移動しない場合でも忘却機能が働くために、忘却機能を設定しない場合と比較して強調の効果が得られない場合がある。
一方、クラスタリングを用いることで話者切り替えに対処する技術が提案されている。しかしこのような方法は規則ベースの方法であり、微分不可能な構成要素を含む。このため、出力の基準、例えば信号対雑音比(SN比)を最大化することを表す基準(最大SNR基準)などを用いて、クラスタリングの精度を向上させるためのパラメータを調整することは困難であった。
(第1の実施形態)
第1の実施形態にかかる信号処理装置は、話者の空間情報を表す特徴量を複数の記憶領域それぞれに記憶する。信号処理装置は、音声信号に対する特徴量が入力されるごとに、記憶部に記憶された特徴量と入力された特徴量との類似度、および、入力された特徴量をニューラルネットに入力する。ニューラルネットは、記憶領域の個数と等しい次元数を持つ重みを出力する。出力される重みは、例えば、記憶された特徴量に対する重み(消去重み)、入力された特徴量に対する重み(書き込み重み)、および、記憶領域から読み出した特徴量に対する重み(読み出し重み)を含む。記憶領域から読み出した特徴量は、ビームフォーミングなどの信号処理に用いられる。
本実施形態では、学習データを利用して、適切な特徴量の書き換えと読み出しの方法をニューラルネットに学習させることができる。このため、忘却せずに特徴量を保持する方が強調するために都合がいい場合に忘却をしないといったことが学習できるようになる。
また本実施形態では、忘却の要否と関連性が高い情報である、記憶された特徴量と現在の特徴量との類似度を、ニューラルネットの入力に含めている。これにより、類似度を入力しない場合と比較して学習に必要なデータを削減できる。類似度を入力しない場合でも、記憶された特徴量と現在の特徴量とが類似するかに応じて出力が変わるように学習させることができるが、そのためにはより多くのデータが必要になるためである。学習のためのデータが増大する可能性はあるが、ニューラルネットの入力に類似度を含めないように構成してもよい。
このように、本実施形態によれば、忘却機能を導入しつつ、信号処理に用いる情報をより高精度に算出可能となる。例えば話者が相対的に移動しない場合でも強調の効果を維持可能となる。また、以下に述べるように本実施形態では微分不可能な構成要素を含まないモデルを用いるため、忘却機能を含む各機能を定めるパラメータが、出力で定義される評価基準(SN比など)を最大化するように調整可能となる。
次に、第1の実施形態にかかる信号処理装置のハードウェア構成について図1を用いて説明する。図1は、第1の実施形態にかかる信号処理装置100のハードウェア構成例を示す説明図である。
信号処理装置100は、CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53、記憶装置54、および、操作装置55を含み、それらがバスを介して接続されている。
CPU51は、RAM53を作業領域とし、RAM53に記録されたプログラムとの協働により各種処理を実行し、信号処理装置100の動作を統括的に制御する。
ROM52は、信号処理装置100の動作に関わるプログラム、および、学習に必要なメディアデータなどを、書き換え不可能な形式で記憶する。
RAM53は、例えばSDRAM(Synchronous Dynamic Random Access Memory)などの記憶媒体である。RAM53は、CPU51の作業エリアとして機能し、中間データの保持などの役割を果たす。
記憶装置54は、磁気的または光学的に情報を記憶可能な媒体であり、各種設定情報および学習結果などを記憶する。
操作装置55は、例えばキーボードおよびマウスなどであり、ユーザの入力をCPU51に出力する。
図2は、信号処理装置100の構成の一例を示すブロック図である。図2に示すように、信号処理装置100は、生成部101と、解析部111と、特徴量算出部112と、類似度算出部113と、重み算出部114と、更新部115と、信号処理部121と、学習部122と、記憶部141と、を備えている。
記憶部141は、過去に入力された音声信号(第1入力信号)に対して算出された特徴量(第1特徴量)を記憶する。記憶部141は、例えば図1のRAM53により構成することができる。記憶部141は、複数の記憶領域を含み、複数の記憶領域それぞれに特徴量を記憶する。
生成部101は、学習に用いる学習データを生成する。例えば生成部101は、音声信号(第3入力信号)と参照データとを含む学習データを生成する。参照データは、音声信号に対する信号処理の処理結果を表すデータである。参照データは、学習部122による学習時に参照される。
生成部101は、例えば予め準備された学習データを加工することにより、多様性を増大させ学習後の頑健性を向上させるような学習データを生成し、解析部111に出力する。上述のように、生成する学習データには、学習部122で用いるための参照データを含めることができる。その場合、参照データは、学習部122以外に入力する必要はない。
生成部101により生成される学習データに相当するデータが準備されている場合は、そのデータを用いるように構成すれば、生成部101を備える必要はない。
音声信号は、例えば、マイクロフォンアレイなどの音声入力装置により収録された信号である。マイクロフォンアレイは、空間内の異なる位置に備えられる複数のマイクを含み、複数のマイクに対応する複数のチャンネルの音声信号を取得する。以下では、複数のチャンネルの音声信号を用いる場合を例に説明するが、1つのチャンネルの音声信号に対しても同様の方法を適用できる。
学習データの生成方法はどのような方法であってもよいが、例えば、以下のような方法を用いることができる。
・音源が存在する領域(部屋など)のインパルス応答を生成して元の信号に畳み込む。
・雑音を加える。
・ランダムにサンプルを欠損させる。
・チャンネル間にランダムな遅延を加える。
・フェーズボコーダーにより持続時間、および、音高を変化させる。
また生成部101は、話者が交代する状況を再現するための学習データを生成してもよい。例えば、話者がA→B→Aと変化したときの状況を再現するために、生成部101は、Aに対応するチャンネル間相関を持つ信号とBに対応するチャンネル間相関を持つ信号とを互い違いに連結し、さらに雑音を重畳した学習データを生成してもよい。これにより、過去に発話したことのある話者が再度発話したときの音声強調の追従速度が向上することが期待できる。
解析部111は、入力された学習データを解析し、後段の処理で用いる情報を解析結果として出力する。例えば解析部111は、入力された音声信号に対して窓関数付き短時間フーリエ変換を実行し、スペクトログラムを出力する。非特許文献1と同様に、後段の特徴量の算出のため、スペクトログラムの各時間周波数ビンにおける信号/雑音判定をニューラルネットワークに実行させ、判定結果を出力に追加するように構成してもよい。
特徴量算出部112は、解析部111が出力した情報を元に特徴量を算出する。例えば特徴量算出部112は、入力信号に含まれる複数チャンネルの信号間の空間相関を特徴量として算出する。空間相関の例としては、入力全体の空間相関、雑音が多く含まれると推定されるスペクトログラムの領域のみから算出される雑音空間相関、および、信号が多く含まれると推定されるスペクトログラムの領域から算出される信号空間相関が挙げられる。
類似度算出部113は、記憶部141の各記憶領域に記憶されている特徴量と、特徴量算出部112により算出された特徴量(第2特徴量)と、の類似度を算出する。類似度は、例えば、空間相関をベクトル化したベクトルvと、i番目の記憶領域の内容rとの複素相関係数Real(v)/(|v||r|)を用いる。記号Hはエルミート転置を表す。
空間相関は、例えば周波数ごとに算出される。ベクトルvは、各周波数に対して算出された特徴量すべてを連結してベクトル化することにより求めてもよい。ベクトルvは、周波数ごとに算出された空間相関を個別にベクトル化してもよい。後者の場合、記憶部141の記憶領域の確保、および、類似度の算出などの後段の処理も、空間相関ごとに独立して実行される。
重み算出部114は、上述の消去重み、書き込み重み、および、読み出し重みを算出する。消去重みは、記憶部141に記憶された特徴量に対する重み(第1重み)である。消去重みは、例えば上述の忘却機能で用いられる忘却係数に対応する。書き込み重みは、特徴量算出部112により算出された特徴量に対する重み(第2重み)である。読み出し重みは、信号処理に用いる特徴量を算出するために記憶領域から読み出した特徴量に対する重み(第3重み)である。
重み算出部114は、例えば、類似度算出部113により算出された類似度、および、特徴量算出部112により算出された特徴量に基づいて重みを算出する。重みの算出には、類似度および特徴量を入力し、各重みを出力するニューラルネットワークを用いることができる。重みを算出するためのモデルはニューラルネットワークに限られない。例えば、ガウシアンプロセスなどの、回帰分析を行う他のモデルを適用してもよい。
重み算出部114は、例えば、類似度と空間相関(ベクトル化したベクトルv)とを入力とし、消去重み、書き込み重み、および、読み出し重みを表す3つの重みベクトルを出力するニューラルネットワークを用いる。各重みベクトルは、特徴量を記憶する記憶領域の個数と同じ次元数のベクトルである。各重みベクトルの要素は、0から1の範囲の実数値を取る。
本実施形態では、類似度に応じて異なる値となるように重みを算出することができる。例えば、記憶された特徴量と入力された音声信号に対する特徴量とが類似する場合、言い換えると音源が移動しない場合には、消去重みを大きな値とすることにより、忘却機能の効果を抑制することが可能となる。忘却機能の効果を抑制するためには、少なくとも消去重みを類似度に応じて算出すればよく、他の重み(書き込み重み、読み出し重み)は、他の方法で決定してもよい。例えば、他の重みを固定値とする方法、および、消去重みの値に応じて他の重みを算出する方法などを適用してもよい。
更新部115は、算出された重みベクトルと、特徴量算出部112により算出された特徴量と、を用いて記憶部141の各記憶領域に記憶された特徴量を更新する。例えば更新部115は、記憶された特徴量に消去重みを乗算し、特徴量算出部112により算出された特徴量に書き込み重みを乗算し、各乗算結果を加算することにより、特徴量(第3特徴量)を算出する。このように算出される特徴量は、記憶された特徴量と同じ次元のベクトルであり、記憶された特徴量の個数(記憶領域の個数)と同じ個数となる。更新部115は、算出した特徴量により、記憶部141に記憶された特徴量を更新する。
なお空間相関にはエルミート対称であるという性質があるため、更新部115により算出される特徴量も行列として解釈した場合にはエルミート対称であるという性質を満たす必要がある。エルミート対称である特徴量(空間相関)を用いて、エルミート対称を維持する演算(乗算および加算など)を行って特徴量を算出しているため、更新部115により算出される特徴量もエルミート対称であるという性質を満たす。
信号処理部121は、更新された特徴量を用いた信号処理を実行する。信号処理は、例えば、複数チャンネルの音声信号のうち一部の音声信号を強調する音声強調処理である。例えば信号処理部121は、記憶部141から読み出した特徴量(空間相関)を元に信号を強調するフィルタを生成し、生成したフィルタを入力に作用させて出力を得る。フィルタの算出方法としては、例えば非特許文献1に記載されているような最大SNR基準による方法を用いることができる。出力した信号に対して、さらにポストフィルタを適用してもよい。例えば非特許文献1にあるようにBAN(Blind Analytical Normalization)を用いることができる。
学習部122は、重み算出時に用いるニューラルネットワークのパラメータを学習する。例えば学習部122は、学習データを用いて信号処理部121による信号処理までの処理を実行し、信号処理の処理結果を評価し、評価結果に応じてニューラルネットワークのパラメータを更新する。学習部122は、例えば生成部101により生成された学習データを用いて学習処理を実行する。解析部111がニューラルネットワークを用いる場合、学習部122は、このニューラルネットワークのパラメータも学習してもよい。
学習部122は、例えば、参照データ、および、信号処理部121による処理結果から評価値を算出し、誤差逆伝播によりニューラルネットワークのパラメータを更新する。参照データが雑音の重畳されていない信号である場合には、出力との2乗誤差を評価値として用いることができる。参照データが信号と雑音である場合には、適用したフィルタから算出できるSN比を評価値として用いることができる。
学習部122は、評価値の推移から、学習を終了させるか否かを判定する。終了を判定するための基準(終了基準)としては、例えば過去10000回の入力から算出された評価値の推移に改善が見られないこと、などの基準が考えられる。終了基準を満たさない場合、学習部122は、例えば生成部101に新たに学習データを生成するように指令を出力する。終了基準を満たす場合、学習部122は、学習したパラメータを記憶部141などに記憶し、学習処理を終了する。
上記各部(生成部101、解析部111、特徴量算出部112、類似度算出部113、重み算出部114、更新部115、信号処理部121、および、学習部122)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU51などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
記憶部141は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAMなどの一般的に利用されているあらゆる記憶媒体により構成することができる。記憶部141の記憶領域は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部141の記憶領域のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。
次に、このように構成された信号処理装置100による信号処理について図3を用いて説明する。図3は、第1の実施形態における信号処理の一例を示すフローチャートである。
まず操作装置55などを介して信号処理の開始が指示されると、生成部101は、初期化処理を実行する(ステップS101)。例えば生成部101は、学習処理の各種設定のための記憶領域、および、特徴量を記憶するための記憶領域を、記憶部141内に確保する。
また生成部101は、記憶部141などに事前に記憶された学習データを読み出してRAM53内に記憶する。学習データは一度にすべて読み出して記憶してもよいし、逐次的に読み出して記憶してもよい。生成部101は、読み出したデータを破棄してもよい。
学習データは、例えば、強調の対象となる信号、および、抑圧の対象となる信号の2種類の信号に分けられる。強調の対象である信号は、典型的には音声(音声信号)である。強調の対象でない信号は、存在しても十分小さいこととする。例えば、SN比が予め定められた閾値(例えば40dB(デシベル))以上となるような学習データを用いる。以降、強調の対象は音声であるものとして説明するが、以下の手続きは強調する対象が音声でなくとも適用できることに注意する。例えば楽器の鳴動音など時間周波数領域で特徴的なパターンを持つ任意の信号に適用可能である。また、音波に限らず、例えば反射されたレーザー光を含む電磁波などを対象にすることもできる。抑圧の対象となる信号を、以下では雑音(雑音信号)と呼ぶ。
音声および雑音は、それぞれ同一とみなせる信号が複数チャンネルに渡って観測され、少なくとも1つのチャンネルの信号は他のチャンネルの信号と異なる。このような信号は、例えばマイクロフォンアレイを使用した収録などによって得られる。音源が存在する領域(部屋など)のインパルス応答を1チャンネルの信号に対して畳み込むなどの方法で多チャンネルの収録をシミュレーションすることによって、このような信号を生成してもよい。また、音声と雑音のチャンネル数は等しいことに注意する。
次に生成部101は、事前に準備された学習データから、学習部122による学習処理で用いる学習データを生成する(ステップS102)。例えば生成部101は、音声と雑音をランダムに選択し、ランダムなSN比で振幅を調整してすべてのチャンネルで重畳する。生成部101は、例えば、予め定められた範囲(例えば−5dBから10dBの範囲)の一様分布からサンプリングすることでSN比を決定する。このとき、すべてのチャンネルの音声の開始時間を、ランダムな時間だけ共通に遅らせてもよい。例えば雑音が音声より十分に長い場合、生成部101は、音声が雑音の範囲に含まれるような時間遅れの範囲を定めた一様分布からサンプリングすることで、遅らせる時間を決定する。
雑音に重畳する音声は複数存在してもよい。その場合、生成部101は、互いに重ならない複数の音声を用いる。生成部101は、複数の音声に対して共通のインパルス応答を畳み込んでもよい。これにより、同じ位置から発話している状況をシミュレーションすることができる。生成部101は、僅かに異なる位置のインパルス応答、例えば20cmから50cm程度移動させた位置からのインパルス応答を畳み込むように構成してもよい。これにより、音源が僅かに移動した状況をシミュレーションすることができる。
生成部101は、以上のようにして得られたデータから、音声の含まれない範囲の信号をカットして学習データとしてもよい。
次に解析部111は、生成された学習データ(入力信号)を入力し、入力信号に対して信号解析処理を実行する(ステップS103)。例えば解析部111は、入力信号をそれぞれのチャンネルについて時間周波数解析して時間周波数で表された解析結果を出力し、例えばRAM53に記憶する。時間周波数解析の方法としては、例えば短時間フーリエ変換、および、ウェーブレット変換などのフィルタバンク分析を用いることができる。
次に解析部111は、解析結果をニューラルネットワークNに入力し、ニューラルネットワークNの中間出力と最終出力を例えばRAM53に記憶する。入力を与える方法としては、複数チャンネルをまとめて入力してもよいし、チャンネルごとに独立に処理してもよい。チャンネルごとに独立に処理する場合、最終出力を得るために後処理を加える。例えば得られた各チャンネルの出力の中央値を各時間周波数座標について求めるなどの方法が考えられる。
ここで、ニューラルネットワークNの最終出力の次元数は、解析結果のフレームごとの特徴量数の2倍である。ニューラルネットワークNの構成要素としては、フィードフォワード接続、畳み込み接続、および、LSTM(Long short-term memory)を用いた構造など、任意の構造を採用できる。Bidirectional LSTMなどの系列全体の情報を利用するタイプの構造を用いる場合、学習後の実行時にオンライン処理ができないことに注意する。
解析結果の位相情報を破棄して絶対値のみにし、さらに絶対値の自然対数を取った値をニューラルネットワークNに入力してもよい。このように構成することで、入力のダイナミックレンジが狭くなり、後段のパラメータ更新時の安定性を向上させることができる。
解析部111は、ニューラルネットワークNの最終出力に対してシグモイド関数を適用する。シグモイド関数は、例えば出力を0〜1の範囲にするために用いられる。同様の機能を有するシグモイド関数以外の関数を用いてもよい。解析部111は、シグモイド関数の出力を2つに分離し、片方を音声マスクとし、もう片方を雑音マスクとする。
次に特徴量算出部112は、音声および雑音それぞれについて特徴量を算出する(ステップS104)。例えば特徴量算出部112は、解析結果に対してそれぞれのマスクを用いて、音声の空間相関の推定値と、雑音の空間相関の推定値と、を求める。より具体的には、特徴量算出部112は、時刻t、周波数ωにおける入力ベクトルx(t,ω)に対して、音声マスクm(t,ω)と雑音マスクm(t,ω)とを用いて、以下の(1)式により特徴量(空間相関)ξを算出する。
ξ(t,ω)=m(t,ω)x(t,ω)x(t,ω) ・・・(1)
ξおよびmの「X」は、音声を示す「S」、または、雑音を示す「N」のいずれかが設定されることを表す。以下の処理は、音声と雑音で独立に実行される。説明の便宜のため、区別する必要がない場合は「X」を付した変数名を用いる。入力ベクトルx(t,ω)の各要素は、各チャンネルに対応する。
次に類似度算出部113は、記憶部141に記憶された各特徴量と、ステップS104で算出された特徴量との類似度を算出する(ステップS105)。特徴量を記憶する記憶領域の個数をLとする。L個の記憶領域に記憶された特徴量を示すL個のベクトルをr,r,・・・,rと表す。また以下では、L個のベクトルを並べた行列をR={r,r,・・・,r}と表す。
例えば類似度算出部113は、L個のベクトルr,r,・・・,rのそれぞれと、特徴量ξをベクトル化したvとの間の相関係数を類似度として算出する。相関係数は、上述の複素相関係数Real(v )/(|v||r|)(1≦i≦L)などを用いることができる。またvは、周波数ごとに算出される特徴量(ξまたはξ)をすべて連結してベクトル化することにより生成してもよいし、適当に分割してそれぞれ管理してもよい。例えば、周波数ごとにベクトル化してvを生成してもよい。記憶部141に記憶するL個のベクトルr,r,・・・,rそれぞれは、vの次元数と等しいベクトルとする。
次に重み算出部114は、算出された類似度、および、特徴量を用いて重みを算出する(ステップS106)。例えば重み算出部114は、L個の類似度と、特徴量をベクトル化したvと、をニューラルネットワークNに入力する。ニューラルネットワークNは次元数Lの3つの重みベクトルW、W、Wを出力する。各重みベクトルの各要素は0以上の実数であり、各要素の総和は1である。重みベクトルW、W、Wは、それぞれ消去重み、書き込み重み、読み出し重みに対応する。
の次元数が固定であるか、任意であるかはニューラルネットワークNの構成に依存する。例えば全結合のフィードフォワード型の構造のように入力と出力の次元数が固定される場合、vの次元数は学習時および音声強調時で共通の固定された値を用いる。一方、畳み込みネットワークのような、vの次元数に依存せず計算可能な構造を採用した場合、vの次元数は任意である。任意の場合であっても、記憶領域に記憶された各特徴量を新たに初期化しない限り、続けて入力されるvの次元数は前に入力したものと等しい。
次に更新部115は、算出された重みを用いて、記憶部141に記憶された特徴量を更新する(ステップS107)。例えば更新部115は、記憶されたL個のベクトルを含む行列Rを、以下の(2)式により更新する。Diag(・)は、ベクトルを対角要素に持つ対角行列を表す。
R←RDiag(W)+v ・・・(2)
更新部115は、更新されたRを用いて出力φを以下の(3)式により算出する。
φ=W R ・・・(3)
以上の手順は、記憶部141に記憶する特徴量の個数を1(L=1)とし、入力に依存しない固定の値を重み(忘却係数)に用いたとき、以下の(4)式と定数倍を除いて一致する。(4)式は、空間相関のオンライン推定の忘却係数付きの推定方法を表す。αは固定された忘却係数を表す。従って、以上の手順は、固定の忘却係数を用いる既存の方法を特別な場合に含むことがわかる。
R←αR+v ・・・(4)
本実施形態では、以上の手順で重みを算出することにより、既存の場合と比較し、入力に適応して重みを柔軟に制御することができる。
出力φは、記憶部141に記憶する各特徴量が空間相関とみなせる場合、空間相関の推定値とみなせる。このためには、記憶部141に記憶する情報が空間相関の推定値とみなせるように初期化してある必要がある。例えば、ランダムな複素ベクトルcを用いて、ccを各記憶領域に十分な回数加算するなどの方法で初期化した初期値は、この条件を満たす。cの次元数は入力のチャンネル数に等しい。十分な回数とは、例えば、cの次元数の2倍程度である。複素ベクトルのサンプリング方法としては、例えば実部と虚部を−1から1の範囲の一様分布からサンプリングする方法を用いることができる。
このようにして、音声および雑音それぞれに対応する次元数の等しい出力φおよびφが得られる。
信号処理部121は、これらの出力を用いた信号処理を実行する(ステップS108)。例えば信号処理部121は、出力φ、φに対して最大SNR基準でフィルタfを設計する。これは一般化固有値問題により解くことができる。例えば信号処理部121は、非特許文献1に記載された方法によりフィルタを生成することができる。信号処理部121は、生成したフィルタを混合音声の時間周波数表現に対して適用し、必要ならばさらにBANを適用して、雑音抑圧音声の時間周波数表現を出力する。
次に学習部122は、信号処理部121の処理結果を用いてニューラルネットワークのパラメータを更新する(ステップS109)。例えば学習部122は、信号処理部121により算出された雑音抑制音声の時間周波数表現に対して、SN比を算出する。音声のみが含まれた信号をs(t,ω)、雑音のみが含まれた信号をn(t,ω)として、以下の(5)式によりSN比ECNが求められる。
CN=|(fs)/(fn)| ・・・(5)
学習部122は、算出されたSN比の微分を求め、例えば誤差逆伝搬法によってニューラルネットワークNおよびNのパラメータを更新する。更新するとき、微分値をそのまま用いる代わりにAdamなどを適用して修正を施した値を利用してもよい。
ニューラルネットワークNのパラメータ更新を安定させるため、SN比を反映した正解マスクと、算出された音声マスクm(t,ω)または雑音マスクm(t,ω)のクロスエントロピー誤差を評価値として追加し、パラメータを更新してもよい。
正解マスクは、例えば、SN比が上限値(例えば10dB)以上であれば音声マスクを1とし、SN比が下限値(例えば−10dB)以下であれば雑音マスクを1とし、それ以外では0にするという基準で作成される。
学習部122は、以上の処理を学習が収束するまで繰り返す。学習部122は、例えば、終了条件が満たされたか否かを判定する(ステップS110)。終了条件はどのような条件であってもよいが、例えば、以下のような条件を適用できる。
・更新の回数が一定値(例えば100万回)に達したときに収束したとみなす。
・更新の回数が一定値(例えば100万回)に達するごとに、評価データの平均SN比に対してSN比が改善されたかを評価する。所定回数(例えば5回)に渡って改善が見られないときに収束したとみなす。学習部122は、例えば、学習データの一部を学習には利用せずに分離して、評価データとして利用する。
終了条件が満たされていない場合(ステップS110:No)、ステップS103に戻り処理が繰り返される。終了条件が満たされた場合(ステップS110:Yes)、学習部122は、更新したパラメータを例えば記憶部141に記憶する。
次に、特徴量を算出および更新する処理についてさらに説明する。図4は、特徴量を算出および更新する処理の流れを説明するための図である。
解析部111および特徴量算出部112により、入力信号から特徴量が算出される。特徴量は、例えば複数チャンネルの信号間の空間相関を表す空間相関行列により表される。特徴量は、vにベクトル化される。
一方、記憶部141には、vと同じ次元数のL個のベクトルr,r,・・・,rが記憶される。記憶部141全体としては、L個のベクトルを並べた行列R={r,r,・・・,r}を記憶する。
類似度算出部113は、ベクトルvと、L個のベクトルそれぞれとの類似度を算出する。算出された類似度は、ニューラルネットに入力され、ニューラルネットが重みを出力する。重みの次元数は、L個のベクトルに対応してLとなる。出力される重みは、少なくとも記憶された特徴量に対する重み(消去重み)を含む。
更新部115は、出力された重み、算出された特徴量、および、記憶部141に記憶された特徴量を用いて、記憶部141に記憶された特徴量を更新するとともに、更新後の特徴量を用いて、信号処理のための特徴量φ(φおよびφ)を算出する。
このように、第1の実施形態にかかる信号処理装置では、記憶された特徴量に対する重み(消去重み)を用いるため、従来の忘却機能と同様の機能を実現できる。さらに、算出された特徴量と、記憶された特徴量との類似度に応じて重みを算出するため、信号処理に用いる情報(特徴量)をより高精度に算出可能となる。
(第2の実施形態)
第2の実施形態にかかる信号処理装置は、第1の実施形態の信号処理装置などによりパラメータが学習されたモデルを用いて信号処理(例えば音声強調処理)を実行する装置である。第1の実施形態の信号処理装置(学習処理を実行する装置)の機能と、本実施形態の信号処理装置の機能とを両方備えるように構成してもよい。
図5は、第2の実施形態にかかる信号処理装置100−2のハードウェア構成例を示す説明図である。
信号処理装置100−2は、CPU61、ROM62、RAM63、記憶装置64、操作装置65、入力装置66、および、出力装置67を含み、それらがバスを介して接続されている。
CPU61、ROM62、RAM63、記憶装置64、および、操作装置65の機能は、信号処理装置100と同様であるため説明を省略する。
入力装置66は、例えば音声を入力するマイクロフォンアレイである。入力装置66は、マイクロフォンアレイを構成する複数のマイクから複数の独立した信号を取得する。
出力装置67は、各種情報を出力するための装置である。例えば出力装置67は、スピーカ、イヤホン、および、ヘッドホンなどの1つまたは複数の音声出力装置である。音声出力装置は、電気信号を空気の振動に変換して出力する。出力装置67は、ディスプレイであってもよい。ディスプレイは、例えば音声認識結果を表示する。
図6は、第2の実施形態にかかる信号処理装置100−2の構成の一例を示すブロック図である。図6に示すように、信号処理装置100−2は、受付部131−2と、解析部111と、特徴量算出部112と、類似度算出部113と、重み算出部114と、更新部115と、信号処理部121と、記憶部141と、を備えている。
第2の実施形態では、生成部101および学習部122が削除され、受付部131−2が追加されたことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理装置100のブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
受付部131−2は、信号処理の対象となる情報の入力を受け付け、解析部111に出力する。例えば受付部131−2は、マイクロフォンアレイにより取得された多チャンネルの波形データである入力信号を受け付ける。受付部131−2は、入力信号をAD(アナログデジタル)変換によりデジタル化し、デジタル化した信号を、例えば記憶部141内の作業領域に記憶する。受付部131−2は、デジタル化した信号を解析部111に出力する。
解析部111以降の処理は、第1の実施形態と同様である。信号処理部121は、受け付けられた波形データに対する処理結果を出力する。例えば信号処理部121は、雑音抑圧音声の時間周波数表現(スペクトル)を出力する。信号処理部121は、後段の処理で用いる形式に変換した処理結果を出力してもよい。例えば信号処理部121は、強調処理後のスペクトルに対し、合成窓を適用したオーバーラップアドにより出力波形に変換して出力してもよい。後段に音声認識システムが接続されている場合は、波形に変換せず、直接スペクトルを出力してもよい。
次に、このように構成された第2の実施形態にかかる信号処理装置100−2による信号処理について図7を用いて説明する。図7は、第2の実施形態における信号処理の一例を示すフローチャートである。
まず操作装置65などを介して信号処理の開始が指示されると、受付部131−2は、初期化処理を実行する(ステップS201)。例えば受付部131−2は、学習されたパラメータのための記憶領域、および、特徴量を記憶するための記憶領域を、記憶部141内に確保する。
受付部131−2は、例えばマイクロフォンアレイにより取得された複数チャンネルの信号の入力を受け付ける(ステップS202)。受付部131−2は、信号をAD変換によりデジタル化し、デジタル化した波形を記憶部141に記憶する。
ステップS203からステップS208までは、第1の実施形態にかかる信号処理装置100におけるステップS103からステップS108までと同様の処理なので、その説明を省略する。
ステップS208の信号処理により、信号処理の処理結果(例えば強調音声のスペクトル)が得られる。以上の手順が、動作の終了が指示されるまで繰り返される。例えば受付部131−2は、操作装置65などを介して動作の終了が指示されたか否かを判定する(ステップS209)。動作の終了が指示されていない場合(ステップS209:No)、次に入力された信号に対してステップS202から処理が繰り返される。動作の終了が指示された場合(ステップS209:Yes)、信号処理が終了する。
終了時に、記憶部141の各記憶領域に記憶された特徴量を、他の不揮発性の記憶媒体(例えば記憶装置64)に記憶してもよい。そして、この記憶媒体に記憶した特徴量を、次回の起動時に初期設定値として読み出し、記憶部141に設定してもよい。これにより、記憶部141の記憶領域の初期化処理を省略することができる。
このように、第2の実施形態にかかる信号処理装置では、第1の実施形態と同様の手法を、音声強調処理などの信号処理時に適用可能となる。
以上説明したとおり、第1から第2の実施形態によれば、信号処理に用いる情報(特徴量)をより高精度に算出可能となる。
上記実施形態の信号処理装置(信号処理装置100、信号処理装置100−2)で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPUがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100−2 信号処理装置
101 生成部
111 解析部
112 特徴量算出部
113 類似度算出部
114 重み算出部
115 更新部
121 信号処理部
122 学習部
131−2 受付部
141 記憶部

Claims (11)

  1. 第1入力信号の特徴を表す第1特徴量を記憶する記憶部と、
    前記第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出部と、
    前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出部と、
    前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新部と、
    更新された前記第1特徴量を用いた信号処理を実行する信号処理部と、を備え、
    前記第1入力信号および前記第2入力信号は、音声信号、時間周波数領域で特徴的なパターンを持つ信号、または、反射されたレーザー光を含む電磁波による信号である対象信号をそれぞれ含む、
    号処理装置。
  2. 前記重み算出部は、前記類似度および前記第2特徴量を入力して前記第1重みを出力するモデルを用いて、前記第1重みを算出する、
    請求項1に記載の信号処理装置。
  3. 前記モデルはニューラルネットワークである、
    請求項2に記載の信号処理装置。
  4. 学習データを用いて前記信号処理の処理結果を評価し、前記モデルのパラメータを更新する学習部をさらに備える、
    請求項2に記載の信号処理装置。
  5. 第3入力信号と、前記信号処理の処理結果を表す参照データと、を含む学習データを生成する生成部をさらに備え、
    前記学習部は、生成された前記学習データを用いて学習処理を実行する、
    請求項4に記載の信号処理装置。
  6. 前記対象信号は、空間内の異なる位置からそれぞれ得られる複数チャンネルの信号を含み、
    前記第1特徴量、前記第2特徴量、および、前記第3特徴量は、前記複数チャンネルの信号に基づく空間相関である、
    請求項1に記載の信号処理装置。
  7. 前記重み算出部は、さらに、前記類似度および前記第2特徴量に基づいて、前記第2特徴量に対する第2重みを算出し、
    前記更新部は、前記第1重みを乗算した前記第1特徴量と、前記第2重みを乗算した前記第2特徴量とに基づいて、前記第3特徴量を算出する、
    請求項1に記載の信号処理装置。
  8. 前記重み算出部は、さらに、前記類似度および前記第2特徴量に基づいて、前記記憶部から読み出した前記第1特徴量に対する第3重みを算出し、
    前記信号処理部は、前記第3重みを乗算した前記第1特徴量を用いた信号処理を実行する、
    請求項1に記載の信号処理装置。
  9. 複数チャンネルの音声信号を含む第1入力信号の特徴を表す第1特徴量を記憶する記憶部と、
    前記第1特徴量と、複数チャンネルの音声信号を含む第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出部と、
    前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出部と、
    前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新部と、
    更新された前記第1特徴量を用いて複数チャンネルの音声信号のうち一部の音声信号を強調する信号処理を実行する信号処理部と、
    を備える音声強調装置。
  10. 第1入力信号の特徴を表す第1特徴量を記憶部に記憶する記憶ステップと、
    前記第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出ステップと、
    前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出ステップと、
    前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新ステップと、
    更新された前記第1特徴量を用いた信号処理を実行する信号処理ステップと、を含み、
    前記第1入力信号および前記第2入力信号は、音声信号、時間周波数領域で特徴的なパターンを持つ信号、または、反射されたレーザー光を含む電磁波による信号である対象信号をそれぞれ含む、
    号処理方法。
  11. コンピュータに、
    第1入力信号の特徴を表す第1特徴量を記憶部に記憶する記憶ステップと、
    前記第1特徴量と、第2入力信号の特徴を表す第2特徴量と、の類似度を算出する類似度算出ステップと、
    前記類似度および前記第2特徴量に基づいて、前記第1特徴量に対する第1重みを算出する重み算出ステップと、
    前記第1重みを乗算した前記第1特徴量と、前記第2特徴量とに基づいて、第3特徴量を算出し、前記第3特徴量により前記記憶部に記憶された前記第1特徴量を更新する更新ステップと、
    更新された前記第1特徴量を用いた信号処理を実行する信号処理ステップと、を実行させ、
    前記第1入力信号および前記第2入力信号は、音声信号、時間周波数領域で特徴的なパターンを持つ信号、または、反射されたレーザー光を含む電磁波による信号である対象信号をそれぞれ含む、
    ログラム。
JP2018008649A 2018-01-23 2018-01-23 信号処理装置、音声強調装置、信号処理方法およびプログラム Active JP6925995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018008649A JP6925995B2 (ja) 2018-01-23 2018-01-23 信号処理装置、音声強調装置、信号処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018008649A JP6925995B2 (ja) 2018-01-23 2018-01-23 信号処理装置、音声強調装置、信号処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019128402A JP2019128402A (ja) 2019-08-01
JP6925995B2 true JP6925995B2 (ja) 2021-08-25

Family

ID=67472141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018008649A Active JP6925995B2 (ja) 2018-01-23 2018-01-23 信号処理装置、音声強調装置、信号処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6925995B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6967099B2 (ja) * 2020-03-04 2021-11-17 株式会社日立製作所 学習モデル作成システム及び学習モデル作成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
JPH1155132A (ja) * 1997-07-30 1999-02-26 Nec Corp 無線機及び無線通信方法
US10347271B2 (en) * 2015-12-04 2019-07-09 Synaptics Incorporated Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network
KR102151682B1 (ko) * 2016-03-23 2020-09-04 구글 엘엘씨 다중채널 음성 인식을 위한 적응성 오디오 강화

Also Published As

Publication number Publication date
JP2019128402A (ja) 2019-08-01

Similar Documents

Publication Publication Date Title
JP6903611B2 (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
Delcroix et al. Strategies for distant speech recognitionin reverberant environments
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
JP6623376B2 (ja) 音源強調装置、その方法、及びプログラム
JP2010224321A (ja) 信号処理装置
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
Eskimez et al. Adversarial training for speech super-resolution
CN111465982A (zh) 信号处理设备和方法、训练设备和方法以及程序
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP2018040848A (ja) 音響処理装置および音響処理方法
CN101460996A (zh) 增益控制系统、增益控制方法和增益控制程序
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
Gaubitch et al. Blind channel magnitude response estimation in speech using spectrum classification
JP5443547B2 (ja) 信号処理装置
JP6925995B2 (ja) 信号処理装置、音声強調装置、信号処理方法およびプログラム
Jannu et al. Weibull and Nakagami speech priors based regularized NMF with adaptive wiener filter for speech enhancement
JP7443823B2 (ja) 音響処理方法
Das et al. Improved real-time monophonic pitch tracking with the extended complex Kalman filter
US20210089926A1 (en) Machine learning method and machine learning apparatus
Dwivedi et al. Spherical harmonics domain-based approach for source localization in presence of directional interference
CN110675890A (zh) 声音信号处理装置以及声音信号处理方法
Moliner et al. Zero-shot blind audio bandwidth extension
JP6930089B2 (ja) 音響処理方法および音響処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201020

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210804

R151 Written notification of patent or utility model registration

Ref document number: 6925995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151