JP2016517023A

JP2016517023A - 音響信号を処理する方法

Info

Publication number: JP2016517023A
Application number: JP2015555307A
Authority: JP
Inventors: ル・ルー、ジョナサン; 渡部　晋治; 晋治渡部; ハーシェイ、ジョン・アール
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-07-18
Filing date: 2014-07-04
Publication date: 2016-06-09
Anticipated expiration: 2034-07-04
Also published as: JP6153142B2; CN105393305B; US9601130B2; WO2015008699A1; DE112014003305T5; CN105393305A; DE112014003305B4; US20150025880A1

Abstract

方法は、まず、１組の強調手順によって音響信号を強調して１組の初期強調信号を生成することにより、ターゲット信号と干渉信号との混合である音響信号を処理する。次に、音響信号および１組の初期強調信号にアンサンブル学習手順を適用して、音響信号の特徴を生成する。

Description

本発明は、包括的には、音声処理に関し、より詳細には、干渉を含む音声信号を強調することに関する。

音声強調
音声強調方法は、一つには、音声認識を改善する目的で、雑音または他の干渉プロセスによって劣化した音声の品質および明瞭度を改善することを試みる。多くのタイプの干渉が存在するため、これは困難な問題である。通常、音声は、音響クラッター環境からの複数の競合する音源の雑音の多い背景と混合される。さらに厄介なことには、リアルタイム用途における計算リソースおよびレイテンシに対する動作制約によって、多くの場合に、多くの異なる干渉を表し、それらに適合し得た複雑なモデルの使用が不可能になる。単純な方法が様々な条件に対応することは困難であるため、基礎を成す音声および干渉の統計的特性に関する何らかの仮定が、通常、行われる。

音声および干渉の特性に関する様々な明示的または暗黙的な仮定をそれぞれ有する多くの異なる強調方法が知られている。しかしながら、これらの方法の多くは、信号のいくつかの部分を改善する一方で、多くの場合に、他の部分を劣化させる。

アンサンブル学習
アンサンブル学習方法は、通常、代替モデルの有限集合を組み合わせ、各モデルによって成された誤りの独立性を利用して推定分散を低減させ、これにより誤り率を低減させる。これらの方法は、各モデルによって推測される量が平均化される単純な投票手順から、トレーニングデータに適応可能であるよう組み合わせを行うように二次モデルがトレーニングされたスタッキングへと多岐にわたる。利点として、投票方法は、リアルタイム条件を考慮することなく適用され得る。一方、スタッキング方法は、より複雑な組み合わせ機能を学習することができ、潜在的に、より良好な性能をもたらす。

アンサンブル方法は、自動音声認識（ＡＳＲ）において、認識器出力投票誤り低減（ＲＯＶＥＲ：recognizer output voting error reduction）等の投票手順を介して様々な認識器の音声認識仮説を融合させるのに広く用いられてきた。ＲＯＶＥＲシステムは、複数のＡＳＲシステムによって生成される出力を独立した知識源としてモデル化する認識後プロセスである。これらの知識源を組み合わせて、誤り率が低減した出力を生成するのに用いることができる。

特に、関連するアンサンブルＡＳＲ方法は、フロントエンドＡＳＲ処理によって異なる。アンサンブルＡＳＲ方法の主な利点は、性能を改善するための多岐にわたる既存の方法を用いることができることである。

本発明の実施の形態は、音響信号を処理する方法を提供する。この方法は、多くの方法が異なる利点を有し、異なる欠点を被っているという認識に基づく。本発明は、複数の音響信号強調手順の強みを組み合わせ、強調問題をアンサンブル学習フレームワークとして定式化する。強調手順の組み合わせによって、強調を大幅に改善することができる。

具体的には、本方法は、強調手段のアンサンブルによって音響信号を強調して初期強調信号を生成することにより、ターゲット信号と干渉信号との混合である音響（音声）信号を処理する。強調信号は、次に、アンサンブル学習方法によって組み合わされ、音響信号の特徴が求められる。特定の事例は、特徴が強調音響（音声）信号となる場合である。

これを行う１つの可能な方法は、各強調手順の出力の表現を共通領域において構築し、これらの表現を組み合わせ、組み合わされた表現がクリーンなターゲット信号に関連付けられた表現に可能な限り近づくようにすることである。

具体的には、方法は、まず、１組の強調手順によって音響信号を強調して１組の初期強調信号を生成することにより、ターゲット信号と干渉信号との混合である音響信号を処理する。次に、音響信号および１組の初期強調信号にアンサンブル学習手順を適用して音響信号の特徴を生成する。

本発明の実施の形態による、音響信号を処理する方法の流れ図である。本発明の実施の形態による、アンサンブル学習手順の流れ図である。

方法概観
図１は、本発明の実施の形態による音響信号１０１を処理する方法を示す。好ましい実施の形態では、音響信号ｙ［ｔ］１０１は、音声信号ｘ［ｔ］と、音響的に複雑で雑音の多い環境１０４から取得された多岐にわたる干渉信号ｎとの混合１０１である。本方法は、他のタイプの音響信号、例えば、ソーナー信号または超音波信号を処理するのに用いることができることが理解される。

本発明では、前処理中、音響信号を一時点に１フレームずつサンプリングし、処理することができる。信号のサンプリングレートは、１６ｋＨｚとすることができる。特徴として、例えば、６４０サンプルのフレーム長、５０％のオーバーラップ、並びに解析および合成用のサイン窓を有する短時間フーリエ変換（ＳＴＦＴ）を用いて、信号のための共通時間−周波数表現を取得することができる。本方法は、ターゲット信号および干渉信号の混合である任意の音響信号のために用いることができ、強調によりターゲット信号ｘが雑音ｎから切り離されることが理解される。

Ｊ個の強調手順［１，．．．，Ｊ］１１０〜１１１の組（アンサンブル）が、時間領域において入力信号ｙ［ｔ］に適用され、時間領域において対応する初期強調信号

１１２〜１１３が生成される。ここで、強調手順ごとに１つの強調信号が存在する。手順１１０〜１１１は、任意の数および種類の発生源分離または音声強調手順、例えばベクトルテイラー級数（ＶＴＳ）、間接ＶＴＳ、改良型最小制御再帰平均化を用いた最適修正された最小平均二乗誤差対数スペクトル振幅（ＯＭＬＳＡ−ＩＭＣＲＡ）、最小平均二乗誤差（ＭＭＳＥ）、対数ＭＭＳＥ手順、およびそれらの組み合わせに基づくことができる。例において、２つが示されている。

アンサンブル学習手順２００は、雑音の多い信号１０１を入力としてとり、初期強調信号ｘ_ｊ［ｔ］１１２〜１１３を組み合わせて特徴ｆ１３５を生成する。特徴は、直接または間接的に表すことができる。例えば、間接的に表された特徴は、以下で説明するように、信号内の関心対象の特徴を固有に選択するフィルターまたはマスクとすることができる。直接表された特徴は、ターゲット音響信号自体の波形の推定値とすることもできるし、ＭＦＣＣ等のターゲット音響の従来のＡＳＲ特徴の推定値とすることもできる。

後処理中、特徴が、フィルターまたはマスク等の間接的に表された特徴である場合、これらの特徴を用いて雑音の多い入力信号ｙ［ｔ］１０１からターゲット信号ｘ［ｔ］１４１を合成することができる（１４０）。特徴１３５またはターゲット信号１４１は、自動音声認識システム（ＡＳＲ）１５０によってさらに処理することができる。

本方法は、当該技術分野において既知のメモリおよび入／出力インターフェースに接続されたプロセッサにおいて実行することができる。

図２は、例示的なアンサンブル学習手順２００をより詳細に示す。音響信号１０１を用いて、各初期強調信号ｘ_ｊ［ｔ］にマスク生成２１０が適用されて、初期特徴またはマスク

２１１〜２１２が生成される。マスクは、重みとすることができる。アンサンブル学習手順を用いて、ターゲット音響信号に対応するターゲットマスクを推定する。ターゲットマスクがバイナリである場合、アンサンブル学習手順は、分類方法２２１とすることができ、ターゲットマスクが連続である場合、アンサンブル学習手順は、回帰方法２２２とすることができる。

アンサンブル学習手順のパラメーターは、雑音の多い信号および雑音のない信号の双方が利用可能であるトレーニングデータから学習することができる。

上記の方法のステップは、当該技術分野において既知のメモリおよび入出力インターフェースに接続されたプロセッサにおいて実行することができる。処理は、リアルタイムで行うことができる。

概論
上記の方法において、音声強調手順のアンサンブルは、組み合わせ２００中に初期強調信号のみを用いるという意味で、ブラックボックスとして扱われる。本発明の目標は、任意のモデルを用いることができるようにし、異種の特徴の使用を回避することである。

このため、組み合わせを、強調手順によって用いられる領域と独立した領域内で行う。そのような領域のための良好な選択は、短時間パワースペクトルである。短時間パワースペクトルは、位相に対し相対的に敏感でないこと、並びに信号における時間および周波数パターンを明らかにする能力に起因して信号処理において広く用いられている。用いられる内部表現にかかわらず、音声強調手順は、時間領域において「雑音の多い」信号ｙ［ｔ］１０１を入力としてとり、信号を初期強調信号

１１２〜１１３に変換する。短時間パワースペクトル領域において、雑音の多い入力信号のスペクトログラムにマスクを適用することによって、強調プロセスを近似することができる。

実施の詳細
本発明によるアンサンブルの各強調手順によって生成される初期強調信号１１２〜１１３について、時間フレームｎおよび周波数ｆの対応する重み付きマスク

を生成する。雑音の多いスペクトルをクリーンなスペクトルに変換するターゲットマスク

も生成する。単純にするために、マスクは、関数であり、バイナリマスク

および

として近似することができる。バイナリターゲットマスク

は、各強調手順から導出された、重み付きマスク

またはそれらのバイナリ相当物を入力として用いてバイナリマスク

１３５を推定することとして、アンサンブル推測強調を提起することができるという点で、分類に好都合である。

ターゲット信号
本方法のためのターゲット音声信号は、最終的な強調信号、すなわち「クリーン」信号ｘ［ｔ］である。雑音の多い混合表現Ｙ_ｎ，ｆに時間−周波数マスクが適用され、音声強調が行われる。時間−周波数マスクは、音響入力の時間−周波数表現における各要素に重みｗを適用する。表現は、ターゲット信号によって支配される領域を重要視し、干渉源によって支配される領域を抑制する、コクレオグラム、ＳＴＦＴ、波形変換等とすることができる。重みは、バイナリまたは連続とすることができる。連続値は、ウィナーフィルターにおけるように、ターゲット信号と音響信号との間の比とみなすこともできるし、対応する時間−周波数要素がターゲット信号に関連付けられる確率とみなすこともできる。

マスクをバイナリ値に制限することは、一般的な条件における最適なマスキングへの妥当な近似である。他の話者による音声、家の雑音、街の雑音、または音楽等の雑音が非定常であり、雑音除去タスクを困難にしていると仮定する。一方、連続値の代わりにバイナリ値を推定することは、より容易である。このため、本発明による方法のためのクリーンな音声から取得されるバイナリ化されたマスクに主に焦点をあてるが、回帰方法における連続マスクの使用も検討する。

入力信号
上記で説明したように、各強調手順は、様々なフィルターバンク設定を用いて、時間領域において直接、またはＳＴＦＴ、ガンマトーンベースの変換等の何らかの時間−周波数表現において、異なる領域で入力信号を処理する。内部表現を直接組み合わせる代わりに、本発明では強調された時間領域ターゲット信号の推定値に焦点を当てる。

組み合わせのために、任意のタイプの特徴を用いることができる。便宜上、簡単にするために、ターゲット信号を導出するのに用いられる共通時間−周波数表現を用いて全ての強調信号を再解析する。これによって、入力特徴の時間−周波数要素と、ターゲット信号の時間−周波数要素との間の直接の対応関係を有することが可能になる。

特徴のためのスケーリング問題を回避するために、本発明では、パワースペクトログラムまたは対数パワースペクトログラム等の特徴を直接用いない。代わりに、特徴を、（初期）強調信号

のパワースペクトログラムと雑音の多い混合信号Ｙのパワースペクトログラムとの比と同等な手順ごとの重み付きマスクｗ^（ｋ）として、特徴を間接的に定義する。

ターゲットマスク

についても同様に、クリーンなターゲット音声のパワースペクトログラムと雑音の多い混合のパワースペクトログラムとの比から得られる。これは、各手順を、共通時間−周波数表現における書き換えとして近似する。

また、本発明では、重み付きマスクからバイナリマスク

も生成する。同様に、バイナリターゲットマスク

を生成する。ここで、ａ＞ｂである場合、［ａ＞ｂ］＝１であり、そうでない場合、０である。バイナリマスクは、例えば、サポートベクターマシン（ＳＶＭ）および決定木がアンサンブル学習手順において用いられるとき、重み付きマスクと比較して、計算複雑度を低減することができる。

推測方法
推測のために、入力信号またはそれらのマスクに対する投票または平均化手順を用いることができる。組み合わせがトレーニングデータから学習されるスタッキングベースのアンサンブル学習方法も用いることができる。スタッキングの文脈において、アンサンブル学習方法の入力特徴において推定される各マスキング値の近傍において、時間コンテキストおよび周波数コンテキストを含めることも検討することができる。組み合わされたマスクが生成された後、マスクは、雑音の多い信号スペクトルに適用され、ターゲット信号１４１が生成される。

投票
投票または平均化は、出力の組み合わせを平均化するアンサンブル組み合わせ戦略である。分類２２１の場合、出力は、通常、クラスにわたる分散のモードである。回帰方法２２２を用いると、出力は、出力値の平均または何らかの他の算術平均である。各モデルにおける不確実性も考慮することができる。

投票において、時間−周波数要素（ｎ，ｆ）における重み付きマスク値またはバイナリマスク値を用いて、同じ時間−周波数要素におけるターゲットマスク

を推定する。

を推定するための入力特徴ベクトルは、通常、重み付きマスクの場合、

であり、バイナリマスクの場合、

である。

重み付きマスクが投票方法への入力として用いられる場合、例えば、マスキング値の平均を重み付きマスクの推定値として用いることができる。

これは、元のパワースペクトログラム推定値を平均化することに対応する。同様にして、中央値を用いることもできる。

バイナリマスクが投票方法への入力として用いられる場合、投票は、例えば、マスキング値分布のモードを考慮することができる。

学習されたパラメーターがないため、投票方法は、トレーニングデータに過剰適合し得ない。マスキング値が相関していない誤りを生じている限り、投票および平均化手順は、これらの誤りから復元する傾向にある。換言すれば、分類器間の分散は、投票手順によって低減することができる。

スタッキング
スタッキングは、データに関し、トレーニングされた方法への入力として、同じタスクのための複数の推定方法が用いられ、結果が組み合わされるアンサンブル学習技法である。スタッキングは、アンサンブルの出力が相関するときであっても、バイアスを低減することができる。しかしながら、学習は、トレーニングデータに過剰適合する可能性がある。バイナリマスクによって、単純なバイナリ分類器を用いてターゲット信号の推定値を生成することが可能になる。また、様々な形態の回帰を用いて重み付きマスク推定値を生成することもできる。主に、分類ベースの手法に焦点を当てる。決定木（ＤＴ）、サポートベクターマシン（ＳＶＭ）、単純ベイズ（ＮＢ）およびランダムフォレスト（ＲＦ）に基づく分類器等の、複数の分類器を用いることができる。

周波数ｆごとに１つの分類器

をパラメーターΘ^ｆとともに用いる。入力ベクトルｉ_ｎ，ｆの各時間フレームｎにおいて、分類器は、マスク推定値

を生成する。トレーニングデータＴに対するターゲットマスク

に関する損失関数Ｌを最小化するパラメーターΘ^ｆを学習する。

動作中、学習パラメーター

を用いてマスクを推定する。

損失関数Ｌは、分類器タイプに従って求められる。

スタッキングに関して、時間コンテキスト情報または周波数コンテキスト情報を、特徴に含めることができる。特徴を、時間方向において、ｃ^（ｎ）フレームだけ左右に拡張することができ、周波数方向において、ｃ^（ｆ）周波数だけ上下に拡張することができる。

を推定するための入力特徴ベクトルは、手順ごとに時間−周波数要素（ｎ，ｆ）の近傍における（２ｃ^（ｎ）＋１）×（２ｃ^（ｆ）＋１）個の要素を用いた時間−周波数パッチの連結である。双方の方向における境界事例が適切に扱われる。

Claims

音響信号を処理する方法であって、該音響信号は、ターゲット信号と干渉信号との混合であり、該方法は、
１組の強調手順によって前記音響信号を強調して、１組の初期強調信号を生成するステップと、
前記音響信号および前記１組の初期強調信号にアンサンブル学習手順を適用して、前記音響信号の特徴を生成するステップと、
を含み、前記ステップは、プロセッサにおいて実行される、音響信号を処理する方法。
前記特徴を用いて、前記音響信号から前記ターゲット信号を合成するステップ
をさらに含む、請求項１に記載の方法。
前記１組の強調手順は、ベクトルテイラー級数（ＶＴＳ）、間接ＶＴＳ、改良型最小制御再帰平均化を用いた最適修正された最小平均二乗誤差対数スペクトル振幅、最小平均二乗誤差（ＭＭＳＥ）、対数ＭＭＳＥ手順、およびそれらの組み合わせからなる群から選択される、請求項１に記載の方法。
前記特徴は、連続マスクであり、前記アンサンブル学習手順は、回帰方法である、請求項１に記載の方法。
前記特徴は、バイナリマスクであり、前記アンサンブル学習手順は、分類方法である、請求項１に記載の方法。
前記ターゲット信号は、音声であり、前記方法は、
自動音声認識を前記ターゲット信号に適用するステップ
をさらに含む、請求項１に記載の方法。
前記アンサンブル学習手順のパラメーターは、トレーニングデータから学習される、請求項１に記載の方法。
前記特徴は、前記音響信号の雑音の多いスペクトルを前記ターゲット信号のクリーンなスペクトルに変換するターゲットマスクを含む、請求項１に記載の方法。
前記特徴は、時間−周波数表現におけるマスクであり、前記音響信号の時間−周波数表現が利用可能であり、
前記時間−周波数表現において前記マスクを前記音響信号に適用するステップ
をさらに備える請求項１に記載の方法。
前記音響信号の前記時間−周波数表現は、離散時間−周波数要素を含み、前記マスクは、重みを含み、前記方法は、
前記重みを前記時間−周波数要素に適用するステップ
をさらに含む、請求項９に記載の方法。
前記時間−周波数表現は、コクレオグラム、短時間フーリエ変換およびウェーブレットからなる群から選択される、請求項１０に記載の方法。
前記特徴は、前記ターゲット信号と前記音響信号との間のエネルギー比を表す連続値を有する重み付きマスクである、請求項１に記載の方法。
前記アンサンブル学習手順は、時間−周波数表現における前記初期強調信号を解析する、請求項１に記載の方法。
前記アンサンブル学習手順は、前記初期強化信号の前記時間−周波数表現をマスクに変換する、請求項１３に記載の方法。
前記アンサンブル学習手順は、投票、平均化またはスタッキングを用いる、請求項１に記載の方法。