JP2017194670A

JP2017194670A - コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法

Info

Publication number: JP2017194670A
Application number: JP2017029379A
Authority: JP
Inventors: マシューシャジキャヴァレキャラム; Shaji Kavalekalam Mathew; マッズグラスブルクリステンセン; Grasboll Christensen Mads; フレドリックグラン; Gran Fredrik; イェスパービー．ボルト; B Boldt Jesper
Original assignee: GN Hearing AS
Current assignee: GN Hearing AS
Priority date: 2016-03-11
Filing date: 2017-02-20
Publication date: 2017-10-26
Anticipated expiration: 2037-02-20
Also published as: US20190261098A1; US20170265010A1; US10284970B2; EP3217399A1; JP6987509B2; CN107180644B; EP3217399B1; CN107180644A; DK3217399T3; US11082780B2

Abstract

【課題】音声明瞭度を向上する方法および聴覚装置を提供する。
【解決手段】聴覚装置２は、音声信号および雑音信号を含む入力信号を提供する入力トランスデューサ４と、入力信号を処理するように構成される処理ユニット６と、処理ユニットからの出力信号を音声出力信号に変換するように、処理ユニットの出力部と結合された音響出力トランスデューサを８備える。処理ユニット６は、入力信号に対しコードブックベースのアプローチ処理を実行する。処理ユニット６は、コードブックベースのアプローチ処理に基づいて、入力信号の１つまたは複数のパラメータを決定するように構成される。処理ユニット６は、決定された１つまたは複数のパラメータを用いて、入力信号のカルマンフィルタリングを実行するように構成される。処理ユニット６は、カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成される。
【選択図】図１ａ

Description

本明細書は、音声明瞭度を向上させるための方法及び聴覚装置に関する。聴覚装置は、音声信号及び雑音信号を含む入力信号を供給するための入力トランスデューサと、入力信号を処理するように構成された処理ユニットと、を備え、処理ユニットは、入力信号に対してコードブックベースのアプローチ処理を実行するように構成されている。

背景雑音によって劣化した音声の改良は、その広い適用範囲から、過去数十年間にわたり関心があるトピックである。重要な適用事例には、デジタル補聴器、ハンズフリー携帯通信装置、音声認識装置がある。音声強調システムの目的は、劣化音声の品質及び明瞭度を改善することである。従来開発されてきた音声強調アルゴリズムは、スペクトル減算法、統計学的モデルに基づいた方法、部分空間法に大まかに分類できる。従来の単一チャネルの音声強調アルゴリズムは、音性品質を改善する一方で、非定常の背景雑音が存在する状況において音声明瞭度を改善することには成功していない。補聴器ユーザーが共通して経験するバブル雑音は、著しく非定常な雑音と考えられている。このため、このようなシナリオにおける音声明瞭度の改善が非常に望ましい。

聴覚装置において、例えば非定常の背景雑音の存在下、音声明瞭度を向上する必要性がある。

本願は、音声明瞭度を向上するための聴覚装置を開示する。聴覚装置は、音声信号及び雑音信号を含む入力信号を提供する入力トランスデューサを備える。聴覚装置は、入力信号を処理するように構成される処理ユニットを備える。聴覚装置は、処理ユニットからの出力信号を音声出力信号に変換するように処理ユニットの出力部と結合された音響出力トランスデューサを備える。処理ユニットは、入力信号に対し、コードブックベースのアプローチ処理を実行するように構成される。処理ユニットは、コードブックベースのアプローチ処理に基づいて、入力信号の１つまたは複数のパラメータを決定するように構成される。処理ユニットは、決定された１つまたは複数のパラメータを用いて、入力信号のカルマンフィルタリングを実行するように構成される。処理ユニットは、カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成される。

聴覚装置において音声明瞭度を向上させる方法も開示される。その方法は、音声信号及び雑音信号を含む入力信号を提供することを含む。その方法は、入力信号に対しコードブックベースのアプローチ処理を実行することを含む。その方法は、コードブックベースのアプローチ処理に基づいて、入力信号の１つまたは複数のパラメータを決定することを含む。その方法は、決定された１つまたは複数のパラメータを用いて、入力信号のカルマンフィルタリングを実行することを含む。その方法は、カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供することを含む。

開示されている方法及び聴覚装置は、聴覚装置における出力信号が、非定常な背景雑音の存在下においても、音声明瞭度の観点において向上または改善されることを提供する。このように、聴覚装置の使用者は、音声の明瞭度が改善した出力信号を受ける、または、聞くことになる。これは、例えば補聴器の使用者がよく遭遇する、バブル雑音のような非定常の背景雑音の存在下で、特に利点である。

入力信号のカルマンフィルタリングを実行するので、出力信号の音声明瞭度は向上する。カルマンフィルタリングを実行するために、カルマンフィルタリングへの入力として使用される入力信号の１つまたは複数のパラメータが決定されるべきである。これら１つまたは複数のパラメータは、入力信号のコードブックベースのアプローチ処理を実行することによって決定される。

向上または改善された音声明瞭度は、短期客観的明瞭度（ＳＴＯＩ）、及びセグメンタル信号対雑音比（ＳｅｇＳＮＲ）、及び音声品質知覚評価（ＰＥＳＱ）のような客観的尺度によって評価されてもよい。

入力信号ｚ（ｎ）は雑音と音声の両方を含むため、入力信号ｚ（ｎ）は雑音のある信号ｚ（ｎ）と言うこともできる。このように、入力信号はクリーンな音声信号ｓ（ｎ）と言うこともできる音声信号ｓ（ｎ）を含む。入力信号ｚ（ｎ）は、雑音信号ｗ（ｎ）も含む。音声信号は、入力信号の音声成分と言うこともできる。雑音信号は入力信号の雑音成分と言うこともできる。雑音信号、すなわち入力信号の雑音成分は、例えば非定常な背景雑音、例えばバブル雑音のような背景雑音などでもよい。

したがって、コードブックは、雑音のコードブック及び／または音声のコードブックを含んでもよい。雑音のコードブックは、例えば雑音のある環境、例えば交通雑音、カフェテリアの雑音などを録音することにより、コードブックを調整することによって生成されてもよい。このような雑音のある環境は、背景雑音と見なされてもよく、または背景雑音を構成してもよい。これらの雑音のある環境の中での録音によって、例えば２０−３０ミリ秒（ｍｓ）のノイズスペクトルを得てもよい。

音声のコードブックは、例えば人々からの音声を録音することなどにより、コードブックを調整することによって生成されてもよい。

コードブック、例えば音声のコードブックは、話者固有のコードブックまたは一般的なコードブックであってもよい。話者固有のコードブックは、使用者がよく会話する人々から録音することによって調整してもよい。その音声は、背景雑音がないような理想条件下で録音してもよい。これによって２０−３０ミリ秒の音声スペクトルを得てもよい。

聴覚装置は、デジタル聴覚装置であってもよい。聴覚装置は、補聴器や、ハンズフリー携帯通信装置や、音声認識装置などであってもよい。

入力トランスデューサは、マイクであってもよい。出力トランスデューサは、レシーバ、またはラウドスピーカであってもよい。

入力信号のカルマンフィルタリングにおいて使用されるカルマンフィルタは、単一チャネルのカルマンフィルタ、または複数チャネルのカルマンフィルタであってもよい。

１つまたは複数のパラメータは、スペクトルの形状を規定するスペクトル包絡のパラメータであってもよい。

１つまたは複数のパラメータは、線形予測係数（ＬＰＣ）、及び／または短期予測（ＳＴＰ）パラメータ、及び／または自己回帰（ＡＲ）パラメータを含むか、それらであってもよい。線形予測係数は、励起分散と併せて、短期予測（ＳＴＰ）パラメータ、及び／または自己回帰（ＡＲ）パラメータとを含んでもよい、または、そのように呼ばれてもよい。

一部の実施例においては、入力信号は１つまたは複数のフレームに分割され、１つまたは複数のフレームは、音声信号を表わす第１のフレーム、及び／または雑音信号を表わす第２のフレーム、及び／または無音を表わす第３のフレームを含んでもよい。雑音のコードブックは、雑音信号を表わす第２のフレームについて使用してもよい。音声のコードブックは、音声信号を表わす第１のフレームについて使用してもよい。

一部の実施例において、１つまたは複数のパラメータは、短期予測（ＳＴＰ）パラメータを含む。このように、パラメータは、一般に短期予測（ＳＴＰ）パラメータと呼んでもよい。自己回帰パラメータは、短期予測（ＳＴＰ）パラメータであってもよい。線形予測係数（ＬＰＣ）は、短期予測（ＳＴＰ）パラメータであってもよく、または短期予測（ＳＴＰ）パラメータに含まれていてもよい。

一部の実施例において、１つまたは複数のパラメータは、音声の線形予測係数（ＬＰＣ）及び雑音の線形予測係数（ＬＰＣ）を含む状態遷移行列Ｃ（ｎ）である第１のパラメータと、音声の励起信号の分散σ^２ _ｕ（ｎ）である第２のパラメータと、及び／または、雑音の励起信号の分散σ^２ _ｖ（ｎ）である第３のパラメータと、のうち、１つまたは複数を含む。

一部の実施例において、１つまたは複数のパラメータは、２０ミリ秒のフレームにわたって一定であると仮定される。音声強調におけるカルマンフィルタの使用には、音声の線形予測係数（ＬＰＣ）及び雑音の線形予測係数（ＬＰＣ）、音声の励起信号の分散σ^２ _ｕ（ｎ）、雑音の励起信号の分散σ^２ _ｖ（ｎ）から成る状態遷移行列Ｃ（ｎ）が既知であることが必要であり得る。これらのパラメータは、音声の準定常性のために、２５ミリ秒のフレームにわたって一定であると仮定してもよい。

一部の実施例においては、１つまたは複数のパラメータを決定することは、線形予測係数（ＬＰＣ)の形式の、コードブックベースのアプローチ処理で使用される、コードブックに記録された音声のスペクトルの形状、及び／または雑音のスペクトルの形状についての、事前の情報を使用することを備える。雑音のコードブックは、雑音のスペクトルの形状を含んでもよく、音声のコードブックは、音声のスペクトルの形状を含んでもよい。

一部の実施例において、コードブックベースのアプローチ処理で使用されるコードブックは、一般的な音声のコードブック、または話者固有の調整がなされたコードブックである。一般的なコードブックもまた、一般的な女性の音声のコードブック、及び／または一般的な男性の音声のコードブック、及び／または一般的な子供の音声のコードブックを提供するなどして、より個別的に作成してもよい。このように、ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットによって認識されないが、女性話者として認識される場合、一般的な女性の音声のコードブックが処理ユニットによって選択されてもよい。これに対応して、ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットによって認識されないが、男性話者として認識される場合、一般的な男性の音声のコードブックが処理ユニットによって選択されてもよい。また、ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理装置によって認識されないが、子供話者として認識される場合、一般的な子供の音声のコードブックが処理ユニットによって選択されてもよい。

一部の実施例において、話者固有の調整がなされたコードブックは、理想的な条件下で聴覚装置の使用者に関連する特定の人々の音声を記録することによって生成される。特定の人々は、例えば、配偶者、子供、両親もしくは兄弟姉妹などの近い家族、及び親しい友人や同僚などの聴覚装置使用者がよく話す人々であってもよい。理想的な条件とは、背景雑音がない、全く雑音がない、良好な音声の受信状態などの条件であってもよい。コードブックは、２０−３０ミリ秒にわたってスペクトルを記録し保存することで生成してもよく、スペクトルは、音または音の断片であり得、音の断片とは各特定の人または話者のスペクトル包絡線を提供するための音の最も小さい部分であり得る。

一部の実施例において、コードブックベースのアプローチ処理に使われるコードブックは、自動的に選択される。一部の実施例において、その選択は、入力信号のスペクトルに基づく、及び／または、各利用可能なコードブックについての短期客観的明瞭度（ＳＴＯＩ）の測定に基づく。このように、ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致するとして処理ユニットによって認識される場合、その話者固有の調整がなされたコードブックが処理ユニットによって選択されてもよい。ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致するとして処理ユニットによって認識されない場合、一般的なコードブックが処理装置によって選択されてもよい。ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットによって認識されないが、女性話者として認識される場合、一般的な女性の音声のコードブックが処理ユニットによって選択されてもよい。これに対応して、ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットに認識されないが、男性話者として認識される場合、一般的な男性の音声のコードブックが処理ユニットによって選択されてもよい。また、ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致するとして処理ユニットに認識されないが、子供話者として認識される場合、一般的な子供の音声のコードブックが処理ユニットによって選択されてもよい。

一部の実施例において、カルマンフィルタリングは、音声信号の最小平均二乗推定器（ＭＭＳＥ）を提供する固定ラグカルマンスムーサを含む。

一部の実施例において、カルマンスムーサは、入力信号の状態ベクトル及び誤差共分散行列の事前の推定及び事後の推定を計算することを含む。

一部の実施例において、音声信号の短期予測（ＳＴＰ）パラメータの加重合計の算出が、線スペクトル周波数（ＬＳＦ）領域において実行される。短期予測（ＳＴＰ）パラメータまたは自己回帰（ＡＲ）パラメータの加重合計の算出は、望ましくは線形予測係数（ＬＰＣ）領域ではなくむしろ線スペクトル周波数（ＬＳＦ）領域において実行されるべきである。線スペクトル周波数（ＬＳＦ）領域における加重合計の算出は、線形予測係数（ＬＰＣ）領域において必ずしも当てはまらない、安定した逆フィルタをもたらすことを保証し得る。

一部の実施例において、聴覚装置は、使用者が着用するように構成される両耳用聴覚装置システムにおける、第２の聴覚装置と通信するように構成される第１の聴覚装置である。このように、使用者は、２つの聴覚装置を着用してもよく、第１の聴覚装置は例えば左耳の中または左耳に、及び第２の聴覚装置は例えば右耳の中または右耳に着用してもよい。２つの聴覚装置は、使用者にできるだけ最良の音声出力を提供するために、互いに通信してもよい。２つの聴覚装置は、両耳での聴力補償を必要とする使用者が着用するように構成される聴覚補聴器であってもよい。

一部の実施例において、第１の聴覚装置は、左耳の音声信号及び左耳の雑音信号を含む左耳の入力信号を提供する第１の入力トランスデューサを備える。一部の実施例において、第２の聴覚装置は、右耳の音声信号及び右耳の雑音信号を含む右耳の入力信号を提供する第２の入力トランスデューサを備える。一部の実施例において、第１の聴覚装置は、コードブックベースのアプローチ処理に基づいて、左耳の入力信号の１つまたは複数のパラメータを決定するように構成される第１の処理ユニットを備える。一部の実施例において、第２の聴覚装置は、コードブックベースのアプローチ処理に基づいて、右耳の入力信号の１つまたは複数のパラメータを決定するように構成される第２の処理ユニットを備える。このように、第１の聴覚装置及び第１の処理ユニットは、左耳の入力信号における左側のパラメータを決定してもよい。第２の聴覚装置及び第２の処理ユニットは、右耳の入力信号における右側のパラメータを決定してもよい。このように、一連のパラメータが各耳について決定されてもよい。あるいは、第１及び第２の聴覚装置のうちのひとつが、メインまたはマスターの聴覚装置として選択され、このメインまたはマスターの聴覚装置が、両聴覚装置の、したがって両耳の入力信号における入力信号の処理を実行してもよく、それによってメインまたはマスターの聴覚装置の処理ユニットは、左耳の入力信号及び右耳の入力信号の両方のパラメータを決定してもよい。

本願は、上述した、及び以下で説明するような、聴覚装置及び方法、ならびに対応する方法、聴覚装置、システム、ネットワーク、キット、使用及び／または製品の手段を含む、様々な構成に関連しており、それぞれが最初に言及する構成に関連して記載された１つまたは複数の利益及び利点をそれぞれ有しており、またそれぞれが最初に言及する構成及び／または添付の特許請求の範囲に関連して記載された実施例に対応する１つまたは複数の実施例を有する。

上記及びその他の特徴及び利点は、添付の図面を参照する以下の例示的な実態形態の詳細な説明により、当業者には容易に明らかになるだろう。
音声明瞭度を向上するための聴覚装置を模式的に示す図。聴覚装置において音声明瞭度を向上させるための方法を模式的に示す図。音声明瞭度を向上させるための方法についての、短期客観的明瞭度（ＳＴＯＩ）のスコアの比較を示す図。音声明瞭度を向上させるための方法についての、セグメンタル信号対雑音比（ＳｅｇＳＮＲ）のスコアの比較を示す図。音声明瞭度を向上させるための方法についての、音声品質の知覚評価（ＰＥＳＱ）スコアの比較を示す図。両耳の入力信号からの短期予測（ＳＴＰ）パラメータの推定のためのブロック図を模式的に示す図。両耳の信号についての、短期客観的明瞭度（ＳＴＯＩ）の比較結果を示す図。両耳の信号についての、音声品質の知覚評価（ＰＥＳＱ）の比較結果を示す図。

図面を参照して、様々な実施例が以下に記述される。同様の参照符号は全体にわたって同様の要素を指す。このため、各要素は各図の説明毎に詳細に記述されない。なお、図は実施例の説明を容易にすることのみが意図されている。図面は特許請求の範囲に記載された発明の包括的な説明として、または特許請求の範囲に記載された発明の範囲を限定するものとして意図されていない。さらに図示した実施例は、示されるすべての態様または利点を有している必要はない。特定の実施例に関連して説明される態様または利点は必ずしもその実施例に限定されず、そのように図示されていない場合でも、または明示的に説明されていない場合においても、他の実施例においても実施することができる。

明細書の全体を通して、同じ参照番号が同一箇所もしくは対応箇所において使用される。

図１ａは音声明瞭度を向上するための聴覚装置２を模式的に図示している。

聴覚装置２は、音声信号ｓ（ｎ）及び雑音信号ｗ（ｎ）を含む、入力信号ｚ（ｎ）または雑音のある信号ｚ（ｎ）を提供するための、例えばマイクである入力トランスデューサ４を備える。

聴覚装置２は、入力信号ｚ（ｎ）を処理するように構成された処理ユニット６を備える。

聴覚装置２は、処理ユニット６からの出力信号を音声出力信号へ変換するように処理ユニット６の出力部に接続された、例えばレシーバまたはラウドスピーカである音響出力トランスデューサ８を備える。

処理ユニット６は、入力信号ｚ（ｎ）にコードブックベースのアプローチ処理を行うように構成される。

処理ユニット６は、コードブックベースのアプローチ処理に基づいて、入力信号ｚ（ｎ）の１つまたは複数のパラメータを決定するように構成される。

処理ユニット６は、決定された１つまたは複数のパラメータを用いて、入力信号ｚ（ｎ）のカルマンフィルタリングを実行するように構成される。

処理ユニット６は、カルマンフィルタリングによって、出力信号の音声明瞭度が向上されることを提供するように構成される。

本聴覚装置と方法は、カルマンフィルタに基づいた音声強調フレームワークに関する。音声強調のためのカルマンフィルタリングは、白色背景雑音、またはカルマンフィルタが機能するために必要とされる音声、及びノイズ短期予測（ＳＴＰ）パラメータが近似期待値最大化アルゴリズムを用いて推定される、有色雑音に対するものであってよい。本聴覚装置及び方法は、音声及び雑音短期予測（ＳＴＰ）パラメータを推定するために、コードブックベースのアプローチを使用する。短期客観的明瞭度（ＳＴＯＩ）及びセグメンタルＳＮＲ（ＳｅｇＳＮＲ）のような客観的尺度が、バブル雑音存在下において強調アルゴリズムのパフォーマンスを評価するために、本聴覚装置及び方法に用いられた。アルゴリズムのパフォーマンスについて、一般的な音声コードブックを超える、話者に固有の調整がなされたコードブックを有することの効果が、本聴覚装置及び方法について研究された。以下では、使用される信号モデル及び仮説について説明する。音声強調フレームワークの詳細を説明する。実験や結果も紹介される。

使用される信号モデル、及び仮説を以下で説明する。以下の数式により、クリーンな音声信号ｓ（ｎ）とも呼ばれる音声信号ｓ（ｎ）は、雑音信号ｗ（ｎ）に付加的に干渉され、雑音のある信号ｚ（ｎ）とも呼ばれる入力信号ｚ（ｎ）を形成することが仮定される。

雑音と音声は統計的に独立しているか、または互いに相関がないと仮定してもよい。クリーンな音声信号ｓ（ｎ）は、以下の数式で表現される確率的自己回帰（ＡＲ）プロセスとしてモデル化してもよい。

ここで、ａ｛太字｝（ｎ）＝［ａ_１（ｎ），ａ_２（ｎ），．．．ａ_Ｐ（ｎ）］^Ｔは、音声の線形予測係数（ＬＰＣ）を含むベクトルであり、ｓ｛太字｝（ｎ−１）＝［ｓ（ｎ−１）,．．．ｓ（ｎ−Ｐ）］^Ｔであり、Ｐは音声信号に対応する自己回帰（ＡＲ）プロセスの次数であり、ｕ（ｎ）はゼロ平均と励起分散σ^２ _ｕ（ｎ）を有する白色ガウス雑音（ＷＧＮ）である。

以下の数式によって、雑音信号も自己回帰（ＡＲ）プロセスとしてモデル化してもよい。

ここで、ｂ｛太字｝（ｎ）＝［ｂ_１（ｎ），ｂ_２（ｎ），．．．ｂ_Ｑ（ｎ）］^Ｔは雑音の線形予測係数（ＬＰＣ）を含むベクトルであり、ｗ｛太字｝（ｎ−１）＝［ｗ（ｎ−１）,．．．ｗ（ｎ−Ｑ）］^Ｔであり、Ｑは雑音信号に対応する自己回帰（ＡＲ）プロセスの次数であり、ｖ（ｎ）はゼロ平均と励起分散σ^２ _ｖ（ｎ）を有する白色ガウス雑音（ＷＧＮ）である。励起分散と線形予測係数（ＬＰＣ）は、一般的に短期予測（ＳＴＰ）パラメータを構成する。

本聴覚装置及び方法においては、カルマンフィルタリングに基づいた単一チャネルの音声強調技術を用いてもよい。音声強調フレームワークの基本ブロック図を図１ｂに示す。図からは、雑音のある信号とも呼ばれる入力信号ｚ（ｎ）は、カルマンフィルタリングのカルマンスムーサに入力信号として供給され、カルマンスムーサの機能実行のために用いられる音声及び雑音短期予測（ＳＴＰ）パラメータは、コードブックベースのアプローチを用いて推定されることがわかる。カルマンフィルタに基づく音声強調の原理は以下において説明され、音声及び雑音短期予測（ＳＴＰ）パラメータのコードブックベースの推定は後で説明される。

図１ｂは聴覚装置において音声明瞭度を強化するための方法を模式的に示す。

当該方法において、ステップ１０１では、音声信号及び雑音信号を備える入力信号ｚ（ｎ）を供給する。

当該方法において、ステップ１０２では、入力信号ｚ（ｎ）にコードブックベースのアプローチ処理を実行する。

当該方法において、ステップ１０３では、ステップ１０２でのコードブックベースのアプローチ処理に基づいて、１つまたは複数の入力信号ｚ（ｎ）のパラメータを決定する。パラメータは短期予測（ＳＴＰ）パラメータであってもよい。

当該方法において、ステップ１０４では、ステップ１０３で決定された１つまたは複数のパラメータを用いて入力信号ｚ（ｎ）のカルマンフィルタリングを実行する。

当該方法において、ステップ１０５では、出力信号が、ステップ１０４におけるカルマンフィルタリングによって、音声明瞭度が向上していることを提供する。

（音声強調のためのカルマンフィルタ）
カルマンフィルタによって、線形確率微分方程式によって支配されるプロセスの状態を再帰的に推定することが可能になる。それは二乗誤差の平均を最小にするという意味では、最適線形推定器であってもよい。このセクションでは、スムーサー遅延ｄ≧Ｐを有する固定ラグカルマンスムーサの原理について説明する。カルマンスムーサは、音声信号ｓ（ｎ）の最小平均二乗誤差（ＭＭＳＥ）推定を提供してもよく、以下の数式で表すことができる。

音声強調の観点からのカルマンフィルタの使用においては、式（２）における自己回帰（ＡＲ）信号モデルを、以下の式のように状態空間として記述することが必要となり得る。

ここで、状態ベクトルｓ｛太字｝（ｎ）＝［ｓ（ｎ）ｓ（ｎ−１）．．．ｓ（ｎ−ｄ）］^Ｔは、ｄ＋１個の最新の音声サンプルを含む（ｄ＋１）行１列のベクトルであり、Γ｛太字｝_１＝［１，０．．．０］^Ｔは、（ｄ＋１）行１列のベクトルであり、Ａ｛太字｝（ｎ）は、以下に示すような（ｄ＋１）行（ｄ＋１）列の音声の状態遷移行列である。

同様に、式（３）に示される雑音信号ｗ（ｎ）の自己回帰（ＡＲ）モデルは、以下の式のように状態空間の形式で記述することができる。

ここで、状態ベクトルｗ｛太字｝（ｎ）＝［ｗ（ｎ），ｗ（ｎ−１），．．．，ｗ（ｎ−Ｑ＋１）］^Ｔは、Ｑ個の最新の雑音サンプルを含むＱ行１列のベクトルであり、Γ｛太字｝_２＝［１，０．．．０］^Ｔは、Ｑ行１列のベクトルであり、Ｂ｛太字｝（ｎ）は、以下に示すようなＱ行Ｑ列の雑音の状態遷移行列である。

式（５）及び式（７）の状態空間方程式は組み合わせて、以下の（９）に示すような連結された状態空間方程式を形成してもよい。

上記式は、次のように書き直すことができる。

ここで、ｘ｛太字｝（ｎ）は連結された状態空間ベクトルであり、Ｃ｛太字｝（ｎ）は連結された状態遷移行列であり、Γ｛太字｝_３とｙ｛太字｝（ｎ）は以下である。

結果として、式（１）は以下のように書き直すことができる。

ここで、Γ｛太字｝は以下である。

式（１０）及び式（１１）によって示される、最終的な状態空間方程式と観測方程式は、以降に記述するように、さらにカルマンフィルタの数式（式（１２）−式（１７））の形成に用いてもよい。式（１２）及び式（１３）によって示されるカルマンスムーサの予測段階は、状態ベクトルｘ｛太字｝^＾（ｎ｜ｎ−１）、及び誤差共分散行列Ｍ｛太字｝（ｎ｜ｎ−１）それぞれの事前の推定値を、以下で計算してもよい。

カルマンゲインは、式（１４）に示すように計算してもよい。

状態ベクトル及び誤差共分散行列の事後の推定値を計算するカルマンスムーサの補正段階は、次のように記述することができる。

最後に、時間インデックスｎ−ｄにおける、カルマンスムーサを用いて強調される出力信号ｓ^＾は、式（１７）に示す状態ベクトルの事後の推定値のｄ＋１番目のエントリから取得することができる。

カルマンフィルタの場合、ｄ＋１＝Ｐであり、時間インデックスｎにおける強調信号ｓ＾は、以下に示すように、状態ベクトルの事後の推定値の１番目のエントリから取得することができる。

（自己回帰ＳＴＰパラメータのコードブックベースの推定）
上述したような音声強調の観点からのカルマンフィルタの使用には、音声の線形予測係数（ＬＰＣ）、雑音の線形予測係数（ＬＰＣ）、及び音声の励起信号の分散σ^２ _ｕ（ｎ）及び雑音の励起信号の分散σ^２ _ｕ（ｎ）から成る、状態遷移行列Ｃ｛太字｝（ｎ）が既知であることが必要となり得る。これらのパラメータは音声の準定常性により、２０−２５ミリ秒（ｍｓ）のフレームにわたって一定であると仮定することができる。このセクションは、コードブックベースのアプローチを使ったこれらのパラメータの最小平均二乗誤差（ＭＭＳＥ）推定を説明する。この方法は、線形予測係数（ＬＰＣ）の形式で調整されたコードブックに記録された、音声及び雑音のスペクトル形状についての事前情報を使用してもよい。推定されるパラメータは連結され、下記の単一ベクトルを形成してもよい。

パラメータθの最小平均二乗誤差（ＭＭＳＥ）推定は、次のように表記してもよい。

ここで、ｚ｛太字｝は雑音のあるサンプルのフレームを示す。ベイズの定理を用いると、式（１９）は次のように書き直すことができる。

ここで、Θは推定されるべきパラメータのサポート空間を示す。ここで、次のように定義する。

ここでａ｛太字｝_ｉは（サイズＮ_ｓの）音声のコードブックのｉ番目のエントリ、ｂ｛太字｝_ｊは（サイズＮ_ｗの）雑音のコードブックのｊ番目のエントリであり、σ^２，ＭＬ _ｕ，ｉｊ，σ^２，ＭＬ _ｖ，ｉｊは、ａ｛太字｝_ｉ、ｂ｛太字｝_ｊ、ｚ｛太字｝に依存する、音声及びノイズの励起分散の最大尤度（ＭＬ）推定を表わす。音声及びノイズの励起分散の最大尤度（ＭＬ）推定は次の式で推定することができる。

ここで、

であり、１／｜Ａ^ｉ _ｓ（ω）｜^２は、音声のコードブックのｉ番目の入力に対応するスペクトル包絡であり、１／｜Ａ^ｊ _ｗ（ω）｜^２は、雑音のコードブックのｊ番目の入力に対応するスペクトル包絡であり、Ｐ_ｚ（ω）は雑音のある信号ｚ（ｎ）に対応するスペクトル包絡である。したがって、式（２０）の個別の対応箇所は以下のように記述することができる。

ここで、最小平均二乗誤差（ＭＭＳＥ）推定は、ｐ（ｚ｛太字｝｜θ_ｉｊ）と比例する重み付けを用いてθ_ｉｊの加重線形結合として表わすことができる。ｐ（ｚ｛太字｝｜θ_ｉｊ）は、次式によって計算してもよい。

ここで、ｄ_ＩＳ（Ｐ_ｚ（ω），Ｐ^＾ _ｚ ^ｉｊ（ω））は、雑音のあるスペクトルとモデル化した雑音のあるスペクトルの間の、板倉−斉藤ひずみである。なお、式（２３）の自己回帰（ＡＲ）パラメータの加重総和は、線形予測係数（ＬＰＣ）領域よりもむしろ、線スペクトル周波数（ＬＳＦ）領域で実行されることが好ましい。線スペクトル周波数（ＬＳＦ）領域における加重総和は、線形予測係数（ＬＰＣ）領域において必ずしも当てはまらない、安定した逆フィルタをもたらすことが保証され得る。

（実験）
このセクションは、上記した音声強調のフレームワークを評価するために実行された実験について記載する。評価に用いられた客観的尺度は、短期客観的明瞭度（ＳＴＯＩ）、音声品質知覚評価（ＰＥＳＱ）及びセグメンタル信号対雑音比（ＳｅｇＳＮＲ）である。この実験のテストセットは、２名の男性話者と２名の女性話者である４名の異なる話者から、ＣＨｉＭＥデータベースから８ＫＨｚにリサンプルした音声から構成される。シミュレーションに使用される雑音信号は、ＮＯＩＺＥＵＳデータベースからの複数話者バブルである。強調手順に必要である音声及び雑音のＳＴＰパラメータは、上述のように２５ミリ秒毎に推定される。ＳＴＰパラメータの推定に使用する音声のコードブックは、ＴＩＭＩＴデータベースからの１０分の音声の調整サンプルに対し一般化Ｌｌｏｙｄアルゴリズム（ＧＬＡ）を用いて生成してもよい。雑音のコードブックは、２分間のバブルを用いて生成してもよい。音声及びノイズのＡＲモデルの次数は１４になるように選択してもよい。実験で用いたパラメータは、表１の通りである。

推定された短期予測（ＳＴＰ）パラメータは次に、固定ラグカルマンスムーサ（ｄ＝４０を用いる）による強調に用いられる。一般的な音声のコードブックの代わりに、話者固有のコードブックを使用することの効果はここで研究する。話者固有のコードブックは、特定話者からの５分間の音声の調整サンプルを用いて、一般化Ｌｌｏｙｄアルゴリズム（ＧＬＡ）によって生成してもよい。テストに用いる音声サンプルは、調整セットに含まれていなかった。６４個のエントリのサイズの話者のコードブックで、経験的に充分であると注記しておきたい。短期予測（ＳＴＰ）パラメータの推定のために音声のコードブックと話者のコードブックを使用するカルマンスムーサのシステムは、それぞれＫＳ音声モデルとＫＳ話者モデルと表記する。その結果は、Ｅｐｈｒａｉｍ−Ｍａｌａｈ（ＥＭ）法及び、一般化ガンマ事前分布に基づいた従来の最小平均二乗誤差（ＭＭＳＥ）推定器（ＭＭＳＥ−ＧＧＰ）と比較される。

図２、図３及び図４は、上記の方法についての、短期客観的明瞭度（ＳＴＯＩ）、セグメンタル信号対雑音比（ＳｅｇＳＮＲ）、及び音性品質知覚評価（ＰＥＳＱ）スコアの比較をそれぞれ示す。図２から、短期客観的明瞭度（ＳＴＯＩ）によれば、Ｅｐｈｒａｉｍ−Ｍａｌａｈ（ＥＭ）、及び一般化ガンマ事前分布に基づく最小平均二乗誤差（ＭＭＳＥ）推定器（ＭＭＳＥ−ＧＧＰ）を用いることで得られた強調信号は、雑音のある信号よりも、低い明瞭度であることがわかる。ＫＳ音声モデル及びＫＳ話者モデルを用いることで得られた強調済み信号は、雑音のある信号と比較して高い明瞭度を示している。短期客観的明瞭度（ＳＴＯＩ）が６％まで増加を示すため、一般的な音声のコードブックの代わりに話者固有のコードブックを用いることは有益であることがわかる。図３、図４で示される、セグメンタル信号対雑音比（ＳｅｇＳＮＲ）及び音性品質知覚評価（ＰＥＳＱ）の結果も、ＫＳ話者モデル及びＫＳ音声モデルが他の方法よりも優れたパフォーマンスを有することを示している。アルゴリズムのパフォーマンスを評価するために、非公式のリスニングテストも実施した。

このように、カルマンフィルタに基づいており、カルマンフィルタの機能に必要なパラメータがコードブックベースのアプローチを用いて推定された、音声強調の聴覚装置や方法を提供することは有益である。短期客観的明瞭度（ＳＴＯＩ）、セグメンタル信号対雑音比（ＳｅｇＳＮＲ）、及び音声品質知覚評価（ＰＥＳＱ）のような客観的尺度が、バブル雑音存在下での本願の方法のパフォーマンスを評価するために用いられた。実験結果は、当該客観的尺度によって本願の方法は音声品質及び音声明瞭度を増加させることができたことを示している。さらに、一般的な音声のコードブックでなく、話者固有の調整がなされたコードブックを有することは、短期客観的明瞭度（ＳＴＯＩ）スコアにおいて６％までの増加を示し得ることもわかった。

（両耳聴覚システム）
このセクションにおいては、両耳の雑音のある信号、すなわち入力信号に接する際の、コードブックベースのアプローチを用いた音声及び雑音の短期予測（ＳＴＰ）パラメータの推定について記載する。推定された短期予測（ＳＴＰ）パラメータは、両耳の雑音のある信号の強調のためにさらに使用してもよい。以下において、最初に信号モデル及び、そこで用いられる仮説について説明する。それから、両耳シナリオにおける短期予測（ＳＴＰ）パラメータの推定を説明し、実験結果を考察する。

（信号モデル）
両耳の雑音のある信号、または左右の耳での入力信号は、それぞれｚｌ（ｎ）及びｚｒ（ｎ）と表記される。左耳での雑音のある信号ｚｌ（ｎ）は、式（２７）で示すように表わされる。ここで、ｓｌ（ｎ）は、左耳のクリーンな音声成分であり、ｗｌ（ｎ）は左耳の雑音成分である。

右耳での雑音のある信号は、同様に、式（２８）で示すように表わされる。

音声信号及び雑音信号が、自己回帰（ＡＲ）プロセスとして表わすことができると、さらに仮定してもよい。音声源が聞き手、すなわち聴覚装置の使用者の前方にあると仮定してもよく、従って左耳と右耳のクリーンな音声成分が、同じ自己回帰（ＡＲ）プロセスによって表わされると仮定してもよい。左右の耳の雑音成分もまた、自己回帰（ＡＲ）プロセスによって表わされると仮定してもよい。自己回帰（ＡＲ）プロセスに対応する短期予測（ＳＴＰ）パラメータは、線形予測係数（ＬＰＣ）と励起信号の分散で構成されていてもよい。音声に対応する短期予測（ＳＴＰ）パラメータは、以下で表すことができる。

ここで、ａ｛太字｝は線形予測係数（ＬＰＣ）のベクトルであり、σ^２ _ｕは音声の自己回帰（ＡＲ）プロセスに対応する励起分散である。同様に、雑音の自己回帰（ＡＲ）プロセスに対応する短期予測（ＳＴＰ）パラメータは、以下で表すことができる。

（方法）
ここでの目的は、両耳の雑音のある信号または入力信号が与えられる、音声及び雑音の自己回帰（ＡＲ）プロセスに対応する、短期予測（ＳＴＰ）パラメータを推定することである。推定されるパラメータを以下のように表す。

パラメータθの最小平均二乗誤差（ＭＭＳＥ）推定は、式（２９）、（３０）のように記載される。

ここで、以下のように定義する。

ここで、ａ｛太字｝_ｉは（サイズＮ_ｓの）音声のコードブックのｉ番目のエントリであり、ｂ｛太字｝_ｊは（サイズＮ_ｗの）雑音のコードブックのｊ番目のエントリであり、σ^２，ＭＬ _ｕ，ｉｊ，σ^２，ＭＬ _ｖ，ｉｊは、励起分散の最大尤度推定値（ＭＬ）を表わす。式（３０）の個別の対応箇所は式（３１）のように記述される。

ｉ、ｊ番目のコードブックの組み合わせ重み付けは、ｐ（ｚ｛太字｝_ｌ，ｚ｛太字｝_ｒ｜θ_ｉｊ）によって定義される。

左側及び右側の、雑音のある信号すなわち入力信号についてのモデル化誤差が、条件付き独立であると仮定すると、ｐ（ｚ｛太字｝_ｌ，ｚ｛太字｝_ｒ｜θ_ｉｊ）は、式（３２）のように記述することができる。

尤度ｐ（ｚ｛太字｝_ｌ｜θ_ｉｊ）の対数は、左耳での雑音のあるスペクトルＰ_ｚｌ（ω）と、モデル化した雑音のあるスペクトルＰ＾_ｚ ^ｉｊ（ω）の間の、負の板倉−斉藤ひずみとして記述することができる。

右耳にも同じ結果を用いると、ｐ（ｚ｛太字｝_ｌ，ｚ｛太字｝_ｒ｜θ_ｉｊ）は、式（３３）及び式（３４）のように記述することができる。

その後、短期予測（ＳＴＰ）パラメータの推定が、式（３１）に式（３４）を代入することで、取得することができる。本願が提案する方法のブロック図を図５に示す。

図５は、両耳の入力信号または雑音のある信号からの短期予測（ＳＴＰ）パラメータの推定のためのブロック図を模式的に示す。図５は、聴覚装置の使用者１０、左耳の入力信号ｚｌ（ｎ）１２または左耳の雑音のある信号１２、右耳の入力信号ｚｒ（ｎ）１４または右耳の雑音のある信号１４、雑音のコードブック１６及び音声のコードブック１８、左耳についての距離ベクトル２０及び右耳についての距離ベクトル２２、そして組み合わされた重み付け２４を示す。スペクトル包絡３０は、左耳の入力信号ｚｌ（ｎ）１２についてのものであり、左耳での雑音の有るスペクトル３８を形成する。スペクトル包絡３２は、右耳の入力信号ｚｌ（ｎ）１４についてのものであり、右耳での雑音のあるスペクトル４０を形成する。雑音のコードブック１６は、モデル化された雑音のスペクトルを表わす。音声のコードブック１８は、モデル化された音声のスペクトルを表わす。雑音のコードブック１６及び音声のコードブック１８は、合算され、左耳でのモデル化された雑音のあるスペクトル２６、および右耳でのモデル化された雑音のあるスペクトル２８を形成する。モデル化された雑音のあるスペクトル２６及び２８は、同一になり得る。左耳について板倉−斉藤ひずみ、すなわちＩＳ尺度３４、及び右耳についての板倉−斉藤ひずみ、すなわちＩＳ尺度３６は、モデル化された雑音のあるスペクトル２６（左耳）、２８（右耳）、及び実際の雑音のあるスペクトル３８（左耳）、４０（右耳）との間で、すべてのコードブックの組み合わせについて計算され、左耳についての距離ベクトル２０及び右耳についての距離ベクトル２２が算出される。そして、これらの重み付けは組み合わされ、左耳及び右耳の組み合わされた重み付け２４を形成する。

したがって、両耳シナリオでの短期予測（ＳＴＰ）パラメータの推定が、モデル化された雑音のあるスペクトルと、受信した雑音のあるスペクトルの間の、板倉−斉藤距離を、それぞれの耳について計算することによって、実行される。次に、これらの距離は組み合わされ、特定のコードブックの組み合わせのための重み付けが得られる。

（実験結果）
このセクションは短期客観的明瞭度（ＳＴＯＩ）及び音声品質知覚評価（ＰＥＳＱ）の得られた結果について説明する。推定した短期予測（ＳＴＰ）パラメータは、両耳の雑音の有る信号の強調のために使用してもよい。雑音のある信号は、まず発生したインパルス応答でクリーンな音声を畳み込み、次に両耳のバブル雑音と合計することによって生成される。図６ａ及び６ｂは、短期客観的明瞭度（ＳＴＯＩ）と音声品質知覚評価（ＰＥＳＱ）のそれぞれの結果の比較を示す。短期予測（ＳＴＰ）パラメータの両耳の推定は、短期客観的明瞭度（ＳＴＯＩ）スコアにおける２．５パーセントまでの増加と、音声品質知覚評価（ＰＥＳＱ）スコアにおいて０．０８の増加を示している。このように、出力信号は、さらに両耳用の聴覚システムにおいて、音声明瞭度が向上されている。

（カルマンフィルタリング）
カルマンフィルタリングは、線形二次推定（ＬＱＥ）としても知られるが、それは時間にわたって観測される、統計的な雑音やその他の不正確性を含む一連の測定を使用し、単一の測定のみに基づくものよりも正確になる傾向にある、未知の変数の推定値を生成するアルゴリズムである。

カルマンフィルタは、信号処理などの分野で用いられる時系列分析に適用してもよい。

カルマンフィルタアルゴリズムは、二段階のプロセスで動作する。予測段階では、カルマンフィルタは、不確実性を有する現在の状態変数の推定値を生成する。次の測定結果（ランダム雑音を含むある程度の誤差を必然的に含んでいるもの）が観測されると、これらの推定値は、より正確性を有する推定値ほど大きな重み付けがなされるような加重平均を使って更新される。アルゴリズムは再帰的である。それは、現在の入力測定値、以前に計算された状態、及びその不確定性行列のみを用いてリアルタイムに実行することができ、追加の過去の情報は必要としない。

カルマンフィルタは、誤差がガウス分布であるという仮定を必要としなくてもよい。しかし、カルマンフィルタは、すべての誤差がガウス分布であるという特別な場合においては、正確な条件付き確率の推定値を生成し得る。

例えば非線形システム上で動作する、拡張カルマンフィルタ及び無香カルマンフィルタのようなカルマンフィルタの拡張及び一般化が提供されてもよい。基礎となるモデルは、隠れマルコフモデルに類似しているベイジアンモデルでもよく、しかし、潜在変数の状態空間は連続的であり、またすべての潜在変数及び観測変数はガウス分布を有してもよい。

カルマンフィルタは、システムの動的モデル、そのシステムへの既知の制御入力、及び複数の連続的な測定を使用し、いずれかの１つの測定のみを使って得られる推定よりも優れた、システムの変化量（その状態）の推定を形成する。

一般に、モデルに基づいた測定と計算は、すべてある程度は推定である。雑音のあるデータ、及び／または、どのようにシステムが変化するかを説明する数式における近似、及び／または、考慮されていない外的要因は、システム状態の推測値について、いくらかの不確実性をもたらす。カルマンフィルタは、加重平均を利用して、システム状態の予測と新しい測定の平均を求めてもよい。重み付けの目的は、より好ましく推定される（すなわち、より小さい）不確実性を有する値ほど、より「信頼」されるようにすることである。重み付けは、システム状態の予測について推定される不確実性の尺度である、共分散から計算してもよい。加重平均の結果は、予測された状態と測定された状態の間に存在し得る新たな状態の推定であってもよく、どちらか片方のみよりも不確実性をよりよく推定するものであり得る。このプロセスは、新しい推定とその共分散が、次の反復計算で用いられる予測を知らせながら、時間ステップ毎に繰り返してもよい。これは、カルマンフィルタが再帰的に動作してもよく、新しい状態を計算するために、システム状態の全体履歴ではなくむしろ、最後の「ベストの推測」のみを必要としてもよいことを意味する。

測定の正確性を正確に測定することは困難であり得るので、フィルタの挙動はゲインの観点から決定してもよい。カルマンゲインは、測定と現在の状態の推定の相対的正確性の関数であり得、特定のパフォーマンスを実現するために「調整」することができる。高いゲインでは、フィルタは測定により重み付けをするであろうし、より密接に測定に従うであろう。低いゲインでは、フィルタはモデル予測により密接に従うであろうし、雑音を平滑化するものの、応答性は低下するであろう。極端な場合、１のゲインでは、フィルタが状態の推定を完全に無視するであろうし、一方で、ゼロのゲインは、測定値を無視するであろう。

フィルタの実際の計算を実行するとき、状態の推定や共分散は、単一の計算群に含まれる複数の次元を扱うために、行列にコード化してもよい。これにより、いずれの遷移状態または共分散においても、異なる状態変数間の線形関係を表すことが可能となる。

カルマンフィルタは時間領域において離散化した線形動的システムに基づいてもよい。それらは、ガウス雑音を含み得る誤差によって摂動を与えられた線形演算子に構築されたマルコフ連鎖上でモデル化されてもよい。システムの状態は実数のベクトルで表してもよい。各離散時間増分において、線形演算子は、ある程度の混合された雑音と、場合によってはある程度のシステム制御からの情報（それらが既知である場合）とともに、ある状態に適用されて新しい状態を生成してもよい。そして、より多くの雑音が混合された他の線形演算子が、真の（「隠れた」）状態から観測された出力を生成してもよい。

雑音のある観測の系列のみが与えられたプロセスについて、内部状態を推定するためにカルマンフィルタを使用するために、カルマンフィルタのフレームワークに従って、そのプロセスをモデル化してもよい。つまり、下記のように、各時間ステップｋについて、各行列を特定する。Ｆ｛太字｝_ｋは状態遷移モデルであり、Ｈ｛太字｝_ｋは観測モデルであり、Ｑ｛太字｝_ｋはプロセス雑音の共分散であり、Ｒ｛太字｝_ｋは観測雑音の共分散であり、場合によってＢ｛太字｝_ｋは制御入力モデルである。

カルマンフィルタモデルは、時間ｋにおける真の状態が、（ｋ−１）での状態から、以下の式に従って進展したと仮定してもよい。

ここで、Ｆ｛太字｝_ｋは前の状態ｘ｛太字｝_ｋ−１に適用される状態遷移モデルであり、Ｂ｛太字｝_ｋは制御ベクトルｕ｛太字｝_ｋに適用される制御入力モデルであり、ｗ｛太字｝_ｋは共分散Ｑ｛太字｝_ｋを備えるゼロ平均多変量正規分布に従うと仮定されるプロセス雑音である。

時間ｋにおいて、真の状態ｘ｛太字｝_ｋの観測（もしくは測定）ｚ｛太字｝_ｋは、以下の式となる。

ここで、Ｈ｛太字｝_ｋは真の状態空間を観測空間にマッピングする観測モデルであり、ｖ｛太字｝_ｋは共分散Ｒ｛太字｝_ｋを備えるゼロ平均ガウス白色雑音であると仮定される観測雑音である。

初期状態、及び各ステップでの雑音ベクトル｛ｘ｛太字｝_０，ｗ｛太字｝_１，．．．，ｗ｛太字｝_ｋ，．．．，ｖ｛太字｝_１．．．ｖ｛太字｝_ｋ｝は、すべて互いに独立していると仮定してもよい。

カルマンフィルタは、再帰的推定器であってもよい。これは、前の時間ステップから推定された状態、及び現在の測定のみが、現在の状態の推定を計算するために必要とされてもよいということを意味する。バッチ推定技術とは対照的に、観測及び／または推定の履歴は必要とされなくてもよい。表記ｘ｛太字｝^＾ _ｎ｜ｍは、時間ｍまでの、および時間ｍを含む時点の観測が与えられた時の、時間ｎにおけるｘ｛太字｝の推定を表わす。ここで、ｍ≦ｎである。

フィルタの状態は、下記の２つの変数によって表わされる。
ｘ｛太字｝^＾ _ｋ｜ｋ：時間ｋまでの、および時間ｋを含む時点の観測が与えられた時の、時間ｋにおける事後の状態推定
Ｐ｛太字｝_ｋ｜ｋ：事後の誤差共分散行列（状態推定の推定精度の尺度）

カルマンフィルタは単一の方程式として記述することができるが、２つの異なる段階、すなわち「予測」と「更新」の段階に概念化してもよい。予測段階は、前の時間ステップからの状態推定を使用し、現在の時間ステップでの状態の推定を生成してもよい。この予測された状態推定は事前の状態推定としても知られており、なぜならそれは現在の時間ステップでの状態の推定ではあるが、現在の時間ステップからの観測情報は含まなくてもよいからである。更新段階では、現在の事前の予測は状態推定を改善するために現在の観測情報と組み合わされてもよい。この改善された推定は、事後の状態推定と称される。

一般的に２つの段階は、予測において次の予定された観測まで状態を前進させ、更新において観測を組み込みながら、交互に行われる。しかし、これは必ずしも必要ではなく、観測がなんらかの理由によって不可能である場合、更新をスキップし、複数回の予測ステップを実行してもよい。同様に、複数の独立した観測が同時に可能な場合、複数回の更新ステップを実行してもよい（一般的に異なる観測行列Ｈ｛太字｝_ｋを用いる）。

（予測）
予測（事前の）状態推定

予測（事前の）推定共分散

（更新）
イノベーションまたは測定残余

イノベーション（または残余）の共分散

最適なカルマンゲイン

更新された（事後の）状態推定

更新された（事後の）推定共分散

上記の更新された推定共分散の式は、最適なカルマンゲインに対してのみ有効であり得る。他のゲイン値を利用する際は、より複雑な式を必要とし得る。

（不変量）
モデルが正確であり、ｘ｛太字｝^＾ _０｜０値とＰ｛太字｝_０｜０の値が初期の状態値の分布を正確に反映する場合、次の不変量が維持されるであろう（すべての推定値がゼロ平均誤差を有する）。

ここでＥ｛太字｝［ζ｛太字｝］はζ｛太字｝の期待値であり、共分散行列は正確に推定の共分散を反映してもよい。

（最適性とパフォーマンス）
理論から得られるが、カルマンフィルタは、ａ）モデルが完全に実システムと一致している場合、ｂ）入力される雑音が白色である場合、ｃ）雑音の共分散が正確にわかっている場合において、最適である。共分散が推定された後、フィルタのパフォーマンスを評価すること、すなわち状態推定の品質を向上させられるかどうかを評価することが有意であり得る。カルマンフィルタが最適に動作する場合、イノベーションシーケンス（出力予測誤差）は白色雑音であってもよく、それゆえにイノベーションの白色性がフィルタパフォーマンスの尺度であってもよい。様々な方法がこの目的のために利用可能である。

（事後の推定共分散行列の導出）
上記の誤差共分散Ｐ｛太字｝_ｋ｜ｋの不変量から開始する。

ｘ｛太字｝＾_ｋ｜ｋの定義を代入する。

ｙ｛太字｝^〜 _ｋを代入する。

ｚ｛太字｝_ｋを代入する。

そして誤差ベクトルをまとめる。

測定誤差ｖ｛太字｝_ｋは他の項と相関しないため、これは以下のようになる。

ベクトル共分散の特性によって、これは以下のようになる。

ここで、Ｐ｛太字｝_{ｋ｜ｋ−１}の不変量とＲ｛太字｝_ｋの定義を用いると、以下のようになる。

この式は、どんな値のＫ｛太字｝_ｋにも有効であり得る。Ｋ｛太字｝_ｋが最適なカルマンゲインであるとき、これは下記に示すようにさらに簡略化することができる。

（カルマンゲイン導出）
カルマンフィルタは最小平均二乗誤差（ＭＭＳＥ）推定器であってもよい。事後の状態推定における誤差は、ｘ｛太字｝_ｋ−ｘ｛太字｝^＾ _ｋ｜ｋであり得る。このベクトルの大きさの二乗の予測値Ｅ｛太字｝［||ｘ｛太字｝_ｋ−ｘ｛太字｝^＾ _ｋ｜ｋ||^２］を最小化しようとするとき、これは事後の推定共分散行列Ｐ｛太字｝_ｋ｜ｋのトレースを最小化することと等価である。上記式の項を展開してまとめると、下記が得られる：

ゲイン行列に関する導関数行列がゼロであるとき、トレースは最小化され得る。勾配行列の規則と、関連する行列の対称性を用いて、以下が得られる。

Ｋ｛太字｝_ｋに対してこれを解くと、カルマンゲインが得られる。

最適なカルマンゲインとして既知であるこのゲインは、使用すると、ＭＭＳＥ推定値が得られうるものである。

（事後の誤差共分散式の単純化）
事後の誤差共分散を計算するために使用する式は、カルマンゲインが上記で導かれた最適値と等しいとき、単純化できる。カルマンゲインの式の両辺に、右側からＳ｛太字｝_ｋＫ｛太字｝_ｋ ^Ｔを掛け合わせると、以下のようになる。

事後の誤差共分散の拡張式まで戻って参照すると、以下となる。

最後の２項が相殺され、以下のようになる。

この式は計算のコストが低く、そのため実践においてほとんど常に用いられるが、最適なゲインに対してのみ正確であり得る。数値の安定性に問題を引き起こすほど計算精度が著しく低い場合、または非最適なカルマンゲインが意図的に使用される場合、この単純化は適用されなくてもよく、代わりに上記で導かれるような事後の誤差共分散式が使用されてもよい。

（固定ラグスムーサ）
最適な固定ラグスムーサは、ｚ｛太字｝_１からｚ｛太字｝_ｋまでの測定を使用して、与えられた固定ラグＮについての最適な推定値ｘ｛太字｝＾_{ｋ−Ｎ｜ｋ}を与えてもよい。それは拡張された状態を介して以前の理論を使用して導くことができる。フィルタのメインの数式は次のようになり得る：

ここで、ｘ｛太字｝^＾ _{ｔ｜ｔ−１}は、標準のカルマンフィルタによって推定される。ｙ｛太字｝_{ｔ｜ｔ−１}＝ｚ｛太字｝_ｔ−Ｈ｛太字｝ｘ｛太字｝^＾ _{ｔ｜ｔ−１}は、標準のカルマンフィルタの推定を考慮して作成されたイノベーションである。ｉ＝１,．．．,Ｎ−１を用いた変数ｘ｛太字｝^＾ _{ｔ−ｉ｜ｔ}は、新たな変数であり、すなわち標準のカルマンフィルタには登場しない。ゲインは次式によって計算される。

ここで、Ｐ｛太字｝及びＫ｛太字｝は予測誤差共分散及び標準のカルマンフィルタのゲインである（すなわちＰ｛太字｝_{ｔ｜ｔ−１}）。

推定誤差共分散を次のように定義する。

この場合、ｘ｛太字｝_ｔ−ｉの推定における改善は次式によって与えられる。

特定の特徴を示し説明したが、これらは特許請求の範囲を限定することを意図したものではなく、特許請求の範囲に記載された発明の範囲から逸脱することなく、当業者は様々な変更及び修正を行うことができる。したがって、明細書及び図面は制限的ではなく例示的なものとしてみなされるべきである。特許請求の範囲に記載された発明はすべての代替物、修正物、均等物に及ぶものである。

２：聴覚装置
４：入力トランスデューサ
６：処理ユニット
８：出力トランスデューサ
１０：聴覚装置の使用者
１２：左耳の入力信号ｚｌ（ｎ）または左耳の雑音のある信号
１４：右耳の入力信号ｚｒ（ｎ）または右耳の雑音のある信号
１６：雑音のコードブック
１８：音声のコードブック
２０：左耳での雑音のあるスペクトルとモデル化された雑音のあるスペクトルとの間の板倉−斉藤ひずみで構成される左耳についての距離ベクトル
２２：右耳での雑音のあるスペクトルとモデル化された雑音のあるスペクトルとの間の板倉−斉藤ひずみで構成される右耳についての距離ベクトル
２４：左耳及び右耳の組み合わされた重み付け
２６：左耳でのモデル化された雑音のあるスペクトル（１６と１８の合算）
２８：右耳でのモデル化された雑音のあるスペクトル（１６と１８の合算）
３０：左耳でのスペクトル包絡
３２：右耳でのスペクトル包絡
３４：左耳についての板倉−斉藤ひずみ
３６：右耳についての板倉−斉藤ひずみ
３８：左耳での雑音のあるスペクトル
４０：右耳での雑音のあるスペクトル
１０１：音声信号及び雑音信号を含む入力信号ｚ（ｎ）を提供する
１０２：入力信号ｚ（ｎ）に対し、コードブックベースのアプローチ処理を実行する
１０３：ステップ１０２でのコードブックベースのアプローチ処理に基づいて、入力信号ｚ（ｎ）の１つまたは複数のパラメータを決定する
１０４：ステップ１０３で決定された１つまたは複数のパラメータを用いて、入力信号ｚ（ｎ）のカルマンフィルタリングを実行する
１０５：ステップ１０４でのカルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供する

Claims

音声明瞭度を向上するための聴覚装置であって、
音声信号及び雑音信号を備える入力信号を提供する入力トランスデューサと、
前記入力信号を処理するように構成された処理ユニットと、
前記処理ユニットからの出力信号を音声出力信号に変換するために、前記処理ユニットの出力部に接続された音響出力トランスデューサと、を備え、
前記処理ユニットは、前記入力信号に対し、コードブックベースのアプローチ処理を実行するように構成されており、
前記処理ユニットは、前記コードブックベースのアプローチ処理に基づいて、前記入力信号の１つまたは複数のパラメータを決定するように構成されており、
前記処理ユニットは、決定された前記１つまたは複数のパラメータを用いて、前記入力信号のカルマンフィルタリングを実行するように構成されており、
前記処理ユニットは、前記カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成されている、聴覚装置。
前記入力信号は、１つまたは複数のフレームに分割されており、
前記１つまたは複数のフレームは、音声信号を表わす第１のフレーム、及び／または雑音信号を表わす第２のフレーム、及び／または無音を表わす第３のフレームを含む、請求項１に記載の聴覚装置。
前記１つまたは複数のパラメータは、短期予測（ＳＴＰ）パラメータを含む、請求項１または２に記載の聴覚装置。
前記１つまたは複数のパラメータは、
音声の線形予測係数（ＬＰＣ）及び雑音の線形予測係数（ＬＰＣ）を含む状態遷移行列Ｃ（ｎ）である第１のパラメータ、
音声の励起信号の分散σ^２ _ｕ（ｎ）である第２のパラメータ、及び／または
雑音の励起信号の分散σ^２ _ｖ（ｎ）である第３のパラメータ、
のうち１つまたは複数を含む、請求項１から３のいずれか一項に記載の聴覚装置。
前記１つまたは複数のパラメータは、２５ミリ秒のフレームにわたって一定であると仮定される、請求項１から４のいずれか一項に記載の聴覚装置。
前記１つまたは複数のパラメータを決定することは、線形予測係数（ＬＰＣ）の形式の、前記コードブックベースのアプローチ処理で使用される、コードブックに記録された音声のスペクトルの形状及び／または雑音のスペクトルの形状についての、事前の情報を使用することを備える、請求項１から５のいずれか一項に記載の聴覚装置。
前記コードブックベースのアプローチ処理で使用される、前記コードブックは、一般的な音声のコードブック、または話者固有の調整がなされたコードブックである、請求項１から６のいずれか一項に記載の聴覚装置。
前記話者固有の調整がなされたコードブックは、理想的な条件下で前記聴覚装置の使用者に関連する特定の人々の音声を記録することによって生成される、請求項７に記載の聴覚装置。
前記コードブックベースのアプローチ処理に使用される、前記コードブックは、自動的に選択され、その選択は、前記入力信号のスペクトルに基づく、及び／または、各利用可能なコードブックについての短期客観的明瞭度（ＳＴＯＩ）の測定に基づく、請求項１から８のいずれか一項に記載の聴覚装置。
前記カルマンフィルタリングは、前記音声信号の最小平均二乗推定器（ＭＭＳＥ）を提供する固定ラグカルマンスムーサを含む、請求項１から９のいずれか一項に記載の聴覚装置。
前記カルマンスムーサは、前記入力信号の状態ベクトル及び誤差共分散行列の事前の推定及び事後の推定を計算することを含む、請求項１０に記載の聴覚装置。
前記音声信号の短期予測（ＳＴＰ）パラメータの加重合計の算出が、線スペクトル周波数（ＬＳＦ）領域において実行される、請求項１から１１のいずれか一項に記載の聴覚装置。
前記聴覚装置は、使用者が着用するように構成された両耳用聴覚装置システムにおける、第２の聴覚装置と通信するように構成された第１の聴覚装置である、請求項１から１２のいずれか一項に記載の聴覚装置。
前記第１の聴覚装置は、左耳の音声信号及び左耳の雑音信号を含む左耳の入力信号を提供する第１の入力トランスデューサを備え、
前記第２の聴覚装置は、右耳の音声信号及び右耳の雑音信号を含む右耳の入力信号を提供する第２の入力トランスデューサを備え、
前記第１の聴覚装置は、前記コードブックベースのアプローチ処理に基づいて、前記左耳の入力信号の１つまたは複数の左側のパラメータを決定するように構成された第１の処理ユニットを備え、
前記第２の聴覚装置は、前記コードブックベースのアプローチ処理に基づいて、前記右耳の入力信号の１つまたは複数の右側のパラメータを決定するように構成された第２の処理ユニットを備える、請求項１３に記載の聴覚装置。
聴覚装置において音声明瞭度を向上させる方法であって、
音声信号及び雑音信号を含む入力信号を提供するステップと、
前記入力信号に対し、コードブックベースのアプローチ処理を実行するステップと、
前記コードブックベースのアプローチ処理に基づいて、前記入力信号の１つまたは複数のパラメータを決定するステップと、
決定された１つまたは複数のパラメータを用いて、前記入力信号のカルマンフィルタリングを実行するステップと、
前記カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するステップと、を含む方法。