JP6325138B2

JP6325138B2 - 音声処理システムおよび音声処理方法

Info

Publication number: JP6325138B2
Application number: JP2017029724A
Authority: JP
Inventors: ペトコフペトコ; スチリアノイオアニス
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-04-04
Filing date: 2017-02-21
Publication date: 2018-05-16
Anticipated expiration: 2037-02-21
Also published as: US10438604B2; JP2017187746A; US20170287498A1; GB2549103B; GB2549103A

Description

本明細書で説明される実施形態は、一般に、音声処理システムおよび音声処理方法に関する。

残響は、過去に生成された音響信号が環境内の物体に反射し、後の時点に生成された音響信号と同時に観測されるプロセスである。鉄道の駅およびスタジアム、大工場、コンサートホールおよび講堂のような残響環境では、音声を理解する必要があることが多い。

そのような環境において音声信号がより理解できるように音声信号を向上させることが可能である。

ここで、非限定的な実施形態によるシステムおよび方法が、添付の図を参照しながら説明される。

一実施形態による音声理解度向上システム１の概略図。環境による音声を向上させる方法を示す流れ図。テスト発話に関するアクティブなフレーム重要性推定を示す図。後発残響信号をモデル化するためのベルベット雑音モデルの使用に関係する３つのプロットを示す図。および様々な後発残響レベルの場合の所定のパワー利得のプロットを示す図。
λ＝λ_vおよびｖの様々な値の場合の所定のパワー利得のプロットを示す図。環境による音声を向上させる方法の一部である時間スケール変更プロセスの概略図。環境による音声を向上させる方法を示す流れ図。２つのパラメータＵおよびＤの領域におけるフレーム重要性加重ＳＮＲを示す図。上部の波形に対応する自然音声の信号波形と下部の３つの波形に対応する向上された音声の信号波形とを示す図。自然音声および向上された音声の認識率結果を示す図。様々な音響環境における残響の概略図。

一実施形態によれば、音声を向上させるための音声理解度向上システムが提供され、本システムは、
向上されるべき音声を受信するための音声入力部と、
向上された音声を出力する向上済み音声出力部と、
音声入力部から受信された音声を、向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
を備え、プロセッサは、
ｉ）音声入力部から受信された音声のフレームを抽出することと、
ｉｉ）フレーム重要性の測定値を計算することと、
ｉｉｉ）残響するときの音声のフレームパワーに対する後発残響に起因する寄与を推定することと、
ｉｖ）所定のフレームパワーを計算することと、所定のフレームパワーが、抽出されたフレームのパワー、フレーム重要性の測定値、および後発残響に起因する寄与の関数であり、関数が、後発残響に起因する寄与が臨界値
を超えて増大することに伴って、抽出されたフレームのパワーに対する所定のフレームパワーの比を低下させるように構成される、
ｖ）音声入力部から受信された音声のフレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、変更が、所定のフレームパワーを使用して計算される、
を行うように構成される。

別の実施形態によれば、音声を向上させるための音声理解度向上システムが提供され、本システムは、
向上されるべき音声を受信するための音声入力部と、
向上された音声を出力する向上済み音声出力部と、
音声入力部から受信された音声を、向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
を備え、プロセッサは、
ｉ）音声入力部から受信された音声のフレームを抽出することと、
ｉｉ）フレーム重要性の測定値を計算することと、
ｉｉｉ）残響するときの音声のフレームパワーに対する後発残響に起因する寄与ｌを推定することと、
ｉｖ）ペナルティ項Ｔに従って歪み測定値を最小化する所定のフレームパワーを計算することと、ここにおいて、Ｔが、（ａ）後発残響に起因する寄与ｌ、（ｂ）抽出されたフレームのパワーに対する所定のフレームパワーの比、および（ｃ）乗数λの関数であり、ここにおいて、関数が、臨界値
を超えると歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数である、
ｖ）音声入力部から受信された音声のフレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、変更が、所定のフレームパワーを使用して計算される、
を行うように構成される。

一実施形態では、変更されたフレームパワーを音声のフレームが有するように、信号スペクトルを変更することによって、音声入力部から受信された音声のフレームに変更が適用される。

一実施形態では、入力された音声の各フレームに関する所定のフレームパワーは、入力フレームパワー、フレーム重要性および残響のレベルから計算される。

一実施形態では、ペナルティ項は、
であり、ここで、ｗは１よりも大きく、ｙは所定のフレームパワーであり、ｘは抽出されたフレームのフレームパワーである。一実施形態では、ｗ＝２である。

一実施形態では、所定のフレームパワーは、λがｌの関数であることに従って計算される。

一実施形態では、所定のフレームパワーは、λがフレーム重要性の測定値の関数であることに従って計算される。項λは、項λがフレーム重要性に対する依存性を有するようにパラメータ化される。

フレーム重要性は、現在の抽出されたフレームと１つまたは複数の以前の抽出されたフレームとの間の類似性の測定値である。一実施形態では、フレーム重要性の測定値は、抽出されたフレームのメルケプストラムと以前の抽出されたフレームのメルケプストラムとの相違性の測定値である。

一実施形態では、後発残響に起因する寄与は、衰退関数で振幅変調されたパルス列として環境のインパルス応答をモデル化することによって推定される。時間ｔ_l以降のこのインパルス応答のセクションおよび以前変更された音声信号のセクションの畳み込みが、モデル後発残響信号フレームを与える。残響するときの音声のフレームパワーに対する後発残響に起因する寄与は、モデル後発残響信号フレームのパワーである。

一実施形態では、所定のフレームパワーは、
から計算され、ここで、ｙは所定のフレームパワーであり、ｘは抽出されたフレームのフレームパワーであり、ｌは後発残響に起因する寄与であり、ｗは１よりも大きく、ｃ₁およびｃ₂は第１および第２の境界条件から決定され、ｂは定数である。

一実施形態では、第１の境界条件は、
であり、ここで、αはサンプル音声データから取得されたフレームパワーの最小値であり、第２の境界条件は、
であり、ここで、σ∈（０，１）およびψ≫βであり、ここで、βは、サンプル音声データから取得されたフレームパワーの最大値である。

一実施形態では、項λがフレーム重要性に対する依存性を有するように、またｘの関数としての所定のフレームパワーおよび関数ｙ＝ｘの交差点がβによって限定されるように、項λはパラメータ化され、ここで、βは、サンプル音声データから取得されたフレームパワーの最大値であり、
における交差点の値である。さらに、臨界値を下回るｌの値に関する交差点の値がｌの値に依存せず、フレーム重要性に依存し、臨界値を上回るｌの値に関する交差点の値がｌの値に依存せず、フレーム重要性に依存するように、λはパラメータ化される。

一実施形態では、λは
から計算され、ここにおいて、
は、
および
の場合のｘの関数としての所定のフレームパワーおよび関数ｙ＝ｘの交差点がβになるように、またこれがｌのすべての値の場合の交差点の最大値になるように決定された定数であり、λ₁およびλ₂は、フレーム重要性の関数として計算される。

ｌのすべての値の場合のｘの関数としての所定のフレームパワーおよび関数ｙ＝ｘの交差点が、フレーム重要性の関数として計算された値になるように、λ₁およびλ₂が計算される。

一実施形態では、乗数λは
から計算され、ここで、
は、所定のフレームパワー
の上限に対応し、ここにおいて、
が以下によって与えられる。
は、所定のフレームパワー
に対応するλの値であり、ここにおいて、
が
から計算され、ここで、
である。
は、所定のフレームパワー
に対応するλの値であり、ここにおいて、
が
から計算され、ここで、
であり、ここで、ｓは定数であり、ξはフレーム重要性であり、
の値は
から計算される。

一実施形態では、ステップｉｉｉ）は、
（ａ）２つ以上の周波数帯域の各々における抽出されたフレームパワーの割合を計算することと、
（ｂ）抽出されたフレームパワーの事前決定された割合に対応する最高パワー帯域に対応する抽出されたフレームの周波数帯域を決定することと、
（ｃ）後発残響信号の概算値を生成することと、
（ｄ）（ｂ）において決定された周波数帯域の各々における後発残響信号のパワーの割合を計算することと、
を備え、残響するときの音声のフレームパワーに対する後発残響に起因する寄与が、（ｄ）において計算された周波数帯域の各々における後発残響信号のパワーの合計として推定される。

フレームに適用される信号利得は、所定の信号利得ｇ_iであってよく、ここで、
である。代替的に、所定の信号利得は、適用された信号利得
が平滑化利得となるように、所定の信号利得が適用される前に平滑化され得る。

一実施形態では、変更の変化率は、
になるように制限され、ここで、ｉはフレームインデックスであり、
は平滑化信号利得、すなわち、抽出されたフレームのパワーに対する変更されたフレームパワーの比の平方根であり、ｇ_iは、抽出されたフレームのパワーに対する所定のフレームパワーの比の平方根であり、φ、ＵおよびＤは定数である。

一実施形態では、音声入力部から受信された音声のフレームに適用される変更は、
から計算され、ここで、
であり、ここで、ｓは定数であり、φは定数であり、ξはフレーム重要性である。

フレームに関するφの値は、フレームの何らかの特性に基づいて、２つ以上の値から選択され得る。ｓの値は、ｕおよびｄの計算では異なり得る。

ステップｉ）は、
音声入力部から受信された音声のオーバーラップフレームを抽出すること
を備え、プロセッサは、
ｖｉ）抽出されたフレームのパワーに対する変更されたフレームパワーの比が１よりも小さく、ｌが
よりも大きい場合に、局所的時間スケール変更を適用するようにさらに構成され、ここにおいて、
が、後発残響に起因する寄与の臨界値である。

ステップｖｉ）は、
新しい変更された音声信号を出力するために、変更された以前のフレームを備える変更された音声信号に、ステップｖ）から出力された変更されたフレームをオーバーラップ加算することを備えることができ、ここにおいて、時間スケール変更を適用することは、
新しい変更された音声信号の最後のセグメントと新しい変更された音声信号の複数のターゲットセグメントの各々との間の相関を計算することと、ここにおいて、ターゲットセグメントが、新しい変更された音声信号の一連の先行セグメントに対応する、
最も高い相関値に対応するターゲットセグメントを決定することと、
ターゲットセグメントの相関値がしきい値よりも大きい場合に、
新しい変更された音声信号のターゲットセグメントから終わりまでの新しい変更された音声信号のセクションを複製することと、
この複製されたセクションを、新しい変更された音声信号の最後のセグメントにオーバーラップ加算することと
を備える。

一実施形態では、しきい値は、ターゲットセグメントが最後のセグメントである場合の相関値とΩとの積であり、ここで、Ω∈（０，１）である。

別の実施形態によれば、音声を向上させる方法が提供され、本方法は、
向上されるべき音声を受信するステップと、
受信された音声のフレームを抽出するステップと、
フレーム重要性の測定値を計算するステップと、
残響するときの音声のフレームパワーに対する後発残響に起因する寄与を推定するステップと、
所定のフレームパワーを計算するステップと、所定のフレームパワーが、抽出されたフレームのパワー、フレーム重要性の測定値、および後発残響に起因する寄与の関数であり、関数が、後発残響への寄与が臨界値
を超えて増大することに伴って、抽出されたフレームのパワーに対する所定のフレームパワーの比を低下させるように構成される、
音声入力部から受信された音声のフレームに、変更されたフレームパワーを生成する変更を適用するステップと、ここにおいて、変更が、所定のフレームパワーを使用して計算される、
を備える。

別の実施形態によれば、音声を向上させる方法をコンピュータに実行させるように構成されたコンピュータ可読コードを備えるキャリア媒体が提供される。

図１は、一実施形態による音声理解度向上システム１の概略図である。

システム１は、入力音声を受け取り、音声の理解度を高めるために音声を向上させるプログラム５を備えるプロセッサ３を備える。ストレージ７は、プログラム５によって使用されるデータを記憶する。記憶されたデータの詳細については、後で説明する。

システム１は、入力モジュール１１と出力モジュール１３とをさらに備える。入力モジュール１１は、向上されるべき音声に関係するデータのための入力部１５に接続される。入力部１５は、ユーザがデータを直接入力することを可能にするインターフェースであり得る。代替的に、入力部は、外部記憶媒体またはネットワークからデータ受信するための受信機であり得る。入力部１５は、たとえば、マイクロフォンからデータを受信し得る。

出力モジュール１３に接続されるのは、オーディオ出力部１７である。オーディオ出力部１７は、たとえば、スピーカーであり得る。

使用中、システム１は、データ入力部１５を通じてデータを受信する。プログラム５は、プロセッサ３上で実行されており、図２〜図１２を参照しながら説明される方法で、入力された音声を向上させる。

システムは、残響の下で音声の理解度を高めるように構成される。システムは、普通の音声（plain speech）を、残響状況においてより高い理解度を有するように変更する。

残響がある場合、音響信号の複数の遅延した減衰したコピーが同時に観測される。この現象は、密閉された環境においてより明白であり、そのような環境では、伝搬減衰および反射面における吸収が遅延した信号コピーを聞こえなくするまで、内包された音響エネルギーが聴覚に影響を与える。付加雑音と同様に、高い残響レベルが理解度を悪化させる。システムは、理解度に対する残響の影響を軽減する信号変更を適用するように構成される。

一実施形態では、システムは、後発残響に起因する残響音声に対する寄与の推定値に基づいて、変更されたフレームパワーを生成する変更を適用するように構成される。

低い重要性を有する信号部分はしばしば、高いエネルギーを有する。これらの部分のパワーを低減することは、より高い重要性および突出（prominence）を有する隣接音の検出可能性を改善する。一実施形態では、システムは、変更を適用するときにフレーム重要性を考慮する。

システムは、時間スケール変更を適用するようにさらに構成され得る。

これらの態様を考慮する音声変更枠組みは、図２に関して説明される。この枠組みの一実装形態は、図８に関して説明される。

枠組みでは、入力音声信号は、フレーム重要性評価が実行されるオーバーラップフレームに分割される。言い換えれば、フレームの各々は、それの情報内容の点で特徴付けられる。並行して、後発残響の統計モデルが、音声フレームの分解能による予想残響パワー、すなわち、後発残響からの残響音声のフレームパワーに対する寄与の推定値を提供する。フレーム固有のパワー利得調整を決定するために、聴覚歪み基準が最適化される。基準は、聴覚歪み測定値および出力パワーに対するペナルティから構成される。ペナルティ項Ｔは、後発残響パワーｌ、パワー利得、および乗数λの関数であり、ここにおいて、関数は、後発残響パワーの臨界値を超えると歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数である。λは、フレーム重要性の関数にされる。予想後発残響パワーの推定値は、無相関な付加雑音として歪み測定値に含まれる。基準は、所定のフレームパワーを導出するために使用され、所定のフレームパワーは、所与のフレームにとって最適な変更を決定するために使用される。したがって、フレーム重要性、残響パワーおよび入力パワーは合わせて、所与のフレームにとって最適な出力パワーを計算するために使用される。

後発残響パワーが低いとき、歪みが支配項であり、抽出されたフレームのパワーに対する所定のフレームパワーの比である所定のパワー利得は、フレーム重要性に応じて、後発残響パワーとともに増大する。後発残響パワーが臨界値を超えて増大すると、ペナルティ項が支配的になり始め、やはりフレーム重要性に応じて、後発残響パワーの増大とともにパワー利得が減少し始める。

一実施形態では、所定のフレームパワーが入力フレームパワーから低減され、後発残響パワーが臨界値よりも大きい場合、タイムワーピングが開始される。タイムワープは、１ピッチ周期程度であり得、平滑さの制約に従うことがある。

図２は、音声入力部１５から受信された音声が、向上済み音声出力部１７によって出力されるべき向上された音声に変換される、一実施形態によるプログラム５によって提供される処理ステップの概略図を示す。

ブロックＳ１０１、Ｓ１０７およびＳ１０９は、信号処理バックボーンの一部である。ステップＳ１０２およびＳ１０３は、環境の音響特性と局所的音声統計の両方を含む、コンテキスト認識を組み込む。

一実施形態では、入力音声信号はオーバーラップフレームに分割され、これらの各々は情報内容またはフレーム重要性の点で特徴付けられる。並行して、後発残響の統計モデルが、音声フレームの分解能による予想残響パワーの推定値を提供する。歪み基準を最適化することは、所定のフレームパワーと呼ばれる、局所的に最適な出力パワーを決定する。局所的には、後発残響のパワーは、無相関な付加雑音としてモデル化される。抽出されたフレームのパワーに対する変更されたフレームパワーの比が１よりも小さく、後発残響パワーが臨界値よりも大きい場合、平滑化の制約に従ってタイムワーピングまたは減速が開始される。

ステップＳ１０１は、「アクティブな音声フレームを抽出する」である。このステップは、音声入力部１５から受信された音声信号ｘからオーバーラップフレームを抽出することを備える。フレームは、たとえば、ハンウィンドウ関数を使用してウィンドウ処理され得る。

フレームｘ_iがステップＳ１０１から出力される。

ステップＳ１０２は、「フレーム重要性を評価する」である。このステップでは、フレーム重要性の測定値が決定される。

フレーム重要性は、現在のフレームと１つまたは複数の以前のフレームとの相違性を特徴付ける。一実施形態では、フレーム重要性は、以前の隣接フレームとの相違性を特徴付ける。低い相違性は、より少ない新しい情報、したがってより低い重要性を示す。より低いフレーム重要性は、より高い冗長性に対応する。以前のフレームとの低い相違性、したがって高い冗長性を有するフレームは、低いフレーム重要性を有する。フレーム重要性は、フレームの新規性を反映しており、最大ブースティングパワーを制限するために使用される。

各フレームｘ_iに関するこのステップの出力は、対応するフレーム重要性値ξ_iである。

フレーム重要性は、たとえば、聴覚領域における２つの連続フレーム間の変化を査定することによって、現在のフレームと１つまたは複数の以前のフレームとの間の聴覚領域相違性を測定することに基づく。一実施形態では、フレーム重要性は、フレームと以前のフレームとのメルケプストラムの相違性の測定値である。隣接フレームにおけるメル周波数ケプストラム係数（ＭＦＣＣ）の正規化距離によって、フレーム重要性の推定値が与えられる。一実施形態では、フレーム重要性は
によって与えられ、ここで、ｍ_iは、信号フレームｉから導出されたメル周波数ケプストラム係数（ＭＦＣＣ）のセット、すなわち、フレームｉにおけるＭＦＣＣベクトルを表す。

フレーム重要性は因果的推定量であり、言い換えれば、現在のフレームのフレーム重要性を決定するために将来のフレームが受信される必要はない。

式（１）において与えられる上記の関係では、ξ_i∈（０，１）である。これは、フレーム重要性パラメータが情報内容を概算することを意味し、ここで、ξ_i→０が低い情報内容に対応し、ξ_i→１が高い情報内容に対応する。

図３は、テスト発話に関するアクティブなフレーム重要性推定を示す。テスト発話は、ＵＫ英語の録音からのランダムに選択された短い発話である。水平軸上の秒単位の時間に対して、フレーム重要性は垂直軸上にある。入力音声信号も示されている。より高い冗長性を有する領域は、遷移を含む領域よりも低いフレーム重要性を有する。

この実施形態では、セグメントまたはフレームの情報内容は、単純推定量により概算される。計算されたフレーム重要性は、連続スケールによる情報内容を表す概算値である。明示的な確率モデルリングは使用されていないが、採用されたパラメータ空間は、情報内容を高分解能により、すなわち、バイナリ分類ではなく連続測定により概算することが可能である。

確率モデル化とエントロピーの概念とを使用した、所与の時間における音声信号の情報の量の厳密な推定が、フレーム重要性の測定値を決定するために代替的に使用され得る。

ステップＳ１０３は、「後発残響をモデル化する」である。

残響は、特定の環境のインパルス応答と信号との間の畳み込みとしてモデル化され得る。インパルス応答は、３つの成分、すなわち、直接経路、先発反射および後発残響に分かれる。したがって、残響は２つの成分、すなわち、先発反射と後発残響とを備える。

先発反射は、高いパワーを有し、空間のジオメトリに依存し、個々に区別可能である。先発反射は、直接音の後、短い時間ウィンドウ内に到着し、室内インパルス応答（ＲＩＲ）を調べるときに容易に区別可能である。先発反射は、ホールのジオメトリと、話者およびリスナーの位置とに依存する。先発反射は、直接音の後、短い間隔内、たとえば、５０ｍｓ内に到着する。先発反射は、理解度にとってマイナスであるとは考えられず、実際には理解度を改善することができる。

後発残響は、多数の反射およびより長い音響経路に起因して、性質上拡散している。それは、近接音の間のマスキングに起因する理解度低下の主な要因である。これは、鉄道の駅およびスタジアム、大工場、コンサートホールおよび講堂のような場所での会話にとって重大であり得る。個々の反射を識別することは、それらの数が増加する一方でそれらの振幅（magnitude）が縮小するので、難しい。後発残響は、音声信号における異なる音の間のマスキングの主な原因であるので、理解度にとってよりマイナスであると考えられる。後発残響は、先発反射の後に到着する反射の寄与である。後発残響は、先発反射よりも多くの回数にわたって反射した、遅延した減衰した複製から構成される。したがって、後発残響は拡散しており、縮小した振幅を有する多数の反射を備える。

ステップＳ１０３における後発残響モデルは、所与の時点に理解度に悪影響があると考えられる、すなわち、所与の時点に理解度を低下させる残響パワーを査定するために使用される。モデルは、後発残響に起因する残響音声フレームに対する寄与の概算値を出力する。

ＲＩＲにおける先発反射と後発残響との間の境界ｔ_lは、別個の反射が拡散混合（diffuse mixture）に変わるポイントである。ｔ_lの値は、環境の特性を示している。一実施形態では、ｔ_lは、直接経路に従った音、すなわち、直接音の到着後５０〜１００ｍｓの範囲にある。直接音の到着後ｔ_l秒で、個々の反射は区別不可能になる。したがって、これは、先発反射と後発残響との間の境界である。

ステップＳ１０３において、後発残響がモデル化される、すなわち、後発残響に起因する残響音声フレームに対する寄与が概算される。一実施形態では、後発残響は、特定のホールの音響を綿密に複製するために正確にモデル化され得る。代替実施形態では、目的が後発残響のパワー推定であるので、後発残響に起因するマスキングパワーを概算するより単純なモデルが使用され得る。後発残響パワーを予測するために統計モデルが使用され得る。

一実施形態では、インパルス応答の後発残響部分は、指数関数的に衰退するエンベロープを有するパルス列としてモデル化される。一実施形態では、後発残響に起因する寄与をモデル化するためにベルベット雑音モデルが使用され得る。

図４は、後発残響信号をモデル化するためのベルベット雑音モデルの使用に関係する３つのプロットを示す。

第１のプロットは、２０ｍ×３０ｍ×８ｍに固定された寸法を有するホールである、例示的な音響環境を示し、寸法がそれぞれ、幅、長さおよび高さである。長さは垂直軸上に示されており、幅は水平軸上に示されている。話者およびリスナーのロケーションは、それぞれ｛１０ｍ，５ｍ，３ｍ｝および｛１０ｍ，２５ｍ，１．８ｍ｝である。これらの値は、第２のプロットにおけるＲＩＲの説明のために使用されるモデルＲＩＲを生成するために使用される。後発残響パワーモデル化の場合、話者およびリスナーの特定のロケーションは使用されない。

第２のプロットは、伝搬遅延および減衰が直接音に正規化される室内インパルス応答を示す。時間が秒単位で水平軸上に示されている。ここに示される正規化室内インパルス応答は、第１のプロットに示される、意図された音響環境の知識に基づくモデルＲＩＲである。モデルは、第１のプロットに示されるホールの寸法およびターゲットＲＴ₆₀を前提として、画像ソース方法で生成される。

室内インパルス応答が測定され得、先発反射と後発残響との間の境界ｔ_lの値および残響時間ＲＴ₆₀が、この測定から取得され得る。残響時間ＲＴ₆₀は、後発残響パワーが直接音のパワーを６０ｄＢ下回るのに要する時間であり、環境の特性も示している。

第３のプロットは、第２のプロットと同じ正規化室内インパルス応答モデル
ならびに後述される後発残響に対応するＲＩＲの部分を示す。後発残響モデルは、ベルベット雑音モデルを使用して生成される。

一実施形態では、後発残響のモデルは、後発残響のパワーが時間とともに指数関数的に衰退するという仮定に基づく。この特性を使用して、信号フレームにおける後発残響のパワーを推定するためのモデルが実施される。適切な密度を有するパルス列が、ベルベット雑音モデルの枠組みを使用して生成され、衰退関数で振幅変調される。

パルス列ι［ｋ］とエンベロープｅ［ｋ］との積として、後発残響室内インパルス応答モデルが取得される。
ここで、ｅ［ｋ］は、以下の式（５）によって与えられ、ι［ｋ］は、パルス列であり、以下の式（３）によって与えられる。
ここで、ａ［ｍ］は、ランダムに生成された、値の符号＋１または−１であり、ｒｎｄ（ｍ）は、０と１との間で一様に分布した乱数であり、「ｒｏｕｎｄ」は、整数への丸めを示し、Ｔ_dは、パルス間の秒単位の平均時間であり、Ｔ_sは、サンプリング間隔であり、ｕは、単位振幅（unit magnitude）を有するパルスを示す。このパルス列は、ベルベット雑音モデルである。

一実施形態では、後発残響パルス列がスケーリングされる。パルス密度に関して初期値が選択される。一実施形態では、２０００パルス／秒よりも大きい初期値が使用される。一実施形態では、４０００パルス／秒の初期値が使用される。次いで、生成された後発残響パルス列が、それのエネルギーが、後発残響に対応する測定ＲＩＲの部分と同じになるように、スケーリングされる。音響環境に関するＲＩＲの記録が、後発残響パルス列をスケーリングするために使用される。記録のために話者およびリスナーがどこに位置するかは重要ではない。ｔ_lおよびＲＴ₆₀の値が記録から決定され得る。ｔ_lの後のＲＩＲの部分のエネルギーも測定される。エネルギーは、ポイントｔ_lの後のＲＩＲにおける値の平方和として計算される。次いで、後発残響パルス列のエネルギーが、ＲＩＲから計算されたエネルギーと同じになるように、後発残響パルス列の振幅がスケーリングされる。

任意の記録されたＲＩＲが、それがターゲット環境からのものである限り使用され得る。代替的に、モデルＲＩＲが使用され得る。

連続形式の衰退関数またはエンベロープは、以下のとおりである。

離散化されたエンベロープは、以下によって与えられる。

この関係は、直接経路の到着に対応する初期瞬間ｔ＝０から残響時間ＲＴ₆₀の間の６０ｄＢのパワー衰退を保証する。Ｔ_sは、入力音声信号のサンプリング間隔であり、ここで、
であり、ｆ_sはサンプリング周波数である。

後発残響のモデルは、（２）において与えられた形式の衰退関数で振幅変調された、適切な密度の、パルス列として後発残響に対応するＲＩＲの部分を表す。

ターゲットフレームの持続時間の、後発残響によって引き起こされた雑音である後発残響信号
の概算値が、
から計算され、ここで、
は、（２）において与えられた後発残響室内インパルス応答モデル、すなわち、人工的なパルス列ベースのインパルス応答であり、ｆ_sは、サンプリング周波数であり、ターゲットフレームの初めは、時間インデックスｋ＝０に関連付けられる。

したがって、式（５）は、
を生成するために（３）におけるパルス列に適用されたエンベロープである。式（５）から、ｋ＝０において、ｅ（ｔ）＝１は、参照として使用される、直接経路に関する衰退がないことを意味する。ｋ＝ＲＴ₆₀／Ｔ_sにおいて、ｅ（ｔ）＝１０^-3は、パワー領域において−６０ｄＢに対応する。

ｙ［ｋ−ｔ_lｆ_s−ｎ］は、出力「バッファ」、すなわち、以前のフレームｘ_pに対応するすでに変更された信号からのポイントに対応し、ここで、ｐ＜ｉである。ｔ_l以降の
の畳み込みおよび出力バッファからの信号履歴は、後発残響信号のサンプルまたはモデルの実現を与える。

サンプルベースの後発残響パワー推定値ｌが、
から計算される。フレームｉの場合、ｋの各値に関する
の値が決定され、値
のセットが生じ、ここで、各値がフレーム内のｋの値に対応する。

ＲＴ₆₀、ｔ_l、Ｔ_d、およびｆ_sの値が、図１に示されるシステムのストレージ７に記憶され得る。

ステップＳ１０３は、ステップＳ１０２と並行して実行され得る。

以下のステップＳ１０４およびＳ１０５は、自然音声と変更された音声プラス後発残響パワーとの間の歪み基準を最適化する所定のフレームパワーを計算することを対象とする。ステップＳ１０４において、入力音声信号および推定後発残響信号のフレームパワーが計算される。ステップＳ１０５では、入力音声信号ｘ_iおよび後発残響信号
のフレームパワー値が、後発残響フレームパワーｌ、入力音声フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数である何らかのペナルティ項に従って、歪み測定値を最小化する所定のフレームパワーｙを計算するために使用され、ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数であり、ここにおいて、λが、フレーム重要性の関数である。次いで、信号利得を適用することによって、ステップＳ１０７において変更されたフレームパワーを有するように、入力音声のフレームが変更される。変更は、所定のフレームパワーから計算される。所定のフレームパワーから直接計算された信号利得の値にポストフィルタ処理および／または平滑化をさらに適用することによって、変更が計算され得る。

クリーンで変更された残響音声からの、知覚領域における、信号特徴のセットの間の瞬間（実際にはフレームベースで概算される）偏移を評価するために、歪み測定値が使用される。歪みを最小化することは、局所的に最適化された変更パラメータを提供する。

ステップＳ１０４は、「フレームパワーを計算する」である。入力音声信号ｘ_iの各フレームに関するフレームパワーｘ _iが計算される。Ｓ１０３において計算された後発残響信号
に関するフレームパワーｌ _iも計算される。後発残響信号
に関するフレームパワーは、後発残響に起因する残響音声のフレームパワーに対する寄与ｌ _iである。

代替実施形態では、２つ以上の周波数帯域の各々における入力音声信号ｘ_iのフレームパワーの割合が計算され、周波数帯域の各々におけるＳ１０３において計算された後発残響信号
のフレームパワーの割合が計算される。一実施形態では、帯域はメルスケールで線形的に離間される。一実施形態では、帯域はオーバーラップしない。一実施形態では、１０個の周波数帯域がある。

一実施形態では、下降するパワーの順序で、入力音声フレームの帯域がランク付けされる。言い換えれば、フレームごとに、下降するパワーでの周波数帯域の順序が決定される。次いで、降順での総フレームパワーの事前決定された割合に対応する帯域が決定される。たとえば、降順で総フレームパワーの９０％が含まれる帯域が決定される。たとえば、第１のフレームでは、フレームパワーの９０％がｎ個の最高パワー帯域から来ることがある。第２のフレームでは、フレームパワーの９０％がｍ個の最高パワー帯域から来ることがあり、第２のフレームにおけるｍ個の最高パワー帯域は、第１のフレームにおけるものとは異なり得る。

次いで、後発残響信号のフレームパワーが、対応する入力音声フレームに関して決定されたそれらの帯域における総パワーとして決定され得る。上記の例の場合、第１のフレームでは、後発残響フレームパワーが、ｎ個の帯域における後発残響信号のパワーとして計算される。第２のフレームでは、後発残響フレームパワーが、ｍ個の帯域における後発残響信号のパワーとして計算される。したがって、後発残響信号のフレームパワーが、入力音声フレームから決定された帯域の帯域パワーを合計することによって計算される。

次いで、入力音声信号のフレームパワーが、入力音声フレームのすべての帯域（すなわち、決定された帯域だけではない）の帯域パワーを合計することによって計算され得る。入力音声信号のフレームパワーはｘ _iであり、後発残響雑音信号のフレームパワーはｌ _iである。この実施形態では、後発残響フレームパワーがいくつかのスペクトル帯域のみから計算される。スペクトル帯域はフレームごとに、最高パワーに対応する入力音声フレームのスペクトル帯域、たとえば、フレームパワーの事前決定された割合に対応する最高パワースペクトル帯域を決定することによって、決定される。これは、異なる音の異なるスペクトルエネルギー分布を考慮する。

ステップＳ１０５は、「フレーム出力パワーを最適化する」である。

所定のフレームパワーが計算される。所定のフレームパワーは、ｌ、入力音声フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数である何らかのペナルティ項に従って、歪み測定値を最小化し、ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数である。所定のフレームパワーは、λがフレーム重要性の関数であることに従って計算される。

一実施形態では、所定のフレームパワーを決定するために、反復的方法が使用される。第１の反復の場合、変更されていない音声と変更されていない音声プラス残響雑音との間の歪みが、ペナルティ項に従って評価される。これは、変更された音声フレームｙ_iとして出力される。次いで、これは、新しい変更された音声フレームｙ_iに関して繰り返される。これらのステップは、ペナルティ項に従って、計算された歪みを低減する所定のフレームパワーを発見するために反復される。別の実施形態では、所定のフレームパワー値を計算することは、ペナルティ項に従って、所定のフレームパワーに関する極小値を発見するために探索アルゴリズムを使用することを備える。

一実施形態では、最適化問題に対する閉形式解がある。この場合、最適な所定のフレームパワーの反復的探索が実行されない。ステップＳ１０５では、フレーム重要性、入力信号のフレームパワーｘ _i、および後発残響信号のフレームパワーｌ _iに関する値が、所定のフレームパワーに関する式に入力され、これは、最適化問題の解に対応する。所定のフレームパワーから計算された信号利得に対する、それが適用される前の何らかのさらなる改変、たとえば、平滑化フィルタがあり得る。信号利得はステップＳ１０７において適用される。この場合に所定のフレームパワーを決定するための反復がない。所定のフレームパワーは単に、事前決定された関数から計算される。この実施形態では、音声変更は低複雑度を有する。

最適化問題に対する閉形式解がある一実施形態による処理ステップＳ１０５〜Ｓ１０７のセットが、ここで説明される。

これらのステップでは、所定のフレームパワーに関する関数は、ペナルティ項に従って、パワー領域における歪み測定値を最小化することによって決定され、ここにおいて、ペナルティ項が、ｌ、入力音声フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数であり、ここにおいて、関数が、ｌの臨界値を超えると歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数であり、ここにおいて、λが、フレーム重要性の関数である。これらのステップでは、フレームの所定のパワーは、歪み基準を最小化する関数を使用して計算される。

歪み項とパワー増大ペナルティとを備える合成基準が、出力パワーの過剰な増大を防ぐために使用される。分析を容易にするために、後発残響は局所的に、すなわち、現在のフレームの持続時間の間、無相関な付加雑音と見なされる。これは、ｉ）現在のフレームと干渉音声が生成された期間との間の時間分離、およびｉｉ）音声信号の長期非定常的性質によって誘導される。したがって、後発残響は、付加的で、伝搬時間の差異および雑音のために信号と無相関であると考えられる。

歪み項とパワー利得ペナルティ（パワー利得ペナルティは、後発残響への寄与が臨界値を超えて増大することに伴ってパワー利得を低減するように構成される）とを有する雑音における音声に関する任意の合成歪み基準が、このステップにおいて所定のフレームパワーを決定するために使用され得る。後発残響が付加的な無相関な非定常雑音と解釈され得るので、雑音における音声の基準が使用される。

一実施形態では、聴覚歪み測定値および出力パワーに対する制約から構成される基準が、所与の時間における最適な所定の変更されたフレームパワーを導出するために使用される。
ここで、ｘ、ｙ、およびｌは、波形ｘ、ｙ、およびｌの瞬間パワーであり、実際にはフレームパワーによって概算される。フレームパワーを示すために、イタリック体（又は下線）が使用される。したがって、特定のフレームに関して値ｘがあり、ここで、ｘは、音声信号の元のフレームのフレームパワーである。ｌの値もあり、ここで、ｌは、ステップＳ１０３において推定された、そのフレームにおける雑音のパワーである。フレームに関する所定の変更されたパワーはｙによって示される。

式（８）では、ペナルティ項Ｔは
である。しかしながら、一般に、ｌ、入力フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数（ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数である）である任意のペナルティ項Ｔが使用され得る。たとえば、ペナルティ項は、
であり、ここで、ｗ＞１である。一実施形態では、
である。

したがって、基準における第１の付加項は、瞬間パワーダイナミクスにおける歪みである。一実施形態では、パワー利得ペナルティ項における瞬間後発残響パワーが、単位元（unity）よりも大きいパワーに引き上げられる。一実施形態では、パワー利得ペナルティ項における後発残響パワーが、パワー２に引き上げられる。２のパワーは、マッピング関数を較正するための数学的解析を容易にする。臨界値を超えるｌの増大により、パワー利得ペナルティが歪みを上回り、変更方向の逆転が誘発される。

残響環境における音声信号に関しては、先行音声からの後発残響がオーバーラップし、現在の音声をマスキングするので、理解度が低下する。理解度を高めるために音声のパワーを増大させることは、引き起こされる後発残響の量も増大させ、したがって、実際には理解度に悪影響を及ぼし得る。ペナルティ項は、フレーム重要性に従ってパワーの増大を抑制する働きをする。さらに、後発残響の臨界値を超えると、抽出されたフレームのパワーに対する変更されたフレームパワーの比は、後発残響とともに低下する。したがって、特定の入力フレームパワーおよびフレーム重要性に関して、後発残響が増大するが臨界値未満にとどまるとき、所定のフレームパワーは増大する。後発残響が臨界値を超えてさらに増大するとき、所定のフレームパワーは低下する。この自己抑制行動は、かなり残響のある環境でシステムが使用されることを可能にする。

ペナルティ項は、臨界値を超えると歪み測定値よりも速くｌとともに増大するように構成される。ｌの臨界値を超えると、入力音声フレームパワーに対する所定のフレームパワーの比は、ｌの増大とともに低下する。

βおよびαは、当該の間隔の境界である。言い換えれば、βおよびαは、最適動作範囲の境界を画定する。一実施形態では、パラメータαは、正規化分散を伴って、事前録音された標準的音声データのサンプルデータセットにおける最小観測フレームパワーに設定される。一実施形態では、上限βは、入力音声における最高予想短期パワーである。代替的に、βは、事前録音された標準的音声データにおける最大観測フレームパワーである。

ｆ_x（ｘ｜ｂ）は、形状パラメータｂを伴うパレート分布の確率密度関数である。パレート分布は、以下によって与えられる。

ｂの値は、サンプルデータセット、たとえば、αとβとを決定するために使用される標準的な事前録音された音声に適合された（２つのパラメータ）パレート分布のパラメータに関する最尤推定から取得される。パレート分布は、分散等化された音声データ、および取得されたｂの値にオフラインで適合され得る。一実施形態では、ｂは１よりも小さい。

したがって、一実施形態では、パラメータαは、ｆ_x（ｘ｜ｂ）を適合させるために使用されるデータにおける最小観測フレームパワーに設定され得、パラメータβは、ｆ_x（ｘ｜ｂ）を適合させるために使用されるデータにおける最大観測フレームパワーに設定され得る。αおよびβに関する推定値とフレームパワーとの間の整合性は、ｆ_x（ｘ｜ｂ）を適合させるために使用されるデータにおける発話が入力音声信号と同じパワーであるときに達成され得る。ここで言及されるパワーは、数秒の間に測定された、たとえば、発話持続時間と同じである時間スケールで測定された長期パワーである。

一実施形態では、βおよびαの値は、リアルタイムでスケーリングされる。入力音声信号の長期分散が、パレート分布が適合されるデータのものと同じではない場合、パレート分布のパラメータは、相応に更新される。したがって、入力音声の長期分散が監視され、パラメータβおよびαの値が、現在の入力音声信号分散と参照分散、すなわち、サンプルデータのものとの比に伴ってスケーリングされる。分散は長期分散である、すなわち、２秒以上の時間スケールによる。

ｂ、α、およびβの値が、図１に示されるシステムのストレージ７に記憶され、必要に応じて更新され得る。

式（８）における積分の第１の項は、瞬間パワーダイナミクスにおける歪みであり、第２の項は、パワー利得に対するペナルティである。この歪み基準は、得られる変更の柔軟性および低複雑度に起因して使用される。後発残響パワーｌは、付加雑音として歪み項に含まれる。項λは、ペナルティ項の乗数である。ペナルティ項はまた、因数ｌ ²を含む。一般に、ペナルティ項は、ｌ、入力音声パワーに対する所定のフレームパワーの比ｙ／ｘ、および乗数λの関数であり、ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数であり、ここにおいて、λがフレーム重要性の関数である。

変分法を使用することによって発見された関数（８）の最小値に関する閉形式の解は、
であり、ここで、ｃ₁およびｃ₂は、
として境界条件を設定することによって識別される定数であり、ここで、
である。

式（１１）は、ｗ＝２の場合の解である。ｗ＞１であるより一般的な場合の解の形式は、以下のとおりである。

ペナルティ項が、ｗのパワーに引き上げられたｌ以外の関数である場合、解は、異なる形式を有することになる。

パラメータ化ρ（ｌ）は、残響がない場合、すなわち、ｙ’（ψ）＝１である場合、入出力（ＩＯ）関係（１１）が入力をそのまま渡す、すなわち、ｙ＝ｘとなることを保証する。

したがって、ｃ₁およびｃ₂の値はλに依存し、以下によって与えられる。
ｙ _iは、変更された音声フレームの所定のパワーである。したがって、フレームｉに関する所定の信号利得、すなわち、所定の変更は、
である、すなわち、入力フレームのパワーに対する所定のフレームパワーの比の平方根である。

被積分関数はラグランジアンであり、λはラグランジュ乗数である。歪み基準は、明示的な制約、すなわち、等式または不等式に従う。一実施形態では、制約は、Ｑの何らかの値に関して
である。これは、パワー利得が過剰に増大するのを防ぐ。Ｑは、オイラー＝ラグランジュ方程式の公式において抜け落ち、したがって、制約は式（８）では暗黙的である。フレーム重要性を組み込むために、項λは、υを通じてフレーム重要性に対する依存性を有するようにパラメータ化される。フレーム重要性は、利得の増大を制限するために導入される。これは、たとえばＱを、υを通じてフレーム重要性の関数にし、オイラー＝ラグランジュ方程式に対する解が発見されるとλの値を決定することによって、Ｑを通じてフレーム重要性を導入するのを回避する。また、後述のようにλの値を決定するために較正が実行される。後発残響パワーの増大に伴う利得の転換点を設定するために、較正が使用される。

各フレームに関するλの値は、下記のように計算され得る。ターゲットフレームｉに関するλの値は、ステップＳ１０５において計算される。

後発残響パワーの増大は、音声出力パワーの増大を誘発する。この行動は、信号パワーの再帰的増大に起因する不安定につながり得る。言い換えれば、残響環境において音声パワーを増大させることは、後発残響のパワーも増大させる。ペナルティ項は、この再帰的増大と不安定とを防ぐ。ペナルティ項は、後発残響パワーの臨界値
があり、臨界値を超えると、パワー利得、すなわち、抽出されたフレームのパワーに対する所定のフレームパワーの比が低下し始めることを意味する。

臨界値があまりにも高い場合、あまりにも多くの残響が生成される。これは、以下で説明されるシステムの較正によって防止される。較正は、以下でλの式を決定することによって実現される。音声の処理中、各フレームに関するλの値が、式から計算される。

後発残響パワーｌおよび乗数λの任意の値に関して、最大ブースティングパワー（ＭＢＰ）がある。ＭＢＰは、パワーマッピング曲線ｙ（ｘ）の交差点、すなわち、所定のフレームパワーを提供するパワーマッピング曲線ｙ（ｘ）および関数ｙ＝ｘの交差点である。ＭＢＰを下回る入力音声パワーはブースティングされ、ＭＢＰを上回る入力音声パワーは抑制される。

較正の結果として、後発残響パワーの低い値において、ＭＢＰは、後発残響パワーの増大とともに増大することが可能になる。フレーム重要性に対する依存もある。後発残響パワーの臨界値を超えると、ＭＢＰは、やはりフレーム重要性に依存して減少する。

システムの較正およびλの式の導出は以下で説明される。

入出力パワーマップの所望の上限は、最大ブースティングパワーβによって表される。前述のように、βは、たとえば、事前録音された標準的音声データにおける最大観測フレームパワーであり得る。
は、入出力パワーマップが
においてこの上限βに達するラグランジュ乗数であり、ここで、
である。

の場合、ＭＢＰは、
において方向を変え、結果的に、
および
の場合、ＭＢＰは、ｌとともに増大し、
および
の場合、ＭＢＰは、ｌの増大とともに減少する。

ｌのパワーに沿って（１６）を再構成することは、２次形式を与える。

単一ルート条件Ｂ²−４ＡＣ＝０は、入出力パワーマップの転換点を識別する。λに対して（１１）を解くことは、以下を与える。

様々な残響パワーレベルの場合および
の場合のマッピング曲線が図５に示されている。図５は、
および様々な雑音レベルの場合のパワー利得を示す。図５は、デシベル単位の入力（水平軸）に対するデシベル単位の出力（垂直軸）のプロットである。単位元パワー利得（unity power gain）が直線の実線として示されている。これは、１→−∞ｄＢの場合に対応し、参照パワーが１である。ｌ＝３０ｄＢの場合のパワー利得が点線によって示されている。
ｄＢの場合のパワー利得が一点鎖線によって示されている。
ｄＢの場合のパワー利得が破線によって示されている。パワーは、転換点を示す臨界残響パワーを超えて残響パワーが増大することに伴って低下する。
および
の場合、ＭＢＰはβである。
および
の場合、ＭＢＰはβよりも小さい。

フレーム重要性は、同じくλの計算に含まれ、臨界値を下回る後発残響パワーに伴うＭＢＰの増大が値ｖ_ξを上回るのを防ぎ、ＭＢＰが減少しているときに大量の情報内容を有するフレームの過度の抑制を防ぐ。特定のＭＢＰを提供するλに関する式が導出される。これは、ＭＢＰの増減を制御するλに関する式を決定するために使用される。

ｌの任意の値に対して特定のＭＢＰを達成するλに関する式は、以下で導出される。

（１６）についてλのために式
を解くことは、以下の式をもたらす。

λ_vは、所定のフレームパワーｙ（ｘ＝ｖ，ｌ，λ＝λ_v）＝ｖに対応するλの値である。導関数ｙ’＝（ψ）≧０を伴う分数多項式関数（fractional polynomial function）（１１）は、λ＝λ_v，ｖ＞αの場合にｘ∈（α；ψ）で単調増加することを保証される。λ＝λ_vの場合、ＭＢＰは、後発残響パワーｌに関係なく値ｖに固定される、すなわち、ＭＢＰは、後発残響パワーｌに対して固定される。

この式は、
の値を計算するために使用され得、この値は、ＭＢＰの増大を、すなわち、
の領域において制御するために使用される。
の場合、ＭＢＰは、ｖ _ξに固定される。この値からの上方または下方の変動の可能性はない。

は、以下から計算される。

一実施形態では、傾きｓと範囲制限Ｌ＝αおよびＨ＝βとを有するシグモイド
が、対数領域においてξを最大ブースティングパワーｖ _ξにマッピングするために使用される。

これは、フレーム重要性とＭＢＰとの間の平滑なマッピングをもたらす。

の場合、（２３）における関係が、直接的にｙ＝ｘとｙ（ｘ）の交差点を制御することに伴い、ｌの値に関係なく、ＭＢＰはｖ _ξである。

ＭＢＰの減少の場合、すなわち、領域
において、
の式
が決定される。
は、所定のフレームパワー
に対応するλの値であり、ここにおいて、
が以下から計算される。

の場合、ＭＢＰは、後発残響パワーｌに関係なく値
に固定される、すなわち、ＭＢＰは、後発残響パワーｌに対して固定される。

一実施形態では、傾きｓと範囲制限Ｌ＝αおよびＨ＝ｖ _ξとを有するシグモイド
が、対数領域において
を最大ブースティングパワー
にマッピングするために使用される。

これは、そのｖ∈［α，ｖ _ξ］を保証し、下限入出力パワーマップを与える。

および
を通じて、ξに対する依存性を導入することによって、遷移が向上される一方、後発残響パワー全体が低減される。

したがって、入力音声信号のフレームごとに、
の値が（１８）から計算される。次いで、後発残響パワーの臨界値
が
として導出される。

はρを通じてｌに依存するが、実際には、ｌの増大に伴うρ→０の指数関数的収束率は、大きいｌに対して
が変わらないことを示す。したがって、代替実施形態では、
および
の単一の参照値が使用され得る。

および
の式において使用される定数は、たとえば、較正プロセス中に、トレーニングデータから決定され、ストレージ７に記憶され得る。たとえば、ｓの値が、図１に示されるシステムのストレージ７に記憶され得る。一般に，ｓのより小さい値は、シグモイドがより緩やかな傾きを有することになるので、ξに対するさほど明示的ではない応答につながる。

入力された音声フレームごとに、
の場合で、
がそのフレームに関して計算された臨界値である場合、フレームに関するλの値は、以下から計算される。

の場合、フレームに関するλの値は、以下から計算される。

図６は、λ＝λ_vおよびｖの様々な値の場合のパワー利得を示す。図６は、デシベル単位の入力（水平軸）に対するデシベル単位の出力（垂直軸）のプロットである。単位元パワー利得が直線の実線として示されている。これは、ｌ→−∞ｄＢの場合に対応する。ｖ＝αｄＢの場合のパワー利得が点線によって示されている。ｖ＝βｄＢの場合のパワー利得が一点鎖線によって示されている。ｖ＝４０ｄＢの場合のパワー利得が破線によって示されている。

ＭＢＰを下回る入力音声パワーはブースティングされ、ＭＢＰを上回る入力音声パワーは抑制される。高い残響では、ＭＢＰは低減され、より大きい抑制とパワーのより小さいブースティング範囲とにつながる。

ターゲットフレームｉに関するλの値は、臨界後発残響パワーに対するｌの値に応じて、式（２７）または（２８）を使用して計算される。フレーム重要性パラメータξとλとの間のつながりを確立することは、音声信号における冗長性の関数として、短期のパワー抑制またはパワーブースティングの可能性をもたらす。

フレームに関してλの値が計算されると、ｃ₁およびｃ₂の値が計算され得る。次いで、これらの値は、所定のフレームパワーｙ_iを計算するために（１１）に代入され得る。次いで、入力音声信号に適用される信号利得が、所定のフレームパワーから計算され得る。一実施形態では、信号利得ｇ_iを使用して、信号スペクトルを変更することによって、入力音声信号に変更が適用され得る。この場合、信号利得ｇ_iは、所定の変更されたフレームパワーから計算される。

一実施形態では、所定のフレームパワーから計算された信号利得は、入力音声信号に適用される前に平滑化される。これはステップＳ１０６である。

音声入力部から受信された音声のフレームに適用された平滑化信号利得は、
から計算され得、ここで、ｇ_iは、所定のフレームパワーから計算された信号利得であり、ここで、
であり、ｙ _iが、所定のフレームパワーであり、ｘ _iが、音声入力部から受信された音声のフレームパワーであり、
が、平滑化信号利得であり、ここで、
であり、ここで、ｓおよびφが定数であり、ξ_iがフレーム重要性であり、ＵおよびＤが、下方および上方の制限率を与えるために選択される。動作率は、ξとともに制限率に収束する。

項
は、弱い過渡成分に対するより大きいパワー増大につながり、他の場所での過剰なブースティングにはつながらない。入力音声フレームが低いフレームパワーを有し、特に、それが高いフレーム重要性、たとえば、過渡性を有する場合、所定の信号利得は非常に高くなる。一般に、これはｇ_i≫１を与える。したがって、この項は、そのような過渡性に対してより強い利得を可能にする。一実施形態では、φ＝３である。代替実施形態では、φの可能な値の範囲があり、フレームごとに、フレームの何らかの特性に応じて値が選択される。たとえば、フレームのスペクトルエネルギーの５０％超が高周波数領域にある場合にはφ＝φ₁、フレームのスペクトルエネルギーの５０％超が低周波数領域にある場合にはφ＝φ₂である。

この平滑化形式は、
となるように、隣接するフレームにわたってフレーム重要性をスミアすることなく、信号利得の変化率を制限する効果を有する。

変化率を制御することによって、変更された信号は、さほど知覚されない歪みを有する。

一実施形態では、ｇ_i＞１およびｇ_i≦１の場合に異なる率、すなわち、式（３０）および（３１）のｓの異なる値がある。

代替実施形態では、ｕは
から計算される。

代替実施形態では、信号利得は代わりに、相対的制約を使用して平滑化される。上の式（２９）および（３２）は、下の式（２９ａ）および（３２ａ）に置き換えられる。

ステップＳ１０７は、「音声フレームを変更する」である。入力音声フレームに対応するウィンドウ処理された波形は、
によってスケーリングされる。したがって、変更は、たとえば、上記の式（２９）から計算された信号利得である。一実施形態では、平滑化信号利得を使用して、信号スペクトルを変更することによって、入力音声信号に変更が適用される。

上述の実施形態では、ペナルティ項に従って、後発残響の影響をモデル化する歪み測定値を最適化することによって、所定のフレームパワーが導出される。次いで、信号利得が所定のフレームパワーから計算される。

変更は、後発残響の明示的なモデルを利用し、歪み測定値において付加雑音として局所的に扱われる後発残響の影響に対してフレームパワーを最適化する。雑音における音声に関する任意の歪み基準が変更に使用され得る。

変更は、後発残響の影響を軽減する。後発残響は、それの拡散的性質に起因して統計的にモデル化され得る。特定の時点に、後発残響は、生成時点に対する時間オフセット、またはそれの元に対する時間分離を仮定すると、直接または最短経路音声信号と無相関であると想定され得る付加雑音と見られ得る。信号をブースティングすることは、音の検出可能性を高めるので、付加雑音に対する効果的な理解度向上戦略である。臨界後発残響雑音を超えるこのブースティングを抑制することは、過剰な残響を防ぐ。

一実施形態では、変更された音声フレームがこのポイントで単にオーバーラップ加算され、得られる向上された音声信号が出力される。

さらなる音声向上は、追加の変更次元を導入することによって達成される。残響の下では、信号をブースティングすることは、ブースティングされた信号が将来により多くの雑音を生成するので、逆効果であり得る。音響エコーによって引き起こされた音の間のオーバーラップマスキングは、理解度の低下の主な原因である。時間スケーリングは、近くに位置する音の間の実効的なオーバーラップマスキングを低減する。時間スケーリングによって信号の部分を拡張することは、後発残響パワーが時間とともに指数関数的に衰退するので、以前の音からのこれらの部分における低減されたマスキングをもたらす。この影響は、理解度を改善するが、伝送速度を低下させる。信号を減速させることは、近くに位置する音の間のオーバーラップマスキングを低減し、理解度を改善するが、情報の転送を減速させる。

変更されたフレームパワーを生成する変更および後続の時間スケール変更を適用するようにシステムが構成される一実施形態では、時間スケール変更がステップＳ１０８において実行される。

ステップＳ１０８は、「時間スケールをワープする」である。一般に、時間スケーリングは、異なる音の間のオーバーラップマスキングを低減することによって、理解度を改善する。タイムワーピング機能は、波形を拡張するときに最適なラグを探索する。この方法は、局所的ワーピングを可能にする。タイムワーピングは、フレームパワーが、変更されていない入力フレームパワーのフレームパワー未満に低下したとき、および後発残響パワーが臨界値を上回ったときに発生する。

このステップでは、
である平滑化信号利得が１よりも小さいかどうか、およびｌが
よりも大きいかどうかが最初に決定される。これらの条件の両方が満たされる場合、出力信号ｙの履歴を使用して、フレームｉの相関シーケンスｒ_yy（ｋ）が
として計算され、ここで、Ｔはフレーム持続時間（秒単位）である。Ｔの値は、図１に示されるシステムのストレージ７に記憶され得る。変数ｋは、ラグを示すためにタイムワーピングの文脈で使用される。それは、後発残響をモデル化する文脈の場合には使用されない。

次いで、最適ラグｋ^*が
から計算され、ここで、ラグは、離散時間インデックスまたはサンプルインデックスであり、Ｋ₁およびＫ₂は、探索間隔の最小ラグおよび最大ラグである。一実施形態では、Ｋ₁およびＫ₂は定数である。一実施形態では、Ｋ₁は０．００３ｆ_sであり、Ｋ₂は０．０２ｆ_sである。最適ラグは、相関関数における最高ピークによって識別される。

図７は、一実施形態による時間スケール変更プロセスの概略図である。

図２のステップＳ１０９において実行されたオーバーラップおよび加算プロセスの後の変更されたフレームは、出力「バッファ」を形成する。

時間スケール変更プロセスでは、新しいフレームｙ_iが、変更されて図２のステップＳ１０７から出力される。このフレームは、ステップＳ１０９においてバッファにオーバーラップ加算される。これは、図７に示される時間スケール変更プロセスのステップＳ７０１に対応する。「新しいフレーム」は、「最後のフレーム」とも呼ばれる。ポイントｋ＝０は、最後のフレームの開始である。

すべてのフレームが、この方法でバッファにオーバーラップ加算される。しかしながら、以下の条件が満たされる場合には、以下のステップで説明される方法で、このポイントの前後で時間がワープされ、以下の条件は、１）平滑化信号利得が１よりも小さい、２）ｌが
よりも大きい、および３）最大相関値がしきい値よりも大きい、ことである。したがって、タイムワープは、「下降」モードにある間に抑制が発生するとき、すなわち、残響が高く、ｌが
よりも大きいときのみ開始される。たとえば、低い情報内容およびフレームの高いパワーに起因して、
のときに抑制が発生する場合、これはタイムワープを伴わない。

ステップＳ１０８では、不連続性をもたらすことなく信号をタイムワープする時間スケール変更量を決定することが望まれる。これは、式（３３）におけるｋ＝Ｋ₁から開始して、バッファ信号のターゲットセグメントと信号の「最後のフレーム」の相関を式（３３）から計算することを伴う。これは、ｋ＝Ｋ_1-1〜ｋ＝Ｋ₂に対応するターゲットセグメントに関して繰り返される。これは、時間スケール変更プロセスのステップＳ７０２に対応する。

相関関数における最大ピークに対応するｋの値は、最適ラグｋ^*を与える。これは、時間スケール変更プロセスのステップＳ７０３において決定される。

ステップＳ７０４では、最大相関の値がしきい値よりも大きいかどうかが決定される。

一実施形態では、しきい値は、ｋ＝０のラグでの、すなわち、最後のセグメントの相関値と、Ωとの積であり、ここで、Ω∈（０，１）である。ｋ＝０のラグでの相関値は、フレームのエネルギーである。

一実施形態では、しきい値は、条件
が満たされる場合にのみタイムワープが実行されるという条件に対応する。この条件は、たとえば、過渡性をワープすることを試みることに起因する歪みを防ぐ。

条件が満たされる場合、タイムワーピングが適用される。別の実施形態では、過剰周期性を防ぐために、連続的タイムワープの数が２に制限される。

次いで、このポイントから先において、バッファ信号が抽出され、すなわち、ｋ＝ｋ^*からバッファの終わりまでのバッファ信号のセグメントがステップＳ７０５において複製され、これは、ステップＳ７０６においてポイントｋ＝０からの「最後のフレーム」とオーバーラップ加算される。一実施形態では、オーバーラップ加算は、フレームベースの処理のスケールの２倍の大きさのスケールによる。一実施形態では、波形拡張は、オーバーラップエリアにおいて平滑な補完的「ハーフ」ウィンドウを使用して、オーバーラップ加算される。

したがって、このオーバーラップ加算は、「最後のフレーム」を含む、バッファリングされた信号の終わりにおける余剰または余分なサンプルをもたらす。これは、信号拡張またはタイムワープ効果である。

したがって、Ｓ１０９では、波形拡張が、ｋ^*によって識別される位置から抽出され、適切な長さの補完的ウィンドウを使用して最後のフレームにオーバーラップ加算される。波形拡張は、オーバーラップエリアにおいて平滑な「ハーフ」ウィンドウを使用して、オーバーラップ加算される。最後に、次のフレームを準備するために、元のオーバーラップ加算ウィンドウを使用して、拡張の終わりが平滑化される。

残響環境における音声理解度は、残響時間の増加とともに低下する。この影響は主に、正確なホールジオメトリと話者およびリスナーの位置との知識なしに統計的にモデル化され得る後発残響に帰せられる。上述のシステムは、理解度に対する後発残響の影響を軽減するための低複雑度音声変更枠組みを使用する。後発残響によって引き起こされた音声パワーダイナミクスにおける歪みは、適応利得制御と局所的タイムワーピングとを備えるマルチモーダル変更のきっかけとなる。後発残響パワーの推定は、変更深度のコンテキスト認識適応を可能にする。

システムは環境に適応し、広い動作範囲でのマルチモーダル（すなわち、利得制御および局所的時間スケールにおける）変更を実現する。システムは歪み基準を使用する。歪み基準の閉形式ミニマイザーは、信号パワーのより効率的な使用のために、フレーム重要性の継続的測定の点でパラメータ化される。システムは、低い遅延および複雑度で動作し、これは、システムが広い範囲の適用場面に対処することを可能にする。枠組みのモジュール性は、個々の構成要素の漸進的高度化を容易にする。

図８は、音声入力部１５から受信された音声が、向上済み音声出力部１７によって出力されるべき向上された音声に変換される、一実施形態によるプログラム５によって提供される処理ステップの概略図である。

ステップＳ２０１は、「フレームｘ_iを抽出する」である。これは、図２の枠組みに示されるステップＳ１０１に対応する。このステップは、音声入力部１５から受信された音声信号ｘからフレームを抽出することを備える。フレームｘ_iがステップＳ２０１から出力される。

一実施形態では、フレームの持続時間は、１０ｍｓから３２ｍｓの間である。これらのフレームの持続時間には、信号は定常的であると考えられ得る。一実施形態では、フレームの持続時間は２５ｍｓである。

一実施形態では、フレームオーバーラップは５０％である。５０％のフレームオーバーラップは、処理に起因する隣接フレーム間の不連続性を低減し得る。

音声信号処理にとって妥当な任意のサンプリング周波数が使用され得る。一実施形態では、サンプリング周波数は、１ｋＨｚと５０ｋＨｚの間であり得る。一実施形態では、サンプリング周波数ｆ_s＝１６ｋＨｚである。一実施形態では、ｆ_s＝８ｋＨｚである。

ステップＳ２０２は、「フレーム重要性を計算する」である。これは、図２に示される枠組みにおけるステップＳ１０２に対応する。

フレーム重要性は、フレームと以前のフレームとの相違性の測定値である。一実施形態では、フレーム重要性は、上記の式（１）によって与えられる。ステップＳ２０２からの出力はξ_i、すなわち、フレームｉのフレーム重要性である。

一実施形態では、ｍはＭＦＣＣ次元１〜１２を含む。

ステップＳ２０３は、「後発残響信号を計算する」である。

一実施形態では、残響信号フレームに対する後発残響の寄与をモデル化することによって、後発残響信号が計算される。一実施形態では、後発残響は、特定のホールの音響を綿密に複製するために正確にモデル化され得る。代替実施形態では、後発残響に起因するマスキングパワーを概算するより単純なモデルが使用され得る。後発残響信号を生成するために統計モデルが使用され得る。一実施形態では、後発残響に起因する寄与をモデル化するためにベルベット雑音モデルが使用され得る。後発残響パワー推定値を提供する任意のモデルが使用され得る。

一実施形態では、後発残響信号
は、上記の式（７）から計算される。サンプルベースの後発残響信号
が計算される。フレームｉの場合、ｋの各値に関する
の値が決定され、値
のセットが生じ、ここで、各値がフレームのｋの値に対応する。したがって、ターゲットフレームの持続時間の、後発残響であるマスキング信号
の概算値が、上記の式（７）から計算される。

このステップは、図２に示される枠組みにおけるステップＳ１０３に対応する。パラメータＴ_d、ＲＴ₆₀、ｔ_lおよびｆ_sが事前展開段階において決定され、ストレージ７に記憶され得る。

意図された音響環境の場合の残響時間が測定され得、この測定値がＲＴ₆₀の値として使用される。代替的に、同様の環境の以前の研究に基づく推定値が使用される。代替的に、たとえば、寸法および表面反射係数が知られている場合、モデルから残響時間が導出され得る。

一実施形態では、ｔ_l＝９０ｍｓである。一実施形態では、ｔ_l＝５０ｍｓである。一実施形態では、ｔ_lは、意図された音響環境の知識に基づいてモデルＲＩＲから抽出される。代替的に、ｔ_lは、測定ＲＩＲから抽出される。代替的に、同様の環境の以前の研究に基づく推定値が使用される。

ステップＳ２０４は、「パワーを計算する」である。一実施形態では、これは、図２におけるステップＳ１０４に対応する。

一実施形態では、入力信号フレームパワーｘ _iおよび後発残響フレームパワーｌ _iが、入力信号ｘ_iおよびステップＳ２０３から出力された
から計算される。したがって、後発残響フレームパワーｌ _iは、残響音声フレームに対する後発残響の寄与のモデルから計算される。

代替実施形態では、入力音声帯域パワーおよび後発残響帯域パワーが、入力信号ｘ_iおよびステップＳ２０３から出力された
から計算される。言い換えれば、２つ以上の周波数帯域の各々におけるパワーが、入力信号ｘ_iおよびステップＳ２０３から出力された
から計算される。これらは、たとえば、離散フーリエ変換を使用して、音声入力部から受信された音声のフレームと後発残響信号とを周波数領域に変換することによって計算され得る。代替的に、各周波数帯域におけるパワーの計算は、フィルタバンクを使用して時間領域で実行され得る。

一実施形態では、帯域はメルスケールで線形的に離間される。一実施形態では、帯域はオーバーラップしない。一実施形態では、１０個の周波数帯域がある。

次いで、下降するパワーの順序で、入力音声フレームの帯域が順序付けられ、次いで、降順での総フレームパワーの事前決定された割合に対応する帯域が決定される。次いで、後発残響信号のフレームパワーが、対応する入力音声フレームに関して決定された帯域におけるパワーの合計として決定され得る。したがって、後発残響信号のフレームパワーが、入力音声フレームから決定された帯域の帯域パワーを合計することによって計算され得る。

この実施形態では、後発残響フレームパワーがいくつかのスペクトル領域のみから計算される。スペクトル領域はフレームごとに、最高パワーに対応する入力音声フレームのスペクトル領域、たとえば、フレームパワーの事前決定された割合に対応する最高パワースペクトル領域を決定することによって、決定される。帯域パワーを合計することによって、入力信号全帯域パワーｘ _iが計算され得る。

一実施形態では、次いで、所定のフレームパワーｙ _iが、入力信号フレームパワーｘ _i、フレーム重要性の測定値および後発残響フレームパワーｌ _iの関数から計算される。関数は、後発残響フレームパワーｌ _iが臨界値
を超えて増大することに伴って、抽出された入力音声フレームのパワーに対する所定のフレームパワーの比を低下させるように構成される。

一実施形態では、ペナルティ項Ｔに従って歪み測定値を最小化する所定のフレームパワーが計算され、ここにおいて、Ｔが、ｌ、抽出されたフレームのパワーに対する所定のフレームパワーの比、および乗数λの関数であり、ここにおいて、関数が、後発残響パワーが臨界後発残響パワーよりも大きいときに歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数であり、ここにおいて、λが、フレーム重要性の点でパラメータ化される。

歪み測定値は、たとえば、（８）における積分の第１の項であり得る。ペナルティ項は、パワー利得に対するペナルティである。一実施形態では、ペナルティ項は、（９）において与えられたものであり、ここで、ｗ＞１である。一実施形態では、ｗ＝２である。

ステップＳ２０５は、「λと、ｃ₁と、ｃ₂とを計算する」のステップを備える。

各フレームに関するλの値は、
から計算され、ここで、
の式が（１８）において与えられ、
の値が
の値から計算され、
の式が（２１）において与えられ、
の式が（２５）において与えられる。

β、α、ψおよびσの値がストレージ７に記憶される。一実施形態では、σ＝０．９である。一実施形態では、σ＝０．００１である。ｓの値は、λを計算するために必要とされることがあり、同じくストレージ７に記憶される。一実施形態では、ｓは１から５０の間である。一実施形態では、ｓ＝１５である。一実施形態では、ｓ＝２８である。一実施形態では、傾きｓは、
に対応する、ＭＢＰが増加しているレジーム、および
に対応する、ＭＢＰが減少しているレジームでは異なり得る。

は、フレーム重要性に依存する。
も、
を通じてフレーム重要性に依存する。

フレームに関してλの値が計算されると、式（１４）および（１５）を使用して、ｃ₁およびｃ₂の値が計算される。

ステップＳ２０６では、所定のフレームパワーｙ _iが、ｘ _i、ｌ _i、ｂ、λ_i、ｃ₁およびｃ₂の値から計算される。一実施形態では、ペナルティ項に従って歪み測定値を最小化する所定のフレームパワーが、
から計算され、ここで、ｂは定数であり、ｗ＞１である。一実施形態では、ｗ＝２である。ｂの値が、ストレージ７に記憶される。一実施形態では、ｂは、トレーニングデータのパレートモデルから決定され、たとえば、全帯域／単一帯域シナリオにおいて約０．０９８１であり得る。

これは、上記の図２の枠組みにおけるステップＳ１０５に対応する。

変更が、所定のフレームパワーを使用して計算され、音声入力部から受信された音声のフレームｘ_iに適用される。

一実施形態では、音声入力部から受信された音声のフレームｘ_iに適用される変更は、
である。

一実施形態では、平滑化が変更に適用される。これはステップＳ２０７である。平滑化信号利得は、（２９）から計算され得る。ＵおよびＤの値がストレージ７に記憶され得る。一実施形態では、Ｕ＝１．０５およびＤ＝０．９５である。別の実施形態では、Ｕ＝１．３およびＤ＝０．４である。別の実施形態では、Ｕ＝１．１５およびＤ＝０．１５である。

ステップＳ２０８において変更を適用することによって、変更された音声フレームｙ_iが生成される。一実施形態では、信号利得または平滑化信号利得を使用して、信号スペクトルを変更することによって、変更が適用される。

一実施形態では、次いで、ステップＳ２０９において以前のフレームに関して生成された向上済み音声信号に、変更された音声フレームがオーバーラップ加算され、得られた信号が出力部１７から出力される。

代替的に、信号が出力される前に時間変更が含まれる。一実施形態では、時間変更はタイムワープである。

ステップＳ２１０では、平滑化信号利得が１よりも小さいかどうか、およびｌが
よりも大きいかどうかが決定される。

これらの条件のうちの１つが満たされない場合、時間スケール変更は適用されない。

これらの条件の両方が満たされる場合、最大相関およびタイムラグの対応する値ｋ^*が、ステップＳ２１１において計算される。タイムラグｋごとの相関値が（３３）から計算される。次いで、最大相関値および対応するラグｋ^*が、（３４）に従って決定される。

このポイントで、ステップＳ２１２において、最大相関値がしきい値を超えるかどうかが決定される。一実施形態では、しきい値は定数値である。別の実施形態では、しきい値は（３５）から決定される。一実施形態では、Ω＝２／３である。

最大相関値がしきい値を超えない場合、時間変更は適用されない。最大相関値がしきい値を超える場合、次のステップは「拡張をオーバーラップ加算する」である。このステップでは、波形拡張が、ｋ^*によって識別される位置から抽出され、最後のフレームにオーバーラップ加算される。

一実施形態では、連続的タイムワープの数が２に制限される。

次いで、向上された音声が出力される。

図９は、適応利得制御（ＡＧＣ）および自然音声と標示された、一実施形態による、向上されたシステムの２つのパラメータＵおよびＤの領域において５６個超のセンテンスで平均化されたフレーム重要性加重ＳＮＲを示す。ＳＮＲは、ここでは、直接経路対後発残響比として定義される。２つのパラメータＵおよびＤは、上記の式（３２）に関係して説明されている。それらは、最大信号利得増加率
および信号利得減少率Ｄに関係し、これらは、平滑化信号利得がどのくらい迅速に、歪み基準から決定された所定のフレームパワーから計算された局所的に最適な信号利得の後に続くかを反映している。

一般に、入力音声信号のパワーが、高い冗長性を有する領域において低減される。そして、後発残響による過渡的領域のマスキングが減らされる。これは、フレーム重要性加重ＳＮＲを使用して測定され得る。フレームベースのＳＮＲは、フレーム重要性によって重み付けされる（ｉｗＳＮＲ）。システムのパフォーマンスは、信号利得変更率が単位元に固定されているときに自然音声と同一であり、信号利得変更率がよりアグレッシブになるにつれて迅速に高まる。示されている図は、ＲＴ₆₀＝１：８ｓの場合である。

５人のネイティブのＵＥ英語リスナーによる主観テストが実行された。５人は、自然音声に対する大幅な（ｐ＜０．０５）理解度改善を測定するのに十分であった。信号利得変更パラメータ設定は、図９の赤い楕円の位置によって示される。式（２９）および（３２）における絶対平滑化制約が使用された。

ＡＧＣをタイムワーピング（ＴＷ）と組み合わせることは、ｉｗＳＮＲのさらなる増大を可能にする。

図１０は、上部の波形に対応する自然音声の信号波形と下部の３つの波形に対応するＡＧＣＴＷ変更された音声の信号波形とを示す。第１のＡＧＣＴＷ波形はＲＴ₆₀＝１．２ｓに対応し、第２のＡＧＣＴＷ波形はＲＴ₆₀＝１．５ｓに対応し、第３のＡＧＣＴＷ波形はＲＴ₆₀＝１．８ｓに対応する。これらの値は、中程度から重度の残響を表す。

適応利得制御およびタイムワーピング（ＡＧＣＴＷ）が、上記で図２および図８に関係して説明されたシステムを示すために使用され、変更されたフレームパワーを生成する変更と時間スケール変更の両方が入力音声に適用される。

ＡＧＣＴＷ変更された音声は、入力パワー、後発残響パワー、およびフレーム重要性の関数から計算された、所定の出力パワーに基づいて変更された。関数は、ペナルティ項に従ってパワーダイナミクスの領域からの適合された歪み基準を最小化する。残響に誘発された抑制の下では、タイムワープが情報の喪失を防ぐ。向上された知覚的影響に対する信号利得平滑化も適用される。変更の方法は、上記で図８に関係して説明されている。

使用されたパラメータ設定は次のとおりである。ｆ_x（ｘ｜ｂ）を適合させ、αとβとを決定するために使用されたトレーニングデータは、７２０個のセンテンスを備えるイギリス英語録音であった。フレーム持続時間は２５ｍｓであり、フレームオーバーラップは５０％であった。ｔ_lは５０ｍｓであり、σは０：００１であった。探索間隔Ｋ₁およびＫ₂はそれぞれ０：００３ｆ_sおよび０：０２ｆ_sであった。サンプリング周波数はｆ_s１６ｋＨｚであり、ｍはＭＦＣＣ次元１〜１２を含んでいた。ιのパルス密度は２０００ｓ^-1であった。周波数帯域の数Ｊは１０に設定され、Ωは２／３であり、ψはβ⁴であった。Ｓ、ＵおよびＤの値はそれぞれ１５、１：０５および０：９５であった。式（２９ａ）および（３２ａ）において与えられた相対的制約が使用された。

ソース画像方法により取得されたモデルＲＩＲを使用して、残響がシミュレートされた。ホールの寸法は、２０ｍ×３０ｍ×８ｍに固定された。ＲＩＲ生成に使用された話者およびリスナーのロケーションは、それぞれ｛１０ｍ，５ｍ，３ｍ｝および｛１０ｍ，２５ｍ，１．８ｍ｝であった。伝搬遅延および減衰が直接音に正規化された。事実上、直接音は、話者から出力された音に等しい。

ＡＧＣＴＷはパワーを、すべてのデータで平均化して、それぞれ３１％、３０％および２９％低下させた。

残響の下では、アグレッシブな変更は有害であり得るので、局所的に最適なパワー利得のより緩慢な追跡が、より平滑な信号を生成し、理解度を向上させる。残響時間の増加とともに、変更された波形の漸進的な伸長があり、タイムワーピングの程度に対して平滑さも達成される。

信号持続時間は、より高い後発残響パワーに対応するために、飽和状態になるまでＲＴ₆₀とともに漸進的に増加する。連続的タイムワープの数を２に制限することは、過剰周期性を低減する。ＡＧＣＴＷは、重要性推定量の因果性に起因する低いアルゴリズム遅延を有する。方法の複雑性は低く、最もきついタスクとして後発残響波形計算を伴う。

一実施形態では、式（２）からの
の希薄性を考慮することによって、リアルタイム処理が達成される。残響時間を反映するために、モデルＲＩＲは長く、そのため、畳み込みは緩慢になる。実際、ＲＩＲのより後発の残響部分のモデルにおけるパルスロケーションが知られており、そのため、これは、動作の数を減らすために使用され得る。

図８に関係して説明された信号変更枠組みは、リスニングテストにより検証された。８人のネイティブの正常聴覚を有する英語リスナーが、その目的のために募集された。マテリアルは１３個のセットを備え、１つのセットがボリューム調整に使用された。ハーバードセンテンスデータベースからの計１２０個のセンテンスが、確立されたテストプロトコルに従って各リスナーに提示され、差異として、単一の条件が各被験者によって観測された。発話パワーは、比較を容易にするために等化された。マテリアルは、１対のオーディオテクニカＡＴＨ−Ｍ５０ｘヘッドフォンを使用して、無音の部屋でダイオティック方式で提示された。図１１の結果は、ＡＧＣＴＷが自然音声を大幅に上回ることを示す。４人のリスナーは、各条件で大幅なレベルのｐ＜０．０５（ｔ−テスト）を達成するのに十分であった。ＡＧＣＴＷの理解度利得では、ＲＴ₆₀＝１：５ｓでは２１％、ＲＴ₆₀＝１：８ｓでは２３％の持続時間増加の平均コストが見られる。

図１２は、様々な音響環境における残響の概略図を示す。図は、卵形ホール、長方形ホール、および障害物のある環境の場合の、話者において生成された音声信号が移動する経路の例を示す。

十分に高い残響は、音声理解度を低下させる。理解度の悪化は、たとえば、大きい密閉された環境において直面し得る。それは、公示システムおよびテレビ会議に影響を与え得る。理解度の悪化は、聴覚障害者にとってより深刻な問題である。

残響は、音声信号の変調を低減する。結果的なスミアリングは、理解度悪化の原因と見なされる。

音声信号変更は、理解度低下の効率的で効果的な軽減のための土台を提供する。

図２の枠組みは、歪み基準を通じてコンテキスト認識をもたらす、マルチモーダル音声変更のための枠組みである。信号側、すなわちフレーム冗長性評価の態様と、環境側、すなわち後発残響パワーの態様の両方が、コンテキスト認識によって表される。マルチモーダル変更は、重度の残響状況において高い理解度を維持する。

変更は、低い処理遅延および低複雑度によって特徴付けられる。一実施形態では、最も計算上コストのかかる動作は、最適なラグｋ^*の探索、フレーム冗長性推定量のＭＦＣＣ計算、および式（２）の
による畳み込みである。

変更は、残響環境における理解度を大幅に改善することができる。

いくつかの実施形態では、システムは、残響時間ＲＴ₆₀および局所的音声信号冗長性への適応の形式で、コンテキスト認識を実施する。システムは、音声変更の深度を決定する際に聴覚領域歪み基準を使用する結果として、変更最適性を可能にする。システムは、処理副産物（processing artefact）の低減を実現する、異なる信号次元に沿った同時的で一貫的な変更を可能にする。

いくつかの実施形態では、システムは、方法分析を容易にする一般的な理論的枠組みに基づく。

いくつかの実施形態では、システムは、鉄道の駅、空港、講堂、トンネルおよび屋根付きスタジアムのような密閉された空間における公示に使用され得る。代替的に、システムは、テレビ会議または防災システムに使用され得る。

上記のように、図２は、音声変更を通じて残響環境における音声理解度を改善するための一般的枠組みを示す。フレーム固有パワーの同時変更および局所的時間スケールは、残響下で、低レベルの副産物およびより高い理解度を伴って、変更された音声信号を提供する。枠組みは、マルチモーダル変更とコンテキスト認識を組み合わせる統一的で一般的な枠組みを提供する。これらは、広い範囲の状況における良好なパフォーマンスをサポートする。音声セグメントの情報内容または重要性が測定され、この情報は、変更を最適化するときに使用される。

残響環境における音声理解度は、後発残響によって引き起こされたオーバーラップマスキングに起因して低下する。付加雑音と同様に、より強い残響は、より高い悪化を誘発する。残響に関しては、所与の時間における音声変更が、後で残響に影響を及ぼす。問題の詳細を考慮して、パワーダイナミクスの領域からの適合された歪み基準が、最適な出力パワーを決定するために最小化される。閉形式解は、後発残響パワーに依存し、音声信号の冗長性の点でパラメータ化され、コンテキスト認識変更を可能にする。

いくつかの実施形態では、理解の手がかりの起こり得る喪失を軽減するために、タイムワープによって、過剰な残響に起因するパワー抑制が支援される。マルチモーダル変更は、拡張された動作範囲と、処理歪みの低減とをもたらす。本方法により、中程度から重度の残響状況における自然音声に対する大幅な改善が生じる。

いくつかの実施形態では、オーバーラップフレームが、入力音声信号から抽出され、それらの重要性に従って標示される。後発残響のモデルは、同時の後発残響パワーを予測する。最適な全帯域出力パワーが、入力パワー、後発残響パワーおよびフレーム重要性から計算される。瞬間パワーの代わりにフレームベースの推定値が使用される。出力パワーは、歪みを防ぐために平滑化される。変更された信号フレームは合成され、バッファに追加される。パワー低減の場合、後発残響パワーを条件として、時間がワープされる。

いくつかの実施形態では、残響環境における音声理解度の向上は、スペクトル信号特性と時間信号特性とを一緒に変更することによって達成される。変更の程度を外部（環境の音響特性）要因および内部（局所的信号冗長性）要因に適応させることは、スケーラビリティをもたらし、低レベルの処理副産物を伴う大幅な理解度上昇につながる。

上述の音声理解度向上システムは、残響環境における大幅な音声理解度改善を達成する。音声変更は、歪み基準に基づいて実行され、音響環境への優れた適応を可能にする。音声理解度向上システムは、優れた一般化能力およびパフォーマンスを有する。動作範囲は、かなりの残響がある環境に拡張される。いくつかの実施形態では、音声理解度向上システムは、同時的で一貫的な利得制御およびタイムワープを利用する。いくつかの実施形態では、音声理解度向上システムは、局所的に最適な利得を平滑化するパラメトリック知覚誘導型手法（parametric perceptually-motivated approach）を提供する。

いくつかの実施形態では、音声理解度向上システムは、処理チェーンの一部においてマルチバンド処理を使用する。

いくつかの実施形態では、セグメントの情報内容の概念は、フレーム重要性によって概算される。確定的設定（deterministic setting）にとどまって、採用されるパラメータ空間は、高分解能により情報内容を一般化することが可能である。

いくつかの実施形態では、後発残響が雑音としてモデル化され、歪み基準が最適化される。残響を対象とした歪み基準が使用され得る。

いくつかの実施形態では、タイムワーピングが信号抑制中に発生する。タイムワーピングの程度は、局所的音声特性と音響環境の両方に適応する。

後発残響は、それの拡散的性質に起因して、統計的にモデル化され得る。特定の瞬間に、後発残響は、伝搬時間の差異のために信号と無相関な、付加雑音として扱われ得る。信号をブースティングすることは、より多くの残響「雑音」を作る一方、信号を減速させることは、オーバーラップマスキングを低減するが、情報転送速度も低下させる。いくつかの実施形態では、パワー抑制中の適応利得制御およびタイムワーピングの組合せが提供される。これは、たとえば、２秒未満の残響時間を有する環境の場合に特に効果的であり得る。

いくつかの実施形態では、音声理解度向上システムは、環境に適応し、マルチモーダル（すなわち、タイムワープおよび適応利得制御における）変更を実現する。これは、動作範囲を拡張する。高分解能フレーム重要性の使用は、より効率的な信号パワーの使用につながり得る。さらなる同調および処理制約を可能にするために、局所的に最適な利得のパラメトリック平滑化が含まれ得る。

いくつかの実施形態では、音声理解度向上システムは、低い遅延および複雑度を実現し、広い範囲の適用場面に対処することを可能にする。さらに、枠組みのモジュール性は、個々の構成要素の漸進的高度化を容易にする。

いくつかの実施形態では、短い処理遅延を除いて、システムは、因果的であり、したがって、オンラインの適用場面に適している。

いくつかの実施形態が説明されたが、これらの実施形態は、単に例として提示されており、本発明の範囲を限定するものではない。実際、本明細書で説明された新規の方法および装置は、様々な他の形態において具現化されてよく、さらに、本発明の趣旨から逸脱することなく、本明細書で説明された方法および装置の形態における様々な省略、置換および変更が行われてよい。添付の特許請求の範囲およびそれらの同等物は、本発明の範囲および趣旨に入るような形態の変更をカバーするものである。

Claims

音声を向上させるための音声理解度向上システムであって、
向上されるべき音声を受信するための音声入力部と、
前記向上された音声を出力する向上済み音声出力部と、
前記音声入力部から受信された音声を、前記向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
を備え、前記プロセッサは、
ｉ）前記音声入力部から受信された前記音声のフレームを抽出することと、
ｉｉ）フレーム重要性の測定値を計算することと、
ｉｉｉ）残響するときの前記音声のフレームパワーに対する後発残響に起因する寄与を推定することと、
ｉｖ）所定のフレームパワーを計算することと、前記所定のフレームパワーが、前記抽出されたフレームのパワー、前記フレーム重要性の前記測定値、および後発残響に起因する前記寄与の関数であり、前記関数が、後発残響に起因する前記寄与が臨界値
を超えて増大することに伴って、前記抽出されたフレームの前記パワーに対する前記所定のフレームパワーの比を低下させるように構成される、
ｖ）前記音声入力部から受信された前記音声の前記フレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、前記変更が、前記所定のフレームパワーを使用して計算される、
を行うように構成される、音声理解度向上システム。
音声を向上させるための音声理解度向上システムであって、
向上されるべき音声を受信するための音声入力部と、
前記向上された音声を出力する向上済み音声出力部と、
前記音声入力部から受信された音声を、前記向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
を備え、前記プロセッサは、
ｉ）前記音声入力部から受信された前記音声のフレームを抽出することと、
ｉｉ）フレーム重要性の測定値を計算することと、
ｉｉｉ）残響するときの前記音声のフレームパワーに対する後発残響に起因する寄与ｌを推定することと、
ｉｖ）ペナルティ項Ｔに従って歪み測定値を最小化する所定のフレームパワーを計算することと、ここにおいて、Ｔが、（ａ）後発残響に起因する前記寄与ｌ、（ｂ）前記抽出されたフレームのパワーに対する前記所定のフレームパワーの比、および（ｃ）乗数λの関数であり、ここにおいて、前記関数が、臨界値
を超えると前記歪み測定値よりも速くｌとともに増大するように構成されたｌの非線形関数である、
ｖ）前記音声入力部から受信された前記音声の前記フレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、前記変更が、前記所定のフレームパワーを使用して計算される、
を行うように構成される、音声理解度向上システム。
であり、ここで、ｗは１よりも大きく、ｙは前記所定のフレームパワーであり、ｘは前記抽出されたフレームの前記フレームパワーである、請求項２に記載のシステム。
ｗ＝２である、請求項３に記載のシステム。
前記所定のフレームパワーは、λが前記フレーム重要性の前記測定値の関数であることに従って計算される、請求項２から４のいずれかに記載のシステム。
前記フレーム重要性の前記測定値は、前記フレームのメルケプストラムと以前のフレームのメルケプストラムとの相違性の測定値である、請求項１または５に記載のシステム。
後発残響に起因する前記寄与は、衰退関数で振幅変調されたパルス列として環境のインパルス応答をモデル化することによって推定される、請求項１から６のいずれかに記載のシステム。
前記所定のフレームパワーは、
から計算され、ここで、ｙは前記所定のフレームパワーであり、ｘは前記抽出されたフレームの前記フレームパワーであり、ｌは後発残響に起因する前記寄与であり、λは乗数であり、ｗは１よりも大きく、ｃ₁およびｃ₂は第１および第２の境界条件から決定され、ｂは定数である、請求項１から７のいずれかに記載のシステム。
前記第１の境界条件は、
であり、ここで、αはサンプル音声データから取得された前記フレームパワーの最小値であり、前記第２の境界条件は、
であり、ここで、σ∈（０，１）およびψ≫βであり、ここで、βは、サンプル音声データから取得された前記フレームパワーの最大値である、請求項８に記載のシステム。
λは
から計算され、ここにおいて、
は、
および
の場合のｘの関数としての前記所定のフレームパワーおよび前記関数ｙ＝ｘの交差点がβになるように、またこれがｌのすべての値の場合の前記交差点の最大値になるように決定された定数であり、λ₁およびλ₂は、前記フレーム重要性の関数から計算される、請求項９に記載のシステム。
λ₁およびλ₂は、ｘの関数としての前記所定のフレームパワーおよび前記関数ｙ＝ｘの前記交差点が前記フレーム重要性に依存するように計算される、請求項１０に記載のシステム。
ｉｉｉ）は、
（ａ）２つ以上の周波数帯域の各々における前記抽出されたフレームの前記フレームパワーの割合を計算することと、
（ｂ）前記抽出されたフレームパワーの事前決定された割合に対応する最高パワー帯域に対応する前記抽出されたフレームの前記周波数帯域を決定することと、
（ｃ）後発残響信号の概算値を生成することと、
（ｄ）（ｂ）において決定された前記周波数帯域の各々における前記後発残響信号のパワーの割合を計算することと、
を備え、残響するときの前記音声の前記フレームパワーに対する後発残響に起因する前記寄与が、（ｄ）において計算された前記周波数帯域の各々における前記後発残響信号のパワーの合計として推定される、請求項１から１１のいずれかに記載のシステム。
前記変更の変化率は、
になるように制限され、ここで、ｉはフレームインデックスであり、
は、前記抽出されたフレームの前記パワーに対する前記変更されたフレームパワーの比の平方根であり、ｇ_iは、前記抽出されたフレームの前記パワーに対する前記所定のフレームパワーの比の平方根であり、φ、ＵおよびＤは定数である、請求項１から１２のいずれかに記載のシステム。
前記音声入力部から受信された前記音声の前記フレームに適用される前記変更は、
から計算され、ここで、
であり、ここで、ｓは定数であり、φは定数であり、ξ_iは前記フレーム重要性である、請求項１３に記載のシステム。
フレームに関するφの値は、前記フレームの何らかの特性に基づいて、２つ以上の値から選択される、請求項１４に記載のシステム。
ステップｉ）は、
前記音声入力部から受信された前記音声のオーバーラップフレームを抽出すること
を備え、前記プロセッサは、
ｖｉ）前記抽出されたフレームの前記パワーに対する前記変更されたフレームパワーの比が１よりも小さく、ｌが
よりも大きい場合に、局所的時間スケール変更を適用するようにさらに構成され、ここにおいて、
は、後発残響に起因する前記寄与の前記臨界値である、請求項１から１５のいずれかに記載のシステム。
ステップｖｉ）は、
新しい変更された音声信号を出力するために、変更された以前のフレームを備える変更された音声信号に、ステップｖ）から出力された前記変更されたフレームをオーバーラップ加算することを備え、時間スケール変更を適用することは、
前記新しい変更された音声信号の最後のセグメントと前記新しい変更された音声信号の複数のターゲットセグメントの各々との間の相関を計算することと、ここにおいて、前記ターゲットセグメントが、前記新しい変更された音声信号の一連の先行セグメントに対応する、
最も高い相関値に対応するターゲットセグメントを決定することと、
前記ターゲットセグメントの前記相関値がしきい値よりも大きい場合に、
前記新しい変更された音声信号の前記ターゲットセグメントから終わりまでの前記新しい変更された音声信号のセクションを複製することと、
この複製されたセクションを、前記新しい変更された音声信号の最後のセグメントにオーバーラップ加算することと
を備える、請求項１６に記載のシステム。
前記しきい値は、前記ターゲットセグメントが前記最後のセグメントである場合の前記相関値とΩとの積であり、ここで、Ω∈（０，１）である、請求項１７に記載のシステム。
音声を向上させる方法であって、
向上されるべき音声を受信するステップと、
前記受信された音声のフレームを抽出するステップと、
フレーム重要性の測定値を計算するステップと、
残響するときの前記音声のフレームパワーに対する後発残響に起因する寄与を推定するステップと、
所定のフレームパワーを計算するステップと、前記所定のフレームパワーが、前記抽出されたフレームのパワー、前記フレーム重要性の前記測定値、および後発残響に起因する前記寄与の関数であり、前記関数が、後発残響への前記寄与が臨界値
を超えて増大することに伴って、前記抽出されたフレームの前記パワーに対する前記所定のフレームパワーの比を低下させるように構成される、
音声入力部から受信された前記音声の前記フレームに、変更されたフレームパワーを生成する変更を適用するステップと、ここにおいて、前記変更が、前記所定のフレームパワーを使用して計算される、
を備える方法。
請求項１９に記載の方法をコンピュータに実行させるように構成されたコンピュータ可読コードを備えるキャリア媒体。