JP6325138B2 - 音声処理システムおよび音声処理方法 - Google Patents

音声処理システムおよび音声処理方法 Download PDF

Info

Publication number
JP6325138B2
JP6325138B2 JP2017029724A JP2017029724A JP6325138B2 JP 6325138 B2 JP6325138 B2 JP 6325138B2 JP 2017029724 A JP2017029724 A JP 2017029724A JP 2017029724 A JP2017029724 A JP 2017029724A JP 6325138 B2 JP6325138 B2 JP 6325138B2
Authority
JP
Japan
Prior art keywords
frame
power
speech
reverberation
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017029724A
Other languages
English (en)
Other versions
JP2017187746A (ja
Inventor
ペトコフ ペトコ
ペトコフ ペトコ
スチリアノ イオアニス
スチリアノ イオアニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2017187746A publication Critical patent/JP2017187746A/ja
Application granted granted Critical
Publication of JP6325138B2 publication Critical patent/JP6325138B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本明細書で説明される実施形態は、一般に、音声処理システムおよび音声処理方法に関する。
残響は、過去に生成された音響信号が環境内の物体に反射し、後の時点に生成された音響信号と同時に観測されるプロセスである。鉄道の駅およびスタジアム、大工場、コンサートホールおよび講堂のような残響環境では、音声を理解する必要があることが多い。
そのような環境において音声信号がより理解できるように音声信号を向上させることが可能である。
ここで、非限定的な実施形態によるシステムおよび方法が、添付の図を参照しながら説明される。
一実施形態による音声理解度向上システム1の概略図。 環境による音声を向上させる方法を示す流れ図。 テスト発話に関するアクティブなフレーム重要性推定を示す図。 後発残響信号をモデル化するためのベルベット雑音モデルの使用に関係する3つのプロットを示す図。 および様々な後発残響レベルの場合の所定のパワー利得のプロットを示す図。
λ=λvおよびvの様々な値の場合の所定のパワー利得のプロットを示す図。 環境による音声を向上させる方法の一部である時間スケール変更プロセスの概略図。 環境による音声を向上させる方法を示す流れ図。 2つのパラメータUおよびDの領域におけるフレーム重要性加重SNRを示す図。 上部の波形に対応する自然音声の信号波形と下部の3つの波形に対応する向上された音声の信号波形とを示す図。 自然音声および向上された音声の認識率結果を示す図。 様々な音響環境における残響の概略図。
一実施形態によれば、音声を向上させるための音声理解度向上システムが提供され、本システムは、
向上されるべき音声を受信するための音声入力部と、
向上された音声を出力する向上済み音声出力部と、
音声入力部から受信された音声を、向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
を備え、プロセッサは、
i)音声入力部から受信された音声のフレームを抽出することと、
ii)フレーム重要性の測定値を計算することと、
iii)残響するときの音声のフレームパワーに対する後発残響に起因する寄与を推定することと、
iv)所定のフレームパワーを計算することと、所定のフレームパワーが、抽出されたフレームのパワー、フレーム重要性の測定値、および後発残響に起因する寄与の関数であり、関数が、後発残響に起因する寄与が臨界値
を超えて増大することに伴って、抽出されたフレームのパワーに対する所定のフレームパワーの比を低下させるように構成される、
v)音声入力部から受信された音声のフレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、変更が、所定のフレームパワーを使用して計算される、
を行うように構成される。
別の実施形態によれば、音声を向上させるための音声理解度向上システムが提供され、本システムは、
向上されるべき音声を受信するための音声入力部と、
向上された音声を出力する向上済み音声出力部と、
音声入力部から受信された音声を、向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
を備え、プロセッサは、
i)音声入力部から受信された音声のフレームを抽出することと、
ii)フレーム重要性の測定値を計算することと、
iii)残響するときの音声のフレームパワーに対する後発残響に起因する寄与を推定することと、
iv)ペナルティ項Tに従って歪み測定値を最小化する所定のフレームパワーを計算することと、ここにおいて、Tが、(a)後発残響に起因する寄与、(b)抽出されたフレームのパワーに対する所定のフレームパワーの比、および(c)乗数λの関数であり、ここにおいて、関数が、臨界値
を超えると歪み測定値よりも速くとともに増大するように構成されたの非線形関数である、
v)音声入力部から受信された音声のフレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、変更が、所定のフレームパワーを使用して計算される、
を行うように構成される。
一実施形態では、変更されたフレームパワーを音声のフレームが有するように、信号スペクトルを変更することによって、音声入力部から受信された音声のフレームに変更が適用される。
一実施形態では、入力された音声の各フレームに関する所定のフレームパワーは、入力フレームパワー、フレーム重要性および残響のレベルから計算される。
一実施形態では、ペナルティ項は、
であり、ここで、wは1よりも大きく、は所定のフレームパワーであり、は抽出されたフレームのフレームパワーである。一実施形態では、w=2である。
一実施形態では、所定のフレームパワーは、λがの関数であることに従って計算される。
一実施形態では、所定のフレームパワーは、λがフレーム重要性の測定値の関数であることに従って計算される。項λは、項λがフレーム重要性に対する依存性を有するようにパラメータ化される。
フレーム重要性は、現在の抽出されたフレームと1つまたは複数の以前の抽出されたフレームとの間の類似性の測定値である。一実施形態では、フレーム重要性の測定値は、抽出されたフレームのメルケプストラムと以前の抽出されたフレームのメルケプストラムとの相違性の測定値である。
一実施形態では、後発残響に起因する寄与は、衰退関数で振幅変調されたパルス列として環境のインパルス応答をモデル化することによって推定される。時間tl以降のこのインパルス応答のセクションおよび以前変更された音声信号のセクションの畳み込みが、モデル後発残響信号フレームを与える。残響するときの音声のフレームパワーに対する後発残響に起因する寄与は、モデル後発残響信号フレームのパワーである。
一実施形態では、所定のフレームパワーは、
から計算され、ここで、は所定のフレームパワーであり、は抽出されたフレームのフレームパワーであり、は後発残響に起因する寄与であり、wは1よりも大きく、c1およびc2は第1および第2の境界条件から決定され、bは定数である。
一実施形態では、第1の境界条件は、
であり、ここで、αはサンプル音声データから取得されたフレームパワーの最小値であり、第2の境界条件は、
であり、ここで、σ∈(0,1)およびψ≫βであり、ここで、βは、サンプル音声データから取得されたフレームパワーの最大値である。
一実施形態では、項λがフレーム重要性に対する依存性を有するように、またの関数としての所定のフレームパワーおよび関数の交差点がβによって限定されるように、項λはパラメータ化され、ここで、βは、サンプル音声データから取得されたフレームパワーの最大値であり、
における交差点の値である。さらに、臨界値を下回るの値に関する交差点の値がの値に依存せず、フレーム重要性に依存し、臨界値を上回るの値に関する交差点の値がの値に依存せず、フレーム重要性に依存するように、λはパラメータ化される。
一実施形態では、λは
から計算され、ここにおいて、
は、
および
の場合のの関数としての所定のフレームパワーおよび関数の交差点がβになるように、またこれがのすべての値の場合の交差点の最大値になるように決定された定数であり、λ1およびλ2は、フレーム重要性の関数として計算される。
のすべての値の場合のの関数としての所定のフレームパワーおよび関数の交差点が、フレーム重要性の関数として計算された値になるように、λ1およびλ2が計算される。
一実施形態では、乗数λは
から計算され、ここで、
は、所定のフレームパワー
の上限に対応し、ここにおいて、
が以下によって与えられる。
は、所定のフレームパワー
に対応するλの値であり、ここにおいて、

から計算され、ここで、
である。
は、所定のフレームパワー
に対応するλの値であり、ここにおいて、

から計算され、ここで、
であり、ここで、sは定数であり、ξはフレーム重要性であり、
の値は
から計算される。
一実施形態では、ステップiii)は、
(a)2つ以上の周波数帯域の各々における抽出されたフレームパワーの割合を計算することと、
(b)抽出されたフレームパワーの事前決定された割合に対応する最高パワー帯域に対応する抽出されたフレームの周波数帯域を決定することと、
(c)後発残響信号の概算値を生成することと、
(d)(b)において決定された周波数帯域の各々における後発残響信号のパワーの割合を計算することと、
を備え、残響するときの音声のフレームパワーに対する後発残響に起因する寄与が、(d)において計算された周波数帯域の各々における後発残響信号のパワーの合計として推定される。
フレームに適用される信号利得は、所定の信号利得giであってよく、ここで、
である。代替的に、所定の信号利得は、適用された信号利得
が平滑化利得となるように、所定の信号利得が適用される前に平滑化され得る。
一実施形態では、変更の変化率は、
になるように制限され、ここで、iはフレームインデックスであり、
は平滑化信号利得、すなわち、抽出されたフレームのパワーに対する変更されたフレームパワーの比の平方根であり、giは、抽出されたフレームのパワーに対する所定のフレームパワーの比の平方根であり、φ、UおよびDは定数である。
一実施形態では、音声入力部から受信された音声のフレームに適用される変更は、
から計算され、ここで、
であり、ここで、sは定数であり、φは定数であり、ξはフレーム重要性である。
フレームに関するφの値は、フレームの何らかの特性に基づいて、2つ以上の値から選択され得る。sの値は、uおよびdの計算では異なり得る。
ステップi)は、
音声入力部から受信された音声のオーバーラップフレームを抽出すること
を備え、プロセッサは、
vi)抽出されたフレームのパワーに対する変更されたフレームパワーの比が1よりも小さく、
よりも大きい場合に、局所的時間スケール変更を適用するようにさらに構成され、ここにおいて、
が、後発残響に起因する寄与の臨界値である。
ステップvi)は、
新しい変更された音声信号を出力するために、変更された以前のフレームを備える変更された音声信号に、ステップv)から出力された変更されたフレームをオーバーラップ加算することを備えることができ、ここにおいて、時間スケール変更を適用することは、
新しい変更された音声信号の最後のセグメントと新しい変更された音声信号の複数のターゲットセグメントの各々との間の相関を計算することと、ここにおいて、ターゲットセグメントが、新しい変更された音声信号の一連の先行セグメントに対応する、
最も高い相関値に対応するターゲットセグメントを決定することと、
ターゲットセグメントの相関値がしきい値よりも大きい場合に、
新しい変更された音声信号のターゲットセグメントから終わりまでの新しい変更された音声信号のセクションを複製することと、
この複製されたセクションを、新しい変更された音声信号の最後のセグメントにオーバーラップ加算することと
を備える。
一実施形態では、しきい値は、ターゲットセグメントが最後のセグメントである場合の相関値とΩとの積であり、ここで、Ω∈(0,1)である。
別の実施形態によれば、音声を向上させる方法が提供され、本方法は、
向上されるべき音声を受信するステップと、
受信された音声のフレームを抽出するステップと、
フレーム重要性の測定値を計算するステップと、
残響するときの音声のフレームパワーに対する後発残響に起因する寄与を推定するステップと、
所定のフレームパワーを計算するステップと、所定のフレームパワーが、抽出されたフレームのパワー、フレーム重要性の測定値、および後発残響に起因する寄与の関数であり、関数が、後発残響への寄与が臨界値
を超えて増大することに伴って、抽出されたフレームのパワーに対する所定のフレームパワーの比を低下させるように構成される、
音声入力部から受信された音声のフレームに、変更されたフレームパワーを生成する変更を適用するステップと、ここにおいて、変更が、所定のフレームパワーを使用して計算される、
を備える。
別の実施形態によれば、音声を向上させる方法をコンピュータに実行させるように構成されたコンピュータ可読コードを備えるキャリア媒体が提供される。
図1は、一実施形態による音声理解度向上システム1の概略図である。
システム1は、入力音声を受け取り、音声の理解度を高めるために音声を向上させるプログラム5を備えるプロセッサ3を備える。ストレージ7は、プログラム5によって使用されるデータを記憶する。記憶されたデータの詳細については、後で説明する。
システム1は、入力モジュール11と出力モジュール13とをさらに備える。入力モジュール11は、向上されるべき音声に関係するデータのための入力部15に接続される。入力部15は、ユーザがデータを直接入力することを可能にするインターフェースであり得る。代替的に、入力部は、外部記憶媒体またはネットワークからデータ受信するための受信機であり得る。入力部15は、たとえば、マイクロフォンからデータを受信し得る。
出力モジュール13に接続されるのは、オーディオ出力部17である。オーディオ出力部17は、たとえば、スピーカーであり得る。
使用中、システム1は、データ入力部15を通じてデータを受信する。プログラム5は、プロセッサ3上で実行されており、図2〜図12を参照しながら説明される方法で、入力された音声を向上させる。
システムは、残響の下で音声の理解度を高めるように構成される。システムは、普通の音声(plain speech)を、残響状況においてより高い理解度を有するように変更する。
残響がある場合、音響信号の複数の遅延した減衰したコピーが同時に観測される。この現象は、密閉された環境においてより明白であり、そのような環境では、伝搬減衰および反射面における吸収が遅延した信号コピーを聞こえなくするまで、内包された音響エネルギーが聴覚に影響を与える。付加雑音と同様に、高い残響レベルが理解度を悪化させる。システムは、理解度に対する残響の影響を軽減する信号変更を適用するように構成される。
一実施形態では、システムは、後発残響に起因する残響音声に対する寄与の推定値に基づいて、変更されたフレームパワーを生成する変更を適用するように構成される。
低い重要性を有する信号部分はしばしば、高いエネルギーを有する。これらの部分のパワーを低減することは、より高い重要性および突出(prominence)を有する隣接音の検出可能性を改善する。一実施形態では、システムは、変更を適用するときにフレーム重要性を考慮する。
システムは、時間スケール変更を適用するようにさらに構成され得る。
これらの態様を考慮する音声変更枠組みは、図2に関して説明される。この枠組みの一実装形態は、図8に関して説明される。
枠組みでは、入力音声信号は、フレーム重要性評価が実行されるオーバーラップフレームに分割される。言い換えれば、フレームの各々は、それの情報内容の点で特徴付けられる。並行して、後発残響の統計モデルが、音声フレームの分解能による予想残響パワー、すなわち、後発残響からの残響音声のフレームパワーに対する寄与の推定値を提供する。フレーム固有のパワー利得調整を決定するために、聴覚歪み基準が最適化される。基準は、聴覚歪み測定値および出力パワーに対するペナルティから構成される。ペナルティ項Tは、後発残響パワー、パワー利得、および乗数λの関数であり、ここにおいて、関数は、後発残響パワーの臨界値を超えると歪み測定値よりも速くとともに増大するように構成されたの非線形関数である。λは、フレーム重要性の関数にされる。予想後発残響パワーの推定値は、無相関な付加雑音として歪み測定値に含まれる。基準は、所定のフレームパワーを導出するために使用され、所定のフレームパワーは、所与のフレームにとって最適な変更を決定するために使用される。したがって、フレーム重要性、残響パワーおよび入力パワーは合わせて、所与のフレームにとって最適な出力パワーを計算するために使用される。
後発残響パワーが低いとき、歪みが支配項であり、抽出されたフレームのパワーに対する所定のフレームパワーの比である所定のパワー利得は、フレーム重要性に応じて、後発残響パワーとともに増大する。後発残響パワーが臨界値を超えて増大すると、ペナルティ項が支配的になり始め、やはりフレーム重要性に応じて、後発残響パワーの増大とともにパワー利得が減少し始める。
一実施形態では、所定のフレームパワーが入力フレームパワーから低減され、後発残響パワーが臨界値よりも大きい場合、タイムワーピングが開始される。タイムワープは、1ピッチ周期程度であり得、平滑さの制約に従うことがある。
図2は、音声入力部15から受信された音声が、向上済み音声出力部17によって出力されるべき向上された音声に変換される、一実施形態によるプログラム5によって提供される処理ステップの概略図を示す。
ブロックS101、S107およびS109は、信号処理バックボーンの一部である。ステップS102およびS103は、環境の音響特性と局所的音声統計の両方を含む、コンテキスト認識を組み込む。
一実施形態では、入力音声信号はオーバーラップフレームに分割され、これらの各々は情報内容またはフレーム重要性の点で特徴付けられる。並行して、後発残響の統計モデルが、音声フレームの分解能による予想残響パワーの推定値を提供する。歪み基準を最適化することは、所定のフレームパワーと呼ばれる、局所的に最適な出力パワーを決定する。局所的には、後発残響のパワーは、無相関な付加雑音としてモデル化される。抽出されたフレームのパワーに対する変更されたフレームパワーの比が1よりも小さく、後発残響パワーが臨界値よりも大きい場合、平滑化の制約に従ってタイムワーピングまたは減速が開始される。
ステップS101は、「アクティブな音声フレームを抽出する」である。このステップは、音声入力部15から受信された音声信号xからオーバーラップフレームを抽出することを備える。フレームは、たとえば、ハンウィンドウ関数を使用してウィンドウ処理され得る。
フレームxiがステップS101から出力される。
ステップS102は、「フレーム重要性を評価する」である。このステップでは、フレーム重要性の測定値が決定される。
フレーム重要性は、現在のフレームと1つまたは複数の以前のフレームとの相違性を特徴付ける。一実施形態では、フレーム重要性は、以前の隣接フレームとの相違性を特徴付ける。低い相違性は、より少ない新しい情報、したがってより低い重要性を示す。より低いフレーム重要性は、より高い冗長性に対応する。以前のフレームとの低い相違性、したがって高い冗長性を有するフレームは、低いフレーム重要性を有する。フレーム重要性は、フレームの新規性を反映しており、最大ブースティングパワーを制限するために使用される。
各フレームxiに関するこのステップの出力は、対応するフレーム重要性値ξiである。
フレーム重要性は、たとえば、聴覚領域における2つの連続フレーム間の変化を査定することによって、現在のフレームと1つまたは複数の以前のフレームとの間の聴覚領域相違性を測定することに基づく。一実施形態では、フレーム重要性は、フレームと以前のフレームとのメルケプストラムの相違性の測定値である。隣接フレームにおけるメル周波数ケプストラム係数(MFCC)の正規化距離によって、フレーム重要性の推定値が与えられる。一実施形態では、フレーム重要性は
によって与えられ、ここで、miは、信号フレームiから導出されたメル周波数ケプストラム係数(MFCC)のセット、すなわち、フレームiにおけるMFCCベクトルを表す。
フレーム重要性は因果的推定量であり、言い換えれば、現在のフレームのフレーム重要性を決定するために将来のフレームが受信される必要はない。
式(1)において与えられる上記の関係では、ξi∈(0,1)である。これは、フレーム重要性パラメータが情報内容を概算することを意味し、ここで、ξi→0が低い情報内容に対応し、ξi→1が高い情報内容に対応する。
図3は、テスト発話に関するアクティブなフレーム重要性推定を示す。テスト発話は、UK英語の録音からのランダムに選択された短い発話である。水平軸上の秒単位の時間に対して、フレーム重要性は垂直軸上にある。入力音声信号も示されている。より高い冗長性を有する領域は、遷移を含む領域よりも低いフレーム重要性を有する。
この実施形態では、セグメントまたはフレームの情報内容は、単純推定量により概算される。計算されたフレーム重要性は、連続スケールによる情報内容を表す概算値である。明示的な確率モデルリングは使用されていないが、採用されたパラメータ空間は、情報内容を高分解能により、すなわち、バイナリ分類ではなく連続測定により概算することが可能である。
確率モデル化とエントロピーの概念とを使用した、所与の時間における音声信号の情報の量の厳密な推定が、フレーム重要性の測定値を決定するために代替的に使用され得る。
ステップS103は、「後発残響をモデル化する」である。
残響は、特定の環境のインパルス応答と信号との間の畳み込みとしてモデル化され得る。インパルス応答は、3つの成分、すなわち、直接経路、先発反射および後発残響に分かれる。したがって、残響は2つの成分、すなわち、先発反射と後発残響とを備える。
先発反射は、高いパワーを有し、空間のジオメトリに依存し、個々に区別可能である。先発反射は、直接音の後、短い時間ウィンドウ内に到着し、室内インパルス応答(RIR)を調べるときに容易に区別可能である。先発反射は、ホールのジオメトリと、話者およびリスナーの位置とに依存する。先発反射は、直接音の後、短い間隔内、たとえば、50ms内に到着する。先発反射は、理解度にとってマイナスであるとは考えられず、実際には理解度を改善することができる。
後発残響は、多数の反射およびより長い音響経路に起因して、性質上拡散している。それは、近接音の間のマスキングに起因する理解度低下の主な要因である。これは、鉄道の駅およびスタジアム、大工場、コンサートホールおよび講堂のような場所での会話にとって重大であり得る。個々の反射を識別することは、それらの数が増加する一方でそれらの振幅(magnitude)が縮小するので、難しい。後発残響は、音声信号における異なる音の間のマスキングの主な原因であるので、理解度にとってよりマイナスであると考えられる。後発残響は、先発反射の後に到着する反射の寄与である。後発残響は、先発反射よりも多くの回数にわたって反射した、遅延した減衰した複製から構成される。したがって、後発残響は拡散しており、縮小した振幅を有する多数の反射を備える。
ステップS103における後発残響モデルは、所与の時点に理解度に悪影響があると考えられる、すなわち、所与の時点に理解度を低下させる残響パワーを査定するために使用される。モデルは、後発残響に起因する残響音声フレームに対する寄与の概算値を出力する。
RIRにおける先発反射と後発残響との間の境界tlは、別個の反射が拡散混合(diffuse mixture)に変わるポイントである。tlの値は、環境の特性を示している。一実施形態では、tlは、直接経路に従った音、すなわち、直接音の到着後50〜100msの範囲にある。直接音の到着後tl秒で、個々の反射は区別不可能になる。したがって、これは、先発反射と後発残響との間の境界である。
ステップS103において、後発残響がモデル化される、すなわち、後発残響に起因する残響音声フレームに対する寄与が概算される。一実施形態では、後発残響は、特定のホールの音響を綿密に複製するために正確にモデル化され得る。代替実施形態では、目的が後発残響のパワー推定であるので、後発残響に起因するマスキングパワーを概算するより単純なモデルが使用され得る。後発残響パワーを予測するために統計モデルが使用され得る。
一実施形態では、インパルス応答の後発残響部分は、指数関数的に衰退するエンベロープを有するパルス列としてモデル化される。一実施形態では、後発残響に起因する寄与をモデル化するためにベルベット雑音モデルが使用され得る。
図4は、後発残響信号をモデル化するためのベルベット雑音モデルの使用に関係する3つのプロットを示す。
第1のプロットは、20m×30m×8mに固定された寸法を有するホールである、例示的な音響環境を示し、寸法がそれぞれ、幅、長さおよび高さである。長さは垂直軸上に示されており、幅は水平軸上に示されている。話者およびリスナーのロケーションは、それぞれ{10m,5m,3m}および{10m,25m,1.8m}である。これらの値は、第2のプロットにおけるRIRの説明のために使用されるモデルRIRを生成するために使用される。後発残響パワーモデル化の場合、話者およびリスナーの特定のロケーションは使用されない。
第2のプロットは、伝搬遅延および減衰が直接音に正規化される室内インパルス応答を示す。時間が秒単位で水平軸上に示されている。ここに示される正規化室内インパルス応答は、第1のプロットに示される、意図された音響環境の知識に基づくモデルRIRである。モデルは、第1のプロットに示されるホールの寸法およびターゲットRT60を前提として、画像ソース方法で生成される。
室内インパルス応答が測定され得、先発反射と後発残響との間の境界tlの値および残響時間RT60が、この測定から取得され得る。残響時間RT60は、後発残響パワーが直接音のパワーを60dB下回るのに要する時間であり、環境の特性も示している。
第3のプロットは、第2のプロットと同じ正規化室内インパルス応答モデル
ならびに後述される後発残響に対応するRIRの部分を示す。後発残響モデルは、ベルベット雑音モデルを使用して生成される。
一実施形態では、後発残響のモデルは、後発残響のパワーが時間とともに指数関数的に衰退するという仮定に基づく。この特性を使用して、信号フレームにおける後発残響のパワーを推定するためのモデルが実施される。適切な密度を有するパルス列が、ベルベット雑音モデルの枠組みを使用して生成され、衰退関数で振幅変調される。
パルス列ι[k]とエンベロープe[k]との積として、後発残響室内インパルス応答モデルが取得される。
ここで、e[k]は、以下の式(5)によって与えられ、ι[k]は、パルス列であり、以下の式(3)によって与えられる。
ここで、a[m]は、ランダムに生成された、値の符号+1または−1であり、rnd(m)は、0と1との間で一様に分布した乱数であり、「round」は、整数への丸めを示し、Tdは、パルス間の秒単位の平均時間であり、Tsは、サンプリング間隔であり、uは、単位振幅(unit magnitude)を有するパルスを示す。このパルス列は、ベルベット雑音モデルである。
一実施形態では、後発残響パルス列がスケーリングされる。パルス密度に関して初期値が選択される。一実施形態では、2000パルス/秒よりも大きい初期値が使用される。一実施形態では、4000パルス/秒の初期値が使用される。次いで、生成された後発残響パルス列が、それのエネルギーが、後発残響に対応する測定RIRの部分と同じになるように、スケーリングされる。音響環境に関するRIRの記録が、後発残響パルス列をスケーリングするために使用される。記録のために話者およびリスナーがどこに位置するかは重要ではない。tlおよびRT60の値が記録から決定され得る。tlの後のRIRの部分のエネルギーも測定される。エネルギーは、ポイントtlの後のRIRにおける値の平方和として計算される。次いで、後発残響パルス列のエネルギーが、RIRから計算されたエネルギーと同じになるように、後発残響パルス列の振幅がスケーリングされる。
任意の記録されたRIRが、それがターゲット環境からのものである限り使用され得る。代替的に、モデルRIRが使用され得る。
連続形式の衰退関数またはエンベロープは、以下のとおりである。
離散化されたエンベロープは、以下によって与えられる。
この関係は、直接経路の到着に対応する初期瞬間t=0から残響時間RT60の間の60dBのパワー衰退を保証する。Tsは、入力音声信号のサンプリング間隔であり、ここで、
であり、fsはサンプリング周波数である。
後発残響のモデルは、(2)において与えられた形式の衰退関数で振幅変調された、適切な密度の、パルス列として後発残響に対応するRIRの部分を表す。
ターゲットフレームの持続時間の、後発残響によって引き起こされた雑音である後発残響信号
の概算値が、
から計算され、ここで、
は、(2)において与えられた後発残響室内インパルス応答モデル、すなわち、人工的なパルス列ベースのインパルス応答であり、fsは、サンプリング周波数であり、ターゲットフレームの初めは、時間インデックスk=0に関連付けられる。
したがって、式(5)は、
を生成するために(3)におけるパルス列に適用されたエンベロープである。式(5)から、k=0において、e(t)=1は、参照として使用される、直接経路に関する衰退がないことを意味する。k=RT60/Tsにおいて、e(t)=10-3は、パワー領域において−60dBに対応する。
y[k−tls−n]は、出力「バッファ」、すなわち、以前のフレームxpに対応するすでに変更された信号からのポイントに対応し、ここで、p<iである。tl以降の
の畳み込みおよび出力バッファからの信号履歴は、後発残響信号のサンプルまたはモデルの実現を与える。
サンプルベースの後発残響パワー推定値が、
から計算される。フレームiの場合、kの各値に関する
の値が決定され、値
のセットが生じ、ここで、各値がフレーム内のkの値に対応する。
RT60、tl、Td、およびfsの値が、図1に示されるシステムのストレージ7に記憶され得る。
ステップS103は、ステップS102と並行して実行され得る。
以下のステップS104およびS105は、自然音声と変更された音声プラス後発残響パワーとの間の歪み基準を最適化する所定のフレームパワーを計算することを対象とする。ステップS104において、入力音声信号および推定後発残響信号のフレームパワーが計算される。ステップS105では、入力音声信号xiおよび後発残響信号
のフレームパワー値が、後発残響フレームパワー、入力音声フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数である何らかのペナルティ項に従って、歪み測定値を最小化する所定のフレームパワーを計算するために使用され、ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くとともに増大するように構成されたの非線形関数であり、ここにおいて、λが、フレーム重要性の関数である。次いで、信号利得を適用することによって、ステップS107において変更されたフレームパワーを有するように、入力音声のフレームが変更される。変更は、所定のフレームパワーから計算される。所定のフレームパワーから直接計算された信号利得の値にポストフィルタ処理および/または平滑化をさらに適用することによって、変更が計算され得る。
クリーンで変更された残響音声からの、知覚領域における、信号特徴のセットの間の瞬間(実際にはフレームベースで概算される)偏移を評価するために、歪み測定値が使用される。歪みを最小化することは、局所的に最適化された変更パラメータを提供する。
ステップS104は、「フレームパワーを計算する」である。入力音声信号xiの各フレームに関するフレームパワー i が計算される。S103において計算された後発残響信号
に関するフレームパワー i も計算される。後発残響信号
に関するフレームパワーは、後発残響に起因する残響音声のフレームパワーに対する寄与 i である。
代替実施形態では、2つ以上の周波数帯域の各々における入力音声信号xiのフレームパワーの割合が計算され、周波数帯域の各々におけるS103において計算された後発残響信号
のフレームパワーの割合が計算される。一実施形態では、帯域はメルスケールで線形的に離間される。一実施形態では、帯域はオーバーラップしない。一実施形態では、10個の周波数帯域がある。
一実施形態では、下降するパワーの順序で、入力音声フレームの帯域がランク付けされる。言い換えれば、フレームごとに、下降するパワーでの周波数帯域の順序が決定される。次いで、降順での総フレームパワーの事前決定された割合に対応する帯域が決定される。たとえば、降順で総フレームパワーの90%が含まれる帯域が決定される。たとえば、第1のフレームでは、フレームパワーの90%がn個の最高パワー帯域から来ることがある。第2のフレームでは、フレームパワーの90%がm個の最高パワー帯域から来ることがあり、第2のフレームにおけるm個の最高パワー帯域は、第1のフレームにおけるものとは異なり得る。
次いで、後発残響信号のフレームパワーが、対応する入力音声フレームに関して決定されたそれらの帯域における総パワーとして決定され得る。上記の例の場合、第1のフレームでは、後発残響フレームパワーが、n個の帯域における後発残響信号のパワーとして計算される。第2のフレームでは、後発残響フレームパワーが、m個の帯域における後発残響信号のパワーとして計算される。したがって、後発残響信号のフレームパワーが、入力音声フレームから決定された帯域の帯域パワーを合計することによって計算される。
次いで、入力音声信号のフレームパワーが、入力音声フレームのすべての帯域(すなわち、決定された帯域だけではない)の帯域パワーを合計することによって計算され得る。入力音声信号のフレームパワーは i であり、後発残響雑音信号のフレームパワーは i である。この実施形態では、後発残響フレームパワーがいくつかのスペクトル帯域のみから計算される。スペクトル帯域はフレームごとに、最高パワーに対応する入力音声フレームのスペクトル帯域、たとえば、フレームパワーの事前決定された割合に対応する最高パワースペクトル帯域を決定することによって、決定される。これは、異なる音の異なるスペクトルエネルギー分布を考慮する。
ステップS105は、「フレーム出力パワーを最適化する」である。
所定のフレームパワーが計算される。所定のフレームパワーは、、入力音声フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数である何らかのペナルティ項に従って、歪み測定値を最小化し、ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くとともに増大するように構成されたの非線形関数である。所定のフレームパワーは、λがフレーム重要性の関数であることに従って計算される。
一実施形態では、所定のフレームパワーを決定するために、反復的方法が使用される。第1の反復の場合、変更されていない音声と変更されていない音声プラス残響雑音との間の歪みが、ペナルティ項に従って評価される。これは、変更された音声フレームyiとして出力される。次いで、これは、新しい変更された音声フレームyiに関して繰り返される。これらのステップは、ペナルティ項に従って、計算された歪みを低減する所定のフレームパワーを発見するために反復される。別の実施形態では、所定のフレームパワー値を計算することは、ペナルティ項に従って、所定のフレームパワーに関する極小値を発見するために探索アルゴリズムを使用することを備える。
一実施形態では、最適化問題に対する閉形式解がある。この場合、最適な所定のフレームパワーの反復的探索が実行されない。ステップS105では、フレーム重要性、入力信号のフレームパワー i 、および後発残響信号のフレームパワー i に関する値が、所定のフレームパワーに関する式に入力され、これは、最適化問題の解に対応する。所定のフレームパワーから計算された信号利得に対する、それが適用される前の何らかのさらなる改変、たとえば、平滑化フィルタがあり得る。信号利得はステップS107において適用される。この場合に所定のフレームパワーを決定するための反復がない。所定のフレームパワーは単に、事前決定された関数から計算される。この実施形態では、音声変更は低複雑度を有する。
最適化問題に対する閉形式解がある一実施形態による処理ステップS105〜S107のセットが、ここで説明される。
これらのステップでは、所定のフレームパワーに関する関数は、ペナルティ項に従って、パワー領域における歪み測定値を最小化することによって決定され、ここにおいて、ペナルティ項が、、入力音声フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数であり、ここにおいて、関数が、の臨界値を超えると歪み測定値よりも速くとともに増大するように構成されたの非線形関数であり、ここにおいて、λが、フレーム重要性の関数である。これらのステップでは、フレームの所定のパワーは、歪み基準を最小化する関数を使用して計算される。
歪み項とパワー増大ペナルティとを備える合成基準が、出力パワーの過剰な増大を防ぐために使用される。分析を容易にするために、後発残響は局所的に、すなわち、現在のフレームの持続時間の間、無相関な付加雑音と見なされる。これは、i)現在のフレームと干渉音声が生成された期間との間の時間分離、およびii)音声信号の長期非定常的性質によって誘導される。したがって、後発残響は、付加的で、伝搬時間の差異および雑音のために信号と無相関であると考えられる。
歪み項とパワー利得ペナルティ(パワー利得ペナルティは、後発残響への寄与が臨界値を超えて増大することに伴ってパワー利得を低減するように構成される)とを有する雑音における音声に関する任意の合成歪み基準が、このステップにおいて所定のフレームパワーを決定するために使用され得る。後発残響が付加的な無相関な非定常雑音と解釈され得るので、雑音における音声の基準が使用される。
一実施形態では、聴覚歪み測定値および出力パワーに対する制約から構成される基準が、所与の時間における最適な所定の変更されたフレームパワーを導出するために使用される。
ここで、、およびは、波形x、y、およびlの瞬間パワーであり、実際にはフレームパワーによって概算される。フレームパワーを示すために、イタリック体(又は下線)が使用される。したがって、特定のフレームに関して値があり、ここで、は、音声信号の元のフレームのフレームパワーである。の値もあり、ここで、は、ステップS103において推定された、そのフレームにおける雑音のパワーである。フレームに関する所定の変更されたパワーはによって示される。
式(8)では、ペナルティ項Tは
である。しかしながら、一般に、、入力フレームのパワーに対する所定のフレームパワーの比、および乗数λの関数(ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くとともに増大するように構成されたの非線形関数である)である任意のペナルティ項Tが使用され得る。たとえば、ペナルティ項は、
であり、ここで、w>1である。一実施形態では、
である。
したがって、基準における第1の付加項は、瞬間パワーダイナミクスにおける歪みである。一実施形態では、パワー利得ペナルティ項における瞬間後発残響パワーが、単位元(unity)よりも大きいパワーに引き上げられる。一実施形態では、パワー利得ペナルティ項における後発残響パワーが、パワー2に引き上げられる。2のパワーは、マッピング関数を較正するための数学的解析を容易にする。臨界値を超えるの増大により、パワー利得ペナルティが歪みを上回り、変更方向の逆転が誘発される。
残響環境における音声信号に関しては、先行音声からの後発残響がオーバーラップし、現在の音声をマスキングするので、理解度が低下する。理解度を高めるために音声のパワーを増大させることは、引き起こされる後発残響の量も増大させ、したがって、実際には理解度に悪影響を及ぼし得る。ペナルティ項は、フレーム重要性に従ってパワーの増大を抑制する働きをする。さらに、後発残響の臨界値を超えると、抽出されたフレームのパワーに対する変更されたフレームパワーの比は、後発残響とともに低下する。したがって、特定の入力フレームパワーおよびフレーム重要性に関して、後発残響が増大するが臨界値未満にとどまるとき、所定のフレームパワーは増大する。後発残響が臨界値を超えてさらに増大するとき、所定のフレームパワーは低下する。この自己抑制行動は、かなり残響のある環境でシステムが使用されることを可能にする。
ペナルティ項は、臨界値を超えると歪み測定値よりも速くとともに増大するように構成される。の臨界値を超えると、入力音声フレームパワーに対する所定のフレームパワーの比は、の増大とともに低下する。
βおよびαは、当該の間隔の境界である。言い換えれば、βおよびαは、最適動作範囲の境界を画定する。一実施形態では、パラメータαは、正規化分散を伴って、事前録音された標準的音声データのサンプルデータセットにおける最小観測フレームパワーに設定される。一実施形態では、上限βは、入力音声における最高予想短期パワーである。代替的に、βは、事前録音された標準的音声データにおける最大観測フレームパワーである。
x(x|b)は、形状パラメータbを伴うパレート分布の確率密度関数である。パレート分布は、以下によって与えられる。
bの値は、サンプルデータセット、たとえば、αとβとを決定するために使用される標準的な事前録音された音声に適合された(2つのパラメータ)パレート分布のパラメータに関する最尤推定から取得される。パレート分布は、分散等化された音声データ、および取得されたbの値にオフラインで適合され得る。一実施形態では、bは1よりも小さい。
したがって、一実施形態では、パラメータαは、fx(x|b)を適合させるために使用されるデータにおける最小観測フレームパワーに設定され得、パラメータβは、fx(x|b)を適合させるために使用されるデータにおける最大観測フレームパワーに設定され得る。αおよびβに関する推定値とフレームパワーとの間の整合性は、fx(x|b)を適合させるために使用されるデータにおける発話が入力音声信号と同じパワーであるときに達成され得る。ここで言及されるパワーは、数秒の間に測定された、たとえば、発話持続時間と同じである時間スケールで測定された長期パワーである。
一実施形態では、βおよびαの値は、リアルタイムでスケーリングされる。入力音声信号の長期分散が、パレート分布が適合されるデータのものと同じではない場合、パレート分布のパラメータは、相応に更新される。したがって、入力音声の長期分散が監視され、パラメータβおよびαの値が、現在の入力音声信号分散と参照分散、すなわち、サンプルデータのものとの比に伴ってスケーリングされる。分散は長期分散である、すなわち、2秒以上の時間スケールによる。
b、α、およびβの値が、図1に示されるシステムのストレージ7に記憶され、必要に応じて更新され得る。
式(8)における積分の第1の項は、瞬間パワーダイナミクスにおける歪みであり、第2の項は、パワー利得に対するペナルティである。この歪み基準は、得られる変更の柔軟性および低複雑度に起因して使用される。後発残響パワーは、付加雑音として歪み項に含まれる。項λは、ペナルティ項の乗数である。ペナルティ項はまた、因数 2 を含む。一般に、ペナルティ項は、、入力音声パワーに対する所定のフレームパワーの比y/x、および乗数λの関数であり、ここにおいて、関数が、臨界値を超えると歪み測定値よりも速くとともに増大するように構成されたの非線形関数であり、ここにおいて、λがフレーム重要性の関数である。
変分法を使用することによって発見された関数(8)の最小値に関する閉形式の解は、
であり、ここで、c1およびc2は、
として境界条件を設定することによって識別される定数であり、ここで、
である。
式(11)は、w=2の場合の解である。w>1であるより一般的な場合の解の形式は、以下のとおりである。
ペナルティ項が、wのパワーに引き上げられた以外の関数である場合、解は、異なる形式を有することになる。
パラメータ化ρ()は、残響がない場合、すなわち、y’(ψ)=1である場合、入出力(IO)関係(11)が入力をそのまま渡す、すなわち、y=xとなることを保証する。
したがって、c1およびc2の値はλに依存し、以下によって与えられる。
i は、変更された音声フレームの所定のパワーである。したがって、フレームiに関する所定の信号利得、すなわち、所定の変更は、
である、すなわち、入力フレームのパワーに対する所定のフレームパワーの比の平方根である。
被積分関数はラグランジアンであり、λはラグランジュ乗数である。歪み基準は、明示的な制約、すなわち、等式または不等式に従う。一実施形態では、制約は、Qの何らかの値に関して
である。これは、パワー利得が過剰に増大するのを防ぐ。Qは、オイラー=ラグランジュ方程式の公式において抜け落ち、したがって、制約は式(8)では暗黙的である。フレーム重要性を組み込むために、項λは、υを通じてフレーム重要性に対する依存性を有するようにパラメータ化される。フレーム重要性は、利得の増大を制限するために導入される。これは、たとえばQを、υを通じてフレーム重要性の関数にし、オイラー=ラグランジュ方程式に対する解が発見されるとλの値を決定することによって、Qを通じてフレーム重要性を導入するのを回避する。また、後述のようにλの値を決定するために較正が実行される。後発残響パワーの増大に伴う利得の転換点を設定するために、較正が使用される。
各フレームに関するλの値は、下記のように計算され得る。ターゲットフレームiに関するλの値は、ステップS105において計算される。
後発残響パワーの増大は、音声出力パワーの増大を誘発する。この行動は、信号パワーの再帰的増大に起因する不安定につながり得る。言い換えれば、残響環境において音声パワーを増大させることは、後発残響のパワーも増大させる。ペナルティ項は、この再帰的増大と不安定とを防ぐ。ペナルティ項は、後発残響パワーの臨界値
があり、臨界値を超えると、パワー利得、すなわち、抽出されたフレームのパワーに対する所定のフレームパワーの比が低下し始めることを意味する。
臨界値があまりにも高い場合、あまりにも多くの残響が生成される。これは、以下で説明されるシステムの較正によって防止される。較正は、以下でλの式を決定することによって実現される。音声の処理中、各フレームに関するλの値が、式から計算される。
後発残響パワーおよび乗数λの任意の値に関して、最大ブースティングパワー(MBP)がある。MBPは、パワーマッピング曲線y()の交差点、すなわち、所定のフレームパワーを提供するパワーマッピング曲線y()および関数y=の交差点である。MBPを下回る入力音声パワーはブースティングされ、MBPを上回る入力音声パワーは抑制される。
較正の結果として、後発残響パワーの低い値において、MBPは、後発残響パワーの増大とともに増大することが可能になる。フレーム重要性に対する依存もある。後発残響パワーの臨界値を超えると、MBPは、やはりフレーム重要性に依存して減少する。
システムの較正およびλの式の導出は以下で説明される。
入出力パワーマップの所望の上限は、最大ブースティングパワーβによって表される。前述のように、βは、たとえば、事前録音された標準的音声データにおける最大観測フレームパワーであり得る。
は、入出力パワーマップが
においてこの上限βに達するラグランジュ乗数であり、ここで、
である。
の場合、MBPは、
において方向を変え、結果的に、
および
の場合、MBPは、とともに増大し、
および
の場合、MBPは、の増大とともに減少する。
のパワーに沿って(16)を再構成することは、2次形式を与える。
単一ルート条件B2−4AC=0は、入出力パワーマップの転換点を識別する。λに対して(11)を解くことは、以下を与える。
様々な残響パワーレベルの場合および
の場合のマッピング曲線が図5に示されている。図5は、
および様々な雑音レベルの場合のパワー利得を示す。図5は、デシベル単位の入力(水平軸)に対するデシベル単位の出力(垂直軸)のプロットである。単位元パワー利得(unity power gain)が直線の実線として示されている。これは、1→−∞dBの場合に対応し、参照パワーが1である。=30dBの場合のパワー利得が点線によって示されている。
dBの場合のパワー利得が一点鎖線によって示されている。
dBの場合のパワー利得が破線によって示されている。パワーは、転換点を示す臨界残響パワーを超えて残響パワーが増大することに伴って低下する。
および
の場合、MBPはβである。
および
の場合、MBPはβよりも小さい。
フレーム重要性は、同じくλの計算に含まれ、臨界値を下回る後発残響パワーに伴うMBPの増大が値vξを上回るのを防ぎ、MBPが減少しているときに大量の情報内容を有するフレームの過度の抑制を防ぐ。特定のMBPを提供するλに関する式が導出される。これは、MBPの増減を制御するλに関する式を決定するために使用される。
の任意の値に対して特定のMBPを達成するλに関する式は、以下で導出される。
(16)についてλのために式
を解くことは、以下の式をもたらす。
λvは、所定のフレームパワー,λ=λ v )=に対応するλの値である。導関数y’=(ψ)≧0を伴う分数多項式関数(fractional polynomial function)(11)は、λ=λ v >αの場合に∈(α;ψ)で単調増加することを保証される。λ=λvの場合、MBPは、後発残響パワーに関係なく値に固定される、すなわち、MBPは、後発残響パワーに対して固定される。
この式は、
の値を計算するために使用され得、この値は、MBPの増大を、すなわち、
の領域において制御するために使用される。
の場合、MBPは、 ξ に固定される。この値からの上方または下方の変動の可能性はない。
は、以下から計算される。
一実施形態では、傾きsと範囲制限L=αおよびH=βとを有するシグモイド
が、対数領域においてξを最大ブースティングパワー ξ にマッピングするために使用される。
これは、フレーム重要性とMBPとの間の平滑なマッピングをもたらす。
の場合、(23)における関係が、直接的にy=xとy(x)の交差点を制御することに伴い、の値に関係なく、MBPは ξ である。
MBPの減少の場合、すなわち、領域
において、
の式
が決定される。
は、所定のフレームパワー
に対応するλの値であり、ここにおいて、
が以下から計算される。
の場合、MBPは、後発残響パワーに関係なく値
に固定される、すなわち、MBPは、後発残響パワーに対して固定される。
一実施形態では、傾きsと範囲制限L=αおよびH= ξ とを有するシグモイド
が、対数領域において
を最大ブースティングパワー
にマッピングするために使用される。
これは、その∈[α, ξ ]を保証し、下限入出力パワーマップを与える。
および
を通じて、ξに対する依存性を導入することによって、遷移が向上される一方、後発残響パワー全体が低減される。
したがって、入力音声信号のフレームごとに、
の値が(18)から計算される。次いで、後発残響パワーの臨界値

として導出される。
はρを通じてに依存するが、実際には、の増大に伴うρ→0の指数関数的収束率は、大きいに対して
が変わらないことを示す。したがって、代替実施形態では、
および
の単一の参照値が使用され得る。
および
の式において使用される定数は、たとえば、較正プロセス中に、トレーニングデータから決定され、ストレージ7に記憶され得る。たとえば、sの値が、図1に示されるシステムのストレージ7に記憶され得る。一般に,sのより小さい値は、シグモイドがより緩やかな傾きを有することになるので、ξに対するさほど明示的ではない応答につながる。
入力された音声フレームごとに、
の場合で、
がそのフレームに関して計算された臨界値である場合、フレームに関するλの値は、以下から計算される。
の場合、フレームに関するλの値は、以下から計算される。
図6は、λ=λ v およびの様々な値の場合のパワー利得を示す。図6は、デシベル単位の入力(水平軸)に対するデシベル単位の出力(垂直軸)のプロットである。単位元パワー利得が直線の実線として示されている。これは、→−∞dBの場合に対応する。=αdBの場合のパワー利得が点線によって示されている。=βdBの場合のパワー利得が一点鎖線によって示されている。=40dBの場合のパワー利得が破線によって示されている。
MBPを下回る入力音声パワーはブースティングされ、MBPを上回る入力音声パワーは抑制される。高い残響では、MBPは低減され、より大きい抑制とパワーのより小さいブースティング範囲とにつながる。
ターゲットフレームiに関するλの値は、臨界後発残響パワーに対するの値に応じて、式(27)または(28)を使用して計算される。フレーム重要性パラメータξとλとの間のつながりを確立することは、音声信号における冗長性の関数として、短期のパワー抑制またはパワーブースティングの可能性をもたらす。
フレームに関してλの値が計算されると、c1およびc2の値が計算され得る。次いで、これらの値は、所定のフレームパワーyiを計算するために(11)に代入され得る。次いで、入力音声信号に適用される信号利得が、所定のフレームパワーから計算され得る。一実施形態では、信号利得giを使用して、信号スペクトルを変更することによって、入力音声信号に変更が適用され得る。この場合、信号利得giは、所定の変更されたフレームパワーから計算される。
一実施形態では、所定のフレームパワーから計算された信号利得は、入力音声信号に適用される前に平滑化される。これはステップS106である。
音声入力部から受信された音声のフレームに適用された平滑化信号利得は、
から計算され得、ここで、giは、所定のフレームパワーから計算された信号利得であり、ここで、
であり、 i が、所定のフレームパワーであり、 i が、音声入力部から受信された音声のフレームパワーであり、
が、平滑化信号利得であり、ここで、
であり、ここで、sおよびφが定数であり、ξiがフレーム重要性であり、UおよびDが、下方および上方の制限率を与えるために選択される。動作率は、ξとともに制限率に収束する。

は、弱い過渡成分に対するより大きいパワー増大につながり、他の場所での過剰なブースティングにはつながらない。入力音声フレームが低いフレームパワーを有し、特に、それが高いフレーム重要性、たとえば、過渡性を有する場合、所定の信号利得は非常に高くなる。一般に、これはgi≫1を与える。したがって、この項は、そのような過渡性に対してより強い利得を可能にする。一実施形態では、φ=3である。代替実施形態では、φの可能な値の範囲があり、フレームごとに、フレームの何らかの特性に応じて値が選択される。たとえば、フレームのスペクトルエネルギーの50%超が高周波数領域にある場合にはφ=φ1、フレームのスペクトルエネルギーの50%超が低周波数領域にある場合にはφ=φ2である。
この平滑化形式は、
となるように、隣接するフレームにわたってフレーム重要性をスミアすることなく、信号利得の変化率を制限する効果を有する。
変化率を制御することによって、変更された信号は、さほど知覚されない歪みを有する。
一実施形態では、gi>1およびgi≦1の場合に異なる率、すなわち、式(30)および(31)のsの異なる値がある。
代替実施形態では、uは
から計算される。
代替実施形態では、信号利得は代わりに、相対的制約を使用して平滑化される。上の式(29)および(32)は、下の式(29a)および(32a)に置き換えられる。
ステップS107は、「音声フレームを変更する」である。入力音声フレームに対応するウィンドウ処理された波形は、
によってスケーリングされる。したがって、変更は、たとえば、上記の式(29)から計算された信号利得である。一実施形態では、平滑化信号利得を使用して、信号スペクトルを変更することによって、入力音声信号に変更が適用される。
上述の実施形態では、ペナルティ項に従って、後発残響の影響をモデル化する歪み測定値を最適化することによって、所定のフレームパワーが導出される。次いで、信号利得が所定のフレームパワーから計算される。
変更は、後発残響の明示的なモデルを利用し、歪み測定値において付加雑音として局所的に扱われる後発残響の影響に対してフレームパワーを最適化する。雑音における音声に関する任意の歪み基準が変更に使用され得る。
変更は、後発残響の影響を軽減する。後発残響は、それの拡散的性質に起因して統計的にモデル化され得る。特定の時点に、後発残響は、生成時点に対する時間オフセット、またはそれの元に対する時間分離を仮定すると、直接または最短経路音声信号と無相関であると想定され得る付加雑音と見られ得る。信号をブースティングすることは、音の検出可能性を高めるので、付加雑音に対する効果的な理解度向上戦略である。臨界後発残響雑音を超えるこのブースティングを抑制することは、過剰な残響を防ぐ。
一実施形態では、変更された音声フレームがこのポイントで単にオーバーラップ加算され、得られる向上された音声信号が出力される。
さらなる音声向上は、追加の変更次元を導入することによって達成される。残響の下では、信号をブースティングすることは、ブースティングされた信号が将来により多くの雑音を生成するので、逆効果であり得る。音響エコーによって引き起こされた音の間のオーバーラップマスキングは、理解度の低下の主な原因である。時間スケーリングは、近くに位置する音の間の実効的なオーバーラップマスキングを低減する。時間スケーリングによって信号の部分を拡張することは、後発残響パワーが時間とともに指数関数的に衰退するので、以前の音からのこれらの部分における低減されたマスキングをもたらす。この影響は、理解度を改善するが、伝送速度を低下させる。信号を減速させることは、近くに位置する音の間のオーバーラップマスキングを低減し、理解度を改善するが、情報の転送を減速させる。
変更されたフレームパワーを生成する変更および後続の時間スケール変更を適用するようにシステムが構成される一実施形態では、時間スケール変更がステップS108において実行される。
ステップS108は、「時間スケールをワープする」である。一般に、時間スケーリングは、異なる音の間のオーバーラップマスキングを低減することによって、理解度を改善する。タイムワーピング機能は、波形を拡張するときに最適なラグを探索する。この方法は、局所的ワーピングを可能にする。タイムワーピングは、フレームパワーが、変更されていない入力フレームパワーのフレームパワー未満に低下したとき、および後発残響パワーが臨界値を上回ったときに発生する。
このステップでは、
である平滑化信号利得が1よりも小さいかどうか、および
よりも大きいかどうかが最初に決定される。これらの条件の両方が満たされる場合、出力信号yの履歴を使用して、フレームiの相関シーケンスryy(k)が
として計算され、ここで、Tはフレーム持続時間(秒単位)である。Tの値は、図1に示されるシステムのストレージ7に記憶され得る。変数kは、ラグを示すためにタイムワーピングの文脈で使用される。それは、後発残響をモデル化する文脈の場合には使用されない。
次いで、最適ラグk*
から計算され、ここで、ラグは、離散時間インデックスまたはサンプルインデックスであり、K1およびK2は、探索間隔の最小ラグおよび最大ラグである。一実施形態では、K1およびK2は定数である。一実施形態では、K1は0.003fsであり、K2は0.02fsである。最適ラグは、相関関数における最高ピークによって識別される。
図7は、一実施形態による時間スケール変更プロセスの概略図である。
図2のステップS109において実行されたオーバーラップおよび加算プロセスの後の変更されたフレームは、出力「バッファ」を形成する。
時間スケール変更プロセスでは、新しいフレームyiが、変更されて図2のステップS107から出力される。このフレームは、ステップS109においてバッファにオーバーラップ加算される。これは、図7に示される時間スケール変更プロセスのステップS701に対応する。「新しいフレーム」は、「最後のフレーム」とも呼ばれる。ポイントk=0は、最後のフレームの開始である。
すべてのフレームが、この方法でバッファにオーバーラップ加算される。しかしながら、以下の条件が満たされる場合には、以下のステップで説明される方法で、このポイントの前後で時間がワープされ、以下の条件は、1)平滑化信号利得が1よりも小さい、2)
よりも大きい、および3)最大相関値がしきい値よりも大きい、ことである。したがって、タイムワープは、「下降」モードにある間に抑制が発生するとき、すなわち、残響が高く、
よりも大きいときのみ開始される。たとえば、低い情報内容およびフレームの高いパワーに起因して、
のときに抑制が発生する場合、これはタイムワープを伴わない。
ステップS108では、不連続性をもたらすことなく信号をタイムワープする時間スケール変更量を決定することが望まれる。これは、式(33)におけるk=K1から開始して、バッファ信号のターゲットセグメントと信号の「最後のフレーム」の相関を式(33)から計算することを伴う。これは、k=K1-1〜k=K2に対応するターゲットセグメントに関して繰り返される。これは、時間スケール変更プロセスのステップS702に対応する。
相関関数における最大ピークに対応するkの値は、最適ラグk*を与える。これは、時間スケール変更プロセスのステップS703において決定される。
ステップS704では、最大相関の値がしきい値よりも大きいかどうかが決定される。
一実施形態では、しきい値は、k=0のラグでの、すなわち、最後のセグメントの相関値と、Ωとの積であり、ここで、Ω∈(0,1)である。k=0のラグでの相関値は、フレームのエネルギーである。
一実施形態では、しきい値は、条件
が満たされる場合にのみタイムワープが実行されるという条件に対応する。この条件は、たとえば、過渡性をワープすることを試みることに起因する歪みを防ぐ。
条件が満たされる場合、タイムワーピングが適用される。別の実施形態では、過剰周期性を防ぐために、連続的タイムワープの数が2に制限される。
次いで、このポイントから先において、バッファ信号が抽出され、すなわち、k=k*からバッファの終わりまでのバッファ信号のセグメントがステップS705において複製され、これは、ステップS706においてポイントk=0からの「最後のフレーム」とオーバーラップ加算される。一実施形態では、オーバーラップ加算は、フレームベースの処理のスケールの2倍の大きさのスケールによる。一実施形態では、波形拡張は、オーバーラップエリアにおいて平滑な補完的「ハーフ」ウィンドウを使用して、オーバーラップ加算される。
したがって、このオーバーラップ加算は、「最後のフレーム」を含む、バッファリングされた信号の終わりにおける余剰または余分なサンプルをもたらす。これは、信号拡張またはタイムワープ効果である。
したがって、S109では、波形拡張が、k*によって識別される位置から抽出され、適切な長さの補完的ウィンドウを使用して最後のフレームにオーバーラップ加算される。波形拡張は、オーバーラップエリアにおいて平滑な「ハーフ」ウィンドウを使用して、オーバーラップ加算される。最後に、次のフレームを準備するために、元のオーバーラップ加算ウィンドウを使用して、拡張の終わりが平滑化される。
残響環境における音声理解度は、残響時間の増加とともに低下する。この影響は主に、正確なホールジオメトリと話者およびリスナーの位置との知識なしに統計的にモデル化され得る後発残響に帰せられる。上述のシステムは、理解度に対する後発残響の影響を軽減するための低複雑度音声変更枠組みを使用する。後発残響によって引き起こされた音声パワーダイナミクスにおける歪みは、適応利得制御と局所的タイムワーピングとを備えるマルチモーダル変更のきっかけとなる。後発残響パワーの推定は、変更深度のコンテキスト認識適応を可能にする。
システムは環境に適応し、広い動作範囲でのマルチモーダル(すなわち、利得制御および局所的時間スケールにおける)変更を実現する。システムは歪み基準を使用する。歪み基準の閉形式ミニマイザーは、信号パワーのより効率的な使用のために、フレーム重要性の継続的測定の点でパラメータ化される。システムは、低い遅延および複雑度で動作し、これは、システムが広い範囲の適用場面に対処することを可能にする。枠組みのモジュール性は、個々の構成要素の漸進的高度化を容易にする。
図8は、音声入力部15から受信された音声が、向上済み音声出力部17によって出力されるべき向上された音声に変換される、一実施形態によるプログラム5によって提供される処理ステップの概略図である。
ステップS201は、「フレームxiを抽出する」である。これは、図2の枠組みに示されるステップS101に対応する。このステップは、音声入力部15から受信された音声信号xからフレームを抽出することを備える。フレームxiがステップS201から出力される。
一実施形態では、フレームの持続時間は、10msから32msの間である。これらのフレームの持続時間には、信号は定常的であると考えられ得る。一実施形態では、フレームの持続時間は25msである。
一実施形態では、フレームオーバーラップは50%である。50%のフレームオーバーラップは、処理に起因する隣接フレーム間の不連続性を低減し得る。
音声信号処理にとって妥当な任意のサンプリング周波数が使用され得る。一実施形態では、サンプリング周波数は、1kHzと50kHzの間であり得る。一実施形態では、サンプリング周波数fs=16kHzである。一実施形態では、fs=8kHzである。
ステップS202は、「フレーム重要性を計算する」である。これは、図2に示される枠組みにおけるステップS102に対応する。
フレーム重要性は、フレームと以前のフレームとの相違性の測定値である。一実施形態では、フレーム重要性は、上記の式(1)によって与えられる。ステップS202からの出力はξi、すなわち、フレームiのフレーム重要性である。
一実施形態では、mはMFCC次元1〜12を含む。
ステップS203は、「後発残響信号を計算する」である。
一実施形態では、残響信号フレームに対する後発残響の寄与をモデル化することによって、後発残響信号が計算される。一実施形態では、後発残響は、特定のホールの音響を綿密に複製するために正確にモデル化され得る。代替実施形態では、後発残響に起因するマスキングパワーを概算するより単純なモデルが使用され得る。後発残響信号を生成するために統計モデルが使用され得る。一実施形態では、後発残響に起因する寄与をモデル化するためにベルベット雑音モデルが使用され得る。後発残響パワー推定値を提供する任意のモデルが使用され得る。
一実施形態では、後発残響信号
は、上記の式(7)から計算される。サンプルベースの後発残響信号
が計算される。フレームiの場合、kの各値に関する
の値が決定され、値
のセットが生じ、ここで、各値がフレームのkの値に対応する。したがって、ターゲットフレームの持続時間の、後発残響であるマスキング信号
の概算値が、上記の式(7)から計算される。
このステップは、図2に示される枠組みにおけるステップS103に対応する。パラメータTd、RT60、tlおよびfsが事前展開段階において決定され、ストレージ7に記憶され得る。
意図された音響環境の場合の残響時間が測定され得、この測定値がRT60の値として使用される。代替的に、同様の環境の以前の研究に基づく推定値が使用される。代替的に、たとえば、寸法および表面反射係数が知られている場合、モデルから残響時間が導出され得る。
一実施形態では、tl=90msである。一実施形態では、tl=50msである。一実施形態では、tlは、意図された音響環境の知識に基づいてモデルRIRから抽出される。代替的に、tlは、測定RIRから抽出される。代替的に、同様の環境の以前の研究に基づく推定値が使用される。
ステップS204は、「パワーを計算する」である。一実施形態では、これは、図2におけるステップS104に対応する。
一実施形態では、入力信号フレームパワー i および後発残響フレームパワー iが、入力信号xiおよびステップS203から出力された
から計算される。したがって、後発残響フレームパワー iは、残響音声フレームに対する後発残響の寄与のモデルから計算される。
代替実施形態では、入力音声帯域パワーおよび後発残響帯域パワーが、入力信号xiおよびステップS203から出力された
から計算される。言い換えれば、2つ以上の周波数帯域の各々におけるパワーが、入力信号xiおよびステップS203から出力された
から計算される。これらは、たとえば、離散フーリエ変換を使用して、音声入力部から受信された音声のフレームと後発残響信号とを周波数領域に変換することによって計算され得る。代替的に、各周波数帯域におけるパワーの計算は、フィルタバンクを使用して時間領域で実行され得る。
一実施形態では、帯域はメルスケールで線形的に離間される。一実施形態では、帯域はオーバーラップしない。一実施形態では、10個の周波数帯域がある。
次いで、下降するパワーの順序で、入力音声フレームの帯域が順序付けられ、次いで、降順での総フレームパワーの事前決定された割合に対応する帯域が決定される。次いで、後発残響信号のフレームパワーが、対応する入力音声フレームに関して決定された帯域におけるパワーの合計として決定され得る。したがって、後発残響信号のフレームパワーが、入力音声フレームから決定された帯域の帯域パワーを合計することによって計算され得る。
この実施形態では、後発残響フレームパワーがいくつかのスペクトル領域のみから計算される。スペクトル領域はフレームごとに、最高パワーに対応する入力音声フレームのスペクトル領域、たとえば、フレームパワーの事前決定された割合に対応する最高パワースペクトル領域を決定することによって、決定される。帯域パワーを合計することによって、入力信号全帯域パワー i が計算され得る。
一実施形態では、次いで、所定のフレームパワー i が、入力信号フレームパワー i 、フレーム重要性の測定値および後発残響フレームパワー iの関数から計算される。関数は、後発残響フレームパワー iが臨界値
を超えて増大することに伴って、抽出された入力音声フレームのパワーに対する所定のフレームパワーの比を低下させるように構成される。
一実施形態では、ペナルティ項Tに従って歪み測定値を最小化する所定のフレームパワーが計算され、ここにおいて、Tが、、抽出されたフレームのパワーに対する所定のフレームパワーの比、および乗数λの関数であり、ここにおいて、関数が、後発残響パワーが臨界後発残響パワーよりも大きいときに歪み測定値よりも速くとともに増大するように構成されたの非線形関数であり、ここにおいて、λが、フレーム重要性の点でパラメータ化される。
歪み測定値は、たとえば、(8)における積分の第1の項であり得る。ペナルティ項は、パワー利得に対するペナルティである。一実施形態では、ペナルティ項は、(9)において与えられたものであり、ここで、w>1である。一実施形態では、w=2である。
ステップS205は、「λと、c1と、c2とを計算する」のステップを備える。
各フレームに関するλの値は、
から計算され、ここで、
の式が(18)において与えられ、
の値が
の値から計算され、
の式が(21)において与えられ、
の式が(25)において与えられる。
β、α、ψおよびσの値がストレージ7に記憶される。一実施形態では、σ=0.9である。一実施形態では、σ=0.001である。sの値は、λを計算するために必要とされることがあり、同じくストレージ7に記憶される。一実施形態では、sは1から50の間である。一実施形態では、s=15である。一実施形態では、s=28である。一実施形態では、傾きsは、
に対応する、MBPが増加しているレジーム、および
に対応する、MBPが減少しているレジームでは異なり得る。
は、フレーム重要性に依存する。
も、
を通じてフレーム重要性に依存する。
フレームに関してλの値が計算されると、式(14)および(15)を使用して、c1およびc2の値が計算される。
ステップS206では、所定のフレームパワー i が、 i i 、b、λi、c1およびc2の値から計算される。一実施形態では、ペナルティ項に従って歪み測定値を最小化する所定のフレームパワーが、
から計算され、ここで、bは定数であり、w>1である。一実施形態では、w=2である。bの値が、ストレージ7に記憶される。一実施形態では、bは、トレーニングデータのパレートモデルから決定され、たとえば、全帯域/単一帯域シナリオにおいて約0.0981であり得る。
これは、上記の図2の枠組みにおけるステップS105に対応する。
変更が、所定のフレームパワーを使用して計算され、音声入力部から受信された音声のフレームxiに適用される。
一実施形態では、音声入力部から受信された音声のフレームxiに適用される変更は、
である。
一実施形態では、平滑化が変更に適用される。これはステップS207である。平滑化信号利得は、(29)から計算され得る。UおよびDの値がストレージ7に記憶され得る。一実施形態では、U=1.05およびD=0.95である。別の実施形態では、U=1.3およびD=0.4である。別の実施形態では、U=1.15およびD=0.15である。
ステップS208において変更を適用することによって、変更された音声フレームyiが生成される。一実施形態では、信号利得または平滑化信号利得を使用して、信号スペクトルを変更することによって、変更が適用される。
一実施形態では、次いで、ステップS209において以前のフレームに関して生成された向上済み音声信号に、変更された音声フレームがオーバーラップ加算され、得られた信号が出力部17から出力される。
代替的に、信号が出力される前に時間変更が含まれる。一実施形態では、時間変更はタイムワープである。
ステップS210では、平滑化信号利得が1よりも小さいかどうか、および
よりも大きいかどうかが決定される。
これらの条件のうちの1つが満たされない場合、時間スケール変更は適用されない。
これらの条件の両方が満たされる場合、最大相関およびタイムラグの対応する値k*が、ステップS211において計算される。タイムラグkごとの相関値が(33)から計算される。次いで、最大相関値および対応するラグk*が、(34)に従って決定される。
このポイントで、ステップS212において、最大相関値がしきい値を超えるかどうかが決定される。一実施形態では、しきい値は定数値である。別の実施形態では、しきい値は(35)から決定される。一実施形態では、Ω=2/3である。
最大相関値がしきい値を超えない場合、時間変更は適用されない。最大相関値がしきい値を超える場合、次のステップは「拡張をオーバーラップ加算する」である。このステップでは、波形拡張が、k*によって識別される位置から抽出され、最後のフレームにオーバーラップ加算される。
一実施形態では、連続的タイムワープの数が2に制限される。
次いで、向上された音声が出力される。
図9は、適応利得制御(AGC)および自然音声と標示された、一実施形態による、向上されたシステムの2つのパラメータUおよびDの領域において56個超のセンテンスで平均化されたフレーム重要性加重SNRを示す。SNRは、ここでは、直接経路対後発残響比として定義される。2つのパラメータUおよびDは、上記の式(32)に関係して説明されている。それらは、最大信号利得増加率
および信号利得減少率Dに関係し、これらは、平滑化信号利得がどのくらい迅速に、歪み基準から決定された所定のフレームパワーから計算された局所的に最適な信号利得の後に続くかを反映している。
一般に、入力音声信号のパワーが、高い冗長性を有する領域において低減される。そして、後発残響による過渡的領域のマスキングが減らされる。これは、フレーム重要性加重SNRを使用して測定され得る。フレームベースのSNRは、フレーム重要性によって重み付けされる(iwSNR)。システムのパフォーマンスは、信号利得変更率が単位元に固定されているときに自然音声と同一であり、信号利得変更率がよりアグレッシブになるにつれて迅速に高まる。示されている図は、RT60=1:8sの場合である。
5人のネイティブのUE英語リスナーによる主観テストが実行された。5人は、自然音声に対する大幅な(p<0.05)理解度改善を測定するのに十分であった。信号利得変更パラメータ設定は、図9の赤い楕円の位置によって示される。式(29)および(32)における絶対平滑化制約が使用された。
AGCをタイムワーピング(TW)と組み合わせることは、iwSNRのさらなる増大を可能にする。
図10は、上部の波形に対応する自然音声の信号波形と下部の3つの波形に対応するAGCTW変更された音声の信号波形とを示す。第1のAGCTW波形はRT60=1.2sに対応し、第2のAGCTW波形はRT60=1.5sに対応し、第3のAGCTW波形はRT60=1.8sに対応する。これらの値は、中程度から重度の残響を表す。
適応利得制御およびタイムワーピング(AGCTW)が、上記で図2および図8に関係して説明されたシステムを示すために使用され、変更されたフレームパワーを生成する変更と時間スケール変更の両方が入力音声に適用される。
AGCTW変更された音声は、入力パワー、後発残響パワー、およびフレーム重要性の関数から計算された、所定の出力パワーに基づいて変更された。関数は、ペナルティ項に従ってパワーダイナミクスの領域からの適合された歪み基準を最小化する。残響に誘発された抑制の下では、タイムワープが情報の喪失を防ぐ。向上された知覚的影響に対する信号利得平滑化も適用される。変更の方法は、上記で図8に関係して説明されている。
使用されたパラメータ設定は次のとおりである。fx(x|b)を適合させ、αとβとを決定するために使用されたトレーニングデータは、720個のセンテンスを備えるイギリス英語録音であった。フレーム持続時間は25msであり、フレームオーバーラップは50%であった。tlは50msであり、σは0:001であった。探索間隔K1およびK2はそれぞれ0:003fsおよび0:02fsであった。サンプリング周波数はfs16kHzであり、mはMFCC次元1〜12を含んでいた。ιのパルス密度は2000s-1であった。周波数帯域の数Jは10に設定され、Ωは2/3であり、ψはβ4であった。S、UおよびDの値はそれぞれ15、1:05および0:95であった。式(29a)および(32a)において与えられた相対的制約が使用された。
ソース画像方法により取得されたモデルRIRを使用して、残響がシミュレートされた。ホールの寸法は、20m×30m×8mに固定された。RIR生成に使用された話者およびリスナーのロケーションは、それぞれ{10m,5m,3m}および{10m,25m,1.8m}であった。伝搬遅延および減衰が直接音に正規化された。事実上、直接音は、話者から出力された音に等しい。
AGCTWはパワーを、すべてのデータで平均化して、それぞれ31%、30%および29%低下させた。
残響の下では、アグレッシブな変更は有害であり得るので、局所的に最適なパワー利得のより緩慢な追跡が、より平滑な信号を生成し、理解度を向上させる。残響時間の増加とともに、変更された波形の漸進的な伸長があり、タイムワーピングの程度に対して平滑さも達成される。
信号持続時間は、より高い後発残響パワーに対応するために、飽和状態になるまでRT60とともに漸進的に増加する。連続的タイムワープの数を2に制限することは、過剰周期性を低減する。AGCTWは、重要性推定量の因果性に起因する低いアルゴリズム遅延を有する。方法の複雑性は低く、最もきついタスクとして後発残響波形計算を伴う。
一実施形態では、式(2)からの
の希薄性を考慮することによって、リアルタイム処理が達成される。残響時間を反映するために、モデルRIRは長く、そのため、畳み込みは緩慢になる。実際、RIRのより後発の残響部分のモデルにおけるパルスロケーションが知られており、そのため、これは、動作の数を減らすために使用され得る。
図8に関係して説明された信号変更枠組みは、リスニングテストにより検証された。8人のネイティブの正常聴覚を有する英語リスナーが、その目的のために募集された。マテリアルは13個のセットを備え、1つのセットがボリューム調整に使用された。ハーバードセンテンスデータベースからの計120個のセンテンスが、確立されたテストプロトコルに従って各リスナーに提示され、差異として、単一の条件が各被験者によって観測された。発話パワーは、比較を容易にするために等化された。マテリアルは、1対のオーディオテクニカATH−M50xヘッドフォンを使用して、無音の部屋でダイオティック方式で提示された。図11の結果は、AGCTWが自然音声を大幅に上回ることを示す。4人のリスナーは、各条件で大幅なレベルのp<0.05(t−テスト)を達成するのに十分であった。AGCTWの理解度利得では、RT60=1:5sでは21%、RT60=1:8sでは23%の持続時間増加の平均コストが見られる。
図12は、様々な音響環境における残響の概略図を示す。図は、卵形ホール、長方形ホール、および障害物のある環境の場合の、話者において生成された音声信号が移動する経路の例を示す。
十分に高い残響は、音声理解度を低下させる。理解度の悪化は、たとえば、大きい密閉された環境において直面し得る。それは、公示システムおよびテレビ会議に影響を与え得る。理解度の悪化は、聴覚障害者にとってより深刻な問題である。
残響は、音声信号の変調を低減する。結果的なスミアリングは、理解度悪化の原因と見なされる。
音声信号変更は、理解度低下の効率的で効果的な軽減のための土台を提供する。
図2の枠組みは、歪み基準を通じてコンテキスト認識をもたらす、マルチモーダル音声変更のための枠組みである。信号側、すなわちフレーム冗長性評価の態様と、環境側、すなわち後発残響パワーの態様の両方が、コンテキスト認識によって表される。マルチモーダル変更は、重度の残響状況において高い理解度を維持する。
変更は、低い処理遅延および低複雑度によって特徴付けられる。一実施形態では、最も計算上コストのかかる動作は、最適なラグk*の探索、フレーム冗長性推定量のMFCC計算、および式(2)の
による畳み込みである。
変更は、残響環境における理解度を大幅に改善することができる。
いくつかの実施形態では、システムは、残響時間RT60および局所的音声信号冗長性への適応の形式で、コンテキスト認識を実施する。システムは、音声変更の深度を決定する際に聴覚領域歪み基準を使用する結果として、変更最適性を可能にする。システムは、処理副産物(processing artefact)の低減を実現する、異なる信号次元に沿った同時的で一貫的な変更を可能にする。
いくつかの実施形態では、システムは、方法分析を容易にする一般的な理論的枠組みに基づく。
いくつかの実施形態では、システムは、鉄道の駅、空港、講堂、トンネルおよび屋根付きスタジアムのような密閉された空間における公示に使用され得る。代替的に、システムは、テレビ会議または防災システムに使用され得る。
上記のように、図2は、音声変更を通じて残響環境における音声理解度を改善するための一般的枠組みを示す。フレーム固有パワーの同時変更および局所的時間スケールは、残響下で、低レベルの副産物およびより高い理解度を伴って、変更された音声信号を提供する。枠組みは、マルチモーダル変更とコンテキスト認識を組み合わせる統一的で一般的な枠組みを提供する。これらは、広い範囲の状況における良好なパフォーマンスをサポートする。音声セグメントの情報内容または重要性が測定され、この情報は、変更を最適化するときに使用される。
残響環境における音声理解度は、後発残響によって引き起こされたオーバーラップマスキングに起因して低下する。付加雑音と同様に、より強い残響は、より高い悪化を誘発する。残響に関しては、所与の時間における音声変更が、後で残響に影響を及ぼす。問題の詳細を考慮して、パワーダイナミクスの領域からの適合された歪み基準が、最適な出力パワーを決定するために最小化される。閉形式解は、後発残響パワーに依存し、音声信号の冗長性の点でパラメータ化され、コンテキスト認識変更を可能にする。
いくつかの実施形態では、理解の手がかりの起こり得る喪失を軽減するために、タイムワープによって、過剰な残響に起因するパワー抑制が支援される。マルチモーダル変更は、拡張された動作範囲と、処理歪みの低減とをもたらす。本方法により、中程度から重度の残響状況における自然音声に対する大幅な改善が生じる。
いくつかの実施形態では、オーバーラップフレームが、入力音声信号から抽出され、それらの重要性に従って標示される。後発残響のモデルは、同時の後発残響パワーを予測する。最適な全帯域出力パワーが、入力パワー、後発残響パワーおよびフレーム重要性から計算される。瞬間パワーの代わりにフレームベースの推定値が使用される。出力パワーは、歪みを防ぐために平滑化される。変更された信号フレームは合成され、バッファに追加される。パワー低減の場合、後発残響パワーを条件として、時間がワープされる。
いくつかの実施形態では、残響環境における音声理解度の向上は、スペクトル信号特性と時間信号特性とを一緒に変更することによって達成される。変更の程度を外部(環境の音響特性)要因および内部(局所的信号冗長性)要因に適応させることは、スケーラビリティをもたらし、低レベルの処理副産物を伴う大幅な理解度上昇につながる。
上述の音声理解度向上システムは、残響環境における大幅な音声理解度改善を達成する。音声変更は、歪み基準に基づいて実行され、音響環境への優れた適応を可能にする。音声理解度向上システムは、優れた一般化能力およびパフォーマンスを有する。動作範囲は、かなりの残響がある環境に拡張される。いくつかの実施形態では、音声理解度向上システムは、同時的で一貫的な利得制御およびタイムワープを利用する。いくつかの実施形態では、音声理解度向上システムは、局所的に最適な利得を平滑化するパラメトリック知覚誘導型手法(parametric perceptually-motivated approach)を提供する。
いくつかの実施形態では、音声理解度向上システムは、処理チェーンの一部においてマルチバンド処理を使用する。
いくつかの実施形態では、セグメントの情報内容の概念は、フレーム重要性によって概算される。確定的設定(deterministic setting)にとどまって、採用されるパラメータ空間は、高分解能により情報内容を一般化することが可能である。
いくつかの実施形態では、後発残響が雑音としてモデル化され、歪み基準が最適化される。残響を対象とした歪み基準が使用され得る。
いくつかの実施形態では、タイムワーピングが信号抑制中に発生する。タイムワーピングの程度は、局所的音声特性と音響環境の両方に適応する。
後発残響は、それの拡散的性質に起因して、統計的にモデル化され得る。特定の瞬間に、後発残響は、伝搬時間の差異のために信号と無相関な、付加雑音として扱われ得る。信号をブースティングすることは、より多くの残響「雑音」を作る一方、信号を減速させることは、オーバーラップマスキングを低減するが、情報転送速度も低下させる。いくつかの実施形態では、パワー抑制中の適応利得制御およびタイムワーピングの組合せが提供される。これは、たとえば、2秒未満の残響時間を有する環境の場合に特に効果的であり得る。
いくつかの実施形態では、音声理解度向上システムは、環境に適応し、マルチモーダル(すなわち、タイムワープおよび適応利得制御における)変更を実現する。これは、動作範囲を拡張する。高分解能フレーム重要性の使用は、より効率的な信号パワーの使用につながり得る。さらなる同調および処理制約を可能にするために、局所的に最適な利得のパラメトリック平滑化が含まれ得る。
いくつかの実施形態では、音声理解度向上システムは、低い遅延および複雑度を実現し、広い範囲の適用場面に対処することを可能にする。さらに、枠組みのモジュール性は、個々の構成要素の漸進的高度化を容易にする。
いくつかの実施形態では、短い処理遅延を除いて、システムは、因果的であり、したがって、オンラインの適用場面に適している。
いくつかの実施形態が説明されたが、これらの実施形態は、単に例として提示されており、本発明の範囲を限定するものではない。実際、本明細書で説明された新規の方法および装置は、様々な他の形態において具現化されてよく、さらに、本発明の趣旨から逸脱することなく、本明細書で説明された方法および装置の形態における様々な省略、置換および変更が行われてよい。添付の特許請求の範囲およびそれらの同等物は、本発明の範囲および趣旨に入るような形態の変更をカバーするものである。

Claims (20)

  1. 音声を向上させるための音声理解度向上システムであって、
    向上されるべき音声を受信するための音声入力部と、
    前記向上された音声を出力する向上済み音声出力部と、
    前記音声入力部から受信された音声を、前記向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
    を備え、前記プロセッサは、
    i)前記音声入力部から受信された前記音声のフレームを抽出することと、
    ii)フレーム重要性の測定値を計算することと、
    iii)残響するときの前記音声のフレームパワーに対する後発残響に起因する寄与を推定することと、
    iv)所定のフレームパワーを計算することと、前記所定のフレームパワーが、前記抽出されたフレームのパワー、前記フレーム重要性の前記測定値、および後発残響に起因する前記寄与の関数であり、前記関数が、後発残響に起因する前記寄与が臨界値
    を超えて増大することに伴って、前記抽出されたフレームの前記パワーに対する前記所定のフレームパワーの比を低下させるように構成される、
    v)前記音声入力部から受信された前記音声の前記フレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、前記変更が、前記所定のフレームパワーを使用して計算される、
    を行うように構成される、音声理解度向上システム。
  2. 音声を向上させるための音声理解度向上システムであって、
    向上されるべき音声を受信するための音声入力部と、
    前記向上された音声を出力する向上済み音声出力部と、
    前記音声入力部から受信された音声を、前記向上済み音声出力部によって出力されるべき向上された音声に変換するように構成されたプロセッサと
    を備え、前記プロセッサは、
    i)前記音声入力部から受信された前記音声のフレームを抽出することと、
    ii)フレーム重要性の測定値を計算することと、
    iii)残響するときの前記音声のフレームパワーに対する後発残響に起因する寄与lを推定することと、
    iv)ペナルティ項Tに従って歪み測定値を最小化する所定のフレームパワーを計算することと、ここにおいて、Tが、(a)後発残響に起因する前記寄与l、(b)前記抽出されたフレームのパワーに対する前記所定のフレームパワーの比、および(c)乗数λの関数であり、ここにおいて、前記関数が、臨界値
    を超えると前記歪み測定値よりも速くlとともに増大するように構成されたlの非線形関数である、
    v)前記音声入力部から受信された前記音声の前記フレームに、変更されたフレームパワーを生成する変更を適用することと、ここにおいて、前記変更が、前記所定のフレームパワーを使用して計算される、
    を行うように構成される、音声理解度向上システム。
  3. であり、ここで、wは1よりも大きく、yは前記所定のフレームパワーであり、xは前記抽出されたフレームの前記フレームパワーである、請求項2に記載のシステム。
  4. w=2である、請求項3に記載のシステム。
  5. 前記所定のフレームパワーは、λが前記フレーム重要性の前記測定値の関数であることに従って計算される、請求項2から4のいずれかに記載のシステム。
  6. 前記フレーム重要性の前記測定値は、前記フレームのメルケプストラムと以前のフレームのメルケプストラムとの相違性の測定値である、請求項1または5に記載のシステム。
  7. 後発残響に起因する前記寄与は、衰退関数で振幅変調されたパルス列として環境のインパルス応答をモデル化することによって推定される、請求項1から6のいずれかに記載のシステム。
  8. 前記所定のフレームパワーは、
    から計算され、ここで、yは前記所定のフレームパワーであり、xは前記抽出されたフレームの前記フレームパワーであり、lは後発残響に起因する前記寄与であり、λは乗数であり、wは1よりも大きく、c1およびc2は第1および第2の境界条件から決定され、bは定数である、請求項1から7のいずれかに記載のシステム。
  9. 前記第1の境界条件は、
    であり、ここで、αはサンプル音声データから取得された前記フレームパワーの最小値であり、前記第2の境界条件は、
    であり、ここで、σ∈(0,1)およびψ≫βであり、ここで、βは、サンプル音声データから取得された前記フレームパワーの最大値である、請求項8に記載のシステム。
  10. λは
    から計算され、ここにおいて、
    は、
    および
    の場合のxの関数としての前記所定のフレームパワーおよび前記関数y=xの交差点がβになるように、またこれがlのすべての値の場合の前記交差点の最大値になるように決定された定数であり、λ1およびλ2は、前記フレーム重要性の関数から計算される、請求項9に記載のシステム。
  11. λ1およびλ2は、xの関数としての前記所定のフレームパワーおよび前記関数y=xの前記交差点が前記フレーム重要性に依存するように計算される、請求項10に記載のシステム。
  12. iii)は、
    (a)2つ以上の周波数帯域の各々における前記抽出されたフレームの前記フレームパワーの割合を計算することと、
    (b)前記抽出されたフレームパワーの事前決定された割合に対応する最高パワー帯域に対応する前記抽出されたフレームの前記周波数帯域を決定することと、
    (c)後発残響信号の概算値を生成することと、
    (d)(b)において決定された前記周波数帯域の各々における前記後発残響信号のパワーの割合を計算することと、
    を備え、残響するときの前記音声の前記フレームパワーに対する後発残響に起因する前記寄与が、(d)において計算された前記周波数帯域の各々における前記後発残響信号のパワーの合計として推定される、請求項1から11のいずれかに記載のシステム。
  13. 前記変更の変化率は、
    になるように制限され、ここで、iはフレームインデックスであり、
    は、前記抽出されたフレームの前記パワーに対する前記変更されたフレームパワーの比の平方根であり、giは、前記抽出されたフレームの前記パワーに対する前記所定のフレームパワーの比の平方根であり、φ、UおよびDは定数である、請求項1から12のいずれかに記載のシステム。
  14. 前記音声入力部から受信された前記音声の前記フレームに適用される前記変更は、
    から計算され、ここで、
    であり、ここで、sは定数であり、φは定数であり、ξiは前記フレーム重要性である、請求項13に記載のシステム。
  15. フレームに関するφの値は、前記フレームの何らかの特性に基づいて、2つ以上の値から選択される、請求項14に記載のシステム。
  16. ステップi)は、
    前記音声入力部から受信された前記音声のオーバーラップフレームを抽出すること
    を備え、前記プロセッサは、
    vi)前記抽出されたフレームの前記パワーに対する前記変更されたフレームパワーの比が1よりも小さく、lが
    よりも大きい場合に、局所的時間スケール変更を適用するようにさらに構成され、ここにおいて、
    は、後発残響に起因する前記寄与の前記臨界値である、請求項1から15のいずれかに記載のシステム。
  17. ステップvi)は、
    新しい変更された音声信号を出力するために、変更された以前のフレームを備える変更された音声信号に、ステップv)から出力された前記変更されたフレームをオーバーラップ加算することを備え、時間スケール変更を適用することは、
    前記新しい変更された音声信号の最後のセグメントと前記新しい変更された音声信号の複数のターゲットセグメントの各々との間の相関を計算することと、ここにおいて、前記ターゲットセグメントが、前記新しい変更された音声信号の一連の先行セグメントに対応する、
    最も高い相関値に対応するターゲットセグメントを決定することと、
    前記ターゲットセグメントの前記相関値がしきい値よりも大きい場合に、
    前記新しい変更された音声信号の前記ターゲットセグメントから終わりまでの前記新しい変更された音声信号のセクションを複製することと、
    この複製されたセクションを、前記新しい変更された音声信号の最後のセグメントにオーバーラップ加算することと
    を備える、請求項16に記載のシステム。
  18. 前記しきい値は、前記ターゲットセグメントが前記最後のセグメントである場合の前記相関値とΩとの積であり、ここで、Ω∈(0,1)である、請求項17に記載のシステム。
  19. 音声を向上させる方法であって、
    向上されるべき音声を受信するステップと、
    前記受信された音声のフレームを抽出するステップと、
    フレーム重要性の測定値を計算するステップと、
    残響するときの前記音声のフレームパワーに対する後発残響に起因する寄与を推定するステップと、
    所定のフレームパワーを計算するステップと、前記所定のフレームパワーが、前記抽出されたフレームのパワー、前記フレーム重要性の前記測定値、および後発残響に起因する前記寄与の関数であり、前記関数が、後発残響への前記寄与が臨界値
    を超えて増大することに伴って、前記抽出されたフレームの前記パワーに対する前記所定のフレームパワーの比を低下させるように構成される、
    音声入力部から受信された前記音声の前記フレームに、変更されたフレームパワーを生成する変更を適用するステップと、ここにおいて、前記変更が、前記所定のフレームパワーを使用して計算される、
    を備える方法。
  20. 請求項19に記載の方法をコンピュータに実行させるように構成されたコンピュータ可読コードを備えるキャリア媒体。
JP2017029724A 2016-04-04 2017-02-21 音声処理システムおよび音声処理方法 Active JP6325138B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1605750.7 2016-04-04
GB1605750.7A GB2549103B (en) 2016-04-04 2016-04-04 A speech processing system and speech processing method

Publications (2)

Publication Number Publication Date
JP2017187746A JP2017187746A (ja) 2017-10-12
JP6325138B2 true JP6325138B2 (ja) 2018-05-16

Family

ID=59846771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017029724A Active JP6325138B2 (ja) 2016-04-04 2017-02-21 音声処理システムおよび音声処理方法

Country Status (3)

Country Link
US (1) US10438604B2 (ja)
JP (1) JP6325138B2 (ja)
GB (1) GB2549103B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11069334B2 (en) * 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
EP3624113A1 (en) 2018-09-13 2020-03-18 Nxp B.V. Apparatus for processing a signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4774255B2 (ja) * 2005-08-31 2011-09-14 隆行 荒井 音声信号処理方法、装置及びプログラム
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
JP5115818B2 (ja) * 2008-10-10 2013-01-09 国立大学法人九州大学 音声信号強調装置
CN103067821B (zh) * 2012-12-12 2015-03-11 歌尔声学股份有限公司 一种基于双麦克的语音混响消减方法和装置
EP2943954B1 (en) * 2013-01-08 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
FR3009121B1 (fr) * 2013-07-23 2017-06-02 Arkamys Procede de suppression de la reverberation tardive d'un signal sonore
EP2835986B1 (en) * 2013-08-09 2017-10-11 Oticon A/s Hearing device with input transducer and wireless receiver
US9538297B2 (en) * 2013-11-07 2017-01-03 The Board Of Regents Of The University Of Texas System Enhancement of reverberant speech by binary mask estimation
JP2015169901A (ja) * 2014-03-10 2015-09-28 ヤマハ株式会社 音響処理装置

Also Published As

Publication number Publication date
US10438604B2 (en) 2019-10-08
JP2017187746A (ja) 2017-10-12
US20170287498A1 (en) 2017-10-05
GB2549103B (en) 2021-05-05
GB2549103A (en) 2017-10-11

Similar Documents

Publication Publication Date Title
US8271277B2 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP6169849B2 (ja) 音響処理装置
KR102132500B1 (ko) 조화성 기반 단일 채널 음성 품질 추정 기법
US11133019B2 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
Tsilfidis et al. Automatic speech recognition performance in different room acoustic environments with and without dereverberation preprocessing
JP2015529847A (ja) ノイズ削減利得の百分位数フィルタリング
JP7059301B2 (ja) 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
JP5645419B2 (ja) 残響除去装置
JP6325138B2 (ja) 音声処理システムおよび音声処理方法
Chetupalli et al. Late reverberation cancellation using bayesian estimation of multi-channel linear predictors and student's t-source prior
EP2943954B1 (en) Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
Nahma et al. An adaptive a priori SNR estimator for perceptual speech enhancement
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
Kamarudin et al. Acoustic echo cancellation using adaptive filtering algorithms for Quranic accents (Qiraat) identification
Nathwani et al. Joint source separation and dereverberation using constrained spectral divergence optimization
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
JP5815614B2 (ja) 残響抑圧装置とその方法と、プログラムとその記録媒体
GB2537923A (en) A speech processing system and speech processing method
WO2022190245A1 (ja) 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム
JP7380361B2 (ja) 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置
Gaubitch et al. Multimicrophone speech dereverberation using spatiotemporal and spectral processing
Tonelli Blind reverberation cancellation techniques
Zhang Phase-Aware Speech Enhancement and Dereverberation
Nathwani et al. Multi channel reverberant speech enhancement using LP residual cepstrum

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180411

R150 Certificate of patent or registration of utility model

Ref document number: 6325138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350