JP2017194670A - コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 - Google Patents
コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 Download PDFInfo
- Publication number
- JP2017194670A JP2017194670A JP2017029379A JP2017029379A JP2017194670A JP 2017194670 A JP2017194670 A JP 2017194670A JP 2017029379 A JP2017029379 A JP 2017029379A JP 2017029379 A JP2017029379 A JP 2017029379A JP 2017194670 A JP2017194670 A JP 2017194670A
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- hearing device
- signal
- input signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013459 approach Methods 0.000 title claims abstract description 34
- 238000001914 filtration Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 44
- 238000001228 spectrum Methods 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 18
- 230000005284 excitation Effects 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 208000009205 Tinnitus Diseases 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000007476 Maximum Likelihood Methods 0.000 description 10
- 210000005069 ears Anatomy 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 9
- 230000008447 perception Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/55—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
- H04R25/552—Binaural
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/10—Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
- H04R2201/107—Monophonic and stereophonic headphones with microphone for two-way hands free communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- Neurosurgery (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】聴覚装置2は、音声信号および雑音信号を含む入力信号を提供する入力トランスデューサ4と、入力信号を処理するように構成される処理ユニット6と、処理ユニットからの出力信号を音声出力信号に変換するように、処理ユニットの出力部と結合された音響出力トランスデューサを8備える。処理ユニット6は、入力信号に対しコードブックベースのアプローチ処理を実行する。処理ユニット6は、コードブックベースのアプローチ処理に基づいて、入力信号の1つまたは複数のパラメータを決定するように構成される。処理ユニット6は、決定された1つまたは複数のパラメータを用いて、入力信号のカルマンフィルタリングを実行するように構成される。処理ユニット6は、カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成される。
【選択図】図1a
Description
カルマンフィルタによって、線形確率微分方程式によって支配されるプロセスの状態を再帰的に推定することが可能になる。それは二乗誤差の平均を最小にするという意味では、最適線形推定器であってもよい。このセクションでは、スムーサー遅延d≧Pを有する固定ラグカルマンスムーサの原理について説明する。カルマンスムーサは、音声信号s(n)の最小平均二乗誤差(MMSE)推定を提供してもよく、以下の数式で表すことができる。
上述したような音声強調の観点からのカルマンフィルタの使用には、音声の線形予測係数(LPC)、雑音の線形予測係数(LPC)、及び音声の励起信号の分散σ2 u(n)及び雑音の励起信号の分散σ2 u(n)から成る、状態遷移行列C{太字}(n)が既知であることが必要となり得る。これらのパラメータは音声の準定常性により、20−25ミリ秒(ms)のフレームにわたって一定であると仮定することができる。このセクションは、コードブックベースのアプローチを使ったこれらのパラメータの最小平均二乗誤差(MMSE)推定を説明する。この方法は、線形予測係数(LPC)の形式で調整されたコードブックに記録された、音声及び雑音のスペクトル形状についての事前情報を使用してもよい。推定されるパラメータは連結され、下記の単一ベクトルを形成してもよい。
このセクションは、上記した音声強調のフレームワークを評価するために実行された実験について記載する。評価に用いられた客観的尺度は、短期客観的明瞭度(STOI)、音声品質知覚評価(PESQ)及びセグメンタル信号対雑音比(SegSNR)である。この実験のテストセットは、2名の男性話者と2名の女性話者である4名の異なる話者から、CHiMEデータベースから8KHzにリサンプルした音声から構成される。シミュレーションに使用される雑音信号は、NOIZEUSデータベースからの複数話者バブルである。強調手順に必要である音声及び雑音のSTPパラメータは、上述のように25ミリ秒毎に推定される。STPパラメータの推定に使用する音声のコードブックは、TIMITデータベースからの10分の音声の調整サンプルに対し一般化Lloydアルゴリズム(GLA)を用いて生成してもよい。雑音のコードブックは、2分間のバブルを用いて生成してもよい。音声及びノイズのARモデルの次数は14になるように選択してもよい。実験で用いたパラメータは、表1の通りである。
このセクションにおいては、両耳の雑音のある信号、すなわち入力信号に接する際の、コードブックベースのアプローチを用いた音声及び雑音の短期予測(STP)パラメータの推定について記載する。推定された短期予測(STP)パラメータは、両耳の雑音のある信号の強調のためにさらに使用してもよい。以下において、最初に信号モデル及び、そこで用いられる仮説について説明する。それから、両耳シナリオにおける短期予測(STP)パラメータの推定を説明し、実験結果を考察する。
両耳の雑音のある信号、または左右の耳での入力信号は、それぞれzl(n)及びzr(n)と表記される。左耳での雑音のある信号zl(n)は、式(27)で示すように表わされる。ここで、sl(n)は、左耳のクリーンな音声成分であり、wl(n)は左耳の雑音成分である。
ここでの目的は、両耳の雑音のある信号または入力信号が与えられる、音声及び雑音の自己回帰(AR)プロセスに対応する、短期予測(STP)パラメータを推定することである。推定されるパラメータを以下のように表す。
このセクションは短期客観的明瞭度(STOI)及び音声品質知覚評価(PESQ)の得られた結果について説明する。推定した短期予測(STP)パラメータは、両耳の雑音の有る信号の強調のために使用してもよい。雑音のある信号は、まず発生したインパルス応答でクリーンな音声を畳み込み、次に両耳のバブル雑音と合計することによって生成される。図6a及び6bは、短期客観的明瞭度(STOI)と音声品質知覚評価(PESQ)のそれぞれの結果の比較を示す。短期予測(STP)パラメータの両耳の推定は、短期客観的明瞭度(STOI)スコアにおける2.5パーセントまでの増加と、音声品質知覚評価(PESQ)スコアにおいて0.08の増加を示している。このように、出力信号は、さらに両耳用の聴覚システムにおいて、音声明瞭度が向上されている。
カルマンフィルタリングは、線形二次推定(LQE)としても知られるが、それは時間にわたって観測される、統計的な雑音やその他の不正確性を含む一連の測定を使用し、単一の測定のみに基づくものよりも正確になる傾向にある、未知の変数の推定値を生成するアルゴリズムである。
x{太字}^ k|k:時間kまでの、および時間kを含む時点の観測が与えられた時の、時間kにおける事後の状態推定
P{太字}k|k:事後の誤差共分散行列(状態推定の推定精度の尺度)
予測(事前の)状態推定
イノベーションまたは測定残余
モデルが正確であり、x{太字}^ 0|0値とP{太字}0|0の値が初期の状態値の分布を正確に反映する場合、次の不変量が維持されるであろう(すべての推定値がゼロ平均誤差を有する)。
理論から得られるが、カルマンフィルタは、a)モデルが完全に実システムと一致している場合、b)入力される雑音が白色である場合、c)雑音の共分散が正確にわかっている場合において、最適である。共分散が推定された後、フィルタのパフォーマンスを評価すること、すなわち状態推定の品質を向上させられるかどうかを評価することが有意であり得る。カルマンフィルタが最適に動作する場合、イノベーションシーケンス(出力予測誤差)は白色雑音であってもよく、それゆえにイノベーションの白色性がフィルタパフォーマンスの尺度であってもよい。様々な方法がこの目的のために利用可能である。
上記の誤差共分散P{太字}k|kの不変量から開始する。
カルマンフィルタは最小平均二乗誤差(MMSE)推定器であってもよい。事後の状態推定における誤差は、x{太字}k−x{太字}^ k|kであり得る。このベクトルの大きさの二乗の予測値E{太字}[||x{太字}k−x{太字}^ k|k||2]を最小化しようとするとき、これは事後の推定共分散行列P{太字}k|kのトレースを最小化することと等価である。上記式の項を展開してまとめると、下記が得られる:
事後の誤差共分散を計算するために使用する式は、カルマンゲインが上記で導かれた最適値と等しいとき、単純化できる。カルマンゲインの式の両辺に、右側からS{太字}kK{太字}k Tを掛け合わせると、以下のようになる。
最適な固定ラグスムーサは、z{太字}1からz{太字}kまでの測定を使用して、与えられた固定ラグNについての最適な推定値x{太字}^k−N|kを与えてもよい。それは拡張された状態を介して以前の理論を使用して導くことができる。フィルタのメインの数式は次のようになり得る:
4:入力トランスデューサ
6:処理ユニット
8:出力トランスデューサ
10:聴覚装置の使用者
12:左耳の入力信号zl(n)または左耳の雑音のある信号
14:右耳の入力信号zr(n)または右耳の雑音のある信号
16:雑音のコードブック
18:音声のコードブック
20:左耳での雑音のあるスペクトルとモデル化された雑音のあるスペクトルとの間の板倉−斉藤ひずみで構成される左耳についての距離ベクトル
22:右耳での雑音のあるスペクトルとモデル化された雑音のあるスペクトルとの間の板倉−斉藤ひずみで構成される右耳についての距離ベクトル
24:左耳及び右耳の組み合わされた重み付け
26:左耳でのモデル化された雑音のあるスペクトル(16と18の合算)
28:右耳でのモデル化された雑音のあるスペクトル(16と18の合算)
30:左耳でのスペクトル包絡
32:右耳でのスペクトル包絡
34:左耳についての板倉−斉藤ひずみ
36:右耳についての板倉−斉藤ひずみ
38:左耳での雑音のあるスペクトル
40:右耳での雑音のあるスペクトル
101:音声信号及び雑音信号を含む入力信号z(n)を提供する
102:入力信号z(n)に対し、コードブックベースのアプローチ処理を実行する
103:ステップ102でのコードブックベースのアプローチ処理に基づいて、入力信号z(n)の1つまたは複数のパラメータを決定する
104:ステップ103で決定された1つまたは複数のパラメータを用いて、入力信号z(n)のカルマンフィルタリングを実行する
105:ステップ104でのカルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供する
Claims (15)
- 音声明瞭度を向上するための聴覚装置であって、
音声信号及び雑音信号を備える入力信号を提供する入力トランスデューサと、
前記入力信号を処理するように構成された処理ユニットと、
前記処理ユニットからの出力信号を音声出力信号に変換するために、前記処理ユニットの出力部に接続された音響出力トランスデューサと、を備え、
前記処理ユニットは、前記入力信号に対し、コードブックベースのアプローチ処理を実行するように構成されており、
前記処理ユニットは、前記コードブックベースのアプローチ処理に基づいて、前記入力信号の1つまたは複数のパラメータを決定するように構成されており、
前記処理ユニットは、決定された前記1つまたは複数のパラメータを用いて、前記入力信号のカルマンフィルタリングを実行するように構成されており、
前記処理ユニットは、前記カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成されている、聴覚装置。 - 前記入力信号は、1つまたは複数のフレームに分割されており、
前記1つまたは複数のフレームは、音声信号を表わす第1のフレーム、及び/または雑音信号を表わす第2のフレーム、及び/または無音を表わす第3のフレームを含む、請求項1に記載の聴覚装置。 - 前記1つまたは複数のパラメータは、短期予測(STP)パラメータを含む、請求項1または2に記載の聴覚装置。
- 前記1つまたは複数のパラメータは、
音声の線形予測係数(LPC)及び雑音の線形予測係数(LPC)を含む状態遷移行列C(n)である第1のパラメータ、
音声の励起信号の分散σ2 u(n)である第2のパラメータ、及び/または
雑音の励起信号の分散σ2 v(n)である第3のパラメータ 、
のうち1つまたは複数を含む、請求項1から3のいずれか一項に記載の聴覚装置。 - 前記1つまたは複数のパラメータは、25ミリ秒のフレームにわたって一定であると仮定される、請求項1から4のいずれか一項に記載の聴覚装置。
- 前記1つまたは複数のパラメータを決定することは、線形予測係数(LPC)の形式の、前記コードブックベースのアプローチ処理で使用される、コードブックに記録された音声のスペクトルの形状及び/または雑音のスペクトルの形状についての、事前の情報を使用することを備える、請求項1から5のいずれか一項に記載の聴覚装置。
- 前記コードブックベースのアプローチ処理で使用される、前記コードブックは、一般的な音声のコードブック、または話者固有の調整がなされたコードブックである、請求項1から6のいずれか一項に記載の聴覚装置。
- 前記話者固有の調整がなされたコードブックは、理想的な条件下で前記聴覚装置の使用者に関連する特定の人々の音声を記録することによって生成される、請求項7に記載の聴覚装置。
- 前記コードブックベースのアプローチ処理に使用される、前記コードブックは、自動的に選択され、その選択は、前記入力信号のスペクトルに基づく、及び/または、各利用可能なコードブックについての短期客観的明瞭度(STOI)の測定に基づく、請求項1から8のいずれか一項に記載の聴覚装置。
- 前記カルマンフィルタリングは、前記音声信号の最小平均二乗推定器(MMSE)を提供する固定ラグカルマンスムーサを含む、請求項1から9のいずれか一項に記載の聴覚装置。
- 前記カルマンスムーサは、前記入力信号の状態ベクトル及び誤差共分散行列の事前の推定及び事後の推定を計算することを含む、請求項10に記載の聴覚装置。
- 前記音声信号の短期予測(STP)パラメータの加重合計の算出が、線スペクトル周波数(LSF)領域において実行される、請求項1から11のいずれか一項に記載の聴覚装置。
- 前記聴覚装置は、使用者が着用するように構成された両耳用聴覚装置システムにおける、第2の聴覚装置と通信するように構成された第1の聴覚装置である、請求項1から12のいずれか一項に記載の聴覚装置。
- 前記第1の聴覚装置は、左耳の音声信号及び左耳の雑音信号を含む左耳の入力信号を提供する第1の入力トランスデューサを備え、
前記第2の聴覚装置は、右耳の音声信号及び右耳の雑音信号を含む右耳の入力信号を提供する第2の入力トランスデューサを備え、
前記第1の聴覚装置は、前記コードブックベースのアプローチ処理に基づいて、前記左耳の入力信号の1つまたは複数の左側のパラメータを決定するように構成された第1の処理ユニットを備え、
前記第2の聴覚装置は、前記コードブックベースのアプローチ処理に基づいて、前記右耳の入力信号の1つまたは複数の右側のパラメータを決定するように構成された第2の処理ユニットを備える、請求項13に記載の聴覚装置。 - 聴覚装置において音声明瞭度を向上させる方法であって、
音声信号及び雑音信号を含む入力信号を提供するステップと、
前記入力信号に対し、コードブックベースのアプローチ処理を実行するステップと、
前記コードブックベースのアプローチ処理に基づいて、前記入力信号の1つまたは複数のパラメータを決定するステップと、
決定された1つまたは複数のパラメータを用いて、前記入力信号のカルマンフィルタリングを実行するステップと、
前記カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するステップと、を含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16159858.6A EP3217399B1 (en) | 2016-03-11 | 2016-03-11 | Kalman filtering based speech enhancement using a codebook based approach |
EP16159858.6 | 2016-03-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017194670A true JP2017194670A (ja) | 2017-10-26 |
JP6987509B2 JP6987509B2 (ja) | 2022-01-05 |
Family
ID=55527403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017029379A Active JP6987509B2 (ja) | 2016-03-11 | 2017-02-20 | コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10284970B2 (ja) |
EP (1) | EP3217399B1 (ja) |
JP (1) | JP6987509B2 (ja) |
CN (1) | CN107180644B (ja) |
DK (1) | DK3217399T3 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023144915A1 (ja) * | 2022-01-26 | 2023-08-03 | 日本電信電話株式会社 | 情報提示装置、情報提示方法、および情報提示プログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018206689A1 (de) * | 2018-04-30 | 2019-10-31 | Sivantos Pte. Ltd. | Verfahren zur Rauschunterdrückung in einem Audiosignal |
CN109286470B (zh) * | 2018-09-28 | 2020-07-10 | 华中科技大学 | 一种主动非线性变换信道加扰传输方法 |
CN112242145A (zh) * | 2019-07-17 | 2021-01-19 | 南京人工智能高等研究院有限公司 | 语音滤波方法、装置、介质和电子设备 |
CN110942779A (zh) * | 2019-11-13 | 2020-03-31 | 苏宁云计算有限公司 | 一种噪声处理方法、装置、系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000132196A (ja) * | 1998-10-23 | 2000-05-12 | Toshiba Corp | ディジタル携帯電話及びデータ通信方法 |
JP2001222298A (ja) * | 2000-02-10 | 2001-08-17 | Mitsubishi Electric Corp | 音声符号化方法および音声復号化方法とその装置 |
JP2002006898A (ja) * | 2000-06-22 | 2002-01-11 | Asahi Kasei Corp | ノイズ低減方法及びノイズ低減装置 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
JP2003529950A (ja) * | 1998-11-23 | 2003-10-07 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化 |
JP2010114897A (ja) * | 2008-11-04 | 2010-05-20 | Gn Resound As | 非対称的調整 |
JP2013531275A (ja) * | 2010-06-30 | 2013-08-01 | インテル・コーポレーション | 発話音声処理 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3557662B2 (ja) * | 1994-08-30 | 2004-08-25 | ソニー株式会社 | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 |
JPH08254996A (ja) * | 1995-03-16 | 1996-10-01 | Hitachi Ltd | 音声符号化装置 |
JP4006770B2 (ja) * | 1996-11-21 | 2007-11-14 | 松下電器産業株式会社 | ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法 |
ATE277405T1 (de) * | 1997-01-27 | 2004-10-15 | Microsoft Corp | Stimmumwandlung |
US20090163168A1 (en) * | 2005-04-26 | 2009-06-25 | Aalborg Universitet | Efficient initialization of iterative parameter estimation |
FR2894707A1 (fr) * | 2005-12-09 | 2007-06-15 | France Telecom | Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit |
KR101542069B1 (ko) | 2006-05-25 | 2015-08-06 | 삼성전자주식회사 | 고정 코드북 검색 방법 및 장치와 그를 이용한 음성 신호의부호화/복호화 방법 및 장치 |
JP4410819B2 (ja) * | 2007-10-23 | 2010-02-03 | Okiセミコンダクタ株式会社 | エコーキャンセラ |
EP2246845A1 (en) * | 2009-04-21 | 2010-11-03 | Siemens Medical Instruments Pte. Ltd. | Method and acoustic signal processing device for estimating linear predictive coding coefficients |
CN102890935B (zh) * | 2012-10-22 | 2014-02-26 | 北京工业大学 | 一种基于快速卡尔曼滤波的鲁棒语音增强方法 |
BR112015020150B1 (pt) * | 2013-02-26 | 2021-08-17 | Mediatek Inc. | Aparelho para gerar um sinal de fala, e, método para gerar um sinal de fala |
JP2014219467A (ja) * | 2013-05-02 | 2014-11-20 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
US9838804B2 (en) * | 2015-02-27 | 2017-12-05 | Cochlear Limited | Methods, systems, and devices for adaptively filtering audio signals |
-
2016
- 2016-03-11 DK DK16159858.6T patent/DK3217399T3/en active
- 2016-03-11 EP EP16159858.6A patent/EP3217399B1/en active Active
-
2017
- 2017-02-20 JP JP2017029379A patent/JP6987509B2/ja active Active
- 2017-02-21 US US15/438,388 patent/US10284970B2/en active Active
- 2017-03-10 CN CN201710165066.XA patent/CN107180644B/zh active Active
-
2019
- 2019-05-03 US US16/402,837 patent/US11082780B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000132196A (ja) * | 1998-10-23 | 2000-05-12 | Toshiba Corp | ディジタル携帯電話及びデータ通信方法 |
JP2003529950A (ja) * | 1998-11-23 | 2003-10-07 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化 |
JP2001222298A (ja) * | 2000-02-10 | 2001-08-17 | Mitsubishi Electric Corp | 音声符号化方法および音声復号化方法とその装置 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
JP2002006898A (ja) * | 2000-06-22 | 2002-01-11 | Asahi Kasei Corp | ノイズ低減方法及びノイズ低減装置 |
JP2010114897A (ja) * | 2008-11-04 | 2010-05-20 | Gn Resound As | 非対称的調整 |
JP2013531275A (ja) * | 2010-06-30 | 2013-08-01 | インテル・コーポレーション | 発話音声処理 |
Non-Patent Citations (1)
Title |
---|
KRISHNAN, V., ET AL.: "Noise Robust Aurora-2 Speech Recognition Employing a Codebook-Constrained Kalman Filter Preprocessor", PROC. 2006 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING (ICASSP 2006), JPN6021000768, 14 May 2006 (2006-05-14), pages 781 - 784, ISSN: 0004425689 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023144915A1 (ja) * | 2022-01-26 | 2023-08-03 | 日本電信電話株式会社 | 情報提示装置、情報提示方法、および情報提示プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20190261098A1 (en) | 2019-08-22 |
DK3217399T3 (en) | 2019-02-25 |
EP3217399A1 (en) | 2017-09-13 |
CN107180644A (zh) | 2017-09-19 |
US11082780B2 (en) | 2021-08-03 |
EP3217399B1 (en) | 2018-11-21 |
US20170265010A1 (en) | 2017-09-14 |
US10284970B2 (en) | 2019-05-07 |
JP6987509B2 (ja) | 2022-01-05 |
CN107180644B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6987509B2 (ja) | コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 | |
Zhao et al. | Perceptually guided speech enhancement using deep neural networks | |
Zhao et al. | HMM-based gain modeling for enhancement of speech in noise | |
Srinivasan et al. | Codebook-based Bayesian speech enhancement for nonstationary environments | |
DK1760696T3 (en) | Method and apparatus for improved estimation of non-stationary noise to highlight speech | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
Doire et al. | Single-channel online enhancement of speech corrupted by reverberation and noise | |
Yoshioka et al. | Integrated speech enhancement method using noise suppression and dereverberation | |
KR102236471B1 (ko) | 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법 | |
AU2009203194A1 (en) | Noise spectrum tracking in noisy acoustical signals | |
US11676621B2 (en) | Hearing device and method with non-intrusive speech intelligibility | |
Nielsen et al. | Model-based noise PSD estimation from speech in non-stationary noise | |
Habets et al. | Dereverberation | |
Dionelis et al. | Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation | |
CN101322183B (zh) | 信号失真消除装置、方法 | |
Astudillo et al. | Uncertainty propagation | |
Yoshioka et al. | Dereverberation by using time-variant nature of speech production system | |
Wang | Speech enhancement in the modulation domain | |
US8306249B2 (en) | Method and acoustic signal processing device for estimating linear predictive coding coefficients | |
LeBlanc et al. | A two-stage deep neuroevolutionary technique for self-adaptive speech enhancement | |
Martín-Doñas et al. | An extended kalman filter for RTF estimation in dual-microphone smartphones | |
Kavalekalam et al. | Model based binaural enhancement of voiced and unvoiced speech | |
Sehr et al. | Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition | |
KR101537653B1 (ko) | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 | |
Leutnant et al. | A statistical observation model for noisy reverberant speech features and its application to robust ASR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210119 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6987509 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |