JP2017194670A - コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 - Google Patents

コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 Download PDF

Info

Publication number
JP2017194670A
JP2017194670A JP2017029379A JP2017029379A JP2017194670A JP 2017194670 A JP2017194670 A JP 2017194670A JP 2017029379 A JP2017029379 A JP 2017029379A JP 2017029379 A JP2017029379 A JP 2017029379A JP 2017194670 A JP2017194670 A JP 2017194670A
Authority
JP
Japan
Prior art keywords
codebook
hearing device
signal
input signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017029379A
Other languages
English (en)
Other versions
JP6987509B2 (ja
Inventor
マシュー シャジ キャヴァレキャラム
Shaji Kavalekalam Mathew
マシュー シャジ キャヴァレキャラム
マッズ グラスブル クリステンセン
Grasboll Christensen Mads
マッズ グラスブル クリステンセン
フレドリック グラン
Gran Fredrik
フレドリック グラン
イェスパー ビー. ボルト
B Boldt Jesper
イェスパー ビー. ボルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GN Hearing AS
Original Assignee
GN Hearing AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GN Hearing AS filed Critical GN Hearing AS
Publication of JP2017194670A publication Critical patent/JP2017194670A/ja
Application granted granted Critical
Publication of JP6987509B2 publication Critical patent/JP6987509B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/552Binaural
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声明瞭度を向上する方法および聴覚装置を提供する。
【解決手段】聴覚装置2は、音声信号および雑音信号を含む入力信号を提供する入力トランスデューサ4と、入力信号を処理するように構成される処理ユニット6と、処理ユニットからの出力信号を音声出力信号に変換するように、処理ユニットの出力部と結合された音響出力トランスデューサを8備える。処理ユニット6は、入力信号に対しコードブックベースのアプローチ処理を実行する。処理ユニット6は、コードブックベースのアプローチ処理に基づいて、入力信号の1つまたは複数のパラメータを決定するように構成される。処理ユニット6は、決定された1つまたは複数のパラメータを用いて、入力信号のカルマンフィルタリングを実行するように構成される。処理ユニット6は、カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成される。
【選択図】図1a

Description

本明細書は、音声明瞭度を向上させるための方法及び聴覚装置に関する。聴覚装置は、音声信号及び雑音信号を含む入力信号を供給するための入力トランスデューサと、入力信号を処理するように構成された処理ユニットと、を備え、処理ユニットは、入力信号に対してコードブックベースのアプローチ処理を実行するように構成されている。
背景雑音によって劣化した音声の改良は、その広い適用範囲から、過去数十年間にわたり関心があるトピックである。重要な適用事例には、デジタル補聴器、ハンズフリー携帯通信装置、音声認識装置がある。音声強調システムの目的は、劣化音声の品質及び明瞭度を改善することである。従来開発されてきた音声強調アルゴリズムは、スペクトル減算法、統計学的モデルに基づいた方法、部分空間法に大まかに分類できる。従来の単一チャネルの音声強調アルゴリズムは、音性品質を改善する一方で、非定常の背景雑音が存在する状況において音声明瞭度を改善することには成功していない。補聴器ユーザーが共通して経験するバブル雑音は、著しく非定常な雑音と考えられている。このため、このようなシナリオにおける音声明瞭度の改善が非常に望ましい。
聴覚装置において、例えば非定常の背景雑音の存在下、音声明瞭度を向上する必要性がある。
本願は、音声明瞭度を向上するための聴覚装置を開示する。聴覚装置は、音声信号及び雑音信号を含む入力信号を提供する入力トランスデューサを備える。聴覚装置は、入力信号を処理するように構成される処理ユニットを備える。聴覚装置は、処理ユニットからの出力信号を音声出力信号に変換するように処理ユニットの出力部と結合された音響出力トランスデューサを備える。処理ユニットは、入力信号に対し、コードブックベースのアプローチ処理を実行するように構成される。処理ユニットは、コードブックベースのアプローチ処理に基づいて、入力信号の1つまたは複数のパラメータを決定するように構成される。処理ユニットは、決定された1つまたは複数のパラメータを用いて、入力信号のカルマンフィルタリングを実行するように構成される。処理ユニットは、カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成される。
聴覚装置において音声明瞭度を向上させる方法も開示される。その方法は、音声信号及び雑音信号を含む入力信号を提供することを含む。その方法は、入力信号に対しコードブックベースのアプローチ処理を実行することを含む。その方法は、コードブックベースのアプローチ処理に基づいて、入力信号の1つまたは複数のパラメータを決定することを含む。その方法は、決定された1つまたは複数のパラメータを用いて、入力信号のカルマンフィルタリングを実行することを含む。その方法は、カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供することを含む。
開示されている方法及び聴覚装置は、聴覚装置における出力信号が、非定常な背景雑音の存在下においても、音声明瞭度の観点において向上または改善されることを提供する。このように、聴覚装置の使用者は、音声の明瞭度が改善した出力信号を受ける、または、聞くことになる。これは、例えば補聴器の使用者がよく遭遇する、バブル雑音のような非定常の背景雑音の存在下で、特に利点である。
入力信号のカルマンフィルタリングを実行するので、出力信号の音声明瞭度は向上する。カルマンフィルタリングを実行するために、カルマンフィルタリングへの入力として使用される入力信号の1つまたは複数のパラメータが決定されるべきである。これら1つまたは複数のパラメータは、入力信号のコードブックベースのアプローチ処理を実行することによって決定される。
向上または改善された音声明瞭度は、短期客観的明瞭度(STOI)、及びセグメンタル信号対雑音比(SegSNR)、及び音声品質知覚評価(PESQ)のような客観的尺度によって評価されてもよい。
入力信号z(n)は雑音と音声の両方を含むため、入力信号z(n)は雑音のある信号z(n)と言うこともできる。このように、入力信号はクリーンな音声信号s(n)と言うこともできる音声信号s(n)を含む。入力信号z(n)は、雑音信号w(n)も含む。音声信号は、入力信号の音声成分と言うこともできる。雑音信号は入力信号の雑音成分と言うこともできる。雑音信号、すなわち入力信号の雑音成分は、例えば非定常な背景雑音、例えばバブル雑音のような背景雑音などでもよい。
したがって、コードブックは、雑音のコードブック及び/または音声のコードブックを含んでもよい。雑音のコードブックは、例えば雑音のある環境、例えば交通雑音、カフェテリアの雑音などを録音することにより、コードブックを調整することによって生成されてもよい。このような雑音のある環境は、背景雑音と見なされてもよく、または背景雑音を構成してもよい。これらの雑音のある環境の中での録音によって、例えば20−30ミリ秒(ms)のノイズスペクトルを得てもよい。
音声のコードブックは、例えば人々からの音声を録音することなどにより、コードブックを調整することによって生成されてもよい。
コードブック、例えば音声のコードブックは、話者固有のコードブックまたは一般的なコードブックであってもよい。話者固有のコードブックは、使用者がよく会話する人々から録音することによって調整してもよい。その音声は、背景雑音がないような理想条件下で録音してもよい。これによって20−30ミリ秒の音声スペクトルを得てもよい。
聴覚装置は、デジタル聴覚装置であってもよい。聴覚装置は、補聴器や、ハンズフリー携帯通信装置や、音声認識装置などであってもよい。
入力トランスデューサは、マイクであってもよい。出力トランスデューサは、レシーバ、またはラウドスピーカであってもよい。
入力信号のカルマンフィルタリングにおいて使用されるカルマンフィルタは、単一チャネルのカルマンフィルタ、または複数チャネルのカルマンフィルタであってもよい。
1つまたは複数のパラメータは、スペクトルの形状を規定するスペクトル包絡のパラメータであってもよい。
1つまたは複数のパラメータは、線形予測係数(LPC)、及び/または短期予測(STP)パラメータ、及び/または自己回帰(AR)パラメータを含むか、それらであってもよい。線形予測係数は、励起分散と併せて、短期予測(STP)パラメータ、及び/または自己回帰(AR)パラメータとを含んでもよい、または、そのように呼ばれてもよい。
一部の実施例においては、入力信号は1つまたは複数のフレームに分割され、1つまたは複数のフレームは、音声信号を表わす第1のフレーム、及び/または雑音信号を表わす第2のフレーム、及び/または無音を表わす第3のフレームを含んでもよい。雑音のコードブックは、雑音信号を表わす第2のフレームについて使用してもよい。音声のコードブックは、音声信号を表わす第1のフレームについて使用してもよい。
一部の実施例において、1つまたは複数のパラメータは、短期予測(STP)パラメータを含む。このように、パラメータは、一般に短期予測(STP)パラメータと呼んでもよい。自己回帰パラメータは、短期予測(STP)パラメータであってもよい。線形予測係数(LPC)は、短期予測(STP)パラメータであってもよく、または短期予測(STP)パラメータに含まれていてもよい。
一部の実施例において、1つまたは複数のパラメータは、音声の線形予測係数(LPC)及び雑音の線形予測係数(LPC)を含む状態遷移行列C(n)である第1のパラメータと、音声の励起信号の分散σ (n)である第2のパラメータと、及び/または、雑音の励起信号の分散σ (n)である第3のパラメータと、のうち、1つまたは複数を含む。
一部の実施例において、1つまたは複数のパラメータは、20ミリ秒のフレームにわたって一定であると仮定される。音声強調におけるカルマンフィルタの使用には、音声の線形予測係数(LPC)及び雑音の線形予測係数(LPC)、音声の励起信号の分散σ (n)、雑音の励起信号の分散σ (n)から成る状態遷移行列C(n)が既知であることが必要であり得る。これらのパラメータは、音声の準定常性のために、25ミリ秒のフレームにわたって一定であると仮定してもよい。
一部の実施例においては、1つまたは複数のパラメータを決定することは、線形予測係数(LPC)の形式の、コードブックベースのアプローチ処理で使用される、コードブックに記録された音声のスペクトルの形状、及び/または雑音のスペクトルの形状についての、事前の情報を使用することを備える。雑音のコードブックは、雑音のスペクトルの形状を含んでもよく、音声のコードブックは、音声のスペクトルの形状を含んでもよい。
一部の実施例において、コードブックベースのアプローチ処理で使用されるコードブックは、一般的な音声のコードブック、または話者固有の調整がなされたコードブックである。一般的なコードブックもまた、一般的な女性の音声のコードブック、及び/または一般的な男性の音声のコードブック、及び/または一般的な子供の音声のコードブックを提供するなどして、より個別的に作成してもよい。このように、ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットによって認識されないが、女性話者として認識される場合、一般的な女性の音声のコードブックが処理ユニットによって選択されてもよい。これに対応して、ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットによって認識されないが、男性話者として認識される場合、一般的な男性の音声のコードブックが処理ユニットによって選択されてもよい。また、ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理装置によって認識されないが、子供話者として認識される場合、一般的な子供の音声のコードブックが処理ユニットによって選択されてもよい。
一部の実施例において、話者固有の調整がなされたコードブックは、理想的な条件下で聴覚装置の使用者に関連する特定の人々の音声を記録することによって生成される。特定の人々は、例えば、配偶者、子供、両親もしくは兄弟姉妹などの近い家族、及び親しい友人や同僚などの聴覚装置使用者がよく話す人々であってもよい。理想的な条件とは、背景雑音がない、全く雑音がない、良好な音声の受信状態などの条件であってもよい。コードブックは、20−30ミリ秒にわたってスペクトルを記録し保存することで生成してもよく、スペクトルは、音または音の断片であり得、音の断片とは各特定の人または話者のスペクトル包絡線を提供するための音の最も小さい部分であり得る。
一部の実施例において、コードブックベースのアプローチ処理に使われるコードブックは、自動的に選択される。一部の実施例において、その選択は、入力信号のスペクトルに基づく、及び/または、各利用可能なコードブックについての短期客観的明瞭度(STOI)の測定に基づく。このように、ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致するとして処理ユニットによって認識される場合、その話者固有の調整がなされたコードブックが処理ユニットによって選択されてもよい。ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致するとして処理ユニットによって認識されない場合、一般的なコードブックが処理装置によって選択されてもよい。ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットによって認識されないが、女性話者として認識される場合、一般的な女性の音声のコードブックが処理ユニットによって選択されてもよい。これに対応して、ある話者からの入力スペクトルが話者固有の調整がなされたコードブックが存在する特定の人に一致すると処理ユニットに認識されないが、男性話者として認識される場合、一般的な男性の音声のコードブックが処理ユニットによって選択されてもよい。また、ある話者からの入力スペクトルが、話者固有の調整がなされたコードブックが存在する特定の人に一致するとして処理ユニットに認識されないが、子供話者として認識される場合、一般的な子供の音声のコードブックが処理ユニットによって選択されてもよい。
一部の実施例において、カルマンフィルタリングは、音声信号の最小平均二乗推定器(MMSE)を提供する固定ラグカルマンスムーサを含む。
一部の実施例において、カルマンスムーサは、入力信号の状態ベクトル及び誤差共分散行列の事前の推定及び事後の推定を計算することを含む。
一部の実施例において、音声信号の短期予測(STP)パラメータの加重合計の算出が、線スペクトル周波数(LSF)領域において実行される。短期予測(STP)パラメータまたは自己回帰(AR)パラメータの加重合計の算出は、望ましくは線形予測係数(LPC)領域ではなくむしろ線スペクトル周波数(LSF)領域において実行されるべきである。線スペクトル周波数(LSF)領域における加重合計の算出は、線形予測係数(LPC)領域において必ずしも当てはまらない、安定した逆フィルタをもたらすことを保証し得る。
一部の実施例において、聴覚装置は、使用者が着用するように構成される両耳用聴覚装置システムにおける、第2の聴覚装置と通信するように構成される第1の聴覚装置である。このように、使用者は、2つの聴覚装置を着用してもよく、第1の聴覚装置は例えば左耳の中または左耳に、及び第2の聴覚装置は例えば右耳の中または右耳に着用してもよい。2つの聴覚装置は、使用者にできるだけ最良の音声出力を提供するために、互いに通信してもよい。2つの聴覚装置は、両耳での聴力補償を必要とする使用者が着用するように構成される聴覚補聴器であってもよい。
一部の実施例において、第1の聴覚装置は、左耳の音声信号及び左耳の雑音信号を含む左耳の入力信号を提供する第1の入力トランスデューサを備える。一部の実施例において、第2の聴覚装置は、右耳の音声信号及び右耳の雑音信号を含む右耳の入力信号を提供する第2の入力トランスデューサを備える。一部の実施例において、第1の聴覚装置は、コードブックベースのアプローチ処理に基づいて、左耳の入力信号の1つまたは複数のパラメータを決定するように構成される第1の処理ユニットを備える。一部の実施例において、第2の聴覚装置は、コードブックベースのアプローチ処理に基づいて、右耳の入力信号の1つまたは複数のパラメータを決定するように構成される第2の処理ユニットを備える。このように、第1の聴覚装置及び第1の処理ユニットは、左耳の入力信号における左側のパラメータを決定してもよい。第2の聴覚装置及び第2の処理ユニットは、右耳の入力信号における右側のパラメータを決定してもよい。このように、一連のパラメータが各耳について決定されてもよい。あるいは、第1及び第2の聴覚装置のうちのひとつが、メインまたはマスターの聴覚装置として選択され、このメインまたはマスターの聴覚装置が、両聴覚装置の、したがって両耳の入力信号における入力信号の処理を実行してもよく、それによってメインまたはマスターの聴覚装置の処理ユニットは、左耳の入力信号及び右耳の入力信号の両方のパラメータを決定してもよい。
本願は、上述した、及び以下で説明するような、聴覚装置及び方法、ならびに対応する方法、聴覚装置、システム、ネットワーク、キット、使用及び/または製品の手段を含む、様々な構成に関連しており、それぞれが最初に言及する構成に関連して記載された1つまたは複数の利益及び利点をそれぞれ有しており、またそれぞれが最初に言及する構成及び/または添付の特許請求の範囲に関連して記載された実施例に対応する1つまたは複数の実施例を有する。
上記及びその他の特徴及び利点は、添付の図面を参照する以下の例示的な実態形態の詳細な説明により、当業者には容易に明らかになるだろう。
音声明瞭度を向上するための聴覚装置を模式的に示す図。 聴覚装置において音声明瞭度を向上させるための方法を模式的に示す図。 音声明瞭度を向上させるための方法についての、短期客観的明瞭度(STOI)のスコアの比較を示す図。 音声明瞭度を向上させるための方法についての、セグメンタル信号対雑音比(SegSNR)のスコアの比較を示す図。 音声明瞭度を向上させるための方法についての、音声品質の知覚評価(PESQ)スコアの比較を示す図。 両耳の入力信号からの短期予測(STP)パラメータの推定のためのブロック図を模式的に示す図。 両耳の信号についての、短期客観的明瞭度(STOI)の比較結果を示す図。 両耳の信号についての、音声品質の知覚評価(PESQ)の比較結果を示す図。
図面を参照して、様々な実施例が以下に記述される。同様の参照符号は全体にわたって同様の要素を指す。このため、各要素は各図の説明毎に詳細に記述されない。なお、図は実施例の説明を容易にすることのみが意図されている。図面は特許請求の範囲に記載された発明の包括的な説明として、または特許請求の範囲に記載された発明の範囲を限定するものとして意図されていない。さらに図示した実施例は、示されるすべての態様または利点を有している必要はない。特定の実施例に関連して説明される態様または利点は必ずしもその実施例に限定されず、そのように図示されていない場合でも、または明示的に説明されていない場合においても、他の実施例においても実施することができる。
明細書の全体を通して、同じ参照番号が同一箇所もしくは対応箇所において使用される。
図1aは音声明瞭度を向上するための聴覚装置2を模式的に図示している。
聴覚装置2は、音声信号s(n)及び雑音信号w(n)を含む、入力信号z(n)または雑音のある信号z(n)を提供するための、例えばマイクである入力トランスデューサ4を備える。
聴覚装置2は、入力信号z(n)を処理するように構成された処理ユニット6を備える。
聴覚装置2は、処理ユニット6からの出力信号を音声出力信号へ変換するように処理ユニット6の出力部に接続された、例えばレシーバまたはラウドスピーカである音響出力トランスデューサ8を備える。
処理ユニット6は、入力信号z(n)にコードブックベースのアプローチ処理を行うように構成される。
処理ユニット6は、コードブックベースのアプローチ処理に基づいて、入力信号z(n)の1つまたは複数のパラメータを決定するように構成される。
処理ユニット6は、決定された1つまたは複数のパラメータを用いて、入力信号z(n)のカルマンフィルタリングを実行するように構成される。
処理ユニット6は、カルマンフィルタリングによって、出力信号の音声明瞭度が向上されることを提供するように構成される。
本聴覚装置と方法は、カルマンフィルタに基づいた音声強調フレームワークに関する。音声強調のためのカルマンフィルタリングは、白色背景雑音、またはカルマンフィルタが機能するために必要とされる音声、及びノイズ短期予測(STP)パラメータが近似期待値最大化アルゴリズムを用いて推定される、有色雑音に対するものであってよい。本聴覚装置及び方法は、音声及び雑音短期予測(STP)パラメータを推定するために、コードブックベースのアプローチを使用する。短期客観的明瞭度(STOI)及びセグメンタルSNR(SegSNR)のような客観的尺度が、バブル雑音存在下において強調アルゴリズムのパフォーマンスを評価するために、本聴覚装置及び方法に用いられた。アルゴリズムのパフォーマンスについて、一般的な音声コードブックを超える、話者に固有の調整がなされたコードブックを有することの効果が、本聴覚装置及び方法について研究された。以下では、使用される信号モデル及び仮説について説明する。音声強調フレームワークの詳細を説明する。実験や結果も紹介される。
使用される信号モデル、及び仮説を以下で説明する。以下の数式により、クリーンな音声信号s(n)とも呼ばれる音声信号s(n)は、雑音信号w(n)に付加的に干渉され、雑音のある信号z(n)とも呼ばれる入力信号z(n)を形成することが仮定される。
Figure 2017194670
雑音と音声は統計的に独立しているか、または互いに相関がないと仮定してもよい。クリーンな音声信号s(n)は、以下の数式で表現される確率的自己回帰(AR)プロセスとしてモデル化してもよい。
Figure 2017194670
ここで、a{太字}(n)=[a(n),a(n),...a(n)]は、音声の線形予測係数(LPC)を含むベクトルであり、s{太字}(n−1)=[s(n−1),...s(n−P)]であり、Pは音声信号に対応する自己回帰(AR)プロセスの次数であり、u(n)はゼロ平均と励起分散σ (n)を有する白色ガウス雑音(WGN)である。
以下の数式によって、雑音信号も自己回帰(AR)プロセスとしてモデル化してもよい。
Figure 2017194670
ここで、b{太字}(n)=[b(n),b(n),...b(n)]は雑音の線形予測係数(LPC)を含むベクトルであり、w{太字}(n−1)=[w(n−1),...w(n−Q)]であり、Qは雑音信号に対応する自己回帰(AR)プロセスの次数であり、v(n)はゼロ平均と励起分散σ (n)を有する白色ガウス雑音(WGN)である。励起分散と線形予測係数(LPC)は、一般的に短期予測(STP)パラメータを構成する。
本聴覚装置及び方法においては、カルマンフィルタリングに基づいた単一チャネルの音声強調技術を用いてもよい。音声強調フレームワークの基本ブロック図を図1bに示す。図からは、雑音のある信号とも呼ばれる入力信号z(n)は、カルマンフィルタリングのカルマンスムーサに入力信号として供給され、カルマンスムーサの機能実行のために用いられる音声及び雑音短期予測(STP)パラメータは、コードブックベースのアプローチを用いて推定されることがわかる。カルマンフィルタに基づく音声強調の原理は以下において説明され、音声及び雑音短期予測(STP)パラメータのコードブックベースの推定は後で説明される。
図1bは聴覚装置において音声明瞭度を強化するための方法を模式的に示す。
当該方法において、ステップ101では、音声信号及び雑音信号を備える入力信号z(n)を供給する。
当該方法において、ステップ102では、入力信号z(n)にコードブックベースのアプローチ処理を実行する。
当該方法において、ステップ103では、ステップ102でのコードブックベースのアプローチ処理に基づいて、1つまたは複数の入力信号z(n)のパラメータを決定する。パラメータは短期予測(STP)パラメータであってもよい。
当該方法において、ステップ104では、ステップ103で決定された1つまたは複数のパラメータを用いて入力信号z(n)のカルマンフィルタリングを実行する。
当該方法において、ステップ105では、出力信号が、ステップ104におけるカルマンフィルタリングによって、音声明瞭度が向上していることを提供する。
(音声強調のためのカルマンフィルタ)
カルマンフィルタによって、線形確率微分方程式によって支配されるプロセスの状態を再帰的に推定することが可能になる。それは二乗誤差の平均を最小にするという意味では、最適線形推定器であってもよい。このセクションでは、スムーサー遅延d≧Pを有する固定ラグカルマンスムーサの原理について説明する。カルマンスムーサは、音声信号s(n)の最小平均二乗誤差(MMSE)推定を提供してもよく、以下の数式で表すことができる。
Figure 2017194670
音声強調の観点からのカルマンフィルタの使用においては、式(2)における自己回帰(AR)信号モデルを、以下の式のように状態空間として記述することが必要となり得る。
Figure 2017194670
ここで、状態ベクトルs{太字}(n)=[s(n)s(n−1)...s(n−d)]は、d+1個の最新の音声サンプルを含む(d+1)行1列のベクトルであり、Γ{太字}=[1,0...0]は、(d+1)行1列のベクトルであり、A{太字}(n)は、以下に示すような(d+1)行(d+1)列の音声の状態遷移行列である。
Figure 2017194670
同様に、式(3)に示される雑音信号w(n)の自己回帰(AR)モデルは、以下の式のように状態空間の形式で記述することができる。
Figure 2017194670
ここで、状態ベクトルw{太字}(n)=[w(n),w(n−1),...,w(n−Q+1)]は、Q個の最新の雑音サンプルを含むQ行1列のベクトルであり、Γ{太字}=[1,0...0]は、Q行1列のベクトルであり、B{太字}(n)は、以下に示すようなQ行Q列の雑音の状態遷移行列である。
Figure 2017194670
式(5)及び式(7)の状態空間方程式は組み合わせて、以下の(9)に示すような連結された状態空間方程式を形成してもよい。
Figure 2017194670
上記式は、次のように書き直すことができる。
Figure 2017194670
ここで、x{太字}(n)は連結された状態空間ベクトルであり、C{太字}(n)は連結された状態遷移行列であり、Γ{太字}とy{太字}(n)は以下である。
Figure 2017194670
結果として、式(1)は以下のように書き直すことができる。
Figure 2017194670
ここで、Γ{太字}は以下である。
Figure 2017194670
式(10)及び式(11)によって示される、最終的な状態空間方程式と観測方程式は、以降に記述するように、さらにカルマンフィルタの数式(式(12)−式(17))の形成に用いてもよい。式(12)及び式(13)によって示されるカルマンスムーサの予測段階は、状態ベクトルx{太字}(n|n−1)、及び誤差共分散行列M{太字}(n|n−1)それぞれの事前の推定値を、以下で計算してもよい。
Figure 2017194670
カルマンゲインは、式(14)に示すように計算してもよい。
Figure 2017194670
状態ベクトル及び誤差共分散行列の事後の推定値を計算するカルマンスムーサの補正段階は、次のように記述することができる。
Figure 2017194670
最後に、時間インデックスn−dにおける、カルマンスムーサを用いて強調される出力信号sは、式(17)に示す状態ベクトルの事後の推定値のd+1番目のエントリから取得することができる。
Figure 2017194670
カルマンフィルタの場合、d+1=Pであり、時間インデックスnにおける強調信号s^は、以下に示すように、状態ベクトルの事後の推定値の1番目のエントリから取得することができる。
Figure 2017194670
(自己回帰STPパラメータのコードブックベースの推定)
上述したような音声強調の観点からのカルマンフィルタの使用には、音声の線形予測係数(LPC)、雑音の線形予測係数(LPC)、及び音声の励起信号の分散σ (n)及び雑音の励起信号の分散σ (n)から成る、状態遷移行列C{太字}(n)が既知であることが必要となり得る。これらのパラメータは音声の準定常性により、20−25ミリ秒(ms)のフレームにわたって一定であると仮定することができる。このセクションは、コードブックベースのアプローチを使ったこれらのパラメータの最小平均二乗誤差(MMSE)推定を説明する。この方法は、線形予測係数(LPC)の形式で調整されたコードブックに記録された、音声及び雑音のスペクトル形状についての事前情報を使用してもよい。推定されるパラメータは連結され、下記の単一ベクトルを形成してもよい。
Figure 2017194670
パラメータθの最小平均二乗誤差(MMSE)推定は、次のように表記してもよい。
Figure 2017194670
ここで、z{太字}は雑音のあるサンプルのフレームを示す。ベイズの定理を用いると、式(19)は次のように書き直すことができる。
Figure 2017194670
ここで、Θは推定されるべきパラメータのサポート空間を示す。ここで、次のように定義する。
Figure 2017194670
ここでa{太字}は(サイズNの)音声のコードブックのi番目のエントリ、b{太字}は(サイズNの)雑音のコードブックのj番目のエントリであり、σ2,ML u,ij,σ2,ML v,ijは、a{太字}、b{太字}、z{太字}に依存する、音声及びノイズの励起分散の最大尤度(ML)推定を表わす。音声及びノイズの励起分散の最大尤度(ML)推定は次の式で推定することができる。
Figure 2017194670
ここで、
Figure 2017194670
であり、1/|A (ω)|は、音声のコードブックのi番目の入力に対応するスペクトル包絡であり、1/|A (ω)|は、雑音のコードブックのj番目の入力に対応するスペクトル包絡であり、P(ω)は雑音のある信号z(n)に対応するスペクトル包絡である。したがって、式(20)の個別の対応箇所は以下のように記述することができる。
Figure 2017194670
ここで、最小平均二乗誤差(MMSE)推定は、p(z{太字}|θij)と比例する重み付けを用いてθijの加重線形結合として表わすことができる。p(z{太字}|θij)は、次式によって計算してもよい。
Figure 2017194670
ここで、dIS(P(ω),P ij(ω))は、雑音のあるスペクトルとモデル化した雑音のあるスペクトルの間の、板倉−斉藤ひずみである。なお、式(23)の自己回帰(AR)パラメータの加重総和は、線形予測係数(LPC)領域よりもむしろ、線スペクトル周波数(LSF)領域で実行されることが好ましい。線スペクトル周波数(LSF)領域における加重総和は、線形予測係数(LPC)領域において必ずしも当てはまらない、安定した逆フィルタをもたらすことが保証され得る。
(実験)
このセクションは、上記した音声強調のフレームワークを評価するために実行された実験について記載する。評価に用いられた客観的尺度は、短期客観的明瞭度(STOI)、音声品質知覚評価(PESQ)及びセグメンタル信号対雑音比(SegSNR)である。この実験のテストセットは、2名の男性話者と2名の女性話者である4名の異なる話者から、CHiMEデータベースから8KHzにリサンプルした音声から構成される。シミュレーションに使用される雑音信号は、NOIZEUSデータベースからの複数話者バブルである。強調手順に必要である音声及び雑音のSTPパラメータは、上述のように25ミリ秒毎に推定される。STPパラメータの推定に使用する音声のコードブックは、TIMITデータベースからの10分の音声の調整サンプルに対し一般化Lloydアルゴリズム(GLA)を用いて生成してもよい。雑音のコードブックは、2分間のバブルを用いて生成してもよい。音声及びノイズのARモデルの次数は14になるように選択してもよい。実験で用いたパラメータは、表1の通りである。
Figure 2017194670
推定された短期予測(STP)パラメータは次に、固定ラグカルマンスムーサ(d=40を用いる)による強調に用いられる。一般的な音声のコードブックの代わりに、話者固有のコードブックを使用することの効果はここで研究する。話者固有のコードブックは、特定話者からの5分間の音声の調整サンプルを用いて、一般化Lloydアルゴリズム(GLA)によって生成してもよい。テストに用いる音声サンプルは、調整セットに含まれていなかった。64個のエントリのサイズの話者のコードブックで、経験的に充分であると注記しておきたい。短期予測(STP)パラメータの推定のために音声のコードブックと話者のコードブックを使用するカルマンスムーサのシステムは、それぞれKS音声モデルとKS話者モデルと表記する。その結果は、Ephraim−Malah(EM)法及び、一般化ガンマ事前分布に基づいた従来の最小平均二乗誤差(MMSE)推定器(MMSE−GGP)と比較される。
図2、図3及び図4は、上記の方法についての、短期客観的明瞭度(STOI)、セグメンタル信号対雑音比(SegSNR)、及び音性品質知覚評価(PESQ)スコアの比較をそれぞれ示す。図2から、短期客観的明瞭度(STOI)によれば、Ephraim−Malah(EM)、及び一般化ガンマ事前分布に基づく最小平均二乗誤差(MMSE)推定器(MMSE−GGP)を用いることで得られた強調信号は、雑音のある信号よりも、低い明瞭度であることがわかる。KS音声モデル及びKS話者モデルを用いることで得られた強調済み信号は、雑音のある信号と比較して高い明瞭度を示している。短期客観的明瞭度(STOI)が6%まで増加を示すため、一般的な音声のコードブックの代わりに話者固有のコードブックを用いることは有益であることがわかる。図3、図4で示される、セグメンタル信号対雑音比(SegSNR)及び音性品質知覚評価(PESQ)の結果も、KS話者モデル及びKS音声モデルが他の方法よりも優れたパフォーマンスを有することを示している。アルゴリズムのパフォーマンスを評価するために、非公式のリスニングテストも実施した。
このように、カルマンフィルタに基づいており、カルマンフィルタの機能に必要なパラメータがコードブックベースのアプローチを用いて推定された、音声強調の聴覚装置や方法を提供することは有益である。短期客観的明瞭度(STOI)、セグメンタル信号対雑音比(SegSNR)、及び音声品質知覚評価(PESQ)のような客観的尺度が、バブル雑音存在下での本願の方法のパフォーマンスを評価するために用いられた。実験結果は、当該客観的尺度によって本願の方法は音声品質及び音声明瞭度を増加させることができたことを示している。さらに、一般的な音声のコードブックでなく、話者固有の調整がなされたコードブックを有することは、短期客観的明瞭度(STOI)スコアにおいて6%までの増加を示し得ることもわかった。
(両耳聴覚システム)
このセクションにおいては、両耳の雑音のある信号、すなわち入力信号に接する際の、コードブックベースのアプローチを用いた音声及び雑音の短期予測(STP)パラメータの推定について記載する。推定された短期予測(STP)パラメータは、両耳の雑音のある信号の強調のためにさらに使用してもよい。以下において、最初に信号モデル及び、そこで用いられる仮説について説明する。それから、両耳シナリオにおける短期予測(STP)パラメータの推定を説明し、実験結果を考察する。
(信号モデル)
両耳の雑音のある信号、または左右の耳での入力信号は、それぞれzl(n)及びzr(n)と表記される。左耳での雑音のある信号zl(n)は、式(27)で示すように表わされる。ここで、sl(n)は、左耳のクリーンな音声成分であり、wl(n)は左耳の雑音成分である。
Figure 2017194670
右耳での雑音のある信号は、同様に、式(28)で示すように表わされる。
Figure 2017194670
音声信号及び雑音信号が、自己回帰(AR)プロセスとして表わすことができると、さらに仮定してもよい。音声源が聞き手、すなわち聴覚装置の使用者の前方にあると仮定してもよく、従って左耳と右耳のクリーンな音声成分が、同じ自己回帰(AR)プロセスによって表わされると仮定してもよい。左右の耳の雑音成分もまた、自己回帰(AR)プロセスによって表わされると仮定してもよい。自己回帰(AR)プロセスに対応する短期予測(STP)パラメータは、線形予測係数(LPC)と励起信号の分散で構成されていてもよい。音声に対応する短期予測(STP)パラメータは、以下で表すことができる。
Figure 2017194670
ここで、a{太字}は線形予測係数(LPC)のベクトルであり、σ は音声の自己回帰(AR)プロセスに対応する励起分散である。同様に、雑音の自己回帰(AR)プロセスに対応する短期予測(STP)パラメータは、以下で表すことができる。
Figure 2017194670
(方法)
ここでの目的は、両耳の雑音のある信号または入力信号が与えられる、音声及び雑音の自己回帰(AR)プロセスに対応する、短期予測(STP)パラメータを推定することである。推定されるパラメータを以下のように表す。
Figure 2017194670
パラメータθの最小平均二乗誤差(MMSE)推定は、式(29)、(30)のように記載される。
Figure 2017194670
ここで、以下のように定義する。
Figure 2017194670
ここで、a{太字}は(サイズNの)音声のコードブックのi番目のエントリであり、b{太字}は(サイズNの)雑音のコードブックのj番目のエントリであり、σ2,ML u,ij,σ2,ML v,ijは、励起分散の最大尤度推定値(ML)を表わす。式(30)の個別の対応箇所は式(31)のように記述される。
Figure 2017194670
i、j番目のコードブックの組み合わせ重み付けは、p(z{太字},z{太字}|θij)によって定義される。
左側及び右側の、雑音のある信号すなわち入力信号についてのモデル化誤差が、条件付き独立であると仮定すると、p(z{太字},z{太字}|θij)は、式(32)のように記述することができる。
Figure 2017194670
尤度p(z{太字}|θij)の対数は、左耳での雑音のあるスペクトルPzl(ω)と、モデル化した雑音のあるスペクトルP^ ij(ω)の間の、負の板倉−斉藤ひずみとして記述することができる。
右耳にも同じ結果を用いると、p(z{太字},z{太字}|θij)は、式(33)及び式(34)のように記述することができる。
Figure 2017194670
その後、短期予測(STP)パラメータの推定が、式(31)に式(34)を代入することで、取得することができる。本願が提案する方法のブロック図を図5に示す。
図5は、両耳の入力信号または雑音のある信号からの短期予測(STP)パラメータの推定のためのブロック図を模式的に示す。図5は、聴覚装置の使用者10、左耳の入力信号zl(n)12または左耳の雑音のある信号12、右耳の入力信号zr(n)14または右耳の雑音のある信号14、雑音のコードブック16及び音声のコードブック18、左耳についての距離ベクトル20及び右耳についての距離ベクトル22、そして組み合わされた重み付け24を示す。スペクトル包絡30は、左耳の入力信号zl(n)12についてのものであり、左耳での雑音の有るスペクトル38を形成する。スペクトル包絡32は、右耳の入力信号zl(n)14についてのものであり、右耳での雑音のあるスペクトル40を形成する。雑音のコードブック16は、モデル化された雑音のスペクトルを表わす。音声のコードブック18は、モデル化された音声のスペクトルを表わす。雑音のコードブック16及び音声のコードブック18は、合算され、左耳でのモデル化された雑音のあるスペクトル26、および右耳でのモデル化された雑音のあるスペクトル28を形成する。モデル化された雑音のあるスペクトル26及び28は、同一になり得る。左耳について板倉−斉藤ひずみ、すなわちIS尺度34、及び右耳についての板倉−斉藤ひずみ、すなわちIS尺度36は、モデル化された雑音のあるスペクトル26(左耳)、28(右耳)、及び実際の雑音のあるスペクトル38(左耳)、40(右耳)との間で、すべてのコードブックの組み合わせについて計算され、左耳についての距離ベクトル20及び右耳についての距離ベクトル22が算出される。そして、これらの重み付けは組み合わされ、左耳及び右耳の組み合わされた重み付け24を形成する。
したがって、両耳シナリオでの短期予測(STP)パラメータの推定が、モデル化された雑音のあるスペクトルと、受信した雑音のあるスペクトルの間の、板倉−斉藤距離を、それぞれの耳について計算することによって、実行される。次に、これらの距離は組み合わされ、特定のコードブックの組み合わせのための重み付けが得られる。
(実験結果)
このセクションは短期客観的明瞭度(STOI)及び音声品質知覚評価(PESQ)の得られた結果について説明する。推定した短期予測(STP)パラメータは、両耳の雑音の有る信号の強調のために使用してもよい。雑音のある信号は、まず発生したインパルス応答でクリーンな音声を畳み込み、次に両耳のバブル雑音と合計することによって生成される。図6a及び6bは、短期客観的明瞭度(STOI)と音声品質知覚評価(PESQ)のそれぞれの結果の比較を示す。短期予測(STP)パラメータの両耳の推定は、短期客観的明瞭度(STOI)スコアにおける2.5パーセントまでの増加と、音声品質知覚評価(PESQ)スコアにおいて0.08の増加を示している。このように、出力信号は、さらに両耳用の聴覚システムにおいて、音声明瞭度が向上されている。
(カルマンフィルタリング)
カルマンフィルタリングは、線形二次推定(LQE)としても知られるが、それは時間にわたって観測される、統計的な雑音やその他の不正確性を含む一連の測定を使用し、単一の測定のみに基づくものよりも正確になる傾向にある、未知の変数の推定値を生成するアルゴリズムである。
カルマンフィルタは、信号処理などの分野で用いられる時系列分析に適用してもよい。
カルマンフィルタアルゴリズムは、二段階のプロセスで動作する。予測段階では、カルマンフィルタは、不確実性を有する現在の状態変数の推定値を生成する。次の測定結果(ランダム雑音を含むある程度の誤差を必然的に含んでいるもの)が観測されると、これらの推定値は、より正確性を有する推定値ほど大きな重み付けがなされるような加重平均を使って更新される。アルゴリズムは再帰的である。それは、現在の入力測定値、以前に計算された状態、及びその不確定性行列のみを用いてリアルタイムに実行することができ、追加の過去の情報は必要としない。
カルマンフィルタは、誤差がガウス分布であるという仮定を必要としなくてもよい。しかし、カルマンフィルタは、すべての誤差がガウス分布であるという特別な場合においては、正確な条件付き確率の推定値を生成し得る。
例えば非線形システム上で動作する、拡張カルマンフィルタ及び無香カルマンフィルタのようなカルマンフィルタの拡張及び一般化が提供されてもよい。基礎となるモデルは、隠れマルコフモデルに類似しているベイジアンモデルでもよく、しかし、潜在変数の状態空間は連続的であり、またすべての潜在変数及び観測変数はガウス分布を有してもよい。
カルマンフィルタは、システムの動的モデル、そのシステムへの既知の制御入力、及び複数の連続的な測定を使用し、いずれかの1つの測定のみを使って得られる推定よりも優れた、システムの変化量(その状態)の推定を形成する。
一般に、モデルに基づいた測定と計算は、すべてある程度は推定である。雑音のあるデータ、及び/または、どのようにシステムが変化するかを説明する数式における近似、及び/または、考慮されていない外的要因は、システム状態の推測値について、いくらかの不確実性をもたらす。カルマンフィルタは、加重平均を利用して、システム状態の予測と新しい測定の平均を求めてもよい。重み付けの目的は、より好ましく推定される(すなわち、より小さい)不確実性を有する値ほど、より「信頼」されるようにすることである。重み付けは、システム状態の予測について推定される不確実性の尺度である、共分散から計算してもよい。加重平均の結果は、予測された状態と測定された状態の間に存在し得る新たな状態の推定であってもよく、どちらか片方のみよりも不確実性をよりよく推定するものであり得る。このプロセスは、新しい推定とその共分散が、次の反復計算で用いられる予測を知らせながら、時間ステップ毎に繰り返してもよい。これは、カルマンフィルタが再帰的に動作してもよく、新しい状態を計算するために、システム状態の全体履歴ではなくむしろ、最後の「ベストの推測」のみを必要としてもよいことを意味する。
測定の正確性を正確に測定することは困難であり得るので、フィルタの挙動はゲインの観点から決定してもよい。カルマンゲインは、測定と現在の状態の推定の相対的正確性の関数であり得、特定のパフォーマンスを実現するために「調整」することができる。高いゲインでは、フィルタは測定により重み付けをするであろうし、より密接に測定に従うであろう。低いゲインでは、フィルタはモデル予測により密接に従うであろうし、雑音を平滑化するものの、応答性は低下するであろう。極端な場合、1のゲインでは、フィルタが状態の推定を完全に無視するであろうし、一方で、ゼロのゲインは、測定値を無視するであろう。
フィルタの実際の計算を実行するとき、状態の推定や共分散は、単一の計算群に含まれる複数の次元を扱うために、行列にコード化してもよい。これにより、いずれの遷移状態または共分散においても、異なる状態変数間の線形関係を表すことが可能となる。
カルマンフィルタは時間領域において離散化した線形動的システムに基づいてもよい。それらは、ガウス雑音を含み得る誤差によって摂動を与えられた線形演算子に構築されたマルコフ連鎖上でモデル化されてもよい。システムの状態は実数のベクトルで表してもよい。各離散時間増分において、線形演算子は、ある程度の混合された雑音と、場合によってはある程度のシステム制御からの情報(それらが既知である場合)とともに、ある状態に適用されて新しい状態を生成してもよい。そして、より多くの雑音が混合された他の線形演算子が、真の(「隠れた」)状態から観測された出力を生成してもよい。
雑音のある観測の系列のみが与えられたプロセスについて、内部状態を推定するためにカルマンフィルタを使用するために、カルマンフィルタのフレームワークに従って、そのプロセスをモデル化してもよい。つまり、下記のように、各時間ステップkについて、各行列を特定する。F{太字}は状態遷移モデルであり、H{太字}は観測モデルであり、Q{太字}はプロセス雑音の共分散であり、R{太字}は観測雑音の共分散であり、場合によってB{太字}は制御入力モデルである。
カルマンフィルタモデルは、時間kにおける真の状態が、(k−1)での状態から、以下の式に従って進展したと仮定してもよい。
Figure 2017194670
ここで、F{太字}は前の状態x{太字}k−1に適用される状態遷移モデルであり、B{太字}は制御ベクトルu{太字}に適用される制御入力モデルであり、w{太字}は共分散Q{太字}を備えるゼロ平均多変量正規分布に従うと仮定されるプロセス雑音である。
Figure 2017194670
時間kにおいて、真の状態x{太字}の観測(もしくは測定)z{太字}は、以下の式となる。
Figure 2017194670
ここで、H{太字}は真の状態空間を観測空間にマッピングする観測モデルであり、v{太字}は共分散R{太字}を備えるゼロ平均ガウス白色雑音であると仮定される観測雑音である。
Figure 2017194670
初期状態、及び各ステップでの雑音ベクトル{x{太字},w{太字},...,w{太字},...,v{太字}...v{太字}}は、すべて互いに独立していると仮定してもよい。
カルマンフィルタは、再帰的推定器であってもよい。これは、前の時間ステップから推定された状態、及び現在の測定のみが、現在の状態の推定を計算するために必要とされてもよいということを意味する。バッチ推定技術とは対照的に、観測及び/または推定の履歴は必要とされなくてもよい。表記x{太字} n|mは、時間mまでの、および時間mを含む時点の観測が与えられた時の、時間nにおけるx{太字}の推定を表わす。ここで、m≦nである。
フィルタの状態は、下記の2つの変数によって表わされる。
x{太字} k|k:時間kまでの、および時間kを含む時点の観測が与えられた時の、時間kにおける事後の状態推定
P{太字}k|k:事後の誤差共分散行列(状態推定の推定精度の尺度)
カルマンフィルタは単一の方程式として記述することができるが、2つの異なる段階、すなわち「予測」と「更新」の段階に概念化してもよい。予測段階は、前の時間ステップからの状態推定を使用し、現在の時間ステップでの状態の推定を生成してもよい。この予測された状態推定は事前の状態推定としても知られており、なぜならそれは現在の時間ステップでの状態の推定ではあるが、現在の時間ステップからの観測情報は含まなくてもよいからである。更新段階では、現在の事前の予測は状態推定を改善するために現在の観測情報と組み合わされてもよい。この改善された推定は、事後の状態推定と称される。
一般的に2つの段階は、予測において次の予定された観測まで状態を前進させ、更新において観測を組み込みながら、交互に行われる。しかし、これは必ずしも必要ではなく、観測がなんらかの理由によって不可能である場合、更新をスキップし、複数回の予測ステップを実行してもよい。同様に、複数の独立した観測が同時に可能な場合、複数回の更新ステップを実行してもよい(一般的に異なる観測行列H{太字}を用いる)。
(予測)
予測(事前の)状態推定
Figure 2017194670
予測(事前の)推定共分散
Figure 2017194670
(更新)
イノベーションまたは測定残余
Figure 2017194670
イノベーション(または残余)の共分散
Figure 2017194670
最適なカルマンゲイン
Figure 2017194670
更新された(事後の)状態推定
Figure 2017194670
更新された(事後の)推定共分散
Figure 2017194670
上記の更新された推定共分散の式は、最適なカルマンゲインに対してのみ有効であり得る。他のゲイン値を利用する際は、より複雑な式を必要とし得る。
(不変量)
モデルが正確であり、x{太字} 0|0値とP{太字}0|0の値が初期の状態値の分布を正確に反映する場合、次の不変量が維持されるであろう(すべての推定値がゼロ平均誤差を有する)。
Figure 2017194670
ここでE{太字}[ζ{太字}]はζ{太字}の期待値であり、共分散行列は正確に推定の共分散を反映してもよい。
Figure 2017194670
(最適性とパフォーマンス)
理論から得られるが、カルマンフィルタは、a)モデルが完全に実システムと一致している場合、b)入力される雑音が白色である場合、c)雑音の共分散が正確にわかっている場合において、最適である。共分散が推定された後、フィルタのパフォーマンスを評価すること、すなわち状態推定の品質を向上させられるかどうかを評価することが有意であり得る。カルマンフィルタが最適に動作する場合、イノベーションシーケンス(出力予測誤差)は白色雑音であってもよく、それゆえにイノベーションの白色性がフィルタパフォーマンスの尺度であってもよい。様々な方法がこの目的のために利用可能である。
(事後の推定共分散行列の導出)
上記の誤差共分散P{太字}k|kの不変量から開始する。
Figure 2017194670
x{太字}^k|kの定義を代入する。
Figure 2017194670
y{太字} を代入する。
Figure 2017194670
z{太字}を代入する。
Figure 2017194670
そして誤差ベクトルをまとめる。
Figure 2017194670
測定誤差v{太字}は他の項と相関しないため、これは以下のようになる。
Figure 2017194670
ベクトル共分散の特性によって、これは以下のようになる。
Figure 2017194670
ここで、P{太字}k|k−1の不変量とR{太字}の定義を用いると、以下のようになる。
Figure 2017194670
この式は、どんな値のK{太字}にも有効であり得る。K{太字}が最適なカルマンゲインであるとき、これは下記に示すようにさらに簡略化することができる。
(カルマンゲイン導出)
カルマンフィルタは最小平均二乗誤差(MMSE)推定器であってもよい。事後の状態推定における誤差は、x{太字}−x{太字} k|kであり得る。このベクトルの大きさの二乗の予測値E{太字}[||x{太字}−x{太字} k|k||]を最小化しようとするとき、これは事後の推定共分散行列P{太字}k|kのトレースを最小化することと等価である。上記式の項を展開してまとめると、下記が得られる:
Figure 2017194670
ゲイン行列に関する導関数行列がゼロであるとき、トレースは最小化され得る。勾配行列の規則と、関連する行列の対称性を用いて、以下が得られる。
Figure 2017194670
K{太字}に対してこれを解くと、カルマンゲインが得られる。
Figure 2017194670
最適なカルマンゲインとして既知であるこのゲインは、使用すると、MMSE推定値が得られうるものである。
(事後の誤差共分散式の単純化)
事後の誤差共分散を計算するために使用する式は、カルマンゲインが上記で導かれた最適値と等しいとき、単純化できる。カルマンゲインの式の両辺に、右側からS{太字}K{太字} を掛け合わせると、以下のようになる。
Figure 2017194670
事後の誤差共分散の拡張式まで戻って参照すると、以下となる。
Figure 2017194670
最後の2項が相殺され、以下のようになる。
Figure 2017194670
この式は計算のコストが低く、そのため実践においてほとんど常に用いられるが、最適なゲインに対してのみ正確であり得る。数値の安定性に問題を引き起こすほど計算精度が著しく低い場合、または非最適なカルマンゲインが意図的に使用される場合、この単純化は適用されなくてもよく、代わりに上記で導かれるような事後の誤差共分散式が使用されてもよい。
(固定ラグスムーサ)
最適な固定ラグスムーサは、z{太字}からz{太字}までの測定を使用して、与えられた固定ラグNについての最適な推定値x{太字}^k−N|kを与えてもよい。それは拡張された状態を介して以前の理論を使用して導くことができる。フィルタのメインの数式は次のようになり得る:
Figure 2017194670
ここで、x{太字} t|t−1は、標準のカルマンフィルタによって推定される。y{太字}t|t−1=z{太字}−H{太字}x{太字} t|t−1は、標準のカルマンフィルタの推定を考慮して作成されたイノベーションである。i=1,...,N−1を用いた変数x{太字} t−i|tは、新たな変数であり、すなわち標準のカルマンフィルタには登場しない。ゲインは次式によって計算される。
Figure 2017194670
ここで、P{太字}及びK{太字}は予測誤差共分散及び標準のカルマンフィルタのゲインである(すなわちP{太字}t|t−1)。
推定誤差共分散を次のように定義する。
Figure 2017194670
この場合、x{太字}t−iの推定における改善は次式によって与えられる。
Figure 2017194670
特定の特徴を示し説明したが、これらは特許請求の範囲を限定することを意図したものではなく、特許請求の範囲に記載された発明の範囲から逸脱することなく、当業者は様々な変更及び修正を行うことができる。したがって、明細書及び図面は制限的ではなく例示的なものとしてみなされるべきである。特許請求の範囲に記載された発明はすべての代替物、修正物、均等物に及ぶものである。
2:聴覚装置
4:入力トランスデューサ
6:処理ユニット
8:出力トランスデューサ
10:聴覚装置の使用者
12:左耳の入力信号zl(n)または左耳の雑音のある信号
14:右耳の入力信号zr(n)または右耳の雑音のある信号
16:雑音のコードブック
18:音声のコードブック
20:左耳での雑音のあるスペクトルとモデル化された雑音のあるスペクトルとの間の板倉−斉藤ひずみで構成される左耳についての距離ベクトル
22:右耳での雑音のあるスペクトルとモデル化された雑音のあるスペクトルとの間の板倉−斉藤ひずみで構成される右耳についての距離ベクトル
24:左耳及び右耳の組み合わされた重み付け
26:左耳でのモデル化された雑音のあるスペクトル(16と18の合算)
28:右耳でのモデル化された雑音のあるスペクトル(16と18の合算)
30:左耳でのスペクトル包絡
32:右耳でのスペクトル包絡
34:左耳についての板倉−斉藤ひずみ
36:右耳についての板倉−斉藤ひずみ
38:左耳での雑音のあるスペクトル
40:右耳での雑音のあるスペクトル
101:音声信号及び雑音信号を含む入力信号z(n)を提供する
102:入力信号z(n)に対し、コードブックベースのアプローチ処理を実行する
103:ステップ102でのコードブックベースのアプローチ処理に基づいて、入力信号z(n)の1つまたは複数のパラメータを決定する
104:ステップ103で決定された1つまたは複数のパラメータを用いて、入力信号z(n)のカルマンフィルタリングを実行する
105:ステップ104でのカルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供する

Claims (15)

  1. 音声明瞭度を向上するための聴覚装置であって、
    音声信号及び雑音信号を備える入力信号を提供する入力トランスデューサと、
    前記入力信号を処理するように構成された処理ユニットと、
    前記処理ユニットからの出力信号を音声出力信号に変換するために、前記処理ユニットの出力部に接続された音響出力トランスデューサと、を備え、
    前記処理ユニットは、前記入力信号に対し、コードブックベースのアプローチ処理を実行するように構成されており、
    前記処理ユニットは、前記コードブックベースのアプローチ処理に基づいて、前記入力信号の1つまたは複数のパラメータを決定するように構成されており、
    前記処理ユニットは、決定された前記1つまたは複数のパラメータを用いて、前記入力信号のカルマンフィルタリングを実行するように構成されており、
    前記処理ユニットは、前記カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するように構成されている、聴覚装置。
  2. 前記入力信号は、1つまたは複数のフレームに分割されており、
    前記1つまたは複数のフレームは、音声信号を表わす第1のフレーム、及び/または雑音信号を表わす第2のフレーム、及び/または無音を表わす第3のフレームを含む、請求項1に記載の聴覚装置。
  3. 前記1つまたは複数のパラメータは、短期予測(STP)パラメータを含む、請求項1または2に記載の聴覚装置。
  4. 前記1つまたは複数のパラメータは、
    音声の線形予測係数(LPC)及び雑音の線形予測係数(LPC)を含む状態遷移行列C(n)である第1のパラメータ、
    音声の励起信号の分散σ (n)である第2のパラメータ、及び/または
    雑音の励起信号の分散σ (n)である第3のパラメータ 、
    のうち1つまたは複数を含む、請求項1から3のいずれか一項に記載の聴覚装置。
  5. 前記1つまたは複数のパラメータは、25ミリ秒のフレームにわたって一定であると仮定される、請求項1から4のいずれか一項に記載の聴覚装置。
  6. 前記1つまたは複数のパラメータを決定することは、線形予測係数(LPC)の形式の、前記コードブックベースのアプローチ処理で使用される、コードブックに記録された音声のスペクトルの形状及び/または雑音のスペクトルの形状についての、事前の情報を使用することを備える、請求項1から5のいずれか一項に記載の聴覚装置。
  7. 前記コードブックベースのアプローチ処理で使用される、前記コードブックは、一般的な音声のコードブック、または話者固有の調整がなされたコードブックである、請求項1から6のいずれか一項に記載の聴覚装置。
  8. 前記話者固有の調整がなされたコードブックは、理想的な条件下で前記聴覚装置の使用者に関連する特定の人々の音声を記録することによって生成される、請求項7に記載の聴覚装置。
  9. 前記コードブックベースのアプローチ処理に使用される、前記コードブックは、自動的に選択され、その選択は、前記入力信号のスペクトルに基づく、及び/または、各利用可能なコードブックについての短期客観的明瞭度(STOI)の測定に基づく、請求項1から8のいずれか一項に記載の聴覚装置。
  10. 前記カルマンフィルタリングは、前記音声信号の最小平均二乗推定器(MMSE)を提供する固定ラグカルマンスムーサを含む、請求項1から9のいずれか一項に記載の聴覚装置。
  11. 前記カルマンスムーサは、前記入力信号の状態ベクトル及び誤差共分散行列の事前の推定及び事後の推定を計算することを含む、請求項10に記載の聴覚装置。
  12. 前記音声信号の短期予測(STP)パラメータの加重合計の算出が、線スペクトル周波数(LSF)領域において実行される、請求項1から11のいずれか一項に記載の聴覚装置。
  13. 前記聴覚装置は、使用者が着用するように構成された両耳用聴覚装置システムにおける、第2の聴覚装置と通信するように構成された第1の聴覚装置である、請求項1から12のいずれか一項に記載の聴覚装置。
  14. 前記第1の聴覚装置は、左耳の音声信号及び左耳の雑音信号を含む左耳の入力信号を提供する第1の入力トランスデューサを備え、
    前記第2の聴覚装置は、右耳の音声信号及び右耳の雑音信号を含む右耳の入力信号を提供する第2の入力トランスデューサを備え、
    前記第1の聴覚装置は、前記コードブックベースのアプローチ処理に基づいて、前記左耳の入力信号の1つまたは複数の左側のパラメータを決定するように構成された第1の処理ユニットを備え、
    前記第2の聴覚装置は、前記コードブックベースのアプローチ処理に基づいて、前記右耳の入力信号の1つまたは複数の右側のパラメータを決定するように構成された第2の処理ユニットを備える、請求項13に記載の聴覚装置。
  15. 聴覚装置において音声明瞭度を向上させる方法であって、
    音声信号及び雑音信号を含む入力信号を提供するステップと、
    前記入力信号に対し、コードブックベースのアプローチ処理を実行するステップと、
    前記コードブックベースのアプローチ処理に基づいて、前記入力信号の1つまたは複数のパラメータを決定するステップと、
    決定された1つまたは複数のパラメータを用いて、前記入力信号のカルマンフィルタリングを実行するステップと、
    前記カルマンフィルタリングによって出力信号の音声明瞭度が向上することを提供するステップと、を含む方法。
JP2017029379A 2016-03-11 2017-02-20 コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 Active JP6987509B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16159858.6A EP3217399B1 (en) 2016-03-11 2016-03-11 Kalman filtering based speech enhancement using a codebook based approach
EP16159858.6 2016-03-11

Publications (2)

Publication Number Publication Date
JP2017194670A true JP2017194670A (ja) 2017-10-26
JP6987509B2 JP6987509B2 (ja) 2022-01-05

Family

ID=55527403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017029379A Active JP6987509B2 (ja) 2016-03-11 2017-02-20 コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法

Country Status (5)

Country Link
US (2) US10284970B2 (ja)
EP (1) EP3217399B1 (ja)
JP (1) JP6987509B2 (ja)
CN (1) CN107180644B (ja)
DK (1) DK3217399T3 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023144915A1 (ja) * 2022-01-26 2023-08-03 日本電信電話株式会社 情報提示装置、情報提示方法、および情報提示プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018206689A1 (de) * 2018-04-30 2019-10-31 Sivantos Pte. Ltd. Verfahren zur Rauschunterdrückung in einem Audiosignal
CN109286470B (zh) * 2018-09-28 2020-07-10 华中科技大学 一种主动非线性变换信道加扰传输方法
CN112242145A (zh) * 2019-07-17 2021-01-19 南京人工智能高等研究院有限公司 语音滤波方法、装置、介质和电子设备
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132196A (ja) * 1998-10-23 2000-05-12 Toshiba Corp ディジタル携帯電話及びデータ通信方法
JP2001222298A (ja) * 2000-02-10 2001-08-17 Mitsubishi Electric Corp 音声符号化方法および音声復号化方法とその装置
JP2002006898A (ja) * 2000-06-22 2002-01-11 Asahi Kasei Corp ノイズ低減方法及びノイズ低減装置
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2003529950A (ja) * 1998-11-23 2003-10-07 テレフォンアクチーボラゲット エル エム エリクソン(パブル) 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化
JP2010114897A (ja) * 2008-11-04 2010-05-20 Gn Resound As 非対称的調整
JP2013531275A (ja) * 2010-06-30 2013-08-01 インテル・コーポレーション 発話音声処理

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JPH08254996A (ja) * 1995-03-16 1996-10-01 Hitachi Ltd 音声符号化装置
JP4006770B2 (ja) * 1996-11-21 2007-11-14 松下電器産業株式会社 ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法
ATE277405T1 (de) * 1997-01-27 2004-10-15 Microsoft Corp Stimmumwandlung
US20090163168A1 (en) * 2005-04-26 2009-06-25 Aalborg Universitet Efficient initialization of iterative parameter estimation
FR2894707A1 (fr) * 2005-12-09 2007-06-15 France Telecom Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit
KR101542069B1 (ko) 2006-05-25 2015-08-06 삼성전자주식회사 고정 코드북 검색 방법 및 장치와 그를 이용한 음성 신호의부호화/복호화 방법 및 장치
JP4410819B2 (ja) * 2007-10-23 2010-02-03 Okiセミコンダクタ株式会社 エコーキャンセラ
EP2246845A1 (en) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
CN102890935B (zh) * 2012-10-22 2014-02-26 北京工业大学 一种基于快速卡尔曼滤波的鲁棒语音增强方法
BR112015020150B1 (pt) * 2013-02-26 2021-08-17 Mediatek Inc. Aparelho para gerar um sinal de fala, e, método para gerar um sinal de fala
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9838804B2 (en) * 2015-02-27 2017-12-05 Cochlear Limited Methods, systems, and devices for adaptively filtering audio signals

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132196A (ja) * 1998-10-23 2000-05-12 Toshiba Corp ディジタル携帯電話及びデータ通信方法
JP2003529950A (ja) * 1998-11-23 2003-10-07 テレフォンアクチーボラゲット エル エム エリクソン(パブル) 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化
JP2001222298A (ja) * 2000-02-10 2001-08-17 Mitsubishi Electric Corp 音声符号化方法および音声復号化方法とその装置
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2002006898A (ja) * 2000-06-22 2002-01-11 Asahi Kasei Corp ノイズ低減方法及びノイズ低減装置
JP2010114897A (ja) * 2008-11-04 2010-05-20 Gn Resound As 非対称的調整
JP2013531275A (ja) * 2010-06-30 2013-08-01 インテル・コーポレーション 発話音声処理

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KRISHNAN, V., ET AL.: "Noise Robust Aurora-2 Speech Recognition Employing a Codebook-Constrained Kalman Filter Preprocessor", PROC. 2006 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING (ICASSP 2006), JPN6021000768, 14 May 2006 (2006-05-14), pages 781 - 784, ISSN: 0004425689 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023144915A1 (ja) * 2022-01-26 2023-08-03 日本電信電話株式会社 情報提示装置、情報提示方法、および情報提示プログラム

Also Published As

Publication number Publication date
US20190261098A1 (en) 2019-08-22
DK3217399T3 (en) 2019-02-25
EP3217399A1 (en) 2017-09-13
CN107180644A (zh) 2017-09-19
US11082780B2 (en) 2021-08-03
EP3217399B1 (en) 2018-11-21
US20170265010A1 (en) 2017-09-14
US10284970B2 (en) 2019-05-07
JP6987509B2 (ja) 2022-01-05
CN107180644B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
JP6987509B2 (ja) コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法
Zhao et al. Perceptually guided speech enhancement using deep neural networks
Zhao et al. HMM-based gain modeling for enhancement of speech in noise
Srinivasan et al. Codebook-based Bayesian speech enhancement for nonstationary environments
DK1760696T3 (en) Method and apparatus for improved estimation of non-stationary noise to highlight speech
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
Doire et al. Single-channel online enhancement of speech corrupted by reverberation and noise
Yoshioka et al. Integrated speech enhancement method using noise suppression and dereverberation
KR102236471B1 (ko) 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
AU2009203194A1 (en) Noise spectrum tracking in noisy acoustical signals
US11676621B2 (en) Hearing device and method with non-intrusive speech intelligibility
Nielsen et al. Model-based noise PSD estimation from speech in non-stationary noise
Habets et al. Dereverberation
Dionelis et al. Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation
CN101322183B (zh) 信号失真消除装置、方法
Astudillo et al. Uncertainty propagation
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
Wang Speech enhancement in the modulation domain
US8306249B2 (en) Method and acoustic signal processing device for estimating linear predictive coding coefficients
LeBlanc et al. A two-stage deep neuroevolutionary technique for self-adaptive speech enhancement
Martín-Doñas et al. An extended kalman filter for RTF estimation in dual-microphone smartphones
Kavalekalam et al. Model based binaural enhancement of voiced and unvoiced speech
Sehr et al. Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
Leutnant et al. A statistical observation model for noisy reverberant speech features and its application to robust ASR

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211201

R150 Certificate of patent or registration of utility model

Ref document number: 6987509

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150