JP2006215568A - 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 - Google Patents
音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 Download PDFInfo
- Publication number
- JP2006215568A JP2006215568A JP2006027330A JP2006027330A JP2006215568A JP 2006215568 A JP2006215568 A JP 2006215568A JP 2006027330 A JP2006027330 A JP 2006027330A JP 2006027330 A JP2006027330 A JP 2006027330A JP 2006215568 A JP2006215568 A JP 2006215568A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- speech
- peak
- valley
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 270
- 238000012937 correction Methods 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 64
- 238000009826 distribution Methods 0.000 claims description 19
- 230000001629 suppression Effects 0.000 claims description 19
- 230000002708 enhancing effect Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 230000006872 improvement Effects 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000010183 spectrum analysis Methods 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000011410 subtraction method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05B—ELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
- H05B3/00—Ohmic-resistance heating
- H05B3/20—Heating elements having extended surface area substantially in a two-dimensional plane, e.g. plate-heater
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05B—ELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
- H05B3/00—Ohmic-resistance heating
- H05B3/02—Details
- H05B3/06—Heater elements structurally combined with coupling elements or holders
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05B—ELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
- H05B2203/00—Aspects relating to Ohmic resistive heating covered by group H05B3/00
- H05B2203/02—Heaters using heating elements having a positive temperature coefficient
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去して、音質及び自然性を向上させる。
【解決手段】受信した音声スペクトルから推定されたノイズスペクトルを減算して減算スペクトルを発生させるためのスペクトル減算部310と、訓練データに含まれるノイズスペクトルの変移を利用して、ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部330と、減算スペクトルを、補正関数を利用して補正し、補正したスペクトルを発生させるためのスペクトル補正部350と、を備える音声向上装置である。
【選択図】図3
【解決手段】受信した音声スペクトルから推定されたノイズスペクトルを減算して減算スペクトルを発生させるためのスペクトル減算部310と、訓練データに含まれるノイズスペクトルの変移を利用して、ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部330と、減算スペクトルを、補正関数を利用して補正し、補正したスペクトルを発生させるためのスペクトル補正部350と、を備える音声向上装置である。
【選択図】図3
Description
本発明は、音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り媒体に係り、特に、ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去し、ノイズの除去された音声スペクトルのピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り媒体に関する。
一般的に、静かな環境の下では、音声認識装置は音声認識を正確に行うことができるが、自動車の内部、展示場、市内の公衆電話ブースのような実際の音声認識装置が使用される環境下では、周辺のノイズにより音声認識性能が低下する。したがって、ノイズによる音声認識性能の低下は、音声認識技術の広範な活用を阻害する要因となっており、これについての多くの研究が進められている。その中でも、ノイズのある環境にロバスト音声認識を行うために、音声認識装置に入力される音声信号に含まれた加算ノイズを除去する方法としてスペクトル減算法が広く使用されている。
スペクトル減算法は、ノイズの周波数特性が音声に比べて緩やかに変化する性質を利用し、ノイズの平均スペクトルを音声不在区間、すなわち、黙音区間で推定して、入力される音声スペクトルから減算するものである。ところが、推定されたノイズの平均スペクトル|Ne(ω)|にエラーが存在する場合、音声認識装置に入力された音声スペクトル|Y(ω)|から推定されたノイズの平均スペクトル|Ne(ω)|を減算したスペクトルに負数が発生し得る。
減算スペクトルに負数が発生することを防止するために、従来方法の一例(以下、「HWR」と略す。)では、図1のように、減算スペクトル(|Y(ω)|−|Ne(ω)|)で0より小さな振幅を有する部分110が、一律的に0あるいは非常に小さな正数の値を有するように調整する。この場合、ノイズ除去の性能は優れているが、0あるいは非常に小さな正数の値に調整される過程で音声の歪曲が発生する可能性が高くなり、音質や認識性能が低下する。一方、従来の方法の他例(以下、「FWR」と略す。)では、図2のように、減算スペクトル(|Y(ω)|−|Ne(ω)|)で0より小さな振幅を有する部分、例えば、P1の振幅値の場合、その絶対値、すなわち、P2の振幅値に調整した。この場合、音質は向上し得るが、ノイズがさらに多く残る可能性がある。図1及び図2で|S(ω)|は、ノイズが混入されていない元来の音声信号を表す。
本発明が解決しようとする技術的課題は、ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。
本発明が解決しようとする他の技術的課題は、ノイズのある環境で受信される音声信号に含まれるノイズを効率的に除去して、ノイズが除去された音声スペクトルのピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。
本発明が解決しようとするさらに他の技術的課題は、ノイズのある環境で受信される音声スペクトルに存在するピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。
前記課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるためのスペクトル減算部と、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部と、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるためのスペクトル補正部と、を備えることを特徴とする。
前記技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるステップと、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるステップと、を含むことを特徴とする。
前記他の技術的課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるためのスペクトル減算部と、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部と、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるためのスペクトル補正部と、前記補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるためのスペクトル向上部と、を備えることを特徴とする。
前記他の技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるステップと、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるステップと、前記補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるステップと、を含むことを特徴とする。
前記さらに他の技術的課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるためのスペクトル減算部と、前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるためのスペクトル向上部と、を備えることを特徴とする。
前記さらに他の技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるステップと、を含むことを特徴とする。
本発明の音声向上装置及び方法によれば、減算スペクトルで負数が発生した部分を、与えられた環境に最適化されて音声の歪曲を最小化できる補正関数を利用して補正することによって、ノイズ除去の性能を向上させると共に、音質及び自然性を向上させうる。
また、本発明の音声向上装置及び方法によれば、減算スペクトルで振幅値が相対的に大きな周波数成分は強調し、振幅値が相対的に小さな周波数成分は抑制することによって、ホルマントを推定せずに音声を向上させ得る。
以下、添付した図面を参照して本発明の望ましい実施形態を詳細に説明する。
図3は、本発明に係る音声向上装置の構成を示すブロック図である。
図3は、本発明に係る音声向上装置の構成を示すブロック図である。
図3に示すように、第1実施形態に係る音声向上装置は、スペクトル減算部310、補正関数モデリング部330、スペクトル補正部350及びスペクトル向上部370を備えてなる。
第2実施形態に係る音声向上装置は、スペクトル減算部310、補正関数モデリング部330及びスペクトル補正部350から構成される。
第2実施形態に係る音声向上装置は、スペクトル減算部310、補正関数モデリング部330及びスペクトル補正部350から構成される。
第3実施形態に係る音声向上装置は、スペクトル減算部310及びスペクトル向上部370から構成される。このとき、第3実施形態に係る音声向上装置のスペクトル減算部310は、負数の部分を絶対値に置換して補正するか、または負数の部分を“0”値に置換して補正した後、減算スペクトルをスペクトル向上部370に提供する。
図3に示すように、スペクトル減算部310は、受信した音声スペクトルから、推定されたノイズの平均スペクトルを減算して減算スペクトルとし、負数部分を補正するために減算スペクトルをスペクトル補正部350に提供する。
補正関数モデリング部330は、訓練データに含まれるノイズスペクトルの変移を利用して、推定したノイズスペクトルを最小化させることが可能な補正関数をモデリングし、モデリングした補正関数をスペクトル補正部350に提供する。
なお、訓練データ(training data)は雑音が存在しないクリーンな環境ではなく、与えられた特定環境で予め得られた多様な音声データ(音声スペクトル)に関するデータをいう。
補正関数モデリング部330は、訓練データに含まれるノイズスペクトルの変移を利用して、推定したノイズスペクトルを最小化させることが可能な補正関数をモデリングし、モデリングした補正関数をスペクトル補正部350に提供する。
なお、訓練データ(training data)は雑音が存在しないクリーンな環境ではなく、与えられた特定環境で予め得られた多様な音声データ(音声スペクトル)に関するデータをいう。
スペクトル補正部350は、スペクトル減算部310から送信される減算スペクトルで0より小さな振幅値を有する部分を、モデリングした補正関数を利用して補正し、補正されたスペクトルを生成する。
スペクトル向上部370は、スペクトル補正部350から送信される補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、最終的に向上したスペクトルを出力する。
スペクトル向上部370は、スペクトル補正部350から送信される補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、最終的に向上したスペクトルを出力する。
図4は、図3において、補正関数モデリング部の細部的な構成を示すブロック図である。補正関数モデリング部330は、訓練データ入力部410、ノイズスペクトル分析部430及び補正関数決定部450を備えてなる。
図4に示すように、訓練データ入力部410は、与えられた環境で収集された訓練データを入力する。
図4に示すように、訓練データ入力部410は、与えられた環境で収集された訓練データを入力する。
ノイズスペクトル分析部430は、訓練データに対して受信される音声スペクトルとノイズスペクトルとの減算スペクトルと、訓練データに対する元来の音声スペクトルとを比較して、前記受信される音声スペクトルに含まれたノイズスペクトルを分析する。このとき、減算スペクトルのためのノイズスペクトルの推定エラーを最小化させるように、減算スペクトルで0より小さな振幅値を有する部分を複数の領域に分割し、各領域別に補正関数をモデリングするためのパラメータ、例えば、各領域の境界値及び補正関数の傾斜度を求める。
なお、訓練データ自体は与えられた特定環境で得られたものであり、訓練データが音声認識装置を通して入力される場合は音声認識装置が使われる環境によって他の雑音が含まれます。雑音スペクトル分析部430で使用される減算スペクトルは訓練データ(|S(ω,n)|)が音声認識器に入力された後さらに他の雑音が含まれた音声スペクトル(|Y(ω,n)|)から、推定された雑音の平均スペクトル(|Ne(ω)|)を減算することによって求められます。一方、訓練データに対する元来の音声スペクトルは与えられた特定環境で得られ、音声認識器に入力される前の音声スペクトルを意味する。
なお、訓練データ自体は与えられた特定環境で得られたものであり、訓練データが音声認識装置を通して入力される場合は音声認識装置が使われる環境によって他の雑音が含まれます。雑音スペクトル分析部430で使用される減算スペクトルは訓練データ(|S(ω,n)|)が音声認識器に入力された後さらに他の雑音が含まれた音声スペクトル(|Y(ω,n)|)から、推定された雑音の平均スペクトル(|Ne(ω)|)を減算することによって求められます。一方、訓練データに対する元来の音声スペクトルは与えられた特定環境で得られ、音声認識器に入力される前の音声スペクトルを意味する。
補正関数決定部450は、ノイズスペクトル分析部430から提供される各領域の境界値及び補正関数の傾斜度を入力して、各領域別に補正関数を算出する。
図5は、図4に示すノイズスペクトル分析部430及び補正関数決定部450の動作を説明する図面である。
図5は、図4に示すノイズスペクトル分析部430及び補正関数決定部450の動作を説明する図面である。
ノイズスペクトル分析部430は、受信した訓練データの第nフレームスペクトル(frame spectrum)|Y(ω,n)|と、推定されたノイズの平均スペクトル|Ne(ω)|の間の第nフレーム減算スペクトル|Y(ω,n)|−|Ne(ω)|と、元来の訓練データの第nフレームスペクトル|S(ω,n)|とを互いに対応させた後、減算スペクトル|Y(ω,n)|−|Ne(ω)|で0より小さな振幅値を有する部分と関連して、ノイズスペクトルの推定時のエラー分布をグレーレベルで表現する。このとき、減算スペクトル|Y(ω,n)|−|Ne(ω)|で0より小さな振幅値を有する部分を、振幅値によって、例えば、3個の領域A1,A2,A3に分け、各領域別に相異なる補正関数をモデリングする。減算スペクトル|Y(ω,n)|−|Ne(ω)|で0より小さな振幅値を有する部分は、その振幅値が0と−rとの間に属する第1領域A1、その振幅値が−rと−2rとの間に属する第2領域A2、その振幅値が−2r以下である第3領域A3に区分される。このとき、区間[−2r,0]に属する振幅値が第1エラー関数Jのほとんど、望ましくは、95%ないし99%を占め、区間[−∞,−2r]に属する振幅値が第1エラー関数Jの一部分、望ましくは、1%ないし5%を占めるように、第1領域ないし第3領域を区分するためのrの値が決定される。このとき、第1エラー関数Jは、第nフレーム減算スペクトル|Y(ω,n)|−|Ne(ω)|(以下、xと略す)と、元来の訓練データの第nフレームスペクトル|S(ω,n)|(以下、yと略す)との間のエラー分布を示すものであって、次の式(8)の通りである。
ここで、Eは、期待値(expectation value)を示す。第1領域A1、第2領域A2及び第3領域A3を区分するためのrの値が決定されれば、各領域での補正関数g(x)を決定することができる。なお、第1領域A1は、減少関数、望ましくは、1次関数であり、第2領域A2は、増加関数、望ましくは、1次関数であり、第3領域A3は、g(x)=0に決定する。すなわち、第1領域A1の補正関数g(x)は、g(x)=−βxであり、第2領域A2の補正関数g(x)は、g(x)=β(x+2r)に設定できる。ここで、各補正関数の傾斜度βは、第1エラー関数Jを、各補正関数を適用して表現した後、β偏微分して微分係数を0にする値に決定し、これは、式(9)のように表し得る。
ここで、傾斜度βは、0より大きく、かつ1より小さな値となる。
また、例えば、第1領域A1及び第2領域A2を区分するための第1境界値は、第1領域A1及び第2領域A2がエラー分布で第1分布度を有し、第3領域A3が、エラー分布で第2分布度を有するように決定し、第2領域A2及び第3領域A3を区分する第2境界値は、第1境界値の2倍に設定することもできる。
また、例えば、第1領域A1及び第2領域A2を区分するための第1境界値は、第1領域A1及び第2領域A2がエラー分布で第1分布度を有し、第3領域A3が、エラー分布で第2分布度を有するように決定し、第2領域A2及び第3領域A3を区分する第2境界値は、第1境界値の2倍に設定することもできる。
図6は、スペクトル向上部の細部的な構成を示すブロック図である。スペクトル向上部370は、ピーク検出部610、バレー検出部630、ピーク強調部650、バレー抑制部670及び合成部690を備えてなる。スペクトル向上部370は、スペクトル補正部350の後端に連結されるか、またはスペクトル減算部310の後端に連結され得る。ここでは、スペクトル補正部350の後端に連結される場合を例として説明する。
図6に示すように、ピーク検出部610は、スペクトル補正部350で補正されたスペクトルに対して少なくとも1つのピークを検出する。このとき、スペクトル補正部350から提供される、補正されたスペクトルでサンプリングされた現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)を比較してピークを検出するが、次の式(10)が成立てば、該当する現在周波数成分の位置をピークとして検出する。
すなわち、隣接した周波数成分の振幅値の平均より、現在周波数成分の振幅値がさらに大きいとき、現在周波数成分をピークとして決定する。
バレー検出部630は、スペクトル補正部350で補正されたスペクトルに対して少なくとも1つのバレーを検出する。同様に、このとき、スペクトル補正部350から提供される補正されたスペクトルで、サンプリングされた現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)を比較してバレーを検出するが、次の式(11)が成立てば、現在周波数成分の位置をバレーとして検出する。
バレー検出部630は、スペクトル補正部350で補正されたスペクトルに対して少なくとも1つのバレーを検出する。同様に、このとき、スペクトル補正部350から提供される補正されたスペクトルで、サンプリングされた現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)を比較してバレーを検出するが、次の式(11)が成立てば、現在周波数成分の位置をバレーとして検出する。
すなわち、隣接された周波数成分の振幅値の平均より現在周波数成分の振幅値がさらに小さいとき、現在周波数成分をバレーとして決定する。
ピーク強調部650は、スペクトル補正部350により補正されたスペクトルと元来の音声信号のスペクトルとの間の第2エラー関数Kから強調パラメータを推定し、ピーク検出部610で検出された各ピークに推定された強調パラメータを適用してピークを強調する。このとき、第2エラー関数Kを、次の式(12)のように、強調パラメータμ及び抑制パラメータηを使用して、ピークのエラーとバレーのエラーとの和で表す場合、強調パラメータμは、次の式(13)のように推定され得る。
ピーク強調部650は、スペクトル補正部350により補正されたスペクトルと元来の音声信号のスペクトルとの間の第2エラー関数Kから強調パラメータを推定し、ピーク検出部610で検出された各ピークに推定された強調パラメータを適用してピークを強調する。このとき、第2エラー関数Kを、次の式(12)のように、強調パラメータμ及び抑制パラメータηを使用して、ピークのエラーとバレーのエラーとの和で表す場合、強調パラメータμは、次の式(13)のように推定され得る。
ここで、強調パラメータμは、1より大きい値であることが望ましい。σは偏微分演算子を示す。
すなわち、式(13)により求められた強調パラメータμを、各ピークの振幅値に乗算してスペクトルを向上させる。
すなわち、式(13)により求められた強調パラメータμを、各ピークの振幅値に乗算してスペクトルを向上させる。
バレー抑制部670は、スペクトル補正部350により補正されたスペクトルと、実際の音声信号のスペクトルとの間の第2エラー関数Kから抑制パラメータを推定し、バレー検出部630で検出された各バレーに推定された抑制パラメータを適用してバレーを抑制する。このとき、第2エラー関数Kを、式(12)のように、強調パラメータμ及び抑制パラメータηを使用して、ピークのエラーとバレーのエラーとの和で表す場合、抑制パラメータηは、次の式(14)のように推定され得る。
ここで、抑制パラメータηは、0より大きく、かつ1より小さな値であることが望ましい。
式(12)、式(13)及び式(14)において、xは、スペクトル補正部350により補正されたスペクトルを表し、yは、元来の音声信号のスペクトルを表す。
式(12)、式(13)及び式(14)において、xは、スペクトル補正部350により補正されたスペクトルを表し、yは、元来の音声信号のスペクトルを表す。
すなわち、式(14)により求められた抑制パラメータηを、各バレーの振幅値に乗算してスペクトルを向上させる。
合成部690は、ピーク強調部650で強調されたピークと、バレー抑制部670で抑制されたバレーとを合成して、最終的に向上した音声スペクトルを出力する。
合成部690は、ピーク強調部650で強調されたピークと、バレー抑制部670で抑制されたバレーとを合成して、最終的に向上した音声スペクトルを出力する。
図7は、ピーク強調部及びバレー抑制部の動作を説明する図面である。図7に示すように、時間軸から見た振幅スペクトルで、ピーク710は、さらによく現われるように強調し、バレー730は、あまり現われないように抑制させる。
図8は、スペクトル向上部の入力スペクトルと出力スペクトルとを比較した図面である。図8において、符号810は、入力スペクトルを、符号830は、出力スペクトルをそれぞれ示す。出力スペクトル830でピークは強調され、バレーは抑制されるということが分かる。
図9A及び図9Bは、入力される音声スペクトルに対して、スペクトル補正部350によるスペクトル補正を行った本発明の第1実施形態に係る音声向上方法(以下、SAと略す)、入力される音声スペクトルに対して、スペクトル向上部370によるスペクトル向上を行った本発明の第2実施形態に係る音声向上方法(以下、SPVEと略す)、入力される音声スペクトルに対して、スペクトル補正部350によるスペクトル補正及びスペクトル向上部370によるスペクトル向上を行った本発明の第3実施形態に係る音声向上方法(以下、SA+SPVEと略す)、従来のHWRによる方法と従来のFWRによる方法との性能を比較したグラフである。性能を比較するために、人名、地名、企業名のような孤立単語を、男女各8人が100個の単語を発話して得られた1600個の発声データを利用し、手動でマーキングした端点の情報が与えられた。また、加算ノイズの例として、走行中である車両で録取した自動車のノイズを使用した。クリーン音声で録取されたノイズ信号のSNRを0dBに設定し、メル周波数ケプストラル係数の距離(Distance of Mel−Frequency Cepstral Coefficients:以下、D_MFCCと略す)及び信号対ノイズ比(Signal−to−Noise Ratio:以下、SNRと略す)を測定した。ここで、D_MFCCは、元来の音声及びノイズが除去された音声のMFCC間の距離を意味し、SNRは、音声信号及びノイズ信号のパワーの比率を意味する。
図9Aは、D_MFCCを比較したグラフであって、SA、SPVE、SA+SPVEが何れもHWR及びFWRに比べて大幅向上したということが分かる。図9Bは、SNRを比較したグラフであって、SAは、HWR及びFWRと同じレベルを維持するが、SPVE、SA+SPVEは、HWR及びFWRに比べて大幅向上したということが分かる。
また、本発明は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存される全ての種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ROM(Read Only Memory)、RAM(Random Access Memory)、CD−ROM、磁気テープ、フレキシブルディスク、光データ保存装置などがあり、また、キャリアウェーブ(例えば、インターネットを介した伝送)の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードが保存され、かつ実行され得る。そして、本発明を具現するための機能的なプログラム、コード及びコードセグメントは、当業界のプログラマーによって容易に推論され得る。
本発明は、図面に図示された一実施形態を参照して説明したが、これは、例示的なものに過ぎず、当業者ならば、これから多様な変形及び実施形態の変形が可能であるということが理解できるであろう。したがって、本発明の技術的範囲は、特許請求の範囲の技術的思想によって決まらねばならない。
本発明は、音声向上装置に関連した技術分野に好適に適用され得る。
310 スペクトル減算部
330 補正関数モデリング部
350 スペクトル補正部
370 スペクトル向上部
330 補正関数モデリング部
350 スペクトル補正部
370 スペクトル向上部
Claims (37)
- 受信した音声スペクトルから、推定したノイズスペクトルを減算して減算スペクトルを発生させるためのスペクトル減算部と、
訓練データに含まれるノイズスペクトルの変移を利用して、前記推定されたノイズスペクトルを最小化させ得る補正関数をモデリングする補正関数モデリング部と、
前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるためのスペクトル補正部と、
を備えることを特徴とする音声向上装置。 - 前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるためのスペクトル向上部をさらに備えることを特徴とする請求項1に記載の音声向上装置。
- 前記補正関数モデリング部は、
前記訓練データに対応する音声スペクトルを受信するための訓練データ入力部と、
前記減算スペクトルで0より小さな振幅値を有する部分を複数の領域に分け、前記訓練データに対して受信した音声スペクトルと推定したノイズスペクトルとの間の減算スペクトルと、前記訓練データに対する元来の音声スペクトルとの間のエラー分布を利用して前記受信した音声スペクトルに含まれるノイズスペクトルを分析するノイズスペクトル分析部と、
前記ノイズスペクトルの分析結果を入力として、前記複数の領域別に補正関数をモデリングするための補正関数決定部と、
を備えることを特徴とする請求項1に記載の音声向上装置。 - 前記ノイズスペクトル分析部は、
前記減算スペクトルで0より小さな振幅値を有する部分を第1領域、第2領域及び第3領域に分け、
前記第1領域及び前記第2領域を区分するための第1境界値は、前記第1領域及び前記第2領域が前記エラー分布で第1分布度を有し、前記第3領域が、前記エラー分布で第2分布度を有するように決定し、
前記第2領域及び前記第3領域を区分する第2境界値は、前記第1境界値の2倍に設定することを特徴とする請求項3に記載の音声向上装置。 - 前記第1領域及び前記第2領域の第1分布度は、95%ないし99%であり、
前記第3領域の第2分布度は、1%ないし5%であることを特徴とする請求項4に記載の音声向上装置。 - 前記第1領域の補正関数は、減少関数であり、
前記第2領域の補正関数は、増加関数であり、
前記第3領域の補正関数は、0であることを特徴とする請求項4に記載の音声向上装置。 - 前記スペクトル向上部は、
前記補正したスペクトルに存在する少なくとも一つのピークを検出するためのピーク検出部と、
前記補正したスペクトルに存在する少なくとも一つのバレーを検出するためのバレー検出部と、
前記検出したピークを、強調パラメータを利用して強調するためのピーク強調部と、
前記検出したバレーを、抑制パラメータを利用して抑制するためのバレー抑制部と、
前記強調したピークと抑制されたバレーとを合成するための合成部と、
を備えることを特徴とする請求項2に記載の音声向上装置。 - 前記ピーク検出部は、前記補正したスペクトルで、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が大きいとき、前記現在周波数成分をピークに決定することを特徴とする請求項7に記載の音声向上装置。
- 前記バレー検出部は、前記補正したスペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が小さいとき、前記現在周波数成分をバレーに決定することを特徴とする請求項7に記載の音声向上装置。
- 受信した音声スペクトルから、推定したノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるためのスペクトル減算部と、
前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるためのスペクトル向上部と、
を備えることを特徴とする音声向上装置。 - 前記スペクトル減算部は、
前記負数部分を絶対値に置換して補正することを特徴とする請求項10に記載の音声向上装置。 - 前記スペクトル減算部は、
前記負数部分を0値に置換して補正することを特徴とする請求項10に記載の音声向上装置。 - 前記スペクトル向上部は、
前記減算スペクトルに存在する少なくとも一つのピークを検出するためのピーク検出部と、
前記減算スペクトルに存在する少なくとも一つのバレーを検出するためのバレー検出部と、
前記検出したピークを、強調パラメータを利用して強調するためのピーク強調部と、
前記検出したバレーを、抑制パラメータを利用して抑制するためのバレー抑制部と、
前記強調したピークと抑制したバレーとを合成するための合成部と、
を備えることを特徴とする請求項10に記載の音声向上装置。 - 前記ピーク検出部は、前記減算スペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が大きいとき、前記現在周波数成分をピークに決定することを特徴とする請求項13に記載の音声向上装置。
- 前記バレー検出部は、前記減算スペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が小さいとき、前記現在周波数成分をバレーに決定することを特徴とする請求項13に記載の音声向上装置。
- 前記強調パラメータは、1より大きい値であることを特徴とする請求項7または請求項13に記載の音声向上装置。
- 前記抑制パラメータは、0より大きく、かつ1より小さな値であることを特徴とする請求項7または請求項13に記載の音声向上装置。
- 受信した音声スペクトルから、推定したノイズスペクトルを減算して減算スペクトルを発生させるステップと、
訓練データに含まれるノイズスペクトルの変移を利用して、前記推定したノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、
前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるステップと、
を含むことを特徴とする音声向上方法。 - 前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップをさらに含むことを特徴とする請求項18に記載の音声向上方法。
- 前記補正関数をモデリングするステップは、
前記減算スペクトルで0より小さな振幅値を有する部分を複数の領域に分け、前記訓練データに対して受信した音声スペクトルと推定したノイズスペクトルとの間の減算スペクトルと、前記訓練データに対応する元来の訓練データに対応する音声スペクトルとの間のエラー分布を利用して、前記受信した音声スペクトルに含まれるノイズスペクトルを分析するステップと、
前記ノイズスペクトルの分析結果を入力として、前記複数の領域別に補正関数をモデリングするステップと、
を含むことを特徴とする請求項18に記載の音声向上方法。 - 前記ノイズスペクトルを分析するステップは、
前記減算スペクトルで0より小さな振幅値を有する部分を第1領域、第2領域及び第3領域に分け、
前記第1領域及び前記第2領域を区分するための第1境界値は、前記第1領域及び前記第2領域が前記エラー分布で第1分布度を有し、前記第3領域が前記エラー分布で第2分布度を有するように決定し、
前記第2領域及び前記第3領域を区分する第2境界値は、前記第1境界値の2倍に設定することを特徴とする請求項20に記載の音声向上方法。 - 前記第1領域及び前記第2領域の第1分布度は、95%ないし99%であり、前記第3領域の第2分布度は、1%ないし5%であることを特徴とする請求項21に記載の音声向上方法。
- 前記第1領域ないし前記第3領域の各補正関数g1(x)、g2(x)、g3(x)は、式(1)により決定されることを特徴とする請求項21に記載の音声向上方法。
- 前記スペクトルを向上させるステップは、
前記補正したスペクトルに存在する少なくとも一つのピーク及び少なくとも一つのバレーを検出するステップと、
前記検出したピークを、強調パラメータを利用して強調し、前記検出したバレーを、抑制パラメータを利用して抑制するステップと、
前記強調したピークと抑制したバレーとを合成するステップと、
を含むことを特徴とする請求項19に記載の音声向上方法。 - 前記補正したスペクトルでサンプリングした現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、次の式(2)を満足する場合、前記現在周波数成分をピークに決定することを特徴とする請求項24に記載の音声向上方法。
- 前記補正したスペクトルでサンプリングされた現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、式(3)を満足する場合、前記現在周波数成分をバレーに決定することを特徴とする請求項24に記載の音声向上方法。
- 受信した音声スペクトルから推定したノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、
前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップと、
を含むことを特徴とする音声向上方法。 - 前記スペクトルを減算するステップは、前記負数部分を絶対値に置換して減算スペクトルを補正することを特徴とする請求項27に記載の音声向上方法。
- 前記スペクトルを減算するステップは、前記負数部分を0値に置換して減算スペクトルを補正することを特徴とする請求項27に記載の音声向上方法。
- 前記スペクトルを向上させるステップは、
前記減算スペクトルに存在する少なくとも一つのピーク及び少なくとも一つのバレーを検出するステップと、
前記検出したピークを、強調パラメータを利用して強調し、前記検出したバレーを、抑制パラメータを利用して抑制するステップと、
前記強調したピークと抑制したバレーとを合成するステップと、
を含むことを特徴とする請求項27に記載の音声向上方法。 - 前記減算スペクトルでサンプリングした現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、次の式(4)を満足する場合、前記現在周波数成分をピークに決定することを特徴とする請求項30に記載の音声向上方法。
- 前記減算スペクトルでサンプリングした現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、式(5)を満足する場合、前記現在周波数成分をバレーに決定することを特徴とする請求項30に記載の音声向上方法。
- 前記強調パラメータμは、次の式(6)に決定されることを特徴とする請求項24に記載の音声向上方法。
- 前記抑制パラメータηは、式(7)に決定されることを特徴とする請求項24に記載の音声向上方法。
- 受信した音声スペクトルから推定したノイズスペクトルを減算して減算スペクトルを発生させるステップと、
訓練データに含まれるノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、
前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるステップと、
を含むことを特徴とする音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。 - 前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップをさらに含むことを特徴とする請求項35に記載の音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。
- 受信した音声スペクトルから推定されるノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、
前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップと、
を含むことを特徴とする音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050010189A KR100657948B1 (ko) | 2005-02-03 | 2005-02-03 | 음성향상장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006215568A true JP2006215568A (ja) | 2006-08-17 |
Family
ID=36178313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006027330A Pending JP2006215568A (ja) | 2005-02-03 | 2006-02-03 | 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8214205B2 (ja) |
EP (1) | EP1688921B1 (ja) |
JP (1) | JP2006215568A (ja) |
KR (1) | KR100657948B1 (ja) |
DE (1) | DE602006009160D1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2010102201A (ja) * | 2008-10-24 | 2010-05-06 | Yamaha Corp | 雑音抑圧装置及び雑音抑圧方法 |
JP2012027114A (ja) * | 2010-07-21 | 2012-02-09 | Toa Corp | 音声検出装置 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100751923B1 (ko) * | 2005-11-11 | 2007-08-24 | 고려대학교 산학협력단 | 잡음환경에 강인한 음성인식을 위한 에너지 특징 보상 방법및 장치 |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
EP2031583B1 (en) * | 2007-08-31 | 2010-01-06 | Harman Becker Automotive Systems GmbH | Fast estimation of spectral noise power density for speech signal enhancement |
US8606566B2 (en) * | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
US8326617B2 (en) | 2007-10-24 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement with minimum gating |
US8015002B2 (en) * | 2007-10-24 | 2011-09-06 | Qnx Software Systems Co. | Dynamic noise reduction using linear model fitting |
JP5640238B2 (ja) * | 2008-02-28 | 2014-12-17 | 株式会社通信放送国際研究所 | 特異点信号処理システムおよびそのプログラム |
GB2471875B (en) * | 2009-07-15 | 2011-08-10 | Toshiba Res Europ Ltd | A speech recognition system and method |
KR101650374B1 (ko) * | 2010-04-27 | 2016-08-24 | 삼성전자주식회사 | 잡음을 제거하고 목적 신호의 품질을 향상시키기 위한 신호 처리 장치 및 방법 |
US9792925B2 (en) * | 2010-11-25 | 2017-10-17 | Nec Corporation | Signal processing device, signal processing method and signal processing program |
AU2012256550B2 (en) | 2011-05-13 | 2016-08-25 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
KR101696595B1 (ko) * | 2015-07-22 | 2017-01-16 | 현대자동차주식회사 | 차량, 및 그 제어방법 |
KR101886775B1 (ko) | 2016-10-31 | 2018-08-08 | 광운대학교 산학협력단 | Ptt 기반 음성 명료성 향상 장치 및 방법 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11783810B2 (en) * | 2019-07-19 | 2023-10-10 | The Boeing Company | Voice activity detection and dialogue recognition for air traffic control |
KR102191736B1 (ko) | 2020-07-28 | 2020-12-16 | 주식회사 수퍼톤 | 인공신경망을 이용한 음성향상방법 및 장치 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
AU676714B2 (en) * | 1993-02-12 | 1997-03-20 | British Telecommunications Public Limited Company | Noise reduction |
US5742924A (en) * | 1994-12-02 | 1998-04-21 | Nissan Motor Co., Ltd. | Apparatus and method for navigating mobile body using road map displayed in form of bird's eye view |
SE505156C2 (sv) * | 1995-01-30 | 1997-07-07 | Ericsson Telefon Ab L M | Förfarande för bullerundertryckning genom spektral subtraktion |
JP3453898B2 (ja) * | 1995-02-17 | 2003-10-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
JPH11327593A (ja) | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
JP3454190B2 (ja) * | 1999-06-09 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置および方法 |
KR100304666B1 (ko) * | 1999-08-28 | 2001-11-01 | 윤종용 | 음성 향상 방법 |
JP3454206B2 (ja) * | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
US6757395B1 (en) * | 2000-01-12 | 2004-06-29 | Sonic Innovations, Inc. | Noise reduction apparatus and method |
US6766292B1 (en) * | 2000-03-28 | 2004-07-20 | Tellabs Operations, Inc. | Relative noise ratio weighting techniques for adaptive noise cancellation |
JP3566197B2 (ja) * | 2000-08-31 | 2004-09-15 | 松下電器産業株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP2002221988A (ja) * | 2001-01-25 | 2002-08-09 | Toshiba Corp | 音声信号の雑音抑圧方法と装置及び音声認識装置 |
TW533406B (en) * | 2001-09-28 | 2003-05-21 | Ind Tech Res Inst | Speech noise elimination method |
JP2003316381A (ja) | 2002-04-23 | 2003-11-07 | Toshiba Corp | 雑音抑圧方法及び雑音抑圧プログラム |
US7428490B2 (en) * | 2003-09-30 | 2008-09-23 | Intel Corporation | Method for spectral subtraction in speech enhancement |
KR100745977B1 (ko) * | 2005-09-26 | 2007-08-06 | 삼성전자주식회사 | 음성 구간 검출 장치 및 방법 |
-
2005
- 2005-02-03 KR KR1020050010189A patent/KR100657948B1/ko not_active IP Right Cessation
-
2006
- 2006-02-03 US US11/346,273 patent/US8214205B2/en not_active Expired - Fee Related
- 2006-02-03 JP JP2006027330A patent/JP2006215568A/ja active Pending
- 2006-02-03 EP EP06250606A patent/EP1688921B1/en not_active Expired - Fee Related
- 2006-02-03 DE DE602006009160T patent/DE602006009160D1/de active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054728A (ja) * | 2008-08-27 | 2010-03-11 | Hitachi Ltd | 音源抽出装置 |
JP2010102201A (ja) * | 2008-10-24 | 2010-05-06 | Yamaha Corp | 雑音抑圧装置及び雑音抑圧方法 |
JP2012027114A (ja) * | 2010-07-21 | 2012-02-09 | Toa Corp | 音声検出装置 |
Also Published As
Publication number | Publication date |
---|---|
DE602006009160D1 (de) | 2009-10-29 |
KR20060089107A (ko) | 2006-08-08 |
EP1688921B1 (en) | 2009-09-16 |
US20070185711A1 (en) | 2007-08-09 |
US8214205B2 (en) | 2012-07-03 |
EP1688921A1 (en) | 2006-08-09 |
KR100657948B1 (ko) | 2006-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006215568A (ja) | 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 | |
JP5068653B2 (ja) | 雑音のある音声信号を処理する方法および該方法を実行する装置 | |
US7542900B2 (en) | Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
JP4861645B2 (ja) | スピーチノイズサプレッサ、スピーチノイズ抑圧方法、および、スピーチ信号におけるノイズ抑圧方法 | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
JP2009151299A (ja) | 音声スペクトルピーク検出方法及び装置、音声認識方法およびシステム | |
JP2002132289A (ja) | 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置 | |
Cohen | Speech enhancement using super-Gaussian speech models and noncausal a priori SNR estimation | |
RU2719543C1 (ru) | Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала | |
JP5752324B2 (ja) | 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 | |
CN110767244A (zh) | 语音增强方法 | |
KR20110068637A (ko) | 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치 | |
JP2007065204A (ja) | 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体 | |
US20200251090A1 (en) | Detection of fricatives in speech signals | |
JP3510458B2 (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
JP4325044B2 (ja) | 音声認識システム | |
JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP6125953B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
Sunitha et al. | Noise Robust Speech Recognition under Noisy Environments | |
Takahashia et al. | Speech Denoising with Residual Attention U-Net | |
CN115132219A (zh) | 基于二次谱减法的复杂噪声背景下的语音识别方法和系统 | |
Ogawa | More robust J-RASTA processing using spectral subtraction and harmonic sieving | |
CN116524944A (zh) | 音频降噪方法、介质、装置和计算设备 | |
Mumolo | Spectral domain texture analysis for speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061101 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061114 |