JP2006215568A - 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 - Google Patents

音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 Download PDF

Info

Publication number
JP2006215568A
JP2006215568A JP2006027330A JP2006027330A JP2006215568A JP 2006215568 A JP2006215568 A JP 2006215568A JP 2006027330 A JP2006027330 A JP 2006027330A JP 2006027330 A JP2006027330 A JP 2006027330A JP 2006215568 A JP2006215568 A JP 2006215568A
Authority
JP
Japan
Prior art keywords
spectrum
speech
peak
valley
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006027330A
Other languages
English (en)
Inventor
Gil Jin Jang
吉 鎭 張
Jeong-Su Kim
金 正 壽
光 哲 ▲呉▼
Kwangcheol Oh
Sung-Cheol Kim
成 ▲詰▼ 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2006215568A publication Critical patent/JP2006215568A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05BELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
    • H05B3/00Ohmic-resistance heating
    • H05B3/20Heating elements having extended surface area substantially in a two-dimensional plane, e.g. plate-heater
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05BELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
    • H05B3/00Ohmic-resistance heating
    • H05B3/02Details
    • H05B3/06Heater elements structurally combined with coupling elements or holders
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05BELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
    • H05B2203/00Aspects relating to Ohmic resistive heating covered by group H05B3/00
    • H05B2203/02Heaters using heating elements having a positive temperature coefficient

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去して、音質及び自然性を向上させる。
【解決手段】受信した音声スペクトルから推定されたノイズスペクトルを減算して減算スペクトルを発生させるためのスペクトル減算部310と、訓練データに含まれるノイズスペクトルの変移を利用して、ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部330と、減算スペクトルを、補正関数を利用して補正し、補正したスペクトルを発生させるためのスペクトル補正部350と、を備える音声向上装置である。
【選択図】図3

Description

本発明は、音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り媒体に係り、特に、ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去し、ノイズの除去された音声スペクトルのピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り媒体に関する。
一般的に、静かな環境の下では、音声認識装置は音声認識を正確に行うことができるが、自動車の内部、展示場、市内の公衆電話ブースのような実際の音声認識装置が使用される環境下では、周辺のノイズにより音声認識性能が低下する。したがって、ノイズによる音声認識性能の低下は、音声認識技術の広範な活用を阻害する要因となっており、これについての多くの研究が進められている。その中でも、ノイズのある環境にロバスト音声認識を行うために、音声認識装置に入力される音声信号に含まれた加算ノイズを除去する方法としてスペクトル減算法が広く使用されている。
スペクトル減算法は、ノイズの周波数特性が音声に比べて緩やかに変化する性質を利用し、ノイズの平均スペクトルを音声不在区間、すなわち、黙音区間で推定して、入力される音声スペクトルから減算するものである。ところが、推定されたノイズの平均スペクトル|Ne(ω)|にエラーが存在する場合、音声認識装置に入力された音声スペクトル|Y(ω)|から推定されたノイズの平均スペクトル|Ne(ω)|を減算したスペクトルに負数が発生し得る。
減算スペクトルに負数が発生することを防止するために、従来方法の一例(以下、「HWR」と略す。)では、図1のように、減算スペクトル(|Y(ω)|−|Ne(ω)|)で0より小さな振幅を有する部分110が、一律的に0あるいは非常に小さな正数の値を有するように調整する。この場合、ノイズ除去の性能は優れているが、0あるいは非常に小さな正数の値に調整される過程で音声の歪曲が発生する可能性が高くなり、音質や認識性能が低下する。一方、従来の方法の他例(以下、「FWR」と略す。)では、図2のように、減算スペクトル(|Y(ω)|−|Ne(ω)|)で0より小さな振幅を有する部分、例えば、P1の振幅値の場合、その絶対値、すなわち、P2の振幅値に調整した。この場合、音質は向上し得るが、ノイズがさらに多く残る可能性がある。図1及び図2で|S(ω)|は、ノイズが混入されていない元来の音声信号を表す。
本発明が解決しようとする技術的課題は、ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。
本発明が解決しようとする他の技術的課題は、ノイズのある環境で受信される音声信号に含まれるノイズを効率的に除去して、ノイズが除去された音声スペクトルのピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。
本発明が解決しようとするさらに他の技術的課題は、ノイズのある環境で受信される音声スペクトルに存在するピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。
前記課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるためのスペクトル減算部と、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部と、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるためのスペクトル補正部と、を備えることを特徴とする。
前記技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるステップと、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるステップと、を含むことを特徴とする。
前記他の技術的課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるためのスペクトル減算部と、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部と、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるためのスペクトル補正部と、前記補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるためのスペクトル向上部と、を備えることを特徴とする。
前記他の技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるステップと、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるステップと、前記補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるステップと、を含むことを特徴とする。
前記さらに他の技術的課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるためのスペクトル減算部と、前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるためのスペクトル向上部と、を備えることを特徴とする。
前記さらに他の技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるステップと、を含むことを特徴とする。
本発明の音声向上装置及び方法によれば、減算スペクトルで負数が発生した部分を、与えられた環境に最適化されて音声の歪曲を最小化できる補正関数を利用して補正することによって、ノイズ除去の性能を向上させると共に、音質及び自然性を向上させうる。
また、本発明の音声向上装置及び方法によれば、減算スペクトルで振幅値が相対的に大きな周波数成分は強調し、振幅値が相対的に小さな周波数成分は抑制することによって、ホルマントを推定せずに音声を向上させ得る。
以下、添付した図面を参照して本発明の望ましい実施形態を詳細に説明する。
図3は、本発明に係る音声向上装置の構成を示すブロック図である。
図3に示すように、第1実施形態に係る音声向上装置は、スペクトル減算部310、補正関数モデリング部330、スペクトル補正部350及びスペクトル向上部370を備えてなる。
第2実施形態に係る音声向上装置は、スペクトル減算部310、補正関数モデリング部330及びスペクトル補正部350から構成される。
第3実施形態に係る音声向上装置は、スペクトル減算部310及びスペクトル向上部370から構成される。このとき、第3実施形態に係る音声向上装置のスペクトル減算部310は、負数の部分を絶対値に置換して補正するか、または負数の部分を“0”値に置換して補正した後、減算スペクトルをスペクトル向上部370に提供する。
図3に示すように、スペクトル減算部310は、受信した音声スペクトルから、推定されたノイズの平均スペクトルを減算して減算スペクトルとし、負数部分を補正するために減算スペクトルをスペクトル補正部350に提供する。
補正関数モデリング部330は、訓練データに含まれるノイズスペクトルの変移を利用して、推定したノイズスペクトルを最小化させることが可能な補正関数をモデリングし、モデリングした補正関数をスペクトル補正部350に提供する。
なお、訓練データ(training data)は雑音が存在しないクリーンな環境ではなく、与えられた特定環境で予め得られた多様な音声データ(音声スペクトル)に関するデータをいう。
スペクトル補正部350は、スペクトル減算部310から送信される減算スペクトルで0より小さな振幅値を有する部分を、モデリングした補正関数を利用して補正し、補正されたスペクトルを生成する。
スペクトル向上部370は、スペクトル補正部350から送信される補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、最終的に向上したスペクトルを出力する。
図4は、図3において、補正関数モデリング部の細部的な構成を示すブロック図である。補正関数モデリング部330は、訓練データ入力部410、ノイズスペクトル分析部430及び補正関数決定部450を備えてなる。
図4に示すように、訓練データ入力部410は、与えられた環境で収集された訓練データを入力する。
ノイズスペクトル分析部430は、訓練データに対して受信される音声スペクトルとノイズスペクトルとの減算スペクトルと、訓練データに対する元来の音声スペクトルとを比較して、前記受信される音声スペクトルに含まれたノイズスペクトルを分析する。このとき、減算スペクトルのためのノイズスペクトルの推定エラーを最小化させるように、減算スペクトルで0より小さな振幅値を有する部分を複数の領域に分割し、各領域別に補正関数をモデリングするためのパラメータ、例えば、各領域の境界値及び補正関数の傾斜度を求める。
なお、訓練データ自体は与えられた特定環境で得られたものであり、訓練データが音声認識装置を通して入力される場合は音声認識装置が使われる環境によって他の雑音が含まれます。雑音スペクトル分析部430で使用される減算スペクトルは訓練データ(|S(ω,n)|)が音声認識器に入力された後さらに他の雑音が含まれた音声スペクトル(|Y(ω,n)|)から、推定された雑音の平均スペクトル(|Ne(ω)|)を減算することによって求められます。一方、訓練データに対する元来の音声スペクトルは与えられた特定環境で得られ、音声認識器に入力される前の音声スペクトルを意味する。
補正関数決定部450は、ノイズスペクトル分析部430から提供される各領域の境界値及び補正関数の傾斜度を入力して、各領域別に補正関数を算出する。
図5は、図4に示すノイズスペクトル分析部430及び補正関数決定部450の動作を説明する図面である。
ノイズスペクトル分析部430は、受信した訓練データの第nフレームスペクトル(frame spectrum)|Y(ω,n)|と、推定されたノイズの平均スペクトル|Ne(ω)|の間の第nフレーム減算スペクトル|Y(ω,n)|−|Ne(ω)|と、元来の訓練データの第nフレームスペクトル|S(ω,n)|とを互いに対応させた後、減算スペクトル|Y(ω,n)|−|Ne(ω)|で0より小さな振幅値を有する部分と関連して、ノイズスペクトルの推定時のエラー分布をグレーレベルで表現する。このとき、減算スペクトル|Y(ω,n)|−|Ne(ω)|で0より小さな振幅値を有する部分を、振幅値によって、例えば、3個の領域A1,A2,A3に分け、各領域別に相異なる補正関数をモデリングする。減算スペクトル|Y(ω,n)|−|Ne(ω)|で0より小さな振幅値を有する部分は、その振幅値が0と−rとの間に属する第1領域A1、その振幅値が−rと−2rとの間に属する第2領域A2、その振幅値が−2r以下である第3領域A3に区分される。このとき、区間[−2r,0]に属する振幅値が第1エラー関数Jのほとんど、望ましくは、95%ないし99%を占め、区間[−∞,−2r]に属する振幅値が第1エラー関数Jの一部分、望ましくは、1%ないし5%を占めるように、第1領域ないし第3領域を区分するためのrの値が決定される。このとき、第1エラー関数Jは、第nフレーム減算スペクトル|Y(ω,n)|−|Ne(ω)|(以下、xと略す)と、元来の訓練データの第nフレームスペクトル|S(ω,n)|(以下、yと略す)との間のエラー分布を示すものであって、次の式(8)の通りである。
ここで、Eは、期待値(expectation value)を示す。第1領域A1、第2領域A2及び第3領域A3を区分するためのrの値が決定されれば、各領域での補正関数g(x)を決定することができる。なお、第1領域A1は、減少関数、望ましくは、1次関数であり、第2領域A2は、増加関数、望ましくは、1次関数であり、第3領域A3は、g(x)=0に決定する。すなわち、第1領域A1の補正関数g(x)は、g(x)=−βxであり、第2領域A2の補正関数g(x)は、g(x)=β(x+2r)に設定できる。ここで、各補正関数の傾斜度βは、第1エラー関数Jを、各補正関数を適用して表現した後、β偏微分して微分係数を0にする値に決定し、これは、式(9)のように表し得る。
ここで、傾斜度βは、0より大きく、かつ1より小さな値となる。
また、例えば、第1領域A1及び第2領域A2を区分するための第1境界値は、第1領域A1及び第2領域A2がエラー分布で第1分布度を有し、第3領域A3が、エラー分布で第2分布度を有するように決定し、第2領域A2及び第3領域A3を区分する第2境界値は、第1境界値の2倍に設定することもできる。
図6は、スペクトル向上部の細部的な構成を示すブロック図である。スペクトル向上部370は、ピーク検出部610、バレー検出部630、ピーク強調部650、バレー抑制部670及び合成部690を備えてなる。スペクトル向上部370は、スペクトル補正部350の後端に連結されるか、またはスペクトル減算部310の後端に連結され得る。ここでは、スペクトル補正部350の後端に連結される場合を例として説明する。
図6に示すように、ピーク検出部610は、スペクトル補正部350で補正されたスペクトルに対して少なくとも1つのピークを検出する。このとき、スペクトル補正部350から提供される、補正されたスペクトルでサンプリングされた現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)を比較してピークを検出するが、次の式(10)が成立てば、該当する現在周波数成分の位置をピークとして検出する。
すなわち、隣接した周波数成分の振幅値の平均より、現在周波数成分の振幅値がさらに大きいとき、現在周波数成分をピークとして決定する。
バレー検出部630は、スペクトル補正部350で補正されたスペクトルに対して少なくとも1つのバレーを検出する。同様に、このとき、スペクトル補正部350から提供される補正されたスペクトルで、サンプリングされた現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)を比較してバレーを検出するが、次の式(11)が成立てば、現在周波数成分の位置をバレーとして検出する。
すなわち、隣接された周波数成分の振幅値の平均より現在周波数成分の振幅値がさらに小さいとき、現在周波数成分をバレーとして決定する。
ピーク強調部650は、スペクトル補正部350により補正されたスペクトルと元来の音声信号のスペクトルとの間の第2エラー関数Kから強調パラメータを推定し、ピーク検出部610で検出された各ピークに推定された強調パラメータを適用してピークを強調する。このとき、第2エラー関数Kを、次の式(12)のように、強調パラメータμ及び抑制パラメータηを使用して、ピークのエラーとバレーのエラーとの和で表す場合、強調パラメータμは、次の式(13)のように推定され得る。
ここで、強調パラメータμは、1より大きい値であることが望ましい。σは偏微分演算子を示す。
すなわち、式(13)により求められた強調パラメータμを、各ピークの振幅値に乗算してスペクトルを向上させる。
バレー抑制部670は、スペクトル補正部350により補正されたスペクトルと、実際の音声信号のスペクトルとの間の第2エラー関数Kから抑制パラメータを推定し、バレー検出部630で検出された各バレーに推定された抑制パラメータを適用してバレーを抑制する。このとき、第2エラー関数Kを、式(12)のように、強調パラメータμ及び抑制パラメータηを使用して、ピークのエラーとバレーのエラーとの和で表す場合、抑制パラメータηは、次の式(14)のように推定され得る。
ここで、抑制パラメータηは、0より大きく、かつ1より小さな値であることが望ましい。
式(12)、式(13)及び式(14)において、xは、スペクトル補正部350により補正されたスペクトルを表し、yは、元来の音声信号のスペクトルを表す。
すなわち、式(14)により求められた抑制パラメータηを、各バレーの振幅値に乗算してスペクトルを向上させる。
合成部690は、ピーク強調部650で強調されたピークと、バレー抑制部670で抑制されたバレーとを合成して、最終的に向上した音声スペクトルを出力する。
図7は、ピーク強調部及びバレー抑制部の動作を説明する図面である。図7に示すように、時間軸から見た振幅スペクトルで、ピーク710は、さらによく現われるように強調し、バレー730は、あまり現われないように抑制させる。
図8は、スペクトル向上部の入力スペクトルと出力スペクトルとを比較した図面である。図8において、符号810は、入力スペクトルを、符号830は、出力スペクトルをそれぞれ示す。出力スペクトル830でピークは強調され、バレーは抑制されるということが分かる。
図9A及び図9Bは、入力される音声スペクトルに対して、スペクトル補正部350によるスペクトル補正を行った本発明の第1実施形態に係る音声向上方法(以下、SAと略す)、入力される音声スペクトルに対して、スペクトル向上部370によるスペクトル向上を行った本発明の第2実施形態に係る音声向上方法(以下、SPVEと略す)、入力される音声スペクトルに対して、スペクトル補正部350によるスペクトル補正及びスペクトル向上部370によるスペクトル向上を行った本発明の第3実施形態に係る音声向上方法(以下、SA+SPVEと略す)、従来のHWRによる方法と従来のFWRによる方法との性能を比較したグラフである。性能を比較するために、人名、地名、企業名のような孤立単語を、男女各8人が100個の単語を発話して得られた1600個の発声データを利用し、手動でマーキングした端点の情報が与えられた。また、加算ノイズの例として、走行中である車両で録取した自動車のノイズを使用した。クリーン音声で録取されたノイズ信号のSNRを0dBに設定し、メル周波数ケプストラル係数の距離(Distance of Mel−Frequency Cepstral Coefficients:以下、D_MFCCと略す)及び信号対ノイズ比(Signal−to−Noise Ratio:以下、SNRと略す)を測定した。ここで、D_MFCCは、元来の音声及びノイズが除去された音声のMFCC間の距離を意味し、SNRは、音声信号及びノイズ信号のパワーの比率を意味する。
図9Aは、D_MFCCを比較したグラフであって、SA、SPVE、SA+SPVEが何れもHWR及びFWRに比べて大幅向上したということが分かる。図9Bは、SNRを比較したグラフであって、SAは、HWR及びFWRと同じレベルを維持するが、SPVE、SA+SPVEは、HWR及びFWRに比べて大幅向上したということが分かる。
また、本発明は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存される全ての種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ROM(Read Only Memory)、RAM(Random Access Memory)、CD−ROM、磁気テープ、フレキシブルディスク、光データ保存装置などがあり、また、キャリアウェーブ(例えば、インターネットを介した伝送)の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードが保存され、かつ実行され得る。そして、本発明を具現するための機能的なプログラム、コード及びコードセグメントは、当業界のプログラマーによって容易に推論され得る。
本発明は、図面に図示された一実施形態を参照して説明したが、これは、例示的なものに過ぎず、当業者ならば、これから多様な変形及び実施形態の変形が可能であるということが理解できるであろう。したがって、本発明の技術的範囲は、特許請求の範囲の技術的思想によって決まらねばならない。
本発明は、音声向上装置に関連した技術分野に好適に適用され得る。
スペクトル減算法により生成された音声スペクトルで負数が発生した場合、既存の処理方法の一例を示す図面である。 スペクトル減算法により生成された音声スペクトルで負数が発生された場合、既存の処理方法の他の例を示す図面である。 本発明に係る音声向上装置の構成を示すブロック図である。 図3において、補正関数モデリング部の細部的な構成を示すブロック図である。 図4に示すノイズスペクトル分析部及び補正関数決定部の動作を説明する図面である。 図3において、スペクトル向上部の細部的な構成を示すブロック図である。 図6において、ピーク強調部及びバレー抑制部の動作を説明する図面である。 図3において、スペクトル向上部の入力スペクトルと出力スペクトルとを比較した図面である。 本発明に係る音声向上方法と従来の音声向上方法との性能を比較したグラフを示す図面である。 本発明に係る音声向上方法と従来の音声向上方法との性能を比較したグラフを示す図面である。
符号の説明
310 スペクトル減算部
330 補正関数モデリング部
350 スペクトル補正部
370 スペクトル向上部

Claims (37)

  1. 受信した音声スペクトルから、推定したノイズスペクトルを減算して減算スペクトルを発生させるためのスペクトル減算部と、
    訓練データに含まれるノイズスペクトルの変移を利用して、前記推定されたノイズスペクトルを最小化させ得る補正関数をモデリングする補正関数モデリング部と、
    前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるためのスペクトル補正部と、
    を備えることを特徴とする音声向上装置。
  2. 前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるためのスペクトル向上部をさらに備えることを特徴とする請求項1に記載の音声向上装置。
  3. 前記補正関数モデリング部は、
    前記訓練データに対応する音声スペクトルを受信するための訓練データ入力部と、
    前記減算スペクトルで0より小さな振幅値を有する部分を複数の領域に分け、前記訓練データに対して受信した音声スペクトルと推定したノイズスペクトルとの間の減算スペクトルと、前記訓練データに対する元来の音声スペクトルとの間のエラー分布を利用して前記受信した音声スペクトルに含まれるノイズスペクトルを分析するノイズスペクトル分析部と、
    前記ノイズスペクトルの分析結果を入力として、前記複数の領域別に補正関数をモデリングするための補正関数決定部と、
    を備えることを特徴とする請求項1に記載の音声向上装置。
  4. 前記ノイズスペクトル分析部は、
    前記減算スペクトルで0より小さな振幅値を有する部分を第1領域、第2領域及び第3領域に分け、
    前記第1領域及び前記第2領域を区分するための第1境界値は、前記第1領域及び前記第2領域が前記エラー分布で第1分布度を有し、前記第3領域が、前記エラー分布で第2分布度を有するように決定し、
    前記第2領域及び前記第3領域を区分する第2境界値は、前記第1境界値の2倍に設定することを特徴とする請求項3に記載の音声向上装置。
  5. 前記第1領域及び前記第2領域の第1分布度は、95%ないし99%であり、
    前記第3領域の第2分布度は、1%ないし5%であることを特徴とする請求項4に記載の音声向上装置。
  6. 前記第1領域の補正関数は、減少関数であり、
    前記第2領域の補正関数は、増加関数であり、
    前記第3領域の補正関数は、0であることを特徴とする請求項4に記載の音声向上装置。
  7. 前記スペクトル向上部は、
    前記補正したスペクトルに存在する少なくとも一つのピークを検出するためのピーク検出部と、
    前記補正したスペクトルに存在する少なくとも一つのバレーを検出するためのバレー検出部と、
    前記検出したピークを、強調パラメータを利用して強調するためのピーク強調部と、
    前記検出したバレーを、抑制パラメータを利用して抑制するためのバレー抑制部と、
    前記強調したピークと抑制されたバレーとを合成するための合成部と、
    を備えることを特徴とする請求項2に記載の音声向上装置。
  8. 前記ピーク検出部は、前記補正したスペクトルで、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が大きいとき、前記現在周波数成分をピークに決定することを特徴とする請求項7に記載の音声向上装置。
  9. 前記バレー検出部は、前記補正したスペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が小さいとき、前記現在周波数成分をバレーに決定することを特徴とする請求項7に記載の音声向上装置。
  10. 受信した音声スペクトルから、推定したノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるためのスペクトル減算部と、
    前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるためのスペクトル向上部と、
    を備えることを特徴とする音声向上装置。
  11. 前記スペクトル減算部は、
    前記負数部分を絶対値に置換して補正することを特徴とする請求項10に記載の音声向上装置。
  12. 前記スペクトル減算部は、
    前記負数部分を0値に置換して補正することを特徴とする請求項10に記載の音声向上装置。
  13. 前記スペクトル向上部は、
    前記減算スペクトルに存在する少なくとも一つのピークを検出するためのピーク検出部と、
    前記減算スペクトルに存在する少なくとも一つのバレーを検出するためのバレー検出部と、
    前記検出したピークを、強調パラメータを利用して強調するためのピーク強調部と、
    前記検出したバレーを、抑制パラメータを利用して抑制するためのバレー抑制部と、
    前記強調したピークと抑制したバレーとを合成するための合成部と、
    を備えることを特徴とする請求項10に記載の音声向上装置。
  14. 前記ピーク検出部は、前記減算スペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が大きいとき、前記現在周波数成分をピークに決定することを特徴とする請求項13に記載の音声向上装置。
  15. 前記バレー検出部は、前記減算スペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が小さいとき、前記現在周波数成分をバレーに決定することを特徴とする請求項13に記載の音声向上装置。
  16. 前記強調パラメータは、1より大きい値であることを特徴とする請求項7または請求項13に記載の音声向上装置。
  17. 前記抑制パラメータは、0より大きく、かつ1より小さな値であることを特徴とする請求項7または請求項13に記載の音声向上装置。
  18. 受信した音声スペクトルから、推定したノイズスペクトルを減算して減算スペクトルを発生させるステップと、
    訓練データに含まれるノイズスペクトルの変移を利用して、前記推定したノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、
    前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるステップと、
    を含むことを特徴とする音声向上方法。
  19. 前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップをさらに含むことを特徴とする請求項18に記載の音声向上方法。
  20. 前記補正関数をモデリングするステップは、
    前記減算スペクトルで0より小さな振幅値を有する部分を複数の領域に分け、前記訓練データに対して受信した音声スペクトルと推定したノイズスペクトルとの間の減算スペクトルと、前記訓練データに対応する元来の訓練データに対応する音声スペクトルとの間のエラー分布を利用して、前記受信した音声スペクトルに含まれるノイズスペクトルを分析するステップと、
    前記ノイズスペクトルの分析結果を入力として、前記複数の領域別に補正関数をモデリングするステップと、
    を含むことを特徴とする請求項18に記載の音声向上方法。
  21. 前記ノイズスペクトルを分析するステップは、
    前記減算スペクトルで0より小さな振幅値を有する部分を第1領域、第2領域及び第3領域に分け、
    前記第1領域及び前記第2領域を区分するための第1境界値は、前記第1領域及び前記第2領域が前記エラー分布で第1分布度を有し、前記第3領域が前記エラー分布で第2分布度を有するように決定し、
    前記第2領域及び前記第3領域を区分する第2境界値は、前記第1境界値の2倍に設定することを特徴とする請求項20に記載の音声向上方法。
  22. 前記第1領域及び前記第2領域の第1分布度は、95%ないし99%であり、前記第3領域の第2分布度は、1%ないし5%であることを特徴とする請求項21に記載の音声向上方法。
  23. 前記第1領域ないし前記第3領域の各補正関数g1(x)、g2(x)、g3(x)は、式(1)により決定されることを特徴とする請求項21に記載の音声向上方法。
    ここで、yは、前記訓練データのフレームスペクトルである。
  24. 前記スペクトルを向上させるステップは、
    前記補正したスペクトルに存在する少なくとも一つのピーク及び少なくとも一つのバレーを検出するステップと、
    前記検出したピークを、強調パラメータを利用して強調し、前記検出したバレーを、抑制パラメータを利用して抑制するステップと、
    前記強調したピークと抑制したバレーとを合成するステップと、
    を含むことを特徴とする請求項19に記載の音声向上方法。
  25. 前記補正したスペクトルでサンプリングした現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、次の式(2)を満足する場合、前記現在周波数成分をピークに決定することを特徴とする請求項24に記載の音声向上方法。
  26. 前記補正したスペクトルでサンプリングされた現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、式(3)を満足する場合、前記現在周波数成分をバレーに決定することを特徴とする請求項24に記載の音声向上方法。
  27. 受信した音声スペクトルから推定したノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、
    前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップと、
    を含むことを特徴とする音声向上方法。
  28. 前記スペクトルを減算するステップは、前記負数部分を絶対値に置換して減算スペクトルを補正することを特徴とする請求項27に記載の音声向上方法。
  29. 前記スペクトルを減算するステップは、前記負数部分を0値に置換して減算スペクトルを補正することを特徴とする請求項27に記載の音声向上方法。
  30. 前記スペクトルを向上させるステップは、
    前記減算スペクトルに存在する少なくとも一つのピーク及び少なくとも一つのバレーを検出するステップと、
    前記検出したピークを、強調パラメータを利用して強調し、前記検出したバレーを、抑制パラメータを利用して抑制するステップと、
    前記強調したピークと抑制したバレーとを合成するステップと、
    を含むことを特徴とする請求項27に記載の音声向上方法。
  31. 前記減算スペクトルでサンプリングした現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、次の式(4)を満足する場合、前記現在周波数成分をピークに決定することを特徴とする請求項30に記載の音声向上方法。
  32. 前記減算スペクトルでサンプリングした現在周波数成分の振幅値x(k)と、前記現在周波数成分の振幅値x(k)に隣接した二つの周波数成分の振幅値x(k−1),x(k+1)とが、式(5)を満足する場合、前記現在周波数成分をバレーに決定することを特徴とする請求項30に記載の音声向上方法。
  33. 前記強調パラメータμは、次の式(6)に決定されることを特徴とする請求項24に記載の音声向上方法。
    ここで、xは、補正したスペクトルあるいは減算スペクトルでピークに該当する周波数成分であり、yは、元来の音声スペクトルに含まれた周波数成分を表す。
  34. 前記抑制パラメータηは、式(7)に決定されることを特徴とする請求項24に記載の音声向上方法。
    ここで、xは、前記補正したスペクトルあるいは前記減算スペクトルにおいて前記バレーに該当する周波数成分であり、yは、元来の音声スペクトルに含まれた周波数成分を表す。
  35. 受信した音声スペクトルから推定したノイズスペクトルを減算して減算スペクトルを発生させるステップと、
    訓練データに含まれるノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、
    前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるステップと、
    を含むことを特徴とする音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。
  36. 前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップをさらに含むことを特徴とする請求項35に記載の音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。
  37. 受信した音声スペクトルから推定されるノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、
    前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップと、
    を含むことを特徴とする音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。

JP2006027330A 2005-02-03 2006-02-03 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 Pending JP2006215568A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050010189A KR100657948B1 (ko) 2005-02-03 2005-02-03 음성향상장치 및 방법

Publications (1)

Publication Number Publication Date
JP2006215568A true JP2006215568A (ja) 2006-08-17

Family

ID=36178313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006027330A Pending JP2006215568A (ja) 2005-02-03 2006-02-03 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体

Country Status (5)

Country Link
US (1) US8214205B2 (ja)
EP (1) EP1688921B1 (ja)
JP (1) JP2006215568A (ja)
KR (1) KR100657948B1 (ja)
DE (1) DE602006009160D1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2010102201A (ja) * 2008-10-24 2010-05-06 Yamaha Corp 雑音抑圧装置及び雑音抑圧方法
JP2012027114A (ja) * 2010-07-21 2012-02-09 Toa Corp 音声検出装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100751923B1 (ko) * 2005-11-11 2007-08-24 고려대학교 산학협력단 잡음환경에 강인한 음성인식을 위한 에너지 특징 보상 방법및 장치
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
EP2031583B1 (en) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Fast estimation of spectral noise power density for speech signal enhancement
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
US8326617B2 (en) 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
JP5640238B2 (ja) * 2008-02-28 2014-12-17 株式会社通信放送国際研究所 特異点信号処理システムおよびそのプログラム
GB2471875B (en) * 2009-07-15 2011-08-10 Toshiba Res Europ Ltd A speech recognition system and method
KR101650374B1 (ko) * 2010-04-27 2016-08-24 삼성전자주식회사 잡음을 제거하고 목적 신호의 품질을 향상시키기 위한 신호 처리 장치 및 방법
US9792925B2 (en) * 2010-11-25 2017-10-17 Nec Corporation Signal processing device, signal processing method and signal processing program
AU2012256550B2 (en) 2011-05-13 2016-08-25 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
KR101696595B1 (ko) * 2015-07-22 2017-01-16 현대자동차주식회사 차량, 및 그 제어방법
KR101886775B1 (ko) 2016-10-31 2018-08-08 광운대학교 산학협력단 Ptt 기반 음성 명료성 향상 장치 및 방법
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11783810B2 (en) * 2019-07-19 2023-10-10 The Boeing Company Voice activity detection and dialogue recognition for air traffic control
KR102191736B1 (ko) 2020-07-28 2020-12-16 주식회사 수퍼톤 인공신경망을 이용한 음성향상방법 및 장치

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
AU676714B2 (en) * 1993-02-12 1997-03-20 British Telecommunications Public Limited Company Noise reduction
US5742924A (en) * 1994-12-02 1998-04-21 Nissan Motor Co., Ltd. Apparatus and method for navigating mobile body using road map displayed in form of bird's eye view
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JPH11327593A (ja) 1998-05-14 1999-11-26 Denso Corp 音声認識システム
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
JP3454190B2 (ja) * 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
JP3566197B2 (ja) * 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
JP2002221988A (ja) * 2001-01-25 2002-08-09 Toshiba Corp 音声信号の雑音抑圧方法と装置及び音声認識装置
TW533406B (en) * 2001-09-28 2003-05-21 Ind Tech Res Inst Speech noise elimination method
JP2003316381A (ja) 2002-04-23 2003-11-07 Toshiba Corp 雑音抑圧方法及び雑音抑圧プログラム
US7428490B2 (en) * 2003-09-30 2008-09-23 Intel Corporation Method for spectral subtraction in speech enhancement
KR100745977B1 (ko) * 2005-09-26 2007-08-06 삼성전자주식회사 음성 구간 검출 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2010102201A (ja) * 2008-10-24 2010-05-06 Yamaha Corp 雑音抑圧装置及び雑音抑圧方法
JP2012027114A (ja) * 2010-07-21 2012-02-09 Toa Corp 音声検出装置

Also Published As

Publication number Publication date
DE602006009160D1 (de) 2009-10-29
KR20060089107A (ko) 2006-08-08
EP1688921B1 (en) 2009-09-16
US20070185711A1 (en) 2007-08-09
US8214205B2 (en) 2012-07-03
EP1688921A1 (en) 2006-08-09
KR100657948B1 (ko) 2006-12-14

Similar Documents

Publication Publication Date Title
JP2006215568A (ja) 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体
JP5068653B2 (ja) 雑音のある音声信号を処理する方法および該方法を実行する装置
US7542900B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP4861645B2 (ja) スピーチノイズサプレッサ、スピーチノイズ抑圧方法、および、スピーチ信号におけるノイズ抑圧方法
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
JP2009151299A (ja) 音声スペクトルピーク検出方法及び装置、音声認識方法およびシステム
JP2002132289A (ja) 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置
Cohen Speech enhancement using super-Gaussian speech models and noncausal a priori SNR estimation
RU2719543C1 (ru) Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
CN110767244A (zh) 语音增强方法
KR20110068637A (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP2007065204A (ja) 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体
US20200251090A1 (en) Detection of fricatives in speech signals
JP3510458B2 (ja) 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
JP4325044B2 (ja) 音声認識システム
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP6125953B2 (ja) 音声区間検出装置、その方法、及びプログラム
Sunitha et al. Noise Robust Speech Recognition under Noisy Environments
Takahashia et al. Speech Denoising with Residual Attention U-Net
CN115132219A (zh) 基于二次谱减法的复杂噪声背景下的语音识别方法和系统
Ogawa More robust J-RASTA processing using spectral subtraction and harmonic sieving
CN116524944A (zh) 音频降噪方法、介质、装置和计算设备
Mumolo Spectral domain texture analysis for speech enhancement

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061114