JP2006215568A

JP2006215568A - 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体

Info

Publication number: JP2006215568A
Application number: JP2006027330A
Authority: JP
Inventors: Gil Jin Jang; 吉鎭張; Jeong-Su Kim; 金　正　壽; 光哲 ▲呉▼; Kwangcheol Oh; Sung-Cheol Kim; 成 ▲詰▼ 金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-02-03
Filing date: 2006-02-03
Publication date: 2006-08-17
Also published as: DE602006009160D1; KR20060089107A; EP1688921B1; US20070185711A1; US8214205B2; EP1688921A1; KR100657948B1

Abstract

【課題】ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去して、音質及び自然性を向上させる。
【解決手段】受信した音声スペクトルから推定されたノイズスペクトルを減算して減算スペクトルを発生させるためのスペクトル減算部３１０と、訓練データに含まれるノイズスペクトルの変移を利用して、ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部３３０と、減算スペクトルを、補正関数を利用して補正し、補正したスペクトルを発生させるためのスペクトル補正部３５０と、を備える音声向上装置である。
【選択図】図３

Description

本発明は、音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り媒体に係り、特に、ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去し、ノイズの除去された音声スペクトルのピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り媒体に関する。

一般的に、静かな環境の下では、音声認識装置は音声認識を正確に行うことができるが、自動車の内部、展示場、市内の公衆電話ブースのような実際の音声認識装置が使用される環境下では、周辺のノイズにより音声認識性能が低下する。したがって、ノイズによる音声認識性能の低下は、音声認識技術の広範な活用を阻害する要因となっており、これについての多くの研究が進められている。その中でも、ノイズのある環境にロバスト音声認識を行うために、音声認識装置に入力される音声信号に含まれた加算ノイズを除去する方法としてスペクトル減算法が広く使用されている。

スペクトル減算法は、ノイズの周波数特性が音声に比べて緩やかに変化する性質を利用し、ノイズの平均スペクトルを音声不在区間、すなわち、黙音区間で推定して、入力される音声スペクトルから減算するものである。ところが、推定されたノイズの平均スペクトル｜Ｎ_e（ω）｜にエラーが存在する場合、音声認識装置に入力された音声スペクトル｜Ｙ（ω）｜から推定されたノイズの平均スペクトル｜Ｎ_e（ω）｜を減算したスペクトルに負数が発生し得る。

減算スペクトルに負数が発生することを防止するために、従来方法の一例（以下、「ＨＷＲ」と略す。）では、図１のように、減算スペクトル（｜Ｙ（ω）｜−｜Ｎ_e（ω）｜）で０より小さな振幅を有する部分１１０が、一律的に０あるいは非常に小さな正数の値を有するように調整する。この場合、ノイズ除去の性能は優れているが、０あるいは非常に小さな正数の値に調整される過程で音声の歪曲が発生する可能性が高くなり、音質や認識性能が低下する。一方、従来の方法の他例（以下、「ＦＷＲ」と略す。）では、図２のように、減算スペクトル（｜Ｙ（ω）｜−｜Ｎ_e（ω）｜）で０より小さな振幅を有する部分、例えば、Ｐ１の振幅値の場合、その絶対値、すなわち、Ｐ２の振幅値に調整した。この場合、音質は向上し得るが、ノイズがさらに多く残る可能性がある。図１及び図２で｜Ｓ（ω）｜は、ノイズが混入されていない元来の音声信号を表す。

本発明が解決しようとする技術的課題は、ノイズのある環境で受信される音声信号に含まれたノイズを効率的に除去して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。

本発明が解決しようとする他の技術的課題は、ノイズのある環境で受信される音声信号に含まれるノイズを効率的に除去して、ノイズが除去された音声スペクトルのピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。

本発明が解決しようとするさらに他の技術的課題は、ノイズのある環境で受信される音声スペクトルに存在するピーク及びバレーを適切に処理して、音質及び自然性を向上させるための音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体を提供することである。

前記課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるためのスペクトル減算部と、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部と、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるためのスペクトル補正部と、を備えることを特徴とする。

前記技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるステップと、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるステップと、を含むことを特徴とする。

前記他の技術的課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるためのスペクトル減算部と、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするための補正関数モデリング部と、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるためのスペクトル補正部と、前記補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるためのスペクトル向上部と、を備えることを特徴とする。

前記他の技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算して、減算スペクトルを発生させるステップと、訓練データに含まれたノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、前記減算スペクトルを、前記補正関数を利用して補正して、補正されたスペクトルを発生させるステップと、前記補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるステップと、を含むことを特徴とする。

前記さらに他の技術的課題を達成するために、本発明に係る音声向上装置は、受信された音声スペクトルから推定されたノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるためのスペクトル減算部と、前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるためのスペクトル向上部と、を備えることを特徴とする。

前記さらに他の技術的課題を達成するために、本発明に係る音声向上方法は、受信された音声スペクトルから推定されたノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正されたスペクトルを向上させるステップと、を含むことを特徴とする。

本発明の音声向上装置及び方法によれば、減算スペクトルで負数が発生した部分を、与えられた環境に最適化されて音声の歪曲を最小化できる補正関数を利用して補正することによって、ノイズ除去の性能を向上させると共に、音質及び自然性を向上させうる。

また、本発明の音声向上装置及び方法によれば、減算スペクトルで振幅値が相対的に大きな周波数成分は強調し、振幅値が相対的に小さな周波数成分は抑制することによって、ホルマントを推定せずに音声を向上させ得る。

以下、添付した図面を参照して本発明の望ましい実施形態を詳細に説明する。
図３は、本発明に係る音声向上装置の構成を示すブロック図である。

図３に示すように、第１実施形態に係る音声向上装置は、スペクトル減算部３１０、補正関数モデリング部３３０、スペクトル補正部３５０及びスペクトル向上部３７０を備えてなる。
第２実施形態に係る音声向上装置は、スペクトル減算部３１０、補正関数モデリング部３３０及びスペクトル補正部３５０から構成される。

第３実施形態に係る音声向上装置は、スペクトル減算部３１０及びスペクトル向上部３７０から構成される。このとき、第３実施形態に係る音声向上装置のスペクトル減算部３１０は、負数の部分を絶対値に置換して補正するか、または負数の部分を“０”値に置換して補正した後、減算スペクトルをスペクトル向上部３７０に提供する。

図３に示すように、スペクトル減算部３１０は、受信した音声スペクトルから、推定されたノイズの平均スペクトルを減算して減算スペクトルとし、負数部分を補正するために減算スペクトルをスペクトル補正部３５０に提供する。
補正関数モデリング部３３０は、訓練データに含まれるノイズスペクトルの変移を利用して、推定したノイズスペクトルを最小化させることが可能な補正関数をモデリングし、モデリングした補正関数をスペクトル補正部３５０に提供する。
なお、訓練データ（ｔｒａｉｎｉｎｇｄａｔａ）は雑音が存在しないクリーンな環境ではなく、与えられた特定環境で予め得られた多様な音声データ（音声スペクトル）に関するデータをいう。

スペクトル補正部３５０は、スペクトル減算部３１０から送信される減算スペクトルで０より小さな振幅値を有する部分を、モデリングした補正関数を利用して補正し、補正されたスペクトルを生成する。
スペクトル向上部３７０は、スペクトル補正部３５０から送信される補正されたスペクトルに存在するピークを強調し、かつバレーを抑制して、最終的に向上したスペクトルを出力する。

図４は、図３において、補正関数モデリング部の細部的な構成を示すブロック図である。補正関数モデリング部３３０は、訓練データ入力部４１０、ノイズスペクトル分析部４３０及び補正関数決定部４５０を備えてなる。
図４に示すように、訓練データ入力部４１０は、与えられた環境で収集された訓練データを入力する。

ノイズスペクトル分析部４３０は、訓練データに対して受信される音声スペクトルとノイズスペクトルとの減算スペクトルと、訓練データに対する元来の音声スペクトルとを比較して、前記受信される音声スペクトルに含まれたノイズスペクトルを分析する。このとき、減算スペクトルのためのノイズスペクトルの推定エラーを最小化させるように、減算スペクトルで０より小さな振幅値を有する部分を複数の領域に分割し、各領域別に補正関数をモデリングするためのパラメータ、例えば、各領域の境界値及び補正関数の傾斜度を求める。
なお、訓練データ自体は与えられた特定環境で得られたものであり、訓練データが音声認識装置を通して入力される場合は音声認識装置が使われる環境によって他の雑音が含まれます。雑音スペクトル分析部４３０で使用される減算スペクトルは訓練データ（｜Ｓ（ω，ｎ）｜）が音声認識器に入力された後さらに他の雑音が含まれた音声スペクトル（｜Ｙ（ω，ｎ）｜）から、推定された雑音の平均スペクトル（｜Ｎ_e（ω）｜）を減算することによって求められます。一方、訓練データに対する元来の音声スペクトルは与えられた特定環境で得られ、音声認識器に入力される前の音声スペクトルを意味する。

補正関数決定部４５０は、ノイズスペクトル分析部４３０から提供される各領域の境界値及び補正関数の傾斜度を入力して、各領域別に補正関数を算出する。
図５は、図４に示すノイズスペクトル分析部４３０及び補正関数決定部４５０の動作を説明する図面である。

ノイズスペクトル分析部４３０は、受信した訓練データの第ｎフレームスペクトル（ｆｒａｍｅｓｐｅｃｔｒｕｍ）｜Ｙ（ω，ｎ）｜と、推定されたノイズの平均スペクトル｜Ｎ_e（ω）｜の間の第ｎフレーム減算スペクトル｜Ｙ（ω，ｎ）｜−｜Ｎ_e（ω）｜と、元来の訓練データの第ｎフレームスペクトル｜Ｓ（ω，ｎ）｜とを互いに対応させた後、減算スペクトル｜Ｙ（ω，ｎ）｜−｜Ｎ_e（ω）｜で０より小さな振幅値を有する部分と関連して、ノイズスペクトルの推定時のエラー分布をグレーレベルで表現する。このとき、減算スペクトル｜Ｙ（ω，ｎ）｜−｜Ｎ_e（ω）｜で０より小さな振幅値を有する部分を、振幅値によって、例えば、３個の領域Ａ１，Ａ２，Ａ３に分け、各領域別に相異なる補正関数をモデリングする。減算スペクトル｜Ｙ（ω，ｎ）｜−｜Ｎ_e（ω）｜で０より小さな振幅値を有する部分は、その振幅値が０と−ｒとの間に属する第１領域Ａ１、その振幅値が−ｒと−２ｒとの間に属する第２領域Ａ２、その振幅値が−２ｒ以下である第３領域Ａ３に区分される。このとき、区間［−２ｒ，０］に属する振幅値が第１エラー関数Ｊのほとんど、望ましくは、９５％ないし９９％を占め、区間［−∞，−２ｒ］に属する振幅値が第１エラー関数Ｊの一部分、望ましくは、１％ないし５％を占めるように、第１領域ないし第３領域を区分するためのｒの値が決定される。このとき、第１エラー関数Ｊは、第ｎフレーム減算スペクトル｜Ｙ（ω，ｎ）｜−｜Ｎ_e（ω）｜（以下、ｘと略す）と、元来の訓練データの第ｎフレームスペクトル｜Ｓ（ω，ｎ）｜（以下、ｙと略す）との間のエラー分布を示すものであって、次の式（８）の通りである。

ここで、Ｅは、期待値（ｅｘｐｅｃｔａｔｉｏｎｖａｌｕｅ）を示す。第１領域Ａ１、第２領域Ａ２及び第３領域Ａ３を区分するためのｒの値が決定されれば、各領域での補正関数ｇ（ｘ）を決定することができる。なお、第１領域Ａ１は、減少関数、望ましくは、１次関数であり、第２領域Ａ２は、増加関数、望ましくは、１次関数であり、第３領域Ａ３は、ｇ（ｘ）＝０に決定する。すなわち、第１領域Ａ１の補正関数ｇ（ｘ）は、ｇ（ｘ）＝−βｘであり、第２領域Ａ２の補正関数ｇ（ｘ）は、ｇ（ｘ）＝β（ｘ＋２ｒ）に設定できる。ここで、各補正関数の傾斜度βは、第１エラー関数Ｊを、各補正関数を適用して表現した後、β偏微分して微分係数を０にする値に決定し、これは、式（９）のように表し得る。

ここで、傾斜度βは、０より大きく、かつ１より小さな値となる。
また、例えば、第１領域Ａ１及び第２領域Ａ２を区分するための第１境界値は、第１領域Ａ１及び第２領域Ａ２がエラー分布で第１分布度を有し、第３領域Ａ３が、エラー分布で第２分布度を有するように決定し、第２領域Ａ２及び第３領域Ａ３を区分する第２境界値は、第１境界値の２倍に設定することもできる。

図６は、スペクトル向上部の細部的な構成を示すブロック図である。スペクトル向上部３７０は、ピーク検出部６１０、バレー検出部６３０、ピーク強調部６５０、バレー抑制部６７０及び合成部６９０を備えてなる。スペクトル向上部３７０は、スペクトル補正部３５０の後端に連結されるか、またはスペクトル減算部３１０の後端に連結され得る。ここでは、スペクトル補正部３５０の後端に連結される場合を例として説明する。

図６に示すように、ピーク検出部６１０は、スペクトル補正部３５０で補正されたスペクトルに対して少なくとも１つのピークを検出する。このとき、スペクトル補正部３５０から提供される、補正されたスペクトルでサンプリングされた現在周波数成分の振幅値ｘ（ｋ）に隣接した二つの周波数成分の振幅値ｘ（ｋ−１），ｘ（ｋ＋１）を比較してピークを検出するが、次の式（１０）が成立てば、該当する現在周波数成分の位置をピークとして検出する。

すなわち、隣接した周波数成分の振幅値の平均より、現在周波数成分の振幅値がさらに大きいとき、現在周波数成分をピークとして決定する。
バレー検出部６３０は、スペクトル補正部３５０で補正されたスペクトルに対して少なくとも１つのバレーを検出する。同様に、このとき、スペクトル補正部３５０から提供される補正されたスペクトルで、サンプリングされた現在周波数成分の振幅値ｘ（ｋ）に隣接した二つの周波数成分の振幅値ｘ（ｋ−１），ｘ（ｋ＋１）を比較してバレーを検出するが、次の式（１１）が成立てば、現在周波数成分の位置をバレーとして検出する。

すなわち、隣接された周波数成分の振幅値の平均より現在周波数成分の振幅値がさらに小さいとき、現在周波数成分をバレーとして決定する。
ピーク強調部６５０は、スペクトル補正部３５０により補正されたスペクトルと元来の音声信号のスペクトルとの間の第２エラー関数Ｋから強調パラメータを推定し、ピーク検出部６１０で検出された各ピークに推定された強調パラメータを適用してピークを強調する。このとき、第２エラー関数Ｋを、次の式（１２）のように、強調パラメータμ及び抑制パラメータηを使用して、ピークのエラーとバレーのエラーとの和で表す場合、強調パラメータμは、次の式（１３）のように推定され得る。

ここで、強調パラメータμは、１より大きい値であることが望ましい。σは偏微分演算子を示す。
すなわち、式（１３）により求められた強調パラメータμを、各ピークの振幅値に乗算してスペクトルを向上させる。

バレー抑制部６７０は、スペクトル補正部３５０により補正されたスペクトルと、実際の音声信号のスペクトルとの間の第２エラー関数Ｋから抑制パラメータを推定し、バレー検出部６３０で検出された各バレーに推定された抑制パラメータを適用してバレーを抑制する。このとき、第２エラー関数Ｋを、式（１２）のように、強調パラメータμ及び抑制パラメータηを使用して、ピークのエラーとバレーのエラーとの和で表す場合、抑制パラメータηは、次の式（１４）のように推定され得る。

ここで、抑制パラメータηは、０より大きく、かつ１より小さな値であることが望ましい。
式（１２）、式（１３）及び式（１４）において、ｘは、スペクトル補正部３５０により補正されたスペクトルを表し、ｙは、元来の音声信号のスペクトルを表す。

すなわち、式（１４）により求められた抑制パラメータηを、各バレーの振幅値に乗算してスペクトルを向上させる。
合成部６９０は、ピーク強調部６５０で強調されたピークと、バレー抑制部６７０で抑制されたバレーとを合成して、最終的に向上した音声スペクトルを出力する。

図７は、ピーク強調部及びバレー抑制部の動作を説明する図面である。図７に示すように、時間軸から見た振幅スペクトルで、ピーク７１０は、さらによく現われるように強調し、バレー７３０は、あまり現われないように抑制させる。

図８は、スペクトル向上部の入力スペクトルと出力スペクトルとを比較した図面である。図８において、符号８１０は、入力スペクトルを、符号８３０は、出力スペクトルをそれぞれ示す。出力スペクトル８３０でピークは強調され、バレーは抑制されるということが分かる。

図９Ａ及び図９Ｂは、入力される音声スペクトルに対して、スペクトル補正部３５０によるスペクトル補正を行った本発明の第１実施形態に係る音声向上方法（以下、ＳＡと略す）、入力される音声スペクトルに対して、スペクトル向上部３７０によるスペクトル向上を行った本発明の第２実施形態に係る音声向上方法（以下、ＳＰＶＥと略す）、入力される音声スペクトルに対して、スペクトル補正部３５０によるスペクトル補正及びスペクトル向上部３７０によるスペクトル向上を行った本発明の第３実施形態に係る音声向上方法（以下、ＳＡ＋ＳＰＶＥと略す）、従来のＨＷＲによる方法と従来のＦＷＲによる方法との性能を比較したグラフである。性能を比較するために、人名、地名、企業名のような孤立単語を、男女各８人が１００個の単語を発話して得られた１６００個の発声データを利用し、手動でマーキングした端点の情報が与えられた。また、加算ノイズの例として、走行中である車両で録取した自動車のノイズを使用した。クリーン音声で録取されたノイズ信号のＳＮＲを０ｄＢに設定し、メル周波数ケプストラル係数の距離（ＤｉｓｔａｎｃｅｏｆＭｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ：以下、Ｄ＿ＭＦＣＣと略す）及び信号対ノイズ比（Ｓｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ：以下、ＳＮＲと略す）を測定した。ここで、Ｄ＿ＭＦＣＣは、元来の音声及びノイズが除去された音声のＭＦＣＣ間の距離を意味し、ＳＮＲは、音声信号及びノイズ信号のパワーの比率を意味する。

図９Ａは、Ｄ＿ＭＦＣＣを比較したグラフであって、ＳＡ、ＳＰＶＥ、ＳＡ＋ＳＰＶＥが何れもＨＷＲ及びＦＷＲに比べて大幅向上したということが分かる。図９Ｂは、ＳＮＲを比較したグラフであって、ＳＡは、ＨＷＲ及びＦＷＲと同じレベルを維持するが、ＳＰＶＥ、ＳＡ＋ＳＰＶＥは、ＨＷＲ及びＦＷＲに比べて大幅向上したということが分かる。

また、本発明は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存される全ての種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ、磁気テープ、フレキシブルディスク、光データ保存装置などがあり、また、キャリアウェーブ（例えば、インターネットを介した伝送）の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードが保存され、かつ実行され得る。そして、本発明を具現するための機能的なプログラム、コード及びコードセグメントは、当業界のプログラマーによって容易に推論され得る。

本発明は、図面に図示された一実施形態を参照して説明したが、これは、例示的なものに過ぎず、当業者ならば、これから多様な変形及び実施形態の変形が可能であるということが理解できるであろう。したがって、本発明の技術的範囲は、特許請求の範囲の技術的思想によって決まらねばならない。

本発明は、音声向上装置に関連した技術分野に好適に適用され得る。

スペクトル減算法により生成された音声スペクトルで負数が発生した場合、既存の処理方法の一例を示す図面である。スペクトル減算法により生成された音声スペクトルで負数が発生された場合、既存の処理方法の他の例を示す図面である。本発明に係る音声向上装置の構成を示すブロック図である。図３において、補正関数モデリング部の細部的な構成を示すブロック図である。図４に示すノイズスペクトル分析部及び補正関数決定部の動作を説明する図面である。図３において、スペクトル向上部の細部的な構成を示すブロック図である。図６において、ピーク強調部及びバレー抑制部の動作を説明する図面である。図３において、スペクトル向上部の入力スペクトルと出力スペクトルとを比較した図面である。本発明に係る音声向上方法と従来の音声向上方法との性能を比較したグラフを示す図面である。本発明に係る音声向上方法と従来の音声向上方法との性能を比較したグラフを示す図面である。

符号の説明

３１０スペクトル減算部
３３０補正関数モデリング部
３５０スペクトル補正部
３７０スペクトル向上部

Claims

受信した音声スペクトルから、推定したノイズスペクトルを減算して減算スペクトルを発生させるためのスペクトル減算部と、
訓練データに含まれるノイズスペクトルの変移を利用して、前記推定されたノイズスペクトルを最小化させ得る補正関数をモデリングする補正関数モデリング部と、
前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるためのスペクトル補正部と、
を備えることを特徴とする音声向上装置。
前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるためのスペクトル向上部をさらに備えることを特徴とする請求項１に記載の音声向上装置。
前記補正関数モデリング部は、
前記訓練データに対応する音声スペクトルを受信するための訓練データ入力部と、
前記減算スペクトルで０より小さな振幅値を有する部分を複数の領域に分け、前記訓練データに対して受信した音声スペクトルと推定したノイズスペクトルとの間の減算スペクトルと、前記訓練データに対する元来の音声スペクトルとの間のエラー分布を利用して前記受信した音声スペクトルに含まれるノイズスペクトルを分析するノイズスペクトル分析部と、
前記ノイズスペクトルの分析結果を入力として、前記複数の領域別に補正関数をモデリングするための補正関数決定部と、
を備えることを特徴とする請求項１に記載の音声向上装置。
前記ノイズスペクトル分析部は、
前記減算スペクトルで０より小さな振幅値を有する部分を第１領域、第２領域及び第３領域に分け、
前記第１領域及び前記第２領域を区分するための第１境界値は、前記第１領域及び前記第２領域が前記エラー分布で第１分布度を有し、前記第３領域が、前記エラー分布で第２分布度を有するように決定し、
前記第２領域及び前記第３領域を区分する第２境界値は、前記第１境界値の２倍に設定することを特徴とする請求項３に記載の音声向上装置。
前記第１領域及び前記第２領域の第１分布度は、９５％ないし９９％であり、
前記第３領域の第２分布度は、１％ないし５％であることを特徴とする請求項４に記載の音声向上装置。
前記第１領域の補正関数は、減少関数であり、
前記第２領域の補正関数は、増加関数であり、
前記第３領域の補正関数は、０であることを特徴とする請求項４に記載の音声向上装置。
前記スペクトル向上部は、
前記補正したスペクトルに存在する少なくとも一つのピークを検出するためのピーク検出部と、
前記補正したスペクトルに存在する少なくとも一つのバレーを検出するためのバレー検出部と、
前記検出したピークを、強調パラメータを利用して強調するためのピーク強調部と、
前記検出したバレーを、抑制パラメータを利用して抑制するためのバレー抑制部と、
前記強調したピークと抑制されたバレーとを合成するための合成部と、
を備えることを特徴とする請求項２に記載の音声向上装置。
前記ピーク検出部は、前記補正したスペクトルで、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が大きいとき、前記現在周波数成分をピークに決定することを特徴とする請求項７に記載の音声向上装置。
前記バレー検出部は、前記補正したスペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が小さいとき、前記現在周波数成分をバレーに決定することを特徴とする請求項７に記載の音声向上装置。
受信した音声スペクトルから、推定したノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるためのスペクトル減算部と、
前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるためのスペクトル向上部と、
を備えることを特徴とする音声向上装置。
前記スペクトル減算部は、
前記負数部分を絶対値に置換して補正することを特徴とする請求項１０に記載の音声向上装置。
前記スペクトル減算部は、
前記負数部分を０値に置換して補正することを特徴とする請求項１０に記載の音声向上装置。
前記スペクトル向上部は、
前記減算スペクトルに存在する少なくとも一つのピークを検出するためのピーク検出部と、
前記減算スペクトルに存在する少なくとも一つのバレーを検出するためのバレー検出部と、
前記検出したピークを、強調パラメータを利用して強調するためのピーク強調部と、
前記検出したバレーを、抑制パラメータを利用して抑制するためのバレー抑制部と、
前記強調したピークと抑制したバレーとを合成するための合成部と、
を備えることを特徴とする請求項１０に記載の音声向上装置。
前記ピーク検出部は、前記減算スペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が大きいとき、前記現在周波数成分をピークに決定することを特徴とする請求項１３に記載の音声向上装置。
前記バレー検出部は、前記減算スペクトルにおいて、隣接した周波数成分の振幅値の平均より現在周波数成分の振幅値が小さいとき、前記現在周波数成分をバレーに決定することを特徴とする請求項１３に記載の音声向上装置。
前記強調パラメータは、１より大きい値であることを特徴とする請求項７または請求項１３に記載の音声向上装置。
前記抑制パラメータは、０より大きく、かつ１より小さな値であることを特徴とする請求項７または請求項１３に記載の音声向上装置。
受信した音声スペクトルから、推定したノイズスペクトルを減算して減算スペクトルを発生させるステップと、
訓練データに含まれるノイズスペクトルの変移を利用して、前記推定したノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、
前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるステップと、
を含むことを特徴とする音声向上方法。
前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップをさらに含むことを特徴とする請求項１８に記載の音声向上方法。
前記補正関数をモデリングするステップは、
前記減算スペクトルで０より小さな振幅値を有する部分を複数の領域に分け、前記訓練データに対して受信した音声スペクトルと推定したノイズスペクトルとの間の減算スペクトルと、前記訓練データに対応する元来の訓練データに対応する音声スペクトルとの間のエラー分布を利用して、前記受信した音声スペクトルに含まれるノイズスペクトルを分析するステップと、
前記ノイズスペクトルの分析結果を入力として、前記複数の領域別に補正関数をモデリングするステップと、
を含むことを特徴とする請求項１８に記載の音声向上方法。
前記ノイズスペクトルを分析するステップは、
前記減算スペクトルで０より小さな振幅値を有する部分を第１領域、第２領域及び第３領域に分け、
前記第１領域及び前記第２領域を区分するための第１境界値は、前記第１領域及び前記第２領域が前記エラー分布で第１分布度を有し、前記第３領域が前記エラー分布で第２分布度を有するように決定し、
前記第２領域及び前記第３領域を区分する第２境界値は、前記第１境界値の２倍に設定することを特徴とする請求項２０に記載の音声向上方法。
前記第１領域及び前記第２領域の第１分布度は、９５％ないし９９％であり、前記第３領域の第２分布度は、１％ないし５％であることを特徴とする請求項２１に記載の音声向上方法。
前記第１領域ないし前記第３領域の各補正関数ｇ₁（ｘ）、ｇ₂（ｘ）、ｇ₃（ｘ）は、式（１）により決定されることを特徴とする請求項２１に記載の音声向上方法。
ここで、ｙは、前記訓練データのフレームスペクトルである。
前記スペクトルを向上させるステップは、
前記補正したスペクトルに存在する少なくとも一つのピーク及び少なくとも一つのバレーを検出するステップと、
前記検出したピークを、強調パラメータを利用して強調し、前記検出したバレーを、抑制パラメータを利用して抑制するステップと、
前記強調したピークと抑制したバレーとを合成するステップと、
を含むことを特徴とする請求項１９に記載の音声向上方法。
前記補正したスペクトルでサンプリングした現在周波数成分の振幅値ｘ（ｋ）と、前記現在周波数成分の振幅値ｘ（ｋ）に隣接した二つの周波数成分の振幅値ｘ（ｋ−１），ｘ（ｋ＋１）とが、次の式（２）を満足する場合、前記現在周波数成分をピークに決定することを特徴とする請求項２４に記載の音声向上方法。
前記補正したスペクトルでサンプリングされた現在周波数成分の振幅値ｘ（ｋ）と、前記現在周波数成分の振幅値ｘ（ｋ）に隣接した二つの周波数成分の振幅値ｘ（ｋ−１），ｘ（ｋ＋１）とが、式（３）を満足する場合、前記現在周波数成分をバレーに決定することを特徴とする請求項２４に記載の音声向上方法。
受信した音声スペクトルから推定したノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、
前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップと、
を含むことを特徴とする音声向上方法。
前記スペクトルを減算するステップは、前記負数部分を絶対値に置換して減算スペクトルを補正することを特徴とする請求項２７に記載の音声向上方法。
前記スペクトルを減算するステップは、前記負数部分を０値に置換して減算スペクトルを補正することを特徴とする請求項２７に記載の音声向上方法。
前記スペクトルを向上させるステップは、
前記減算スペクトルに存在する少なくとも一つのピーク及び少なくとも一つのバレーを検出するステップと、
前記検出したピークを、強調パラメータを利用して強調し、前記検出したバレーを、抑制パラメータを利用して抑制するステップと、
前記強調したピークと抑制したバレーとを合成するステップと、
を含むことを特徴とする請求項２７に記載の音声向上方法。
前記減算スペクトルでサンプリングした現在周波数成分の振幅値ｘ（ｋ）と、前記現在周波数成分の振幅値ｘ（ｋ）に隣接した二つの周波数成分の振幅値ｘ（ｋ−１），ｘ（ｋ＋１）とが、次の式（４）を満足する場合、前記現在周波数成分をピークに決定することを特徴とする請求項３０に記載の音声向上方法。
前記減算スペクトルでサンプリングした現在周波数成分の振幅値ｘ（ｋ）と、前記現在周波数成分の振幅値ｘ（ｋ）に隣接した二つの周波数成分の振幅値ｘ（ｋ−１），ｘ（ｋ＋１）とが、式（５）を満足する場合、前記現在周波数成分をバレーに決定することを特徴とする請求項３０に記載の音声向上方法。
前記強調パラメータμは、次の式（６）に決定されることを特徴とする請求項２４に記載の音声向上方法。
ここで、ｘは、補正したスペクトルあるいは減算スペクトルでピークに該当する周波数成分であり、ｙは、元来の音声スペクトルに含まれた周波数成分を表す。
前記抑制パラメータηは、式（７）に決定されることを特徴とする請求項２４に記載の音声向上方法。
ここで、ｘは、前記補正したスペクトルあるいは前記減算スペクトルにおいて前記バレーに該当する周波数成分であり、ｙは、元来の音声スペクトルに含まれた周波数成分を表す。
受信した音声スペクトルから推定したノイズスペクトルを減算して減算スペクトルを発生させるステップと、
訓練データに含まれるノイズスペクトルの変移を利用して、前記ノイズスペクトルを最小化させ得る補正関数をモデリングするステップと、
前記減算スペクトルを、前記モデリングした補正関数を利用して補正し、補正したスペクトルを発生させるステップと、
を含むことを特徴とする音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。
前記補正したスペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップをさらに含むことを特徴とする請求項３５に記載の音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。
受信した音声スペクトルから推定されるノイズスペクトルを減算し、負数部分を補正した減算スペクトルを発生させるステップと、
前記減算スペクトルに存在するピークを強調し、かつバレーを抑制して、前記補正したスペクトルを向上させるステップと、
を含むことを特徴とする音声向上プログラムを記録したコンピュータで読み取り可能な記録媒体。