JP2003316380A - 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム - Google Patents

会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム

Info

Publication number
JP2003316380A
JP2003316380A JP2002117190A JP2002117190A JP2003316380A JP 2003316380 A JP2003316380 A JP 2003316380A JP 2002117190 A JP2002117190 A JP 2002117190A JP 2002117190 A JP2002117190 A JP 2002117190A JP 2003316380 A JP2003316380 A JP 2003316380A
Authority
JP
Japan
Prior art keywords
spectral
noise
speech
signal
masking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002117190A
Other languages
English (en)
Inventor
Fururi Pascal
フルリ パスカル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002117190A priority Critical patent/JP2003316380A/ja
Publication of JP2003316380A publication Critical patent/JP2003316380A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 自動会話認識システムの認識レートを改善す
るための、連続した会話を含む音の信号を処理するノイ
ズリダクションシステムの提供。 【解決手段】 ノイズリダクションシステムは、音の信
号中の会話のとぎれを検出するための音声アクティビテ
ィ検出器と、音の信号を離散フーリエ変換へ変換するた
めのタイムトゥスペクトラルドメインコンバータと、音
声アクティビティ検出器が会話のとぎれを検出したとき
に、ノイズレベルを推定するためのノイズ推定器と、シ
ンプル明瞭会話信号を出力するために、離散フーリエ変
換からのノイズレベルを減算するためのシンプルスペク
トラル減算器と、聴覚スケールマスキングコンピュータ
と、スペクトラル減算パラメータコンピュータと、一般
化スペクトラル減算器と、スペクトラルトゥタイムドメ
インコンバータとを備えている。

Description

【発明の詳細な説明】
【0001】
【従来の技術】音声アクティビティ検出の方法について
は、ランゴッシとその共同研究者による「ハイオーダー
統計」、1993年の56−60ページの“強固終点検
出(Robust Endpoint Detection)のためのハイオーダ
ー統計の応用”で述べられており、本明細書において参
照する。会話が行われる方法によれば、会話が行われて
いるときには、音声信号の三次のキュミュラントの遅れ
においてノンゼロ値が現れる。ノンゼロ値が現れるとき
には、常に会話が存在すると考えられる。
【0002】ノイズを含む音声信号における会話の区切
りの終点を決定する方法については、リンチとその共同
研究者により、ダラスにおいて開かれた「聴覚、音声、
及び信号処理におけるIEEE国際会議」、ダラス、T
X、1987、4月の1348−1351ページの“適
応性ある終点検出(Adaptive Endpoint Detection)ル
ールを介して行うリアルタイム符号化のための会話/沈
黙の区別”で述べられており、本明細書において参照す
る。この方法では、決定を行うために、会話の様々な局
面におけるタイミングの実験データの統計を用いる。
【0003】減算タイプの会話を高める方法について
は、1987年4月に発行された「音声処理におけるI
EEE会報」、7(2):126−137ページの“人
の聴覚システムのマスキング特性に基づく単一のチャン
ネル会話の向上”において、ビラッグにより述べられて
おり、本明細書において参照する。典型的な減算タイプ
のアルゴリズムは、ノイズリダクションの量と、会話の
ゆがみと、他の特性とのバランスによるものである。こ
のアルゴリズムの特性は、減算パラメータの設定によっ
て調節可能である。音の信号を実際に処理している間
は、固定されており調整不能である。ビラッグによって
開示されている方法では、ノイズと会話の状態における
変化においてマスキング特性を自動的に自動的に適合さ
せるために、さまざまな係数の推定が行われる。マスキ
ング特性は、音の信号のノイズ部分を他の部分によって
マスクして、明瞭な会話についての聴覚を変えることな
く、ノイズ部分を音の信号中に保持しておくことができ
るように決定する。音の信号中から、ほとんどノイズが
取除かれておらず、また、その結果として有用な情報も
ほとんど取除かれていないため、完全な状態の会話はほ
とんどゆがんでいない。
【0004】バークスケールや他の聴覚スケールは、音
の信号の中の人の耳によって認識される部分を決定する
ための手段として知られている。この情報は、例えば、
MP3ミュージックコンプレッションにおいて、音楽を
中断せずに、記憶されるデータの量を減らすためにどの
音が完全に除去可能かを決定するときに用いられる。
【0005】
【発明が解決しようとする課題】人間は、ノイズの多い
環境において単一のチャンネルが設定されている場合で
あっても、会話を理解することができる。これは、音を
人間が聴覚する際に行う全体的な方法によって可能であ
ると考えることができる。本発明は、連続する会話の処
理の質を改善するために、人間と同様の方法によって、
音の信号について前段階の処理を行うことを意図するも
のである。より詳細には、自動会話認識システムの認識
レートを改善することを可能とするために、連続した会
話を含む音の信号を処理するためのノイズリダクション
システムを提供することを目的とする。本発明の他の目
的は、単語の長い一続きをよりよく保つことである。更
に、本発明は、中程度及び低程度の複雑さのもののみを
含む高速のストリーム中の音の信号の処理を可能とする
ことを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明による、会話を含む音の信号処理を行う前段
階処理におけるノイズリダクションシステムは、音声ア
クティビティ検出器と、タイムトゥスペクトラルドメイ
ンコンバータと、ノイズ推定器と、シンプルスペクトラ
ル減算器と、聴覚スケールマスキングコンピュータと、
スペクトラル減算パラメータコンピュータと、一般化ス
ペクトラル減算器と、スペクトラルトゥタイムドメイン
コンバータとを備えている。
【0007】該音声アクティビティ検出器は、音の信号
中に会話のとぎれを検出する。タイムトゥスペクトラル
ドメインコンバータは、音の信号を音の信号の離散フー
リエ変換へと変換する。ノイズ推定器は、該音声アクテ
ィビティ検出器が会話のとぎれを検出したときに、ノイ
ズレベルを推定する。シンプルスペクトラル減算器は、
シンプル明瞭会話信号を出力するために、該離散フーリ
エ変換からのノイズレベルを減算する。聴覚スケールマ
スキングコンピュータは、該シンプル明瞭会話信号中の
マスキングレベルを計算する。マスキングレベルは、明
瞭会話出力中にノイズが残されたとしても人間の耳には
聴覚不能である音の信号中の、どの部分にノイズが存在
しているかを示す。スペクトラル減算パラメータコンピ
ュータは、該マスキングレベルに基づく重複減算係数 と、スペクトラルフローリング係数 と、変化の度合い とを計算するためのものである。一般化スペクトラル減
算器は、スペクトラルドメイン中の明瞭会話信号を生成
するために、該スペクトラル減算パラメータコンピュー
タからの重複減算係数 と、スペクトラルフローリング係数 と、変化の度合い とを用いて、該離散フーリエ変換からノイズを減算する
ためのものである。スペクトラルトゥタイムドメインコ
ンバータは、該一般化スペクトラル減算器からの該明瞭
会話信号を変換し、タイムドメインへと返すためのもの
である。
【0008】本発明の第1の特徴によれば、音の信号中
の会話のとぎれを検出するための音声アクティビティ検
出器は、三次レベル統計推定器と、指数減衰分析器と、
推定レベルコンパレータとを備えている。三次レベル統
計推定器は、会話が存在していることを決定するために
音の信号中の三次統計を検出し、会話を含む音の信号の
セクションを示す会話存在信号を出力する。指数減衰分
析器は、会話ライクの信号の時間に関係する特性に基づ
く信号であって会話が存在する信号のサンプル中におい
て会話の存在を検出する。推定レベルコンパレータは、
ウィンドウ中のサンプルの総数に対して、該指数減衰分
析器によって会話として検出されたサンプルの比率がし
きい値を超える場合に、タイムドメインサンプルウィン
ドウ中の全てのサンプルが会話を含んでいる旨決定する
ことによってサンプルが会話を含んでいるかいないかを
示す。
【0009】この構成により、ノイズリダクションシス
テムから明瞭会話を受信する自動会話認識システムは、
より良い認識比率を得ることになる。また、単語の長い
一続きを、より良い状態で保つことができる。また、音
の信号を、低〜中程度の複雑さの高速ストリーム中で処
理することが可能である。
【0010】本発明の第2の特徴によれば、該聴覚スケ
ールマスキングコンピュータは、バークスケールコンバ
ータと、スペクトラルマスキングコンピュータと、バー
クトゥスペクトラルドメインコンバータとを備えてい
る。バークスケールコンバータは、該シンプルスペクト
ラル減算器からのシンプル明瞭会話信号のN個のスペク
トラル係数をB個のバークスケール係数へと変換する。
スペクトラルマスキングコンピュータは、ログ線形近似
を用いてバークスケール係数の最終マスキング特性 を計算する。バークトゥスペクトラルドメインコンバー
タは、B個のバークスケール係数をN個のスペクトラル
係数へと変換する。スペクトラルマスキングコンピュー
タは、ログ線形近似を用いて最終マスキング特性 を計算するので、音の信号中の会話を含んでいるセクシ
ョンは、複雑さが低い状態において高い信頼性で決定さ
れる。
【0011】本発明の第3の特徴によれば、該一般化ス
ペクトラル減算器は、一般化スペクトラル減算器ユニッ
トと、強度スペクトラムフィルタとを備えている。該一
般化スペクトラル減算器は、該離散フーリエ変換にゲイ
ンGを掛けることによって、スペクトラルドメイン中の
明瞭会話を生成する。ここで、該ゲインGは以下の等式
に基づき、係数 及び が用いられて決定された値である。 ここで であり、 はノイズ推定器からのノイズ推定値。
【0012】強度スペクトラムフィルタは、該一般化ス
ペクトラル減算器ユニットからの明瞭スペクトラム上
で、中央値フィルタ動作を行う。この構成によれば、ノ
イズレベルの短時間の変化をスムーズにすることができ
る。強度スペクトラムフィルタは、音の信号から“釘”
を 取除くことができ、単語の長い一続きの認識比率を
改善する。
【0013】
【発明の実施の形態】次に、本発明の実施の形態による
ノイズリダクションシステム1について、添付の図面を
参照しながら説明する。本発明によれば、ノイズは、音
の信号x中の、認識レートを減衰させる全てのものとし
て定義される。即ち、自動会話認識システムによって明
瞭な会話yが復号化されるときに、エラーとなる語の数
を増加させるもの全てである。このようにして、本発明
は、自動会話認識システムによって用いられる明瞭な会
話を作成し、また、明瞭な会話の認識の質を改善するこ
とを意図している。
【0014】図1に示すように、システム1は、音声ア
クティビティ検出器10と、タイムトゥスペクトラルド
メインコンバータ20、ノイズ推定器30、シンプルス
ペクトラル減算器40、聴覚スケールマスキングレベル
コンピュータ50、スペクトラル減算パラメータコンピ
ュータ60、一般化スペクトラル減算器70、及び、ス
ペクトラルトゥタイムドメインコンバータ80とを備え
ている。
【0015】システム1は、わずか数ミリ秒の入力信号
の表す分析ウィンドウへ含まれる入力音信号xを処理す
る。システムを構成するコンポーネントは、同時に1つ
のウィンドウを処理する。以下の説明で“音の信号”又
は“スペクトラム”に言及するときには、他の方法につ
いての説明がある場合を除き、常に、現在の分析ウィン
ドウについてのことについて述べている。音声アクティ
ビティ検出器10は、サイズPの分析ウィンドウを用い
てタイムドメインにおいて動作する。他のコンポーネン
トは、サイズNの分析ウィンドウを用いてスペクトラル
ドメインにおいて動作する。小文字は、タイムドメイン
中の値及び信号のためのラベルとして用いられ、大文字
は、スペクトラルドメイン中の値及び信号のためのラベ
ルとして用いられる。同じウィンドウ中の値を収集する
ことは、タイムドメイン中の(p)と、スペクトラルド
メイン中の(n)に言及することになる。ハットのつい
ている文字、例えば は、未知の値の推定値を表している。
【0016】先ず、図1に示されるような、それぞれの
コンポーネントの概要を提供する。
【0017】音声アクティビティ検出器10は、信号中
に会話が存在するか否かの決定をするために、三次統計
の形状をした音の信号中の会話ライクの部分をサーチす
る。音声アクティビティ検出器10は、会話のとぎれを
大まかに検出するために、会話のタイミングについて発
見的統計(heuristic statistics)を用いる。音声アク
ティビティ検出器10は、サンプルが会話を含んでいる
のかノイズのみを含んでいるのかを知らせるために、現
在分析している分析ウィンドウにおけるP個のサンプル
のそれぞれについてフラグfを出力する。
【0018】タイムトゥスペクトラルドメインコンバー
タ20は、入力した音の信号xを離散フーリエ変換X
(n)へ変換する。先ず、入力した音の信号xは、それ
ぞれN個のサンプルを有する分析ウィンドウへと分割さ
れる。そして、タイムトゥスペクトラムドメインコンバ
ータ20は、各分析ウィンドウに重みづけ関数を適用さ
せ、入力した音の信号xを離散フーリエ変換X(n)へ
と変換する。この変換を行っているときには、タイムト
ゥスペクトラルドメインコンバータ20は、入力した音
の信号xからフェーズ情報を分別し、フェーズ情報を変
化させることなく直接スペクトラルトゥタイムドメイン
コンバータ80へ送出する。
【0019】ノイズ推定器30は、音声アクティビティ
検出器10からのフラグfに基づいて、スペクトラルド
メイン中のNサイズの分析ウィンドウのうちの、ノイズ
のみを含むものを決定する。そして、ノイズ推定器30
は、会話が含まれていない分析ウィンドウ関してのみノ
イズ推定値 を更新する。
【0020】コンポーネント40、50、60、及び7
0は、フェーズの影響を受けずに、離散フーリエ変換X
(n)においてノイズを減衰させるように機能する。人
間の耳は、音の中のフェーズを認識することができない
ため、フェーズ情報を変える処理を行ったとしても、明
瞭な会話yに対する人間の知覚対象が改善されず、ま
た、ゆがみが加わるかもしれない。
【0021】シンプルスペクトラル減算器40は、聴覚
スケールマスキングレベルコンピュータ50とスペクト
ラル減算パラメータコンピュータ60とにおいて用いら
れるシンプル明瞭会話信号 を求めるために、離散フーリエ変換X(n)から現在の
ノイズ推定値 を減算する。
【0022】聴覚スケールマスキングレベルコンピュー
タ50は、シンプル明瞭会話信号 のスペクトラルを、バークスケール上に配置させる。そ
して、明瞭な会話y中に残っていたとしても聴覚不能な
シンプル明瞭会話信号 中の、ノイズがある部分を示すスペクトラルマスキング
特性 を計算する。異なる振幅を有し同様の周波数を有する音
の信号は、互いにマスクし合うことが知られている。振
幅の大きい部分は、振幅の小さい部分を人間の耳に聞こ
えないようにする。フェーズはなにも加工処理されてお
らず、本発明では、相対的に高い会話対ノイズ比を対象
としているため、スペクトラムの一部を取除くことは、
それがノイズであったとしても、明瞭な会話yをゆがま
せることになるのである。聴覚スケールマスキングコン
ピュータ50によって作成されるスペクトラルマスキン
グ特性 は、どのノイズが聴覚に重大な影響を与えないかを決定
するのに用いられる。このため、ゆがみを最小限とする
ために、当該ノイズを明瞭な会話y中に残しておくこと
ができる。聴覚スケールマスキングレベルコンピュータ
50は、バークスペクトラルドメインにおいてバークス
ケールを用いて計算を行う。バークスケールは、音響心
理学の定義に基づく人間の耳の知覚の対称となるおおよ
その周波数をなす重大なバンドを含んでいる。バークス
ケールは非線形であり、低い周波数を強調して、高い周
波数を圧縮する。
【0023】スペクトラルパラメータコンピュータ60
は、重複減算係数 と、スペクトラルフローリング係数 と、変化の度合い とを計算するためにスペクトラルマスキング特性 を用いる。重複減算係数 は、どの程度スペクトラルを減じるべきかをについての
情報を含んでおり、大きく減衰させ、ほとんどノイズを
残さなくすることができる。スペクトラルフローリング
係数 は、音の信号中にどの程度のバックグランドノイズが残
っているかについての情報を含んでおり、残っているノ
イズにマスクをするために、バックグランドノイズを付
加させることができる。変化の度合い は、スペクトラルが取り除かれていない状態から全て取
り除かれた状態への変化がどの程度スムーズに行われた
かを示すパラメータであり、信号が全く処理されていな
い状態が1で、完全に取除かれた状態が0を示す1〜0
へのゲインカーブである。
【0024】一般化スペクトラル減算器70は、離散フ
ーリエ変換X(n)からノイズの部分を取除くために、
重複減算係数 、スペクトラルフローリング係数 、変化の度合い 、及び、ノイズ推定値 を用いる。一般化スペクトラル減算器70は、短時間で
変化された音の信号の中の会話の部分を残すようにして
再生を行う、なめらかにされたスペクトラム を作成するために、結果的スペクトラム をフィルタにかける。
【0025】スペクトラルトゥタイムドメインコンバー
タ80は、タイムトゥスペクトラルドメインコンバータ
からのフェーズ情報を、なめらかにされたスペクトラム に加え、その結果を変換し、タイムドメインに返す。分
析ウィンドウは、明瞭な会話yを作成するために重複し
て加えられる。
【0026】次に、システム1のそれぞれのコンポーネ
ントの動作について詳細に説明する。先ず、音声アクテ
ィビティ検出器10について説明する。音声アクティビ
ティ検出器10は、会話ライクの信号の2つの特性、即
ち、スペクトラル特性と時間に沿った会話の特性とに基
づき、入力した音の信号中の会話が存在しない部分を検
出するためのものである。前述のように、音声アクティ
ビティ検出器は、タイムドメインにおいて動作し、スペ
クトラルドメインにおいて動作する他のコンポーネント
の分析ウィンドウとは関係のない分析ウィンドウを用い
るシステム1の唯一のコンポーネントである。音声アク
ティビティ検出器10の各分析ウィンドウは、P個のサ
ンプルを含んでいる。
【0027】図2に示されるように、音声アクティビテ
ィ検出器10は、三次統計推定器11、指数減衰分析器
12、及び、推定レベルコンパレータ13を備えてい
る。
【0028】三次統計推定器11は、入力した音の信号
中において会話がどの部分に含まれているかを決定する
ために、入力した音の信号中の三次統計を検出する。こ
の方法は、会話が生成される方法を鑑み、人間の会話が
常に三次統計を含んでいるという仮定に基づくものであ
る。即ち、人間が会話を生成する方法は、結果的に倍音
の二次結合となる非線形性を含む。二次結合は、会話の
信号の三次累積遅延中のノンゼロ係数を導き、会話と会
話ではない部分とを明確に分離する。
【0029】三次統計推定器11は、サイズPの各音声
アクティビティ分析ウィンドウに対して1つの計算が行
われるバッチモードにおいて処理を行う。出力iは、入
力のP分の1のサンプルポイントを含んでいる。出力i
は指数減衰分析器12へ直接供給される。図6は、図5
に示される入力した音の信号xを処理することによって
得られた、三次統計推定器11からの出力iを示すグラ
フである。このサンプルでは、入力した音の信号xの各
ウィンドウは、値が50であるサイズPを有しており、
出力iはサンプルポイントの50分の1である。
【0030】ここで、三次統計推定器11によって行わ
れる動作の概要を説明する。三次統計推定器11は、先
ず、行列 を初期化して行列次元Pを有する行列 と同一化し、次の等式に基づき行列 を更新する。 ここで、 そして、 である。
【0031】三次統計推定器11は、公知の特異値分解
(SVD)を用いた各ステップnにおける行列 の最大特異値 を計算する。最後に、三次統計推定器11は、会話を含
む音の信号の部分を示す会話存在推定iを求めるため
に、最大特異値 のしきい値を設定する。
【0032】三次統計推定器11は、ノイズの多い状態
では誤動作するという問題があることに留意すべきであ
る。しかし、三次統計推定器11は、人間が会話を行っ
ているときにミスをすることはほとんどないか、会話が
実際に行われているときに会話が存在していない旨を検
出してしまうことは非常に少ない。本発明によれば、音
声アクティビティ検出器10は、確実に会話が存在して
いない音の信号の部分を検出するためのものであり、ノ
イズ推定器30は、会話が存在していない各時点におい
て、ノイズレベルのチェックを高精度で行うことができ
る。従って、三次統計推定器11は極めて本発明にふさ
わしい。
【0033】指数減衰分析器12は、以下の5つの、時
間に関係を有する音声ライクの信号の特性に基づき、会
話存在推定i中の会話の存在しない部分を検出する。
【0034】1.過去の実験より、“連続する会話”
のセグメントは、2秒間よりも短い“瞬間的な会話”9
9.9%含んでいることを示している。 2.過去の実験より、“連続する会話”の セグメント
は、150m秒間よりも短い “ギャップ”を99.5
6%含んでいることを示している。 3.バックグランド音響雑音エネルギーは、周波数で1
オクターブ下がるにつき、およそ5dBほど減衰する。 4.バックグランドノイズは、連続したエネルギーの数
ミリ秒の幅のサンプルウィンドウとして測定すると、相
対的に安定している。 5.バックグランド音響雑音エネルギーは、数秒単位で
エネルギーレベルを比較すると一般的には相対的に安定
していない。
【0035】指数減衰分析器12は、図7に示されるよ
うな会話エネルギー推定値 とノイズエネルギー推定値 とを計算するために、5つのファクターを用いる。会話
エネルギー推定値 とノイズエネルギー推定値 とが一致するときには、入力した音の信号中に会話が存
在していないと判断される。
【0036】指数減衰分析器12は、三次統計推定器1
1からのタイミング情報を再利用して、以下のとおりに
動作する。先ず、会話存在推定iのk番目の値 に対応した、予め強調された値 が、以下の等式に基づき計算される。
【0037】計算するにあたり、ダイナミックレンジの
制限を克服するために、予め強調された値 の絶対値が信号のエネルギーを表していると仮定する。
即ち、 である。
【0038】会話エネルギー推定 は、以下の等式に基づき計算される。 ここで、 は時定数であり、本実施の形態では約150m秒であ
り、会話の減衰を表している。定数 は、単語間のとぎれや音節間のとぎれのように会話のと
ぎれが短いときに、短時間にわたり会話エネルギー推定 を高い値に維持する。
【0039】混合推定 は、会話エネルギー推定 についての計算と同様な方法により計算される。即ち、 によって行われる。
【0040】混合推定 は、会話が存在しているときには、会話エネルギー推定 のレベルと等しい値になっている。しかし、時定数 は、ノイズエネルギー推定 のレベルに混合推定 を素早く戻すために、16m秒という短い値に設定され
る。この結果、混合推定 のローワーパートは、信号中のノイズのレベルを示すこ
とになる。
【0041】ノイズエネルギー推定 は、以下の等式に基づき、混合推定 を上限とする指数増加として計算される。 ここで、 は、約2秒の一瞬の会話の長さを示す時定数である。
【0042】この結果、ノイズエネルギー推定 は、混合推定 の低い部分に追随する。
【0043】定数 の2秒が経過した後に、ノイズエネルギー推定値 は、混合推定値 のレベルに到達するまで自動的に増加する。この自動的
な増加は、バックグランドノイズが増加する場合に有用
であり、その場合には、ノイズエネルギー推定値 がその増加を反映していることが要求される。しかし、
2秒間の遅れは、バックグランドノイズが新たなレベル
にまで素早く増加し、そのレベルに安定して維持された
ときに、システムがその変化を表すために2秒間かかる
ことを意味する。信号中に会話が存在しない場合であっ
ても、システムは、この時間の会話が続いたと判断する
可能性がある。しかし、会話を含む全てのエリアは、三
次統計推定器11によって信頼性が示されており、この
ためポテンシャルの問題は改善される。
【0044】推定レベルコンパレータ13は、以下のよ
うなノイズレベル とを表示する。 ここで、 は音の絶対的なレベルであり、これよりも下は、人間の
耳では聞こえない。
【0045】そして、 は、ノイズエネルギー推定 の周りの値のレンジを検出するための係数であり、それ
ぞれ約2.0と1.414とに設定される。
【0046】推定レベルコンパレータ13は、会話エネ
ルギー推定 とノイズレベル とを比較することによって、各分析ウィンドウPに対し
て会話が存在するか否かを示す以下のフラグ を設定する。
【0047】P個のフラグf(P)のバーストを、音声
アクティビティ検出器10が出力するように、推定レベ
ルコンパレータ13はP個のサンプルに各フラグ を分配する。ここで、P個のフラグf(P)は、会話が
存在する旨を示す値又は存在しない旨を示す値のいずれ
かの、全て同じ値にセットされており、各サンプルはそ
れぞれのフラグに設定されている。図8は、長さPのウ
ィンドウにおける音声アクティビティ検出器10からの
バイナリ出力を表している。
【0048】図2に示すように、タイムトゥスペクトラ
ルドメインコンバータ20は、信号ウィンドウコンピュ
ータ21と、高速フーリエ変換(FFT)スペクトラム
コンバータ22とを備えている。即ち、信号x(n)
は、それぞれインデックスn有するサンプル値のシーケ
ンスを含んでおり、一連のインデックスnは、値が音の
信号から経時的にサンプリングされたことを示してい
る。信号ウィンドウコンピュータ21は、N個のサンプ
ルのセットを、それぞれが数ミリ秒の音を表す分析ウィ
ンドウへと分類する。図9は、信号ウィンドウコンピュ
ータ21の分析ウィンドウの例を示している。
【0049】信号ウィンドウコンピュータ21は、短時
間でのフーリエ分析に固有の、公知のエアリアシングや
分析問題を解消するために、ウィンドウ化ファンクショ
ンによって各分析ウィンドウをかけ合わせる。本実施の
形態では、以下のハミングウィンドウが用いられる。 ここで、 である。
【0050】ハミングウィンドウは図10に図示され
る。図11に示されるように、ウィンドウ化ファンクシ
ョンの動作により振幅、即ち、ターゲットとなる分析ウ
ィンドウのエッジにおけるサンプルの値を減じる。他の
サンプルウィンドウ化ファンクションは、ハミングウィ
ンドウに代えて用いることができることに留意する。
【0051】信号ウィンドウコンピュータ21は、正確
なスペクトラル分解と充分に回数の多いスペクトラル分
析との相矛盾した目標を達成するために、分析ウィンド
ウをオーバーラップする共通の技術を用いる。即ち、分
析ウィンドウは、信号の長い部分を含むようにするた
め、長さがNの長いものを有していることが望ましい。
信号の長い部分は、スペクトラル分解を改善する。この
ようにして、信号の部分のスペクトラルの内容について
より詳細に生成する。しかし、分析ウィンドウは、長さ
がNのウィンドウを短くして、多数回のスペクトラルを
有するようにすることが望ましい。たとえば、入力する
音の信号の充分に回数の多い分析は、それぞれ10ms
とすることができるが、正確な分解は、40msのウィ
ンドウであることが望ましい。分析ウィンドウをオーバ
ーラップする共通の技術では、各分析ウィンドウは、1
つ又はそれ以上の、現在及び連続する分析ウィンドウを
オーバーラップして、各分析ウィンドウは入力した音の
信号をモニタする。幾つかの連続する分析ウィンドウに
おいては、同じサンプルが用いられるかもしれないた
め、スペクトラルトゥタイムドメインコンバータ80
は、最後のタイムドメイン信号を正確に再現するために
後述のような、重複ウィンドウコンピュータ82を備え
ている。
【0052】FFTスペクトラムコンピュータ22は、
信号ウィンドウコンピュータ31からの各分析ウィンド
ウを、スペクトラルドメインへと変換するために、信号
ウィンドウコンピュータ21によって計算を行うことに
より、各分析ウィンドウについて公知の高速フーリエ変
換を行う。
【0053】変換を行うための等式は以下の通りであ
る。 ここで、X(n)は、信号x(n)の離散フーリエ変換
である。
【0054】そして、jは、 で定義される複素根(complex root)である。
【0055】図12は、図9の分析ウィンドウの例のフ
ーリエ変換のスペクトラルコンテンツを示したものであ
る。図12のグラフの左側の強度が右側の強度よりも大
きくなっていることは、図9の分析ウィンドウの例が、
高い周波数の部分よりも低い周波数の部分においてより
多くの情報を含んでいることを示している。
【0056】ノイズ推定器30は、バックグランドノイ
ズの推定値を可能なかぎり正確に得るために、音声アク
ティビティ検出器10が会話のない部分を検出している
間にノイズレベルを推定する。ノイズ推定器30は、バ
ックグランドノイズが会話の信号よりもゆっくりと変化
するという仮定のもとに動作するので、会話のセグメン
トの間のとぎれにおけるノイズ推定値は、連続する会話
のセグメントにおけるノイズレベルに正確に反映する。
【0057】ノイズ推定器30は、信号ウィンドウコン
バータ31とノイズ推定コンピュータ32とを有してい
る。信号ウィンドウコンバータ31は、音声アクティビ
ティ検出器10の推定レベルコンパレータ13からの入
力と、タイムトゥスペクトラルドメインコンバータ20
のFTTスペクトラムコンピュータ32からの入力とを
受信する。信号ウィンドウコンバータ31は、現在の会
話を示すフラグがセットされたそれぞれN個のサンプル
がどれだけあるかをカウントする。そして、信号ウィン
ドウコンバータ31は、N個のサンプルの総数に対する
会話を含むサンプルの比率を決定する。もし、比率がし
きい値である50%よりも低いときには、信号ウィンド
ウコンバータ31は、入力した音の信号の現在の分析ウ
ィンドウがノイズしか含んでおらず、ノイズ推定が更新
されるべきである旨の決定をする。この結果、信号ウィ
ンドウコンバータ31は、FFTスペクトラルコンピュ
ータ32からの出力として離散フーリエ変換X(n)を
ノイズ推定コンピュータ32へと送るために、スイッチ
31aを閉じる。もし、比率がしきい値である50%を
超えているときには、信号ウィンドウコンバータ31
は、現在の分析ウィンドウNが会話を含んでおり、ノイ
ズ推定は更新されるべきではない旨の決定をする。この
結果、スイッチ31aは開状態を維持する。
【0058】分析ウィンドウ中のサンプルの50%以上
がノイズのみを含んでいると決定したときには、会話を
含むサンプルが存在しているかもしれないのではある
が、信号ウィンドウコンバータ31は、常に、ノイズの
みが存在するとの決定を行うことに留意すべきである。
会話がノイズの最終推定に含まれているかも知れないた
め、ノイズ推定値には、結果的に軽微なひずみが含まれ
ているかもしれない。
【0059】ノイズ推定コンピュータ32は、信号ウィ
ンドウコンバータ31によって会話が含まれていない旨
が示されたスペクトラルドメインサンプルウィンドウの
各サンプルに対して、以下の等式に基づきノイズスペク
トラム推定値 を計算する。 ここで、 は、過去のイベントに対して指数的な減衰の重み付けを
するラーニングファクターである。即ち、ラーニングフ
ァクター が0に設定されたときには、新たなノイズ推定値 が用いられることはない。これとは正反対に、ラーニン
グファクター が1に設定されたときには、現在のノイズ推定値 が用いられる。本実施の形態によれば、0と1との間の
値がラーニングファクター として用いられる。
【0060】シンプルスペクトラル減算器40は、シン
プル明瞭会話信号 を出力するために、離散フーリエ変換X(n)の強度か
らノイズレベル を減算し、図13に示すように、128のスペクトラル
係数カテゴリーに分類する。シンプルスペクトラル減算
器40は、良くも悪くもない質の明瞭な会話 を出力する。この質は、聴覚スケールマスキングレベル
コンピュータ50がマスキングレベルを計算するのには
充分である。音の信号の離散フーリエ変換X(n)より
もノイズレベル が高いときには、負の値は強度においては意味をなさな
いため、シンプル明瞭会話 が0に設定され、負の値には設定されないことに留意す
る。
【0061】図3に示すように、聴覚スケールマスキン
グレベルコンピュータ50は、バークスケールコンバー
タ51と、スペクトラルマスキングコンピュータ52
と、バークトゥスペクトラルドメインコンバータ53と
を備えている。バークスケールコンバータ51は、レン
ジが1〜24バークスの周波数スケールであるバークス
ケールを用いる。バークスは、人間の聴覚で識別可能な
最初の24個のバンドに対応する。バークスケールの2
4のバンドのそれぞれのバンドのエッジ及びバンドの中
央は、以下の表に示すとおりである。
【0062】バークスケールコンバータ51は、バーク
スケール明瞭会話 を生成するために、シンプル明瞭会話信号 中のN個、即ち、本実施の形態では128個のスペクト
ラル係数をB個のバークスケール係数に変換する。これ
を行うために、バークスケールコンバータ51は、会話
推定値 のバークスペクトラル係数を、図14に示されるような
B個の「容器」へと分類する。値Bは、フリーパラメー
タではなく、バークスケールによって指示され、オリジ
ナルの入力した音の信号のサンプリング周波数に依存す
る。本実施の形態によれば、Bは18に設定される。高
い周波数の容器よりも低い周波数の容器へと分類される
バークスペクトラル係数はごく僅かである。一般的に
は、3又は4のバークスペクトラル係数は、低い周波数
の容器中に分類される。図15は、17個の容器中のバ
ークスペクトラル係数を示している。
【0063】スペクトラルマスキングコンピュータ52
は、入力した音の信号のうちのどの音が人間の耳に聴覚
可能であるか、またどれが聴覚不能であるかを判断する
ために、入力した音の信号の最終マスキング特性 を計算する。先ず、バークスケール明瞭信号 のバークマスキングレベル と拡張関数 とが、以下のようにして計算される。 ここで*は、 マスキングの動作を表している。
【0064】そして は、バーク係数インデックスである。図16に示すよう
に、拡張関数 は、実際には、計算効率を向上させるための拡張関数の
シンプルログ線形の近似である。
【0065】マスキング動作は、コンボルージョンに近
似している。しかし、各スペクトラル係数に対する期間
が加算される代わりに、コンボルージョンにおける動作
として最大値が単に計算される。このことによって、コ
ンボルーションにおける計算と同様の複雑さの計算を行
い、実際に人の耳が用いているのと同様のマスキング過
程によってより良い近似を行う。
【0066】明瞭な会話は、計算がなされたマスキング
が単にラフな明瞭度であるため、典型的な会話ライクの
信号のエネルギー分布が考慮され、その結果は、図17
のグラフで示される相対的しきい値 とかけ合わされる。最終マスキング特性 は、以下のように定義される。
【0067】図15に示す例では、最終マスキング特性 が係数0及び4に対して僅かに高いことを除き、バーク
スケール明瞭会話 と最終マスキング特性 との差異は僅かである。このことは、入力した音の信号
xは、すべてのスペクトラル係数が聴覚可能な限界にほ
とんどあることを表している。スペクトラル係数が防音
装置を有していた場合には、マスキングは、これらの係
数が聴覚不能であるケース、即ち、0及び4のバーク係
数に関係づけられたスペクトラル係数に対するケースで
あることを示すのである。このサンプルについて後述す
ることになるが、係数4はスペクトラム中のピークに対
応しており、大幅に減じられている。
【0068】バークトゥスペクトラルドメインコンバー
タ53は、最終マスキング特性 を、関数ドメイン中のB個のバークスケール係数からN
個のスペクトラル係数へと変換するために、バークスケ
ールコンバータ51とは逆の動作をする。この変換を行
うのは、スペクトラル減算パラメータコンピュータ60
へ出力されるスペクトラルマスキングレベル を得るためである。1つのバークスケール係数は、複数
のスペクトラル係数を表しているため、補間を行う必要
はない。1つのバーク係数は、それを表すスペクトラル
係数上で同一の値で延長され、プロットされた関数が階
段状で与えられる。
【0069】スペクトラル減算パラメータコンピュータ
60は、スペクトラルマスキングレベル に基づき、係数 及び を周波数及び時間に適合させるために以下の書き換えを
行うことによって、係数 及び を計算する。 ここで、 、及び は、重複減算係数 及びスペクトラルフローリング係数 の最小値及び最大値である。
【0070】そして、 及び は、スペクトラルマスキングレベル の最小値のための最大残余ノイズリダクションへと導
き、また、スペクトラルマスキングレベル の最大値のための最小リダクションへと導くための関数
である。
【0071】例えば、現在のウィンドウにおいてバーク
マスキングレベル が最小値である場合には、 であり、現在のウィンドウにおいてバークマスキングレ
ベル が最小値である場合には、 である。
【0072】図18は、重複減算係数 、スペクトラルフローリング係数 、及び、変化の度合い についての結果の値を示している。
【0073】図4に示すように、一般化スペクトラル減
算器70は、一般化スペクトラル減算器ユニット71
と、強度スペクトラムフィルタ72とを備えている。一
般化スペクトラル減算器71は、以下の等式に基づくゲ
イン関数 を決定するために、スペクトラル減算パラメータコンピ
ュータ60からの係数 、及び を用いる。 ここで
【0074】本実施の形態では、N個のスペクトラル係
数が存在しているため、0< n < N-1の値を採るインデッ
クスnで値 を置き換えることができる。一般化スペクトラル減算器
71は、以下の公式に基づきゲイン と離散フーリエ変換X(n)とをかけ合わせることによ
って、明瞭スペクトラム を生成する。
【0075】図19は、一般化スペクトラル減算器ユニ
ット71による動作結果の一例を示している。一見して
分かるように、結果としてのスペクトラルの値は低くな
っている。
【0076】強度スペクトラムフィルタ72は、例え
ば、プレーが行われているフィールドにおいて何かエキ
サイティングなことが起こり、観客によるバックグラン
ドノイズが急激に増加することが起こるようなスポーツ
インタビューの最中のような場合に、ノイズレベルにお
ける高速変化を除去するために、明瞭スペクトラム において中央値フィルタ動作を行う。ノイズは、ノイズ
推定器30によるノイズの更新によって、会話のないセ
クションから効果的に除去されるため、明瞭なスペクト
ラム 中に残されているノイズにおける高速の変化のほとんど
全ては、会話を有するセクション中に存在する。
【0077】強度スペクトラムフィルタ72は、明瞭ス
ペクトラム 中の強度の値の奇数ナンバーのシーケンスをソートして
強度順に並べてリストアップし、各リスト中から中央値
をセレクトする。突発的でかつ短時間の値の変化に対応
する強度の値は、各リスト中のエッジ部分に存在してい
るため、強度スペクトラムフィルタ72は、強度の値の
各シーケンスからの突発的でかつ短時間の値の変化を除
去するように機能する。入力した音の信号が緩やかに変
化する場合には、中程度の値を含むようないずれかの特
定の強度シーケンスにおける全ての値は、入力した音の
信号の変化に依存する。
【0078】強度スペクトラムフィルタ72は、予め計
算された明瞭会話スペクトルのうちの幾つかを格納する
ためのメモリを備えており、以下の等式に基づきスペク
トラルドメイン明瞭会話 を計算する。 ここで、Lは中央値フィルタの長さである。
【0079】tは、現在の分析ウィンドウを表すインデ
ックス値である。
【0080】t−1は、前の分析ウィンドウを表すイン
デックス値である。
【0081】そして、t−Lは、現在の分析ウィンドウ
よりもL個前の分析ウィンドウを表すインデックス値で
ある。
【0082】スペクトラルトゥタイムドメインコンバー
タ80は、スペクトラルドメイン中の高質化された信号
からのタイムドメイン中の会話信号を再生するために、
逆FFTスペクトラムコンピュータ81と、重複ウィン
ドウコンピュータ82とを備えている。逆FFTスペク
トラムコンピュータ81は、FFTスペクトラムコンピ
ュータ32とは逆の動作をする。前述のように、逆FF
Tスペクトラムコンピュータ81は、逆高速フーリエ変
換(IFFT)を用いて一般化スペクトラル減算器70
からタイムドメイン信号へと信号の変換をしたときに、
高質化された強度と共に、何ら加工処理が行われていな
い信号のフェーズを考慮する。IFFTスペクトラムコ
ンピュータ81は、各分析ウィンドウに対して、以下に
定義される等式を用いて、N個のタイムドメインサンプ
ルを出力する。 ここで、 は明瞭スペクトラム強度と、何ら加工処理が行われてい
ないフェーズとの組合せである。
【0083】そして、 は、現在の分析ウィンドウについてのタイムドメイン明
瞭信号である。
【0084】重複ウィンドウコンピュータ82は、信号
ウィンドウコンピュータ31において生成されたN個の
サンプルの各分析ウィンドウを、適切なウィンドウと重
複させること、即ち、各分析ウィンドウは、他のウィン
ドウからのブロックを含んでいることを考慮する。本実
施の形態によれば、重複比率は、50%で固定されてい
る。ハミングウィンドウ関数が用いられるため、結果的
にシフトされたウィンドウの簡単な加算によって、計算
コストを最小として結果的に信号の良好な再生を行うこ
とになる。重複ウィンドウコンピュータ82は、明瞭会
話信号yを出力する。
【0085】本発明によるシステムは、認識比率を高
め、人間にとって理解をより容易にすることを可能とす
る明瞭な会話を生成する。また、会話の処理を行う前の
段階のシステムであるため、既存のシステムに容易に付
加することができる。また、計算は、現在のウィンドウ
と幾つかの相対的な推定値とのみが必要とされて行われ
るので、全く複雑ではなく、データストリーム上で行う
ことができる。このため、通常の計算を行うためのキャ
パしか有していないようなデバイスに幅広く用いること
ができる。
【0086】例えば、認識比率をより良くすることがで
きるので、テレビのニュースプログラムのための自動字
幕をより簡単に得ることができる。フィールドスポーツ
は、特にバックグランドノイズの多いことで知られてい
る。本発明によるシステムでは、公共のテレビチャンネ
ル上に表示するためのより良好な音声の文字化を行うこ
とが可能である。
【0087】また、より良好な音声の文字化により、会
話から抽出されてビデオ/オーディオシステムに関連す
るメタデータ中へ挿入されるの第一の入力として用いら
れるメタデータのコンテンツを改善することができる。
例えば、現存するビデオ機器のサウンドトラックのより
良好な音声の文字化は、ビデオ/オーディオインデック
ス中のより精度の高いサーチ及び自動要約を可能にす
る。また、音声の文字化が、ビデオ機器のタイミング情
報のような外部情報と関係があるときには、より良好な
音声の文字化は、ビデオ機器の素早いナビゲーションを
大いに助けることが可能である。
【0088】本発明のシステムは、ノイズやマイクロホ
ンから遠ざかることにより生ずる問題を大きく減じるた
めの音声入力デバイスに用いることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態によるノイズリダクション
システムを示すブロック図。
【図2】図1のシステムの音声アクティビティ検出器、
タイムトゥスペクトラルドメインコンバータ、及びノイ
ズ推定器の構成を示すブロック図。
【図3】図1のシステムのシンプルスペクトラル減算
器、及び聴覚スケールマスキングレベルコンピュータの
構成を示すブロック図。
【図4】図1のシステムの一般的なスペクトラル減算
器、及びタイムトゥスペクトラルドメインコンバータの
構成を示すブロック図。
【図5】図2の音声アクティビティ検出器に入力した音
の信号の例を示すグラフ。
【図6】図2の音声アクティビティ検出器の三次統計推
定器からの出力を示すグラフ。
【図7】音声アクティビティ検出器の指数減衰分析器か
らの出力を示すグラフ。
【図8】音の信号中の、会話の存在/非存在を示す、音
声アクティビティ検出器からのバイナリ出力を示すグラ
フ。
【図9】図1のシステムのタイムトゥスペクトラルドメ
インコンバータへ入力する音の信号の分析ウィンドウを
示すブロック図。
【図10】図9の分析ウィンドウへハニングウィンドウ
を応用した様子を示すグラフ。
【図11】図10のハニングウィンドウを適用した後の
図9の分析ウィンドウを示すグラフ。
【図12】タイムトゥスペクトラルドメインコンバータ
によって決定された、図9の分析ウィンドウ中のスペク
トラルの内容を表すグラフ。
【図13】図3の簡単なスペクトラル減算器の入力及び
出力を示すグラフ。
【図14】図3のバークスケールコンバータによる、ス
ペクトラル領域からバークスペクトラル領域への変換を
示す概略図。
【図15】バークスケールコンバータからのバークスケ
ール明瞭会話のために、図3のスペクトラルマスキング
コンピュータによって決定されたバークマスキング特性
レベルを示すグラフ。
【図16】スペクトラルマスキングコンピュータによっ
て用いられる拡張関数を示すグラフ。
【図17】スペクトラルマスキングコンピュータによっ
て用いられる相対的なしきい値を示すグラフ。
【図18】図3のスペクトラル減算パラメータコンピュ
ータによって計算されるスペクトラル減算係数を示すグ
ラフ。
【図19】図4の一般化されたスペクトラル減算ユニッ
トからの出力を示すグラフ。
【符号の説明】
10 音声アクティビティ検出器 11 三次統計推定器 12 指数減衰分析器 13 推定レベルコンパレータ 20 タイムトゥスペクトラルドメインコンバータ 30 ノイズ推定器 31 信号ウィンドウコンバータ 32 ノイズ推定コンピュータ 40 シンプルスペクトラル減算器 50 聴覚スケールマスキングレベルコンピュータ 51 バークスケールコンバータ 52 スペクトラルマスキングコンピュータ 53 バークトゥスペクトラルドメインコンバータ 60 スペクトラル減算パラメータコンピュータ 70 一般化スペクトラル減算器 71 一般化スペクトラル減算ユニット 72 強度スペクトラムフィルタ 80 スペクトラルトゥタイムドメインコンバータ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音の信号中の会話のとぎれを検出するた
    めの音声アクティビティ検出器と、 音の信号を音の信号の離散フーリエ変換へ変換するため
    のタイムトゥスペクトラルドメインコンバータと、 該音声アクティビティ検出器が会話のとぎれを検出した
    ときに、ノイズレベルを推定するためのノイズ推定器
    と、 シンプル明瞭会話信号を出力するために、該離散フーリ
    エ変換からのノイズレベルを減算するためのシンプルス
    ペクトラル減算器と、 明瞭会話出力中にノイズが残されたとしても人間の耳に
    は聴覚不能である音の信号中の、どの部分にノイズが存
    在しているかを示す、該シンプル明瞭会話信号中のマス
    キングレベルを計算するための聴覚スケールマスキング
    コンピュータと、該マスキングレベルに基づく重複減算
    係数 と、スペクトラルフローリング係数 と、変化の度合い とを計算するためのスペクトラル減算パラメータコンピ
    ュータと、スペクトラルドメイン中の明瞭会話信号を生
    成するために、該スペクトラル減算パラメータコンピュ
    ータからの重複減算係数 と、スペクトラルフローリング係数 と、変化の度合い とを用いて、該離散フーリエ変換からノイズを減算する
    ための一般化スペクトラル減算器と、該一般化スペクト
    ラル減算器からの該明瞭会話信号を変換し、タイムドメ
    インへと返すスペクトラルトゥタイムドメインコンバー
    タとを備え、該音声アクティビティ検出器は、会話が存
    在していることを決定するために音の信号中の三次統計
    を検出するための三次レベル統計推定器と、会話ライク
    の信号の、時間に関係する特性に基づくサンプル中にお
    いて会話の存在を検出するための指数減衰分析器と、ウ
    ィンドウ中のサンプルの総数に対して、該指数減衰分析
    器によって会話として検出されたサンプルの比率がしき
    い値を超える場合に、タイムドメインサンプルウィンド
    ウ中の全てのサンプルが会話を含んでいる旨決定するこ
    とによってサンプルが会話を含んでいるかいないかを示
    すための推定レベルコンパレータとを備えることを特徴
    とする、会話を含む音の信号処理を行う前の段階の処理
    におけるノイズリダクションシステム。
  2. 【請求項2】 該ノイズ推定器は、該推定レベルコンピ
    ュータからのサンプル表示のスペクトラルドメインサン
    プルウィンドウ数を分類してグループ分けし、スペクト
    ラルドメインサンプルウィンドウ数中のサンプルの総数
    に対する会話を含むサンプル表示の比率が、しきい値よ
    りも大きい場合には、グループ全体において会話を含ん
    でいる旨を示す信号ウィンドウコンバータと、該信号ウ
    ィンドウコンバータによって会話を含んでいないことが
    示されたスペクトラルドメインサンプルウィンドウの各
    サンプルに対してノイズレベルを推定し、過去のイベン
    トに対して指数減衰重み付けが行われるようにシンプル
    ラーニングファクターを更新するノイズ推定コンピュー
    タとを有することを特徴とする請求項1記載のノイズリ
    ダクションシステム。
  3. 【請求項3】 該聴覚スケールマスキングコンピュータ
    は、シンプルスペクトラル減算器からのN個のシンプル
    明瞭会話信号のスペクトラル係数をB個のバークスケー
    ル係数へと変換するバークスケールコンバータと、ログ
    線形近似を用いてバークスケール係数の最終マスキング
    特性 を計算するスペクトラルマスキングコンピュータと、B
    個のバークスケール係数をN個のスペクトラル係数へと
    変換するバークトゥスペクトラルドメインコンバータと
    を備えていることを特徴とする請求項1記載のノイズリ
    ダクションシステム。
  4. 【請求項4】 該一般化スペクトラル減算器は、該離散
    フーリエ変換にゲインGを掛けることによって、スペク
    トラルドメイン中の明瞭会話を生成するための一般化ス
    ペクトラル減算器ユニットを備え、該ゲインGは以下の
    等式: ここで であり、 はノイズ推定器からのノイズ推定値に基づく係数 及び が用いられて決定された値であることを特徴とする請求
    項1記載のノイズリダクションシステム。
  5. 【請求項5】 該一般化スペクトラル減算器は、一般化
    スペクトラル減算器ユニットからの明瞭スペクトラム上
    で、中央値フィルタ動作を行うための強度スペクトラム
    フィルタを備えていることを特徴とする請求項4記載の
    ノイズリダクションシステム。
  6. 【請求項6】 該聴覚スケールマスキングコンピュータ
    は、該シンプルスペクトラル減算器からのシンプル明瞭
    会話信号のN個のスペクトラル係数をB個のバークスケ
    ール係数へと変換するためのバークスケールコンバータ
    と、ログ線形近似を用いてバークスケール係数の最終マ
    スキング特性 を計算するスペクトラルマスキングコンピュータと、B
    個のバークスケール係数をN個のスペクトラル係数へと
    変換するためのバークトゥスペクトラルドメインコンバ
    ータとを備えていることを特徴とする請求項5記載のノ
    イズリダクションシステム。
  7. 【請求項7】 音の信号中の会話のとぎれを検出するた
    めの音声アクティビティ検出器と、音の信号を音の信号
    の離散フーリエ変換へ変換するためのタイムトゥスペク
    トラルドメインコンバータと、該音声アクティビティ検
    出器が会話のとぎれを検出したときに、ノイズレベルを
    推定するためのノイズ推定器と、シンプル明瞭会話信号
    を出力するために、該離散フーリエ変換からのノイズレ
    ベルを減算するためのシンプルスペクトラル減算器と、
    明瞭会話出力中にノイズが残されたとしても人間の耳に
    は聴覚不能である音の信号中の、どの部分にノイズが存
    在しているかを示す、該シンプル明瞭会話信号中のマス
    キングレベルを計算するための聴覚スケールマスキング
    コンピュータと、該マスキングレベルに基づく重複減算
    係数 と、スペクトラルフローリング係数 と、変化の度合い とを計算するためのスペクトラル減算パラメータコンピ
    ュータと、スペクトラルドメイン中の明瞭会話信号を生
    成するために、該スペクトラル減算パラメータコンピュ
    ータからの重複減算係数 と、スペクトラルフローリング係数 と、変化の度合い とを用いて、該離散フーリエ変換からノイズを減算する
    ための一般化スペクトラル減算器と、 該一般化スペクトラル減算器からの該明瞭会話信号を変
    換し、タイムドメインへと返すスペクトラルトゥタイム
    ドメインコンバータとを備え、 該聴覚スケールマスキングコンピュータは、 該シンプルスペクトラル減算器からのシンプル明瞭会話
    信号のN個のスペクトラル係数をB個のバークスケール
    係数へと変換するためのバークスケールコンバータと、 ログ線形近似を用いてバークスケール係数の最終マスキ
    ング特性 を計算するスペクトラルマスキングコンピュータと、 B個のバークスケール係数をN個のスペクトラル係数へ
    と変換するためのバークトゥスペクトラルドメインコン
    バータとを備えていることを特徴とする、会話を含む音
    の信号処理を行う前の段階の処理におけるノイズリダク
    ションシステム。
  8. 【請求項8】 該一般化スペクトラル減算器は、 該離散フーリエ変換にゲインGを掛けることによって、
    スペクトラルドメイン中の明瞭会話を生成するための一
    般化スペクトラル減算器ユニットと、 該一般化スペクトラル減算器ユニットからの明瞭スペク
    トラム上で、中央値フィルタ動作を行うための強度スペ
    クトラムフィルタとを備え、 該ゲインGは以下の等式: ここで であり、 はノイズ推定器からのノイズ推定値に基づき、係数 及び が用いられて決定された値であることを特徴とする請求
    項7記載のノイズリダクションシステム。
  9. 【請求項9】 音の信号中の会話のとぎれを検出するた
    めの音声アクティビティ検出器と、 音の信号を音の信号の離散フーリエ変換へ変換するため
    のタイムトゥスペクトラルドメインコンバータと、 該音声アクティビティ検出器が会話のとぎれを検出した
    ときに、ノイズレベルを推定するためのノイズ推定器
    と、 シンプル明瞭会話信号を出力するために、該離散フーリ
    エ変換からのノイズレベルを減算するためのシンプルス
    ペクトラル減算器と、 明瞭会話出力中にノイズが残されたとしても人間の耳に
    は聴覚不能である音の信号中の、どの部分にノイズが存
    在しているかを示す、該シンプル明瞭会話信号中のマス
    キングレベルを計算するための聴覚スケールマスキング
    コンピュータと、 該マスキングレベルに基づく重複減算係数 と、スペクトラルフローリング係数 と、変化の度合い とを計算するためのスペクトラル減算パラメータコンピ
    ュータと、スペクトラルドメイン中の明瞭会話信号を生
    成するために、該スペクトラル減算パラメータコンピュ
    ータからの重複減算係数 と、スペクトラルフローリング係数 と、変化の度合い とを用いて、該離散フーリエ変換からノイズを減算する
    ための一般化スペクトラル減算器と、 該一般化スペクトラル減算器からの該明瞭会話信号を変
    換し、タイムドメインへと返すスペクトラルトゥタイム
    ドメインコンバータとを備え、 該一般化スペクトラル減算器は、 該離散フーリエ変換にゲインGを掛けることによって、
    スペクトラルドメイン中の明瞭会話を生成するための一
    般化スペクトラル減算器ユニットと、 該一般化スペクトラル減算器ユニットからの明瞭スペク
    トラム上で、中央値フィルタ動作を行うための強度スペ
    クトラムフィルタとを備え、 該ゲインGは以下の等式: ここで であり、 はノイズ推定器からのノイズ推定値に基づき、係数 及び が用いられて決定された値であることを特徴とする、会
    話を含む音の信号処理を行う前の段階の処理におけるノ
    イズリダクションシステム。
JP2002117190A 2002-04-19 2002-04-19 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム Pending JP2003316380A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002117190A JP2003316380A (ja) 2002-04-19 2002-04-19 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002117190A JP2003316380A (ja) 2002-04-19 2002-04-19 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム

Publications (1)

Publication Number Publication Date
JP2003316380A true JP2003316380A (ja) 2003-11-07

Family

ID=29534476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002117190A Pending JP2003316380A (ja) 2002-04-19 2002-04-19 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム

Country Status (1)

Country Link
JP (1) JP2003316380A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法
CN113160845A (zh) * 2021-03-29 2021-07-23 南京理工大学 基于语音存在概率和听觉掩蔽效应的语音增强算法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
CN103778920B (zh) * 2014-02-12 2016-03-09 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法
CN113160845A (zh) * 2021-03-29 2021-07-23 南京理工大学 基于语音存在概率和听觉掩蔽效应的语音增强算法

Similar Documents

Publication Publication Date Title
JP4764995B2 (ja) 雑音を含む音響信号の高品質化
US5757937A (en) Acoustic noise suppressor
EP1557827B1 (en) Voice intensifier
EP2546831B1 (en) Noise suppression device
US6044341A (en) Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US8612222B2 (en) Signature noise removal
US8170879B2 (en) Periodic signal enhancement system
US6687669B1 (en) Method of reducing voice signal interference
JP4173641B2 (ja) 音声活動に基づくゲイン制限による音声強化
US8352257B2 (en) Spectro-temporal varying approach for speech enhancement
US20050288923A1 (en) Speech enhancement by noise masking
JP4050350B2 (ja) 音声認識をする方法とシステム
Itoh et al. Environmental noise reduction based on speech/non-speech identification for hearing aids
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
JP2004341339A (ja) 雑音抑圧装置
JP2003280696A (ja) 音声強調装置及び音声強調方法
Ramirez et al. Voice activity detection with noise reduction and long-term spectral divergence estimation
WO2004002028A2 (en) Audio signal processing apparatus and method
JPH11265199A (ja) 送話器
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
JP3183104B2 (ja) ノイズ削減装置
Laaksonen et al. Artificial bandwidth expansion method to improve intelligibility and quality of AMR-coded narrowband speech
JP2003316380A (ja) 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JPH06274196A (ja) 雑音除去方法および雑音除去装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040527

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040527

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040629