JP2001005486A - 音声処理装置及び方法 - Google Patents

音声処理装置及び方法

Info

Publication number
JP2001005486A
JP2001005486A JP2000122982A JP2000122982A JP2001005486A JP 2001005486 A JP2001005486 A JP 2001005486A JP 2000122982 A JP2000122982 A JP 2000122982A JP 2000122982 A JP2000122982 A JP 2000122982A JP 2001005486 A JP2001005486 A JP 2001005486A
Authority
JP
Japan
Prior art keywords
frame
signal
input signal
noise
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000122982A
Other languages
English (en)
Inventor
David Llewellyn Rees
レウェリン リース デビッド
Robert Alexander Keiller
アレキサンダー ケイラー ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2001005486A publication Critical patent/JP2001005486A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

(57)【要約】 (修正有) 【課題】ノイズの影響を補償するために入力音声信号を
処理する音声処理装置、方法を提供する。 【解決手段】入力音声信号を複数の連続時間フレームに
分割し、各時間フレームに対しスペクトルパラメータの
セットが抽出されるが、このスペクトルパラメータは時
間フレーム中の入力信号を示している。次に、システム
は、入力フレームに対する信号対ノイズ比の測定値に依
存して各フレームに対するパラメータを変倍することに
よって入力音声を処理する。この様にして、入力信号の
付加ノイズの影響が削減できる。

Description

【発明の詳細な説明】
【0001】本発明は、音声処理装置及び方法に関する
ものである。本発明は、特に、音声認識あるいはスピー
カ試験のような連続処理動作での入力音声信号中のノイ
ズの影響を削減する入力音声信号の処理に関するもので
ある。
【0002】入力音声信号のノイズは一般的な問題であ
る。主な2種類の付加ノイズには、入力音声信号及び重
畳ノイズに付加されるバックグラウンドノイズの影響に
よるノイズ、実際の発声と処理対象の発声間のチャネル
不一致によって生じるノイズが含まれる。
【0003】本発明は、少なくとも連続処理動作上の付
加ノイズの影響を削減できる音声処理システムを提供す
ることを目的としている。好ましい実施形態は、連続処
理動作上の付加及び重畳ノイズの両方の影響を削減する
ことを目的としている。
【0004】本発明の実施形態は、専用コンピュータハ
ードウェア回路を使用して実現できるが、説明される実
施形態は、パーソナルコンピュータ、ワークステーショ
ン、複写機、ファクシミリ装置等の処理ハードウェアと
一緒に動作するソフトウェア上で実現できる。このソフ
トウェアは、多機能コンピュータシステムを使用するオ
ペレーティングシステムの形式であっても良い。
【0005】図1は本発明の実施形態を動作するために
プログラムされたパーソナルコンピュータ(PC)1を
示している。キーボード3、ポインティングデバイス
5、マイクロフォン7及び電話回線9は、インタフェー
ス11を介してPC1に接続されている。キーボード3
及びポインティングデバイス5はユーザによって制御さ
れることをシステムに可能にする。マイクロフォン7は
ユーザの生の音声信号を同等の電気信号に変換し、これ
を処理のためにPC1に供給する。内蔵モデム及び音声
受信回路(不図示)は電話回線9に接続されても良く、
そうすることで、PC1は、例えば、遠隔コンピュータ
あるいは遠隔ユーザと接続することができる。
【0006】本発明に従ってPC1を動作させるプログ
ラム命令は、PC1上に搭載する、例えば、磁気ディス
ク13のような記憶装置を使用して供給することがで
き、あるいは内蔵モデム及び電話回線9を介するインタ
ーネット(不図示)からの電気信号とするソフトウェア
をダウンロードすることによって供給することができ
る。
【0007】本実施形態の音声認識システムの動作は、
図2を参照して簡単に説明する。音声認識システムのよ
り詳細な説明は、本出願人の先の欧州特許出願EP07
8393で説明され、これを参照することによってその
内容は本明細書に組み込まれる。例えば、マイクロフォ
ン7からの入力音声を表す電気信号はプロセッサ15に
入力され、そこで、入力音声信号をパラメータフレーム
群のシーケンスに変換し、パラメータフレームのそれぞ
れは入力音声信号の対応時間フレームを表している。パ
ラメータフレーム群のシーケンスは、バッファ16を介
して認識ブロック17に供給され、そこで、パラメータ
フレーム群のシーケンスと参照モデルあるいは単語モデ
ル19を比較することによって音声が認識され、ここ
で、各モデルは認識対象の入力音声のパラメータと同種
のパラメータで表現されるパラメータフレーム群のシー
ケンスを構成している。
【0008】本実施形態では、認識処理を支援するため
に、言語モデル21及びノイズモデル23が入力として
認識ブロック17に提供される。ノイズモデルはサイレ
ンスあるいはバックグランドノイズ表現であり、また、
本実施形態は、認識対象の入力音声信号のフレームと同
種の単一パラメータフレームを構成している。言語モデ
ル21は、システムに知らされる単語のシーケンスを確
認するために、認識ブロック17から出力される可能な
単語のシーケンスを抑制するために使用される。認識ブ
ロック17から出力される単語シーケンスは、例えば、
単語処理パッケージを使用するために書き換えられても
良く、あるいはPC1の動作を初期化、停止あるいは変
更するための動作コマンドとして使用することができ
る。
【0009】上述したように、本発明は、認識処理上の
ノイズの影響を削減するための入力音声信号の処理に関
連する。本実施形態では、この音声信号の処理は、プレ
プロセッサ15で実行される。プレプロセッサブロック
15のより詳細な説明は、以下に与えられる。
【0010】プレプロセッサ プレプロセッサ15の機能は、音声から必要な情報を抽
出すること、処理すべきデータ量を削減することであ
る。入力信号から抽出できる情報には様々な種類があ
る。本実施形態では、プレプロセッサ15は「フォルマ
ント」関連情報を抽出するように設計されている。フォ
ルマントは、ユーザの発声帯域の共鳴周波数として定義
され、このユーザの発声帯域は、ユーザが会話している
場合の発生帯域変化の形状として変化する。
【0011】図3はプレプロセッサ15の主要部分のブ
ロック図を示している。マイクロフォン7あるいは電話
回線9からの入力音声S(t)はフィルタブロック61
に供給され、ここで、意味のない情報を含む入力音声信
号内に含まれる周波数が除去される。音声認識に対し有
用な情報のほとんどは、300Hz及び4KHz間の周
波数帯域に含まれている。それゆえ、フィルタブロック
61はこの周波数帯域以外のすべての周波数を除去す
る。音声認識に対し有用でない情報はフィルタブロック
61でフィルタ化されるので、認識パフォーマンスの損
失はなくなる。また、ある環境、例えば、道路環境で
は、バックグラウンドノイズのほとんどが300Hz以
下であり、フィルタブロック61はほぼ10dB以上の
信号対ノイズ比を効果的に向上する。次に、フィルタ化
音声信号は、アナログデジタルコンバータ(ADC)6
3によって16ビットデジタルサンプルに変換される。
ナイキストサンプリング基準に準拠するために、ADC
63は8000回/秒レートでフィルタ化信号をサンプ
リングする。
【0012】入力音声がサンプリングされた後、それは
ブロック65でフレーム長と同じ長さに分割される。こ
の入力音声のフレームへの分割の理由は、以下、詳細に
説明明する。上述したように、連続音声中のフォルマン
ト関連情報は連続的に変化し、変化比は、生理学的に制
約される音声の調音器官の動作範囲に直接関係する。そ
れゆえ、フォルマント周波数の変化を追跡するために、
音声信号は短時間期間あるいはフレームで解析されなけ
ればならず、この方法は、音声解析の分野では音声の
「短時間」解析として知られている。短時間解析を実行
する場合に注目すべき2つの検討事項は、(i)どのよ
うなレートで音声信号から時間フレームが抽出されるべ
きであるか、(ii)使用されるべき時間フレームがど
のくらいの長さかである。
【0013】第1の検討事項は音声の調音器官の動作範
囲に依存する、つまり、重要な事象を見過ごさないこと
を保証し、かつ正当な継続性を維持することを保証する
ようにフレームは十分に厳密であるべきである。第2の
検討事項は、十分に短い時間フレーム間の中間物によっ
てフレーム中の音声信号の特性が一定となるようにし、
十分な周波数の詳細を与えるようにフレームは十分に長
くすることで、フォrマントが区別できる。
【0014】本実施形態では、必要とされる計算量を削
減するために、フロントエンド処理及び後段の認識ステ
ージの両方で、従来の窓関数なしで、128サンプル
(16ミリ秒の音声に対応)の非オーバラップフレーム
が直接音声から抽出される。従来システムでは、オーバ
ラップフレームは、通常、窓関数を使用して抽出され、
この窓関数は音声信号からフレームを抽出することによ
って生じる周波数歪みを削減する。しかしながら、本出
願人は、非オーバラップフレームで、従来の窓関数は改
良認識パファーマンスよりも悪化することを見いだし
た。
【0015】ブロック65によって出力される音声フレ
ームSk(r)は、ほぼ1秒分の音声に対応する62フ
レームを記憶できる循環バッファ66に書き込まれる。
また、循環バッファ66に書き込まれたフレームは、入
力信号中の音声がいつ開始し、開始した後、いつ終了し
たかを識別するためにフレームを処理する終点検出器6
8を通過する。入力信号中の音声が検出されるまで、循
環バッファ内のフレームは計算強調特徴抽出器70に入
力されない。しかしながら、終点検出器68が入力信号
内の音声の開始を検出した場合、終点検出器68は、音
声ポイントの開始の後に受信されたフレームの特徴検出
器70への通過を開始するために循環バッファへ信号を
出力し、特徴検出器70はフーレム内の音声信号を表現
する各フレームに対するパラメータ(特徴ベクトル)セ
ットを抽出する。使用される終点検出器は、受信信号の
エネルギーを監視し、かつエネルギーが所定閾値を超え
る場合に音声の開始を示す標準終点検出器であっても良
い。しかしながら、好ましくは、終点検出器は、本出願
と併せて出願中である英国特許出願GB982293
2.1号に従って動作し、参照することによってその内
容は本明細書に組み込まれる。
【0016】本実施形態では、特徴検出器17によって
判定される特徴ベクトル(f~k)は入力音声の各フレー
ムに対し9個のケプストラム係数を構成する。当業者が
認識しているように、ケプストラム係数値は入力音声の
対応フレーム中の上述のフォルマントに依存する。本実
施形態では、また、特徴検出器70は、係数値からノイ
ズの除去を行うために、各フレーム内の各ケプストラム
係数を処理するために動作可能である。図4は特徴検出
器70の基本構成要素の詳細を示している。図示される
ように、循環バッファ66からの音声Sk(r)のフレ
ームはスペクトルパラメータ計算ユニット71及びエネ
ルギーベースパラメータ計算ユニット73に入力され
る。スペクトルパラメータ計算ユニット71は、上述し
た9個のケプストラム係数[C1、C2、C3、C4、…、
9]を計算する。この動作を実行するスペクトルパラ
メータ計算ユニット71における方法は音声認識の分野
では良く知られており、本願と一緒に出願されている英
国出願GB9822932.1号に記載されるので、こ
こではこれ以上説明しない。エネルギーベースパラメー
タ計算回路73は、処理対象の注目フレーム内の入力信
号のエネルギーを示すパラメータを計算する。本実施形
態では、このエネルギーベースパラメータは、フレーム
中の入力信号の平均マグニチュードであり、以下の式に
よって与えられる。
【0017】
【数7】 ここで、Nは各フレーム内のサンプル数(本実施形態で
は128)である。本実施形態で平均マグニチュードは
計算され、これは、フレーム内の入力信号の実際のエネ
ルギーを計算するために必要とされる平方計算が必要に
ならなくなるからである。この注目フレームに対する平
均マグニチュード値は、ノイズ比較ユニット77によっ
て使用されるバッファ75に記憶される。本実施形態で
は、バッファ75は前の62フレームに対する平均マグ
ニチュード値を記憶し、これは入力信号の半分に対応す
る。
【0018】ノイズ補償ユニット77はスペクトルパラ
メータ計算ユニット71から出力される9個のケプスト
ラム係数を受信し、ケプストラム係数内のノイズに対す
る補償を行うため各ケプストラム係数の補正を実行す
る。本実施形態では、ノイズ補償ユニット77は付加ノ
イズ(バックグラウンドノイズ)及び重畳ノイズ(チャ
ネルノイズ)の両方を補償するように動作可能である。
図5は図4に示されるノイズ補償ユニット77の主要構
成要素の詳細を示している。図示されるように、スペク
トルパラメータ計算ユニット71によって出力される注
目フレーム(k)に対する特徴ベクトル(fk)は付加
ノイズ補償ユニット79に入力され、この付加ノイズ補
償ユニット79は付加ノイズの影響を削減するために特
徴ベクトルを処理する。次に、付加ノイズ補償ユニット
79によって出力される特徴ベクトル(f’k)はチャ
ネルノイズ補償ユニット81に入力され、このチャネル
ノイズ補償ユニット81はチャネルノイズの影響を削減
するために受信特徴ベクトルを処理するように動作可能
である。次に、チャネルノイズ補償ユニット81から出
力される特徴ベクトル(f’’k)は信号対ノイズ比依
存変倍ユニット83によって変倍され、この信号対ノイ
ズ比依存変倍ユニット83は、付加ノイズに対する追加
補正を行い、かつ注目フレームに対するノイズ補正され
た特徴ベクトル(f~k)を出力するように動作可能であ
る。
【0019】これらの処理ユニットのそれぞれは、図6
から図10を参照してより詳細に説明する。付加ノイズ補償ユニット 付加ノイズは、音声信号に付加されるバックグラウンド
内のノイズの影響によるものである。付加ノイズ補償ユ
ニットは、以下の測定値に基づくノイズに対する補正を
実行する。 (1)注目フレームエネルギーが平均ノイズエネルギー
に近いあるいはよりも小さい場合に、注目フレームに対
するケプストラム係数は、平均ノイズケプストラム係数
へバイアスされる(即ち、入力信号中のバックグラウン
ドノイズが存在場合に取得される平均ケプストラム係
数) (2)注目フレームエネルギーが平均ノイズエネルギー
よりも大きい場合に、付加ノイズの影響を小さくする これらの測定値は図6に示される。特に、図6は2つの
異なるバックグラウンドノイズ状態での同一の発声に対
するケプストラム係数(Ci)の1つの値の変化の過程
を示している。入力信号の発声の開始は垂直破線S.
O.S(音声の開始:start of specch)によって示さ
れ、終了は垂直破線E.O.S(音声の終了:end of s
pecch)によって示されてる。図6に示されるように、
音声の開始及び音声の終了間の領域103では、Ci
は、バックグラウンドノイズのレベルに関係ない同一の
規則で変化し、入力信号内に音声が存在しない場合(領
域101及び105)、ケプストラム係数Ci)の値
は、それぞれの発声に対する平均バックグラウンドノイ
ズによって示されるレベルでほぼ一定となっている。特
に、領域101及び105のケプストラム係数Ci
は、特定発声に対する対応平均ノイズケプストラム係数
(ni)にバイアスされる。領域101及び105のケ
プストラム係数Ci)の値の不一致は、認識エラーをも
たらす。また、当業者が理解しているように、この問題
は音声発声部分の開始及び終了でのノイズを削減しない
ばかりか、音声信号は通常短時間のポーズを含んでいる
ので発声中にも生じ得る。加えて、摩擦音のような低エ
ネルギー音声音は、ノイズにによって著しく影響を受け
得る。
【0020】これらの測定値に基づいて、付加ノイズ補
償ユニット79は処理対象の注目フレームに対する信号
対ノイズ比に依存する補償を実行する。特に、付加ノイ
ズ補償ユニット79は、低信号対ノイズ比が存在する場
合は注目フレームに対する特徴ベクトル(fk)から平
均ノイズ特徴ベクトル(fnoise)を減算し、高信号対
ノイズ比が存在する場合は補正を実行しない。より具体
的には、ノイズ補償ユニット79は以下の計算を実行す
る。
【0021】
【数8】 ここで、fnoiseは平均ノイズ特徴ベクトルであり、こ
れはユーザが発声していない場合の入力信号のサンプル
から決定され、g(SNRk)は各フレームに対して計
算された関数であり、本実施形態では、注目フレームに
対する信号対ノイズ比が高い場合にはゼロに等しく(そ
うすることで、注目フレームでは補償は実行されな
い)、注目フレームに対する信号対ノイズ比がゼロより
小さいあるいは等しい場合には1に等しい(そうするこ
とで、平均ノイズケプストラム係数(n i))は注目フ
レームに対するケプストラム係数から減算される)。本
実施形態では、g(SNRk)は、以下の式で与えられ
る。
【0022】
【数9】 ここで、βは選択定数の一例であり(本実施形態では、
1の値を有する)、SNRkは処理対象の注目フレーム
に対する信号対ノイズ比の平均である。本実施形態で
は、信号対ノイズ比計算ユニット85は、処理対象の注
目フレームに対する平均マグニチュード(ek sig)(エ
ネルギーベースパラメータ計算ユニット73によって計
算され、バッファ75に記憶された)と平均ノイズマグ
ニチュード(enoise)を使用してこの測定値を計算
し、この平均ノイズマグニチュード(en oise)は上述
の式(1)を使用して音声検出器が発声の開始を識別す
る前に入力信号のサンプルから計算される。特に、信号
対ノイズ比計算ユニット85は、以下の式を計算する。
【0023】
【数10】
【0024】図7は、付加ノイズ補償ユニット79によ
って出力される処理ケプストラム値(C’i)が図6に
対する発声と同じ発声内で変化する過程を示す軌跡であ
る。図示されるように、領域103では、発声に対応し
て処理ケプストラム値C’iは未処理ケプストラム値
C’i(図6に示される)が変化する過程と同じ過程で
変化し、一方で、領域101及び105では、処理ケプ
ストラム値C’iは、発声の入力中の平均ノイズレベル
ではなくゼロにバイアスされる。それゆえ、トレーニン
グ中に生成された特徴ベクトル及び認識中の特徴ベクト
ルの両方が上記のようにして処理される場合、入力信号
中のバックグランドノイズの異なるレベルによって生じ
るエラーが削減できる。チャネルノイズ補償ユニット 重畳ノイズはトレーニングが実行される時間と認識が実
行される時間との間のチャネル不一致によって生じる。
例えば、重畳ノイズは、トレーニングステージ及び次の
認識ステージに対して異なるマイクロフォンが使用され
る場合、あるいはマイクロフォンでトレーニングステー
ジが実行され、かつ次の認識ステージが電話回線を介し
て実行される場合に発生する。本実施形態では、ケプス
トラム平均減算(CMS)の改良形態が採用される。標
準CMSアルゴリズムでは、発声に対する平均特徴ベク
トル(ケプストラム平均)が計算され、発声に対する各
特徴ベクトルから減算される。標準CMS補償技術の配
下にある原理は、線形チャネル不一致がトレーニング発
声及び次の認識対象の入力発生間の各ケプストラム係数
に対する一定相対オフセットをもたらすことである。ケ
プストラム平均の減算は、入力及びトレーニング発声の
両方に対し処理ケプストラム係数の平均を0にし、それ
によって、あらゆるチャネル不一致を除去する。
【0025】しかしながら、基本CMS技術は2つの問
題の影響を受ける。1つ目の問題は、チャネル補償を実
行する前に全発声を必要とすることである。これは、入
力発声のフレームが、入力音声が終了した後に処理でき
ず、それゆえ、システムの応答性が著しく低下させられ
ることを意味する。2つ目の問題は、チャネル不一致が
入力及びトレーニング発声間の各ケプストラム係数に対
し一定オフセットを導くという基本前提がノイズが存在
する場合には間違っているということである。発明者
は、処理対象の注目フレームに対する信号対ノイズ比が
低く、そのフレームに対するケプストラム値がノイズに
よって支配され、かつオフセットが存在しない場合に
は、このオフセットを示す高信号対ノイズ比を有するフ
レームだけが存在することに注意している。それゆえ、
本実施形態で採用されている拡張CMS技術は、以下の
式を使用してケプストラム平均の信号対ノイズ比依存減
算を実行する。
【0026】
【数11】 ここで、fmeanはケプストラム平均ベクトルであり、g
(SNRk)は各フレームに対して計算される関数であ
り、本実施形態では、注目フレームに対する信号対ノイ
ズ比が高い場合はゼロに等しく(そうすることで、ケプ
ストラム平均は注目フレームに対するケプストラム平均
から減算される)、注目フレームに対する信号対ノイズ
比がゼロより小さいあるいは等しい場合は1に等しい
(そうすることで、注目フレームに対する補償は実行さ
れない)。本実施形態では、チャネルノイズ補償ユニッ
ト81で使用されるg(SNRk)は付加ノイズ補償ユ
ニット79によって使用されるg(SNRk)と同じで
あり、SNRkは付加ノイズ補償ユニット79によって
使用された信号対ノイズ比の平均と同じである。
【0027】本実施形態では、音声認識システムは実質
的にリアルタイム方法で動作するように設計される。そ
の結果、ケプストラム平均(fmean)を計算する前に入
力対象の全発声を待機することを不可能である。それゆ
え、本実施形態では、ケプストラム平均(fmean)は、
以下から概算される。
【0028】
【数12】 ここで、Nは音声の開始からのフレーム数である。当業
者が理解しているように、この概算は、高信号対ノイズ
比を有するフレームにより重みを付けるために重み付け
される。計算はフレーム同期でリアルタイムに実行さ
れ、これによってリアルタイムで音声認識処理を実行す
ることを可能にする。残念ながら、これは、発声の開始
の近傍では、合計値の数フレーム分しか存在せず、ケプ
ストラム平均(fmean)の概算値が関係ないことを意味
する。それゆえ、関係ない概算値の減算を避けるため
に、fmeanは、Nが小さい場合にはパラメータτを使用
してゼロにバイアスされ、本実施形態では、パラメータ
τはチャネル不一致量に依存する5から20の間の典型
的な値を有する。特に、本実施形態では、τは大きなチ
ャネル不一致が存在する場合はより5に近い値となり、
例えば、異なる部屋の音響によって生じる小さな不一致
が存在する場合は20の値となる。これは、発声の開始
の近傍で実行されるチャネル補正はわずかに行うあるい
は行わなくて済むが、上述の補償はチャネル不一致に対
する補償中に影響を与え、一方で、入力音声のリアルタ
イム処理の全利益を残している。SNR依存変倍ユニット SNR依存変倍ユニットは、付加ノイズに対する更なる
耐性を与えるために提供される。変倍は、処理対象の注
目フレームのエネルギーが平均ノイズエネルギーに近い
あるいはよりも小さい場合の測定値に基づいて実行さ
れ、注目フレームに対する各ケプストラム係数の標準偏
差は付加ノイズの存在で削減される。SNR依存変倍ユ
ニット83で実行される補償はこの変化の補正を行い、
そして、フレーム内の与えられたケプストラム係数の標
準偏差は、トレーニング発声に対するものとなるように
入力発声に対しても同じになる。以下に説明するよう
に、これは、注目フレームに対する特徴ベクトルと信号
対ノイズ比依存変倍率を乗算することによって達成され
る。
【0029】本実施形態では、各ケプストラム係数の標
準偏差の信号対ノイズ比依存変化は、以下の式によって
モデル化される。
【0030】
【数13】 ここで、σi(SNRk)は処理対象の注目フレーム
(k)におけるケプストラム係数Ciの標準偏差であ
り、σi(SNR)はノイズが存在しない場合のケプ
ストラム係数Ciの標準偏差であり、αは決定された定
数例(本実施形態では、2である)であり、g(SNR
k)は各フレームに対して計算される関数であり、本実
施形態では、注目フレームに対する信号対ノイズ比が高
い場合にはゼロに等しく、注目フレームに対する信号対
ノイズ比がゼロより小さいあるいは等しい場合には1に
等しい。本実施形態では、g(SNRk)は、付加ノイ
ズ補償ユニット79及びチャネルノイズ補償ユニット8
1によって使用される関数と同じ関数である。それゆ
え、注目フレームに対する信号対ノイズ比が高い場合の
注目フレームに対する各ケプストラム係数の標準偏差
は、ノイズが存在しない場合はその標準偏差と同じであ
り、注目フレームに信号対ノイズ比が低い場合の各ケプ
ストラム係数の標準偏差は、ノイズが存在しない場合の
対応ケプストラム係数の標準偏差の半分である。
【0031】認識中の入力発声及びトレーニング発声に
対するケプストラム係数の標準偏差を等化にするため
に、まず、ターゲット標準偏差(σT i(SN
k traget))が定義され、次に、ケプストラム係数の
標準偏差をこのターゲット標準偏差にマッピングするマ
ッピング関数が決定される。特に、ターゲット標準偏差
が、以下の式で定義される場合、
【0032】
【数14】 次に、上記の式7によって式8を除算すると、
【0033】
【数15】 この式は、処理対象の注目フレームのケプストラム係数
に対する標準偏差をこのターゲット標準偏差にマッピン
グする。
【0034】本実施形態では、注目フレームに対する標
準偏差のターゲット標準偏差へのマッピング(変倍)に
依存する信号対ノイズ比は、チャネルノイズ補償ユニッ
ト81から受信されるケプストラム係数を変倍するため
に直接使用される。これは有効なことであり、チャネル
ノイズ補償ユニット81によって出力されるケプストラ
ム係数の平均がゼロとなるので、この変倍は係数の標準
偏差だけに影響を与え、その平均値には影響を与えな
い。換言すれば、信号対ノイズ比依存変倍ユニット83
は、以下の補償を実行する。
【0035】
【数16】
【0036】最終タスクは、ターゲット信号対ノイズ比
(SNRk target)を定義することである。本実施形態
では、ターゲット信号対ノイズ比は、以下から計算され
る。
【0037】
【数17】 ここで、etarg.noiseはターゲットノイズ下限であり、
本実施形態では、入力発声に対し一定であり、発声内の
ピークフレームエネルギー以下の一定量(γ)として計
算される。この一定値γは選択一定値の例である。γが
大きすぎる場合はノイズフレームはより重み付けされ、
小さすぎる場合は正常なフレームはよりノイズにされる
(縮小倍されることによって)。本実施形態では、γは
2.5の値を有する。上述したように、本実施形態の音
声認識システムは実質的にリアルタイム方法で動作する
ように設計される。それゆえ、発声に対するピークフレ
ームエネルギーを判定する前に全入力発声を受信するた
めに待機することができない。しかしながら、これは、
問題ではない、音声の始まりの検出の数フレーム内に
は、通常、発声内のピークフレームエネルギーが観測さ
れるからである。それゆえ、バッファ75内の20フレ
ームに対するフレームエネルギーを記憶することによっ
て、発声内の最大フレームエネルギーの良好な概算値
は、バッファ75内に記憶される最大フレームエネルギ
ーを判定することによって決定できる。次に、この最大
フレームエネルギーの概算値は、上述した方法でノイズ
下限を判定するために使用される。
【0038】図9は発声中の入力発生のエネルギーの変
化の過程を示している。また、図9はピークフレームエ
ネルギー(e^)から判定されるターゲットノイズ下限
を示している。上述の式10で実行される変倍の効果
は、時間t1でのフレームのようなターゲットノイズ下
限以下のフレームに対するケプストラム係数が半分にさ
れることであり、一方、時間t2でのフレームのような
ターゲットノイズ下限は変倍されず、ターゲットノイズ
下限周辺は1/2から1の間の変倍率によって変倍され
る。発明者は、ケプストラム係数の信号対ノイズ比依存
変倍が付加ノイズに対しより耐性がある音声認識システ
ムを導くことを認識しており、これは、トレーニング及
び認識中の特徴が全共通信号対ノイズ比にマッピングさ
れるからである。
【0039】次に、信号対ノイズ比依存変倍ユニット8
3によって出力される調整特徴ベクトル(f~k)は特徴
抽出器77によって出力され、認識ユニット17による
処理のためにバッファ16に入力される。認識ユニット
17の動作は、本発明では重要ではなく、それゆえ、以
降説明しない。
【0040】認識ユニット17は、例えば、標準スピー
カに依存する単独の音声認識システムあるいはスピーカ
に継続的に依存しない単独の音声認識システムであって
も良い。採用できる音声認識システムの種類の1つは、
本出願人の先願である上述の欧州特許出願EP0789
349に記述されている。他の実施形態 上記実施形態では、ノイズ補償ユニット77は、付加及
びチャネルノイズ障害の両方を補償した。図10は付加
ノイズだけに対し補償を実行する本発明の第2の実施形
態に従うノイズ補償の構成を示している。図10に示さ
れるように、この実施形態のノイズ補償ユニット77
は、付加ノイズ補償ユニット79及びSNR依存変倍ユ
ニット83を構成する。これらのユニットによって実行
される補正は、第1の実施形態で実行される補正と同じ
であり、それゆえ、再度、説明はしない。しかしなが
ら、チャネルノイズ補償が存在しないので、ケプストラ
ム平均特徴ベクトルは各入力特徴ベクトルから減算され
ないことに注意すべきである。それゆえ、入力発声のケ
プストラム平均がゼロに近くない場合、信号対ノイズ比
依存変倍は同じ歪みが生じ得る。しかしながら、これ
は、適切な前置強調及びフィルタリング回路を介するノ
イズ補償ユニットの前に入力音声の最適な処理によって
回避することができる。一方、リアルタイムで動作しな
いシステムでは、そのシステムは入力発声に対する平均
ケプストラム特徴ベクトルを計算することができ、これ
を各特徴ベクトルから減算することができる。
【0041】図11は変倍ユニット83によって実行さ
れる信号対ノイズ比依存変倍補償だけを実行する別のノ
イズ補償ユニット77を示している。再度、変倍ユニッ
ト83によって生じる歪みを回避するために、同様の検
討事項が各発声に対する平均ケプストラム特徴ベクトル
に関して取り上げられるべきである。また、図示してい
ないが、第1の実施形態の上述の3つの補償は、それら
自身あるいは任意の補償の組み合わせで実行できる。
【0042】上記実施形態では、上記補正は、トレーニ
ング中かつ次の認識処理中の入力発声に適用された。音
声認識の当業者が理解しているように、トレーニングデ
ータにおける上記補正を実行することは重要ではない。
特に、トレーニングデータに対し上記補正が適用されな
い場合、適切な調整が実行される補償に対し行うことが
できる。例えば、このような実施形態では、図5に示さ
れる付加ノイズ補償ユニット79は以下の補償を実行す
る。
【0043】
【数18】 ここで、f ̄noiseはトレーニング音声に対する平均ノ
イズ特徴ベクトルである。同様の調整は、チャネルノイ
ズ補償ユニット81及びSNR依存変倍ユニット83に
よって実行される補償に対しても行うことができる。
【0044】上記実施形態では、音声認識システムは実
質的にリアルタイムで動作するように設計された。これ
は重要ではない。全入力発声は、認識処理の前に受信さ
れても良い。この場合、発声内のケプストラム平均特徴
ベクトル及びピークフレームエネルギーは、任意の補正
が実行される前に決定される。
【0045】上記実施形態では、ケプストラム係数は、
各フレーム内の音声をモデル化するために使用された。
当業者が理解しているように、上記ノイズ補償は、フィ
ルタバンク係数あるいは線形予測解析による係数のよう
な他の種類のスペクトル係数で実行できる。
【0046】上記実施形態では、信号対ノイズ比依存変
倍補償に対し、ターゲットノイズレベルは音声信号の開
始で検出される最大フレームエネルギーに比例して定義
された。次に、このターゲットノイズ下限は全入力発声
に対する一定ノイズレベルとして使用された。別の実施
形態では、入力発声内のフレームのエネルギーは、継続
的に監視でき、事前に計算されたピークフレームエネル
ギーよりも大きいフレームエネルギーを有するフレーム
をシステムが識別する場合にはターゲットノイズ下限は
再計算できる。
【0047】上記実施形態では、信号対ノイズ比測定値
は各フレームに対して一定であった。別の実施形態で
は、入力フレーム内の異なる周波数帯域に対する信号対
ノイズ比の測定値が決定できる。このような実施形態で
は、関数g(SNRk)は、処理対象のフレームの各ケ
プストラム係数に対して値を有する。
【0048】上記実施形態では、α、β及びγは経験的
な定数が選択され、各ケプストラム係数に対し同じ値を
有していた。別の実施形態では、これらの係数の1つ以
上が、入力フレーム内のケプストラム係数のそれぞれに
対し異なる値を有することができる。一方、そのような
実施形態が可能であり、より良いノイズ補償を導ける場
合もあるが、複雑になるので好ましくない。
【0049】上記実施形態では、同じ信号対ノイズ比依
存関数(g(SNRk))が、処理対象の異なるノイズ
補償で使用された。これは重要ではない。異なる信号対
ノイズ比関数が、実行される補償のそれぞれに対し使用
することができる。しかしながら、要求される計算数を
削減できるので、同じ関数を使用することが好ましい。
【0050】当業者が理解しているように、上述のノイ
ズ補償技術は音声認識以外の様々な音声処理用途に使用
することができる。例えば、本出願で説明されている補
償は、スピーカ検査システムに使用しても良い。
【図面の簡単な説明】
【図1】本発明の実施形態で動作するようにプログラム
されるコンピュータの概要図である。
【図2】音声認識システムの概要図である。
【図3】入力音声信号上で実行されるいくつかの処理ス
テップを示し、図2に示されるシステムの一部として組
み込まれるプレプロセッサを示すブロック図である。
【図4】図3に示されるプレプロセッサの一部を形成す
る特徴抽出器の主要構成要素を示すブロック図である。
【図5】図4に示される特徴抽出器の一部を形成するノ
イズ補償ユニットの主要構成要素を示すブロック図であ
る。
【図6】図5に示されるノイズ補償ユニットがオフに切
り替わる場合に異なるバックグラウンドノイズレベルを
有する2つの入力発声で変化する図3に示される特徴抽
出器によってケプストラム係数が出力される過程の軌跡
を示す図である。
【図7】図5に示されるノイズ補償ユニットの一部を形
成する付加ノイズ補償ユニットによって出力される図6
に示される補償ケプストラム係数の軌跡を示す図であ
る。
【図8】スピーカと音声処理装置間の異なるチャネルを
持たない場合と、オフに切り替わる図5に示されるノイ
ズ補償ユニットを持つ場合とでの、同じ単語の2つの発
声で変化する図3に示される特徴抽出器によってどのよ
うにケプストラム係数が出力されるかを示す軌跡を示す
図である。
【図9】入力音声発声内でのフレームエネルギーが変化
する過程の軌跡を示す図である。
【図10】別のノイズ補償ユニットの構成を示すブロッ
ク図である。
【図11】別のノイズ補償ユニットの構成を示すブロッ
ク図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ロバート アレキサンダー ケイラー イギリス国 ジーユー2 5ワイジェイ サリー, ギルドフォード, サリー リ サーチ パーク, オッカム ロード, オッカム コート 1 キヤノン リサー チ センター ヨーロッパ リミテッド 内

Claims (60)

    【特許請求の範囲】
  1. 【請求項1】 音声処理装置であって、 音声成分とノイズ成分を構成する入力信号を受信する受
    信手段と、 前記入力信号に対する信号対ノイズ比(SNR)の平均
    を計算する計算手段と、 前記計算された信号対ノイズ比の測定値に依存して前記
    入力信号を変倍する変倍手段とを備えることを特徴とす
    る音声処理装置。
  2. 【請求項2】 前記変倍手段は、前記SNR測定値に依
    存する変倍を適用あるいは適用しないように動作可能で
    あることを特徴とする請求項1に記載の音声処理装置。
  3. 【請求項3】 前記変倍手段は、前記SNR測定値を指
    数的に変化させる変倍を適用するように動作可能である
    ことを特徴とする請求項1あるいは請求項2に記載の音
    声処理装置。
  4. 【請求項4】 前記変倍手段は、ターゲットノイズレベ
    ルを参照して定義されるターゲットSNRに依存する前
    記変倍を実行するように動作可能であることを特徴とす
    る請求項1乃至請求項3のいずれか1項に記載の音声処
    理装置。
  5. 【請求項5】 前記入力信号を複数の時間フレームに分
    割する分割手段と、前記時間フレーム内それぞれの前記
    入力信号を示す信号を生成する生成手段とを更に備え、
    前記計算手段は、各時間フレーム内の前記信号に対する
    前記SNR測定値を計算するように動作可能であり、前
    記変倍手段は、前記時間フレームに対して計算された前
    記SNRに依存して各時間フレーム内の前記信号を変倍
    するように動作可能であることを特徴とする請求項1乃
    至請求項4のいずれか1項に記載の音声処理装置。
  6. 【請求項6】 前記ターゲットノイズレベルは、前記入
    力信号内のフレームエネルギーの最大測定値以下の所定
    レベルとして決定されることを特徴とする請求項4に従
    属する場合の請求項5に記載の音声処理装置。
  7. 【請求項7】 各フレーム内の前記入力信号を示す前記
    信号は、前記フレーム内の前記入力信号に対する複数の
    スペクトルパラメータを構成することを特徴とする請求
    項5あるいは請求項6に記載の音声処理装置。
  8. 【請求項8】 前記スペクトルパラメータは、ケプスト
    ラム係数を構成することを特徴とする請求項7に記載の
    音声処理装置。
  9. 【請求項9】 前記変倍手段は、以下の式を使用して変
    倍動作を実行するように動作可能であり、 【数1】 ここで、fkはスペクトルパラメータのベクトルであ
    り、αは経験的に選択された定数であり、g(SN
    k)は前記計算手段によって計算された前記信号対ノ
    イズ比測定値の指数関数であり、g(SNRk target
    は前記ターゲット信号対ノイズ比測定値の指数関数であ
    ることを特徴とする請求項7あるいは請求項8に記載の
    音声処理装置。
  10. 【請求項10】 前記αは、2に等しいことを特徴とす
    る請求項9に記載の音声処理装置。
  11. 【請求項11】 前記指数関数g()は、以下の式を有
    し、 【数2】 ここで、βは経験的に選択された定数であることを特徴
    とする請求項9あるいは請求項10に記載の音声処理装
    置。
  12. 【請求項12】 前記計算手段は、以下の式を使用し
    て、注目フレームに対する前記信号対ノイズ比の測定値
    を計算するように動作可能であり、 【数3】 ここで、ek sigは前記注目フレーム中の信号強度の測定
    値であり、enoiseは音声成分が存在しない場合の前記
    入力信号をサンプリングすることによって取得されるバ
    ックグラウンドノイズの測定値であることを特徴とする
    請求項6、あるいは請求項6に従属する請求項7乃至請
    求項11のいずれか1項に記載の音声処理装置。
  13. 【請求項13】 各時間フレーム内の前記入力信号は、
    サンプリングされ、前記計算手段は、前記注目フレーム
    内のサンプルのマグニチュードを加算することによっ
    て、該注目フレーム内の前記信号強度の測定値を計算す
    るように動作可能であることを特徴とする請求項12に
    記載の音声処理装置。
  14. 【請求項14】 前記変倍手段は、実質的にリアルタイ
    ムで前記入力信号を変倍するように動作可能であること
    を特徴とする請求項1乃至請求項13のいずれか1項に
    記載の音声処理装置。
  15. 【請求項15】 前記入力信号に対する信号対ノイズ比
    依存減算を実行する減算手段とを更に備えることを特徴
    とする請求項1乃至請求項14のいずれか1項に記載の
    音声処理装置。
  16. 【請求項16】 前記減算手段は、前記注目フレームに
    対する前記SNR測定値が所定値以下である場合にバッ
    クグラウンドノイズを示す信号を減算するように動作可
    能であることを特徴とする請求項5に従属する場合の請
    求項15に記載の音声処理装置。
  17. 【請求項17】 前記減算手段は、前記SNR測定値が
    高い場合に前記減算が実行されないように動作可能であ
    ることを特徴とする請求項16に記載の音声処理装置。
  18. 【請求項18】 前記減算手段は、前記SNR測定値を
    指数的に変化させる減算を実行するように動作可能であ
    ることを特徴とする請求項15乃至請求項17のいずれ
    か1項に記載の音声処理装置。
  19. 【請求項19】 前記減算手段は、前記注目フレームに
    対する前記SNR測定値が高い場合に、前記入力信号内
    の前記平均フレームを示す信号を減算するように動作可
    能であることを特徴とする請求項5に従属する場合の請
    求項15あるいは請求項16に記載の音声処理装置。
  20. 【請求項20】 前記減算手段は、前記SNR測定値が
    所定閾値以下である場合に、前記平均フレームを示す前
    記信号の前記減算を実行しないように動作可能であるこ
    とを特徴とする請求項19に記載の音声処理装置。
  21. 【請求項21】 前記減算手段は、リアルタイムで前記
    減算を実行するように動作可能であり、前記平均フレー
    ムを示す前記信号は、所定閾値よりも大きい信号対ノイ
    ズ比を有する事前に受信されたフレームから概算される
    ことを特徴とする請求項19あるいは請求項20に記載
    の音声処理装置。
  22. 【請求項22】 前記概算は、前記入力信号の第1の数
    フレームに対しゼロにバイアスされることを特徴とする
    請求項21に記載の音声処理装置。
  23. 【請求項23】 音声処理装置であって、 音声成分とノイズ成分を構成する入力信号を受信する受
    信手段と、 前記入力信号を複数の時間フレームに分割する分割手段
    と、 各時間フレームに対し、該時間フレーム中の前記入力信
    号を示す複数のパラメータを抽出する抽出手段と、 前記音声成分上の前記ノイズ成分の影響を補償するため
    に各時間フレームに対する前記パラメータを処理する処
    理手段とを備え、 前記処理手段は、前記音声成分及び前記ノイズ成分の信
    号対ノイズ比の測定値に依存して、各フレーム内の前記
    パラメータを変倍するように動作可能であることを特徴
    とする音声処理装置。
  24. 【請求項24】 音声処理装置であって、 音声成分とノイズ成分とを構成する入力信号を受信する
    受信手段と、 前記入力信号を複数の時間フレームに分割する分割手段
    と、 各時間フレームに対し、該時間フレーム中の前記入力信
    号を示す複数のパラメータを抽出する抽出手段と、 前記音声成分上の前記ノイズ成分の影響を補償するため
    に各時間フレームに対する前記パラメータを処理する処
    理手段とを備え、 前記処理手段は、前記音声成分及び前記ノイズ成分の信
    号対ノイズ比の測定値に依存して各フレーム内の前記パ
    ラメータから平均入力フレームを示す平均パラメータの
    セットを減算するように動作可能であることを特徴とす
    る音声処理装置。
  25. 【請求項25】 前記処理手段は、前記信号対ノイズ比
    が高い場合に注目フレームのパラメータから前記平均パ
    ラメータを減算するように動作可能であり、前記処理手
    段は、前記信号対ノイズ比が所定閾値以下である場合に
    前記平均パラメータを減算しないように動作可能である
    ことを特徴とする請求項24に記載の音声処理装置。
  26. 【請求項26】 当該音声処理装置は、リアルタイムで
    前記入力音声信号を処理するように動作可能であり、前
    記平均パラメータは、事前に受信された入力フレームか
    ら決定されることを特徴とする請求項24あるいは請求
    項25に記載の音声処理装置。
  27. 【請求項27】 前記平均パラメータは、前記入力信号
    の開始でゼロにバイアスされることを特徴とする請求項
    26に記載の音声処理装置。
  28. 【請求項28】 前記平均パラメータは、前記受信され
    たフレームの重み付け平均を使用して決定され、各フレ
    ームに適用される前記重み付けは、前記フレームに対す
    るSNR測定値に依存していることを特徴とする請求項
    26あるいは請求項27に記載の音声処理装置。
  29. 【請求項29】 音声処理方法であって、 音声成分とノイズ成分を構成する入力信号を受信する受
    信工程と、 前記入力信号に対する信号対ノイズ比(SNR)の平均
    を計算する計算工程と、 前記計算された信号対ノイズ比の測定値に依存して前記
    入力信号を変倍する変倍工程とを備えることを特徴とす
    る音声処理方法。
  30. 【請求項30】 前記変倍工程は、前記SNR測定値が
    高い場合に前記変倍を適用せず、前記SNR測定値が低
    い場合に前記変倍を実行することを特徴とする請求項2
    9に記載の音声処理方法。
  31. 【請求項31】 前記変倍工程は、前記SNR測定値を
    指数的に変化させる変倍を適用することを特徴とする請
    求項29あるいは請求項30に記載の音声処理方法。
  32. 【請求項32】 前記変倍工程は、ターゲットノイズレ
    ベルを参照して定義されるターゲットSNRに依存する
    前記変倍を実行することを特徴とする請求項29乃至請
    求項31のいずれか1項に記載の音声処理方法。
  33. 【請求項33】 前記入力信号を複数の時間フレームに
    分割する分割工程と、前記時間フレーム内それぞれの前
    記入力信号を示す信号を生成する生成工程とを更に備
    え、前記計算工程は、各時間フレーム内の前記信号に対
    する前記SNR測定値を計算し、前記変倍工程は、前記
    時間フレームに対して計算された前記SNRに依存して
    各時間フレーム内の前記信号を変倍することを特徴とす
    る請求項29乃至請求項32のいずれか1項に記載の音
    声処理方法。
  34. 【請求項34】 前記ターゲットノイズレベルは、前記
    入力信号内のフレームエネルギーの最大測定値以下の所
    定レベルとして決定されることを特徴とする請求項32
    に従属する場合の請求項33に記載の音声処理方法。
  35. 【請求項35】 各フレーム内の前記入力信号を示す前
    記信号は、前記フレーム内の前記入力信号に対する複数
    のスペクトルパラメータを構成することを特徴とする請
    求項33あるいは請求項34に記載の音声処理方法。
  36. 【請求項36】 前記スペクトルパラメータは、ケプス
    トラム係数を構成することを特徴とする請求項35に記
    載の音声処理方法。
  37. 【請求項37】 前記変倍工程は、以下の式を使用して
    変倍動作を実行し、 【数4】 ここで、fkはスペクトルパラメータのベクトルであ
    り、αは経験的に選択された定数であり、g(SN
    k)は前記計算工程によって計算された前記信号対ノ
    イズ比測定値の指数関数であり、g(SNRk target
    は前記ターゲット信号対ノイズ比測定値の指数関数であ
    ることを特徴とする請求項35あるいは請求項36に記
    載の音声処理方法。
  38. 【請求項38】 前記αは、1/2に等しいことを特徴
    とする請求項37に記載の音声処理方法。
  39. 【請求項39】 前記指数関数g()は、以下の式を有
    し、 【数5】 ここで、βは経験的に選択された定数であることを特徴
    とする請求項37あるいは請求項38に記載の音声処理
    方法。
  40. 【請求項40】 前記計算工程は、以下の式を使用し
    て、注目フレームに対する前記信号対ノイズ比の測定値
    を計算し、 【数6】 ここで、ek sigは前記注目フレーム中の信号強度の測定
    値であり、enoiseは音声成分が存在しない場合の前記
    入力信号をサンプリングすることによって取得されるバ
    ックグラウンドノイズの測定値であることを特徴とする
    請求項34、あるいは請求項34に従属する請求項35
    乃至請求項39のいずれか1項に記載の音声処理方法。
  41. 【請求項41】 各時間フレーム内の前記入力信号は、
    サンプリングされ、前記計算工程は、前記注目フレーム
    内のサンプルのマグニチュードを平均することによっ
    て、該注目フレーム内の前記信号強度の測定値を計算す
    るように動作可能であることを特徴とする請求項40に
    記載の音声処理方法。
  42. 【請求項42】 前記変倍工程は、実質的にリアルタイ
    ムで前記入力信号を変倍することを特徴とする請求項2
    9乃至請求項41のいずれか1項に記載の音声処理方
    法。
  43. 【請求項43】 前記入力信号に対する信号対ノイズ比
    依存減算を実行する減算工程とを更に備えることを特徴
    とする請求項29乃至請求項42のいずれか1項に記載
    の音声処理方法。
  44. 【請求項44】 前記減算工程は、前記注目フレームに
    対する前記SNR測定値が所定値以下である場合にバッ
    クグラウンドノイズを示す信号を減算することを特徴と
    する請求項32に従属する場合の請求項43に記載の音
    声処理方法。
  45. 【請求項45】 前記減算工程は、前記SNR測定値が
    高い場合に前記減算を実行しないことを特徴とする請求
    項44に記載の音声処理方法。
  46. 【請求項46】 前記減算工程は、前記SNR測定値を
    指数的に変化させる減算を実行することを特徴とする請
    求項43乃至請求項45のいずれか1項に記載の音声処
    理方法。
  47. 【請求項47】 前記減算工程は、前記注目フレームに
    対する前記SNR測定値が高い場合に、前記入力信号内
    の前記平均フレームを示す信号を減算することを特徴と
    する請求項32に従属する場合の請求項43あるいは請
    求項44に記載の音声処理方法。
  48. 【請求項48】 前記減算工程は、前記SNR測定値が
    所定閾値以下である場合に、前記平均フレームを示す前
    記信号の前記減算を実行しないことを特徴とする請求項
    47に記載の音声処理方法。
  49. 【請求項49】 前記減算工程は、リアルタイムで前記
    減算を実行するように動作可能であり、前記平均フレー
    ムを示す前記信号は、所定閾値よりも大きい信号対ノイ
    ズ比を有する事前に受信されたフレームから概算される
    ことを特徴とする請求項47あるいは請求項48に記載
    の音声処理方法。
  50. 【請求項50】 前記概算は、前記入力信号の第1の数
    フレームに対しゼロにバイアスされることを特徴とする
    請求項49に記載の音声処理方法。
  51. 【請求項51】 音声処理方法であって、音声成分とノ
    イズ成分を構成する入力信号を受信する受信工程と、前
    記入力信号を複数の時間フレームに分割する分割工程
    と、 各時間フレームに対し、該時間フレーム中の前記入力信
    号を示す複数のパラメータを抽出する抽出工程と、 前記音声成分上の前記ノイズ成分の影響を補償するため
    に各時間フレームに対する前記パラメータを処理する処
    理工程とを備え、 前記処理工程は、前記音声成分及び前記ノイズ成分の信
    号対ノイズ比の測定値に依存して、各フレーム内の前記
    パラメータを変倍することを特徴とする音声処理方法。
  52. 【請求項52】 音声処理方法であって、 音声成分とノイズ成分とを構成する入力信号を受信する
    受信工程と、 前記入力信号を複数の時間フレームに分割する分割工程
    と、 各時間フレームに対し、該時間フレーム中の前記入力信
    号を示す複数のパラメータを抽出する抽出工程と、 前記音声成分上の前記ノイズ成分の影響を補償するため
    に各時間フレームに対する前記パラメータを処理する処
    理工程とを備え、 前記処理工程は、前記音声成分及び前記ノイズ成分の信
    号対ノイズ比の測定値に依存して各フレーム内の前記パ
    ラメータから平均入力フレームを示す平均パラメータの
    セットを減算することを特徴とする音声処理方法。
  53. 【請求項53】 前記処理工程は、前記信号対ノイズ比
    が高い場合に注目フレームのパラメータから前記平均パ
    ラメータを減算し、前記処理工程は、前記信号対ノイズ
    比が所定閾値以下である場合に前記平均パラメータを減
    算しないことを特徴とする請求項52に記載の音声処理
    方法。
  54. 【請求項54】 当該音声処理方法は、実質的にリアル
    タイムで動作し、前記平均パラメータは、前記信号対ノ
    イズ比が前記所定閾値である事前に受信された入力フレ
    ームから決定されることを特徴とする請求項52あるい
    は請求項53に記載の音声処理方法。
  55. 【請求項55】 前記平均パラメータは、前記入力信号
    の開始でゼロにバイアスされることを特徴とする請求項
    54に記載の音声処理方法。
  56. 【請求項56】 前記平均パラメータは、前記受信され
    たフレームの重み付け平均を使用して決定され、各フレ
    ームに適用される前記重み付けは、前記フレームに対す
    るSNR測定値に依存していることを特徴とする請求項
    54あるいは請求項55に記載の音声処理方法。
  57. 【請求項57】 音声信号を処理するコンピュータ実行
    可能処理ステップを記憶するコンピュータ可読媒体であ
    って、 音声成分とノイズ成分を構成する入力信号を受信する受
    信工程の処理ステップと、 前記入力信号に対する信号対ノイズ比(SNR)の平均
    を計算する計算工程の処理ステップと、 前記計算された信号対ノイズ比の測定値に依存して前記
    入力信号を変倍する変倍工程の処理ステップとを備える
    ことを特徴とするコンピュータ可読媒体。
  58. 【請求項58】 音声信号を処理するコンピュータ実行
    可能処理ステップであって、 音声成分とノイズ成分を構成する入力信号を受信する受
    信工程の処理ステップと、 前記入力信号に対する信号対ノイズ比(SNR)の平均
    を計算する計算工程の処理ステップと、 前記計算された信号対ノイズ比の測定値に依存して前記
    入力信号を変倍する変倍工程の処理ステップとを備える
    ことを特徴とするコンピュータ実行可能処理ステップ。
  59. 【請求項59】 請求項1乃至請求項28のいずれか1
    項に記載の音声処理装置として構成されるプログラム可
    能なプロセッサを構成するコンピュータ可読媒体実行命
    令。
  60. 【請求項60】 請求項1乃至請求項28のいずれか1
    項に記載の音声処理装置としてプログラム可能な処理回
    路を構成する信号実行命令。
JP2000122982A 1999-04-23 2000-04-24 音声処理装置及び方法 Withdrawn JP2001005486A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9909425A GB2349259B (en) 1999-04-23 1999-04-23 Speech processing apparatus and method
GB9909425.2 1999-04-23

Publications (1)

Publication Number Publication Date
JP2001005486A true JP2001005486A (ja) 2001-01-12

Family

ID=10852173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000122982A Withdrawn JP2001005486A (ja) 1999-04-23 2000-04-24 音声処理装置及び方法

Country Status (3)

Country Link
US (1) US6965860B1 (ja)
JP (1) JP2001005486A (ja)
GB (1) GB2349259B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356795A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
JP2015535616A (ja) * 2012-11-21 2015-12-14 イギリス国The Secretary Of State For Defence In Her Britannic Majesty’S Government Of The Uneted Kingdom Of Great Britain And Northern Ireland 測定信号がモデル信号に適合するか否かを決定する方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10320917A1 (de) * 2003-05-09 2004-12-09 Infineon Technologies Ag Verfahren und Schaltung zur Crestfaktor-Reduzierung
WO2005070130A2 (en) * 2004-01-12 2005-08-04 Voice Signal Technologies, Inc. Speech recognition channel normalization utilizing measured energy values from speech utterance
EP1794746A2 (en) * 2004-09-23 2007-06-13 Koninklijke Philips Electronics N.V. Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
US9343079B2 (en) * 2007-06-15 2016-05-17 Alon Konchitsky Receiver intelligibility enhancement system
JP5150542B2 (ja) * 2009-03-26 2013-02-20 株式会社東芝 パターン認識装置、パターン認識方法、及び、プログラム
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN102779525B (zh) * 2012-07-23 2014-12-03 华为终端有限公司 降噪方法及终端
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
JP2737624B2 (ja) 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
US5604839A (en) 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
AU4661497A (en) * 1997-09-30 1999-03-22 Qualcomm Incorporated Channel gain modification system and method for noise reduction in voice communication
US6230122B1 (en) * 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356795A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
JP2015535616A (ja) * 2012-11-21 2015-12-14 イギリス国The Secretary Of State For Defence In Her Britannic Majesty’S Government Of The Uneted Kingdom Of Great Britain And Northern Ireland 測定信号がモデル信号に適合するか否かを決定する方法

Also Published As

Publication number Publication date
US6965860B1 (en) 2005-11-15
GB9909425D0 (en) 1999-06-23
GB2349259B (en) 2003-11-12
GB2349259A (en) 2000-10-25

Similar Documents

Publication Publication Date Title
US5757937A (en) Acoustic noise suppressor
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
US8150682B2 (en) Adaptive filter pitch extraction
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP4440937B2 (ja) 暗騒音存在時の音声を改善するための方法および装置
RU2450368C2 (ru) Средство обнаружения голосовой активности с использованием нескольких микрофонов
JP6134078B1 (ja) ノイズ抑制
EP2860730B1 (en) Speech processing
JP6169849B2 (ja) 音響処理装置
EP2244254B1 (en) Ambient noise compensation system robust to high excitation noise
EP2546831A1 (en) Noise suppression device
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
JP2001005486A (ja) 音声処理装置及び方法
JP4050350B2 (ja) 音声認識をする方法とシステム
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
US20150162014A1 (en) Systems and methods for enhancing an audio signal
CN111508512A (zh) 语音信号中的摩擦音检测
JP4173525B2 (ja) 雑音抑圧装置及び雑音抑圧方法
Zhang et al. Speech enhancement for nonstationary noise environments
JP4098271B2 (ja) 雑音抑圧装置
JP2003177783A (ja) 音声認識装置、音声認識方式及び音声認識プログラム
MXPA96006483A (es) Metodo y sistema para realizar reconocimiento de habla

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070703