JPH09179585A

JPH09179585A - 音声認識をする方法とシステム

Info

Publication number: JPH09179585A
Application number: JP8341738A
Authority: JP
Inventors: Mazin G Rahim; ジー．レイムマズィン; Jay Gordon Wilpon; ゴードンウィルポンジェイ
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-12-20
Filing date: 1996-12-20
Publication date: 1997-07-11
Anticipated expiration: 2016-12-20
Also published as: US5806022A; EP1093112A2; DE69635141T2; EP0780828A3; DE69616724D1; EP1093112B1; CA2192397A1; EP1093112A3; CA2192397C; MX9606483A; EP0780828A2; EP0780828B1; DE69616724T2; DE69635141D1; JP4050350B2

Abstract

(57)【要約】【課題】エンハンスした音声信号の存在を介して音声
認識の強健性を改善するため、音声認識処理を補正す
る。【解決手段】音声信号のエンハンスメントがエンハン
スしていない音声信号を用いて学習をした認識モデル
と、エンハンスした音声信号から抽出した特性データ相
互間に音響上の不整合をもたらす原因となる音声信号の
エンハンスメントが音声認識性能におよぼす逆効果をこ
の補正によって克服する。線形予測符号化とメル準拠の
ケプストラル・パラメータ分析を複合して行い、エンハ
ンスした音声信号の周波数領域の表示を処理するときに
メル・フィルタ・バンクを選択的に聴感補正することに
より、音声認識処理に用いる伝送されてきた音声信号の
ケプストラル特性を計算すべく、自動音声認識システム
の前端部に於いて補正を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声の認識処理に
関し、さらに詳細には、音声信号がエンハンスされてい
るときに感度を最小にする音声認識を行うことに関す
る。

【０００２】

【従来の技術】長距離交換網のような電気通信網から伝
送される音声信号は未知の各種条件によって音響的な影
響をよく受ける。このような条件はこうしたネットワー
クに通常含まれる自動音声認識（ＡＳＲ）システムの性
能を示差的に低下させることがある。このような条件に
は、例えば、周囲ノイズ、チャネル干渉、異なる音響検
出装置の使用が含まれる。

【０００３】通常のＡＳＲシステムは伝送されてきた音
声信号を表す特徴データと学習認識モデルとして周知の
音声単位を表すデータ・パターンとを比較またはマッチ
ングさせることによって音声の認識を行う。認識モデル
は通常、電話機での通話時に於けるような実音声信号が
ＡＳＲシステムに伝送される同一のネットワーク接続経
路から行われる周知の音声特性を有する所定の音声信号
の伝送をモニタすることによって得られれる。

【０００４】多くの事例に於いて、ネットワーク経路に
様々な未知条件が存在すると、認識モデルとテスト・デ
ータ相互間に音響上の不整合が生じる。このような音響
上の不整合は音声認識性能を低下させることがある。音
響上の不整合は、例えば、ネットワーク経路から伝送さ
れる音声信号が人間の知覚作用に合わせ音声の品質を改
善させるべくエンハンスされるときに起こり易い。この
ようなエンハンスメントが行われると、音声認識性能は
音声認識プロセスに用いた認識モデルが同じような音声
信号エンハンスメント回路を含むネットワーク接続経路
に生成されなかったとき、あるいは学習が行われなかっ
たときに最適レベル以下になることがある。検出された
音声信号を表す特徴を認識モデルにマッチングさせＡＳ
Ｒシステムに強健性を提供しようとする現在の音声信号
処理技術は通常、前記に説明したような結果をもたらす
ことのある音響上の不整合を充分補正するものではな
い。

【０００５】

【課題を解決するための手段】本発明は、改善された音
声認識性能のための方法とシステムに関する。同じよう
なエンハンスメント回路を備えたネットワーク接続経路
に、例えば、認識モデルが生成されなかったり、あるい
は学習が行われなかったエンハンスメントが行われるネ
ットワークに於いて音声認識性能に優れた強健性を与え
る補正は情報の利用によって行われる。この利用する情
報はネットワーク接続経路からの伝送時に音声信号に対
し行われるエンハンスメントのスペクトル効果に関する
ものである。

【０００６】本発明の一つの態様では、音声信号エンハ
ンスメントの補正は特徴抽出装置と音声認識装置を含む
音声認識システムの前端部に於いて特徴抽出処理が実行
される期間に行われる。特徴抽出装置は線形予測符号化
（ＬＰＣ）とメル・フィルタ分析とを組み合わせて用
い、エンハンスした音声信号のケプストラル特性を計算
する。時変音声信号が周波数領域での表示に合わせて変
換された後に、この信号に対し行われたエンハンスメン
トを補正する。

【０００７】本発明の方法の一つの態様では、第一にエ
ンハンスした時変音声信号のサンプリングが行われる。
サンプリングされた音声信号はフレームに集められ、次
いで、フーリエ変換により時間の表示から周波数領域の
表示に変換する。その後、各フレームのパワー・スペク
トルは音声信号のスペクトル特性に対するエンハンスメ
ント効果の選択的な補正が聴感補正によって行われる選
択的に聴感補正されたメル・フィルタ・バンク処理を受
ける。次いで、補正が行われたエンハンスした音声信号
のスペクトル表示から自動補正係数を計算し、その後Ｌ
ＰＣ分析とケプストラル循環とによってケプストラル特
性を求める。本発明の上記以外の特徴と利点は当該技術
に通常の精通度を有する者にとっては以下の詳細な説明
と付属図面を参照すれば容易に明らかなことであろう。

【０００８】

【発明の実施の形態】図１はエンハンスした音声信号を
本発明技術に従って行う音声認識処理に適した例示とし
て引用した電気通信網１００のブロック図である。図１
を参照すると、長距離伝送の音声信号とデータをステー
ション・セットＳ１、Ｓ２を組み合わせた電話ユーザの
ような加入者のために接続すべく、様々な周知の方法の
内のいずれかに従って互いに接続ができる市外局１０
５、１１０のような複数の市外局でネットワーク１００
を適切に構成することができる。市内中央局５０はステ
ーション・セットＳ１を市外局１０５に接続し、市内中
央局７５はステーション・セットＳ２を市外局１１０に
接続する。

【０００９】ネットワーク１００には、さらに、電話ユ
ーザのような加入者が受信する前に、音声信号の品質を
エンハンスさせるため、市外局１０５、１１０相互間の
接続路に配した音声信号エンハンスメント装置または音
声信号エンハンサー１０７を適切に含めることができ
る。例えば、音声信号エンハンサー１０７には音声信号
のパワー・レベルを増強または低下させるため、エコー
消去回路、あるいは他の回路のような適切な回路を含め
ることができる。指定周波数のパワー・レベルの増強を
含むネットワーク内での音声信号のエンハンスメントに
ついてのさらに詳細な説明に関しては参照によって本明
細書に組み込まれている米国特許第５，１９５，１３２
号を参照する。

【００１０】本発明によれば、音声信号エンハンサー１
０７から音声信号を受信し、以下にさらに詳しく説明す
る特性の抽出を含む音声信号認識に備えた信号処理を行
うため、音声信号プロセッサ１０２をさらにネットワー
ク接続経路に含める。ステーション・セットＳ１からス
テーション・セットＳ２への電話機の接続は本明細書に
於いて言及するつもりはない従来の技術に従って市内中
央局５０、市外局１０５、音声信号エンハンサー１０
７、プロセッサ１０２、市外局１１０および市内中央局
７５を介し適切に確立される。ネットワーク１００はＡ
Ｔ＆Ｔネットワークのような何らかの広く周知の電気通
信網にすることができるものと理解する。

【００１１】従来技術の電気通信網では、時変音声信号
を特徴づけるもので、特性として周知のパラメータの計
算は、例えば、音声信号のエンハンスメントによって音
声信号に加えられる音響上の変動に対し非常に敏感なも
のであった。この条件はケプストラル特性のような好適
な特性の計算に関し特に注目された。その結果、ネット
ワーク接続経路にこのようなエンハンスした音声信号が
含まれると、伝送されてきた音声信号を表す特徴データ
とのマッチングに用いた認識モデルが、同じようなまた
は同一の音声信号エンハンスメント回路を含まないネッ
トワーク経路上で学習が行われなかった自動音声認識
（ＡＳＲ）処理の性能を激しく低下させた。

【００１２】本発明によれば、ネットワーク１００に含
めたプロセッサ１０２はこのようなＡＳＲ処理装置への
ルーチングが行われる前に音声信号エンハンサー１０７
によって既にエンハンスされたかもしれない伝送されて
きた音声信号に対し音声の認識が行われるとき、エラー
・レベルを最小にすべく適切に機能する。プロセッサ１
０２はケプスタル特性に準拠した音声認識処理に改善さ
れた強健性を供与するエンハンスメント補正動作を必ず
行なう。これとは他に、ネットワーク１００に於けるプ
ロセッサ１０２はこれにルーチングされる以前にエンハ
ンスされなかった、あるいはプロセッサ１０２よって補
正されるエンハンスメントとは異なる音声信号へのエン
ハンスメントを導入する音声信号エンハンサーによって
既にエンハンスが行われ、伝送されてきた音声信号に対
し音声の認識が行われるとき、エラーのレベルを最小に
すべく本発明の技術に従って機能することができる。説
明の便宜上、プロセッサ１０２に於いて行われる音声認
識処理の期間に実行する特性のマッチングに用いた認識
モデルは音声信号エンハンスメント回路を含まないネッ
トワーク経路上で学習済みであると仮定する。

【００１３】説明の便宜上、音声信号エンハンサー１０
７はネットワークからプロセッサ１０２に対しルーチン
グが行われる期間にステーション・セットＳ１からステ
ーション・セットＳ２に伝送される音声信号にエンハン
スメントを行うものとする。音声信号エンハンサー１０
７によって既にエンハンスされ、プロセッサ１０２にル
ーチングされ、伝送されてきた音声信号に対し、エンハ
ンスメントの性質に関する情報が以下に説明する方法に
従ってプロセッサ１０２での処理に利用され、エンハン
スメントの適正補正ができると仮定する。

【００１４】簡明と簡潔のため、線形予測符号化（ＬＰ
Ｃ）と、音声信号のスペクトル特性を表すデータからケ
プストラル特性を抽出するメル・フィルタ分析の採用を
含む信号認識処理技術の知識があるものと仮定する。参
照により本明細書に組み込まれている、１０３−１０７
ページ、１１２−１１７ページおよび１８３−１９０ペ
ージに記載のＲａｂｉｎｅｒ，ＬａｗｒｅｎｃｅとＪｕ
ａｎｇ，Ｂｉｉｎｇ−Ｈｗａｎｇによる「Ｆｕｎｄａｍ
ｅｎｔａｌｓｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｔ
ｉｏｎ（音声認識の基礎）」（１９９３）を参照する。
手短に言って、ＬＰＣ処理にはソース域の分離によって
音声信号からの特性抽出と、サンプリングした以前の音
声信号の線状複合体としてスペクトル・ピーク値のモデ
ル化が含まれる。メル・フィルタ分析にはいわゆるメル
・スケールの間隔に於ける純粋な楽音の主観的ピッチに
関して音声信号の完全なスペクトルを有利にサンプリン
グすることによって音声信号の音響スペクトル成分につ
いての人間知覚作用の知識に基づく音声信号からの特性
抽出が含まれる。全般的な音声の認識を改善すべく音声
信号のスペクトル成分を適切に修正するため、これらメ
ル・スケール間隔値はメル・フィルタ・バンクとして周
知のフィルタ・バンクとして従来的に達成される。

【００１５】本発明の一つの態様では、伝送されてきた
音声信号に行われたエンハンスメントに対するもので、
エンハンスした音声信号が周波数領域での表示に適切に
変換された場合に行われる補正を実行するケプストラル
特性を計算するメル・フィルタ・バンク分析にＬＰＣ分
析を複合する。以下に一層詳しく説明するように、知覚
周波数スケールに基づき自動補正係数の計算が行われ、
ＬＰＣ技術を用いてパワー・スペクトルの平滑化が行わ
れるＭｅｌ−ＬＰＣケプストラル特性の計算にはＬＰＣ
分析が後続するメル・フィルタ・バンク分析が含まれ
る。説明の便宜上、ステーション・セットＳ１からプロ
セッサ１０２にルーチングされる音声信号をエンハンス
メントするため、前記に引用した米国特許第５，１９
５，１３２号（以後ＴｒｕｅＶｏｉｃｅ^sm エンハンス
メントと呼ぶ）に述べたものに類似するエンハンスメン
ト回路が音声信号エンハンサー１０７に含まれ、音声認
識処理はエンハンスメントの行われなかった音声信号を
用いて学習を済ませた認識モデルを使用しプロセッサ１
０２で実行される。

【００１６】図２には音声信号エンハンサー１０７に於
いて行われるＴｒｕｅＶｏｉｃｅ^smエンハンスメントに
よりエンハンスした音声信号に対し高い強健性の音声認
識を行うためＭｅｌ−ＬＰＣケプストラル特性を計算す
る演算ができるプロセッサ１０２の引用実施例が記載さ
れている。図２を参照すると、プロセッサ１０２にはメ
ル・ケプストラル特性計算とエンハンスした、あるいは
エンハンスされていない伝送されてきた音声信号に対し
特性のマッチングを実行する個々の機能を表すブロック
が含まれる。これらのブロックで表す機能はソフトウェ
アの実行ができるハードウェアを含むが、そのハードウ
ェアに限定されない共有または専用のハードウェアの使
用によって得られる。

【００１７】好適な実施例では、プロセッサ１０２に含
まれるブロックで示す機能は補正特性抽出装置２０２
と、ＲＡＭとしての学習認識装置モデル・メモリ２０６
を含む認識装置２０４から成る。補正特性抽出装置２０
２と、認識装置２０４はメモリ２０８に適切に接続す
る。メモリ２０８には本発明技術を実施するために適切
に実行できるプログラムに指定する命令が含まれる。以
下に説明するように、特性抽出装置２０２と認識装置２
０４のブロックに表示する機能は本発明技術の実施に従
って市外局１０５または１１０から伝送されてきた音声
信号を処理する。ブロック表示の機能が実行する操作は
一つの共用プロセッサを用いて同様にに実行することが
できることを理解されたい。このようなプロセッサは標
準型ディジタル信号プロセッサで構成することができ、
ソフトウェアの記憶と、以下に説明する動作を実行する
ためＲＯＭ（読み取り専用メモリ）または他の適切なメ
モリが含まれよう。さらに、本発明技術はファームウェ
アを用い、または集積回路に組み込んだ離散成分で実施
することができる。他の適切な実施例は当該技術に通常
の精通度を有する者であれば容易に達成することができ
る。例えば、図２に示すように、補正特性抽出装置２０
２は音声信号エンハンサー１０７からの入力を受信する
よう接続されているが、信号のエンハンスメントに干渉
することなく市外局１０５のような市外局に直接接続す
ることもできよう。

【００１８】図３には図４に関し以下に説明する音声信
号に対し行われたエンハンスメントを補正する機能を実
行することができる特性抽出装置２０２の引用実施例の
詳細が記載されている。図３を参照すると、特性抽出装
置２０２は受信機２１１、プリエンファシス装置２１
２、フレーム・ブロッカー２１３、ハミング倍率器２１
４、周波数領域変換器２１５、補正装置２１６およびケ
プストラル特性コンピュータ２１７とによって適切に構
成できることが記載されている。ブロックで表示した機
能は図４に関し以下に詳しく説明するように、本発明技
術を実施する動作を適切に実行する。ブロックで示すこ
れら機能の各々が実行する動作はソフトウェア単独で行
われることはもとより、ソフトウェアおよび／またはハ
ードウェアを複合することにより実行できる。

【００１９】図２を参照すると、補正特性抽出装置２０
２は必ず、市外局１０５からルーチングされた時変音声
信号のＭｅｌ−ＬＰＣケプストラル特性をこれら信号の
特性を表すスペクトルまたは周波数領域に基づき計算す
るため操作を実行するＡＳＲに於ける前置プロセッサで
ある。補正特性抽出装置２０２のケプストラル特性コン
ピュータ２１７によって最終的に計算されるＭｅｌ−Ｌ
ＰＣケプストラル特性は音声の認識に従来的に活用され
る異なる音声単位の広域音響特性を表す。特に、補正装
置２１６とケプストラル特性コンピュータ２１７はＬＰ
Ｃ分析とメル・フィルタ・バンク分析を複合し、信号の
エンハンスメントによって生じる音響的な変動に事実上
感性をもたない認識装置２０４によるネットワーク１０
０でのＡＳＲ処理を行うためのもので、伝送れてきた音
声信号を表す一組の補正ケプストラル特性を計算する。
Ｍｅｌ−ＬＰＣケプストラル特性を認識装置２０４に入
力し、認識装置は計算された特性が表す音声単位に一致
する最良の語または最良の連続語を決定すべくメモリ２
０６に記憶した認識モデルと入力されたＭｅｌ−ＬＰＣ
ケプストラル特性とを比較する。適切な認識装置は認識
技術に準拠して、例えば、広く周知の隠れマルコフ・モ
デル（ＨＭＭ）を利用することができる。

【００２０】ＴｒｕｅＶｏｉｃｅ^smエンハンスメントの
ような導入されたエンハンスメントについての従来知識
は本発明技術に従って行われる音声信号を表す周波数領
域を用いたエンハンスメントの補正を実行する上で必要
であることに注目する。この情報は公開されて一般に求
められる。これとは他に、エンハンスメントに関する情
報は音声信号エンハンスメント回路を含むネットワーク
接続経路から伝送される音声信号を経験的な方法でサン
プリングする、例えば、標準的な技術を用い確立するこ
とができる。対照的に、ケプストラル平均値減算と信号
バイアスの除去についての従来技術による方法は音声信
号の音響的変動についての従来の知識を必要とはしなか
ったし、「ブラインド」畳み込み準拠技術のとして考え
られる。

【００２１】エンハンスした時変音声信号のＭｅｌ−Ｌ
ＰＣケプストラル特性を図３のブロックで示す引用例の
機能を用いプロセッサ１０２の補正特性抽出装置２０２
に於いて計算する方法２２０を図４に示す。説明の便宜
上、特性抽出装置２０２にルーチングされる前にディジ
タル電話網を模倣するため、好ましくは８．０ｋＨｚの
速度で音声信号のディジタル化が行われるものと仮定す
る。図４を参照すると、ステップ２２２に於いて、受信
機２１１は音声信号エンハンサー１０７からエンハンス
した音声信号を受信する。

【００２２】次いで、ステップ２２４では、プリエンフ
ァシス装置２１２はサンプリングされたディジタル化音
声信号を処理し、スペクトルの平坦化が行われる。プリ
エンファシスは、例えば、従来技術による第一オーダの
ディジタル網を使用し適切に行われる。ステップ２２６
に於いて、フレーム・ブロッカー２１３サンプリングし
た音声信号をフレームに集めるか、あるいはフレームに
閉塞する。一つのフレームは信号のｎミリセコンドに対
応する連続した音声信号サンプルの区間から成り、連続
フレームはｍミリセコンドの間隔を開けている。ステッ
プ２２８では、ハミング倍率器２１４は当該技術では従
来的であるハミング・ウィンドによって各フレームのサ
ンプルを乗算する。ステップ２３０に於いて、周波数領
域変換器２１５は音声の各ウィンド・サイズ指定区分に
対しフーリエ変換をし、受信機２１１で受信したエンハ
ンスした音声信号に対応する一組のスペクトル・サンプ
ルを生成する。

【００２３】ステップ２３２に於いて、補正装置２１６
は各フレームを処理し、適切に三角形状にすることので
きる一組Ｍ個のメル・フィルタ・バンクにスペクトル・
サンプルの各フレームに対するパワー・スペクトルを通
過させる。メル・フィルタ・バンクは適切に聴感補正さ
れ、伝送されてくる信号のケプストラル特性の計算にエ
ンハンスメントが与える影響を補正する。換言すれば、
音声信号に対するエンハンスメントの影響はエンハンス
した音声信号を表す周波数領域で機能する補正装置２１
６に於いて補正される。Ｍｅｌ−ＬＰＣケプストラル特
性の計算によって各スペクトル帯域の利得を完全に制御
できることに注目する。これによって単にメル・フィル
タ・バンクに聴感補正機能を賦課するだけで音声信号の
エンハンスメントの補正ができるようになる。

【００２４】例えば、音声信号のエンハンスメントの補
正を実行し、ＬＰＣ技術を用い、音声信号を表す周波数
領域からケプストラル特性を計算する前に、好ましから
ざるメル・フィルタ・バンクをディエンファシスするこ
とにより理想的なハイパス・フィルタ処理を達成するこ
とができる。スペクトル領域に於けるデータ値係数に対
するこの聴感補正は極めて有利であり、エンハンスした
音声信号を用いて学習が行われなかった認識モデルに適
切に一致させることのできるエンハンスメント音声信号
の補正したケプストラル特性の計算ができるようにな
る。一度び計算されたケプストラル特性は同じような方
法では聴感補正ができないことに注目する。さらに、エ
ンハンスした音声信号がまだ時間で表示されているとき
に、この音声信号をフィルタ処理することによってエン
ハンスした音声信号のこうした処理に概ね近ずけること
ができることにも注目する。

【００２５】エンハンサー１０７による音声信号へのＴ
ｒｕｅＶｏｉｃｅ^smエンハンスメントが行われると考え
られるネットワーク１００の引用実施例では、Ｔｒｕｅ
Ｖｏｉｃｅ^smエンハンスメントの特性に関する情報を利
用して補正装置２１６のメル・フィルタ・バンクに加え
る聴感補正値を確定することができよう。実験的な分析
から、プリエンファシス・フィルタ（ｐフィルタ）を用
いた音声信号のフィルタ処理と、音声信号へのゆっくり
変化するＡＶＣ（自動音量コントローラ）の適用がＴｒ
ｕｅＶｏｉｃｅ^smエンハンスメントに含まれ、ｐフィル
タからは１５０Ｈｚと２２０Ｈｚとの間の周波数帯内部
のいずれかに１０〜２０ｄＢのスペクトル磁極が導入さ
れることが確認された。

【００２６】この場合、メル・フィルタ・バンクでは周
波数領域内で目標とするハイパス・フィルタ処理が行わ
れると考えられ、その結果、計算されたケプストラル特
性の修正が行われ、こうして、音声認識性能の強健性が
低周波数のパワー増強に向けて改善されると思われる。
例えば、周波数が２９０Ｈｚ以下のメル・フィルタ・バ
ンクは聴感補正値を０に指定し、周波数が２９０Ｈｚ以
上のフィルタ・バンクは聴感補正値１に指定することが
できる。即ち、音声信号の認識に対するＴｒｕｅＶｏｉ
ｃｅ^smエンハンスメントの影響はＭｅｌ−ＬＰＣケプス
トラル特性の計算に用いた低周波数メル・スペクトル帯
域をディエンファシシスすることによって最小にされよ
う。好ましくは、ケプストラル特性の計算が行われる期
間に閾値２９０Ｈｚ以下のメル・フィルタ・バンク周波
数帯域が考慮の対象にならないよう、閾値２９０Ｈｚが
達成されよう。Ｍｅｌ−ＬＰＣケプストラル特性の処理
は２９０Ｈｚまでの低周波数帯域で減衰が激しい理想的
なハイパス・フィルタ処理と考えることができる。

【００２７】図４を参照すると、ステップ２３４に於い
て、ケプストラル特性コンピュータ２１７は１２に適切
に設定する自動補正係数Ｑを形成するため平滑化したパ
ワー・スペクトルにＩＤＣＴ（逆離散余弦変換）を加え
る。ステップ２３６で、ケプストラル特性コンピュータ
２１７は、例えば、ダービンの循環アルゴリズムを用い
て各一組の自動補正係数を先ずＬＰＣ係数に変換し、次
いで、標準ＬＰＣ〜ケプストラル循環を採用ししてケプ
ストラル・パラメータに変換する。ケプストラル・ベク
トルのディメンションは適切に１２に設定する。最後に
ステップ２３８では、認識装置２０４はモデル・メモリ
２０６に記憶した認識モデルを補正したエンハンスメン
ト音声信号に対応するもので、計算で求めたケプストラ
ル特性にマッチングを試み、当該技術では従来的なのだ
が、さらにステーション・セットＳ２にルーチングがな
されるよう、特性マッチング動作を表すデータを出力す
る。

【００２８】Ｍｅｌ−ＬＰＣケプストラル特性計算技術
は音声信号のエンハンスメントに向けた優れた強健性を
提供でき、エンハンスメントが行わなわれず、Ｍｅｌ−
ＬＰＣケプソトル特性が音声信号に対し行われた特定の
エンハンスメントを補正するときでもＡＳＲ性能に悪影
響をおよぼさないことがあることに留意されたい。異な
るフィルタと異なる遮断周波数を用いて音声信号のエン
ハンスメントを補正するメル・フィルタ・バンク処理を
用いる本発明技術の実施ができることを理解されたい。
さらに、音声スペクトルに対する微修正を含む信号のエ
ンハンスメントに備え、Ｍｅｌ−ＬＰＣケプストラル特
性を計算するような強健性に優れた前置システムによれ
ば、エンハンスした音声信号を用いて学習が行われなか
った認識モデルに一致することになる音声信号の特徴を
計算するために必要な何らかの方法に従って、音声スペ
クトルを変化させる音声認識システムへのアクセスが容
易に行われることにも注目する。

【００２９】前記に提示し、説明した本発明の実施例と
その変更は本発明だけの原理を例証するものであり、本
発明の範囲と精神から逸脱することなく当該技術に精通
した者であれば様々な修正を加え得ることを理解された
い。

【図面の簡単な説明】

【図１】エンハンスした音声信号に対し本発明に従って
行う音声認識処理に適した改良型電気通信網のブロック
図である。

【図２】エンハンスした音声信号のＭｅｌ−ＬＰＣケプ
ストラル特性を本発明に従って計算することによって音
声認識を行うため図１に記載するシステムに含めること
のできる音声信号プロセッサのブロック図である。

【図３】例示として引用した補正済み特性抽出装置のブ
ロック図である。

【図４】エンハンスした音声信号のＭｅｌ−ＬＰＣケプ
ストラル特性を計算する本発明技術に従って行う音声認
識の方法を解説するフローチャートである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェイゴードンウィルポンアメリカ合衆国 07060 ニュージャーシィ，ウォーレン，ラウンドトップロード 75

Claims

【特許請求の範囲】

【請求項１】音声認識性能を最適化するための音声信
号のエンハンスメントを補正する方法であって、音声信号に周波数利得変動をもたらすオーディオ・エン
ハンサーによってエンハンスした音声信号を受信するス
テップと、該エンハンスした音声信号を周波数領域の表示に変換す
るステップと、該エンハンスした音声信号の周波数領域の表示を用い
て、該エンハンサーが該音声信号にもたらした該利得変
動を補正するステップと、該補正するステップによってエンハンスした該音声信号
が補正された後に、該音声信号のケプストラル特性を計
算するステップと、を含む方法。
【請求項２】認識装置メモリに記憶した認識モデルと
該特性を比較するステップをさらに含む請求項１に記載
の方法。
【請求項３】該エンハンサーによってエンハンスされ
ない音声信号を使用し、該認識モデルの学習が行われた
請求項２に記載の方法。
【請求項４】補正する該ステップが、補正したＭｅｌ
−ＬＰＣ係数を計算するステップをさらに含み、補正し
たＭｅｌ−ＬＰＣ係数を計算する該ステップが、スペクトルの平坦化をするため、エンハンスした該音声
信号をプリエンファシスするステップと、エンハンスした該音声信号を音声サンプルの連続フレー
ムに閉塞するステップと、ハミング・ウィンドによってこの各フレームを乗算する
ステップと、ハミング・ウィンド・フレームの各々を時間の表示から
周波数領域の表示に変換するステップと、聴感補正をした一組のメル・フィルタ・バンクを介し該
周波数領域の表示の各々をフィルタ処理するステップ
と、該フィルタ処理した周波数領域の表示から自動補正係数
を生成するステップと、をさらに含む請求項１に記載の
方法。
【請求項５】該自動補正係数をＬＰＣ係数に変換する
ステップと、該ＬＰＣ係数からケプストラル・パラメータを計算する
ステップと、をさらに含む請求項４に記載の方法。
【請求項６】特定周波数以下のメル・フィルタ・バン
クでは減衰が生じる請求項４に記載の方法。
【請求項７】特定周波数がほぼ２９０Ｈｚである請求
項６に記載の方法。
【請求項８】音声認識性能を最適化するため音声信号
のエンハンスメントを補正するシステムであって、ネットワーク経路から伝送される時変音声信号の指定周
波数の利得を選択的に変化させるエンハンサーと、該エンハンスした音声信号を受信する受信機と、該受信機で受信した該エンハンスした音声信号を周波数
領域の表示に変換する周波数領域変換装置と、該エンハンサーによってエンハンスした該音声信号の周
波数領域表示を受信し、ネットワーク経路から伝送され
てくる音声信号の周波数領域表示に利得の変動をもたら
し、該エンハンサーによって音声信号にもたらされた利
得の変動を補正する補正装置と、該エンハンスした音声信号の補正した周波数領域の表示
からケプストラル特性を計算するケプストラル特性コン
ピュータとから成ることを特徴とするシステム。
【請求項９】さらに、該ケプストラル特性コンピュー
タから該ケプストラル特性を受信する認識装置から成る
請求項８に記載のシステム。
【請求項１０】該エンハンサーによってエンハンスさ
れなかった音声信号を用いネットワーク経路上において
学習が行われ、該認識装置が認識装置メモリに記憶した
認識モデルと該特徴とを比較する請求項９に記載のシス
テム。
【請求項１１】該補正装置が該エンハンスした音声信
号の周波数領域の表示を聴感補正した一組のメル・フィ
ルタ・バンクに通過させる請求項８に記載のシステム。
【請求項１２】該ケプストラル特性コンピュータが該
補正した周波数領域の表示から自動補正係数を生成する
請求項１１に記載のシステム。
【請求項１３】該ケプスタル特性コンピュータが、さ
らに、該自動補正係数をＬＰＣ係数に変換するステップと、該ＬＰＣ係数から該ケプスタル特性を計算するステップ
の動作を実行する請求項１２に記載のシステム。
【請求項１４】特定周波数以下の該メル・フィルタ・
バンクでは減衰が生じる請求項１２に記載のシステム。
【請求項１５】該特定周波数がほぼ２９０Ｈｚである
請求項１４に記載のシステム。
【請求項１６】音声認識性能を最適化するため、コン
ピュータ計算システムを用い、第一エンハンサーによっ
てエンハンスした音声信号の補正したケプストラル特性
を計算する方法であって、該コンピュータ計算システム
はメモリと少なくとも一つのプロセッサから成り、該メ
モリにはメル・フィルタ・バンク聴感補正値が含まれ、該エンハンスした音声信号を該プロセッサに於いて受信
するステップと、スペクトルを平坦化するため、該エンハンスした音声信
号をプリエンファシスするステップと、該エンハンスした音声信号を音声サンプルの連続フレー
ムに閉塞するステップと、ハミング・ウィンドによって該フレーム各々を乗算する
ステップと、ハミング・ウィンド・フレームの各々を時間の表示から
周波数領域の表示に変換するステップと、該メモリに記憶した該メル・フィルタ・バンク聴感補正
値を用い、該周波数領域の表示の各々をフィルタ処理す
るステップと、該フィルタ処理した周波数領域の表示から自動補正係数
を生成するステップと、該自動補正係数をＬＰＣ係数に変換するステップと、該ＬＰＣ係数からケプストラル・パラメータを計算する
ステップと、を含む方法。
【請求項１７】該特性と認識装置メモリに記憶した認
識モデルと比較するステップとをさらに含む請求項１６
に記載の方法。
【請求項１８】エンハンスされていない音声信号を用
い、該認識モデルの学習が行われた請求項１７に記載の
方法。
【請求項１９】特定周波数以下の該メル・フィルタ・
バンクの該値が減衰される請求項１６に記載の方法。
【請求項２０】該特定周波数がほぼ２９０Ｈｚである
請求項１９に記載の方法。
【請求項２１】さらに、第二エンハンサーによって音
声信号に行われたエンハンスメントを補正するため、該
メモリに記憶した該メル・フィルタ・バンク聴感補正値
を変更するステップを含み、該第二エンハンサーが該第
一エンハンサーによって行われる該エンハンスメントと
は異なるエンハンスメントをする請求項１６に記載の方
法。
【請求項２２】コンピュータ計算システムを用い、音
声信号の補正したケプストラル特性を計算する方法であ
って、該コンピュータ計算システムはメモリと、少なく
とも一つのプロセッサから成り、該メモリにはエンハン
サーによってエンハンスした音声信号に対応するケプス
トラル特性を計算するための補正を行うメル・フィルタ
・バンク聴感補正値が含まれ、該プロセッサに於いて該音声信号を受信するステップ
と、スペクトルの平坦化のため、該音声信号をプリエンファ
シスするステップと、該音声信号を音声サンプルの連続フレームに閉塞するス
テップと、ハミング・ウィンドによって該フレームの各々を乗算す
るステップと、ハミング・ウィンド・フレームの各々を時間の表示から
周波数領域の表示に変換するステップと、該メモリに記憶した該メル・フィルタ・バンク聴感補正
値を用い、該周波数領域の表示の各々をフィルタ処理す
るステップと、該フィルタ処理した周波数領域の表示から自動補正係数
を生成するステップと、該自動補正係数をＬＰＣ係数に変換するステップと、該ＬＰＣ係数から該ケプスタル・パラメータを計算する
ステップと、を含む方法。
【請求項２３】該特性と認識装置メモリに記憶した該
認識モデルを比較するステップとをさらに含む請求項２
２に記載の方法。
【請求項２４】エンハンスメントが行われなかった音
声信号を用い、該認識デルの学習が行われた請求項２３
に記載の方法。
【請求項２５】音声信号を特徴付ける音声特性信号を
生成する特性抽出装置であって、該音声信号を表す一
組のスペクトル・サンプルを生成する周波数領域変換装
置と、該一組のスペクトル・サンプルを選択的に聴感補正する
聴感補正ユニットと、該聴感補正した一組のスペクトル・サンプルに準拠し、
特性信号を特徴付ける音声を生成する特性コンピュータ
とから成ることを特徴とする特性抽出装置。
【請求項２６】さらに、受信機から成り、該受信機を
予備処理回路を介し該周波数量域変換装置に接続した請
求項２５に記載の装置。
【請求項２７】該予備処理回路がプリエンファシス回
路から成ることを特徴とする請求項２６に記載の装置。
【請求項２８】該予備処理回路がフレーム・ブロッカ
ーから成ることを特徴とする請求項２６に記載の装置。
【請求項２９】該予備処理回路がハミング倍率器から
成ることを特徴とする請求項２６に記載の装置。
【請求項３０】該聴感補正ユニットが選択的に聴感補
正した一組Ｍ個のメル・フィルタ・バンクから成ること
を特徴とする請求項２５に記載の装置。
【請求項３１】音声信号を特徴付ける音声特徴信号を
生成する方法であって、音声信号を特徴付ける一組のスペクトル・パラメータを
生成するステップと、該一組のスペクトル・パラメータを聴感補正するステッ
プと、該聴感補正した一組のスペクトル・サンプルに準拠して
特性信号を特徴付ける音声を生成するステップと、を含
む方法。
【請求項３２】音声信号を認識し、該信号のネットワ
ーク・エンハンスメントを補正するシステムであって、エンハンスした音声信号のネットワーク・エンハンスメ
ント成分を補正するフィルタと、該フィルタからのフィルタ処理した音声信号に準拠し、
特性を抽出する特性抽出装置と、該特性抽出装置からの抽出した特性に準拠し、音声信号
を認識する音声認識装置とから成ることを特徴とするシ
ステム。
【請求項３３】該フィルタが選択的に聴感補正し一組
のメル・フィルタ・バンクから成ることを特徴とする請
求項３２に記載のシステム。
【請求項３４】該特性抽出装置が線形予測符号化分析
装置と、メル・フィルタ分析装置との複合体から成るこ
とを特徴とする請求項３２に記載のシステム。
【請求項３５】音声信号から特性信号を生成する方法
であって、該音声信号を受信するステップと、該音声信号をフレームに閉塞するステップと、該閉塞した音声信号に対し線形予測符号化とケプストラ
ル循環分析とを複合で実行し、Ｍｅｌ−ＬＰＣケプスト
ラル特性信号を発生するステップと、を含む方法。
【請求項３６】該Ｍｅｌ−ＬＰＣケプストラル特性と
認識モデルを比較するステップをさらに含む請求項３５
に記載の方法。
【請求項３７】メル・フィルタ・バンクを使用して該
閉塞した音声信号をフィルタ処理し、メル・フィルタ処
理した信号を発生し、次いで、線形予測符号化とケプス
トラル循環分析との複合で実行して分析するステップを
さらに含む請求項３５に記載の方法。
【請求項３８】該音声信号のスペクトルの平坦化を達
成するため、該信号をプリエンファシスするステップを
さらに含む請求項３５に記載の方法。
【請求項３９】ハミング・ウィンドによって該フレー
ムの各々を乗算するステップをさらに含む請求項３８に
記載の方法。
【請求項４０】該ハミング・ウィンド・フレームの各
々を時間の表示から周波数領域の表示に変換するステッ
プをさらに含む請求項３９に記載の方法。
【請求項４１】メモリに記憶したメル・フィルタ・バ
ンク聴感補正値を用い、周波数領域の表示の各々をフィ
ルタ処理するスタップをさらに含む請求項４０に記載の
方法。
【請求項４２】該フィルタ処理した周波数領域の表示
から自動補正係数を生成する該ステップをさらに含む請
求項４１に記載の方法。
【請求項４３】該線形予測符号化分析は該自動補正係
数をＬＰＣ係数に変換すべく機能し、該ケプストラル循
環分析は該ＬＰＣ係数からケプストラル・パラメータを
計算すべく機能する請求項４２に記載の方法。
【請求項４４】音声認識性能を向上させるため音声信
号のエンハンスメントを補正する方法であって、音声信号に周波数利得の変動をもたらすオーディオエン
ハンサーによってエンハンスした該音背信号を受信する
ステップと、該エンハンスした音声信号を周波数領域の表示に変換す
るステップと、該エンハンスした音声信号の該周波数領域の表示を用
い、該エンハンサーによって該音声信号にもたらされた
該利得の変動を補正するステップと、該エンハンスした音声信号が該補正するステップによっ
て補正された後に、該音声信号を特徴付ける特性信号を
生成するステップと、を含む方法。
【請求項４５】該特性と認識装置メモリに記憶した認
識モデルとを比較するステップをさらに含む請求項４４
に記載の方法。
【請求項４６】エンハンスした音声信号を用い、該認
識モデルの学習が行われた請求項４５に記載の方法。