JP4050350B2

JP4050350B2 - 音声認識をする方法とシステム

Info

Publication number: JP4050350B2
Application number: JP34173896A
Authority: JP
Inventors: ジー．レイムマズィン; ゴードンウィルポンジェイ
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-12-20
Filing date: 1996-12-20
Publication date: 2008-02-20
Anticipated expiration: 2016-12-20
Also published as: EP0780828B1; EP0780828A3; MX9606483A; JPH09179585A; DE69616724T2; CA2192397C; EP1093112B1; DE69635141T2; DE69635141D1; US5806022A; EP1093112A2; EP0780828A2; CA2192397A1; EP1093112A3; DE69616724D1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声の認識処理に関し、さらに詳細には、音声信号がエンハンスされているときに感度を最小にする音声認識を行うことに関する。
【０００２】
【従来の技術】
長距離交換網のような電気通信網から伝送される音声信号は未知の各種条件によって音響的な影響をよく受ける。このような条件はこうしたネットワークに通常含まれる自動音声認識（ＡＳＲ）システムの性能を示差的に低下させることがある。このような条件には、例えば、周囲ノイズ、チャネル干渉、異なる音響検出装置の使用が含まれる。
【０００３】
通常のＡＳＲシステムは伝送されてきた音声信号を表す特徴データと学習認識モデルとして周知の音声単位を表すデータ・パターンとを比較またはマッチングさせることによって音声の認識を行う。認識モデルは通常、電話機での通話時に於けるような実音声信号がＡＳＲシステムに伝送される同一のネットワーク接続経路から行われる周知の音声特性を有する所定の音声信号の伝送をモニタすることによって得られれる。
【０００４】
多くの事例に於いて、ネットワーク経路に様々な未知条件が存在すると、認識モデルとテスト・データ相互間に音響上の不整合が生じる。このような音響上の不整合は音声認識性能を低下させることがある。音響上の不整合は、例えば、ネットワーク経路から伝送される音声信号が人間の知覚作用に合わせ音声の品質を改善させるべくエンハンスされるときに起こり易い。このようなエンハンスメントが行われると、音声認識性能は音声認識プロセスに用いた認識モデルが同じような音声信号エンハンスメント回路を含むネットワーク接続経路に生成されなかったとき、あるいは学習が行われなかったときに最適レベル以下になることがある。検出された音声信号を表す特徴を認識モデルにマッチングさせＡＳＲシステムに強健性を提供しようとする現在の音声信号処理技術は通常、前記に説明したような結果をもたらすことのある音響上の不整合を充分補正するものではない。
【０００５】
【課題を解決するための手段】
本発明は、改善された音声認識性能のための方法とシステムに関する。同じようなエンハンスメント回路を備えたネットワーク接続経路に、例えば、認識モデルが生成されなかったり、あるいは学習が行われなかったエンハンスメントが行われるネットワークに於いて音声認識性能に優れた強健性を与える補正は情報の利用によって行われる。この利用する情報はネットワーク接続経路からの伝送時に音声信号に対し行われるエンハンスメントのスペクトル効果に関するものである。
【０００６】
本発明の一つの態様では、音声信号エンハンスメントの補正は特徴抽出装置と音声認識装置を含む音声認識システムの前端部に於いて特徴抽出処理が実行される期間に行われる。特徴抽出装置は線形予測符号化（ＬＰＣ）とメル・フィルタ分析とを組み合わせて用い、エンハンスした音声信号のケプストラル特性を計算する。時変音声信号が周波数領域での表示に合わせて変換された後に、この信号に対し行われたエンハンスメントを補正する。
【０００７】
本発明の方法の一つの態様では、第一にエンハンスした時変音声信号のサンプリングが行われる。サンプリングされた音声信号はフレームに集められ、次いで、フーリエ変換により時間の表示から周波数領域の表示に変換する。その後、各フレームのパワー・スペクトルは音声信号のスペクトル特性に対するエンハンスメント効果の選択的な補正が聴感補正によって行われる選択的に聴感補正されたメル・フィルタ・バンク処理を受ける。次いで、補正が行われたエンハンスした音声信号のスペクトル表示から自動補正係数を計算し、その後ＬＰＣ分析とケプストラル循環とによってケプストラル特性を求める。
本発明の上記以外の特徴と利点は当該技術に通常の精通度を有する者にとっては以下の詳細な説明と付属図面を参照すれば容易に明らかなことであろう。
【０００８】
【発明の実施の形態】
図１はエンハンスした音声信号を本発明技術に従って行う音声認識処理に適した例示として引用した電気通信網１００のブロック図である。
図１を参照すると、長距離伝送の音声信号とデータをステーション・セットＳ１、Ｓ２を組み合わせた電話ユーザのような加入者のために接続すべく、様々な周知の方法の内のいずれかに従って互いに接続ができる市外局１０５、１１０のような複数の市外局でネットワーク１００を適切に構成することができる。市内中央局５０はステーション・セットＳ１を市外局１０５に接続し、市内中央局７５はステーション・セットＳ２を市外局１１０に接続する。
【０００９】
ネットワーク１００には、さらに、電話ユーザのような加入者が受信する前に、音声信号の品質をエンハンスさせるため、市外局１０５、１１０相互間の接続路に配した音声信号エンハンスメント装置または音声信号エンハンサー１０７を適切に含めることができる。例えば、音声信号エンハンサー１０７には音声信号のパワー・レベルを増強または低下させるため、エコー消去回路、あるいは他の回路のような適切な回路を含めることができる。指定周波数のパワー・レベルの増強を含むネットワーク内での音声信号のエンハンスメントについてのさらに詳細な説明に関しては参照によって本明細書に組み込まれている米国特許第５，１９５，１３２号を参照する。
【００１０】
本発明によれば、音声信号エンハンサー１０７から音声信号を受信し、以下にさらに詳しく説明する特性の抽出を含む音声信号認識に備えた信号処理を行うため、音声信号プロセッサ１０２をさらにネットワーク接続経路に含める。ステーション・セットＳ１からステーション・セットＳ２への電話機の接続は本明細書に於いて言及するつもりはない従来の技術に従って市内中央局５０、市外局１０５、音声信号エンハンサー１０７、プロセッサ１０２、市外局１１０および市内中央局７５を介し適切に確立される。ネットワーク１００はＡＴ＆Ｔネットワークのような何らかの広く周知の電気通信網にすることができるものと理解する。
【００１１】
従来技術の電気通信網では、時変音声信号を特徴づけるもので、特性として周知のパラメータの計算は、例えば、音声信号のエンハンスメントによって音声信号に加えられる音響上の変動に対し非常に敏感なものであった。この条件はケプストラル特性のような好適な特性の計算に関し特に注目された。その結果、ネットワーク接続経路にこのようなエンハンスした音声信号が含まれると、伝送されてきた音声信号を表す特徴データとのマッチングに用いた認識モデルが、同じようなまたは同一の音声信号エンハンスメント回路を含まないネットワーク経路上で学習が行われなかった自動音声認識（ＡＳＲ）処理の性能を激しく低下させた。
【００１２】
本発明によれば、ネットワーク１００に含めたプロセッサ１０２はこのようなＡＳＲ処理装置へのルーチングが行われる前に音声信号エンハンサー１０７によって既にエンハンスされたかもしれない伝送されてきた音声信号に対し音声の認識が行われるとき、エラー・レベルを最小にすべく適切に機能する。プロセッサ１０２はケプスタル特性に準拠した音声認識処理に改善された強健性を供与するエンハンスメント補正動作を必ず行なう。これとは他に、ネットワーク１００に於けるプロセッサ１０２はこれにルーチングされる以前にエンハンスされなかった、あるいはプロセッサ１０２よって補正されるエンハンスメントとは異なる音声信号へのエンハンスメントを導入する音声信号エンハンサーによって既にエンハンスが行われ、伝送されてきた音声信号に対し音声の認識が行われるとき、エラーのレベルを最小にすべく本発明の技術に従って機能することができる。説明の便宜上、プロセッサ１０２に於いて行われる音声認識処理の期間に実行する特性のマッチングに用いた認識モデルは音声信号エンハンスメント回路を含まないネットワーク経路上で学習済みであると仮定する。
【００１３】
説明の便宜上、音声信号エンハンサー１０７はネットワークからプロセッサ１０２に対しルーチングが行われる期間にステーション・セットＳ１からステーション・セットＳ２に伝送される音声信号にエンハンスメントを行うものとする。音声信号エンハンサー１０７によって既にエンハンスされ、プロセッサ１０２にルーチングされ、伝送されてきた音声信号に対し、エンハンスメントの性質に関する情報が以下に説明する方法に従ってプロセッサ１０２での処理に利用され、エンハンスメントの適正補正ができると仮定する。
【００１４】
簡明と簡潔のため、線形予測符号化（ＬＰＣ）と、音声信号のスペクトル特性を表すデータからケプストラル特性を抽出するメル・フィルタ分析の採用を含む信号認識処理技術の知識があるものと仮定する。参照により本明細書に組み込まれている、１０３−１０７ページ、１１２−１１７ページおよび１８３−１９０ページに記載のＲａｂｉｎｅｒ，ＬａｗｒｅｎｃｅとＪｕａｎｇ，Ｂｉｉｎｇ−Ｈｗａｎｇによる「ＦｕｎｄａｍｅｎｔａｌｓｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ（音声認識の基礎）」（１９９３）を参照する。手短に言って、ＬＰＣ処理にはソース域の分離によって音声信号からの特性抽出と、サンプリングした以前の音声信号の線状複合体としてスペクトル・ピーク値のモデル化が含まれる。メル・フィルタ分析にはいわゆるメル・スケールの間隔に於ける純粋な楽音の主観的ピッチに関して音声信号の完全なスペクトルを有利にサンプリングすることによって音声信号の音響スペクトル成分についての人間知覚作用の知識に基づく音声信号からの特性抽出が含まれる。全般的な音声の認識を改善すべく音声信号のスペクトル成分を適切に修正するため、これらメル・スケール間隔値はメル・フィルタ・バンクとして周知のフィルタ・バンクとして従来的に達成される。
【００１５】
本発明の一つの態様では、伝送されてきた音声信号に行われたエンハンスメントに対するもので、エンハンスした音声信号が周波数領域での表示に適切に変換された場合に行われる補正を実行するケプストラル特性を計算するメル・フィルタ・バンク分析にＬＰＣ分析を複合する。以下に一層詳しく説明するように、知覚周波数スケールに基づき自動補正係数の計算が行われ、ＬＰＣ技術を用いてパワー・スペクトルの平滑化が行われるＭｅｌ−ＬＰＣケプストラル特性の計算にはＬＰＣ分析が後続するメル・フィルタ・バンク分析が含まれる。説明の便宜上、ステーション・セットＳ１からプロセッサ１０２にルーチングされる音声信号をエンハンスメントするため、前記に引用した米国特許第５，１９５，１３２号（以後ＴｒｕｅＶｏｉｃｅ^sm エンハンスメントと呼ぶ）に述べたものに類似するエンハンスメント回路が音声信号エンハンサー１０７に含まれ、音声認識処理はエンハンスメントの行われなかった音声信号を用いて学習を済ませた認識モデルを使用しプロセッサ１０２で実行される。
【００１６】
図２には音声信号エンハンサー１０７に於いて行われるＴｒｕｅＶｏｉｃｅ^smエンハンスメントによりエンハンスした音声信号に対し高い強健性の音声認識を行うためＭｅｌ−ＬＰＣケプストラル特性を計算する演算ができるプロセッサ１０２の引用実施例が記載されている。図２を参照すると、プロセッサ１０２にはメル・ケプストラル特性計算とエンハンスした、あるいはエンハンスされていない伝送されてきた音声信号に対し特性のマッチングを実行する個々の機能を表すブロックが含まれる。これらのブロックで表す機能はソフトウェアの実行ができるハードウェアを含むが、そのハードウェアに限定されない共有または専用のハードウェアの使用によって得られる。
【００１７】
好適な実施例では、プロセッサ１０２に含まれるブロックで示す機能は補正特性抽出装置２０２と、ＲＡＭとしての学習認識装置モデル・メモリ２０６を含む認識装置２０４から成る。補正特性抽出装置２０２と、認識装置２０４はメモリ２０８に適切に接続する。メモリ２０８には本発明技術を実施するために適切に実行できるプログラムに指定する命令が含まれる。以下に説明するように、特性抽出装置２０２と認識装置２０４のブロックに表示する機能は本発明技術の実施に従って市外局１０５または１１０から伝送されてきた音声信号を処理する。ブロック表示の機能が実行する操作は一つの共用プロセッサを用いて同様にに実行することができることを理解されたい。このようなプロセッサは標準型ディジタル信号プロセッサで構成することができ、ソフトウェアの記憶と、以下に説明する動作を実行するためＲＯＭ（読み取り専用メモリ）または他の適切なメモリが含まれよう。さらに、本発明技術はファームウェアを用い、または集積回路に組み込んだ離散成分で実施することができる。他の適切な実施例は当該技術に通常の精通度を有する者であれば容易に達成することができる。例えば、図２に示すように、補正特性抽出装置２０２は音声信号エンハンサー１０７からの入力を受信するよう接続されているが、信号のエンハンスメントに干渉することなく市外局１０５のような市外局に直接接続することもできよう。
【００１８】
図３には図４に関し以下に説明する音声信号に対し行われたエンハンスメントを補正する機能を実行することができる特性抽出装置２０２の引用実施例の詳細が記載されている。図３を参照すると、特性抽出装置２０２は受信機２１１、プリエンファシス装置２１２、フレーム・ブロッカー２１３、ハミング倍率器２１４、周波数領域変換器２１５、補正装置２１６およびケプストラル特性コンピュータ２１７とによって適切に構成できることが記載されている。ブロックで表示した機能は図４に関し以下に詳しく説明するように、本発明技術を実施する動作を適切に実行する。ブロックで示すこれら機能の各々が実行する動作はソフトウェア単独で行われることはもとより、ソフトウェアおよび／またはハードウェアを複合することにより実行できる。
【００１９】
図２を参照すると、補正特性抽出装置２０２は必ず、市外局１０５からルーチングされた時変音声信号のＭｅｌ−ＬＰＣケプストラル特性をこれら信号の特性を表すスペクトルまたは周波数領域に基づき計算するため操作を実行するＡＳＲに於ける前置プロセッサである。補正特性抽出装置２０２のケプストラル特性コンピュータ２１７によって最終的に計算されるＭｅｌ−ＬＰＣケプストラル特性は音声の認識に従来的に活用される異なる音声単位の広域音響特性を表す。特に、補正装置２１６とケプストラル特性コンピュータ２１７はＬＰＣ分析とメル・フィルタ・バンク分析を複合し、信号のエンハンスメントによって生じる音響的な変動に事実上感性をもたない認識装置２０４によるネットワーク１００でのＡＳＲ処理を行うためのもので、伝送れてきた音声信号を表す一組の補正ケプストラル特性を計算する。Ｍｅｌ−ＬＰＣケプストラル特性を認識装置２０４に入力し、認識装置は計算された特性が表す音声単位に一致する最良の語または最良の連続語を決定すべくメモリ２０６に記憶した認識モデルと入力されたＭｅｌ−ＬＰＣケプストラル特性とを比較する。適切な認識装置は認識技術に準拠して、例えば、広く周知の隠れマルコフ・モデル（ＨＭＭ）を利用することができる。
【００２０】
ＴｒｕｅＶｏｉｃｅ^smエンハンスメントのような導入されたエンハンスメントについての従来知識は本発明技術に従って行われる音声信号を表す周波数領域を用いたエンハンスメントの補正を実行する上で必要であることに注目する。この情報は公開されて一般に求められる。これとは他に、エンハンスメントに関する情報は音声信号エンハンスメント回路を含むネットワーク接続経路から伝送される音声信号を経験的な方法でサンプリングする、例えば、標準的な技術を用い確立することができる。対照的に、ケプストラル平均値減算と信号バイアスの除去についての従来技術による方法は音声信号の音響的変動についての従来の知識を必要とはしなかったし、「ブラインド」畳み込み準拠技術のとして考えられる。
【００２１】
エンハンスした時変音声信号のＭｅｌ−ＬＰＣケプストラル特性を図３のブロックで示す引用例の機能を用いプロセッサ１０２の補正特性抽出装置２０２に於いて計算する方法２２０を図４に示す。説明の便宜上、特性抽出装置２０２にルーチングされる前にディジタル電話網を模倣するため、好ましくは８．０ｋＨｚの速度で音声信号のディジタル化が行われるものと仮定する。図４を参照すると、ステップ２２２に於いて、受信機２１１は音声信号エンハンサー１０７からエンハンスした音声信号を受信する。
【００２２】
次いで、ステップ２２４では、プリエンファシス装置２１２はサンプリングされたディジタル化音声信号を処理し、スペクトルの平坦化が行われる。プリエンファシスは、例えば、従来技術による第一オーダのディジタル網を使用し適切に行われる。ステップ２２６に於いて、フレーム・ブロッカー２１３サンプリングした音声信号をフレームに集めるか、あるいはフレームに閉塞する。一つのフレームは信号のｎミリセコンドに対応する連続した音声信号サンプルの区間から成り、連続フレームはｍミリセコンドの間隔を開けている。ステップ２２８では、ハミング倍率器２１４は当該技術では従来的であるハミング・ウィンドによって各フレームのサンプルを乗算する。ステップ２３０に於いて、周波数領域変換器２１５は音声の各ウィンド・サイズ指定区分に対しフーリエ変換をし、受信機２１１で受信したエンハンスした音声信号に対応する一組のスペクトル・サンプルを生成する。
【００２３】
ステップ２３２に於いて、補正装置２１６は各フレームを処理し、適切に三角形状にすることのできる一組Ｍ個のメル・フィルタ・バンクにスペクトル・サンプルの各フレームに対するパワー・スペクトルを通過させる。メル・フィルタ・バンクは適切に聴感補正され、伝送されてくる信号のケプストラル特性の計算にエンハンスメントが与える影響を補正する。換言すれば、音声信号に対するエンハンスメントの影響はエンハンスした音声信号を表す周波数領域で機能する補正装置２１６に於いて補正される。Ｍｅｌ−ＬＰＣケプストラル特性の計算によって各スペクトル帯域の利得を完全に制御できることに注目する。これによって単にメル・フィルタ・バンクに聴感補正機能を賦課するだけで音声信号のエンハンスメントの補正ができるようになる。
【００２４】
例えば、音声信号のエンハンスメントの補正を実行し、ＬＰＣ技術を用い、音声信号を表す周波数領域からケプストラル特性を計算する前に、好ましからざるメル・フィルタ・バンクをディエンファシスすることにより理想的なハイパス・フィルタ処理を達成することができる。スペクトル領域に於けるデータ値係数に対するこの聴感補正は極めて有利であり、エンハンスした音声信号を用いて学習が行われなかった認識モデルに適切に一致させることのできるエンハンスメント音声信号の補正したケプストラル特性の計算ができるようになる。一度び計算されたケプストラル特性は同じような方法では聴感補正ができないことに注目する。さらに、エンハンスした音声信号がまだ時間で表示されているときに、この音声信号をフィルタ処理することによってエンハンスした音声信号のこうした処理に概ね近ずけることができることにも注目する。
【００２５】
エンハンサー１０７による音声信号へのＴｒｕｅＶｏｉｃｅ^smエンハンスメントが行われると考えられるネットワーク１００の引用実施例では、ＴｒｕｅＶｏｉｃｅ^smエンハンスメントの特性に関する情報を利用して補正装置２１６のメル・フィルタ・バンクに加える聴感補正値を確定することができよう。実験的な分析から、プリエンファシス・フィルタ（ｐフィルタ）を用いた音声信号のフィルタ処理と、音声信号へのゆっくり変化するＡＶＣ（自動音量コントローラ）の適用がＴｒｕｅＶｏｉｃｅ^smエンハンスメントに含まれ、ｐフィルタからは１５０Ｈｚと２２０Ｈｚとの間の周波数帯内部のいずれかに１０〜２０ｄＢのスペクトル磁極が導入されることが確認された。
【００２６】
この場合、メル・フィルタ・バンクでは周波数領域内で目標とするハイパス・フィルタ処理が行われると考えられ、その結果、計算されたケプストラル特性の修正が行われ、こうして、音声認識性能の強健性が低周波数のパワー増強に向けて改善されると思われる。例えば、周波数が２９０Ｈｚ以下のメル・フィルタ・バンクは聴感補正値を０に指定し、周波数が２９０Ｈｚ以上のフィルタ・バンクは聴感補正値１に指定することができる。即ち、音声信号の認識に対するＴｒｕｅＶｏｉｃｅ^smエンハンスメントの影響はＭｅｌ−ＬＰＣケプストラル特性の計算に用いた低周波数メル・スペクトル帯域をディエンファシシスすることによって最小にされよう。好ましくは、ケプストラル特性の計算が行われる期間に閾値２９０Ｈｚ以下のメル・フィルタ・バンク周波数帯域が考慮の対象にならないよう、閾値２９０Ｈｚが達成されよう。Ｍｅｌ−ＬＰＣケプストラル特性の処理は２９０Ｈｚまでの低周波数帯域で減衰が激しい理想的なハイパス・フィルタ処理と考えることができる。
【００２７】
図４を参照すると、ステップ２３４に於いて、ケプストラル特性コンピュータ２１７は１２に適切に設定する自動補正係数Ｑを形成するため平滑化したパワー・スペクトルにＩＤＣＴ（逆離散余弦変換）を加える。ステップ２３６で、ケプストラル特性コンピュータ２１７は、例えば、ダービンの循環アルゴリズムを用いて各一組の自動補正係数を先ずＬＰＣ係数に変換し、次いで、標準ＬＰＣ〜ケプストラル循環を採用ししてケプストラル・パラメータに変換する。ケプストラル・ベクトルのディメンションは適切に１２に設定する。最後にステップ２３８では、認識装置２０４はモデル・メモリ２０６に記憶した認識モデルを補正したエンハンスメント音声信号に対応するもので、計算で求めたケプストラル特性にマッチングを試み、当該技術では従来的なのだが、さらにステーション・セットＳ２にルーチングがなされるよう、特性マッチング動作を表すデータを出力する。
【００２８】
Ｍｅｌ−ＬＰＣケプストラル特性計算技術は音声信号のエンハンスメントに向けた優れた強健性を提供でき、エンハンスメントが行わなわれず、Ｍｅｌ−ＬＰＣケプソトル特性が音声信号に対し行われた特定のエンハンスメントを補正するときでもＡＳＲ性能に悪影響をおよぼさないことがあることに留意されたい。異なるフィルタと異なる遮断周波数を用いて音声信号のエンハンスメントを補正するメル・フィルタ・バンク処理を用いる本発明技術の実施ができることを理解されたい。さらに、音声スペクトルに対する微修正を含む信号のエンハンスメントに備え、Ｍｅｌ−ＬＰＣケプストラル特性を計算するような強健性に優れた前置システムによれば、エンハンスした音声信号を用いて学習が行われなかった認識モデルに一致することになる音声信号の特徴を計算するために必要な何らかの方法に従って、音声スペクトルを変化させる音声認識システムへのアクセスが容易に行われることにも注目する。
【００２９】
前記に提示し、説明した本発明の実施例とその変更は本発明だけの原理を例証するものであり、本発明の範囲と精神から逸脱することなく当該技術に精通した者であれば様々な修正を加え得ることを理解されたい。
【図面の簡単な説明】
【図１】エンハンスした音声信号に対し本発明に従って行う音声認識処理に適した改良型電気通信網のブロック図である。
【図２】エンハンスした音声信号のＭｅｌ−ＬＰＣケプストラル特性を本発明に従って計算することによって音声認識を行うため図１に記載するシステムに含めることのできる音声信号プロセッサのブロック図である。
【図３】例示として引用した補正済み特性抽出装置のブロック図である。
【図４】エンハンスした音声信号のＭｅｌ−ＬＰＣケプストラル特性を計算する本発明技術に従って行う音声認識の方法を解説するフローチャートである。

Claims

音声認識性能を向上するための音声信号のエンハンスメントを補正する方法であって、
音声信号に周波数利得変動をもたらすオーディオ・エンハンサーによってエンハンスした音声信号を受信するステップと、
該エンハンスした音声信号を周波数領域の表示に変換するステップと、
該エンハンスした音声信号の周波数領域の表示を用いて、該エンハンサーが該音声信号にもたらした該利得変動を前記オーディオ・エンハンサーの特性に基づいて補正するステップと、
該補正するステップによってエンハンスした該音声信号が補正された後に、該音声信号のケプストラル特性を計算するステップと、を含む方法。
認識装置メモリに記憶した認識モデルと該特性を比較するステップをさらに含む請求項１に記載の方法。
該エンハンサーによってエンハンスされない音声信号を使用し、該認識モデルの学習が行われた請求項２に記載の方法。
補正する該ステップが、補正したＭｅｌ−ＬＰＣ係数を計算するステップをさらに含み、補正したＭｅｌ−ＬＰＣ係数を計算する該ステップが、
スペクトルの平坦化をするため、エンハンスした該音声信号をプリエンファシスするステップと、
エンハンスした該音声信号を音声サンプルの連続フレームに閉塞するステップと、
ハミング・ウィンドによってこの各フレームを乗算するステップと、
ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップと、
加重補正をした一組のメル・フィルタ・バンクを介し該周波数領域の表示の各々をフィルタ処理するステップと、
該フィルタ処理した周波数領域の表示から自動補正係数を生成するステップと、をさらに含む請求項１に記載の方法。
該自動補正係数をＬＰＣ係数に変換するステップと、
該ＬＰＣ係数からケプストラル・パラメータを計算するステップと、をさらに含む請求項４に記載の方法。
特定周波数以下のメル・フィルタ・バンクでは減衰が生じる請求項４に記載の方法。
特定周波数がほぼ２９０Ｈｚである請求項６に記載の方法。
音声認識性能を向上するため音声信号のエンハンスメントを補正するシステムであって、
ネットワーク経路から伝送される時変音声信号の指定周波数の利得を選択的に変化させるエンハンサーと、
該エンハンスした音声信号を受信する受信機と、
該受信機で受信した該エンハンスした音声信号を周波数領域の表示に変換する周波数領域変換装置と、
該エンハンサーによってエンハンスした該音声信号の周波数領域表示を受信し、ネットワーク経路から伝送されてくる音声信号の周波数領域表示に利得の変動をもたらし、該エンハンサーによって音声信号にもたらされた利得の変動を該エンハンサーの特性に基づいて補正する補正装置と、
該エンハンスした音声信号の補正した周波数領域の表示からケプストラル特性を計算するケプストラル特性コンピュータとから成ることを特徴とするシステム。
さらに、該ケプストラル特性コンピュータから該ケプストラル特性を受信する認識装置から成る請求項８に記載のシステム。
該エンハンサーによってエンハンスされなかった音声信号を用いネットワーク経路上において学習が行われ、該認識装置が認識装置メモリに記憶した認識モデルと該特徴とを比較する請求項９に記載のシステム。
該補正装置が該エンハンスした音声信号の周波数領域の表示を加重補正した一組のメル・フィルタ・バンクに通過させる請求項８に記載のシステム。
該ケプストラル特性コンピュータが該補正した周波数領域の表示から自動補正係数を生成する請求項１１に記載のシステム。
該ケプスタル特性コンピュータが、さらに、
該自動補正係数をＬＰＣ係数に変換するステップと、
該ＬＰＣ係数から該ケプスタル特性を計算するステップの動作を実行する請求項１２に記載のシステム。
特定周波数以下の該メル・フィルタ・バンクでは減衰が生じる請求項１２に記載のシステム。
該特定周波数がほぼ２９０Ｈｚである請求項１４に記載のシステム。
音声認識性能を向上するため、コンピュータ計算システムを用い、第一エンハンサーによってエンハンスした音声信号の補正したケプストラル特性を計算する方法であって、該コンピュータ計算システムはメモリと少なくとも一つのプロセッサから成り、該メモリには該第一エンハンサーの特性に基づいたメル・フィルタ・バンク加重補正値が含まれ、
該エンハンスした音声信号を該プロセッサに於いて受信するステップと、
スペクトルを平坦化するため、該エンハンスした音声信号をプリエンファシスするステップと、
該エンハンスした音声信号を音声サンプルの連続フレームに閉塞するステップと、
ハミング・ウィンドによって該フレーム各々を乗算するステップと、
ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップと、
該メモリに記憶した該メル・フィルタ・バンク加重補正値を用い、該周波数領域の表示の各々をフィルタ処理するステップと、
該フィルタ処理した周波数領域の表示から自動補正係数を生成するステップと、
該自動補正係数をＬＰＣ係数に変換するステップと、
該ＬＰＣ係数からケプストラル・パラメータを計算するステップと、を含む方法。
該特性と認識装置メモリに記憶した認識モデルと比較するステップとをさらに含む請求項１６に記載の方法。
エンハンスされていない音声信号を用い、該認識モデルの学習が行われた請求項１７に記載の方法。
特定周波数以下の該メル・フィルタ・バンクの該値が減衰される請求項１６に記載の方法。
該特定周波数がほぼ２９０Ｈｚである請求項１９に記載の方法。
さらに、第二エンハンサーによって音声信号に行われたエンハンスメントを補正するため、該メモリに記憶した該メル・フィルタ・バンク加重補正値を変更するステップを含み、該第二エンハンサーが該第一エンハンサーによって行われる該エンハンスメントとは異なるエンハンスメントをする請求項１６に記載の方法。
コンピュータ計算システムを用い、音声信号の補正したケプストラル特性を計算する方法であって、該コンピュータ計算システムはメモリと、少なくとも一つのプロセッサから成り、該メモリにはエンハンサーによる音声信号エンハンスメントに対応するケプストラル特性を計算するための補正を行うメル・フィルタ・バンク加重補正値が含まれ、
該プロセッサに於いて該音声信号を受信するステップと、
スペクトルの平坦化のため、該音声信号をプリエンファシスするステップと、
該音声信号を音声サンプルの連続フレームに閉塞するステップと、
ハミング・ウィンドによって該フレームの各々を乗算するステップと、
ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップと、
該メモリに記憶した該エンハンサーの特性に基づく該エンハンサーの該メル・フィルタ・バンク加重補正値を用い、該周波数領域の表示の各々をフィルタ処理するステップと、
該フィルタ処理した周波数領域の表示から自動補正係数を生成するステップと、
該自動補正係数をＬＰＣ係数に変換するステップと、
該ＬＰＣ係数から該ケプスタル・パラメータを計算するステップと、を含む方法。
該特性と認識装置メモリに記憶した該認識モデルを比較するステップとをさらに含む請求項２２に記載の方法。
エンハンスメントが行われなかった音声信号を用い、該認識デルの学習が行われた請求項２３に記載の方法。
エンハンスした音声信号を特徴付ける音声特性信号を生成する特性抽出装置であって、
該音声信号を表す一組のスペクトル・サンプルを生成する周波数領域変換装置と、
該一組のスペクトル・サンプルを選択的に加重補正する加重補正ユニットであって、前記加重補正は前記エンハンスした音声信号の特性及び導入されたエンハンサーの特性によって決定される加重補正ユニットと、
該加重補正した一組のスペクトル・サンプルに準拠し、特性信号を特徴付ける音声を生成する特性コンピュータとから成ることを特徴とする特性抽出装置。
さらに、受信機から成り、該受信機を予備処理回路を介し該周波数領域変換装置に接続した請求項２５に記載の装置。
該予備処理回路がプリエンファシス回路から成ることを特徴とする請求項２６に記載の装置。
該予備処理回路がフレーム・ブロッカーから成ることを特徴とする請求項２６に記載の装置。
該予備処理回路がハミング倍率器から成ることを特徴とする請求項２６に記載の装置。
該加重補正ユニットが選択的に加重補正した一組Ｍ個のメル・フィルタ・バンクから成ることを特徴とする請求項２５に記載の装置。
音声信号を特徴付ける音声特徴信号を生成する方法であって、
エンハンスした音声信号を特徴付ける一組のスペクトル・パラメータを生成するステップであって、前記加重補正は前記エンハンスした音声信号の特性及び導入されたエンハンスメントの特性によって決定される加重補正ステップと、
該一組のスペクトル・パラメータを加重補正するステップと、
該加重補正した一組のスペクトル・サンプルに準拠して特性信号を特徴付ける音声を生成するステップと、を含む方法。
音声信号を認識し、該信号のネットワーク・エンハンスメントを補正するシステムであって、
エンハンスした音声信号のネットワーク・エンハンスメント成分を導入されたエンハンスメントの特性を用いて補正するフィルタと、
該フィルタからのフィルタ処理した音声信号に準拠し、特性を抽出する特性抽出装置と、
該特性抽出装置からの抽出した特性に準拠し、音声信号を認識する音声認識装置とから成ることを特徴とするシステム。
該フィルタが選択的に加重補正し一組のメル・フィルタ・バンクから成ることを特徴とする請求項３２に記載のシステム。
該特性抽出装置が線形予測符号化分析装置と、メル・フィルタ分析装置との複合体から成ることを特徴とする請求項３２に記載のシステム。
ネットワーク・エンハンスメントを有して音声信号から特性信号を生成する方法であって、
該音声信号を受信するステップと、
該音声信号をフレームに閉塞するステップと、
前記閉塞された音声信号の周波数領域の表示を形成するステップと、
前記周波数領域の表示をメル・フィルタ・バンクに通過させ、該ネットワーク・エンハンスメントを導入されたエンハンスメントの特性を用いて補正するステップと、
該閉塞した音声信号に対し線形予測符号化とケプストラル循環分析とを複合で実行し、Ｍｅｌ−ＬＰＣケプストラル特性信号を発生するステップと、を含む方法。
該Ｍｅｌ−ＬＰＣケプストラル特性と認識モデルを比較するステップをさらに含む請求項３５に記載の方法。
メル・フィルタ・バンクを使用して該閉塞した音声信号をフィルタ処理し、メル・フィルタ処理した信号を発生し、次いで、線形予測符号化とケプストラル循環分析との複合で実行して分析するステップをさらに含む請求項３５に記載の方法。
該音声信号のスペクトルの平坦化を達成するため、該信号をプリエンファシスするステップをさらに含む請求項３５に記載の方法。
ハミング・ウィンドによって該フレームの各々を乗算するステップをさらに含む請求項３８に記載の方法。
該ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップをさらに含む請求項３９に記載の方法。
メモリに記憶したメル・フィルタ・バンク加重補正値を用い、周波数領域の表示の各々をフィルタ処理するスタップをさらに含む請求項４０に記載の方法。
該フィルタ処理した周波数領域の表示から自動補正係数を生成する該ステップをさらに含む請求項４１に記載の方法。
該線形予測符号化分析は該自動補正係数をＬＰＣ係数に変換すべく機能し、該ケプストラル循環分析は該ＬＰＣ係数からケプストラル・パラメータを計算すべく機能する請求項４２に記載の方法。
音声認識性能を向上させるため音声信号のエンハンスメントを補正する方法であって、
音声信号に周波数利得の変動をもたらすオーディオエンハンサーによってエンハンスした該音声信号を受信するステップと、
該エンハンスした音声信号を周波数領域の表示に変換するステップと、
該エンハンスした音声信号の該周波数領域の表示を用い、該エンハンサーによって該音声信号にもたらされた該利得の変動を該オーディオエンハンサーの特性に基づいて補正するステップと、
該エンハンスした音声信号が該補正するステップによって補正された後に、該音声信号を特徴付ける特性信号を生成するステップと、を含む方法。
該特性と認識装置メモリに記憶した認識モデルとを比較するステップをさらに含む請求項４４に記載の方法。
エンハンスした音声信号を用い、該認識モデルの学習が行われた請求項４５に記載の方法。