JP4050350B2 - 音声認識をする方法とシステム - Google Patents
音声認識をする方法とシステム Download PDFInfo
- Publication number
- JP4050350B2 JP4050350B2 JP34173896A JP34173896A JP4050350B2 JP 4050350 B2 JP4050350 B2 JP 4050350B2 JP 34173896 A JP34173896 A JP 34173896A JP 34173896 A JP34173896 A JP 34173896A JP 4050350 B2 JP4050350 B2 JP 4050350B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- signal
- enhanced
- characteristic
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Description
【発明の属する技術分野】
本発明は、音声の認識処理に関し、さらに詳細には、音声信号がエンハンスされているときに感度を最小にする音声認識を行うことに関する。
【0002】
【従来の技術】
長距離交換網のような電気通信網から伝送される音声信号は未知の各種条件によって音響的な影響をよく受ける。このような条件はこうしたネットワークに通常含まれる自動音声認識(ASR)システムの性能を示差的に低下させることがある。このような条件には、例えば、周囲ノイズ、チャネル干渉、異なる音響検出装置の使用が含まれる。
【0003】
通常のASRシステムは伝送されてきた音声信号を表す特徴データと学習認識モデルとして周知の音声単位を表すデータ・パターンとを比較またはマッチングさせることによって音声の認識を行う。認識モデルは通常、電話機での通話時に於けるような実音声信号がASRシステムに伝送される同一のネットワーク接続経路から行われる周知の音声特性を有する所定の音声信号の伝送をモニタすることによって得られれる。
【0004】
多くの事例に於いて、ネットワーク経路に様々な未知条件が存在すると、認識モデルとテスト・データ相互間に音響上の不整合が生じる。このような音響上の不整合は音声認識性能を低下させることがある。音響上の不整合は、例えば、ネットワーク経路から伝送される音声信号が人間の知覚作用に合わせ音声の品質を改善させるべくエンハンスされるときに起こり易い。このようなエンハンスメントが行われると、音声認識性能は音声認識プロセスに用いた認識モデルが同じような音声信号エンハンスメント回路を含むネットワーク接続経路に生成されなかったとき、あるいは学習が行われなかったときに最適レベル以下になることがある。検出された音声信号を表す特徴を認識モデルにマッチングさせASRシステムに強健性を提供しようとする現在の音声信号処理技術は通常、前記に説明したような結果をもたらすことのある音響上の不整合を充分補正するものではない。
【0005】
【課題を解決するための手段】
本発明は、改善された音声認識性能のための方法とシステムに関する。同じようなエンハンスメント回路を備えたネットワーク接続経路に、例えば、認識モデルが生成されなかったり、あるいは学習が行われなかったエンハンスメントが行われるネットワークに於いて音声認識性能に優れた強健性を与える補正は情報の利用によって行われる。この利用する情報はネットワーク接続経路からの伝送時に音声信号に対し行われるエンハンスメントのスペクトル効果に関するものである。
【0006】
本発明の一つの態様では、音声信号エンハンスメントの補正は特徴抽出装置と音声認識装置を含む音声認識システムの前端部に於いて特徴抽出処理が実行される期間に行われる。特徴抽出装置は線形予測符号化(LPC)とメル・フィルタ分析とを組み合わせて用い、エンハンスした音声信号のケプストラル特性を計算する。時変音声信号が周波数領域での表示に合わせて変換された後に、この信号に対し行われたエンハンスメントを補正する。
【0007】
本発明の方法の一つの態様では、第一にエンハンスした時変音声信号のサンプリングが行われる。サンプリングされた音声信号はフレームに集められ、次いで、フーリエ変換により時間の表示から周波数領域の表示に変換する。その後、各フレームのパワー・スペクトルは音声信号のスペクトル特性に対するエンハンスメント効果の選択的な補正が聴感補正によって行われる選択的に聴感補正されたメル・フィルタ・バンク処理を受ける。次いで、補正が行われたエンハンスした音声信号のスペクトル表示から自動補正係数を計算し、その後LPC分析とケプストラル循環とによってケプストラル特性を求める。
本発明の上記以外の特徴と利点は当該技術に通常の精通度を有する者にとっては以下の詳細な説明と付属図面を参照すれば容易に明らかなことであろう。
【0008】
【発明の実施の形態】
図1はエンハンスした音声信号を本発明技術に従って行う音声認識処理に適した例示として引用した電気通信網100のブロック図である。
図1を参照すると、長距離伝送の音声信号とデータをステーション・セットS1、S2を組み合わせた電話ユーザのような加入者のために接続すべく、様々な周知の方法の内のいずれかに従って互いに接続ができる市外局105、110のような複数の市外局でネットワーク100を適切に構成することができる。市内中央局50はステーション・セットS1を市外局105に接続し、市内中央局75はステーション・セットS2を市外局110に接続する。
【0009】
ネットワーク100には、さらに、電話ユーザのような加入者が受信する前に、音声信号の品質をエンハンスさせるため、市外局105、110相互間の接続路に配した音声信号エンハンスメント装置または音声信号エンハンサー107を適切に含めることができる。例えば、音声信号エンハンサー107には音声信号のパワー・レベルを増強または低下させるため、エコー消去回路、あるいは他の回路のような適切な回路を含めることができる。指定周波数のパワー・レベルの増強を含むネットワーク内での音声信号のエンハンスメントについてのさらに詳細な説明に関しては参照によって本明細書に組み込まれている米国特許第5,195,132号を参照する。
【0010】
本発明によれば、音声信号エンハンサー107から音声信号を受信し、以下にさらに詳しく説明する特性の抽出を含む音声信号認識に備えた信号処理を行うため、音声信号プロセッサ102をさらにネットワーク接続経路に含める。ステーション・セットS1からステーション・セットS2への電話機の接続は本明細書に於いて言及するつもりはない従来の技術に従って市内中央局50、市外局105、音声信号エンハンサー107、プロセッサ102、市外局110および市内中央局75を介し適切に確立される。ネットワーク100はAT&Tネットワークのような何らかの広く周知の電気通信網にすることができるものと理解する。
【0011】
従来技術の電気通信網では、時変音声信号を特徴づけるもので、特性として周知のパラメータの計算は、例えば、音声信号のエンハンスメントによって音声信号に加えられる音響上の変動に対し非常に敏感なものであった。この条件はケプストラル特性のような好適な特性の計算に関し特に注目された。その結果、ネットワーク接続経路にこのようなエンハンスした音声信号が含まれると、伝送されてきた音声信号を表す特徴データとのマッチングに用いた認識モデルが、同じようなまたは同一の音声信号エンハンスメント回路を含まないネットワーク経路上で学習が行われなかった自動音声認識(ASR)処理の性能を激しく低下させた。
【0012】
本発明によれば、ネットワーク100に含めたプロセッサ102はこのようなASR処理装置へのルーチングが行われる前に音声信号エンハンサー107によって既にエンハンスされたかもしれない伝送されてきた音声信号に対し音声の認識が行われるとき、エラー・レベルを最小にすべく適切に機能する。プロセッサ102はケプスタル特性に準拠した音声認識処理に改善された強健性を供与するエンハンスメント補正動作を必ず行なう。これとは他に、ネットワーク100に於けるプロセッサ102はこれにルーチングされる以前にエンハンスされなかった、あるいはプロセッサ102よって補正されるエンハンスメントとは異なる音声信号へのエンハンスメントを導入する音声信号エンハンサーによって既にエンハンスが行われ、伝送されてきた音声信号に対し音声の認識が行われるとき、エラーのレベルを最小にすべく本発明の技術に従って機能することができる。説明の便宜上、プロセッサ102に於いて行われる音声認識処理の期間に実行する特性のマッチングに用いた認識モデルは音声信号エンハンスメント回路を含まないネットワーク経路上で学習済みであると仮定する。
【0013】
説明の便宜上、音声信号エンハンサー107はネットワークからプロセッサ102に対しルーチングが行われる期間にステーション・セットS1からステーション・セットS2に伝送される音声信号にエンハンスメントを行うものとする。音声信号エンハンサー107によって既にエンハンスされ、プロセッサ102にルーチングされ、伝送されてきた音声信号に対し、エンハンスメントの性質に関する情報が以下に説明する方法に従ってプロセッサ102での処理に利用され、エンハンスメントの適正補正ができると仮定する。
【0014】
簡明と簡潔のため、線形予測符号化(LPC)と、音声信号のスペクトル特性を表すデータからケプストラル特性を抽出するメル・フィルタ分析の採用を含む信号認識処理技術の知識があるものと仮定する。参照により本明細書に組み込まれている、103−107ページ、112−117ページおよび183−190ページに記載のRabiner,LawrenceとJuang,Biing−Hwangによる「Fundamentals of Speech Recognition(音声認識の基礎)」(1993)を参照する。手短に言って、LPC処理にはソース域の分離によって音声信号からの特性抽出と、サンプリングした以前の音声信号の線状複合体としてスペクトル・ピーク値のモデル化が含まれる。メル・フィルタ分析にはいわゆるメル・スケールの間隔に於ける純粋な楽音の主観的ピッチに関して音声信号の完全なスペクトルを有利にサンプリングすることによって音声信号の音響スペクトル成分についての人間知覚作用の知識に基づく音声信号からの特性抽出が含まれる。全般的な音声の認識を改善すべく音声信号のスペクトル成分を適切に修正するため、これらメル・スケール間隔値はメル・フィルタ・バンクとして周知のフィルタ・バンクとして従来的に達成される。
【0015】
本発明の一つの態様では、伝送されてきた音声信号に行われたエンハンスメントに対するもので、エンハンスした音声信号が周波数領域での表示に適切に変換された場合に行われる補正を実行するケプストラル特性を計算するメル・フィルタ・バンク分析にLPC分析を複合する。以下に一層詳しく説明するように、知覚周波数スケールに基づき自動補正係数の計算が行われ、LPC技術を用いてパワー・スペクトルの平滑化が行われるMel−LPCケプストラル特性の計算にはLPC分析が後続するメル・フィルタ・バンク分析が含まれる。説明の便宜上、ステーション・セットS1からプロセッサ102にルーチングされる音声信号をエンハンスメントするため、前記に引用した米国特許第5,195,132号(以後TrueVoicesm エンハンスメントと呼ぶ)に述べたものに類似するエンハンスメント回路が音声信号エンハンサー107に含まれ、音声認識処理はエンハンスメントの行われなかった音声信号を用いて学習を済ませた認識モデルを使用しプロセッサ102で実行される。
【0016】
図2には音声信号エンハンサー107に於いて行われるTrueVoicesmエンハンスメントによりエンハンスした音声信号に対し高い強健性の音声認識を行うためMel−LPCケプストラル特性を計算する演算ができるプロセッサ102の引用実施例が記載されている。図2を参照すると、プロセッサ102にはメル・ケプストラル特性計算とエンハンスした、あるいはエンハンスされていない伝送されてきた音声信号に対し特性のマッチングを実行する個々の機能を表すブロックが含まれる。これらのブロックで表す機能はソフトウェアの実行ができるハードウェアを含むが、そのハードウェアに限定されない共有または専用のハードウェアの使用によって得られる。
【0017】
好適な実施例では、プロセッサ102に含まれるブロックで示す機能は補正特性抽出装置202と、RAMとしての学習認識装置モデル・メモリ206を含む認識装置204から成る。補正特性抽出装置202と、認識装置204はメモリ208に適切に接続する。メモリ208には本発明技術を実施するために適切に実行できるプログラムに指定する命令が含まれる。以下に説明するように、特性抽出装置202と認識装置204のブロックに表示する機能は本発明技術の実施に従って市外局105または110から伝送されてきた音声信号を処理する。ブロック表示の機能が実行する操作は一つの共用プロセッサを用いて同様にに実行することができることを理解されたい。このようなプロセッサは標準型ディジタル信号プロセッサで構成することができ、ソフトウェアの記憶と、以下に説明する動作を実行するためROM(読み取り専用メモリ)または他の適切なメモリが含まれよう。さらに、本発明技術はファームウェアを用い、または集積回路に組み込んだ離散成分で実施することができる。他の適切な実施例は当該技術に通常の精通度を有する者であれば容易に達成することができる。例えば、図2に示すように、補正特性抽出装置202は音声信号エンハンサー107からの入力を受信するよう接続されているが、信号のエンハンスメントに干渉することなく市外局105のような市外局に直接接続することもできよう。
【0018】
図3には図4に関し以下に説明する音声信号に対し行われたエンハンスメントを補正する機能を実行することができる特性抽出装置202の引用実施例の詳細が記載されている。図3を参照すると、特性抽出装置202は受信機211、プリエンファシス装置212、フレーム・ブロッカー213、ハミング倍率器214、周波数領域変換器215、補正装置216およびケプストラル特性コンピュータ217とによって適切に構成できることが記載されている。ブロックで表示した機能は図4に関し以下に詳しく説明するように、本発明技術を実施する動作を適切に実行する。ブロックで示すこれら機能の各々が実行する動作はソフトウェア単独で行われることはもとより、ソフトウェアおよび/またはハードウェアを複合することにより実行できる。
【0019】
図2を参照すると、補正特性抽出装置202は必ず、市外局105からルーチングされた時変音声信号のMel−LPCケプストラル特性をこれら信号の特性を表すスペクトルまたは周波数領域に基づき計算するため操作を実行するASRに於ける前置プロセッサである。補正特性抽出装置202のケプストラル特性コンピュータ217によって最終的に計算されるMel−LPCケプストラル特性は音声の認識に従来的に活用される異なる音声単位の広域音響特性を表す。特に、補正装置216とケプストラル特性コンピュータ217はLPC分析とメル・フィルタ・バンク分析を複合し、信号のエンハンスメントによって生じる音響的な変動に事実上感性をもたない認識装置204によるネットワーク100でのASR処理を行うためのもので、伝送れてきた音声信号を表す一組の補正ケプストラル特性を計算する。Mel−LPCケプストラル特性を認識装置204に入力し、認識装置は計算された特性が表す音声単位に一致する最良の語または最良の連続語を決定すべくメモリ206に記憶した認識モデルと入力されたMel−LPCケプストラル特性とを比較する。適切な認識装置は認識技術に準拠して、例えば、広く周知の隠れマルコフ・モデル(HMM)を利用することができる。
【0020】
TrueVoicesmエンハンスメントのような導入されたエンハンスメントについての従来知識は本発明技術に従って行われる音声信号を表す周波数領域を用いたエンハンスメントの補正を実行する上で必要であることに注目する。この情報は公開されて一般に求められる。これとは他に、エンハンスメントに関する情報は音声信号エンハンスメント回路を含むネットワーク接続経路から伝送される音声信号を経験的な方法でサンプリングする、例えば、標準的な技術を用い確立することができる。対照的に、ケプストラル平均値減算と信号バイアスの除去についての従来技術による方法は音声信号の音響的変動についての従来の知識を必要とはしなかったし、「ブラインド」畳み込み準拠技術のとして考えられる。
【0021】
エンハンスした時変音声信号のMel−LPCケプストラル特性を図3のブロックで示す引用例の機能を用いプロセッサ102の補正特性抽出装置202に於いて計算する方法220を図4に示す。説明の便宜上、特性抽出装置202にルーチングされる前にディジタル電話網を模倣するため、好ましくは8.0kHzの速度で音声信号のディジタル化が行われるものと仮定する。図4を参照すると、ステップ222に於いて、受信機211は音声信号エンハンサー107からエンハンスした音声信号を受信する。
【0022】
次いで、ステップ224では、プリエンファシス装置212はサンプリングされたディジタル化音声信号を処理し、スペクトルの平坦化が行われる。プリエンファシスは、例えば、従来技術による第一オーダのディジタル網を使用し適切に行われる。ステップ226に於いて、フレーム・ブロッカー213サンプリングした音声信号をフレームに集めるか、あるいはフレームに閉塞する。一つのフレームは信号のnミリセコンドに対応する連続した音声信号サンプルの区間から成り、連続フレームはmミリセコンドの間隔を開けている。ステップ228では、ハミング倍率器214は当該技術では従来的であるハミング・ウィンドによって各フレームのサンプルを乗算する。ステップ230に於いて、周波数領域変換器215は音声の各ウィンド・サイズ指定区分に対しフーリエ変換をし、受信機211で受信したエンハンスした音声信号に対応する一組のスペクトル・サンプルを生成する。
【0023】
ステップ232に於いて、補正装置216は各フレームを処理し、適切に三角形状にすることのできる一組M個のメル・フィルタ・バンクにスペクトル・サンプルの各フレームに対するパワー・スペクトルを通過させる。メル・フィルタ・バンクは適切に聴感補正され、伝送されてくる信号のケプストラル特性の計算にエンハンスメントが与える影響を補正する。換言すれば、音声信号に対するエンハンスメントの影響はエンハンスした音声信号を表す周波数領域で機能する補正装置216に於いて補正される。Mel−LPCケプストラル特性の計算によって各スペクトル帯域の利得を完全に制御できることに注目する。これによって単にメル・フィルタ・バンクに聴感補正機能を賦課するだけで音声信号のエンハンスメントの補正ができるようになる。
【0024】
例えば、音声信号のエンハンスメントの補正を実行し、LPC技術を用い、音声信号を表す周波数領域からケプストラル特性を計算する前に、好ましからざるメル・フィルタ・バンクをディエンファシスすることにより理想的なハイパス・フィルタ処理を達成することができる。スペクトル領域に於けるデータ値係数に対するこの聴感補正は極めて有利であり、エンハンスした音声信号を用いて学習が行われなかった認識モデルに適切に一致させることのできるエンハンスメント音声信号の補正したケプストラル特性の計算ができるようになる。一度び計算されたケプストラル特性は同じような方法では聴感補正ができないことに注目する。さらに、エンハンスした音声信号がまだ時間で表示されているときに、この音声信号をフィルタ処理することによってエンハンスした音声信号のこうした処理に概ね近ずけることができることにも注目する。
【0025】
エンハンサー107による音声信号へのTrueVoicesmエンハンスメントが行われると考えられるネットワーク100の引用実施例では、TrueVoicesmエンハンスメントの特性に関する情報を利用して補正装置216のメル・フィルタ・バンクに加える聴感補正値を確定することができよう。実験的な分析から、プリエンファシス・フィルタ(pフィルタ)を用いた音声信号のフィルタ処理と、音声信号へのゆっくり変化するAVC(自動音量コントローラ)の適用がTrueVoicesmエンハンスメントに含まれ、pフィルタからは150Hzと220Hzとの間の周波数帯内部のいずれかに10〜20dBのスペクトル磁極が導入されることが確認された。
【0026】
この場合、メル・フィルタ・バンクでは周波数領域内で目標とするハイパス・フィルタ処理が行われると考えられ、その結果、計算されたケプストラル特性の修正が行われ、こうして、音声認識性能の強健性が低周波数のパワー増強に向けて改善されると思われる。例えば、周波数が290Hz以下のメル・フィルタ・バンクは聴感補正値を0に指定し、周波数が290Hz以上のフィルタ・バンクは聴感補正値1に指定することができる。即ち、音声信号の認識に対するTrueVoicesmエンハンスメントの影響はMel−LPCケプストラル特性の計算に用いた低周波数メル・スペクトル帯域をディエンファシシスすることによって最小にされよう。好ましくは、ケプストラル特性の計算が行われる期間に閾値290Hz以下のメル・フィルタ・バンク周波数帯域が考慮の対象にならないよう、閾値290Hzが達成されよう。Mel−LPCケプストラル特性の処理は290Hzまでの低周波数帯域で減衰が激しい理想的なハイパス・フィルタ処理と考えることができる。
【0027】
図4を参照すると、ステップ234に於いて、ケプストラル特性コンピュータ217は12に適切に設定する自動補正係数Qを形成するため平滑化したパワー・スペクトルにIDCT(逆離散余弦変換)を加える。ステップ236で、ケプストラル特性コンピュータ217は、例えば、ダービンの循環アルゴリズムを用いて各一組の自動補正係数を先ずLPC係数に変換し、次いで、標準LPC〜ケプストラル循環を採用ししてケプストラル・パラメータに変換する。ケプストラル・ベクトルのディメンションは適切に12に設定する。最後にステップ238では、認識装置204はモデル・メモリ206に記憶した認識モデルを補正したエンハンスメント音声信号に対応するもので、計算で求めたケプストラル特性にマッチングを試み、当該技術では従来的なのだが、さらにステーション・セットS2にルーチングがなされるよう、特性マッチング動作を表すデータを出力する。
【0028】
Mel−LPCケプストラル特性計算技術は音声信号のエンハンスメントに向けた優れた強健性を提供でき、エンハンスメントが行わなわれず、Mel−LPCケプソトル特性が音声信号に対し行われた特定のエンハンスメントを補正するときでもASR性能に悪影響をおよぼさないことがあることに留意されたい。異なるフィルタと異なる遮断周波数を用いて音声信号のエンハンスメントを補正するメル・フィルタ・バンク処理を用いる本発明技術の実施ができることを理解されたい。さらに、音声スペクトルに対する微修正を含む信号のエンハンスメントに備え、Mel−LPCケプストラル特性を計算するような強健性に優れた前置システムによれば、エンハンスした音声信号を用いて学習が行われなかった認識モデルに一致することになる音声信号の特徴を計算するために必要な何らかの方法に従って、音声スペクトルを変化させる音声認識システムへのアクセスが容易に行われることにも注目する。
【0029】
前記に提示し、説明した本発明の実施例とその変更は本発明だけの原理を例証するものであり、本発明の範囲と精神から逸脱することなく当該技術に精通した者であれば様々な修正を加え得ることを理解されたい。
【図面の簡単な説明】
【図1】エンハンスした音声信号に対し本発明に従って行う音声認識処理に適した改良型電気通信網のブロック図である。
【図2】エンハンスした音声信号のMel−LPCケプストラル特性を本発明に従って計算することによって音声認識を行うため図1に記載するシステムに含めることのできる音声信号プロセッサのブロック図である。
【図3】例示として引用した補正済み特性抽出装置のブロック図である。
【図4】エンハンスした音声信号のMel−LPCケプストラル特性を計算する本発明技術に従って行う音声認識の方法を解説するフローチャートである。
Claims (46)
- 音声認識性能を向上するための音声信号のエンハンスメントを補正する方法であって、
音声信号に周波数利得変動をもたらすオーディオ・エンハンサーによってエンハンスした音声信号を受信するステップと、
該エンハンスした音声信号を周波数領域の表示に変換するステップと、
該エンハンスした音声信号の周波数領域の表示を用いて、該エンハンサーが該音声信号にもたらした該利得変動を前記オーディオ・エンハンサーの特性に基づいて補正するステップと、
該補正するステップによってエンハンスした該音声信号が補正された後に、該音声信号のケプストラル特性を計算するステップと、を含む方法。 - 認識装置メモリに記憶した認識モデルと該特性を比較するステップをさらに含む請求項1に記載の方法。
- 該エンハンサーによってエンハンスされない音声信号を使用し、該認識モデルの学習が行われた請求項2に記載の方法。
- 補正する該ステップが、補正したMel−LPC係数を計算するステップをさらに含み、補正したMel−LPC係数を計算する該ステップが、
スペクトルの平坦化をするため、エンハンスした該音声信号をプリエンファシスするステップと、
エンハンスした該音声信号を音声サンプルの連続フレームに閉塞するステップと、
ハミング・ウィンドによってこの各フレームを乗算するステップと、
ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップと、
加重補正をした一組のメル・フィルタ・バンクを介し該周波数領域の表示の各々をフィルタ処理するステップと、
該フィルタ処理した周波数領域の表示から自動補正係数を生成するステップと、をさらに含む請求項1に記載の方法。 - 該自動補正係数をLPC係数に変換するステップと、
該LPC係数からケプストラル・パラメータを計算するステップと、をさらに含む請求項4に記載の方法。 - 特定周波数以下のメル・フィルタ・バンクでは減衰が生じる請求項4に記載の方法。
- 特定周波数がほぼ290Hzである請求項6に記載の方法。
- 音声認識性能を向上するため音声信号のエンハンスメントを補正するシステムであって、
ネットワーク経路から伝送される時変音声信号の指定周波数の利得を選択的に変化させるエンハンサーと、
該エンハンスした音声信号を受信する受信機と、
該受信機で受信した該エンハンスした音声信号を周波数領域の表示に変換する周波数領域変換装置と、
該エンハンサーによってエンハンスした該音声信号の周波数領域表示を受信し、ネットワーク経路から伝送されてくる音声信号の周波数領域表示に利得の変動をもたらし、該エンハンサーによって音声信号にもたらされた利得の変動を該エンハンサーの特性に基づいて補正する補正装置と、
該エンハンスした音声信号の補正した周波数領域の表示からケプストラル特性を計算するケプストラル特性コンピュータとから成ることを特徴とするシステム。 - さらに、該ケプストラル特性コンピュータから該ケプストラル特性を受信する認識装置から成る請求項8に記載のシステム。
- 該エンハンサーによってエンハンスされなかった音声信号を用いネットワーク経路上において学習が行われ、該認識装置が認識装置メモリに記憶した認識モデルと該特徴とを比較する請求項9に記載のシステム。
- 該補正装置が該エンハンスした音声信号の周波数領域の表示を加重補正した一組のメル・フィルタ・バンクに通過させる請求項8に記載のシステム。
- 該ケプストラル特性コンピュータが該補正した周波数領域の表示から自動補正係数を生成する請求項11に記載のシステム。
- 該ケプスタル特性コンピュータが、さらに、
該自動補正係数をLPC係数に変換するステップと、
該LPC係数から該ケプスタル特性を計算するステップの動作を実行する請求項12に記載のシステム。 - 特定周波数以下の該メル・フィルタ・バンクでは減衰が生じる請求項12に記載のシステム。
- 該特定周波数がほぼ290Hzである請求項14に記載のシステム。
- 音声認識性能を向上するため、コンピュータ計算システムを用い、第一エンハンサーによってエンハンスした音声信号の補正したケプストラル特性を計算する方法であって、該コンピュータ計算システムはメモリと少なくとも一つのプロセッサから成り、該メモリには該第一エンハンサーの特性に基づいたメル・フィルタ・バンク加重補正値が含まれ、
該エンハンスした音声信号を該プロセッサに於いて受信するステップと、
スペクトルを平坦化するため、該エンハンスした音声信号をプリエンファシスするステップと、
該エンハンスした音声信号を音声サンプルの連続フレームに閉塞するステップと、
ハミング・ウィンドによって該フレーム各々を乗算するステップと、
ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップと、
該メモリに記憶した該メル・フィルタ・バンク加重補正値を用い、該周波数領域の表示の各々をフィルタ処理するステップと、
該フィルタ処理した周波数領域の表示から自動補正係数を生成するステップと、
該自動補正係数をLPC係数に変換するステップと、
該LPC係数からケプストラル・パラメータを計算するステップと、を含む方法。 - 該特性と認識装置メモリに記憶した認識モデルと比較するステップとをさらに含む請求項16に記載の方法。
- エンハンスされていない音声信号を用い、該認識モデルの学習が行われた請求項17に記載の方法。
- 特定周波数以下の該メル・フィルタ・バンクの該値が減衰される請求項16に記載の方法。
- 該特定周波数がほぼ290Hzである請求項19に記載の方法。
- さらに、第二エンハンサーによって音声信号に行われたエンハンスメントを補正するため、該メモリに記憶した該メル・フィルタ・バンク加重補正値を変更するステップを含み、該第二エンハンサーが該第一エンハンサーによって行われる該エンハンスメントとは異なるエンハンスメントをする請求項16に記載の方法。
- コンピュータ計算システムを用い、音声信号の補正したケプストラル特性を計算する方法であって、該コンピュータ計算システムはメモリと、少なくとも一つのプロセッサから成り、該メモリにはエンハンサーによる音声信号エンハンスメントに対応するケプストラル特性を計算するための補正を行うメル・フィルタ・バンク加重補正値が含まれ、
該プロセッサに於いて該音声信号を受信するステップと、
スペクトルの平坦化のため、該音声信号をプリエンファシスするステップと、
該音声信号を音声サンプルの連続フレームに閉塞するステップと、
ハミング・ウィンドによって該フレームの各々を乗算するステップと、
ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップと、
該メモリに記憶した該エンハンサーの特性に基づく該エンハンサーの該メル・フィルタ・バンク加重補正値を用い、該周波数領域の表示の各々をフィルタ処理するステップと、
該フィルタ処理した周波数領域の表示から自動補正係数を生成するステップと、
該自動補正係数をLPC係数に変換するステップと、
該LPC係数から該ケプスタル・パラメータを計算するステップと、を含む方法。 - 該特性と認識装置メモリに記憶した該認識モデルを比較するステップとをさらに含む請求項22に記載の方法。
- エンハンスメントが行われなかった音声信号を用い、該認識デルの学習が行われた請求項23に記載の方法。
- エンハンスした音声信号を特徴付ける音声特性信号を生成する特性抽出装置であって、
該音声信号を表す一組のスペクトル・サンプルを生成する周波数領域変換装置と、
該一組のスペクトル・サンプルを選択的に加重補正する加重補正ユニットであって、前記加重補正は前記エンハンスした音声信号の特性及び導入されたエンハンサーの特性によって決定される加重補正ユニットと、
該加重補正した一組のスペクトル・サンプルに準拠し、特性信号を特徴付ける音声を生成する特性コンピュータとから成ることを特徴とする特性抽出装置。 - さらに、受信機から成り、該受信機を予備処理回路を介し該周波数領域変換装置に接続した請求項25に記載の装置。
- 該予備処理回路がプリエンファシス回路から成ることを特徴とする請求項26に記載の装置。
- 該予備処理回路がフレーム・ブロッカーから成ることを特徴とする請求項26に記載の装置。
- 該予備処理回路がハミング倍率器から成ることを特徴とする請求項26に記載の装置。
- 該加重補正ユニットが選択的に加重補正した一組M個のメル・フィルタ・バンクから成ることを特徴とする請求項25に記載の装置。
- 音声信号を特徴付ける音声特徴信号を生成する方法であって、
エンハンスした音声信号を特徴付ける一組のスペクトル・パラメータを生成するステップであって、前記加重補正は前記エンハンスした音声信号の特性及び導入されたエンハンスメントの特性によって決定される加重補正ステップと、
該一組のスペクトル・パラメータを加重補正するステップと、
該加重補正した一組のスペクトル・サンプルに準拠して特性信号を特徴付ける音声を生成するステップと、を含む方法。 - 音声信号を認識し、該信号のネットワーク・エンハンスメントを補正するシステムであって、
エンハンスした音声信号のネットワーク・エンハンスメント成分を導入されたエンハンスメントの特性を用いて補正するフィルタと、
該フィルタからのフィルタ処理した音声信号に準拠し、特性を抽出する特性抽出装置と、
該特性抽出装置からの抽出した特性に準拠し、音声信号を認識する音声認識装置とから成ることを特徴とするシステム。 - 該フィルタが選択的に加重補正し一組のメル・フィルタ・バンクから成ることを特徴とする請求項32に記載のシステム。
- 該特性抽出装置が線形予測符号化分析装置と、メル・フィルタ分析装置との複合体から成ることを特徴とする請求項32に記載のシステム。
- ネットワーク・エンハンスメントを有して音声信号から特性信号を生成する方法であって、
該音声信号を受信するステップと、
該音声信号をフレームに閉塞するステップと、
前記閉塞された音声信号の周波数領域の表示を形成するステップと、
前記周波数領域の表示をメル・フィルタ・バンクに通過させ、該ネットワーク・エンハンスメントを導入されたエンハンスメントの特性を用いて補正するステップと、
該閉塞した音声信号に対し線形予測符号化とケプストラル循環分析とを複合で実行し、Mel−LPCケプストラル特性信号を発生するステップと、を含む方法。 - 該Mel−LPCケプストラル特性と認識モデルを比較するステップをさらに含む請求項35に記載の方法。
- メル・フィルタ・バンクを使用して該閉塞した音声信号をフィルタ処理し、メル・フィルタ処理した信号を発生し、次いで、線形予測符号化とケプストラル循環分析との複合で実行して分析するステップをさらに含む請求項35に記載の方法。
- 該音声信号のスペクトルの平坦化を達成するため、該信号をプリエンファシスするステップをさらに含む請求項35に記載の方法。
- ハミング・ウィンドによって該フレームの各々を乗算するステップをさらに含む請求項38に記載の方法。
- 該ハミング・ウィンド・フレームの各々を時間の表示から周波数領域の表示に変換するステップをさらに含む請求項39に記載の方法。
- メモリに記憶したメル・フィルタ・バンク加重補正値を用い、周波数領域の表示の各々をフィルタ処理するスタップをさらに含む請求項40に記載の方法。
- 該フィルタ処理した周波数領域の表示から自動補正係数を生成する該ステップをさらに含む請求項41に記載の方法。
- 該線形予測符号化分析は該自動補正係数をLPC係数に変換すべく機能し、該ケプストラル循環分析は該LPC係数からケプストラル・パラメータを計算すべく機能する請求項42に記載の方法。
- 音声認識性能を向上させるため音声信号のエンハンスメントを補正する方法であって、
音声信号に周波数利得の変動をもたらすオーディオエンハンサーによってエンハンスした該音声信号を受信するステップと、
該エンハンスした音声信号を周波数領域の表示に変換するステップと、
該エンハンスした音声信号の該周波数領域の表示を用い、該エンハンサーによって該音声信号にもたらされた該利得の変動を該オーディオエンハンサーの特性に基づいて補正するステップと、
該エンハンスした音声信号が該補正するステップによって補正された後に、該音声信号を特徴付ける特性信号を生成するステップと、を含む方法。 - 該特性と認識装置メモリに記憶した認識モデルとを比較するステップをさらに含む請求項44に記載の方法。
- エンハンスした音声信号を用い、該認識モデルの学習が行われた請求項45に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/575378 | 1995-12-20 | ||
US08/575,378 US5806022A (en) | 1995-12-20 | 1995-12-20 | Method and system for performing speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09179585A JPH09179585A (ja) | 1997-07-11 |
JP4050350B2 true JP4050350B2 (ja) | 2008-02-20 |
Family
ID=24300085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34173896A Expired - Lifetime JP4050350B2 (ja) | 1995-12-20 | 1996-12-20 | 音声認識をする方法とシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US5806022A (ja) |
EP (2) | EP0780828B1 (ja) |
JP (1) | JP4050350B2 (ja) |
CA (1) | CA2192397C (ja) |
DE (2) | DE69635141T2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2766604B1 (fr) * | 1997-07-22 | 1999-10-01 | France Telecom | Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique |
US6076058A (en) * | 1998-03-02 | 2000-06-13 | Lucent Technologies Inc. | Linear trajectory models incorporating preprocessing parameters for speech recognition |
US6163765A (en) * | 1998-03-30 | 2000-12-19 | Motorola, Inc. | Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system |
US6151572A (en) * | 1998-04-27 | 2000-11-21 | Motorola, Inc. | Automatic and attendant speech to text conversion in a selective call radio system and method |
US6571393B1 (en) * | 1998-05-27 | 2003-05-27 | The Hong Kong University Of Science And Technology | Data transmission system |
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US6658202B1 (en) * | 1998-09-09 | 2003-12-02 | Smartdisk | Portable data transfer and mass storage device for removable memory modules |
US6987927B1 (en) * | 1998-09-09 | 2006-01-17 | Smartdisk Corporation | Enhanced digital data collector for removable memory modules |
US6826528B1 (en) | 1998-09-09 | 2004-11-30 | Sony Corporation | Weighted frequency-channel background noise suppressor |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
WO2001029826A1 (en) * | 1999-10-21 | 2001-04-26 | Sony Electronics Inc. | Method for implementing a noise suppressor in a speech recognition system |
US20020065649A1 (en) * | 2000-08-25 | 2002-05-30 | Yoon Kim | Mel-frequency linear prediction speech recognition apparatus and method |
US7010480B2 (en) * | 2000-09-15 | 2006-03-07 | Mindspeed Technologies, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
JP4757158B2 (ja) * | 2006-09-20 | 2011-08-24 | 富士通株式会社 | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
JP5150542B2 (ja) * | 2009-03-26 | 2013-02-20 | 株式会社東芝 | パターン認識装置、パターン認識方法、及び、プログラム |
US8489632B1 (en) * | 2011-06-28 | 2013-07-16 | Google Inc. | Predictive model training management |
CN102723081B (zh) * | 2012-05-30 | 2014-05-21 | 无锡百互科技有限公司 | 语音信号处理方法、语音和声纹识别方法及其装置 |
US9704478B1 (en) * | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
CN107393554B (zh) * | 2017-06-20 | 2020-07-10 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60146399A (ja) * | 1984-01-11 | 1985-08-02 | 松下電器産業株式会社 | 音声遠隔制御装置 |
CA1232686A (en) * | 1985-01-30 | 1988-02-09 | Northern Telecom Limited | Speech recognition |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
US4914692A (en) * | 1987-12-29 | 1990-04-03 | At&T Bell Laboratories | Automatic speech recognition using echo cancellation |
JPH02299360A (ja) * | 1989-05-12 | 1990-12-11 | Toshiba Corp | 音声認織装置 |
US5195132B1 (en) * | 1990-12-03 | 1996-03-19 | At & T Bell Lab | Telephone network speech signal enhancement |
JP3354252B2 (ja) * | 1993-12-27 | 2002-12-09 | 株式会社リコー | 音声認識装置 |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
-
1995
- 1995-12-20 US US08/575,378 patent/US5806022A/en not_active Expired - Lifetime
-
1996
- 1996-12-09 CA CA002192397A patent/CA2192397C/en not_active Expired - Lifetime
- 1996-12-17 EP EP96120278A patent/EP0780828B1/en not_active Expired - Lifetime
- 1996-12-17 DE DE69635141T patent/DE69635141T2/de not_active Expired - Lifetime
- 1996-12-17 DE DE69616724T patent/DE69616724T2/de not_active Expired - Lifetime
- 1996-12-17 EP EP00124763A patent/EP1093112B1/en not_active Expired - Lifetime
- 1996-12-20 JP JP34173896A patent/JP4050350B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0780828B1 (en) | 2001-11-07 |
EP0780828A3 (en) | 1998-12-30 |
MX9606483A (es) | 1997-09-30 |
JPH09179585A (ja) | 1997-07-11 |
DE69616724T2 (de) | 2002-04-25 |
CA2192397C (en) | 2001-04-03 |
EP1093112B1 (en) | 2005-08-31 |
DE69635141T2 (de) | 2006-03-09 |
DE69635141D1 (de) | 2005-10-06 |
US5806022A (en) | 1998-09-08 |
EP1093112A2 (en) | 2001-04-18 |
EP0780828A2 (en) | 1997-06-25 |
CA2192397A1 (en) | 1997-06-21 |
EP1093112A3 (en) | 2002-02-06 |
DE69616724D1 (de) | 2001-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4050350B2 (ja) | 音声認識をする方法とシステム | |
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
EP0722164B1 (en) | Method and apparatus for characterizing an input signal | |
RU2507608C2 (ru) | Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик | |
US5450522A (en) | Auditory model for parametrization of speech | |
US7181402B2 (en) | Method and apparatus for synthetic widening of the bandwidth of voice signals | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US7379866B2 (en) | Simple noise suppression model | |
KR101378696B1 (ko) | 협대역 신호로부터의 상위대역 신호의 결정 | |
EP1252621B1 (en) | System and method for modifying speech signals | |
JP3963850B2 (ja) | 音声区間検出装置 | |
US10832696B2 (en) | Speech signal cascade processing method, terminal, and computer-readable storage medium | |
JPH0916194A (ja) | 音声信号の雑音低減方法 | |
CN108172231A (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
EP2346032A1 (en) | Noise suppression device and audio decoding device | |
US6701291B2 (en) | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis | |
US6965860B1 (en) | Speech processing apparatus and method measuring signal to noise ratio and scaling speech and noise | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
JP3520430B2 (ja) | 左右音像方向抽出方法 | |
JPH07146700A (ja) | ピッチ強調方法および装置ならびに聴力補償装置 | |
CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
JP2003316380A (ja) | 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム | |
CN117392993A (zh) | 一种基于mfcc和短时能量实现的语音处理方法及系统 | |
MXPA96006483A (es) | Metodo y sistema para realizar reconocimiento de habla | |
JP2997668B1 (ja) | 雑音抑圧方法および雑音抑圧装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040322 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040622 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040629 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050311 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050513 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050603 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071129 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131207 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |