JPH11511567A - パターン認識 - Google Patents

パターン認識

Info

Publication number
JPH11511567A
JPH11511567A JP9509978A JP50997896A JPH11511567A JP H11511567 A JPH11511567 A JP H11511567A JP 9509978 A JP9509978 A JP 9509978A JP 50997896 A JP50997896 A JP 50997896A JP H11511567 A JPH11511567 A JP H11511567A
Authority
JP
Japan
Prior art keywords
pattern
input signal
noise
language
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9509978A
Other languages
English (en)
Inventor
ダウニー、サイモン・ニコラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH11511567A publication Critical patent/JPH11511567A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)
  • Traffic Control Systems (AREA)

Abstract

(57)【要約】 パターン認識装置には認識プロセッサ(3)があり、入力信号を処理して、認識することになる基準パターンの許されたシーケンスに対しての類似度を示すために入力信号を処理する。言語認識プロセッサ(3)は分類手段(36,37)を含み、該入力信号に対応するパターンのシーケンスを識別し、その入力信号を繰返し区分して、言語を含む部分と、この部分に先行するかもしくは続くかあるいはその両方の部分で雑音もしくは静粛部分とする。雑音モデル生成器(35)が用意されて、雑音もしくは静粛部分のパターンを生成して、パターン識別目的用に前記分類手段(36,37)によって後に使用するためとする。この雑音モデル生成器は、入力信号の各雑音部分に対する雑音モデルを生成し、基準パターンを最適化するために使用できるようにする。

Description

【発明の詳細な説明】 パターン認識 この発明は、パターン認識システム、例えば言語認識あるいは画像認識システ ムに関する。 実用的な言語認識システムは毎日の使用で出逢うことになる違った環境条件の 範囲内で動作可能であることが求められる。一般に、この種のシステムの最良性 能は特殊環境に合わせて設計された同等な認識器の性能よりも悪いが、このよう な認識器の性能は、その認識器が設計された環境から背景状態が離れるにつれて 著しく劣悪なものとなる。周囲雑音が高レベルであることは自動言語認識プロセ ッサにとっての主要な問題の1つである。周囲雑音源には背景の話声、事務所装 置、交通、機械のハム音などがある。移動電話が関係する雑音でとくに問題のソ ース(源)は電話がその中で使われている車から発せられるものである。これら の雑音源はときとして大きな音響雑音を送出して言語認識プロセッサに著しい性 能劣化をもたらすのに十分なほどとなる。 画像処理、例えば手書きの認識では、使用者は普通は非常にはっきりと書いて 、システムが入力手書きを認識するようにする。人が書いたものでの異常はシス テムが頻繁に読み違いを起こすようにする。 言語認識処理で共通なことは、言語データを、一般的には、ディジタル形式で プロセッサに入力して、そこでは入力言語データの流れからもっとコンパクトで 、知覚的には重要なデータの組であって、特徴群(組)とかベクトルと呼ばれる ものを抽出している。例えば、言語は一般にマイクロホンを経て入力され、サン プルされ、ディジタイズされ、長さ10―20ms(例えば8kHzでサンプル して)のフレームに区分化(セグメントと)され、かつ各フレームに対して一組 の係数が計算される。言語認識では、話者は通常は既知の組の単語又は語句(フ レーズ)で認識者のもついわゆる語彙の1つを話していると考えている。単語ま たは語句の記憶されている表現でテンプレート又はモデルとして知られているも のは、その単語の基準特徴マトリックスで前に複数の話者から、話者独立形認識 の場合に、抽出したものを含んでいる。入力特徴ベクトルはモデルと整合され2 つの間の類似性の尺度が作られる。 広帯域雑音の存在下では、低い方のレベルにある言語スペクトラムのある種の 領域が他のよりも雑音によりより大きな影響を受ける。雑音をマスクする技術が 開発されてきており、その中には異なる背景雑音レベルに起因するスプリアス差 が除去されるものがある。論文“A digital filter bank for spectral matchin g”by D H Klatt,Proceedings ICASSP 1976,pp.573-576に記述されているように 、このことを達成するのに、ある入力信号について各抽出した特徴のレベルを雑 音の推定値と比較して、もしある入力特徴に対するレベルが雑音推定値の対応す る特徴よりも低いのであれば、その特徴に対するレベルが雑音レベルに設定され る。Klattによって記述された技術は、各セッションの始めに所定の語句を使用 者が話すことに依存する。入力から抽出されたスペクトラムは、その語句に対す るモデルスペクトラム及び計算された正規化スペクトラムでそのセッションの残 りについての話声の全スペクトラムフレームに加えられるものと比較される。 Klattはまた正規化スペクトラム計算に先立って、共通の雑音フロア(niose f loor)が計算されるべきであるとも述べている。これは各セッションの始めに、 背景雑音の1秒サンプルを記録することによって達成される。しかしながら、こ のやり方は次のことを知っている使用者に依存している。すなわち、雑音フロア 推定期間中は静粛を保ち、その後に正規化スペクトラムの計算用に所定の語句を 話すということを知っていることである。 論文“Noise Compensation for speech recognition using probabilistic mo dels”by J N Holmes & N C Sedgwick Proceedings ICASSP,1986には入力信号の 特徴が雑音レベルによって“マスクされる”のは、結果として生じたマスクされ た入力特徴がそのシステムのテンプレートの対応する特徴のレベルよりも大きい ときに限られるということが示唆されている。 これらの方法の双方とも干渉する雑音信号の推定を必要とする。この推定を得 るためには使用者にとって静粛を保ちかつセッション内の特定点で所定の語句を 話すことが必要とされる。このようなやり方は自動言語認識を用いる生のサービ スには明らかに不適当であり、その理由は使用者がいつも協力的であることに頼 れないことである。 欧州特許出願番号62577は言語検出装置に係り、この装置では言語者のモ デル(フォニーム)が訓練用データからオフラインで生成される。ある入力信号 が次に各モデルと比較され、その信号が言語を含むかどうかの判断が比較をもと にされる。したがってこの装置は、ある入力信号がいずれかのフォニームを含む か否かを判断し、もし含めば、その入力信号が言語を含むと判断する。このフォ ニームモデルは大多数の話者からオフラインで生成されて、話者の側面について のよい表現を用意する。 日本国特許公報番号1−260495は音声認識システムを記述しており、こ こでは一般的な雑音モデルが形成されるがここでもオフラインである。認識の開 始時に、入力信号がすべての一般的な雑音モデルと比較されて、入力信号の特性 と一番近い雑音モデルが識別される。識別された雑音モデルは次に一般的なフォ ニームモデルを適合させるのに使かわれる。この技術は恐らくは雑音モデルが識 別されている期間に対して使用者が静粛にしていることに依存する。もし使用者 が話すことになると、一番近い整合モデルは依然識別されるが、実際の雑音があ るのとはほとんど似ていないことになろう。 日本国特許公報番号61−100878は雑音減殺/マスクがけ技術を利用す るパターン認識に関する。適応性雑音マスクが使用される。入力信号が監視され 、もし特性パターンが認識されると、これが雑音と同定される。雑音として同定 された信号の部分はマスクされ(すなわち零振幅をもつようにされ)て、マスク された入力信号がパターン認識装置へ入力される。雑音を識別するために使用さ れる普通の特性パラメータはこの特許出願では特定されていない。 欧州特許出願番号594480はとくにエビオニクス(航空関係電子工学)環 境で使用するために開発された言語検出方法に関する。この方法の目的は言語の 始めと終りとを検出し、間の信号をマスクすることである。これもまた言語が始 まる前にとった雑音の推定によって信号がマスクされるという良く知られたマス クがけ技術と似ており、認識はマスクがけした信号について行なわれる。 この発明によると、言語認識装置の構成は: 認識すべき言語と非言語音とを表わす基準パターンのメモリと; 入力信号に対応する基準パターンのシーケンスを識別し、識別されたシーケン スに基づいて入力信号を繰返し区分して少くとも1つの言語を含む部分と少くと も1つの非言語部分とするための分類用手段と; 非言語部分に対応する雑音パターンを生成して、パターン識別目的用の前記分 類用手段で後に使用するようにするための雑音パターン発生器と; 識別されたシーケンスに依存して入力信号の認識を示す認識信号を供給すする ための出力手段とを含む。 したがって、入力信号の1部から生成された雑音パターンは直接の言語とは考 えられず、現在の入力信号に対する干渉をする雑音パラメータの推定を表わして いる。この雑音パターン発生器は言語と考えられる信号の各部分の後の雑音表現 パターンを生成するようにされており、一番新しい雑音パターンが前に生成され た雑音パターンを置換えるようにしているのがよい。 雑音表現パターン生成器は、もとの基準パターンを生成するために使用された のと同じ技術によって雑音表現パターンを生成するようにされているのがよい。 このようなやり方は、もとの基準パターンが生成された雑音パターンによって適 合されるようにする。単語(ワード)モデルを適応させるための技術の例は、“ HMM recognition in noise using parallel model combination”by M J F Gale s and S J Yong,Proc.Eurospeech 1993 pp.837-840に記述されている。 ここで単語(ワード)という用語は言語単位を示し、単語であってよいし、そ れにジフォーン(diphone)、フォニーム(phoneme)、同じフォニームに属する音で ある異音(allophone)などであってもよい。基準パターンは隠れたマルコフモデ ル(HHMs)、ダイミッミック・タイム・ワープト(DTW)モデル,テンプ レート又は他の適切な単語表現モデルであってよい。あるモデル内部で生ずる処 理はこの発明に関する限りはお構いなしである。認識は未知の発声を予め定義し たトランジション網(基準パターンの遷移ネットワーク)と整合させるプロセス であり、ここでこの網は使用者が言いそうなことと両立性があるように設計され ている。 この発明を第2の視点でとらえると、パターン認識方法であって: 複数の基準パターンの各々と入力信号を比較すること; 入力信号と対応する基準パターンのシーケンスを識別しかつ識別したシーケン スに依存して入力信号の認識を表示すること; 許容できる基準パターンと対応しないと考えられる入力信号の部分を識別する こと; 許容できる基準パターンに対応しないと識別される入力信号の部分から、後続 の比較で使用するための追加の基準パターンを生成することを含んでいる。 この発明を別な視点でとらえると、パターン認識装置が提供されており、その 構成は: 基準パターンのメモリと; 基準パターンの各々と入力信号の継続する部分とを比較し、各部分に対してそ の部分と最もよく整合する基準パターンを識別するための比較手段と; 入力信号と対応していると考えられる基準パターンのシーケンスに基づいて入 力信号の認識を示す信号を出力するための出力と; 許容できる基準パターンと対応しないと考えられる入力信号の部分を識別する ための手段と; 入力信号の識別された部分から比較手段による後の使用のために基準パターン を生成するための手段とを含む。 許容できるパターンは認識器の語彙の単語(上述の定義による)を表現しても よい。“許容できない”基準パターンは非言語音、例えば機械音、街路音、車の エンジン音などを表わすのがよい。一般的な言語音を表わす基準パターンも用意 される。したがって、許容できる基準パターンと密接に整合しない入力信号のど の部分も追加の基準パターンを生成するために使用してよい。 この発明を例として、添付の図面を参照して記述して行く。 ここで、図1は遠隔通信環境で対話形自動言語システムにおいてこの発明による パターン認識装置を採用するところを模式的に示している。 図2はこの発明の言語認識装置の機能素子を示す。 図3は図2の言語認識装置の部分を形成する分類器プロセッサの機能素子を模 式的に示すブロック図である。 図4は図2の言語認識装置を部分を形成するシーケンサの機能素子を模式的に 示すブロック図である。 図5は図4の部分を形成するメモリ内のフィールドを模式的に表現したもので ある。 図6は図4のシーケンサにより実行される区分化を示す。 図7はローカルな雑音モデルの生成のための流れ図である。 図8は認識網の模式的表現である。 図9はこの発明の言語認識装置と一緒に使用するための雑音モデル生成器の第 2の実施例を示す。 図10は各種の認識システムの相対的な性能を示す。 統計的な信号モデル化についての1つの既知のやり方は隠れたマルコフモデル (NMMs)を使う。それについては“Hidden Markov Models for Automatic S peech Recognition :Theory and Application”by S J Cox,British Telecom T echnology Journal,April 1988,Vol.6,No.2pp.105-115に記載されている。この 発明はHMMsの使用に関連して記述される。しかしこの発明は統計的モデルに 限定されない:適当なパターン認識のやり方であれば使うことができる。HHM sの理論と実用上の構成とは言語認識技術ではよく知られており、ここでは深く は記述しない。 図1を参照すると、遠隔通信システムには言語認識が含まれており、一般にそ の構成はマイクロホン1(一般に電話ハンドセットの部分を形成している)、遠 隔通信網2(一般に公衆交換遠隔通信網(PSTN))、言語認識プロセッサ3 で網2から音声信号を受取るように接続されたもの、及び利用するための装置4 (これは言語認識プロセッサ3に接続され、そこから音声認識信号をうけるよう にされており、この信号は認識かさもなければ特定の単語又は語句(フレーズ) を示すものであり、しかも装置4はそれに応答して動作をするようにされている )とを含んでいる。例えば利用するための装置4は銀行取引に実効を得るための 遠隔操作の銀行用端末でよい。 多くの場合に利用するための装置4は使用者に対して可聴応答を生成し、網2 を経て使用者のハンドセットの一部を成すのが普通とされるラウドスピーカ5へ 送られることになる。 動作時には、使用者はマイクロホン1に話しかけて、信号がマイクロホン1か ら網2へそして言語認識プロセッサ3へ送られる。言語認識プロセッサは言語信 号を解析し、認識を示す信号かさもなければ特定の単語又は語句が生成されて利 用するための装置4に送られ、そこでは次に言語の認識の場合には適当な動作を とることになる。 言語認識プロセッサ3はマイクロホン1から網2へ向うかそこを通る信号が採 るルートについては知っていない。ハンドセットの形式とか品質については各種 の違ったものからの1つをとって使用してよい。同様に網2の内部では、伝送経 路の多くの種類のものから1つを採ってよく、そこには無線リンク、アナログ及 びディジタル経路等々が含まれていてよい。従って、言語認識プロセッサ3に到 達する言語信号Yはマイクロホン1で受けた言語信号Sに対応し、マイクロホン 1、網2に至るリンク、網2を通るチャンネル、及び言語認識プロセッサ3に至 るリンクの伝達特性(変換特性)でコンボリューションがとられたものである。 ここで伝達特性は単一の伝達特性Hで集中して示されてもよい。 図2を参照して、認識プロセッサ3は入力31があってディジタル形式で(デ ィジタル網かアナログ/ディジタル変換器かのいずれかから)言語を受け、フレ ーム生成器32があってディジタルサンプルのシーケンスを連らなったサンプル のフレームシーケンスに区分する。特徴抽出器33はサンプルのフレームから対 応する特徴ベクトルを生成する。雑音表現モデル生成器35は入力信号のフレー ムを受けて、そこから雑音表現モデルを生成する。分類器36は特徴ベクトルの 列を受取って、各々を複数のモデルと比較して、認識結果を生成する。シーケン サ37は分類器36から分類結果を受取り、また分類器出力のシーケンスが最大 の類似性を示すような所定の発声を判断する。出力ポート38には認識信号が供 給され、それが認識された言語発声を示すものとなっている。 フレーム生成器32 フレーム32は、例えば8,000サンプル/秒のレートで言語サンプルを含 む言語信号を受領して、256の連らなったサンプル(すなわち言語信号32m 秒)を毎16m秒で1フレームのフレームレートで含むようなフレームを形成す る。各フレームは窓がけされており(すなわち、所定の重み付け定数によって、 フレームのエッジに対してサンプルが乗算されている)、例えばHamming窓を用 いて、フレームのエッジにより生成されたスプリアスの人為物が減殺されている 。 好適実施例では、フレームはオーバーラップ(50%だけ)がされているので、 窓がけの効果が改善されている。 特徴抽出器33 特徴抽出器33はフレーム生成器32からフレームを受領して、各場合につい て特徴の組ないしはベクトルを生成する。この特徴は例えば、セプストラル係数 (訳者注:信号の複素セプストラムは信号スペクトラムの対数のフーリエ変換と 定義される)もしくはこのような係数の差分値を含んでいてよい。セプストラル (cepstral)係数は例えば線形予測コーデング(LPC)セプストラル係数、も しくはメル(mel)周波数セプトラル係数(MFCC)であり、(訳者注:メル周 波数目盛りは人間の聴覚系の応答を近似するように設計された周波数軸のワープ すなはちゆがみである)“On the Evaluation of Speech Recognisers and Data bases using a Reference System”,Chollet & Gagnoulet,1982 Proc.IEEE p.20 26に記載されているところによる。このような係数の差分値は、各係数に対して 、この係数と、先行するベクトル内の対応する係数値との差で成り、On the use of Instantaneous and Transitional Spectral Information in Speaker Recog nition”,Soong & Rosenberg,1988 IEEE Trans.on Acoustics,Speech and Signa l Processing Vol.36 No.6p.871に記載されているところによる。特徴係数のい くつかの形式のものを混合したものも等しく使用してよい。 最後に、特徴抽出器33はフレーム番号を出力し、各継続するフレームに対し て増分して行く番号とする。特徴ベクトルは分類器36と雑音モデル生成器35 に入力される。FIFOバッファ39は特徴ベクトルをバッファしてから雑音モ デル生成器35に送る。 フレーム生成器32と特徴抽出器33とは、この実施例では、単一の適切にプ ログラムされたディジタル信号プロセッサ(DSP)デバイス(MotorolaTMDSP 56000又はTexas InstrumentsTMTMS C 320)又はその類似デバイスで用意されて いる。 分類器36 図3を参照して、この実施例では、分類器36は分類用プロセッサ361と状 態メモリ362とを含む。 状態メモリ362は認識されることになる複数の言語ユニット、例えば異音の 各々に対する状態フィールド3621,3622....などで成る。例えば、認識 プロセッサによって認識されることになる各異音は3つの状態で成るHMMによ って表わされ、したがって3つの状態フィールド3621a,3621b,36 21cが状態メモリ362内に用意されて、各異音に対するパラメータを記憶す るようにしている。 状態フィールドは関連する異音を表わすHMMの状態を定義するパラメータを 記憶し、これらのパラメータはデータの訓練用の組から通常の方法で決定された ものである。状態メモリ362はまた状態フィールド362n内に平均ライン雑 音の推定をモデル化するパラメータを記憶し、この推定は例えば複数の電話呼か らの信号か通常の方法でらオフライン生成される。 分類プロセッサ36はそこへのフレーム入力の各々に対してメモリ362内部 の各状態フィールドを順に読取るようにされていて、現在の入力特徴係数の組を 用いて、各々に対して確率Piを計算する。この確率は入力特徴組又はベクトル が対応すする状態と対応している確立である。 したがって、分類プロセッサの出力は複数の状態確率Piであり、状態メモリ 362内の各状態に対して1つあり、入力特徴ベクトルが各状態に対応する類似 度を示している。 分類用プロセッサ361は適当にプログラムされたディジタル信号処理用(D SP)デバイスであってよく、とくに特徴抽出器33と同じディジタル信号処理 用デバイスであってよい。 シーケンサ37 図4を参照して、シーケンサ37はこの実施例では状態シーケンサメモリ37 2、解剖用プロセッサ371、及びシーケンサ出力バッファ374を含む。 また状態確率メモリ373が備えてあり、これが処理された各フレームに対し て、分類器プロセッサ361の出力を記憶する。状態シーケンスメモリ372は 複数の状態シーケンスフィールド3721,3722,…で成り、各々が認識さ れることになる単語又は語句シーケンスに対応し、異音と雑音のシーケンスで成 る。 状態シーケンスメモリ372内の各状態シーケンスは図5に示すように、多数 の状態S1,S2,…SNと、各状態に対して2つの確率とを含んでいる。確率の 1つは繰返し確率(Pii)で、他は後続の状態への遷移確率(Pi i+1)である 。このシーケンスの状態は3つの状態の複数の群であり、その各々が単一の異音 に関係しており、また適切である場合は雑音に関係している。一連のフレームと 関係している状態について観測されたシーケンスは、したがって、各状態シーケ ンスモデル372i等で各状態Siのいくつかの繰返しを含み、例えば次の通り 。 解剖用プロセッサ371は、各フレームで、状態確率メモリ373内に記憶さ れている状態確率を読んで、時間に沿って現在までの最もありそうな状態の進路 を計算し、これを状態シーケンスメモリ372内に記憶されている状態シーケン スの各々と比較する。例えば、状態シーケンスは電話ディレクトリィ内の名前と か桁の意図(ストリング・オブ・ディジット)で成るものでよい。 この計算はよく知られている隠れたMarkovモデル方法(上記のCox論文記載に よる)を採用する。都合のよいことに、HMM処理で解剖用プロセッサ371に より実行されるものは、よく知られたViterbiアルゴリズムを使用する。解剖用 プロセッサ371は例えばIntelTMのi−486TMマイクロプロセッサ又はMotor olaTM68000マイクロプロセッサであってよく、あるいは代ってDSPデバ イス(例えば、前に登場したプロセッサとして採用されたのと同じDSPデバイ ス)でもよい。 したがって、各状態シーケンス(認識されることになる単語、語句もしくは他 の言語シーケンスに対応している)に対して、確率の評点(スコア)は解剖用プ ロセッサ371によって入力言語の各フレームに対して出力され、出力バッファ 374内に記憶される。したがって、バッファ374は、入力信号の各フレーム に対し、また各シーケンスに対して、確率評点と、フレーム番号の記録と、確率 評点が関係している状態モデルの記録とを含んでいる。発声の終りが検出された ときは、最もありそうな状態シーケンスを示すラベル信号がバッファから出力ポ ート38へ出力されて、対応する名称、単語もしくは語句が認識されたことを示 す。 シーケンサプロセッサはそこでバッファ374内に含まれている情報を調べて 、フレーム番号を用いて、言語認識装置の語彙の中にあると認識された入力信号 の部分(以後言語部分と言う)と、その語彙内にあるとは考えられない入力信号 の部分(以後“雑音部分”と言う)とを識別する。これが図6に示されている。 シーケンサ37はそこでこういった雑音部分を構成しているフレーム番号を雑音 モデル生成器35に送り、そこでは次にローカルな雑音モデルを生成する。シー ケンサ37は入力信号の言語部分と考えられたところのいずれかの側部にいくつ かのフレーム(例えば3つ)の安全マージンを用意して、Viterbi認識アルゴリ ズムによって言語部分の終りを指定することの不正確さが原因して、言語データ が雑音部分に含まれないようにされている。例えば6つの連続しているフレーム の最小の拘束条件もまた雑音部分を定義するために適用される。これはスプリア スフレーム(モデル化した雑音と似たものとして現れる)がローカル雑音モデル を生成するために使用されないように抑制する。 雑音モデル生成器35 シーケンサ37によって識別された入力信号の雑音部分内に含まれるフレーム に対する特徴ベクトルはバッファ39から雑音モデル生成器35へ入力される。 雑音モデル生成器はHMMを定義するパラメータを生成し、それがそこに入力さ れた特徴ベクトルをモデル化する。雑音表現モデル生成器35は単一の状態をも つHHMを生成するようにされているが、他のパラメータ全部(遷移確率、モー ドの数など)は変動してよい。 雑音モデルは図7に示した通常のクラスタ化アルゴリズムを用いて生成される 。このようなアゴリズムは“Algorithm for vector quantiser design”by Y Li nde,A Buzo and R M Gray,IEEE Trans Com-28 January 1980に記述されている。 入力データは計算されることになる状態の数によって均一に区分化され、特定の ラベル(すなわちHMMの状態)の全区分(セグメント)がプールされる。クラ スタの数が次に各状態に対するモードの数と関係して選ばれる。あるプール内の 各ベクトルはその中心が一番近いものであるようなプールクラスタ(状態平均) にユークリッド距離計量を用いて割当てられる。一番大きな平均距離をもつクラ スタは次に分割され、この一番ルーズな(厳密さを欠いた)クラスタは基調をな している分布の一番弱い表現であると仮定される。この分割はクラスタの中心ベ クトルを例えば標準偏差±0.1もしくは±0.5だけ攝動させて得られる。全 データベクトルは次にクラスタの新しい組に再割当てされて、クラスタ中心が再 計算される。再割当て/再計算ループはクラスタが収束するか、クラスタ反復の 最大数に到達するまで繰返えされる。次にHMMパラメータはこの推定ディジタ ルをモデル化するために計算される。雑音モデル生成器35によって作られた雑 音モデルは分類器36に送られ、後続の認識のために状態メモリ362内に記憶 される。 上記説明のよう、解剖用プロセッサ371は、例えばディジットのストリング といったある種の語句又は単語群を認識するためにとくに構成された状態モデル のシーケンス(3721,3722…)と関係している。状態モデルのこのよう ななシーケンスは単純化された形式で例えば図8に示したような認識網として表 現してもよい。 図8は3つのディジットのストリングを認識するように設計されたら認識網8 2を示す。実用上、ディジットは図6に関連して論じたように異音のストリング によって表現される。しかしながら、簡単にするために、図8の網はノード84 のストリングとして示され、その各々は全体のディジットを表わしている。ディ ジットのストリングはいずれの側部も雑音ノード86,88で境が作られている 。網の各ノード84,86,88はそのノードのディジットを表わしているモデ ルと関係しており、言い換えると、ノード841は単語“one(1)”を表わすモデ ル関係し;ノード842は単語“two(2)”を表わすモデルと関係し;ノード843 は単語“three(3)”を表わすモデルと関係し(以下同様)ている。最初は、雑音 ノード86と関係した、予め生成されたライン雑音モデルだけが、従来と同じよ うに、使用可能である。ディジット1―9、nought(零)、zero(零)、“oh” (零)及びライン雑音はHMMsを定義するパラメータとして状態メモリ362 内に記憶される。雑音ノード88と関係して、雑音モデル生成器35によって生 成される雑音モデルはまた状態メモリ362内に記憶される雑音専用経路89も 用意されている。 言語認識は次のように動作する。入力信号はフレーム生成器32によってデー タのフレームに分けられる。特徴抽出器33はデータの各フレームから特徴ベク トルを生成する。分類器36は入力信号のベクトルの特徴を状態フィールドメモ リ362内に記憶された各状態フィールド(又はモデル)と比較して、上述のよ うに複数の確率を出力する。シーケンサ37は次に入力と許容できる状態のシー ケンスとの間の整合がどのくらい近いかを示す評点を出力して、どの状態のシー ケンスが一番近い整合かを判断する。一番近い整合を提供するシーケンスは装置 によって認識された言語を表わすものと考えられる。 このシーケンサは信号の雑音部分を表わすと考えられる入力信号のフレームを 識別する。この情報は雑音モデル生成器35に送られ、そこでは特徴抽出器から 識別されたフレームについての特徴ベクトルを受取って、そこへ入力された特徴 ベクトルをモデル化する単一状態HHMs用パラメータを計算する。 一度雑音モデル生成器がローカルな雑音を表わすモデルのパラメータを生成し たときは、これらのパラメータ(“ローカルな雑音モデル”)は状態メモリ36 2の状態フィールド内に記憶される。第2の認識過程が次にこのローカルな雑音 モデルを用いて同じ入力信号について実行される。後続の認識過程は次いで図8 に模式的に示したように、ライン雑音モデルとローカル雑音モデルとの両方を使 用する。 この発明による1実施例の装置の有効性を評価するためにした実験では著しい 改良が達成されることを示した。“最適性能”または“整合した”システムで、 入力信号が人手によって言語と雑音部分とに分けられたものに対しては、そこへ の入力単語群の96.01%を正しく認識した。一般化したライン雑音モデルだ けを用いたシステムでは単語群の92.40%を正しく認識した。この発明によ る装置で、ローカルな雑音の単一の推定が呼当り生成され、また単一モード、単 一状態HMMが計算されたものでは、使用者の話声の94.47%を正しく認識 した。 この発明の別な実施例によると、入力信号の各言語部分の後で新しいローカル な雑音モデルが生成され、かつ状態メモリ362内に先のローカルな雑音モデル に書き加える(オーバーライテング)ものとした。これは雑音モデルが一層現実 的で、変化しつつある可能性のある状態であり、例えば電話呼のようなセッショ ンの開始での雑音のサンプルから得られるのではないことを意味している。 ローカルな雑音の推定は単語表現モデルを適合させるために使用してもよい。 これは比較的直線的な技術であり、その理由は周辺の雑音は通常は加算形であり 、言い換えれば、入力信号は言語信号と周辺雑音との和となるからである。 2つの単語表現モデルの適合は線形フィルタバンク領域で実行される。図9は 適合化の段階を示す。この実施例では、各単語表現モデルもしくは状態で状態フ ィールドメモリ362内に記憶されているものは複数のメル(mel)周波数セプ ストラル(cepstral)係数(MFCCs)(91)含み、これがメル周波数領域 内で単語群の典型的な話声を表わしている。単語モデルの各セプストラル係数は セプストラル領域から周波数領域へと変換されるが、これにはたとえば、セプス トラル係数について逆離散的余弦変換(DCT)を実行し、次に逆対数をとって 、周波数係数をとることによって変換がされる。推定されたローカルな雑音モデ ル特徴ベクトル(93)は雑音モデル生成器35によって生成され、次に単語モ デルの周波数係数に加算される(94)。結果として生じたベクトルの対数が次 に離散的余弦変換(DCT)によってセプストラル領域に戻る変換がされて、適 合化した単語モデル(96)を作り、また適合化したモデルが分類器36の状態 メモリ362内に記憶される。結果として得られた適合化された単語表現モデル は整合した状態をシミュレートする。もとの単語表現モデル(91)は後に生成 された雑音表現モデルによって適合化されて、新しい適合化されたた単語表現モ デルを作るために保存される。 図10は単語表現モデルの適合化と共働するこの発明による言語認識装置の性 能を示す。結果として示されているのは、“整合した”システムと、この発明に より“適合化した”システムと、(上述のような)“マスクした”システムと、 “減殺した”システム(S Boll IEEE Trans.ASSP April 1979 p.113“Suppressi on of acoustic noise in speech using spectral subtraction”の記述による )と、未補償のシステム、すなわち一般的なライン雑音モデルを備えているが、 それ以上の補償のないシステムとである。この発明がもたらす利点がはっきりと 認 められ、この発明によるシステムの性能は雑音をマスクしたシステムよりも10 %以上精度があり、10dBの信号対雑音比(SNR)でスペクトル減殺システ ムよりも26%以上精度がある。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GE,H U,IL,IS,JP,KE,KG,KP,KR,KZ ,LK,LR,LS,LT,LU,LV,MD,MG, MK,MN,MW,MX,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,TJ,TM ,TR,TT,UA,UG,US,UZ,VN

Claims (1)

  1. 【特許請求の範囲】 1.認識されることになる言語と非言語音とを表わす基準パターンのメモリ( 362)と; 入力信号に対応する基準パターンのシーケンスを識別し、かつ、識別したシー ケンスに基づいて、入力信号を少くとも1つの言語を含む部分と少くとも1つの 非言語部分とに繰返し区分するための分類手段(36,37)と; 非言語部分に対応する雑音パターンを生成して、パターン識別目的に該分類手 段(36,37)によって後に使用するようにするための雑音パターン生成器( 35)と; 識別したシーケンスに依存した入力信号の認識を示す認識信号を供給するため の出力手段(374)とを備えた言語認識装置。 2.前記雑音パターン生成器(35)は言語信号の各非言語部分からパターン を生成するようにされている請求項1記載の言語認識装置。 3.前記雑音パターン生成器(35)は入力信号の非言語部分の継続期間が、 予め定めた継続期間以上であるときに限り雑音パターンを生成するようにされて いる請求項1又は2記載の言語認識装置。 4.前記雑音パターン生成器35は非言語部分から隠れたマルコフ(Markov) モデルのためのパラメータを計算するものである請求項1ないし3のいずれか1 項記載の言語認識装置。 5.生成された雑音パターンに応答して言語基準パターンを適合させるために 適合手段が備えられている前記請求項1ないし4のいずれか1項記載の言語認識 装置。 6.前記雑音パターン生成器が請求項4に記載のものであり、かつ、 前記適 合手段が各言語基準パターンに対する隠れたマルコフモデルに対して雑音パター ンの平均を加えるようにされている請求項5記載の言語認識装置。 7.複数の基準パターンの各々と入力信号を比較し; 該入力信号に対応する基準パターンのシーケンスを識別し、かつ 識別したシーケンスに依存して入力信号の認識を示し; 許容される基準パターンに対応しないと考えられる入力信号の部分を識別し; 許容される基準パターンに対応しないと識別される入力信号の部分から後の比 較で使用するための追加の基準パターンを生成することで成るパターン認識の方 法。 8.基準パターンのメモリと; 入力信号の継続する部分を該基準パターンの各々と比較して、各部分に対して 、その部分と一番近く整合する基準パターンを識別する比較手段と; 入力信号に対応すると考えられる基準パターンのシーケンスを示す信号を出力 するための出力と; 許容される基準パターンに対応しないと考えられる入力信号の部分を識別する ための手段と; 入力信号の識別された部分から基準パターンを生成して比較手段による後の使 用にあてるための生成用手段とから成るパターン認識装置。 9.許容される基準パターンに対応しないと考えられる入力信号の各部分から 基準パターンが生成される請求項8記載のパターン認識装置。 10.許容される基準パターンが言語音を表わし、入力信号が言語を表わすもの である請求項8又は9に記載のパターン認識装置。
JP9509978A 1995-08-24 1996-08-23 パターン認識 Pending JPH11511567A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP95305982 1995-08-24
EP95305982.1 1995-08-24
PCT/GB1996/002069 WO1997008684A1 (en) 1995-08-24 1996-08-23 Pattern recognition

Publications (1)

Publication Number Publication Date
JPH11511567A true JPH11511567A (ja) 1999-10-05

Family

ID=8221302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9509978A Pending JPH11511567A (ja) 1995-08-24 1996-08-23 パターン認識

Country Status (12)

Country Link
US (1) US6078884A (ja)
EP (1) EP0846318B1 (ja)
JP (1) JPH11511567A (ja)
KR (1) KR19990043998A (ja)
CN (1) CN1199488A (ja)
AU (1) AU720511B2 (ja)
CA (1) CA2228948C (ja)
DE (1) DE69616568T2 (ja)
HK (1) HK1011880A1 (ja)
NO (1) NO980752L (ja)
NZ (1) NZ316124A (ja)
WO (1) WO1997008684A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6594392B2 (en) * 1999-05-17 2003-07-15 Intel Corporation Pattern recognition based on piecewise linear probability density function
US6480824B2 (en) * 1999-06-04 2002-11-12 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for canceling noise in a microphone communications path using an electrical equivalence reference signal
US7080314B1 (en) * 2000-06-16 2006-07-18 Lucent Technologies Inc. Document descriptor extraction method
JP4590692B2 (ja) 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US7003450B2 (en) * 2000-10-20 2006-02-21 Pts Corporation Methods and apparatus for efficient vocoder implementations
US20020113687A1 (en) * 2000-11-03 2002-08-22 Center Julian L. Method of extending image-based face recognition systems to utilize multi-view image sequences and audio information
US6801656B1 (en) 2000-11-06 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for determining a number of states for a hidden Markov model in a signal processing system
US7308400B2 (en) * 2000-12-14 2007-12-11 International Business Machines Corporation Adaptation of statistical parsers based on mathematical transform
US6952669B2 (en) * 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
US6721282B2 (en) 2001-01-12 2004-04-13 Telecompression Technologies, Inc. Telecommunication data compression apparatus and method
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
WO2004021273A2 (en) * 2002-08-29 2004-03-11 Paul Rudolf Associative memory device and method based on wave propagation
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
US7133825B2 (en) 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
US8117032B2 (en) * 2005-11-09 2012-02-14 Nuance Communications, Inc. Noise playback enhancement of prerecorded audio for speech recognition operations
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9666204B2 (en) 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10332520B2 (en) 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
GB2216320B (en) * 1988-02-29 1992-08-19 Int Standard Electric Corp Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same

Also Published As

Publication number Publication date
DE69616568D1 (de) 2001-12-06
NZ316124A (en) 2000-02-28
AU6828596A (en) 1997-03-19
CN1199488A (zh) 1998-11-18
DE69616568T2 (de) 2002-07-11
CA2228948A1 (en) 1997-03-06
NO980752D0 (no) 1998-02-23
WO1997008684A1 (en) 1997-03-06
NO980752L (no) 1998-02-23
EP0846318B1 (en) 2001-10-31
MX9801401A (es) 1998-05-31
EP0846318A1 (en) 1998-06-10
KR19990043998A (ko) 1999-06-25
AU720511B2 (en) 2000-06-01
HK1011880A1 (en) 1999-07-23
CA2228948C (en) 2001-11-20
US6078884A (en) 2000-06-20

Similar Documents

Publication Publication Date Title
JPH11511567A (ja) パターン認識
Murthy et al. Robust text-independent speaker identification over telephone channels
US6389395B1 (en) System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition
US5791904A (en) Speech training aid
JP3434838B2 (ja) ワードスポッティング法
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
JPH075892A (ja) 音声認識方法
JPH10307593A (ja) 話者認証用確率的マッチング方法
KR20010102549A (ko) 화자 인식 방법 및 장치
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
EP0685835B1 (en) Speech recognition based on HMMs
US7212965B2 (en) Robust parameters for noisy speech recognition
Singh et al. A critical review on automatic speaker recognition
Kasuriya et al. Comparative study of continuous hidden Markov models (CHMM) and artificial neural network (ANN) on speaker identification system
Juang et al. Deployable automatic speech recognition systems: Advances and challenges
JPH10254473A (ja) 音声変換方法及び音声変換装置
Nishida et al. Speaker indexing and adaptation using speaker clustering based on statistical model selection
Salimovna et al. A Study on the Methods and Algorithms Used for the Separation of Speech Signals
MXPA98001401A (en) Recognition of configurac
JPH10149190A (ja) 音声認識方法及び音声認識装置
Zhang Rapid speaker and environment adaptation in automatic speech recognition
Foo et al. HMM speech recognition with reduced training
Matsui et al. Robust model for speaker verification against session-dependent utterance variation
Beaufays et al. Porting channel robustness across languages.