JP2002073077A - 単一文章文法を使用して複数組のhmmを復号する方法 - Google Patents

単一文章文法を使用して複数組のhmmを復号する方法

Info

Publication number
JP2002073077A
JP2002073077A JP2001266505A JP2001266505A JP2002073077A JP 2002073077 A JP2002073077 A JP 2002073077A JP 2001266505 A JP2001266505 A JP 2001266505A JP 2001266505 A JP2001266505 A JP 2001266505A JP 2002073077 A JP2002073077 A JP 2002073077A
Authority
JP
Japan
Prior art keywords
symbol
network
base
hmm
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2001266505A
Other languages
English (en)
Inventor
Gon Iifan
ゴン イイファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JP2002073077A publication Critical patent/JP2002073077A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 M個のサブネットワーク(文章ネットワー
ク)から1つを必要とするだけで、ネットワーク記憶装
置のメモリ所要量をM−1/Mだけ削減しかつ同じ認識
性能を有する音声認識探索方法を開示する。 【解決手段】 音声認識方法は、基本話者独立文法すな
わちネットワーク(構文)と、各シンボルの発音が一組
のHMM状態で指定される複数組の拡張HMMのネット
ワークを表す複数の仮想シンボルとを含む。認識装置
は、拡張シンボル上に定義された認識パスを構築すると
ともに、拡張シンボルのベース・シンボルを与える適切
な変換機能を介してベース・シンボルを使用してネット
ワークにアクセスし、その逆の場合も同様である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識に関し、
より詳細には、音声認識探索方法に関する。
【0002】
【従来の技術】音声認識装置は、典型的には、異なる音
響環境に配置される。音響環境とは、音声が発生される
定常条件のことである。例えば、音声信号は、男性話者
および女性話者によってオフイス環境でも雑音環境でも
発生され得る。
【0003】複数環境音声認識を処理する共通の方法
は、各環境に対する一組の隠れマルコフ・モデル(HM
M)を訓練することである。例えば、男性話者用のHM
Mの発音の一組すなわち一つのネットワーク(文法)と
女性話者用の一組のHMMとがある。何故ならば、男性
話者の音声すなわちモデルは女性話者とは異なるからで
ある。認識の段階で、全環境のHMMが復号されると、
最大尤度を与える環境の認識結果が最終結果であると考
えられる。そのようなプラクティスは認識性能の点で非
常に効率的である。例えば、同じ量のHMMパラメータ
をもつ男性/女性別個のモデルが使用されないとする
と、単語誤り率(WER)は典型的には70%増加す
る。
【0004】
【発明が解決しようとする課題】特に、所定の文章文法
については、音声認識装置は、各HMMが特定の音響環
境をモデル化するM組のHMMを復号することが要求さ
れる。各環境と音響的整合を実行するためには、(HT
K2.0のような先行技術による認識装置を含む)認識
探索方法は、一般に、図1に示すように、M個のサブネ
ットワークをもつネットワークを必要とする。M組の文
章ネットワークを必要とすることは、認識装置をさらに
高価にするので、さらに巨額な費用を必要とする。
【0005】
【課題を解決するための手段】M個のサブネットワーク
(文章ネットワーク)の中の1つだけを必要とする新し
い音声認識探索方法が、ここで説明されるとともに、同
じ認識性能を与え、したがって、ネットワーク記憶装置
のメモリ所要量をM−1/Mだけ削減する。この音声認
識方法は、基本話者独立文法(basic speaker independ
ent grammar)すなわちネットワーク(構文)と、各シ
ンボルの発音が一組のHMM状態で指定される複数組の
拡張HMMのネットワークを表す複数の仮想シンボルと
を含む。この新しい認識装置は、拡張シンボル上に定義
された認識パスを構築するとともに、拡張シンボルのベ
ース・シンボルを与える適切な変換機能を介してベース
・シンボルを使用してネットワークにアクセスし、その
逆の場合も同様である。
【0006】
【発明の実施の形態】本出願では、文章文法を説明する
ネットワークのノードを「シンボル」と呼ぶ。普通の認
識装置の場合には、M組のHMMが使用されるとき、シ
ンボルはネットワークでM回繰り返されなければならな
い。これは図1に示されており、ここでは、3組の文章
ネットワークが描かれている。
【0007】本発明によれば、ネットワークは、話者独
立であるM個のネットワークの併合バージョンを表すよ
うに構築される。男性および女性ケースについては、こ
れは、男性および女性ネットワークの併合バージョンで
あり、性別に無関係である。子供用のモデルが併合され
てもよい。他の環境が併合されてもよい。男性,女性お
よび子供用のHMMのような特定のHMMをさらに復号
し、男性,女性および子供用のHMMが同じノードおよ
び遷移を持つジェネリック(話者独立)ネットワークと
これらのHMMを結合する必要がある。
【0008】M組のHMMを復号する出願人の方法で
は、2つの型式のシンボルが区別される。 ・ベース・シンボル(α):基本文法すなわちネットワ
ーク(すなわち、M組のHMMを繰り返す前のネットワ
ーク)を表すシンボル。それらは、格納用の物理メモリ
空間を有する。これは、ノードおよび遷移を表すジェネ
リック(話者独立)である。 ・拡張シンボル
【外1】 :M−1組の拡張HMMのネットワークを表すシンボ
ル。文法ネットワークにおけるそれらの存在は概念的な
ものである。このシンボルは、例えば、男性および女性
用の2組のHMMを表してもよい。
【0009】ネットワークの各ベース・シンボルに対し
て、関連したM−1個の対応拡張シンボルが存在する。
新しい認識装置は、拡張シンボル上に定義された認識パ
スを構築し、拡張シンボルのベース・シンボルを与える
適切な変換機能を介してベース・シンボルを使用してネ
ットワークにアクセスする。
【0010】図2を参照すると、本発明の一実施例によ
るシステムが示されている。男性と女性とが組み合わさ
れたケースについては、ベース・シンボルαで表された
ジェネリック・ネットワークがメモリ21に格納され
る。これはネットワーク構造自体を提供する。メモリ2
3には、例えば、男性用の一組のHMMと女性用の一組
のHMMとが格納される。一組のHMMは子供用であっ
てもよい。ベース・シンボルは構文を含む。このプロセ
スは、使用されるべきHMMを識別することである。あ
らゆる入力音声フレームに対して、主ループ・プログラ
ムは、認識パス構築と観察値確率更新(update-observa
tion-probability)とを実行する。主ループ・プログラ
ム(図3参照)は、パス伝搬プログラム25と観察値確
率更新プログラム27とを含む。
【0011】図3に示されている関数MAIN−LOO
Pプログラムは、あらゆる入力音声フレームに対して認
識パス構築を実行する。
【0012】
【表1】
【0013】1つのパスはシンボル列から構成され、各
シンボルの発音は一組の隠れマルコフ・モデル状態によ
って指定される。したがって、1つのパスは、復号手順
が各シンボルに対して構築するモデル内パス(within-m
odel-path)またはモデル間パス(cross-model-path)
のいずれかである。
【0014】
【表2】
【0015】ここで、 ・
【外2】 は、フレームtにおける拡張シンボルsに対するパス情
報の格納を示す。 ・「get-offset」は、HMMのオフセット(Δhmm),
シンボルのオフセット(Δsym)およびベース・シンボ
ル(∀),所定の
【外3】 およびネットワークを与える。 ・「symbol-list」は、ネットワークのシンボルのリス
トを返す。 ・「hmm-code」は、シンボルに付随するhmmのインデ
ックスを与える。 ・Score(p, i)は、シンボル記憶pの状態iでのスコア
を与える。我々はtからt−1までシンボルおよびフレ
ームが何であるかを保持するとともに、単語の系列を追
跡する。ノードはモデルに基づいて構築される。
【0016】各フレームに対する探索アルゴリズムで
は、フレーム時刻tに対する時間間隔1〜Nは、時刻t
−1で後ろを振り返り、ベース・シンボルを探し出すた
めに計算する。図2を参照されたい。これから、ジェネ
リック・ネットワーク21へのアクセスが与えられ、H
MMのオフセット(ΔHMM)を得るために拡張シンボ
【外4】 が与えられる。ΔHMMが決定されると、男性ベースま
たは女性に対応するHMMが提供されるように、HMM
メモリ23がアクセスされる。HMMが得られると、モ
デル内パスの状態の系列が決定された後に、モデル間パ
スの状態の系列が決定される。HMM状態の系列は、H
MM内パスおよびモデル間パスにおける認識パス構築2
5で構築される。したがって、モデル内パス構築および
モデル間パス構築を復号するための2つの重要な関数が
存在する。
【0017】
【表3】
【0018】ここで、 ・∀i, jは、状態iから状態jまでの遷移確率である。
我々がHMM内パスで実行する場合、我々はtおよびt
−1の記憶を実行する必要がある。最高スコアを有する
その文章は、最高の対数遷移確率(transition log pro
bability)に基づいて決定される。これは、HMMにお
けるあらゆる状態に対して(以下の式における各状態j
に対して)実行される。終わりに到着すると、元に戻っ
て、認識されたシンボルの系列がどれであるかを見つけ
る。これは格納される。
【0019】
【表4】
【0020】モデル間パスの場合、我々は、すべての可
能な次のシンボルsを考える必要があるαの次のシンボ
ルsを必要とする。これが真のシンボルs(どのシンボ
ルがどのシンボルの後に来るかを教える文法の知識)で
ある。我々はそれの初期状態すなわち第1のHMMを決
定し、また、我々は、状態間に対するHMM状態の系列
を実行し、1つの状態から他の状態への遷移確率(対数
確率)を加算する。我々は状態の外側用にπシンボルを
使用する。終わりで我々が先頭に戻り単語の系列をチェ
ックできるように、我々は先頭に戻って、どれがシンボ
ルであるかということと、我々が対象とするフレームを
決定する。これを内部および相互間で実行することによ
り、我々はすべてのノードを構築してきた。
【0021】最後に、パスが文法ネットワークに従って
拡張されると、それの音響スコアが評価される。
【0022】
【表5】
【0023】・「get-true-symbol」は、拡張シンボル
のベース・シンボルを返す。これらはすべて、モデルに
基づいている。次のステップは、音声を観察して実際の
音声との比較により確認することである。これは、観察
値確率更新プログラム27で実行される。図2を参照さ
れたい。HMMを見つけることが必要であり、すべての
HMM状態について、シンボルαに対してその時間での
記憶エリアに対するスコアを評価する必要がある。最高
スコアが使用される。最良スコアモデルが提供される。
【0024】結果 この新しい方法はメモリサイズを減少することに非常に
有効であった。1〜7の数字ストリング用の一般文法を
以下に表す。
【0025】
【表6】
【0026】それは、我々がゼロ,オー若しくはイチま
たは2などを認識できることを表している。それは、文
章が2などの数字になっていることも表している。
【0027】古い性別依存方法のための1〜7の数字ス
トリング用の文法は次の通りである。
【0028】
【表7】
【0029】これは、一般的文法のサイズの2倍であ
る。
【0030】その目的は、資源要件を測定することと、
認識スコアがビット正確であることを複数の文法復号器
を用いて検証することとである。テストは、5人の男性
および5人の女性の10個のファイルに基づいている。
【0031】上記文法については、それぞれ、文章の単
一ネットワーク文法と文章の複数(1つは男性用で他の
1つは女性用の2つの)ネットワーク文法とである。
【0032】計算要件 ベース・シンボルと拡張シンボルとの間の変換により、
この探索方法は、確かに、M組のネットワークが必要な
方法よりもずっと複雑である。文章ネットワークメモリ
節約のために必要な計算がどれだけ多いかを決定するた
め、(3個のファイルI/O関数を除く)上位20個の
関数のCPUサイクルが計数され、表1に示されてい
る。それは次のようになっていることが判る。
【0033】
【表8】
【0034】たいていの関数に対する消費量は同じであ
る。4つの関数だけが若干の変化を示した。表2は、サ
イクル消費量およびメモリ使用量を要約する。1.58
%は、“set-index”を計算することに消費され、イン
デックスを格納することによって更に減少することがで
きる。しかしながら、パーセントの増加は非常に小さい
ので、他の代替方法、例えばCPU効率的実現をこの時
点で検討する価値はないであろう。
【0035】
【表9】
【図面の簡単な説明】
【図1】複数のHMM組を認識するために大きなネット
ワークを必要とする従来技術による認識装置を示す図で
ある。
【図2】本発明の一実施例によるシステムのブロック図
である。
【図3】主プログラム・ループを示す図である。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音声認識の方法であって、 一組の文章ネットワークを使用して複数のHMM組を復
    号し、 該復号された複数のHMM組を使用して音声を認識す
    る、 方法。
  2. 【請求項2】 音声認識装置であって、 一組の文章ネットワークを使用して複数のHMM組を復
    号する手段と、 該復号された複数のHMM組を使用して音声を認識する
    認識装置と、 を含む、音声認識装置。
  3. 【請求項3】 前記復号する手段が、 拡張シンボル上に定義された認識パスを構築する手段
    と、 変換機能を介してベース・シンボルを使用して前記ネッ
    トワークにアクセスする手段とを含む、 請求項1記載の方法。
  4. 【請求項4】 前記復号する手段がモデル内構築とモデ
    ル間構築とを含む、請求項3記載の方法。前記復号する
    手段が観察値確率更新を含む、請求項4記載の方法。
  5. 【請求項5】 音声認識探索方法であって、 一組の一般的文法を提供し、 ネットワーク拡張組を表すシンボルを提供し、 該シンボルによって定義される認識パスを構築し、 任意の拡張シンボルの真のシンボルを与える適切な変換
    機能を介してベース・シンボルを使用して前記ネットワ
    ークにアクセスする、 音声認識探索方法。
  6. 【請求項6】 音声認識の方法であって、 ベース・シンボルを含むジェネリック・ネットワークを
    提供するステップと、 男性および女性用の一組のHMMを提供するステップ
    と、 ベース・シンボルに対応する仮想シンボル上に定義され
    た認識パスを構築するステップと、 仮想シンボル用のベース・シンボルを与える変換機能を
    介して前記ベース・シンボルを使用して前記ジェネリッ
    ク・ネットワークにアクセスし、したがって、単一文章
    文法を使用してかつ複数のHMM組を使用して複数のH
    MM組を復号し入力音声を認識するステップと、 を含む、方法。
  7. 【請求項7】 前記構築するステップが、各フレームに
    対して文法ネットワークおよび観察値確率更新に基づく
    パス伝搬拡張を含む、請求項6記載の方法。
  8. 【請求項8】 前記パス伝搬は、 オフセットHMM,オフセットシンボルおよび所定の拡
    張シンボルに対するベース・シンボルを得、 前のフレームのHMMを得、 モデル内パスおよびモデル間パスの双方用の一組のHM
    M状態の系列を拡張し格納し、 最良遷移確率をもつパスを決定する、 請求項7記載の方法。
  9. 【請求項9】 前記観察値確率更新が、 拡張シンボルの前記ベース・シンボルを得、 前記仮想シンボルに関連する前記ベース・シンボルに対
    する現在のフレームの音声と比較することによって前記
    ベース・シンボルを状態ごとに確認する、 請求項7記載の方法。
JP2001266505A 2000-07-31 2001-07-31 単一文章文法を使用して複数組のhmmを復号する方法 Abandoned JP2002073077A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US221920 1988-07-20
US22192000P 2000-07-31 2000-07-31

Publications (1)

Publication Number Publication Date
JP2002073077A true JP2002073077A (ja) 2002-03-12

Family

ID=22829977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001266505A Abandoned JP2002073077A (ja) 2000-07-31 2001-07-31 単一文章文法を使用して複数組のhmmを復号する方法

Country Status (3)

Country Link
US (1) US7269558B2 (ja)
EP (1) EP1220198A1 (ja)
JP (1) JP2002073077A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529671B2 (en) * 2003-03-04 2009-05-05 Microsoft Corporation Block synchronous decoding
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5819221A (en) * 1994-08-31 1998-10-06 Texas Instruments Incorporated Speech recognition using clustered between word and/or phrase coarticulation
US5806034A (en) * 1995-08-02 1998-09-08 Itt Corporation Speaker independent speech recognition method utilizing multiple training iterations
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US6285981B1 (en) * 1998-06-30 2001-09-04 Texas Instruments Incorporated Speed up speech recognition search using macro evaluator

Also Published As

Publication number Publication date
EP1220198A1 (en) 2002-07-03
US20020042710A1 (en) 2002-04-11
US7269558B2 (en) 2007-09-11

Similar Documents

Publication Publication Date Title
US7693715B2 (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
Sainath et al. No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models
CN1667700B (zh) 把字的语音或声学描述、发音添加到语音识别词典的方法
He et al. Spoken language understanding using the hidden vector state model
US9123333B2 (en) Minimum bayesian risk methods for automatic speech recognition
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
CN107705787A (zh) 一种语音识别方法及装置
WO1992014237A1 (en) Method for recognizing speech using linguistically-motivated hidden markov models
Hain et al. The cu-htk march 2000 hub5e transcription system
US7464033B2 (en) Decoding multiple HMM sets using a single sentence grammar
EP1111587B1 (en) Speech recognition device implementing a syntactic permutation rule
JP2007033671A (ja) 音声認識システム、音声認識方法、および音声認識プログラム
TWI731921B (zh) 語音識別方法及裝置
JP2002073077A (ja) 単一文章文法を使用して複数組のhmmを復号する方法
Eide Automatic modeling of pronunciation variations.
JP3950957B2 (ja) 言語処理装置および方法
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
Vancha et al. Word-level speech dataset creation for sourashtra and recognition system using kaldi
Huang et al. Internet-accessible speech recognition technology
Seneff The use of subword linguistic modeling for multiple tasks in speech recognition
Hämäläinen et al. Modelling pronunciation variation with single-path and multi-path syllable models: Issues to consider
CN114267344A (zh) 命令识别方法、装置、电子设备及存储介质
McGreevy Statistical language modelling for large vocabulary speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080731

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20090113