JP2001154687A - スペル形式における音声認識方法及び装置 - Google Patents

スペル形式における音声認識方法及び装置

Info

Publication number
JP2001154687A
JP2001154687A JP2000280777A JP2000280777A JP2001154687A JP 2001154687 A JP2001154687 A JP 2001154687A JP 2000280777 A JP2000280777 A JP 2000280777A JP 2000280777 A JP2000280777 A JP 2000280777A JP 2001154687 A JP2001154687 A JP 2001154687A
Authority
JP
Japan
Prior art keywords
character
outside
word
speech recognition
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000280777A
Other languages
English (en)
Inventor
Starr Volker
シュタール フォルカー
Alexander Fischer
フィッシャー アレクサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2001154687A publication Critical patent/JP2001154687A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【課題】本発明はまず単語全体を制御信号として入力
し、この単語の少なくとも一部分をスペル形式で入力
し、文字音声認識装置の認識結果を単語音声認識装置に
おいて利用する方法を提供する。 【解決手段】本発明は、HMM(Hidden Mar
kov Models)に基づいて、対応する文字列を
文字音声認識部によって推定する第1の工程と、前記文
字音声認識部の統計文字列モデル及び統計モデルを利用
して、第1の工程において生成された推定結果を後処理
する第2の工程とを含み、該後処理にはダイナミックプ
ログラミング方法が使用される、スペル形式での音声認
識方法を提供する。該ダイナミックプログラミングの基
礎であり、蓄積された確率値に割り当てられるノード点
を有するグリッド構造を木構造に変換し、最適パスを検
出するためにAアルゴリズムを使用する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方法に関
し、特に、HMM(Hidden MarkovMod
els)に基づいて、対応する文字列を文字音声認識部
によって推定する第1の工程と、前記文字音声認識部の
統計文字列モデル及び統計モデルを利用して、第1の工
程において生成された推定結果を後処理する第2の工程
とを含み、該後処理にはダイナミックプログラミング方
法が使用される、スペル形式での音声認識方法に関す
る。
【0002】
【従来の技術】音声認識方法は、音声入力による電話接
続の自動セットアップを開示している米国特許第5,7
99,065号などにより、公知である。この開示され
た方法では、要求があると、発呼者は、所望の利用者の
名前をスペル形式で連続的に音声入力する。この入力
は、n−gram文字文法処理を行うHMM(Hidd
en Markov Models)を利用する音声認
識部において更なる処理を施される。その結果、N個の
最適単語候補が決定され、その最適単語候補は、名称辞
書と比較するダイナミックプログラミング法(DP法)
にしたがって、さらに処理される。DP法によって得ら
れるN個の最適単語候補は、ダイナミック文法として利
用され、これは、別の音声認識部によってさらに利用さ
れる。この音声認識部は、DP法によって供給された単
語候補から、入力された名前に対応する一つの単語候補
を、認識結果として選択する。
【0003】
【発明が解決しようとする課題】カーナビゲーションシ
ステムにおいても、音声入力を利用する方法が公知であ
る。この場合は、行き先として地名が入力される。しか
し、自然に発音された単語に基づく単語音声認識のみに
頼るシステムでは、誤認率も高いのが現状であり、音声
認識の確実性を向上することが望まれる。したがって、
自然に発音された単語による単語音声認識のみではな
く、スペルを音声入力して認識させる文字音声認識も用
いるのが好ましい。
【0004】
【課題を解決するための手段】以上の点に鑑み、本発明
は、文字音声認識を行いながら、システム制御のための
音声信号を用いる効率の高い音声認識方法を提供するこ
とを目的とする。
【0005】上記の目的は、ダイナミックプログラミン
グの基礎であり、蓄積された確率値に割り当てられるノ
ード点を有するグリッド構造を木構造に変換し、最適パ
ス(路)を検出するためにAアルゴリズムを使用する
ことによって達成される。
【0006】本発明の一実施例によると、N>1とした
時、音声入力について、N個の最適候補に対応する部分
最適パスが決定される。その結果、以降の処理において
も認識候補が参照でき、最適パスの検出の際にエラーが
発生しても、部分最適認識結果を利用すれば、続く工程
で容易に補正可能である。
【0007】計算時間の更なる短縮も、最適パスの検出
において、探索の最初の時点で他のパスと比較して低い
確率を有するパスは、処理対象から外すことによって実
現できる。
【0008】さらに、前記第1の工程は第1のICによ
って実行され、前記第2の工程は第2のICによって実
行される。ここで、第1のICは、音声認識処理専用に
プログラミングされたデジタル信号プロセッサであるこ
とが好ましい。第2のICは、他のシステム機能を実行
するためにも利用されるコントローラモジュールである
ことが好ましい。
【0009】本発明はまた、音声信号によるシステム制
御方法を提供しする。この方法は、制御信号として機能
する単語全体が入力し、この単語の少なくとも一部分を
スペルで入力し、入力された前記単語を認識するため
に、単語音声認識装置を用い、前記スペルの部分を認識
するために、上述の文字音声認識装置を用い、前記単語
音声認識装置に割り当てられた語彙は、前記文字音声認
識装置の認識結果によって限定されることを特徴とす
る。
【0010】このような方法によると、自動車内のよう
な雑音レベルの高い環境においても、ユーザの不明瞭な
発声にも対応でき、信頼性の高い音声制御が実現でき
る。
【0011】本発明はさらに、上述のいずれかの方法を
実施するための構成部品を備える音声認識制御装置、特
に、自動車用ナビゲーションシステムを提供する。
【0012】
【発明の実施の形態】本発明の好ましい形態の一つは、
音声制御機能を備えた自動車用ナビゲーションシステム
である。自動車用音声認識は、認識されるべき語彙が多
岐にわたり(例えば、数万という数の地名など)、車内
での音響環境も雑音が多く好適とは言えないため、困難
である。更に、ナビゲーションシステムにおいて使用可
能なハードウェアは、音声認識の複雑な処理工程を考慮
すると、非常に限られた処理能力と比較的小さい主メモ
リしか備えていない。本発明は、自動車用のナビゲーシ
ョンシステムに限らず、すべての音声認識制御装置及び
その周辺環境に適用可能である。
【0013】ここで扱うナビゲーションシステムにおい
て、ユーザは、音声認識モードでの音声入力を要求され
る。例えば、町の名前全部を発音し、更にその言葉の少
なくとも一部分のスペルを(連続的に)音声入力する。
最初の2処理段階では、所定の語彙に基づいた単語音声
認識と文字音声認識とが行われる。文字音声認識では、
入力される単語ひとつの文字数を事前に決定していな
い。入力される文字についての音声認識の結果、所定の
語彙中の単語が、単語音声認識の結果候補として限定さ
れる。この限定された単語に基づいて、更なる処理段階
で再び入力される単語についての単語音声認識が実行さ
れる。
【0014】以下に、上記文字音声認識について更に説
明する。この音声認識動作では常に誤認率が高く、特に
車内など雑音の多い環境下ではこの傾向は顕著である。
文字音声認識装置が音声探索を行う際に語彙を考慮する
ことにより誤認率を改善する方法は、既存の音声認識IC
では、大量の語彙から発生する大量のデータを保存する
だけの十分なメモリがないという問題がある。このた
め、本ナビゲーションシステムにおいては、文字音声認
識を2つの独立した動作段階を通じて実行する。第1の
処理段階では、入力される文字を、語彙を考慮すること
なく既存の音声認識装置によって認識する。この処理段
階は、専用に設計およびプログラミングされた音声認識
ICによって実行される。第2の処理段階では後処理が行
われる。この後処理は、他のシステム機能(例えば、専
用ナビゲーション機能)を変換するために利用される、
充分な記憶スペースにアクセスできるコントローラによ
って行われる。
【0015】後処理では、多数の文字列候補に関する追
加情報が利用できる。より詳細には、確実な文字列、つ
まり語彙のうち少なくとも一の単語がそれによって始ま
る文字列のリスト、及びそのような文字列に関する統計
情報、つまり、確率情報(例えば、3番目の文字がCな
ら他の2つの文字はAとなる確率など)が本実施例では
利用できる。誤認率を低下させる更なる統計情報として
は、2つの文字を取り違える確率(例えば、NとMは互い
に類似しているため取り違える確率が高い)や、文字の
誤った挿入や欠落に関する確率などがある。
【0016】上記の後処理の問題から、以下のようにま
とめることができる。 ・ 文字音声認識の統計モデル(すなわち、誤認確
率)。 ・ 発音された文字列の統計モデル。 ・ 認識された文字列。
【0017】ここで、探索対象は、発音された文字列で
ある確率が最も高い文字列である。
【0018】以下において、記号
【0019】
【外1】 は文字列を表す。
【0020】長さn(文字群s)を有する発音された
文字列
【0021】
【外2】 (及び音声認識装置への入力)と、長さm(文字群
)を有する認識された文字列
【0022】
【外3】 は、以下のように表される。
【0023】
【数1】 式中、
【0024】
【外4】 及び
【0025】
【外5】 である。
【0026】本明細書中、普通の文字との区別をするた
めに文字列を示す記号はアンダーラインで示す。個々の
長さn及びmは、使用される音声認識装置が、認識結果
に誤って文字を追加したりあるいは誤って文字を省略し
たりしても、そうした誤りを検出できるよう設定され
る。
【0027】ここで、文字列
【0028】
【外6】 に対して、確率
【0029】
【数2】 が最大となる文字列
【0030】
【外7】 を探索する。
【0031】
【外8】 の確率最大値は独立なので、式
【0032】
【数3】 を最大にする文字列
【0033】
【外9】 が探索される。確率項
【0034】
【外10】 は、音声認識装置の特性(発音された文字列
【0035】
【外11】 に対する認識された文字列
【0036】
【外12】 の確率)を示す。一方、項
【0037】
【外13】 は、発音された文字列
【0038】
【外14】 の発生確率(全ての文字組合せの確率が一様ではないと
いう事実を考慮した上での音声モデルに対応)を示す。
【0039】式
【0040】
【外15】 の最大値の計算において、効率的なアルゴリズムが得ら
れる。そのために、2つの確率関数
【0041】
【外16】 及び
【0042】
【外17】 に関する簡単な仮定をたてることにより音声認識装置及
び発生された文字列のための好適な統計モデルを得る。
以下、
【0043】
【外18】 に対する統計モデルを
【0044】
【外19】 で表し、
【0045】
【外20】 に対する統計モデルを
【0046】
【外21】 で表す。
【0047】発音された文字列の統計モデル(所定の語
彙より構成)として、以下の式が成立する。
【0048】
【数4】 この式は、i個の発音された文字列において、次の発音
された文字としてsi+ を有する確率を示している。
発声が文字群s、...、sの後に終了する確率
は、次の式によって求められる。
【0049】
【数5】 式中、$は文字列の終わりを示す。このような確率は、
与えられた語彙及びその語彙中の単語の事前確率から容
易に推定することができる。従って、発音された文字列
【0050】
【外22】 の確率は以下の式によって求められる。
【0051】
【数6】 式中、記号#は文字列の最初を示す。更に、限定された
語彙Vは、
【0052】
【数7】 で表すことができる。文字列
【0053】
【外23】 が語彙Vの一要素である場合、
【0054】
【外24】 のいずれの接頭部(すなわち、それによって文字列
【0055】
【外25】 が始まる一またはそれ以上の文字列)もまた語彙Vの一
要素である。その結果、ユーザは任意の長い単語の最初
の文字部分のスペルを発音するのみでよく、単語全体の
スペルを発音する必要はない。Pを適切に選択するこ
とにより、スペル入力モードにおいて入力する際、ユー
ザが何個の文字を発音するかについての確率に関して、
事前確率が使用できる。
【0056】語彙Vの多様な確率Pは、簡潔な木構造
によって表すことができる。この木の一方の枝は、一個
の文字とその確率値に割り当てられる。発声された各文
字列は、ひとつのノード(節)に対応し、その一方で、
文字列の確率は木の根から各ノードへと延びる枝に割り
当てられた確率の積から得られる。
【0057】このような木構造の一例を図1に示す。簡
潔な方法で語彙を形成するために、A、B、C、D、E
を文字候補と仮定し、それらを対応する発生確率と共に
木の一方の枝に割り当てる。従って、文字列AB、A
C、DEについては、これら文字列の個々の文字に割り
当てられた確率の積として、確率値P(AB)=0.
18、P(AC)=0.06、P(DE)=0.5
6がある。P($)=0.2.とする完全なパスが完
結する前に文字列の終わり$に達する確率を使用する条
件のもと、確率値P(A)=0.06及びP(D)
=0.14は、P ($)の乗算から、文字A及びDま
たは木の対応する側に割り当てられた確率によって得ら
れる。確率値Pの合計は1となる。
【0058】文字音声認識装置用の(あるいは、文字音
声認識装置の誤認に対する)簡潔な統計モデルを得るた
めに、発音された文字間には相互関係は無く、認識され
た文字と発音された文字の間の相互関係のみ考慮するも
のとする。文字音声認識装置の統計モデルは、文字rが
認識され、文字sが発生される確率(
【0059】
【外26】 とする)を提供する。更に、このモデルにおいて、対応
する発音された文字sがなく文字rが挿入される確率、
及び文字を削除してしまう確率(発音された文字sに対
して認識される文字rが存在しない)も使用される。こ
れらの場合を記述するために、発音されていない文字及
び認識されない文字を示す仮想文字
【0060】
【外27】 を使用する。したがって、この文字音声認識装置の統計
モデルは以下のようになる。
【0061】
【数8】 これらの組合せ確率は、マトリクス(「混同マトリク
ス」)の要素として考えられる。このマトリクスにおい
て、文字rとsは、個々の列と段とを示している。この
保存された状態のマトリクスと所定の要因から、認識さ
れた文字列
【0062】
【外28】 及び発音された文字列
【0063】
【外29】 についての確率
【0064】
【外30】 が計算される。これについては以下に更に詳細に説明す
る。
【0065】文字列
【0066】
【外31】 及び
【0067】
【外32】 の割り当ての際に生じる可能性のある遅れを表すため
に、2次元グリッドを使用する。この2次元グリッド
は、m+1個の点を縦方向に有し、n+1個の点を横方
向に有し、それぞれr及びsとして表される。0番
目の列及び0番目の段は参照しない。所定の文字列
【0068】
【外33】 を所定の文字列
【0069】
【外34】 に割り当てる際に生じる遅れは、このようなグリッドを
通る路に対応し、この路は以下に示す座標対の列πを通
る。
【0070】
【数9】 式中、
【0071】
【数10】 σ座標及びρ座標がどちらもすでに増分されている一対
のセグメント
【0072】
【外35】 は、文字sσiが発音されて、文字rρiが認識された
ことを示している。しかし、この路セグメントにおいて
σ座標が一定である場合、文字rρiが実際に認識され
たにもかかわらず、文字が発音されず、文字音声認識装
置による文字の誤った挿入が行われたことになる。ρ座
標が一定の場合は、文字sσiが発音されたにもかかわ
らず、文字音声認識装置が対応する文字を認識しなかっ
たことになる(削除エラー)。
【0073】図2は、路が引き込まれたグリッド構造の
一部の例を示す。3つの文字s、s、sは発音さ
れ、2つの文字r、rは認識された。文字rは文
字s として認識され、文字sは認識されず(つま
り、削除された)、文字sは文字rとして最後に認
識された。
【0074】通常、発音された文字列
【0075】
【外36】 と、認識された文字列
【0076】
【外37】 と、グリッド路πとの確率Pは、以下の式にしたがっ
て表される。
【0077】
【数11】 実際に文字が認識されたが対応する文字が発音されなか
った場合の3番目の列においては、確実性確率(上2
列)の代わりに複合確率を用いてPを求めた。
【0078】以上から、文字音声認識の根本的な問題点
は、発音された文字列
【0079】
【外38】 が、認識された文字列
【0080】
【外39】 についての関数
【0081】
【外40】 が最大となるように決定されることにあると言える。こ
こでは、以下のような関係が成り立つ。
【0082】
【数12】 発音された各文字についての候補として個々の文字を発
行するのみでなく、確率値で重み付けされたN個(N>
1)の最適文字候補のリストも発行する文字音声認識装
置を使用する時、文字音声認識の改良点が現れる。この
結果の情報は、上記の実施例のと全く同じように処理し
てもよく(つまり、マトリクスとグリッド構造に基づい
て処理)、その結果、誤認率が改善される。
【0083】以下に、
【0084】
【外41】 を最大化する前述の問題点を解決する後処理について説
明する。
【0085】以降、
【0086】
【外42】 は、所定のアルファベットを示し、
【0087】
【外43】 は、限定された語彙を表す。ここで、
【0088】
【外44】 は、文字鎖の量を示す。したがって、発音された文字列
【0089】
【外45】 の場合、文字列
【0090】
【外46】 の各接頭部が語彙Vの一要素となる。P、P
【0091】
【外47】 は、前述のとおりに定義される。更に、
【0092】
【外48】 は、任意の認識された文字の固定した列である。
【0093】最大確率を有する文字列
【0094】
【外49】 を決定する(直接)確率は、すべての
【0095】
【外50】 についてのすべての値
【0096】
【外51】 を計算することによって求められる。ここで、探索され
る文字列
【0097】
【外52】 は、
【0098】
【外53】 が最大となる列である。
【0099】
【外54】 を評価するには、ダイナミックプログラミング法(DP
アルゴリズム)を少し変形したものが利用される。
【0100】ダイナミックプログラミング法が実施され
る場合、(n+1)×(m+1)個の点を含むグリッド
が使用される。ここで、本実施例では、nは発音された
文字の数を示し、mは認識された文字の数を示す。グリ
ッドの列は、発音された文字及び認識された文字の段に
よって特徴づけられる。図2のグリッドに既に示すよう
に、グリッドの最初の列と最初の段は特徴づけられな
い。座標対(i、j)(i=0、...、n、及び、j
=0、...、m)によって特徴づけられる各グリッド
点には、確率pijが割り当てられている。この確率p
ijは、文字列s 乃至sが発音された文字列(特
に、入力された単語の接頭部、つまり、それによって単
語が始まる少なくとも一個の文字からなる文字列)であ
り、文字列r 乃至rが認識された文字列である可能
性を示す。DPアルゴリズムは、段毎に確率pijを計
算する方法である。この方法によると、各列の0番目の
段は、a1として初期設定される。段のi+1番目は、
i(i=0、...、n−1)番目の段から、以下の式
に従って決定される。
【0101】
【数13】 及び
【0102】
【数14】 上記の式中、jは0、...、m+1である。
【0103】上記の式(積及び合計を得る)と比較する
場合、
【0104】
【外55】 についての探索される関数
【0105】
【外56】 は、以下の式によって表される。
【0106】
【数15】 2つの文字列
【0107】
【外57】 及び
【0108】
【外58】 が、長さnの同じ文字列
【0109】
【外59】 で始まる場合、DPアルゴリズムの基本として使用され
るグリッドの最初のn個の段は同一である。余分な計算
を避けるために、以下のような変形例を提案する。DP
グリッド(DPアルゴリズムの基本として使用されるグ
リッド)の段をノードとして定義する。その結果、パス
はそれぞれひとつのDPグリッドに対応し、同一の初期
セグメントを有するパスは、同一の初期文字列を持つ文
字列
【0110】
【外60】 及び
【0111】
【外61】 (同一の接頭部を持つ異なる単語)についての2つのD
Pグリッドに対応する。図3は、この方法を明確にし、
図1に示す例に対応する木構造を示す。図示の例では、
2つの文字が認識され、各ノードに3つのDPグリッド
ノード(ひとつのグリッド段に対応)が割り当てられて
いる。
【0112】以下に、いわゆるAアルゴリズムを利用
する場合でも、関数
【0113】
【外62】 の最大値を得る際に、このような木構造のすべてのノー
ドを評定する必要はないことを説明する。
【0114】ノードは、これ以降、t(1)
(2)、...、と示す。ノードt(k)に割り当て
られたグリッド段のj番目の入力はt (k)となる。
更に、以下の式が成り立つ。
【0115】
【数16】 ここで、文字列
【0116】
【外63】 は、ノードt(k)への路に位置する文字列である。こ
うして、最大確率を有する発音された文字列を検知する
問題は、値t (k)が最大となるようなノードt
(k)を探索するという変形された形で解決される。
【0117】ノードt(k)が評定された後、上限値
【0118】
【外64】 が以下のように推定される。
【0119】
【数17】 2つのノードt(k)及びt(k’)が評定された後、
以下の条件
【0120】
【数18】 が満たされている場合、ノードt(k)の後続のノード
はすべて最適ノードではあり得ないことがわかる。この
ような後続のノードの評価は、不必要であり、実行され
ない。
【0121】上限値
【0122】
【外65】 を計算するために、いわゆるAアルゴリズムが使用さ
れる。
【0123】ここにおいて必須の公知のAアルゴリズ
ム(例えば、E.G. Schukat-Talamazzini著、「Automati
sche Spracherkennung」、Vieweg-Verlag、1995年
刊、第8.2,1章)の反復工程は、以下の通りである。 (1) 初期化処理。
【0124】木の根ノードの評価。 (2) 反復処理。
【0125】Eは既に評価されたノードの組である。
【0126】ここで、以下の2式が成り立つ。
【0127】
【数19】
【0128】
【数20】 (3) 終了基準が満たされているか否かを判定。
【0129】条件
【0130】
【外66】 の場合、アルゴリズムを終了(以後の反復処理は不必
要)。
【0131】最適ノードは、値t$が最大となるノード
【0132】
【外67】 である。 (4) 木の拡張。
【0133】これまでに拡張されていないノードを選択
し、拡張する。つまり、すべての子ノードを評価するこ
とになる。その結果、アルゴリズムは工程(2)へと続
く。
【0134】工程(4)において、基本的にはノード
【0135】
【外68】 の選択は自由である。しかし、アルゴリズムの最大効率
を保証するため、最適ノードへの路の部分であることの
確率が最大である点においてノードを選択することが望
まれる。したがって、値
【0136】
【外69】 が最大となるようなノード
【0137】
【外70】 が選択される。つまり、最も確率の高い、既に評価済み
のグリッド点を有するノード
【0138】
【外71】 が選択される。
【0139】次に、値
【0140】
【外72】 をどのようにして決定するかについて更に説明する。基
本的には、この値を求めることの可能な方法は多数あ
る。計算コストを低く抑え、余分な反復工程は避けるこ
とのできるようにする値
【0141】
【外73】 の有益な決定方法を、以下のように提案する。
【0142】まず
【0143】
【数21】 及び
【0144】
【数22】 とする。ここで、
【0145】
【外74】 である。求める値
【0146】
【外75】 は以下のようになる。
【0147】
【数23】
【0148】
【外76】 のこの式の計算は、積c、cm−1、...、が
事前に計算でき、最小インデックス
【0149】
【外77】 はAアルゴリズムの工程(4)において決定されるた
め、計算コストが低く抑えられる。
【0150】上記の工程(3)における条件が1回目で
は満たされず、更なるアルゴリズムループが通過され、
さらに部分最適パスが決定され、Aアルゴリズムが続
行される場合、更なる変形例が展開できる。この場合、
発音された文字列の単一候補の代わりに、通過されたN
−1個の更なるループにしたがって、N個の最適候補の
リストが発行される。つまり、このような候補によれ
ば、発音された文字列は最も高い確率で再生される。
【0151】上記のアルゴリズムは、最適ノードの検出
を保証し、したがって入力文字列
【0152】
【外78】 の最適推定も保証する。しかし、このアルゴリズムは計
算強度が高く、多くの記憶スペースを必要とする。以下
に、計算時間を短縮し、記憶スペースを縮小する方法に
ついて説明する。上述のように変形されたAアルゴリ
ズムにおいては、オープンノードのみが保存、つまり、
既に評価されたが拡張はされていないノードのみが保存
される。ノードは、拡張の後、メモリから削除される。
オープンノードの最大保存可能数は、事前に設定されて
いる。オープンノードの数がこの所定最大数より大きい
場合、これらオープンノードのうち、どれが次の計算処
理において破棄可能であるかを決定する(いわゆる間引
き処理)。ここで、Aアルゴリズムが誤った結果を出
すといけないので、これらのノードは最適パスに位置し
てはならない。したがって、ここでの問題は、最適パス
の部分ではない確率が最も高いノードを検出しなければ
ならない点にある。この問題を解決するため、簡潔な発
見的形式を使用する。木の根に最も近接するオープンノ
ードは、ここでは考慮から外すのが好ましい。これは、
最初から既に確率の小さい探索路を、これ以上使用でき
ない路とすることが好ましいことを意味する。
【0153】上述の間引き処理は、オープンノードは共
通ヒープに保存されず、ひとつのヒープは各路に割り当
てられ、オープンノードはそれぞれに割り当てられたヒ
ープに保存されるため、効率良く実施することが可能で
ある。本例では、オープンノードの数が許容数を超えて
いる場合、最短のパスの対応ヒープが削除される。この
処理に必要な時間は、実施的に一定である。
【0154】図4は、入力されたスペル発音
【0155】
【外79】 を認識する音声認識システム1のブロック図である。こ
のシステムは、本発明による文字音声認識の既述の実施
例にしたがって動作する。図中、ブロック2は、音声認
識部を示す。この音声認識部2は、HMM(Hidde
n MarkovModels)として知られる音声モ
デルに基づいて、認識結果(文字列)
【0156】
【外80】 を生成する。しかし、異なる文字組合せの可能性確率を
示す文字文法は、音声認識部2では利用されない。認識
結果
【0157】
【外81】 は、後処理部3に供給される。この後処理部3は、ブロ
ック4で示す文字列
【0158】
【外82】 の統計モデル及びブロック5で示す統計モデル
【0159】
【外83】 に基づいて、上述の音声認識装置(ブロック6)の各関
【0160】
【外84】 を最大化し、その結果から出力する認識結果Rを得
る。認識結果Rは、発音された文字列
【0161】
【外85】 の推定か、あるいは、正しい推定である確率が最も高い
文字列
【0162】
【外86】 のNの最適候補のリストである。
【0163】図5のブロック図は、自動車用のナビゲー
ションシステムに好適な音声制御機能を備えるシステム
を示す。このシステムは、図4に示す文字音声認識装置
1と、入力された単語wを認識する単語音声認識装置7
とを含む。しかし、本発明を適用する際、スペル音声を
認識するための機能部を備えた音声制御システムは、ど
れでも使用可能である。文字音声認識装置1によって生
成された認識結果Rは、単語音声認識装置7の語彙を
限定するために使用される。つまり、さらに労力を要す
る単語音声認識へと導く単語音声認識結果Rの候補と
なりうる単語に限定する。認識結果Rとしての初期文
字列またはN個の最適初期文字列について、単語音声認
識装置7の語彙は、これらの初期文字列を有する単語に
限定される。単語音声認識結果Rは、システム制御に
利用され、制御されたシステムの機能部はブロック8に
おいて合体される。ナビゲーションシステムにおいて
は、認識結果は地名などを表し、そこに行く道順が決定
される。
【0164】音声認識部2と後処理部3は、異なるハー
ドウェア部品によって変形される。より詳細には、音声
認識部2は、音声認識動作に対応したデジタル信号プロ
セッサによって、後処理部3は、ブロック8において合
体された他のシステム機能を実行するために使用される
コントローラによって変形される。これは、入力された
スペル音声を認識する際にナビゲーション工程において
供給されるシステム源を共同で使用できるため、信号プ
ロセッサの計算処理許容量及び記憶容量が小さい点で有
益である。
【0165】
【発明の効果】本発明によると、自動車内のような雑音
レベルの高い環境においても、ユーザの不明瞭な発声に
も対応でき、誤認率が低く、信頼性の高い音声制御が実
現できる。
【図面の簡単な説明】
【図1】図1は、文字列の統計モデルの説明における木
構造を示す。
【図2】図2は、グリッド路の一例を示す。
【図3】図3は、ノードがDPグリッドの段と対応して
いる木構造を示す。
【図4】図4は、スペル音声認識システムの構造を示す
ブロック図である。
【図5】図5は、単語及びスペル音声入力による音声制
御機能を備えたシステムの構造を示すブロック図であ
る。
【符号の説明】
1 音声認識システム 2 音声認識部 3 後処理部 4 文字列 5 統計モデル 6 最大関数
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551Q 15/28 561J 15/08 571Q 15/24 571A (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands (72)発明者 アレクサンダー フィッシャー ドイツ連邦共和国,52070 アーヘン,ゼ ルザー ヴェーク 5

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 スペル形式で音声を認識する方法におい
    て、 HMM(Hidden Markov Models)
    に基づいて、対応する文字列を文字音声認識部によって
    推定する第1の工程と、 前記文字音声認識部の統計文字列モデル及び統計モデル
    を利用して、第1の工程において生成された推定結果を
    後処理する第2の工程とを含み、 該後処理にはダイナミックプログラミング方法が使用さ
    れ、 該ダイナミックプログラミングの基礎であり、蓄積され
    た確率値に割り当てられるノード点を有するグリッド構
    造を木構造に変換し、 最適パス(路)を検出するためにAアルゴリズムを使
    用することを特徴とする方法。
  2. 【請求項2】 N>1とした時、音声入力について、N
    個の最適候補に対応する部分最適パスが決定されること
    を特徴とする請求項1記載の方法。
  3. 【請求項3】 最適パスの検出において、探索の最初の
    時点で他のパスと比較して低い確率を有するパスは、処
    理対象から外すことが好ましいことを特徴とする請求項
    1または2記載の方法。
  4. 【請求項4】 前記第1の工程は第1のICによって実
    行され、前記第2の工程は第2のICによって実行され
    ることを特徴とする請求項1乃至3のいずれかに記載の
    方法。
  5. 【請求項5】 音声信号によるシステム制御の方法にお
    いて、 制御信号として機能する単語全体が入力し、この単語の
    少なくとも一部分をスペルで入力し、 入力された前記単語を認識するために、単語音声認識装
    置を用い、前記スペルの部分を認識するために、請求項
    1乃至4のいずれかに記載の文字音声認識装置を用い、 前記単語音声認識装置に割り当てられた語彙は、前記文
    字音声認識装置の認識結果によって限定されることを特
    徴とする方法。
  6. 【請求項6】 音声認識制御装置、特に、自動車用ナビ
    ゲーションシステムにおいて、請求項1乃至5のいずれ
    かに記載の方法を実施するための構成部品を備えること
    を特徴とする音声認識制御装置。
JP2000280777A 1999-09-17 2000-09-14 スペル形式における音声認識方法及び装置 Pending JP2001154687A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19944608:3 1999-09-17
DE1999144608 DE19944608A1 (de) 1999-09-17 1999-09-17 Erkennung einer in buchstabierter Form vorliegenden Sprachäußerungseingabe

Publications (1)

Publication Number Publication Date
JP2001154687A true JP2001154687A (ja) 2001-06-08

Family

ID=7922378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000280777A Pending JP2001154687A (ja) 1999-09-17 2000-09-14 スペル形式における音声認識方法及び装置

Country Status (4)

Country Link
US (1) US7006971B1 (ja)
EP (1) EP1085499B1 (ja)
JP (1) JP2001154687A (ja)
DE (2) DE19944608A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10128739A1 (de) * 2001-06-13 2003-01-02 Henryk Bury Gmbh Dipl Ing Sprachanwahlsystem
DE10129005B4 (de) * 2001-06-15 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
EP1396840A1 (de) * 2002-08-12 2004-03-10 Siemens Aktiengesellschaft Verfahren zur Spracherkennung von buchstabierten Worten
US20050049868A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system
WO2005086908A2 (en) * 2004-03-09 2005-09-22 Ashwin Rao System and method for computer recognition and interpretation of arbitrary spoken-characters
US7526429B2 (en) * 2004-03-12 2009-04-28 Siemens Communications, Inc. Spelled speech recognition method and system accounting for possible misrecognized characters
US8923838B1 (en) 2004-08-19 2014-12-30 Nuance Communications, Inc. System, method and computer program product for activating a cellular phone account
US8498865B1 (en) 2004-11-30 2013-07-30 Vocera Communications, Inc. Speech recognition system and method using group call statistics
US7457751B2 (en) * 2004-11-30 2008-11-25 Vocera Communications, Inc. System and method for improving recognition accuracy in speech recognition applications
US20070016420A1 (en) * 2005-07-07 2007-01-18 International Business Machines Corporation Dictionary lookup for mobile devices using spelling recognition
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US7831431B2 (en) * 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
US9386154B2 (en) 2007-12-21 2016-07-05 Nuance Communications, Inc. System, method and software program for enabling communications between customer service agents and users of communication devices
US8725492B2 (en) * 2008-03-05 2014-05-13 Microsoft Corporation Recognizing multiple semantic items from single utterance
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
WO2010117711A1 (en) * 2009-03-29 2010-10-14 University Of Florida Research Foundation, Inc. Systems and methods for tuning automatic speech recognition systems
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US8195456B2 (en) * 2009-12-04 2012-06-05 GM Global Technology Operations LLC Robust speech recognition based on spelling with phonetic letter families
US8391464B1 (en) 2010-06-24 2013-03-05 Nuance Communications, Inc. Customer service system, method, and software program product for responding to queries using natural language understanding
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN103344248B (zh) * 2013-07-16 2015-07-08 长春理工大学 一种车辆导航系统的最佳路径计算方法
US10832675B2 (en) 2018-08-24 2020-11-10 Denso International America, Inc. Speech recognition system with interactive spelling function

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01503786A (ja) * 1987-06-25 1989-12-21 イビイ イスティテュト ビオキミコ イタリアノ ジョバンニ ロレンツィニ ソチエタ ペル アツィオニ プロスタグランジン誘導体,それらの製法及びそれらを含有する医薬組成物
JPH0782544B2 (ja) * 1989-03-24 1995-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーション マルチテンプレートを用いるdpマツチング方法及び装置
US5177685A (en) * 1990-08-09 1993-01-05 Massachusetts Institute Of Technology Automobile navigation system using real time spoken driving instructions
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5392363A (en) * 1992-11-13 1995-02-21 International Business Machines Corporation On-line connected handwritten word recognition by a probabilistic method
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
CN1249667C (zh) * 1994-10-25 2006-04-05 英国电讯公司 声控服务
JP3152871B2 (ja) * 1995-11-10 2001-04-03 富士通株式会社 ラティスをキーとした検索を行う辞書検索装置および方法
US5799065A (en) 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech

Also Published As

Publication number Publication date
EP1085499A3 (de) 2002-07-17
US7006971B1 (en) 2006-02-28
DE50013901D1 (de) 2007-02-08
EP1085499A2 (de) 2001-03-21
EP1085499B1 (de) 2006-12-27
DE19944608A1 (de) 2001-03-22

Similar Documents

Publication Publication Date Title
JP2001154687A (ja) スペル形式における音声認識方法及び装置
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
EP1162602A1 (en) Two pass speech recognition with active vocabulary restriction
US8532990B2 (en) Speech recognition of a list entry
JP2020505650A (ja) 音声認識システム及び音声認識の方法
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
US6272462B1 (en) Supervised adaptation using corrective N-best decoding
KR101526918B1 (ko) 다언어 이국 음성 인식
US20080201147A1 (en) Distributed speech recognition system and method and terminal and server for distributed speech recognition
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2008262279A (ja) 音声検索装置
JPH0372998B2 (ja)
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
JP5274191B2 (ja) 音声認識装置
US20160232892A1 (en) Method and apparatus of expanding speech recognition database
JP2007513407A (ja) 文法生成のための句への意味標識の付与
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP2002358097A (ja) 音声認識装置
JP3171107B2 (ja) 音声認識装置
JP3914709B2 (ja) 音声認識方法およびシステム
JP3042455B2 (ja) 連続音声認識方式
JP2938865B1 (ja) 音声認識装置
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JP2005091504A (ja) 音声認識装置