JP2002533789A - 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略 - Google Patents
自動音声認識システムにおけるnベストリストに用いる知識ベース戦略Info
- Publication number
- JP2002533789A JP2002533789A JP2000591610A JP2000591610A JP2002533789A JP 2002533789 A JP2002533789 A JP 2002533789A JP 2000591610 A JP2000591610 A JP 2000591610A JP 2000591610 A JP2000591610 A JP 2000591610A JP 2002533789 A JP2002533789 A JP 2002533789A
- Authority
- JP
- Japan
- Prior art keywords
- digit
- sequence
- spoken
- list
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 69
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 238000007792 addition Methods 0.000 claims 1
- 238000012937 correction Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 6
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 208000003580 polydactyly Diseases 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
Description
果のリストに用いる知識ベース戦略を使用する、話されたアルファベットおよび
英数字列の認識に関する。
に使用される。これらの数字列は、代表的に、クレジットカード番号、電話番号
、口座番号、社会保障番号および暗証番号(PIN)を表わす。
えば、マイクロホン、スピーチアクセントおよび話者能力における相違を含む多
数の変数が存在するため、困難である。話された数字列を認識することは、個々
の数字が持続時間において短く、数字間の音響的混同の程度が高く、しばしば隣
接する数字によって共同で明瞭に表現されるため、特に困難である。数字列(お
よびアルファベットまたは英数字)認識を電話ネットワークにおいて行う場合、
音声信号に負わされるノイズおよびバンド幅制限により、前記タスクはより困難
になる。話された数字の列を正確に認識することは、各々の数字を正確に認識す
ることを必要とする。話された数字の列を高い精度において認識することは、数
字あたりの精度が99%より高く極端に高いことを必要とする。最新の電話にお
ける数字認識は、数字あたり98%程度の精度を達成しようとしている。電話に
おける英数字認識はより困難であり、最新の認識精度は文字あたり75%程度で
ある。
の、より正確な数字認識技術に関する必要性が存在する。
を提供することである。
ベース戦略を使用する、話された数字列を認識する新たな技術を提供することで
ある。
識ベース戦略を提供することである。
って成し遂げられる。本発明の好適実施形態によれば、話された数字列を音声認
識器によって解析し、この音声認識器は、前記話された数字列に一致する可能性
に基づいてランク付けされた順序で配置された仮定された数字列のリスト(ここ
では「Nベストリスト」とも呼ぶ)を発生する。次に、前記話された列に一致す
る最も高い可能性を有する前記仮定された列で開始して、個々の仮定された列を
解析し、これらが所定の条件を満たすかどうかを決定する。前記リストにおいて
前記条件を満たす最初の仮定された列を、認識された列として選択する。
を使用し、前記仮定された数字列を確認することができる。
列が前記指定された条件を満たさない場合、代わりの確認技術を用い、正確な数
字列を決定することができる。
の目的を、本発明のより重要な特徴および用途のいくつかの単なる説明となるも
のであると解釈すべきである。多くの他の有利な結果を、説明するように開示し
た本発明を異なったように用いるか、本発明を変形することによって達成するこ
とができる。したがって、本発明の他の目的およびより完全な理解を、以下の好
適実施形態の詳細な説明を参照することによって得ることができる。
下の詳細な説明を参照すべきである。
およびシステムを目的とする。本発明によれば、発明技術を、既知の数字認識器
または認識エンジン内において、または付属物として使用してもよい。前記数字
認識器または認識エンジンは、話された入力列を受け、各々の話された数字列に
関する多数の認識仮定を発生する。これは、限定ではなく、すべて現在VCSI
によって開発され発売されているVpro/Continuous音声認識エン
ジン、VR/Continuous音声認識エンジンおよびスピーチ波標準音声
認識製品を含むいくつかの先行技術のシステム(すなわち、認識システム、アプ
リケーション等)において既知の機能である。一般的に、ビタビビーム探索技術
を用いるどのような音声認識エンジンも、この方法において多数の仮定を供給す
るように構成することもできる。多数の数字列仮定を供給する他の技術も、当該
技術分野において既知である。よく知られているように、前記仮定された数字列
を、前記話された数字列と一致する可能性に基づいたランク順に配置する(Nベ
ストリスト)。本発明によれば、この多数選択の特徴を、種々の知識ベース認識
戦略と共に使用し、前記話された数字列を正確に認識する。
確率分類されたNベストリストにおける第1項目)を解析し、前記第1選択が所
定の知識ベース認識制限を満たすかどうかを決定する。前記制限を満たす場合、
この数字列を有効にし、すなわち、正確な数字であると断言する。前記第1選択
が前記制限を満たさない場合、前記認識器の第2選択を考察する、等々を、有効
な数字列が見つかるまで続ける。
者に、新たな解析のために前記数字列を繰り返すように頼んでもよい。代わりに
、以下に説明するように、追加(または補助)確認技術を使用し、正確な数字列
を決定する。
において、ユーザ(電話発呼者としてもよい)に、例えばクレジットカード番号
のような話された数字列を与えるように促す。ステップ14において、前記シス
テムは、前記話された数字列を受ける。次にステップ16において、前記数字認
識器は、前記話された数字列を解析し、前記話された列を認識することにおいて
有する確実さのレベルに基づいて、仮定された数字列のランク順リスト(Nベス
トリスト)を発生する。前記リストにおける仮定された数字列を、前記話された
列に最も正しそうな一致から最も正しくなさそうな一致までランク付けされた順
序において配置する。上述したように、これは、既知の機能性である。次に、ス
テップ18において、前記リストにおける第1の仮定された列を解析する。ステ
ップ20において、前記列が所定の制限を満たす場合、ステップ22において、
この仮定された列を有効にする(すなわち、正しく認識された列であるとして選
択する)。前記制限を満たさない場合、ステップ24において、前記リストにお
いて何か他の仮定された列があるかどうかについて決定する。あるならば、次に
ステップ26において、前記リストにおける次の列を検査する。次に本プロセス
はステップ20に進み、その後のステップを、前記制限が満たされるまで繰り返
す。前記リストにおいて前記制限を満たす前記仮定された列がない場合、次にス
テップ28において、本認識プロセスは失敗したと見なし、本プロセスを、任意
にステップ12に戻し、前記電話発呼者に前記話された数字列を繰り返すように
頼むことができる。代わりに、ステップ28の後、他の確認技術(以下で説明す
る)を用い、前記正確な数字列を決定することができる。
い、仮定された数字列を確認することができる。
ム戦略を使用し、前記分類されたNベストリストにおける各仮定された数字列を
、正確にチェックサムする仮定された数字列が見つかるまで解析する。この仮定
された数字列を、解答として確認する。
番号および他の種類の口座番号を含む種々の種類の数値データと共に頻繁に使用
される。説明の目的のため、クレジットカード番号を、前記チェックサム戦略を
用いる認識タスクの例として使用する。
の数字から成る。前記クレジットカード番号の最後の数字を、チェックサム数字
と呼ぶ。このチェックサム数字は、前記クレジットカード番号における他の数字
の数学的組み合わせを表わす。種々の既知のチェックサムアルゴリズムを使用す
ることができる。
ムアルゴリズムを、一般にクレジットカード番号に使用する。前記ルーンチェッ
クサムを以下のように計算する。偶数桁の数字を有するカードに関して、すべて
の奇数桁数字を2倍にし、この積が9より大きい場合、この積から9を引く。次
に、偶数桁数字と2倍した奇数桁数字とを加える。結果は、10の倍数でなけれ
ばならないか、この数字は、有効なカード番号ではなく、拒絶される。前記カー
ドが奇数桁の数字を有する場合、同じ加算を行うが、代わりに偶数桁数字を2倍
にする。
認することは、認識精度を劇的に改善する。例えば、チェックサム情報を使用し
ないクレジットカード番号の認識は、代表的な条件の下で約75%の列精度を示
す。同じ条件下で、Nベストリストおよびチェックサム情報を使用するクレジッ
トカード番号の認識は、約95%の精度を示す。さらに、このタスクに関する「
虚偽の承認」レート(すなわち、前記認識器が不正確な結果に従うチェックサム
を返す場合)はきわめて低く、通常、1%未満である。残りのエラー(全体の4
%程度)は拒絶であり、前記アプリケーションが人間の干渉を再び促すまたはこ
れに頼ることを必要とする。大部分の用途に関して、拒絶エラーは虚偽の承認よ
り望ましい。
途(例えば、郵便番号、ライセンスプレート、カタログ販売、電子口座情報シス
テム)は、有効な項目を載せるデータベースへのアクセスを有する。したがって
、前記Nベストリストを、承認基準が、好適には、ここでは前記データベースに
おける項目との正確な一致であることを除いて、上述したチェックサム戦略を使
用するのときわめて同様に審査することができる。これらのデータベースの多く
は、タイピングエラーが間違った口座がアクセスされることを引き起こす可能性
を低減するために構成されるため、この知識ベース戦略は、前記Nベストリスト
を処理するきわめて強力な道具となる。さらに、このデータベース戦略は、アル
ファベット列にも有用である。
って、前記認識前にデータベース制限を用いることができるが、前記データベー
スは頻繁に変化し、絶え間ない再編集が必要になるため、これはしばしば実際的
でない。また、前記データベースが大きい場合、文法−再編集は、きわめて時間
を消費する恐れがある。このように、例えば当該技術分野において既知のファス
トマッチング技術を使用して前記Nベストリストをデータベースに対して照合す
ることは、しばしばこのような制限を用いる唯一の実用的な方法である。
ムまたは音声制御バンキング用途における、PIN番号との使用に特に適してい
る。これらの用途において、ユーザが口座番号およびPIN番号の双方を安全な
程度として入力することは既知である。以下は、Nベスト審査技術を使用する2
つの方法の例である。
て、通常、PIN番号にアクセスすることができる口座番号のいずれかのデータ
ベースルックアップがある。このような場合において、前記Nベストリストの各
項目をチェックし、前記PIN番号が一致する場合を見つけ、前記項目を承認す
る。前記用途のASR部分は、前記PIN番号であるものを明示的に知る必要は
ない。必要なすべては、前記Nベスト審査プロセスにおけるある点におけるスト
リング一致である。実際のPIN番号を破棄し、安全を守ることができる。
いて、前記口座番号認識およびPIN番号認識の双方に関するNベストリストを
保持する。各々の口座番号仮定を前記データベースにおいて探し、関連するPI
N番号にアクセスする。前記口座番号における一致がない(または、「不明瞭な
」一致がない、以下に説明する技術)場合、この口座番号を拒絶する。口座番号
が一致した場合、その後の一致を、前記Nベストリストに対してその最後まで前
記PIN番号において行う。このプロセスを、口座番号およびPIN番号の最も
可能性がある組み合わされた一致が達成されるまで繰り返すことができる。
ァベット列認識および英数字列認識と、純粋な数字列認識とに用いることができ
ることである。(チェックサム確認を、この方法に、数値をアルファベット列に
割り当てることによって用いることができる。)
おける解答をチェックし、これらの制限を満たすことを確認することができる。
例えば数字「マイクロ文法」を使用することによって、これらの制限を前記認識
前に用いることができるが、これはしばしば実行不可能である。これらの情況に
おいて、これらの文法制限を、前記Nベストリストに有利に用いることができる
。
Nベストリスト計画に用いることができる。再び、これらの制限を認識時に用い
ることができるが、しばしばこの情報は、例えば、PIN番号を確認する場合、
安全の理由のため、利用不可能であるか、隠すことが必要である。これらの場合
において、前記Nベストリストを、既知の長さ制限に適合する項目に関して審査
することができる。
の1つとの一致を発生しない。このような場合において、前記知識ベース戦略を
補助することが望ましいかもしれない。本発明は、必要ならばこれらのような補
助技術の使用も意図する。
Nベストリスト選択が、探索しているデータベースのどの項目とも一致しないと
する。このイベントにおいて、「不明瞭」一致計画のような補助技術を用いる。
既知のように、この技術は、正確なデータベース一致を要求しない。代わりに、
前記Nベストリストの各解答を、「不明瞭」方法において、有効な番号(または
、アルファベットまたは英数字列)のデータベースと比較する。
多数の標準的技術のいずれとしてもよい。例えば、レーベンシュタイン(Lev
enshtein)距離アルゴリズム(Sankoff,D.およびJosep
h B.Kruskal,「タイムワープ、列編集および巨大分子;列比較の理
論および実際」18−21ページ、Addison−Wesley,1983参
照)を用いてもよい。このアルゴリズムにおいて、ある列を、他の列に対して、
ある列を他の列に「変換」するのに必要な置換、削除および挿入の列を決定する
ことによって「一致」させる。前記2つの列間の「距離」は、前記変換を行うの
に必要なこのような「修正」(置換+削除+挿入)の最小数である。
く、このバージョンにおいて、特定の修正を、他よりも「コスト」が高いと見な
す。例えば、数字認識をノイズのある状態において行う場合、「oh」および「
eight」のようないくつかの数字を仮説として挿入するのは、ASRアルゴ
リズムと共通である。重み付き一致アルゴリズムは、したがって、このような挿
入を、挿入および/または置換および削除の他のクラスよりも不利にすると決定
する。このようにして、前記ASR技術の特定の制限を、よりロバストなデータ
ベース一致を達成するためであるとみなすことができる。
ット認識に関して、前記「重み付き」一致規準は、ASRシステムにしばしばき
わめて混同される文字の特定の組があるため、きわめて有用であるかもしれない
。例えば、最新のASRアルゴリズムに関して、特に、電話ネットワーク(固定
および無線双方)において代表的に見られるようなバンド制限された状態におい
て、アルファベット文字の「Eセット」(b、c、d、e、g、p、t、v)間
を区別するのは困難である。この場合、前記レーベンシュタイン距離を変更し、
これらの文字間の置換モードを他のエラーモードより低くすることができる。
結合し、実際に話された列を確認することができる。この「2試行」または「反
復試行」技術によって、続く好適な手順は以下の通りである。 a)ユーザに、番号(または英数字列)を一回促す。 b)前記認識を、話された試行において、前記数字認識器を使用して実行し、
Nベストリストを得る(リスト1)。 c)次に、前記数字認識器の「信頼度」測定を使用し、前記Nベストリストの
上位回答を承認または拒絶する。前記信頼度が十分高い場合、前記試行を受け入
れる。しかしながら、前記信頼度が所定のしきい値を下回る場合、ユーザに前記
列を繰り返すように促す。 d)次に、前記認識を、繰り返された試行において実行し、他のNベストリス
トを得る(リスト2)。 e)次に、リスト1を、上述したデータベース一致または不明瞭一致アプロー
チを使用してリスト2における仮定の1つを照合するために、「データベース」
として使用する。実際には、リスト1においても生じるリスト2における第1仮
定を選択する。代わりに、チェック順序を逆にし、すなわち、リスト2において
も現れるリスト1における第1仮定のリストを形成することができる。前記不明
瞭技術を用いる場合、リスト1における仮定に最も一致するリスト2における項
目(またはこの逆)を選択する。
クサム、データベース一致等)を満たす前記仮定された数字列が見つからない場
合、他の確認を用いることができる。この技術によれば、前記Nベストリストを
他の仮定を発生する手段として使用し、これらの仮定を次に解析し、これらが所
定の制限を満たすかどうかを決定する。例えば、Nベストリストは、以下の3つ
の仮定を含むとする。 (1) 12345 (2) 42345 (3) 12315 次に、これら3つの選択からの情報を結合することによって、列「42315」
を代案として仮定することが合理的である。「42315」が前記Nベストリス
トにおいて現れなくても、仮定(1)および(3)の第4位置における4−>1
「間一髪」と仮定(1)および(2)の第1位置における1−>4間一髪とに気
づくことによって「合成」することができる。(これらの混同モードの他の入れ
替えのすべては、すでに前記Nベストリストにおいて存在する。)この発生され
た列をチェックサムし、または、別な方法で解析し、前記指定された制限を満た
すかどうかを決定する。
リスト(すなわち、りすと1およびリスト2)を1つのNベストリストに結合す
ることによって用いることもできる。次に、前記仮定−発生技術を用いる。結合
されたリストは、順列のより豊かな可能性を与える。
がって、本発明の好適なインプリメンテーションの1つは、汎用コンピュータの
ランダムアクセスメモリにおいて存在するコードモジュールにおける命令(プロ
グラムコード)の組としてである。前記コンピュータによって要求されるまで、
前記命令の組を、他のコンピュータメモリ、例えば、ハードディスク装置か、光
ディスク(CD ROMにおける結果としての使用に関して)またはフロッピー
(登録商標)ディスク(フロッピーディスクにおける結果としての使用に関して )のようなリムーバブルメモリにおいて格納してもよく、インターネットまたは 何か他のコンピュータネットワークからダウンロードしてもよい。加えて、上述 した種々の方法を、ソフトウェアによって選択的に活性化または再構成されるコ ンピュータにおいて便利に実装したが、当業者は、これらのような方法を、ハー ドウェアにおいて、ファームウェアにおいて、または、前記必要な方法ステップ を行うように構成されたより専用の装置において実行してもよいことを認識する であろう。
、パワーPCまたはRISCベース)と、ランダムアクセスメモリまたは他の揮
発性メモリと、ディスク記憶装置と、適切なディスプレイインタフェースを有す
るディスプレイと、入力装置(マウス、キーボード等)と、前記コンピュータを
コンピュータネットワークにインタフェースする適切な通信装置とを有する。ラ
ンダムアクセスメモリは、本発明の機能性を与えるコンピュータプログラムをサ
ポートする。
って保護されることを望むものは、請求項において述べた。
トである。
Claims (25)
- 【請求項1】 話された数字列を認識する方法において、 (a) 前記話された数字列を受けるステップと、 (b) 前記話された数字列を解析し、前記話された数字列と一致する可能性
に基づいてランク付けされた順序において配置された仮定された数字列のリスト
を発生するステップと、 (c) 所定の知識ベース認識戦略を使用し、前記話された列に一致する最も
高い可能性を有する列から始めて、前記リストの個々の仮定された列が所定の制
限を満たすかどうかを決定するステップと、 (d) 前記制限を満たす前記リストにおける最初の列を、認識された列とし
て選択するステップとを含むことを特徴とする方法。 - 【請求項2】 請求項1に記載の方法において、前記所定の知識ベース認識戦略
が、データベース一致計画を含むことを特徴とする方法。 - 【請求項3】 請求項2に記載の方法において、ステップ(c)が、有効なデー
タ列のデータベースを探索し、前記仮定された数字列のいずれかが前記有効な数
字列の1つと一致するかどうかを決定するステップを含むことを特徴とする方法
。 - 【請求項4】 請求項1に記載の方法において、前記知識ベース認識戦略がチェ
ックサム計画であることを特徴とする方法。 - 【請求項5】 請求項4に記載の方法において、前記話された数字列がチェック
サム数字を含み、ステップ(c)が、前記仮定された数字列のチェックサムを計
算し、前記チェックサムが前記チェックサム数字の値と一致するかどうかを決定
することを特徴とする方法。 - 【請求項6】 請求項4に記載の方法において、 前記仮定された列のいずれも前記制限を満たさない場合、 (e) 追加の仮定された数字列を、前記リストの仮定された数字列から集め
た情報に基づいて発生するステップと、 (f) 前記追加の仮定された数字列を解析し、前記チェックサム計画を満た
すかどうかを決定するステップと、 (g) 満たすならば、前記追加の仮定された数字列を正しいと認めるステッ
プとをさらに含むことを特徴とする方法。 - 【請求項7】 請求項4に記載の方法において、前記チェックサム計画が、ルー
ンチェックサムアルゴリズムを使用することを特徴とする方法。 - 【請求項8】 請求項1に記載の方法において、 (e) 前記仮定された列のいずれも前記制限を満たさない場合、補助一致技
術を使用し、前記制限を最も満たす前記仮定された数字列を選択するステップを
さらに含むことを特徴とする方法。 - 【請求項9】 請求項8に記載の方法において、前記補助一致技術が不明瞭一致
計画であることを特徴とする方法。 - 【請求項10】 請求項9に記載の方法において、前記不明瞭一致計画が、各々
の仮定された数字列が有効数字列の組のうちの1つと一致するのに必要な修正の
数を決定することを特徴とする方法。 - 【請求項11】 請求項10に記載の方法において、前記修正が、数字置換、削
除および追加を含むことを特徴とする方法。 - 【請求項12】 請求項10に記載の方法において、前記修正に重み付けしたこ
とを特徴とする方法。 - 【請求項13】 請求項1に記載の方法において、前記知識ベース認識戦略が数
字位置戦略であり、前記制限が所定の数字位置であることを特徴とする方法。 - 【請求項14】 請求項1に記載の方法において、前記知識ベース認識戦略が数
字列長戦略であり、前記制限が所定の数字列長であることを特徴とする方法。 - 【請求項15】 請求項1に記載の方法において、 前記仮定された数字列のいずれも前記制限を満たさない場合、 (e) 第2の話された数字列の入力を促すステップと、 (f) 前記第2の話された数字列を解析し、前記第2の話された数字列と一
致する可能性に基づいてランク付けされた順序において配置された仮定された数
字列の第2リストを発生するステップと、 (g) 前記第2の話された列に一致する最も高い可能性を有する列で開始す
る順序において、前記第2リストの個々の仮定された列が、ステップ(b)にお
いて発生されたリストにおける前記仮定された数字列のうちの1つに一致するか
どうかを決定するステップと、 (h) 前記認識された列として、ステップ(b)において発生された前記仮
定された数字列のうちの1つと一致する前記第2リストの最初の列を選択するス
テップとをさらに含むことを特徴とする方法。 - 【請求項16】 請求項1に記載の方法において、 前記仮定された数字列のいずれも前記制限を満たさない場合、 (e) 第2の話された数字列の入力を促すステップと、 (f) 前記第2の話された数字列を解析し、前記第2の話された数字列と一
致する可能性に基づいてランク付けされた順序において配置された仮定された数
字列の第2リストを発生するステップと、 (g) ステップ(a)において受けた前記話された列に一致する最も高い可
能性を有する列で開始する順序において、ステップ(b)において発生されたリ
ストの個々の仮定された列が、前記第2リストにおける前記仮定された数字列の
うちの1つに一致するかどうかを決定するステップと、 (h) 前記認識された列として、前記第2リストの前記仮定された数字列の
うちの1つと一致するステップ(b)において発生された前記リストにおける最
初の列を選択するステップとをさらに含むことを特徴とする方法。 - 【請求項17】 請求項1に記載の方法において、前記仮定された数字列のいず
れも前記制限を満たさない場合、列挙したステップを繰り返すステップをさらに
含むことを特徴とする方法。 - 【請求項18】 請求項1に記載の方法において、ステップ(a)の前に話され
た数字列の入力を促すステップをさらに含むことを特徴とする方法。 - 【請求項19】 話された数字列を認識する方法において、 (a) 話された数字列の入力を促すステップと、 (b) 前記話された数字列を受けるステップと、 (c) 前記話された数字列を解析し、前記話された数字列と一致する可能性
に基づいてランク付けされた順序において配置された仮定された数字列のリスト
を発生するステップと、 (d) 所定の知識ベース認識戦略を使用し、前記話された列に一致する最も
高い可能性を有する前記リストの仮定された列が所定の制限を満たすかどうかを
決定するステップと、 (e) ステップ(b)において前記制限が満たされていることがわかった場
合、前記仮定された列を正しいと認め、そうでない場合、前記仮定された列を前
記リストから除去し、ステップ(d)および(e)を前記リストにおける残りの
仮定された列に関して繰り返すステップとを含むことを特徴とする方法。 - 【請求項20】 請求項19に記載の方法において、前記所定の制限が、有効列
のデータベースとの一致であることを特徴とする方法。 - 【請求項21】 請求項20に記載の方法において、ステップ(d)が、有効な
データ列のデータベースを探索し、前記仮定された数字列が前記有効な数字列の
1つと一致するかどうかを決定するステップを含むことを特徴とする方法。 - 【請求項22】 請求項19に記載の方法において、前記所定の制限がチェック
サムであることを特徴とする方法。 - 【請求項23】 請求項22に記載の方法において、前記話された数字列がチェ
ックサム数字を含み、ステップ(d)が、前記仮定された数字列のチェックサム
を計算し、前記チェックサムが前記チェックサム数字の値と一致するかどうかを
決定することを特徴とする方法。 - 【請求項24】 請求項22に記載の方法において、 前記仮定された列のいずれも前記制限を満たさない場合、 (e) 追加の仮定された数字列を、前記リストの仮定された数字列から集め
た情報に基づいて発生するステップと、 (f) 前記追加の仮定された数字列を解析し、前記チェックサム計画を満た
すかどうかを決定し、満たすならば、前記追加の仮定された数字列を正しいと認
めるステップとをさらに含むことを特徴とする方法。 - 【請求項25】 話された数字列を認識するコンピュータにおいて使用するコン
ピュータ読み出し可能媒体におけるコンピュータプログラム製品において、 話された数字列を解析し、前記話された数字列と一致する可能性に基づいてラ
ンク付けされた順序において配置された仮定された数字列のリストを発生する手
段と、 前記話された列に一致する最も高い可能性を有する列から始まる順序において
、前記リストの個々の仮定された列を解析し、これらが所定の制限を満たすかど
うかを決定する知識ベース認識手段と、 前記制限を満たす前記リストにおける最初の列を認識された列として選択する
手段とを具えることを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/222,073 US6922669B2 (en) | 1998-12-29 | 1998-12-29 | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US09/222,073 | 1998-12-29 | ||
PCT/US1999/031311 WO2000039788A2 (en) | 1998-12-29 | 1999-12-29 | Knowledge-based strategies applied to n-best lists in automatic speech recognition systems |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002533789A true JP2002533789A (ja) | 2002-10-08 |
Family
ID=22830703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000591610A Pending JP2002533789A (ja) | 1998-12-29 | 1999-12-29 | 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6922669B2 (ja) |
EP (1) | EP1070315A4 (ja) |
JP (1) | JP2002533789A (ja) |
KR (1) | KR20010041440A (ja) |
CN (1) | CN1179323C (ja) |
AU (1) | AU2401700A (ja) |
WO (1) | WO2000039788A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169418A (ja) * | 2008-01-16 | 2009-07-30 | Harman Becker Automotive Systems Gmbh | フラグメントを使用した大規模なリストにおける音声認識 |
JPWO2019220725A1 (ja) * | 2018-05-18 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音声認識装置、音声認識方法、及びプログラム |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7016827B1 (en) | 1999-09-03 | 2006-03-21 | International Business Machines Corporation | Method and system for ensuring robustness in natural language understanding |
DE10043499A1 (de) * | 2000-09-01 | 2002-03-14 | Bosch Gmbh Robert | Verfahren zur Datenübertragung |
KR100352748B1 (ko) * | 2001-01-05 | 2002-09-16 | (주) 코아보이스 | 온라인 학습형 음성합성 장치 및 그 방법 |
AUPR654401A0 (en) * | 2001-07-23 | 2001-08-16 | Transurban City Link Limited | Method and system for recognising a spoken identification sequence |
US7809574B2 (en) * | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7246062B2 (en) * | 2002-04-08 | 2007-07-17 | Sbc Technology Resources, Inc. | Method and system for voice recognition menu navigation with error prevention and recovery |
US20040002849A1 (en) * | 2002-06-28 | 2004-01-01 | Ming Zhou | System and method for automatic retrieval of example sentences based upon weighted editing distance |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
US7664639B2 (en) * | 2004-01-14 | 2010-02-16 | Art Advanced Recognition Technologies, Inc. | Apparatus and methods for speech recognition |
US20060004574A1 (en) * | 2004-06-30 | 2006-01-05 | Microsoft Corporation | Semantic based validation information in a language model to detect recognition errors and improve dialog performance |
MY149811A (en) * | 2004-08-30 | 2013-10-14 | Qualcomm Inc | Method and apparatus for an adaptive de-jitter buffer |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
US20070016460A1 (en) * | 2005-07-14 | 2007-01-18 | Vocollect, Inc. | Task management system having selectively variable check data |
EP2685451A3 (en) | 2006-04-03 | 2014-03-19 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
CN100452042C (zh) * | 2006-06-23 | 2009-01-14 | 腾讯科技(深圳)有限公司 | 数字串模糊匹配的方法 |
US8055502B2 (en) * | 2006-11-28 | 2011-11-08 | General Motors Llc | Voice dialing using a rejection reference |
EP1933302A1 (en) * | 2006-12-12 | 2008-06-18 | Harman Becker Automotive Systems GmbH | Speech recognition method |
WO2008100503A2 (en) * | 2007-02-12 | 2008-08-21 | Dolby Laboratories Licensing Corporation | Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
ES2391228T3 (es) | 2007-02-26 | 2012-11-22 | Dolby Laboratories Licensing Corporation | Realce de voz en audio de entretenimiento |
US8589162B2 (en) * | 2007-09-19 | 2013-11-19 | Nuance Communications, Inc. | Method, system and computer program for enhanced speech recognition of digits input strings |
DE102008007698A1 (de) * | 2008-02-06 | 2009-08-13 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
WO2009152124A1 (en) * | 2008-06-10 | 2009-12-17 | Dolby Laboratories Licensing Corporation | Concealing audio artifacts |
US8321958B1 (en) | 2008-07-30 | 2012-11-27 | Next It Corporation | Detecting presence of a subject string in a target string and security event qualification based on prior behavior by an end user of a computer system |
US20100281435A1 (en) * | 2009-04-30 | 2010-11-04 | At&T Intellectual Property I, L.P. | System and method for multimodal interaction using robust gesture processing |
US8374868B2 (en) * | 2009-08-21 | 2013-02-12 | General Motors Llc | Method of recognizing speech |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US9123339B1 (en) | 2010-11-23 | 2015-09-01 | Google Inc. | Speech recognition using repeated utterances |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US10534931B2 (en) | 2011-03-17 | 2020-01-14 | Attachmate Corporation | Systems, devices and methods for automatic detection and masking of private data |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
CN103188409A (zh) * | 2011-12-29 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | 语音自动应答云端服务器、系统及方法 |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US10115394B2 (en) * | 2014-07-08 | 2018-10-30 | Mitsubishi Electric Corporation | Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results |
US10572810B2 (en) | 2015-01-07 | 2020-02-25 | Microsoft Technology Licensing, Llc | Managing user interaction for input understanding determinations |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
EP3089159B1 (en) | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US10249297B2 (en) | 2015-07-13 | 2019-04-02 | Microsoft Technology Licensing, Llc | Propagating conversational alternatives using delayed hypothesis binding |
CN105468582B (zh) * | 2015-11-18 | 2018-03-02 | 苏州思必驰信息科技有限公司 | 一种基于人机交互的数字串的纠正方法及装置 |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10446137B2 (en) | 2016-09-07 | 2019-10-15 | Microsoft Technology Licensing, Llc | Ambiguity resolving conversational understanding system |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN107632718B (zh) * | 2017-08-03 | 2021-01-22 | 百度在线网络技术(北京)有限公司 | 语音输入中的数字信息的推荐方法、装置与可读介质 |
CN109472980A (zh) * | 2018-10-18 | 2019-03-15 | 成都亚讯星科科技股份有限公司 | 基于NB-IoT技术的地磁车辆检测器及其检测方法 |
CN113178190A (zh) * | 2021-05-14 | 2021-07-27 | 山东浪潮科学研究院有限公司 | 一种基于元学习提高生僻字识别的端到端自动语音识别算法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US5222187A (en) * | 1989-12-29 | 1993-06-22 | Texas Instruments Incorporated | Grammar-based checksum constraints for high performance speech recognition circuit |
US5119416A (en) * | 1990-05-30 | 1992-06-02 | Nynex Corporation | Automated telephone number identification for automatic intercept in telephone networks |
US5276741A (en) * | 1991-05-16 | 1994-01-04 | Trw Financial Systems & Services, Inc. | Fuzzy string matcher |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
US5903864A (en) * | 1995-08-30 | 1999-05-11 | Dragon Systems | Speech recognition |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US6003002A (en) * | 1997-01-02 | 1999-12-14 | Texas Instruments Incorporated | Method and system of adapting speech recognition models to speaker environment |
US6049768A (en) * | 1997-11-03 | 2000-04-11 | A T & T Corp | Speech recognition system with implicit checksum |
US6208965B1 (en) * | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
US6205428B1 (en) * | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
-
1998
- 1998-12-29 US US09/222,073 patent/US6922669B2/en not_active Expired - Lifetime
-
1999
- 1999-12-29 JP JP2000591610A patent/JP2002533789A/ja active Pending
- 1999-12-29 WO PCT/US1999/031311 patent/WO2000039788A2/en active Application Filing
- 1999-12-29 KR KR1020007009585A patent/KR20010041440A/ko not_active Application Discontinuation
- 1999-12-29 CN CNB998054755A patent/CN1179323C/zh not_active Expired - Fee Related
- 1999-12-29 EP EP99967801A patent/EP1070315A4/en not_active Withdrawn
- 1999-12-29 AU AU24017/00A patent/AU2401700A/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169418A (ja) * | 2008-01-16 | 2009-07-30 | Harman Becker Automotive Systems Gmbh | フラグメントを使用した大規模なリストにおける音声認識 |
JPWO2019220725A1 (ja) * | 2018-05-18 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音声認識装置、音声認識方法、及びプログラム |
JP7170287B2 (ja) | 2018-05-18 | 2022-11-14 | パナソニックIpマネジメント株式会社 | 音声認識装置、音声認識方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20010041440A (ko) | 2001-05-25 |
WO2000039788A2 (en) | 2000-07-06 |
AU2401700A (en) | 2000-07-31 |
CN1179323C (zh) | 2004-12-08 |
CN1299503A (zh) | 2001-06-13 |
US20030154075A1 (en) | 2003-08-14 |
EP1070315A4 (en) | 2005-07-27 |
WO2000039788A3 (en) | 2000-11-02 |
US6922669B2 (en) | 2005-07-26 |
EP1070315A2 (en) | 2001-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002533789A (ja) | 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略 | |
EP0099476B1 (en) | Identity verification system | |
US6760701B2 (en) | Subword-based speaker verification using multiple-classifier fusion, with channel, fusion, model and threshold adaptation | |
US6195634B1 (en) | Selection of decoys for non-vocabulary utterances rejection | |
EP0788649B1 (en) | Method and system for pattern recognition based on tree organised probability densities | |
US20020169600A1 (en) | Multi-stage large vocabulary speech recognition system and method | |
US6134527A (en) | Method of testing a vocabulary word being enrolled in a speech recognition system | |
WO1994016437A1 (en) | Speech recognition system | |
WO1996036042A1 (en) | Improving the reliability of word recognizers | |
EP0504485A2 (en) | A speaker-independent label coding apparatus | |
JPH1173195A (ja) | 話者の申し出識別を認証する方法 | |
JP3703991B2 (ja) | 自由音声評点法を用いた動的音声認識の方法および装置 | |
US7630895B2 (en) | Speaker verification method | |
US6393397B1 (en) | Cohort model selection apparatus and method | |
Cohen et al. | On feature selection for speaker verification | |
JP2853418B2 (ja) | 音声認識方法 | |
US8688452B2 (en) | Automatic generation of distractors for special-purpose speech recognition grammars | |
JP3291073B2 (ja) | 音声認識方式 | |
JP3322536B2 (ja) | ニューラルネットワークの学習方法および音声認識装置 | |
JPH11184492A (ja) | 話者認識装置及びその方法 | |
JPH05188991A (ja) | 音声認識装置 | |
JPH103296A (ja) | 音声認識システムにおける単語予備選択装置 | |
JPH04166900A (ja) | 音声認識装置 | |
JPS62206597A (ja) | 音声認識用単語予備選択方式 | |
JPS58159598A (ja) | 単音節音声認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061226 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070315 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100308 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100315 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100907 |