JPH05249993A - 情報サービスのためのインターフェース方法及び装置 - Google Patents

情報サービスのためのインターフェース方法及び装置

Info

Publication number
JPH05249993A
JPH05249993A JP21309292A JP21309292A JPH05249993A JP H05249993 A JPH05249993 A JP H05249993A JP 21309292 A JP21309292 A JP 21309292A JP 21309292 A JP21309292 A JP 21309292A JP H05249993 A JPH05249993 A JP H05249993A
Authority
JP
Japan
Prior art keywords
information
response
responses
received
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP21309292A
Other languages
English (en)
Inventor
Lawrence Richard Rabiner
リチャード ラビナー ローレンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH05249993A publication Critical patent/JPH05249993A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明においては情報サービスシステムに提
供される情報内の不確実を解消するための方法及び装置
が提供される。 【構成】 データベースは情報の明示的或は含蓄的要求
に対する一つ或は複数の有り得る応答のリストを格納す
る。要求に応答してユーザから受信された情報がこの受
信された情報を識別するためにリスト内の有り得る応答
の一つ或は複数と比較される。個々の有り得る応答と関
連して、その応答がその要求によって引き起こされる先
験的確率が存在する。先験的確率は、ユーザとのトレー
ニング、不確実を解消するためのバックアップ手順その
他に基づいて決定される。受信された情報を有り得る応
答と比較することによって比較スコアが生成される。比
較スコアがそれが許容できる比較スコアの範囲内である
か否か決定するためにチェックされる。許容範囲内であ
るときは、受信された情報が識別される。範囲内でない
ときは、バックアップ不確実解消技法が遂行される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は一般的には情報サービ
ス、より詳細には、情報サービスのためのユーザインタ
ーフェースに関する。
【0002】
【従来の技術】情報サービスは情報或はデータへのアク
セス或はこれらの管理を行なうために広く使用されてい
る。情報サービスの例としては、個人によって債権を購
入したり資金を転送するために使用される金融サービ
ス;情報の格納、探索及び検索のために使用されるデー
タサービス;電話番号を識別し、ダイヤルするために使
用される電話サービスが含まれる。典型的には、ユーザ
は情報サービスシステムとユーザインターフェースの助
けを借りて対話する。このインターフェースには、例え
ば、パソコン、コンピュータ端末、或は電話などの入/
出力(I/O)デバイスによってサポートされる音声及
びグラフィック機能が含まれる。
【0003】情報サービスユーザのインターフェース
は、しばしば、ノード及びブランチを持つ本質的にトリ
ー状の構造であると記述できる。トリーのノードはサー
ビスユーザに与えられるべき情報の明示的或は含蓄的な
質問或は要求”reauest ”を表わす。これら要求に対す
るユーザの応答によって、情報サービスシステムは要求
されるタイプの処理及び機能を決定することが可能にな
る。例えば、サービスシステムはユーザによって求めら
れている見積りに対する在庫名、或はユーザがダイヤル
したいと思う電話番号を要求する。トリーのブランチは
一連の要求間の経路、或は要求とサービスシステムによ
って遂行されるべき機能との間の経路を表わす。
【0004】要求に応答しての情報は情報サービスシス
テムに様々な入力技法及び関連するデバイスによって提
供される。これら応答にはマイクロホンを通じての音
声、キーボード或はキーパッド、ペン状の筆、バーコー
ド或は磁気媒体の走査、プッシュボタン、タッチ画面技
術等が含まれる。ユーザによって要求される情報サービ
ス或はタスクの本質次第でこれらの一つ或は複数の技術
が別の技術よりも有利となる。例えば、情報の音声入力
が幾つかのケースにおいては、ユーザに対する情報サー
ビス動作をスピード化及び簡素化するために好ましい。
音声入力は、代替のI/Oデバイスが存在しない場合、
或は(例えば、身体障害者などによる)ユーザの特別な
要求に答えるためにも使用される。
【0005】入力技法及び関連するデバイスの本質或は
使用の結果として、要求に応答して情報サービスインタ
ーフェースによって受信される情報の内容はある程度の
不確実さを持つこととなる。例えば、マイクロホンから
受信された形式において音声信号の内容或は意味が情報
サービスインターフェースによって認識できなかった
り;筆或はバーコードスキャナから受信された信号が何
らかの形で損傷したり;或はキーパッド或はタッチ画面
システム内の一つ以上のキー或は要素が誤って押された
りする場合がある。これらケースの各々において、受信
された情報の内容が不確実となる。サービス処理を開始
する前に、情報サービスインターフェースは受信された
情報内容のこのような不確実さの問題を解消する必要が
ある。音声入力の一例としてのケースにおいては、情報
サービスインターフェースはこの情報がサービスシステ
ムに対して有効な形式となるように話された語の内容を
認識するための処理を遂行しなければならない。
【0006】
【発明が解決しようとする課題】本発明は、情報サービ
スインシステムへの入力として受信される情報の内容の
不確実さを解消するための方法及び装置を提供すること
にある。不確実さの解消は情報の要求に対する有り得る
応答を含むデータベースを参照することによって提供さ
れる。ある応答は、その応答がある要求によって引き起
こされる先験的な確率(a priori probability)に基づ
いて有り得ると見なされる。先験的確率は従ってある要
求を与えられたときあるユーザがどのような情報にて応
答する可能性が有るかを示す。これらは、他の事項を含
めて特に、情報サービスの本質或はその使用に関する経
験に基づいて定量的或は定質的に決定される。
【0007】
【課題を解決するための手段】サービスインターフェー
スによって受信された不確実な内容の情報は不確実さを
解消する目的で有り得る格納された応答と比較される。
本発明の一つの実施例においては、幾つかの方法の任意
の方法によって比較が遂行される。例えば、受信された
情報は類似性尺度に基づいて比較した結果それに最も接
近することが決定された格納された応答として識別され
る。受信された情報が上の方法にて、仮のものとして識
別され、情報サービスユーザに識別された情報を”否定
する権利(right of refusal)”が与えられ、こうし
て、データベース内に格納された先験的に可能な応答が
不確実さの妥当な解消を与えない場合の訓練が行なわれ
る。
【0008】さらに、受信された情報がデータベース
(或はその一部)内に格納された第一に遭遇される応答
として、仮に或は永久に識別され、これと受信された応
答との比較によって類似性の許容できるスコアが生成さ
れる。この技法はデータベース内の有り得る応答を使用
頻度に基づいて並べる動作との関連で使用される。
【0009】本発明の一つの実施例は情報サービスのた
めの接続語及び数字(connected-word and -digit )
(以降”接続語”と呼ばれる)音声認識器に関する。こ
の実施例は、情報サービスの背景内においてはユーザ音
声は、しばしば、例えば、ユーザの過去の音声、或はそ
の情報の要求の制約或は本質から予測できると言う思想
に基づく。トレーニング(training)或は初期設定手順
を介して、接続語音声の一つ或は複数のリスト(つま
り、データベース)が構築及び維持される。このリスト
は情報サービスによる情報の要求に対する複数の有り得
る応答を含む。個々の接続語音声認識タスクに対して、
認識が第一のスンスタンスにおいて、その要求に対する
リスト或はセットの有り得る応答を参照することによっ
て遂行される。この未知の接続語音声が、リスト内の項
目と、個々のリスト項目に対して(個々のリスト項目に
よって指定される)適当な参照パターンをアセンブリ
し、また動的時間ワーピング(Dynamic Time Warping)
のような時間整合手順を使用することによって比較され
る。この未知の音声が指定される或はマシーンによって
決定される域値以下の最良のスコアを持つリスト項目と
して認識される。どの比較スコアも域値以下でない場合
(或は二つ或はそれ以上のスコアが域値以下である場
合)は、一つ或は複数のバックアップ手順が提供され
る。
【0010】
【実施例】一般に、情報サービス用のユーザインターフ
ェースは論理トリー構造に従って動作する。図1は論理
トリー10の線図を表わす。トリー10はノード15、
ブランチ20、及びタスク25を含む。個々のノード1
5は情報サービスシステムによってユーザに問われた情
報に対する明示的或は含蓄的な要求を表わす。個々のノ
ード15は一つ或は複数のブランチ20によって他のノ
ードと関連付けられる。個々のタスク25はユーザに対
するサービスによって遂行される機能を表わす。このた
め、行なわれた一連の要求及び与えられた応答は遂行さ
れるべきタスク25を指定するトリー10のノード15
及びブランチ20を通じての論理経路を定義する。個々
のノード15は情報の要求を表わすため、個々のノード
15はまた応答内の不確実を解消するタスクを表わす。
【0011】図2は本発明の一つの実施例50を表わ
す。実施例50は比較器51及びデータベース52を備
える。データベース52は情報サービスユーザに流され
る(ノード15によって表わされる)一つ或は複数の情
報の要求に対する一つ或は複数の有り得る応答を含む。
情報53はサービスユーザから入力デバイスを介してサ
ービス要求に応答して受信され、比較器51に提供され
る。受信された情報53内の不確実を解消するために、
比較器51はユーザ応答情報53を引き起こした要求5
4と関連する有り得る応答56に対するデータベース5
2を走査するための制御/データ信号55を提供する。
比較器51はデータベース52からの個々の有り得る応
答56を受信された情報53と比較し、どの有り得る応
答56が受信された応答53と最も良く対応するか決定
する。(別の方法として、比較器51は受信された応答
53を仮に最も有り得る応答56と識別し、否定の権利
に関するユーザの対話を待つこともでき;或は、比較器
51は受信された応答53を仮に或は永久的に、データ
ベース52内に遭遇される要求と関連する第一の有り得
る応答56として識別し、許容できる一致スコアのレン
ジ内の一致の尺度を与えることもできる。)
【0012】比較器51はこうして決定された有り得る
応答を識別された応答57として出力する。
【0013】音声認識器 図3は本発明のもう一つの実施例としての接続語音声識
別器(connected-wordspeech recognizer)を表わす。
識別器100は入力デバイス(例えば、I/Oデバイス
のマイクロホン)、アナロクデジタル(A/D)変換器
102、プロセッサ103、及びメモリ104を含む。
メモリ104は、その他の項目とともに、任意のノード
15と関連する情報の要求に対する一つ或は複数の有り
得る応答のリストを格納する。図3にはまた認識された
音声に対応する応答を受信するための利用デバイス(ut
ilization device)105が含まれる。この利用デバイ
ス105は情報サービスを表わす。バス106はA/D
変換器102、プロセッサ103、メモリ104、及び
利用デバイス105を相互接続する。A/D変換器10
2、プロセッサ103、メモリ104、及び利用デバイ
ス105は入力デバイス101の付近に位置される。別
の方法として、これらの一つ或は複数をある程度離れた
位置に置き、ネットワークによってローカルデバイスに
結合することもできる。
【0014】図3の一例としての実施例の動作を考察す
る前に、メモリ104の内容について考慮することが大
切で有益であるが、これらは、音声を認識するためのリ
スト及び関連する語パターンに関する。
【0015】図3に示されるこの一例としての音声認識
器は情報サービスによる情報の要求は、通常、例えば、
ユーザの過去に認識(或は”復号”)された音声から、
或はその情報の要求の制約或は特質から予測が可能な口
答での応答を引き起こすと言う想定を利用する。下に述
べる一つ或は複数の技術を介して、ある情報の要求に対
する有り得る応答のリストが決定され、メモリ104内
に格納される。このリスト内の個々の有り得る応答はメ
モリ104内に別個に格納された語パターン(例えば、
語鋳型或は統計モデル)に対するシリーズの一つ或は複
数の参照を含む。個々の語パターンは一つの有り得る応
答内で使用される一つの語を表わす。複数の語から成る
有り得る応答は、従って、複数の語パターンへの参照を
含む。
【0016】メモリ104内に格納された個々の語パタ
ーンは、一つ或は複数の話者に依存しない或は話者に依
存する特徴ベクトルを含む或はこれに基づく。ある語パ
ターンのこれら特徴ベクトルは問題となる語の顕著なベ
クトル特性を表わす。ある一つのタイプの特徴ベクトル
は個々が与えられた音声のサンプル(或は”トーク
ン”)の時間整合されたスライス(或は”フレーム”)
から生成される一つ或は複数のスペクトルベクトルの平
均からなる。例えば、個々の特徴ベクトルは、隣接する
フレームから中心が15ミリ秒だけ分離された音声の4
5ミリ秒フレーム(つまり、ある語の45ミリ秒スライ
ス)から成る。一連のフレームに対する特徴ベクトルが
一体となって語パターン”鋳型(template)”を形成す
る。もう一つのタイプの特徴ベクトルは数トークンを通
じて決定されたある与えられたトークン内の一連のスペ
クトルベクトルのグループの平均及び共分散を含む。こ
の平均及び共分散は、例えば、当分野において周知の隠
れマルコフモデル(hidden Markov model 、HMM)な
どのような音声の統計モデル内で使用される。
【0017】ある語パターンに対する(鋳型或は統計モ
デルに対する)特徴ベクトルは、例えば、線型予測符号
化(Linear Predictive Coding)などのような当分野に
おいて周知の複数の特徴ベクトル測定技術のいずれかを
使用して得ることができる。特徴測定技術の議論に関し
ては、L.R.ラビナ−(Rabiner )及びS.E.レビ
ンソン(Levinson)によって、Vol.Com−29、
No.5、通信に関するIEEE議事録(IEEE Transac
tions On Communications )、621−59(1981
年5月)に掲載の論文『分離及び接続された語認識−理
論及び選択された用途(Isolated and Connected Word
Recognition -Theory and Selected Applications
)』;及びL.R.ラビナー(Rabiner )及びR.
W.スチャファ(Schafer )による『音声信号のデジタ
ル処理(Digital Processing of Speech Signals)』、
396−455(1978)を参照すること。
【0018】メモリ104内のリスト及び語パターン格
納に関する一例としてのデータ構造が図4a及び4bに
示される。図4aに示されるように、このリストはある
情報の要求に対するV個の有り得る応答を含む(このた
め、このリストは、v,1≦v≦Vによって索引され
る)。個々の有り得る応答(或はリスト項目)Rv はメ
モリ104内にこれも格納された語パターンに対するあ
る数L(v)の参照(reference )を含む(このため、
個々の有り得る応答Rv はl,1≦l≦L(v)によっ
て索引され、個々のRv (l)はメモリ104内の特定
の語パターンを参照する)。
【0019】図4bに示されるように、語パターンメモ
リは関連するリストの応答を形成するために使用される
W個の語パターンを含む(このため、これらメモリは
w,1≦w≦Wにて索引される)。個々の語パターンP
w はある数J(w)の特徴ベクトルを含み(このため個
々のパターンPw はj,1≦j≦J(w)にて索引され
る)、個々のPw (j)はある語パターン内の特定の特
徴ベクトルを参照する。
【0020】ある与えられた応答或はリスト項目Rv
は、従って、あるシーケンスの特徴ベクトルSv (m)
として表わされ、このシーケンスは応答Rv によって指
定されるシーケンスの語パターンPw 、及び個々の語パ
ターンを形成するシーケンスの特徴ベクトルPw (j)
によって決定される。こうして、ある応答或はリスト項
目は、M(v)個の特徴ベクトルSv (m)、(1≦m
≦M(v))を含む。図4cは特徴ベクトルSv の一例
としてのシーケンスを表わす。示されるシーケンスS4
は応答或はリスト項目R4 によって指定されるシーケン
スであり、これは、図4a及び図4cに示されるよう
に、それぞれ、語パターンP2 、P5 及びP4 を参照す
る。個々の参照された語パターンは図4bに指定される
特徴ベクトルを含む。図4cはストリングS4 を構成す
るシーケンスの12個の特徴ベクトル(M(4)=1
2)を含む。
【0021】図3の一例としての実施例の動作が次に図
5との関連で説明される。図5は認識器100のプロセ
ッサ103によって実行される一例としてのプロセスの
フローチャート200を示す。バス106を通じて利用
デバイス105から開始(START )信号を受信するのに
応答して、プロセッサ103は認識されるべき未知の音
声のデジタルバージョンが受信されたかチェックを行な
うことによってプロセスを開始する(図5、210を参
照)。未知の音声が入力デバイス101によって受信さ
れ、アナログ信号入力s(t)としてA/D変換器10
2に供給される。A/D変換器102は未知の音声s
(k)のデジタル信号バージョンを提供する。
【0022】s(k)が入手されると、プロセッサ10
3はデジタル信号s(k)に関してスペクトル特徴測定
処理を遂行し、受信された情報のシリーズの特徴ベクト
ルT(n)を生成する。こうして受信された情報の特徴
ベクトルは”テストパターン(test pattern)”と呼ば
れ、nがこのパターンの個々の特徴ベクトルの索引とな
る。これら特徴ベクトルはメモリ104内に格納される
語パターンの特徴ベクトルを生成するために使用される
のと同一技術(例えば、線型予測符号化)によって得ら
れ、同一のフレーム期間及びフレーム間隔を持つ。特徴
ベクトルT(n)は未知の音声信号s(t)の顕著なス
ペクトル特徴を表わす。こうして、テストパターンは受
信された情報として分類される。テストパターンの特徴
ベクトルT(n)はメモリ104内に格納される(例え
ば、図5、220を参照すること)。
【0023】未知の音声のテストパターンを認識するた
めには、プロセッサ103はテストパターンをその要求
に対する適当なリスト内に含まれるV個の有り得る応答
の個々と比較する。個々の比較はテストパターン特徴ベ
クトルTnとリスト内の一つの有り得る応答によって指
定されるシリーズの一つ或は複数の語パターンによって
形成される特徴ベクトルSv (m)との間の類似性を考
慮に入れる。この比較は当分野において動的時間整合
(dynamic time alignment)として知られる技術によっ
て行なわれる。
【0024】リストが一つ或は複数の有り得る応答を含
むものと想定すると(図5の230を参照)、プロセッ
サ103はリスト内の第一の有り得る応答R1 (1)の
シリーズの語パターンからこの時間整合プロセスを開始
する;1≦1≦L(1)(図5、235を参照)。時間
整合は、テストパターン特徴ベクトルT(n)と第一の
有り得る応答R1 によって指定されるシリーズの語パタ
ーンによって形成されるシーケンスの特徴ベクトルS1
(m)との間で遂行される(図5の240;及び下の動
的時間整合のセクション並びに図6を参照)。テストパ
ターンと有り得る応答との類似性或は距離を示す比較ス
コアD1 が生成及び保存される(図5の245参照)。
このプロセスがリスト内の個々の有り得る応答Rv 、2
≦v≦Vに対して反復される。この結果として、セット
の比較スコアDv 、1≦v≦V(図5の250)が決定
される。域値以下の最良の比較スコアD* を与えるこの
リストの応答が認識された応答R* であるものと見なさ
れる(図5の255、260を参照)。
【0025】この域値は任意的に或はパターンメモリ内
の語に対する訓練手順の一部としてセットされる。域値
に対する典型的な値はメモリ104内に格納された語パ
ターンに対する訓練プロセスの際に決定される平均比較
スコア以上の語パターン或は”トークン”比較スコアの
1標準偏差(1σ)に対応する(下のリスト及び語パタ
ーンメモリのセクションの訓練についての説明を参
照)。比較スコアD* が域値以下である場合(良好な認
識応答が発見されたことを意味する)、こうして認識さ
れた応答R* が利用デバイス(情報サービス)105に
出力される。必要であれば、比較スコアD* も出力され
る(図5の260及び280を参照)。
【0026】比較スコアD* が域値以下でない場合、或
はリストが有り得る応答を含まない場合、音声を認識す
るために一つ或は複数のバックアップ手順が使用され
る。そして、バックアップ手順から認識された音声に対
応する応答が利用デバイス(情報サービス)105に出
力される(図5の265、270、及び290を参
照)。使用が可能な一つのバックアップ手順は情報のユ
ーザによる手操作入力から成る(図5の275を参
照)。これは、ユーザの催促(prompt)に応答して、シ
ステムによってI/Oデバイスを介して行なわれる。あ
る実施例においては、ユーザの手操作入力が必要とされ
る唯一のバックアップ手順である。
【0027】音声がリストによって認識されるか、或は
バックアップ手順によって認識される或は供給されるか
にかかわらず、リスト及びパターンメモリが、応答の使
用の統計を組み込むため、或は(バックアップ音声認識
の場合)リストを同一の音声に遭遇した場合バックアッ
プスキーム(図5の295を参照)に頼ることなく認識
できるよう拡張するために更新される。こうして”新た
な”応答が格納された語パターンに対するセットの参照
としてリストに加えられ、テストパターン情報がパター
ンメモリ内の語パターンに対する追加の訓練を行なうた
めに使用される。
【0028】また、オプションとして、本発明の一つの
実施例は、ユーザに認識された応答を否定する機会が与
えられる。否定された場合、もう一つの自動音声認識プ
ロセスが呼び出されるか、或は話された語に等しいもの
の手作業による入力が遂行される。
【0029】動的時間整合 上記及び図5の240において言及される動的時間整合
は当分野において周知の任意の技法によって達成するこ
とができる。一つの形式の動的時間整合、つまり、語鋳
型(word template )に基づく動的時間ワーピング(Dy
namic Time Warping、DTW)を遂行するための一例と
しての技法が図6との関連で説明されるが、図6には座
標系内のポイントの格子が示される。テストパターンT
(n)を構成するシーケンスの特徴ベクトルが横座標
(独立変数)(例えば、図4cを参照)にマッピングさ
れ、有り得る応答Rv を構成するシーケンスの特徴ベク
トルSv (m)が縦座標(従属変数)にマッピングされ
る。格子内の個々のポイントはテストパターンのn番目
の特徴ベクトルT(n)と有り得る応答Rv のシーケン
スのベクトルのm番目の特徴ベクトルSv (m)との間
の類似性或は対応を表わす。類似性の尺度は、F.イタ
クラ(Itakura )によって、音響、音声及び信号処理に
関するIEEE議事録(IEEE Transaction on Acoustic
s,Speech,and Signal Processing)、Vol.ASSP
−23、No.1、ページ67−72、1975年2月
号に掲載の論文『音声認識に適用される最小予測残留原
理(Minimum Prediction Residual Principle Applied
to Speech Recognition )』において説明されるような
イタクラ対数尤度比(Itakura log likelihood ratio)
に従って得ることができる。
【0030】
【数1】 つまり、2つのベクトルT(n)とSv (m)のドット
積の対数に従って得ることができる。
【0031】量dはdの規模はT(n)とSv (m)と
の間の対応が減少すると増加するため”ローカル距離
(local distance)”と呼ばれる(勿論、T(n)とS
v (m)との間の対応が増加すると増加する相関係数の
ような類似性の他の尺度を使用することもできる)。
【0032】テストパターンの特徴ベクトルインデック
スnは独立変数であると定義されるため、有り得る応答
の特徴ベクトルインデックスmはnの関数として以下の
ように等価的に書くこともできる。つまり、
【0033】
【数2】
【0034】ここで、w(n)は図6に示されるように
格子を通じての一つの経路を表わす。式(1)のローカ
ル距離dは、従って、d(T(n),Sv (w(n))
として書くことができる。テストパターン特徴ベクトル
を有り得る応答の特徴ベクトルのシーケンスと最適に整
合するためには、テストパターンの特徴ベクトルT
(n)と有り得る応答の特徴ベクトルSv (w(n))
との間のローカル距離信号の総和d(T(n),Sv
(w(n)))が最小化される。
【0035】
【数3】
【0036】量Dv は有り得る応答Rv に対する比較ス
コア(或はグローバル平均距離)である。最小の比較ス
コアD* を与える有り得る応答Rv ,1≦v≦Vは、入
力テストパターンT(n)を識別するための最良の候補
である。ある比較スコアDv を得るためには、幾つかの
想定が設定される。第一に、入力及び参照語の両方の開
始及び終端フレームが正確に決定されると想定される。
第一の入力フレームn=1がこうして第一の参照フレー
ムm=1とペアにされる;つまり
【0037】
【数4】
【0038】同様にして、最後の入力フレームn=Nが
最後の参照フレームm=Mとペアにされる。
【0039】
【数5】
【0040】これらローカル経路制約はワーピング関数
w(n)の平均スロープ(averageslope )が1/2と
2との間に横たわり、またこの経路が単調非減少(mono
tonic non-decreasing)関数であることを保証する。上
の終点及びローカル経路の制約は以下のようなセットの
グローバル経路制約によって要約することができる。
【0041】
【数6】
【0042】このグローバル経路制約は図6に示される
平行四辺形(或はウインドウ)を定義する。許される経
路はこの平行四辺形内のポイントのみを含む。最小距離
或は比較スコアDv を与える経路w(n)は動的プログ
ラミングプロセスによって見つけることができる。フレ
ームn及びmの任意の与えられたペアにおける累積距離
A はポイント(1,1)と(n,m)間の最小距離、
つまり、”最良”経路に沿っての現在のポイトン(n,
m)までのポイント(1,1)からのローカル距離dの
総和であると定義される。累積距離DA は以下の式に従
ってポイント(1,1)からポイント(N,M)まで反
復的に生成される。
【0043】
【数7】
【0044】また、ここで、g(n,m)は(n,m)
までの最適経路が2つの連続するフレームに対してフラ
ットに留まらないことを保証するための以下のような非
線型重み(nonlinear weighting )である。
【0045】
【数8】
【0046】有り得る応答Rv に対する要求される比較
スコアDv は、こうして、累積距離DA (N,M)に等
しい。この手順が個々の有り得る応答Rv に対して遂行
され、Dv ,1≦v≦Vに対する値が提供される。この
テストパターンT(n)は”良好”なスコアに対する域
値よりも小さな最小比較スコアD* を持つ有り得る応答
v として認識できる場合がある。
【0047】リスト及び語パターンメモリ 上に述べたように、この一例としての音声認識器実施例
は情報の要求に対する有り得る話された応答を認識する
ためにリスト及びパターンメモリを使用する。このリス
トは各々が格納された語パターンに対する一つ或は複数
の参照のストリングを含む一つ或は複数の有り得る応答
を含む。ある有り得る応答によって参照される個々の語
パターンは話者と独立した或は話者に依存する(つま
り、それぞれ、複数の人からの音声トークン或は一人の
人からの音声トークンに依存する)データから派生され
た一つ或は複数の特徴ベクトルを含む或はこれに基づ
く。リスト及びパターンメモリの内容は有り得るユーザ
の応答の知識、ユーザとの経験(つまり、トレーニン
グ)、或はこの両者から決定される。
【0048】有り得るユーザ応答の知識は、しばしば、
それと関連する情報の要求から派生される。こうして、
リスト応答及び語パターンは要求の特性(例えば、求め
られる情報のタイプに基づいて決定)或は要求の条件に
よって応答に課せられる制約(例えば、サービスユーザ
にそれから選択するように与えられた選択範囲)に基づ
いて決定される。例えば、要求がユーザにカラーを指定
するように求めるものである場合、この要求の特性は”
赤”、”青”、”オレンジ色”等の応答を含むリストを
示唆する。一方、カラーを指定する要求が”赤”、”
緑”或は”黄色”の代替メニユーを含む場合、これら選
択範囲がリスト内に有り得る応答として支持パターン
(supporting pattern)とともに提供されるべきであ
る。
【0049】有り得る応答及び関連するパターンの知識
はまた情報サービス自体の特性からも得られる。例え
ば、情報サービスが自動車部品の注文を取ることに関す
る場合、”スパークプラグ”、”マフラー”、”ヘッド
ライト”、”フィルタ”その他をリスト及びパターンメ
モリとして提供することが考えられる。
【0050】有り得る応答のリスト及び支持パターンは
ユーザとの経験或はトレーニング(”training”)を通
じても提供できる。このトレーニングは、通常、手作業
によるユーザの動作或はベクトル量子化コードブックス
キーム(Vector Quantization Codebook scheme )(こ
れに関しては、通信に関するIEEE議事録(IEEE Tra
nsaction on Communications)、84−95(1980
年1月)にブゾ(Buzo)及びグレイ(Gray)によって掲
載の論文『ベクトル量子化設計用のアルゴリズム(An A
lgorithm for Vector Quantization Design )』を参
照)、或はマイヤーズ(Myers )及びラビナー(Rabine
r )の”レベル構築(level building)”技法(これに
関してはマイヤーズ及びラビナーによって、Vol.A
SSP−29、音響、音声、信号処理に関するIEEE
議事録(IEEE Trans.Acoust.,Speech,Signal Processin
g )、284−97(1981年4月)に掲載の論文
『接続された語の認識のための動的時間ワーピングアル
ゴリズム(A Dynamic Time Warping Algorithm for Co
nncted Word Recognition )を参照)の使用を必要とす
る。このトレーニングは認識器の使用の前にトレーニン
グモードの一部として、或は使用の最中に一つ或は複数
のバックアップ手順の形式にて遂行される。さらに、音
声認識技法によって提供されるトレーニングは、ローカ
ル的或はオフラインにて遂行し、例えば、読み出し専用
メモリを介してシステムに提供することもできる。
【0051】手操作にて提供されるトレーニングは、ユ
ーザがキーボードのようなI/Oデバイスの使用を通じ
て話された応答と等価のデータを提供することを要求す
る。手操作によるトレーニングはまたユーザに語のサン
プル(或はトークン)を一度或は数回話すことを要求す
ることにより語パターンメモリ内にパターンを生成する
或はこれを更新する動作を伴う。これらサンプルは、い
ったん特徴測定技法によって処理されたなら、語パター
ンに対する一つ或は複数の平均スペクトルベクトル(つ
まり、一つ或は複数の特徴ベクトル)を形成するために
使用される。個々の語パターンPw はパターンメモリ内
にリスト応答Rv によって参照されるべき語として格納
される。
【0052】音声認識技法がトレーニングを提供するた
めに使用された場合は、この技法の出力はリストを増強
し、語パターンメモリを更新する機能を果たす。このリ
ストは新たな認識された応答を有り得る応答Rv として
取入れることによって更新される。パターンメモリは、
認識されたテストパターン情報を、例えば、語パターン
に対する平均ベクトルの計算に取り入れることによって
更新される。
【0053】知識を通じてか、トレーニングを通じてか
に係わらず、一つ或は複数の有り得る応答の決定は、あ
る要求がその応答を引き起こす先験的確率(a priori p
robability)に影響を与える。可能性のある応答が情報
サービスの使用前に知られている場合は、これら可能性
のある応答がリストに支持パターンメモリとともに提供
される。このような応答の幾つかが使用の前に知られて
いるか否かに関係なく、(トレーニングモードの最中或
は使用を通じて)決定されたこれら有り得る応答はリス
トを増強し、パターンメモリを更新する。
【0054】図5において、応答のパターンの選択(2
35を参照)は、少なくとも最初は、トレーニングの前
に有り得ると見なされた応答に向けられる。ただし、ト
レーニングの前に有り得ると見なされる応答が存在しな
いとき(230を参照)、或は有り得る応答のリストが
良好な認識された応答に対する域値以下の比較スコアを
持つ認識された応答を生成することに失敗した(260
を参照)場合、音声認識を遂行するために一つ或は複数
の代替手順が使用され、こうして認識された音声がリス
ト及びパターンメモリを更新するために提供される(2
65、270、275、295を参照)
【0055】接続数字レパートリダイヤラ 本発明のさらにもう一つの実施例は電話レパートリダイ
アラ(repertory dialer)のための接続数字音声認識器
(connected-digit speech recognizer )に関する。こ
の実施例においては、ユーザは明示的或は含蓄的な要求
に応答して接続数字形式にて(つまり、流暢に)電話番
号を話し、この音声が認識され、自動ダイヤラに提供さ
れる。
【0056】この実施例においては、ユーザによってダ
イヤルされる可能性のある電話番号から成るリストが格
納される。可能性のある番号は頻繁にダイヤルされたこ
とがある或は将来ダイヤルされることが予想される番号
から成る。有り得る番号の個々の数字あるいは一群の数
字はパターンメモリ内のシーケンスの特徴ベクトルと比
較(reference )される。
【0057】有り得る番号のリストは様々な方法で構築
できる。例えば、このリストは電話キーパッドから有り
得る番号を直接にユーザが入力することにより手操作に
よって構築することができるが、これはこのような入力
を提供するための専用モードの一部として、或はその番
号に対する項目が存在しない場合バックアップ手順の一
部として遂行される。このリストはまた通常の電話使用
の観察によって自動的に構築することもできるが、これ
はローカル的に(つまり、その電話自体の所で)或はネ
ットワーク内のそれに電話が接続されているノードによ
って行なわれる。こうして、手操作によって或は自動的
に、ローカル的に或はネットワークによって構築された
有り得る電話番号を含むリストはローカル或は外部ネッ
トワーク位置に格納される。
【0058】パターンメモリ(pattern storage )は0
から9までの10の数字に対応する語、及びこれと通常
関連する語、例えば”オー(0)”、”ハンドレット
(100)”、及び”サウザンド(1000)”に対す
る話者に依存する特徴ベクトルを含む。これに加えて、
パターンメモリは一つ或は複数のユーザコマンド語、例
えば、”オフフック”、”ダイアル”、”ハングアッ
プ”、”イエス”、”ノー”その他に対するパターンを
含む。
【0059】パターンメモリはまた呼び出される可能性
のある一人或は複数の人の名前、企業、サービスの名
前、つまり、リスト内の有り得る番号と関連する名前に
対するパターンを含む。こうして、ある番号がこの一例
としての実施例によって、ユーザが数字を話した結果と
して、或は呼び出されるべき人、企業或はサービスの名
前を話した結果としてダイヤルされる。リスト内の電話
番号の表現(representation)は、従って、番号自体、
関連する名前、或はこの両方と関連する(後者の場合、
リストメモリ内で番号と名前の表現との間の関連が確立
される)。認識されるべきユーザから受信される電話番
号情報は番号或は関連する名前から成る。
【0060】図7には電話レパートリダイヤラに対する
接続数字音声認識器300の一つの実施例が示される。
電話301は認識されるべき音声の項目のために使用さ
れるI/Oデバイスとして機能する。電話301は自動
ダイヤラを含むが、これは音声認識300からの電話番
号の入力を要求する。従って、この実施例においては、
電話301は図3に言及された利用デバイスとして機能
する。電話301はアナログデジタル(A/D)及びデ
ジタルアナログ(D/A)変換器302として機能す
る。電話301はまたバス305によってプロセッサ3
03及びメモリ304に結合される。A/D及びD/A
変換器302はまたバス305に結合され、これによっ
て、プロセッサ303及びメモリ304に結合される。
プロセッサ303は特徴測定プロセッサ及び動的時間整
合プロセッサを含む。ある実施例においては、プロセッ
サ303はさらにバックアップ音声認識プロセッサ、例
えば、VQC認識プロセッサを含む。
【0061】図8には図7の実施例の動作がフローチャ
ート400にて表わされる。電話301からの開始コマ
ンドが受信されると、プロセッサ303はダイヤルされ
るべき話された電話番号のデジタル化されたバージョン
が受信されるのを待つ(図3の410を参照)。同時
に、話された電話番号が電話機301によって受信さ
れ、A/D変換器302に提供されるが、これは、話さ
れた番号のデジタル化されたバージョンs(k)をプロ
セッサ303に提供する。s(k)の受信に応答して、
プロセッサ303はs(k)に関して特徴測定を遂行
し、メモリ304内に格納するためのシリーズの特徴ベ
クトルT(n)を生成する(図8の420を参照)。こ
のリストが一つ或は複数の有り得る電話番号を含むもの
と想定すると(図8の430を参照)、T(n)のDT
Wがリスト内の個々の番号Rv との間で遂行され、比較
スコアDv が個々のDTWに対して保持される(例え
ば、図8の435、440、445、450を参照す
る)。
【0062】リストに対する全ての比較スコアからの最
良の比較スコアD* が決定され(図8の455を参
照)、これが域値以下である場合(図8の460を参
照)、この最良のスコアR* に対応するリスト項目が話
された電話番号であると見なされる。従って、番号R*
がバス305を介して電話301にダイヤルのために提
供される。
【0063】最良のスコアD* が域値以下でないとき、
或はリストがダイヤルされるべき有り得る番号の項目を
含まない場合は、音声認識のための代替或はバックアッ
プ技法が遂行される。この実施例の目的においては、第
一の技法はベクトル量子化コードブック(Vector Quant
ization Codebook、VQC)認識(図8の465を参
照)から成る。VQC認識技法は当分野において周知で
あり、これに関しては、パン(Pan )、スーング(Soon
g )及びラビナー(Rabiner )によって、Vol.AS
SP−33、No3、音響、音声、及び信号処理に関す
るIEEE会報、546−60(1985年6月)に掲
載の論文『話者に依存しない隔離された語認識のための
ベクトル量子化に基づく前置プロセッサ(A Vector-Qua
ntization-Based Preprocessor for Speaker-Independe
nt Isolated Word Recognition)』;ここに参考のため
に編入された合衆国特許第4,860,385号;及び
ショア(Shore )及びバートン(Burton)によって、V
ol.IT−29、No.4、情報理論に関するIEE
E議事録(IEEE.Transaction on Information Theor
y)、479−91(1980年7月)に掲載の論文
『時間整合無しの離散発声音声認識(Discrete Utteran
ce Speech Recognition Without Time Alignment)』を
参照すること。
【0064】VQC認識が成功した場合(図8の470
を参照)、こうして認識された電話番号はダイヤリング
のために電話301に提供される(図8の490を参
照)。VQC認識器が話された番号を認識することに失
敗した場合(図8の470を参照)、ユーザはこの実施
例によって電話301を使用して番号を手操作にてダイ
ヤルすることを催促される(図8の475)。
【0065】任意の音声認識タスク(つまり、電話番号
或はコマンド)に関し、この実施例はユーザに認識され
た音声を否定する機会を与える。否定された場合、別の
技法(例えば、バックアップ技法)或は手操作による入
力が採用される。
【0066】番号がどのようにダイヤルされたかに関係
なく、ダイヤルされた番号に関する情報はリストを更新
するために使用される(図8の500を参照)。リスト
の更新は、これまで格納されてない電話番号の格納を伴
ない、こうして、その番号をダイヤルする以降の試みに
おいては、それがバックアップ手順に頼ることなく認識
される。これはまたテストパターン情報を使用して語パ
ターンに対する特徴ベクトルのトレーニング(trainin
g)を更新することを伴う。これはさらに、ユーザによ
るその電話番号の使用に関する情報、例えば、その電話
番号が何回ダイヤルされたか或は最後にダイヤルされた
日時を格納することを伴う。このような使用情報は有り
得る応答の比較スキームに使用され、ここでは、有り得
る応答が確率の順に並べられ、受信された応答が、仮に
或は決定的に、許容できる比較スコアを与える第一に遭
遇された応答として識別される。この使用情報はまたリ
スト内に前に格納された番号を(例えば、メモリスペー
スが制約される場合)破棄或は交換するためのベートと
しても使用される。
【0067】ダイヤルされるべき電話番号がリスト内の
メモリ内容を通じて認識されるように、全体としての認
識器機能を制御するコマンド語も同様に認識される。こ
のため、例えば、語に対する話者依存ベクトルパターン
がパターンメモリ内に含まれ、リスト内で本発明の実施
例を組み込む電話の自動動作を実現するために参照(比
較)される。この実施例においては、音声コマンド”ダ
イヤル”が認識され、これが開始コマンドを発行して話
された電話番号の処理を催促するために使用される。
【図面の簡単な説明】
【図1】情報サービスのためのユーザインターフェース
のトリー構造を図解する。
【図2】本発明の一つの実施例を示す。
【図3】本発明の一つの実施例としての音声認識器を示
す。
【図4】図3に示される認識器のメモリ内に格納される
リストのデータ構造を示す。
【図5】図3に示される認識器のメモリ内に格納される
語パターンのデータ構造を示す。
【図6】それぞれ図4及び5に示される一例としての応
答リスト及び関連する語パターンによって指定される特
徴ベクトルの一例としてのシーケンスを示す。
【図7】図3に示される認識器のプロセッサによって実
行される一例としてのプロセスのフローチャートの1を
示す。
【図8】図3に示される認識器のプロセッサによって実
行される一例としてのプロセスのフローチャートの2を
示す。
【図9】動的時間ワーピング整合経路w(n)の一例と
してのグラフを示す。
【図10】電話レパートリダイヤラのための接続数字音
声認識器の一つの実施例を示す。
【図11】図7に示される実施例のプロセッサの動作の
フローチャートを示す。
【図12】図7に示される実施例のプロセッサの動作の
フローチャートを示す。
【符号の説明】
ノード 15 ブランチ 20 タスク 25

Claims (53)

    【特許請求の範囲】
  1. 【請求項1】 情報サービスシステムに送られる情報内
    の不確実を解消するための方法において、該方法が:デ
    ータベース内に情報の要求に対する一つ或は複数の有り
    得る応答のリストを格納するステップ;情報の要求に応
    答して情報サービスのユーザから情報を受信するステッ
    プ;及び受信された情報を該リスト内の一つ或は複数の
    有り得る応答と比較してこの受信された情報を識別する
    ステップを含むことを特徴とする方法。
  2. 【請求項2】 該一つ或は複数の有り得る応答のリスト
    を格納するステップがある応答がその要求によって引き
    起こされる先験的な確率に基づいて有り得る応答を決定
    するステップを含むことを特徴とする請求項1の方法。
  3. 【請求項3】 該有り得る応答を決定するステップがユ
    ーザとのトレーニングに基づいて先験的な確率を決定す
    るステップを含むことを特徴とする請求項2の方法。
  4. 【請求項4】 トレーニングが不確実を解消するための
    バックアップ手順によって提供されることを特徴とする
    請求項3の方法。
  5. 【請求項5】 該有り得る応答を決定するステップがそ
    の情報サービスの本質に基づいて先験的確率を決定する
    ステップを含むことを特徴とする請求項2の方法。
  6. 【請求項6】 該有り得る応答を決定するステップが先
    験的確率をその情報の要求の本質に基づいて決定するス
    テップを含むことを特徴とする請求項2の方法。
  7. 【請求項7】 該有り得る応答を決定するステップがそ
    の情報の要求によって応答に課せられる制約に基づいて
    先験的確率を決定するステップを含むことを特徴とする
    請求項2の方法。
  8. 【請求項8】 該受信された情報を一つ或は複数の有り
    得る応答と比較するステップが有り得る応答に対する比
    較スコアを決定するステップを含むことを特徴とする請
    求項1の方法。
  9. 【請求項9】 該比較スコアを決定するステップが比較
    スコアが受信された情報を識別するために許容できる比
    較スコアのレンジ内にあるか否かを決定するステップを
    含むことを特徴とする請求項8の方法。
  10. 【請求項10】 いずれの比較スコアも許容できる比較
    スコアのレンジ内でないとき、バックアップ不確実解消
    技法を遂行するステップがさらに含まれることを特徴と
    する請求項9の方法。
  11. 【請求項11】 該バックアップ不確実解消技法の結果
    にて格納された有り得る応答の該リストを更新するステ
    ップがさらに含まれることを特徴とする請求項10の方
    法。
  12. 【請求項12】 二つ或はそれ以上の比較スコアが許容
    できる比較スコアのレンジ内にある場合、バックアップ
    不確実解消技法を遂行するステップがさらに含まれるこ
    とを特徴とする請求項1の方法。
  13. 【請求項13】 識別された受信された情報に基づいて
    有り得る応答の使用統計を維持するステップがさらに含
    まれることを特徴とする請求項1の方法。
  14. 【請求項14】 受信された情報の識別をユーザが否定
    するステップがさらに含まれることを特徴とする請求項
    1の方法。
  15. 【請求項15】 バックアップ不確実解消技法を遂行す
    るステップがさらに含まれることを特徴とする請求項1
    4の方法。
  16. 【請求項16】 音声認識方法において、該方法が:情
    報の要求に対する有り得る話された応答の一つ或は複数
    の表現のリストをデータベース内に格納するステップ;
    該要求に応答してユーザから音声情報を受信するステッ
    プ;及び受信された音声情報を認識するために受信され
    た音声情報を該リスト内の有り得る応答の一つ或は複数
    の表現と比較するステップを含むことを特徴とする方
    法。
  17. 【請求項17】 該有り得る話された応答が電話番号か
    ら成ることを特徴とする請求項16の方法。
  18. 【請求項18】 認識された音声情報に対応する該有り
    得る電話番号をダイヤルするステップがさらに含まれる
    ことを特徴とする請求項17の方法。
  19. 【請求項19】 該有り得る話された応答の一つ或は複
    数の表現のリストを格納するステップが:一つ或は複数
    の特徴ベクトルを含む一つ或は複数の語パターンを格納
    するステップ;及び格納された語パターンに対する一つ
    或は複数の参照を有り得る話された応答の表現であると
    して格納するステップを含むことを特徴とする請求項1
    6の方法。
  20. 【請求項20】 該一つ或は複数の語パターンを格納す
    るステップが特徴測定技法にてこれら語パターンを決定
    するステップを含むことを特徴とする請求項19の方
    法。
  21. 【請求項21】 該特徴測定技法が線型予測符号化から
    成ることを特徴とする請求項20の方法。
  22. 【請求項22】 格納された語パターンを認識された受
    信音声情報にて更新するステップがさらに含まれること
    を特徴とする請求項19の方法。
  23. 【請求項23】 該有り得る話された応答の一つ或は複
    数の表現のリストをデータベース内に格納するステップ
    が有り得る話された応答を有り得る話された応答がその
    要求によって引き起こされる先験的な確率に基づいて決
    定するステップを含むことを特徴とする請求項16の方
    法。
  24. 【請求項24】 該有り得る話された応答を決定するス
    テップがユーザとのトレーニングに基づいて先験的な確
    率を決定するステップを含むことを特徴とする請求項2
    3の方法。
  25. 【請求項25】 トレーニングが音声を認識するための
    バックアップ手順によって提供されることを特徴とする
    請求項24の方法。
  26. 【請求項26】 該バックアップ手順が受信された音声
    情報に関するベクトル量子化コードブック音声認識から
    成ることを特徴とする請求項25の方法。
  27. 【請求項27】 該バックアップ手順がユーザが入力デ
    バイスを使用して受信された音声情報と等しいものを供
    給するステップを含むことを特徴とする請求項25の方
    法。
  28. 【請求項28】 該音声情報を受信するステップが特徴
    測定技法によって受信された情報のテストパターンを生
    成するステップを含むことを特徴とする請求項16の方
    法。
  29. 【請求項29】 該特徴測定技法が線型予測符号化から
    成ることを特徴とする請求項28の方法。
  30. 【請求項30】 該受信された音声情報を一つ或は複数
    の話された応答と比較するステップが有り得る話された
    応答に対する比較スコアを決定するステップを含むこと
    を特徴とする請求項16の方法。
  31. 【請求項31】 該有り得る応答に対する比較スコアを
    決定するステップが受信された音声情報と有り得る話さ
    れた応答との間の動的時間整合を遂行するステップを含
    むことを特徴とする請求項30の方法。
  32. 【請求項32】 該受信された音声情報と有り得る話さ
    れた応答との間の動的時間整合を遂行するステップが動
    的時間ワーピングを遂行するステップから成ることを特
    徴とする請求項31の方法。
  33. 【請求項33】 該比較スコアを決定するステップが受
    信された音声情報を認識するために比較スコアが許容さ
    れる比較スコアのレンジ内であるか否かを決定するステ
    ップを含むことを特徴とする請求項30の方法。
  34. 【請求項34】 許容できる比較スコアのレンジ内であ
    る比較スコアが存在しない場合、バックアップ音声認識
    技法を遂行するステップがさらに含まれることを特徴と
    する請求項33の方法。
  35. 【請求項35】 該バックアップ音声認識技法の結果に
    て該有り得る話された応答のリストを更新するステップ
    がさらに含まれることを特徴とする請求項34の方法。
  36. 【請求項36】 認識された受信音声情報に基づいて有
    り得る応答の使用統計を維持するステップがさらに含ま
    れることを特徴とする請求項16の方法。
  37. 【請求項37】 受信された音声情報の認識をユーザが
    否定するステップ;及びバックアップ音声認識技法を遂
    行するステップがさらに含まれることを特徴とする請求
    項16の方法。
  38. 【請求項38】 該バックアップ音声認識技法の結果に
    て該有り得る話された応答の格納された表現のリストを
    更新するステップがさらに含まれることを特徴とする請
    求項37の方法。
  39. 【請求項39】 認識された受信音声情報にて該有り得
    る話された応答の格納された表現のリストを更新するス
    テップがさらに含まれることを特徴とする請求項16の
    方法。
  40. 【請求項40】 該比較ステップが:受信された音声情
    報を有り得る話された応答の個々の格納された表現と比
    較するステップ;及び受信された音声情報に最も近い表
    現を持つ有り得る話された応答を決定するステップを含
    むことを特徴とする請求項16の方法。
  41. 【請求項41】 情報サービスシステムに供給されるた
    めに入力デバイスから受信された情報内の不確実を解消
    するための装置において、該情報が情報の要求に応答し
    て受信され、該装置が:情報の要求に対する一つ或は複
    数の応答をこれら応答がその要求によって引き起こされ
    る先験的な確率に基づいて格納するデータベース;及び
    該データベース及び入力デバイスに結合された受信され
    た情報を識別するために受信された情報をリスト内の一
    つ或は複数の応答と比較するための比較器を含むことを
    特徴とする装置。
  42. 【請求項42】 話された電話番号情報を認識するため
    のシステムにおいて、該電話番号情報が入力デバイスか
    ら受信され、該システムが:話される可能性を持つ電話
    番号の一つ或は複数の表現を格納するためのデータベー
    ス;及び該データベース及び入力デバイスに結合された
    話された電話番号情報をこの情報をある電話番号の格納
    されたある表現として認識するために格納された電話番
    号の一つ或は複数の表現と比較するための比較器を含む
    ことを特徴とするシステム。
  43. 【請求項43】 該比較器に結合された該認識された情
    報と関連する電話番号をダイヤルするための自動ダイヤ
    ラがさらに含まれることを特徴とする請求項42のシス
    テム。
  44. 【請求項44】 該自動ダイヤラと該比較器との間の結
    合がネットワークから成ることを特徴とする請求項43
    のシステム。
  45. 【請求項45】 該比較器が該入力デバイスに結合され
    た該話された電話番号情報に関して特徴測定を遂行する
    ための特徴測定プロセッサを含むことを特徴とする請求
    項46のシステム。
  46. 【請求項46】 該比較器が該データベース及び該特徴
    測定プロセッサに結合された該話された電話番号情報の
    特徴測定値と格納された電話番号の一つ或は複数の表現
    との間の動的時間整合を遂行するための動的時間整合プ
    ロセッサをさらに含むことを特徴とする請求項45のシ
    ステム。
  47. 【請求項47】 該電話番号の一つ或は複数の表現を格
    納するデータベースが:一つ或は複数の特徴ベクトルを
    含む一つ或は複数の語パターン;及び格納された語パタ
    ーンに対する有り得る話された電話番号の表現としての
    一つ或は複数の参照を含むことを特徴とする請求項42
    のシステム。
  48. 【請求項48】 該比較器が話された電話番号情報を認
    識しない場合、この番号情報を認識するためのバックア
    ップ音声認識器をさらに含むことを特徴とする請求項4
    2のシステム。
  49. 【請求項49】 該バックアップ音声認識器がベクトル
    量子化コードブック認識器から成ることを特徴とする請
    求項48のシステム。
  50. 【請求項50】 該データベースと比較器との間の結合
    がネットワークから成ることを特徴とする請求項48の
    システム。
  51. 【請求項51】 該入力デバイスと比較器との間の結合
    がネットワークから成ることを特徴とする請求項42の
    システム。
  52. 【請求項52】 結合された音声認識システムとともに
    使用するためのデータベースにおいて、該データベース
    が情報の要求に対する一つ或は複数の有り得る応答を含
    み、個々の有り得る応答と関連してその応答がその要求
    によって引き起こされる先験的な確率が存在することを
    特徴とするデータベース。
  53. 【請求項53】 該データベースと音声認識システムと
    の間の結合がネットワークから成ることを特徴とする請
    求項52のデータベース。
JP21309292A 1991-08-16 1992-08-11 情報サービスのためのインターフェース方法及び装置 Withdrawn JPH05249993A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US74644491A 1991-08-16 1991-08-16
US746444 1991-08-16

Publications (1)

Publication Number Publication Date
JPH05249993A true JPH05249993A (ja) 1993-09-28

Family

ID=25000862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21309292A Withdrawn JPH05249993A (ja) 1991-08-16 1992-08-11 情報サービスのためのインターフェース方法及び装置

Country Status (3)

Country Link
EP (1) EP0533338A2 (ja)
JP (1) JPH05249993A (ja)
CA (1) CA2069599C (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69535797D1 (de) 1994-10-25 2008-09-11 Cisco Tech Inc Ansagedienste mit Spracheingabe
EP0903727A1 (en) * 1997-09-17 1999-03-24 Istituto Trentino Di Cultura A system and method for automatic speech recognition
GB2364814A (en) * 2000-07-12 2002-02-06 Canon Kk Speech recognition

Also Published As

Publication number Publication date
EP0533338A2 (en) 1993-03-24
EP0533338A3 (ja) 1994-08-31
CA2069599C (en) 1997-05-06
CA2069599A1 (en) 1993-02-17

Similar Documents

Publication Publication Date Title
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US6519562B1 (en) Dynamic semantic control of a speech recognition system
US6253173B1 (en) Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
JP4180110B2 (ja) 言語認識
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US9514126B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US5857169A (en) Method and system for pattern recognition based on tree organized probability densities
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
US5613037A (en) Rejection of non-digit strings for connected digit speech recognition
JP4053141B2 (ja) 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム
US6018708A (en) Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
JP3561076B2 (ja) 任意に話された単語の自動通話認識方法
CA2088080C (en) Automatic speech recognizer
US6122361A (en) Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
EP0953972B1 (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
JPH07210190A (ja) 音声認識方法及びシステム
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
US5930336A (en) Voice dialing server for branch exchange telephone systems
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
EP1280136A1 (en) Spoken language understanding that incorporates prior knowledge into boosting
US6223156B1 (en) Speech recognition of caller identifiers using location information
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
JPH05249993A (ja) 情報サービスのためのインターフェース方法及び装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991102