JPH09505710A - 自動電話番号案内方法および装置 - Google Patents

自動電話番号案内方法および装置

Info

Publication number
JPH09505710A
JPH09505710A JP7526586A JP52658695A JPH09505710A JP H09505710 A JPH09505710 A JP H09505710A JP 7526586 A JP7526586 A JP 7526586A JP 52658695 A JP52658695 A JP 52658695A JP H09505710 A JPH09505710 A JP H09505710A
Authority
JP
Japan
Prior art keywords
name
telephone number
audio signal
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7526586A
Other languages
English (en)
Inventor
ベルビー・グレゴリー・ジェイ
グプタ・ヴィシュワ・エヌ
ホッグソン・ローレン・スィー
レニグ・マシュー
シャープ・アール・ダグラス
ワスメイヤー・ハンス・エー
Original Assignee
ノーザン・テレコム・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノーザン・テレコム・リミテッド filed Critical ノーザン・テレコム・リミテッド
Publication of JPH09505710A publication Critical patent/JPH09505710A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/22Automatic class or number identification arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42085Called party identification service
    • H04M3/42093Notifying the calling party of information on the called or connected party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42085Called party identification service
    • H04M3/42102Making use of the called party identifier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/72Finding out and indicating number of calling subscriber

Abstract

(57)【要約】 少なくとも部分的に電話番号案内を自動化する方法および装置において、電話番号案内の利用者は、地域名あるいは所望の電話番号記載事項に関連する問い合わせエントリ名を発声するように誘導される。音声認識アルゴリズムを適用して、この誘導に応答して利用者から受信した音声信号から、利用者の述べた地域または問い合わせエントリ名を決定する。利用者の所望の電話番号が検索されると、その電話番号を使用して、地域あるいは問い合わせエントリ名の少なくともいくつかが確認される。確認済みまたは訂正された名前のラベルを付された音声信号の表示は、ラベルを付した音声トークンとして使用され、音声認識アルゴリズムのトレーニングに先だって精度の高いものにされる。トレーニングを精度の高いものにすることによって、今までの音声認識アルゴリズムにみられた欠陥に対して、特定の番号案内装置によってサービスされる番号案内利用者の音声パターンの長期的変化を自動的に調整する。本方法は、他の音声認識に適用されるように一般化することができる。

Description

【発明の詳細な説明】 発明の名称 自動電話番号案内方法および装置発明の分野 本発明は話者の要求に対し自動的に応答する方法および装置に関するものであ り、特に、話者の要求する情報を自動的に提供する方法および装置に関するもの である。本発明は例えば、電話番号案内機能を部分的あるいは全体的に自動化す るために用いられる。発明の背景 電話会社は、印刷された電話番号帳を提供する他に電話番号案内サービスを行 っている。これらサービスの利用者は、所定の電話番号に電話をかけると番号案 内オペレータにつながり、オペレータは電話番号データベースにアクセスし、利 用者の要求する番号を検索して利用者に知らせる。 電話会社が一年に扱う番号案内サービスの数は相当なものであり、このサービ スに要する人件費が非常にかさむことになる。従って、電話会社および電話機生 産者は電話番号案内サービスの提供にかかる人件費を減らすようなシステムの構 築に多大な労力を費やしている。 一般的な電話番号案内サービスでは、オペレータはまず、利用者が電話番号を 問い合わせたい人または組織の地域を利用者に尋ねる。ここで、利用者の問い合 わせたい地域がオペレータの電話番号帳にリストされていないものであると、オ ペレータは問い合わせた地域を扱っている他の電話番号案内サービスの電話番号 を利用者に知らせる。利用者の問い合わせたい地域がオペレータの電話番号帳に リストされていれば、オペレータは利用者が電話番号を問い合わせ先の組織の名 前を尋ねる。オペレータは電話番号の問い合わせ先の人または組織に対応するリ スト記載事項を含む電話番号データベースを検索してそのリスト記載事項を探し 当て、そのリスト記載事項の電話番号を利用者に知らせる。 電話番号案内サービスの提供にかかる人件費は、人間のオペレータによって行 われていた機能を部分的あるいは全体的に自動化することで削減できる。米国特 許第4,979,206は、電話番号案内オペレータの機能を自動化する自動音 声認識システムを開示している。このような電話番号案内の利用者は、所望のリ スト記載事項を呼びだすために、地域と電話番号を問い合わせたい人または組織 の名前を一字づつ綴るように自動的に誘導される。自動音声認識システムは利用 者の音声応答に対して文字列からなる名前を認識し、認識された文字列の名前シ ーケンスから、所望の地域、人または組織の名前を認識する。所望のリスト記載 事項を含む電話番号データベースが自動的に検索され、所望のリスト記載事項が 探し当てられると、そのリスト記載事項の電話番号が利用者に自動的に知らされ る。さらに、自動音声認識システムは利用者をその電話番号に接続する。ここで 、自動音声認識システムが音声された文字列からなる名前を認識できないとき、 あるいは、適切なリスト記載事項を探し当てられないときは、利用者は人間オペ レータに接続され、上記の通常の方法で番号案内を行う(1990年12月8日 に発行されたF.W.Padden et al,米国特許第4,979,206、「電話番号 案内システム」)。 米国特許第4,979,206に開示された電話番号案内システムの音声認識 システムが認識する語葉は50以下である(26文字の名前、10桁の名前、「 はい」と「いいえ」)。このような限られた認識語彙の使用により音声認識装置 の設計とトレーニングが簡略化されるが、電話番号案内システムは利用者にとっ て使いにくく時間のかかるものとなる。必要な情報を一字づつ綴らなくてはなら ない不便さから、利用者のなかには自動電話番号案内システムの使用を避けて、 人間オペレータに接続するようにシステムを使用するために、人件費削減のため の自動化が無駄になる。 Lennig et alが開示する自動電話番号案内システムは音声認識システムに基づ くものであり、その認識語彙は、ある場所に位置する電話番号案内の利用者が要 求すると思われるほとんどの地域名といくつかの組織名を含むことができる(1 992年10月,Piscataway,N.J.の遠距離通信への応用のための双方向音 声技術に関するIEEEワークショップ会誌,"AUTOMATED BILINGUAL DIRECTORY ASSISTANCE TRIAL IN BELL CANADA")。この音声認識システムはフレキシブル語 彙認識(FVR)技術を使用し、1992年10月,Piscataway,N.J.遠距 離通信への応用のための双方向音声技術に関するIEEEワークショップ会誌, "FLEXIBLE VOCABULARY RECOGNITION OF SPEECH OVER THE TELEPHONE"や、199 3年Telesis No.97,22〜33頁の"UNLEASHING THE POTENTIAL OF HUMAN-TO-M ACHINE COMMUNICATION" に開示されている技術と同様のものであり、これにより 認識語彙の拡張が達成される。これら刊行物は参照により本明細書中に記載され ている。 Lennig et alが開示する音声認識システムにより利用者が自然に話すように地 域名、組織名が認識されるので、利用者はこれらの名前を一字づつ綴ることなく 要求する電話番号を得ることができる。この程度まで便利になれば、電話番号案 内システムを利用する利用者は増え、人件費削減の効果は大きい。 しかし、実際の電話網でLennig et alの開示する電話番号案内システムを実行 するには、電話番号案内システムの利用者が要求すると思われる全ての地域名と いくつかの組織名をかなり正確に認識するように自動音声認識システムを「トレ ーニング」しなくてはならない。このようなトレーニングを行うには、その地域 の人が言う地域名と組織名をいくつも録音しなくてはならず、さらに各録音(あ るいは「音声トークン」)にラベルを付して特定の地域あるいは組織名に対応さ せなくてはならない。自動音声認識システムをトレーニングするには、おおよそ 20000のラベルを付した音声トークンが必要となり、これによって電話番号 案内で地域名、組織名が適切に認識される。 このおおよそ20000の音声トークンを集めてラベルを付すには、一般に熟 練した音声専門家であっても数週間を必要とする。このような比較的大きな音声 トークンのサンプルでトレーニングを行った後、さらに地域の人々から集められ ラベルを付された音声トークンを追加することで音声認識システムの性能は向上 する。 さらに、電話番号案内システムが利用される地域の音声形態が時間の経過と共 に変遷するので、当初はよくトレーニングされ地域の人々によって話された地域 名をよく認識する音声認識システムであっても時を経れば性能が低下する。その ため、地域の音声形態の変化に対応するように音声認識システムを定期的に再ト レーニングしなくてはならない。 従って、電話番号案内に利用される音声認識システムのトレーニングは多大な コストと時間を費やすものとなる。発明の開示 本発明の第1の目的は、音声認識システムを電話番号案内サービスの提供およ び他の用途へ利用するためにトレーニングを行うに要する時間と費用を削減する ことにある。 本発明の他の目的は、自動電話番号案内システムおよび他の用途に用いられる 音声認識システムの性能を長期的に向上させることにある。 本発明の第1の見地によれば、本発明は電話番号案内システム機能を少なくと も部分的に自動化する方法を提供する。本方法によれば、電話番号案内の利用者 は所望の電話番号記載事項に関する名前を発音するように誘導される。利用者が 問い合わせた電話番号は、誘導に従って利用者から得られた音声信号に基づいて 決定される。所望の電話番号が決定されると検索が始まる。検索された電話番号 は、パラメータ変更アルゴリズム中で使用され、自動的に音声認識アルゴリズム のパラメータを変更する。 簡単な実施例を挙げると、検索された電話番号は単純にアプリオリ(先験的) な確率モデルに対するモデルパラメータの計算に使用される。アプリオリな確率 モデルは、特定地域のリスト記載事項に対する電話番号を利用者が要求する確率 を利用者の電話番号の関数として推定したものである。このアプリオリ・モデル は、利用者がリスト記載事項を要求する際に発声される地域名を認識するための 音声認識アルゴリズムにおいて、音声信号の音響パラメータにもとづく決定を重 みづけするために使用される。このように検索された電話番号を使用してアプリ オリ・モデルを精緻なものにすることで、特定の電話番号案内に利用される音声 認識アルゴリズムの性能が向上する。 より高度な実施例を挙げると、誘導に従って利用者から受信された音声信号の 表示が記憶され、各々の記憶された音声信号表示は検索される電話番号と関連づ けされる。対応地域名または利用者が呼び出すエントリ名は検索された電話番号 から作成され、音声認識アルゴリズムはその作成された名前の中で音声信号の表 示にもっとも合致すると思われる名前を決定する。このようにして作成された名 前と記憶された音声信号の表示が対応する確率が高いと、記憶された表示にはそ の作成された名前のラベルが付され、ラベルが付された音声トークンとして音声 認識アルゴリズムのトレーニングの更新に使用される。ラベルを付された音声ト ークンは、音声認識アルゴリズムにおける隠れマルコフモデルのパラメータ、ア プリオリ・モデルのパラメータ、受理基準確率モデルのパラメータ、および受理 基準閾値の計算に使用される。 すなわち、検索された電話番号は、音声認識アルゴリズムによって認識された 地域あるいは呼び出されたエントリ名の少なくともいくつかを確認し、訂正する ために用いられる。パラメータ変更アルゴリズムは、確認あるいは訂正された名 前に対応するラベル付き音声トークンを用いることで、音声認識アルゴリズムの トレーニングを更新する。結果として、この方法により従来の音声認識アルゴリ ズムにみられたトレーニングの欠陥が補われ、特定の電話番号案内装置の利用者 の長期的な音声形態の変化に対して自動調整が行われる。この方法は、従来の音 声認識アルゴリズムのトレーニングの欠陥に対して自動調整を行うものであるた め、音声認識アルゴリズムのトレーニングの際により少ない初期投資で、自動電 話番号案内システムの設置が行われる。また、音声認識アルゴリズムのトレーニ ングをさらに行う際にも完全に自動化されるため、従来の音声専門家によるトレ ーニングに比べてコスト、効率面でも比較的優れている。 この発明の法則を一般化することで、音声認識を用いた他の自動システムへ応 用することも可能である。従って、本発明の他の見地によれば、本発明は音声信 号に対してふさわしい応答をする方法を提供することにある。 本方法は、音声信号の表示を記憶し、その音声信号の表示に応答する音声認識 アルゴリズムに従って、音声信号が動作語彙中の複数の動作の各々に一致する確 率の測度を計算する。動作語彙からの動作は計算された確率の測度に従って選択 され自動的に実行される。所望の動作がさらにデータ表示され、動作に一致する 音声信号の確率の測度が、音声信号の表示およびさらに得られたデータの双方に 対する音声認識アルゴリズムに従ってさらに計算される。記憶された音声信号の 表示は、さらに計算された確率の測度にしたがってラベルが付され、音声認識ア ルゴリズムモデルパラメータが、そのラベルを付され記憶された音声信号表示に 対して計算される。 このような選択動作として、電話番号案内に利用されるように、所望の情報の うちの選択されたアイテムのみを提供したり、他の動作、例えば、音声駆動タイ プライタに適用して発音された言葉をタイプすることが含まれる。 このような選択動作において、所望の動作を表示する音声信号をさらに提供す るように利用者を誘導し、さらにデータが得られれば、得られた音声信号に対す る音声認識アルゴリズムに従って、音声信号が複数の動作の各々に対応する確率 の測度が計算される。従って適当な論理構造を有する誘導形式を用いて、一連の 論理ステップにおける所望の動作を決定することができる。 利用者は、以前に分析された音声信号に従って選択された所望の動作の確認あ るいは取り消しを行うように誘導される。この誘導は、以前分析された音声信号 に従い、選択された特定の動作によって選択的に行われる。すなわち、音声認識 アルゴリズムがすでに高い確率で認識されると知られている語彙アイテムについ ては、利用者に不当な手間をかけたり不必要なデータトレーニング処理を行うこ とがないように、確認を行わない。以前分析された音声信号に従って選択された 特定の動作をオペレータ主導で取り消す場合、例えば、音声による取り消しや、 選択動作の手動取り消しを行う場合もモニタされ、さらに所望の動作を表わすデ ータとして用いられる。 本発明の他の見地によれば、本発明は電話番号案内を少なくとも部分的に自動 化する装置を提供する。本装置には、少なくとも部分的に案内問い合わせを処理 するオンラインプロセッサを含む。オンラインプロセッサは、利用者が問い合わ せる電話番号一覧を呼び出すために名前を発声するように利用者を誘導し、誘導 に従って利用者より受信された音声信号の表示を問い合わせ記録に記録し、電話 番号案内データベースより検索された電話番号を問い合わせ記録に記録して各々 の記憶された音声表示と検索された電話番号を関連づける。本装置にはさらに、 オンラインプロセッサによる問い合わせ記録を処理するためのオフラインプロセ ッサが含まれる。オフラインプロセッサは、問い合わせ記録に記録され検索され た電話番号に応答する音声認識アルゴリズムのパラメータを変更する。 オフラインプロセッサは、各々の検索された電話番号から、それに対応する名 前を作成するために、名前/番号データベースを検索し、音声認識アルゴリズム を実行して選択され作成された名前と選択され記録された音声信号表示を関連づ ける。オフラインプロセッサは選択された音声信号表示とそれに関連する名前を ラベルを付された音声トークンとして使用し、音声認識アルゴリズムのトレーニ ングがそのパラメータ変更によって行われる。オフラインプロセッサは変更され た音声認識アルゴリズムパラメータをメモリへダウンロードし、オンラインプロ セッサは、電話番号案内を行う際にそのメモリにアクセスする。 本装置にはさらに、オンラインプログラム、問い合わせ記録、およびオンライ ン音声認識モデルパラメータを記憶するオンラインメモリとオフラインプログラ ム、トレーニング記録、名前/番号データベースおよびオフライン音声認識モデ ルパラメータを記憶するオフラインメモリが含まれる。問い合わせ記録はオフラ インプロセッサが読み出し可能なものであり、オンライン音声認識モデルパラメ ータはオフラインプロセッサが書き込み可能なものでなくてはならない。 本装置にはさらに、オンラインプロセッサをそれぞれ交換電話網のスイッチに 接続するスイッチインタフェースおよび電話番号案内データベースに接続する電 話番号案内データベースインタフェースが含まれる。オペレータ台コントローラ は、スイッチインタフェースおよびスイッチを介してオンラインプロセッサに接 続され、スイッチを介して電話番号案内データベースに接続される。オペレータ 台コントローラには、一つまたはそれ以上のオペレータ台が接続される。音声応 答ユニットは、電話番号案内データベースおよびスイッチに接続され、電話番号 案内利用者に対して電話番号一覧の電話番号が聞き取れるように電話番号を発声 する。図面の簡単な説明 以下に本発明の実施の形態を、適宜添付の図面を参照しながら例をあげて記載 する。 図1は、本発明の実施例による電話番号案内自動化システムを含む電話網の概 要ブロック図を示す。 図2は、図1の電話番号案内自動化システムの概要ブロック図を示す。 図3は、電話番号案内呼を扱う図2の電話番号案内自動化システムの動作を示 すフローチャートである。 図4A、図4Bは、図2の電話番号案内自動化システムに使用される音声認識 アルゴリズムの主要なステップを示すフローチャートである。 図5A、図5Bは、図4A、図4Bの音声認識アルゴリズムに使用される受理 基準の適用を示すフローチャートである。 図6A、図6Bは、自動的にトレーニング記録を作り出す図2の電話番号案内 自動化システムの動作を示すフローチャートである。 図7は、図4A、図4Bの音声認識アルゴリズムに使用される異音隠れマルコ フモデル(HMM)のトレーニングを行う図2の電話番号案内自動化システムの 動作を示すフローチャートである。 図8は、図4A、図4Bの音声認識アルゴリズムに使用されるアプリオリ・モ デルのトレーニングを行う図2の電話番号案内自動化システムの動作を示すフロ ーチャートである。 図9は、図5A、図5Bの受理基準の適用に使用される確率関数のトレーニン グを行う図2の電話番号案内自動化システムの動作を示すフローチャートである 。 図10A、図10Bは、音声認識アルゴリズムのテストを行う図2の電話番号 案内自動化システムの動作を示すフローチャートである。 図11は、名前語彙の中のある名前に偽(デコイ)としてラベルを付す図2の 電話番号案内自動化システムの動作を示すフローチャートである。発明の詳細な説明 図1は、電話番号案内自動システム100を含む、本発明の一実施例による電 話網を示す概要ブロック図である。電話番号案内自動システム100は、公衆交 換電話網(PSTN)のディジタルスイッチ200に接続される。電話番号案内 の利用者は、特定の電話番号案内番号を各自の局装置300上でダイヤルし、P STNのスイッチ200を介して電話番号案内自動システム100に接続される 。 電話番号案内自動システム100は、ディジタルスイッチ200を介してオペ レータ台コントローラ400に接続される。オペレータ台コントローラ400は 、いくつかのオペレータ台500を制御する。オペレータ台500上のオペレー タは、電話番号案内データベース600にオペレータ台コントローラ400およ びディジタルスイッチ200を介してアクセスする。電話番号案内データベース 600は、音声応答ユニット(ARU)700に接続され、音声応答ユニット7 00は、さらにディジタルスイッチ200に接続される。電話番号案内自動シス テム100は、電話番号案内データベース600に直接接続される。 図2は、電話番号案内自動システム100をより詳細に示す概要図である。電 話番号案内自動システム100は、オンラインプロセッサ110、オフラインプ ロセッサ120、2つのインタフェース130、140およびオンラインメモリ 150、オフラインメモリ160に組み込まれたメモリを含む。 オンラインプロセッサ110はディジタルスイッチ200にスイッチインタフ ェース130を介して接続され、電話番号案内データベースインタフェース14 0を介して電話番号案内データベース600に接続される。オンラインプロセッ サ110はオンラインメモリ150のオンラインプログラム領域152に記憶さ れたインストラクションを実行し、スイッチインタフェース130および電話番 号案内データベースインタフェース140を介して受信された信号を処理し、問 い合わせ記録を作成し、その問い合わせ記録はオンラインメモリ150の問い合 わせ記録領域154に記憶される。オンラインプロセッサ110によって実行さ れるインストラクションのいくつかは、音声認識モデルパラメータを必要とし、 そのパラメータは、オンラインメモリ150のオンラインモデルパラメータ領域 156に記憶される。 図3は、電話番号案内呼を受信した際のオンラインプロセッサ110の動作を 示すフローチャートである。利用者は局300に電話番号案内番号をダイアルす ると、PSTNのディジタルスイッチ200によって電話番号案内自動システム 100に接続される。オンラインプロセッサ110は、スイッチインタフェース 130を介してディジタルスイッチ200から問い合わせ番号を受信し、問い合 わせ時刻を計算し、オンラインメモリ150の問い合わせ記録領域154の問い 合わせ記録を開いて、問い合わせ番号のNPA−NXX部分と問い合わせ時刻を 問い合わせ記録に記録する。オンラインプロセッサ110は、オンラインメモリ 150内のオンラインプログラム領域152に記憶されたインストラクションを 実行し、利用者に音声で問い合わせ人または組織の地域名を告げるように誘導す る。 スイッチインタフェース130を介して音声信号が利用者から受信されると、 オンラインプロセッサ110は、音声信号を記憶し、オンラインメモリ150の オンラインプログラム領域152に記憶されたインストラクションを実行し、音 声処理アルゴリズムに従って記憶された音声信号を処理する。これによって、音 声認識アルゴリズムへの入力に適した音声信号の表示が得られる。オンラインプ ロセッサ110は、問い合わせ記録の表示を記録し、オンラインプログラム領域 152に記憶されたインストラクションをオンラインモデルパラメータ領域15 6に記憶されたモデルパラメータに基づいてさらに実行し、音声認識アルゴリズ ムを音声信号表示に適用する。これによって、音声信号が地域名ボキャブラリの 各名前に一致する確率の測度が計算される。オンラインプロセッサ110は、確 率の測度が高い上位30の地域名に対応する問い合わせ記録の索引を記録する。 オンラインプロセッサ110は、さらに音声認識のための計算を行う。この計算 は、計算された確率の測度に基づく受理基準を適用し、高い確率測度を有する地 域名の認識を行って良いかどうかの判断をするものであり、後に詳しく述べられ る。 オンラインプロセッサ110は、オンラインメモリ150のオンラインプログ ラム領域152に記憶されたインストラクションをさらに実行し、利用者が電話 をかけたい人あるいは組織の名前(すなわち「問い合わせエントリ名」)を含む 他の情報をさらに告げるように、利用者を誘導する。スイッチインタフェース1 30を介して利用者からさらに音声信号が受信されると、オンラインプロセッサ 110は、その音声信号を記憶する。これらのステップは、発明を理解する際に 重要ではないので、簡略化のため図3のフローチャートでは省略されている。 オンラインプロセッサ110は、電話番号案内自動システム100として機能 する電話番号案内データベースインタフェース140、電話番号案内データベー ス600およびディジタルスイッチ200を介して、オペレータ台500に接続 するように要求する。オンラインプロセッサ110が電話番号案内データベース インタフェース140から接続完了の情報を受け取ると、オンラインプロセッサ 110は、(もしあるのであれば)認識した地域名を示す信号を、電話番号案内 データベースインタフェース140を介して、電話番号案内データベース600 に送信する。電話番号案内データベース600は、オペレータ台500に対して 、認識した地域名を含む情報を表示する適当なスクリーンを表示する。いかなる 地域名も認識されない場合は、オペレータ台コントローラ400は、電話番号案 内データベース600に、オペレータ台500に対しては情報が欠陥であるとの 表示を行わせる。オンラインプロセッサ110は、スイッチインタフェース13 0およびスイッチ200を介してオペレータ台コントローラ400に記憶された 音声信号を送信し、利用者の発した地域名をオペレータに対して音声で再生し、 オペレータが地域名を認識できるようにする。 オンラインプロセッサ110は、さらに記憶された音声信号についても、スイ ッチインタフェース130およびスイッチ200を介してオペレータ台コントロ ーラ400に送信し、利用者の発した問い合わせエントリ名をオペレータに対し て音声で再生し、オペレータが電話番号案内データベース600内の必要なリス ト記載事項を探し当てられるようにする。このステップは、発明を理解する際に 重要ではないので、簡略化のため図3のフローチャートでは省略されている。 オペレータ台コントローラ400は、スイッチ200を介してオペレータ、利 用者間の音声リンクを完了させ、利用者がどのような特殊な電話番号を求めてい るのかを決定する際に必要となる情報を、さらにオペレータが要求し受け取るこ とができるようにする。ここで、いかなる地域名も認識されないと、オペレータ は、利用者にさらに質問をして地域名を訂正し、正しい地域名をオペレータ台に 入力する。 オペレータは、オペレータ台コントローラ400およびスイッチ200を介し て、電話番号案内データベース600にアクセスし、利用者が要求したこの特殊 な電話番号を決定するのに必要な電話番号情報をすべてオペレータ台500に表 示する。オペレータは、利用者の要求する電話番号を選択して、問い合わせ電話 から切り離す。オペレータ台コントローラ400は、電話番号案内データベース 600に対して、自動的にARU700を介して利用者が要求する電話番号を利 用者に知らせるよう指示する。(この様な機能を有する電話番号案内データベー ス装置およびオペレータ台コントローラは、製品化されている。例えば、ノーザ ンテレコムDMS−200TPS、ディジタル電話番号・アシスタンス(DDA )あるいはディレクトリ・ワンのようなデータベース製品は、このような機能を 有するように設計されている。尚、DMS、TOPS、DDAおよびディレクト リ・ワンはノーザン・テレコム・リミテッドの商標である。) 電話番号案内データベース600は、検索された電話番号と、電話番号案内デ ータベースインタフェース140を介してオンライン検索された地域名を送信す る。オンラインプロセッサ110は、検索された電話番号のNPA−NXX部分 と検索された地域名を、問い合わせ記録に記憶する。(ここで、検索された地域 名は、電話番号が検索される時に、検索スクリーン上に現れる地域名である。) ここで、音声認識アルゴリズムが地域名を認識すると、検索された地域名は、オ ペレータが手動で地域名の訂正を入力しないかぎり、音声認識アルゴリズムによ って認識された地域名である。ここで、音声認識アルゴリズムが地域名の認識に 失敗すると、検索された地域名は、利用者に電話番号が知らされる前にオペレー タによって入力された地域名となる。 オンラインプロセッサ110は、スイッチインタフェース130を介して、デ ィジタルスイッチ200に対して問い合わせ電話が完了したとの信号を発し、次 の電話番号案内呼を待ち受ける。 電話番号案内自動システム100が利用者が要求した電話番号の地域を正確に 認識することができると、オペレータが利用者に地域名を問う時間、地域名を入 力する時間、電話番号案内データベース600から情報を表示するのに適当なス クリーンを呼び出す時間を省くことができる。万が一、電話番号案内自動システ ム100が地域名を間違って認識した場合、オペレータがその間違いを認識し訂 正する時間がかかってしまう。総計でオペレータの負担を軽くするには、電話番 号案内自動システム100は、高い確率(一般には、75%以上の確率)で正し い認識を行ない、認識の失敗の確率はかなり低いもの(一般には、1%以下)で なくてはならない。音声認識アルゴリズムのトレーニングを拡張するには、この 程度の性能は確保されなくてはならない。 少なくともいくつかの音声認識アルゴリズムの必要なトレーニングは、オンラ インプロセッサ110がオンラインメモリの問い合わせ記録領域154に記憶さ れた問い合わせ記録を使用することで、オフラインプロセッサ120によって自 動的に行われる。図2を参照すると、オフラインプロセッサ120はオフライン メモリ160のオフラインプログラム領域162に記憶されたインストラクショ ンを実行し、オンラインメモリ150の問い合わせ記録領域154に記憶された 問い合わせ記録を、認識後アルゴリズムに従って処理する。これによって、トレ ーニング記録が、オフラインメモリ160のトレーニング記録領域164に記憶 される。認識後アルゴリズムは、オフラインメモリ160の名前/番号データベ ース領域166に記憶されたデータにもとづいている。オフラインプロセッサ1 20は、オフラインプログラム領域162に記憶されたインストラクションをさ らに実行し、トレーニング記録をトレーニングアルゴリズムに従って処理するこ とで変更された音声認識アルゴリズムモデルパラメータを得て、さらに変更され た音声認識アルゴリズムにアクセスする。変更されたモデルパラメータの形式で 行われる音声認識アルゴリズムに対する変更は、オフラインメモリ160のオフ ラインモデルパラメータ領域168に記憶される。ここで、変更された音声認識 アルゴリズムがオンラインプロセッサ110が現在適用している音声認識アルゴ リズムよりもかなり優れたものであるならば、オンラインプロセッサ110が使 用されていないときに、オフラインプロセッサ120はオフラインプログラム領 域162に記憶されているインストラクションをさらに実行し、オフラインメモ リ160のオフラインモデルパラメータ領域168から、変更されたモデルパラ メータを、オンラインメモリ150のオンラインモデルパラメータ領域158へ ダウンロードする。オンラインプロセッサ110は、変更された音声認識アルゴ リズムを使用して、より優れた音声認識能力を発揮する。 電話番号案内自動システム100の一つの実施例では、地域名を認識する音声 認識アルゴリズムを、異音隠れマルコフモデル(HMM)のライブラリに基づい て構成する。各異音に対して2つの異なる型のHMMが関連づけされる。HMM の一つの型は、ケプストラム特徴ベクトルを使用して得られ、HMMの他の型は 等化ケプストラムベクトルを使用して得られる。地域名のボキャブラリには、予 想される接頭語、接尾語に連鎖される全ての予測されうる地域名の異音表記が含 まれる。結果として、地域名ボキャブラリの各地域名は、各々の型のいくつかの HMMに関連づけ、これらHMMの各々が、その地域名の異音表記の異音に対し て異音HMMの連鎖を含む。 音声認識アルゴリズムはまた、アプリオリの要素を有し、それは、特定のNP A−NXX部分を各自の電話番号に有する利用者が地域名ボキャブラリの特定地 域に対する電話番号一覧を要求するであろう確率を特徴とするものである。各自 の電話番号のNPA−NXX部分は、利用者の地理的位置を示すものである。直 感的に言うと、利用者が所定の地域を求める確率は、その地域の人口と利用者と その地域の間の距離によって決められる。初歩ののアプリオリ・モデルはこのよ うな直感的な利用者行動パターンの推定に基づくものである。 図4Aおよび図4Bは、音声認識アルゴリズムの主要なステップを示すフロー チャートである。オンラインプロセッサ110は、自動的に受信された音声信号 を処理し、音声信号を、ケプストラム特徴ベクトルのシーケンスおよび等化ケプ ストラム特徴ベクトルのシーケンスの形で表示する。これら特徴ベクトルのシー ケンスを得るのに必要な信号処理ステップは、米国特許第5,097,509に 記載されるものと同様のものである。(1992年5月17日に発行された、Ma tthew Lennigの米国特許第5,097,509、"REJECTION METHOD FOR SPEECH RECOGNITION"。)図4Aおよび図4Bのフローチャートでは、地域名はより一 般的な呼称「オーソグラフィー(正しい綴り)」で示される。 米国特許出願第08/080,543に記載されているのと同様の2経路検索 アルゴリズムは、地域名ボキャブラリの各地域名表記に対応する鎖状HMMによ って、特徴ベクトルのシーケンスが生成される確率の測度を計算する際に使用さ れる。(1993年6月24日に、Vishawa Gupta et alの名で出願された米国 特許出願第08/080,543の"SPEECH RECOGNITION METHOD USING TWO PAS S SEARCH"。) 特に、2経路検索アルゴリズムの第1の経路において、HMMに基づく簡略化 されたケプストラムベクトルが、短縮検索アルゴリズムに使用され、ケプストラ ム特徴ベクトルのシーケンスが、地域名ボキャブラリの全ての表記に対して、各 地域名表記に対応する鎖状HMMによって生成されるログ確率が推定される。各 地域名表記に対する推定されたログ確率は、各自NPA−NXXを有する利用者 が対応地域名を要求する確率のアプリオリ測度によって重みづけされ、アプリオ リ・モデルに従って計算される。各地域名に対応する表記の重みづけされたログ 確率は比較され、各地域名に対してもっとも重みづけの高いログ確率を決定し、 値の大きい順に記憶される。重みづけされたログ確率の高さが上位30に入る地 域名は、上位30の認識候補となる。重みづけされた確率の高さが上位30に入 る地域名に対応する索引リストが、問い合わせ記録に記録される。 2経路検索アルゴリズムの第2ステップでは、より細かなケプストラムにもと づくHMMは、全ての地域名表記に対し、30の認識および限定ビタビ検索アル ゴリズムの候補に対応し、30の認識候補を有する各地域名表記に対応する鎖状 HMMによってケプストラム特徴ベクトルが生成されるログ確率をより正確に再 計算するために使用される。さらに、各地域名に対応する表記について重みづけ されたログ確率が比較され、各地域名に対してもっとも高いログ確率を決定し、 確率の高い順にソートされる。重みづけされたログ確率の高さが上位3位に入る 地域名は、上位3位の認識候補となり、これらの重みづけ後ログ確率に対応する 地域名表記が、上位3位の地域名表記と認識される。 さらに、上位3位の地域名表記および限定ビタビ検索に対する細密な等化ケプ ストラムHMMを用いて、等化ケプストラム特徴ベクトルが上位3位の地域名表 記に対応する鎖状HMMによって生成されるログ確率を計算する。 ケプストラムHMMおよび特徴ベクトルを用いて計算されたログ確率は、等化 ケプストラムHMMおよび特徴ベクトルを用いて計算されたログ確率と合わさり 、認識の上位各3候補の合計ログ確率が計算される。合計ログ確率は、音声信号 表示中のフレーム数によって正規化され、上位各3候補の「フレーム毎の合計ロ グ確率」が計算される。(各特徴ベクトルは、音声信号表示の一つのフレームに 対応する。)フレーム毎の合計ログ確率がもっとも高い地域名は、その地域名の 第 1候補と認定され、2番目にフレーム毎の合計ログ確率がもっとも高い地域名は 、その地域名の第2候補と認定される。もっとも高い合計ログ確率に対応する地 域名の第1候補の表記は、第1候補と認識される。 受理基準は、地域名の第1候補の認識が正しいものであるかどうかを決定する ために適用される。図5A、図5Bは、この受理基準適用を示すフローチャート である。図5A、図5Bにおいて、地域名はより一般的に「オーソグラフィ(正 しい綴り)」という呼称で示されている。 利用者が電話番号案内自動システム100によって地域名を述べるように誘導 されても、音声による地域名の応答が必ずしもあるとはかぎらない。例えば、利 用者は地域名を述べるようにとの誘導に対して、「知りません」と応答すること もあり得る。訂正手段がない限り、音声認識アルゴリズムは、このような音声応 答を地域名ボキャブラリの内の地域名として認識しようと試みる。しかしこの様 な場合は、音声認識アルゴリズムによって認識されるいかなる地域名も誤りとな る。 音声認識アルゴリズムの性能は、地域名ボキャブラリの地域名に対応しないも のとして予測されうる応答に対する表記を含ませることによって、また、このよ うな表記に対して「偽(デコイ)」というラベルを付すことによって向上する。 音声認識アルゴリズムが偽を第1の地域名候補として選択すると、アルゴリズム は、地域名認識はなされないと結論する。音声認識アルゴリズムによって正確に 認識されるよりも誤って認識されやすいと決定された地域名表記のいくつかは、 それが正式な地域名に対応するものであっても、この様な表記に偽のラベルを付 すことで、音声認識アルゴリズムの性能を向上させることが可能である。 地域名表記の第1候補が地域名ボキャブラリにおいて偽であるとマークされな ければ、5つの受理基準パラメータが計算される。1つの受理基準パラメータ( A)は、地域名の第1候補のフレーム毎のログ確率と地域名の第2候補のフレー ム毎のログ確率との差を示す。 残る4つの受理基準パラメータを計算するには、ビタビによるアラインメント 技術を用いて、特徴ベクトルを表記の第1の候補に対応する鎖状HMMの異音H MMに対応させる。表記の接頭語、接尾語に対応する異音HMMに対応した特徴 ベクトルは度外視され、残った特徴ベクトルを用いて、表記の「核部分」(すな わち、地域名のみに対応している部分の表記)のフレーム毎のログ確率を計算す る。これによって、さらに2つの受理基準パラメータと、表記の核部分のフレー ム毎のログ確率がケプストラム特徴ベクトルとHMM(B)を用いて、表記の核 部分のフレーム毎のログ確率が等化ケプストラム特徴ベクトルとHMM(C)を 用いて計算され、生成される。 受理基準パラメータBおよびCの計算に用いられるビタビによるアラインメン ト・ステップは、特徴ベクトルを個々の異音HMMに対応させる。これら異音H MMは鎖状になっており、各地域名表記に対するHMMが作成される。このよう なアラインメントによって、各異音に対応するフレーム数の計算が可能となる。 通常の音声では、話された異音は持続時間の分布を有し、それはガウス分布をモ デルとするものであり、その平均および偏差は多くの話された異音のサンプルを 分析することで得られる。各特徴ベクトルは、一般に知られた持続時間(典型的 には25.6ms)を有する音声信号の時間刻みに対応するので、各異音の持続 時間は、異音HMMに対応された特徴ベクトルから推定することができる。この ように推定された異音の持続時間は、異音持続時間の予測される分布と比較され 、ビタビによるアラインメントが有効である確率を予測する。表記の第1候補に 対する「持続時間の確率測度」は、核における各異音に対する持続時間のログ確 率を算出し、さらに核における全ての異音に対するこれらログ確率を平均するこ とによって計算される。この計算は、ビタビによるアラインメントを用いて、ケ プストラム特徴ベクトルを表記の第1候補の核部分のケプストラムHMMに対応 させ、一つの持続時間確率測度(D)を得、さらにビタビによるアラインメント を用いて、等化ケプストラム特徴ベクトルを表記の第1候補の核部分の等化ケプ ストラムHMMに対応し、他の一つの持続時間確率測度(E)を得るために行わ れる。 各受理基準パラメータ(A,B,C,D,E)に対応する確率モデルは、正し い認識確率を個々の受理基準パラメータの関数ととらえる。受理基準パラメータ 値はこのモデルに適用されると、正しい受理の確率の5つの測度(Pa(A), Pb(B),Pc(c),Pd(d),Pe(E))が得られ、正しい認識確率 の複合測度(P)は、これら5つの推定値の重みづけされた積として計算される 。 P=[Pa(A)]8 [Pb(B)] [Pc(C)] [Pd(D)]2 [Pe(E)]2 複合測度(P)は、経験的に決定された閾値と比較される。この複合測度(P )が閾値を越えれば、受理基準が満たされ、音声信号が地域名の第1候補と認識 されたということが宣言される。この複合測度(P)が閾値を越えなければ、受 理基準は満たされず、音声信号は認識されないと宣言される。 上記の音声認識アルゴリズムの自動トレーニングは、5つの要素を含む。 1.トレーニング記録の生成 2.異音HMMのトレーニング 3.アプリオリ・モデルのトレーニング 4.受理基準確率モデルのトレーニング 5.受理基準閾値のトレーニング 図6A、図6Bは、問い合わせ記録からトレーニング記録を生成するオフライ ンプロセッサ120の動作を示すフローチャートである。図6Aでは、地域名は 一般的に「オーソグラフィ(正しい綴り)」と置き替えて用いられる。 オフラインプロセッサ120は、問い合わせ記録ブロック160にアクセスし 、その問い合わせ記録に対する検索された電話番号のNPA−NXX部分と地域 名を検索する。オフラインプロセッサ120は、オフラインメモリ160の名前 /番号データベース領域166にアクセスし、そのNPA−NXXに対応する地 域名のリスト記載事項を検索する。ここで、検索された地域名が作成されたリス ト記載事項上になかった場合は、その検索されたリスト記載事項に加えられる。 オフラインプロセッサ120は、問い合わせ記録メモリブロック160にアク セスし、2経路音声認識アルゴリズム中の第1経路で推定された、重みづけされ たログ確率がもっとも高い30の地域名のリスト記載事項を検索する。名前/番 号データベース166から作成された地域名のリスト記載事項は、重みづけされ たログ確率がもっとも高い30の地域名のリスト記載事項と比較される。ここで 、 いかなる地域名も名前/番号データベース166から作成されたリスト記載事項 上にはあるが、30の地域名表記のリスト記載事項上になければ、作成されたリ スト記載事項は、これらのリストされていない地域名を加えるように変更される 。すなわち、名前/番号データベース166から作成されたリスト記載事項上に なく、重みづけされたログ確率がもっとも低い地域名を入れ替える。これにより 、変更後もリスト記載事項は30の地域名を含むことになる。 オフラインプロセッサ120は、2経路検索音声認識アルゴリズムの第2経路 を適用し、変更されたリスト記載事項上の30の地域名に対応するすべての表記 に対して鎖状ケプストラムHMMを使用し、各鎖状HMMによって問い合わせ記 録のケプストラム特徴ベクトルが生成されるログ確率を導く。オフラインプロセ ッサ120は、変更されたリスト記載事項上のどの地域名表記がもっとも高いロ グ確率を有するか、すなわち、「もっともよく認証される表記」であるかを決定 する。ここで、リスト記載事項上にない地域名に対応する地域名表記で比較的高 いログ確率を有するものが5つまたはそれ以上であると、音声信号表示、検索さ れた電話番号のNPA−NXX部分、問い合わせ時刻、音声信号が「ボキャブラ リにない」ことを示すラベルを含むトレーニング記録が、オフラインメモリ16 0のトレーニング記録領域164に生成される。 上記以外の場合、オフラインプロセッサ120は、どの2つの地域名表記が第 1の認証表記の次に高いケプストラム・ログ確率を有するかを決定する。等化ケ プストラム・ログ確率は、これら2つの地域名表記に対して計算され、表記の第 1候補に対しては、限定ビタビ検索と等化ケプストラム特徴ベクトルとHMMを 用いて計算される。もっともよく認証される表記がもつとも高い等化ケプストラ ム・ログ確率を有していなければ、音声信号表示、検索された電話番号のNPA −NXX部分、問い合わせ時刻、音声信号が「ボキャブラリにない」ことを示す ラベルを含むトレーニング記録が、オフラインメモリ160のトレーニング記録 領域164に生成される。 上記以外の場合、オフラインプロセッサ120は、ケプストラム・ログ確率と 等化ケプストラム・ログ確率を組み合わせ、複合ログ確率(L1)を表記の第1 候補に対して計算し、複合ログ確率(L2)を表記の第2候補に対して計算する 。 これら2つの複合ログ確率間の正規化された差は、閾値と比較される。ここで、 正規化された差が閾値を越えていなければ、オフラインプロセッサ120は、音 声信号表示、検索された電話番号のNPA−NXX部分、問い合わせ時刻を含む トレーニング記録を生成し、音声信号が「ボキャブラリにない」ことを示すラベ ルをオフラインメモリ160のトレーニング記録領域164に生成する。 上記以外の場合(すなわち、複合ログ確率間の正規化された差が閾値を越える 場合)、オフラインプロセッサ120は、音声信号表示、検索された電話番号の NPA−NXX部分、問い合わせ時刻を含むトレーニング記録を生成し、音声信 号が「もっともよく認証される表記」に対応することを示すラベルをオフライン メモリ160のトレーニング記録領域164に生成する。(このラベルは、地域 名表記を独自に認識し、その表記には、そこに含まれているいかなる接頭語、接 尾語も含まれている。) 図6A、図6Bに示されたプロセスは、各問い合わせ記録毎に繰り返される。 問い合わせ記録は、トレーニング記録が生成されると、オンラインメモリ150 の問い合わせ記録領域154の新たな問い合わせ記録を記録するために除去され る。 多くのトレーニング記録が生成されると、オフラインプロセッサ120は、ト レーニングアルゴリズムを実行し、それらトレーニング記録を用いて音声認識ア ルゴリズムのトレーニングを行う。図7は、トレーニング記録を用いて異音HM Mの自動トレーニングを行うことを示すフローチャートである。異音HMMは、 初期段階では、音声専門家が従来の方法を用いて収集し、ラベルを付した音声サ ンプルの大ライブラリを用いてトレーニングされる。さらにトレーニング記録を 用いて異音HMMの自動トレーニングを行う場合、一般に知られるビタビ・アル ゴリズムが、各使用可能なトレーニング記録に対して一回繰り返される。 特に、トレーニング記録において特定の地域名表記のラベルを付される特徴ベ クトルの各シーケンスに対して、既知のビタビ・アルゴリズムは、その地域名表 記に対する鎖状HMMの最大確率経路を計算するのに使用される。最大確率経路 を表わす統計は、計上され、初期HMMトレーニングと以前にさらに行われたH MMトレーニングの間に累積された統計の対応箇所に加えられる。異音HMMの パラメータは、累積モデルパラメータ統計にもとづき再計算される。(1986 年1月のRabiner et alによるIEEE ASSP マガジンのビタビ・アルゴ リズムに関する記述、第4〜16頁。) 音声認識アルゴリズムは、ケプストラム異音HMMと等化ケプストラム異音H MMの双方を用いるため、各トレーニング記録はケプストラム特徴ベクトルのシ ーケンス、等化ケプストラム特徴ベクトルのシーケンスを含む。ケプストラム特 徴ベクトルは、上記のようにケプストラム異音HMMのトレーニングに使用され 、等化ケプストラム特徴ベクトルは上記のように等化ケプストラム異音HMMの トレーニングに使用される。 結果的に異音HMMは、米国特許出願第07/772,903に記載されるよ うに、音声認識の性能が向上するように変更される。(1991年10月8日に Vishawa Gupta et alによって出願された米国特許出願第07/772,903 の、"Flexible Vocabulary Recognition"。) 変更されたモデルパラメータは 、変更されたHMMを定義し、オフラインメモリ160のオフラインモデルパラ メータ領域168に記憶される。 図8は、音声認識アルゴリズムに使用されるアプリオリ・モデルの自動トレー ニングを示すフローチャートである。トレーニング記録を使用して、各地域名を 要求する各NPA−NXXからの問い合わせの実際の数をカウントし、累積統計 を使用して、利用者のNPA−NXXの下で要求される各地域名のアプリオリ確 率を計算する。閾値を用いることで、計算されたアプリオリ・モデルの使用は、 統計的に意味を持つモデルを保証するように十分に統計が累積された場合に限ら れる。変更されたモデルパラメータは変更されたアプリオリ・モデルを定義し、 オフラインメモリ160のオフラインモデルパラメータ領域168に記憶される 。 図9は、図5Aと図5Bを参照して上に記載された受理基準の適用にあたり使 用される確率モデルの自動トレーニングを示すフローチャートである。確率モデ ルのトレーニングは、電話番号案内自動システム100の使用にあたり直面する 「ボキャブラリにある」サンプルと「ボキャブラリにない」サンプルを実質的に 同じ比率で有するサンプルのセットを使用しておこなわれなくてはならない。電 話番号案内自動システム100の実際の動作中に集められた音声信号表示はこの 比率を有するが、音声された場合「ボキャブラリにある」ものでも85%のもの しか「ボキャブラリにある」と認識されない。認識されなかった15%の「ボキ ャブラリにある」音声は、トレーニング記録に誤って「ボキャブラリにない」と いうラベルを付される。地域名のラベルが付される音声信号表示と「ボキャブラ リにない」というラベルを付される音声信号表示の間の比率を適正に保つには、 「ボキャブラリにない」というラベルを付される音声信号表示のうち30%のみ が選択され、地域名ラベルを付された音声信号表示とともに、確率モデルのトレ ーニングに使用されるトレーニング記録のセットに含まれることになる。(「ボ キャブラリにある」ものと「ボキャブラリにない」ものとの相対的な比率は、こ れらを作成する誘導文句に依存し、所定の適用に対して経験的に決定されなくて はならない。) トレーニング・セットが決定されると、確率モデルのトレーニングは、基本的 には米国特許第5,097,509に記載されるようになる(ただし、受理基準 パラメータは異なるが、トレーニング技術は同じ原理に基づくものである。)地 域名は、図9において、一般的に「オーソグラフィ(正しい綴り)」と呼ばれる 。 トレーニング・セットの各トレーニング記録に対して、第1の地域名候補を決 定するために、図4Aと図4Bの音声認識アルゴリズムに関連のあるステップが 用いられる。音声認識アルゴリズムのステップは、図7のHMMトレーニングプ ロセスによって変更されたHMMと、図8のアプリオリ・モデルトレーニングプ ロセスによって変更されたアプリオリ・モデルを使用して適用される。 ここで、音声認識アルゴリズムによって決定された第1の地域名候補が偽であ ると、そのトレーニング記録に対してこれ以上の計算は行われず、トレーニング ・セットの次のトレーニング記録が選択される。 ここで、第1の地域名候補が偽でないとすると、受理基準パラメータA,B, C,D,Eが、図7のHMMトレーニングプロセスによって変更されたHMMを 使用して、図5Aと図5Bに示す受理アルゴリズムに関連のあるステップに従っ て計算される。第1の地域名候補がトレーニング記録の地域名索引に対応すると 、変更された音声認識アルゴリズムは、地域名を正しく認識したとみなされ、各 受理基準パラメータA,B,C,D,Eの値に対応する正しい受理カウンタがイ ン クリメントされる。第1の地域名候補がトレーニング記録の地域名索引に対応し ないと、変更された音声認識アルゴリズムは、地域名を誤って認識したとみなさ れ、各受理基準パラメータA,B,C,D,Eの値に対応する誤り受理カウンタ がインクリメントされる。 トレーニング・セットの全てのトレーニング記録の処理が済むと、正誤それぞ れの受理カウンタを使用して、確率モデルPa(A)、Pb(B)、Pc(C) 、Pd(D)、Pe(E)を算出する。これらは、各受理基準パラメータA,B ,C,D,Eの関数として正しい受理の確率を推定する。確率モデルの導入は、 米国特許第5,0970,509に開示されるのと同様な技術に基づくものであ る。これら技術は、A,B,C,D,Eを独立した変数として扱う。 変更された確率モデルPa(A)、Pb(B)、Pc(C)、Pd(D)、P e(E)を定義するモデルパラメータは、オフラインメモリ160のオフライン モデルパラメータ領域168に記憶される。 図10A、図10Bは、受理基準閾値のトレーニングと音声認識アルゴリズム の評価を示すフローチャートであり、音声認識アルゴリズムは異音HMM、アプ リオリ・モデル、受理基準確率モデル、受理基準閾値のトレーニングによって変 更される。図10A、図10Bでは、地域名は一般的に「オーソグラフィ(正し い綴り)」と呼ばれる。 テスト結果を有効なものとするためには、変更された音声認識アルゴリズムの テストを行わなくてはならない。ここで、「ボキャブラリにある」サンプルと「 ボキャブラリにない」サンプルの比率が、変更された音声認識アルゴリズムが実 際のトラフィックに適用されたときに、起こる比率と実質的に同様であるような 比率を有するトレーニング記録についてテストが行われる。結果的に、音声認識 アルゴリズムの受理基準の適用にあたって使用された確率モデルのトレーニング を参照して上述したように、「ボキャブラリにない」というラベルを付されたト レーニング記録のいくつかは、適切なテスト・セットを組み合わせるために除去 しなくてはならない。テスト・セットはまた、有効なテスト結果を得るために、 HMMの列に使用されなかったトレーニング記録から組み合わされなくてななら ない。 正しい受理(CA)、誤り受理(FA)、正しい拒否(CR)、誤り拒否(F R)のそれぞれのカウンタは、0.00,0.05,0.10,...1,00 の値を有する21の各候補閾値に対して設けられ、0に初期化されている。 図4A、図4Bの音声認識アルゴリズムに関連するステップは、図7のトレー ニングプロセスによって変更されたHMMと図8のトレーニングプロセスによっ て変更されたアプリオリ・モデルを使用して、トレーニング・セットの各トレー ニング記録に適用され、そのトレーニング記録に対する第1の地域名候補を決定 する。図5A、図5Bの受理基準アルゴリズムに関連するステップは、図9に従 って導かれた受理基準モデルを使用して適用され、第1の地域名候補の受理が正 しい確率を推定する。 第1の地域名候補が偽でないとすると、トレーニング記録に記録された地域名 と比較される。ここで、トレーニング記録に記録された地域名と一致すると、受 理基準閾値が正しい受理の予測確率よりも小さければ、変更された音声認識アル ゴリズムは地域名の認識を行うことが正しいので、結果として、正しい受理(C A)カウンタが、正しい受理の予測確率よりも小さいすべての閾値に対して、イ ンクリメントされる。もし受理基準閾値が正しい受理の予測確率よりも大きけれ ば、変更された音声認識アルゴリズムは地域名の認識を行わないことが誤りなの で、誤り拒否(FR)カウンタが、正しい受理の予測確率よりも大きいすべての 閾値に対して、インクリメントされる。 ここで、第1の地域名候補がトレーニング記録中の地域名と同じでなければ、 受理基準閾値が正しい受理の予測確率よりも小さい場合は、変更された音声認識 アルゴリズムは地域名の認識を行うことが誤りであるので、結果として、誤り受 理(FA)カウンタが、正しい受理の予測確率よりも小さいすべての閾値に対し て、インクリメントされる。もし受理基準閾値が正しい受理の予測確率よりも大 きければ、変更された音声認識アルゴリズムは地域名の認識を行わないことが正 しいので、正しい拒否(CR)カウンタが、正しい受理の予測確率よりも大きい すべての閾値に対して、インクリメントされる。 ここで第1の地域名候補が偽であり、トレーニング記録に記録された地域名が 「ボキャブラリにない」に対応するならば、変更された音声認識アルゴリズムは 、 話された応答がどの閾値が選択されても地域名ボキャブラリの地域名でないと正 しい決定を下すので、正しい拒否(CR)カウンタが、全ての閾値に対してイン クリメントされる。ここで第1の地域名候補が偽であり、トレーニング記録に記 録された地域名が「ボキャブラリにない」に対応しないならば、変更された音声 認識アルゴリズムは、話された応答がどの閾値が選択されても地域名ボキャブラ リの地域名でないと誤って決定を下すので、誤り拒否(FR)カウンタが、全て の閾値に対してインクリメントされる。 トレーニング・セットの全てのトレーニング記録が上記のように処理されると 、これらカウンタを使用して、各閾値に対する誤り受理の確率を算出する。 上記のように、音声認識アルゴリズムが電話番号案内に適用された場合に有効 であるのは、誤り受理(FA)の確率が非常に低く保たれている場合である。な ぜならば、地域名の誤り受理によって、電話番号案内オペレータの仕事量が増え てしまうからである。電話番号案内自動システム100が電話番号案内の作動コ スト削減に貢献することを保証するには、音声認識アルゴリズムの性能を、誤り 受理の最大許容率の観点により特定する。閾値は、誤り受理最大許容率にもっと も近い算出された誤り受理確率に対応するものが選択される。 さらに、カウンタを使用して、選択された閾値に対する正しい受理の確率を計 算する。正しい受理の確率が、今以前の音声認識アルゴリズムのトレーニング中 に達成されたものよりも高いならば、変更された音声認識アルゴリズムの性能は 、以前の性能よりも向上したことになる。結果として、変更されたHMM、アプ リオリ・モデル、受理基準確率モデルおよび受理基準閾値が、オフラインプロセ ッサ120によって、オフラインメモリ160のオフラインモデルパラメータ領 域168からオンラインメモリ150のオンラインモデルパラメータ領域156 へ、オンラインプロセッサ110が動作していないときにダウンロードされる。 正しい受理の確率が、今以前の音声認識アルゴリズムのトレーニング中に達成さ れたものよりも低いならば、オンラインプロセッサ110で使用するために、変 更されたモデルと閾値をダウンロードしない。 図11は、変更された音声認識アルゴリズムの性能をさらに向上させるための 処理ステップを示すフローチャートである。変更された音声認識アルゴリズムは 、 各トレーニング記録に記憶された音声信号表示に適用される。音声信号が、変更 された音声認識アルゴリズムによって認識されたと宣言され、トレーニング記録 に記憶された地域名索引に認識された地域名表示が対応すると、正しい受理(C A)カウンタは、認識された地域名表示に対して、インクリメントされる。トレ ーニング記録に記憶された地域名索引に認識された地域名表示が対応しないと、 誤り受理(FA)カウンタは、認識された地域名表示に対して、インクリメント される。音声信号が変更された音声認識アルゴリズムによって認識されないと宣 言されると、どのカウンタもインクリメントされない。 すべてのトレーニング記録が変更された音声認識アルゴリズムによって処理さ れると、CAおよびFAカウンタの比率が、地域名ボキャブラリの各地域名表示 に対して計算され、所定の閾値と比較される。地域名表示に対する比率が閾値を 越えていないならば、その地域名表示は偽というラベルを付され、変更された音 声認識アルゴリズムは、他の場合においてその地域名表示として認識するいかな る音声信号表示も認識されないと宣言する。 例えば、所定の閾値が一定にされれば、CAカウンタがFAカウンタよりも小 さい地域名表示は、いかなるものでも偽のラベルを付される。これによって、変 更された音声認識アルゴリズムの性能が向上する。なぜならば、この変更された 音声認識アルゴリズムをトレーニング・サンプルに適用することで、その特定地 域名の認識が正しいよりも、誤りであるようになるからである。他の適用につい ては、異なる閾値の使用が適切であると思われる。 上記の実施例は、本発明の原理から逸脱しない範囲で変更することも可能であ る。 例えば、自動音声認識に地域名の他に名前を認識させることも可能である。特 に、電話番号案内自動システム100は、電話番号案内の利用者に対して、利用 者が電話をかけたい人あるいは組織の名称(例えば、事業部署や、政府機関)を 述べるように誘導するようにプログラムすることができる。(これら名称は、本 出願においては「問い合わせエントリ名」と呼ぶ。)電話番号案内自動システム 100は、問い合わせ頻度の高いリスト記載事項に対応する問い合わせエントリ 名を認識するようにプログラムされる。問い合わせ頻度の高いリスト記載事項に 対応する問い合わせエントリ名を認識されると、電話番号案内自動システム10 0は、自動的に問い合わせエントリ名が電話番号上にマップされている電話番号 案内データベース600を参照し、問い合わせた電話番号が、利用者に対してオ ペレータを介すことなくARU700を介して検索されるようにプログラムされ る。利用者に電話番号を知らせるにあたり、システムは、認識した問い合わせエ ントリ名を利用者に音声で知らせ、その認識した問い合わせエントリ名が正しく ないときに、特定の方法で(例えば、「正しくない」というように)利用者に知 らせる。認識された問い合わせエントリ名の確認または否認の誘導は、特定の認 識された問い合わせエントリ名によって選択的に行われ、音声認識アルゴリズム が既に高い確率で認識していると知らされている問い合わせエントリ名について は、この確認あるいは否認作業が省かれ、電話番号案内の利用者が必要のない不 便を感じたり、データのトレーニングが不必要に処理されたりしないようにする 。 電話番号案内自動システム100は、問い合わせたエントリ名が正しくないと いう信号を受信すると、オペレータ台コントローラ400を介して利用者をオペ レータ台500に接続し、電話番号案内の問い合わせを完了する。あるいは、電 話番号案内自動システム100は、問い合わせエントリ名の次の候補を挙げて、 所定数の否認が確認された後に、利用者をオペレータ台500へ接続する。同様 に、問い合わせエントリ名が認識されないとき、電話番号案内自動システム10 0は、自動的にオペレータ台コントローラ400を介して利用者をオペレータ台 500に接続し、電話番号案内呼を完了する。 電話番号案内自動システム100は、問い合わせ記録を生成し、そこには、問 い合わせエントリ名の誘導に対して利用者から受信された音声信号の表示と利用 者に(電話番号案内自動システム100によって自動的に、あるいは、オペレー タによって手動で)知らされた電話番号が含まれる。電話番号案内自動システム 100はさらに、問い合わせ記録を処理し、名前/番号データベースにアクセス するようにプログラムされる。名前/番号データベースは、問い合わせエントリ 名ボキャブラリの問い合わせエントリ名とそれに対応する電話番号を関連づけ、 認識された問い合わせエントリ名が検索された電話番号に対応するかどうかを決 定し、問い合わせエントリ名が検索された電話番号に対応するときに、音声信号 表示に確認された問い合わせエントリ名のラベルを付すトレーニング記録を生成 する。トレーニング記録は、異音HMMと上記の拒否テーブルのトレーニングに 使用される。 問い合わせエントリ名に対する音声認識アルゴリズムは、アプリオリな要素を 含み、それは、利用者の電話番号のNPA−NXXと問い合わせが行われた時間 に従って要求される確率の各問い合わせエントリ名の重みづけをする。直感的に 言えば、ある問い合わせエントリ名は営業日の営業時間中に問い合わせられるこ とが多く(例えば、銀行)、他の問い合わせエントリ名は営業時間外あるいは週 末に問い合わせが多くなる(例えば、時間外緊急ライン)。このような問い合わ せパターンを使用して、アプリオリ・モデルを生成し、問い合わせエントリ名が 電話番号案内呼があった時間に要求される確率が推定される。電話番号案内自動 システム100は、問い合わせ記録中に問い合わせ回数を記録するようにプログ ラムされ、問い合わせ回数をトレーニング記録に移転し、認識が正しいとされた 問い合わせの回数を使用して自動的にアプリオリ・モデルの性能を向上させるよ うにトレーニングを行う。上記のように、問い合わせ回数に基づくアプリオリ・ モデルは、利用者のNPA−NXXに基づくアプリオリ・モデルと組み合わせる ことが可能である。 上記のように、電話番号案内自動システム100は、一つのオンラインプロセ ッサ110と一つのオフラインプロセッサ120を含む。電話番号案内自動シス テム100を拡張し、いくつかの電話番号案内問い合わせに対して同時にサービ スを提供するには、オンラインプロセッサ110をいくつか設置し、さらに各々 に対して対応インタフェース130、140と対応メモリ150、160を備え る。オフラインプロセッサ120は、音声認識アルゴリズムのトレーニングに続 いて、いくつかのオンラインプロセッサによって集められた問い合わせ記録を処 理する。また、多重オフラインプロセッサ120を設置してもよく、各オフライ ンプロセッサ120は、上に列挙されたトレーニング機能のいずれかに特定化さ れる。オフラインプロセッサ120は、各自の問い合わせ記録メモリを有して設 置され、そのメモリに対して、各オンラインプロセッサ110に関連するオンラ インメモリ150の問い合わせ記録メモリ領域154から問い合わせ記録がダウ ンロードされる。 上記のように、音声信号と2経路検索アルゴリズムの第1の経路の結果から導 かれた特徴ベクトルは、オンラインプロセッサ110によって生成された問い合 わせ記録に記録され、オフラインプロセッサが後にそれを利用する。あるいは、 オンラインプロセッサ110によって生成された問い合わせ記録は、ディジタル 符号化された音声信号を含み、オフラインプロセッサ120が、音声信号の信号 処理を繰り返して特徴ベクトルを導き、2経路音声認識アルゴリズムの第1の経 路を繰り返してこれらパラメータを再び導き出すようにする。 これらの実施例および他の実施例は、以下の請求項で定義される発明の請求の 範囲に含まれる。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI H04M 3/42 9567−5G H04M 3/60 Z 3/60 9567−5G H04Q 3/545 H04Q 3/545 9289−5L G06F 15/40 370E (72)発明者 グプタ・ヴィシュワ・エヌ カナダ国,ジェイ4ワイ 1ティ2,ケベ ック,ブロサール,ムスィエール ストリ ート 7145 (72)発明者 ホッグソン・ローレン・スィー カナダ国,エイチ9エヌ 1エム9,ケベ ック,ビーコンズフィールド,リンカン ドライブ147 (72)発明者 レニグ・マシュー カナダ国,エイチ3ゼット 1ジェイ1, ケベック,ウェストマウント,ウィンチェ スター アベニュー 2 (72)発明者 シャープ・アール・ダグラス カナダ国,エイチ3ゼット 1エイチ9, ケベック,ウェストマウント,ウィンチェ スター アベニュー 17 (72)発明者 ワスメイヤー・ハンス・エー カナダ国,ケイ2スィー 3スィー2,オ ンタリオ,オタワ,サウスウッド ドライ ブ1203

Claims (1)

  1. 【特許請求の範囲】 1. 電話番号案内機能を少なくとも部分的に自動化する方法において: 電話番号リスト記載事項に関連する名前を利用者が述べるように誘導し; この誘導に応答して利用者から受信された音声信号に基づき、利用者が要求す る電話番号を決定し; 所望の電話番号を利用者に知らせ;さらに、 検索された電話番号に応答するパラメータ変更アルゴリズムに従って、音声認 識アルゴリズムのパラメータを変更することを特徴とする自動電話番号案内方法 。 2. 請求項1の方法は、さらに誘導に応答して利用者から受信された音声信号 の表示を記憶し、そこで音声認識アルゴリズムのパラメータを変更するステップ は: 記憶された音声信号の各表示を、検索された電話番号と関連づけ; 検索された各電話番号から、少なくとも一つの対応名を作成し; 選択され作成された名前を、選択され記憶された音声信号の表示に関連づけ; さらに、 選択された音声信号の表示と関連する名前に応答するトレーニングアルゴリズ ムに従って、音声認識アルゴリズムのパラメータを変更することを特徴とする自 動電話番号案内方法。 3. 請求項2の方法において: 利用者を誘導するステップは、所望のリスト記載事項に対応する地域の名前を 述べるように利用者を誘導し; 名前の作成するステップは、検索された各電話番号から少なくとも一つの地域 名を作成し; 記憶された音声信号の表示と作成された名前を関連づけるステップは、地域名 が選択され記憶された音声信号の表示と関連づけ;さらに 音声認識アルゴリズムのパラメータを変更するステップは、選択された音声信 号の表示と関連する地域名とに応答するトレーニングアルゴリズムに従って音声 認識アルゴリズムのパラメータを変更することを特徴とする自動電話番号案内方 法。 4. 請求項3の方法において: 検索された各電話番号から少なくとも一つの対応する地域名を作成するステッ プは、検索された各電話番号のNPA−NXX部分から少なくとも一つの対応す る地域名を作成することを特徴とする自動電話番号案内方法。 5. 請求項2の方法において: 利用者を誘導するステップは、要求されるリスト記載事項に対応する問い合わ せエンティティ名を述べるように利用者を誘導し; 名前を自動的に作成するステップは、検索された各電話番号から少なくとも一 つの問い合わせエントリ名を作成し; 記憶された音声信号の表示と作成された名前を関連づけるステップは、問い合 わせ地域名を選択され記憶された音声信号の表示と関連づけ;さらに 音声認識アルゴリズムのパラメータを変更するステップは、選択された音声信 号の表示と関連する問い合わせエントリ名に応答するトレーニングアルゴリズム に従って音声認識アルゴリズムのパラメータを変更することを特徴とする自動電 話番号案内方法。 6. 請求項2の方法において: 利用者への所望の電話番号を決定するステップは、音声認識アルゴリズムに従 って、利用者から受信された音声信号が名前ボキャブラリの複数の名前の各々に 対応した誘導に従って確率の測度を計算することを特徴とする自動電話番号案内 方法。 7. 請求項6の方法において: 利用者が所望する電話番号を決定するステップは、さらに、計算された確率測 度がもっとも高い名前を、名前の第1候補として選択することを特徴とする自動 電話番号案内方法。 8. 請求項7の方法において: 利用者が所望する電話番号を決定するステップは、さらに、名前の第1候補と して選択された名前を、計算された確率測度が所定の受理基準を満たす場合に限 り、記憶された音声信号の表示に対応するものとして認識することを特徴とする 自動電話番号案内方法。 9. 請求項8の方法において、利用者が所望する電話番号を決定するステップ は、さらに、認識された名前を所望の電話番号のデータベース検索におけるパラ メータとして使用されることを特徴とする自動電話番号案内方法。 10.請求項6の方法において: 選択され作成された名前を選択され記憶された音声信号の表示に関連させるス テップは、音声認識アルゴリズムに従って、記憶された音声信号の表示が名前ボ キャブラリの選択されたサブセット中の複数の名前の各々に対応する確率測度を 計算し、記憶された音声信号の各表示に対する選択されたサブセットは、その記 憶された音声信号の表示に関連する検索された電話番号から作成された名前を含 むことを特徴とする自動電話番号案内方法。 11.請求項10の方法において: 記憶された音声信号の各表示に対する選択された名前ボキャブラリのサブセッ トは、利用者が所望する電話番号を決定するステップの間にその記憶された音声 信号の表示に対して計算された確率の測度が高い名前を含むことを特徴とする自 動電話番号案内方法。 12.請求項11の方法において: さらに、検索された名前を記憶された音声信号の各表示に関連づけ、そこで、 その記憶された音声信号の表示に対する名前ボキャブラリの選択されたサブセッ トは、その記憶された音声信号の表示に関連する検索された名前を含むことを特 徴とする自動電話番号案内方法。 13.請求項10の方法において: 選択され作成された名前を選択され記憶された音声信号の表示に関連づけるス テップは、計算された確率測度がもっとも高い名前を、名前の第1候補として選 択し、計算された確率測度が所定の受理基準を満たすときに限り、選択された名 前を記憶された音声信号の表示と関連づけることを特徴とする自動電話番号案内 方法。 14.請求項2の方法において: 音声認識アルゴリズムのパラメータをトレーニングアルゴリズムに従って変更 するステップは、名前ボキャブラリの名前に関連する隠れマルコフモデルのモデ ルパラメータを、上記の選択された音声信号の表示と関連する名前に応答するビ タビトレーニングアルゴリズムに従って計算することを特徴とする自動電話番号 案内方法。 15.請求項14の方法において: 音声認識アルゴリズムのパラメータをトレーニングアルゴリズムに従って変更 するステップは、さらに、確率モデルに対するモデルパラメータを計算し、確率 モデルは、音声認識アルゴリズムによる名前ボキャブラリの名前の認識が正しく 行われる確率を、記憶された音声信号の表示と隠れマルコフモデルにより作成さ れた受理基準パラメータの関数として推定することを特徴とする自動電話番号案 内方法。 16.請求項15の方法において: 音声認識アルゴリズムのパラメータをトレーニングアルゴリズムに従って変更 するステップは、さらに 複数の閾値候補に対して誤った認識の統計を累積し;さらに、 音声認識アルゴリズムの受理基準に対して、誤った認識の所定最大レートより 小さい誤り認識レートを有する閾値候補を、閾値として選択することを特徴とす る自動電話番号案内方法。 17.請求項16の方法は:さらに 名前ボキャブラリの各名前表示に対する誤り認識の統計を累積し;および、 誤った認識の所定最大レートより大きい誤り認識レートを有する名前表示に、 偽(デコイ)のラベルを付すステップを有することを特徴とする自動電話番号案 内方法。 18.請求項1の方法において: トレーニングアルゴリズムに従って音声認識アルゴリズムのパラメータを変更 するステップは、さらに、 アプリオリ確率モデルに対してモデルパラメータを計算し、このアプリオリ確 率モデルは、名前ボキャブラリの利用者の特定の名前の確率を、利用者の電話番 号の関数と推定することを特徴とする自動電話番号案内方法。 19.請求項18の方法において: モデルパラメータを計算するステップは、アプリオリ確率モデルに対してモデ ルパラメータを計算し、そのアプリオリ確率モデルは、名前ボキャブラリの利用 者の特定の名前の確率を、利用者の電話番号のNPA−NXX部分の関数と推定 することを特徴とする自動電話番号案内方法。 20.請求項18の方法において: モデルパラメータを計算するステップは、アプリオリ確率モデルに対してモデ ルパラメータを計算し、そのアプリオリ確率モデルは、名前ボキャブラリの利用 者の特定の名前の確率を、利用者の電話番号と問い合わせ先の時刻の関数と推定 することを特徴とする自動電話番号案内方法。 21.音声信号に応答して所望の動作を行う方法は: 音声信号の表示を記憶し; 音声信号の表示に応答する音声認識アルゴリズムに従って、音声信号が行動ボ キャブラリの複数の行動の各々に対応する確率測度を計算し; 計算された確率測度に応答して、行動ボキャブラリから行動を選択して、自動 的にそれを実行し; 所望の行動を示すデータをさらに得て; 音声信号の表示と上記の他のデータに応答する音声認識アルゴリズムに従って 、音声信号が複数の行動の各々に対応する確率測度をさらに計算し; 上記のさらに計算された確率測度に応答して、記憶された音声信号の表示にラ ベルを付し;さらに、 上記のラベルを付され記憶された音声信号の表示に応答して、音声認識アルゴ リズムのモデルパラメータを計算することを特徴とする音声信号に応答して所望 の動作を行う方法。 22.請求項21の方法において: 選択された行動のいくつかは、所望の情報の選択されたアイテムを提供するこ とを特徴とする音声信号に応答して所望の動作を行う方法。 23.請求項21の方法において: 選択された行動を自動的に行うステップは、利用者に対して所望の行動を示す 音声信号をさらに提供するように誘導し;および データをさらに得るステップは、さらなる音声信号に応答する音声認識アルゴ リズムに従って、音声信号が行動ボキャブラリ中の複数の行動の各々に対応する 確率測度を計算することを特徴とする音声信号に応答して所望の動作を行う方法 。 24.請求項23の方法において: 利用者に対して音声信号をさらに提供するように誘導するステップは、さらに 、 利用者に対して、事前に分析された音声信号に応答して選択された所望の行動の 確認/否認を行うように誘導することを特徴とする音声信号に応答して所望の動 作を行う方法。 25.請求項24の方法において: 利用者に対して確認/否認を行うように誘導するステップは、事前に分析され た音声信号に応答して選択された特定の行動によって、選択的に行われることを 特徴とする音声信号に応答して所望の動作を行う方法。 26.請求項21の方法において: 所望の行動を示すデータをさらに得るステップは、事前に分析された音声信号 に応答してオペレータが行う選択された特定の行動の否認をモニタすることを特 徴とする音声信号に応答して所望の動作を行う方法。 27.請求項26の方法において: オペレータが行う否認をモニタするステップは、事前に分析された音声信号に 応答して選択された特定の行動を、手動で取り消す(オーバー・ライド)のをモ ニタすることを特徴とする音声信号に応答して所望の動作を行う方法。 28.請求項26の方法において: オペレータが行う否認をモニタするステップは、 さらに音声信号を受信して、音声認識アルゴリズムに従って、さらに得られた 音声信号が、事前に分析された音声信号に応答して、選択された特定の行動の否 認に対応する確率測度を計算することを含むことを特徴とする音声信号に応答し て所望の動作を行う方法。 29.請求項21の方法において: 音声信号の表示と他のデータに応答する音声認識アルゴリズムに従って計算を 行うステップは、音声信号の表示に応答する音声認識アルゴリズムに従って、音 声信号が音声信号が限定された行動ボキャブラリの複数の行動の各々に対応する 確率測度を計算し、上記の限定行動ボキャブラリは、さらに得られたデータに応 答して選択された行動ボキャブラリのサブセットであることを特徴とする音声信 号に応答して所望の動作を行う方法。 30.請求項21の方法は:さらに、 計算された音声認識モデルパラメータを、音声認識アルゴリズムを後に適用す る際に使用することを特徴とする音声信号に応答して所望の動作を行う方法。 31.請求項21の方法は:さらに、 所望の行動を示す音声信号に対して、利用者を誘導する初期ステップを含むこ とを特徴とする音声信号に応答して所望の動作を行う方法。 32.電話番号案内を少なくとも部分的に自動化する装置において: 少なくとも部分的に電話番号案内呼を処理し、所望の電話番号に関連する名前 を利用者が発声するように誘導し、この誘導に応答して利用者から受信した音声 信号の表示を問い合わせ記録に記憶し、さらに電話番号案内データベースより得 られ検索された電話番号を問い合わせ記録に記録して、記憶された音声信号の各 々の表示と検索された電話番号とを関連づけるオンラインプロセッサと、 オンラインプロセッサによって生成された問い合わせ記録を処理し、問い合わ せ記録に記憶され検索された電話番号に応答して音声認識アルゴリズムのパラメ ータを変更するように動作するオフラインプロセッサとを含むことを特徴とする 自動電話番号案内装置。 33.請求項32の装置において: オフラインプロセッサは、 名前/番号データベースを検索して、検索された各電話番号から、それに対応 する名前を少なくとも一つ派生し; 音声認識アルゴリズムを実行して、選択され作成された上記名前を選択され記 憶されている音声信号の表示と関連させ;さらに、 選択された音声信号の表示とそれに関連する名前に応答するトレーニングアル ゴリズムを実行して、音声認識アルゴリズムのパラメータを変更することを特徴 とする自動電話番号案内装置。 34.請求項33の装置において: オンラインプロセッサは、音声認識アルゴリズムを実行し、利用者から受信し た音声信号が名前ボキャブラリ中の複数の名前の各々に対応する確率測度を計算 し;さらに オフラインプロセッサは、トレーニングアルゴリズムに従って変更された音声 認識アルゴリズムのパラメータを、オンラインプロセッサがアクセスするメモリ にダウンロードするように動作することを特徴とする自動電話番号案内装置。 35.請求項34の装置において: オンラインプロセッサは、計算された確率測度がもっとも高い名前に対応する 複数の索引を、各問い合わせ記録に記憶するように動作し;さらに、 オフラインプロセッサは、この名前の索引を使用して、音声認識アルゴリズム を実行し、選択され作成された名前と選択された音声信号の表示とを関連づける ように動作することを特徴とする自動電話番号案内装置。 36.請求項33の装置において: オンラインプロセッサは、認識された名前に対応する索引を電話番号案内デー タベースに送出し、少なくとも部分的には電話番号案内データベースの検索を自 動化するように動作することを特徴とする自動電話番号案内装置。 37.請求項36の装置において: オンラインプロセッサは、電話番号案内データベースから送られてきた検索さ れた名前を受信し、それを各問い合わせ記録に記録するように動作し;さらに、 オフラインプロセッサは、上記の検索された名前を、検索された電話番号から 作成された名前に加えることによって、音声認識アルゴリズムを実行して、選択 され作成された名前と選択された音声信号の表示とを関連づけるように動作する ことを特徴とする自動電話番号案内装置。 38.請求項32の装置において: オンラインプロセッサは、各問い合わせ記録に問い合わせ先の時刻を記憶する ように動作し;さらに、 オフラインプロセッサは、問い合わせ記録に記憶された問い合わせ時刻に応答 して音声認識アルゴリズムのパラメータを変更するように動作することを特徴と する自動電話番号案内装置。 39.請求項32の装置は:さらに、 オンラインプログラム、問い合わせ記録およびオンライン音声認識モデルパラ メータを記憶し、その問い合わせ記録は読み出しアクセス可能であり、オンライ ン音声認識モデルパラメータがオフラインプロセッサによって書き込み可能であ るようなオンラインメモリと; オフラインプログラム、トレーニング記録、名前/番号データベースおよびオ フライン音声認識モデルパラメータを記憶するオフラインメモリとを含むことを 特徴とする自動電話番号案内装置。 40.請求項39の装置は:さらに、 オンラインプロセッサを交換電話網のスイッチにインタフェースするスイッチ インタフェースと; オンラインプロセッサを電話番号案内データベースにインタフェースする電話 番号案内データベースインタフェースとを含むことを特徴とする自動電話番号案 内装置。 41.請求項40の装置は:さらに、 スイッチインタフェースを介してオンラインプロセッサに接続された交換電話 網のスイッチと; 電話番号案内データベースインタフェースを介してオンラインプロセッサに接 続される電話番号案内データベースと; スイッチインタフェースとスイッチを介してオンラインプロセッサに接続され 、前記スイッチを介して電話番号案内データベースに接続されるオペレータ台コ ントローラと; オペレータ台コントローラに接続された少なくとも一つのオペレータ台とを含 むことを特徴とする自動電話番号案内装置。 42.請求項41の装置は:さらに、 電話番号案内データベースとスイッチに接続され、電話番号案内の利用者に電 話番号記載事項の検索された電話番号を音声で知らせる音声応答ユニットを含む ことを特徴とする自動電話番号案内装置。 43.請求項39の装置は: 操作可能なようにオフラインプロセッサに接続される複数のオンラインプロセ ッサを含み、各オンラインプロセッサは関連するオンラインメモリを有すること を特徴とする自動電話番号案内装置。
JP7526586A 1994-04-14 1994-06-17 自動電話番号案内方法および装置 Pending JPH09505710A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/227,830 US5488652A (en) 1994-04-14 1994-04-14 Method and apparatus for training speech recognition algorithms for directory assistance applications
US08/227,830 1994-04-14
PCT/CA1994/000336 WO1995028790A1 (en) 1994-04-14 1994-06-17 Methods and apparatus for automating telephone directory assistance functions

Publications (1)

Publication Number Publication Date
JPH09505710A true JPH09505710A (ja) 1997-06-03

Family

ID=22854640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7526586A Pending JPH09505710A (ja) 1994-04-14 1994-06-17 自動電話番号案内方法および装置

Country Status (6)

Country Link
US (2) US5488652A (ja)
EP (1) EP0757868B1 (ja)
JP (1) JPH09505710A (ja)
CA (1) CA2185356C (ja)
DE (1) DE69420865T2 (ja)
WO (1) WO1995028790A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009505139A (ja) * 2005-08-09 2009-02-05 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム

Families Citing this family (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385312B1 (en) * 1993-02-22 2002-05-07 Murex Securities, Ltd. Automatic routing and information system for telephonic services
CA2372671C (en) * 1994-10-25 2007-01-02 British Telecommunications Public Limited Company Voice-operated services
NZ294659A (en) * 1994-11-01 1999-01-28 British Telecomm Method of and apparatus for generating a vocabulary from an input speech signal
CA2209948C (en) * 1995-11-17 2000-12-26 At&T Corp. Automatic vocabulary generation for telecommunications network-based voice-dialing
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
CA2193275A1 (en) * 1995-12-26 1997-06-27 At&T Corp. System and method for voice dialing
US5940476A (en) 1996-06-28 1999-08-17 Distributed Software Development, Inc. System and method for identifying an unidentified caller
US5802149A (en) * 1996-04-05 1998-09-01 Lucent Technologies Inc. On-line training of an automated-dialing directory
US5901214A (en) 1996-06-10 1999-05-04 Murex Securities, Ltd. One number intelligent call processing system
US6314411B1 (en) 1996-06-11 2001-11-06 Pegasus Micro-Technologies, Inc. Artificially intelligent natural language computational interface system for interfacing a human to a data processor having human-like responses
US5835570A (en) * 1996-06-26 1998-11-10 At&T Corp Voice-directed telephone directory with voice access to directory assistance
US6205204B1 (en) * 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US7006605B1 (en) 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US5901203A (en) 1996-06-28 1999-05-04 Distributed Software Development, Inc. Computer-based system and method for identifying an unidentified caller
US6529881B2 (en) 1996-06-28 2003-03-04 Distributed Software Development, Inc. System and method for identifying an unidentified customer at the point of sale
US6018568A (en) * 1996-09-25 2000-01-25 At&T Corp. Voice dialing system
GB9620082D0 (en) 1996-09-26 1996-11-13 Eyretel Ltd Signal monitoring apparatus
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US5905789A (en) * 1996-10-07 1999-05-18 Northern Telecom Limited Call-forwarding system using adaptive model of user behavior
US5987414A (en) * 1996-10-31 1999-11-16 Nortel Networks Corporation Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US5999611A (en) * 1996-11-19 1999-12-07 Stentor Resource Centre Inc. Subscriber interface for accessing and operating personal communication services
US5940493A (en) * 1996-11-26 1999-08-17 Bellsouth Corporation System and method for providing directory assistance information
US5839107A (en) * 1996-11-29 1998-11-17 Northern Telecom Limited Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing
US6208713B1 (en) 1996-12-05 2001-03-27 Nortel Networks Limited Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory
US5987408A (en) * 1996-12-16 1999-11-16 Nortel Networks Corporation Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US6456709B1 (en) * 1997-03-13 2002-09-24 Metro One Telecommunications, Inc. Method and apparatus for monitoring telephonic members and providing directory assistance
US6236715B1 (en) 1997-04-15 2001-05-22 Nortel Networks Corporation Method and apparatus for using the control channel in telecommunications systems for voice dialing
GB2325112B (en) * 1997-05-06 2002-07-31 Ibm Voice processing system
US6163596A (en) * 1997-05-23 2000-12-19 Hotas Holdings Ltd. Phonebook
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US6122361A (en) * 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6404876B1 (en) * 1997-09-25 2002-06-11 Gte Intelligent Network Services Incorporated System and method for voice activated dialing and routing under open access network control
US6253173B1 (en) 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US6195634B1 (en) * 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
US6052439A (en) * 1997-12-31 2000-04-18 At&T Corp Network server platform telephone directory white-yellow page services
US6483896B1 (en) * 1998-02-05 2002-11-19 At&T Corp. Speech recognition using telephone call parameters
DE19814325B4 (de) * 1998-03-31 2006-05-18 Deutsche Telekom Ag Anrufweiterschaltung
US6289084B1 (en) * 1998-05-29 2001-09-11 Lucent Technologies Inc. Apparatus, method and system for personal telecommunication call screening and alerting
US6404877B1 (en) * 1998-06-02 2002-06-11 At&T Corp. Automated toll-free telecommunications information service and apparatus
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes
US6208964B1 (en) 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US6148285A (en) * 1998-10-30 2000-11-14 Nortel Networks Corporation Allophonic text-to-speech generator
DE69939151D1 (de) * 1999-01-20 2008-09-04 Sony Deutschland Gmbh Sprecheradaption für verwechselbare Wörter
US6243684B1 (en) * 1999-02-19 2001-06-05 Usada, Inc. Directory assistance system and method utilizing a speech recognition system and a live operator
US6643622B2 (en) * 1999-02-19 2003-11-04 Robert O. Stuart Data retrieval assistance system and method utilizing a speech recognition system and a live operator
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6594352B1 (en) 1999-05-14 2003-07-15 Operator Service Method and system for automatically providing a customer billing identifier for a directory assistance extension call to a switch in a public telephone network
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
AU2001239880A1 (en) * 2000-02-25 2001-09-03 Pulsar Communications, Inc. Apparatus and method for providing enhanced telecommunications services
US6999563B1 (en) * 2000-08-21 2006-02-14 Volt Delta Resources, Llc Enhanced directory assistance automation
CA2420679C (en) 2000-09-01 2010-11-09 Eliza Corporation Speech recognition method and system to determine the status of an outbound telephone call
DE10050808C2 (de) * 2000-10-13 2002-12-19 Voicecom Ag Sprachgeführte Gerätesteuerung mit Benutzeroptimierung
CA2425844A1 (en) * 2000-10-16 2002-04-25 Eliza Corporation Method of and system for providing adaptive respondent training in a speech recognition application
DE10060654C1 (de) * 2000-12-06 2002-06-20 Varetis Ag Verfahren und Vorrichtung zur automatischen Auskunfterteilung mittels einer Suchmaschine
US20020077833A1 (en) * 2000-12-20 2002-06-20 Arons Barry M. Transcription and reporting system
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
WO2002086863A1 (en) * 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Speech recognition
US20020164978A1 (en) * 2001-05-01 2002-11-07 Moskowitz Paul Andrew System and method for making telecommunication calls
US7020608B2 (en) 2001-06-21 2006-03-28 Delphi Technologies, Inc. Speech recognition handling with synthesized manual input events
US6671670B2 (en) 2001-06-27 2003-12-30 Telelogue, Inc. System and method for pre-processing information used by an automated attendant
US20030081756A1 (en) * 2001-10-23 2003-05-01 Chan Norman C. Multi-detector call classifier
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7346507B1 (en) * 2002-06-05 2008-03-18 Bbn Technologies Corp. Method and apparatus for training an automated speech recognition-based system
EP1377000B1 (en) * 2002-06-11 2009-04-22 Swisscom (Schweiz) AG Method used in a speech-enabled automatic directory system
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US6931105B2 (en) * 2002-08-19 2005-08-16 International Business Machines Corporation Correlating call data and speech recognition information in a telephony application
JP3667332B2 (ja) * 2002-11-21 2005-07-06 松下電器産業株式会社 標準モデル作成装置及び標準モデル作成方法
US7299180B2 (en) * 2002-12-10 2007-11-20 International Business Machines Corporation Name entity extraction using language models
US20040186819A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Telephone directory information retrieval system and method
US7542907B2 (en) 2003-12-19 2009-06-02 International Business Machines Corporation Biasing a speech recognizer based on prompt context
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US8130929B2 (en) 2004-05-25 2012-03-06 Galileo Processing, Inc. Methods for obtaining complex data in an interactive voice response system
US20060062370A1 (en) * 2004-09-22 2006-03-23 International Business Machines Corporation Integrated call completion based upon call transfer rules
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US20070027842A1 (en) * 2005-07-27 2007-02-01 Sbc Knowledge Ventures L.P. Information-paging delivery
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
US20070127439A1 (en) * 2005-12-02 2007-06-07 Stein Robert C Method and apparatus for enabling voice dialing of a packet-switched telephony connection
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8009819B2 (en) * 2007-03-26 2011-08-30 Nuance Communications, Inc. Semi-supervised training of destination map for call handling applications
AU2008246099A1 (en) 2007-04-27 2008-11-06 Grape Technology Group Inc. System and method for generating and utilizing organically grown content in a directory assistance environment
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8606575B1 (en) * 2011-09-06 2013-12-10 West Corporation Method and apparatus of providing semi-automated classifier adaptation for natural language processing
WO2013163494A1 (en) * 2012-04-27 2013-10-31 Interactive Itelligence, Inc. Negative example (anti-word) based performance improvement for speech recognition
WO2014052326A2 (en) * 2012-09-25 2014-04-03 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US20150088511A1 (en) * 2013-09-24 2015-03-26 Verizon Patent And Licensing Inc. Named-entity based speech recognition
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
EP3207467A4 (en) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
JP2018518920A (ja) 2015-04-08 2018-07-12 フラクタル・アンテナ・システムズ・インコーポレイテッドFractal Antenna Systems, Inc. フラクタルプラズモン表面読み取り機アンテナ
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
CN106653010B (zh) * 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10997963B1 (en) * 2018-05-17 2021-05-04 Amazon Technologies, Inc. Voice based interaction based on context-based directives
CN110858479B (zh) * 2018-08-08 2022-04-22 Oppo广东移动通信有限公司 语音识别模型更新方法、装置、存储介质及电子设备
KR102610360B1 (ko) * 2022-12-28 2023-12-06 주식회사 포지큐브 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4164025A (en) * 1977-12-13 1979-08-07 Bell Telephone Laboratories, Incorporated Spelled word input directory information retrieval system with input word error corrective searching
US5052038A (en) * 1984-08-27 1991-09-24 Cognitronics Corporation Apparatus and method for obtaining information in a wide-area telephone system with digital data transmission between a local exchange and an information storage site
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
US4797910A (en) * 1986-05-07 1989-01-10 American Telphone And Telegraph Company, At&T Bell Laboratories Automated operator assistance calls with voice processing
US4959855A (en) * 1986-10-08 1990-09-25 At&T Bell Laboratories Directory assistance call processing and calling customer remote signal monitoring arrangements
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US4979206A (en) * 1987-07-10 1990-12-18 At&T Bell Laboratories Directory assistance systems
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
US5181237A (en) * 1990-10-12 1993-01-19 At&T Bell Laboratories Automation of telephone operator assistance calls
US5163083A (en) * 1990-10-12 1992-11-10 At&T Bell Laboratories Automation of telephone operator assistance calls
US5204894A (en) * 1990-11-09 1993-04-20 Bell Atlantic Network Services, Inc. Personal electronic directory
US5274695A (en) * 1991-01-11 1993-12-28 U.S. Sprint Communications Company Limited Partnership System for verifying the identity of a caller in a telecommunications network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009505139A (ja) * 2005-08-09 2009-02-05 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム

Also Published As

Publication number Publication date
EP0757868B1 (en) 1999-09-22
EP0757868A1 (en) 1997-02-12
CA2185356C (en) 1999-10-26
DE69420865T2 (de) 2000-01-13
US5644680A (en) 1997-07-01
CA2185356A1 (en) 1995-10-26
DE69420865D1 (de) 1999-10-28
US5488652A (en) 1996-01-30
WO1995028790A1 (en) 1995-10-26

Similar Documents

Publication Publication Date Title
JPH09505710A (ja) 自動電話番号案内方法および装置
EP0890249B1 (en) Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US20030191639A1 (en) Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
KR100383352B1 (ko) 음성작동서비스
US7933773B1 (en) Natural language understanding monitoring system for identifying a task
US7127395B1 (en) Method and system for predicting understanding errors in a task classification system
EP0592150B1 (en) Speaker verification
US9502024B2 (en) Methods, apparatus and computer programs for automatic speech recognition
US6243684B1 (en) Directory assistance system and method utilizing a speech recognition system and a live operator
Walker et al. Learning to predict problematic situations in a spoken dialogue system: experiments with how may i help you?
US6487530B1 (en) Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
CA2196815C (en) On-line training of an automated-dialing directory
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US6643622B2 (en) Data retrieval assistance system and method utilizing a speech recognition system and a live operator
US6944592B1 (en) Interactive voice response system
US5917891A (en) Voice-dialing system using adaptive model of calling behavior
US7346507B1 (en) Method and apparatus for training an automated speech recognition-based system
AU2005200320A1 (en) Recognition results postprocessor for use in voice recognition systems
EP0929962A1 (en) Voice-dialing system using model of calling behavior
US7110949B2 (en) System and method for analysis and adjustment of speech-enabled systems
US7401023B1 (en) Systems and methods for providing automated directory assistance using transcripts
EP0848371A2 (en) Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
Natarajan et al. Speech-enabled natural language call routing: BBN Call Director
KR101002165B1 (ko) 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법