JP4247929B2

JP4247929B2 - 電話における自動音声認識のための方法

Info

Publication number: JP4247929B2
Application number: JP34141796A
Authority: JP
Inventors: ボアガンガーバーグロジャー; エム．ユドコウスキー
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-12-21
Filing date: 1996-12-20
Publication date: 2009-04-02
Anticipated expiration: 2016-12-20
Also published as: JPH09186770A; EP0780829A3; US5822727A; EP0780829B1; EP0780829A2

Description

【０００１】
【発明の属する技術分野】
本発明は、自動音声認識に関するものである。より詳しくは、本発明は自動音声認識（ＡＳＲ）システムに関連した拡張電気通信サービス設備に関するものである。
【０００２】
【従来の技術】
多くの用途において、繰り返しのタスクを自動化するためにコンピュータを使用することは、タスクがより迅速に効率的に行うことができるので、有利なことである。音声認識は、音声技術の１つであり、人々が発語を使用してコンピュータと対話できるものである。音声認識は、しかしながら、異なる人々の間で音声特性とパターンの固有の変化があるために、開発中の技術である。
【０００３】
音声認識の１つの用途として電話ネットワークにおけるものがある。自動音声認識（ＡＳＲ）システムを使用することで、人々は、押しボタンコードを押したりオペレータの仲介なしに、種々の電話サービスあるいは機能を利用することができる。例えば、音声認識は、ダイヤル処理に使用することができて、電話のユーザは電話番号を思い出したり、見たり、あるいは尋ねたりする必要がなくなる。ユーザインターフェースの物理的な操作の代わりに音声を使用できる機能に故に、電気通信が進歩する際にＡＳＲ技術に対する要求が高まっている。一般的に、通信において使用されるＡＳＲシステムには２種類のもの、つまり、話者に依存するものと話者依存しないものがある。
【０００４】
話者に依存する自動音声認識システムの１つの典型例においては、話者の音声パターンに応答するために、特定の話者により「訓練された」コンピュータを使用している。この場合、訓練のプロセスは、アナログの音声入力を発生するために音（例えば、単語）を発語すること、音声入力を信号データに変換すること、音を表すテンプレートを発生すること、およびコンピュータに動作を教唆する指示のような適当な特定の応答データにインデックス付けしたテンプレートを蓄積すること、を含んでいる。
【０００５】
リアルタイムでの動作の間において、話者により話された単語はＡＳＲシステム内でデジタル化されるとともに話者の従属した音声認識テンプレートのセットと比較され、話された単語とテンプレートとの間で合致があった場合には、コンピュータにより特定の応答がなされる。話者に依存するＡＳＲシステムは、訓練プロセスを調整することができる場合、つまり、同じ個人が多くの機会にシステムにアクセスする初期段階で使用される。
【０００６】
個々の訓練が調整されない用途に対しては、一般的は話者に依存しないＡＳＲシステムが使用されている。話者に依存しないＡＳＲシステムの典型的な例では、コンピュータを、多くの異なる人々により話された単語の一部を表す、複合のテンプレートつまりクラスタを蓄積するために使用している。単語の一部であるこれらのテンプレートは同様にサブワードと称される。テンプレートは、音声特定における多くの発音と変形の広い範囲を表す、多くのデータサンプル（例えば、複数の話者により話された単語）から派生される。話者に依存しない音声認識システムは話者による特別な訓練なしに、広い範囲の人々と対話できる。
【０００７】
音声認識が採用されている１つの一般的な領域として、音声作動式の（voice-driven）電気通信サービスがある。音声作動式の電気通信サービスの１例として、上記で簡単に説明した音声ダイアル機能がある。音声ダイヤルにおいては、加入者は他の相手に対する出接続呼を、呼び出される相手を識別するキーワードを単に話すだけで開始する。例えば、加入者がＪｏｈｎｓｏｎの名前の相手を呼び出したい場合、加入者は単に「Ｊｏｈｎｓｏｎ」の単語を電話に向かって話すだけで良い。このようなケースでは、音声作動式のサービス装置は、一般的には、加入者の電話内あるいはネットワークのサービスプロバイダの場所にあり、Ｊｏｈｎｓｏｎの電話番号のために適切なダイヤル信号を発生するため、キーワードを認識するために音声認識を行う。音声ダイヤルは、ダイヤル操作を手動でする必要および電話番号を思い出す必要をなくすことができる。
【０００８】
音声ダイヤルに加えて、他の音声作動式の電気通信サービスでは、コマンドとキーワードが提案されている。コマンドは実行されるべき動作を識別し、またキーワードは実行されるコマンドに関連する相手を識別するためのものである。例えば、会議呼は、加入者が現在の電話会話に別の相手を加えあるいは会議する方法である。音声作動式の会議呼は、加入者が会議コマンドおよび加えるべき相手の名前だけを唱える必要がある。例えば、加入者が現在Ｊｏｈｎｓｏｎとの呼を維持しており、また電話呼に他の相手Ｐｅｒｅｚを加えあるいは会議したい場合を考える。音声作動式の会議呼を使用して、加入者は「会議」の口頭のコマンドを発行する。音声作動サービスは次いで、可聴のプロンプト「誰との会議」で応答し、加入者は「Ｐｅｒｅｚ」と答える。通信サービスシステムは次いで、Ｐｅｒｅｚの電話番号にダイヤルし、Ｐｅｒｅｚが応答した場合、Ｐｅｒｅｚを呼に加える。上記したようなビデオ作動式の通信サービスは市場で利用可能である。例えば、Ｍａｓｓａｃｈｕｓｅｔｔｓ、ＬｅｘｉｎｇｔｏｎのＷｉｌｄｆｉｒｅＡｓｓｏｃｉａｔｅｓのＷｉｌｄｆｉｒｅ（登録商標）Ｓｙｓｔｅｍは、このような音声作動式のサービスをいくつか提供している。
【０００９】
【発明が解決しようとする課題】
このようなシステムに関連した欠点は、このようなサービスを行うために必要な音声識別テンプレートを求めるための方法である。音声作動式のサービスは、加入者が通信する相手に対応する音声認識テンプレートの集合体へのアクセスを必要とする。このテンプレートの集合体は典型的には、各相手の名前の音声認識テンプレートを相手の電話番号に関連させたデータベースにより具体化される。よって、例えば、音声ダイヤル装置が「Ｐｅｒｅｚ」の名前を認識することにより「Ｐｅｒｅｚ」のような音声コマンドを処理し、またＰｅｒｅｚの名前を表す音声認識テンプレートに関連した電話番号を調べる。したがって、音声作動システムは、加入者によりしばしば呼される番号のリストおよび各番号に関連したいーアートあるいは名前の音声識別テンプレートを含むデータベースを維持しなければならない。
【００１０】
典型的な従来技術では、このようなデータベース情報は複雑な話者に依存する訓練工程によって加入者により提供される。特定の相手に対応するデータベースのエントリ、レコード、を確立するために、加入者は一般的には、例えば「Ｊｏｈｎｓｏｎ」や「Ｐｅｒｅｚ」のようなキーワードないし名前を、ＡＳＲシステムが音声認識テンプレート、あるいはキーワードあるいは名前に関連したサブワード転写を確立するまで発音しなければならない。このような工程は時間がかかるだけでなく、音声作動サービスが制限され、加入者がすでにデータベース内に「入力」した人だけに関してしか使用できなくなる。さらに、得られたテンプレートは話者に依存するテンプレートであり、換言すれば、加入者の音声特性に依存したテンプレートである。この結果、他の話者からの音声を認識させる場合にはエラーが起こってしまう。
【００１１】
したがって、サブワード転写および関連する電話番号のデータベースを確立するためのより便利なプロセス、より詳しくは、話者に依存しないテンプレートを使用したデータベースを確立するプロセスの必要性がある。
【００１２】
【課題を解決するための手段】
上記の課題は、音声作動サービスシステムが迅速且つ容易に音声認識テンプレートのデータベースを確立することができるために付加データを利用する、本発明の方法とシステムにより解決される。このような付加データは、多くのあるいはすべての加入者の入接続呼および出接続呼に関連した本文（テキストの）名前データ（textual name data ）を含んでいる。本文名前データは、テキスト−音声（text-to-speech）変換方法を使用して音声認識テンプレートを発生するために使用される。数字および音声認識テンプレートは次いで、相手に関するビデオ作動サービスを容易化するためにデータベース内に記録される。
【００１３】
特に、本発明の方法は、第１の入力を求めることを含んでおり、第１の入力は電気通信ネットワークのユーザのアスペクトを識別するものである。次いで、付加データベース内の第１の入力に関連した付加情報が識別され、また付加データベースから検索される。この付加情報は次いで、音声認識テンプレートを生成するために利用される。音声認識テンプレートは、その後、第２の入力を認識するために使用される。第２の入力は、話された発語を含み、また付加情報を表す情報を含んでいる。
【００１４】
例示的な実施の形態では、加入者の電話呼は、本発明の拡張された音声作動式のサービスシステムを通って経路指定される。発呼者あるいは自動ライン識別機能により提供された電話番号に基づいて、電話番号に関連した本文名前データを検索するために、システムは付加データベースにアクセスする（例えば、逆ディレクトリ検索）。本文名前データは次いで、音声認識テンプレートを発生するために、テキスト−音声システムにより処理される。音声認識テンプレートは次いで加入者の特定のデータベース内に蓄積される。加入者はその後、呼をするために音声作動コマンドを呼び出し、あるいは相手の名前に関連してコマンドを話すことで相手に関する音声作動サービスを呼び出す。サービスシステムは、加入者により話された相手の名前をデータベース情報を使用して認識するために、音声認識機を採用している。
【００１５】
上記の特徴および利点は、その特徴および利点とともに、添付図面を参照した以下の説明から当業者により明らかなものとなる。
【００１６】
【発明の実施の形態】
図１は、ネットワークサービスシステム１０、外部交換機２０、および公衆電話ネットワーク（ＰＳＴＮ）３０を含む、通信ネットワークを示したものである。ＰＳＴＮ３０は、複数の加入者セット、例えば加入者セット３２および３４にに接続されている。本発明による、拡張された音声作動サービスは、サービスプロバイダにより維持され、以下に説明する、ネットワークサービス１０を通して一般的に提供される。
【００１７】
一般的に、外部交換機２０は、１９８５年７月−８月のＡＴ＆ＴＴｅｃｈｎｉｃａｌＪｏｕｒｎａｌのＶｏｌ．６４の第１３０３−１５６４頁、１９８１年１１月のＢｅｌｌＬａｂｏｒａｔｏｒｉｅｓＲｅｃｏｒｄの第２５８頁、および１９８１年１２月のＢｅｌｌＬａｂｏｒａｔｏｒｉｅｓＲｅｃｏｒｄの第２９０頁に記載され、ＡＴＴ＆Ｔにより製造される、Ｅ５ＥＳＳ（登録商標）Ｓｗｉｔｃｈのような、分散制御、自局側デジタル交換機である。あるいは、外部交換機は、ＮｏｔｈｅｒｎＴｅｌｅｃｏｍから入手可能なモデルＤＳＭ−１００のような他のデジタル交換機の製品であっても良い。ネットワークサービスシステム１０は、データトランク２２およびアナログないし音声トランク２４を経て、外部交換機２０に接続された交換構造体１１を含んでいる。音声トランク２４は、複数のアナログ音声チャネル、例えば２５０チャネルを供給するために動作可能である。データトランク２２は外部交換機２０のデータ制御インターフェース、例えば５ＥＳＳ（登録商標）交換システムのＰＲＯＸＹインタフェースに接続されている。同様なインターフェースは、ＮｏｒｔｈｅｒｎＴｅｌｅｃｏｍのＤＭＳ−１００上にも存在している。
【００１８】
交換構造体１１は、音声トランク２４上の複数の音声チャネルに接続され、またデータトランク２２にさらに接続された、デジタル交換構造体である。交換構造体１１に加えて、ネットワークサービスシステム１０はさらに、複数、つまりＮ個のサービス回路１２₁ …１２_N および制御器１３を含んでいる。サービス回路１２₁ …１２_N は、図１の通信システムの加入者に１つまたはそれより多くの拡張サービスを提供するために動作する回路であり、また図２にさらに詳細に説明されている。制御器１３は、本実施の形態では、コンピュータを含んでおり、またネットワークサービスシステム１０の動作の全体の制御を行う。
【００１９】
交換構造体１１は、Ｎ個のサービス回路１２₁ …１２_N に対応する複数の音声ライン１４₁ …１４_N を通して接続されている。交換構造体１１、サービス回路１２₁ …１２_N のそれぞれ、および制御器１３は、データ通信の目的で、ローカルエリアネットワーク（ＬＡＮ）１５を介して接続されている。
【００２０】
図２は、図１のネットワークサービス１０において使用されるサービス回路１２₁ の一例を示したものである。サービス回路１２₁ だけを詳細に示したが、他のサービス回路１２₂ …１２_N も好ましくは同じあるいは同様な構造であり、同様に動作する。サービス回路１２₁ は、アナログラインインターフェース５１、ＡＳＲ回路５２、再生／記録回路５３、ＣＰＵ回路５４、およびＬＡＮインターフェース５５を含んでおり、これらは全てデータバス５６上でデータ通信するために相互接続されている。アナログラインインターフェース５１、ＡＳＲ回路５２および再生／記録回路５３はさらに、音声バス５７を経て、音声信号と通信するために接続されている。
【００２１】
アナログラインインターフェース５１は音声ライン１４₁ と音声バス５７との間のインターフェースとして機能する。サービス回路１２₁ 内で行われる全ての音声通信動作は、アナログラインインターフェース５１を通って外部回路と音声信号を交換する。アナログラインインターフェース５１は例えば、Ｄｉａｌｏｇｉｃから入手可能なモデルＬＳＩ１２０カードである。ＡＳＲ回路５２は、以下に説明する、音声作動通信サービスを実行するために必要な、音声認識機能を行う、自動音声認識回路である。ＡＳＲ回路５２の構造と動作は図３に関連して以下にさらに詳しく説明する。再生／記録回路５３は、予め記録されあるいは自動的に記録されたメッセージの両方を再生し、また入接続されたメッセージを記録する。再生／記録回路５３は好ましくは，Ｄｉａｌｏｇｉｃから入手可能なモデルＤ／８ｘカードである。ＬＡＮインターフェース５５は、図１のＬＡＮ１５とサービス回路１２₁ のデータバス５６との間のデータインターフェースを提供するべく動作する。ＬＡＮインターフェース５５は好ましくは、市場で入手可能なイーサネットインターフェースである。
【００２２】
ＣＰＵ回路５４はＣＰＵ、ランダムアクセスメモリのような揮発性メモリ、および１つまたはそれより多くのディスクドライブないし他の同様な記憶装置を含んでいる。ＣＰＵは好ましくはＩｎｔｅｌ８０４８６マイクロプロセッサを含むが、他のプロセッサでも使用可能である。一般的に、ＣＰＵ回路５４内のＣＰＵは、ディスクドライブ、あるいは図１の制御コンピュータ１３のいずれから揮発性メモリ内にロードされたプログラムを実行する。ＣＰＵは、本発明の拡張された、音声作動の通信サービスを提供するべく、サービス回路１２₁ を制御するために、例えば、図３Ａ、図４、および図６に関連して以下に説明された動作を含むプログラムを実行する。ＣＰＵ回路５４は、好ましくは、Ｄｉａｌｏｇｉｃから入手可能なモデルＣＡＴ１０１０ＣＰＵである。
【００２３】
図３は、図１に示した、ＡＳＲ回路５２の例示的な実施の形態の簡略化されたブロックダイヤグラムを示したものである。話者に依存しないか話者に依存する音声認識のいずれかの機能を有する、ＡＳＲシステム１１０は、システムの全体の制御をするためのＣＰＵ２０２を含んでいる。ＣＰＵ２０２は参照番号２０３により全体を示された複数のデータバスを有している。また、ランダムアクセスメモリ（ＲＡＭ）２０４、リードオンリーメモリ（ＲＯＭ９２０６、再生／記録回路５３により提供されないグリーティングやプロンプトを発行する音声発生ユニット２１８も含まれている。最後に、公知のように、書かれたテキストをサブワード転写に転写するためにテキスト−音声（ＴＴＳ）システム２１９が設けられている（ＣＰＵ２０２とＲＡＭ２０４と通信する）。
【００２４】
ＲＡＭ２０４はバス２０３によりＣＰＵ２０２に接続されており、図２の音声バス５７により提供された音声信号のような音声データを一時的に蓄積する。ＲＡＭ２０４はさらに、音声認識テンプレート、および特に、話者に依存するテンプレート２１４および話者に依存しないテンプレート２１６を一時的に記憶する。ＲＯＭ２０６は、内部データバス２０３によりＣＰＵ２０２に同様に接続され、音声認識アルゴリズム２０８およびサブワードのモデル２１０を含む、音声認識および検証データを永久的に記憶する。この例示的な実施の形態では、サブワードを基盤として音声認識アルゴリズム２０８が利用されているが、他のてきとうな音声認識の技術を用いることも可能である。
【００２５】
サブワードは、例えば単語のような、より大きい音声のセグメントを形成するために、他のユニットに結合することができる、音声の小さいユニットのセットの１つを参照する用語である。例えば、発音された「ｏｐｅｒａｔｏｒ」の音声上のセグメントは、「ａａ」、「ｐ」、「ａｘｒ」、「ｅｙ」、「ｄｘ」、および「ａｘｒ」である。サブワードのモデル２１０は、従来のオフラインのプロセスにおいて話者の発語のサンプルから派生された、音声認識分類データを使用してコンパイルされる。オフラインのプロセスの間は、言語の全てのサブワードを示すように選択された単語は、多数の訓練された話者（例えば、１０００人）により話される。発語は、発語の内容の書かれたテキストを発生する訓練された個々の人間により処理される。
【００２６】
サブワードのモデル２１０は、多数の話者により話された単語の特性の分布を表している。モデル２１０は、訓練された話者（つまり、生粋のアメリカ人、カスチール人のスペイン語会話母集団）により表される同じ話者の母集団として機能し、ＡＳＲシステムへの広範囲のアクセスのために使用することができる。
話者に依存したないテンプレート２１６は、サブワード、あるいは予期する発語あるいは熟語を示すサブワード転記のリストである。話者に依存しないテンプレート２１６は、書かれた単語または熟語の予期された発音を例証するサブワード転記を発生するため、ＴＴＳシステム２１９により書かれたテキストを処理することで生成される。一般的には、音声認識アルゴリズム２０８に利用可能な多数のテンプレートがＲＡＭメモリ２０４内に蓄積される。アルゴリズム２０８のタスクは、話された発語内のサブワードにどのテンプレートが最も近似して合致するかを選択することである。話者に依存するテンプレート２１４は、話者が、話者に依存する訓練として知られているプロセス内で単語または熟語を発語することで発生される。
【００２７】
リアルタイムでの音声認識動作の間において、発語は、サブワードのモデル２１０を使用して、音声認識アルゴリズム２０８により処理される。発語は、サブワードのリストが発生されるように、サブワードのモデル２１０と比較される。このサブワードのリストは、話者に依存しないテンプレート２１６および話者に依存するテンプレート２１４により提供されたリストと、公知の技術を使用して、合致される。音声認識アルゴリズム２０８はこの合致の結果を報告する。複雑さが変化するいくつかの公知の音声認識アルゴリズムは、サブワードのモデル２１０、話者に依存するテンプレート２１４、話者に依存しないテンプレート２１６を使用して、発語を認識するために使用される。
【００２８】
音声発生ユニット２１８は、音声を合成するために音声出力信号を発生するべく動作する。特に、音声発生ユニット２１８は、話者に依存しないテンプレート２１６の１つのようなサブワード転記を受領し、また公知の方法でこれから音声出力信号を発生するために動作する。音声出力信号は、増幅されて音声受信器に提供されたときには、サブワード転記に対応する可聴信号を生成する信号である。音声発生器ユニットは、例えば、話者に依存しないテンプレート２１６がそのために存在する相手の名前の可聴の発音を容易化するために使用される。
【００２９】
図１、図２および図３に示されたネットワークサービスシステム１０は、多くのことのなかでも特に、拡張された音声作動サービスを提供するために動作する。このようなサービスは、改良された音声ダイヤル、音声作動式の会議呼、音声作動式のメッセージ通信および他のサービスを含むものである。このようなサービスの基本的なバリエーションは、Ｗｉｌｄｆｉｒｅ（登録商標）システムのような、従来技術のシステムにおいて公知であり、採用されている。本発明は、このようなサービスを、音声認識テンプレートを入力するプロセスを簡略化することで、著しく高めるようにしたものである。本発明は、ＡＳＲシステムを訓練するための時間がかかるプロセスに加入者が係る必要をなくすものである。
【００３０】
図１、図２および図３の種々の構成要素は、大体、次のような態様で動作する。まず、加入者セット３４に関連した加入者が図１のシステム１０によって提供される音声作動式の通信サービスに加入したとする。動作の一例として、電話加入者セット３２を使用する電気通信ネットワークのユーザは電話加入者セット３４またはこの近くに位置する加入者に電話呼を発生する。加入者への呼をここで、入接続呼と称する。入接続呼はＰＳＴＮ３０を経て外部交換機２０に経路指定される。外部交換機２０は次いで、この呼をネットワークサービスシステム１０を通り、アナログライン２４を通って経路指定する。交換構造体１１は、制御コンピュータ１３の監視下、入接続呼を予め選択されたサービス回路１２_X にライン１４_X 上で切換え経路指定する。この呼は、次いで、公知のように、ライン１４_X 、交換構造体１１、音声トランク２４、交換機２０およびＰＳＴＮ３０を経て加入者セット３４に戻される。この実施の形態では、加入者からの全ての呼および加入者への全ての呼は同じサービス回路１２_X を通って経路指定される。
【００３１】
呼の工程の間、サービスユニット１２_X は、図のＣＰＵ５４の監視下で、音声ダイヤル、音声作動式の会議呼、あるいは音声作動式のメッセージ検討を含む、本発明による音声作動式の電気通信サービスを提供する。このようなサービスを容易化するために、サービス回路１２_X は外部交換機２０からの呼に関連するデータを同様に受領する。特に、交換構造体１１はこのようなデータをデータトランク２２上で交換機２０から受領する。制御コンピュータ１３の指示の下で、交換構造体１１はデータを対応するサービス回路１２_X にＬＡＮ１５を経由して経路指定する。サービス回路１２_X 内では、データはデータバス５６上でＬＡＮインターフェース５５を通って提供される。同様に、音声認識のために必要とされる音声信号および音声作動サービスを提供するために必要とされるメッセージ通信は、音声ライン１４_X からアナログラインインターフェース５１を通って、音声バス５７上で提供される。
【００３２】
ＣＰＵ回路５４のＣＰＵは図４および図５に例示されたフローダイヤグラムにしたがって動作し、拡張された音声作動サービスを提供する。特に、図４と図５は入接続呼を取り扱う際のＣＰＵの一例の動作を、また図６は加入者開始のサービスを取り扱う際のＣＰＵの一例の動作を、それぞれ示したものである。加入者開始のサービスは、電話のオフフックを行うような、加入者の動作により起動される、音声作動式のサービスである。図４、図５および図６については以下に説明する。このような動作は一例であり、当業者は本発明の原理を実行する、他の工程および動作を容易に案出できる。
【００３３】
いずれの場合でも、本発明の重要な特徴には、加入者の音声認識テンプレートのデータベースが発生され維持されることが含まれる。加入者のデータベースは、１つまたはそれより多くのレコードを含んでおり、各レコードは、図１の電話加入者セット３２に対応するユーザのような、他の電気通信ネットワークのユーザに関連している。データベースの各レコードは、特定のユーザの電話番号およびユーザの名前に対応する音声認識テンプレートを含んでいる。このようなレコードは、電話番号に名前を関連付けさせる音声作動サービスにおいて使用される。
【００３４】
本発明によれば、ＣＰＵ回路５４のＣＰＵは、このようなデータベースのレコードを、複雑な訓練工程なしに、自動的に発生する。好ましくは、ＣＰＵは、呼に関連した相手に対する従来のレコードが存在しない場合には、各入接続される電話呼あるいは出接続される電話呼に対してデータベースのレコードを自動的に発生する。図３Ａの下側は、各入接続呼および出接続呼に対応するデータベースのレコードを発生するために、上記のシステムにより実行される操作のフローダイヤグラムを示したものである。
【００３５】
まず、ステップ３５０において、ＣＰＵ回路５４のＣＰＵは接続アドレスを求める。この接続アドレス、この実施の形態においては、入接続呼あるいは出接続呼に対する電話番号である。呼が出接続の場合には、ＣＰＵは好ましくは呼ばれた相手の番号を加入者によりダイヤルあるいは話された数字から求める。上記したように、全ての加入者の入接続呼および出接続呼はサービス回路１２_X を通って経路指定される。この結果、ダイヤルされた数字は、外部交換機２０から、図１のデータトランク２２、交換構造体１１、ＬＡＮ１５、図２のＬＡＮインターフェース５５を経由して求められる。呼が入接続の場合、ＣＰＵは、好ましくは、発呼者ＩＤのようなサービスを可能とする、入接続する発呼者のライン識別（「ＩＣＬＩＤ」）として知られている交換機２０より入手可能な情報から発呼者の番号を求める。ＩＣＬＩＤ情報はまた、同じ経路で交換機２０から入手可能である。発呼者の番号がＩＣＬＩＤから求めることができない場合、発呼者はその電話番号を話すように促される。このような場合は以下に図４に関連して説明する。
【００３６】
次に、ステップ３５１において、ＣＰＵ３５１は、相手に関する情報を求めるために付加のデータベースを利用する。この実施の形態においては、ＣＰＵは、入接続する発呼者の名前、あるいは少なくとも電話番号に通常関連した人の名前に対応するテキストデータを求めるために、電話番号を使用して逆のデータベース探索を行う。このような場合、付加データベースは、ＰＳＴＮサービスプロバイダにより維持されるカスタマデータベース、あるいはＰｈｏｎｅＤｉｓｋ（登録商標）のような、複数の電話リストを含むＣＯ−ＲＯＭデータベースである。付加データベースがＰＳＴＮカスタマデータベースの場合、ＣＰＵはデータライン２２および交換機２０を通ってデータベースと通信する。
【００３７】
他の実施の形態として、交換機２０は発呼者に対応する本文名前データを直接提供する。この場合、ステップ３５０と３５１は、ＣＰＵ回路５４のＣＰＵではなくて、交換機２０あるいはＰＳＴＮ３０のいずれかの内部に位置されたＣＰＵにより実行される。
【００３８】
いずれの場合でも、ステップ３５２において、ＣＰＵはＡＳＲ回路５２３に、発呼者の名前の音声認識テンプレートを発生するように指示する。この実施の形態によれば、音声認識テンプレートは、入接続される発呼者の最初と最後の名前のサブワード転記から構成される。特に、ＣＰＵは、発呼者の名前に対応するテキストデータを図３に例示した、ＡＳＲ５２のテキスト−音声（ＴＴＳ）システム２１９に提供する。ＴＴＳ２１９は次いで、本文名前のサブワード転記を発生する。ＡＳＲ５２は、得られたサブワード転記をＣＰＵに提供する。その後、ステップ３５４において、ＣＰＵは、電話番号、名前テキストデータ、および名前サブワード転記を使用して、加入者のデータベース内にレコードを生成する。加入者データベースは次いで、ＣＰＵが例えば音声ダイヤルのようなビデオ作動サービスを行うのを補助するために使用される。
【００３９】
上記したステップは、本発明による音声作動式の電気通信サービスシステム内でのＣＰＵの一般的な動作を述べたものである。明らかなように、図３Ａに関連して上記で説明した操作は、図４、図５および図６に関して以下に説明する特別の音声作動サービスに組み込まれる。
【００４０】
図４、図５および図６は、加入者のデータベースを発生して本発明による拡張された音声作動サービスを提供する際の、ＣＰＵ回路５４のＣＰＵの動作を流れを示したものである。これらの動作は、ＣＰＵにより、図１、図２および図３に示されたネットワークサービスの他の構成要素に関連して実行される。なお、図１に関連して上記で説明されたのと同様な機能を有する拡張されたビデオ作動サービスの他の構成によって、図４、図５および図６に例示された動作を容易に実行することができる。
【００４１】
図４は、入接続呼、つまり、加入者により受領された呼に関連してＣＰＵにより行われる動作の流れを例示したものである。一般的には、各入接続呼に対して、ＣＰＵは、当該発呼者に対応するデータレコードが既に存在する場合を除き、発呼者に対応するデータレコードを生成する。このデータレコードは、テキストデータでの発呼者の名前、発呼者の名前のサブワード転記、および発呼者の電話番号を含んでいる。加えて、図２のサービス回路１２₁ の再生／記録回路５３は、後述するいつくかの状況において、発呼者からのメッセージを記録する。いずれの場合でも、ＣＰＵはレコードを加入者のデータベースの一部として生成し維持する。このようにして、拡張された音声作動サービスシステムは、従来技術いおいて必要とされた、広範囲にわたる訓練工程なしに、他の相手の名前を認識するために、「訓練される」。
【００４２】
ステップ３０２において、ＣＰＵは、入接続呼の存在を示す信号を受領する。次いで、ステップ３０４において、ＣＰＵは加入者ラインが使用中かどうか、つまり、加入者がすでに呼に関係しているかどうかを判定する。全ての加入者の呼が通常はＣＰＵにより監視されているので、ＣＰＵは加入者ラインが使用中かどうかを容易に判定できる。加入者ラインが使用中の場合、ＣＰＵはステップ３０６において、図５に関連して以下に説明する、呼待ち工程を実行する。しかしながら、加入者ラインが使用中でないと判定された場合、ＣＰＵはステップ３０８に進む。ステップ３０８では、ＣＰＵは入接続呼が加入者により応答されたかどうかを判定する。ステップ３０８において、加入者が予め判定された数の呼出信号内で呼に応答しない場合、ＣＰＵは、ステップ３１０において開始される、Ｔａｋｅ＿Ｍｅｓｓａｇｅルーチンの実行に進む。一方、加入者が予め判定された数の呼出信号内で呼に応答した場合、ＣＰＵは、呼を処理するためにステップ３３２に進む。
【００４３】
ステップ３１０でのＴａｋｅ＿Ｍｅｓｓａｇｅルーチンでは、ＣＰＵは発呼者の電話番号がＩＣＬＩＤあるいは他から入手可能かどうかを判定する。現在の時点では、このようなサービスは、入接続呼の電話番号を識別するために、特に、長距離電話呼あるいはインターラータ電話呼（interlata telephone call）に対しては必ずしも必要でない。ステップ３１０において、発呼者の電話番号が入手可能である場合、ＣＰＵはステップ３１６に直接進む。しかしながら、電話番号が入手できない場合、ＣＰＵはまず、ステップ３１４を実行し、発呼者にはその電話番号が求められる。このため、ステップ３１４において、ＣＰＵは再生／記録回路５３に、記録されたアナウンスを再生するように指示し、発呼者に電話キー、あるいは数字を話すこと電話番号を入力するように促す。発呼者が数字を話すことで番号を通知した場合、ＣＰＵは、ＡＳＲ回路５２に、番号を判定するために音声認識を行うことを指示する。いずれの場合でも、発呼者の電話番号が検索された場合には、ＣＰＵは、次いでステップ３１６に進む。
【００４４】
ステップ３１６では、ＣＰＵは、加入者が発呼者に関連した現存のデータベースを有しているかどうかを判定する。所定の時間経過後、加入者のデータは、加入者に呼を行った相手、あるいは加入者からの呼を受けた相手のような、いくつかの相手に関連するレコードを含むようになる。この結果、他の人の中で、いずれかの特定の入接続呼びに関連した番号がすでにある場合がある。したがって、ステップ３１６において、ＣＰＵは発呼者の電話暗号を現存する加入者のデータベース記録と合致させるための努力をする。
【００４５】
ステップ３１６においてＣＰＵが加入者データベースが発呼者に関連したレコードを含んでいると判定した場合、後述するようにＣＰＵはステップ３２４に直接進む。しかしながら、ＣＰＵが加入者のデータベースが入接続呼に対応する電話番号に関連したレコードを含んでいないと判定した場合、ＣＰＵはステップ３１８を実行する。ステップ３１８において、ＣＰＵは、入接続する発呼者の電話番号を使用して、発呼者に対応するデータベースレコードを自動的に発生する。好ましくは、各レコードは、次のフィールド、つまり、テキストデータでの発呼者の名前、発呼者の最初と最後の名前のサブワード転記、および発呼者の電話番号を含んでいる。ステップ３１８においてレコードが生成された場合、ＣＰＵはステップ３２４を実行する。
【００４６】
ステップ３２４において、ＣＰＵは図２の再生／記録回路５３に、発呼者からのメッセージを促し、記録するように命令する。メッセージが完了すると、ＣＰＵは次いで、ステップ３２６を実行し、記録されたメッセージが発呼者に関連したデータベース入力に論理的に関連付けされる。ＣＰＵは次いで、その呼に対する動作を終了する。
【００４７】
上記したステップの一例の手順において、Ｊｏｈｎｓｏｎが加入者に呼びを行い、その加入者が予め判定された数、例えば５回の呼出しに電話に応答しない場合を仮定として考える。ＣＰＵはＪｏｈｎｓｏｎの番号をＩＣＬＩＤ技術により求め、また加入者がＪｏｈｎｓｏｎに対するデータベース入力を既に有していると判定する。ＣＰＵは次いで、Ｊｏｈｎｓｏｎにメッセージを残すことを指示する。メッセージが一旦記録された場合、ＣＰＵはこのメッセージをＪｏｈｎｓｏｎに対するメッセージにタグを付ける、つまり論理的に関連付けさせる。記録されたメッセージをデータベース入力に関連付けさせる理由は、以下に説明するように、音声コマンドを使用してメッセージを検索できるようにするためである。
【００４８】
図４の説明に戻り、ステップ３３２で始まるステップの手順、加入者が入接続呼に加入者が応答したとき、つまりステップ３０８における応答が「ｙｅｓ」である場合に行われるものである。次のステップは、呼が継続中において入接続する発呼者に関連したデータベースのレコードを移すために必要なデータを求めるためのものである。このため、ステップ３３２において、ＣＰＵはまず、ステップ３１０において説明したのと同じ方法を採用して、発呼者の電話番号が入手可能かどうかを判定する。発呼者の電話番号が入手可能である場合には、次いで、ステップ３３４において、ＣＰＵは加入者のデータベースが発呼者に関連したレコードを含んでいるかどうかを判定する。含んでいる場合、ＣＰＵは、ステップ３４４に示し、以下に図６に関連して詳細に説明する、通常の呼処理を進める。
【００４９】
しかしながら、ステップ３３４において、加入者のデータベースが発呼者に関連したレコードを含んでいないことが判定され、次いで、ＣＰＵはステップ３３６を実行する。ステップ３３６において、ＣＰＵは、新しいデータベースのレコードを発生する。このため、ＣＰＵはステップ３５１、３５２および３５４に示された方法を使用してレコードを発生する。ステップ３３６の後、ＣＰＵは通常の呼処理を進めるためにステップ３４４に進む。
【００５０】
ステップ３３２を再度参照して、入接続される発呼者の電話番号がＩＣＬＩＤあるいは同様なサービスから容易に入手できないと判定された場合、ＣＰＵは、ＣＰＵが加入者から発呼者の名前と番号を呼が終了した後に引き出すことを示す、フラグＧｅｔ＿Ｉｎｆｏをセットする。このようにして、ＣＰＵは、入接続する発呼者から電話番号が入手できない場合でも、入接続呼に対応するデータベースのレコードを発生する。フラグがセットされた後、ＣＰＵは、通常の呼処理を進めるために、ステップ３４４を実行する。呼が終了したときには、加入者に対して名前と発呼者の番号が促され、また対応するデータベースのレコードが生成される。呼が終了した後にこのような情報を加入者に促すことを避けるために、データベースのレコードを生成することが好ましくない場合がある。このような場合には、ＣＰＵはＧｅｔ＿Ｉｎｆｏのフラグをセットせず、またデータベースのレコードを生成しない。
【００５１】
いずれの場合でも、本発明の１つの特徴にしたがって、呼が応答されたかどうかに拘らず、全部ないしほとんどの入接続呼に対する音声認識テンプレートを含むデータベースのレコードが、図４の方法によって発生される。加えて、図４の方法は、本発明の他の特徴にしたがって、応答されない呼に対するメッセージを記録する。
【００５２】
図５は、本発明による、呼待ち工程においてＣＰＵが行う動作のシーケンスを例示したものである。ステップ４０２において、ＣＰＵは入接続ラインとの通信を直接セットアップする。この時点において、入接続する発呼者は加入者のラインに接続されていない。ここで、このような動作は、サービス回路１２_X が少なくとも２つの音声ラインにアクセスすることを必要とする。入接続する発呼者と通信しながら、加入者の通常のラインを使用中とするために、１つの音声ラインは通常の加入者電話呼を受けながら、他の音声ラインはサービス回路１２_X により使用される。
【００５３】
ステップ４０２において入接続する発呼者との通信がセットアップされたならば、ＣＰＵはステップ４０４を実行する。ステップ４０４において、ＣＰＵは発呼者の番号が入手可能かどうかを判定する。ステップ３１０に関連して説明したように、ＣＰＵはＩＣＬＩＤあるいは同様なサービスを発呼者の電話番号を識別するために利用する。電話番号が入手可能な場合、ＣＰＵはステップ４１０に直接進む。しかしながら、電話番号が入手可能でない場合、ＣＰＵはまずステップ４０８を実行して、発呼者にその電話番号を求める。特に、ＣＰＵは、図４のステップ３１４に関連して上記で説明した各方法のいずれかにより番号を求める。ステップ４０８の後、ＣＰＵはステップ４１０に進む。
ステップ４１０において、ＣＰＵは加入者のデータベースが発呼者に関連したレコードを含むかどうかを判定する。含む場合には、ステップ４１４において、ＣＰＵは加入者のラインに接続し、加入者に発呼者の名前が通知される。発呼者の名前を通知するために、ＣＰＵはＡＳＲ回路５２の音声発生ユニット２１８に、発呼者に関連したデータベースのレコードからのサブワード転写を使用して音声出力信号を発生するように命令する。音声出力信号は、次いで、加入者ライン上で加入者に提供される。
【００５４】
しかしながら、ステップ４１０において、ＣＰＵが加入者のデータベースが入接続する発呼者に対応するレコードを含んでいないと判定した場合には、ＣＰＵはステップ４１２を実行する。ステップ４１２において、ＣＰＵは、入接続する発呼者の電話番号を使用して発呼者に関連したデータベースのレコードを自動的に発生する。ステップ４１２において利用されるデータベースのレコード発生方法を図８にさらに詳しく示した。レコードが一旦発生されると、ＣＰＵはステップ４１４に進み、また上記したように、加入者に入接続呼を通知し、また発呼者から検索した名前を告げる。
【００５５】
ステップ４１４において発呼者が通知された後、ステップ４１６においてＣＰＵは加入者が入接続呼に応答するかどうかを判定するために待機する。加入者は、フックスイッチを叩くか、あるいは口頭ないしキーパッドのコマンドのいずれかにより、その希望の信号をＣＰＵに送る。加入者が入接続呼に応答しないことを示した場合には、ＣＰＵは図４のステップ３２４に戻ることで発呼者からのメッセージ受けるなどの処理を進める。一方、加入者が入接続呼に応答することを選択した場合、ＣＰＵはステップ４１８において外部交換機２０に所望の接続を行うコマンドを供給する。その後、ＣＰＵは通常の呼処理機能を実行する。
【００５６】
本発明の他の長所および特徴は、加入者に著しく拡張された応答サービスを提供する機能である。上記したように、ＣＰＵにより行われるＴａｋｅ＿Ｍｅｓｓａｇｅルーチンは、加入者のデータベースのレコードの１つに各記録メッセージを関連付けする。入接続する発呼者が現存するデータベースレコードを有していない場合には、発呼者に対して１つが生成される。いずれの場合でも、本発明の方法は、メッセージを残す人のサブワード転記および電話番号を識別するデータに直接関連したメッセージを提供する。この結果、メッセージを聞いたならば、ユーザは、以下に図６に関連して説明するように、メッセージを残す人の番号をダイヤルすることをＣＰＵに指示する音声コマンドを容易に使用することができる。
【００５７】
図６は、加入者セットのオフフックを行うことで加入者がサービスを使用することを開始した時に、ＣＰＵにより実行される動作の一例のシーケンスを例示したものである。特に、加入者は一般的に、出接続電話呼を行うか、あるいはメッセージを検索することで、サービスを開始する。したがって、図６は、本発明によるメッセージ検索方法およびダイアル方法の両方を例示したものである。メッセージ通信システムに関連する図６における動作は、図４の関連して上記で説明したＴａｋｅ＿Ｍｅｓｓａｇｅに関連して動作することが望まれる。したがって、記録されたメッセージの全部ではないがほとんどが、メッセージを残した発呼者に対応する加入者データベース内のレコードに関連している。
【００５８】
ステップ５０２において、加入者がオフフックし、これによりＣＰＵを含むネットワークサービスシステム１０が起動する。次いで、ステップ５０４において、加入者が蓄積されたメッセージの検討を要求したかどうかが、ＣＰＵにより判定される。このため、ＣＰＵは、図２のＡＳＲ回路５２に、「ｍｅｓｓａｇｅｓ」あるいは「ｒｅｖｉｅｗｍｅｓｓａｇｅｓ」のようなコマンドに対する加入者ライン上での監視をするように命令する。加入者がメッセージを検討することを要求した場合、システムは、公知の可聴通知方法を使用して、加入者になんらなのメッセージを通知する。ユーザがメッセージの検討を要求しない場合、あるいはメッセージがない場合、ＣＰＵはステップ５０６に進む。ステップ５０６から開始し、ＣＰＵはダイヤル方法の性能を監視する。
【００５９】
ステップ５０６において、ＣＰＵは加入者が音声ダイヤル機能を有しているかどうかを判定する。加入者は典型的には、単に被呼者の名前を大声で話すことで音声ダイヤル動作を呼び出す。このため、ＣＰＵおよびＡＳＲ回路５２は公知の方法で、呼ばれる相手の名前の発語の表示を検出するために動作する。加入者のデータベース内の現存するサブワード転記に対応するものとして、発語が認識された場合、ＣＰＵは音声ダイヤルを行うためにステップ５１８を実行する。音声ダイヤル動作において、ＣＰＵは、認識されたサブワード転記を含むデータベースのレコードと関連した電話番号を検索する。電話番号が検索された場合、この番号がダイヤルされ、またＣＰＵは通常のセル処理をステップ５２０において実行する。このような音声ダイヤル動作は公知である。例えば、米国特許第５、３０１、２２７号の第６欄から第８欄の第５０行には、蓄積されたサブワード転記を採用して音声認識を行い、また電話番号のダイヤルを行う適当な音声ダイヤル動作が記載されている。当業者であれば、適当な音声ダイヤル動作を本発明に容易に組み込むことができる。
【００６０】
ステップ５０６において、ＣＰＵが加入者が音声ダイヤル機能を有していないと判定した場合、加入者は、通常の状況下で、他の音声コマンドを発行するか、あるいは出接続呼のために電話番号を手動でダイヤルする。したがって、ステップ５０６における回答がｎｏである場合、ＣＰＵはステップ５２２に進む。
【００６１】
ステップ５２２において、ＣＰＵは、加入者が手動で出接続呼をダイヤルしたことを判定し、次いでＣＰＵはステップ５２４に進む。ここで、加入者が音声コマンドを発行した場合、ＣＰＵはコマンドに含まれるサービスを行うためにステップ５２６に進む。例えば、加入者は「ｃｏｎｆｅｒｅｎｃｅ」のコマンドを話し、これにより音声作動の会議呼サービスが開始される。当業者には、このようなサービスを容易に実施することができる。
【００６２】
ステップ５２４を再度参照して、手動でのダイヤル操作が完了したならば、ＣＰＵは、ダイヤルされた番号と関連したデータベースのレコードが存在するかどうかを判定する。存在する場合、ＣＰＵはステップ５２０に進んで通常の呼処理動作を行う。存在しない場合、ＣＰＵはステップ５２８に進む。ステップ５２８において、ＣＰＵは、手動でダイヤルされた電話番号に対応する新しいベースレコードを発生する。このため、ＣＰＵは上記したように、図８のステップ３５１、３５２および３５４を実行する。新しいデータベースのレコードが生成されたならば、ＣＰＵはステップ５２０において通常の呼処理ルーチンを実行する。
【００６３】
上記した方法により、加入者は、すべての手動でダイヤルされた出接続呼に対する電話番号、本文名前データ、および音声認識テンプレートを自動的に発生することができる。つまり、加入者は電話番号を単にダイヤルするだけで、システムを「訓練する」ことができる。このような簡単化された訓練方法により従来のシステムに比べて大幅は改良が図られる。
【００６４】
ステップ５０４を再度参照して、ユーザがそのメッセージを要求したとＣＰＵが判定した場合、ＣＰＵはステップ５０８を実行する。ステップ５０８において、ＣＰＵはＡＳＲ回路５２に対して、再生／記録回路５３に関連してメッセージの要約を再生するように指示する。このメッセージの要約は、最後にメッセージを検討してからの、メッセージを残した相手の名前の順次的なリストを含んでいる。メッセージの要約は、例えば、「Ｊｏｈｎｓｏｎからのメッセージ、Ｐｅｒｅｚからのメッセージ、メッセージ終り」のように構成される。再生／記録回路５２はこのようなメッセージを、ＪｏｈｎｓｏｎやＰｅｒｅｚのような名前を除いて、予め記録されたシーケンスとして提供する。名前を挿入するため、ＡＳＲ回路５２は、各記録されたメッセージに論理的に関連付けされたデータベース入力に対するサブワード転記を使用して音声を発生する。
【００６５】
メッセージの要約が提供されたならば、ステップ５１０において、１つまたはそれより多くのメッセージに関して加入者からの口頭の指示が受領されたかどうかをＣＰＵは判定する。このため、ＣＰＵはＡＳＲ回路５２と関連して動作し、加入者の発語を蓄積されたコマンドあるいは名前に一致するために音声認識技術を使用して、有効な口頭のコメントが与えられたかどうかを判定する。有効な口頭のコマンドの一例として、「Ｐｅｒｅｚ」あるいは「Ｊｏｈｎｓｏｎ」のようなメッセージのヘッダにおいて識別されたいずれかの発呼者の名前、あるいは「消去」ないし「セーブ」のような他のコマンドを暗唱することが挙げられる。したがって、ステップ５１０において、「Ｐｅｒｅｚ」や「Ｊｏｈｎｓｏｎ」のような名前を識別する口頭のコマンドを受領したことをＣＰＵが判定した場合には、ＣＰＵはステップ５１２に進む。あるいは、ステップ５１０において、ＣＰＵは、メッセージサービスを維持する他のコマンドを受領したと判定した場合には、ステップ５１４に進む。最後に、ステップ５１０において、ＣＰＵは、「呼」コマンドを受領したと判定した場合、加入者に「誰からの呼？」の促し、音声ダイヤルを実行するためにステップ５０６に進む。
【００６６】
ステップ５１０において加入者の相手の名前の発語によりメッセージ検索が要求された場合、ＣＰＵはステップ５１２において加入者の発語内で認識されたサブワード転記に関連したメッセージにアクセスする。例えば、加入者が「Ｊｏｈｎｓｏｎ」と発語し、またステップ５１０で「Ｊｏｈｎｓｏｎ」が認識された場合には、ＣＰＵはＪｏｈｎｓｏｎに対するサブワード転記に関連したメッセージにアクセスする。したがって、ＣＰＵはＪｏｈｎｓｏｎからのメッセージにアクセスし再生するように再生／記録回路５３に命令する。ステップ５１２の後、ＣＰＵはステップ５１６においてユーザに次のコマンドを促す。ＣＰＵは次いで、ステップ５１０に戻り、以下の処理を行う。
【００６７】
ステップ５１０において他のコマンドが要求された場合、ステップ５１４においてＣＰＵは加入者の発語内で識別される要求されたコマンドを遂行する。このため、ＣＰＵは、与えられたコマンドに関連するより多くの情報を要求する。例えば、コマンドが「セーブ」である場合、ＣＰＵは再生／記録回路５３に対して、ユーザに「誰からのメッセージをセーブ？」を質問するように促す。このような場合、ＣＰＵは次いで、名前を認識し、また認識された名前に対応するメッセージについて要求されたコマンドを実行する。ステップ５１４の後、ＣＰＵはユーザに対して、ステップ５１６において次のコマンドを促す。ＣＰＵは次いで、ステップ５１０に戻り、その後の処理を行う。
【００６８】
ここで、上記に代えて、加入者は、ステップ５１０、５１２、５１４および５１６の間のいずれかの時点で、「呼」のような音声コマンドを発行することで音声ダイアラーを呼出すようにしても良い。この場合、ＣＰＵは次いで、音声ダイアルを行うために直ちにステップ５０６に戻る。
【００６９】
図４、図５および図６に記載した、一例の拡張された音声作動式の電気通信サービスシステムは、現存のシステムに対していくつかの改良点がある。被呼者あるいは発呼者の名前の本文データを検索し、またこれから音声認識データを発生することで、音声認識プレートの加入者のデータベースは迅速および容易に移植される。一般的には、従来技術では、このようなデータを得るために広範囲の訓練工程に依存している。各データベースのレコードが繰り返しの加入者の発語および関連した電話番号の加入者の知識を必要とすることから、これらの工程における加入者の手間が多大である。対照的に、本発明の方法と装置では、入接続呼と出接続呼の間に自動的にデータベースレコードを移植している。さらに、本発明では、上記した拡張されたメッセージ機能および呼待ち機能が提供される。
【００７０】
本発明の別の実施の形態において、サービスユニットは、加入者の呼履歴を使用して加入者のデータベースを自動的に移植するように動作する。例えば、ＣＰＵは、図１のＰＳＴＮ３０から、加入者により多く呼ばれるＮ個の電話番号を求める。ＣＰＵは次いで、音声認識テンプレートおよびＮ個の最も多く呼ばれた番号のそれぞれの電話番号を含むデータベースレコードを発生する。この別の実施の形態は、図３のステップ３５０を、加入者により最も多く呼ばれたＮ個の電話番号に対する図１のＰＳＴＮ３０への問い合わせを含むステップに置き換えることで達成される。次いで、ステップ３５１から３５４がＮ個の電話番号のそれぞれに対して繰り返される。このような実施の形態は、加入者に、音声作動サービスにより使用される即席のデータベースを提供することができる。もちろん、この実施の形態と図４、図５および図６の実施の形態を一緒に組み合わせても良い。
【００７１】
他の実施の形態では、図１と図２のサービス回路１２₁ …１２_N により実行されるサービスおよび機能が、加入者セット３２内ないしこれに近接した加入者装置により実行される。このような実施の形態は図７に関連して以下に簡単に説明する。
【００７２】
図７は、本発明による、拡張された音声作動の通信サービスを提供するように動作する、加入者セット７００を示したものである。加入者セット７００は、統合サービスデジタル通信網（「ＩＳＤＮ」）ライン７０１、ＩＳＤＮラインインターフェース７０２、ＡＳＲ回路７０３、ＣＰＵ回路７０４、音声バス７０５およびデータバス７０６を含んでいる。ＩＳＤＮラインはＩＳＤＮインターフェース７０２を、図１の外部交換機２０のような外部交換機（図示せず）に接続する。ＩＳＤＮラインは、少なくとも２つのデジタル音声信号チャネルおよびデータチャネルを提供するように動作する。音声チャネルは音声信号を通信するために好ましくは使用され、またデータチャネルは、ＩＣＬＩＤ情報および外部交換機から入手可能な他のデータのような、呼情報データを通信するために好ましくは使用される。
【００７３】
データバス７１６はＩＳＤＮインターフェース７０２、ＡＳＲ回路７０３およびＣＰＵ回路７０４の間のデータ接続を提供する。音声バス７０５は、ＡＳＲ回路７０３への音声信号通信を提供する。ＣＰＵ回路７０４は図２に関連して上記で説明したＣＰＵ回路５４と同様な回路である。同様に、ＡＳＲ回路７０３は、図２に関連して上記で説明したＡＳＲ回路５２と同様なものである。
【００７４】
動作中は、ＣＰＵ回路７０４のＣＰＵおよびＡＳＲ７０３は、図２、図３、図４、図５、図６および図８に関連して上記で説明したのと実質的に同じ態様でで動作する。この実施の形態においては、しかしながら、入接続呼および出接続呼は、本発明の目的のために図１および図２のサービス回路１２_X を通って経路指定されない。その代わりに、入接続呼はデジタルＩＳＤＮの音声チャネル上で直接加入者に供給される。また、本発明を実施するのに必要なデータ通信は、ＩＳＤＮのデータチャネル上で伝送される。例えば、図３に例示したフローダイヤグラムを実行する。ステップ３５０において、回路７０４のＣＰＵは好ましくはデータチャネル上で発呼者識別情報を受領する。ステップ３５１において、ＣＰＵ回路７０４は、外部交換機およびＩＳＤＮデータチャネルを経てＰＳＴＮから付加データベースからの情報を要求し受領する。ここで、ＩＳＤＮ音声チャネルは、本発明により容易化される上記した拡張された音声作動のサービスの一部としての、呼会議および呼待ちをサポートする。
【００７５】
このような実施の形態は、ＩＳＤＮラインを含む高性能の消費者側の設備が必要であるので、現在の時点では、あまり好ましいものではない。しかしながら、このような実施の形態が技術進歩によりコスト効率の良いものとなった場合、サービスプロバイダの宅内装置上での拡張された音声作動の通信サービスを提供することができる。
【００７６】
以上、本発明の実施の形態を説明したが、これらの実施の形態は例示的なものである。当業者であれば、本発明の原理および範囲内で他の実施の形態を容易に案出できる。例えば、上記実施の形態はＰＳＴＮを基礎とする電話システムについてのものであるが、本発明は、インターネットのような、音声（およびデータ）通信をサポートする他の通信ネットワークにも容易に適用できる。このような他のネットワークでは、電話番号の代わりに電気通信ネットワークのユーザ（あるいは入接続する発呼者）を識別するためにネットワークアドレスのような他の種類の接続アドレスが使用される。さらに、上記した方法により発生された音声認識テンプレートも同様に加入者の発語により変更され補足される。例えば、図６のステップ５０６において、加入者が相手の名前を音声ダイヤルのために話した場合、ＡＳＲ回路５２はこの発語を音声認識テンプレートを変更するために使用し、あるいは、その相手に関連する加入者のデータベースレコード内の、話者に依存する音声認識テンプレートに単に追加する。このような点は当業者には容易に実施できる。
【００７７】
さらに、電気通信ネットワークのユーザを識別するために接続アドレスを使用することは、一例にすぎない。他の実施の形態においては、ユーザのクレジットカード番号、あるいは自宅の住所を電気通信ネットワークのユーザを識別するために使用することもできる。このようなシステムでは、本発明によるシステムに音声認識テンプレートを改良させるために、付加のデータベースがクレジットカード番号あるいは自宅の住所をネットワークのユーザに関連する本文情報に相互関連付けする。実際には、ユーザの名前を表す本文を結合するデータベースがある限り、電気通信ネットワークのユーザを識別するあらゆる入力を使用することができる。
【図面の簡単な説明】
【図１】ネットワークサービスシステム、外部交換器、公衆電話交換ネットワークを含む、通信ネットワークを例示した説明図。
【図２】本発明によるビデオ作動式の電気通信サービスを提供する例示的なサービス回路を例示した説明図。
【図３】図２のサービス回路の一部を構成するＡＳＲ回路の例示的な実施の形態のダイヤグラムである。
【図４】入接続呼に関連して本発明においてＣＰＵの動作により実行される動作の不ローの説明図である。
【図５】呼待の場合で、本発明において動作するＣＰＵの動作の例示的な手順を例示した説明図。
【図６】本発明において加入者により生じたサービス回路の軌道によりＣＰＵによって行われる動作の例示的なシーケンスの説明図。
【図７】本発明により、拡張された音声作動通信サービスを提供するために動作可能な加入者のセットを例示した説明図。
【図８】本発明により各入接続あるいは出接続に対応するデータベースレコードを発生するために、図２のサービス回路のＣＰＵにより実行される機能のフローダイヤグラムである。
【符号の説明】
１０ネットワークサービスシステム
２０外部交換機
２２データトランク
２４音声トランク
３０公衆電話ネットワーク（ＰＳＴＮ）

Claims

自動音声認識（ＡＳＲ）システムを含むシステムにおいて、ＡＳＲシステムの能力を拡張するために付加データベースに記憶された情報を利用する方法であって、
（ａ）電気通信ネットワークのユーザに関する接続アドレスからなる第１の入力を取得するステップ、
（ｂ）付加データベース内に蓄積された、第１の入力に関連したテキストの情報からなる付加情報を識別し検索するステップ、
（ｃ）該付加データベースから検索された追加情報から導出された音声認識テンプレートを作成し記憶するステップ、および
（ｄ）第２の入力を認識するために、該記憶された音声認識テンプレートを使用するステップであって、該第２の入力は発語を構成するとともに該付加情報に含まれる情報を含んでいるステップ
からなる方法。
請求項１記載の方法において、ステップ（ａ）が更に、該電気通信ネットワークのユーザからの入接続呼に対応する公衆電話交換ネットワーク設備からの入接続呼の発呼者のライン識別情報を取得することからなる方法。
請求項１記載の方法において、ステップ（ａ）が更に、該電気通信ネットワークのユーザへの出接続呼におけるダイヤルされた電話番号を取得することからなる方法。
請求項１記載の方法において、ステップ（ａ）が更に、該第１の入力を生成するために発語を取得するとともに該発語を認識することからなる方法。
請求項１記載の方法において、該付加情報がテキストの情報からなり、更に、ステップ（ｃ）が該付加情報のサブワード転写を生成するためにテキスト−音声変換システムを使用するステップからなり、該サブワード転写は単語の一部のテンプレートである方法。
請求項１記載の方法であって、さらに、加入者のデータベースのための記録を生成するステップからなり、該記録は該第１の入力及び該音声認識テンプレートを含む方法。
請求項１記載の方法であって、さらに、（ｅ）該第２の入力を認識した後に該電気通信ネットワークのユーザを含めた通信サービスを行うステップからなる方法。
請求項７記載の方法において、ステップ（ｅ）が更に、該電気通信ネットワークのユーザにより生成された記録メッセージを検索することからなる方法。
請求項７記載の方法において、ステップ（ｅ）が更に、該電気通信ネットワークのユーザに関連した電話番号に自動的にダイヤルすることからなる方法。
電話ネットワークにおいて、ＡＳＲシステムの能力を拡張するために付加（追加）データベースに記憶された情報を利用する方法であって、
（ａ）発呼者からの入接続呼を受信するステップ、
（ｂ）該発呼者から電話番号を取得するステップ、
（ｃ）該電話番号をインデックスとして使用して付加データ内に蓄積された付加情報を検索するステップであって、該付加情報はテキストのデータであるステップ、
（ｄ）該付加データベースから検索された該テキストのデータに対応する音声認識テンプレートを生成するステップ、および
（ｅ）該音声認識テンプレートおよび該取得された電話番号を蓄積するステップ、及び
（ｆ）音声認識アルゴリズムおよび該音声認識テンプレートを使用して、前記テキストのデータ内にある情報に対応する第２の発語を認識するステップ
からなる方法。
請求項１０記載の方法において、ステップ（ｄ）が更に、該付加情報のサブワード転写を生成するためにテキスト−音声変換システムを使用するステップからなり、前記サブワード転写は単語の一部である該音声認識テンプレートからなる方法。
電気通信ネットワークに関して使用される音声作動サービスシステムであって、
（ａ）発語を１つ以上の音声認識テンプレートと比較することにより発語を認識するように動作する自動音声認識回路であって、テキスト−音声変換システムを含む自動音声認識回路、
（ｂ）該自動音声認識回路に接続され、被呼者の接続アドレスを識別する第１の入力を取得するように動作するコンピュータ処理ユニットであって、さらに該第１の入力に関連した第１のデータベースからのテキストの情報を検索するように動作可能であるコンピュータ処理ユニット
からなり、
該テキスト−音声変換システムが該テキストの情報から音声認識テンプレートを生成するように動作する音声作動サービスシステム。
請求項１２記載の音声作動サービスシステムにおいて、該自動音声認識回路が更に第２の入力を認識するように動作可能であり、前記第２の入力が該テキストの情報を表す情報を含む発語からなる音声作動サービスシステム。
請求項１２記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に該第１の入力を検索するように動作可能であり、該第１の入力が該電気通信ネットワークのユーザに関連した接続アドレスからなる音声作動サービスシステム。
請求項１４記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に該第１の入力を検索するように動作可能であり、該第１の入力が該電気通信ネットワークのユーザに関連した電話番号を含む接続アドレスからなる音声作動サービスシステム。
請求項１５記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に該第１のデータベースから該テキストの情報を検索するように動作可能であり、該第１のデータベースがテキストの名前情報を複数の該電気通信ネットワークのユーザに対する電話番号情報と関連させる情報を含んでいる音声作動サービスシステム。
請求項１２記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に、該テキストの情報および該音声認識テンプレートからなる加入者データベースレコードを生成するように動作可能である音声作動サービスシステム。
請求項１７記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に、該加入者データベースレコードを使用した音声ダイヤルを含む複数の音声作動サービスを行うように動作可能である音声作動サービスシステム。
請求項１２記載の音声作動サービスシステムにおいて、前記自動音声認識回路が更に音声発生器からなり、前記音声発生器は該テキストの情報を表す音声出力信号を生成するように動作可能である音声作動サービスシステム。
請求項１９記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に、加入者ラインが電話呼を維持しているときに該音声発生器が該テキストの情報を表す音声出力信号を加入者に提供させるように動作可能である音声作動サービスシステム。
電気通信ネットワークに関して使用される音声作動サービスシステムであって、
（ａ）コンピュータ処理ユニットにより実行されるプログラムを含むメモリ、並びに
（ｂ）該メモリにその内部のプログラムを実行するように動作可能に接続され、該メモリ内のプログラムを、
電気通信ネットワークのユーザの接続アドレスを識別する第１の入力を取得し、
該第１の入力に関連したテキストの情報からなる付加データを検索し、
自動音声認識回路に該付加データから音声認識テンプレートを生成することを命令し、および
該自動音声認識回路に該音声認識テンプレートを使用して発語からなる第２の入力を認識することを命令する
ために実行する中央処理ユニット（ＣＰＵ）
からなる音声作動サービスシステム。
請求項２１記載の音声作動サービスシステムであって、さらに、該付加データから音声認識テンプレートを生成し、該音声認識テンプレートを使用して該第２の入力を認識するように動作可能な自動音声認識システムからなる音声作動サービスシステム。
請求項２１記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、該電気通信ネットワークのユーザの接続アドレスの形態で該第１の入力を取得するために該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
請求項２３記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、該認識された第２の入力を使用して音声ダイヤルサービスを行うために該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
請求項２３記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、該電気通信ネットワークのユーザの接続アドレスをおよび該生成された音声認識テンプレート含むデータベースレコードを生成するために該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
請求項２５記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、複数のレコードを含むデータベースを生成し維持するように動作可能であり、各レコードは、電気通信ネットワークのユーザに対応するともに、該電気通信ネットワークのユーザに関連した接続アドレスおよび該電気通信ネットワークのユーザに関連した音声認識テンプレートを含む音声作動サービスシステム。
請求項２１記載の音声作動サービスシステムであって、さらに、電気通信ネットワークおよび該ＣＰＵに動作可能に接続された再生／記録回路からなり、前記再生／記録回路は該電気通信ネットワークのユーザに記録された通知を再生するとともに該電気通信ネットワークのユーザにより話された発語を記録するように動作可能である音声作動サービスシステム。
請求項２７記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、
該電気通信ネットワークのユーザがメッセージを残しておくために指示し記録された通知を再生するように該再生／記録回路に命令し、
該電気通信ネットワークのユーザからの発語を記録するように該再生／記録回路に命令し、および
該記録された発語を該音声認識テンプレートに関連付ける
ように動作可能である音声作動サービスシステム。
請求項２８記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、
該自動音声認識回路に、加入者により提供された第２の発語を該音声認識テンプレートを使用して認識させるように動作可能であり、および
該認識された第２の発語が該音声認識テンプレートに対応する場合には該電気通信ネットワークのユーザからの記録された発語を再生するように該再生／記録回路に命令するように動作可能である音声作動サービスシステム。
請求項２１記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、該電気通信ネットワークのユーザから加入者への入接続呼の間において、該第１の入力を取得するために、該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
請求項３０記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、該第１の入力を取得するために該メモリ内のプログラムを実行するよう動作可能であり、該第１の入力は該電気通信ネットワークのユーザの電話番号である音声作動サービスシステム。
請求項３１記載の音声作動サービスシステムにおいて、該ＣＰＵがさらに、外部交換器から提供されるデータを使用して該電気通信ネットワークのユーザの電話番号を取得するために、該メモリ内のプログラムを実行するよう動作可能である音声作動サービスシステム。