JP2003517158A

JP2003517158A - 分散型リアルタイム音声認識システム

Info

Publication number: JP2003517158A
Application number: JP2001537046A
Authority: JP
Inventors: エム．ベネット、イアン; ラメッシュバブ、バンディ; モルクハンディカール、キショール; グルラジ、パラキ
Original assignee: Phoenix Solutions Inc
Current assignee: Phoenix Solutions Inc
Priority date: 1999-11-12
Filing date: 2000-11-10
Publication date: 2003-05-20
Anticipated expiration: 2020-11-10
Also published as: EP1245023B1; JP4987203B2; EP1245023A1; DE60045690D1; EP1245023A4; WO2001035391A1; ATE500587T1; US6633846B1

Abstract

(57)【要約】ユーザによって発声されたクエリーを認識するために音声認識及び言語学的処理を含み、クライアント（１５０）及びサーバ（１８０）に分散されたリアルシステム（１００）が開示される。システム（１００）は、クライアント（１５０）における音声形式のユーザのクエリーを受け、発声を示す音響御晴雨ベクトルの十分な数を抽出する最小の処理である。これらのベクトルは、通信チャンネル（１６０Ａ）を介して追加の音響ベクトルが導き出されるサーバ（１８０）に送られる。ヒドンマルコフモデル（ＨＭＭｓ）とユーザによってなされた選択により条件の適当な文法と辞書を用いてユーザのクエリーを示す音声が、サーバ（１８０）において完全にテキスト（または他の適当な形式）に復号される。ユーザクエリーに対応するテキストは、最適化されたＳＱＬステートメントが、ユーザのクエリーに最も一致する幾つかの格納された質問のレコードセットに関するデータベース（１８８）から全文検索を構築する自然語エンジン（１９０）とデータベースプロセッサ（１８６）に同時に送信される。自然語エンジン（１９０）におけるさらなる処理が、単一の格納された質問にサーチが所ぼり込まれる。単一の格納された質問に対応する回答は、次にファイルパスから検索され、圧縮形式でクライアント（１５０）に送信される。クライアント（１５０）において、ユーザのクエリーに対する回答は、彼又は彼女の自然語によりテキストー音声エンジン（１５９）を用いててユーザに対して発声される。システム（１００）は、トレーニングを必要とせず、幾つかの自然語により動作する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

関連出願本発明は、同時に提出された以下の出願人関連している。１）音声式学習／教育システム、代理人ケース番号ＰＨＯ９９−００２２）対話性能を向上するための音声をサポートしたインターネットサーバ、代理
人ケース番号ＰＨＯ９９−００３３）音声による照会を処理するためのインテリジェント照会エンジン、代理人ケ
ース番号ＰＨＯ−００４上記の関連出願は、開示の一部として援用する。

【０００２】この発明は、インターネットまたは局地的イントラネット等の分散ネットワー
ク上に与えられるユーザの音声入力及び照会に応答するシステム及び対話方法に
関するものである。インターネットのワールドワイドウエブ（ＷＷＷ）サービス
上で実施された場合、この対話システムは、クライアント又はユーザが英語、仏
語、独語、スペイン語、日本語等の自然語により質問をすることが出来、彼又は
彼女の母国語による適当な回答を彼又は彼女のコンピュータまたはその周辺機器
で受け取ることができるように機能する。このシステムは、遠隔学習、電子商取
引(e-commerce)、技術的電子支援サービス(technical e-support service)、イ
ンターネット検索等に特に有用である。

【０００３】

【従来の技術】

インターネット、特にワールドワイドウエブ（ＷＷＷ）は、人気の面及び商業
的及び娯楽目的の双方での利用の面で成長をつづけており、この傾向は継続する
ものと予測される。パーソナルコンピュータシステムの使用の増加及び普及や低
価格のインターネット接続の可能になったことが、この現象の加速の一因となっ
ている。安価なインターネット接続装置及びＡＤＳＬ、ケーブルモデム、衛星モ
デム(satellite modem)等の高速アクセス技術の出現により、ＷＷＷの大量使用
がさらに加速するものと予測される。

【０００４】従って、ＷＷＷ上においてサービス、製品等を提供している多くの事業者が、
ここ数年で劇的に増加するものと予測される。しかしながら、今日まで、ユーザ
のインターネット「経験」は、ほとんどキーボードや、インテリジェント電子パ
ッド、マウス、トラックボール、プリンタ、モニタ等の非音声入力・出力に限ら
れている。これが、いろいろな意味でＷＷＷ上における対話に対する何らかのボ
トルネックとなっている。

【０００５】まず、第一に、熟練度の問題がある。多くの種類のアプリケーションが、音声
を用いる環境に、より自然で、円滑に適合しようとしている。例えば、オーディ
オ記録物を購入しようとするほとんどの人にとり、レコード店等において、その
店において見つけることが出来る特定の作者のタイトルの情報を店員に尋ねるこ
とは非常に気分の良いものである。インターネット上の項目を見つけ出すために
自分の所有する媒体上においてウエブページを閲覧し、検索することはしばしば
可能であるが、通常、最初に人間の助けを借りることは、ほとんど例外なく、よ
り容易であり、効率的である。この支援の要求は、音声による問い合わせの形で
行われる。さらに、物理的又は心理的障壁があるため、多くの人々は前述した従
来の入出力装置の何れも使用することが出来ないか、若しくは使用しない。例え
ば、多くの高齢者は、ＷＷＷページ上に存在するテキストを容易に読むことが出
来ないか、またはメニューのレイアウトや階層構造を理解できないか、若しくは
選択した項目を表示するためにうまく移動するためにマウスを操作することが出
来ない。多くの他の人々は、コンピュータシステムやＷＷＷページ等のロック状
態や複雑にたじろがされ、この理由からもオンラインサービスを利用しようとし
ない。

【０００６】従って、通常の人間の対話を模倣することが出来るアプリケーションは、オン
ラーンショッピングをしたいと考えるユーザやＷＷＷ上で情報を探したいと考え
るユーザにとって好まれる傾向がある。また、音声によるシステムの使用は、電
子商取引や電子学習（e-learning）等に参加したいと考える人々の数を増加させ
るものと考えられる。しかしながら、今日まで、このタイプの対話を可能とする
システムは無くまたは有るとしてもきわめわずかであり、また、対話が行われる
にしても、その性能は非常に限られている。例えば、ＩＢＭ（ＶｉａＶｏｉｃ
ｅ）やKurzweil（Ｄｒａｇｏｎ）により販売されている種々の商用プログラムは
、インターフェースのユーザーによるある種の制御（ファイルの開閉）や（予め
学習されたＵＲＬを用いた）検索を可能とするが、時間がかかるボイストレーニ
ングを必要とせずに、異なる文化を持つ多くのユーザによる使用を可能とする融
通の解法を提供するものではない。インターネットにおいて音声による機能を実
施するための従来の一般的な試みは、本明細書において開示の一部として援用す
るアメリカ特許第５，８１９，２２０号に見ることが出来る。

【０００７】音声を基調とするシステムの欠如による他の問題は、効率である、多くの会社
は、今日、インターネット上で技術サポートを提供しており、そのいくつかはこ
うした問い合わせに対応するために人間のオペレータによる支援を提供している
。これは、（上記のような理由により）非常に有益ではあるが、こうした問い合
わせを取り扱うために人間を雇用することを必要とするため、非常にコストがか
かるとともに非効率である。これには、実用上の制限があり、応答までに長い待
ち時間を要したり、雇用者のオーバーヘッドが高くなる。この方法の例は、本明
細書の開示の一部として援用するアメリカ特許第５，８０２，５２６号に示され
ている。一般に、ＷＷＷ上において提供されるサービスは「拡張可能」であるか
、または、換言すれば、予測されるユーザにおいて知覚される遅れや混乱が有る
としても、これが極僅かであったとしてもユーザトラヒックの増加を取り扱うこ
とが可能であるとすれば、非常に望ましい。

【０００８】同様の意味において、多くの学生にとって、遠隔学習は急激に人気が高まって
いる選択肢となっており、インストラクタにとって一度に二人以上からの質問に
答えることは実質的に不可能である。その場合にも、他のインストラクタの時間
的制約が有るために、こうした対話は、非常に限られた時間のみ行われるものと
なる。

【０００９】しかしながら、今日まで、学習セッション終了後に、またはこうした質問に対
して個人的に対応するためのインストラクタを必要とせずに、学生が人間による
質疑応答の対話を継続する実用的な方法は存在しない。

【００１０】一方、人間的な問答をエミュレートする他の態様は。口述によるフィードバッ
クを含んでいる。換言すれば、多くの人々にとって、回答や情報を音声による態
様で受けることが好ましい。この形式の機能は、ウエブサイトの訪問者との情報
交換を行うためにいくつかのウエブサイトにより採用されているが、これはリア
ルタイムの対話型の質疑応答として行われるものではなく、その有効性及び有用
性は限られている。

【００１１】音声による対話が有用なもう一つの分野は、ＹＡＨＯＯ．ｃｏｍ、ｎｚｅｔａ
ｃｒａａｌｅｒ．ｃｏｒｅ、Ｅｘｃｉｔｅ．ｃｏｍ等において利用可能なような
、ウエブサイトにおける興味のある情報を検索するためにインターネットのユー
ザによって使用される所謂「サーチ」エンジンである。これらのツールは、キー
ワードの組み合わせ又はメタカテゴリ(metacategories)を用いて検索用の設問(s
earch query)を形成して、一乃至複数の異なるウエブページに関連するテキスト
のインデックスを持つウエブページのデータベースを通して検索することを可能
とする。ユーザの要求を処理した後に、サーチエンジンは、一般にサーチエンジ
ンのよって使用されるサーチ処理ロジックの基づいてユーザの特定の質問の対し
てサーチエンジンが最も近い一致を検出したＵＲＬポインタとウエブページから
の抜粋に対応するヒット数を返送する。ウエブページのデータベースを構築する
とともに検索用の設問を解釈するメカニズムを含むこうした従来のサーチエンジ
ンの構造及び動作は、従来より周知である。今日まで、出願人が知る限り、ユー
ザからの検索入力に基づいて容易にしかも信頼性の高い情報のサーチ及び検索を
行うことが出来るサーチエンジンはない。

【００１２】こうした能力より得られる多くの利点があるにも拘わらず、上記の環境（電子
商取引、電子サポート、遠隔学習、インターネットサーチ等）において音声を基
調とするインターフェースが使用されないことには多くの理由がある。まず第一
に、音声認識装置の出力が出来得る限り正確で無くてはならないという明らかな
要求によるものである。現時点において使用される音声認識のためのより信頼性
の高い方法の一つは、ヒドンマルコフモデル(Hidden Markov Model (HMM)−全て
の時間列を算術的表現に使用されるモデルである。この技術の従来の用途は、例
えば、本明細書の一部として援用するアメリカ特許第４，５８７，６７０号に開
示されている。話し言葉は一乃至複数のシンボルの潜在的な連続を有していると
考えられるので、各シンボルに対応するＨＭＭモデルは、話し言葉の波形からの
ベクトルから学習される。ヒドンマルコフモデルは、状態の有限集合であり、各
集合は（通常、多次元の）確率分布に関連付けられる。特定の状態において、結
果又は発言(observation)は、関連する確率分布に従って発生される。この有限
状態装置は、各時間単位毎に状態を変化させ、状態ｊに入る各時点ｔにおいて、
スペクトルの変数ベクトルＯｃが確率密度Ｂｊ（Ｏｔ）で発生される。これのみ
が結果であり、外部の観察者には見える状態ではなく、従って外部に対して状態
が「隠され(hidden」ているので、ヒドンマルコフモデルと呼ばれる。ＨＭＭの
基本理論は、１９６０年代後半から１９７０年代前半においてBaum及びその同僚
によって一連の古典的文献により刊行されている。ＨＭＭは、Carnegie Mellon
においてＢａｋｅｒによって口述の用途に使用され、１９７０年代後半にＩＢＭ
においてJelenik及びその同僚によって使用され、１９９０年代にイギリスのCam
bridge UniversityにおいてSteve Young及びその同僚により使用された。いくつ
かの代表的な刊行物及びテキストは以下の通りである。

【００１３】１．L. E. Baum, T. Petrie, 「有限状態マルコフチェインに対する確率関数に
関する統計的推論(Statistical inference for probabilistic fuinctions for
finite state Markov chains)」Ann. Math. Stat: 1554-1563, 1966 2. L. E. Baum, 「マルコフプロセスの確率関数の統計的推定における不等式及
び関連する最大化技術(An inequyality and associated maximation technique
in statistical estimation fpr probabilistic functions of Markov processe
s)」Inequalities 3:18, 1972 3. J. H. Baker,「ドラゴンシステム−概要(The dragon system - An Overview"
」、IEEE Trans. on ASSP Proc., ASSP-23(1), 24-29, Feby, 1975 4. F. Jeninek et al., 「連続音声認識：統計的方法(Continuous Speech Recog
nition: Statistical method)」、Handbook of Statistics, II, P. R. Kristna
iad, Ed. Amsterdam, The Netherlands. North-Holland 1982 6. J. D. Ferguson, 「ヒドンマルコフ分析：紹介(Hidden Markov Analysis: An
Introduction)」Hidden Markov Model for Speech, Institute of Defence Ana
lyses, Princeton, NJ., 1980 7. H. R. Rabiner及びB. H. Juang,「音声認識の基本(Fundamentals of Speech
Recognition)」Prentice Hall, 1993 8. H. R. Rabiner, 「音声信号のデジタル処理(Digital Processing of Speech
Signals)」、Prentice Hall, 1978 種々の研究機関において、音声認識の用途においてニューラルネットワークに
よりＨＭＭを拡張しこれをＨＭＭに組み合わせるより最近の研究が行われている
。以下はその代表的な刊行物である。 9. Nelson Morgan, Herve Bourlard, Steve Renals, Michael Cohen及びHoracio
Franco (1993), 連続音声認識のためのニューラルネットワーク／ヒドンマル
コフモデルのハイブリッドシステム(Hybrid Neural Network/Hidden Markov Mod
el System for Continuous Spoeech Recognition)、Journa; of Pattern Recogn
ition and Artificial Intelligence, Vol. 7, No. 4, pp 899-916及び I. Guyon及びP. Wang編、Advance in Pattern Recognition System using Neutr
al Networks, Vol. 7, of Series in Machine Perception and Artificial Inte
lligence, World Scientific, Feb. 1994

【００１４】上記全ての刊行物は、本明細書の開示の一部として援用する。ＨＭＭを基調と
する音声認識により、良好な結果を得ることが出来るが、この技術の最近の変化
は、全ての予測されるユーザ及び環境状態におけるＷＷＷの用途において要求さ
れるのと同様の１００％正確で矛盾しない言語の正確な要求を保証するものでは
ない。

【００１５】従って、ここ数年音声認識技術は使用可能であり、大幅に改良されてきてはい
るが、十分に機能するように音声認識及び自然語処理の組み合わせる用途に対し
て要求される音声認識の正確さに関する仕様において、技術的要求には厳しい制
約がある。

【００１６】言語認識とは逆に、自然語処理（ＮＬＰ）は、書き写された発言や大きな言語
単位の解釈、理解及び見出し付けに関するものである。自然な音声は、どもり−
ためらい、訂正や再スタート、「うーん(well)」といった談話標識等の、一般的
な音声認識装置では取り扱うことが出来ない表面現象を含んでおり、これが問題
であり、音声認識と自然語処理技術とを分ける大きなギャップの原因となってい
る。発声の間の無音状態を除き、もう一つの問題は。言葉等の有意な単位に音声
をセグメント化するために仕様可能な句読点が存在しないことである。最適なＮ
ＬＰ性能を得るために、これらのタイプの現象は、その入力において注釈が付さ
れなければならない。しかしながら、最も連続的な音声認識システムは、生の言
語列を発声する。ＮＬＰを用いた従来のシステムの例は、アメリカ特許第４，９
９１，０９４号、第５，０６８，７８９号、５，１４６，４０５号及び５，６８
０，６２８号に示されている。これら全ては、明細書の開示の一部として援用す
る。

【００１７】第二に、非常に信頼性の高い音声認識システムのほとんどは、話者に依存し、
時間がかかるユーザによる「訓練(trained)」されたインターフェースを必要と
し、ユーザがエブサイトには数回しかアクセスしないようなＷＷＷ環境の見地で
は非常に望ましくないものである。さらに、話者に依存するシステムは、通常音
声の認識を減少させる大きなユーザ辞書（ユーザ一人に各一つの）を必要とする
。十分な応答性能（即ち、自然な会話を反映する−３〜５秒程度がおそらく理想
的と考えられる）を持つリアルタイム対話インターフェースを実施することを非
常に困難にしている。今日、代表的な市販の音声認識のためのアプリケーション
ソフトウエアには、ＩＢＭ（Via Voice)やＤｒａｇｏｎ(Dragon)から提供される
ものが含まれる。これらのアプリケーションのほとんどは、ディクテーションや
他の書き写しの用途については十分であるが、ＮＬＱＳ等の認識エラー率が０％
に近いことが要求される用途においては極めて不十分である。さらに、これらの
提供されるシステムは、長時間のトレーニング時間を必要とし、一般的には非ク
ライアント−サーバ構造である。他のタイプのトレーニングを要するシステムは
、Kurzweilに譲渡されたアメリカ特許第５，２３１，６７０号であり、これも本
明細書の開示の一部として援用する。

【００１８】もう一つの分散型音声基調のシステムが直面する重大な問題は、音声認識処理
における普遍性／制御の欠如である。音声認識システムの一般的スタンドアロン
による実施において、サーチエンジン全体が単一のクライアント上で実行される
。このタイプの周知のシステムは、本明細書の開示の一部として援用するアメリ
カ特許第４，９９１，２１７号に開示されている。これらのクライアントは種々
の音声信号処理及び通信性能を持つ種々の形態（デスクトップＰＣ、ラップトッ
プＰＣ、ＰＤＡ等）を取り得る。従って、サーバ側の見地から、こうしたユーザ
は大きく異なる音声認識及びエラー率性能を有しているので、音声による操作可
能なウエブページにアクセスする全てのユーザの処理を均一化することは容易な
ことではない。Gould et al.−アメリカ特許第５，９１５，２３６号−の従来技
術は使用可能な計算リソースの組に対する認識処理の調製の概念について一般的
に説明しているが、この従来技術には、クライアント−サーバモデルのような分
散環境においてどのようにしてリソースを最適化するの問題の解決に至っておら
ずまた解決を試みてもいない・重ねて言えば、広範囲に分散した規模でこうした
音声基調の技術を可能とするためには、最も性能の低いクライアントをもサポー
ト可能とするとともに電子商取引、電子サポート及び／又は遠隔学習を実施する
遠隔サーバと満足の行く状態での対話を可能とするために、個別のシステムの違
いを調和させ、考慮するシステムを持つことが好ましい。

【００１９】音声認識のための分散型の方法に関する二つの参考文献は、本明細書の開示の
一部として援用するアメリカ特許第５，９５６，６８３号や第５，９５６，６８
３号を含んでいる。これらの内の第一のシステム、アメリカ特許第５，９５６，
６８３号−分散型音声認識システム（Qualsommに譲渡された）において、電話基
調のハンドセットとリモートステーション間の分散型音声認識システムの実施が
開示されている。この実施において、全てのワード認識動作はハンドセットにお
いて行われているように見える。この特許は、狭帯域幅の電話チャンネルから生
じる量子化ひずみによる音響特性の劣化を制限するためにポータブル又は携帯電
話における音響特性の抽出のためにポータブル又は携帯電話にシステムを配置す
ることの利点を説明しているので、上記のように推測される。この文献は、非常
に低性能のクライアントのプラットフォームに関してどのようにして十分な性能
を得るかの問題に関するものではない。さらに、どのようにしてシステムがリア
ルタイムワード認識を行うのかを判断するのは困難であり、どのようにしてシス
テムを自然語処理システムに結合させるかに関する説得力のある説明はない。

【００２０】これらのうちの第二の参考文献−アメリカ特許第５，９５６，６８３号−クラ
ーアント／サーバ音声処理装置／認識装置（ＧＴＥに譲渡された）には、ＨＭＭ
を基調とする分散型音声認識システムの実施について説明されている。この参考
文献は、多くの点において有益ではないが、適切な場合には部分的なワード認識
処理を行う等によって種々のクライアントのプラットフォームに対してどのよう
に音響特性の抽出を最適化するかを含んでいる。より重要には、ユーザの音声の
認識のみを行い、ユーザのマシン上の専用フォームに記入するためにユーザの名
前及び旅行目的地等のある種のキーワードを返す原始的音節に基づく認識装置の
みが開示されている。また、音響パラメータのストリーミングは、無音状態を検
出後にのみ行われるので、リアルタイムに実施されているとは考えられない。最
後に、参考文献は自然語処理の使用可能性に言及している（第９欄）が、どのよ
うにしてユーザに対話感覚を与えるようにリアルタイムで実施されるかに関して
は何らの説明もなされていない。

【００２１】

【発明が解決しようとする問題点】

従って、本発明の目的は、上記の従来技術における制限を克服することが出来
る改良されたシステム及び方法を提供することにある。

【００２２】本発明の主要な目的は、広範なユーザグループに対して改良された精度、速度
及び普遍性を達成することが出来るクライアント／プラットフォーム演算アーキ
テクチャに亘って柔軟且つ最適に分散された単語及び句認識システムを提供する
ことにある。

【００２３】本発明のもう一つの目的は、如何なる数の言語においても個別の単語及び発言
全体を素早くしかも正確に認識出来るように分散ワード認識を自然語処理システ
ムに効率的に結合させる音声認識システムを提供することにある。

【００２４】本発明の関連する目的は、音声による問い合わせに応答して適切な回答の組を
非常に正確且つリアルタイムを与えることが出来る効率的な問い合わせ応答シス
テムを提供することにある。

【００２５】本発明のさらにもう一つの目的は、クライアント／サーバアーキテクチャ上に
分散された対話型リアルタイム教育／学習システムを提供することにある。

【００２６】本発明の関連する目的は、ユーザが人間的な対話を経験できるように明瞭に応
答する能力を備えた対話性を実施することにある。

【００２７】本発明のさらにもう一つの目的は、こうしたサイトとの対話に音声によるデー
タ及びコマンドを用いることが出来、容易に拡張可能な音声による電子商取引及
び電子サポートサービスを可能とするために音声認識性能を備えたインターネッ
トウエブサイトを提供することにある。

【００２８】本発明のもう一つに目的は、正確性及び速度を改良するために認識処理の一部
として環境変数を用いる分散型音声認識システムを実施することにある。

【００２９】本発明のさらにもう一つの目的は、特定のアプリケーション及び瞬間的な要求
に必要となる如何なる数の問い合わせ題目及びユーザをもサポートする拡張可能
な問い合わせ／回答データベースシステムを提供することにある。

【００３０】本発明のさらにもう一つの目的は、比較的短時間に予測される応答のリストを
より小さい候補の組に絞り込む第一のステップと、候補等から質問に応答して返
送する最良の選択を特定する演算としてより集約的な第二のステップを含む２段
階方式を採用する問い合わせ認識システムを提供することにある。

【００３１】本発明のさらにもう一つの目的は、こうした発言のために適切な予測される応
答の候補の組を迅速に特定するために成分を用いることが出来る、発言の単語成
分を抽出することによって問い合わせの認識を容易とする自然語処理システムを
提供することにある。

【００３２】本発明の関連する目的は、発言の単語成分をこうした問い合わせに対する非常
に正確な最良な応答を提供するために予測される応答の候補の組と比較すること
によって問い合わせの認識を容易とする自然語処理システムを提供することにあ
る。

【００３３】

【問題を解消するための手段】

したがって、本発明の一つの全般的特徴は自然語質問システム（ＮＬＱＳ）に
関し、これはインターネットまたは局地的イントラネット等の分散ネットワーク
上でユーザの質問に答える完全に対話型の方法を提供するものである。この対話
システムは、インターネットのワールドワイドウエブ（ＷＷＷ）サービス上で実
施された場合、クライアント又はユーザが英語、仏語、独語、スペイン語等の自
然語により質問をすることが出来るように機能し、また彼又は彼女の母国語の自
然語により適当な回答を彼又は彼女のパーソナルコンピュータで受け取るもので
ある。

【００３４】このシステムは分散され、クライアントの装置における統合ソフトウエアモジ
ュールのセットと、サーバ或いはサーバ群に存する統合ソフトウエアプログラム
の別のセットとからなる。クライアント側ソフトウエアプログラムは、音声認識
プログラム、エージェント及びその制御プログラム、及び通信プログラムとから
なる。サーバ側プログラムは、通信プログラム、自然語エンジン（ＮＬＥ）、デ
ータベース処理装置（ＤＢ処理）ＤＢ処理をＮＬＥと相互作用させるためのイン
ターフェースプログラム、及びＳＱＬデータベースとからなる。さらに、クライ
アントの装置にはマイクロフォンとスピーカーが備えられる。処理及び送信待ち
時間を最適化し、また非常に性能の低いクライアントのプラットフォームにもサ
ポートを提供するために、発言の処理はクライアントとサーバ側とで分けられる
。

【００３５】対話学習用途の状況では、システムは特に、ユーザの質問へ単一の最良回答を
与えるのに用いられる。クライアントの装置でなされる質問は、話者により明瞭
に発音され、ノートブックコンピュータの場合などは内蔵され或いは通常周辺付
属品として提供されるマイクロフォンによって捉えられる。質問が捉えられる、
質問はクライアントの装置に存するＮＬＱＳクライアント側ソフトウエアによっ
て部分的に処理される。この部分的処理の出力は一組の音声ベクトルであり、こ
れはユーザ質問の認識を完了するためにインターネットを介してサーバへと運ば
れる。この認識された音声は次にサーバでテキストへと変換される。

【００３６】サーバに置かれた音声認識エンジンによってユーザの質問がデコードされた後
、質問は構造化クエリー言語（ＳＱＬ）クエリーへと変換される。このクエリー
は次に、予備処理のためにＤＢ処理と呼ばれるサーバ内のソフトウエア処理へ、
及びユーザの質問の名詞句（ＮＰ）を抽出するために自然語エンジン（ＮＬＥ）
モジュールへと同時に与えられる。ＮＬＥ内での名詞句抽出処理の間に、ユーザ
の質問のトークンにタグが付けられる。タグ付けされたトークンは次に、ＮＰリ
ストが決定可能なようにグループ化される。この情報は記憶され、ＤＢ処理プロ
セスへと送られる。

【００３７】ＤＢ処理では、ユーザの質問から抽出されたＮＰ及び用途に合った他の環境変
数を用いてＳＱＬクエリーが完全にカスタマイズされる。例えば、訓練用途にお
いては、コース、チャプタ及び又はセクションについてのユーザの選択が環境変
数を構成する。ＳＱＬクエリーは、拡張ＳＱＬ全文述部―ＣＯＮＴＡＩＮＳ、Ｆ
ＲＥＥＴＥＸＴ、ＮＥＡＲ、ＡＮＤを用いて構成される。ＳＱＬクエリーは次に
、ＳＱＬデータベース内の全文サーチエンジンへと送られ、ここで全文検索手続
きが開始される。この検索手続きの結果は回答のレコードセットである。このレ
コードセットはユーザの質問と言語的に類似する記憶質問を含む。これらの記憶
質問のそれぞれが異なるテキストファイルに記憶された対となる回答を有し、こ
のパスがデータベースのテーブルに記憶される。

【００３８】戻された記憶回答のレコードセット全体が次に、アレ（array）の形態でＮＬ
Ｅエンジンへと戻される。そしてアレの各記憶質問は、連続して一つ一つ言語的
に処理される。この言語的処理が、ユーザの質問への単一の最良回答を決定する
ための二段階アルゴリズムの第二ステップを構成する。この第二ステップは以下
のように進行する：レコードセットに戻された各記憶質問に対して、記憶質問の
ＮＰがユーザ質問のＮＰと比較される。アレの全ての記憶質問がユーザ質問と比
較された後、ユーザ質問と最大に一致する記憶質問が、ユーザ質問と一致する最
良の記憶質問として選ばれる。最良の記憶質問の決定に用いられる基準は名詞句
の数である。

【００３９】最良記憶質問と対をなす記憶回答がユーザ質問に答えるものとして選ばれる。
そして質問のＩＤタグがＤＢ処理へと渡される。ＤＢ処理はファイルに記憶され
た質問を返す。

【００４０】通信リンクが再び確立され、圧縮形態で回答をクライアントへと送り返す。ク
ライアントにより一旦受け取られた回答は解凍され、テキスト―スピーチエンジ
ンによりユーザへとはっきりと伝えられる。このように本発明は、対話学習シス
テム、インターネット関連商取引サイト、インターネットサーチエンジンなどを
含む多くの様々な用途へと用いることができる。

【００４１】コンピュータを使った教育環境はしばしば、学生からの質問に答えるのに相談
相手あるいは生身の教師の助けを必要とする。この助けはしばしば、指定時間に
質問への回答が得られるよう、事前に決められた特別フォーラム、あるいはチャ
ットセッション又はライブでの電話参加セッションとして設けられるミーティン
グ時間の設置というやり方となる。生徒がいつどこであってもログオンし教育を
受けられるオンライン訓練の即時性及びオンデマンドな又は非同期の性質のため
、質問への回答が適時的且つ費用効果の高い方法でもたらされ、よってユーザ又
は生徒が与えられたものから最大限の利益を得ることができることが重要である
。

【００４２】本発明はこの問題を解決する。それは通常生身の教師又は相談相手に与えられ
る質問への回答をユーザ又は生徒へと与える。この発明は生徒により尋ねられた
質問に対して単一の最良な回答を与える。生徒は選択肢の中の言語で彼又は彼女
自身の声で質問を発する。分散型音声認識、全文検索データベース処理、自然語
処理、テキスト―スピーチ技術を含む多くの技術を用いて、音声は認識され、質
問への回答が見出される。回答は、生身の教師の場合同様、相談相手又は教師を
真似たエージェントにより明瞭な発音で、そして選択された言語―英語、仏語、
独語、日本語、あるいは他の自然口語で、ユーザへと与えられる。ユーザは、キ
ャラクタの声の高さ、大きさ、早さなどの幾つかの音声パラメータと同じく、エ
ージェントの性別を選ぶことができる。

【００４３】ＮＬＱＳから利益を受ける他の用途は、電子商取引用途である。この用途にお
いては、書籍やコンパクトディスクの価格について、あるいは購入されるアイテ
ムの入手可能性についてのユーザ質問が、連続するウエブページの様々なリスト
を経由して選ぶ必要なしに検索できる。代わりに、余計なユーザ入力なしに、回
答はユーザへと直接もたらされる。

【００４４】同様に、このシステムは、照会頻度の高い質問（ＦＡＱｓ）へ回答をもたらす
ことに、及び電子サポートのための診断サービスツールとして使用可能であると
考えられる。これらの質問は所定のウエブサイトにはよくあるもので、ユーザが
支払い手続き、あるいは製品／サービスの仕様や蒙った問題に関連する情報を見
つけるのを助けるために提供される。こうした用途の全てに、ＮＬＱＳアーキテ
クチャは適用可能である。

【００４５】これらのアーキテクチャと関連する多数の独創的方法もまた、様々なインター
ネット関連用途で有益に用いられる。

【００４６】本発明は以下に好ましい実施の形態の群において説明されるが、迅速且つ正確
な音声認識を実行することが必要で、及び／又は知的システムへ人間的な対話能
力を与えることが必要な多くの環境下で本発明が有益に用いられ得ることは当業
者にとって明らかであろう。

【００４７】

【発明の実施の態様】

概要上記のように、本発明は、ユーザがクライアントコンピュータシステム（単純
な個人用携帯情報端末、携帯電話、洗練されたハイエンドのデスクトップＰＣ等
）により英語、仏語、独語、スペイン語又は日本語等の自然語により質問の提起
及び彼又は彼女の母国語の自然語により遠隔サーバより適切な回答を受け取るこ
とを可能とする。従って、図１に示す発明の実施例は、電子商取引、電子サポー
ト及び電子学習の用途のために人間的な対話能力／経験を与えるためにリアルタ
イムに対話するように構成された自然語質問システム（ＮＬＱＳ）１００の概要
を説明するために有利に用いられる。

【００４８】ＮＬＱＳ１００の処理の概要を、クライアント側システム１５０，データリン
ク１６０及びサーバ側システム１８０にわたって説明する。これらの構成要素は
、従来より知られており、好適実施例においては、パーソナルコンピュータシス
テム１５０と、インターネット接続１６０Ａ、１６０Ｂ及び大規模コンピュータ
システム１８０を有している。これらが例示的な構成要素であるとともに、本発
明はこうしたシステムの特定の実施又は組み合わせにより決して制限させるもの
ではないことは、当業者に理解されることである。例えば、クライアント側シス
テム１５０はコンピュータの周辺機器や、ＰＤＡや、携帯電話の一部、インター
ネット対応機器の一部、インターネットにリンクされた公衆電話等として実施す
ることも可能である。同様に、インターネット接続はデータリンク１６０Ａとし
て示されているが、ワイヤレスリンク、ＲＦリンク、ＩＲリンク、ＬＡＮ等のク
ライアントシステム１５０とサーバシステム間のデータ転送に適した経路で十分
である。最後に、サーバシステム１８０は、単一の大規模コンピュータシステム
とするか、若しくは多数の予測されるネットワークユーザをサポートする連結さ
れたより小規模なシステム群とすることが出来る。

【００４９】まず、音声入力は、発声として、クライアントの装置や個人用補助装置(perso
nal accessory)において話者により明瞭に表現された質問や問い合わせの形で与
えられる。この発言は、捕捉され、クライアントマシンに存在するＮＬＱＳのク
ライアント側ソフトウエア１５５によって部分的に処理される。対話の人間的な
態様を容易とし、向上させるために、質問は、個人的情報検索エージェントとし
てユーザを補助するユーザが見ることが出来る動画のキャラクタ１５７の存在下
で提起される。エージェントはまたモニタ／ディスプレイ（図示せず）上の目で
見ることが出来るテキスト出力及び／又はテキスト―スピーチエンジン１５９を
用い可聴形式によりユーザと対話することが可能である。ＳＲＥ１５５によって
おこなわれる部分的処理の出力は、音声ベクトル組であり、インターネット又は
上述のようにインターネットにリンクされたワイヤレスゲートウエイを介してユ
ーザの装置又は個人用補助装置をサーバ又は複数のサーバにリンクさせる通信チ
ャンネル１６０を通じて送信される。サーバ１８０において、部分的に処理され
た音声信号データは、サーバ側ＳＲＥ１８２によって取り扱われ、ユーザの質問
に対応する認識された音声テキストが出力される。テキストに関連したユーザの
質問に基づいて、テキスト−質問変換器１８４が、データベース処理装置１８６
の入力として用いられる適当な質問を形成する。質問に基づいて、データベース
処理装置１８６は、次いで、データベース１８８からカスタマイズされたＳＱＬ
質問を用いて適切な回答を探し、検索する。自然語エンジン１９０は、データベ
ース１８８に対する質問の構成を容易とする。ユーザの質問にマシンが回答した
後、前者がデータリンク１６０Ｂを介してテキストを送信し、データリンクにお
いてテキスト−スピーチエンジン１５９によって音声に変換して、動画キャラク
タのエージェント１５７によって口語フィードバックとして表現される。

【００５０】音声処理はこの要領で分解されるので、大きな、制御可能な質問／回答の組を
構成するリアルタイムで、対話型の人間的な問答を構成することが出来る。動画
のエージェント１５７の補助により経験が向上され、初心者のユーザにとって自
然で心地よいものとする。音声認識処理をより信頼性の高いものとするために、
前後関係を特定した文法及び辞書が、自然語処理ルーチンとともに、ユーザの質
問の語彙の分析にＮＬＥ１９０において使用される。音声データの前後関係を特
定した処理は、従来より知られているが（本明細書の開示の一部として援用する
アメリカ特許第５、９６０，３９４号、５，８６７，８１７号、第５，７５８，
３２２号及び第５，３８４，８９２号を参照）、発明者等は、本発明により実施
されているような実施例を知らない。ユーザの質問のテキストは、ＢＤ処理装置
／エンジン（ＤＢＥ１８６によりユーザにより提起された質問を識別するために
他の質問のテキストと比較される。ＳＲエンジン１５５及び１８２の対話及び関
係、ＮＰＬルーチン１９０、辞書及び文法を最適化することによって、非常に高
速で正確な一致を得ることが出来、独特で応答性の高い回答をユーザに提供する
ことが出来る。

【００５１】サーバ側１８０において、交互的な処理が、音声認識処理をさらに加速する。
単純化された用語により、質問がＮＬＥ１９０に与えられ、質問が形成された後
にＤＢＥ１８６に与えられる。ＮＬＥ１９０とＳＲＥ１８２は、全認識工程にお
いて相補的な機能を行う。一般に、ＳＲＥ１８２は、主にユーザによって表現さ
れたワードの独自性を決定し、一方、ＮＬＥ１９０は、ユーザの質問とデータベ
ース問い合わせの後に戻されるサーチ結果に双方の言語形態学上の分析を行う。

【００５２】ユーザの質問がＮＬＥ１９０によって分析された後に、いくつかのパラメータ
が抽出され、ＤＢ処理に送られる。付加的な統計は処理の第二のステップのため
の配列に格納される。二段階アルゴリズムの第二のステップの間、レコードセッ
トの一次サーチの結果は、ＮＬＥ１６０の処理のために送出される。この第二の
ステップの終わりに、ユーザの質問と一致する単一の質問は、単一の格納された
質問の対をなす回答を得るための処理を行うＢＤ処理に送出される。

【００５３】従って、本発明は自然語処理（ＮＬＰ）を形成するために使用され、音声基調
のウエブアプリケーションシステムにおいて最適性能を達成する。ＮＬＰは従来
より公知であるが、自然語処理（ＮＬＰ）作業における従来の試みはともかく音
声認識（ＳＲ）技術と良好に結合されておらず、ウエブ基調のアプリケーション
環境において合理的な結果を達成する。音声認識において、結果は一般にそれぞ
れ音声認識装置に適合するある程度の蓋然性を持つ見込まれる認識されたワード
の格子である。前述のように、一般的ＮＬＰシステムに対する入力は、主として
大きな言葉の単位である。ＮＬＰシステムは大きな言葉の単位又は書き写された
発言の組を解釈し、理解し、索引付けする作業を行う。このＮＬＰ処理の結果は
、ワード認識に対向して、言葉の単位全体を言語学的または形態学的に理解する
。他の方法において、ＳＲＥにより言語単位又は連結された単語のセンテンス出
力は、「認識」されたものと対向するものとして言語学的に理解される。

【００５４】前述のように、音声認識技術はここ数年使用可能となっているが、ＮＬＱＳの
発明に対する技術的要求は、十分に機能するように音声認識と自然語処理を組み
合わせる用途において必要とされる音声認識精度を得るための仕様に関して非常
に厳しい制限を設けている。この実現において、最良の状態においても所要の完
全に１００％の音声認識精度を達成することは不可能であり、本発明は、質問中
の各ワードにおいて完全な音声認識を達成することが不可能な場合にも、ともか
く質問全体自体の認識は十分な精度が得られるように、音声認識処理の予測され
るリスクと自然語処理の要求をバランスさせるアルゴリズムを採用する。

【００５５】この認識精度は、音声による質問に応答するため及び予測される１００乃至２
５の質問に対して３乃至５秒の短い待ち時間（理想的には、変動する送信待ち時
間を無視して）という厳しいユーザの制約にさえも合致することができる。この
短い応答時間は、全体的な印象として、ユーザの見地からより自然で、好ましい
リアルタイムの対話の経験を与える。勿論、例えば翻訳サービスのような、非リ
アルタイムの用途においても、ＨＭＭ、文法、辞書等が集約して保持されるので
、この技術は有利である。

【００５６】本発明において使用される音声認識の概要音声認識の一般的な背景技術情報は、上記の、開示の一部として援用した参考
文献において見ることが出来る。にも拘わらず、ＮＬＱＳ１００に適合した音声
認識構造及び技術の具体例について、本発明の特性、質及び特徴のいくつかをよ
り良く示すために説明する。

【００５７】音声認識技術は、一般に二つのタイプ−話者非依存タイプ及び話者依存タイプ
である。話者依存タイプの音声認識技術において、各ユーザは、認識される可能
性のあるワードのサンプルを記憶したボイスファイルを有している。話者依存音
声認識システムは、一般に、ディクテーションやテキスト書き写しの用途に適し
たものとするために大きな語彙及び辞書を有している。さらに、話者依存タイプ
のシステムに関してメモリ及びプロセッサのリソースは通常大きく、集約的とな
る可能性があり、また一般的である。

【００５８】逆に、非話者依存タイプの音声認識技術は、単一の語彙ファイルの多くのユー
ザのグループによる使用を可能とする。達成される精度は、与えられた言語に関
してサポート可能な文法及び辞書の大きさ及び複雑さによって変化する。ＮＬＱ
Ｓに使用する場合、小さい文法及び辞書の使用によりＮＬＱＳにおいて非話者依
存タイプの音声認識技術の実施が可能となる。

【００５９】非話者依存タイプ及び話者依存タイプのいずれのタイプにおいても重要な問題
又は要求される事項は、精度と速度である。ユーザ辞書のサイズが大きくなるに
従って、音声認識精度は上昇し、誤認識率（ＷＥＲ）及び速度は低下する。これ
は、サーチ時間が増加し、辞書のサイズの増加に伴って発音の一致が複雑となる
ためである。

【００６０】ＮＬＱＳ音声認識システムの基本は、一連のヒドンマルコフモデル（ＨＭＭ）
であり、これは前述のように経時的に変化する信号を特徴付ける数学的モデルで
ある。音声の一部は、一乃至複数のシンボルの潜在的列に基づいているので、各
シンボルに対応するＨＭＭモデルは音声波形からのベクトルとして学習される。
ヒドンマルコフモデルは、状態の有限集合であり、そのそれぞれは（通常多次元
の）確率分布に関連付けられている。状態間の遷移は、遷移確率と呼ばれる確率
の組によって支配される。特定の状態において、結果又は所見が、関連付けられ
た確率分布に従って発生される。この有限集合装置は、各時間単位ごとに状態を
変化させ、状態ｊに入る時点ｔにおいてスペクトルパラメータベクトルＯ_tが、
確率密度Ｂ_j（Ｏ_t）で発生させる。これが唯一の結果であり、外部の観察者に状
態が見えないので、状態は結果に「隠されている」のでヒドンマルコフモデルと
名付けられた。

【００６１】孤立した音声認識において、各ワードに対応する一連の発言された音声ベクト
ルは、以下のマルコフモデルによって表現される。 O=o₁, o₂, .........o_T （１−１）ここで、ｏ_tは時点ｔにおいて発言される音声ベクトルである。孤立したワー
ド認識は以下のように算定する。 arg max [P(w₁|O)] （１−２）ベイズの定理を用いることにより、 [P(w₁|O)] = [P(O|w₁)P(w₁)]/P(O) （１−３）

【００６２】一般的な場合、音声に適用された場合、マルコフモデルも有限状態装置を前提
とし、各時間帯ごとに状態を変化させ、状態ｊに入る各時点において、音声ベク
トルｏ_tが、確率密度ｂ_j（ｏ_t）から発生する。さらに、状態ｉから状態ｊへの
遷移も確率的であり、離散確率ａ_ijによって支配される。

【００６３】状態シーケンスＸに関して、状態シーケンスＸを通して移動するモデルＭによ
ってＯが発生される複合確率は、遷移確率と出力確率の積である。発言シーケン
スのみが知られている場合、状態シーケンスは前述のように隠される。

【００６４】Ｘが知られているとすると、所要の尤度は、全ての予測される状態シーケンス
Ｘ＝ｘ（１），ｘ（２），ｘ（３），．．．．ｘ（Ｔ）の加算により計算される
。 P(O|M)=Σ[a_x(0)x(1)？b(x)(o_t)a_x(t)x(t+1)] ワードｗ₁に対応するモデルの組がＭ_iであるとすると、式１−２は式１−３を
用いまた P(O|w_i) =P(O|M_i) と仮定することによって解かれる。

【００６５】これらの全ては、パラメータ（ａ_ij）及び｛ｂ_j（ｏ_t）｝は、それぞれのモデ
ムＭ_iについて知られていることを前提としている。これは、前述のように、特
定のモデルに対応する学習用例題を用いて行われる。その後に、モデルのパラメ
ータは、頑丈で、効率的な再予測手順によって自動的に決定される。そのため、
十分な数の各ワードの代表的な例が収集されると、ＨＭＭを構成することが出来
、現実の音声における不可避の変化の多数の原因の全てを単にモデル化したもの
である。このトレーニングは従来より周知であるので、詳細な説明は省略するが
、ＨＭＭはクライアント側ではなくサーバ側において導き出され、構成されるの
で、本発明の分散アーキテクチャによりＨＭＭの品質が向上する。このようにし
て、異なる地図上の地域のユーザからの適切なサンプルを簡単にコンパイル及び
分析して認識すべき特定の言語において生じる可能性のある変化を最適化するこ
とが出来る。各予測されるユーザは認識処理中にＨＭＭの同一の組を使用するの
で、音声認識処理の均一性は良好に保持され、エラー診断を簡素化する。

【００６６】トレーニングサンプルの組からＨＭＭのパラメータを決定するために、第一ス
テップは、それらが何であるかの大まかな推測を行う。次いで、ボーム−ウェル
シュ推定式(Baum-Welch estimation formula)を用いて精緻化が行われる。これ
らの式により、最大尤度μ_j（μ_jは平均ベクトル及びΣ_jは分散行列）は、 μ_j=Σ^T _t=1L_j(t)o_t/[Σ^T _t=1L_j(t)o_t]

【００６７】次ぎに、前方−後方アルゴリズム(forward-backward algorithum)が用いられ
、状態占有確率L_j(t)が計算される。状態ＮのあるモデルＭに関する前方確率α_j （ｔ）は、 α_j(t) = P(o₁,......, o_tx(t) = j|M) で表される。この確率は、帰納法を用いて計算することが出来る。 α_j(t) = [Σ^N-1 _j=2α(t-1)a_ij]b_j(o_t) 同様に、後方確率は、帰納法を用いて計算することが出来る。 β_j(t) = [Σ^N-1 _j=2 a_ijb_j(o_t+1)(t+1) 前方確率は複合確率であり、後方確率は条件的確率であることを実現すること
によって、状態占有の確率は二つの確率の積となる。 α_j(t)β_j(t) = P(O. x(t) = j|M) それゆえに、時点ｔにおける状態ｊの確率は、 L(t) = 1/P[α_j(t)β_j(t)] ここで、P=P(O|M)

【００６８】連続音声認識のために上記を一般化するために、総和が最大動作により置き換
えられる最大尤度状態シーケンスを前提とする。従って、与えられたモデルＭに
関して、φ_j（ｔ）が時点ｔにおける状態ｊにおいて使用される発言する音声ベ
クトルｏ₁乃至ｏ_tの最大尤度を示していると仮定すると、 φ_j（ｔ）= max [φ_j（ｔ）(t-1)α_ij]β_j(o_t) アンダーフローを回避するためにｌｏｇ表現を用いれば、最大尤度は ψ_j(t) = max [ψ_i(t-1) + log(α_ij)] + log(b_j(o_t))

【００６９】これはまた、ビタビアルゴリズムとして知られている。垂直方向の寸法がＨＭ
Ｍの状態を示し、水平方向が音声フレーム、即ち時間を示すマトリクスを通る最
適パスを検索することにより可視化される。連結された音声認識への拡張を完成
するために、さらに潜在的なシーケンスを示す各ＨＭＭが連結されるものと仮定
する。従って、連続音声認識のためのトレーニングデータは、連結された発声で
構成されるが、ワード間の境界を知られる必要はない。

【００７０】演算速度／効率を改善するために、ビタビアルゴリズムは、時々、トークンパ
ッシングモデル(Token Passing Model)として知られるモデルを用いて収束を達
成する。トークンパッシングモデルは、発言シーケンスｏ₁乃至ｏ_tと特定のモデ
ル間の部分一致を示し、時点ｔにおける状態ｊモデルである制約をうける。この
トークンパッシングモデルは、ＨＭＭのシーケンス有限状態ネットワークとして
規定することを可能とするとすれば、容易に連結音声認識に拡張することが出来
る。音素に基づくＨＭＭと完全なワードを含む複合ネットワークは、確率格子か
らＮ個の最良の抽出ワードを用いて連結音声を形成するために単一の最良のワー
ドを認識出来るように構成される。この複合型のＨＭＭに基づく連結音声認識装
置は、ＮＬＱＳ音声認識装置モジュールの基礎となる。ともかく、本発明は、特
別の形式の音声認識装置に限定されるものではなく、本発明のアーキテクチャと
互換性があり、ユーザにリアルタイムに対話の経験を提供するための精度及び速
度の所要の能力基準を満足する限りにおいて音声認識のための他の技術をも採用
することが出来る。

【００７１】本発明によるＨＭＭに基づく音声認識システムに関する音声の表現は、音声は
本質的に（発声された音声の）準周期的パルス列と（発声されない音声の）ラン
ダムノイズ源の何れかである。これらは、二つの音声源としてモデル化され、一
方はピッチ周期Ｐのインパルス列発生器と、発声／非発声スイッチにより制御可
能なランダムノイズ発生器としてモデル化される。スイッチの出力は、音声信号
から予測されるゲイン関数に供給され、生成される音声の声道パラメータ特性に
より制御されるデジタルフィルタＨ（ｚ）に供給するように拡大される。発声／
非発声の切り換え、発声音のピッチ周期、音声信号に関するゲインパラメータ及
びデジタルフィルタの係数等のこのモデルに対する全てのパラメータ−は、時間
の経過に応じてゆっくり変化する。ＨＭＭの組の観点において評価を可能とする
ようにユーザの音声入力からの音響パラメータの抽出において、ケプストラム分
析は一般に、振動情報から声道情報を分離するために使用される。信号のケプス
トラムは、ｌｏｇスペクトルのフーリエ（又はこれと同様の）変換を採用するこ
とによって計算される。ケプストラム係数を抽出することの主要な利点は、それ
らが非相関化され、対角線の共分散をＨＭＭとともに使用することが可能となる
。人間の耳は音声スペクトルにわたって周波数の非線形性を解消するので、同様
に非線形に動作するフロントエンドが音声認識性能を改善することを示している
。

【００７２】従って、一般的線形予測に基づく分析によらず、ＮＬＱＳ音声認識エンジンの
フロントエンドは、メルスケール(Mel-scale)においてほぼ等しい加増度を与え
るように設計されたフィルタバンクに基づいて単純な高速フーリエ変換を行う。
このフィルタバンクを実施するために、（特定の時間フレームに関する）音声デ
ータのウインドウはソフトウエアによるフーリエ変換及び取りうる大きさを用い
て変換される。各ＦＦＴの大きさは、対応するフィルタの利得と乗算され、その
結果が蓄積される。フロントエンドによるこのフィルタバンク分析から得られる
ケプストラム係数は、ｌｏｇフィルタバンクの振幅の離散コサイン変換を用いる
ことによって音声信号の第一の部分的な処理段階において計算される。これらの
ケプストラム係数は、メル周波数ケプストラム係数(Mel-Frequency Cepstral Co
eficient(MFCC))と呼ばれ、ユーザに音声信号の音響特性を特徴付けるためにク
ライアント側から送られてくる音声パラメータのいくつかを示している。これら
のパラメータは、異なる性能を持つシステム（即ち、性能の低いＰＤＡから性能
の高いデスクトップまでの全てに関しての）において迅速、且つ普遍的に決定さ
れる事実を含む種々の理由により選択され、操作に関連した多数の有用な認識の
ために適合し、比較的狭い帯域のリンクを介して迅速に送出されるように比較的
小さく、コンパクトである。従って、これらのパラメータは、後続のサーバ側に
おいて十分に且つ迅速に認識処理が完結できるように使用できるように、最小量
の情報を示す。

【００７３】音声パラメータを増強するために、信号エネルギのロガリズムの形式における
エネルギ条件が付加される。従って、ＲＭＳエネルギは１２ＭＦＣＣに付加され
て、１３の係数を生成する。これらの係数は、ユーザのクライアントシステムか
ら遠隔サーバに圧縮状態で昇進される部分的に処理された音声データを生成する
。

【００７４】本音声認識システムの性能は、サーバ側において時間導関数を計算し、基本的
静的ＭＦＣＣパラメータに加算することによって大幅に強化される。これら二つ
の他の組の関数−（実際にいくつかのフレームにわたって測定された）フレーム
からフレームまでの１３の値における変化を示すデルタ及び加速係数は、音声信
号の初期の処理を完了するための第二の部分的音声信号処理段階中に計算され、
後者が受け取られた後に係数の元の組に加算される。これらのＭＦＣＣは、デル
タ及び加速係数とともに、上記した発言ベクトルＯ_tを構成し、音声データの関
する適切なＨＭＭの決定に用いられる。

【００７５】デルタ及び加速係数は、以下の帰納式を用いて計算される。 d_t = Σθθ₌₁[c_t+θ - c_t-θ]/2Σθθ₌₁θ² ここで、ｄ_tは対応する静的係数に関して計算された時間ｔのデルタ係数であ
る。 d_t = [c_t+θ - c_t-θ]/2θ

【００７６】音声認識システムの一般的な独立的な実施において、ＳＲエンジンの全体が単
一のクライアントにより実行される。換言すれば、上記の第一及び第二の部分的
処理段階は、クライアントのコンピュータにおいてＲＯＭ又はソフトウエアコー
ドのルーチンにより動作するＤＳＰ（又はマイクロプロセッサ）によって実行さ
れる。

【００７７】逆に、いくつかの理由、特にコスト、技術的性能及びクライアントのハードウ
エアの均一性の理由から、本ＮＬＱＳシステムは、分割または分散された方法を
採用する。ある種の処理はクライアント側において行われるが、主要な音声認識
エンジンは、集約的配置されたサーバ又は多数のサーバ上で動作する。より具体
的には、上述のように、音声信号の捕捉、ＭＦＣＣベクトルの抽出及び圧縮は、
第一の部分処理段階においてクライアントマシンにより実行される。ルーチンは
、而して合理化されて、ブラウザプログラム（例えば、プラグインモジュール、
ダウンロード可能なアプレットとしても）実行するために十分に簡素化され、使
用及び利用を最大に容易化する。従って、非常に性能の低いクライアントのプラ
ットフォームをもサポートすることが出来、予測される多数のサイトにおける本
システムの使用を可能とする。一次ＭＦＣＣは、次いでダイアルアップによるイ
ンターネット接続、ＬＡＮ接続、ワイヤレス接続等のチャンネルを介してサーバ
に送られる。伸張後に、デルタ及び加速係数がサーバにおいて計算されて、初期
の音声処理段階を完了し、結果として得られる発言ベクトルＯ_tが決定される。

【００７８】音声認識エンジンの概要音声認識エンジンもサーバに配置され、ワードレベルネットワーク、辞書及び
ＨＭＭの組からコンパイルされるＨＴＫに基づく認識ネットワークに基づいてい
る。認識ネットワークは、アークにより接続されたノードの組により構成される
。各ノードは、ＨＭＭモデル又はワードエンドである。各モデルのノードは、そ
れ自体アークによって接続された状態で構成される。而して、コンパイルが完了
すると、音声認識ネットワークは、遷移により連結されたＨＭＭ状態で構成され
る。Ｔフレームの既知でない発言入力に関して、ネットワークの入口ノードから
出口ノードへの全てのパスはＴＨＭＭ状態を通る。これらのパスのそれぞれは、
各パス内の個別の遷移のｌｏｇ確率及び対応する発言を発生する放出状態のｌｏ
ｇ確率を加算することにより計算される。ビタビデコーダの機能は、最も高いｌ
ｏｇ確率を持つパスをネットワーク上で見つけることである。この検出には、ト
ークンパッシングアルゴリズムが用いられる。多数のノードを持つネットワーク
において、勝者となり得るこれらのトークンの伝搬を許容するのみによって、計
算時間が減少する。この処理は一括消去と呼ばれる。

【００７９】自然語処理装置一般的なデータベースに自然語インターフェースにおいて、ユーザは、例えば
英語等の彼／彼女の自然語により質問を入力する。システムは、これを解釈し、
問い合わせ言語表現に翻訳する。次いで、システムは、問い合わせ言語表現を用
いて質問を処理し、サーチに成功すれば、結果を示すレコードセットは、生のテ
キスト又は画像形式の何れかにフォーマットされて英語で表示される。優れて動
作する自然語インターフェースは多くの技術的要求事項を含んでいる。

【００８０】例えば、これは頑丈で無ければならず、「デパートの売り上げは(what's the
department turnover)」のセンテンスにおいて、ワードwhats=what's=what isを
決定する。また、departments = department'sを判定しなければならない。頑丈
であることに加えて、自然語インターフェースは、言語学的、構造的、参照及び
省略による曖昧さ等の自然語におけるいくつかの形式の曖昧さを識別する必要が
ある。これらの要求の全ては、トークン化、タグ付け、グループ化の基本的言語
形態学的動作を行う一般的な能力に加えて、本発明により実施される。

【００８１】トークン化は、テキストを個別の文字よりも大きいが句やセンテンスよりも小
さい一連のトークン又は利用可能な有意な単位として扱うテキスト分析器により
行われる。これらは、ワード、ワードの分離可能な部分及び句読点を含んでいる
。各トークンはオフセットや長さに関連付けられる。トークン化の第一段階は、
入力されたテキストから個別のトークンを抽出するセグメント化処理であり、入
力されたテキスト内に由来する各トークンのオフセットを記録する。トークン化
装置の出力は、各トークンのオフセット及びカテゴリをリストする。テキスト分
析の次の段階において、タグ付け装置は、内蔵する形態分析器を用いて句、セン
テンス中の各ワード／トークンのルックアップを行い、音声の全ての部分を内部
的にリストする。出力は、音声記録に部分にタグを付した各トークンによる入力
列である。最後に、句抽出装置又は句分析装置として帰納するグループ化装置は
、句を形成するワードのグループを決定する。全ての近代的言語処理体系の基本
であるこれら三つの動作は、ユーザの質問に対する単一の最良の回答を決定する
ための最適化されたアルゴリズムを全て実施する。

【００８２】ＳＱＬデータベース及び全文問い合わせ本システムの他の重要な構成要素は、ＳＱＬデータベースである。このデータ
ベースは、テキストを記憶するために用いられ、特に回答−質問の対がデータベ
ースの全文テーブルに格納される。さらに、データベースの全文検索能力が、全
文検索の実行を可能とする。

【００８３】デジタル的に記憶された全ての情報は、非構造のデータ、一次テキストの形式
であるが、ヴァーチャー(varchar)やテキスト等の文字に基づく欄による公知の
データベースにこの原文データの格納が可能となる。データベースから原文デー
タを効果的に検索するために、技術は、原文データに対する質問の発生及びＮＬ
ＳＱシステムの場合のように回答を与える有意な方法で回答の検索を実行する必
要がある。

【００８４】二つの主要なタイプの原文サーチがある。特性（Property）−このサーチ技術
は、最初に文書をフィルタにかけて著者、主題、タイプ、ワード数、印刷ページ
数、最後に書かれた日付等の特性を抽出し、次いで、これらの特性に対してサー
チを行う。全文−このサーチ技術は、まず文書中のノイズでないワードのインデ
ックスを作成し、このインデックスにより次いで言語のサーチ及び近接サーチを
サポートする。

【００８５】この特定のＲＤＢＭにおいて二つの付加的技術が実施される。ＳＱＬサーバは
一体化される。サーチサービス−、インデックスエンジン及びサーチと呼ばれ全
文のインデックス付け及びサーチサービス及び全文ＳＱＬ拡張及びマップを受け
入れる構文解析ツールはサーチエンジンによる処理を可能な形式とする。

【００８６】全文能力を持つデータベース(full-text-capable database)からのプレーンテ
キストの全文検索の実施において四つの主要な態様含んでいる。全文検索のため
に登録されたテーブル及び欄の定義の管理と;登録された欄内のデータのインデ
ックス付け−インデックス付け処理は文字列を走査し、ワードの境界（これは単
語分け（word breaking)と呼ばれる）を決定し、全てのノイズとなるワードを排
除し（これはストップワード(stop words）と呼ばれる）、残りのワードに全文
インデックスを与える;占有する全文インデックスに関する登録された欄に対し
て質問を発生する；全文インデックスの同期を保持するために登録された欄のデ
ータにその後に生じた変化がインデックスエンジンに伝搬することを確保する。

【００８７】インデックス付け、問い合わせ及び同期処理のための潜在的な設計原理は、全
文検索のために登録された全てのテーブルに全文ユニークキー欄（又は単一欄基
本キー）が存在していることである。全文インデックスはノイズでないワードに
対するエントリを各行のキー欄の値とともに各行に有している。

【００８８】全文検索を処理する場合、サーチエンジンはサーチ基準に一致する行のキーの
値をデータベースに返す。

【００８９】全文管理処理は、全文検索のための関連したテーブル及びその欄を指定するこ
とによって開始される。カスタマイズされたＮＬＱＳの格納された手順は、まず
全検索に都合の良いテーブル及び欄を登録するために使用される。その後に、格
納された手順による別の要求が発生され、全文インデックスを格納する。この結
果、潜在的インデックスエンジンが呼び出され、非同期インデックスの格納が開
始される。全文インデックス付けはいずれの有意なワードが使用されたか及びそ
れらがどこに位置するかを検索する。例えば、全文インデックスは、「ＮＬＱＳ
」のワードが、ＰｒｏｄｕｃｔＩＤ６に関連した行のＤｅｖＴｏｏｌｓテーブル
のＡｂｓｔｒａｃｔ欄のワード番号４２３とワード番号９８２に見られる。この
インデックス構造は、インデックスされた語を含む全てのアイテムの効率的検索
をサポートするとともに、句検索や近接サーチといった上級のサーチもサポート
する。（句検索の例は、「白象(white elephant)」を検索するものであり、「白
(white)の後に「象」が続く、近接サーチの例は,「大きい(big)」及び「家(hous
e)」を検索するものであり、「大きい」が「家」に近接して生じる。）全文イン
デックスが膨大になることを防止するために、”ａ”、”ａｎｄ”、”ｔｈｅ”
等は無視される。

【００９０】トランズアクト−ＳＱＬ語への拡張は、全文問い合わせを構成するために使用
される。ＮＬＱＳにおいて使用される二つのキーとなる述語は、ＣＯＮＴＡＩＮ
ＳとＦＲＥＥＴＥＸＴである。

【００９１】ＣＯＮＴＡＩＮ述語は全文の登録欄における値が幾つかのワード及び句を含ん
でいるか否を決定するために使用される。特に、この述語は、・ワード又は句・ワード又は句の接頭語・近接するワード又は句・他の語の屈折形であるワード（例えば、"drive"は"drives", "drove", "drivi
ng"及び"driven"の基本形である。）・それぞれに異なる重みを割り当てられたワード又は句の組の検索に用いられる。

【００９２】ＳＱＬサーバのリレーショナルエンジンは、ＣＯＮＴＡＩＮ及びＦＲＥＥＴＥ
ＸＴ述語を認識し、述語中に参照されている欄が全文検索のために登録されてい
ることの確認等の最小の構文及び意味のチェックを行う。問い合わせの実行中に
、全文の述語及び他の関連した情報が全文検索部に送られる。さらに構文及び意
味の確認後に、サーチエンジンが起動され、全文検索条件を満足するテーブル中
の行を特定する独自のキー値を返す。さらに、ＦＲＥＥＴＥＸＴとＣＯＮＴＡＩ
ＮＳに対して、ＡＮＤ、ＬＩＫＥ、ＮＥＡＲ等の他の述語が組み合わされて、カ
スタマイズされたＮＬＱＳのＳＱＬ構造を生成する。

【００９３】ＳＱＬデータベースの全文問い合わせのアーキテクチャ全文問い合わせのアーキテクチャは、以下のいくつかの構成要素によって構成
される−全文クエリー部、ＳＱＬサーバリレーショナルエンジン、全文プロバイ
ダ及びサーチエンジンである。

【００９４】ＳＱＬデータベースの全文クエリー部は、ＳＱＬサーバからの全文述語又はロ
ーセット値関数(rowset-valued function)を受け付け、述語の一部を内部フォー
マットに変換し、これをローセットの一致を返すサーチサービスに送る。ローセ
ットは、次いでＳＱＬサーバに送り返される。ＳＱＬサーバはこの情報を用いて
結果セットを生成し、これをクエリーの送信者に返す。

【００９５】ＳＱＬサーバリレーショナルエンジンは、ＣＯＮＴＡＩＮＳ及びＦＲＥＥＴＥ
ＸＴ述語とともにＣＯＮＴＡＩＮＳＴＡＢＬＥ（）及びＦＲＥＥＴＥＸＴＴＢＬ
Ｅ（）ローセット値関数を受け入れる。解析期間中に、このコードが、全文検索
のために登録されていない欄に問い合わせをしている等の状態をチェックする。
有効であれば、ランタイムに、前方検索条件(ft#search#condition)及び文脈情
報は、全文プロバイダに送出される。結局のところ、全文プロバイダは、ローセ
ットをＳＱＬサーバに返し、元の問い合わせに対する結合（特定された又は暗示
された）に使用される。全文プロバイダは、前方検索条件を解釈し、確認し、全
文検索条件の適当な内部表現を構成して、サーチエンジンに送出する。結果は、
前方検索条件を満足する行のローセットによってリレーショナルエンジンに戻さ
れる。

【００９６】クライアント側システム１５０自然語問い合わせシステム１００のクライアント側システム１５０のアーキテ
クチャは、図２により詳細に示されている。図２に関して、クライアント側シス
テム１５０により達成される三つの主要な処理を以下に示す。ＳＲＥ２０１、通
信２０２及びＭＳエージェント２０３ルーチンで構成される初期化処理２００Ａ
と；ａ）ＳＲＥ２０４と通信２０５で構成されるユーザ音声の受信２０８とｂ）
サーバから回答を受信２０７及びアンイニシャライゼーション(un−initializat
ion)処理の二つのサブルーチンで構成される反復処理２００Ｂである。最後に、
アンイニシャライゼーション処理２００Ｃは、ＳＲＥ２１２，通信２１３及びＭ
Ｓエージェント２１４の三つのサブルーチンで構成される。上記の三つの処理の
それぞれは、以下のパラグラフにおいて詳細に説明する。こうした処理及びルー
チンの実行は、クライアントプラットフォーム毎に変化し、ある環境においては
、こうした処理は専用ＤＳＰにより実行されるハードコード化(hard-coded)ルー
チンによって実施可能であるが、共用のホストプロセッサによって実行されるソ
フトウエアとして実施することも可能であり、また両者の組み合わせを用いるこ
とも出来ることは当業者に理解されるであろう。

【００９７】クライアントシステム１５０における初期化クライアント側システム１５０の初期化は図２−２に示されており、一般に、
クライアント側音声認識エンジン２２０Ａ、ＭＳエージェント２２０Ｂ及び通信
処理２２０Ｃの三つの別の初期化処理により構成される。

【００９８】音声認識エンジン２２０Ａの初期化音声認識エンジン１５５は、２２０Ａで示されたルーチンを用いて初期、構成
される。最初に、ＳＲＥＣＯＭライブラリが初期化される。次いで、メモリ２２
０はソースを保持するように割り当てられ、コーダオブジェクトがルーチン２２
１により生成される。コンフィギュレーションデータファイル２２１Ｂからのコ
ンフィギュレーションファイル２２１ＡのロードもＳＲＥライブラリの初期化と
同時に行われる。コンフィギュレーションファイル２２１Ｂにおいて、コーダへ
の入力のタイプ及びコーダの出力のタイプが宣言される。こうしたルーチン及び
動作等は周知であり、それらは多数の相当に簡単な方法を用いて実行される。従
って、それらについてはここでは詳述しない。次に、発言の音声及び無音成分は
、ルーチン２２２を用いて周知の手順により目盛り付けされる。音声及び無音成
分を目盛り付けするために、ユーザは好ましくは文を発言し、表示画面のテキス
トボックスに表示される。ＳＲＥライブラリは、将来のユーザの発言の無音及び
音声成分を検出するために必要となるノイズ及び他のパラメータを予測する。

【００９９】ＭＳエージェント２２０Ｂの初期化ＭＳエージェント２２０Ｂの初期化及びセットアップに用いられるソフトウエ
アコードは、図２−２に示されている。ＭＳエージェント２２０Ｂルーチンは、
動画エージェント１５７（図１）の動作を調整し、取り扱うことを受け持つ。こ
の初期化は、以下のステップにより構成される。１．ＣＯＭライブラリ２２３を初期化する。この部分のコードは、周知の制御を
行うアクティブＸ制御を使用するために必要となるＣＯＭライブラリの初期化を
行う。２．エージェントサーバ２２４のインスタンスの生成−この部分のコードは、エ
ージェントアクティブＸ制御のインスタンスを生成する。３．ＭＳエージェント２２５のロード−全貌、形状、サイズ等のようなエージェ
ントの特性に関する一般的パラメータデータを含む特定されたファイル２２５Ａ
からのＭＳエージェント特性をロードする。４．キャラクタインターフェース２２６の獲得−この部分のコードは特定された
キャラクタに関する適当なインターフェースを獲得する：キャラクタは、ユーザ
に提供できる異なる制御／対話能力を有している。５．エージェントキャラクタオプション２２７にコマンドを追加する−この部分
のコードは、エージェントキャラクタがロードされる時に、システムトレイのア
イコンをクリックすることによってアクセス可能なエージェントのプロパティシ
ートにコマンドを付加する。例えば、キャラクタは話すことが出来、どのように
彼／彼女が動くか、ＴＴＳのプロパティ等６．エージェントキャラクタを表示２２８−この部分のコードは、ユーザによっ
て見ることが出来るように、エージェントキャラクタを表示する。７．AgentNofifySink−イベントを取り扱うために。この部分のコードは、Agent
NotifySinkオブジェクト２２９を生成し、それを２３０に登録し、エージェント
プロパティインターフェース２３１を獲得する。エージェントキャラクタに関す
るプロパティシートは使用するルーチン２３２に割り当てられる。８．キャラクタのアニメーションを行う２３３−この部分のコードはユーザのＮ
ＬＱＳ１００に迎えるために特定のキャラクタにアニメーションを行わせる。

【０１００】上記によりＭＳエージェントを初期化するために必要となるシーケンス全体を
構成する。ＳＲＥルーチンと同様に、ＭＳエージェントルーチンは、本技術に基
づいて、いかなる適当な公知の手法により当業者が実施可能である。こうしたル
ーチンの特定の構造、動作は重要ではないので、それらについては詳細に説明し
ない。

【０１０１】好適実施例において、ＭＳエージェントは特定の用途に関して適当な外観及び
納涼を備えるように構成される。例えば、遠隔学習への使用の場合、エージェン
トは、大学教授の外観やの癖、態度、ジェスチャー有している。他の視覚的小道
具（黒板、教科書等）がエージェントが使用することが出来、ユーザに実際の教
育環境に居たときの経験を思い起こさせる。エージェントの特徴はクライアント
側１５０で構成され及び／又は特定のウエブページからのコンフィギュレーショ
ンデータ及びコマンドに応じてブラウザプログラム（図示せず）によって実行さ
れるコードの一部により構成される。例えば、医療を提供している特定のウエブ
サイト、医者の視覚的イメージを使用することが好ましい。これら及び多くの他
の変更は、ユーザによる人間的でリアルタイムな対話の経験をよりよいものとす
るために当業者によって採用される。

【０１０２】通信リンク１６０Ａの初期化通信リンク１６０Ａの初期化は図２−２の処理２２０Ｃを参照しながら説明す
る。図２−２に関して、この初期化は以下のコード成分により構成される。イン
ターネット接続２３４−この部分のコードはインターネット接続を行い、接続の
ためのパラメータをセットする。次いで、セットコールバック状態ルーチン２３
５が接続状態をユーザに知らせるためにコールバック状態をセットする。最後に
、新しいＨＴＴＰインターネットセッション２３６が、新しいインターネットセ
ッションを開始する。通信リンク１６０の詳細及びセットアップ処理２２０Ｃは
重要ではなく、プラットフォームごとに変化する。ある場合、ユーザは低速のダ
イヤルアップ接続、専用の高速交換接続（例えば、Ｔ１）、常時接続ｘＤＳＬ、
ワイヤレス接続等を使用する。

【０１０３】クエリー／回答の反復処理図３に示すように、初期化が完了すると、反復クエリー／回答処理が、ユーザ
がクエリーを開始するためにスタートボタンを押圧したときに開始される。図３
に関して説明すれば、反復クエリー／回答処理は、クライアント側システム１５
０のルーチンを実行するユーザ音声の受信２４０及びユーザ回答の受信２４３の
、二つの主なサブプロセスによって構成する。ユーザ音声の受信２４０ルーチン
は、ユーザからの音声を受信し、一方ユーザへの回答の受信２４３ルーチンは、
テキスト−音声エンジン１５９によりユーザに対する音声に変換するために、サ
ーバからのテキストの形式でユーザの質問に対する回答を受信する。ここで使用
されているように、「クエリー」の用語は最も広い意味で用いられ、質問、コマ
ンド又はシステムによって制御変数として使用されるある形式の入力を意味して
いる。例えば、クエリーは、特定の話題に向けられた質問で構成され、例えば、
遠隔学習アプリケーションにおける「ネットワークは何ですか」といったもので
ある。電子商取引アプリケーションにおいて、クエリーは、例えば「マーク・ト
ーエンによる本を全てリストせよ」といったコマンドである。同様に、遠隔学習
アプリケーションにおける回答は、テキスト−音声エンジン１５９により可聴形
式とされるテキストで構成されるが、これは、特定のアプリケーションの要求に
応じて図形画像、サウンドファイル、ビデオファイル等の他の形式のマルチメデ
ィア情報とすることが出来る。クライアント側ユーザ音声受信２４０及びユーザ
への回答の受信２４３ルーチンに必要な構造、機能、性能等に関して本発明の技
術が与えられると、当業者はこれを種々の方法により実施することが出来る。

【０１０４】ユーザ音声の受信−図３に示すように、ユーザ音声の受信ルーチン２４０は、
ＳＲＥ２４１と、通信２４２処理とで構成され、両者は、ユーザの発言を受信し
、部分的に処理するクライアント側システム１５０のルーチンとして構成される
。ＳＲＥルーチン２４１は、コーダオブジェクトコーダがソースオブジェクトか
らの音声データを受け取るように準備されたコーダ２４８を使用する。次に、ス
タートソース２４９ルーチンが開始される。この部分のコードは、コードオブジ
ェクトに与えられるソースオブジェクトを用いてデータ検索を開始する。次に、
ＭＦＣＣベクトル２５０が、無音を検索されるまで、発生された音声から連続的
に抽出される。前述のように、これは入力された音声信号の処理の第一段階を示
すもので、好適実施例においては、上記にすでに説明した理由によりＭＦＣＣベ
クトルの計算のみに限っている。これらのベクトルは、部分的に処理された音声
信号の１３の別の数値に関する１２のケプストラム係数及びＲＭＳエネルギ条件
を含んでいる。

【０１０５】ある環境において、使用可能な計算リソース、差０羽側システム１８０におい
て使用可能なデータリンク１６０Ａにおける送信帯域、データ中のおいてデータ
の送信に使用される送信機の速度等に応じてＭＦＣＣデルタパラメータ及びＭＦ
ＣＣ加速パラメータはクライアント側システム１５０によって計算される。これ
らのパラメータは、（リソースを測定するために目盛り付けルーチンのいくつか
のタイプを用いて）ＳＲＥ１５５の初期化時にクライアント側システム又はユー
ザによる直接制御によって自動的に決定されて、信号処理の分担をケースバイケ
ースで最適化することが出来る。いくつかの用途においても、サーバシステム１
８０に、入力された音声信号の処理を完了するためのリソースやルーチンが欠け
ている場合がある。従って、いくつかの用途において、信号処理の負荷の割り当
てを変化させることが出来、音声信号処理の量段階をクライアント側システム１
５０で行うことが出来、音声信号を部分的にではなく完全に処理し、サーバ側シ
ステム１８０でクエリーに変換するために送信することも出来る。

【０１０６】好適実施例において、質問／回答の見地から十分な精度をリアルタイム性能を
確保するために、クライアント側システムにおいて十分なリソースの使用を可能
として毎秒１００フレームの音声データの部分的な処理を行い、リンク１６０Ａ
を介して送信出来るようにする。音声認識処理を完了するために必要な最小限の
情報（１３の計数のみが必要）が送信されるので、他の潜時（即ち、クライアン
ト側の計算潜時、パケット形成潜時、送信潜時）は最小限であるので、システム
は高度に最適化されたリアルタイム性能を達成する。本発明の原理は、ＳＲＥ（
即ち、非ＭＦＣＣベース）によって入力音声信号のブレークダウン他の方法が使
用される他のＳＲアプリケーションへの拡張が可能であることは、明らかである
。唯一重要なことは、ＳＲ処理が同様に複数の段階に異なる段階の負荷がリンク
１６０Ａの両側で取り扱うことが出来るように分割可能とすることである。本発
明の機能は、システム毎に達成され、各具体的な実施のために必要な予測される
一般的な最適化が必要である。

【０１０７】従って、本発明は、クライアント側システム１５０によって計算され、符号化
され、送信される情報の量に応じて調整される応答率性能を達成する。リアルタ
イム性能が最も重要な用途において、最小量の抽出された音声データが送信され
るようにして潜時を減少させ、他の用途においては、処理。符号化、送信される
抽出された音声の量を変化させることが出来る。

【０１０８】通信−送信モジュール２４２は、好適実施例においてはインターネットで掲載
されるデータリンク１６０Ａを介してクライアントからサーバへのデータの送信
を行うために使用される。上記に説明したように、符号化されたＭＦＣＣベクト
ルによって構成されるデータは、サーバ側の音声認識エンジンによって使用され
て、音声認識復号が完了される。通信シーケンスは以下の通りである。

【０１０９】 OpenHTTPRequest２５１−この部分のコードはまずＭＦＣＣベクトルをバイト
列に変換し、次いで、ＨＴＴＰとして知られるプロトコルとの互換を計るように
バイトを処理する。このプロトコルは、周知であり、他のデータリンク、他の適
当なプロトコルも使用することが出来る。１．ＭＦＣＣバイト列の符号化２５１−この部分のコードは、ＭＦＣＣベクトル
を符号化してＨＴＴＰを介してサーバに送信できるようにする。２．データ送信２５２−この部分のコードは、ＭＦＣＣベクトルを、インターネ
ット接続及びＨＴＴＰプロトコルを用いてサーバに送信する。

【０１１０】サーバの応答を待つ２５３−この部分のコードは、データリンク及びサーバ側
システム１６０から到来する応答を監視する。概説すれば、ＭＦＣＣパラメータ
は、入力される音声信号からのオンザフライを抽出し、観察する。次いで、それ
らはＨＴＴＰバイト列に符号化され、無音が検出される前にサーバにストリーミ
ングの要領で送信される、即ち発声が完了する前にサーバ側システムに送信され
る。ユーザが話している間にデータを送信、処理出来るので、本発明のこの態様
は、リアルタイム動作を容易とする。

【０１１１】サーバからの回答を受信２４３は、図３に示す以下のモジュールで構成される
：ＭＳエージェント２４４，テキスト−音声エンジン２４５及び受信モジュール
２４６である。これら三つのモジュールは、サーバ側システム１８０からの回答
を受信するために連関動作する。図３に示すように、受信処理は。クライアント
側システム１５０の受信ルーチンとして動作する三つの別のプロセスで構成され
る。最良の回答を受信２５８は、データリンク１６０Ｂ（ＨＴＴＰ通信チャンネ
ル）を介して最良の回答を受信する。回答は、２５９において伸張され、次いで
コード２６０によりＭＳエージェント２４４に送られ、そのコード部２５４によ
って受信される。ルーチン２５５は、次いで、テキスト−音声エンジン２５７を
用いて回答が発声される。勿論、テキストは、クライアント側システムによって
用いられるモニタにフィードバックの目的で表示することが出来る。テキスト−
音声エンジンは、（英語、仏語、独語、日本語等）の具体的な言語の用途に対し
て適当する自然語音声データファイル２５６を使用する。前述のように、回答が
テキスト以上のものである場合、図形画像、音、ビデオチップ等によりユーザに
回答を与える。

【０１１２】アンイニシャライゼーションの手順と処理を図４に示す。これらの機能モジュ
ールは、クライアント側システム１５０の基本コンポーネントをアンイニシャラ
イゼーションするために用いられるものであり、これらの基本コンポーネントに
は、ＳＲＥ２７０、通信２７１およびＭＳエージェント２７２アンイニシャライ
ゼーション手順が含まれている。ＳＲＥ２２０Ａをアンイニシャライゼーション
するために、初期化フェーズで割当てられたメモリは、コード２７３によって解
放され、この初期化フェーズの間に生成されたオブジェクトは、コード２７４に
よって削除される。同様に、図４に示すように、通信モジュール２２０Ｃをアン
イニシャライゼーションするために、サーバとの間ですでに確立されたインター
ネット接続を、通信アンイニシャライゼーション手順２７１のコード部２７５に
よって閉じる。次に、初期化の段階で生成されたインターネットセッションもま
た、手順２７１によって閉じる。ＭＳエージェント２２０Ｂのアンイニシャライ
ゼーションのために、図４に示すように、ＭＳエージェントアンイニシャライゼ
ーション手順２７２は、最初に、手順２７７を用いて、コマンド・インターフェ
ース２２７を解放する。これにより、手順２２５によってエージェント文字のロ
ーディングの間に、プロパティーシートに追加されるコマンドが発行される。次
に手順２２６によって初期化された文字インターフェースが、手順２７８によっ
て解放され、エージェントがステップ２７９でアンロードされる。さらに、ステ
ップ２８０でシンクオブジェクト・インターフェースも解放され、その後、ステ
ップ２８１でプロパティシート・インターフェースが解放される。次に、ステッ
プ２８２でエージェント通知シンクがエージェントを登録解除し、最後に、ステ
ップ２８３でエージェント・インターフェースが解除され、これにより、図２−
２に示した初期化ステップで割当てられた全てのリソースが解除されるものとな
る。

【０１１３】図４に示したようなアンイニシャライゼーションの処理と手順の特定の実装方
法は、上述した他の手順と同様に、クライアントおよびサーバのプラットフォー
ムに応じて変更されることは、当該技術分野に精通した者にとっては、明白なも
のである。このような手順の構造、動作などは、従来例において既知のものであ
り、これらは、多くの直接的な方法を用いることにより実装することが可能であ
る。従って、これらの変更については、詳細には言及しないものとする。

【０１１４】サーバ側シスエム１８０の説明序文図１１Ａから図１１Ｃに、自然言語問い合わせシステム１００のサーバ側シス
テム１８０に実装される処理群の一実施例の高レベルフローチャートを示す。本
実施例においては、この処理は、音声入力信号を処理し、ユーザの問い合わせの
意味を認識し、各問い合わせに対する適切な回答や応答を求めるための、２ステ
ップのアルゴリズムから構成されている。

【０１１５】図１１Ａに示した第一ステップは、高速の第一刈り込み機構としてのものであ
り、以下の処理を含んでいる。音声入力信号を処理した後、ユーザの問い合わせ
はステップ１１０１で認識され、問い合わせ文の文字列がステップ１１０７で自
然言語エンジン１９０（図１参照）に送られ、同時にステップ１１０２でＤＢエ
ンジン１８６（同様に図１参照）に送られる。ここで「認識される」とは、以前
に説明したＨＭＭ手法によって、ユーザの問い合わせが特有の自然言語文の文字
列に変換されることを指す。

【０１１６】ＮＬＥ１９０では、文字列は、ステップ１１０８で、形態素言語解析の処理を
経て、文字列はトークン化され、タグが付与され、タグ付きトークンが分類され
る。次に、ステップ１１０９で、文字列の名詞句（ＮＰ）が格納され、ＤＢプロ
セスでＤＢエンジン１８６が利用できるように、ステップ１１１０で、複写、転
送される。図１１Ａに示すように、ステップ１１０２でＥＢエンジン１８６に転
送されたユーザの問い合わせに対応する文字列は、ＮＬＥ１９０から受信したＮ
Ｐとともに用いられて、ステップ１１０３でＳＱＬクエリが構成される。次に、
ステップ１１０４で、ＳＱＬクエリが実行され、ユーザの問い合わせに対応した
もっともらしい質問の記録セットが、ステップ１１０５で前文検索の結果として
得られ、さらに、ステップ１１０６で、配列の形式でＮＬＥ１９０に返送される
。

【０１１７】上述したように、サーバ側処理の第一ステップは、効率的で高速な刈り込み機
構として作用し、極めて短時間のうちに、ユーザの実際の問い合わせに対応した
的確な検索結果をもっともらしい文章の候補に絞りこむようにするものである。

【０１１８】図１１Ｂに示した第二ステップは、上記の第一ステップと対比すると、認識処
理の中の、より正確な選択処理部として捉えられるものである。このステップは
、ユーザの問い合わせを表す可能性のある候補として全文検索によって得られ、
配列状に格納された質問文の各々を言語処理するところから始まる。これらの格
納された質問文の処理は、ＮＬＥ１９０で、以下のように進められる。ＳＱＬ全
文検索によって得られた記録セットに対応した質問文の配列中の各質問文につい
て、ステップ１１１１で、形態素言語解析を行う。この処理で、検索された質問
文の候補に対応する文字列はトークン化され、タグが付与され、タグ付きトーク
ンが分類される。次に、ステップ１１１２で、文字列中の名詞句を取り出し格納
する。この処理は、判断点１１１３によって繰り返しの判定を受け、得られた問
い合わせ文の候補についてＮＰを求めて格納するように、ステップ１１１８、１
１１１、１１１２、１１１３が繰り返される。配列中の問い合わせ文の候補の各
々についてＮＰが取り出されると、ステップ１１１４で、ＮＰ値の大きさにもと
づいて、配列中の問い合わせ分の候補の各々と、ユーザの問い合わせとを比較す
る。配列中にもはや処理すべき問い合わせ文がないとステップ１１１７で判定さ
れると、ステップ１１１７Ａで、ユーザの問い合わせに関して最大のＮＰ値をも
つ格納された問い合わせを特定し、これをユーザ問い合わせにもっとも適合した
格納された問い合わせと判断する。

【０１１９】特に、認識処理の第二ステップは、複数の文字列がトークン化され複数のＮＰ
について比較する必要があるため、先の第一ステップよりも計算量が多いという
ことが分かる。しかし、第一ステップが、迅速かつ効率的に、評価すべき候補を
かなりの程度になるまであらかじめ絞り込んでおくことがなければ、これは現実
的とは言えない。従って、本発明での、この計算量の多さは、問い合わせ文の認
識処理全体でより高精度の認識結果をもたらすことに寄与するため、その特徴は
かえって価値のあるものとなる。従って、この点について、問い合わせ文認識の
第二ステップでは、システム全体を通して精度を確保することを目的とし、これ
に対し、第一ステップは、ユーザにとってリアルタイムの応答感覚が提供できる
十分な速度を提供することを目的としている。

【０１２０】図１１Ｃに示すのは、問い合わせ、応答処理の最後の部分であり、ユーザに対
して、適切な適合した回答、応答を提供する処理である。まず、ステップ１１２
０で、格納された問い合わせ文中で適合したものを特定する。次に、ステップ１
１２１で、特定された適合質問への回答に対応したファイルパスを取り出す。さ
らに処理を続け、ステップ１１２２で、このファイルパスに基づき回答を取り出
し、最後にステップ１１２３で、回答を圧縮しクライアント側システム１５０に
送る。

【０１２１】上述の内容は、サーバ側システム１８０のＮＬＱＳシステムの各部分の基本要
素、動作、機能および特性の概観を説明しようとしたものである。以下に、各サ
ブシステムの諸委細を説明する。

【０１２２】サーバ側システム１８０で用いられるソフトウェアモジュールＮＬＱＳシステムのサーバ側システム１８０で用いられる、主要なソフトウェ
アモジュールを、図５に示す。これらは、一般的に、以下の要素を含んでいる。
通信モジュール５００は、（図１のＳＲＥサーバ側１８２によって実行されるも
のであり、以下に詳説する）コミュニケーションサーバＩＳＡＰＩ５００Ａと、
（図１のＤＢエンジン１８６によって実行される）データベースプロセスＤＢプ
ロセスモジュール５０１と、（図１のＮＬＥ１９０によって実行される）自然言
語エンジンモジュール５００Ｃと、ＮＬＥプロセスモジュール５００ＣとＤＢプ
ロセスモジュール５００Ｂとの間のインターフェース５００Ｂを含んでいる。こ
こで示すように、コミュニケーションサーバＩＳＡＰＩ５００Ａは、サーバ側音
声認識エンジンと、クライアント側システム１５０とサーバ側システム１８０と
の間に配置されたな適切な通信インターフェースとを含んでいる。さらに、図５
によれば、自然言語問い合わせシステム１００のサーバ側論理は、２つのダイナ
ミックリンクライブラリコンポーネント、通信サーバＩＳＡＰＩ５００とＤＢプ
ロセス５０１を含むことに特徴があるといえる。通信サーバＩＳＡＰＩ５００は
、サーバ側音声認識エンジンモジュール５００Ａ、自然言語エンジンモジュール
５００ＣとＤＢプロセス５０１との間のインターフェースモジュール５００Ｂ、
さらに自然言語エンジンモジュール５００Ｃという、３つのサブモジュールから
構成されている。

【０１２３】ＤＢプロセス５０１は、ＳＱＬデータベースに接続し、ユーザの問い合わせに
応じて構成されるＳＱＬクエリを実行することを基本機能とするモジュールであ
る。さらに、このモジュールは、自然言語エンジンモジュール５００Ｃから一端
回答が得られた時のファイルパスに基づき、その後は、この正確な回答を取り出
すための論理に接続するインターフェースを持っている。

【０１２４】サーバ側システム１８０上の音声認識サブシステム１８２サーバ側音声認識エンジンモジュール５００Ａは、サーバ側１８０での音声認
識エンジン１８２（図１）の必要な機能と動作とを行う分散コンポーネントの一
群である。これらのコンポーネントは、既知のように、サーバ側１８０で実行さ
れるソフトウェア処理として実装することができる。図４Ａには、サーバ側の音
声認識コンポーネントの動作をより詳細に展開したものを示し、以下でこれを説
明する。

【０１２５】サーバ側ＳＲＥモジュール５００Ａの部分６０１の内部では、クライアント側
システム１５０で抽出され、通信チャネル１６０を会して送られた音声信号の音
響特性に対応したバイナリＭＦＣＣベクトルバイトストリームを受信する。ＭＦ
ＣＣ音響ベクトルは、符号化されたＨＴＴＰバイトストリームから以下のように
復号化される。ＭＦＣＣベクトルは、組み込みＮＵＬＬ文字を含んでいるため、
ＨＴＴＰプロトコルを使うようなサーバ側に対しては、これらのベクトルはこの
ままの形式では送出することができない。従って、まず最初に、転送に先立って
、クライアント側１５０でＭＦＣＣベクトルを符号化し、全ての音声データを、
データ中にＮＵＬＬ文字が含まれないようなバイトストリームに変換する。バイ
トストリームの終端部には、ＨＴＴＰプロトコルを用いてインターネット１６０
Ａ経由でサーバに転送されるバイトストリームの終了を示すように、単一のＮＵ
ＬＬ文字が挿入される。

【０１２６】前述したように、クライアントとサーバ間の待ち時間を維持、保存するために
、より少ない数のバイトデータ（１３のＭＦＣＣ係数）をクライアント側システ
ム１５０から、サーバ側システム１８０へ送る。これは、各プラットフォームに
対して画一性を保証するために、自動的に行うか、もしくは、特定のアプリケー
ション環境によって調整することができる。例えば、サーバでデルタおよび加速
係数を計算（さらに２６回の計算）するのに、クライアントでこれらを符号化し
、転送し、ＨＴＴＰストリームから復号化するよりも短い時間で行えるのかを判
定する場合などがそうである。一般的に、サーバ側システム１８０は、ＭＦＣＣ
デルタおよび加速パラメータを計算するのに、充実した装備を持っているのが普
通であるため、この方が好ましい。さらに、クライアントのリソースに比べ、サ
ーバのリソースの方が管理しやすく、すなわち、より信頼性のある予測可能なシ
ステム全体の性能をもたらす上で、将来のアップグレードや最適化等がシステム
全体で享受しやすいという事情がある。従って、本発明は、クライアントマシン
が極めて貧弱で、音声入力データを入力して最小限の処理だけがこなせる程度の
リソースしか持ち合わせないといった最悪のシナリオでさえも実施可能である。

【０１２７】辞書の準備と文法ファイル図４Ａにおいて、コードブロック６０５では、ユーザによって選択された（あ
るいは、特定のアプリケーションの内部でのユーザの状態から探り出された）様
々なオプションを受信する。例えば、遠隔教育システムの例では、コース、チャ
プターおよび／またはセクションデータが通信される。他のアプリケーション（
例えば、電子商取引）の場合には、製品の種類、製品のカテゴリ、製品のブラン
ドなど、ユーザが彼／彼女のブラウザ中で閲覧するために使用される他のデータ
オプションが通信される。これらの選択されたオプションは、ユーザが対話処理
プロセスの中で経験した背景に基づくものであり、従って、検索の範囲を限定し
定義するものとなる。すなわち、この背景は、音声認識エンジン１８２（図１）
に動的にローディングされ、ユーザの音声発話を解析する際のビタビ復号化のた
めの文法と辞書である。音声認識を最適化するために、本実施例では、文法と辞
書ファイルの両方を用いる。文法ファイルは、利用可能なユーザの問い合わせの
世界を提供する。すなわち、認識すべき、全ての可能な用語を提供する。辞書フ
ァイルは、文法ファイル中に含まれる各語の音素（語を発音する方法に関する情
報。これは、インストールされる特定の自然言語ファイルに基づくものであり、
例えば、ＵＫＥｎｇｌｉｓｈ（英国英語）あるいはＵＳＥｎｇｌｉｓｈ（米国英
語）のようなものである）を提供する。もし、認識可能な特定の環境での全ての
文章が、単一の文法ファイルに含まれているならば、その認識の精度は悪化し、
この文法および辞書ファイルだけのローディング時間は、音声認識処理の時間に
比べて短くなることは明白である。

【０１２８】この問題を避けるためには、特定の文法を動的にロードし、ユーザの使用背景
、例えば、遠隔教育システムでの場合の、コース、チャプターおよびセクション
の選択状態に応じて、現状の文法として動的に構成することが考えられる。ユー
ザが読み取り書き取りしている所定のコース、チャプターおよびセクションに従
って、文法および辞書ファイルを動的にローディングしたり、ユーザによって実
行されるアプリケーションプログラムによって自動的にそのローディングを行う
こともできる。

【０１２９】第二のコードブロック６０２は、音声認識エンジン１８２（図１）の初期化を
実装した部分である。クライアント側システム１５０から、文法ファイル名と辞
書ファイル名とともに受信したＭＦＣＣベクトルは、このブロックに入力され、
音声復号器を初期化する。

【０１３０】図４Ａに示すように、初期化プロセス６０２は、以下のサブルーチンを用いる
。まず、ルーチン６０２ａで、ＳＲＥライブラリをローディングする。次に、コ
ード６０２ｂで、受信したＭＦＣＣベクトルを用い、外部ソースとして識別され
るオブジェクトを生成する。コード６０２ｃは、認識オブジェクトを格納するメ
モリを割当てる。次にルーチン６０２ｄもまた、認識のために必要とされるオブ
ジェクトを生成し初期化する。これらのオブジェクトは、ソース、コーダ、およ
びコード６０２ｅにより生成される辞書の認識および結果ローディング、コード
６０２ｆにより生成される隠れマルコフモデル（ＨＭＭ）、およびルーチン６０
２ｇにより生成される文法ファイルのローディングである。

【０１３１】図４Ａに示すように、音声認識６０３が次に呼び出される処理であり、通常は
、クライアント側１５０での、ユーザの音声入力信号の処理の完了に呼応して実
行されるが、前述したように、ＭＦＣＣベクトルがリンク１６０を介して伝送さ
れたときには、部分的に（すなわち、ＭＦＣＣベクトルだけが第一フェーズで計
算されるのみとする）処理されることが好ましい。サブルーチン６０２ｂによっ
て外部ソース中に生成された関数を用いて、このコードは、外部ソース６０３ａ
から一度に一つづつＭＦＣＣベクトルを読み込み、これらをブロック６０３ｂで
処理し、クライアントで取り込まれたＭＦＣＣベクトルによって表された音声パ
タン中の語を認識する。この第二のフェーズの間、更に付け加えられた１３のデ
ルタ係数と、１３の加速係数を認識処理の一部として計算に加え、全部で３９の
前述した観測ベクトルＯｖが得られる。さらに、以前に定義した隠れマルコフモ
デル（ＨＭＭ）のセットを用いて、ユーザの発声に対応した語を、前述した方法
で決定する。これにより、問い合わせ処理での、語を「認識する」処理が行われ
、この処理結果は、以下での問い合わせ処理で用いられる。

【０１３２】語の認識処理の分散構成と高速性能が、それ自身特に有益であり、他の問い合
わせ処理を組み込んだり、必要としない他の環境と組み合わせて実施することは
、当該技術分野に精通した者にとっては、明白なものである。例えば、いくつか
のアプリケーションでは、コンピュータが生成した様式の中のデータ項目を埋め
るために、単純に、認識された個々の語を用いることもでき、上述したシステム
と処理方法は、これを行うために高速で信頼性の高い機構を提供することができ
る。

【０１３３】ユーザの音声が認識されると、ＳＲＥ１８２の処理フローは、ＳＲＥアンイニ
シャライゼーションルーチン６０４に進み、そこで、図示したように音声エンジ
ンはアンイニシャライゼーションされる。このブロックでは、ルーチン６０４ａ
により、先に初期化ブロックで生成された全てのオブジェクトを削除し、初期化
フェーズで初期化ブロックによって割当てられたメモリは、ルーチン６０４ｂに
よって削除される。

【０１３４】また、上述した内容は、本発明のサーバ側の音声認識システムで用いられる特
定のルーチンを実装する一実施例を例証したものにすぎない。本発明の開示によ
れば、本発明の所定の機能性と目的を同様に達成するために、他の変形も可能と
なることは明白である。

【０１３５】データベースプロセッサ１８６の動作−ＤＢプロセスユーザの問い合わせ処理お一部として用いられるＳＱＬクエリの構成を、図４
Ｂに示す、ここで、ＳＥＬＥＣＴＳＱＬ文は、既知のＣＯＮＴＡＩＮＳ述語を用
いて構成されることが好ましい。モジュール９５０は、このＳＥＬＥＣＴＳＱＬ
文に基づいて、ＳＱＬクエリを構成し、このクエリは、ユーザが発声した問い合
わせ（ここでは、質問と言う）に対応し、データベース中に格納された最適な問
い合わせ文を検索するために用いられる。次に、ルーチン９５１は、構成された
ＳＥＬＥＣＴ文にテーブル名称を付け加える。次に、ルーチン９５２により、ユ
ーザによって発せられた質問の名詞句の語数を計算する。さらに、ルーチン９５
３で、ＮＰで与えられた全ての語を収容するために必要なメモリを割当てる。次
に、ルーチン９５４により、（ＮＰで与えられた個々の語全てを識別する）語リ
ストを求める。その後、ルーチン９５５で、この個々の語のセットを、ＮＥＡＲ
（）キーワードで分離したＳＱＬクエリに付け加える。次に、ルーチン９５６で
、ＳＱＬクエリの各ＮＰの後ろに、ＡＮＤキーワードを付け加える。最後に、コ
ード９５７で、メモリリソースを解放し、次の繰り返し処理のために、ＮＰから
受信された語を格納するメモリを割当てる。以上のように、本処理の結果、ユー
ザの発声した質問に対応した完全なＳＱＬクエリが生成される。

【０１３６】ＳＱＬサーバへの接続図４Ｃに図示したように、ルーチン７１０でＳＱＬクエ
リを構成した後、ルーチン７１１は、問い合わせデータベース７１７への接続を
行い、引き続きユーザの問い合わせの処理を進める。この接続手順と、それに伴
う検索記録のセットは、以下の手順で実装される。１．ルーチン７１１Ａで、サーバとデータベースの名称を、ＤＢプロセスメンバー変数に割当てる。２．ルーチン７１１Ｂで、接続文字列を生成する。３．コード７１１Ｃの制御の元で、ＳＱＬサーバデータベースを接続する。４．ルーチン７１２Ａで、ＳＱＬクエリを受信する。５．コード７１２Ｂで、ＳＱＬクエリを実行する。６．ルーチン７１３で、クエリによって検索された記録の全数を取り出す。７．ルーチン７１３で、組になった質問の全数を格納するためのメモリを割当てる。８．ルーチン７１３で、組になった質問の全数を、配列の形で格納する。

【０１３７】図４Ｃのルーチン７１６で、ＮＬＥ１４（図５）から最良の回答ＩＤを受信す
ると、７１６Ｃに対応したコードがこれを受信し、さらにコード７１６Ｂに送り
、そこで記録番号を用いて、回答ファイルへのパスが決定される。次に、７１６
Ｃがこのファイルへのパスを用いてこのファイルを開き、回答に対応したファイ
ルの内容を読み取る。さらにこの回答は、７１６Ｄのコードによって圧縮され、
通信チャネル１６０Ｂ（図１）を介した伝送のために加工される。

【０１３８】ＮＬＱＳデータベース１８８−テーブル構成図７は、典型的なＮＬＱＳデータベース１８８（図１）で用いられるテーブル
の論理構造の一実施例を示すものである。ＮＬＱＳデータベース１８８が、遠隔
教育／訓練の環境として実装されたＮＬＱＳ問い合わせシステム１００の一部と
して用いられる場合には、このデータベースは、通常、いくつかのチャプター７
０２、７０３、７０４からなるコース７０１を含む、組織化されたマルチレベル
の階層構造を含むものとなる。これらのチャプターの各々は、チャプター１とし
て示された、一つあるいはそれ以上の数のセクション７０５、７０６、７０７を
有している。チャプター２、チャプター３…チャプターＮについても、同様の構
造となっている。各セクションは、以下に詳説するテーブルに格納された、一つ
あるいはそれ以上の質問／回答の組７０８、７０９、７１０を有している。この
構成は、教育／訓練の応用に対して適切で最適なものであるが、他の実装方法も
可能であり、電子商取引、電子支援、インターネット閲覧などの他の応用に対し
てはそれらの全体システムのパラメータに応じてより好適な構成とすることがで
きることは明白である。

【０１３９】ＮＬＱＳデータベース１８８の構成は、前述した切り換え可能な文法構造に対
して、複雑にリンクされている。言い換えると、ユーザが体現している背景（あ
るいは環境）は、いかなる時でも、そのセクションレベルでなされた選択に基づ
いて決定され、例えば、限定された質問／回答の組７０８のサブセットだけがセ
クション７０５で取り扱うのにふさわしいものとされる。すなわち、このような
背景にユーザが直面している間、ユーザの問い合わせを扱うために、このような
質問／回答の組に対して特定の適切な文法だけを切り換え選択するものとなって
いる。同様に、インターネットを使った商取引のための電子商取引アプリケーシ
ョンは、ユーザが選択可能なオプション（製品種類、サービス、問い合わせ先情
報など）を特定する第一レベルの「ホーム」ページ７０１を含み、その第二レベ
ルは特定の「製品種類」７０２、７０３、７０４等を含み、その第三レベルは、
特定の製品モデル７０５、７０６、７０７等を含むような階層構造から構成され
、適当な質問／回答の組７０８、７０９とこのような製品モデルのための問い合
わせを扱うためにカストマイズされた文法から構成されるものであってよい。な
お、アプリケーションによって、ビジネスのニーズと要望に応じて特定の実装方
法を変えることになり、このような個々のアプリケーションに対しては、処理ル
ーチンを適切い最適化することが必要となる。

【０１４０】テーブル構成本実施例では、各コースに対して、独立したテーブルを用いている。すなわち
、各データベースは、以下の３種類のテーブルを含んでいる。図７Ａに示される
マスターテーブル、図７Ｂに示されるような少なくとも一つのチャプターテーブ
ル、および図７Ｃに示されるような少なくとも一つのセクションテーブルである
。

【０１４１】図７Ａに示すように、マスターテーブルの一実施例は、６つの列を有している
。すなわち、フィールド名７０１Ａ、データ型７０２Ａ、サイズ７０３Ａ、Ｎｕ
ｌｌ７０４Ａ、基本キー７０５Ａ、およびインデックス７０６Ａである。これら
のパラメータは、データベース設計および構成の分野では、既知のものである。
マスターテーブルは、２つのフィールド、チャプター名７０７Ａおよびセクショ
ン名７０８Ａのみを有している。チャプター名およびセクション名は、通常、イ
ンデックス化されている。

【０１４２】チャプターテーブルの一実施例を、図７Ｂに示す。マスターテーブルと同様に
、チャプターテーブルも６つの列を有している。すなわち、フィールド名７２０
、データ型７２１、サイズ７２２、Ｎｕｌｌ７２３、基本キー７２４、およびイ
ンデックス７２５である。しかし、データには９この行を含んでいる。すなわち
、この場合は、チャプターＩＤ７２６、回答ＩＤ７２７、セクション名７２８、
回答タイトル７２９、組になっている質問７３０、回答へのパス７３１、クリエ
ータ７３２、データ生成日時７３３およびデータ修正日時７３４である。

【０１４３】チャプターテーブルのフィールドの説明を、図７Ｃに示す。８つのフィールド
７３０の各々は、記述欄７３１を有し、以下に対応したデータを格納している。

【０１４４】回答ＩＤ７３２−ユーザの都合に合わせて、各回答ごとに自動的に更新される
整数。

【０１４５】セクション名７３３−特定の記録が所属するセクションの名称。本フィールド
と回答ＩＤとを合わせて、基本キーとして用いられる。

【０１４６】回答タイトル７３４−ユーザの問い合わせへの回答のタイトルの簡単な説明。組になっている質問７３５−次の列、回答へのパスに格納されたパスをもつ回
答に対応した、一つあるいはそれ以上の数の質問の組。

【０１４７】回答へのパス７３６−直前の列に格納された関連した質問に対する回答を含む
ファイルへのパスを含むもの。単純な質問／回答アプリケーションの場合には、
このファイルはテキストファイルであるが、上述したようにデータリンク１６０
を介して何がしかの転写が可能なマルチメディアファイルであることも可能であ
る。

【０１４８】クリエータ７３７−データの中身を生成したクリエータの名称。データ生成日時７３８−データの中身が生成された日時。

【０１４９】データ修正日時７３９−データの赤みが変更、修正された日時。セクションテーブルの位置実施例を、図７Ｄに示す。セクションテーブルは、
６つの列を有している。すなわち、フィールド名７４０、データ型７４１、サイ
ズ７４２、Ｎｕｌｌ７４３、基本キー７４４およびインデックス７４５である。
データには７つの行、すなわち、回答ＩＤ７４６、回答タイトル７４７、組にな
っている質問７４８、回答へのパス７４９、クリエータ７５０、データ生成日時
７５１およびデータ修正日時７５２を有している。これらの名称は、上述したマ
スターテーブルおよびチャプターテーブルと同様のフィールドおよび行に対応し
ている。

【０１５０】なお、本例は、以上で説明した教育／訓練アプリケーションの特定のものに対
する実施の形態である。本発明が利用できる可能性のあるアプリケーションは多
岐にわたっており、各アプリケーションに応じてカストマイズが可能となってい
るため、（他の教育／訓練アプリケーションを含む）他のアプリケーションでは
、他のテーブル、行およびフィールドの構成と階層構造が必要となったり、それ
らによってより良い実装形態となる場合もありうる。

【０１５１】サーチサービス及びサーチエンジン―クエリーテキストサーチサービスは、図
１０に示すＳＱＬサーチシステム１０００により実行される。このシステムはク
エリーをサポートし、全文検索の処理を行う。此処に全文インデックスが存する
。

【０１５２】通常、ＳＱＬサーチシステムは、明瞭なユーザ発言に対応して構成された特定
のテキストクエリーによって指定される選択基準に、データベースインデックス
のいずれのエントリが一致するかを決定する。インデックスエンジン１０１１Ｂ
は、記憶された質問及び対応する回答に対してテキストのインデックス可能な単
位に対応するインデックスを、全文インデックステーブルに集めるものである。
これは文字列を走査し、ワードの境界を決定し、全てのノイズワードを取り除き
、そして残った語を全文インデックスに集める。選択基準に一致する全文データ
ベースへのエントリを容易とするために、独自のキー欄の値とランキング値が同
様に返される。カタログセット１０１３はファイル―システムディレクトリであ
り、管理者及びサーチサービス１０１０によってのみアクセス可能である。全文
インデックス１０１４は全文カタログへと組織され、これらは取り扱い容易な名
称によって参照される。一般的には、全データベースの全文インデックスデータ
は単一の全文カタログへと配置される。

【０１５３】前述（図７、７Ａ、７Ｂ、７Ｃ、７Ｄ）の全文データベースの図式は図１０に
示すテーブル１００６に記憶されている。これらのテーブルは例えば、特定のコ
ースに必要な記憶された質問／回答の対の構造を記述する必要がある。各テーブ
ル―コーステーブル、チャプタテーブル、及びセクションテーブルに対してフィ
ールド―欄情報があり、これがテーブルの論理構造を作り上げる各パラメータを
規定する。この情報はユーザ及びシステムテーブル１００６に記憶される。これ
らのテーブルに対応するキー値は全文カタログ１０１３として記憶される。した
がって、全文検索を処理すると、サーチエンジンはサーチ基準に一致する行のキ
ー値をＳＱＬサーバに返す。リレーショナルエンジンがその後、この情報を用い
て質問へと応答する。

【０１５４】図１０に示すように、全文クエリー処理は以下のように実施される。１．ＤＢ処理装置１８６によって形成されるＳＱＬ全文構造を用いたクエリー１
００１をＳＱＬリレーショナルエンジン１００２へと提出する。２．ＣＯＮＴＡＩＮＳ述部又はＦＲＥＥＴＥＸＴ述部を含むクエリーがルーチン
１００３によって書き換えられ、後に全文プロバイダ１００７から戻される応答
性の高いローセットが、述部が作用するテーブルへと自動的に結合される。この
書き換えは、これらの述部が従来のＳＱＬサーバへのシームレスな拡張であるこ
とを確保するために用いられるメカニズムである。３．この後、全文プロバイダ１００７が呼び出され、クエリーに対して以下の情
報を送る。ａ．前方検索条件パラメータ（これは全文検索条件を示す論理フラグである）ｂ．テーブルの全文インデックスが存する全文カタログの名称ｃ．言語（例えば、単語分け）に対して用いられるローカルＩＤｄ．このクエリーに用いられるデータベース、テーブル、及び欄のアイデンティ
ティｅ．もしクエリーが２つ以上の全文構造からなるなら；この場合、全文プロバイ
ダ１００７が各構造に対して個別に呼び出される。４．ＳＱＬリレーショナルエンジン１００２は前方検索条件の内容を検査しない
。代わりに、この情報は全文プロバイダ１００７へと渡され、これがクエリーの
妥当性を確認し、その後全文検索条件の適当な内部表現を構成する。５．次にクエリー要求／コマンドがクエリーサポート１０１１へと渡される。６．クエリーサポート１０１２が、全文検索基準に一致するすべての行に対して
独自のキー欄値を含む全文カタログ１０１３からローセット１００９を戻す。ラ
ンク値もまた各行に対して戻される。７．キー欄値のローセット１００９がＳＱＬリレーショナルエンジン１００２へ
と渡される。クエリーの処理がＣＯＮＴＡＩＮＳＴＡＢＬＥ（）関数或いはＦＲ
ＥＥＴＥＸＴＴＡＢＬＥ（）関数と関係するなら、ランク値が戻され、それ以外
の場合はランク値をフィルタにかけることで除外する。８．ローセット値１００９はリレーショナルデータベース１００６から得られた
値と共に最初のクエリーへと加えられ、そして結果セット１０１５が更なる処理
のために戻されてユーザへの応答を生じる。

【０１５５】クエリー認識処理のこの段階において、ユーザによる発言は既に注意深く作ら
れたテキストクエリーへと迅速に変換されており、そしてこのテキストクエリー
は、好適一致する質問／回答対の最終決定のために結果の初期一致群がさらに評
定可能なように、最初に処理されている。これを可能とする根本原理は、全文検
索のために登録された各テーブルにおける全文ユニークキー欄の存在である。こ
のように、全文検索を処理すると、ＳＱＬサーチサーバ１０１０がデータベース
と一致する行のキー値をＳＱＬサーバ１００２へと戻す。これら全文データベー
ス１０１３及び全文インデックス１０１４の維持において、本発明は、全文登録
欄がアップデートされて直ぐには全文インデックス１０１４がアップデートされ
ないとの他に類を見ない特徴を有する。再度に亘り識別待ち時間を短くし反応速
度を高めるなどの為に、この操作は排除される。このように、さもなくばかなり
の時間を要するであろう全文インデックステーブルのこのアップデートは、他の
データベースアーキテクチャと較べ、代わりに、より好適な時に同期的に実施さ
れる。

【０１５６】ＮＬＥ１９０とＤＢ処理装置１８８とのインターフェースユーザクエリー発言へと対応する質問候補の結果セット１０１５は、図４Ｄに
示す更なる処理のためにＮＬＥ１９０へと送り出され、「最良」一致の質問／解
答対を決定する。ＮＬＥ／ＤＢ処理装置インターフェースモジュールは、ユーザ
クエリーの取り扱い、ユーザクエリーに基づくＳＱＬクエリーからの検索質問の
組のうちの名詞句（ＮＰｓ）の解析、検索質問のＮＰｓとユーザクエリーのＮＰ
との比較などを、ＮＬＥ１９０とＤＢ処理装置１８８との間で調整する。したが
って、サーバ側コードのこの部分には関数が含まれ、これがＮＬＥブロック１９
０とＤＢ処理装置ブロック１８８の双方に常駐する処理の仲立ちをする。この関
数は図４Ｄに示され；ここでわかるように、コードルーチン８００はユーザの質
問から名詞句（ＮＰ）リストを抽出する機能を果たす。コードのこの部分はＮＬ
Ｅ１９０と影響し合い、ユーザによって明瞭に発音された文の名詞句のリストを
得る。同様に、ルーチン８１３は、対応する候補／対の質問１０１５のリストか
らＮＰリストを検索し、これらの質問を（ＮＰ値によってランク付けされる？）
列へと記憶する。このように、この時点でＮＰデータが、質問候補１０１５のた
めと同様に、ユーザクエリーのために生成されている。「如何なる問題が大統領
にアメリカ企業に対する外国貿易政策の影響を考慮せしめたのか？（What issue
s have guided the President in considering the impact of foreign trade p
olicy on American businesses?）」のような一文の名詞句断定の一例としては
、ＮＬＥ１９０は以下のものを名詞句として返すであろう：大統領（President
）、問題（issues）、貿易政策の影響（impact of foreign trade policy）、ア
メリカ企業（American businesses）、影響（impact）、外国貿易の影響（impac
t of foreign trade）、外国貿易（foreign trade）、外国貿易政策（foreign t
rade policy）、貿易（trade）、貿易政策（trade policy）、政策（policy）、
企業（businesses）。ＮＬＥ１９０によって用いられる方法論はしたがって、例
示のクエリーに対応して生成されたこの名詞句の組及び名詞準句（noun sub-phr
ases）から当業者には明らかである。

【０１５７】次に、最良回答獲得（Get Best Answer）ＩＤ８１５として識別される関数が
実施される。コードのこの部分はユーザクエリーに対応する最良の回答ＩＤを獲
得する。これを為すために、ルーチン８１３Ａ及び８１３Ｂはまず、ユーザクエ
リーでの名詞句と一致する検索群１０１５における各エントリに対して、名詞句
の数を見出す。その後、ルーチン８１５ａが、最大数の一致名詞句を含む検索候
補群１０１５から最終的な結果レコードを選択する。

【０１５８】従来、名詞とは一般に「命名」語、具体的には「人、場所、又は物」の名称と
考えられている。ジョン（John）、ロンドン（London）、及びコンピュータ（co
mputer）などの名詞は確かにこの説明に合致するが、本発明によって名詞として
分類される語のタイプはこれよりもずっと広い。名詞はまた、誕生（birth）、
幸福（happiness）、進化（evolution）、科学技術（technology）、経営（mana
gement）、想像（imagination）、報復（revenge）、政治（politics）、希望（
hope）、料理法（cookery）、スポーツ（sport）、識字能力（literacy）、など
の抽象的及び無形の概念をも示すことができる。会話の他の箇所に比べ名詞は非
常な多様性を有するが故に、言語基準のキーとして名詞句を考慮することが遥か
に適切であることを出願人は見出した。そして、本発明により名詞と分類される
非常に多くの項目は、当該分野において知られる先行技術と比べより簡単且つ迅
速に個々の発言を選別し識別することに役立つ。

【０１５９】これと同じ考えに従い、本発明はまた別の言語要素―語句（word phrase）を
採用・遂行し、音声クエリー認識を容易となす。名詞句、動詞句、或いは形容詞
句であろうと、語句の基本構造は３つの部分―「主要語前の文字列（pre-Head s
tring）」、「主要語（Head）」、及び「主要語後の文字列（post-Head string
）」からなる。例えば、最小限の名詞句「その子供たち（the children）」にお
いては、「子供たち（children）」が名詞句の主要語として分類される。要約す
れば、名詞句の多様性及び頻度故に、それにより記憶回答が言語学的に選ばれる
基準として名詞句を採用することは、他の自然語同様、英語の自然語への本技術
の適用において確固たる根拠を有する。そしてつまり、総合された発言中の全名
詞句は音声クエリーフィンガープリントの独自のタイプとして極めて好適に作動
する。

【０１６０】次に、選ばれた最終結果のレコード質問に対する最良回答に対応するＩＤがル
ーチン８１５によって生成され、次にこれを図４Ｃに示すＤＢ処理へと返す。こ
こでわかるように、最良回答ＩＤＩはルーチン７１６Ａによって受け取られ、
ルーチン７１６Ｂによって用いられ回答ファイルパスを検索する。次にルーチン
７１６Ｃが回答ファイルを開いて読み取り、ルーチン７１６Ｄへと同一の内容を
伝える。後者は次に回答ファイルデータを圧縮し、前述の処理のために（すなわ
ち、可聴フィードバック、可視テキスト／画像などへの変換のために）データリ
ンク１６０を介してそれをクライアント側システム１５０へと送る。繰り返せば
、学習／教育用途し関しては回答ファイルは単一のテキスト句からなるものでよ
いが、他の用途においては内容及びフォーマットは好適な形式の特定な質問へと
体裁を整えられることとなる。例えば、「回答」は応答するカテゴリ要素のリス
ト（すなわち、特定の著者の本のリスト）などへと対応する複数のエントリのリ
ストからなるものとできる。その他の変更例は独自の状況に応じて明らかである
。

【０１６１】自然語エンジン１９０再度図４Ｄを参照し、ＮＬエンジン１９０の概略構造を述べる。このエンジン
は、クエリーから抽出された句の句解析と並んでワード解析、すなわちユーザク
エリーを作り上げるワードの形態素解析を行う。

【０１６２】図８Ａに示すように、形態素解析に用いられる関数は、トークナイザー（toke
nizers）８０２Ａ、ステマー（stemmers）８０４Ａ、形態素アナライザー（morp
hological analyzers）８０６Ａを含む。句解析を構成する関数は、トークナイ
ザー、タガー（taggers）、及びグルーパー（groupers）を含み、その関係は図
８に示される。

【０１６３】トークナイザー８０２Ａはソフトウエアモジュールであり、入力文８０１Ａの
テキストを分解し、トークン８０３Ａのリストとするように機能する。この機能
の実行において、トークナイザー８０２Ａは入力テキスト８０１Ａを走査し、ト
ークン、すなわち、概して個々の文字よりは大きいが句及び文よりは小さい有用
な有意味単位、の一群としてこれを扱う。これらのトークン８０３Ａはワード、
ワードの分離可能部分、及び句読点を含む。各トークン８０３Ａにはオフセット
と長さが与えられる。トークン化の第一段階は、入力テキストから個別のトーク
ンを抽出し、入力テキスト内に由来する各トークンのオフセットのトラックを維
持するセグメント化である。次に、その形状に基づいてカテゴリを各トークンと
関連させる。トークン化処理は技術的に公知であり、よって本発明に好適な如何
なる従来の出願によっても実施可能である。

【０１６４】トークン化に続きステマー処理８０４Ａが実行されるが、これはトークンを解
析しそれぞれの基語（stems）８０５Ａを決定するための２つの別個の形態―屈
折形及び派生形、を含む。屈折ステマーは接辞を認識し、基語であるワードを返
す。一方派生ステマーは派生接辞を認識し、一つまたは複数の基語を返す。ステ
マー８０４Ａは入力ワードをその基語と関連付けるが、音声情報の部分は有しな
い。アナライザー８０６Ｂは文脈とは無関係にワードを取り上げ、発言８０６Ａ
のうちの可能性のある部分の群を返す。

【０１６５】図８に示すように、句解析８００は次のステップであり、トークン化の後に行
われる。トークン８０３はタガールーチン８０４によって音声タグの部分へと割
り当てられ、そしてグルーパールーチン８０６が、ある種の統語的タイプの句と
してワードのグループを認識する。これらの統語的タイプは、例えば前述の名詞
句を含むが、必要に応じて動詞句、形容詞句などの他のタイプも含むことが可能
である。具体的には、タガー８０４は会話の一部から曖昧さを除去するもの（pa
rts-of-speech disambiguator）であり、文脈においてワードを解析する。これ
は固有の形態素アナライザー（図示せず）を有し、各トークンにおいて会話のう
ちの可能性のある全ての部分を識別可能せしめる。タガー８０４の出力は文字列
であり、各トークンは会話部分（parts-of-speech）ラベル８０５でタグ付けさ
れている。言語処理８００における最後のステップはワードのグループ化であり
、句８０７を形成する。この機能はグルーパー８０６によって実行され、そして
もちろん、タガー構成要素８０４の性能及び出力に大きく依存する。

【０１６６】したがって、言語処理８００の最後では、名詞句（ＮＰ）８０７のリストがユ
ーザのクエリー発言に応じて生成される。ＮＬＥ１９０によって生成されたこの
ＮＰｓの群は、最良の回答を得るための検索を精緻化するのに著しく役立ち、よ
って後にユーザの質問に対して単一の最良な回答がもたらされることが可能とな
る。

【０１６７】ＮＬＥ１９０の特有な構成要素が図４Ｄに示され、そして幾つかの構成要素を
含む。これらの構成要素のそれぞれが今説明したようなＮＬＥ１９０に要求され
る幾つかの異なった機能を果たす。

【０１６８】グルーパーリソースオブジェクト及びライブラリの初期化９００―このルーチ
ンは、グルーパーリソースオブジェクト及びライブラリの創出に必要な構造体変
数を初期化する。具体的には、これはＮＬＥ１９０によって用いられる特定の自
然語を初期化し名詞句を作り出すもので、例えば、英語市場に供されるシステム
では英語の自然語が初期化される。次にそれはまた、それぞれルーチン９００Ａ
、９００Ｂ、９００Ｃ及び９００Ｄを用いて（前述の）トークナイザー、タガー
そしてグルーパーに必要とされるオブジェクト（ルーチン？）を創出し、これら
のオブジェクトを好適な値で初期化する。これはまたメモリを割り当て、検索さ
れた質問対についての認識された全ての名詞句を記憶する。

【０１６９】与えられたテキストからの（クエリーすなわち対の質問からの）ワードのトー
クン化は、ルーチン９０９Ｂを用いて実行される―ここで全てのワードはＮＬＥ
１９０リソースによって使用されるローカル辞書の助けによってトークン化され
る。結果トークン化されたワードはタガールーチン９０９Ｃに渡される。ルーチ
ン９０９Ｃでは、全てのトークンのタグ付けが行われ、出力がグルーパールーチ
ン９０９Ｄへと渡される。

【０１７０】ＮＰリストを形成するためのタグ付けされた全てのトークンのグループ化は、
グルーパーがタグ付けされた全てのトークンワードをグループ化して名詞句を出
力するようにルーチン９０９Ｄによって実行される。

【０１７１】グルーパーリソースオブジェクトの非初期化及びリソースの解放は、ルーチン
９０９ＥＡ、９０９ＥＢ、及び９０９ＥＣによって実行される。これらはトーク
ンリソース、タガーリソース、グルーパーリソースをそれぞれ含む。初期化後、
リソースは解放される。全ての名詞句を記憶するのに用いられたメモリもまた割
り当てを取り消される。

【０１７２】更なる実施例図１３に示される本発明の電子商取引実施例では、ウエブページ１３０が書籍
１３１、音楽１３２などの標準的な可視リンクを有し、適当なリンクをクリック
することで顧客はそれらのページへと案内される。ウエブページは、ＨＴＭＬ、
ｊａｖａアプレット、或いはユーザのブラウザと相互作用する同様のコード付け
技法を用いて実行することができる。例えば、仮に顧客がアルバートというアー
ティストによるアルバムＣを購入したいと欲するなら、彼は幾つかのウエブペー
ジを以下のようにして詳しく検討することができる：彼はまず音楽（図１３、１
３６）をクリックし、それからレコード（図１４、１４５）をクリックする。図
１５に示すように、これはレコード１５５のためのリンクを有する別のウエブペ
ージ１５０を立ち上げ、下位カテゴリ―アーティスト１５６、歌１５７、曲名１
５８、ジャンル１５９を有する。顧客は次に選択範囲のうちからアーティストを
選ぶためにアーティスト１５６をクリックしなくてはならない。これは図１６に
示すように別のウエブページ１６０を表示する。このページには図示のように様
々なアーティスト１６５がリストされ―カテゴリアーティスト１６５の元にア
ルバート１６５、ブルックス１６６、チャーリー１６７、ホワイト１６９がリス
トされている。顧客はここで、アルバートで入手可能なアルバムを閲覧するため
にアルバート１６６をクリックしなくてはならない。これが為されると、別のウ
エブページが図１７に示すように表示される。このウエブページ１７０は再び、
同様な外観及び雰囲気を表すが、見出しタイトル１７５の元には入手可能なアル
バム１７６、１７７、１７８がリストされている。顧客はまた、各アルバムにつ
いて追加情報１７９を読むことができる。このアルバム情報は小売店で購入され
る収縮包装されたアルバムの解説書きに類似したものである。一つのアルバムＡ
が特定されると、顧客はアルバムＡ１７６をクリックしなくてはならない。これ
により通常は、その入手可能性、価格、送料及び手数料などについての情報を有
する別のテキストボックスが立ち上がる。

【０１７３】ウエブページ１３０が上述したタイプのＮＬＱＳの機能を備えると、ウエブペ
ージは上述したクライアント側及びサーバ側音声認識モジュールと相互作用する
。この場合、ユーザはコンタクト・ミー・フォー・ヘルプ（Contact Me for Hel
p）１４８と称されるボタン（例えば、これはスクリーン上のリンクボタンであ
ってもよいし、キーボード上のキーであってもよい）を単にクリックすることで
問い合わせを開始することができ、そして必要とする情報を如何に引き出すかを
キャラクタ１４４に教わる。もしユーザがアルバートというアーティストのアル
バムＡを欲するなら、ユーザは煉瓦やモルタルの施設で人間の店員に質問をする
ときと大体同じように「ブルックスのアルバムＡはありますか？」と明瞭に発音
する。本発明の迅速な認識性能により、ユーザの質問には、ユーザの自国語で回
答を喋りたてるキャラクタ１４４からリアルタイムで回答がある。必要であれば
、キャラクタの回答が見え、そしてセーブ／プリントオプションも実行可能なよ
うに、読みやすいワード気球１４９も表示してよい。ウエブサイトの各ページに
ついて、同様に適当な質問／回答の対を本教示に基づいて構成することができ、
よって顧客は、ウエブサイトの全ての局面において通常会話的、人間的な質疑応
答の対話をエミュレートする環境を供与される。キャラクタ１４４は、特定の商
業用途に応じて、或いは顧客の体験をより良いものとするために特定の音声スタ
イル（男性、女性、若者、年配者、など）を取るようユーザ自身の好みなどによ
って変更・調整可能である。

【０１７４】同様なやり方で、明瞭に発音されたユーザクエリーが従来のサーチエンジンク
エリーの一部として受け取られ、従来のテキストクエリーを用いて為すのと同様
なやり方でインターネット上の興味ある情報を探し出す。仮に適度に近接した質
問／回答の対がサーバ側で得られないなら（例えば仮に、ユーザの質問への適当
な対の一方としてある程度の信頼水準に達しなければ）、ユーザは範囲拡大のオ
プションをあてがわれ、そしてクエリーは同時に多数のサーバに亘る一つ以上の
異なるＮＬＥｓへと供与され、好適に合致する質問／回答の対を見出す尤度を向
上させる。さらに、必要であれば、従来のサーチエンジンがユーザの質問へと対
応する多数の潜在的「ヒット」を返すのと同じやり方で、一つ以上の「適合」を
見出すことも可能である。このような質問には、もちろん、リアルタイム動作は
可能とは思われないが（散在的且つ分散的処理が故に）、広範囲な補助的質問／
回答データベースシステムによってもたらされる利点はいくらかのユーザにとっ
ては望ましいであろう。

【０１７５】同様に明らかなことには、本発明のＮＬＱＳは非常に自然であり、且つユーザ
に、そして電子商取引オペレータにも同様に多くの時間を節約する。電子サポー
ト実施例においては、顧客は、生身の顧客エージェントを必要とせずに、迅速且
つ効率的に情報検索できる。例えば、消費者コンピュータシステムベンダ関連サ
ポートサイトでは、単純な診断用ページが彼／彼女をアシストするための可視サ
ポートキャラクタと共にユーザへと提供される。そしてユーザは「症状」ページ
からアイテム（すなわち、「モニタ」問題、「キーボード」問題、「プリンタ」
問題など）を、サポートキャラクタからの勧めに応じてそのような症状を明瞭に
発音することだけで選択できる。その後システムは、認識された特定の病症に対
して、リアルタイムでユーザをより詳細な下位メニュー、可能性のある解決法な
どへと導く。プログラム可能なキャラクタの使用はこのようにウエブサイトを、
膨大な数のヒット、すなわち顧客を受け入れ可能な規模とすることができ、これ
には対応して人的資源の数を増やす必要及びそれに付随する研修の問題が存在し
ない。

【０１７６】更なる実施例として、特定のウエブサイト上での情報検索を本発明のＮＬＱＳ
を使用して速めることができる。さらに非常に役立つことには、情報は会話とい
う自然なインターフェースを介してユーザフレンドリーな様式で提供される。ウ
エブサイトの大多数は現在、質問または問題に対する回答を得るために通常ユー
ザが一つ一つ取り組む照会頻度の高い質問のリストを採用している。例えば、図
１３に示すように、顧客はヘルプ１３３をクリックしてリスト群とのインターフ
ェースを開始する。図１８に示すように、一般的なウエブページ用のウエブサイ
トプランが表示される。これは、照会頻度の高い質問のリストにたどり着くため
に通り過ぎなくてはならないページの数を示している。このページで一度、ユー
ザはスクロールし、彼／彼女の問い合わせと一致する質問を手動で特定しなくて
はならない。この処理は大概骨の折れる仕事でありユーザの問い合わせに答える
情報を出すとも出さないとも限らない。この情報を表示するための現在の技術が
図１８に示されている。この図は、一般的なウエブサイトで情報が如何に組織化
されているかを特定しており：ウエブページのホームページ上に通常示されるヘ
ルプリンク（図１３、１３３）は、１８０として図１８に図示されている。再度
図１８を参照すると、情報の各下位カテゴリは別のページにリストされている。
例えば、１８１は、「初めての方に」、「検索情報」、「注文」、「発送」、「
あなたの口座」などの下位トピックスをリストする。他のページは「口座情報」
１８６、「レートとポリシー」１８５などを取り扱う別のレベルでは、「初めて
の方に」１９６、「照会頻度の高い質問」１９５、「安全購入の保障」１９４な
どの特定のページ上で下位―下位トピックスのみを取り扱うページがある。よっ
て、もし顧客が照会頻度の高い質問リンクへと行くことで最良の答えを得られる
問い合わせを抱えているなら、彼又は彼女は照会頻度の高い質問ページ１９５へ
とたどり着くために、３つのレベルの混雑し取り散らかったスクリーンページを
通り過ぎなくてはならない。通常、手動でスクロールし通過しなくてはならない
質問１９８のリストは多い。視覚的スクロールの間に、顧客は、彼又は彼女の質
問をリストされた各質問と視覚的及び知的に一致させなくてはならない。可能性
のある一致が見出されると、質問はクリックされ、そしてテキスト形式で回答が
現れ、そして読み取られる。

【０１７７】これとは対照的に、本ＮＬＱＳが使用可能なウエブページを用いて質問に対し
て回答を得る処理は、ずっと少ない労力で、効率的に実行可能である。ユーザは
「ヘルプ」（図１３、１３３）とのワードを明瞭に発音する。これは即座にキャ
ラクタ（図１３、１３４）を出現せしめ、「お手伝いしましょうか。あなたの質
問を言ってください？」との友好的な対応をとらせる。顧客が質問を述べると、
キャラクタは活発に振る舞い、或いは「ありがとうございます、答えを持ってす
ぐに戻ってきます。」と返す。短時間（好ましくは、５〜７秒を超えない）が経
過後、キャラクタはユーザの質問に対する回答を喋る。図１８に示すように、回
答は会話の形式でユーザへと戻される回答１９９であり、これは質問１９５と対
になった回答である。例えば、回答１９９：「Ｖｉｓａ、ＭａｓｔｅｒＣａｒｄ
、Ｄｉｓｃｏｖｅｒのクレジットカードなら受け取れます。」は問い合わせ２０
０「どのような形態の支払いを受け入れるか？」に対する反応である。

【０１７８】本発明の別の実施例が図１２に示される。このウエブページは、ウエブ基盤の
学習環境においてＮＬＱＳを採用した典型的なウエブサイトを示すものである。
図１２に示すように、ブラウザ１２０におけるウエブページは２つ以上のフレー
ムへと分割されている。インストラクタを装うキャラクタ１２１は画面上で利用
可能であり、マイクロフォンへと「ヘルプ」というワードを喋ること（図１３、
１３４）、又は「会話するにはここをクリックしてください（Click to Speak）
」リンクをクリックすること（図１２、１２８）のいずれかによって学生がクエ
リーモードを開始したときに現れる。するとキャラクタ１２１は学生を促してド
ロップダウンリスト１２３からコース１２２を選択させる。もしユーザがコース
「Ｃプラスプラス」を選ぶと、キャラクタは口頭で、コース「Ｃプラスプラス」
が選択されたことを確認する。キャラクタは続いて学生に、そこから質問が利用
可能なチャプタ１２４のための選択肢を含むドロップダウンリスト１２５から次
の選択をするように仕向ける。学生が選択後再び、キャラクタ１２１は会話で選
択を確認する。次に、キャラクタ１２１は学生を促し、そこから質問が利用可能
なチャプタの「セクション」１２６をドロップダウンリスト１２７から選ばせる
。学生が選択後再び、キャラクタ１２１は選ばれた「セクション」１２６を明瞭
に発音することで選択を確認する。学生に注意を促すものとして、可能性のある
質問のリストがリストボックス１３０に現れる。さらに、システムを利用するた
めの情報１２９が表示される。選択がすべて終わると、学生はキャラクタから以
下のように質問を行うよう促される：「ここであなたの質問をしてください」。
そして学生は彼の質問を喋り、短時間経過後、キャラクタは以下のように質問を
前置した回答で応じる：「あなたの質問・・・・・に対する答えは以下のもので
す：・・・・・・・・」。このやり方は、コースのどの箇所についても質問に対
する解答を学生が迅速に検索できるものとし、指導書の退屈さや引用あるいはイ
ンデックスに取って代わる。すなわちこれは、進行中の質問に答える仮想教師、
すなわちフラッシュカード代替物であることから、多くの用途に役立つ。

【０１７９】発明者に入手可能な暫定データから見積もると、システムは１００〜２５０の
質問／回答の対を容易に収容でき、それと同時に上述の構造及び方法を用いてユ
ーザにリアルタイム感覚及び外観（すなわち、待ち時間１０秒未満、送信はカウ
ントせず）を提供できる。当然ながら、さらなる処理速度が利用可能となり、ま
た各特定環境に対して言及された様々な構成要素へとルーチン最適化が行われれ
ば、これらの数値が良くなることが期待される。

【０１８０】繰り返すが、上記のものは、本発明の数多い可能性ある用途を単に例示したに
すぎず、他の民生用途（知的な双方向おもちゃなど）と同様、より多くのウエブ
基盤企業が本教示を利用することが期待される。ここまで本発明を好ましい実施
の形態に基づいて記述したが、本発明の教示から離れることなく前記実施例に対
して多くの変更・修正を行い得ることは当業者にとって明らかであろう。また、
本発明のより適切な局面を適度に重要視し焦点をあわせるために、本開示の多く
の局面が簡略化されていることも当業者にとって明らかであろう。本発明の方法
を達成するために実行されるマイクロコード及びソフトウエアルーチンは、永久
磁気媒体、非揮発性ＲＯＭ、ＣＤ−ＲＯＭ、或いは他の好適な機械可読フォーマ
ットにおいて様々な形態で実施可能である。したがって、付随のクレームによっ
て規定されるように、そのような変更・修正のすべてが本発明の範囲及び精神内
に含まれるものとする。

【図面の簡単な説明】

【図１】図１は本発明の自然語クエリーシステム（ＮＬＱＳ）の好ましい実施の形態の
ブロック図であり、これはクライアント／サーバのコンピュータアーキテクチャ
にわたり分散されており、対話学習システム、電子商取引システム、電子サポー
トシステムなどとして使用可能である。

【図２】図２はクライアント側システムの好ましい実施の形態のブロック図であり、音
声獲得モジュール、部分的音声処理モジュール、コード化モジュール、伝達モジ
ュール、エージェント制御モジュール、及び回答／音声フィードバックモジュー
ルを含み、これは上記ＮＬＱＳに使用可能である。図２−２は図２のクライアント側システムに用いられる初期化ルーチン及び手
続きの組の好ましい実施の形態のブロック図である。

【図３】図３は図２のクライアント側システムでの発言の繰り返しの組の取り扱いに用
いられるルーチン及び手続きの組の好ましい実施の形態のブロック図であり、遠
く離れたサーバへとそのような発言の音声データを送信し、そのようなサーバか
ら好適な反応を受け取る。

【図４】図４は図２のクライアント側システムの非初期化に用いられる初期化ルーチン
及び手続きの組の好ましい実施の形態のブロック図である。図４Ａは図５のサーバ側システム用の音声認識モジュールの分散構成要素を実
行するために用いられるルーチン及び手続きの組の好ましい実施の形態のブロッ
ク図である。図４Ｂは図５のサーバ側システム用のＳＱＬクエリービルダを実行するために
用いられるルーチン及び手続きの好ましい組のブロック図である。図４Ｃは図５のサーバ側システム用のデータベース制御処理モジュールを実行
するために用いられるルーチン及び手続きの組の好ましい実施の形態のブロック
図である。図４Ｄは図５のサーバ側システム用に、クエリー構築サポート、クエリー応答
モジュール、及びデータベース制御処理モジュールへとインタフェースを提供す
る自然語エンジンを実行するために用いられるルーチン及び手続きの組の好まし
い実施の形態のブロック図である。

【図５】図５はサーバ側システムの好ましい実施の形態のブロック図であり、発言の処
理を完了するための音声認識モジュール、環境及び文法制御モジュール、クエリ
ー構築モジュール、自然語エンジン、データベース制御モジュール、及び上記Ｎ
ＬＱＳで使用可能なクエリー応答モジュールを含む。

【図７】図７は図５に示すサーバ側システムの一部として用いられる全文データベース
の構成を示す。図７Ａは本発明の対話学習実施例用に、図５に示すサーバ側システムの一部と
して用いられる全文データベースコーステーブルの構成を示す。図７Ｂは本発明の対話学習実施例用に、図５に示すサーバ側システムの一部と
して用いられる全文データベースチャプタテーブルの構成を示す。図７Ｃは本発明の対話学習実施例用に、図５に示すサーバ側システムの一部と
して用いられるチャプタテーブルで用いられるフィールドを記述する。図７Ｄは本発明の対話学習実施例用に、図５に示すサーバ側システムの一部と
して用いられるセクションテーブルで用いられるフィールドを記述する。

【図８】図８は自然語エンジンの好ましい実施の形態により発言に対してなされる第一
段階の操作のフローダイアグラムであり、トークン化、タグ付け、グループ化を
含む。図８Ａは自然語エンジンの好ましい実施の形態により発言に対してなされる操
作のフローダイアグラムであり、ステム化、字句解析を含む。

【図１０】図１０は本発明のＳＱＬデータベースサーチ及びサポートシステムの好ましい
実施の形態のブロック図である。

【図１１】図１１Ａ〜Ｃは図２のＮＬＱＳによる質問認識のために実行される好ましい二
段階処理で行われるステップを示すフローダイアグラムである。

【図１２】図１２はウエブ基盤の会話基盤学習／訓練システムの一部として実施される本
発明の更なる実施例の説明図である。

【図１３】ウエブ基盤の電子商取引システムの一部として実施される本発明の更なる実施
例の説明図である。

【図１４】ウエブ基盤の電子商取引システムの一部として実施される本発明の更なる実施
例の説明図である。

【図１５】ウエブ基盤の電子商取引システムの一部として実施される本発明の更なる実施
例の説明図である。

【図１６】ウエブ基盤の電子商取引システムの一部として実施される本発明の更なる実施
例の説明図である。

【図１７】ウエブ基盤の電子商取引システムの一部として実施される本発明の更なる実施
例の説明図である。

【図１８】図１８は電子商取引ウエブサイト用の音声基盤のヘルプページの一部として実
施される本発明の更なる実施例の説明図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５７１Ｔ 21/02 3/02 ３０１Ｇ (72)発明者バブ、バンディラメッシュインド、アンドラプラデッシュ州、アナンタプル 515 005、オールドタウン、プラブハカールストリート 20／273 (72)発明者モルクハンディカール、キショールインド、カルナータカ州、グルバルガ 585 102、ジュエルギロード、エス．ビィ．エッチ．コロニー、シャープ１− 1495／５ (72)発明者グルラジ、パラキインド、カルナータカ州、バンガロール 560 024、ヘバール、ユーエイエスクオーターズビィー７Ｆターム(参考） 5B091 CB12 CD03 5D015 CC11 KK02 KK04 5D045 AB01 AB26 【要約の続き】なる処理が、単一の格納された質問にサーチが所ぼり込まれる。単一の格納された質問に対応する回答は、次にファイルパスから検索され、圧縮形式でクライアント（１５０）に送信される。クライアント（１５０）において、ユーザのクエリーに対する回答は、彼又は彼女の自然語によりテキストー音声エンジン（１５９）を用いててユーザに対して発声される。システム（１００）は、トレーニングを必要とせず、幾つかの自然語により動作する。

Claims

【特許請求の範囲】

【請求項１】一乃至複数の単語を含む文を含む認識すべき発声音声を示す発声音声信号を受
信する第一の可聴信号受信ルーチンと、前記発声音声信号から、前記発声音声データ中の発声された単語の認識を可能
とするために実質的に不十分なコンテントを持つ第一のデータによって特徴づけ
られる音声データ値を発生する第一の信号処理ルーチンと、別のコンピュータシステムによって実行される第二の処理ルーチンに通信チャ
ンネルを介して送信するのに適したフォーマットに音声データ値をフォーマット
するフォーマットルーチンとによって構成され、音声データ値に含まれた前記第一のデータを前記第二の処理ルーチンによって
使用して前記第一のデータコンテントと組み合わせた時に前記別のコンピュータ
システムにおいて前記発生音声において発生された単語の認識を完了するために
十分な追加のデータコンテントを算出することを特徴とする分散音声クエリー認
識を行うためのコンピュータシステムを補助する機械により実行可能なプログラ
ム。
【請求項２】前記プログラムは、クライアント−サーバベースシステムの一部を構成するコ
ンピュータシステムによって実行されるブラウザプログラムである請求項１に記
載のプログラム。
【請求項３】前記第一の信号処理ルーチンは、連続的発声音声の流れを取り扱うように構成
され、各発声音声に関する音声データ値をリアルタイムに発声する請求項１に記
載のプログラム。
【請求項４】前記第一のデータコンテントは、十分に小さく、前記フォーマットルーチンは
、発声音声に対応して発声される音声データ値の連続した流れをリアルタイムに
取り扱うことが出来る請求項１に記載のプログラム。
【請求項５】前記各音声データ値は、ユーザの発声音声信号の対応する周波数成分に関する
別のケプストラム計数に対応し、前記第一のデータコンテントは、可聴音声周波
数範囲に亘る周波数成分に対応する請求項１に記載のプログラム。
【請求項６】前記追加のデータコンテントは、対応する前記ケプストラム計数値の組から算
出されるデルタ及び加速係数の組に対応する請求項５に記載のプログラム。
【請求項７】前記追加のデータコンテント、前記追加のデータコンテントが前記第一の信号
処理ルーチンにより発生された場合に比べて小さい潜時で前記第二の処理ルーチ
ンにより発生される請求項６に記載のプログラム。
【請求項８】前記第一のデータコンテント及び前記追加のデータコンテントの発生に必要な
信号処理機能は、前記第一及び第二の信号処理ルーチンのそれぞれにおいて利用
可能な計算リソースに基づいて必要に応じて前記第一の信号処理ルーチンと前記
第二の信号処理ルーチンに割り当てられる請求項１に記載のプログラム。
【請求項９】前記第一の信号処理ルーチンは、ホストコンピュータ、埋め込みプロセッサ及
び／又はデジタル信号プロセッサ（ＤＳＰ）のいずれかによって実行される命令
の組である請求項１に記載のプログラム。
【請求項１０】前記第一の信号処理ルーチン及び前記第一のオーディオ信号は、デスクトップ
コンピュータシステム、ポータブルコンピュータシステム、個人用携帯情報端末
（ＰＤＡ）、携帯電話及び／又は電子対話型玩具の一部として実行される請求項
１に記載のプログラム。
【請求項１１】一乃至複数の単語を含む文を含む認識すべき発声音声を、一連の発生音声評価
時間フレーム内において示す発生音声を示すユーザ発声音声信号を受信する第一
の可聴信号受信ルーチンと、発生音声信号を受信する各発生音声評価時間フレームに関して音声データ値を
発生する第一の信号処理ルーチンと、クライアントシステムからサーバコンピュータシステムによって実行される第
二の処理ルーチンに通信チャンネルを介して送信するのに適したフォーマットに
音声データ値をフォーマットするフォーマットルーチンとによって構成され、音声データ値が、前記一乃至複数の単語及び前記文の正確な認識を完了するた
めに前記第二の処理ルーチンによって使用される最小量の情報で構成されること
を特徴とするクラーアントシステムと別のサーバシステムに亘って分散された音
声クエリー認識のための機械により実行可能なプログラム。
【請求項１２】前記プログラムは、クライアント−サーバベースシステムの一部を構成するコ
ンピュータシステムによって実行されるブラウザプログラムである請求項１１に
記載のプログラム。
【請求項１３】前記各音声データ値は、ユーザの発声音声信号の対応する周波数成分に関する
別のケプストラム計数に対応し、前記第一のデータコンテントは、可聴音声周波
数範囲に亘る周波数成分に対応する請求項１１に記載のプログラム。
【請求項１４】前記追加のデータコンテントは、対応する前記ケプストラム計数値の組から算
出されるデルタ及び加速係数の組に対応する請求項１３に記載のプログラム。
【請求項１５】前記第二の処理ルーチンは、前記一乃至複数の単語が前記第一の信号処理ルー
チンにより発生された場合に比べて小さい潜時で前記一乃至複数の単語の正確な
認識を行う請求項１１に記載のプログラム。
【請求項１６】発生音声を受信し、関連する発生音声信号を発生するように構成されたサウン
ド処理回路と、前記発生音声における発生された単語の認識には自体が不十分である音声デー
タ値の第一の組を、前記発生音声信号から発生する第一の信号処理回路と、音声データ値の第一の組をフォーマットし、通信チャンネルを介して第二の信
号処理回路に送信する送信回路によって構成され、前記第二の信号処理回路は、前記音声データ値に基づいて音声データ値の第二
の組を発生するように構成され、音声データ値の第二の組は、前記発生音声内の
単語を認識するために単語認識エンジンによって使用可能な十分な情報を含んで
いることを特徴とする分散音声認識システム。
【請求項１７】前記音声データ値の第二の組は、前記音声データ値の第一の組と音声データ値
の派生された組を含み、前記音声データ値の派生された組は前記音声データ値の
第一の組に基づいて計算する請求項１６に記載のシステム。
【請求項１８】前記音声データ値の第一の組は、ＭＦＣＣベクトル係数であり、前記音声デー
タ値の派生された組は、前記ＭＦＣＣベクトル係数から派生するＭＦＣＣデルタ
係数及びＭＦＣＣ加速係数である請求項１７に記載のシステム。
【請求項１９】前記音声データ値の第二の組は、前記第一の信号処理回路によって前記音声デ
ータ値の第一の組から前記音声データ値の第二の組を発生するために必要な第一
の時間と前記音声データ値の第二の組をフォーマットし、送信するために前記送
信回路が必要とする第二の時間の組み合わせに比べて短い時間で前記第二の信号
処理回路によって発生される請求項１６に記載のシステム。
【請求項２０】前記音声データの第二の組は、前記音声データ値に第一の組から音声データ値
を前記第一の信号処理回路によって必要とする時間に比べて短い時間で前記第二
の信号処理回路によって発生される請求項１６に記載のシステム。
【請求項２１】前記第一及び第二の信号処理回路の信号処理の分担は、前記第一の信号処理回
路は、前記発生音声信号から単語認識エンジンによって使用可能な形式に変換す
るために必要な信号処理動作の約１／２未満の処理を行うように割り当てられる
請求項１６に記載のシステム。
【請求項２２】前記音声データ値の第一及び第二の組を発生するために必要な信号処理機能は
、前記第一及び第二の信号処理回路のそれぞれが利用可能な計算リソースに基づ
いて、必要に応じて前記第一の信号処理回路と前記第二の信号処理回路に割り当
てられる請求項１６に記載のシステム。
【請求項２３】前記音声データ値の第一及び第二の組を発生するために必要な信号処理機能は
、前記第一及び第二の信号処理回路のそれぞれが利用可能な計算リソースに基づ
いて、必要に応じて前記第一の信号処理回路と前記第二の信号処理回路に割り当
てられる請求項１６に記載のシステム。
【請求項２４】前記第一の信号処理回路及び第二の信号処理回路によって行われる信号処理機
能は、（ｉ）第一及び第二の信号処理回路において使用可能な計算リソース；と
（ｉｉ）前記送信回路の性能特性及び（ｉｉｉ）前記通信チャンネルの送信潜時
に基づいて構成される請求項１６に記載のシステム。
【請求項２５】前記第一の信号処理回路は、音声データ値の第二の組を発生するために必要な
信号処理演算によって前記第二の信号処理回路を補助するように構成される請求
項１６に記載のシステム。
【請求項２６】前記音声データの第一の組は、単語認識処理に使用可能な音声データ値の第二
の組を発生するために第二の信号処理回路によって使用される最小量のデータを
示す請求項１６に記載のシステム。
【請求項２７】一乃至複数の発声された単語の発声された文を含む発声音声を受信し、関連す
る発声音声信号を発声する発声音声補足回路と、前記発声された文に関して周波数に関連した発声音声信号の組を発声するため
に前記発声音声信号に対するデータ抽出動作を行うように構成された信号処理を
行う発声音声信号処理回路と、サーバに通信チャンネルを通し打て送信するのに適したフォーマットに周波数
に関連した発声音声信号の組を符号化する送信回路と、前記一乃至複数の発声された単語の単語認識動作と前記発声された文の文認識
動作を行うために周波数に関連した発声音声信号の組を用いて前記サーバによっ
て発生される応答を受信する受信回路とによって構成され、発生音声信号に関する信号処理の分担をクライアントコンピューティング装置
とサーバコンピューティング装置間の割り当てを最適化することによって、前記
音声認識を行うことに関する潜時を最小とすることを特徴とするサーバコンピュ
ーティング装置と協働して音声認識を行うクライアントコンピューティング装置
を補助するシステム。
【請求項２８】一乃至複数の発声された単語の発声された文を含む連続発生音声を受信し、関
連する発声音声信号を発生する、クライアントコンピューティング装置に一体化
されたサウンド処理回路と、クライアントコンピューティング装置によって実行されるように構成され、前
記発生音声信号から必要に応じて音声に基づくベクトル係数の組を連続的に発生
するように構成された第一の信号処理ルーチンと、クライアントコンピューティング装置に結合され、サーバに通信チャンネルを
通し打て送信するのに適したフォーマットに音声に基づくベクトル係数の組を符
号化するようの構成され、前記音声に基づくベクトル係数の組が発生音声発生時
にリアルタイムに送信される送信回路と、クライアントコンピューティング装置に結合され、サーバから通信チャンネル
を介して発声された文に対するリアルタイムの回答を受信する受信回路とによっ
て構成され、前記応答は、音声に基づくベクトル係数の組を用いて実質的にリアルタイムに
サーバによって発生されて、一乃至複数の発生された単語の単語認識動作及び前
記発生された文の文認識動作を完了する第二の信号処理ルーチンを行うことを特
徴とするサーバコンピューティング装置と協働して音声認識を行うクライアント
コンピューティング装置を補助するシステム。
【請求項２９】クライアントコンピューティング装置に連関され、発声音声信号から音声デー
タ値の第一の組を発生するように構成され、前記音声データ値の第一の組が分散
認識システムの処理及び送信潜時を減少させるための制限したデータコンテント
を有している第一の信号処理回路と、別のサーバコンピューティング装置に関連し、音声データ値の第一の組から音
声データの第二の組を発生するように構成されるとともに、前記音声データ値の
第二の組と前記音声データの第一の組で構成された複合音声データ値を発生する
第二の信号処理回路と、前記複合音声データを使用し、発生音声の単語の認識を行う単語認識回路によ
って構成したことを特徴とする発生音声を処理するための分散音声認識システム
。
【請求項３０】前記認識された単語を含む発声された文を認識する文認識回路を有する請求項
２９に記載のシステム。
【請求項３１】前記発声された文は、前記システムによって認識可能な予め定義された多数の
文の一つを含む、前記発声された文は、該発声された文に対応する予め定義され
た前記多数の文から可能性のある文の候補の組を識別することによって認識され
、可能性のある文の候補の組の各エントリを前記発声された文と比較して認識さ
れた文の一致を判定する請求項３０に記載のシステム。
【請求項３２】前記発声された文は、前記認識された単語上で動作する自然語エンジンである
請求項３１に記載のシステム。
【請求項３３】前記発声された文は、名詞句を調べることによって可能性のある文の候補の組
と比較される請求項３２に記載のシステム。
【請求項３４】前記可能性のある文の候補の組は、前記システムのユーザによって与えられた
動作環境に応じて前記文認識回路によってロードされるコンテックスト辞書によ
ってある程度決定される請求項３１に記載のシステム。
【請求項３５】音声情報に基づいてシステムによって認識されるべき一乃至複数の単語を格納
する記憶手段と、音声情報に対応する音声信号を捕捉する手段と、ある程度認識された音声データ前記一乃至複数の単語に相関させるにはには不
十分な前記音声信号の第一の信号処理動作を行う前記音声信号からある程度認識
されたデータを発生する第一の処理手段と、前記第一の処理手段と異なり、物理的に分離され、第二の信号処理動作を用い
て、前記ある程度認識された音声データから一乃至複数の単語に相関された認識
可能な音声データを発生する第二の処理手段と、前記第一及び第二の処理手段に結合された非永久データ送信接続と、前記ある程度認識された音声データを前記第一の処理手段から、前記非永久デ
ータ送信接続を介して前記第二の処理手段に送信する送信手段とよりなり、前記音声情報は、前記第一及び第二の信号処理動作に基づいて一乃至複数の単
語に相関されることを特徴とする音声情報を認識する方法。
【請求項３６】前記第一の処理手段は、クライアント側に配置され、前記第二の処理手段は、
遠隔サーバ側に配置される請求項３５に記載のシステム。
【請求項３７】前記記憶手段は、サーバ側に配置される請求項３６に記載のシステム。
【請求項３８】前記非永久接続は、交換された回路又はパケット交換接続である請求項３５に
記載のシステム。
【請求項３９】非永久接続は、前記第一及び第二の処理手段をリンクするインターネットネッ
トワークを含んでいる請求項３５に記載のシステム。
【請求項４０】前記非永久接続は、ワイヤレス通信チャンネルである請求項３５に記載のシス
テム。
【請求項４１】前記第一の信号処理動作は、前記音声信号からスペクトルパラメータベクトル
抽出する動作を含む請求項３５に記載のシステム。
【請求項４２】前記第一の信号処理動作は、前記スペクトルパラメータベクトルに関するＭＦ
ＣＣ係数を得るためにＭｅｌ周波数転送処理によりスペクトルパラメータベクト
ルを分解する動作を含んでいる請求項４１に記載のシステム。
【請求項４３】前記ある程度認識された音声データは、スペクトルパラメータベクトルより得
られるＭＦＣＣ係数とデルタ及び加速係数を含む観察ベクトルＯ_tで構成される
請求項４１に記載のシステム。
【請求項４４】前記ある程度認識された音声データは、観察ベクトルＯ_tを含み、前記第二の
信号処理動作は、音声データシンボルにより一連の観察ベクトルＯ_tをマッピン
グするためのビタビ復号動作を含んでいる請求項３５に記載のシステム。
【請求項４５】前記第二の信号処理動作は、前記音声データシンボルを一乃至複数の単語テキ
ストに変換する変換動作を含んでいる請求項４４に記載のシステム。
【請求項４６】前記第二の処理手段は、一乃至複数の単語のいずれが前記一乃至複数の単語テ
キストに対応しているかを判定するクエリーを実行する請求項４５に記載のシス
テム。
【請求項４７】前記第二の処理手段は、一乃至複数の単語テキストのいずれが音声情報に対応
しているかを判定するための環境変数を用いる請求項３５に記載のシステム。
【請求項４８】（ａ）認識すべき一乃至複数の単語で構成される文を含む発声音声を示す発生音
声信号を受信し、（ｂ）第一のコンピューティング装置を用いて音声データ値を発生するために、
前記発生音声信号に含まれる一乃至複数の単語をある程度認識し、（ｃ）音声データ値を前記第一のコンピューティング装置から第二のコンピュー
ティング装置に送信するのに適当なフォーマットにフォーマットするステップよ
りなり、前記音声データ値が、前記第二のコンピューティング装置により一乃至複数の
単語の完全な認識を完了するのに十分なデータコンテントを含んでいることを特
徴とする音声認識を行う方法。
【請求項４９】前記コンテントは、音声データ値の連続ストリームを発生するために前記ある
程度の認識及びフォーマットをリアルタイムに行えるように十分に小さい請求項
４８に記載の方法。
【請求項５０】一乃至複数の単語の完全な認識が、完全な認識を前記第一のコンピューティング
装置をによって行われた場合よりも小さい潜時で行われる請求項４８に記載の方
法。
【請求項５１】前記ある程度の認識を行うために必要な信号処理は、前記第一及び第二のコン
ピューティング装置のそれぞれにおいて利用可能な計算リソースに基づいて、必
要に応じて前記第一のコンピューティング装置と前記第二のコンピューティング
装置に割り当てる請求項４８に記載の方法。
【請求項５２】前記第一のコンピューティング装置はクライアント側コンピュータシステムの
一部であり、前記第二のコンピューティング装置はサーバ側コンピュータシステ
ムの一部であり、前記通信チャンネルがネットワークである請求項４８に記載の
方法。
【請求項５３】（ａ）一連の発生音声評価時間フレーム内において、認識すべき一乃至複数の単
語で構成された文を含む発声音声を示す発生音声信号を受信し、（ｂ）発生音声信号を受信する各発生音声評価時間フレームにわたり第一の処理
回路により音声データ値を発生し、（ｃ）通信チャンネルを介して第二の処理回路を通して送信するのに適したフォ
ーマットに前記音声データ値を符号化するステップよりなり、前記音声データ値は、前記一乃至複数の単語及び前記文の完全で正確な認識を
行うために前記第二の処理回路によって用いることが出来る最小量の情報で構成
される分散して音声認識を行う方法。
【請求項５４】前記一乃至複数の単語の認識がリアルタイムで行われる請求項５３に記載の方
法。
【請求項５５】前記音声データ値はそれぞれ、前記ユーザの発生音声信号の対応する周波数成
分に関する別のケプストラム係数値に対応し、前記最小量の情報は、可聴音声周
波数範囲に関するケプストラム係数の組に対応する請求項５３に記載の方法。
【請求項５６】デルタ及び加速係数の組は、一乃至複数の単語及び文の完全な認識のために、
ケプストラム係数から算出される請求項５５に記載の方法。
【請求項５７】前記第二の処理回路は、前記一乃至複数の単語を前記第一の処理回路により認
識した場合よりも小さい潜時で、一乃至複数の単語の正確な認識を行う請求項５
３に記載の方法。
【請求項５８】（ａ）第一のコンピューティング装置により発生音声を受信し、（ｂ）第一のコンピューティング装置により前記発生音声から発生音声信号を発
生し、（ｃ）第一のコンピューティング装置において前記発生音声信号から前記発生音
声の単語の認識を可能にするにはそれ自体では不十分な第一の音声データ値の組
を発生し、（ｄ）第一のコンピューティング装置に結合された通信チャンネルの通信プロト
コルと互換名フォーマットに第一のコンピューティング装置に前記第一の音声デ
ータ値の組をフォーマットし、（ｅ）前記第一の音声データ値の組を前記通信チャンネルを介して前記第二のコ
ンピューティング装置に送信し、（ｆ）前記音声データ値に基づいて、前記発生音声の単語を錦するために単語認
識エンジンによって使用するのに十分な情報を含む第二の音声データ値の組を発
生するステップよりなり、第一のコンピューティング装置と第二のコンピューテ
ィング装置を用いて分散音声認識を行う方法。
【請求項５９】前記第二の音声データ値の組は前記第一の音声データ値の組と派生した音声デ
ータ値の組を含み、前記派生した音声データ値の組は前記第一の音声データ値に
基づいて計算される請求項５８に記載の方法。
【請求項６０】前記第二の音声データ値の組は、前記第一のコンピューティング装置により前
記第一の音声データ値の組から前記第二の音声データ値の組を発生するために要
する第一の時間と前記第二の音声データ値の組をフォーマットし、送信するため
に必要な第二の時間の組み合わせよりも短い時間で前記第二のコンピューティン
グ装置により発生される請求項５８に記載の方法。
【請求項６１】前記第一及び第二のコンピューティング装置の信号処理の分担は、前記第一の
信号処理回路は、前記発生音声信号から単語認識エンジンによって使用可能な形
式に変換するために必要な信号処理動作の約１／２未満の処理を行うように割り
当てられる請求項５８に記載の方法。
【請求項６２】前記第一の信号処理回路及び第二の信号処理回路によって行われる信号処理機
能は、（ｉ）第一及び第二の信号処理回路において使用可能な計算リソース；と
（ｉｉ）前記通信チャンネルの送信潜時に基づいて構成される請求項５８に記載
の方法。
【請求項６３】前記第一の信号処理回路は、音声データ値の第二の組を発生するために必要な
信号処理演算によって前記第二の信号処理回路を補助するように構成される請求
項５８に記載の方法。
【請求項６４】前記音声データの第一の組は、単語認識処理に使用可能な音声データ値の第二
の組を発生するために第二の信号処理回路によって使用される最小量のデータを
示す請求項５８に記載のシステム。
【請求項６５】（ａ）第一のコンピュータシステムにおいて、処理及び送信潜時を減少させるた
めに制限されたデータコンテントを有する第一の音声データ値の組を発生し、（ｂ）前記第一のコンピュータシステムとは独立に動作可能な第二のコンピュー
タシステムのよって前記第一の音声データ値の組から第二の音声データ値の組を
発生し、（ｃ）前記第二の音声データ値の組と前記第一の音声データ値の組で構成され組
み合わされた音声データ値の組を前記第二のコンピュータシステムによって発生
し、（ｄ）発生音声内の認識された単語のリストを発生するステップによって構成す
る発生音声の分散認識を行う方法。
【請求項６６】（ｅ）前記認識された単語を含む発声された文を認識するステップを含む請求
項６５に記載の方法。
【請求項６７】前記発声された文は、前記システムによって認識可能な予め定義された多数の
文の一つを含む、前記発声された文は、該発声された文に対応する予め定義され
た前記多数の文から可能性のある文の候補の組を識別することによって認識され
、可能性のある文の候補の組の各エントリを前記発声された文と比較して認識さ
れた文の一致を判定する請求項６６に記載の方法。
【請求項６８】前記発声された文は、前記認識された単語上で動作する自然語エンジンである
請求項６７に記載の方法。
【請求項６９】前記発声された文は、名詞句を調べることによって可能性のある文の候補の組
と比較される請求項６８に記載の方法。
【請求項７０】前記可能性のある文の候補の組は、前記システムのユーザによって与えられた
動作環境に応じて前記文認識回路によってロードされるコンテックスト辞書によ
ってある程度決定される請求項６７に記載の方法。
【請求項７１】対応すべき話題に関する音声によるクエリーに応答するように構成された対話型
学習システムであって、それぞれが音声による対話型学習システムによりカバーされる一乃至複数の話
題に関連するクエリーを含む複数の話題のクエリーエントリを格納するクエリー
ファイルと、それぞれが一乃至複数の話題のクエリーエントリに対する回答を含む複数の話
題回答エントリを格納し、各話題のクエリーエントリが少なくとも一つの関連す
る話題の回答エントリを有している回答ファイルと、前記話題の一つに関する音声によるクエリーに関連して遠隔音声捕捉システム
より受信する一部処理された音声データから認識された音声データを発生する音
声認識システムと、認識された音声データを音声によるクエリーのに対応する話題クエリーエント
リを識別するとともに前記音声によるクエリーに最も一致した少なくとも一つの
回答エントリを探し出すために適当なサーチクエリーに変換するクエリー形成シ
ステムとによって構成する対話型学習システム。
【請求項７２】前記遠隔音声捕捉システムは、クライアント側に配置され、前記音声認識シス
テムはクライアント側及び別のサーバ側に分散して配置される請求項７１に記載
のシステム。
【請求項７３】クライアント側コンピュータシステムに配置され、前記音声認識システムは、
音声入力信号に対して第一の信号処理動作を行って一部処理された音声データを
生成する第一の部分と、サーバ側コンピュータシステムに配置され、前記一部処
理された音声データの完全な処理のための第二の信号処理動作を行う第二の部分
により構成される請求項７１に記載のシステム。
【請求項７４】前記クエリー形成システムは、前記音声によるクエリーを解釈するための自然
語エンジンを含んでいる請求項７１に記載のシステム。
【請求項７５】前記クエリー形成システムは、前記音声によるクエリーの認識のためにコンテ
ックストパラメータを使用する請求項７１に記載のシステム。
【請求項７６】前記コンテックストパラメータは、対話セッション中にユーザによって選択さ
れたレッスン情報のコース、章及び／又は項の一以上である請求項７５に記載の
システム。
【請求項７７】前記コンテックスパラメータは、対話セッション中にユーザに提供された可視
単語テキストやオブジェクト一以上を含んでいる請求項７５に記載のシステム。
【請求項７８】前記コンテックストパラメータは、前記音声によるクエリーに関して使用する
のに適した文法及び辞書ファイルを動的に決定し、ロードするために使用される
請求項７５に記載のシステム。
【請求項７９】前記応答システムは、話題の回答エントリは、可聴形式でユーザに表示される
ようにテキスト−音声処理を含んでいる請求項７８に記載のシステム。
【請求項８０】第一レベルの教育データと第二レベルの教育データを含む階層構造に配置され
た教材を含む教育ファイルを有し、システムのユーザは、階層構造をナビゲートし、少なくとも前記第二レベルの
教育データに配置された教材に関してユーザのクエリーを形成し、ユーザのクエリーは対応する応答回答の組と対をなす予め定義された質問の組
のリストから対応する教材に相関されており、ユーザのクエリーから認識された音声データを発生する音声認識エンジンと、前記ユーザの質問に関して対応する教材の質問を特定するとともに前記対応す
る教材の質問に対する対応する応答を探すためのサーチクエリーに前記認識され
た音声データを変換するクエリー形成エンジンとを有し、前記サーチクエリーが前記ユーザクエリーに含まれる解釈する自然語エンジン
を用いて形成される音声に基づく対話型教育システム。
【請求項８１】前記自然ご縁人は、前記ユーザのクエリーを一乃至複数の予め定義された質問
と比較して対応する教材の質問を決定する請求項８０に記載のシステム。
【請求項８２】ユーザのクエリーに対応する予測される質問の組は、前記ユーザのクエリーを
ある程度認識された予め定義された質問のリストから導き出され、前記対応する
教材の質問は、ユーザのクエリーを完全に認識することにより導き出される請求
項８０に記載のシステム。
【請求項８３】前記第一レベルの教育データは、特定のコースのための一乃至複数のレッスン
章に連関され、前記第二のレベルの教育データは一乃至複数の区分に連関され、
前記一乃至複数の区分は一乃至複数の小児リンクされている請求項８０に記載の
システム。
【請求項８４】前記音声認識エンジンの第一の部分は、クライアント側のプラットフォームに
配置され、前記音声認識エンジンの第二の部分及び前記クエリー形成システムは
。別のコンピュータシステムに配置される請求項８０に記載のシステム。
【請求項８５】ユーザを補助し教材をナビゲートするとともに対応する回答をユーザに対して
発生するアニメーションされた可視エージェントを有している請求項８０に記載
のシステム。
【請求項８６】前記クエリー形成システムは、前記音声によるクエリーを認識するためにコン
テックストパラメータを使用し、コンテックストパラメータは前記音声によるク
エリーに関して使用される適切な文法及び辞書ファイルによって動的に決定され
る請求項８０に記載のシステム。
【請求項８７】質疑応答能力を有する対話型レッスンチュートリアに関してユーザを補助する
音声によるシステムであって、前記レッスンのための予め定義された質問のリストと対応する予め定義された
回答のリストを含むように調製された教材を含むレッスンファイルと、前記レッスンに付随するユーザの質問から認識された音声データを発生する音
声認識エンジンと、認識された音声データを用いて前記ユーザのクエリーに関する対応する予め定
義された質問を探し出すクエリー認識エンジンと、前記対応する予め定義された質問に関する対応する予め定義された回答をユー
ザが知覚出来る形式に変換する変換エンジンとによって構成され、前記クエリー認識エンジンはユーザのクエリーに対する応答において人間の応
答時間をエミュレートして、ユーザが、人間と対話したときに経験するのと実質
的に同じにシステムとの対話を知覚する音声によるシステム。
【請求項８８】前記システムは、少なくとも１００のエントリを持つ予め定義された質問のリ
ストに関して、ユーザとシステム間のデータ送信潜時を計算に入れずに約１０秒
未満の時間でユーザのクエリーに応答する請求項８７に記載のシステム。
【請求項８９】システムが、前記ユーザのクエリーを受け、これに回答する可視の対話エージ
ェントを含む請求項８７に記載のシステム。
【請求項９０】前記対話エージェントは、前記レッスンチュートリアルのために適切な対応す
る人間の外観及び癖をエミュレートする外観及び癖を持つ構成である請求項８７
に記載のシステム。
【請求項９１】前記クエリー認識エンジンは、前記音声によるクエリーを認識するためにコン
テックストパラメータを使用し、前記コンテックストパラメータは、前記音声に
よるクエリーに関して使用する適切な文法及び辞書ファイルを動的に決定しロー
ドする請求項８７に記載のシステム。
【請求項９２】前記クエリー認識エンジンは、複数のコンピュータシステムに分散されて、前
記の一よりも多いレッスンファイルが前記ユーザのクエリーに関して参照される
請求項８７に記載のシステム。
【請求項９３】（ａ）それぞれが音声による対話型教育システムによってカバーされる一乃至
複数の話題に関するクエリーを含む複数の話題のクエリーエントリを格納し、（ｂ）それぞれが前記複数の話題のクエリーエントリが少なくとも一つの関連す
る話題の回答エントリを有する一乃至複数の前記話題のクエリーエントリに対す
る回答を含んでいる話題の回答エントリを格納し、（ｃ）前記認識された音声データ、第一のコンピューティング装置において実行
される第一の信号処理ルーチンによって前記認識された音声データが発生され、
次いで第二のコンピューティング装置のよって実行される第二の信号処理ルーチ
ンによって行われる処理を通して前記音声によるクエリーの認識が完了される要
領で前記話題の一つに関する音声によるクエリーに関連する認識された音声デー
タを発生し、（ｄ）前記音声によるクエリーに対応する話題クエリーエントリを特定する適当
なサーチクエリーに認識された音声データを変換し、（ｅ）前記音声によるクエリーに最も一致する一つの回答エントリを検索するス
テップを含む音声による対話型クエリーシステムの実行方法。
【請求項９４】前記第一のコンピューティング装置は、クライアント側に配置され、前記第二
のコンピューティング装置が別のサーバ側に配置される請求項９３に記載の方法
。
【請求項９５】前記（ｄ）のステップ中に、前記サーチクエリー形成を助けるために、前記自
然エンジンが前記音声データを処理する請求項９３に記載の方法。
【請求項９６】前記（ｄ）のステップ中に、コンテックストパラメータが前記サーチクエリー
を形成するために使用され、前記コンテックストパラメータが前記音声によるク
エリーに関して使用される適切な文法及び辞書ファイルを動的に決定し及びロー
ドする請求項９３に記載の方法。
【請求項９７】前記音声によるクエリーの応答して、ユーザに話題の回答エントリを送信する
ステップ（ｆ）を含む請求項９３に記載の方法。
【請求項９８】前記応答は、テキスト−音声処理されて、前記話題の回答エントリは、ユーザ
に対して可聴形式で表現される請求項９７に記載の方法。
【請求項９９】（ａ）第一レベルの教育データと第二レベルの教育データを含む階層構造に配
置された教材設け、ユーザに教材を提供して、階層構造をナビゲートし、少なくとも前記第二レベル
の教育データに配置された教材に関してユーザのクエリーを形成し、（ｃ）前記第二レベルの教育データに関して質問を予め定義し、前記予め定義さ
れた質問の組を対応する回答の組と対にし、（ｄ）ユーザのクエリーから認識された音声データを発生し、（ｅ）前記ユーザの質問に関して対応する教材の質問を特定するとともに前記
対応する教材の質問に対する対応する応答を探すためのサーチクエリーに前記認
識された音声データを変換し、（ｆ）対応する教材の質問に関する回答を特定するステップにて構成されるユー
ザに対して対話型レッスンを提供する方法。
【請求項１００】前記ステップ（ｆ）中に、前記自然語エンジンは、認識された音声データ及び
一乃至複数の予め定義された質問のリストに対して動作して、前記対応する教材
の質問を判定する請求項９９に記載の方法。
【請求項１０１】前記ユーザのクエリーをある程度認識することによって前記予め定義された質問
のリストからユーザのクエリーに対応する予測される質問の組を持ち引き出し、
次いでユーザのクエリーを完全に認識することにより対応する教材の質問を識別
するステップ（ｅ）’を有する請求項９９に記載の方法。
【請求項１０２】前記第一レベルの教育データは、特定のコースのための一乃至複数のレッスン
章に連関され、前記第二のレベルの教育データは一乃至複数の区分に連関され、
前記一乃至複数の区分は一乃至複数の小児リンクされている請求項９９に記載の
方法。
【請求項１０３】ステップ（ｄ）はクライアント側のプラットフォームと別のコンピュータシステ
ムに分散される請求項９９に記載の方法。
【請求項１０４】ユーザを補助し教材をナビゲートするとともに対応する回答をユーザに対して
発生するアニメーションされた可視エージェントを表示するステップ（ｇ）を有
する請求項９９に記載の方法。
【請求項１０５】前記ステップ（ｅ）中に、前記クエリー形成システムは、前記音声によるクエ
リーを認識するためにコンテックストパラメータを使用し、コンテックストパラ
メータは前記音声によるクエリーに関して使用される適切な文法及び辞書ファイ
ルによって動的に決定される請求項９９に記載のシステム。
【請求項１０６】質疑応答能力を有する音声によるレッスンチュートリアを動作させる方法であ
って、（ａ）前記レッスンのための予め定義された質問のリストと対応する予め定義
された回答のリストを形成し、（ｂ）前記レッスンに付随するユーザの質問から認識された音声データを発生
し、（ｃ）認識された音声データを用いて前記ユーザのクエリーに関する対応する
予め定義された質問を探し出し、（ｄ）前記対応する予め定義された質問に関する対応する予め定義された回答
をユーザが知覚出来る形式に変換するステップよりなり、前記クエリー認識エンジンはユーザのクエリーに対する応答において人間の応
答時間をエミュレートして、ユーザが、人間と対話したときに経験するのと実質
的に同じにシステムとの対話を知覚する音声によるレッスンチュートリアを動作
させる方法。
【請求項１０７】前記ステップ（ｄ）中に、少なくとも１００のエントリを持つ予め定義された
質問のリストに関して、ユーザとシステム間のデータ送信潜時を計算に入れずに
約１０秒未満の時間でユーザのクエリーに応答する請求項１０６に記載の方法。
【請求項１０８】前記ユーザのクエリーを受け、これに回答する可視の対話エージェント表示す
るステップ（ｅ）を含む請求項１０６に記載の方法。
【請求項１０９】前記対話エージェントは、前記レッスンチュートリアルのために適切な対応す
る人間の外観及び癖をエミュレートする外観及び癖を持つ構成である請求項１０
８に記載の方法。
【請求項１１０】ステップ（ｃ）中に、前記音声によるクエリーを認識するためにコンテックス
トパラメータを使用し、前記コンテックストパラメータは、前記音声によるクエ
リーに関して使用する適切な文法及び辞書ファイルを動的に決定、ロードする請
求項１０６に記載の方法。
【請求項１１１】ステップ（ｃ）中に、複数のコンピュータシステムに分散されて、前記の一よ
りも多いレッスンファイルが前記ユーザのクエリーに関して参照される請求項１
０６に記載の方法。
【請求項１１２】ユーザの音声によるクエリーに関連する、音声クエリーにおいて発声された
単語の認識を可能とするには自体実質的に不十分なデータコンテントによって特
徴付けられる音声データを受信するためにサーバ側コンピュータシステム上にお
いて実行される受信ルーチンと、前記音声データと前記データコンテントを用いて前記音声クエリーを完全に認
識して認識された音声クエリーを発生する音声認識ルーチンと、前記認識された音声クエリーに基づいてユーザにより選択可能な少なくとも幾
つかの項目のリストを有するウエブページによって構成されるサーバコンピュー
タシステム上で動作する音声によるインターネットウエブサイト。
【請求項１１３】前記ウエブページは、前記認識されたクエリーに基づいて一乃至複数の項目の
追加のリストを表示する請求項１１２に記載のウエブサイト。
【請求項１１４】前記ウエブサイトは音声クエリーを用いてナビゲートし、ユーザが興味のある
情報を検索する請求項１１２に記載のウエブサイト。
【請求項１１５】前記項目のリストは、ウエブサイトが提供する製品及び／又はサービスを含ん
でいる請求項１１２に記載のウエブサイト。
【請求項１１６】前記ウエブページは、ＨＴＭＬ又はジャバアプレットにより実行される請求項
に記載１１２のウエブサイト。
【請求項１１７】前記ウエブサイトは、さらに、テキスト又は発生音声応答により前記項目のリ
ストに関して音声クエリーに応答するように構成された請求項１１２に記載のウ
エブサイト。
【請求項１１８】前記ウエブサイトは、さらに、一乃至複数の連続した音声クエリーに応答して
リアルタイムの対話に適合されている請求項１１２に記載のウエブサイト。
【請求項１１９】前記音声人しくルーチンは、追加のデータコンテントをユーザによってクライ
アントプラットフォームによって発生される場合に比べて小さい潜時で、音声ク
エリーの認識を完了する請求項１１２に記載のウエブサイト。
【請求項１２０】前記データコンテントは、前記音声クエリー内の単語と文の正確な認識を完了
するために音声認識エンジンによって使用できるように最小量の印象で構成され
る請求項１１２に記載のウエブサイト。
【請求項１２１】認識された音声クエリーを発生するために必要となる信号処理機能は、クライア
ント及びサーバのコンピュータシステムのそれぞれの計算リソースに基づいて、
必要に応じてクライアントプラットフォーム及びサーバコンピュータシステムに
割り当てられる請求項１１２に記載のウエブサイト。
【請求項１２２】ウエブサイトは、さらに、音声クエリーの取り扱いに関してユーザを補助する
対話型キャラクタエージェントを有している請求項１１２に記載のウエブサイト
。
【請求項１２３】前記項目のリストは、対話型のレッスンチュートリアルに連関されたトピック
に対応している請求項１１２に記載のウエブサイト。
【請求項１２４】ユーザの音声によるクエリーに関連する、音声クエリーにおいて発声された
単語の認識を可能とするには自体実質的に不十分なデータコンテントによって特
徴付けられる音声データを受信するためにサーバ側コンピュータシステム上にお
いて実行される受信ルーチンと、前記音声データと前記データコンテントを用いて前記音声クエリーを完全に認
識して認識された音声クエリーを発生する音声認識ルーチンと、ユーザが選択したインターネットの情報を検索するサーチエンジンを有し、
前記サーチエンジンは前記認識された音声クエリーから導き出されるテキストク
エリーを用いるウエブページによって構成されるサーバコンピュータシステム上
で動作する音声によるインターネットウエブサイト。
【請求項１２５】前記音声クエリーは、二以上のサーバコンピュータシステムによって処理され
て、複数のサーチエンジンがインターネット情報を検索するために使用される請
求項１２４に記載のウエブサイト。
【請求項１２６】前記ウエブページは製品やサーバの問題を診断するためにユーザを補助するよ
うに一乃至複数の項目のリストを含む、一乃至複数の項目はユーザの音声による
クエリーにより選択される請求項１２４に記載のウエブサイト。
【請求項１２７】前記ウエブサイトは前記ウエブサイトと対話してユーザを補助するためのエー
ジェントを提供し、制御する請求項１２４に記載のウエブサイト。
【請求項１２８】前記項目のリストは、対話型レッスンチュートリアルに関連する話題に対応す
る請求項１２４に記載のウエブサイト。
【請求項１２９】発生音声を用いてウエブサイトと対話するウエブブラウザプログラムを動作可
能とするシステムであって、クライアントプラットフォームにおいて発生された発生音声によって連関され
た音声データを受信し、前記音声データが処理及び送信潜時を減少させるために
音声データコンテントを制限することによって特徴付けられる受信ルーチンと、前記音声データと前記データコンテントを用いて前記音声クエリーを完全に認
識して認識された音声クエリーを発生する音声認識ルーチンと、一乃至複数のウエブページをウエブブラウザプログラムを提供するウエブペー
ジルーチンとで構成され、ユーザによって知覚される前記一乃至複数のウエブページのデータコンテント
は前記認識された音声クエリーによって制御されるシステム。
【請求項１３０】前記認識された音声クエリーは、一乃至複数の予め定義された前記システムに
よって認識可能な文を含み、前記音声クエリーは、複数の予め定義された文から
の予測される文の候補の組を識別することによって認識され、予測される文の候
補の組の各エントリを前記音声クエリーと比較して認識された文の一致を判定す
る請求項１２９に記載のシステム。
【請求項１３１】前記発生音声は、自然語により処理される請求項１２９に記載のシステム。
【請求項１３２】前記発生音声は、名詞句を調査することにより予測される文の候補の組と比較
される請求項１３０に記載のシステム。
【請求項１３３】前記予測される文の候補の組は、前記システムに与えられた動作環境仁王等し
て前記文認識回路によってロードされたコンテックスト辞書により一部が決定さ
れる請求項１３０に記載のシステム。
【請求項１３４】ウエブブラウザプログラム内でユーザが経験する環境変数は、前記音声クエリ
ーの認識に用いられる請求項１３０に記載のシステム。
【請求項１３５】前記項目のリストは、対話型レッスンのチュートリアルに連関した話題に対応
している請求項１２９に記載のシステム。
【請求項１３６】ユーザのブラウザプログラムを用いてウエブ接続サーバと対話する方法であっ
て、（ａ）クライアントプラットフォームの使用によって発声された発声音声の連関
された音声を受信し、前記音声データが処理及び送信潜時を減少するために音声
データを制限することに特徴付けられる、（ｂ）前記制限された音声データコンテントを用いて前記発声音声の認識を完了
して、ウエブ接続サーバにおいて認識された音声クエリーを発声し、（ｃ）一乃至複数のウエブページをユーザウエブブラウザプログラムに与え、ク
ライアントブラウザプログラムに送信された一乃至複数のウエブページのデータ
コンテントは前記認識された音声クエリーによって制御されるステップよりなる
対話方法。
【請求項１３７】クライアントプラットフォームによりブラウザプログラムを介して対話するサ
ーバに連関された一乃至複数のウエブページの組から情報を提供する方法であっ
て、（ａ）クライアントプラットフォームにおいて発声音声をある程度処理して、制
限されたデータコンテントの音声データを発生し、前記制限されたデータコンテ
ントの音声データは、処理及び送信潜時を減少するように構成され、（ｂ）前記制限された音声データコンテントを用いて発生音声の処理を完了して
、サーバにおいて認識された音声クエリーを発生し、（ｃ）認識された音声クエリーの制御のもとに一乃至複数のウエブページの組
に対するコンテントをブラウザプログラムに提供するステップによって構成した
情報提供方法。
【請求項１３８】発生された発生音声から認識された単語を発生する音声認識エンジンと、認識された単語を言語学的に処理して前記発声された発声音声に関するサーチ
述語を発声する自然語エンジンと、認識された単語とサーチ述語を前記発声された発声音声に関する一乃至複数の
対応する認識された一致を検索するのに適した構成されたクエリーに変換するク
エリー形成エンジンとよりなり、前記自然語エンジンは、前記一乃至複数の認識された一致の組を言語学的に処
理して前記発声された発声音声に関する最終的な一致を決定するように構成した
音声クエリー認識システム。
【請求項１３９】前記クエリー形成エンジンは、前記認識された単語のみを使用する第一レベル
のクエリーを発声し、サーチ述語を用いて前記第一レベルのクエリーをカスタマ
イズして第二レベルのクエリーを発声する請求項１３８に記載のシステム。
【請求項１４０】前記自然語は、前記クエリー形成エンジンが前記第一レベルのクエリーを発声
している時に、前記サーチ述語を発声する請求項１３９に記載のシステム。
【請求項１４１】前記音声認識エンジンは、単語を認識するためにコンテックストに特定の辞書
の組を用いる請求項１３８に記載のシステム。
【請求項１４２】前記自然語エンジンは、コンテックストパラメータを用いて、前記サーチ述語
を発声する請求項１３８に記載のシステム。
【請求項１４３】前記音声認識エンジン、前記自然語エンジン及び前記クエリー形成エンジンは
、サーバコンピュータシステムにおいて実行されるルーチンとして実施される請
求項１３８に記載のシステム。
【請求項１４４】前記言語学的処理は、前記発声音声中の名詞句を判定する動作を含む請求項１
３８に記載のシステム。
【請求項１４５】前記自然語エンジンは、前記予測された一致の組の名詞句を前記発声音声の名
詞句と比較して最終の一致を決定する請求項１３８に記載のシステム。
【請求項１４６】前記最終一致は、リアルタイムで決定される請求項１３８に記載のシステム。
【請求項１４７】前記発声音声は、１００以上の対応した予測される一致の一つに対応し、前記
最終一致は前記発声音声に対する発声される回答を１０秒未満で決定するために
使用される請求項１４６に記載のシステム。
【請求項１４８】前記音声認識は、クライアント−サーバアーキテクチャにわたって分散されて
いる請求項１３８に記載のシステム。
【請求項１４９】前記クライアントは、認識潜時を減少させるように最適化された音声データ量
を発声する請求項１４８に記載のシステム。
【請求項１５０】前記認識された発声音声がウエブページの制御に使用される請求項１３８に記
載のシステム。
【請求項１５１】前記構成されたクエリーはＳＱＬサーチ述語を含む全文クエリーである請求項
１３８に記載のシステム。
【請求項１５２】前記対応する予測される一致は、検索潜時を減少させるために非同期状態で交
信されるリレーショナルデータベースから検索される請求項１３８に記載のシス
テム。
【請求項１５３】音声認識ルーチンにより認識される発声音声に含まれるテキストを受信し、前
記テキストの第一の言語学的分析を発声するテキスト解釈ルーチンを有し、前記言語学的分析は、前記発声音声に関する予測される一致の候補の組を識別
するために使用され、前記テキスト解釈ルーチンは、（ｉ）前記予測される一致の候補の組に含まれるテキストの一乃至複数の第二の
言語学的分析を発生し、（ｉｉ）前記第一の言語学的分析を前記一乃至複数の第二の言語学的分析のそれ
ぞれと比較して、前記発生音声に対する最良の一致を識別する発生音声の認識を補助するとうに構成された自然語処理システム。
【請求項１５４】前記テキスト解釈ルーチンは、コンピュータシステムにおいて実行されるソフ
トウエアルーチンにより実施される請求項１５３に記載のシステム。
【請求項１５５】前記テキスト解釈ルーチンは、ＤＳＰ及び関連する実行可能なコードにより実
施される請求項１５３に記載のシステム。
【請求項１５６】前記言語学的処理は、名詞句を判定する動作を含む請求項１５３に記載のシス
テム。
【請求項１５７】前記最良一致は、一乃至複数の予測される一致の候補の前記発生音声と共通の
名詞句の数が最大であるの一つに対応している請求項１５６に記載のシステム。
【請求項１５８】前記名詞句は判定され、タグ付けされ、グループ化されたトークンに分化して
発生される請求項１５５に記載のシステム。
【請求項１５９】（ａ）発声された発声音声内のテキストを認識し、（ｂ）前記発声された発声音声に関するサーチ述語を発声するために前記認識さ
れたテキストを言語学的に処理し、（ｃ）前記発声音声に関して予測される一致を識別するためにクエリーを発生し
、前記クエリーが認識されたテキストとサーチ述語に基づいており、（ｄ）前記クエリーにより識別された全ての予測される一致を前記発声された発
声音声と言語学的に比較して前記発声された発声音声に対す最終的一致を判定す
るステップによって構成される音声クエリーに認識方法。
【請求項１６０】最終的一致に一致する応答を検索し、一致する応答を可聴形式で提供するステ
ップ（ｅ）をさらに有する請求項１５９に記載の方法。
【請求項１６１】前記ステップ（ｂ）及び（ｃ）は時間的にオーバーラップしている請求項１５
９に記載の方法。
【請求項１６２】ステップ（ｃ）は前記認識されたテキストに基づいて一次クエリーを発生する
ステップ（ｃ）’と前記一次クエリーと前記サーチ述語に基づいて最終クエリー
を発生するステップ（ｃ）”の二つのサブステップを有する請求項１６１に記載
の方法。
【請求項１６３】前記最終一致は、発声音声の名詞句と前記予測される一致を比較することによ
り決定される請求項１５９に記載の方法。
【請求項１６４】ステップ（ａ）はクライアント装置とサーバ装置を含む分散コンピューティン
グプラットフォームに亘って生じる請求項１５９に記載の方法。
【請求項１６５】ステップ（ａ）乃至（ｄ）は、単一のクライアント装置からの発声音声仁王等
して複数のサーバ装置わたって同時に行われる請求項１５９に記載の方法。