JP2002540479A

JP2002540479A - クライアントサーバ音声認識

Info

Publication number: JP2002540479A
Application number: JP2000608366A
Authority: JP
Inventors: テレン，エリク; ベスリンク，シュテファン
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-03-26
Filing date: 2000-03-07
Publication date: 2002-11-26
Also published as: KR20010108402A; EP1181684B1; AU3165000A; EP1181684A1; DE60015531T2; CN1351745A; ATE281689T1; DE60015531D1

Abstract

(57)【要約】分散音声認識システム（３００）は、公衆インターネット（３５０）を介して接続された、システムは少なくとも１つのクライアント局（３３０）とサーバ局（３１０）を有する。クライアント局（３３０）は、ユーザから音声入力信号を受信する手段（３３１）を有する。音声コントローラ（３３５）は、音声入力信号の少なくとも一部を局部音声認識器（３３４）に向ける。制限された音声認識器（３３４）は、例えば、完全な認識を開始するための口頭コマンドのような、音声入力の少なくとも一部を認識することが出来ることが好ましい。認識の結果に依存して、音声コントローラ（３３５）は、公衆インターネット（３５０）を介して、音声入力信号の一部を、サーバ局（３１０）に選択的に向ける。サーバ局（３１０）は、公衆インターネットから音声等価信号を受信する手段（３１２）と、受信された音声等価信号を認識するための、ラージ／ヒュージ語彙音声認識器（３１４）を有する。

Description

【発明の詳細な説明】

【０００１】本発明は、音声入力信号を認識するための分散音声認識システムであって、シ
ステムは少なくとも1つのクライアント局とサーバ局を有し、クライアント局は
、ユーザから音声入力信号を受信する手段と、公衆インターネットを介してサー
バ局へ受信された音声を表す信号を転送する手段とを有し、且つ、サーバ局は、
公衆インターネットから音声等価信号を受信する手段と、受信された音声等価信
号を認識するためのラージ／ヒュージ語彙音声認識器を有するシステムに関連す
る。

【０００２】本発明は、少なくとも1つのクライアント局とサーバ局を有する分散システム
内で音声入力信号を認識する方法にも関連する。

【０００３】米国特許番号５，８１９，２２０は、クライアント局はユーザにローカルであ
り、且つサーバは遠隔に配置され、公衆インターネットを介してアクセス可能な
、クライアントサーバ音声認識システムを開示する。このシステムは、ウェブペ
ージに関連する音声入力を提供するのに使用される。ユーザは、従来のブラウザ
を使用してウェブページを表示するクライアント局に音声を供給する。音声は、
例えば、質問を規定する又は、ページの情報フィールド（例えば、名前とアドレ
ス）を埋めるのに使用される。通常は、クライアント局は、マイクロフォンとオ
ーディオカードのＡ／Ｄ変換器を介して音声を受信する。音声の表現は、公衆イ
ンターネット上の音声サーバへ送られる。このサーバはウェブページを供給する
ウェブサーバ上に配置され又はウェブサーバを介してアクセス可能である。この
サーバは、ウェブサーバと独立した位置で、公衆インターネットを介してもアク
セスできる。サーバは音声を認識する。認識出力（例えば、認識されたワードシ
ーケンス）は、クライアント局又は直接的にウェブサーバに送り戻される。既知
のシステムでは、強力な音声認識器が、インターネット環境内で音声を認識する
ことができ且つ最適化されたサーバ内で使用できる。特定のアプリケーションに
関しては、この認識器は、ユーザがどのトピックの書類にも実質的にアクセスで
きるために、ある程度の、インターネット環境で発生し得るヒュージ語彙を扱う
ことが要求される。既知のクライアントサーバシステムでは、クライアント局で
は音声認識器を有しない。

【０００４】上述のシステムでは全ての音声入力がサーバに向けられているので、サーバ上
の負荷は非常に大きい。これは、特に、システムが同時に複数のクライアント局
を扱っている場合に顕著である。

【０００５】本発明の目的は、サーバ上の負荷を減少することにより上述のシステムと方法
を改善することである。

【０００６】本発明に従ってこの目的を達成するために、このシステムは、クライアント局
は、局部音声認識器と音声コントローラとを有し、音声コントローラは、音声入
力信号の少なくとも一部を局部音声認識器に向けるように動作し、認識の結果に
依存して、音声入力信号の一部を公衆インターネットを介してサーバ局へ選択的
に向けることを特徴とする。クライアント局内にも音声認識器を含めることによ
り、サーバから負荷が除去される。サーバは、おそらく多くの同時のユーザによ
るヒュージ語彙の音声の高品質な認識を提供する困難なタスクを目的とされ、そ
して、局部認識器が簡単に達成できる単純なタスクから開放されるであろう。タ
スクは単純であるが、サーバへ全ての音声入力を送ることは不必要とすることに
より単純に、サーバと公衆インターネーットから大きな負荷を除去できる。更に、特定の認識タスクは、クライアントが、認識に関連する局部情報により簡
単にアクセスできるので、サーバ内でよりもクライアント内での方がより効果的
に実行できる。

【０００７】従属請求項２に記載されているように、クライアント局内では単純な認識器が
使用される。このように、クライアント局での追加のコストと処理負荷は低く保
たれる。

【０００８】従属請求項３に記載されているように、局部音声認識器は、サーバ局による音
声認識を活性化するために口頭コマンドを検出するのに使用される。これは、ユ
ーザが話していない場合又は、ユーザが話しているが音声が認識されるのを待っ
ていない場合に、クライアント局から来る音声入力信号を連続して走査しなけれ
ばならないことから、中央認識器を開放する。さらに、公衆インターネットも不
要な負荷から開放する。

【０００９】従属請求項４に記載されているように、局部認識器は、局部クライアント局の
制御のための命令の認識を実行するために使用される。クライアント局は、どの
動作が可能か（例えば、どのメニュー項目が声で制御されるか）を決定するのに
最も適している。更に、音声が公衆インターネットを介して送られ、そして、認
識結果が送り戻されるのが避けられ、一方、局部局は認識タスクを実行するのに
同等に又はより適している。

【００１０】従属請求項５に記載されているように、クライアント局は、音声信号がどの音
声サーバへ送られるべきかを決定するために、局部認識器を使用する。そのよう
なアプローチは、幾つかの音声認識サーバがある情況で効果的に使用される。こ
の例は異なる会社の幾つかの広告バナーを含むウェブページである。幾つか又は
全てのこれらの会社は、例えば、ユーザが、慣用句の口頭の質問をすることを可
能とする、自分自身の音声認識サーバを有する。局部認識器／コントローラは、
サーバの選択を行い、そして、例えば、”フィリップスを選択”又は、”フィリ
ップスへ話す”のような口頭の明確なルーティングコマンドに基づいて音声のル
ーティングを行う。ルーティングコマンドを認識する情報は、バナー自身から抽
出されてもよい。そのような情報は、タグの形式でバナー内にあり、そして、ル
ーティングコマンドを示すテキスト的な又は音素のような項目を含む。局部認識
器／コントローラは、それぞれの音声サーバに関連する情報に基づいてルーティ
ングを決定する。例えば、バナーテキストの単語は、ルーティングの基礎として
使用され得る。例えば、ユーザがバナーの１つの中で発生する単語を話すと、音
声はそのバナーに関連する音声サーバに向けられる。単語が、１つ以上のバナー
内で発生する場合には、音声は幾つかのサーバに、又は、（例えば、その関連す
るバナーが最も関連の高いその単語の発生を有する）最も可能性のある１つのサ
ーバに経路が選択される。バナー内で明確に示されている単語を使用する代りに
、バナーは例えば、リンクを介して、テキストの情報とも関連し得る。ユーザが
その情報から１つ又はそれ以上の単語を話す場合には、そのバナーに関連する音
声サーバが選択される。

【００１１】従属請求項６に記載されているように、サーバ内の音声認識器は、局部認識器
がユーザ入力を適切に行えない情況に対して、ある種の”バックアップ”として
使用される。音声入力をサーバに転送する判断は、スコア又は信頼性測定のよう
な性能指示に基づく。このように、従来のラージ語彙認識器は、クライアント局
内で使用でき、一方では、更に強力な認識器がサーバ内で使用される。サーバ内
の認識器は、例えば、大きな語彙又は、特定の言語モデルを扱える。並列に入力
が認識される場合でさえも、局部認識器は、動作可能なまま残りそして、入力を
認識する。このように、ユーザの入力は”実時間で”認識される。おそらく低精
度の局部認識器の初期認識は、おそらくサーバの高品質な結果により置換される
。選択器は、局部認識器と遠隔認識器の認識結果との間の最終的な選択を行う。
この選択は、性能インジケータに基づいている。

【００１２】本発明に従って目的を達成するために、分散されたシステム内で音声入力信号
を認識するための方法は、クライアント局で、ユーザからの音声入力信号を受信し、クライアント局で、音声入力信号の少なくとも一部を認識し、公衆インターネットを介して、クライアント局からサーバ局へ、クライアント
局内の認識の結果に依存して、音声入力信号の一部を表す信号選択的に向け、サーバ局で、公衆インターネットから音声等価信号を受信し、且つ、ラージ／ヒュージ語彙音声認識器を使用して、サーバ局内で受信された音声等
価信号を認識する。

【００１３】本発明のこれらのそして他の特徴は、図面に示された実施例を参照した説明に
より明らかとなろう。

【００１４】ラージ語彙連続音声認識システムのような音声認識システムは、典型的には、
入力パターンを認識する認識モデルの集合を使用する。例えば、可聴音モデルと
語彙は単語認識するのに使用されそして、言語モデルは基本認識結果を改善する
のに使用される。図１は、ラージ語彙連続音声認識システム１００の構造を示す
[Ｌ．Ｒａｂｉｎｅｒ，Ｂ−Ｈ．Ｊｕａｎｇ”音声認識の基礎”、プレンティス
ホール１９９３年、４３４頁から４５４頁参照]。システム１００はスペクトル
分析サブシステム１１０と、ユニット一致サブシステム１２０を有する。スペク
トル分析サブシステム１１０では、音声入力信号（ＳＩＳ）は、特徴の代表ベク
トル（観測ベクトル、ＯＶ）を計算するためにスペクトル的に及び／又は時間的
に分析される。典型的には、音声信号は（例えば、６．６７ｋＨｚのレートでサ
ンプルされて）ディジタル化されそして、例えば、プリエンファシスを与えるこ
とにより、前処理される。連続するサンプルは、例えば、音声信号の３２ｍｓｅ
ｃに対応するフレームにグループ化（ブロック化）される。連続するフレームは
、例えば、１６ｍｓｅｃ間、部分的に重なる。しばしば、線形予測符号化（ＬＰ
Ｃ）スペクトル分析法が、各フレームに対して代表ベクトル（観測ベクトル）を
計算するのに使用される。特徴ベクトルは、例えば、２４，３２又は、６３の成
分を有する。ラージ語彙連続音声認識システムへの標準的なアプローチは、音声
発生の確率モデルを仮定することであり、これにより、特定の単語シーケンスＷ
＝ｗ_１ｗ_２ｗ_３．．．ｗ_ｑは、可聴音観測ベクトルＹ＝ｙ_１ｙ_２ｙ_３．．．ｙ_Ｔを発生する。認識誤差は、観測ベクトルｙ_１ｙ_２ｙ_３．．．ｙ_Ｔ（時間ｔ＝１，
．．．，Ｔにわたって）の観測されたシーケンスを最も確率高く発生した単語の
シーケンスｗ_１ｗ_２ｗ_３．．．ｗ_ｑを決定することにより、統計的に最小化され
、ここで、観測ベクトルはスペクトル分析サブシステム１１０の結果である。こ
の結果は、最大の事後確率、全ての可能な単語シーケンスＷに対して、ｍａｘＰ（Ｗ｜Ｙ）、を決定する。条
件確率に関するベイズの定理を適用することにより、Ｐ（Ｗ｜Ｙ）は、Ｐ（Ｗ｜Ｙ）＝Ｐ（Ｙ｜Ｗ）．Ｐ（Ｗ）／Ｐ（Ｙ）で与えられる。Ｐ（Ｙ）はＷと独立であるから、最も可能性の高い単語シーケン
スは、全ての可能な単語シーケンスＷに対して、ａｒｇｍａｘＰ（Ｙ｜Ｗ）．Ｐ（Ｗ）（１）で与えられる。

【００１５】ユニット一致サブシステム１２０では、可聴音モデルは、式（１）の第１の項
を提供する。可聴音モデルは、所定の単語列Ｗに対する観測ベクトルＹのシーケ
ンスの確率Ｐ（Ｙ｜Ｗ）を推定するのに使用される。ラージ語彙システムに対し
ては、これは通常は、音声認識ユニットの一覧表に対して観測ベクトルを一致さ
せることにより行われる。音声認識ユニットは、可聴音基準のシーケンスにより
表される。種々の形式の音声認識ユニットが使用され得る。例えば、全体的な単
語、又は、単語のグループは、１つの音声認識ユニットにより表されてもよい。
単語モデル（ＷＭ）は、所定の語彙の各単語に対して、可聴音基準のシーケンス
内の転写を提供する。最も小さな語彙音声認識システムでは、全体的な単語は音
声認識ユニットにより表され、この場合には、単語モデルと音声認識ユニットの
間に直接的な関係が存在する。例えば、（例えば、数１００）比較的大きな数の
単語を認識するのに使用される他の小さな語彙システム又は、大きな語彙システ
ム内では、音、ダイフォーン（ｄｉｐｈｏｎｅｓ）又は音節のような、言語に基
づくサブワードユニット、フェネン（ｆｅｎｅｎｅｓ）とフェノン（ｆｅｎｏｎ
ｅｓ）のような、派生ユニットを使用することが可能である。そのようなシステ
ムに関しては、語彙のワードに関するサブワードユニットのシーケンスを記述す
る、辞書１３４と、関連する音声認識ユニットの可聴音基準のシーケンスを記述
する、サブワードモデル１３２とにより与えられる。単語モデル構成器１３６は
、サブワードモデル１３２と辞書１３４に基づいて単語モデルを構成する。

【００１６】図２Ａは、全体単語音声認識ユニットに基づくシステムに対する単語モデル２
００を示し、ここで、示された単語の音声認識ユニットは、１０の可聴音基準（
２０１から２１０）のシーケンスを使用してモデル化される。図２Ｂは、サブワ
ードユニットに基づくシステムに対する単語モデル２２０を示し、ここで、示さ
れた単語は、各々が４つの可聴音基準（２５１，２５２，２５３，２５４；２６
１から２６４；２７１から２７４）を伴なう、３つのサブワードモデル（２５０
，２６０及び、２７０）のシーケンスにより、モデル化される。図２に示された
単語モデルは、隠れたマルコフモデル（ＨＭＭｓ）に基づいており、これは、確
率論的なモデルの音声信号に広く使用される。このモデルを使用して、各認識ユ
ニット（単語モデル又は、サブワードモデル）は典型的には、ＨＭＭにより特徴
化され、そのパラメータはデータのトレーニングの組みから推定される。ラージ
語彙音声認識システムに対しては、大きなユニットに対してＨＭＭを適切にトレ
ーニングするには多くのトレーニングデータを必要とするので、通常は、例えば
４０の、制限された組みのサブワードユニットが使用される。ＨＭＭ状態は可聴
音基準に対応する。離散又は連続確率密度を含む、基準をモデル化するために種
々の技術が既知である。１つの特定の発音に関連する可聴音基準の各シーケンス
は、発音の可聴音転写と呼ばれる。ＨＭＭ以外の他の認識技術が使用される場合
には、可聴音転写の詳細が異なることは理解されよう。

【００１７】図１の単語レベル一致システム１３０は、音声認識ユニットの全てのシーケン
スに対して観測ベクトルを一致させそして、ベクトルとシーケンスの間の一致の
見込みを提供する。サブワードユニットが使用される場合には、サブワードユニ
ットの可能なシーケンスを辞書１３４内のシーケンスに制限するために、辞書１
３４を使用することにより一致に関して、制約が置かれる。これは、可能なシー
ケンスの単語に結果を減少させる。

【００１８】更に、言語モデル（ＬＭ）に基づいて、一致に関する更なる制約を設けそれに
より調査される経路が、言語モデルにより規定される適切なシーケンスである単
語シーケンスに対応する、センテンスレベルの一致システム１４０が使用され得
る。そのような言語モデルは、式（１）の第２項Ｐ（Ｗ）を提供する。可聴音モ
デルの結果と言語モデルの結果を結合することは、認識されたセンテンス（ＲＳ
）１５２であるユニット一致サブシステム１２０の結果となる。パターン認識で
使用される言語モデルは、言語と認識タスクのシンタックス上の及び／又は語義
に関する制約１４２を含んでも良い。シンタックスの制約に基づく言語モデルは
通常は、文法１４４と呼ばれる。言語モデルにより使用される文法１４４は、は
、単語シーケンスＷ＝ｗ_１ｗ_２ｗ_３．．．ｗ_ｑの確率を提供し、原理的には、Ｐ（Ｗ）＝Ｐ（ｗ_１）Ｐ（ｗ_２｜ｗ_１）．Ｐ（ｗ_３｜ｗ_１ｗ_２）．．．Ｐ（ｗ_ｑ｜ｗ_１ｗ_２ｗ_３．．．ｗ_ｑ）で与えられる。実際には、所定の言語内の全ての単語と全てのシーケンス長に対
する条件付単語確率を信頼性を持って推定するのは実行不可能である。Ｎ−グラ
ム単語モデルは広く使用されている。Ｎ−グラムモデルでは、項Ｐ（ｗ_ｊ｜ｗ_１ｗ_２ｗ_３．．．ｗ_ｊ−１）は、Ｐ（ｗ_ｊ｜ｗ_{ｊ−Ｎ＋１}．．．ｗ_ｊ−１）により
近似される。実際には２文字構成（バイグラム）又は３文字構成（トリグラム）
が使用される。トリグラムでは、項Ｐ（ｗ_ｊ｜ｗ_１ｗ_２ｗ_３．．．ｗ_ｊ−１）は
、Ｐ（ｗ_ｊ｜ｗ_ｊ−２ｗ_ｊ−１）により近似される。

【００１９】図３は、本発明に従った分散音声認識システム３００のブロック図を示す。シ
ステムの動作の例を、特に、認識された音声がテキスト又は同様な表現に変換さ
れるアプリケーションに関して説明する。そのようなテキスト的な表現は、口述
目的で使用され、テキスト的表現は、例えば、ワードプロセッサで書類に又は、
例えば、データベース内のフィールドを規定するために、テキストフィールド内
に入力される。口述のためには、現在のラージ語彙音声認識器は活性化された語
彙と６０，０００語までの辞書を扱う。多くの数の単語に対して、十分に正確な
認識ができるモデルを構築するために十分な関連するデータを得ることが困難で
ある。典型的には、ユーザは、ある数の単語を、活性化された語彙／辞書に加え
ても良い。それらの単語は、（単語の可聴音転写も含む）３００，０００から５
００，０００語の背景語彙から取り出される。口述又は、同様な目的のためにヒ
ュージ語彙は、例えば、少なくとも１００，０００の活性化された単語又は、３
００，０００以上の活性化された単語よりなってもよい。特に、クリックによる
リンクで全体的に異なる状況が形成されるインターネット環境に対しては、背景
語彙の多くの単語は、活動的に認識されることが可能であることが好ましいこと
は理解されよう。名前を認識するような他の認識タスクに対しては、それらは、
それに添付された前の名前の可能性の幾つかの形式を伴なう平坦なリストとして
通常はモデル化されるが、しかし高品質な言語モデルは存在せず、５０，０００
語以上の語彙は既にヒュージとして分類されている。

【００２０】認識結果は、口述目的で使用される必要がないことは理解されよう。認識され
た音声情報に従って、本の注文や旅行の予約のような、データベースから取り出
され又は操作が行われる、例えば、ダイアログシステムのような、他のシステム
の入力としてそれは等しく使用されても良い。

【００２１】分散認識システム３００は、サーバ局３１０及び、少なくとも１つのクライア
ント局を有する。３つのクライアント局３２０、３３０及び、３４０が示されて
おり、更なる詳細がクライアント局３３０に対して示されている。局は、従来の
コンピュータ技術を使用して実行される。例えば、クライアント局３３０は、デ
スクトップパーソナルコンピュータ又はワークステーションにより構成されても
良く、一方、サーバ局３１０はＰＣサーバ又はワークステーションサーバにより
構成されても良い。コンピュータは、コンピュータのプロセッサにロードされた
好適なプログラムの制御の下で動作する。サーバ局３１０とクライアント局３２
０、３３０及び、３４０は公衆インターネット３５０を介して接続されている。

【００２２】図４は、公衆インターネット４００の使用の詳細を示す。サーバ局３１０は、
公衆インターネットを介してユーザ（クライアント局）にサービスを提供するサ
ービスプロバイダと見ることができる。サービスプロバイダにより提供されるサ
ービスは、（公衆インターネットを介して音声を受信しそして、テキスト又は同
様な形式で認識結果を戻す）音声対テキスト変換に制限される。サービスプロバ
イダは、公衆インターネット内で利用できる種々の情報へのポータルとして動作
するような、改善された機能も提供する。そのような改善された機能は、サーバ
局による音声認識によっており、その場合には、認識された音声はクライアント
局に戻される必要はない。クライアント局は、プロバイダーを介して公衆インタ
ーネット４００にアクセスする。２つのアクセスプロバイダー４１０と４２０が
示されている。この例では、アクセスプロバイダー４１０は、クライアント局３
２０にアクセスし、一方では、アクセスプロバイダー４２０は、クライアント局
３３０と３４０にアクセスを提供する。アクセスプロバイダーとそのクライアン
ト局の間の接続は、ダイアルイン電話接続又はケーブルＴＶ接続のような、通常
はワイドエリアネットワークを介して発生する。

【００２３】図３に示されているように、局は、公衆インターネット３５０を介して通信す
るために、それぞれ通信局３１２と３３２を有する。公衆インターネット３５０
と共に使用するために好適などのような通信手段も使用できる。典型的には、通
信手段は、通信インターフェース又はモデムのようなハードウェアと、インター
ネットのＴＣＰ／ＩＰプロトコルを含む特定の通信プロトコルを扱うソフトウェ
アドライバの形式のソフトウェアの組合せにより形成される。クライアント局３
３０は、例えば、インターフェース３３１を介して、ユーザから音声を受信する
ための手段を有する。クライアント局３３０はさらに、サーバ局３１０への転送
に適するようにする、音声信号を前処理する手段を有する。例えば、クライアン
ト局は、図１のスペクトル分析サブシステム１１０と同様な、スペクトル分析サ
ブシステム３３３を有しても良い。サーバ局３１０は、図１のシステム１００に
対して説明した全ての他のタスクを実行できる。サーバ局は、ラージ又はヒュー
ジ語彙連続音声認識が出来ることが好ましい。それ自身でラージ語彙連続音声認
識は既知である。ヒュージ語彙連続音声認識に対しては、欧州出願ＥＰ９９２０
０９４９．８に記載された技術が使用される。サーバ局３１０は、単語モデルと
言語モデルを使用する、図１のユニット一致サブシステムと同様な、認識器３１
２を有する。認識された単語ＲＳのシーケンスような認識出力は、クライアント
局３３０に伝送して戻される。それは、更なる処理のためにサーバ局３１０内で
（例えば、ダイアログシステム内で）使用され、又は、インターネット上のサー
ビスプロバイダのような、更なる局に転送される。本発明に従って、クライアン
ト局３３０は、音声認識器３３４を有する。好適な実施例では、クライアント局
３３０の音声認識器３３４は、少語彙又はキーワード認識器のような音声認識器
に制限されている。そのような認識器は、既知であり、コスト効率よく実行され
る。クライアント局３３０は、さらに、音声コントローラ３３５を有する。音声
コントローラ３３５は、音声認識器３３４による認識の結果を分析し、そして、
認識結果に依存して、音声入力信号の一部を公衆インターネット３５０を介して
サーバ局３１０に向ける。このために、クライアント局３３０は、インターフェ
ース３３１を介して受信された（及び、分析器３３３により分析された）音声入
力が、通信インターフェース３３２により、サーバ局３１０に送られたか否かを
決定する、制御可能なスイッチ３３６を有する。局部音声認識器３３４のタスク
及びクライアント局３３０に課される負荷に依存して、音声コントローラ３３５
は、音声入力信号の一部を局部音声認識器３３４に転送するためのみの更なるス
イッチを使用しても良い。例えば、クライアント局３３０は、例えば、受信され
た入力信号のエネルギーレベルに基づいて、ユーザが話しているか否かを決定す
る、音声活動検出器を有しても良い。ユーザが話しをしていない（レベルがしき
い値以下の）場合には、信号は局部音声認識器３３４に向けられる必要はない。
そのような活動検出器は、既知である。負荷が制限する要因でない場合には、少
なくともユーザが関連するプログラムを活性化しそして、認識セッションの開始
を望むことを示した時には、音声を局部認識器に常に向けることが好ましい。局
部認識器を常に活性化することにより、エネルギーに基づく活動検出器の欠陥が
避けられる。例えば、そのような検出器に対しては、例えば、バックグランドミ
ュージック又は、背景で人が話しているとういうような特にノイズ環境では、し
きい値の正確な設定が非常に難しい。

【００２４】好適な実施例では、音声認識器３３４は、サーバ局による認識を活性化するた
めの口頭のコマンドを認識するように動作する制限された音声認識器である。そ
のような所定のコマンド（又は、幾つかの所定の活性化コマンドの１つ）が認識
された場合には、音声コントローラ３３５は、音声入力信号をサーバ局３１０に
向けるようにスイッチ３３６を制御する。音声コントローラ３３５は、通信手段
３３２を介して、サーバ局３１０へ、活性化命令も送る。例えば、サーバ局３１
０内での認識は、音声が通信インターフェース３１２を介して受信されたときに
はいつでも、自動的に活性化される。

【００２５】代わりの実施例では、音声認識器３３４は、局部クライアント局３３０の動作
に関連する少なくとも１つの口頭のコマンド／制御命令を認識するように動作す
る。このタスクに関しては、少語彙又はキーワード認識器を使用することで十分
である。局部コマンド／制御命令を認識するのに応答して、音声コントローラ３
３５は、対応する機械制御命令を局部クライアント局３３０の局コントローラ３
３７に発行する。そのような機械命令は、例えば、ウインドウズオペレーティン
グシステムについて定義されている、オペレーティングシステム又はユーザイン
ターフェース命令でもよい。音声コントローラ３３５と局コントローラ３３７は
、ウインドウズの下で動作する。

【００２６】図５に示す代わりの実施例では、システム５００は、５１０，５２０及び５３
０で示す、複数のサーバ局を含む。サーバ局は、図３のサーバ局３１０に関して
説明したのと同様な構成を有する。サーバ局は、公衆インターネット５４０をか
いして、クライアント局５５０で示された、少なくとも１つのクライアント局に
接続されている。クライアント局５５０は、図３のクライアント局３３０関して
説明したのと同様な構成を有する。クライアント局５５０の音声認識器は、制限
された音声認識器であることが好ましい。音声認識器は、音声ルーティングコマ
ンドを認識するように動作することが好ましい。クライアント局の音声コントロ
ーラは、音声入力信号を、認識されたルーティングコマンドに関連する少なくと
も１つのサーバに選択的に向ける。この向けることは、音声ルーティングコマン
ドをサーバ局のネットワークアドレスに翻訳するためのテーブルに基づいてもよ
い。そのようなテーブルは、例えば、一度、クライアント局のユーザによりクラ
イアント局にロードされ又は入力され、予め定められる。代わりに、そのような
テーブルは、動的でもよい。例えば、テーブルは、インターネットを介してダウ
ンロードされるＨＴＭＬドキュメントのように、ドキュメントに埋めこまれ又は
関連付けられててもよい。そのようなドキュメントでは、異なる領域は異なるサ
ーバに関連付けられている。例えば、ドキュメントは、各々が自身の認識サーバ
に関連付けられた幾つかの広告バナーを含んでも良い。

【００２７】代わりの実施例では、図３のクライアント局３３０の音声認識器３３４は、ラ
ージ語彙音声認識器（又は、随意に、ヒュージ語彙音声認識器）である。音声コ
ントローラ３３５は、局部クライアント局３３０内の音声認識器３３４の認識結
果に関する性能インジケータが、所定のしきい値以下の場合には、音声認識信号
の一部（又は全部）をサーバ局３１０に向ける。この向けることは、スイッチ３
３６を変更することにより行われる。原理的には、音声信号の最後の部分のみを
、例えば、認識できなかったセンテンスに関連する部分のみを、サーバ局３１０
に経路を選択することで十分である。サーバ局を音声信号によりよく同期させる
ことを可能とするために前の音声材料をサーバ局３１０に経路を選択すること、
そして、随意に、信号の前の部分に基づいて、可聴音又は言語モデルのような適
する認識モデルを選択することも好ましい。サーバ局３１０は認識された単語シ
ーケンスをクライアント局３３０へ転送して戻す。クライアント局３３０は、ク
ライアント局内の認識器とサーバ局内の認識器によりそれぞれ認識された単語か
ら、認識された単語シーケンスを選択するための選択器を有する。実際には、選
択器のタスクは、局部分析の結果を既に分析する、音声コントローラ３３５のタ
スクと結合される。

【００２８】図６は、公衆インターネット６１０を介して通信ができる少なくとも１つのク
ライアント局６００とサーバ局６２０を有する分散システム内の音声入力信号を
認識する方法を示す。この方法はクライアント局６００内でユーザからの音声入
力信号を受信するステップ６４０を有する。ステップ６５０では、音声入力信号
の少なくとも一部がクライアント局６００内で認識される。ステップ６６０では
、音声入力信号の一部を表す信号が、公衆インターネット６１０を介して、クラ
イアント局６００からサーバ局６２０へ、選択的に向けられる。この向けること
は、クライアント局６００内の認識の結果に依存する。ステップ６７０では、音
声等価信号が、公衆インターネット６１０から、サーバ局６２０内で受信される
。ステップ６８０では、受信された音声等価信号が、ラージ／ヒュージ語彙音声
認識器を使用して、サーバ局６２０内で認識される。随意に、ステップ６８５で
、サーバ局は、公衆インターネット６１０を介して、クライアント局６００に戻
された音声を示す信号の認識の認識結果（例えば、認識された音声のテキスト転
写）を示す情報を戻す。ステップ６９０では、クライアント局は情報を受信する
。

【図面の簡単な説明】

【図１】典型的な音声認識器の構成要素を示す図である。

【図２】ＨＭＭに基づくワードモデルを示す図である。

【図３】本発明に従った分散音声認識システムのブロック図である。

【図４】サーバ局にアクセスするための公衆インターネットを使用した更なる詳細を示
す図である。

【図５】サーバ局の選択を伴なうシステムのブロック図である。

【図６】分散システム内で音声入力信号を認識する方法を示す図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ベスリンク，シュテファンオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６Ｆターム(参考） 5D015 KK01 LL09 LL11

Claims

【特許請求の範囲】

【請求項１】音声入力信号を認識するための分散音声認識システムであっ
て、システムは少なくとも１つのクライアント局とサーバ局を有し、クライアント局は、ユーザから音声入力信号を受信する手段と、公衆インター
ネットを介してサーバ局へ受信された音声を表す信号を転送する手段とを有し、
且つ、サーバ局は、公衆インターネットから音声等価信号を受信する手段と、受信さ
れた音声等価信号を認識するためのラージ／ヒュージ語彙音声認識器を有し、クライアント局は、局部音声認識器と音声コントローラとを有し、音声コント
ローラは、音声入力信号の少なくとも一部を局部音声認識器に向けるように動作
し、認識の結果に依存して、音声入力信号の一部を公衆インターネットを介して
サーバ局へ選択的に向けることを特徴とするシステム。
【請求項２】クライアント局の局部音声認識器は、少語彙又はキーワード
認識器のような制限された音声認識器である請求項１に記載のシステム。
【請求項３】局部音声認識器は、サーバ局による音声認識を活性化するた
めに口頭命令を認識するように動作し、かつ、音声コントローラは、活性化コマ
ンドの認識に応答して、活性化命令をサーバに送り且つ音声入力信号をサーバ局
に向けるように動作する請求項１に記載のシステム。
【請求項４】認識器は、局部クライアント局の動作に関連する少なくとも
１つの口頭コマンド／制御命令を認識するように動作し、且つ、音声コントロー
ラは、局部クライアント局の局コントローラに、認識されたコマンド／制御命令
に対応する機械制御命令を発行するように動作する請求項１に記載システム。
【請求項５】システムは、複数のサーバ局を有し、音声認識器は音声ルー
ティングコマンドを認識するように動作し、音声コントローラは音声入力信号を
、少なくとも１つの関連するサーバへ選択的に向けるように動作することを特徴
とする請求項１に記載のシステム。
【請求項６】クライアント局の音声認識器はラージ語彙音声認識器であり
、音声コントローラは、局部クライアント局内の音声認識器の認識結果に対する
性能インジケータが所定のしきい値以下の場合には、音声入力信号の少なくとも
一部をサーバ局へ向けるように動作し、サーバ局は、認識されたワードシーケンスをクライアント局へ転送して戻すよ
うに動作し、クライアント局は、クライアント局内の認識器により及びサーバ局内の認識器
によりそれぞれ認識されたワードシーケンスから、認識されたワードシーケンス
を選択する選択器を有する請求項１に記載のシステム。
【請求項７】少なくとも1つのクライアント局とサーバ局を有する分散さ
れたシステム内で音声入力信号を認識するための方法であって、クライアント局で、ユーザからの音声入力信号を受信し、クライアント局で、音声入力信号の少なくとも一部を認識し、公衆インターネットを介して、クライアント局からサーバ局へ、クライアント
局内の認識の結果に依存して、音声入力信号の一部を表す信号選択的に向け、サーバ局で、公衆インターネットから音声等価信号を受信し、且つ、ラージ／ヒュージ語彙音声認識器を使用して、サーバ局内で受信された音声等
価信号を認識する方法。