JP2002540479A - クライアントサーバ音声認識 - Google Patents

クライアントサーバ音声認識

Info

Publication number
JP2002540479A
JP2002540479A JP2000608366A JP2000608366A JP2002540479A JP 2002540479 A JP2002540479 A JP 2002540479A JP 2000608366 A JP2000608366 A JP 2000608366A JP 2000608366 A JP2000608366 A JP 2000608366A JP 2002540479 A JP2002540479 A JP 2002540479A
Authority
JP
Japan
Prior art keywords
speech
station
server
recognizer
client station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000608366A
Other languages
English (en)
Inventor
テレン,エリク
ベスリンク,シュテファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Priority claimed from PCT/EP2000/001975 external-priority patent/WO2000058946A1/en
Publication of JP2002540479A publication Critical patent/JP2002540479A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 分散音声認識システム(300)は、公衆インターネット(350)を介して接続された、システムは少なくとも1つのクライアント局(330)とサーバ局(310)を有する。クライアント局(330)は、ユーザから音声入力信号を受信する手段(331)を有する。音声コントローラ(335)は、音声入力信号の少なくとも一部を局部音声認識器(334)に向ける。制限された音声認識器(334)は、例えば、完全な認識を開始するための口頭コマンドのような、音声入力の少なくとも一部を認識することが出来ることが好ましい。認識の結果に依存して、音声コントローラ(335)は、公衆インターネット(350)を介して、音声入力信号の一部を、サーバ局(310)に選択的に向ける。サーバ局(310)は、公衆インターネットから音声等価信号を受信する手段(312)と、受信された音声等価信号を認識するための、ラージ/ヒュージ語彙音声認識器(314)を有する。

Description

【発明の詳細な説明】
【0001】 本発明は、音声入力信号を認識するための分散音声認識システムであって、シ
ステムは少なくとも1つのクライアント局とサーバ局を有し、クライアント局は
、ユーザから音声入力信号を受信する手段と、公衆インターネットを介してサー
バ局へ受信された音声を表す信号を転送する手段とを有し、且つ、サーバ局は、
公衆インターネットから音声等価信号を受信する手段と、受信された音声等価信
号を認識するためのラージ/ヒュージ語彙音声認識器を有するシステムに関連す
る。
【0002】 本発明は、少なくとも1つのクライアント局とサーバ局を有する分散システム
内で音声入力信号を認識する方法にも関連する。
【0003】 米国特許番号5,819,220は、クライアント局はユーザにローカルであ
り、且つサーバは遠隔に配置され、公衆インターネットを介してアクセス可能な
、クライアントサーバ音声認識システムを開示する。このシステムは、ウェブペ
ージに関連する音声入力を提供するのに使用される。ユーザは、従来のブラウザ
を使用してウェブページを表示するクライアント局に音声を供給する。音声は、
例えば、質問を規定する又は、ページの情報フィールド(例えば、名前とアドレ
ス)を埋めるのに使用される。通常は、クライアント局は、マイクロフォンとオ
ーディオカードのA/D変換器を介して音声を受信する。音声の表現は、公衆イ
ンターネット上の音声サーバへ送られる。このサーバはウェブページを供給する
ウェブサーバ上に配置され又はウェブサーバを介してアクセス可能である。この
サーバは、ウェブサーバと独立した位置で、公衆インターネットを介してもアク
セスできる。サーバは音声を認識する。認識出力(例えば、認識されたワードシ
ーケンス)は、クライアント局又は直接的にウェブサーバに送り戻される。既知
のシステムでは、強力な音声認識器が、インターネット環境内で音声を認識する
ことができ且つ最適化されたサーバ内で使用できる。特定のアプリケーションに
関しては、この認識器は、ユーザがどのトピックの書類にも実質的にアクセスで
きるために、ある程度の、インターネット環境で発生し得るヒュージ語彙を扱う
ことが要求される。既知のクライアントサーバシステムでは、クライアント局で
は音声認識器を有しない。
【0004】 上述のシステムでは全ての音声入力がサーバに向けられているので、サーバ上
の負荷は非常に大きい。これは、特に、システムが同時に複数のクライアント局
を扱っている場合に顕著である。
【0005】 本発明の目的は、サーバ上の負荷を減少することにより上述のシステムと方法
を改善することである。
【0006】 本発明に従ってこの目的を達成するために、このシステムは、クライアント局
は、局部音声認識器と音声コントローラとを有し、音声コントローラは、音声入
力信号の少なくとも一部を局部音声認識器に向けるように動作し、認識の結果に
依存して、音声入力信号の一部を公衆インターネットを介してサーバ局へ選択的
に向けることを特徴とする。クライアント局内にも音声認識器を含めることによ
り、サーバから負荷が除去される。サーバは、おそらく多くの同時のユーザによ
るヒュージ語彙の音声の高品質な認識を提供する困難なタスクを目的とされ、そ
して、局部認識器が簡単に達成できる単純なタスクから開放されるであろう。タ
スクは単純であるが、サーバへ全ての音声入力を送ることは不必要とすることに
より単純に、サーバと公衆インターネーットから大きな負荷を除去できる。 更に、特定の認識タスクは、クライアントが、認識に関連する局部情報により簡
単にアクセスできるので、サーバ内でよりもクライアント内での方がより効果的
に実行できる。
【0007】 従属請求項2に記載されているように、クライアント局内では単純な認識器が
使用される。このように、クライアント局での追加のコストと処理負荷は低く保
たれる。
【0008】 従属請求項3に記載されているように、局部音声認識器は、サーバ局による音
声認識を活性化するために口頭コマンドを検出するのに使用される。これは、ユ
ーザが話していない場合又は、ユーザが話しているが音声が認識されるのを待っ
ていない場合に、クライアント局から来る音声入力信号を連続して走査しなけれ
ばならないことから、中央認識器を開放する。さらに、公衆インターネットも不
要な負荷から開放する。
【0009】 従属請求項4に記載されているように、局部認識器は、局部クライアント局の
制御のための命令の認識を実行するために使用される。クライアント局は、どの
動作が可能か(例えば、どのメニュー項目が声で制御されるか)を決定するのに
最も適している。更に、音声が公衆インターネットを介して送られ、そして、認
識結果が送り戻されるのが避けられ、一方、局部局は認識タスクを実行するのに
同等に又はより適している。
【0010】 従属請求項5に記載されているように、クライアント局は、音声信号がどの音
声サーバへ送られるべきかを決定するために、局部認識器を使用する。そのよう
なアプローチは、幾つかの音声認識サーバがある情況で効果的に使用される。こ
の例は異なる会社の幾つかの広告バナーを含むウェブページである。幾つか又は
全てのこれらの会社は、例えば、ユーザが、慣用句の口頭の質問をすることを可
能とする、自分自身の音声認識サーバを有する。局部認識器/コントローラは、
サーバの選択を行い、そして、例えば、”フィリップスを選択”又は、”フィリ
ップスへ話す”のような口頭の明確なルーティングコマンドに基づいて音声のル
ーティングを行う。ルーティングコマンドを認識する情報は、バナー自身から抽
出されてもよい。そのような情報は、タグの形式でバナー内にあり、そして、ル
ーティングコマンドを示すテキスト的な又は音素のような項目を含む。局部認識
器/コントローラは、それぞれの音声サーバに関連する情報に基づいてルーティ
ングを決定する。例えば、バナーテキストの単語は、ルーティングの基礎として
使用され得る。例えば、ユーザがバナーの1つの中で発生する単語を話すと、音
声はそのバナーに関連する音声サーバに向けられる。単語が、1つ以上のバナー
内で発生する場合には、音声は幾つかのサーバに、又は、(例えば、その関連す
るバナーが最も関連の高いその単語の発生を有する)最も可能性のある1つのサ
ーバに経路が選択される。バナー内で明確に示されている単語を使用する代りに
、バナーは例えば、リンクを介して、テキストの情報とも関連し得る。ユーザが
その情報から1つ又はそれ以上の単語を話す場合には、そのバナーに関連する音
声サーバが選択される。
【0011】 従属請求項6に記載されているように、サーバ内の音声認識器は、局部認識器
がユーザ入力を適切に行えない情況に対して、ある種の”バックアップ”として
使用される。音声入力をサーバに転送する判断は、スコア又は信頼性測定のよう
な性能指示に基づく。このように、従来のラージ語彙認識器は、クライアント局
内で使用でき、一方では、更に強力な認識器がサーバ内で使用される。サーバ内
の認識器は、例えば、大きな語彙又は、特定の言語モデルを扱える。並列に入力
が認識される場合でさえも、局部認識器は、動作可能なまま残りそして、入力を
認識する。このように、ユーザの入力は”実時間で”認識される。おそらく低精
度の局部認識器の初期認識は、おそらくサーバの高品質な結果により置換される
。選択器は、局部認識器と遠隔認識器の認識結果との間の最終的な選択を行う。
この選択は、性能インジケータに基づいている。
【0012】 本発明に従って目的を達成するために、分散されたシステム内で音声入力信号
を認識するための方法は、 クライアント局で、ユーザからの音声入力信号を受信し、 クライアント局で、音声入力信号の少なくとも一部を認識し、 公衆インターネットを介して、クライアント局からサーバ局へ、クライアント
局内の認識の結果に依存して、音声入力信号の一部を表す信号選択的に向け、 サーバ局で、公衆インターネットから音声等価信号を受信し、且つ、 ラージ/ヒュージ語彙音声認識器を使用して、サーバ局内で受信された音声等
価信号を認識する。
【0013】 本発明のこれらのそして他の特徴は、図面に示された実施例を参照した説明に
より明らかとなろう。
【0014】 ラージ語彙連続音声認識システムのような音声認識システムは、典型的には、
入力パターンを認識する認識モデルの集合を使用する。例えば、可聴音モデルと
語彙は単語認識するのに使用されそして、言語モデルは基本認識結果を改善する
のに使用される。図1は、ラージ語彙連続音声認識システム100の構造を示す
[L.Rabiner,B−H.Juang”音声認識の基礎”、プレンティス
ホール1993年、434頁から454頁参照]。システム100はスペクトル
分析サブシステム110と、ユニット一致サブシステム120を有する。スペク
トル分析サブシステム110では、音声入力信号(SIS)は、特徴の代表ベク
トル(観測ベクトル、OV)を計算するためにスペクトル的に及び/又は時間的
に分析される。典型的には、音声信号は(例えば、6.67kHzのレートでサ
ンプルされて)ディジタル化されそして、例えば、プリエンファシスを与えるこ
とにより、前処理される。連続するサンプルは、例えば、音声信号の32mse
cに対応するフレームにグループ化(ブロック化)される。連続するフレームは
、例えば、16msec間、部分的に重なる。しばしば、線形予測符号化(LP
C)スペクトル分析法が、各フレームに対して代表ベクトル(観測ベクトル)を
計算するのに使用される。特徴ベクトルは、例えば、24,32又は、63の成
分を有する。ラージ語彙連続音声認識システムへの標準的なアプローチは、音声
発生の確率モデルを仮定することであり、これにより、特定の単語シーケンスW
=w...wは、可聴音観測ベクトルY=y...y を発生する。認識誤差は、観測ベクトルy...y(時間t=1,
...,Tにわたって)の観測されたシーケンスを最も確率高く発生した単語の
シーケンスw...wを決定することにより、統計的に最小化され
、ここで、観測ベクトルはスペクトル分析サブシステム110の結果である。こ
の結果は、最大の事後確率、 全ての可能な単語シーケンスWに対して、maxP(W|Y)、を決定する。条
件確率に関するベイズの定理を適用することにより、P(W|Y)は、 P(W|Y)=P(Y|W).P(W)/P(Y) で与えられる。P(Y)はWと独立であるから、最も可能性の高い単語シーケン
スは、 全ての可能な単語シーケンスWに対して、 arg maxP(Y|W).P(W) (1) で与えられる。
【0015】 ユニット一致サブシステム120では、可聴音モデルは、式(1)の第1の項
を提供する。可聴音モデルは、所定の単語列Wに対する観測ベクトルYのシーケ
ンスの確率P(Y|W)を推定するのに使用される。ラージ語彙システムに対し
ては、これは通常は、音声認識ユニットの一覧表に対して観測ベクトルを一致さ
せることにより行われる。音声認識ユニットは、可聴音基準のシーケンスにより
表される。種々の形式の音声認識ユニットが使用され得る。例えば、全体的な単
語、又は、単語のグループは、1つの音声認識ユニットにより表されてもよい。
単語モデル(WM)は、所定の語彙の各単語に対して、可聴音基準のシーケンス
内の転写を提供する。最も小さな語彙音声認識システムでは、全体的な単語は音
声認識ユニットにより表され、この場合には、単語モデルと音声認識ユニットの
間に直接的な関係が存在する。例えば、(例えば、数100)比較的大きな数の
単語を認識するのに使用される他の小さな語彙システム又は、大きな語彙システ
ム内では、音、ダイフォーン(diphones)又は音節のような、言語に基
づくサブワードユニット、フェネン(fenenes)とフェノン(fenon
es)のような、派生ユニットを使用することが可能である。そのようなシステ
ムに関しては、語彙のワードに関するサブワードユニットのシーケンスを記述す
る、辞書134と、関連する音声認識ユニットの可聴音基準のシーケンスを記述
する、サブワードモデル132とにより与えられる。単語モデル構成器136は
、サブワードモデル132と辞書134に基づいて単語モデルを構成する。
【0016】 図2Aは、全体単語音声認識ユニットに基づくシステムに対する単語モデル2
00を示し、ここで、示された単語の音声認識ユニットは、10の可聴音基準(
201から210)のシーケンスを使用してモデル化される。図2Bは、サブワ
ードユニットに基づくシステムに対する単語モデル220を示し、ここで、示さ
れた単語は、各々が4つの可聴音基準(251,252,253,254;26
1から264;271から274)を伴なう、3つのサブワードモデル(250
,260及び、270)のシーケンスにより、モデル化される。図2に示された
単語モデルは、隠れたマルコフモデル(HMMs)に基づいており、これは、確
率論的なモデルの音声信号に広く使用される。このモデルを使用して、各認識ユ
ニット(単語モデル又は、サブワードモデル)は典型的には、HMMにより特徴
化され、そのパラメータはデータのトレーニングの組みから推定される。ラージ
語彙音声認識システムに対しては、大きなユニットに対してHMMを適切にトレ
ーニングするには多くのトレーニングデータを必要とするので、通常は、例えば
40の、制限された組みのサブワードユニットが使用される。HMM状態は可聴
音基準に対応する。離散又は連続確率密度を含む、基準をモデル化するために種
々の技術が既知である。1つの特定の発音に関連する可聴音基準の各シーケンス
は、発音の可聴音転写と呼ばれる。HMM以外の他の認識技術が使用される場合
には、可聴音転写の詳細が異なることは理解されよう。
【0017】 図1の単語レベル一致システム130は、音声認識ユニットの全てのシーケン
スに対して観測ベクトルを一致させそして、ベクトルとシーケンスの間の一致の
見込みを提供する。サブワードユニットが使用される場合には、サブワードユニ
ットの可能なシーケンスを辞書134内のシーケンスに制限するために、辞書1
34を使用することにより一致に関して、制約が置かれる。これは、可能なシー
ケンスの単語に結果を減少させる。
【0018】 更に、言語モデル(LM)に基づいて、一致に関する更なる制約を設けそれに
より調査される経路が、言語モデルにより規定される適切なシーケンスである単
語シーケンスに対応する、センテンスレベルの一致システム140が使用され得
る。そのような言語モデルは、式(1)の第2項P(W)を提供する。可聴音モ
デルの結果と言語モデルの結果を結合することは、認識されたセンテンス(RS
)152であるユニット一致サブシステム120の結果となる。パターン認識で
使用される言語モデルは、言語と認識タスクのシンタックス上の及び/又は語義
に関する制約142を含んでも良い。シンタックスの制約に基づく言語モデルは
通常は、文法144と呼ばれる。言語モデルにより使用される文法144は、は
、単語シーケンスW=w...wの確率を提供し、原理的には、 P(W)=P(w)P(w|w).P(w|w)...P(w |w...w) で与えられる。実際には、所定の言語内の全ての単語と全てのシーケンス長に対
する条件付単語確率を信頼性を持って推定するのは実行不可能である。N−グラ
ム単語モデルは広く使用されている。N−グラムモデルでは、項P(w|w...wj−1)は、P(w|wj−N+1...wj−1)により
近似される。実際には2文字構成(バイグラム)又は3文字構成(トリグラム)
が使用される。トリグラムでは、項P(w|w...wj−1)は
、P(w|wj−2j−1)により近似される。
【0019】 図3は、本発明に従った分散音声認識システム300のブロック図を示す。シ
ステムの動作の例を、特に、認識された音声がテキスト又は同様な表現に変換さ
れるアプリケーションに関して説明する。そのようなテキスト的な表現は、口述
目的で使用され、テキスト的表現は、例えば、ワードプロセッサで書類に又は、
例えば、データベース内のフィールドを規定するために、テキストフィールド内
に入力される。口述のためには、現在のラージ語彙音声認識器は活性化された語
彙と60,000語までの辞書を扱う。多くの数の単語に対して、十分に正確な
認識ができるモデルを構築するために十分な関連するデータを得ることが困難で
ある。典型的には、ユーザは、ある数の単語を、活性化された語彙/辞書に加え
ても良い。それらの単語は、(単語の可聴音転写も含む)300,000から5
00,000語の背景語彙から取り出される。口述又は、同様な目的のためにヒ
ュージ語彙は、例えば、少なくとも100,000の活性化された単語又は、3
00,000以上の活性化された単語よりなってもよい。特に、クリックによる
リンクで全体的に異なる状況が形成されるインターネット環境に対しては、背景
語彙の多くの単語は、活動的に認識されることが可能であることが好ましいこと
は理解されよう。名前を認識するような他の認識タスクに対しては、それらは、
それに添付された前の名前の可能性の幾つかの形式を伴なう平坦なリストとして
通常はモデル化されるが、しかし高品質な言語モデルは存在せず、50,000
語以上の語彙は既にヒュージとして分類されている。
【0020】 認識結果は、口述目的で使用される必要がないことは理解されよう。認識され
た音声情報に従って、本の注文や旅行の予約のような、データベースから取り出
され又は操作が行われる、例えば、ダイアログシステムのような、他のシステム
の入力としてそれは等しく使用されても良い。
【0021】 分散認識システム300は、サーバ局310及び、少なくとも1つのクライア
ント局を有する。3つのクライアント局320、330及び、340が示されて
おり、更なる詳細がクライアント局330に対して示されている。局は、従来の
コンピュータ技術を使用して実行される。例えば、クライアント局330は、デ
スクトップパーソナルコンピュータ又はワークステーションにより構成されても
良く、一方、サーバ局310はPCサーバ又はワークステーションサーバにより
構成されても良い。コンピュータは、コンピュータのプロセッサにロードされた
好適なプログラムの制御の下で動作する。サーバ局310とクライアント局32
0、330及び、340は公衆インターネット350を介して接続されている。
【0022】 図4は、公衆インターネット400の使用の詳細を示す。サーバ局310は、
公衆インターネットを介してユーザ(クライアント局)にサービスを提供するサ
ービスプロバイダと見ることができる。サービスプロバイダにより提供されるサ
ービスは、(公衆インターネットを介して音声を受信しそして、テキスト又は同
様な形式で認識結果を戻す)音声対テキスト変換に制限される。サービスプロバ
イダは、公衆インターネット内で利用できる種々の情報へのポータルとして動作
するような、改善された機能も提供する。そのような改善された機能は、サーバ
局による音声認識によっており、その場合には、認識された音声はクライアント
局に戻される必要はない。クライアント局は、プロバイダーを介して公衆インタ
ーネット400にアクセスする。2つのアクセスプロバイダー410と420が
示されている。この例では、アクセスプロバイダー410は、クライアント局3
20にアクセスし、一方では、アクセスプロバイダー420は、クライアント局
330と340にアクセスを提供する。アクセスプロバイダーとそのクライアン
ト局の間の接続は、ダイアルイン電話接続又はケーブルTV接続のような、通常
はワイドエリアネットワークを介して発生する。
【0023】 図3に示されているように、局は、公衆インターネット350を介して通信す
るために、それぞれ通信局312と332を有する。公衆インターネット350
と共に使用するために好適などのような通信手段も使用できる。典型的には、通
信手段は、通信インターフェース又はモデムのようなハードウェアと、インター
ネットのTCP/IPプロトコルを含む特定の通信プロトコルを扱うソフトウェ
アドライバの形式のソフトウェアの組合せにより形成される。クライアント局3
30は、例えば、インターフェース331を介して、ユーザから音声を受信する
ための手段を有する。クライアント局330はさらに、サーバ局310への転送
に適するようにする、音声信号を前処理する手段を有する。例えば、クライアン
ト局は、図1のスペクトル分析サブシステム110と同様な、スペクトル分析サ
ブシステム333を有しても良い。サーバ局310は、図1のシステム100に
対して説明した全ての他のタスクを実行できる。サーバ局は、ラージ又はヒュー
ジ語彙連続音声認識が出来ることが好ましい。それ自身でラージ語彙連続音声認
識は既知である。ヒュージ語彙連続音声認識に対しては、欧州出願EP9920
0949.8に記載された技術が使用される。サーバ局310は、単語モデルと
言語モデルを使用する、図1のユニット一致サブシステムと同様な、認識器31
2を有する。認識された単語RSのシーケンスような認識出力は、クライアント
局330に伝送して戻される。それは、更なる処理のためにサーバ局310内で
(例えば、ダイアログシステム内で)使用され、又は、インターネット上のサー
ビスプロバイダのような、更なる局に転送される。本発明に従って、クライアン
ト局330は、音声認識器334を有する。好適な実施例では、クライアント局
330の音声認識器334は、少語彙又はキーワード認識器のような音声認識器
に制限されている。そのような認識器は、既知であり、コスト効率よく実行され
る。クライアント局330は、さらに、音声コントローラ335を有する。音声
コントローラ335は、音声認識器334による認識の結果を分析し、そして、
認識結果に依存して、音声入力信号の一部を公衆インターネット350を介して
サーバ局310に向ける。このために、クライアント局330は、インターフェ
ース331を介して受信された(及び、分析器333により分析された)音声入
力が、通信インターフェース332により、サーバ局310に送られたか否かを
決定する、制御可能なスイッチ336を有する。局部音声認識器334のタスク
及びクライアント局330に課される負荷に依存して、音声コントローラ335
は、音声入力信号の一部を局部音声認識器334に転送するためのみの更なるス
イッチを使用しても良い。例えば、クライアント局330は、例えば、受信され
た入力信号のエネルギーレベルに基づいて、ユーザが話しているか否かを決定す
る、音声活動検出器を有しても良い。ユーザが話しをしていない(レベルがしき
い値以下の)場合には、信号は局部音声認識器334に向けられる必要はない。
そのような活動検出器は、既知である。負荷が制限する要因でない場合には、少
なくともユーザが関連するプログラムを活性化しそして、認識セッションの開始
を望むことを示した時には、音声を局部認識器に常に向けることが好ましい。局
部認識器を常に活性化することにより、エネルギーに基づく活動検出器の欠陥が
避けられる。例えば、そのような検出器に対しては、例えば、バックグランドミ
ュージック又は、背景で人が話しているとういうような特にノイズ環境では、し
きい値の正確な設定が非常に難しい。
【0024】 好適な実施例では、音声認識器334は、サーバ局による認識を活性化するた
めの口頭のコマンドを認識するように動作する制限された音声認識器である。そ
のような所定のコマンド(又は、幾つかの所定の活性化コマンドの1つ)が認識
された場合には、音声コントローラ335は、音声入力信号をサーバ局310に
向けるようにスイッチ336を制御する。音声コントローラ335は、通信手段
332を介して、サーバ局310へ、活性化命令も送る。例えば、サーバ局31
0内での認識は、音声が通信インターフェース312を介して受信されたときに
はいつでも、自動的に活性化される。
【0025】 代わりの実施例では、音声認識器334は、局部クライアント局330の動作
に関連する少なくとも1つの口頭のコマンド/制御命令を認識するように動作す
る。このタスクに関しては、少語彙又はキーワード認識器を使用することで十分
である。局部コマンド/制御命令を認識するのに応答して、音声コントローラ3
35は、対応する機械制御命令を局部クライアント局330の局コントローラ3
37に発行する。そのような機械命令は、例えば、ウインドウズオペレーティン
グシステムについて定義されている、オペレーティングシステム又はユーザイン
ターフェース命令でもよい。音声コントローラ335と局コントローラ337は
、ウインドウズの下で動作する。
【0026】 図5に示す代わりの実施例では、システム500は、510,520及び53
0で示す、複数のサーバ局を含む。サーバ局は、図3のサーバ局310に関して
説明したのと同様な構成を有する。サーバ局は、公衆インターネット540をか
いして、クライアント局550で示された、少なくとも1つのクライアント局に
接続されている。クライアント局550は、図3のクライアント局330関して
説明したのと同様な構成を有する。クライアント局550の音声認識器は、制限
された音声認識器であることが好ましい。音声認識器は、音声ルーティングコマ
ンドを認識するように動作することが好ましい。クライアント局の音声コントロ
ーラは、音声入力信号を、認識されたルーティングコマンドに関連する少なくと
も1つのサーバに選択的に向ける。この向けることは、音声ルーティングコマン
ドをサーバ局のネットワークアドレスに翻訳するためのテーブルに基づいてもよ
い。そのようなテーブルは、例えば、一度、クライアント局のユーザによりクラ
イアント局にロードされ又は入力され、予め定められる。代わりに、そのような
テーブルは、動的でもよい。例えば、テーブルは、インターネットを介してダウ
ンロードされるHTMLドキュメントのように、ドキュメントに埋めこまれ又は
関連付けられててもよい。そのようなドキュメントでは、異なる領域は異なるサ
ーバに関連付けられている。例えば、ドキュメントは、各々が自身の認識サーバ
に関連付けられた幾つかの広告バナーを含んでも良い。
【0027】 代わりの実施例では、図3のクライアント局330の音声認識器334は、ラ
ージ語彙音声認識器(又は、随意に、ヒュージ語彙音声認識器)である。音声コ
ントローラ335は、局部クライアント局330内の音声認識器334の認識結
果に関する性能インジケータが、所定のしきい値以下の場合には、音声認識信号
の一部(又は全部)をサーバ局310に向ける。この向けることは、スイッチ3
36を変更することにより行われる。原理的には、音声信号の最後の部分のみを
、例えば、認識できなかったセンテンスに関連する部分のみを、サーバ局310
に経路を選択することで十分である。サーバ局を音声信号によりよく同期させる
ことを可能とするために前の音声材料をサーバ局310に経路を選択すること、
そして、随意に、信号の前の部分に基づいて、可聴音又は言語モデルのような適
する認識モデルを選択することも好ましい。サーバ局310は認識された単語シ
ーケンスをクライアント局330へ転送して戻す。クライアント局330は、ク
ライアント局内の認識器とサーバ局内の認識器によりそれぞれ認識された単語か
ら、認識された単語シーケンスを選択するための選択器を有する。実際には、選
択器のタスクは、局部分析の結果を既に分析する、音声コントローラ335のタ
スクと結合される。
【0028】 図6は、公衆インターネット610を介して通信ができる少なくとも1つのク
ライアント局600とサーバ局620を有する分散システム内の音声入力信号を
認識する方法を示す。この方法はクライアント局600内でユーザからの音声入
力信号を受信するステップ640を有する。ステップ650では、音声入力信号
の少なくとも一部がクライアント局600内で認識される。ステップ660では
、音声入力信号の一部を表す信号が、公衆インターネット610を介して、クラ
イアント局600からサーバ局620へ、選択的に向けられる。この向けること
は、クライアント局600内の認識の結果に依存する。ステップ670では、音
声等価信号が、公衆インターネット610から、サーバ局620内で受信される
。ステップ680では、受信された音声等価信号が、ラージ/ヒュージ語彙音声
認識器を使用して、サーバ局620内で認識される。随意に、ステップ685で
、サーバ局は、公衆インターネット610を介して、クライアント局600に戻
された音声を示す信号の認識の認識結果(例えば、認識された音声のテキスト転
写)を示す情報を戻す。ステップ690では、クライアント局は情報を受信する
【図面の簡単な説明】
【図1】 典型的な音声認識器の構成要素を示す図である。
【図2】 HMMに基づくワードモデルを示す図である。
【図3】 本発明に従った分散音声認識システムのブロック図である。
【図4】 サーバ局にアクセスするための公衆インターネットを使用した更なる詳細を示
す図である。
【図5】 サーバ局の選択を伴なうシステムのブロック図である。
【図6】 分散システム内で音声入力信号を認識する方法を示す図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,US,UZ,VN,YU,ZA,ZW (72)発明者 ベスリンク,シュテファン オランダ国,5656 アーアー アインドー フェン,プロフ・ホルストラーン 6 Fターム(参考) 5D015 KK01 LL09 LL11

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声入力信号を認識するための分散音声認識システムであっ
    て、 システムは少なくとも1つのクライアント局とサーバ局を有し、 クライアント局は、ユーザから音声入力信号を受信する手段と、公衆インター
    ネットを介してサーバ局へ受信された音声を表す信号を転送する手段とを有し、
    且つ、 サーバ局は、公衆インターネットから音声等価信号を受信する手段と、受信さ
    れた音声等価信号を認識するためのラージ/ヒュージ語彙音声認識器を有し、 クライアント局は、局部音声認識器と音声コントローラとを有し、音声コント
    ローラは、音声入力信号の少なくとも一部を局部音声認識器に向けるように動作
    し、認識の結果に依存して、音声入力信号の一部を公衆インターネットを介して
    サーバ局へ選択的に向けることを特徴とするシステム。
  2. 【請求項2】 クライアント局の局部音声認識器は、少語彙又はキーワード
    認識器のような制限された音声認識器である請求項1に記載のシステム。
  3. 【請求項3】 局部音声認識器は、サーバ局による音声認識を活性化するた
    めに口頭命令を認識するように動作し、かつ、音声コントローラは、活性化コマ
    ンドの認識に応答して、活性化命令をサーバに送り且つ音声入力信号をサーバ局
    に向けるように動作する請求項1に記載のシステム。
  4. 【請求項4】 認識器は、局部クライアント局の動作に関連する少なくとも
    1つの口頭コマンド/制御命令を認識するように動作し、且つ、音声コントロー
    ラは、局部クライアント局の局コントローラに、認識されたコマンド/制御命令
    に対応する機械制御命令を発行するように動作する請求項1に記載システム。
  5. 【請求項5】 システムは、複数のサーバ局を有し、音声認識器は音声ルー
    ティングコマンドを認識するように動作し、音声コントローラは音声入力信号を
    、少なくとも1つの関連するサーバへ選択的に向けるように動作することを特徴
    とする請求項1に記載のシステム。
  6. 【請求項6】 クライアント局の音声認識器はラージ語彙音声認識器であり
    、音声コントローラは、局部クライアント局内の音声認識器の認識結果に対する
    性能インジケータが所定のしきい値以下の場合には、音声入力信号の少なくとも
    一部をサーバ局へ向けるように動作し、 サーバ局は、認識されたワードシーケンスをクライアント局へ転送して戻すよ
    うに動作し、 クライアント局は、クライアント局内の認識器により及びサーバ局内の認識器
    によりそれぞれ認識されたワードシーケンスから、認識されたワードシーケンス
    を選択する選択器を有する請求項1に記載のシステム。
  7. 【請求項7】 少なくとも1つのクライアント局とサーバ局を有する分散さ
    れたシステム内で音声入力信号を認識するための方法であって、 クライアント局で、ユーザからの音声入力信号を受信し、 クライアント局で、音声入力信号の少なくとも一部を認識し、 公衆インターネットを介して、クライアント局からサーバ局へ、クライアント
    局内の認識の結果に依存して、音声入力信号の一部を表す信号選択的に向け、 サーバ局で、公衆インターネットから音声等価信号を受信し、且つ、 ラージ/ヒュージ語彙音声認識器を使用して、サーバ局内で受信された音声等
    価信号を認識する方法。
JP2000608366A 1999-03-26 2000-03-07 クライアントサーバ音声認識 Pending JP2002540479A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP99200950 1999-03-26
EP99200950.6 1999-03-26
EP99203342.3 1999-10-12
EP99203342 1999-10-12
PCT/EP2000/001975 WO2000058946A1 (en) 1999-03-26 2000-03-07 Client-server speech recognition

Publications (1)

Publication Number Publication Date
JP2002540479A true JP2002540479A (ja) 2002-11-26

Family

ID=26153287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000608366A Pending JP2002540479A (ja) 1999-03-26 2000-03-07 クライアントサーバ音声認識

Country Status (7)

Country Link
EP (1) EP1181684B1 (ja)
JP (1) JP2002540479A (ja)
KR (1) KR20010108402A (ja)
CN (1) CN1351745A (ja)
AT (1) ATE281689T1 (ja)
AU (1) AU3165000A (ja)
DE (1) DE60015531T2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2003517158A (ja) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド 分散型リアルタイム音声認識システム
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
US8892425B2 (en) 2004-10-08 2014-11-18 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
JP2015109105A (ja) * 2005-08-19 2015-06-11 ボイス シグナル テクノロジーズ, インコーポレイテッド 携帯電話上に広告を表示するためのシステム

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
KR100956941B1 (ko) * 2003-06-27 2010-05-11 주식회사 케이티 네트워크 상황에 따른 선택적 음성인식 장치 및 그 방법
KR100737358B1 (ko) * 2004-12-08 2007-07-09 한국전자통신연구원 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치
US7711358B2 (en) * 2004-12-16 2010-05-04 General Motors Llc Method and system for modifying nametag files for transfer between vehicles
CN100484283C (zh) 2006-03-13 2009-04-29 华为技术有限公司 通过短消息获取用户信息的方法
KR101326262B1 (ko) * 2007-12-27 2013-11-20 삼성전자주식회사 음성인식 단말 및 그 방법
US20090271200A1 (en) 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
CN102546542B (zh) * 2010-12-20 2015-04-29 福建星网视易信息系统有限公司 电子系统及其嵌入式设备和中转设备
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
US20130144618A1 (en) * 2011-12-02 2013-06-06 Liang-Che Sun Methods and electronic devices for speech recognition
CN102682770A (zh) * 2012-02-23 2012-09-19 西安雷迪维护系统设备有限公司 基于云计算的语音识别系统
CN103295575B (zh) * 2012-02-27 2019-01-25 北京三星通信技术研究有限公司 一种语音识别方法和客户端
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
GB2503436A (en) * 2012-06-26 2014-01-01 Ibm A client server system for processing one or more events
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
KR20140089863A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
JP5921756B2 (ja) * 2013-02-25 2016-05-24 三菱電機株式会社 音声認識システムおよび音声認識装置
CN103440867B (zh) * 2013-08-02 2016-08-10 科大讯飞股份有限公司 语音识别方法及系统
CN103472994B (zh) * 2013-09-06 2017-02-08 网易乐得科技有限公司 一种基于语音实现操作控制的方法、装置和系统
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
DE102014200570A1 (de) * 2014-01-15 2015-07-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Erzeugung eines Steuerungsbefehls
US20150317973A1 (en) 2014-04-30 2015-11-05 GM Global Technology Operations LLC Systems and methods for coordinating speech recognition
US20160111090A1 (en) * 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
US9646611B2 (en) * 2014-11-06 2017-05-09 Microsoft Technology Licensing, Llc Context-based actions
US10235130B2 (en) 2014-11-06 2019-03-19 Microsoft Technology Licensing, Llc Intent driven command processing
KR102642666B1 (ko) * 2016-02-05 2024-03-05 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
CN109300467B (zh) * 2018-11-30 2021-07-06 四川长虹电器股份有限公司 语音合成方法及装置
CN110265031A (zh) * 2019-07-25 2019-09-20 秒针信息技术有限公司 一种语音处理方法及装置
CN110517674A (zh) * 2019-07-26 2019-11-29 视联动力信息技术股份有限公司 一种语音处理方法、装置及存储介质
CN111883114A (zh) * 2020-06-16 2020-11-03 武汉理工大学 一种船舶语音控制方法、系统、装置及存储介质
KR102608344B1 (ko) * 2021-02-04 2023-11-29 주식회사 퀀텀에이아이 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102581221B1 (ko) * 2023-05-10 2023-09-21 주식회사 솔트룩스 재생 중인 응답 발화를 제어 및 사용자 의도를 예측하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09507105A (ja) * 1993-12-22 1997-07-15 クゥアルコム・インコーポレーテッド 分散音声認識システム
JPH10214258A (ja) * 1997-01-28 1998-08-11 Victor Co Of Japan Ltd データ処理システム
JPH10240493A (ja) * 1997-01-06 1998-09-11 Texas Instr Inc <Ti> Javaへ音声認識能力を加えるシステムと方法
JPH10275162A (ja) * 1997-01-06 1998-10-13 Texas Instr Inc <Ti> プロセッサに基づくホスト・システムを制御する無線音声起動制御装置
JPH10333693A (ja) * 1997-04-14 1998-12-18 At & T Corp 自動スピーチ認識サービス提供方法およびシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09507105A (ja) * 1993-12-22 1997-07-15 クゥアルコム・インコーポレーテッド 分散音声認識システム
JPH10240493A (ja) * 1997-01-06 1998-09-11 Texas Instr Inc <Ti> Javaへ音声認識能力を加えるシステムと方法
JPH10275162A (ja) * 1997-01-06 1998-10-13 Texas Instr Inc <Ti> プロセッサに基づくホスト・システムを制御する無線音声起動制御装置
JPH10214258A (ja) * 1997-01-28 1998-08-11 Victor Co Of Japan Ltd データ処理システム
JPH10333693A (ja) * 1997-04-14 1998-12-18 At & T Corp 自動スピーチ認識サービス提供方法およびシステム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517158A (ja) * 1999-11-12 2003-05-20 フェニックス ソリューションズ インコーポレーテッド 分散型リアルタイム音声認識システム
JP4987203B2 (ja) * 1999-11-12 2012-07-25 フェニックス ソリューションズ インコーポレーテッド 分散型リアルタイム音声認識装置
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP2002182679A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
JPWO2005122144A1 (ja) * 2004-06-10 2008-04-10 松下電器産業株式会社 音声認識装置、音声認識方法、及びプログラム
US7813928B2 (en) 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
US8892425B2 (en) 2004-10-08 2014-11-18 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
JP2015109105A (ja) * 2005-08-19 2015-06-11 ボイス シグナル テクノロジーズ, インコーポレイテッド 携帯電話上に広告を表示するためのシステム
US9898761B2 (en) 2005-08-19 2018-02-20 Nuance Communications, Inc. Method of compensating a provider for advertisements displayed on a mobile phone
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置

Also Published As

Publication number Publication date
EP1181684A1 (en) 2002-02-27
CN1351745A (zh) 2002-05-29
DE60015531D1 (de) 2004-12-09
DE60015531T2 (de) 2005-03-24
KR20010108402A (ko) 2001-12-07
ATE281689T1 (de) 2004-11-15
AU3165000A (en) 2000-10-16
EP1181684B1 (en) 2004-11-03

Similar Documents

Publication Publication Date Title
JP2002540479A (ja) クライアントサーバ音声認識
US6487534B1 (en) Distributed client-server speech recognition system
US9430467B2 (en) Mobile speech-to-speech interpretation system
US7013275B2 (en) Method and apparatus for providing a dynamic speech-driven control and remote service access system
EP1171871B1 (en) Recognition engines with complementary language models
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
US7016849B2 (en) Method and apparatus for providing speech-driven routing between spoken language applications
US5960399A (en) Client/server speech processor/recognizer
Jurafsky et al. The berkeley restaurant project.
US5615296A (en) Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
Tsiakoulis et al. Statistical methods for building robust spoken dialogue systems in an automobile
JP4103085B2 (ja) 異言語間対話処理方法およびその装置、ならびにそのプログラムと記録媒体
Venkatagiri Speech recognition technology applications in communication disorders
Neto et al. The development of a multi-purpose spoken dialogue system.
JP2000242295A (ja) 音声認識装置および音声対話装置
Spiros Multimodal System for Preschool Children
JP2003510662A (ja) 音声認識器における綴りモード
Mrutti et al. On the development on an in-car speech interaction system at IRST
Gelbart et al. SmartKom-English: From Robust Recognition to Felicitous Interaction
Chandra et al. Overview of Speech Recognition and Recognizer
Johnsen et al. Improving speech centric dialogue systems–The BRAGE project
JP2003076391A (ja) 音声認識装置、音声認識方法及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100604

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100611

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005