JP2002536692A - 分散された音声認識システム - Google Patents
分散された音声認識システムInfo
- Publication number
- JP2002536692A JP2002536692A JP2000597795A JP2000597795A JP2002536692A JP 2002536692 A JP2002536692 A JP 2002536692A JP 2000597795 A JP2000597795 A JP 2000597795A JP 2000597795 A JP2000597795 A JP 2000597795A JP 2002536692 A JP2002536692 A JP 2002536692A
- Authority
- JP
- Japan
- Prior art keywords
- vocoder
- speech
- parameters
- microprocessor
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Abstract
Description
とのインターフェイスを容易にするために機械にシミュレートされた知能を与え
る最も重要な技術の1つを表している。VRはまた人間の音声を理解するための
主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技
術を用いるシステムは音声認識装置を呼ばれる。音声認識装置は典型的に、入来
する生(未加工)のスピーチのVRを行うのに必要な情報を有する特徴のシーケ
ンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語ワー
ドのシーケンスのような意味をなす所望の出力フォーマットを生成するために特
徴のシーケンスまたはベクトルを復号するワードデコーダとを具備している。所
定のシステムの性能を増加するため、システムに有効なパラメータを装備するた
めにトレーニングが必要とされる。換言すると、システムは最適に機能できる前
に学習を必要とする。
を表している。入力スピーチ信号に応答して、音響プロセッサは時間的に変化す
るスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサは背景
雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄すべき
である。実効的な音響処理は強化された音響弁別パワーを有する音声認識装置を
備えている。結局、解析される有効な特性は短時間のスペクトルエンベロープで
ある。短時間のスペクトルエンベロープを特徴付けるための2つの普通に使用さ
れるスペクトル解析技術は線形予測符号化(LPC)とフィルタバンクベースの
スペクトルモデル化である。例示的なLPC技術は本発明の参考文献とされてい
る米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B. Rabin
er & R.W. Schafer のDigital Processing of Speech Signals、396 −453 頁(
1978年)に記載されている。
している。例えば、VRは無線電話のキーパッドのボタンを押す手作業の置換の
ために使用されることができる。これは特にユーザが車を運転しながら呼を開始
しているときに重要である。VRなしで電話を使用するとき、運転者は一方の手
を操縦ハンドルから外し、ダイヤリングによって通話するためにボタンを押しな
がら電話のキーパッドを見なければならない。これらの行動は自動車事故の可能
性を増加する。スピーチエネーブル電話(即ちスピーチ認識用に設計されている
電話)は運転者が連続的に道路を見ながら通話を行うことを可能にする。手を使
用しない自動車キットシステムはさらに運転者が呼を開始しながら操縦ハンドル
に両手を維持することを可能にする。
スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さら
により一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識する
ようにトレーニングされている。スピーカ依存のVR装置は典型的に2つのフェ
ーズ、即ちトレーニングフェーズと認識フェーズで動作する。トレーニングフェ
ーズでは、VRシステムはユーザにシステムの語彙の各ワードを1度または2度
発話させ、それによってシステムはこれらの特定のワードまたはフレーズに対す
るユーザのスピーチ特性を学習できる。代わりに、音声的なVR装置では、トレ
ーニングは言語の全ての音素を網羅するように特別にスクリプトされた1以上の
簡単なアーティクルを読取ることにより実現される。手を使用しない自動車キッ
ト用の例示的な語彙はキーパッド上の数字と、キーワード“呼”、“送信”、“
ダイヤル”、“取消し”、“クリア”、“付加”、“消去”、“経歴”、“プロ
グラム”、“イエス”、“ノー”と、予め限定された数の共通して呼ばれる共働
者、友人または家族のメンバの名称を含んでいる。トレーニングが一度完了する
と、ユーザはトレーニングされたキーワードを発話することにより、認識フェー
ズで呼を開始できる。例えば名称“John”がトレーニングされた名称のうちの1
つであるならば、ユーザはフレーズ“Call John ”と言うことによりジョンへの
呼を開始する。VRシステムはワード“Call”と“John”を認識し、ジョンの電
話番号のようなユーザが予め入力した番号をダイヤルする。
ル信号プロセッサ(DSP)またはマイクロプロセッサを使用し、関連するパラ
メータを抽出し、パラメータを復号し、復号されたパラメータを記憶された1組
のワードまたはVRテンプレートと比較し、VRテンプレートはVR装置のボキ
ャブラリを構成している。ボキャブラリは例えばフラッシュメモリのような非揮
発性メモリに記憶されている。例えばデジタルセルラ電話のようなDSPとマイ
クロプロセッサの両者を有する通常のVRシステムでは、非揮発性メモリは通常
DSPではなくマイクロプロセッサによってアクセス可能である。このようなシ
ステムでは、VRがマイクロプロセッサで全体的に実行されるならば、そのマイ
クロプロセッサは通常、合理的な待ち時間で認識結果を転送するための計算パワ
ーが不足している。他方で、VRはDSPで全体的に実行されるならば、マイク
ロプロセッサはDSPが大きいVRテンプレートを保持するのに十分ではない比
較的小さいサイズのオンチップメモリを有するとき、フラッシュメモリを読取り
、読取り内容をDSPへ送ることを必要とする。DSPとマイクロプロセッサの
間のインターフェイスの典型的に低い帯域幅が所定の量の時間に2つの装置間で
転送されることができるデータ量を限定するので、これは長い時間の必要なプロ
セスである。したがって、DSPの計算パワーをマイクロプロセッサのメモリ容
量に実効的に結合するVR装置が必要とされている。
に結合するVR装置に関する。したがって、本発明の1特徴では、分散された音
声認識システムはデジタル化されたスピーチサンプルを受信し、そこから複数の
パラメータを抽出するように構成されているデジタル信号プロセッサと、複数の
スピーチテンプレートを含んでいる記憶媒体と、記憶媒体およびデジタル信号プ
ロセッサに結合されているプロセッサとを具備しており、このプロセッサはデジ
タル信号プロセッサから複数のパラメータを受信し、複数のパラメータを複数の
スピーチテンプレートと比較するように構成されている。
セッサにおいて、複数のデジタル化されたスピーチサンプルから複数のパラメー
タを抽出し、複数のパラメータをマイクロプロセッサへ与え、マイクロプロセッ
サにおいて複数のパラメータを複数のスピーチテンプレートと比較するステップ
を有効に含んでいる。
されたスピーチサンプルから複数のパラメータを抽出する手段と、複数のスピー
チテンプレートを永久的に記憶する手段と、複数のパラメータを抽出してそれを
複数のスピーチテンプレートと比較する手段から複数のパラメータを受信する手
段とを含んでいることが有効である。
変換器(A/D)12と、音響プロセッサ14と、VRテンプレートデータベース16
と、パターン比較論理装置18と、決定論理装置20を含んでいる。VRシステム10
は例えば無線電話或いはハンドフリー自動車キットに設けられてもよい。
ドまたはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のト
ランスデューサ(図示せず)により電気スピーチ信号s(t)に変換される。ス
ピーチ信号s(t)はA/D12へ与えられ、これは例えばパルス符号変調(PC
M)のような既知のサンプリング方法にしたがって、スピーチ信号s(t)をデ
ジタル化されたスピーチサンプルs(n)へ変換する。
えられる。音響プロセッサ14は入力スピーチ信号s(t)特性をモデル化する1
組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細
書に記載されているように、例えばスピーチコーダの符号化を含んだ任意の複数
の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換(FFT
)ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14は
デジタル信号プロセッサ(DSP)として構成されてもよい。DSPはスピーチ
コーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして構
成されてもよい。
システム10の全てのボキャブラリワードの1組のテンプレートは永久的に記憶す
るためVRテンプレートデータベース16へ伝送される。VRテンプレートデータ
ベース16は例えばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態と
して有効に構成される。これによって、VRシステム10へのパワーがオフに切換
えられたとき、テンプレートがVRテンプレートデータベース16に保持されるこ
とが可能である。
理装置18は発話のスタートおよびエンドポイントを有効に検出し、(例えば時間
導関数、2次時間導関数等の)ダイナミックな音響特性を計算し、関連するフレ
ームを選択することにより音響特性を圧縮し、静的およびダイナミック特性を量
子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧縮、
パターン量子化の種々の既知の方法は、例えば文献(Lawrence Rabiner & Biing
-Hwang Juang、Fundamentals of Speech Recognition(1993年))に記載されて
いる。パターン比較論理装置18は結果的な1組のパラメータをVRテンプレート
データベース16に記憶されている全てのテンプレートと比較する。パラメータの
セットとVRテンプレートデータベース16に記憶されている全てのテンプレート
との比較結果または離たりは決定論理装置20に与えられる。決定論理装置20はV
Rテンプレートデータベース16から、パラメータセットに最も近く一致するテン
プレートを選択する。その代りとして、決定論理装置20は通常の“Nベスト”選
択アルゴリズムを使用してもよく、これは予め定められた一致しきい値内のN個
の最も近い一致を選択する。その後、意図した選択について人に質問する。決定
論理装置20の出力は発話されたボキャブラリのワードについての決定である。
に構成されることが有効である。VRシステム10は例えば特定用途向け集積回路
(ASIC)であってもよい。VRシステム10の認識の正確性はVRシステム10
がボキャブラリ中の発話したワードまたはフレーズをいかに正確に認識するかの
尺度である。例えば95%の認識の正確性はVRシステム10がボキャブラリ中の
ワードを100回中95回を正確に認識することを示している。
中に設けられている。ASIC100 は例えば無線電話装置中に設けられる。A
SIC100 はA/D変換器102 、DSP104 、プロセッサ106 、非揮発性記憶媒
体108 、デジタルアナログ変換器(D/A)110 を含んでいる。プロセッサ106
はマイクロプロセッサであることが好ましいが、任意の一般的なプロセッサ、制
御装置または状態マシンであってもよい。非揮発性媒体108 はフラッシュメモリ
108 であることが有効であるが、その代りとして、非揮発性記憶媒体108 は任意
の通常の形態の非揮発性の書込み可能なメモリであってもよい。DSP104 はス
ピーチコーダ(図示せず)とスピーチデコーダ(図示せず)を含んでいる。DS
P104 は例えば、ボコード、VRフロントエンド処理(即ちスピーチ解析)、背
景雑音抑制、音響エコー消去を含む幾つかの機能を行うことができる。代りとし
てDSP104 は毎秒8キロビット(kbps)コード励起線形予測(CELP)
コーダ、(前述の米国特許第5,414,796 号明細書に記載の)13kbpsのCE
LPコーダ、またはコード分割多元接続(CDMA)強化された可変速度コーデ
ィング(EVRC)コーダのような通常のボコーダであってもよい。
れている。発声者(図示せず)はマイクロホン112 へ発話し、マイクロホン112
はアナログ音声信号s(t)をA/D変換器102 へ供給する。A/D変換器102
は例えばPCMのような既知の方法にしたがって、アナログスピーチ信号s(t
)をデジタルサンプルs(n)へ変換する。A/D102 変換器はDSP104 へ結
合されている。デジタル化されたスピーチサンプルs(n)はフロントエンド処
理するためにDSP104 へ提供される。
)について実行され、時間ドメインサンプルs(n)を周波数ドメイン値へ変換
する。周波数ドメインは、複数のバンドパスフィルタ(図示せず)を信号が通過
することによって幾つかの隣接周波数帯域に区分される。バンドパスフィルタは
有限インパルス応答(FIR)フィルタが有効である。フィルタタップはそれぞ
れ連続的なフィルタにより広い周波数帯域幅を通過するように設定されており、
連続的なフィルタ間の幅の変化は対数的に増加する。全てのフィルタにより通過
された周波数範囲は全体で人間の音声範囲を含んでいる。低い端部では、通過し
た帯域幅は比較的狭く、高い端部では、通過した帯域幅は比較的広い。これによ
って人間の耳は低い周波数で良好に弁別するので、人間の耳はより正確に音を知
覚する。対数周波数スケールはバーク(Bark)スケールであってもよく、または
その代りにスケールはメル(Mel )スケールであってもよい。このようなスケー
ルはよく知られており、例えば前述のLawrence Rabiner & Biing-Hwang Juangの
Fundamentals of Speech Recognition 78−79頁(1993年)に記載されている。
タのバンクを説明している。 b1 =C 2≦i≦13では、bi =bi-1
数であり、αは対数成長係数である。
(Rabiner & Schafer と、Rabiner & Juang 、69−140 )に記載されている通常
の特徴抽出方法にしたがって帯域パワー値のベクトルを抽出する。1実施形態で
は、13の帯域パワー値のベクトルはフレーム毎に抽出され、フレームは20ミ
リ秒の長さであり、50%だけ重複している。帯域パワー値はパケット化され、
マイクロプロセッサ106 へパケットとして与えられる。
ボキャブラリ内容を読取るためにフラッシュメモリ108 をアクセスする。マイク
ロプロセッサ106 はエンドポイントがVRデコーダ(図示せず)で必要とされる
ならば、受信されたデータパケットに基づいて発話の開始および終了点を検出す
る。マイクロプロセッサ106 はその後、(例えば時間導関数、2次時間導関数等
のような)ダイナミック音響特徴を計算し、選択された関連フレームにより音響
特性を圧縮し、静止およびダイナミック音響特徴を量子化する。エンドポイント
検出、ダイナミック音響特徴導出、パターン圧縮、パターン量子化の種々の既知
の方法は例えば前述のLawrence Rabiner & Biing-Hwang Juangの Fundamentals
of Speech Recognition (1993年)に記載されている。
マイクロプロセッサ106 はそのパケットに最もよく似た記憶されたワードを選択
する。種々のパターン認識技術は、Rabiner & Juang 、141 −241 頁に記載され
ている。マイクロプロセッサ106 はその後、例えばマイクロプロセッサ106 に結
合するアンテナ114 を通して基地局(図示せず)との通信によって電話を特定の
人に開始する等の記憶されたワードに関連されるコマンドを実行する。
により符号化され、マイクロプロセッサ106 へ伝送され、変調回路(図示せず
)により空中を送信するために変調される。パケットはまたマイクロプロセッサ
106 の符号化論理装置(図示せず)で変調される前に符号化されてもよい。パケ
ットはその後、アンテナ114 を介して空中に送信される。会話の相手側から受信
されたスピーチパケットはアンテナ114 から復調回路(図示せず)へ伝送される
。復調されたパケットはマイクロプロセッサ106 中の復号論理装置(図示せず)
で復号される。パケットはその後、マイクロプロセッサ106 からDSP104 へ伝
送され、これはパケットをベクトル量子化から復元する。パケットはその後アナ
ログスピーチ信号へ変換するためにD/A変換器110 へ与えられる。アナログス
ピーチ信号は高声器116 へ与えられ、高声器116 は発声者が聞いたワードを再生
する。
のボコーダ202 を含んでいる。ボコーダ202 はパケットバッファ204 へ結合され
ている。このパケットバッファ204 はプロセッサ206 へ結合される。プロセッサ
206 は非揮発性記憶媒体208 に結合されている。ASIC200 は例えば無線電話
ハンドセット中に設けられることができる。ボコーダ202 は米国特許第5,414,79
6 号明細書に記載されているような可変速度の13kbpsのCELPボコーダ
であるが、8kbpsのCELPボコーダまたはCDMA EVRCボコーダで
も同等に良好である。プロセッサ206 はマイクロプロセッサであることが好まし
いが、代わりに任意の通常の形態のプロセッサ、制御装置または状態マシンであ
ってもよい。非揮発性記憶媒体208 には便宜上フラッシュメモリで構成されるこ
とが好ましいが、その代りの技術では任意の通常の形態の書込み可能な非揮発性
メモリが設けられることができる。パケットバッファ204 は通常のバッファ素子
である。
ボコーダ202 は米国特許第5,414,796 号明細書に記載されている既知のボコーデ
ィング技術によりスピーチサンプルs(n)を符号化する。前述の特定の実施形
態では、ボコーダ202 はフレーム当り128バイトを生成し、各フレームは20
ミリ秒の長さである。各フレームで、128バイトがパケットバッファ204 へ与
えられる。マイクロプロセッサ206 はフレーム毎にパケットバッファ204 から1
28バイト(1パケット)を読取る。マイクロプロセッサ206 はその後、終了点
がVRデコーダ(図示せず)で必要とされるならば、受信されたデータパケット
に基づいて発話の開始および終了点を検出する。それからマイクロプロセッサ20
6 は(例えば時間導関数、2次時間導関数等の)ダイナミック音響特徴を計算し
、関連するフレームを選択することにより音響特徴を圧縮し、静的および動的音
響特徴を量子化する。終了点検出、ダイナミック音響特徴の導出、パターン圧縮
、パターン量子化の種々の既知の方法は、例えば前述のLawrence Rabiner & Bii
ng-Hwang Juangの Fundamentals of Speech Recognition (1993年)に記載され
ている。マイクロプロセッサ206 はその後、フラッシュメモリ208 にアクセスし
、メモリ内容をパケットバッファ204 から読取られた各パケットと比較し、Rabi
ner & Juang 、141 −241 頁に記載されている既知のパターン認識技術にしたが
ってワードの決定を行う。
ム当り35バイト生成され、128バイトの残りはボコーダ診断データに利用可
能である。ボコーダ202 が1/2速度で符号化されるならば、フレーム当り17
バイトが生成され、128バイトの残りはボコーダ診断データに利用可能である
。ボコーダ202 が1/4速度で符号化されるならば、フレーム当り7バイトが生
成され、128バイトの残りはボコーダ診断データに利用可能である。ボコーダ
202 が1/8速度で符号化されるならば、フレーム当り3バイトが生成され、1
28バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 はスピ
ーチ認識中、1/2速度で符号化することが有効である。したがって、111バ
イトがボコーダ診断データに利用可能である。
、51バイトが診断データに必要とされる。ボコーダ202 が全速度でコード化す
るならば、40個の付加的なバイトがボコーダ診断データに必要とされる。コー
ド化速度が1/2速度ならば、16個の付加的なバイトだけがボコーダ診断デー
タに必要とされる。コード化速度が1/4速度ならば、5個の付加的なバイトだ
けがボコーダ診断データに必要とされる。コード化速度が1/8速度ならば、た
だ1個の付加的なバイトがボコーダ診断データに必要とされる。
のボコーダバイトが量子化される)を有し、ボコーダ診断データのバイトは量子
化されないパラメータを含んでいる(例えば1/2速度で、128−17=11
1バイトまでのボコーダ診断データは量子化されない)。さらに、ボコーダ診断
データは全てのボコーダデータを含んでいないが、ボコーダ診断データはVRに
関する全てのボコーダデータを含む。したがって、ボコーダ診断データはVR目
的に使用されてもよい。これは以下説明するように大きな利点を与える。
初に量子化されないことを必要とする。例えば、ボコーダ202 では線形の予測コ
ード化(LPC)係数はラインスペクトル対(LSP)周波数に変換される。フ
レーム当り10のLSP周波数はベクトル量子化され、規則的なボコーダパケッ
トにパックされる。マイクロプロセッサ206 では、量子化されていないLSP周
波数はフレームベースで受信されたボコーダパケットをアンパックし、それらを
量子化でなくすることにより得られる。量子化されていないLSP周波数はその
後LPC係数に変換される。そのLPC係数はケプストラム係数へ変換され、こ
のLPC係数はログの大きさのスペクトルのフーリエ変換係数である。ケプスト
ラム係数はデジタル化されたスピーチサンプルs(n)のフーリエ変換係数の対
数の逆フーリエ変換を取ることにより得られる。LSP周波数をLPC係数とケ
プストラム係数へ変換する技術およびLPC係数をLSP周波数とボコーダパケ
ットへ変換する技術は前述の米国特許第5,414,796 号明細書に詳細に記載されて
いる。
るボコーダパケットからのデータは計算にコストがかり、大量の処理能力を必要
とする。さらに、大きいLSPベクトル量子化(VQ)コードブックが必要とさ
れ、これをマイクロプロセッサ206 はフラッシュメモリ208 に永久的に保存する
。前述の実施形態では、VRのためのボコーダパケットの量子化を解除する代わ
りにボコーダ診断データがVRに使用されるので、必要な計算力およびメモリ容
量の問題を避けることができる。
業者は、ここで説明した実施形態と関連して説明した種々の示された論理ブロッ
クおよびアルゴリズムステップがデジタル信号プロセッサ(DSP)、特定用途
向け集積回路(ASIC)、ディスクリートなゲートまたはトランジスタ論理装
置、レジスタおよびFIFO等のディスクリートなハードウェア部品、1組のフ
ァームウェア命令を実行するプロセッサ、または任意の通常のプログラム可能な
ソフトウェアモジュールおよび、プロセッサによって構成され或いは実行される
ことができることを認識するであろう。プロセッサはマイクロプロセッサである
と有効であるが、別の実施形態では、プロセッサは任意の通常のプロセッサ、制
御装置、マイクロ制御装置または状態マシンであってもよい。ソフトウェアモジ
ュールはRAMメモリ、フラッシュメモリ、レジスタまたは技術で知られている
任意の他の形態の書込み可能な記憶媒体に設置される。当業者は前述の説明で参
照したデータ、命令、コマンド、情報、信号、ビット、符号、チップが電圧、電
流、電磁波、磁界または粒子、光フィールドまたは粒子、或いは任意の組合わせ
により有効に表されることをさらに認識するであろう。
明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいこ
とは当業者には明白であろう。それ故、本発明は特許請求の範囲を除いては限定
されない。
ック図。
Claims (14)
- 【請求項1】 分散された音声認識システムにおいて、 デジタル化されたスピーチサンプルを受信し、そこから複数のパラメータを抽
出するように構成されているデジタル信号プロセッサと、 複数のスピーチテンプレートを含んでいる記憶媒体と、 記憶媒体およびデジタル信号プロセッサに結合され、デジタル信号プロセッサ
から複数のパラメータを受信し、複数のパラメータを複数のスピーチテンプレー
トと比較するように構成されているプロセッサとを具備しているシステム。 - 【請求項2】 さらに、プロセッサは複数のパラメータと複数のスピーチテ
ンプレートとの比較に基づいて複数のスピーチテンプレートの1つを選択するよ
うに構成されている請求項1記載のシステム。 - 【請求項3】 デジタル信号プロセッサ、記憶媒体、およびプロセッサは特
定用途集積回路(ASIC)に設けられている請求項1記載のシステム。 - 【請求項4】 デジタル信号プロセッサは、ボコーダパケットおよび診断デ
ータを生成するように構成されたボコーダを具備し、複数のパラメータはこのボ
コーダにより生成された診断データの少なくとも1部分を含んでいる請求項1記
載のシステム。 - 【請求項5】 ボコーダ、記憶媒体、およびプロセッサは特定用途集積回路
(ASIC)に設けられている請求項4記載のシステム。 - 【請求項6】 デジタル信号プロセッサにおいて、複数のデジタル化された
スピーチサンプルから複数のパラメータを抽出し、 複数のパラメータをマイクロプロセッサへ与え、 マイクロプロセッサにおいて、複数のパラメータを複数のスピーチテンプレー
トと比較するステップを含んでいる音声認識処理を分散する方法。 - 【請求項7】 マイクロプロセッサにおいて、比較ステップの結果に基づい
てスピーチテンプレートの1つを選択するステップをさらに含んでいる請求項6
記載の方法。 - 【請求項8】 抽出するステップはボコーダパケットおよび診断データを生
成するように構成されているボコーダで行われ、複数のパラメータはボコーダに
よって生成された診断データの少なくとも1部分を含んでいる請求項6記載の方
法。 - 【請求項9】 複数のデジタル化されたスピーチサンプルから複数のパラメ
ータを抽出する手段と、 複数のスピーチテンプレートを記憶する手段と、 複数のパラメータを前記抽出する手段から受信し、複数のパラメータを複数の
スピーチテンプレートと比較する手段とを具備している分散された音声認識シス
テム。 - 【請求項10】 受信および比較を行う手段は、複数のパラメータと複数の
スピーチテンプレートとの比較に基づいて、複数のスピーチテンプレートから1
つを選択する手段を含んでいる請求項1記載のシステム。 - 【請求項11】 抽出する手段と、記憶する手段と、受信および比較を行う
手段は特定用途集積回路(ASIC)に設けられている請求項1記載のシステム
。 - 【請求項12】 抽出する手段はボコーダパケットおよび診断データを生成
するように構成されているボコーダを含み、複数のパラメータはボコーダによっ
て生成された診断データの少なくとも1部分を含んでいる請求項1記載のシステ
ム。 - 【請求項13】 記憶する手段はフラッシュメモリを具備している請求項1
記載のシステム。 - 【請求項14】 ボコーダと、記憶する手段と、受信および比較を行う手段
とは特定用途集積回路(ASIC)に設けられている請求項12記載のシステム
。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/246,413 US6411926B1 (en) | 1999-02-08 | 1999-02-08 | Distributed voice recognition system |
US09/246,413 | 1999-02-08 | ||
PCT/US2000/002904 WO2000046794A1 (en) | 1999-02-08 | 2000-02-04 | Distributed voice recognition system |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002536692A true JP2002536692A (ja) | 2002-10-29 |
JP2002536692A5 JP2002536692A5 (ja) | 2007-03-29 |
JP4607334B2 JP4607334B2 (ja) | 2011-01-05 |
Family
ID=22930576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000597795A Expired - Lifetime JP4607334B2 (ja) | 1999-02-08 | 2000-02-04 | 分散された音声認識システム |
Country Status (10)
Country | Link |
---|---|
US (1) | US6411926B1 (ja) |
EP (1) | EP1159736B1 (ja) |
JP (1) | JP4607334B2 (ja) |
KR (1) | KR100629669B1 (ja) |
CN (1) | CN1168070C (ja) |
AT (1) | ATE426888T1 (ja) |
AU (1) | AU3589400A (ja) |
DE (1) | DE60041869D1 (ja) |
HK (1) | HK1044403B (ja) |
WO (1) | WO2000046794A1 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
KR100366057B1 (ko) * | 2000-06-26 | 2002-12-27 | 한국과학기술원 | 인간 청각 모델을 이용한 효율적인 음성인식 장치 |
US6832194B1 (en) * | 2000-10-26 | 2004-12-14 | Sensory, Incorporated | Audio recognition peripheral system |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
DE60115042T2 (de) * | 2001-09-28 | 2006-10-05 | Alcatel | Kommunikationsvorrichtung und Verfahren zum Senden und Empfangen von Sprachsignalen unter Kombination eines Spracherkennungsmodules mit einer Kodiereinheit |
US6718013B2 (en) * | 2001-10-01 | 2004-04-06 | Voicecards, Inc. | Audio recording system and method of use |
WO2003105126A1 (en) | 2002-06-05 | 2003-12-18 | Vas International, Inc. | Biometric identification system |
KR20040023345A (ko) * | 2002-09-11 | 2004-03-18 | 현대모비스 주식회사 | 텔레매틱스의 음성인식 장치 |
JP4304952B2 (ja) * | 2002-10-07 | 2009-07-29 | 三菱電機株式会社 | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム |
US7922583B2 (en) * | 2003-08-05 | 2011-04-12 | Igt | Digital signal processor based generation and control of electronic signals in a gaming machine |
WO2005064592A1 (ja) * | 2003-12-26 | 2005-07-14 | Kabushikikaisha Kenwood | 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム |
KR100640893B1 (ko) * | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 |
CN1326112C (zh) * | 2005-03-28 | 2007-07-11 | 华南理工大学 | 一种语音识别装置及其集成电路实现方法 |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
KR100794140B1 (ko) * | 2006-06-30 | 2008-01-10 | 주식회사 케이티 | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
WO2009047858A1 (ja) * | 2007-10-12 | 2009-04-16 | Fujitsu Limited | エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体 |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9112984B2 (en) | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
WO2014156964A1 (ja) | 2013-03-29 | 2014-10-02 | 昭栄化学工業株式会社 | 太陽電池素子表面電極用導電性ペースト及び太陽電池素子の製造方法 |
US10032449B2 (en) * | 2014-09-03 | 2018-07-24 | Mediatek Inc. | Keyword spotting system for achieving low-latency keyword recognition by using multiple dynamic programming tables reset at different frames of acoustic data input and related keyword spotting method |
US20160295426A1 (en) * | 2015-03-30 | 2016-10-06 | Nokia Solutions And Networks Oy | Method and system for communication networks |
EP3414759B1 (en) | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US11600269B2 (en) | 2016-06-15 | 2023-03-07 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
US10832031B2 (en) | 2016-08-15 | 2020-11-10 | Apple Inc. | Command processing using multimodal signal analysis |
US10913463B2 (en) | 2016-09-21 | 2021-02-09 | Apple Inc. | Gesture based control of autonomous vehicles |
WO2018086033A1 (en) | 2016-11-10 | 2018-05-17 | Nuance Communications, Inc. | Techniques for language independent wake-up word detection |
US10372132B2 (en) | 2016-12-12 | 2019-08-06 | Apple Inc. | Guidance of autonomous vehicles in destination vicinities using intent signals |
US10601599B2 (en) * | 2017-12-29 | 2020-03-24 | Synaptics Incorporated | Voice command processing in low power devices |
CN110111774A (zh) * | 2019-05-13 | 2019-08-09 | 广西电网有限责任公司南宁供电局 | 机器人语音识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0642153B2 (ja) * | 1989-12-20 | 1994-06-01 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識装置 |
JPH07114395A (ja) * | 1993-09-03 | 1995-05-02 | Microsoft Corp | 音声認識用データ圧縮 |
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
US5794196A (en) * | 1995-06-30 | 1998-08-11 | Kurzweil Applied Intelligence, Inc. | Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules |
US5850627A (en) * | 1992-11-13 | 1998-12-15 | Dragon Systems, Inc. | Apparatuses and methods for training and operating speech recognition systems |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4567606A (en) | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
FR2571191B1 (fr) | 1984-10-02 | 1986-12-26 | Renault | Systeme de radiotelephone, notamment pour vehicule automobile |
JPS61105671A (ja) | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
US4991217A (en) | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
JPS6269297A (ja) | 1985-09-24 | 1987-03-30 | 日本電気株式会社 | 話者確認タ−ミナル |
US4903301A (en) * | 1987-02-27 | 1990-02-20 | Hitachi, Ltd. | Method and system for transmitting variable rate speech signal |
US5231670A (en) | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5321840A (en) | 1988-05-05 | 1994-06-14 | Transaction Technology, Inc. | Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal |
US5040212A (en) | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
US5054082A (en) | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
US5325524A (en) | 1989-04-06 | 1994-06-28 | Digital Equipment Corporation | Locating mobile objects in a distributed computer system |
US5012518A (en) | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5146538A (en) | 1989-08-31 | 1992-09-08 | Motorola, Inc. | Communication system and method with voice steering |
US5280585A (en) | 1990-09-28 | 1994-01-18 | Hewlett-Packard Company | Device sharing system using PCL macros |
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
WO1993001664A1 (en) | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
US5305420A (en) | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US5784532A (en) * | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
JP2606142B2 (ja) | 1994-06-15 | 1997-04-30 | 日本電気株式会社 | ディジタル携帯電話機 |
GB9416463D0 (en) | 1994-08-15 | 1994-10-05 | Farrington Jonathan S | Sound control device |
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
TW439380B (en) | 1995-10-09 | 2001-06-07 | Hitachi Ltd | Terminal apparatus |
US5774836A (en) * | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
US6061653A (en) * | 1998-07-14 | 2000-05-09 | Alcatel Usa Sourcing, L.P. | Speech recognition system using shared speech models for multiple recognition processes |
-
1999
- 1999-02-08 US US09/246,413 patent/US6411926B1/en not_active Expired - Lifetime
-
2000
- 2000-02-04 EP EP00914514A patent/EP1159736B1/en not_active Expired - Lifetime
- 2000-02-04 AT AT00914514T patent/ATE426888T1/de not_active IP Right Cessation
- 2000-02-04 KR KR1020017009886A patent/KR100629669B1/ko active IP Right Grant
- 2000-02-04 AU AU35894/00A patent/AU3589400A/en not_active Abandoned
- 2000-02-04 DE DE60041869T patent/DE60041869D1/de not_active Expired - Lifetime
- 2000-02-04 JP JP2000597795A patent/JP4607334B2/ja not_active Expired - Lifetime
- 2000-02-04 CN CNB008035482A patent/CN1168070C/zh not_active Expired - Lifetime
- 2000-02-04 WO PCT/US2000/002904 patent/WO2000046794A1/en active IP Right Grant
-
2002
- 2002-08-09 HK HK02105820.3A patent/HK1044403B/zh not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0642153B2 (ja) * | 1989-12-20 | 1994-06-01 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識装置 |
US5850627A (en) * | 1992-11-13 | 1998-12-15 | Dragon Systems, Inc. | Apparatuses and methods for training and operating speech recognition systems |
JPH07114395A (ja) * | 1993-09-03 | 1995-05-02 | Microsoft Corp | 音声認識用データ圧縮 |
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
US5794196A (en) * | 1995-06-30 | 1998-08-11 | Kurzweil Applied Intelligence, Inc. | Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules |
Also Published As
Publication number | Publication date |
---|---|
DE60041869D1 (de) | 2009-05-07 |
AU3589400A (en) | 2000-08-25 |
HK1044403B (zh) | 2005-05-20 |
WO2000046794A1 (en) | 2000-08-10 |
JP4607334B2 (ja) | 2011-01-05 |
HK1044403A1 (en) | 2002-10-18 |
KR20010093326A (ko) | 2001-10-27 |
CN1168070C (zh) | 2004-09-22 |
ATE426888T1 (de) | 2009-04-15 |
US6411926B1 (en) | 2002-06-25 |
CN1352787A (zh) | 2002-06-05 |
KR100629669B1 (ko) | 2006-09-29 |
EP1159736A1 (en) | 2001-12-05 |
EP1159736B1 (en) | 2009-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4607334B2 (ja) | 分散された音声認識システム | |
KR100923896B1 (ko) | 분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법및 장치 | |
KR100391287B1 (ko) | 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화 | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
US6119086A (en) | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens | |
KR100594670B1 (ko) | 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템 | |
JPH09507105A (ja) | 分散音声認識システム | |
JP2003524794A (ja) | 雑音のある信号におけるスピーチのエンドポイント決定 | |
WO2002061727A2 (en) | System and method for computing and transmitting parameters in a distributed voice recognition system | |
TW546632B (en) | System and method for efficient storage of voice recognition models | |
JP2004536329A (ja) | 分散型音声認識システムにおける音声認識のためのシステム及び方法 | |
JP2002507291A (ja) | 音声通信システムにおける音声強調方法およびその装置 | |
WO2006113029A1 (en) | Bandwidth efficient digital voice communication system and method | |
JP4643011B2 (ja) | 音声認識除去方式 | |
US20040148160A1 (en) | Method and apparatus for noise suppression within a distributed speech recognition system | |
US7050969B2 (en) | Distributed speech recognition with codec parameters | |
Grassi et al. | Distributed speaker recognition using the ETSI AURORA standard | |
KR100794140B1 (ko) | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 | |
KR100647291B1 (ko) | 음성의 특징을 이용한 음성 다이얼링 장치 및 방법 | |
JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
Tan et al. | Distributed speech recognition standards | |
de Alencar et al. | On the performance of ITU-T G. 723.1 and AMR-NB codecs for large vocabulary distributed speech recognition in Brazilian Portuguese | |
JP2002527796A (ja) | 音声処理方法および音声処理装置 | |
CA2297191A1 (en) | A vocoder-based voice recognizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4607334 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |