JPH11312391A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JPH11312391A
JPH11312391A JP6106699A JP6106699A JPH11312391A JP H11312391 A JPH11312391 A JP H11312391A JP 6106699 A JP6106699 A JP 6106699A JP 6106699 A JP6106699 A JP 6106699A JP H11312391 A JPH11312391 A JP H11312391A
Authority
JP
Japan
Prior art keywords
flash memory
memory unit
voice recognition
word
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6106699A
Other languages
English (en)
Inventor
S Ari Shedo
エス. アリ シェド
C Glinsky Steven
シー. グリンスキー スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JPH11312391A publication Critical patent/JPH11312391A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Read Only Memory (AREA)

Abstract

(57)【要約】 【課題】 フラッシュメモリのバーンアウトの影響を減
らすように、有限数の書込動作を行うことができるフラ
ッシュメモリデバイスを用いて、発声オーディオコマン
ドの有限数のセットをサンプリング、処理、認識するの
に用いるプログラマブルデジタルシグナルプロセッサチ
ップを動作させる。 【解決手段】 低コストなフラッシュメモリデバイスと
共に低コストなプログラマブルデジタルシグナルプロセ
ッサ(DSP)を用い、電話応答装置のような消費者向
け装置においてデジタル音声認識を提供する。フラッシ
ュメモリデバイスの一部において行われる書込の数を減
らすためにバッファ操作方式を用い、フラッシュメモリ
のバーンアウト効果の発生を消費者向け装置が許容でき
るレベルまで押さえる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識処理に用
いるデジタルオーディオプロセッサを非揮発性記憶デバ
イスにインタフェースするシステムおよび方法に関し、
特に、有限数の書込動作を行うことができるフラッシュ
メモリデバイスを用いて、発声オーディオコマンドの有
限数のセットをサンプリング、処理、認識するのに用い
るプログラマブルデジタルシグナルプロセッサチップを
動作させるシステムおよび方法に関する。
【0002】
【従来の技術】ほんの数年前までは実際には存在しない
かないしサイエンスフィクションのようなものとして考
えられていた電子的自動音声認識は現在では現実化して
いる。この技術は複雑であるが消費者向け装置において
さえも非常に一般的となっている。
【0003】デジタル音声認識はいくつかの理由により
有用である。第1に、音声により操作する装置をハンド
フリー状態で用いることができるのでユーザの仕事の生
産性を増加させることができる。例えば、ユーザからコ
マンドを受ける音声認識技術を用いる電話音声メールシ
ステムはユーザが他のものを見ていたり他の仕事をして
いる最中であってもユーザの音声によって動作させるこ
とができる。第2に、暗号的なコマンドコートをキーボ
ードやキーパットを介して入力することよりも音声コマ
ンドで入力する方が多くの人々にとって自然である。音
声によって装置を動作させることは、新しい技術なので
最初はとまどうかもしれないが、多くの人々は早くに適
合することが分かっている。最後に、発声コマンドで装
置が動作されユーザが合成音声によって誘導される場
合、複雑なコマンドの多くを記憶する必要を減らすこと
ができる。音声コマンドは自然なフレーズでセットアッ
プすることができる。例えば、「メッセージを受け取
る」または「削除」のような自然なフレーズを用いるこ
とができ、伝統的な電話器のキーパットで必要な数字、
*、#の連続を使う必要がなくなる。
【0004】音声認識システムが一般的になることによ
って多くの技術進歩が容易となった。例えば、比較的コ
スト効率のよい消費者向けの装置であっても満足できる
レベルの音声認識を行わせることができるようになっ
た。
【0005】最近の数年間でコンピュータの製造は非常
に大きく向上している。比較的単純な特殊用途のデジタ
ルコンピュータが音声認識をリアルタイムで行うのに必
要な数学的な計算および信号処理動作を多く行うことが
できることとなっている。過去においては満足な音声認
識を得るには大きな処理時間を必要としてしまい音声を
デジタル的に捕獲するのに必要な時間を超えてしまって
いた。
【0006】またコストにおいて非常に改善した。強力
な特殊用途のデジタルシグナルプロセッシングコンピュ
ータチップが廉価の消費者向けの装置で実時間音声認識
をさせることを可能とした。メモリのような他のデジタ
ル部品も劇的に値段が下がった。
【0007】最後に、音声認識を行うのに用いる信号処
理アルゴリズムに大きな改善があった。この分野の多く
の研究は15年前から10年前ほどの間に盛んとなり、
音声認識に都合のよいアルゴリズムは最近にしか開発さ
れていなかった。
【0008】今日の開発および利用における音声認識シ
ステムには多くの種類がある。これらの種類はいくつか
の特性によって分類することができる。すなわち、語彙
のサイズ、発声者依存性、連続的/離散的音声認識の各
特性である。
【0009】大きな語彙の音声認識システムはディクテ
ーションおよび複雑な制御の応用に用いられている。こ
れらのシステムには非常に多くの演算能力を必要とす
る。例えば、大きな語彙認識はハイエンドパーソナルコ
ンピュータやオフィスコンピュータとして用いられるよ
うな高性能のコンピュータシステムのみにおいて行うこ
とができる。従って、大きな語彙の認識は消費者製品に
はあまり向かない。
【0010】しかし、小さな語彙の音声認識システムは
多くの応用において有用である。比較的少ない数のコマ
ンドワードないしフレーズを用いて、電話機や電話応答
装置のような単純な装置を動作させることができる。伝
統的にはこれらの装置は小さなコントロールパネルを介
して動作させられる。このコントロールパネルにコード
を入力することにより行う機能は、適切な音声コマンド
を受けることにより行わせることができる。小さい数の
ワードおよびフレーズしか理解できないので、発声コマ
ンドを識別するために行うための数学的演算ためのコン
ピュータ処理能力は大きくすることができない。このよ
うに、小さな語彙の音声認識システムを導入するために
消費者グッズにおいて低コスト特殊用途デジタルシグナ
ルプロセッサチップを用いることができる。
【0011】音声認識システムの中には「発声者非依存
性」があるものとして知られるものもあり、「発声者依
存性」があるものと考えられているものがある。発声者
非依存性システムには、認識すべきワードおよびフレー
ズの汎用的モデルを備えている。このようなシステムは
特定の発声者の音声を理解するのに「トレーニング」を
する必要はない。しかしこのため、ユーザの独特なアク
セントや発声パターンによって認識精度が低くなってし
まう。他方、発声者依存性システムは所定量のトレーニ
ングが必要である。すなわち、このようなシステムはい
くつかのワードを話したり、数分間か話すことをユーザ
に要求し、そのユーザの特定の発声方式と一致する内部
のワードモデルにシステムを適合させる。このアプロー
チは通常認識制度を改善するが、利用する前にトレーニ
ングが必要なことは不便であり退屈である。また、複数
のユーザが発声者依存性システムを用いる場合、複数の
ユーザの音声モデルを記憶するスペースを設けなければ
ならず各ユーザは別々にトレーニングする必要が発生し
てしまう。
【0012】最後に、音声認識システムの残りの2つの
分類として、連続音性を認識することができるシステム
と、離散的音声を認識しか認識することができない点が
ある。連続的音声認識は自然言語ディクテーションシス
テムに最も多く用いられている。しかし、連続的発声は
1つの長い音のつながりへと結合(run together)して
しまうので、個々のワードやフレーズがどこで始まって
どこで終わるのかを判断するのにさらなるコンピュータ
資源が必要となってしまう。このプロセスには典型的な
低コスト消費者向け製品の処理能力をこえてしまう。
【0013】離散的音声認識システムは、ワードないし
フレーズそれぞれの間に短い中断を必要とし、それらワ
ードがどこで開始し終わるのかを判断することを可能に
する。しかし、必ずしも各ワードを別々に発声すること
は必要ではなく、少ない数の短いコマンドフレーズを離
散的発声と捉えて音声認識をしたりする。
【0014】大きな語彙で、発声者非依存性で、連続的
発声認識システムには利点があるが、低コスト消費者向
け装置に音声認識をさせるためにはいくつかの制約があ
る。小さな語彙で発声者依存性で離散的発声認識システ
ムは上述のように多くの応用において依然有用である。
この場合であっても消費者に受け入れられるシステムを
製造するためにはさらに制約がある。
【0015】例えば、多くの発声認識システムにおい
て、いろいろな目的のために大量のメモリが用いられ
る。入ってくるサンプリングされた音声情報を記憶し、
認識の前に処理した音声情報の中間体を記憶するために
バッファが必要とされる。これらのバッファは、トレー
ニングおよび認識処理時に常に書き込まれ、再書込をさ
れ、音声入力を終了し、音声モデルを更新し、内部変数
を変えたりする目的に使われる。多くの場合、SRAM
が伝統的に用いられてきた。これについては下で詳細に
述べる。
【0016】多くのデジタル音声記憶および認識応用に
おいて用いられる伝統的な低コストデジタルメモリ装置
は大きな欠点がある。電源が切れるとメモリの内容を永
久的に失ってしまう。例えば、オーディオレコーディン
グおよび処理に用いられる最も安いタイプのデジタルメ
モリは、DRAMである。オーディオグレードDRAM
はARAMとして知られるが、部分的に欠陥がある(従
って、データ記憶のためにはあまり有用でない)。AR
AMから電源が切断されるとメモリの内容は失われる。
また、ARAMはメモりセルを電気的に励起することに
より周期的に「リフレッシュ」しなければならない。こ
のため、プライマリ電源から除去する際にARAMの内
容を保持するためにバッテリーバックアップを用意しな
ければならない。これはユーザにとって不便であり、A
RAMを用いる装置をかさばらせ、コストを上げてしま
う。また、ARAMに必要なリフレッシュ信号を与える
ために別の回路を必要としてしまう。
【0017】ARAM装置はこのような欠点にも関わら
ず、低コストのため比較的高い需要がある。このためA
RAM装置は供給が追いつかない場合があり価格が安い
という利益がなくなる場合もある。
【0018】またSRAMも揮発性デジタルメモリの一
種である。SRAMは非常に速いメモリアクセスを達成
するが、電力を消費してしまい高価である。リフレッシ
ュ信号は必要としないがDRAMのように電源を常に供
給しなければならない。さもなければメモリの内容を失
ってしまう。
【0019】上の両方の種類の揮発性デジタルメモリに
おいて、発声者依存性トレーニングデータおよび他の重
要なシステム情報がバッテリーバックアップがない限り
電源の故障の際に失われてしまう。もし発声者依存性ト
レーニングデータを失えば、再び使うには再びトレーニ
ングしなければならなくなる。上述のようにトレーニン
グは不便で退屈であり少なくても数分間はかかってしま
う。
【0020】非揮発性メモリ、すなわち電源を失っても
内容を保持するメモリもいくつかある。EEPROMは
オーディオ記憶および処理に必要な量および密度を考え
ると高価である。いわゆるバブルメモリもあるが高価で
あり、オーディオの応用に用いるには一般に遅すぎる。
最後に、フラッシュメモリがある。フラッシュメモリは
高価で消去および書込が遅かったが、最近はフラッシュ
メモリをプログラムするのに必要な時間が短縮し、オー
ディオレコーディングおよび処理システムに用いること
ができるまでになっている。しかし、フラッシュメモリ
にはバーンアウト効果がある。記憶装置の一部への有限
数の再書込によって、そこへの書込ができなくなってし
まう。
【0021】このような揮発性デジタルメモリを用いる
際の問題は、通常の揮発性メモリにある程度の非揮発性
メモリを組み合わせることによって解決することができ
る。しかし、この方法は部品の数を増やしてしまい、製
造コストを上げてしまう。このような解決法を用いる場
合、別々のバヒ、揮発性および非揮発性メモリの部品を
別々で必要としてしまう。
【0022】
【発明が解決しようとする課題】音声認識処理用の多く
の揮発性および非揮発性デジタル記憶オプションの欠点
を考えると、記憶のためにほぼすべてを低コストな非揮
発性メモリを用いることができる低コストな音声認識シ
ステムの必要性がある。このようなシステムは、電話器
や応答装置のような電子機器の制御に対応するコマンド
の比較的小さな語彙を収容することができなければなら
ない。このようなシステムには耐久性がなければならず
メモリのバーンアウト効果に抵抗力がなければならな
い。
【0023】
【課題を解決するための手段】本発明は、低コストなフ
ラッシュメモリデバイスと共に低コストなプログラマブ
ルデジタルシグナルプロセッサ(DSP)を用い、電話
応答装置のような消費者向け装置においてデジタル音声
認識を提供する。フラッシュメモリを用いるのでその中
のデータは非揮発性であり、電源が落ちたときに発声者
依存性トレーニングデータなどの情報を損失することを
防ぐためにバッテリーバックアップやリフレッシュ回路
が必要なくなる。
【0024】フラッシュメモリはバーンアウト効果を示
すことが知られている。これは、フラッシュメモリデバ
イスの一部が多くの数書き込まれた場合に(通常100
000回の書込)動作できない状態になってしまうこと
である。本発明は、フラッシュメモリデバイスの一部に
おいて行われる書込の数を減らすためにバッファ操作方
式を用い、フラッシュメモリのバーンアウト効果の発生
を消費者向け装置が許容できるレベルまで押さえること
ができる。
【0025】この方式において、DSPチップ内に「ス
クラッチパット」メモリとして2つのデジタル音声バッ
ファを割り当てる。一方のバッファからのデータをトレ
ーニングまたは認識のために処理しているときに、他方
のバッファがサンプリングしたオーディオデータを受け
続けることを可能にする。これらバッファは処理される
前に満杯にまで埋めることが可能であり、フラッシュメ
モリ内の「さまよい」バッファへの書込の前に一定量の
データが蓄積される。これにより、フラッシュメモリへ
の書込の数を最小化することができ、フラッシュバーン
アウトの発生を減らすことができる。
【0026】本装置は、周知な音声認識アルゴリズムお
よび方式を用いる。例えば、音声の特徴をダービンの回
帰(Durbin's recursion)として知られる8次アルゴリ
ズムでエンコードし、トレーニングおよび認識に用いる
音声モデルは隠れマルコフモデル(Hidden Markov Mode
ls)を用いる。これは音声認識の応用において有用であ
るとして知られる。
【0027】一実施例において、Lucent Technologies
Inc. の Microelectronics Groupから得られるDSP1
605デジタルシグナルプロセッサをデジタルシグナル
プロセッサとしてプログラミングし用いる。
【0028】
【発明の実施の形態】下には音声認識能力を備える電話
応答装置を説明する。
【0029】周知な隠れマルコフモデルを音声トレーニ
ングおよび認識に用いる。これは他の音声認識技術より
も精度がよく演算的にも優れていることが知られてい
る。マルコフモデルおよび他のアルゴリズムや本発明を
実施するのに用いる技術についてのより詳細な情報は、
文献、L.R.Rabiner and B.H. Juang,Fundamentals of S
peech Recognition,Prentice Hall,Englewood Cliffs,N
ew Jersey,1993.に記されている。
【0030】図1において、本発明に従う電話応答装置
の基本的な構成要素の間の関係を示している。DSP1
10はこの装置の心臓部である。DSP110はシステ
ムマイクロコントローラ112につながっており、この
システムマイクロコントローラ112は公知の方法で電
話応答システムの動作の命令をする。例えば、システム
マイクロコントローラ112はユーザI/O113と通
信をする。このユーザI/O113は、デジタルディス
プレイやプッシュボタンスイッチのような構成要素を含
むことができる。
【0031】DSP110には、コーデック114もつ
ながっている。コーデック114はA/DおよびD/A
変換を行うことができる。コーデック114はデータを
デジタル形態で受け処理するDSP110と外部のアナ
ログオーディオ信号との間のインタフェースとして機能
する。従って、コーデック114はオーディオインタフ
ェース116へとつながっており、このオーディオイン
タフェース116はマイクロホンおよびスピーカを備え
る。コーデック114は電話システムに電話応答装置を
つなげる電話インタフェース118へとつながってい
る。コーデック114はオーディオインタフェース11
6や電話インタフェース118から受けたアナログオー
ディオ信号をDSP110が処理することができるよう
に(サンプリングとして知られている)デジタルデータ
へと変換するのに用いる。コーデック114はDSPの
デジタルデータをプレイバックするために必要であれば
アナログオーディオ信号へと変換し直す。
【0032】一実施例において、コーデック114とD
SP110は別々の集積回路である。例えば、DSP1
10は Lucent Microelectronics から得られるデジタ
ルシグナルプロセッサのDSP160xファミリーから
選択されるチップを用いることができる。本発明の好ま
しい実施例は、DSP1605チップを用いる。このチ
ップは、オンボードRAMの1024の16ビットワー
ドおよび電話応答装置の機能がプログラミングされるオ
ンボードプログラムROMの16kを備える。この実施
例において、コーデック114は Lucent Microelectro
nics から得られるT7513B CODECのような別
々のA/DおよびD/A変換器である。別の実施例にお
いて、コーデック114とDSP110は同じ集積回路
チップに取り入れてもよい。Lucent Microelectronics
のDSP165xファミリーには同様な構成のものがあ
る。
【0033】DSP110はフラッシュメモリ120と
やりとりをする。このフラッシュメモリ120には発声
者依存性トレーニングデータ(例えば、ボイスモデ
ル)、音声プロンプトなどの情報を記憶したオーディオ
のような長期記憶用データに用いる。
【0034】フラッシュメモリ120は、一実施例にお
いて4メガビット(すなわち、512kバイト)の大き
さを備え、電話応答装置が用いる長期データ記憶の唯一
の手段として構成する。従って、フラッシュメモリ12
0は出メッセージ、入メッセージ、システム依存データ
(例えば、時間や日付スタンプによって記憶されている
入メッセージを識別し、フラッシュメモリ内のどこにメ
ッセージが位置するかを識別するメッセージテーブル)
の記憶のために確保された領域を備える。また上述のよ
うに、フラッシュメモリは多くのボイスプロンプト(例
えば、メッセージ時間および日付スタンプをユーザに発
声するのに用いる数値やワード)を表すボイスデータを
記憶することができる。
【0035】このような音声プロンプトデータは通常、
工場にて永久的プログラミングされ電話応答システムの
通常の利用時には変更されないようにされるが、電話応
答装置の残りの部分がフラッシュメモリに記憶された永
久的な音声プロンプトに障害が発生する前に故障するで
あろう程に十分に信頼性がある。音声プロンプトデータ
デフラッシュメモリをプログラミングすることにより、
さらなる外部のROMが音声プロンプトを記憶するのに
必要ではなくなり、チップの数や製造コストを下げるこ
とができる。
【0036】電話応答装置から電源を取ると、システム
の動作に必要なリアルタイムデータのいずれをも再構成
するためにシステム依存性データを用いることができ
る。
【0037】DSP110のいくつかの内部的特徴は重
要であり図2に示した。DSP110はDSPプロセッ
サ210を有する。DSPプロセッサ210はプログラ
ムROM212へとつながっており、これは図3、4の
流れ図と共に下で詳細に説明するトレーニングおよび認
識動作を含む電話応答装置の機能を実現するために必要
なプログラムコードを記憶する。
【0038】DSPプロセッサ210はRAM214へ
とつながっている。Lucent DSP1605デバイスは
1024ワードのRAM214を有する。RAM214
の一部はプログラムROM212に記憶されたプログラ
ムが一時的に用いる変数や他のデータを記憶するのに用
いられる。またサンプルバッファ216はRAM214
内に構成する。サンプルバッファ216は処理の前およ
び最中にコーデック114から受けた生の記録されたデ
ジタルサウンドデータを保持するのに用いる。DSPプ
ロセッサ210はサンプルバッファ216におけるデー
タを動作させ、フラッシュメモリ120へと書き込む前
にその出力を蓄積する。スコアバッファ218は、RA
M214から割り当てられ、音声認識動作時に本装置の
語彙における各ワードの認識スコアを追跡するのに用い
られる。これらの動作において行われる機能は下に詳細
に説明する。
【0039】特定のユーザが発声者依存性音声認識シス
テムを利用する前にトレーニング動作が必要となる。ト
レーニング時のDSP110とフラッシュメモリ120
の間のやりとりを含むトレーニングにて行われる処理を
図3の流れ図を用いて以下に説明する。
【0040】トレーニングは、少なくとも2回は認識さ
せるようにユーザに各ワードを発声させることにより行
われる。各トレーニングのはじめにフラッシュメモリ1
20から特定の音声プロンプトを読みとるようにDSP
110をプログラミングすることにより所望のワードを
ユーザが発声するようにプロンプトさせることができ
る。システムは各発声を記録し、2つの逐次的な記録が
お互い十分に類似していれば、その発声したワードの平
均的な音を表すモデルを記憶し、発声認識動作において
後に利用する。
【0041】最初に、音声認識システムはサンプルバッ
ファへと連続的にオーディオをサンプリングし始める
(310)。このサンプルバッファはDSP110内の
オンボードRAMに保持されるのが好ましい。好ましい
実施例において、サンプリングは、8kHzのレート
で、すなわち8000サンプル/秒にて行う。各サンプ
リングは8ビットの分解能で行い、コーデック114に
よりμ則フォーマットでエンコードされる。周知のよう
にμ則量子化は対数的量子化方式であり、8ビットのμ
則エンコードされた情報は14ビットの線形エンコーデ
ィングとしてほぼ同様なダイナミックレンジを与えるこ
とができる。
【0042】サンプリングはオンボードラム内の2つの
160サンプルフレームバッファへと行われる。それら
両方の2つのフレームバッファがサンプリングバッファ
を構成する。従って、8kHzのサンプリングレートで
は、各フレームバッファは20m秒(1/50秒)のオ
ーディオ情報を保持する。すなわち、フレームレートは
50Hzである。各逐次的フレームはその前のフレーム
が完成した際に始まる。各フレームはお互い「接触」す
るが重なり合わない。サンプリングが1フレームバッフ
ァへと行われるので、他方のフレームバッファは下に詳
細に述べるように本発明により非同期的に処理される。
【0043】1つのフレームバッファがサンプルで一杯
になった後、処理が開始される。最初に、フレームバッ
ファ内のサンプルは高周波数をプレエンファシスするよ
うに、およびフレームを「ウィンドウ」するように信号
処理される(312)。好ましい実施例において、20
のサンプルの上昇および下降時間のトラペゾイド型ウィ
ンドウを用いる。これは信号への最も大きい貢献は前の
フレームや後ろのフレームに近い境界に近いサンプルで
はなく。フレームのセンターのサンプルにより行われる
ことを確実にするように行われる。この時において、自
己相関係数をそのフレームに対して計算する(31
4)。公知のように自己相関係数はフレーム内のサンプ
ルに対して時間ベースの周波数スペクトルを表す。
【0044】自己相関係数は特徴ベクトル(feature vec
tor)へと変換される(316)。これは、周知なダービ
ンの回帰として知られる8次線形予測符号化(LPC)
技術により行われる。この操作から、「ケプストラル(c
epstral)」係数として知られる9つの値のセットが得ら
れる。1次項はログエネルギー係数へと変換される。こ
れは信号に含まれるエネルギーを表す。残りの8項はそ
れぞれ、他の7項と同様に特徴ベクトルの一部であり、
前のフレームの特徴ベクトルからデルタ値を重み付けさ
れる。従って、1フレームの特徴ベクトルは17の項か
らなり、すなわち、1のログエネルギー、8のLPC
(ケプストラル項、7のデルタケプストラル項)からな
る。
【0045】次に特徴ベクトルの項は前の特徴ベクトル
の値に基づいて正規化される(318)。これは信号振
幅における変異を補償することのみではなく、信号変異
をも補償する。例えば、スピーカが装置に直接発声して
いるかあるいは電話接続を通して直接ではなく発声して
いるかなどである。この正規化プロセスは周知であり多
くの音声認識技術において用いられている。
【0046】本発明に従うシステムにおいて特徴ベクト
ル全体はフラッシュメモリ120内の特徴バッファへと
記憶される(320)。SRAMではなくフラッシュメ
モリを用いるので、例えば、少しずつではなく一時に全
体の特徴ベクトル(16の値からなる)を記憶すること
がよい。これによりフラッシュバーンアウトの発声を減
らすことができる。
【0047】特徴ベクトルを計算し正規化し記憶した
後、エンドポイントを計算する(322)。エンドポイ
ントは直前に計算した特徴ベクトルと共に、前のフレー
ムに対応する特徴ベクトルの値に基づいて計算される。
特定の発声ないしワードが終わることを示すエンドポイ
ントは公知の方法により計算される。エンドポイント計
算アルゴリズムは通常、発声がどこで終わるのかを判断
するために戻らないといけないことに留意すべきであ
る。すなわち、1つの特徴ベクトルのみを調べることに
より通常判断できない。このように、発声が実際に終わ
った後いくつかのフレームが終わってから発声を判断す
る。
【0048】エンドポイントがエンドオブワード(end-o
f-word、ワードの終わり)に到達したことを示唆しなけ
れば(324)、このアルゴリズムは繰り返され、さら
なるフレームが処理される(312〜)。他の場合、パ
ス番号を決め(326)、その後の動作はそれがこのア
ルゴリズムを通る最初から2番目か3番目か(あるいは
それ以上)によって決まってくる。
【0049】もしこれがアルゴリズムを通る最初のパス
(通り抜け)であれば、発声したワードに対応する正規
化された特徴ベクトルはフラッシュメモリ内のワードモ
デルに記憶される(328)。次にアルゴリズムはリセ
ットされ(330)、アルゴリズムを通って第2パスが
作られる。
【0050】アルゴリズムを通り抜ける2回目のパスで
あった場合、新しく計算された正規化された特徴ベクト
ルは最初のパスで記憶したワードモデルと比較される
(332)。それらが十分に類似していれば(33
4)、2つのパスは平均化され(336)、ワードモデ
ルに記憶される(338)。次にトレーニングアルゴリ
ズムはそのワードに対しては終了する(340)。ここ
で、この装置の語彙における各ワードのフラッシュメモ
リ120において記憶した別々のワードモデルがあるこ
とに留意すべきである。
【0051】もし2つのパスが十分に類似していない場
合(334)、新しく計算した特徴ベクトルが第2ワー
ドモデル(342)に記憶される。アルゴリズムはリセ
ットし(344)、3番目のパスが発生する。
【0052】3回目のパスでは、新しく計算した正規化
した特徴ベクトルは1回目と2回目のパスで記憶した両
方の語彙モデルと比較される(346)。もしその新し
い特徴ベクトルがそれら2つの前の語彙モデルのいずれ
とも十分に類似していれば(348)、その新しい特徴
ベクトルは最も類似しているワードモデルのものと平均
化され(350)、その平均がワードモデルに記憶され
る(352)。そのワードに対してトレーニングが完成
する(354)。もし新しい特徴ベクトルが前のパスの
いずれとも一致しなければ、最も類似しないワードモデ
ルを置き換えるようにその新しい特徴ベクトルを書き込
み(356)、アルゴリズムがリセットされ(35
8)、別のパスを行う。
【0053】このトレーニングアルゴリズムの完成時に
おいて、アルゴリズムを通る少なくとも2回のパスの平
均からなる1つのワードモデルがフラッシュメモリ12
0に記憶される。好ましい実施例において、これら2つ
のパスの間の特徴ベクトルの変異はワードモデルに記憶
され後に認識処理に用いられる。3以上のパスを用いれ
ば、同じワードの2以上の発声が音が十分に類似するこ
とを確実にすることができ、ボイスモデルの十分に意味
がある統計的情報を得ることができる。
【0054】上述のトレーニング動作はシステムの動作
上重要な語彙における各ワードに対して繰り返される。
これらのワードは多くの固定コマンドからなるようにす
ることができる。例えば、「メッセージを削除」「メッ
セージを再生」、電話応答装置で用いる数字ディジッ
ト、自動電話ダイヤル装置にて用いる多くのカスタマイ
ズ化発声を含むことができる。例えば、後者の場合、ユ
ーザは個人の名前をトレーニングして、名前を認識して
正確にダイヤルするようにすることができる。
【0055】トレーニングが完成した後、音声認識動作
を行う。認識動作にて行う処理には、認識動作時のDS
P110とフラッシュメモリ120の間のやりとりを含
み、以下において図4の流れ図を用いて説明する。
【0056】音声認識システムはサンプルバッファへと
連続的にサンプリングを開始する(410)。オンボー
ドRAM内の2つの160サンプルフレームバッファへ
とサンプリングを行う。一方のフレームバッファへとサ
ンプリングを行うが、他方のフレームバッファは下で詳
細に説明するように本発明による認識のため非同期的に
処理される。
【0057】一方のフレームバッファがサンプルで満杯
になった後、処理を開始する。最初にフレームバッファ
内のサンプルは高周波数を pre-emphasize するよう
に、フレームを「ウィンドウ」するように信号処理され
る(412)。次にそのフレームに対して自己相関係数
を計算する(414)。その自己相関係数は、上述のダ
ービンの回帰技術により特徴ベクトルへと変換される
(416)。特徴ベクトルの16項は前の特徴ベクトル
の値に基づいて正規化される(418)。本発明のシス
テムでは、全体の特徴ベクトルがフラッシュメモリ12
0内の特徴バッファへと記憶される(420)。一度に
全体の特徴ベクトルを記憶するとフラッシュメモリのバ
ーンアウト効果の発生を減らすことができる。
【0058】特徴ベクトルを計算した後、装置の語彙に
おけるワードモデルのすべてに対してその特徴ベクトル
をスコアリングする(422)。好ましい実施例におい
て、これは周知のビタビアルゴリズムによって行う。こ
の処理の結果はそれぞれが各語彙ワードにおける隠れマ
ルコフモデルの状態に対応するスコアの集合として得ら
れる。例えば、もし25の異なる語彙ワードを認識する
ような装置をトレーニングし、各ワードモデルが8の状
態を有するものとすれば、ビタビスコアリングステップ
が終わると全体で200のスコアを得ることができる。
これらのスコアはDSPの内部RAM214におけるス
コアバッファ218にすべて一時的に記憶される(42
4)。各語彙ワードの最終状態スコアに対応するスコア
(この例では、全体で25のスコア)は、フラッシュメ
モリ120における「トレースバックバッファ」におい
てさらに記憶される(426)。
【0059】特徴ベクトルを計算し、正規化し、記憶
し、スコアリングした後、エンドポイントを計算する
(428)。このエンドポイントは直前に計算した特徴
ベクトルの値および前のフレームに対応する特徴ベクト
ルの値に基づいて計算される。特定の発声ないしワード
どこでが終わるかを示すエンドポイントは、公知の方法
により計算される。またカウントを生成する(43
0)。これは最後にエンドポイントの位置が定められて
から処理されたフレームの数に対応する。このカウント
は現在の発声の長さに大まかにいうと対応する。
【0060】ここで、どこで発声が終わるかを決めるた
めにエンドポイント計算アルゴリズムは通常戻って見つ
けなければならないことに留意すべきである。1つの特
徴ベクトルのみを調べることにより通常判断することは
できない。従って、発声は実際に終わった後いくつかフ
レームを終わってからエンドポイントを判断される場合
もある。このため、前のモデルの終わりのスコアを追跡
するために上述のトレースバックバッファを用いる。エ
ンドポイントに対応するモデルの終わりのスコアは、ど
こで発声が認識されたかを判断するために調べられる。
エンドオブワードに前に到達したことをエンドポインタ
アルゴリズムが判断すると(432)、エンドポインタ
が識別したポイントにおけるトレースバックバッファに
おけるスコアが評価される(434)。
【0061】本装置の語彙における1つのワードモデル
のスコアが認識しきい値を超え、語彙における他のすべ
てのワードのスコアをも超えた場合、そのモデルのワー
ドは認識が成功する(436)。
【0062】本発明は個々の発声されたワードではなく
一連のワードを認識する能力があることに留意すべきで
ある。一連のワードの認識は、シーケンスにおける最後
のワードを認識し、トレースバックバッファに記憶した
カウントおよびスコアによって戻り、前のワードを認識
して行われる。いずれの場合でも、認識を完成すると、
DSP110ないしシステムマイクロコントローラ11
2は認識したワードが指定したように動作する(43
8)。この認識したワードはユーザからのコマンドやデ
ータ入力とすることができる。いずれのスコアも認識し
きい値を超えなければ、認識動作はリセットされ(44
0)、認識処理は継続する。この時点においてその前の
ワードを認識できなかったことをユーザに示唆してもよ
い。
【0063】上述のように、本発明はフラッシュメモリ
のバーンアウトの発生を減らすいくつかの手段を用い
る。例えば、トレーニング時に、サンプリングしたオー
ディオデータのフレームをその対応する特徴ベクトルが
全体的に計算されるまで完全に処理される。各特徴ベク
トルの個々の部分はその時点まではフラッシュメモリに
書き込まれない。また、認識アルゴリズムを通しての完
全な通過を達成するまでワードモデルはフラッシュメモ
リに書き込まれない。認識動作時には同様に、特徴ベク
トルは少しずつには書き込まれず、各フレームの最終状
態のスコアのみフラッシュメモリに書き込まれる。
【0064】さらに、フラッシュバーンアウト効果を減
らすためにさらなるバッファ操作方式を用いる。上述の
ように、4メガビットフラッシュメモリデバイスをデジ
タル音声記憶および音声認識能力を取り入れる電話応答
装置に対して通常用いる。しかし、フラッシュメモリ1
20の少ない一部のみしか音声認識に関与させない。4
メガビットのデバイスで利用可能な512kバイトの記
憶領域のうち、本発明に従う音声認識システムにおいて
すべてのバッファ、変数、モデル記憶におおよそ64k
バイトのみが必要であることが分かった。しかし、トレ
ーニングおよび認識動作の両方でその64k領域が頻繁
に書き込まれるので、フラッシュメモリ120のこの領
域は比較的少ない期間の利用であってもバーンアウト効
果の対象に頻繁にされてしまう。
【0065】従って、大きなフラッシュメモリユニット
から選んだバッファ上への音声トレーニングおよび認識
の書き込みの影響を最小化するように方式を開発した。
この方式を図5に示す。
【0066】図5において、フラッシュメモリ120の
2つのインスタンスを示した。第1インスタンスにおい
て(図5A)、フラッシュメモリ120はオペレーティ
ングシステム領域510および音声認識領域512を保
持する。オペレーティングシステム領域510は電話応
答装置などの装置で用いる重要なシステムデータを保持
する。これにはフラッシュメモリ120のなかの他のデ
ータ構造全部の位置を特定する変数を含んでいる。電話
応答装置などの装置がまず初期化されると、音声認識動
作に必要なすべてのバッファモデルなどのデータを含む
音声認識領域512がオペレーティングシステム領域5
10のすぐ隣にフラッシュメモリ120の一部に配置さ
れる。フラッシュメモリ120の残りの部分は出音声プ
ロンプトおよび入メッセージのような他のデータを記憶
するのに用いることができる。オペレーティングシステ
ム領域510における一貫して配置されるポインタ51
4は音声認識領域の位置を特定する。
【0067】システムがある程度動作した後、本発明に
より音声認識領域を再配置する。このことを行ったとの
時間は数時間から数ヶ月というように変異することがで
きる。これは、再配置動作が電話応答装置の通常動作を
妨害しないようにするためにまれに重要となる。音声認
識領域512への書き込み動作の数はその領域のバーン
アウトを発生させるような数ではならない。
【0068】フラッシュメモリ120の第2インスタン
スにおいて(図5B)、第2音声認識領域516は第1
音声認識領域を置き換えるように割り当てられている。
新しいポインタ518が音声認識領域516の位置を識
別している。このことはず6で示したアルゴリズムに従
って行う。
【0069】まず、所定数の書き込み動作を行った後な
いし所定の継続時間の後のアイドル時間にて現在の音声
認識ブロックないし領域を識別する(610)。次に、
音声認識領域の新しい位置を計算する(612)。前の
領域と新しい領域の間にページの重なりがないようにそ
の領域は選ばれる。このことは、新しい領域への書き込
みが古い領域のバーンアウトに影響しないことを確実に
する。
【0070】古い領域のデータは新しいデータの領域で
置き換えられる(614)。ここで新しい位置は空ない
しフリーであることを必要とせず、音声認識動作で用い
ていない他のデータを含んでいてもよいことに留意すべ
きである。最後に、OS領域ないしブロックにおけるポ
インタを更新して(616)、新しい音声認識領域の位
置およびその新しい音声認識領域を前に占有していたデ
ータの新しい位置を反映するようにされる。
【0071】この「さまよいバッファ」技術を用いるこ
とにより、音声認識能力の特徴を有するフラッシュメモ
リベースの電話応答装置または他の消費者向け装置が1
0以上の製品寿命を有することができることが確認され
た。この年数は比較的高価でない消費者向け装置に対し
て許容できる寿命であると考えられる。
【0072】本発明に従う電話応答装置が行うほかの動
作はその性質のため伝統的なものであってもよい。例え
ば、文献、Product Note for the Lucent LJ30 NAND Fl
ashTAD telephone answering device subsystem,(Luce
nt Technologies Inc.発行)を参照するとよい。このL
J30は、デジタル音声記憶のためにフラッシュメモリ
の特定の標準的な種類を用いることができるが、上述の
ような音声認識動作はその標準的な形態では行うことが
できない。
【0073】本発明を特定の実施例に基づいて示した
が、本発明はデジタル音声認識装置のそれらの詳細には
制限されず、特に、発声コマンドを認識する多くのこと
なる応用に用いることができる。
【0074】特定の製品を示して説明したが、上で述べ
たような本質的な性質を持つ他の電子部品やカスタムデ
バイスをも用いることができる。また特定の機能的な記
載をしたが、例えば、DSP110、システムマイクロ
コントローラ112、コーデック114を1つのチップ
へと取り入れることができる。
【図面の簡単な説明】
【図1】本発明の音声認識システムおよび方法を用いる
電話応答装置のブロック図。
【図2】図1の電話応答装置にて用いるデジタルシグナ
ルプロセッサの内部構造を表すブロック図。
【図3】本発明に従う発声者依存性音声トレーニングに
おいて行うステップを示す流れ図。
【図4】本発明に従う音声認識において行うステップを
示す流れ図。
【図5】本発明に従って、フラッシュメモリバーンアウ
トの発生を減らすのに用いるさまよいバッファを示すブ
ロック図。
【図6】本発明によりどのように音声トレーニングおよ
び認識バッファの構成を変えトラッキングするかを示す
流れ図。
【符号の説明】
110 DSP(ディジタルシグナルプロセッサ) 112 システムマイクロコントローラ 113 ユーザI/O 114 コーデック(CODEC) 116 オーディオインタフェース 118 電話インタフェース 120 フラッシュメモリ 210 DSPプロセッサ 212 プログラムROM 214 RAM 216 サンプルバッファ 218 スコアバッファ 310 連続的サンプリング 312 信号処理 314 自己相関係数を計算 316 特徴ベクトルを計算 318 特徴ベクトルを正規化 320 特徴ベクトルを記憶 322 エンドポインタを計算 324 エンドオブワードか? 326 通過回数 328 ベクトルをモデルとして記憶 330、344、358 リセット 332 記憶したモデルと比較 334 十分に近いか? 336 1回目のモデルと平均化 338 平均をモデルとして記憶 340、354 終了 342 2回目のモデルに記憶 346 2つの記憶したモデルと比較 348 十分に近いか? 350 最も類似するものと平均 352 平均をモデルとして記憶 356 最も類似しないものを置換え 410 連続的サンプリング 412 信号処理 414 自己相関係数を計算 416 特徴ベクトルを計算 418 特徴ベクトルを正規化 420 特徴ベクトルを記憶 422 スコアを計算 424 すべての状態スコアを記憶 426 フラッシュメモリに最終状態スコアを記憶 428 エンドポインタを計算 430 カウントを更新 432 エンドオブワードか? 434 スコアを評価 436 成功したか? 438 認識したワードに対して実行 440 リセット 510 オペレーティングシステム領域 512、516 音声認識領域 514、518 ポインタ 610 現在のVRブロックを識別 612 新しい位置を計算 614 データを置き換える 616 OSブロックにおけるポインタを更新
フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 スティーブン シー. グリンスキー アメリカ合衆国,08820 ニュージャージ ー,エディソン,クリケット サークル 3607

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 (A)内部RAMを有するデジタルシグ
    ナルプロセッサと、 (B)音声認識領域を有するフラッシュメモリユニット
    とからなり、 前記デジタルシグナルプロセッサは、前記音声認識領域
    へとデータを書き込む前に前記内部RAMへと中間結果
    をバッファリングすることを特徴とする音声認識システ
    ム。
  2. 【請求項2】 (C)前記フラッシュメモリユニット内
    で前記音声認識領域を移動する手段からさらになること
    を特徴とする請求項1記載のシステム。
  3. 【請求項3】 前記移動するシステムは、経過時間に応
    じて動作することを特徴とする請求項2記載のシステ
    ム。
  4. 【請求項4】 前記移動する手段は、蓄積したメモリ書
    き込みの回数に応じて動作することを特徴とする請求項
    2記載のシステム。
  5. 【請求項5】 前記デジタルシグナルプロセッサは、ト
    レーニング動作および認識動作を行うようにプログラミ
    ングされていることを特徴とする請求項1記載のシステ
    ム。
  6. 【請求項6】 前記中間結果は、前記トレーニング動作
    で得た特徴ベクトルおよびワードモデルからなることを
    特徴とする請求項5記載のシステム。
  7. 【請求項7】 前記中間結果は、認識動作から得た特徴
    ベクトルおよびモデルスコアからなることを特徴とする
    請求項5記載のシステム。
  8. 【請求項8】 (A)内部RAMを有するデジタルシグ
    ナルプロセッサと、 (B)音声認識領域を有するフラッシュメモリユニット
    と、 (C)前記フラッシュメモリユニット内で前記音声認識
    領域を移動する手段とからなることを特徴とする音声認
    識システム。
  9. 【請求項9】 フラッシュメモリユニットを用いる音声
    認識システムにおいてフラッシュバーンアウトの発生を
    減らす方法であって、 (A)フラッシュメモリユニット内に音声認識領域を割
    り当てるステップと、 (B)音声認識システムによる音声認識領域へのメモリ
    書き込みを指示するステップと、 (C)音声認識システムが用いられていないアイドル期
    間を待つステップと、 (D)フラッシュメモリユニットの他の位置へと音声認
    識領域を移動するステップとからなることを特徴とする
    方法。
  10. 【請求項10】 フラッシュメモリユニットおよび内部
    RAMを有するデジタルシグナルプロセッサを用いる音
    声認識システムでトレーニングを行う方法であって、 (A)オーディオデータを内部RAMにおけるオーディ
    オデータのフレームへとサンプリングするステップと、 (B)オーディオデータのフレームを処理するステップ
    と (C)フレームから特徴ベクトルを計算するステップ
    と、 (D)特徴ベクトルを正規化するステップと、 (E)特徴ベクトルをフラッシュメモリユニットに記憶
    するステップと、 (F)エンドオブワードに到達するまで、前記サンプリ
    ングするステップ、前記処理するステップ、前記計算す
    るステップ、前記正規化するステップ、前記記憶するス
    テップを繰り返すステップと、 (G)特徴ベクトルを蓄積するステップと、 (H)蓄積した特徴ベクトルをフラッシュメモリユニッ
    トにおけるワードモデルへと記憶するステップとからな
    ることを特徴とする方法。
  11. 【請求項11】 フラッシュメモリユニットおよび内部
    RAMを有するデジタルシグナルプロセッサを有する音
    声認識システムをトレーニングする方法であって、 (A)第1のトレーニング群を行うステップと、 (B)第2のトレーニング群を行うステップと、 (C)第1のトレーニング群の結果と第2のトレーニン
    グ群の結果とを比較するステップと、 (D)もし前記結果が十分に接近していれば、第1トレ
    ーニング群の結果と第2のトレーニング群の結果の平均
    をフラッシュメモリユニットにおけるワードモデルへと
    書き込むステップとからなることを特徴とする方法。
  12. 【請求項12】 (E)第1のトレーニング群の結果と
    第2のトレーニング群の結果の間の変異をフラッシュメ
    モリユニットにおけるワードモデルへと書き込むステッ
    プとからさらになることを特徴とする請求項11記載の
    方法。
  13. 【請求項13】 フラッシュメモリユニットおよび内部
    RAMを有するデジタルシグナルプロセッサを有するシ
    ステムにおいて音声認識を行う方法であって、 (A)オーディオデータを内部RAMにおけるオーディ
    オデータのフレームへとサンプリングするステップと、 (B)オーディオデータのフレームを処理するステップ
    と、 (C)フレームから特徴ベクトルを計算するステップ
    と、 (D)特徴ベクトルを正規化するステップと、 (E)特徴ベクトルをフラッシュメモリユニットに記憶
    するステップと、 (F)特徴ベクトルを複数のワードモデルに対してスコ
    アリングするステップと、 (G)各ワードモデルの最終状態スコアをフラッシュメ
    モリユニットのトレースバックバッファへと書き込むス
    テップと、 (H)エンドオブワードに到達するまで前記サンプリン
    グするステップ、処理するステップ、前記計算するステ
    ップ、前記正規化するステップ、前記記憶するステッ
    プ、前記スコアリングするステップ、前記書き込むステ
    ップを繰り返すステップと、 (I)エンドオブワードに対応するトレースバックバッ
    ファにおける最終状態スコアを評価するステップとから
    なることを特徴とする方法。
  14. 【請求項14】 前記評価するステップ(I)の後に、 (J)評価した最終状態スコアが成功した認識が行われ
    たことを表すかを判断し、もしそうであれば、認識した
    ワードにより特定される動作を行うステップからさらに
    なることを特徴とする請求項13記載の方法。
  15. 【請求項15】 音声認識能力を有する電話応答装置で
    あって、 (A)電話インタフェースと、 (B)A/D変換をすることができるコーダおよびデコ
    ーダユニットと、 (C)内部RAMを有するデジタルシグナルプロセッサ
    と、 (D)音声認識領域を有するフラッシュメモリユニット
    とからなり、 前記デジタルシグナルプロセッサは、音声認識システム
    へとデータを書き込む前に内部RAMに中間結果をバッ
    ファリングすることを特徴とする電話応答装置。
  16. 【請求項16】 (E)音声認識領域をフラッシュメモ
    リユニット内で移動する手段からなることを特徴とする
    請求項15記載の電話応答装置。
  17. 【請求項17】 前記移動する手段は、経過時間に応じ
    て移動することを特徴とする請求項16記載の電話応答
    装置。
  18. 【請求項18】 前記移動する手段は、蓄積されたメモ
    リ書き込みの回数に応じて移動することを特徴とする請
    求項16記載の電話応答装置。
  19. 【請求項19】 前記デジタルシグナルプロセッサは、
    トレーニング動作および認識動作を行うようにプログラ
    ミングされていることを特徴とする請求項15記載の電
    話応答装置。
  20. 【請求項20】 (F)オーディオインタフェースから
    さらになることを特徴とする請求項15記載の電話応答
    装置。
  21. 【請求項21】 (G)当該電話応答装置の機能を制御
    するようにプログラミングされたシステムマイクロコン
    トローラからさらになることを特徴とする請求項20記
    載の電話応答装置。
JP6106699A 1998-03-09 1999-03-09 音声認識システム Pending JPH11312391A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/037,329 US6044346A (en) 1998-03-09 1998-03-09 System and method for operating a digital voice recognition processor with flash memory storage
US09/037329 1998-03-09

Publications (1)

Publication Number Publication Date
JPH11312391A true JPH11312391A (ja) 1999-11-09

Family

ID=21893761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6106699A Pending JPH11312391A (ja) 1998-03-09 1999-03-09 音声認識システム

Country Status (3)

Country Link
US (1) US6044346A (ja)
JP (1) JPH11312391A (ja)
TW (1) TW419644B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040023345A (ko) * 2002-09-11 2004-03-18 현대모비스 주식회사 텔레매틱스의 음성인식 장치

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006967B1 (en) * 1999-02-05 2006-02-28 Custom Speech Usa, Inc. System and method for automating transcription services
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US20020042713A1 (en) * 1999-05-10 2002-04-11 Korea Axis Co., Ltd. Toy having speech recognition function and two-way conversation for dialogue partner
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
US6683943B2 (en) 2000-01-26 2004-01-27 Richard A. Wuelly Automated mass audience telecommunications database creation method
US6832194B1 (en) * 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
US6681207B2 (en) * 2001-01-12 2004-01-20 Qualcomm Incorporated System and method for lossy compression of voice recognition models
EP1302929A1 (de) * 2001-10-16 2003-04-16 Siemens Aktiengesellschaft Verfahren zur automatischen Implementierung eines Spracherkenners und Spracherkenner
US20030158739A1 (en) * 2002-02-15 2003-08-21 Moody Peter A. Speech navigation of voice mail systems
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
US7346859B2 (en) 2004-03-31 2008-03-18 Lenovo Singapore, Ltd. Administration of keyboard input in a computer having a display device supporting a graphical user interface
US7173525B2 (en) 2004-07-23 2007-02-06 Innovalarm Corporation Enhanced fire, safety, security and health monitoring and alarm response method, system and device
US7129833B2 (en) 2004-07-23 2006-10-31 Innovalarm Corporation Enhanced fire, safety, security and health monitoring and alarm response method, system and device
US7126467B2 (en) * 2004-07-23 2006-10-24 Innovalarm Corporation Enhanced fire, safety, security, and health monitoring and alarm response method, system and device
US7170404B2 (en) * 2004-07-23 2007-01-30 Innovalarm Corporation Acoustic alert communication system with enhanced signal to noise capabilities
US7148797B2 (en) * 2004-07-23 2006-12-12 Innovalarm Corporation Enhanced fire, safety, security and health monitoring and alarm response method, system and device
US7656287B2 (en) * 2004-07-23 2010-02-02 Innovalarm Corporation Alert system with enhanced waking capabilities
US20070116212A1 (en) * 2005-10-07 2007-05-24 Microsoft Corporation Dynamic call announcement using recipient identification
US9058818B2 (en) * 2009-10-22 2015-06-16 Broadcom Corporation User attribute derivation and update for network/peer assisted speech coding
US8370157B2 (en) * 2010-07-08 2013-02-05 Honeywell International Inc. Aircraft speech recognition and voice training data storage and retrieval methods and apparatus
US20120065972A1 (en) * 2010-09-12 2012-03-15 Var Systems Ltd. Wireless voice recognition control system for controlling a welder power supply by voice commands
CN102646067B (zh) * 2012-02-27 2015-07-29 深圳市共进电子股份有限公司 一种嵌入式软件的测试方法
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
CN103605606B (zh) * 2013-12-01 2016-03-16 北京航空航天大学 一种可自动转换的嵌入式软件测试用例批量执行方法
CN104317717B (zh) * 2014-10-31 2017-02-15 北京航空航天大学 一种基于量纲转换的嵌入式软件测试方法
CN104536880B (zh) * 2014-11-28 2017-09-15 南京大学 基于符号执行的gui程序测试用例扩增方法
CN106250307B (zh) * 2016-07-20 2019-01-22 福建省农村信用社联合社 一种银行手机应用自动化测试方法及系统
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
US10339221B2 (en) * 2017-10-05 2019-07-02 Amadeus S.A.S. Auto-completion and auto-correction of cryptic language commands with dynamic learning of syntax rules

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
WO1996018258A2 (en) * 1994-12-02 1996-06-13 Voice Control Systems, Inc. Intelligent call processing platform for home telephone system
US5687279A (en) * 1994-12-23 1997-11-11 Intel Corporation Retro-storing analog information in a digital storage circuit
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5787445A (en) * 1996-03-07 1998-07-28 Norris Communications Corporation Operating system including improved file management for use in devices utilizing flash memory as main memory

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040023345A (ko) * 2002-09-11 2004-03-18 현대모비스 주식회사 텔레매틱스의 음성인식 장치

Also Published As

Publication number Publication date
US6044346A (en) 2000-03-28
TW419644B (en) 2001-01-21

Similar Documents

Publication Publication Date Title
JPH11312391A (ja) 音声認識システム
Rabiner Applications of speech recognition in the area of telecommunications
US4348550A (en) Spoken word controlled automatic dialer
US9640175B2 (en) Pronunciation learning from user correction
JP3434838B2 (ja) ワードスポッティング法
US6519479B1 (en) Spoken user interface for speech-enabled devices
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
US6374219B1 (en) System for using silence in speech recognition
USRE32012E (en) Spoken word controlled automatic dialer
US7299179B2 (en) Three-stage individual word recognition
JPH0416800B2 (ja)
JPH09244686A (ja) 情報処理方法及び装置
KR100415217B1 (ko) 음성인식 장치
WO2002097590A2 (en) Language independent and voice operated information management system
US7016838B2 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
EP1205906B1 (en) Reference templates adaptation for speech recognition
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
US20050273334A1 (en) Method for automatic speech recognition
US7349844B2 (en) Minimizing resource consumption for speech recognition processing with dual access buffering
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
Steinbiss et al. The Philips research system for continuous-speech recognition
JP2006023773A (ja) 音声処理システム
JP2871420B2 (ja) 音声対話システム
Atal et al. Speech research directions
Steinbiss et al. Continuous speech dictation—From theory to practice

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040317