JPH11312391A

JPH11312391A - 音声認識システム

Info

Publication number: JPH11312391A
Application number: JP6106699A
Authority: JP
Inventors: S Ari Shedo; エス．アリシェド; C Glinsky Steven; シー．グリンスキースティーブン
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1998-03-09
Filing date: 1999-03-09
Publication date: 1999-11-09
Also published as: US6044346A; TW419644B

Abstract

(57)【要約】【課題】フラッシュメモリのバーンアウトの影響を減
らすように、有限数の書込動作を行うことができるフラ
ッシュメモリデバイスを用いて、発声オーディオコマン
ドの有限数のセットをサンプリング、処理、認識するの
に用いるプログラマブルデジタルシグナルプロセッサチ
ップを動作させる。【解決手段】低コストなフラッシュメモリデバイスと
共に低コストなプログラマブルデジタルシグナルプロセ
ッサ（ＤＳＰ）を用い、電話応答装置のような消費者向
け装置においてデジタル音声認識を提供する。フラッシ
ュメモリデバイスの一部において行われる書込の数を減
らすためにバッファ操作方式を用い、フラッシュメモリ
のバーンアウト効果の発生を消費者向け装置が許容でき
るレベルまで押さえる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識処理に用
いるデジタルオーディオプロセッサを非揮発性記憶デバ
イスにインタフェースするシステムおよび方法に関し、
特に、有限数の書込動作を行うことができるフラッシュ
メモリデバイスを用いて、発声オーディオコマンドの有
限数のセットをサンプリング、処理、認識するのに用い
るプログラマブルデジタルシグナルプロセッサチップを
動作させるシステムおよび方法に関する。

【０００２】

【従来の技術】ほんの数年前までは実際には存在しない
かないしサイエンスフィクションのようなものとして考
えられていた電子的自動音声認識は現在では現実化して
いる。この技術は複雑であるが消費者向け装置において
さえも非常に一般的となっている。

【０００３】デジタル音声認識はいくつかの理由により
有用である。第１に、音声により操作する装置をハンド
フリー状態で用いることができるのでユーザの仕事の生
産性を増加させることができる。例えば、ユーザからコ
マンドを受ける音声認識技術を用いる電話音声メールシ
ステムはユーザが他のものを見ていたり他の仕事をして
いる最中であってもユーザの音声によって動作させるこ
とができる。第２に、暗号的なコマンドコートをキーボ
ードやキーパットを介して入力することよりも音声コマ
ンドで入力する方が多くの人々にとって自然である。音
声によって装置を動作させることは、新しい技術なので
最初はとまどうかもしれないが、多くの人々は早くに適
合することが分かっている。最後に、発声コマンドで装
置が動作されユーザが合成音声によって誘導される場
合、複雑なコマンドの多くを記憶する必要を減らすこと
ができる。音声コマンドは自然なフレーズでセットアッ
プすることができる。例えば、「メッセージを受け取
る」または「削除」のような自然なフレーズを用いるこ
とができ、伝統的な電話器のキーパットで必要な数字、
＊、＃の連続を使う必要がなくなる。

【０００４】音声認識システムが一般的になることによ
って多くの技術進歩が容易となった。例えば、比較的コ
スト効率のよい消費者向けの装置であっても満足できる
レベルの音声認識を行わせることができるようになっ
た。

【０００５】最近の数年間でコンピュータの製造は非常
に大きく向上している。比較的単純な特殊用途のデジタ
ルコンピュータが音声認識をリアルタイムで行うのに必
要な数学的な計算および信号処理動作を多く行うことが
できることとなっている。過去においては満足な音声認
識を得るには大きな処理時間を必要としてしまい音声を
デジタル的に捕獲するのに必要な時間を超えてしまって
いた。

【０００６】またコストにおいて非常に改善した。強力
な特殊用途のデジタルシグナルプロセッシングコンピュ
ータチップが廉価の消費者向けの装置で実時間音声認識
をさせることを可能とした。メモリのような他のデジタ
ル部品も劇的に値段が下がった。

【０００７】最後に、音声認識を行うのに用いる信号処
理アルゴリズムに大きな改善があった。この分野の多く
の研究は１５年前から１０年前ほどの間に盛んとなり、
音声認識に都合のよいアルゴリズムは最近にしか開発さ
れていなかった。

【０００８】今日の開発および利用における音声認識シ
ステムには多くの種類がある。これらの種類はいくつか
の特性によって分類することができる。すなわち、語彙
のサイズ、発声者依存性、連続的／離散的音声認識の各
特性である。

【０００９】大きな語彙の音声認識システムはディクテ
ーションおよび複雑な制御の応用に用いられている。こ
れらのシステムには非常に多くの演算能力を必要とす
る。例えば、大きな語彙認識はハイエンドパーソナルコ
ンピュータやオフィスコンピュータとして用いられるよ
うな高性能のコンピュータシステムのみにおいて行うこ
とができる。従って、大きな語彙の認識は消費者製品に
はあまり向かない。

【００１０】しかし、小さな語彙の音声認識システムは
多くの応用において有用である。比較的少ない数のコマ
ンドワードないしフレーズを用いて、電話機や電話応答
装置のような単純な装置を動作させることができる。伝
統的にはこれらの装置は小さなコントロールパネルを介
して動作させられる。このコントロールパネルにコード
を入力することにより行う機能は、適切な音声コマンド
を受けることにより行わせることができる。小さい数の
ワードおよびフレーズしか理解できないので、発声コマ
ンドを識別するために行うための数学的演算ためのコン
ピュータ処理能力は大きくすることができない。このよ
うに、小さな語彙の音声認識システムを導入するために
消費者グッズにおいて低コスト特殊用途デジタルシグナ
ルプロセッサチップを用いることができる。

【００１１】音声認識システムの中には「発声者非依存
性」があるものとして知られるものもあり、「発声者依
存性」があるものと考えられているものがある。発声者
非依存性システムには、認識すべきワードおよびフレー
ズの汎用的モデルを備えている。このようなシステムは
特定の発声者の音声を理解するのに「トレーニング」を
する必要はない。しかしこのため、ユーザの独特なアク
セントや発声パターンによって認識精度が低くなってし
まう。他方、発声者依存性システムは所定量のトレーニ
ングが必要である。すなわち、このようなシステムはい
くつかのワードを話したり、数分間か話すことをユーザ
に要求し、そのユーザの特定の発声方式と一致する内部
のワードモデルにシステムを適合させる。このアプロー
チは通常認識制度を改善するが、利用する前にトレーニ
ングが必要なことは不便であり退屈である。また、複数
のユーザが発声者依存性システムを用いる場合、複数の
ユーザの音声モデルを記憶するスペースを設けなければ
ならず各ユーザは別々にトレーニングする必要が発生し
てしまう。

【００１２】最後に、音声認識システムの残りの２つの
分類として、連続音性を認識することができるシステム
と、離散的音声を認識しか認識することができない点が
ある。連続的音声認識は自然言語ディクテーションシス
テムに最も多く用いられている。しかし、連続的発声は
１つの長い音のつながりへと結合（run together）して
しまうので、個々のワードやフレーズがどこで始まって
どこで終わるのかを判断するのにさらなるコンピュータ
資源が必要となってしまう。このプロセスには典型的な
低コスト消費者向け製品の処理能力をこえてしまう。

【００１３】離散的音声認識システムは、ワードないし
フレーズそれぞれの間に短い中断を必要とし、それらワ
ードがどこで開始し終わるのかを判断することを可能に
する。しかし、必ずしも各ワードを別々に発声すること
は必要ではなく、少ない数の短いコマンドフレーズを離
散的発声と捉えて音声認識をしたりする。

【００１４】大きな語彙で、発声者非依存性で、連続的
発声認識システムには利点があるが、低コスト消費者向
け装置に音声認識をさせるためにはいくつかの制約があ
る。小さな語彙で発声者依存性で離散的発声認識システ
ムは上述のように多くの応用において依然有用である。
この場合であっても消費者に受け入れられるシステムを
製造するためにはさらに制約がある。

【００１５】例えば、多くの発声認識システムにおい
て、いろいろな目的のために大量のメモリが用いられ
る。入ってくるサンプリングされた音声情報を記憶し、
認識の前に処理した音声情報の中間体を記憶するために
バッファが必要とされる。これらのバッファは、トレー
ニングおよび認識処理時に常に書き込まれ、再書込をさ
れ、音声入力を終了し、音声モデルを更新し、内部変数
を変えたりする目的に使われる。多くの場合、ＳＲＡＭ
が伝統的に用いられてきた。これについては下で詳細に
述べる。

【００１６】多くのデジタル音声記憶および認識応用に
おいて用いられる伝統的な低コストデジタルメモリ装置
は大きな欠点がある。電源が切れるとメモリの内容を永
久的に失ってしまう。例えば、オーディオレコーディン
グおよび処理に用いられる最も安いタイプのデジタルメ
モリは、ＤＲＡＭである。オーディオグレードＤＲＡＭ
はＡＲＡＭとして知られるが、部分的に欠陥がある（従
って、データ記憶のためにはあまり有用でない）。ＡＲ
ＡＭから電源が切断されるとメモリの内容は失われる。
また、ＡＲＡＭはメモりセルを電気的に励起することに
より周期的に「リフレッシュ」しなければならない。こ
のため、プライマリ電源から除去する際にＡＲＡＭの内
容を保持するためにバッテリーバックアップを用意しな
ければならない。これはユーザにとって不便であり、Ａ
ＲＡＭを用いる装置をかさばらせ、コストを上げてしま
う。また、ＡＲＡＭに必要なリフレッシュ信号を与える
ために別の回路を必要としてしまう。

【００１７】ＡＲＡＭ装置はこのような欠点にも関わら
ず、低コストのため比較的高い需要がある。このためＡ
ＲＡＭ装置は供給が追いつかない場合があり価格が安い
という利益がなくなる場合もある。

【００１８】またＳＲＡＭも揮発性デジタルメモリの一
種である。ＳＲＡＭは非常に速いメモリアクセスを達成
するが、電力を消費してしまい高価である。リフレッシ
ュ信号は必要としないがＤＲＡＭのように電源を常に供
給しなければならない。さもなければメモリの内容を失
ってしまう。

【００１９】上の両方の種類の揮発性デジタルメモリに
おいて、発声者依存性トレーニングデータおよび他の重
要なシステム情報がバッテリーバックアップがない限り
電源の故障の際に失われてしまう。もし発声者依存性ト
レーニングデータを失えば、再び使うには再びトレーニ
ングしなければならなくなる。上述のようにトレーニン
グは不便で退屈であり少なくても数分間はかかってしま
う。

【００２０】非揮発性メモリ、すなわち電源を失っても
内容を保持するメモリもいくつかある。ＥＥＰＲＯＭは
オーディオ記憶および処理に必要な量および密度を考え
ると高価である。いわゆるバブルメモリもあるが高価で
あり、オーディオの応用に用いるには一般に遅すぎる。
最後に、フラッシュメモリがある。フラッシュメモリは
高価で消去および書込が遅かったが、最近はフラッシュ
メモリをプログラムするのに必要な時間が短縮し、オー
ディオレコーディングおよび処理システムに用いること
ができるまでになっている。しかし、フラッシュメモリ
にはバーンアウト効果がある。記憶装置の一部への有限
数の再書込によって、そこへの書込ができなくなってし
まう。

【００２１】このような揮発性デジタルメモリを用いる
際の問題は、通常の揮発性メモリにある程度の非揮発性
メモリを組み合わせることによって解決することができ
る。しかし、この方法は部品の数を増やしてしまい、製
造コストを上げてしまう。このような解決法を用いる場
合、別々のバヒ、揮発性および非揮発性メモリの部品を
別々で必要としてしまう。

【００２２】

【発明が解決しようとする課題】音声認識処理用の多く
の揮発性および非揮発性デジタル記憶オプションの欠点
を考えると、記憶のためにほぼすべてを低コストな非揮
発性メモリを用いることができる低コストな音声認識シ
ステムの必要性がある。このようなシステムは、電話器
や応答装置のような電子機器の制御に対応するコマンド
の比較的小さな語彙を収容することができなければなら
ない。このようなシステムには耐久性がなければならず
メモリのバーンアウト効果に抵抗力がなければならな
い。

【００２３】

【課題を解決するための手段】本発明は、低コストなフ
ラッシュメモリデバイスと共に低コストなプログラマブ
ルデジタルシグナルプロセッサ（ＤＳＰ）を用い、電話
応答装置のような消費者向け装置においてデジタル音声
認識を提供する。フラッシュメモリを用いるのでその中
のデータは非揮発性であり、電源が落ちたときに発声者
依存性トレーニングデータなどの情報を損失することを
防ぐためにバッテリーバックアップやリフレッシュ回路
が必要なくなる。

【００２４】フラッシュメモリはバーンアウト効果を示
すことが知られている。これは、フラッシュメモリデバ
イスの一部が多くの数書き込まれた場合に（通常１００
０００回の書込）動作できない状態になってしまうこと
である。本発明は、フラッシュメモリデバイスの一部に
おいて行われる書込の数を減らすためにバッファ操作方
式を用い、フラッシュメモリのバーンアウト効果の発生
を消費者向け装置が許容できるレベルまで押さえること
ができる。

【００２５】この方式において、ＤＳＰチップ内に「ス
クラッチパット」メモリとして２つのデジタル音声バッ
ファを割り当てる。一方のバッファからのデータをトレ
ーニングまたは認識のために処理しているときに、他方
のバッファがサンプリングしたオーディオデータを受け
続けることを可能にする。これらバッファは処理される
前に満杯にまで埋めることが可能であり、フラッシュメ
モリ内の「さまよい」バッファへの書込の前に一定量の
データが蓄積される。これにより、フラッシュメモリへ
の書込の数を最小化することができ、フラッシュバーン
アウトの発生を減らすことができる。

【００２６】本装置は、周知な音声認識アルゴリズムお
よび方式を用いる。例えば、音声の特徴をダービンの回
帰（Durbin's recursion）として知られる８次アルゴリ
ズムでエンコードし、トレーニングおよび認識に用いる
音声モデルは隠れマルコフモデル（Hidden Markov Mode
ls）を用いる。これは音声認識の応用において有用であ
るとして知られる。

【００２７】一実施例において、Lucent Technologies
Inc. の Microelectronics Groupから得られるＤＳＰ１
６０５デジタルシグナルプロセッサをデジタルシグナル
プロセッサとしてプログラミングし用いる。

【００２８】

【発明の実施の形態】下には音声認識能力を備える電話
応答装置を説明する。

【００２９】周知な隠れマルコフモデルを音声トレーニ
ングおよび認識に用いる。これは他の音声認識技術より
も精度がよく演算的にも優れていることが知られてい
る。マルコフモデルおよび他のアルゴリズムや本発明を
実施するのに用いる技術についてのより詳細な情報は、
文献、L.R.Rabiner and B.H. Juang,Fundamentals of S
peech Recognition,Prentice Hall,Englewood Cliffs,N
ew Jersey,1993.に記されている。

【００３０】図１において、本発明に従う電話応答装置
の基本的な構成要素の間の関係を示している。ＤＳＰ１
１０はこの装置の心臓部である。ＤＳＰ１１０はシステ
ムマイクロコントローラ１１２につながっており、この
システムマイクロコントローラ１１２は公知の方法で電
話応答システムの動作の命令をする。例えば、システム
マイクロコントローラ１１２はユーザＩ／Ｏ１１３と通
信をする。このユーザＩ／Ｏ１１３は、デジタルディス
プレイやプッシュボタンスイッチのような構成要素を含
むことができる。

【００３１】ＤＳＰ１１０には、コーデック１１４もつ
ながっている。コーデック１１４はＡ／ＤおよびＤ／Ａ
変換を行うことができる。コーデック１１４はデータを
デジタル形態で受け処理するＤＳＰ１１０と外部のアナ
ログオーディオ信号との間のインタフェースとして機能
する。従って、コーデック１１４はオーディオインタフ
ェース１１６へとつながっており、このオーディオイン
タフェース１１６はマイクロホンおよびスピーカを備え
る。コーデック１１４は電話システムに電話応答装置を
つなげる電話インタフェース１１８へとつながってい
る。コーデック１１４はオーディオインタフェース１１
６や電話インタフェース１１８から受けたアナログオー
ディオ信号をＤＳＰ１１０が処理することができるよう
に（サンプリングとして知られている）デジタルデータ
へと変換するのに用いる。コーデック１１４はＤＳＰの
デジタルデータをプレイバックするために必要であれば
アナログオーディオ信号へと変換し直す。

【００３２】一実施例において、コーデック１１４とＤ
ＳＰ１１０は別々の集積回路である。例えば、ＤＳＰ１
１０は Lucent Microelectronics から得られるデジタ
ルシグナルプロセッサのＤＳＰ１６０ｘファミリーから
選択されるチップを用いることができる。本発明の好ま
しい実施例は、ＤＳＰ１６０５チップを用いる。このチ
ップは、オンボードＲＡＭの１０２４の１６ビットワー
ドおよび電話応答装置の機能がプログラミングされるオ
ンボードプログラムＲＯＭの１６ｋを備える。この実施
例において、コーデック１１４は Lucent Microelectro
nics から得られるＴ７５１３ＢＣＯＤＥＣのような別
々のＡ／ＤおよびＤ／Ａ変換器である。別の実施例にお
いて、コーデック１１４とＤＳＰ１１０は同じ集積回路
チップに取り入れてもよい。Lucent Microelectronics
のＤＳＰ１６５ｘファミリーには同様な構成のものがあ
る。

【００３３】ＤＳＰ１１０はフラッシュメモリ１２０と
やりとりをする。このフラッシュメモリ１２０には発声
者依存性トレーニングデータ（例えば、ボイスモデ
ル）、音声プロンプトなどの情報を記憶したオーディオ
のような長期記憶用データに用いる。

【００３４】フラッシュメモリ１２０は、一実施例にお
いて４メガビット（すなわち、５１２ｋバイト）の大き
さを備え、電話応答装置が用いる長期データ記憶の唯一
の手段として構成する。従って、フラッシュメモリ１２
０は出メッセージ、入メッセージ、システム依存データ
（例えば、時間や日付スタンプによって記憶されている
入メッセージを識別し、フラッシュメモリ内のどこにメ
ッセージが位置するかを識別するメッセージテーブル）
の記憶のために確保された領域を備える。また上述のよ
うに、フラッシュメモリは多くのボイスプロンプト（例
えば、メッセージ時間および日付スタンプをユーザに発
声するのに用いる数値やワード）を表すボイスデータを
記憶することができる。

【００３５】このような音声プロンプトデータは通常、
工場にて永久的プログラミングされ電話応答システムの
通常の利用時には変更されないようにされるが、電話応
答装置の残りの部分がフラッシュメモリに記憶された永
久的な音声プロンプトに障害が発生する前に故障するで
あろう程に十分に信頼性がある。音声プロンプトデータ
デフラッシュメモリをプログラミングすることにより、
さらなる外部のＲＯＭが音声プロンプトを記憶するのに
必要ではなくなり、チップの数や製造コストを下げるこ
とができる。

【００３６】電話応答装置から電源を取ると、システム
の動作に必要なリアルタイムデータのいずれをも再構成
するためにシステム依存性データを用いることができ
る。

【００３７】ＤＳＰ１１０のいくつかの内部的特徴は重
要であり図２に示した。ＤＳＰ１１０はＤＳＰプロセッ
サ２１０を有する。ＤＳＰプロセッサ２１０はプログラ
ムＲＯＭ２１２へとつながっており、これは図３、４の
流れ図と共に下で詳細に説明するトレーニングおよび認
識動作を含む電話応答装置の機能を実現するために必要
なプログラムコードを記憶する。

【００３８】ＤＳＰプロセッサ２１０はＲＡＭ２１４へ
とつながっている。Lucent ＤＳＰ１６０５デバイスは
１０２４ワードのＲＡＭ２１４を有する。ＲＡＭ２１４
の一部はプログラムＲＯＭ２１２に記憶されたプログラ
ムが一時的に用いる変数や他のデータを記憶するのに用
いられる。またサンプルバッファ２１６はＲＡＭ２１４
内に構成する。サンプルバッファ２１６は処理の前およ
び最中にコーデック１１４から受けた生の記録されたデ
ジタルサウンドデータを保持するのに用いる。ＤＳＰプ
ロセッサ２１０はサンプルバッファ２１６におけるデー
タを動作させ、フラッシュメモリ１２０へと書き込む前
にその出力を蓄積する。スコアバッファ２１８は、ＲＡ
Ｍ２１４から割り当てられ、音声認識動作時に本装置の
語彙における各ワードの認識スコアを追跡するのに用い
られる。これらの動作において行われる機能は下に詳細
に説明する。

【００３９】特定のユーザが発声者依存性音声認識シス
テムを利用する前にトレーニング動作が必要となる。ト
レーニング時のＤＳＰ１１０とフラッシュメモリ１２０
の間のやりとりを含むトレーニングにて行われる処理を
図３の流れ図を用いて以下に説明する。

【００４０】トレーニングは、少なくとも２回は認識さ
せるようにユーザに各ワードを発声させることにより行
われる。各トレーニングのはじめにフラッシュメモリ１
２０から特定の音声プロンプトを読みとるようにＤＳＰ
１１０をプログラミングすることにより所望のワードを
ユーザが発声するようにプロンプトさせることができ
る。システムは各発声を記録し、２つの逐次的な記録が
お互い十分に類似していれば、その発声したワードの平
均的な音を表すモデルを記憶し、発声認識動作において
後に利用する。

【００４１】最初に、音声認識システムはサンプルバッ
ファへと連続的にオーディオをサンプリングし始める
（３１０）。このサンプルバッファはＤＳＰ１１０内の
オンボードＲＡＭに保持されるのが好ましい。好ましい
実施例において、サンプリングは、８ｋＨｚのレート
で、すなわち８０００サンプル／秒にて行う。各サンプ
リングは８ビットの分解能で行い、コーデック１１４に
よりμ則フォーマットでエンコードされる。周知のよう
にμ則量子化は対数的量子化方式であり、８ビットのμ
則エンコードされた情報は１４ビットの線形エンコーデ
ィングとしてほぼ同様なダイナミックレンジを与えるこ
とができる。

【００４２】サンプリングはオンボードラム内の２つの
１６０サンプルフレームバッファへと行われる。それら
両方の２つのフレームバッファがサンプリングバッファ
を構成する。従って、８ｋＨｚのサンプリングレートで
は、各フレームバッファは２０ｍ秒（１／５０秒）のオ
ーディオ情報を保持する。すなわち、フレームレートは
５０Ｈｚである。各逐次的フレームはその前のフレーム
が完成した際に始まる。各フレームはお互い「接触」す
るが重なり合わない。サンプリングが１フレームバッフ
ァへと行われるので、他方のフレームバッファは下に詳
細に述べるように本発明により非同期的に処理される。

【００４３】１つのフレームバッファがサンプルで一杯
になった後、処理が開始される。最初に、フレームバッ
ファ内のサンプルは高周波数をプレエンファシスするよ
うに、およびフレームを「ウィンドウ」するように信号
処理される（３１２）。好ましい実施例において、２０
のサンプルの上昇および下降時間のトラペゾイド型ウィ
ンドウを用いる。これは信号への最も大きい貢献は前の
フレームや後ろのフレームに近い境界に近いサンプルで
はなく。フレームのセンターのサンプルにより行われる
ことを確実にするように行われる。この時において、自
己相関係数をそのフレームに対して計算する（３１
４）。公知のように自己相関係数はフレーム内のサンプ
ルに対して時間ベースの周波数スペクトルを表す。

【００４４】自己相関係数は特徴ベクトル(feature vec
tor)へと変換される（３１６）。これは、周知なダービ
ンの回帰として知られる８次線形予測符号化（ＬＰＣ）
技術により行われる。この操作から、「ケプストラル(c
epstral)」係数として知られる９つの値のセットが得ら
れる。１次項はログエネルギー係数へと変換される。こ
れは信号に含まれるエネルギーを表す。残りの８項はそ
れぞれ、他の７項と同様に特徴ベクトルの一部であり、
前のフレームの特徴ベクトルからデルタ値を重み付けさ
れる。従って、１フレームの特徴ベクトルは１７の項か
らなり、すなわち、１のログエネルギー、８のＬＰＣ
（ケプストラル項、７のデルタケプストラル項）からな
る。

【００４５】次に特徴ベクトルの項は前の特徴ベクトル
の値に基づいて正規化される（３１８）。これは信号振
幅における変異を補償することのみではなく、信号変異
をも補償する。例えば、スピーカが装置に直接発声して
いるかあるいは電話接続を通して直接ではなく発声して
いるかなどである。この正規化プロセスは周知であり多
くの音声認識技術において用いられている。

【００４６】本発明に従うシステムにおいて特徴ベクト
ル全体はフラッシュメモリ１２０内の特徴バッファへと
記憶される（３２０）。ＳＲＡＭではなくフラッシュメ
モリを用いるので、例えば、少しずつではなく一時に全
体の特徴ベクトル（１６の値からなる）を記憶すること
がよい。これによりフラッシュバーンアウトの発声を減
らすことができる。

【００４７】特徴ベクトルを計算し正規化し記憶した
後、エンドポイントを計算する（３２２）。エンドポイ
ントは直前に計算した特徴ベクトルと共に、前のフレー
ムに対応する特徴ベクトルの値に基づいて計算される。
特定の発声ないしワードが終わることを示すエンドポイ
ントは公知の方法により計算される。エンドポイント計
算アルゴリズムは通常、発声がどこで終わるのかを判断
するために戻らないといけないことに留意すべきであ
る。すなわち、１つの特徴ベクトルのみを調べることに
より通常判断できない。このように、発声が実際に終わ
った後いくつかのフレームが終わってから発声を判断す
る。

【００４８】エンドポイントがエンドオブワード(end-o
f-word、ワードの終わり)に到達したことを示唆しなけ
れば（３２４）、このアルゴリズムは繰り返され、さら
なるフレームが処理される（３１２〜）。他の場合、パ
ス番号を決め（３２６）、その後の動作はそれがこのア
ルゴリズムを通る最初から２番目か３番目か（あるいは
それ以上）によって決まってくる。

【００４９】もしこれがアルゴリズムを通る最初のパス
（通り抜け）であれば、発声したワードに対応する正規
化された特徴ベクトルはフラッシュメモリ内のワードモ
デルに記憶される（３２８）。次にアルゴリズムはリセ
ットされ（３３０）、アルゴリズムを通って第２パスが
作られる。

【００５０】アルゴリズムを通り抜ける２回目のパスで
あった場合、新しく計算された正規化された特徴ベクト
ルは最初のパスで記憶したワードモデルと比較される
（３３２）。それらが十分に類似していれば（３３
４）、２つのパスは平均化され（３３６）、ワードモデ
ルに記憶される（３３８）。次にトレーニングアルゴリ
ズムはそのワードに対しては終了する（３４０）。ここ
で、この装置の語彙における各ワードのフラッシュメモ
リ１２０において記憶した別々のワードモデルがあるこ
とに留意すべきである。

【００５１】もし２つのパスが十分に類似していない場
合（３３４）、新しく計算した特徴ベクトルが第２ワー
ドモデル（３４２）に記憶される。アルゴリズムはリセ
ットし（３４４）、３番目のパスが発生する。

【００５２】３回目のパスでは、新しく計算した正規化
した特徴ベクトルは１回目と２回目のパスで記憶した両
方の語彙モデルと比較される（３４６）。もしその新し
い特徴ベクトルがそれら２つの前の語彙モデルのいずれ
とも十分に類似していれば（３４８）、その新しい特徴
ベクトルは最も類似しているワードモデルのものと平均
化され（３５０）、その平均がワードモデルに記憶され
る（３５２）。そのワードに対してトレーニングが完成
する（３５４）。もし新しい特徴ベクトルが前のパスの
いずれとも一致しなければ、最も類似しないワードモデ
ルを置き換えるようにその新しい特徴ベクトルを書き込
み（３５６）、アルゴリズムがリセットされ（３５
８）、別のパスを行う。

【００５３】このトレーニングアルゴリズムの完成時に
おいて、アルゴリズムを通る少なくとも２回のパスの平
均からなる１つのワードモデルがフラッシュメモリ１２
０に記憶される。好ましい実施例において、これら２つ
のパスの間の特徴ベクトルの変異はワードモデルに記憶
され後に認識処理に用いられる。３以上のパスを用いれ
ば、同じワードの２以上の発声が音が十分に類似するこ
とを確実にすることができ、ボイスモデルの十分に意味
がある統計的情報を得ることができる。

【００５４】上述のトレーニング動作はシステムの動作
上重要な語彙における各ワードに対して繰り返される。
これらのワードは多くの固定コマンドからなるようにす
ることができる。例えば、「メッセージを削除」「メッ
セージを再生」、電話応答装置で用いる数字ディジッ
ト、自動電話ダイヤル装置にて用いる多くのカスタマイ
ズ化発声を含むことができる。例えば、後者の場合、ユ
ーザは個人の名前をトレーニングして、名前を認識して
正確にダイヤルするようにすることができる。

【００５５】トレーニングが完成した後、音声認識動作
を行う。認識動作にて行う処理には、認識動作時のＤＳ
Ｐ１１０とフラッシュメモリ１２０の間のやりとりを含
み、以下において図４の流れ図を用いて説明する。

【００５６】音声認識システムはサンプルバッファへと
連続的にサンプリングを開始する（４１０）。オンボー
ドＲＡＭ内の２つの１６０サンプルフレームバッファへ
とサンプリングを行う。一方のフレームバッファへとサ
ンプリングを行うが、他方のフレームバッファは下で詳
細に説明するように本発明による認識のため非同期的に
処理される。

【００５７】一方のフレームバッファがサンプルで満杯
になった後、処理を開始する。最初にフレームバッファ
内のサンプルは高周波数を pre-emphasize するよう
に、フレームを「ウィンドウ」するように信号処理され
る（４１２）。次にそのフレームに対して自己相関係数
を計算する（４１４）。その自己相関係数は、上述のダ
ービンの回帰技術により特徴ベクトルへと変換される
（４１６）。特徴ベクトルの１６項は前の特徴ベクトル
の値に基づいて正規化される（４１８）。本発明のシス
テムでは、全体の特徴ベクトルがフラッシュメモリ１２
０内の特徴バッファへと記憶される（４２０）。一度に
全体の特徴ベクトルを記憶するとフラッシュメモリのバ
ーンアウト効果の発生を減らすことができる。

【００５８】特徴ベクトルを計算した後、装置の語彙に
おけるワードモデルのすべてに対してその特徴ベクトル
をスコアリングする（４２２）。好ましい実施例におい
て、これは周知のビタビアルゴリズムによって行う。こ
の処理の結果はそれぞれが各語彙ワードにおける隠れマ
ルコフモデルの状態に対応するスコアの集合として得ら
れる。例えば、もし２５の異なる語彙ワードを認識する
ような装置をトレーニングし、各ワードモデルが８の状
態を有するものとすれば、ビタビスコアリングステップ
が終わると全体で２００のスコアを得ることができる。
これらのスコアはＤＳＰの内部ＲＡＭ２１４におけるス
コアバッファ２１８にすべて一時的に記憶される（４２
４）。各語彙ワードの最終状態スコアに対応するスコア
（この例では、全体で２５のスコア）は、フラッシュメ
モリ１２０における「トレースバックバッファ」におい
てさらに記憶される（４２６）。

【００５９】特徴ベクトルを計算し、正規化し、記憶
し、スコアリングした後、エンドポイントを計算する
（４２８）。このエンドポイントは直前に計算した特徴
ベクトルの値および前のフレームに対応する特徴ベクト
ルの値に基づいて計算される。特定の発声ないしワード
どこでが終わるかを示すエンドポイントは、公知の方法
により計算される。またカウントを生成する（４３
０）。これは最後にエンドポイントの位置が定められて
から処理されたフレームの数に対応する。このカウント
は現在の発声の長さに大まかにいうと対応する。

【００６０】ここで、どこで発声が終わるかを決めるた
めにエンドポイント計算アルゴリズムは通常戻って見つ
けなければならないことに留意すべきである。１つの特
徴ベクトルのみを調べることにより通常判断することは
できない。従って、発声は実際に終わった後いくつかフ
レームを終わってからエンドポイントを判断される場合
もある。このため、前のモデルの終わりのスコアを追跡
するために上述のトレースバックバッファを用いる。エ
ンドポイントに対応するモデルの終わりのスコアは、ど
こで発声が認識されたかを判断するために調べられる。
エンドオブワードに前に到達したことをエンドポインタ
アルゴリズムが判断すると（４３２）、エンドポインタ
が識別したポイントにおけるトレースバックバッファに
おけるスコアが評価される（４３４）。

【００６１】本装置の語彙における１つのワードモデル
のスコアが認識しきい値を超え、語彙における他のすべ
てのワードのスコアをも超えた場合、そのモデルのワー
ドは認識が成功する（４３６）。

【００６２】本発明は個々の発声されたワードではなく
一連のワードを認識する能力があることに留意すべきで
ある。一連のワードの認識は、シーケンスにおける最後
のワードを認識し、トレースバックバッファに記憶した
カウントおよびスコアによって戻り、前のワードを認識
して行われる。いずれの場合でも、認識を完成すると、
ＤＳＰ１１０ないしシステムマイクロコントローラ１１
２は認識したワードが指定したように動作する（４３
８）。この認識したワードはユーザからのコマンドやデ
ータ入力とすることができる。いずれのスコアも認識し
きい値を超えなければ、認識動作はリセットされ（４４
０）、認識処理は継続する。この時点においてその前の
ワードを認識できなかったことをユーザに示唆してもよ
い。

【００６３】上述のように、本発明はフラッシュメモリ
のバーンアウトの発生を減らすいくつかの手段を用い
る。例えば、トレーニング時に、サンプリングしたオー
ディオデータのフレームをその対応する特徴ベクトルが
全体的に計算されるまで完全に処理される。各特徴ベク
トルの個々の部分はその時点まではフラッシュメモリに
書き込まれない。また、認識アルゴリズムを通しての完
全な通過を達成するまでワードモデルはフラッシュメモ
リに書き込まれない。認識動作時には同様に、特徴ベク
トルは少しずつには書き込まれず、各フレームの最終状
態のスコアのみフラッシュメモリに書き込まれる。

【００６４】さらに、フラッシュバーンアウト効果を減
らすためにさらなるバッファ操作方式を用いる。上述の
ように、４メガビットフラッシュメモリデバイスをデジ
タル音声記憶および音声認識能力を取り入れる電話応答
装置に対して通常用いる。しかし、フラッシュメモリ１
２０の少ない一部のみしか音声認識に関与させない。４
メガビットのデバイスで利用可能な５１２ｋバイトの記
憶領域のうち、本発明に従う音声認識システムにおいて
すべてのバッファ、変数、モデル記憶におおよそ６４ｋ
バイトのみが必要であることが分かった。しかし、トレ
ーニングおよび認識動作の両方でその６４ｋ領域が頻繁
に書き込まれるので、フラッシュメモリ１２０のこの領
域は比較的少ない期間の利用であってもバーンアウト効
果の対象に頻繁にされてしまう。

【００６５】従って、大きなフラッシュメモリユニット
から選んだバッファ上への音声トレーニングおよび認識
の書き込みの影響を最小化するように方式を開発した。
この方式を図５に示す。

【００６６】図５において、フラッシュメモリ１２０の
２つのインスタンスを示した。第１インスタンスにおい
て（図５Ａ）、フラッシュメモリ１２０はオペレーティ
ングシステム領域５１０および音声認識領域５１２を保
持する。オペレーティングシステム領域５１０は電話応
答装置などの装置で用いる重要なシステムデータを保持
する。これにはフラッシュメモリ１２０のなかの他のデ
ータ構造全部の位置を特定する変数を含んでいる。電話
応答装置などの装置がまず初期化されると、音声認識動
作に必要なすべてのバッファモデルなどのデータを含む
音声認識領域５１２がオペレーティングシステム領域５
１０のすぐ隣にフラッシュメモリ１２０の一部に配置さ
れる。フラッシュメモリ１２０の残りの部分は出音声プ
ロンプトおよび入メッセージのような他のデータを記憶
するのに用いることができる。オペレーティングシステ
ム領域５１０における一貫して配置されるポインタ５１
４は音声認識領域の位置を特定する。

【００６７】システムがある程度動作した後、本発明に
より音声認識領域を再配置する。このことを行ったとの
時間は数時間から数ヶ月というように変異することがで
きる。これは、再配置動作が電話応答装置の通常動作を
妨害しないようにするためにまれに重要となる。音声認
識領域５１２への書き込み動作の数はその領域のバーン
アウトを発生させるような数ではならない。

【００６８】フラッシュメモリ１２０の第２インスタン
スにおいて（図５Ｂ）、第２音声認識領域５１６は第１
音声認識領域を置き換えるように割り当てられている。
新しいポインタ５１８が音声認識領域５１６の位置を識
別している。このことはず６で示したアルゴリズムに従
って行う。

【００６９】まず、所定数の書き込み動作を行った後な
いし所定の継続時間の後のアイドル時間にて現在の音声
認識ブロックないし領域を識別する（６１０）。次に、
音声認識領域の新しい位置を計算する（６１２）。前の
領域と新しい領域の間にページの重なりがないようにそ
の領域は選ばれる。このことは、新しい領域への書き込
みが古い領域のバーンアウトに影響しないことを確実に
する。

【００７０】古い領域のデータは新しいデータの領域で
置き換えられる（６１４）。ここで新しい位置は空ない
しフリーであることを必要とせず、音声認識動作で用い
ていない他のデータを含んでいてもよいことに留意すべ
きである。最後に、ＯＳ領域ないしブロックにおけるポ
インタを更新して（６１６）、新しい音声認識領域の位
置およびその新しい音声認識領域を前に占有していたデ
ータの新しい位置を反映するようにされる。

【００７１】この「さまよいバッファ」技術を用いるこ
とにより、音声認識能力の特徴を有するフラッシュメモ
リベースの電話応答装置または他の消費者向け装置が１
０以上の製品寿命を有することができることが確認され
た。この年数は比較的高価でない消費者向け装置に対し
て許容できる寿命であると考えられる。

【００７２】本発明に従う電話応答装置が行うほかの動
作はその性質のため伝統的なものであってもよい。例え
ば、文献、Product Note for the Lucent LJ30 NAND Fl
ashTAD telephone answering device subsystem,（Luce
nt Technologies Inc.発行）を参照するとよい。このＬ
Ｊ３０は、デジタル音声記憶のためにフラッシュメモリ
の特定の標準的な種類を用いることができるが、上述の
ような音声認識動作はその標準的な形態では行うことが
できない。

【００７３】本発明を特定の実施例に基づいて示した
が、本発明はデジタル音声認識装置のそれらの詳細には
制限されず、特に、発声コマンドを認識する多くのこと
なる応用に用いることができる。

【００７４】特定の製品を示して説明したが、上で述べ
たような本質的な性質を持つ他の電子部品やカスタムデ
バイスをも用いることができる。また特定の機能的な記
載をしたが、例えば、ＤＳＰ１１０、システムマイクロ
コントローラ１１２、コーデック１１４を１つのチップ
へと取り入れることができる。

【図面の簡単な説明】

【図１】本発明の音声認識システムおよび方法を用いる
電話応答装置のブロック図。

【図２】図１の電話応答装置にて用いるデジタルシグナ
ルプロセッサの内部構造を表すブロック図。

【図３】本発明に従う発声者依存性音声トレーニングに
おいて行うステップを示す流れ図。

【図４】本発明に従う音声認識において行うステップを
示す流れ図。

【図５】本発明に従って、フラッシュメモリバーンアウ
トの発生を減らすのに用いるさまよいバッファを示すブ
ロック図。

【図６】本発明によりどのように音声トレーニングおよ
び認識バッファの構成を変えトラッキングするかを示す
流れ図。

【符号の説明】

１１０ＤＳＰ（ディジタルシグナルプロセッサ）１１２システムマイクロコントローラ１１３ユーザＩ／Ｏ１１４コーデック（ＣＯＤＥＣ）１１６オーディオインタフェース１１８電話インタフェース１２０フラッシュメモリ２１０ＤＳＰプロセッサ２１２プログラムＲＯＭ２１４ＲＡＭ２１６サンプルバッファ２１８スコアバッファ３１０連続的サンプリング３１２信号処理３１４自己相関係数を計算３１６特徴ベクトルを計算３１８特徴ベクトルを正規化３２０特徴ベクトルを記憶３２２エンドポインタを計算３２４エンドオブワードか？３２６通過回数３２８ベクトルをモデルとして記憶３３０、３４４、３５８リセット３３２記憶したモデルと比較３３４十分に近いか？３３６１回目のモデルと平均化３３８平均をモデルとして記憶３４０、３５４終了３４２２回目のモデルに記憶３４６２つの記憶したモデルと比較３４８十分に近いか？３５０最も類似するものと平均３５２平均をモデルとして記憶３５６最も類似しないものを置換え４１０連続的サンプリング４１２信号処理４１４自己相関係数を計算４１６特徴ベクトルを計算４１８特徴ベクトルを正規化４２０特徴ベクトルを記憶４２２スコアを計算４２４すべての状態スコアを記憶４２６フラッシュメモリに最終状態スコアを記憶４２８エンドポインタを計算４３０カウントを更新４３２エンドオブワードか？４３４スコアを評価４３６成功したか？４３８認識したワードに対して実行４４０リセット５１０オペレーティングシステム領域５１２、５１６音声認識領域５１４、５１８ポインタ６１０現在のＶＲブロックを識別６１２新しい位置を計算６１４データを置き換える６１６ＯＳブロックにおけるポインタを更新

フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者スティーブンシー．グリンスキーアメリカ合衆国，08820 ニュージャージー，エディソン，クリケットサークル 3607

Claims

【特許請求の範囲】

【請求項１】（Ａ）内部ＲＡＭを有するデジタルシグ
ナルプロセッサと、（Ｂ）音声認識領域を有するフラッシュメモリユニット
とからなり、前記デジタルシグナルプロセッサは、前記音声認識領域
へとデータを書き込む前に前記内部ＲＡＭへと中間結果
をバッファリングすることを特徴とする音声認識システ
ム。
【請求項２】（Ｃ）前記フラッシュメモリユニット内
で前記音声認識領域を移動する手段からさらになること
を特徴とする請求項１記載のシステム。
【請求項３】前記移動するシステムは、経過時間に応
じて動作することを特徴とする請求項２記載のシステ
ム。
【請求項４】前記移動する手段は、蓄積したメモリ書
き込みの回数に応じて動作することを特徴とする請求項
２記載のシステム。
【請求項５】前記デジタルシグナルプロセッサは、ト
レーニング動作および認識動作を行うようにプログラミ
ングされていることを特徴とする請求項１記載のシステ
ム。
【請求項６】前記中間結果は、前記トレーニング動作
で得た特徴ベクトルおよびワードモデルからなることを
特徴とする請求項５記載のシステム。
【請求項７】前記中間結果は、認識動作から得た特徴
ベクトルおよびモデルスコアからなることを特徴とする
請求項５記載のシステム。
【請求項８】（Ａ）内部ＲＡＭを有するデジタルシグ
ナルプロセッサと、（Ｂ）音声認識領域を有するフラッシュメモリユニット
と、（Ｃ）前記フラッシュメモリユニット内で前記音声認識
領域を移動する手段とからなることを特徴とする音声認
識システム。
【請求項９】フラッシュメモリユニットを用いる音声
認識システムにおいてフラッシュバーンアウトの発生を
減らす方法であって、（Ａ）フラッシュメモリユニット内に音声認識領域を割
り当てるステップと、（Ｂ）音声認識システムによる音声認識領域へのメモリ
書き込みを指示するステップと、（Ｃ）音声認識システムが用いられていないアイドル期
間を待つステップと、（Ｄ）フラッシュメモリユニットの他の位置へと音声認
識領域を移動するステップとからなることを特徴とする
方法。
【請求項１０】フラッシュメモリユニットおよび内部
ＲＡＭを有するデジタルシグナルプロセッサを用いる音
声認識システムでトレーニングを行う方法であって、（Ａ）オーディオデータを内部ＲＡＭにおけるオーディ
オデータのフレームへとサンプリングするステップと、（Ｂ）オーディオデータのフレームを処理するステップ
と（Ｃ）フレームから特徴ベクトルを計算するステップ
と、（Ｄ）特徴ベクトルを正規化するステップと、（Ｅ）特徴ベクトルをフラッシュメモリユニットに記憶
するステップと、（Ｆ）エンドオブワードに到達するまで、前記サンプリ
ングするステップ、前記処理するステップ、前記計算す
るステップ、前記正規化するステップ、前記記憶するス
テップを繰り返すステップと、（Ｇ）特徴ベクトルを蓄積するステップと、（Ｈ）蓄積した特徴ベクトルをフラッシュメモリユニッ
トにおけるワードモデルへと記憶するステップとからな
ることを特徴とする方法。
【請求項１１】フラッシュメモリユニットおよび内部
ＲＡＭを有するデジタルシグナルプロセッサを有する音
声認識システムをトレーニングする方法であって、（Ａ）第１のトレーニング群を行うステップと、（Ｂ）第２のトレーニング群を行うステップと、（Ｃ）第１のトレーニング群の結果と第２のトレーニン
グ群の結果とを比較するステップと、（Ｄ）もし前記結果が十分に接近していれば、第１トレ
ーニング群の結果と第２のトレーニング群の結果の平均
をフラッシュメモリユニットにおけるワードモデルへと
書き込むステップとからなることを特徴とする方法。
【請求項１２】（Ｅ）第１のトレーニング群の結果と
第２のトレーニング群の結果の間の変異をフラッシュメ
モリユニットにおけるワードモデルへと書き込むステッ
プとからさらになることを特徴とする請求項１１記載の
方法。
【請求項１３】フラッシュメモリユニットおよび内部
ＲＡＭを有するデジタルシグナルプロセッサを有するシ
ステムにおいて音声認識を行う方法であって、（Ａ）オーディオデータを内部ＲＡＭにおけるオーディ
オデータのフレームへとサンプリングするステップと、（Ｂ）オーディオデータのフレームを処理するステップ
と、（Ｃ）フレームから特徴ベクトルを計算するステップ
と、（Ｄ）特徴ベクトルを正規化するステップと、（Ｅ）特徴ベクトルをフラッシュメモリユニットに記憶
するステップと、（Ｆ）特徴ベクトルを複数のワードモデルに対してスコ
アリングするステップと、（Ｇ）各ワードモデルの最終状態スコアをフラッシュメ
モリユニットのトレースバックバッファへと書き込むス
テップと、（Ｈ）エンドオブワードに到達するまで前記サンプリン
グするステップ、処理するステップ、前記計算するステ
ップ、前記正規化するステップ、前記記憶するステッ
プ、前記スコアリングするステップ、前記書き込むステ
ップを繰り返すステップと、（Ｉ）エンドオブワードに対応するトレースバックバッ
ファにおける最終状態スコアを評価するステップとから
なることを特徴とする方法。
【請求項１４】前記評価するステップ（Ｉ）の後に、（Ｊ）評価した最終状態スコアが成功した認識が行われ
たことを表すかを判断し、もしそうであれば、認識した
ワードにより特定される動作を行うステップからさらに
なることを特徴とする請求項１３記載の方法。
【請求項１５】音声認識能力を有する電話応答装置で
あって、（Ａ）電話インタフェースと、（Ｂ）Ａ／Ｄ変換をすることができるコーダおよびデコ
ーダユニットと、（Ｃ）内部ＲＡＭを有するデジタルシグナルプロセッサ
と、（Ｄ）音声認識領域を有するフラッシュメモリユニット
とからなり、前記デジタルシグナルプロセッサは、音声認識システム
へとデータを書き込む前に内部ＲＡＭに中間結果をバッ
ファリングすることを特徴とする電話応答装置。
【請求項１６】（Ｅ）音声認識領域をフラッシュメモ
リユニット内で移動する手段からなることを特徴とする
請求項１５記載の電話応答装置。
【請求項１７】前記移動する手段は、経過時間に応じ
て移動することを特徴とする請求項１６記載の電話応答
装置。
【請求項１８】前記移動する手段は、蓄積されたメモ
リ書き込みの回数に応じて移動することを特徴とする請
求項１６記載の電話応答装置。
【請求項１９】前記デジタルシグナルプロセッサは、
トレーニング動作および認識動作を行うようにプログラ
ミングされていることを特徴とする請求項１５記載の電
話応答装置。
【請求項２０】（Ｆ）オーディオインタフェースから
さらになることを特徴とする請求項１５記載の電話応答
装置。
【請求項２１】（Ｇ）当該電話応答装置の機能を制御
するようにプログラミングされたシステムマイクロコン
トローラからさらになることを特徴とする請求項２０記
載の電話応答装置。