JP4132737B2

JP4132737B2 - 音声処理装置及び方法

Info

Publication number: JP4132737B2
Application number: JP2001212688A
Authority: JP
Inventors: ジーシュルツロバート
Original assignee: ザイブナーコーポレーション
Priority date: 2000-10-02
Filing date: 2001-07-12
Publication date: 2008-08-13
Anticipated expiration: 2021-07-12
Also published as: ATE265730T1; TW541470B; ES2220630T3; DE60102993T2; EP1193690A1; JP2002132285A; DE60102993D1; PT1193690E; US7162426B1; EP1193690B1; KR20020026804A

Description

【０００１】
【発明の属する技術分野】
本発明は、基本的には、デジタル信号処理用ハードウェアを音声の直接入力インターフェースとして母板に統合することにより、連続音声処理を行うとともに、指令・制御音声処理を行う新しいコンピュータ母板のアーキテクチャに関する。
【０００２】
【従来の技術】
ソフトウェアを用いた音声認識エンジンがより強力なものとなるとともに、マイクロプロセッサの処理速度が１ＧＨｚにも達するのと並行し、音声認識や音声駆動技術も益々普及する方向にある。本来、音声認識技術は、口述筆記したりオペレーティングシステムを限定的に制御したりする手段として考え出されたものであるが、現在そして将来に渡り、あらゆる用途において広範囲に普及すると考えられる。発話は、最も自然で効果的なコミュニケーションの形態である。その音声は、制御指令に、更にウェブブラウザや検索エンジン等の様々なアプリケーションに取り込むことができる。また、コンピュータにおいて手動で行われる多くの操作を自動化するために音声を使用することもできる。一部の最新コンピュータは、主として音声で制御されるように設計されている。米国特許第５,３０５,２４４号及び第５,８４４,８２４号は、これに関連する二つの例であり、これら特許には、手を使わない形で（即ち、ハンズフリー方式で）ユーザがコンピュータを操作することができる音声駆動の身体装着型コンピュータが開示されている。米国特許第５,３０５,２４４号には、「コンピュータ装置は、プロセッサと通信してユーザからの音声指令を受信し、受信音声指令を電気信号に変換してこの変換電気信号を認識し、認識信号を処理するプロセッサに送るための音声認識モジュールを備えており、この音声認識モジュールが、ユーザによって支持される。」ことが記載されている。更に、米国特許第５,８４４,８２４号には、「キーボード入力装置即ちキーボード駆動装置を使用することなく、ハンズフリー方式で行える様々な駆動手段を備えた身体装着型のハンズフリー方式のコンピュータシステム」が開示されている。これら駆動手段の一つは音声である。このように、上記二つの特許に開示された発明には、主駆動源として音声を使用してオペレーティングシステム及び様々なアプリケーションを制御することができるコンピュータのハードウェアプラットフォームが示されている。
【０００３】
大半の人は、タイプする約五倍の速度で話し、書くよりほぼ十倍の速度で話すことができる。従って、音声認識や音声処理をパーソナルコンピュータ（以下、“ＰＣ”ともいう）に統合できれば、効率面で大きな利点がある。コンピュータ環境での最新の音声処理方法は、主としてソフトウェアを使用したものである。音声カードが音声入力装置として使用され、この音声カードは、標準的なアナログマイクロフォンで捕捉した音声／言語を受け取り、これをデジタルビットストリームに変換してマイクロプロセッサに送るアナログ・デジタル（Ａ／Ｄ）変換器を備えている。そして、メモリに記憶されたソフトウェアがＣＰＵと連携する形で使用されることにより、指令か単なる文字かに係らず、音声を表す信号を処理して適切な指令即ち機能を実行する。この種の相互作用を行うための主要ソフトウェアアプリケーションとしては、ＩＢＭ社ＶｉａＶｏｉｃｅ（登録商標）やＤｒａｇｏｎＳｙｓｔｅｍｓ社のＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ（登録商標）がある。これらはいずれも全ての音声処理にコンピュータのＣＰＵを利用する音声認識ソフトウェアエンジンを使用した音声認識プログラムである。このタスクは、ＣＰＵに非常に集中的な演算を強いるものであり、システム資源を強く拘束しそれに制約を加える。これは、ＡＣ電力が十分供給されるようなデスクトップ型又はラップトップ型のコンピュータ環境においては、単にシステム性能を低下させるに過ぎない。しかし、通常はバッテリにより電力供給される移動用の身体装着型コンピュータ環境においては、上記タスクによって、過度の電力が消費されるという問題も生じる。ＣＰＵにより実行されるクロックサイクルと電力消費との間には直接的な相関関係がある。それに加え、余裕空間が限られているため能動的冷却方式を採用することはまず不可能である移動用の身体装着型コンピュータ環境では、過剰な熱発生により、メモリ、母板、その他のシリコンを使用した電子部品が劣化するとともに、熱蓄積によりＣＰＵの処理速度も低下してしまう可能性がある。このように、効率的且つ効果的に音声処理を行うとともに、バッテリ寿命を延ばし、更に、ＣＰＵによる熱蓄積を低減するアーキテクチャにより、現状の技術は大幅に進展すると考えられる。
【０００４】
近年、生の音声を処理するために、デジタル信号処理（以下、ＤＳＰという）チップが使用され始めた。この一例として、顧客サービス電話システムがある。このシステムによれば、呼び出し側において、電話に一体化されたキーパッドでキー入力でき、更に、話すことによっても入力を行うことができる。ＤＳＰは、通常の電話回線システムに統合されている。このシステムが発声言語を表す信号を受信すると、ＤＳＰは、既知の言語を表わす既知の信号との照合を行い、このデータの入力を行う。しかし、このシステムは、通常、数字の認識に限られており、消費者志向の製品としては市販されていない。
【０００５】
ＤＳＰは、本質的に汎用マイクロプロセッサであり、様々な具体的用途に使用できる。ＤＳＰは、通常はマイクロプロセッサからは連想できない処理速度、電力消費レベル、効率で、数学的機能を実行するための特殊な論理ハードウェアを備えている。これらチップは、様々な信号処理機能を実行するようにプログラムすることができる。ＤＳＰを持つ様々なＰＣ用拡張カードが市販されており、また、信号処理機能を実行するためにそれらチップをプログラムするソフトウェアアプリケーションも一般的に存在する。それらは、通常、そのハードウェア及びアーキテクチャ故に、特定の集中的な計算機能を実行するのに好適である。
【０００６】
ＤＳＰは、通常、演算の中でも、相関、重畳、有限インパルス応答（ＦＩＲ）フィルタ、無限インパルス応答（ＩＩＲ）フィルタ、高速フーリエ変換（ＦＦＴ）、マトリックス計算、及び内積等の数学的アルゴリズムに対して、特に最適なものになるよう設計される。これら数学的アルゴリズムの実行には、通常、体系的な算術／乗法演算の長いシーケンスが必要となる。ＦＦＴ及び各フィルタは、音声処理と特に関連性を持つものである。
【０００７】
通常、ＣＰＵは、実行ユニット、キャッシュメモリ、メモリ管理ユニット、浮動小数点ユニット、及びその他の論理ユニットを備える。汎用ＣＰＵのタスクとは、コードを実行し、コンピュータメモリ内のデータについての演算を行い、それによって計算プラットホームを管理することである。概して、基本的Ｘ８６及びその他の形式のコンピュータ用ＣＰＵは、主としてブール／管理／データ処理の演算を実行する。汎用ＣＰＵで実行される命令には、基本的な数学的機能が含まれる。しかし、これらの機能は、複雑なＤＳＰ形式の数学的演算に適合したものとは言えない。従って、汎用ＣＰＵは、ＤＳＰに関連する、つまり、基本的なＤＳＰ機能を実行する膨大な数の命令を実行する必要がある。
【０００８】
従来技術では、ハードウェア及びソフトウェアの双方において、ＤＳＰをＰＣのアーキテクチャに組み込み、そうすることに関連する効果を利用しようとしていた。米国特許第５,７９４,０６８号（以下、‘０６８特許という）には、一つの例が示されている。‘０６８特許では、Ｘ８６コアのような汎用ＣＰＵユニットを設けるとともに、ＤＳＰコアを付加した汎用ＣＰＵが開示されている。このＣＰＵは、命令シーケンスを調べてＤＳＰ機能が実行中であるか否かを判定するＤＳＰ機能デコーダ即ちプリプロセッサを備える。デコーダが、ＤＳＰ機能が実行中であると判定すると、機能デコーダは命令シーケンスをＤＳＰマクロに変換し、このマクロをＤＳＰコアに送る。ＤＳＰコアは、汎用ＣＰＵコアによって実行される他の演算と並行し、ＤＳＰ機能を実行することができる。この設計は、ＤＳＰ操作の実行を必要とする既存のソフトウェアパッケージとの間に、更に、そうする必要のないものとの間にも、逆の互換性を持つことを保証している。しかしながら、プリプロセッサであるために、余分な処置が実行サイクル中に割り込むことになる。‘０６８特許の欠点は、指令を処理する前に、ＤＳＰ命令を確認するために命令を解読しなければならない点にある。‘０６８特許によるシステムの他の欠点は、このアーキテクチャが音声処理用に最適化されていない点にあり、‘０６８特許には、ＤＳＰチップ自体に指令・制御音声認識エンジンを設けることは示されていない。また、このＤＳＰは、コンピュータの音声入力により生成される全ての音声入力信号に対する主インターフェースとしては機能しない。
【０００９】
他の例として、米国特許第５,９１５,２３６号（以下、‘２３６特許という）には、音声処理のためにＤＳＰを利用する場合のソフトウェア的手法が示されている。‘２３６特許には、言語認識システムが開示されており、このシステムは、処理速度、プロセッサの数、ＤＳＰの存在等の利用可能な計算用資源を検出し、この検出に応答してシステム自身が実行する命令を変更することにより、これら命令の割当てを最適化するようになっている。このシステムは、本来、音声認識プログラムであるが、実際の言語認識プログラムは、利用可能な計算用資源の機能に応じて信号処理の計算能力を変えることができる。プログラムが、ＣＰＵとＤＳＰプロセッサとの双方を検出した場合、いつプログラムがＣＰＵに割り込むべきかをＤＳＰに判定させることができる。また、プログラムは、利用可能な資源階層の機能に応じて、認識プロセスの間、比較的スコーリングの低い言語を度外視するようにフィルタをかける度合いを変更することもできる。このシステムの欠点若しくは課題は、ソフトウェアを利用した解決策であるということ、つまり、本質的にこのソフトウェアを実行しているコンピュータのアーキテクチャにより制約を受ける点にある。言い換えると、ＤＳＰがない場合には、システムは、確実さ正確さの面で低い性能に甘んじることになる。更に、ソフトウェア及びＣＰＵは、ＤＳＰ命令コードを確認する必要があり、余分なステップがプロセスに持ち込まれることになる。
【００１０】
このように、パーソナルコンピュータ、特に、移動用、手持型、身体装着型コンピュータのための、上述の欠点を克服した音声処理アーキテクチャに対するニーズは現在も存在する。
【００１１】
【発明が解決しようとする課題】
従って、本発明の目的は、上記の欠点のない新しい母板のアーキテクチャを提供することにある。
【００１２】
本発明の他の目的は、統合されたデジタル信号処理（ＤＳＰ）能力を持つ新しい母板アーキテクチャを提供することにある。
【００１３】
本発明の他の目的は、音声処理のために最適化されたハードウェアのアーキテクチャを提供することにある。
【００１４】
本発明の他の目的は、音声処理時の電力消費とＣＰＵのクロックサイクルとを低減する母板アーキテクチャを提供することにある。
【００１５】
本発明の他の目的は、既存のソフトウェアを使用した音声処理方法を凌ぐ、優れた精度と能力を持つコンピュータのアーキテクチャを提供することにある。
【００１６】
本発明の他の目的は、音声処理に必要なＣＰＵのサイクル数を低減するようにしたＰＣ、特に、移動用の手持型及び身体装着型のＰＣ、及びその他の電子装置用の母板アーキテクチャを提供することにある。
【００１７】
本発明の他の目的は、音声処理時の電力消費と発熱とを低減するようにした移動用の手持型及び身体装着型のコンピュータ、及びその他の電子装置用の音声処理設計を提供することにある。
【００１８】
本発明の他の目的は、音声処理を行いながら雑音を消去したり低減したりできるアーキテクチャを提供することにある。
【００１９】
本発明の他の目的は、指令・制御音声の用語をカスタマイズすることができるＤＳＰ埋め込み音声認識エンジンを提供することにある。
【００２０】
【課題を解決するための手段】
本発明の上記目的及びその他の目的は、全体としては、音声入力部とマイクロプロセッサとの間の音声指令を認識し処理するためのインターフェースとして、ＤＳＰハードウェアを母板に組み込むコンピュータ母板設計によって達成される。
【００２１】
【発明の実施の形態】
本明細書及び特許請求の範囲において、「コンピュータ母板」という用語には、パーソナルコンピュータ、身体装着型コンピュータ、携帯型コンピュータ、ラップトップ型コンピュータ、演算機能と通信機能とが組合わされた装置、又はパームトップ型コンピュータと共に使用される母板であれば、どのような母板も含まれる。
【００２２】
本発明は、本質的に、音声カード又は同様な音声入力装置とマイクロプロセッサとの間のインターフェースとして、ＤＳＰハードウェアを母板に組み込んだ新しいコンピュータ母板のアーキテクチャである。これにより、既存の音声処理アーキテクチャに付随する幾つかの問題が解決される。ＤＳＰを音声データ入力ストリームに組み込むことで、現行の音声処理アーキテクチャに重要な能力を追加し、更に、音声処理中のマイクロプロセッサの使用を最小限にする。ＣＰＵ及びソフトウェア利用のエンジンを使用して音声を処理するＶｉａＶｏｉｃｅ（登録商標）やＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ（登録商標）のような現行の方法の問題は、マイクロプロセッサが音声処理に必要な膨大な数の高速フーリエ変換（以下、“ＦＦＴ”という）を実行するのに適していないという点にある。これは、電力を枯渇させるプロセッサの集中的使用の原因となり、過度の熱蓄積を発生させ、プロセッサが通常の処理速度で他のタスクを実行できないようにしてしまう。マイクロプロセッサは、ワットレベルにも達する電力を消費する。ＤＳＰをＡ／Ｄ変換器とマイクロプロセッサとの間をブリッジするように設けることで、連続的な指令音声の前処理をＤＳＰにより行うことができ、これにより大幅な電力節減をするとともに、精度を高めるための付加的な確認・照合を行うことができるようになる。米国テキサス州ダラスにあるテキサスインスツルメンツ社製のＤＳＰであるＴＭＳ５０００シリーズのようなＤＳＰチップは、ミリワット程度の電力しか消費せず、ＣＰＵに比べて数桁レベルの低減となる。更に、これらのチップは、効果的で効率的な音声処理に必要とされるいわば計算作業を実行するように最適化されている。従って、正確さ、処理速度、及び能力の向上は、このアーキテクチャの成果として実現される。また、ＣＰＵは、コンピュータ上で同時に実行されているソフトウェアアプリケーションに関連する他のタスクを自由に実行でき、このタスクの一部は、認識精度やユーザとの対話経験率を向上するために使用することができる。これは、デスクトップ型コンピュータ及び家庭用コンピュータのみならず身体装着型／携帯型コンピュータの両者にとって大きな利点となる。特に、身体装着型や携帯型コンピュータ環境においては、確固たる音声処理能力によって装置全体の有用性が増大する。本明細書において、身体装着型コンピュータとは、米国ヴァージニア州フェアファックスのＸｙｂｅｒｎａｕｔ社に譲渡された米国特許第５,８４４,８２４号に開示され、ＭｏｂｉｌｅＡｓｓｉｓｔａｎｔ（登録商標）という商品名で商品化されているようなコンピュータである。米国特許第５,８４４,８２４号には、ユーザ支持型コンピュータとの通信手段の使用が開示されている。また、ＨＭＤ、首部吊下げ型表示装置、及びフラットパネル型表示装置等の表示装置を本システムと組合せて使用することができる。これらについては、上記特許の開示事項を参考として参照されたい。しかしながら、当業者であれば、身体装着型コンピュータが、他の企業により製造されるコンピュータ又は母板を使用したコンピュータ、及び現在のところ製造されていない電子製品をも指す用語であることは認識される所であろう。この技術を組み込むことにより、ユーザは、手動又はポインティング装置での駆動ではなく又はそれに加えて、音声駆動を使用した上記装置を確実に且つ正確に利用することが可能となる。また、ＣＰＵに比べてＤＳＰの電力消費が低減されるため、本装置のバッテリ寿命が大幅に延びる。また、デスクトップ型コンピュータ環境では、より効率的な音声処理とＣＰＵクロックサイクルに自由度を与える利点も実現される。
【００２３】
コンピュータにおける音声処理は、二つの基本的な種類に分類することができる。即ち、一つは、指令・制御音声の処理であり、二つ目は、連続音声の処理である。指令・制御の音声とは、オペレーティングシステムを制御するため、又は特定のアプリケーションを介して誘導するために使用される言語である。これらの各単語や語句は、特定の指令にカスタマイズしたりリンクさせたりすることができる。「オープンウィンドウ」や「スクロールダウン」等の語句を、指令・制御の音声の例として挙げることができる。それらは、通常、限定即ち区分化した用語群即ち用語集の中から選択される言語であり、各々の言語はコンピュータ用の特定の指令と結び付けられている。現在、指令・制御音声は、ソフトウェア利用の音声認識エンジン及びＣＰＵによって処理されている。しかし、ＤＳＰは、これら指令・制御言語即ち語句のための音声認識エンジンとしての機能を果すことができる。音声認識エンジン自体は、ＤＳＰチップに埋め込まれたメモリ内にあるので、変換された指令だけが実行用ＣＰＵに送られる。これにより、ＣＰＵを全く利用することなく、ＤＳＰによって音声の完全な解釈と処理を行うことができる。法律用語に関する指令言語用テンプレートをＤＳＰメモリに置くことができ、その代わりに、アプリケーションに応じて様々な異なる制御指令ライブラリを使用できるようにするコンテキストやアプリケーションに基づいて、上記指令言語用テンプレートを、ホストＣＰＵ即ちホストプロセッサからＤＳＰメモリにロードすることもできる。この形態では、ＤＳＰメモリには限定された指令言語群しか存在せず、どの時点でも又はコンテキストの変更時に、コンテキストに対応する言語テンプレートがＤＳＰメモリに能動的にロードされるので、ＤＳＰは大規模なメモリを持つ必要がなくなる。指令・制御音声認識エンジンのメモリ要件は、大幅に緩和されるので効率的な演算が可能になる。６４キロバイトのメモリであれば、指令・制御ライブラリには十分で、これは現行のＤＳＰのメモリ容量内にある。ＤＳＰチップは、そのメモリ容量に関して言えば、より健全なものとなるので、ＤＳＰメモリ内により多くの又は全ての指令・制御言語用テンプレートを記憶することが現実的且つ有効となる。このエンジン自体はカスタマイズすることができるので、ユーザは動作を起こさせる口頭の指令を設定することができる。これにより、音響的には同類のものであるが異なる指令となる言語に関する問題を軽減することができる。例えば、音声学的には同類のものであるが異なる結果をもたらす二つの指令がある場合、同じ結果をもたらすように他の音声指令に置換するか、又は、指令の適切なコンテキスト及び環境群によって適切に応答させるようにすることができる。
【００２４】
連続音声処理に関しては、音声処理においてＣＰＵを補助するためにＤＳＰを使用することによっても大きな利点がもたれされる。発話言語を表わすサンプリングされたデジタルビットストリームを、符号化／復合化装置（ＣＯＤＥＣ）のＡ／Ｄ変換器からＣＰＵが受信すると、ＣＰＵは、これらデジタルビットを文字群又は部分的な言語を表わす音素又は音に変換した後、この音の組み合わせを表わす最も確立の高い単語／文を見付けなければならない。このビットストリームを音素に変換するプロセスでは非常に集中的計算が行われるが、汎用ＣＰＵの論理演算はこの種のプロセスに対し最適化されていない。そこで、ＤＳＰチップは、ソフトウェア利用の連続音声認識エンジンの前置プロセッサとしての機能を果すこともできる。連続音声認識エンジン用の言語辞書は非常に大きな容量を必要とするのに対してＤＳＰのメモリ容量は限られているため、ＣＰＵ及びソフトウェア利用の音声認識エンジンをバックエンド処理のために使用する方が効率的である。ＤＳＰは、音声のビットストリーム入力を受け、それを音素に変換して、ソフトウェア利用の音声認識エンジンと照合するためにＣＰＵに送る。音素は、分割できない音の基本単位であり、文字の単一音節の組み合わせのような言語を構成する。通常はＣＰＵで行われる上記事前処理により、ＣＰＵのみによる従来の音声処理方法に比べ、ＣＰＵよって所定数の言語を処理するのに必要とされる実行サイクルの総数は大幅に減少される。膨大なＦＦＴ計算を必要とするのは、ビットストリームから音素への変換である。そこで、電力効率の良いＤＳＰチップが、現在ＣＰＵが行っている作業の大半を行うことによってＣＰＵの使用を軽減し、音素を実際の単語や文に変換するのに必要なソフトウェア命令を処理する自由度即ち余裕をＣＰＵに与える。これにより、次に、音声認識エンジンにより向上した精度、より高速のシステム性能、熱発生の減少、より効率的な電力使用という形で現れる利点が生み出される。この新しいアーキテクチャの利点を最大に活かすためには、ＤＳＰに前置処理即ち事前処理させるような連続音声処理用の新しいソフトウェア利用の音声認識エンジンの開発が必要となる。その代わりに、ＶｉａＶｏｉｃｅ（登録商標）やＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ（登録商標）等の市販されている連続音声認識エンジンのソースコードを、現在ＣＰＵが行っている音声の前置処理をＤＳＰに行わせるように修正することも可能である。
【００２５】
本発明の他の利点は、周囲の雑音をフィルタにかけて低減する能力にある。ＤＳＰチップは、フィルタリング及び雑音消去アルゴリズムを実行するのに適しており、連続音声であるか指令・制御音声であるかに係らず、音声を表わすデジタルビットストリームを受け取って、雑音を取り除いて明瞭な音素に変換する。指令・制御音声処理モードの場合には、ＤＳＰチップは、指令を取り出してそれをＣＰＵに送る。連続音声処理モードの場合には、ＤＳＰチップは、ソフトウェア利用の音声認識エンジンで処理するために、上記音素をＣＰＵに送る。音声から雑音を消去するこの能力により、本アーキテクチャに基づくコンピュータのユーザは、高い周囲雑音環境の中においても高い精度で作業することができるようになる。例えば、タービン発電施設で整備作業を行う人でも、工具、ロボット、リベット打ち等の高雑音の航空機の組み立てラインで作業を行う人でも、ほとんど又は全く性能低下しない状態で、音声駆動を使って正確に彼らのコンピュータを制御することができる。この点は、上記したような環境で利用され場合が多い音声駆動の身体装着型コンピュータや手持型コンピュータにとって特に有利であり、ユーザは、彼らの手を自由にした状態でコンピュータ上の情報を見たりスクロールしたりすることができる。通常、この種の用途では、対話式電子技術マニュアルを見ることがあるため、技術者は、整備や組み立て作業をしながら、コンピュータ利用のエキスパートシステムによって、部品リストや概略図をスクロールしたり検索したりすることができる必要がある。この種の操作は、しばしば、大きな即ち簡単には動かせない設備部品や製品について行われることが多い。このように、技術者が、工場、発電所、組み立てライン等に共通した高い周囲雑音環境において、コンピュータを操作しマニュアルを通じての作業を継続できるとすれば、技術者の身体装着型コンピュータの実用性を高めることができる。
【００２６】
本発明は、従来のＰＣ、身体装着型ＰＣの双方にとっての他の大きな利点を持つ。つまり、ＤＳＰは、文字を音声に変換するプロセスを容易に及び／又は補助することができる点である。このプロセスは、文字言語自体を音響スピーカに出力するために複合音素に分解する必要があるため、音声認識の逆のプロセスとなる。また、母板搭載のＤＳＰを利用しているコンピュータが、身体装着型又は手持型の装置で、それが、無線モデム又はその他の通信装置のような無線通信能力を備えている場合、ＤＳＰは、音声駆動ダイヤル呼び出し、音声制御、雑音低減、音声から信号への変換等の機能を助長するため、音声及び指令のデジタル化のような移動電話機能を処理することができる。
【００２７】
好ましい実施形態では、ＤＳＰが作動するモード、即ち指令・制御音声処理モード又は連続音声処理モード、を指定するための、ソフトウェアを利用した制御が存在する。これは、いくらかある方法の一つにより行うことができる。一つは、ユーザは、システム起動時又はシステムに電力が供給されている時のいずれかに、ソフトウェア利用の制御を起動することにより上記ＤＳＰのモードを設定する。このモードは、変更されるまでデフォルトとして維持される。その代わりに、指令・制御音声処理モード状態でシステムの電源をオンし、ユーザが、ログインしてオペレーティングシステムを制御し、特定のアプリケーションを選択することができるようにしてもよい。しかし、アプリケーションが呼び出された時、それがワードプロセッサのように連続音声処理を要求するアプリケーションの場合には、モードは自動的に連続音声処理モードに変更される。アプリケーションが実行されている最中に、ユーザがモードを変更できるモード割り込み指令を設定して使用することもできる。例えば、ユーザが自身のアプリケーションに文字を口述記録させた後に、アプリケーションのプルダウンメニューの使用を必要とするファイル保存又は他のタスクを実行しようとする場合には、ユーザの発声する言語は、単なる口述音声ではなく、指令として解釈される。更に、アプリケーションの中には、アプリケーション呼び出し時に、ＤＳＰのメモリにロードできる指令・制御言語の特定用語をサポートできるものもある。例えば、ウェブブラウザが呼び出された場合、標準的なブラウザ機能を誘導したり実行したりするのに必要な全ての指令がＤＳＰのメモリにロードされる。本発明の全体としての実用性は、オペレーティングシステムを制御するための基本的指令に加え、様々なアプリケーション特有の指令を行い易くすることによって最適化される。
【００２８】
他の好ましい実施形態では、本発明を、自然言語から他の言語にオンザフライ方式で翻訳し易くするために使用することができる。例えば、音声認識翻訳プログラムを実行している人は、ある言語でコンピュータに発声し、音声をそのプログラムにより、文字入力又は表示出力や音声出力のいずれかのための他の言語に翻訳させることができる。ＤＳＰは、ＣＰＵ及びソフトウェア用の前置プロセッサとしての機能を果し、外国語に関する事前処理を実行することができる。更に、特定の方言を正常な状態に戻すために最適化された特別のフィルタをＤＳＰにロードして、音声入力をより正確に翻訳することも可能である。この場合も、ＤＳＰのハードウェア設計は、ＣＰＵよりもこのタスクを更に効率的に実行することができるようにする。
【００２９】
他の好ましい実施形態では、本発明は、携帯型コンピュータや通信装置のような他の演算装置に音声を統合するために使用することができる。例えば、パーソナルデジタルアシスタント（携帯用情報端末、ＰＤＡ）、パーソナル通信装置（即ち、インターネット形式の情報を受信、表示可能な移動電話）、及びパームトップ型又は手持型のコンピュータでも、本発明の利点を使用することができる。本発明の開示事項を組み込むことにより、これらの装置は、確実で大幅に電力効率を高めた形態で音声制御を行うことができる。携帯型の演算・通信装置は、通常、全電力をバッテリから取り出しているため、アプリケーション実行時に電力を効率的に使用することは、最も重要性なことである。更に、これら形式の装置におけるプロセッサは、通常、身体装着型コンピュータやデスクトップ型コンピュータのプロセッサの能力はないので、それらは、最先端のＣＰＵと比較し、ＤＳＰ機能を実行することは難しい状況にある。上記した全体的な実用性を向上するとともにユーザに対する便利性をさせることも実現可能である。例えば、電話において、ユーザは、電話に対し数字を発声するか、或いは人の名前を発声し、その音声をメモリに記憶された数字とＤＳＰによって照合することによって信号を得るようにして音声駆動呼び出しを容易に行うためにＤＳＰを使用することができる。ＰＤＡやパームトップ型コンピュータでは、ＤＳＰは、電子メールプログラム又はウェブブラウザの制御を円滑にするために使用でき、又は、オペレーティングシステム自体を制御するために使用できる。ユーザは、タッチ画面、マウス又はその他の手動駆動手段を利用することなく、単に指令を発声するだけで電子メールのチェックをしたりブラウザを開いたりすることができる。
【００３０】
他の好ましい実施形態では、本発明の開示事項を、手持型、身体装着型、或いは携帯型又は非携帯型のゲーム用コンピュータにおける音声制御を円滑にするために使用することができる。母板上のＤＳＰは、ユーザが決定を行うためにボタンを押すことを必要とせず、ゲーム機の音声制御を円滑にするために使用できる。その代わりに、手動制御と連携する形でＤＳＰを使用し、特定の決定を音声で行うことができるようにして、手動制御の複雑さを軽減することもできる。例えば、（動き、位置及び／又は行動がゲームをしている人に制御されるような）キャラクターが、動きながら、且つ、発砲又は投球といった手の行為を行うようなゲームを実行する場合、手動制御を動きのために使用するとともに、発砲、投球、又は武器の選択や弾の装填ような行為を行わせるのに音声を使用することができる。これにより、ゲームには更に現実的な次元が付加され、基本的な指令により集中してユーザの手を使うことができる。これを、１０以上の異なる同時指令を行うことができるゲームコントローラを備えたソニー及び任天堂で製造されているような最新ビデオゲームシステムに使用することは益々重要となる。これらの指令の一部を音声駆動とすることのより、必要とされる手の器用さのレベルは軽減される。
【００３１】
本発明の例示的な実施形態をして図面を引用する。図１は、代表的なコンピュータの母板１を示す。母板は、パーソナルコンピュータの母板、移動用コンピュータの母板、演算・通信用装置の母板、又はその他の電子的演算装置の母板とすることができる。この母板は、通常、ＣＰＵ、メモリ、データバス、電力インターフェース、入出力（Ｉ／Ｏ）インターフェース、ビデオ出力部、音声出力部、及びオプション用入力部のような基本的システムコンポーネントを備える。図２は、音声入力を受信することができるパーソナルコンピュータの代表的なシステムレベルの実施例を示す。このコンピュータシステムは、表示装置１０、ＣＰＵボックス９、キーボード１１、マウス１２、及びマイクロフォン８を備える。マイクロフォン８は、全てのアプリケーションについて、コンピュータへの直接的音声入力源としての機能を果す。
【００３２】
図３は、本発明における音声入力の機能的流れ図を示す。音声は、マイクロフォン入力１３からシステムに入力され、この音声は、電気信号に変換される。次に、データ経路は、この信号をＣＯＤＥＣ１４又はこの信号をアナログ・デジタル（Ａ／Ｄ）変換するチップに導く。次に、このデジタル信号は、ＤＳＰ１５に処理のため移動する。この時点で、システムは、ＤＳＰが指令・制御（Ｃ＆Ｃ）音声処理モードで動作しているか、又は連続音声処理モードで動作しているかについての判定状態１６に入る。ＤＳＰがＣ＆Ｃ音声処理モードにある場合、実際の指令がステップ１７で取り出された後、処理のためにＣＰＵ１９に送られる。しかし、ＤＳＰ１５が連続音声処理モードで動作している場合には、ＤＳＰはデジタル信号をステップ１８で音素に変換した後、ソフトウェア利用の音声認識エンジンと協力してこれら音素を処理するためにＣＰＵ１９に送る。
【００３３】
図４は、音声を表す信号を受信した時にＤＳＰに起こるプロセスの流れ図を示す。音声信号２０は、連続音声処理モード又はＣ&Ｃ音声処理モードのいずれかに設定されているＤＳＰ１５に入力される。連続音声処理モードにある場合、信号はフィルタにかけられ、雑音は全てステップ２４で取り除かれる。このプロセスは、音声についての特定の物理的環境やコンテキストに応じて変更することができる。次にステップ２５で、信号は音素に変換され、ステップ２６で、ＣＰＵ及びソフトウェア利用の音声認識エンジンによる認識のためにＣＰＵに送られる。ＤＳＰがＣ&Ｃ音声処理モードに設定されている場合、ステップ２１で、信号は同じくフィルタにかけられ雑音が消去される。これも同様に、周囲の雑音環境や制御ライブラリの形式に応じて最適化することができる。次にステップ２２で、この指令を表す明瞭な信号は、ＤＳＰによりアクセス可能なメモリに記憶された信号とＤＳＰによって照合される。指令が取り出されると、ステップ２３で、その指令はＣＰＵへ送られる。
【００３４】
図５は、移動用コンピュータシステムにおける母板搭載ＤＳＰの例示的実施例を示す。素子１０３は、ＴＭＳ５０００シリーズのＤＳＰチップである。素子１０３は、音声入力部１０１、ＣＯＤＥＣ１０２、ＣＰＵ１０８、及び統合Ｉｎｔｅｌ８２４４３ＭＸ１００Ｎ＆Ｓブリッジ１０５との間のブリッジとしてシステム母板に統合されている。ＤＳＰ１０３とパラレルＰＣＩバス１０６との間の通信は、ＤＳＰ１０３の出力信号をバス１０６に接続することを可能とするＴＩＰＣＩ２０４０ＰＣＴ・ＤＳＰブリッジチップ１０４によって円滑にされる。本例におけるＣＰＵ１０８は、Ｉｎｔｅｌ社製の６００ＭＨｚの移動用Ｐｅｎｔｉｕｍ（登録商標）チップである。しかしながら、当業者であれば、適切なものであればコンピュータＣＰＵであれば、本発明の思想又は範囲を逸脱することなく如何なるＣＰＵに置換可能であることは理解される所であろう。本例においては、ユーザインターフェースＰＣＢ１００が示されている。これには、ユーザインターフェースポート１０１、ＵＳＢポート１１０、１３９４ポート１１１、及び表示装置・ポート１０９のような代表的ないくつかの入出力のインターフェースが含まれている。
【００３５】
指令・制御音声処理又は連続音声処理のための代表的なデータストリーム経路は、以下のようになる。音声が、アナログ音声入力部１０１を介して標準的アナログマイクロフォンから入力さる、つまり、音声は、ユーザインターフェースポート１０１から入力される。アナログ音声信号は、ＣＯＤＥＣ１０２に移され、アナログ・デジタル（Ａ／Ｄ）変換器がこれをデジタルビットストリームに変える。次に、このビットストリームは、ＤＳＰチップ１０３に移される。ＤＳＰ１０３は「浄化」するために必要な機能を実行するとともに、音声を音素に加工処理する。コンピュータが指令・制御音声処理モードにある場合、ＤＳＰ１０３は、内部の音声認識エンジンを使用して音声音素を実際の指令と関連付ける。連続音声処理モードにある場合は、単に音声を音素に変換するだけである。次のステップでは、ＣＰＵ１０８によって実行される指令即ち一連の音素の出力を、データパスを介してＣＰＵ１０８に渡し、出力がＣＰＵ１０８によって処理されるようにする。これは、出力をＰＣＩバス１０６と互換性のあるビット状フォーマットに変換するＤＳＰ・ＰＣＩブリッジチップ１０４を介してこの出力の経路付けることにより行われる。次に、この出力は、ＣＰＵ１０８と直接通信するためのＩｎｔｅｌ８２４４３ＭＸ１００１０５を介して経路付けられる。この出力が指令・制御信号であれば、指令はＣＰＵ１０８によって実行される。ＣＰＵ１０８は、この時点まで音声処理に関してはアイドル状態にある。それが連続音声処理の場合と同様に、この出力が音素ストリームである場合は、ＣＰＵ１０８は、音声認識のソフトウェア利用の音声認識エンジンを呼び出して音素を処理し、その音声に関連するアプリケーションが何の目的のものでもそれらを文字に変換する。当業者であれば、この物理的な実施形態は例示目的のためにだけ示されたものであり、本発明自体は、音声入力データパスにあるＤＳＰを、連続音声認識エンジン及び指令・制御音声認識エンジン、及び／又は連続音声処理のための前置プロセッサとして使用し、メニュー選択又は移動電話の指令・制御を処理・円滑化し且つ文字を音声に変換するのを円滑化するという本発明の基本的概念が存在する限り、形態に係わりなく全てのコンピュータ母板に適用でき、更に、本発明の思想又は範囲を逸脱することなく、種々の置換及び変更が可能であることは理解される所であろう。
【００３６】
本明細書に述べられた本発明の好ましい実施形態及び最適に好ましい実施形態は、本発明の根本的な原理を例示するものであり、本発明の思想及び範囲を逸脱することなく、多くの修正や変更が可能であることは理解される所であろう。
【図面の簡単な説明】
【図１】代表的システムコンポーネントを備える代表的なコンピュータ即ち演算装置の母板を示す図である。
【図２】音声入力源としてのマイクロフォンを備える代表的パーソナルコンピュータを示す図である。
【図３】演算装置への音声入力に関する本発明のプロセスを流れ図で示す図である。
【図４】連続音声処理モード及び指令・制御音声処理モードの双方の流れ図及び決定ツリーを示す図である。
【図５】母板の回路設計とデータ経路とに統合されたＤＳＰを備える身体装着型コンピュータの一例の母板を示す図である。
【符号の説明】
１母板
２ＣＰＵ
３メモリ
４入出力インターフェース
５電力インターフェース
６: ビデオ出力部
７: メモリ

Claims

ＣＰＵ、データバス、電力インターフェース、及び音声入力データ経路を含むコンピュータ母板を備え、前記音声入力データ経路は、前記コンピュータ母板の音声入力部を前記ＣＰＵに接続しており、更に
前記音声入力データ経路内にあるＤＳＰチップと、
前記ＤＳＰチップと前記コンピュータ母板上のデータバスとの間を接続するブリッジと、
前記ＤＳＰチップに電気的に接続されたメモリと、
前記ＤＳＰチップの前記メモリ内にある指令・制御音声認識エンジンとを備え、
前記ＤＳＰは、指令・制御音声処理モード又は連続音声処理モードのいずれかで動作できると共に、全ての音声入力に対し、前記ＣＰＵによる命令の実行に先立って音声入力を処理するプリプロセッサとしての機能を果し、前記音声認識エンジンは、特定の命令又はコンテキストの環境に関連付けられた、前記メモリにロード可能な音声言語の用語群を含み、さらに、前記ＤＳＰが、連続音声処理モード又は指令・制御音声処理モードのいずれかに、ユーザによって動的に設定されるようにしており、
前記ＤＳＰが連続音声処理モードで動作しているとき、前記ＤＳＰは、前記音声入力を音素に変換するようにし、
前記ＤＳＰが指令・制御音声処理モードで動作しているとき、前記ＤＳＰは、前記ＣＰＵを利用することなく、音声の完全な解釈と処理を提供するようにした
音声処理装置。
前記音声入力データ経路が、マイクロフォン入力部と、音声入力をデジタル化する手段とを備えている請求項１に記載の音声処理装置。
前記音声言語の用語群は、前記ＤＳＰチップに電気的に接続された前記メモリ内にある請求項１に記載の音声処理装置。
前記音声言語の用語群が、ユーザによって設定可能である請求項１に記載の音声処理装置。
前記音声言語の用語群が、ホストプロセッサで実行されているアプリケーションのコンテキストに基づいて、前記ＣＰＵによって更新される請求項１に記載の音声処理装置。
前記ＤＳＰチップが、コンピュータ上の所定場所にあるソフトウェア利用の音声認識エンジンに対して事前処理を実行するようにした請求項１に記載の音声処理装置。
前記ＤＳＰチップが、音声起動呼び出し、音声制御、雑音消去、音声の信号への変換を含む、移動電話の音声機能を含むメニュー選択を実行するようにした請求項１に記載の音声処理装置。
前記ＤＳＰチップが、雑音消去機能を実行できるようにした請求項１に記載の音声処理装置。
前記ＤＳＰチップが、移動電話モードで機能できるようにした請求項１に記載の音声処理装置。
前記ＤＳＰが、言語翻訳モードで機能できるようにした請求項１に記載の音声処理装置。
前記コンピュータ母板が、ユーザ支持型コンピュータの母板である請求項１に記載の音声処理装置。
前記ユーザ支持型コンピュータが、音声駆動のユーザ支持型コンピュータである請求項１１に記載の音声処理装置。
前記コンピュータ母板が、携帯型コンピュータの母板である請求項１に記載の音声処理装置。
前記コンピュータ母板が、デスクトップ型コンピュータの母板である請求項１に記載の音声処理装置。
前記コンピュータ母板が、ビデオゲームシステム用コンピュータの母板である請求項１に記載の音声処理装置。
前記コンピュータ母板が、演算・通信装置のコンピュータの母板である請求項１に記載の音声処理装置。
前記コンピュータ母板が、ユーザ支持型コンピュータ、ラップトップ型コンピュータ、デスクトップ型コンピュータ、携帯型コンピュータから成るグループから選択されたもののコンポーネントである請求項１に記載の音声処理装置。
音声処理する方法であって、
コンピュータを指令・制御音声処理モード又は連続音声処理モードのいずれかに設定し、前記コンピュータに電気的に接続された入力装置に音声を入力する段階と、
前記音声をアナログフォーマットからデジタル信号に変換する段階と、
前記デジタル信号をデジタル信号プロセッサに伝送する段階とを含み、前記デジタル信号プロセッサは、前記コンピュータの母板上に含まれ、全ての音声入力に対するプリプロセッサとして機能でき、
更に、少なくとも前記デジタル信号プロセッサと、前記母板上のメモリ内にあり前記デジタル信号プロセッサに電気的に接続された音声認識エンジンとによって、前記デジタル信号を解析する段階と、
コンピュータ指令の解析されたデジタル信号を、前記コンピュータの前記メモリ及び前記デジタル信号プロセッサに電気的に接続されたプロセッサに伝送する段階と、
前記解析されたデジタル信号が表す動作又は指令を、前記プロセッサによって実行する段階とを含み、
前記デジタル信号プロセッサが連続音声処理モードで動作しているとき、前記デジタル信号プロセッサは、前記音声を音素に変換するようにし、
前記デジタル信号プロセッサが指令・制御音声処理モードで動作しているとき、前記デジタル信号プロセッサは、前記プロセッサを利用することなく、音声の完全な解釈と処理を提供するようにした方法。
前記デジタル信号を解析する段階の後に、ユーザによって実行される動作のコンテキストに応じて適切な用語群を前記音声認識エンジンにロードする段階を更に含む請求項１８に記載の方法。