JP4132737B2 - 音声処理装置及び方法 - Google Patents
音声処理装置及び方法 Download PDFInfo
- Publication number
- JP4132737B2 JP4132737B2 JP2001212688A JP2001212688A JP4132737B2 JP 4132737 B2 JP4132737 B2 JP 4132737B2 JP 2001212688 A JP2001212688 A JP 2001212688A JP 2001212688 A JP2001212688 A JP 2001212688A JP 4132737 B2 JP4132737 B2 JP 4132737B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- computer
- voice
- dsp
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000004891 communication Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 230000020169 heat generation Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- CNQCVBJFEGMYDW-UHFFFAOYSA-N lawrencium atom Chemical compound [Lr] CNQCVBJFEGMYDW-UHFFFAOYSA-N 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- RKUAZJIXKHPFRK-UHFFFAOYSA-N 1,3,5-trichloro-2-(2,4-dichlorophenyl)benzene Chemical compound ClC1=CC(Cl)=CC=C1C1=C(Cl)C=C(Cl)C=C1Cl RKUAZJIXKHPFRK-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- HJCCZIABCSDUPE-UHFFFAOYSA-N methyl 2-[4-[[4-methyl-6-(1-methylbenzimidazol-2-yl)-2-propylbenzimidazol-1-yl]methyl]phenyl]benzoate Chemical compound CCCC1=NC2=C(C)C=C(C=3N(C4=CC=CC=C4N=3)C)C=C2N1CC(C=C1)=CC=C1C1=CC=CC=C1C(=O)OC HJCCZIABCSDUPE-UHFFFAOYSA-N 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Mobile Radio Communication Systems (AREA)
- Stored Programmes (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Hardware Redundancy (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Description
【発明の属する技術分野】
本発明は、基本的には、デジタル信号処理用ハードウェアを音声の直接入力インターフェースとして母板に統合することにより、連続音声処理を行うとともに、指令・制御音声処理を行う新しいコンピュータ母板のアーキテクチャに関する。
【0002】
【従来の技術】
ソフトウェアを用いた音声認識エンジンがより強力なものとなるとともに、マイクロプロセッサの処理速度が1GHzにも達するのと並行し、音声認識や音声駆動技術も益々普及する方向にある。本来、音声認識技術は、口述筆記したりオペレーティングシステムを限定的に制御したりする手段として考え出されたものであるが、現在そして将来に渡り、あらゆる用途において広範囲に普及すると考えられる。発話は、最も自然で効果的なコミュニケーションの形態である。その音声は、制御指令に、更にウェブブラウザや検索エンジン等の様々なアプリケーションに取り込むことができる。また、コンピュータにおいて手動で行われる多くの操作を自動化するために音声を使用することもできる。一部の最新コンピュータは、主として音声で制御されるように設計されている。米国特許第5,305,244号及び第5,844,824号は、これに関連する二つの例であり、これら特許には、手を使わない形で(即ち、ハンズフリー方式で)ユーザがコンピュータを操作することができる音声駆動の身体装着型コンピュータが開示されている。米国特許第5,305,244号には、「コンピュータ装置は、プロセッサと通信してユーザからの音声指令を受信し、受信音声指令を電気信号に変換してこの変換電気信号を認識し、認識信号を処理するプロセッサに送るための音声認識モジュールを備えており、この音声認識モジュールが、ユーザによって支持される。」ことが記載されている。更に、米国特許第5,844,824号には、「キーボード入力装置即ちキーボード駆動装置を使用することなく、ハンズフリー方式で行える様々な駆動手段を備えた身体装着型のハンズフリー方式のコンピュータシステム」が開示されている。これら駆動手段の一つは音声である。このように、上記二つの特許に開示された発明には、主駆動源として音声を使用してオペレーティングシステム及び様々なアプリケーションを制御することができるコンピュータのハードウェアプラットフォームが示されている。
【0003】
大半の人は、タイプする約五倍の速度で話し、書くよりほぼ十倍の速度で話すことができる。従って、音声認識や音声処理をパーソナルコンピュータ(以下、“PC”ともいう)に統合できれば、効率面で大きな利点がある。コンピュータ環境での最新の音声処理方法は、主としてソフトウェアを使用したものである。音声カードが音声入力装置として使用され、この音声カードは、標準的なアナログマイクロフォンで捕捉した音声/言語を受け取り、これをデジタルビットストリームに変換してマイクロプロセッサに送るアナログ・デジタル(A/D)変換器を備えている。そして、メモリに記憶されたソフトウェアがCPUと連携する形で使用されることにより、指令か単なる文字かに係らず、音声を表す信号を処理して適切な指令即ち機能を実行する。この種の相互作用を行うための主要ソフトウェアアプリケーションとしては、IBM社Via Voice(登録商標)やDragon Systems社のNaturally Speaking(登録商標)がある。これらはいずれも全ての音声処理にコンピュータのCPUを利用する音声認識ソフトウェアエンジンを使用した音声認識プログラムである。このタスクは、CPUに非常に集中的な演算を強いるものであり、システム資源を強く拘束しそれに制約を加える。これは、AC電力が十分供給されるようなデスクトップ型又はラップトップ型のコンピュータ環境においては、単にシステム性能を低下させるに過ぎない。しかし、通常はバッテリにより電力供給される移動用の身体装着型コンピュータ環境においては、上記タスクによって、過度の電力が消費されるという問題も生じる。CPUにより実行されるクロックサイクルと電力消費との間には直接的な相関関係がある。それに加え、余裕空間が限られているため能動的冷却方式を採用することはまず不可能である移動用の身体装着型コンピュータ環境では、過剰な熱発生により、メモリ、母板、その他のシリコンを使用した電子部品が劣化するとともに、熱蓄積によりCPUの処理速度も低下してしまう可能性がある。このように、効率的且つ効果的に音声処理を行うとともに、バッテリ寿命を延ばし、更に、CPUによる熱蓄積を低減するアーキテクチャにより、現状の技術は大幅に進展すると考えられる。
【0004】
近年、生の音声を処理するために、デジタル信号処理(以下、DSPという)チップが使用され始めた。この一例として、顧客サービス電話システムがある。このシステムによれば、呼び出し側において、電話に一体化されたキーパッドでキー入力でき、更に、話すことによっても入力を行うことができる。DSPは、通常の電話回線システムに統合されている。このシステムが発声言語を表す信号を受信すると、DSPは、既知の言語を表わす既知の信号との照合を行い、このデータの入力を行う。しかし、このシステムは、通常、数字の認識に限られており、消費者志向の製品としては市販されていない。
【0005】
DSPは、本質的に汎用マイクロプロセッサであり、様々な具体的用途に使用できる。DSPは、通常はマイクロプロセッサからは連想できない処理速度、電力消費レベル、効率で、数学的機能を実行するための特殊な論理ハードウェアを備えている。これらチップは、様々な信号処理機能を実行するようにプログラムすることができる。DSPを持つ様々なPC用拡張カードが市販されており、また、信号処理機能を実行するためにそれらチップをプログラムするソフトウェアアプリケーションも一般的に存在する。それらは、通常、そのハードウェア及びアーキテクチャ故に、特定の集中的な計算機能を実行するのに好適である。
【0006】
DSPは、通常、演算の中でも、相関、重畳、有限インパルス応答(FIR)フィルタ、無限インパルス応答(IIR)フィルタ、高速フーリエ変換(FFT)、マトリックス計算、及び内積等の数学的アルゴリズムに対して、特に最適なものになるよう設計される。これら数学的アルゴリズムの実行には、通常、体系的な算術/乗法演算の長いシーケンスが必要となる。FFT及び各フィルタは、音声処理と特に関連性を持つものである。
【0007】
通常、CPUは、実行ユニット、キャッシュメモリ、メモリ管理ユニット、浮動小数点ユニット、及びその他の論理ユニットを備える。汎用CPUのタスクとは、コードを実行し、コンピュータメモリ内のデータについての演算を行い、それによって計算プラットホームを管理することである。概して、基本的X86及びその他の形式のコンピュータ用CPUは、主としてブール/管理/データ処理の演算を実行する。汎用CPUで実行される命令には、基本的な数学的機能が含まれる。しかし、これらの機能は、複雑なDSP形式の数学的演算に適合したものとは言えない。従って、汎用CPUは、DSPに関連する、つまり、基本的なDSP機能を実行する膨大な数の命令を実行する必要がある。
【0008】
従来技術では、ハードウェア及びソフトウェアの双方において、DSPをPCのアーキテクチャに組み込み、そうすることに関連する効果を利用しようとしていた。米国特許第5,794,068号(以下、‘068特許という)には、一つの例が示されている。‘068特許では、X86コアのような汎用CPUユニットを設けるとともに、DSPコアを付加した汎用CPUが開示されている。このCPUは、命令シーケンスを調べてDSP機能が実行中であるか否かを判定するDSP機能デコーダ即ちプリプロセッサを備える。デコーダが、DSP機能が実行中であると判定すると、機能デコーダは命令シーケンスをDSPマクロに変換し、このマクロをDSPコアに送る。DSPコアは、汎用CPUコアによって実行される他の演算と並行し、DSP機能を実行することができる。この設計は、DSP操作の実行を必要とする既存のソフトウェアパッケージとの間に、更に、そうする必要のないものとの間にも、逆の互換性を持つことを保証している。しかしながら、プリプロセッサであるために、余分な処置が実行サイクル中に割り込むことになる。‘068特許の欠点は、指令を処理する前に、DSP命令を確認するために命令を解読しなければならない点にある。‘068特許によるシステムの他の欠点は、このアーキテクチャが音声処理用に最適化されていない点にあり、‘068特許には、DSPチップ自体に指令・制御音声認識エンジンを設けることは示されていない。また、このDSPは、コンピュータの音声入力により生成される全ての音声入力信号に対する主インターフェースとしては機能しない。
【0009】
他の例として、米国特許第5,915,236号(以下、‘236特許という)には、音声処理のためにDSPを利用する場合のソフトウェア的手法が示されている。‘236特許には、言語認識システムが開示されており、このシステムは、処理速度、プロセッサの数、DSPの存在等の利用可能な計算用資源を検出し、この検出に応答してシステム自身が実行する命令を変更することにより、これら命令の割当てを最適化するようになっている。このシステムは、本来、音声認識プログラムであるが、実際の言語認識プログラムは、利用可能な計算用資源の機能に応じて信号処理の計算能力を変えることができる。プログラムが、CPUとDSPプロセッサとの双方を検出した場合、いつプログラムがCPUに割り込むべきかをDSPに判定させることができる。また、プログラムは、利用可能な資源階層の機能に応じて、認識プロセスの間、比較的スコーリングの低い言語を度外視するようにフィルタをかける度合いを変更することもできる。このシステムの欠点若しくは課題は、ソフトウェアを利用した解決策であるということ、つまり、本質的にこのソフトウェアを実行しているコンピュータのアーキテクチャにより制約を受ける点にある。言い換えると、DSPがない場合には、システムは、確実さ正確さの面で低い性能に甘んじることになる。更に、ソフトウェア及びCPUは、DSP命令コードを確認する必要があり、余分なステップがプロセスに持ち込まれることになる。
【0010】
このように、パーソナルコンピュータ、特に、移動用、手持型、身体装着型コンピュータのための、上述の欠点を克服した音声処理アーキテクチャに対するニーズは現在も存在する。
【0011】
【発明が解決しようとする課題】
従って、本発明の目的は、上記の欠点のない新しい母板のアーキテクチャを提供することにある。
【0012】
本発明の他の目的は、統合されたデジタル信号処理(DSP)能力を持つ新しい母板アーキテクチャを提供することにある。
【0013】
本発明の他の目的は、音声処理のために最適化されたハードウェアのアーキテクチャを提供することにある。
【0014】
本発明の他の目的は、音声処理時の電力消費とCPUのクロックサイクルとを低減する母板アーキテクチャを提供することにある。
【0015】
本発明の他の目的は、既存のソフトウェアを使用した音声処理方法を凌ぐ、優れた精度と能力を持つコンピュータのアーキテクチャを提供することにある。
【0016】
本発明の他の目的は、音声処理に必要なCPUのサイクル数を低減するようにしたPC、特に、移動用の手持型及び身体装着型のPC、及びその他の電子装置用の母板アーキテクチャを提供することにある。
【0017】
本発明の他の目的は、音声処理時の電力消費と発熱とを低減するようにした移動用の手持型及び身体装着型のコンピュータ、及びその他の電子装置用の音声処理設計を提供することにある。
【0018】
本発明の他の目的は、音声処理を行いながら雑音を消去したり低減したりできるアーキテクチャを提供することにある。
【0019】
本発明の他の目的は、指令・制御音声の用語をカスタマイズすることができるDSP埋め込み音声認識エンジンを提供することにある。
【0020】
【課題を解決するための手段】
本発明の上記目的及びその他の目的は、全体としては、音声入力部とマイクロプロセッサとの間の音声指令を認識し処理するためのインターフェースとして、DSPハードウェアを母板に組み込むコンピュータ母板設計によって達成される。
【0021】
【発明の実施の形態】
本明細書及び特許請求の範囲において、「コンピュータ母板」という用語には、パーソナルコンピュータ、身体装着型コンピュータ、携帯型コンピュータ、ラップトップ型コンピュータ、演算機能と通信機能とが組合わされた装置、又はパームトップ型コンピュータと共に使用される母板であれば、どのような母板も含まれる。
【0022】
本発明は、本質的に、音声カード又は同様な音声入力装置とマイクロプロセッサとの間のインターフェースとして、DSPハードウェアを母板に組み込んだ新しいコンピュータ母板のアーキテクチャである。これにより、既存の音声処理アーキテクチャに付随する幾つかの問題が解決される。DSPを音声データ入力ストリームに組み込むことで、現行の音声処理アーキテクチャに重要な能力を追加し、更に、音声処理中のマイクロプロセッサの使用を最小限にする。CPU及びソフトウェア利用のエンジンを使用して音声を処理するVia Voice(登録商標)やNaturally Speaking(登録商標)のような現行の方法の問題は、マイクロプロセッサが音声処理に必要な膨大な数の高速フーリエ変換(以下、“FFT”という)を実行するのに適していないという点にある。これは、電力を枯渇させるプロセッサの集中的使用の原因となり、過度の熱蓄積を発生させ、プロセッサが通常の処理速度で他のタスクを実行できないようにしてしまう。マイクロプロセッサは、ワットレベルにも達する電力を消費する。DSPをA/D変換器とマイクロプロセッサとの間をブリッジするように設けることで、連続的な指令音声の前処理をDSPにより行うことができ、これにより大幅な電力節減をするとともに、精度を高めるための付加的な確認・照合を行うことができるようになる。米国テキサス州ダラスにあるテキサスインスツルメンツ社製のDSPであるTMS5000シリーズのようなDSPチップは、ミリワット程度の電力しか消費せず、CPUに比べて数桁レベルの低減となる。更に、これらのチップは、効果的で効率的な音声処理に必要とされるいわば計算作業を実行するように最適化されている。従って、正確さ、処理速度、及び能力の向上は、このアーキテクチャの成果として実現される。また、CPUは、コンピュータ上で同時に実行されているソフトウェアアプリケーションに関連する他のタスクを自由に実行でき、このタスクの一部は、認識精度やユーザとの対話経験率を向上するために使用することができる。これは、デスクトップ型コンピュータ及び家庭用コンピュータのみならず身体装着型/携帯型コンピュータの両者にとって大きな利点となる。特に、身体装着型や携帯型コンピュータ環境においては、確固たる音声処理能力によって装置全体の有用性が増大する。本明細書において、身体装着型コンピュータとは、米国ヴァージニア州フェアファックスのXybernaut社に譲渡された米国特許第5,844,824号に開示され、Mobile Assistant(登録商標)という商品名で商品化されているようなコンピュータである。米国特許第5,844,824号には、ユーザ支持型コンピュータとの通信手段の使用が開示されている。また、HMD、首部吊下げ型表示装置、及びフラットパネル型表示装置等の表示装置を本システムと組合せて使用することができる。これらについては、上記特許の開示事項を参考として参照されたい。しかしながら、当業者であれば、身体装着型コンピュータが、他の企業により製造されるコンピュータ又は母板を使用したコンピュータ、及び現在のところ製造されていない電子製品をも指す用語であることは認識される所であろう。この技術を組み込むことにより、ユーザは、手動又はポインティング装置での駆動ではなく又はそれに加えて、音声駆動を使用した上記装置を確実に且つ正確に利用することが可能となる。また、CPUに比べてDSPの電力消費が低減されるため、本装置のバッテリ寿命が大幅に延びる。また、デスクトップ型コンピュータ環境では、より効率的な音声処理とCPUクロックサイクルに自由度を与える利点も実現される。
【0023】
コンピュータにおける音声処理は、二つの基本的な種類に分類することができる。即ち、一つは、指令・制御音声の処理であり、二つ目は、連続音声の処理である。指令・制御の音声とは、オペレーティングシステムを制御するため、又は特定のアプリケーションを介して誘導するために使用される言語である。これらの各単語や語句は、特定の指令にカスタマイズしたりリンクさせたりすることができる。「オープンウィンドウ」や「スクロールダウン」等の語句を、指令・制御の音声の例として挙げることができる。それらは、通常、限定即ち区分化した用語群即ち用語集の中から選択される言語であり、各々の言語はコンピュータ用の特定の指令と結び付けられている。現在、指令・制御音声は、ソフトウェア利用の音声認識エンジン及びCPUによって処理されている。しかし、DSPは、これら指令・制御言語即ち語句のための音声認識エンジンとしての機能を果すことができる。音声認識エンジン自体は、DSPチップに埋め込まれたメモリ内にあるので、変換された指令だけが実行用CPUに送られる。これにより、CPUを全く利用することなく、DSPによって音声の完全な解釈と処理を行うことができる。法律用語に関する指令言語用テンプレートをDSPメモリに置くことができ、その代わりに、アプリケーションに応じて様々な異なる制御指令ライブラリを使用できるようにするコンテキストやアプリケーションに基づいて、上記指令言語用テンプレートを、ホストCPU即ちホストプロセッサからDSPメモリにロードすることもできる。この形態では、DSPメモリには限定された指令言語群しか存在せず、どの時点でも又はコンテキストの変更時に、コンテキストに対応する言語テンプレートがDSPメモリに能動的にロードされるので、DSPは大規模なメモリを持つ必要がなくなる。指令・制御音声認識エンジンのメモリ要件は、大幅に緩和されるので効率的な演算が可能になる。64キロバイトのメモリであれば、指令・制御ライブラリには十分で、これは現行のDSPのメモリ容量内にある。DSPチップは、そのメモリ容量に関して言えば、より健全なものとなるので、DSPメモリ内により多くの又は全ての指令・制御言語用テンプレートを記憶することが現実的且つ有効となる。このエンジン自体はカスタマイズすることができるので、ユーザは動作を起こさせる口頭の指令を設定することができる。これにより、音響的には同類のものであるが異なる指令となる言語に関する問題を軽減することができる。例えば、音声学的には同類のものであるが異なる結果をもたらす二つの指令がある場合、同じ結果をもたらすように他の音声指令に置換するか、又は、指令の適切なコンテキスト及び環境群によって適切に応答させるようにすることができる。
【0024】
連続音声処理に関しては、音声処理においてCPUを補助するためにDSPを使用することによっても大きな利点がもたれされる。発話言語を表わすサンプリングされたデジタルビットストリームを、符号化/復合化装置(CODEC)のA/D変換器からCPUが受信すると、CPUは、これらデジタルビットを文字群又は部分的な言語を表わす音素又は音に変換した後、この音の組み合わせを表わす最も確立の高い単語/文を見付けなければならない。このビットストリームを音素に変換するプロセスでは非常に集中的計算が行われるが、汎用CPUの論理演算はこの種のプロセスに対し最適化されていない。そこで、DSPチップは、ソフトウェア利用の連続音声認識エンジンの前置プロセッサとしての機能を果すこともできる。連続音声認識エンジン用の言語辞書は非常に大きな容量を必要とするのに対してDSPのメモリ容量は限られているため、CPU及びソフトウェア利用の音声認識エンジンをバックエンド処理のために使用する方が効率的である。DSPは、音声のビットストリーム入力を受け、それを音素に変換して、ソフトウェア利用の音声認識エンジンと照合するためにCPUに送る。音素は、分割できない音の基本単位であり、文字の単一音節の組み合わせのような言語を構成する。通常はCPUで行われる上記事前処理により、CPUのみによる従来の音声処理方法に比べ、CPUよって所定数の言語を処理するのに必要とされる実行サイクルの総数は大幅に減少される。膨大なFFT計算を必要とするのは、ビットストリームから音素への変換である。そこで、電力効率の良いDSPチップが、現在CPUが行っている作業の大半を行うことによってCPUの使用を軽減し、音素を実際の単語や文に変換するのに必要なソフトウェア命令を処理する自由度即ち余裕をCPUに与える。これにより、次に、音声認識エンジンにより向上した精度、より高速のシステム性能、熱発生の減少、より効率的な電力使用という形で現れる利点が生み出される。この新しいアーキテクチャの利点を最大に活かすためには、DSPに前置処理即ち事前処理させるような連続音声処理用の新しいソフトウェア利用の音声認識エンジンの開発が必要となる。その代わりに、Via Voice(登録商標)やNaturally Speaking(登録商標)等の市販されている連続音声認識エンジンのソースコードを、現在CPUが行っている音声の前置処理をDSPに行わせるように修正することも可能である。
【0025】
本発明の他の利点は、周囲の雑音をフィルタにかけて低減する能力にある。DSPチップは、フィルタリング及び雑音消去アルゴリズムを実行するのに適しており、連続音声であるか指令・制御音声であるかに係らず、音声を表わすデジタルビットストリームを受け取って、雑音を取り除いて明瞭な音素に変換する。指令・制御音声処理モードの場合には、DSPチップは、指令を取り出してそれをCPUに送る。連続音声処理モードの場合には、DSPチップは、ソフトウェア利用の音声認識エンジンで処理するために、上記音素をCPUに送る。音声から雑音を消去するこの能力により、本アーキテクチャに基づくコンピュータのユーザは、高い周囲雑音環境の中においても高い精度で作業することができるようになる。例えば、タービン発電施設で整備作業を行う人でも、工具、ロボット、リベット打ち等の高雑音の航空機の組み立てラインで作業を行う人でも、ほとんど又は全く性能低下しない状態で、音声駆動を使って正確に彼らのコンピュータを制御することができる。この点は、上記したような環境で利用され場合が多い音声駆動の身体装着型コンピュータや手持型コンピュータにとって特に有利であり、ユーザは、彼らの手を自由にした状態でコンピュータ上の情報を見たりスクロールしたりすることができる。通常、この種の用途では、対話式電子技術マニュアルを見ることがあるため、技術者は、整備や組み立て作業をしながら、コンピュータ利用のエキスパートシステムによって、部品リストや概略図をスクロールしたり検索したりすることができる必要がある。この種の操作は、しばしば、大きな即ち簡単には動かせない設備部品や製品について行われることが多い。このように、技術者が、工場、発電所、組み立てライン等に共通した高い周囲雑音環境において、コンピュータを操作しマニュアルを通じての作業を継続できるとすれば、技術者の身体装着型コンピュータの実用性を高めることができる。
【0026】
本発明は、従来のPC、身体装着型PCの双方にとっての他の大きな利点を持つ。つまり、DSPは、文字を音声に変換するプロセスを容易に及び/又は補助することができる点である。このプロセスは、文字言語自体を音響スピーカに出力するために複合音素に分解する必要があるため、音声認識の逆のプロセスとなる。また、母板搭載のDSPを利用しているコンピュータが、身体装着型又は手持型の装置で、それが、無線モデム又はその他の通信装置のような無線通信能力を備えている場合、DSPは、音声駆動ダイヤル呼び出し、音声制御、雑音低減、音声から信号への変換等の機能を助長するため、音声及び指令のデジタル化のような移動電話機能を処理することができる。
【0027】
好ましい実施形態では、DSPが作動するモード、即ち指令・制御音声処理モード又は連続音声処理モード、を指定するための、ソフトウェアを利用した制御が存在する。これは、いくらかある方法の一つにより行うことができる。一つは、ユーザは、システム起動時又はシステムに電力が供給されている時のいずれかに、ソフトウェア利用の制御を起動することにより上記DSPのモードを設定する。このモードは、変更されるまでデフォルトとして維持される。その代わりに、指令・制御音声処理モード状態でシステムの電源をオンし、ユーザが、ログインしてオペレーティングシステムを制御し、特定のアプリケーションを選択することができるようにしてもよい。しかし、アプリケーションが呼び出された時、それがワードプロセッサのように連続音声処理を要求するアプリケーションの場合には、モードは自動的に連続音声処理モードに変更される。アプリケーションが実行されている最中に、ユーザがモードを変更できるモード割り込み指令を設定して使用することもできる。例えば、ユーザが自身のアプリケーションに文字を口述記録させた後に、アプリケーションのプルダウンメニューの使用を必要とするファイル保存又は他のタスクを実行しようとする場合には、ユーザの発声する言語は、単なる口述音声ではなく、指令として解釈される。更に、アプリケーションの中には、アプリケーション呼び出し時に、DSPのメモリにロードできる指令・制御言語の特定用語をサポートできるものもある。例えば、ウェブブラウザが呼び出された場合、標準的なブラウザ機能を誘導したり実行したりするのに必要な全ての指令がDSPのメモリにロードされる。本発明の全体としての実用性は、オペレーティングシステムを制御するための基本的指令に加え、様々なアプリケーション特有の指令を行い易くすることによって最適化される。
【0028】
他の好ましい実施形態では、本発明を、自然言語から他の言語にオンザフライ方式で翻訳し易くするために使用することができる。例えば、音声認識翻訳プログラムを実行している人は、ある言語でコンピュータに発声し、音声をそのプログラムにより、文字入力又は表示出力や音声出力のいずれかのための他の言語に翻訳させることができる。DSPは、CPU及びソフトウェア用の前置プロセッサとしての機能を果し、外国語に関する事前処理を実行することができる。更に、特定の方言を正常な状態に戻すために最適化された特別のフィルタをDSPにロードして、音声入力をより正確に翻訳することも可能である。この場合も、DSPのハードウェア設計は、CPUよりもこのタスクを更に効率的に実行することができるようにする。
【0029】
他の好ましい実施形態では、本発明は、携帯型コンピュータや通信装置のような他の演算装置に音声を統合するために使用することができる。例えば、パーソナルデジタルアシスタント(携帯用情報端末、PDA)、パーソナル通信装置(即ち、インターネット形式の情報を受信、表示可能な移動電話)、及びパームトップ型又は手持型のコンピュータでも、本発明の利点を使用することができる。本発明の開示事項を組み込むことにより、これらの装置は、確実で大幅に電力効率を高めた形態で音声制御を行うことができる。携帯型の演算・通信装置は、通常、全電力をバッテリから取り出しているため、アプリケーション実行時に電力を効率的に使用することは、最も重要性なことである。更に、これら形式の装置におけるプロセッサは、通常、身体装着型コンピュータやデスクトップ型コンピュータのプロセッサの能力はないので、それらは、最先端のCPUと比較し、DSP機能を実行することは難しい状況にある。上記した全体的な実用性を向上するとともにユーザに対する便利性をさせることも実現可能である。例えば、電話において、ユーザは、電話に対し数字を発声するか、或いは人の名前を発声し、その音声をメモリに記憶された数字とDSPによって照合することによって信号を得るようにして音声駆動呼び出しを容易に行うためにDSPを使用することができる。PDAやパームトップ型コンピュータでは、DSPは、電子メールプログラム又はウェブブラウザの制御を円滑にするために使用でき、又は、オペレーティングシステム自体を制御するために使用できる。ユーザは、タッチ画面、マウス又はその他の手動駆動手段を利用することなく、単に指令を発声するだけで電子メールのチェックをしたりブラウザを開いたりすることができる。
【0030】
他の好ましい実施形態では、本発明の開示事項を、手持型、身体装着型、或いは携帯型又は非携帯型のゲーム用コンピュータにおける音声制御を円滑にするために使用することができる。母板上のDSPは、ユーザが決定を行うためにボタンを押すことを必要とせず、ゲーム機の音声制御を円滑にするために使用できる。その代わりに、手動制御と連携する形でDSPを使用し、特定の決定を音声で行うことができるようにして、手動制御の複雑さを軽減することもできる。例えば、(動き、位置及び/又は行動がゲームをしている人に制御されるような)キャラクターが、動きながら、且つ、発砲又は投球といった手の行為を行うようなゲームを実行する場合、手動制御を動きのために使用するとともに、発砲、投球、又は武器の選択や弾の装填ような行為を行わせるのに音声を使用することができる。これにより、ゲームには更に現実的な次元が付加され、基本的な指令により集中してユーザの手を使うことができる。これを、10以上の異なる同時指令を行うことができるゲームコントローラを備えたソニー及び任天堂で製造されているような最新ビデオゲームシステムに使用することは益々重要となる。これらの指令の一部を音声駆動とすることのより、必要とされる手の器用さのレベルは軽減される。
【0031】
本発明の例示的な実施形態をして図面を引用する。図1は、代表的なコンピュータの母板1を示す。母板は、パーソナルコンピュータの母板、移動用コンピュータの母板、演算・通信用装置の母板、又はその他の電子的演算装置の母板とすることができる。この母板は、通常、CPU、メモリ、データバス、電力インターフェース、入出力(I/O)インターフェース、ビデオ出力部、音声出力部、及びオプション用入力部のような基本的システムコンポーネントを備える。図2は、音声入力を受信することができるパーソナルコンピュータの代表的なシステムレベルの実施例を示す。このコンピュータシステムは、表示装置10、CPUボックス9、キーボード11、マウス12、及びマイクロフォン8を備える。マイクロフォン8は、全てのアプリケーションについて、コンピュータへの直接的音声入力源としての機能を果す。
【0032】
図3は、本発明における音声入力の機能的流れ図を示す。音声は、マイクロフォン入力13からシステムに入力され、この音声は、電気信号に変換される。次に、データ経路は、この信号をCODEC14又はこの信号をアナログ・デジタル(A/D)変換するチップに導く。次に、このデジタル信号は、DSP15に処理のため移動する。この時点で、システムは、DSPが指令・制御(C&C)音声処理モードで動作しているか、又は連続音声処理モードで動作しているかについての判定状態16に入る。DSPがC&C音声処理モードにある場合、実際の指令がステップ17で取り出された後、処理のためにCPU19に送られる。しかし、DSP15が連続音声処理モードで動作している場合には、DSPはデジタル信号をステップ18で音素に変換した後、ソフトウェア利用の音声認識エンジンと協力してこれら音素を処理するためにCPU19に送る。
【0033】
図4は、音声を表す信号を受信した時にDSPに起こるプロセスの流れ図を示す。音声信号20は、連続音声処理モード又はC&C音声処理モードのいずれかに設定されているDSP15に入力される。連続音声処理モードにある場合、信号はフィルタにかけられ、雑音は全てステップ24で取り除かれる。このプロセスは、音声についての特定の物理的環境やコンテキストに応じて変更することができる。次にステップ25で、信号は音素に変換され、ステップ26で、CPU及びソフトウェア利用の音声認識エンジンによる認識のためにCPUに送られる。DSPがC&C音声処理モードに設定されている場合、ステップ21で、信号は同じくフィルタにかけられ雑音が消去される。これも同様に、周囲の雑音環境や制御ライブラリの形式に応じて最適化することができる。次にステップ22で、この指令を表す明瞭な信号は、DSPによりアクセス可能なメモリに記憶された信号とDSPによって照合される。指令が取り出されると、ステップ23で、その指令はCPUへ送られる。
【0034】
図5は、移動用コンピュータシステムにおける母板搭載DSPの例示的実施例を示す。素子103は、TMS5000シリーズのDSPチップである。素子103は、音声入力部101、CODEC102、CPU108、及び統合Intel82443MX100N&Sブリッジ105との間のブリッジとしてシステム母板に統合されている。DSP103とパラレルPCIバス106との間の通信は、DSP103の出力信号をバス106に接続することを可能とするTIPCI2040PCT・DSP ブリッジチップ104によって円滑にされる。本例におけるCPU108は、Intel社製の600MHzの移動用Pentium(登録商標)チップである。しかしながら、当業者であれば、適切なものであればコンピュータCPUであれば、本発明の思想又は範囲を逸脱することなく如何なるCPUに置換可能であることは理解される所であろう。本例においては、ユーザインターフェースPCB100が示されている。これには、ユーザインターフェースポート101、USBポート110、1394ポート111、及び表示装置・ポート109のような代表的ないくつかの入出力のインターフェースが含まれている。
【0035】
指令・制御音声処理又は連続音声処理のための代表的なデータストリーム経路は、以下のようになる。音声が、アナログ音声入力部101を介して標準的アナログマイクロフォンから入力さる、つまり、音声は、ユーザインターフェースポート101から入力される。アナログ音声信号は、CODEC102に移され、アナログ・デジタル(A/D)変換器がこれをデジタルビットストリームに変える。次に、このビットストリームは、DSPチップ103に移される。DSP103は「浄化」するために必要な機能を実行するとともに、音声を音素に加工処理する。コンピュータが指令・制御音声処理モードにある場合、DSP103は、内部の音声認識エンジンを使用して音声音素を実際の指令と関連付ける。連続音声処理モードにある場合は、単に音声を音素に変換するだけである。次のステップでは、CPU108によって実行される指令即ち一連の音素の出力を、データパスを介してCPU108に渡し、出力がCPU108によって処理されるようにする。これは、出力をPCIバス106と互換性のあるビット状フォーマットに変換するDSP・PCIブリッジチップ104を介してこの出力の経路付けることにより行われる。次に、この出力は、CPU108と直接通信するためのIntel82443MX100 105を介して経路付けられる。この出力が指令・制御信号であれば、指令はCPU108によって実行される。CPU108は、この時点まで音声処理に関してはアイドル状態にある。それが連続音声処理の場合と同様に、この出力が音素ストリームである場合は、CPU108は、音声認識のソフトウェア利用の音声認識エンジンを呼び出して音素を処理し、その音声に関連するアプリケーションが何の目的のものでもそれらを文字に変換する。当業者であれば、この物理的な実施形態は例示目的のためにだけ示されたものであり、本発明自体は、音声入力データパスにあるDSPを、連続音声認識エンジン及び指令・制御音声認識エンジン、及び/又は連続音声処理のための前置プロセッサとして使用し、メニュー選択又は移動電話の指令・制御を処理・円滑化し且つ文字を音声に変換するのを円滑化するという本発明の基本的概念が存在する限り、形態に係わりなく全てのコンピュータ母板に適用でき、更に、本発明の思想又は範囲を逸脱することなく、種々の置換及び変更が可能であることは理解される所であろう。
【0036】
本明細書に述べられた本発明の好ましい実施形態及び最適に好ましい実施形態は、本発明の根本的な原理を例示するものであり、本発明の思想及び範囲を逸脱することなく、多くの修正や変更が可能であることは理解される所であろう。
【図面の簡単な説明】
【図1】代表的システムコンポーネントを備える代表的なコンピュータ即ち演算装置の母板を示す図である。
【図2】音声入力源としてのマイクロフォンを備える代表的パーソナルコンピュータを示す図である。
【図3】演算装置への音声入力に関する本発明のプロセスを流れ図で示す図である。
【図4】連続音声処理モード及び指令・制御音声処理モードの双方の流れ図及び決定ツリーを示す図である。
【図5】母板の回路設計とデータ経路とに統合されたDSPを備える身体装着型コンピュータの一例の母板を示す図である。
【符号の説明】
1 母板
2 CPU
3 メモリ
4 入出力インターフェース
5 電力インターフェース
6: ビデオ出力部
7: メモリ
Claims (19)
- CPU、データバス、電力インターフェース、及び音声入力データ経路を含むコンピュータ母板を備え、前記音声入力データ経路は、前記コンピュータ母板の音声入力部を前記CPUに接続しており、更に
前記音声入力データ経路内にあるDSPチップと、
前記DSPチップと前記コンピュータ母板上のデータバスとの間を接続するブリッジと、
前記DSPチップに電気的に接続されたメモリと、
前記DSPチップの前記メモリ内にある指令・制御音声認識エンジンとを備え、
前記DSPは、指令・制御音声処理モード又は連続音声処理モードのいずれかで動作できると共に、全ての音声入力に対し、前記CPUによる命令の実行に先立って音声入力を処理するプリプロセッサとしての機能を果し、前記音声認識エンジンは、特定の命令又はコンテキストの環境に関連付けられた、前記メモリにロード可能な音声言語の用語群を含み、さらに、前記DSPが、連続音声処理モード又は指令・制御音声処理モードのいずれかに、ユーザによって動的に設定されるようにしており、
前記DSPが連続音声処理モードで動作しているとき、前記DSPは、前記音声入力を音素に変換するようにし、
前記DSPが指令・制御音声処理モードで動作しているとき、前記DSPは、前記CPUを利用することなく、音声の完全な解釈と処理を提供するようにした
音声処理装置。 - 前記音声入力データ経路が、マイクロフォン入力部と、音声入力をデジタル化する手段とを備えている請求項1に記載の音声処理装置。
- 前記音声言語の用語群は、前記DSPチップに電気的に接続された前記メモリ内にある請求項1に記載の音声処理装置。
- 前記音声言語の用語群が、ユーザによって設定可能である請求項1に記載の音声処理装置。
- 前記音声言語の用語群が、ホストプロセッサで実行されているアプリケーションのコンテキストに基づいて、前記CPUによって更新される請求項1に記載の音声処理装置。
- 前記DSPチップが、コンピュータ上の所定場所にあるソフトウェア利用の音声認識エンジンに対して事前処理を実行するようにした請求項1に記載の音声処理装置。
- 前記DSPチップが、音声起動呼び出し、音声制御、雑音消去、音声の信号への変換を含む、移動電話の音声機能を含むメニュー選択を実行するようにした請求項1に記載の音声処理装置。
- 前記DSPチップが、雑音消去機能を実行できるようにした請求項1に記載の音声処理装置。
- 前記DSPチップが、移動電話モードで機能できるようにした請求項1に記載の音声処理装置。
- 前記DSPが、言語翻訳モードで機能できるようにした請求項1に記載の音声処理装置。
- 前記コンピュータ母板が、ユーザ支持型コンピュータの母板である請求項1に記載の音声処理装置。
- 前記ユーザ支持型コンピュータが、音声駆動のユーザ支持型コンピュータである請求項11に記載の音声処理装置。
- 前記コンピュータ母板が、携帯型コンピュータの母板である請求項1に記載の音声処理装置。
- 前記コンピュータ母板が、デスクトップ型コンピュータの母板である請求項1に記載の音声処理装置。
- 前記コンピュータ母板が、ビデオゲームシステム用コンピュータの母板である請求項1に記載の音声処理装置。
- 前記コンピュータ母板が、演算・通信装置のコンピュータの母板である請求項1に記載の音声処理装置。
- 前記コンピュータ母板が、ユーザ支持型コンピュータ、ラップトップ型コンピュータ、デスクトップ型コンピュータ、携帯型コンピュータから成るグループから選択されたもののコンポーネントである請求項1に記載の音声処理装置。
- 音声処理する方法であって、
コンピュータを指令・制御音声処理モード又は連続音声処理モードのいずれかに設定し、前記コンピュータに電気的に接続された入力装置に音声を入力する段階と、
前記音声をアナログフォーマットからデジタル信号に変換する段階と、
前記デジタル信号をデジタル信号プロセッサに伝送する段階とを含み、前記デジタル信号プロセッサは、前記コンピュータの母板上に含まれ、全ての音声入力に対するプリプロセッサとして機能でき、
更に、少なくとも前記デジタル信号プロセッサと、前記母板上のメモリ内にあり前記デジタル信号プロセッサに電気的に接続された音声認識エンジンとによって、前記デジタル信号を解析する段階と、
コンピュータ指令の解析されたデジタル信号を、前記コンピュータの前記メモリ及び前記デジタル信号プロセッサに電気的に接続されたプロセッサに伝送する段階と、
前記解析されたデジタル信号が表す動作又は指令を、前記プロセッサによって実行する段階とを含み、
前記デジタル信号プロセッサが連続音声処理モードで動作しているとき、前記デジタル信号プロセッサは、前記音声を音素に変換するようにし、
前記デジタル信号プロセッサが指令・制御音声処理モードで動作しているとき、前記デジタル信号プロセッサは、前記プロセッサを利用することなく、音声の完全な解釈と処理を提供するようにした方法。 - 前記デジタル信号を解析する段階の後に、ユーザによって実行される動作のコンテキストに応じて適切な用語群を前記音声認識エンジンにロードする段階を更に含む請求項18に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US677569 | 2000-10-02 | ||
US09/677,569 US7162426B1 (en) | 2000-10-02 | 2000-10-02 | Computer motherboard architecture with integrated DSP for continuous and command and control speech processing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002132285A JP2002132285A (ja) | 2002-05-09 |
JP4132737B2 true JP4132737B2 (ja) | 2008-08-13 |
Family
ID=24719254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001212688A Expired - Fee Related JP4132737B2 (ja) | 2000-10-02 | 2001-07-12 | 音声処理装置及び方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7162426B1 (ja) |
EP (1) | EP1193690B1 (ja) |
JP (1) | JP4132737B2 (ja) |
KR (1) | KR20020026804A (ja) |
AT (1) | ATE265730T1 (ja) |
DE (1) | DE60102993T2 (ja) |
ES (1) | ES2220630T3 (ja) |
PT (1) | PT1193690E (ja) |
TW (1) | TW541470B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100554249B1 (ko) | 2004-07-06 | 2006-02-24 | 주식회사 현대오토넷 | Mgt5200의 psc포트를 이용한 외부소자 인터페이스장치 |
US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
US9256396B2 (en) * | 2011-10-10 | 2016-02-09 | Microsoft Technology Licensing, Llc | Speech recognition for context switching |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
TWI577193B (zh) * | 2015-03-19 | 2017-04-01 | 陳光超 | 耳膜助聽器 |
US20220097960A1 (en) * | 2015-09-16 | 2022-03-31 | Simplehuman, Llc | Containers with multiple sensors |
KR102081335B1 (ko) | 2018-06-25 | 2020-02-25 | 주식회사 소비코프로페셔널 | 듀얼코어를 이용한 디지털 오디오 시스템 및 그 제어 방법 |
US10983842B2 (en) | 2019-07-08 | 2021-04-20 | Microsoft Technology Licensing, Llc | Digital signal processing plug-in implementation |
JP7410684B2 (ja) * | 2019-10-21 | 2024-01-10 | シャープ株式会社 | マイクシステム |
CN111145752B (zh) * | 2020-01-03 | 2022-08-02 | 百度在线网络技术(北京)有限公司 | 智能音频装置、方法、电子设备及计算机可读介质 |
CN111261169A (zh) * | 2020-01-08 | 2020-06-09 | 上海齐网网络科技有限公司 | 基于多路数据处理器的语音识别芯片 |
CN112164389B (zh) * | 2020-09-18 | 2023-06-02 | 国营芜湖机械厂 | 一种多模式语音识别送话装置及其控制方法 |
US20220091707A1 (en) | 2020-09-21 | 2022-03-24 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US20220261530A1 (en) | 2021-02-18 | 2022-08-18 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US11445148B1 (en) | 2021-05-06 | 2022-09-13 | Microsoft Technology Licensing, Llc | Video teleconference curated user profile picture |
US11947906B2 (en) | 2021-05-19 | 2024-04-02 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR890016480A (ko) * | 1988-04-27 | 1989-11-29 | 안시환 | 실시간 음성인식 보드장치 |
US6230255B1 (en) | 1990-07-06 | 2001-05-08 | Advanced Micro Devices, Inc. | Communications processor for voice band telecommunications |
JP2662120B2 (ja) * | 1991-10-01 | 1997-10-08 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置および音声認識用処理ユニット |
US5353376A (en) * | 1992-03-20 | 1994-10-04 | Texas Instruments Incorporated | System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment |
IT1256823B (it) * | 1992-05-14 | 1995-12-21 | Olivetti & Co Spa | Calcolatore portatile con annotazioni verbali. |
US5915236A (en) | 1992-11-13 | 1999-06-22 | Dragon Systems, Inc. | Word recognition system which alters code executed as a function of available computational resources |
KR970005830B1 (ko) * | 1993-12-27 | 1997-04-21 | 재단법인 한국전자통신연구소 | 오디오 코덱 보드 |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
JPH09114543A (ja) | 1995-10-02 | 1997-05-02 | Xybernaut Corp | ハンドフリーコンピュータ装置 |
TW439380B (en) * | 1995-10-09 | 2001-06-07 | Hitachi Ltd | Terminal apparatus |
US5754807A (en) * | 1995-11-20 | 1998-05-19 | Advanced Micro Devices, Inc. | Computer system including a multimedia bus which utilizes a separate local expansion bus for addressing and control cycles |
US5794164A (en) * | 1995-11-29 | 1998-08-11 | Microsoft Corporation | Vehicle computer system |
US5797043A (en) * | 1996-03-13 | 1998-08-18 | Diamond Multimedia Systems, Inc. | System for managing the transfer of data between FIFOs within pool memory and peripherals being programmable with identifications of the FIFOs |
US5794068A (en) | 1996-03-18 | 1998-08-11 | Advanced Micro Devices, Inc. | CPU with DSP having function preprocessor that converts instruction sequences intended to perform DSP function into DSP function identifier |
US6085314A (en) | 1996-03-18 | 2000-07-04 | Advnced Micro Devices, Inc. | Central processing unit including APX and DSP cores and including selectable APX and DSP execution modes |
US5987590A (en) | 1996-04-02 | 1999-11-16 | Texas Instruments Incorporated | PC circuits, systems and methods |
US6182203B1 (en) * | 1997-01-24 | 2001-01-30 | Texas Instruments Incorporated | Microprocessor |
US6324592B1 (en) * | 1997-02-25 | 2001-11-27 | Keystone Aerospace | Apparatus and method for a mobile computer architecture and input/output management system |
US5983073A (en) * | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
JP4067063B2 (ja) | 1997-11-14 | 2008-03-26 | 松下電器産業株式会社 | マイクロプロセッサ |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
US6330247B1 (en) * | 1999-02-08 | 2001-12-11 | Qualcomm Incorporated | Communication protocol between a communication device and an external accessory |
US6233557B1 (en) * | 1999-02-23 | 2001-05-15 | Motorola, Inc. | Method of selectively assigning a penalty to a probability associated with a voice recognition system |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US6192340B1 (en) * | 1999-10-19 | 2001-02-20 | Max Abecassis | Integration of music from a personal library with real-time information |
KR100316696B1 (ko) * | 1999-11-12 | 2001-12-12 | 송문섭 | Imt-2000 단말기용 플랫폼 보드 |
-
2000
- 2000-10-02 US US09/677,569 patent/US7162426B1/en not_active Expired - Fee Related
-
2001
- 2001-07-10 EP EP01115769A patent/EP1193690B1/en not_active Expired - Lifetime
- 2001-07-10 DE DE60102993T patent/DE60102993T2/de not_active Expired - Fee Related
- 2001-07-10 ES ES01115769T patent/ES2220630T3/es not_active Expired - Lifetime
- 2001-07-10 PT PT01115769T patent/PT1193690E/pt unknown
- 2001-07-10 AT AT01115769T patent/ATE265730T1/de not_active IP Right Cessation
- 2001-07-12 JP JP2001212688A patent/JP4132737B2/ja not_active Expired - Fee Related
- 2001-07-24 TW TW090118073A patent/TW541470B/zh not_active IP Right Cessation
- 2001-08-22 KR KR1020010050673A patent/KR20020026804A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
ATE265730T1 (de) | 2004-05-15 |
TW541470B (en) | 2003-07-11 |
ES2220630T3 (es) | 2004-12-16 |
DE60102993T2 (de) | 2005-05-04 |
EP1193690A1 (en) | 2002-04-03 |
JP2002132285A (ja) | 2002-05-09 |
DE60102993D1 (de) | 2004-06-03 |
PT1193690E (pt) | 2004-09-30 |
US7162426B1 (en) | 2007-01-09 |
EP1193690B1 (en) | 2004-04-28 |
KR20020026804A (ko) | 2002-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4132737B2 (ja) | 音声処理装置及び方法 | |
US6748361B1 (en) | Personal speech assistant supporting a dialog manager | |
US7010490B2 (en) | Method, system, and apparatus for limiting available selections in a speech recognition system | |
US7624018B2 (en) | Speech recognition using categories and speech prefixing | |
KR101229034B1 (ko) | 디바이스 인터페이싱을 위한 다중모드 조음 통합 | |
CN104620314B (zh) | 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 | |
US20050283364A1 (en) | Multimodal disambiguation of speech recognition | |
WO2004036939A1 (fr) | Appareil de communication mobile numerique portable, procede de commande vocale et systeme | |
JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
WO2019169722A1 (zh) | 快捷键识别方法、装置、设备以及计算机可读存储介质 | |
JP4653598B2 (ja) | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム | |
Zhou et al. | Two-way speech-to-speech translation on handheld devices. | |
CN100380442C (zh) | 利用优化音素集进行普通话语音识别的系统和方法 | |
JP2003058538A (ja) | 文章解析方法とその方法を利用可能な文章解析装置 | |
Kao et al. | A low cost dynamic vocabulary speech recognizer on a GPP-DSP system | |
JP2003202890A5 (ja) | ||
Dabre et al. | A Framework for System Interfacing of Voice User Interface for Personal Computers | |
Nouza et al. | Very large vocabulary voice dictation for mobile devices | |
Delaney | Reduced energy consumption and improved accuracy for distributed speech recognition in wireless environments | |
Sertsi et al. | Offline Thai speech recognition framework on mobile device | |
Holada | Internet Speech Recognition Server | |
Streeter | Open source speech interaction with the voce library | |
Durán | Ultimate Trends in Integrated Systems to Enhance Automatic Speech Recognition Performance | |
Sun et al. | TBNR: the ThinkIT Broadcast News speech Recognition system | |
Coyner et al. | Distributed speech recognition services (DSRS) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080502 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080602 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130606 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |