JP4659311B2 - 転送手段を有するスピーチ認識装置 - Google Patents
転送手段を有するスピーチ認識装置 Download PDFInfo
- Publication number
- JP4659311B2 JP4659311B2 JP2001509021A JP2001509021A JP4659311B2 JP 4659311 B2 JP4659311 B2 JP 4659311B2 JP 2001509021 A JP2001509021 A JP 2001509021A JP 2001509021 A JP2001509021 A JP 2001509021A JP 4659311 B2 JP4659311 B2 JP 4659311B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- indicator
- speech coefficient
- stored
- coefficient indicator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 26
- 230000008676 import Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 20
- 235000004347 Perilla Nutrition 0.000 claims 1
- 244000124853 Perilla frutescens Species 0.000 claims 1
- 238000012545 processing Methods 0.000 description 36
- 230000008901 benefit Effects 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 210000000056 organ Anatomy 0.000 description 5
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Telephonic Communication Services (AREA)
Description
【発明が属する技術分野】
本発明は、請求項1の於て書き部分において定義したスピーチ認識装置、更に、請求項8の於て書き部分において定義したスピーチ認識方法に関する。
【0002】
【従来の技術】
このようなスピーチ認識装置とこのようなスピーチ認識方法は、米国特許第5,031,113号から公知である。この公知のスピーチ認識装置は、マイクの形態の受信手段と、ディクテーションの間にスピーカが発するスピーチ通信を受けそして格納する音声メモリーを含む。
【0003】
この公知のスピーチ認識装置は、さらに、スピーチ認識方法を実行するために必要なスピーチ係数インジケータが格納されるスピーチ係数格納手段を含む。このようなスピーチ係数インジケータは、文脈情報、スピーチモデル情報および音素参照情報を含む。文脈情報は、スピーチ認識装置が認識することができる全ての語を含み、スピーチモデル情報は、音声情報における文脈情報の語のシーケンスに対する確率を含み、そして音素参照情報は、語部分(音素)がスピーカによりどのように発音されるかについての情報を含む。
【0004】
この公知のスピーチ認識装置は、さらに、スピーチ認識方法が、スピーチ係数格納手段に格納されているスピーチ係数インジケータにより実行されると、受信されたボイス情報に対応するテキスト情報を認識し、かつこのテキスト情報を認識されたテキスト情報として生成するように構成されているスピーチ認識手段を含む。認識されたテキスト情報は、モニタにより表示される。
【0005】
テキスト処理プログラムとキーボードは、モニタにより表示された認識されたテキスト情報を訂正させ、かつ訂正されたテキスト情報として再びモニタにより表示させることが出来る訂正手段を形成する。
【0006】
この公知のスピーチ認識装置は、次のスピーチ認識動作の間、以前に誤って認識された語を正しく認識するためのスピーチ係数インジケータを調整する調整手段を含む。この結果、スピーカとスピーチに対する調整が改善される。文脈情報とスピーチモデル情報の調整に対しては、訂正されたテキスト情報が評価され、そして音素参照情報の調整に対しても、音声メモリーに格納されているボイス情報が、調整されたスピーチ係数インジケータを得そしてそれをスピーチ係数格納手段に格納するために、評価される。
【0007】
この公知のスピーチ認識装置にこの公知のスピーチ認識方法を使用する場合、例えば、スピーチ認識装置とスピーチ認識方法をオフィスのユーザのコンピュータと自宅の彼のコンピュータの両方で使用したいと考えるユーザは、両方のスピーチ認識装置のスピーチ係数インジケータを訓練しなければならないことは、明らかに不便である。したがって、両方のスピーチ認識装置を、ユーザと使用される言語に調整させ、かつスピーチ認識方法の認識率を、満足なものとするまでには、かなり長い時間がかかる。
【0008】
さらに、スピーチ認識装置が各スピーカに対し調整可能である場合、スピーチ認識装置が、例えば、インターネットに接続されているコンピュータサーバの形態であることは、望ましいことであろう。
【0009】
【課題を解決するための手段】
本発明の目的は、ユーザが、他のスピーチ認識装置においてスピーチ認識方法を用いてユーザによりすでに訓練されたスピーチ係数インジケータを使用することができるスピーチ認識装置とスピーチ認識方法を提供することである。この目的は、請求項1の特徴部の手段を用いた請求項1の於て書き部分において定義されたスピーチ認識装置と、請求項8の特徴部の手段を用いた請求項8の於て書き部分において定義されたスピーチ認識方法とにより達成される。
【0010】
これにより、スピーチ認識装置を形成するユーザの第一コンピュータから、ユーザにより訓練されたスピーチ係数インジケータを、例えば、フロッピーディスクに写し、そしてそれをこのフロッピーディスクからスピーチ認識装置も形成する彼の第二コンピュータに移すことが可能になる。スピーチ係数インジケータは、次いで、スピーチ認識装置の最初のトレーニングの間、ユーザが、所定のテキスト情報をボイス情報としてマイクに発声し、その後、トレーニング手段が、スピーチ係数インジケータをユーザとユーザにより話された言語とに調整するために、発されたボイス情報を所定のテキスト情報に対し集合的に評価することにより、例えば、ユーザが、訓練することができる。
【0011】
これは、このスピーチ認識方法を2つ以上のコンピュータにインストールした、このスピーチ認識装置とこのスピーチ認識方法のユーザが、最後に使用したコンピュータから訓練されたスピーチ係数インジケータをエクスポートし、次いで、これから使用するコンピュータにこの情報をインポートさせることが出来ると言う利点をもたらす。従って、スピーチ認識方法が一人のユーザにより2つのコンピュータに対し実行される場合、最高の認識率が達成される。
【0012】
さらに、これにより、インターネットに接続されているボイス情報により制御されるコンピュータサーバを、ユーザに適応させて、インターネットにも接続されているユーザのコンピュータが、ボイス情報の転送前にコンピュータに格納されているスピーチ係数インジケータをエクスポートしそしてそれをインターネットによりコンピュータサーバに供給するように、させることができる。コンピュータサーバは、次いで、それに対して供給されたスピーチ係数インジケータをインポートしそしてそれをスピーチ係数格納手段に格納することができるので、コンピュータサーバの形態のスピーチ認識装置を、ユーザに調整させ、かつより良い認識率を達成させることが可能となる。
【0013】
請求項3と請求項10に記載の手段によると、トレーニング手段は、ユーザにより話されるいかなるボイス情報も利用する。ユーザのテキスト情報は、スピーチ認識手段により認識され、そのテキスト情報は、ユーザにより訂正され、そしてスピーチ係数インジケータを訓練するかまたは調整するために訂正されたテキスト情報として供給された。
【0014】
これは、スピーチ係数インジケータが、ユーザとユーザにより発声されるスピーチに対しより良くかつより速くなるように調整され、そして良好な認識率が、非常に速い態様で得られると言う利点を提供する。
【0015】
請求項4と請求項11の手段によると、スピーチ係数インジケータのトレーニングインジケータが、ユーザとスピーチに対するスピーチ係数インジケータの調整の程度を示す利点が得られる。調整の程度は、ここでは、例えば、調整手段によりすでに評価された所定のまたは訂正されたテキスト情報の語の合計数により与えることができるが、調整手段により実行されたスピーチ係数インディケータの調整動作の数により与えることもできる。
【0016】
請求項5と請求項12に記載の手段によると、各エクスポートされたスピーチ係数インジケータと共に、関連するトレーニングインジケータもエクスポートし、そしてそれを他のスピーチ認識装置で使用させることが出来ると言う利点が得られる。
【0017】
請求項6と請求項13に記載の手段によると、インポートされたスピーチ係数インジケータのトレーニングインジケータとスピーチ係数格納手段に格納されているスピーチ係数インジケータとの比較が、インポートされたスピーチ係数インジケータが、格納されているスピーチ係数インジケータに比較してユーザに対しすでにより良く調整されていることを示すまで、スピーチ係数インジケータがインポートされないと言う利点が得られる。
【0018】
請求項7と請求項14に記載の手段によると、スピーチ係数インジケータは、例えば、インターネットに接続されているスピーチ認識装置によってエクスポートすることができ、そしてインターネットに接続されている他のスピーチ認識装置によってインターネットにインポートさせると言う利点が得られる。
【0019】
本発明は、さらに、図に表される実施例の具体例の応用の三つの具体例を参照して以下に記載されるが、本発明は、これらに限定されるものではない。
【0020】
【発明を実施するための形態】
図1は、スピーチ認識方法によってスピーチ認識プログラムを実行する、二次スピーチ認識装置を有するディクテーションマシンを形成するコンピュータ1を示す。
【0021】
コンピュータ1には、手で保持することができる入力ユニットを形成するディクテーションマイク2、足により作動させることができる入力ユニットを形成するフットスイッチ3、モニタ4およびキーボード5が接続されている。図2は、ブロックダイヤグラムの形態で更に詳細にディクテーションマイク2を示す。
【0022】
ディクテーションマイク2は、音声受信手段を形成するマイク6を有し、そしてユーザがマイク6に発声するスピーチ通信を受信し、かつ第一アナログ音声信号AS1を供給する。ディクテーションマイク2は、さらに、第一アナログ音声信号AS1を処理し、そして音声情報AIとしてデジタルオーディオデータを供給する音声処理手段7を含む。
【0023】
音声処理手段7は、第一増幅器段8、A/D変換器段A/D 9、第二増幅器段10およびD/A変換器段D/A 11を含む。第一アナログ音声信号AS1は、第一増幅器段8に与えることができ、増幅された第一アナログ音声信号は、A/D変換器段A/D 9に与えることができる。A/D変換器段A/D 9は、増幅されたアナログ音声信号を16kHzのサンプルレートでサンプリングし、そして16ビットデータブロックを有しかつUSB接続手段12に音声情報AIとして供給させることができるデジタル音声データで、サンプル値を供給する。
【0024】
これは、第一アナログ音声信号AS1が、ディクテーションマイクにおいて正しくデジタル化され、そして増幅器段8を、ディクテーションマイク2の製造段階のような早い段階において、マイク6の最大出力電圧に調整することができる利点をもたらす。このようにして、如何なる音声情報も過大変調された増幅器段8により消失することがないので、ディジタル音声データを含むディジタル音声情報AIは、良好な質を有する。
【0025】
ディジタル音声データを含む音声情報AIは、USB接続手段12により音声処理手段7のD/A変換器D/A 11に供給させることができる。ディジタル音声データに対応するアナログ音声信号は、D/A変換器段D/A 11により第二増幅器段10に供給させることができる。第二増幅器段10により供給される第二アナログ音声信号AS2は、音響的に再生されるスピーカ13に与えることができる。
【0026】
ディクテーションマイク2は、さらに、キーボード15、トラックボール16および入力処理手段17を含む、手動入力制御情報SIに対する入力手段14を含む。キーボード15は、とりわけ、レコードキー18、停止キー19、順早送りボタン20および逆早送りボタン21を有する。キーボード15を、入力処理手段17にキー情報TSIを与えるものとすることが出来る。
【0027】
トラックボール16は、例えば、モニタ4に表示されるカーソルを位置決めするためにユーザが回転させることができる、ディクテーションマイク2の開口に埋め込まれたボールにより形成される。トラックボール16により、入力処理手段17にトラックボール情報TBIを供給することも、可能である。入力処理手段17は、キー情報TSIとそれに供給されたトラックボール情報TBIとを処理し、かつ各制御情報SIをUSB接続手段12に供給する。
【0028】
USB接続手段12は、供給電圧Uを、音声処理手段7と入力手段14とに供給し、音声処理手段7と入力手段14に含まれる段に電圧を供給することができる。これは、ディクテーションマイク2が、1本のケーブルリンクのみによりディクテーションマイク2の段から情報と供給電圧Uを受信する利点をもたらす。
【0029】
USB接続手段12は、ディクテーションマイク2の接続22によりコンピュータ1のUSB接続手段23に接続されている。ディクテーションマイク2のUSB接続手段12は、ディジタルデータバスリンクを設定するように、そして加えて、USBデータバスリンク(Universal Serial Bus:1996年1月15日のSpecificationバージョン1.0とバージョン2.0)をコンピュータ1のUSB接続手段23に容易に設定するように、構成されている。
【0030】
USBデータバスリンク上では、エラー訂正コードが、USB接続手段12または23に供給される制御情報SIの音声情報AIまたは制御データの音声データに加えられ、そしてそれらは、送信データUDとしてUSB接続手段23または12に集合的に転送される。送信データUDを受信するUSB接続手段12または23は、エラー訂正コードを評価し、かつ必要に応じて、音声データまたは制御データにおける転送中に発生したエラーを訂正する。USBデータバスリンクにおいて、制御情報SIの制御データは、1.5MBp.s.のデータ転送速度で転送され、音声情報AIの音声データは、12MBp.s.のデータ転送速度で転送される。
【0031】
図3は、ブロックダイヤグラムの形態で図1に示されるフットスイッチ3を詳細に示す。フットスイッチ3は、足により制御情報SIを入力する入力手段24を有する。入力手段24は、音声再生スイッチ25、停止スイッチ26および入力処理手段27を含む。音声再生スイッチ25または停止スイッチ26により生成されるスイッチ情報SCIは、入力処理手段27に供給させることができる。入力処理手段27は、それに与えられるスイッチ情報SCIを処理し、およびフットスイッチ3のUSB接続手段28に各制御情報SIを与える。
【0032】
フットスイッチ3は、さらに、D/A変換器段D/A 30および第三増幅器段31を有する音声処理手段29を含む。音声データを含む音声情報AIは、USB接続手段28により、第三増幅器段31に音声データに対応するアナログ音声信号を供給するD/A変換器段D/A 30に与えることができる。第三増幅器段31により供給される第三アナログ音声信号AS3は、フットスイッチ3に設けられたスピーカ32およびフットスイッチの第一接続33に与えることができる。ヘッドホン34は、第一接続33に接続されている。スピーカ32およびヘッドホン34により、以下に詳細に議論されるスピーチ通信を音響再生させることも可能である。
【0033】
音声処理手段29がフットスイッチ3にマウントされているので、ヘッドホン34またはスピーカを、フットスイッチ3に直接接続させることができる利点が得られる。この結果、ディクテーションマシンを形成するコンピュータ1は、音声処理手段を有するサウンドカードを不必要とする。
【0034】
フットスイッチ3のUSB接続手段28は、USB接続手段12および23に対応する。USB接続手段28は、入力処理手段24および音声処理手段29の両方に供給電圧Uを与え、入力処理手段24に含まれる段および音声処理手段29に電力を供給する。これは、フットスイッチ3が、1本のケーブルリンクのみで通信を受信しかつ供給電圧Uを供給すると言う利点をもたらす。
【0035】
フットスイッチ3のUSB接続手段28は、フットスイッチの第二接続35によりコンピュータ1のUSB接続手段23に接続されている。コンピュータ1は、USB接続手段23および音声格納手段37を有し、そしてスピーカにより発音されるスピーチ通信を受信するように構成されている受信手段36を含む。ディクテーションマイク2のマイク6におけるスピーカにより発されるスピーチ通信は、USB接続手段12からデジタル音声データにより構成された音声情報AIとして、USB接続手段23に、そして音声情報AIとして格納させるためにUSB接続手段23から音声格納手段37に転送させることができる。ディクテーションマイク2のUSB接続手段12から、またはフットスイッチ3のUSB接続手段28からコンピュータ1のUSB接続手段23に与えられる制御情報SIは、USB接続手段23により受信させることができ、さらに、以下に詳細に議論されるコンピュータ1の手段に供給させることができる。
【0036】
コンピュータ1により形成されるスピーチ認識装置は、スピーチ係数インジケータSKIを格納するために設けられているスピーチ係数格納手段38を含む。スピーチ係数インジケータSKIは、スピーチモデルデータSMI、文脈情報WIおよび音素参照情報PRIを含む。
【0037】
文脈情報WIは、文脈格納手段39に格納されていて、そしてスピーチ認識装置と、更にスピーチ通信における語の発生確率を示す語頻度計とによりスピーチ通信において認識させることができる全ての語を含む。スピーチモデルデータSMIは、スピーチモデル格納手段40に格納されていて、そして語シーケンス、およびスピーチ通信におけるこれらの語シーケンスの出現度数を示す語頻度計を含む。音素参照情報PRIは、音素参照格納手段41に格納されていて、そしてスピーチ認識装置をスピーカの発音の特性に調整することを可能にする。
【0038】
スピーチ認識装置は、さらにスピーチ認識手段42を含む。USB接続手段23は、スピーチ認識方法を実施するためにスピーチ認識モードを起動させるためのスピーチ認識手段42に、制御情報SIを供給することができる。活性化スピーチ認識モードにより、スピーチ認識手段42は、音声格納手段37に格納されている音声情報AIを読出し、かつスピーチ係数格納手段38に格納されているスピーチ係数インジケータSKIを読出す。
【0039】
スピーチ認識方法の実行中に、スピーチ認識手段42は、音声情報AIおよびスピーチ係数インジケータSKIを評価する。スピーチ認識手段42は、次いで、音声情報AIの各部分に対して、音声情報AIの各部分に対応する複数の可能性のある語シーケンスを決定し、これらの可能性のある語シーケンスを可能性のあるテキスト情報PTIとして音声情報AIの全ての部分に対して承認しかつ生成する。可能性のあるテキスト情報PTIは、音声情報AIに対し、例えば、20個の可能性のある語シーケンスを含む。さらに、スピーチ認識手段42は、スピーチ認識方法が実行されると、音声情報AIの各部分に対して最も見込みがある語シーケンスを毎回決定し、そして全ての音声情報AIのこれらの最も見込みがある語シーケンスを認識されたテキスト情報RTIとして生成する。
【0040】
スピーチ認識装置は、テキスト情報を格納するためのテキスト格納手段43を有する。テキスト格納手段43は、可能性のあるテキストの格納手段44、認識されたテキストの格納手段45、訂正されたテキストの格納手段46およびトレーニング-テキストの格納手段47を含む。スピーチ認識方法の実行中にスピーチ認識手段42により生成される可能性のあるテキスト情報は、可能性のあるテキストの格納手段44に格納することができ、そして認識されたテキスト情報RTIは認識されたテキストの格納手段45に格納することができる。
【0041】
コンピュータ1は、例えば、Word For Windows 95のようなテキスト処理プログラムを実行するように構成されていて、かつテキスト処理手段48を形成する。スピーチ認識方法の実行中にスピーチ認識手段42により生成された認識されたテキスト情報RTIは、テキスト処理手段48に供給することができる。ここで、テキスト処理手段48は、認識されたテキスト情報RTIを含む画像情報PIをモニタ4に転送するように構成されている。
【0042】
ディクテーションマイク2の入力手段14により、入力制御情報SIを、スピーチ認識手段42およびテキスト処理手段48に与えて、スピーチ認識装置の訂正モードを起動させることが出来る。テキスト処理手段48、モニタ4およびキーボード5は、ここでは、訂正手段49を構成する。訂正モードが起動すると、ユーザは、キーボード5によって、認識されたテキスト情報RTIを訂正し、その訂正されたテキスト情報CTIを訂正されたテキストの格納手段46に格納することが出来る。このことは、以下に、さらに議論される。
【0043】
ある分野(ビジネスレター;放射線の研究分野;法律の研究分野...)の句または語シーケンスの典型的な語を含むトレーニング-テキスト情報TTIは、トレーニング-テキストの格納手段47に格納されている。スピーチ認識手段42およびテキスト処理手段48に与えることができ、かつスピーチ認識装置の初期トレーニングモードを起動させる制御情報SIは、ディクテーションマイク2の入力手段14により入力させることが出来る。
【0044】
初期トレーニングモードが起動されると、テキスト処理手段47は、トレーニング-テキスト格納手段47からトレーニング-テキスト情報TTIを読み出し、そして各画像情報PIをモニタ4に供給するように構成されている。ユーザは、次いで、スピーチ認識装置をユーザの発音の型に調整するためにモニタ4に表示されるトレーニングテキストをマイク6に発声することができる。
【0045】
スピーチ認識装置は、スピーチ-係数格納手段38に格納されているスピーチ係数インジケータSKを、ユーザの発音の型、更に、ユーザにより一般に使用される語および語シーケンスに調整する調整手段50を有する。テキスト格納手段43、訂正手段49および調整手段50は、共に、トレーニング手段51を形成する。スピーチ係数インジケータSKIのこのような調整は、ユーザにより読まれるトレーニング-テキスト情報TTIが知られている状態で、初期トレーニングモードが起動すると、行われる。
【0046】
しかしながら、このような調整は、音声情報に対応するテキスト情報が認識されたテキスト情報RTIと認められ、そしてユーザにより訂正されたテキスト情報CTIに訂正される調整モードにおいても行われる。この目的のために、トレーニング手段51は、認識されたテキスト情報RTIを訂正されたテキスト情報CTIと比較して、少なくともインジケータCIを決定するように構成されているテキスト比較手段52を含む。調整モードがオンとなると、図4に示される調整テーブル53が、テキスト比較手段52に確立される。このテーブルは、以下に詳細に説明される。
【0047】
格納されているスピーチ係数インジケータSKIを調整する調整情報NIである調整の結果は、調整手段50によりスピーチ係数格納手段38に送出させることができる。スピーチ係数格納手段38に格納されているスピーチ係数インジケータSKIの調整の程度を示すトレーニングインジケータTIも、トレーニング手段51の調整手段50により送出させることができる。トレーニングインジケータTIは、スピーチ係数格納手段38に格納されているスピーチ係数インジケータSKIが、どの程度頻繁にかつどれだけ多くの語がユーザにすでに調整されたかについての情報を含む。スピーチ係数インジケータSKIのユーザに調整された回数が多いほど、このユーザに対するスピーチ認識装置の認識率は、良くなる。
【0048】
スピーチ認識装置は、スピーチ係数インジケータSKIをインポートしそしてスピーチ係数格納手段38にインポートされたスピーチ係数インジケータSKIを格納しおよび/またはインジケータSKIがスピーチ係数格納手段38に格納されているスピーチ係数をエクスポートすることを可能にする転送手段54を含む。この目的のために、ユーザは、キーボード5により転送情報TRIを入力し、そして転送手段54にそれを送出することができる。これは、以下にさらに議論される。
【0049】
応用の第一具体例を参照して、ディクテーションマイク2、フットスイッチ3、およびコンピュータにより形成されるディクテーションマシンおよびスピーチ認識装置について、その機能がさらに説明される。応用の第一具体例のもとで、コンピュータ1のユーザが、彼の知人「ジョン("John")」に「Quality」型の三つのコンピュータを注文する手紙を口述したいと考えていると仮定する。この目的のために、ユーザは、ディクテーションマイク2のレコードキー18に触れてそして「親愛なるジョン、私は、ここに私のオフィスハリーに三つのQualityコンピュータを注文する("Dear John I herewith order three Quality computers for my office Harry")」と口述する。この音声情報に対応する音声情報AIは、次いで、ディクテーションマイク2から送信データUDとしてUSB接続手段23に転送され、そして最後に音声格納手段37に格納される。この動作の間、ディクテーションマイク2およびコンピュータ1は、ディクテーションマシンを構成する。
【0050】
ディクテーションマイク2のレコードキー18を作動させることにより、スピーチ認識手段42のスピーチ認識モードを起動させる制御情報SIが、ディクテーションマイク2により送信データUDとしてスピーチ認識手段42にUSB接続手段23を介して与えられる。スピーチ認識手段42の起動されたスピーチ認識モードにおいて、音声格納手段37に格納されている音声情報AIが、読み出され、そしてスピーチ係数格納手段38から読出されたスピーチ係数インジケータSKIと共に評価される。スピーチ認識手段42は、次いで、複数の可能性のある語シーケンスを可能性のあるテキスト情報PTIとして決定し、そして可能性のあるテキストの格納手段44にそれらを格納する。音声情報AIの最初の部分に対しては、可能性のあるテキスト情報PTIは、例えば、「"Hear John why"」、「"Dear John I"」および「"Bear John hi"」の語シーケンスを含む。
【0051】
スピーチ認識手段42は、テキスト情報「親愛なるジョン、私は、ここに私のオフィスマリーに三つのQulityコンピュータをオルガンする("Dear John I herewith organ three Quality computers for my office Mary")」を最も可能性があるテキスト情報として決定し、そしてこれを認識されたテキスト情報RTIとして認識されたテキスト格納手段45に供給する。発声された語「注文する("order")」は、語「オルガン("organ") 」と誤って認識され、そして発声された語「ハリー("Harry")」は、語「メアリー("Mary")」と認識された。
【0052】
スピーチ認識手段42により認識されそして認識されたテキストの格納手段45に格納された認識されたテキスト情報RTIは、次いで、テキスト処理手段48により読出されそしてモニタ4に表示される。ユーザは、2つの発された語「注文する("order")」および「ハリー("Harry")」は、誤って認識されたことを認識し、そして彼/彼女は、その認識されたテキスト情報RTIを訂正したいと思うので、ユーザは、ディクテーションマイク2の入力手段14によりスピーチ認識装置の訂正モードを起動させる。
【0053】
訂正モードが起動されると、ユーザは、フットスイッチ3の音声再生スイッチ25に触れることにより、ヘッドホンまたはスピーカ32によって音声格納手段37に格納されている音声情報AIを音響的に再生することができる。一方、音声情報AIから認識されたテキスト情報は、再生された音声情報AIと同期して、モニタ4に示される。このような同期編集または訂正は、長い間公知であった。
【0054】
ユーザにより認識されたテキスト情報RTIの第一型の訂正の場合、ユーザは、二つの誤って認識された語「オルガン("organ")」と「マリー("Mary")」のみを、元々発声された二つの語「注文する("order")」と「ハリー("Harry")」に訂正する。訂正されたテキスト情報CTIは、テキスト処理手段48内で構成されそして訂正されたテキストの格納手段46に格納される。第一訂正ステップの後、訂正されたテキスト格納手段46に格納されるこの訂正されたテキスト情報CTIは、スピーチ係数インジケータSKIを調整することに非常に適している。これ以降のディクテーションにおいてユーザにより発声される語「注文する("order")」と「ハリー("Harry")」は、以前に調整されたスピーチ係数インジケータSKIにより、次回のスピーチ認識動作の場合には正しく認識されるであろう。
【0055】
実際には、ユーザは、訂正モードが起動すると、第二型の他の訂正も行う。応用の第一具体例のもとで、ユーザが、キーボード5によってすでに訂正されたテキスト情報CTIに、語シーケンス「そして三つの標準コンピュータ("and three Standard computers")」を挿入するので、ユーザは、現在、彼が三つの「標準」型コンピュータを注文したいことを覚えていると、仮定されている。さらに、ユーザは、すでに訂正されたテキスト情報CTIの開始部分の前に、彼の知人「ジョン」への手紙の住所を含むテキストAをコピーする。最後に、ユーザは、訂正されたテキスト情報CTIのすでに訂正されたテキスト情報CTIの後に、このような注文に適用される合意された割引パーセントについての脚注を含むテキストBをコピーする。
【0056】
ユーザは、次いで、ディクテーションの間に、ユーザが発声した音声情報とは何の関係も有しないテキスト部分を認識されたテキスト情報RTIに加える。音声格納手段37には対応する音声情報AIは全く格納されていなかったので、このようなテキスト部分は、音素参照情報PRIを調整するために評価されるべきではない。さらに、情報WIまたはスピーチモデルデータSMIをこのようなテキスト部分に調整することは無意味である。何故ならば、テキストAとテキストBは、ユーザの訂正されたテキスト情報CTIにしばしば含まれているが、ディクテーションにおいてユーザにより発声されることはほとんど無いからである。
【0057】
文脈情報WIとスピーチモデルデータSMIが、ボイス情報とは何の関係も有しないテキスト部分により訓練されると、ユーザは、しばしばJohnに手紙を書き、そして訂正されたテキスト情報CTIに常にアドレスをコピーするので、例えば、知人JohnのアドレスのテキストAに含まれる街路名"Hell Road"の語シーケンスが発生する確率は高い。しかしながら、語シーケンス"Hello Rod"はユーザのディクテーションにおいて相対的に頻繁に発生するが、スピーチモデル格納手段40における語シーケンス"Hello Rod"が、語シーケンス"Hell road"より発生確率が相対的に低いので、ディクテーションにおいて発声される語シーケンス"Hello Rod"は、容易に誤って認識されるであろう。
【0058】
ユーザが彼が望む全ての訂正を行った後、そして訂正されたテキスト情報CTIが、訂正されたテキストの格納手段46に格納された後に、ユーザは、ディクテーションマイク2のキーボード15のキーに触れて、スピーチ認識装置の調整モードを起動させ、そしてスピーチ認識装置のスピーチ係数インジケータSKIを調整する。ディクテーションマイク2は、次いで、USB接続手段23を介して各制御情報SIをスピーチ認識手段42に与える。
【0059】
スピーチ認識装置の起動した調整モードにおいて、調整手段50は、可能性のあるテキストの情報PTI、認識されたテキスト情報RTI、そしてテキスト格納手段43に格納された訂正されたテキスト情報CTIのような、音声格納手段37に格納された音声情報AIを読出すように構成されている。さらに、活性化された調整モードのテキスト比較手段52は、スピーチ係数インジケータSKIの調整に適している訂正されたテキスト情報CTIのテキスト部分を決定する、図4に示される調整テーブル53を提供するように構成されている。
【0060】
この目的のために、まず、認識されたテキスト情報RTIと訂正されたテキスト情報CTIとが調整テーブル53に書き込まれ、誤って認識された語および訂正されかつ挿入された語およびテキスト部分が、太字型で表示される。テキスト比較手段52は、認識されたテキスト情報RTIと訂正されたテキスト情報CTIを比較し、そして対応する語については調整テーブル53の各位置を灰色部分により表示する。認識されたテキスト情報RTIの語「三つのコンピュータ("three computers")」を有するテキスト部分は、訂正されたテキスト情報CTIにおいて、二回見いだされる。
【0061】
さらに、テキスト比較手段52は、認識されたテキスト情報RTIと訂正されたテキスト情報CTIを比較する際に、各テキスト部分に対する対応関係インジケータCIを決定する。テキスト比較手段52は、次いで、テキスト部分が、どれだけ多くの灰色部分により表示されたマッチング語を含むかを決定する。さらに、テキスト比較手段52は、訂正されたテキスト情報CTIにおいて語の各挿入、削除または置換ごとに与えられる1罰則ポイントにより、各テキスト部分に対する罰則ポイントを決定する。テキスト部分の対応関係インジケータCIは、テキスト部分の対応する語および罰則ポイントの数から決定される。
【0062】
テキスト比較手段52により、対応関係インジケータCIに対する最小値MWが決定される。ここで、テキスト部分に対して、4以上の罰則ポイントが、訂正されたテキスト情報CTIの隣接する語を訂正するために与えられると、最小値は越えられない。スピーチ係数インジケータSKIの調整に対しては、その対応関係インジケータCIが最小値MWを超えているテキスト部分のみが使用される。
【0063】
テキスト比較手段52が、テキストAとテキストBに、テキストAとテキストBの語の数に対応する罰則ポイントの数を与えるので、テキスト比較手段52は、調整テーブル53を評価し、そしてテキストAとテキストBの全ての語が、訂正されたテキスト情報CTIに挿入されたことを認識する。テキスト比較手段52は、したがって、テキストAとテキストBに対する、最小値MWより小さい値の対応関係インジケータCIを調整手段50に与える。これは、訂正されたテキスト情報CTIのテキスト部分(この部分は、絶対にボイス情報とは何の関係も有しない)が、スピーチ係数インジケータSKIの調整に使用されない利点をもたらす。
【0064】
調整テーブル53によると、スピーチ係数インジケータSKIの調整に使用することができるテキスト部分は、訂正されたテキスト情報CTIのパスP1とパスP2の可能性を有する。
【0065】
パスP1は、第一テキスト部分「親愛なるジョン、私は、ここに("Dear John I herewith")」を含む。これは、テキスト比較手段52からいかなる罰則ポイントも得ていないので、この対応関係インジケータは、最小値MWを超えている。パスP1は、第一テキスト部分の後に、第二テキスト部分「三つのQuality型コンピュータを注文しそして("order three Quality computers and")」を含む。ここで、第二テキスト部分には、語"order three Quality computers"の挿入と、語"and"の語"organ"による置換とに対して、5罰則ポイント(1)〜(5)が与えられているので、この対応関係インジケータは、最小値MWに達しない。パスP1は、第二テキスト部分の後に、第三テキスト部分「私のオフィスハリーに対し三つの標準コンピュータ("three Standard computers for my office Harry")」を含む。ここで、これは、語"Standard"の挿入に対する1罰則ポイント(6)しか与えられていないので、この対応関係インジケータCIは、最小値MWを超えている。したがって、パスP1に含まれる第一および第三テキスト部分が、原理的にはスピーチ係数インジケータSKIの調整に適する。
【0066】
パスP2は、第四テキスト部分"Dear John I herewith order three Quality computers"を含む。ここで、これは、語"organ"の語"order"による置換に対するテキスト比較手段52からの1罰則ポイント(1)しか得ていないので、この対応関係インジケータCIは、最小値MWを超えている。パスP2は、第四テキスト部分の後に、第五テキスト部分"and three Standard computers"を含む。ここで、これは、この語の挿入に対して4罰則ポイント(2)〜(5)を得ているので、この対応関係インジケータは、最小値MWに達していない。パスP2は、第五テキスト部分の後に、第六テキスト部分"for my office Harry"を含む。ここで、これは、語"Harry"の語"Mary"による置換に対して1罰則ポイント(6)が与えられているので、対応関係インジケータCIは、最小値MWを超えている。したがって、パスP2に含まれる第四および第六テキスト部分が、原理的には、スピーチ係数インジケータSKIの調整に適する。
【0067】
テキスト比較手段52は、合計された最大の対応関係インジケータSCIを有するパスP1またはP2のテキスト部分を決定する。この目的のために、テキスト比較手段52は、パスP1の9語と訂正されたテキスト情報CTIのパスP2の10語が、完全に認識されたテキスト情報RTIの語に対応し、そして調整テーブル53における灰色部分として特徴づけられことを決定する。さらに、テキスト比較手段52は、各パスの罰則ポイントを合計し、パスP1に対して7罰則ポイントが、そしてパスP2に対して6罰則ポイントが決定される。
【0068】
最後に、テキスト比較手段52は、対応する語が10でかつ罰則ポイントが6しかないパスP2のテキスト情報が、認識されたテキスト情報RTIに対しより大きな合計された対応関係を有していて、そしてパスP2のテキスト部分に対してそれぞれ合計されたより高い対応関係インジケータSCIを、調整手段50に供給することを決定する。
【0069】
これは、スピーチ係数インジケータSKIの調整に対しては、例えば、"order"および"Harry"のような第一の型の訂正に対応して訂正された語が、訂正に使用され、そして例えば、ボイス情報とは何の関係も有しない"and three Standard computers"のような第二の型の訂正にによって訂正されたテキスト部分は、調整に使用されないと言う、利点をもたらす。この結果、スピーチ係数インジケータSKIは、ユーザの発音とユーザの典型的な定式化の特色に対し非常に速くそして良好に調整され、スピーチ認識装置の特に良好な認識率が、達成される。
【0070】
スピーチ認識装置の調整モードが活性化された調整手段50は、合計された対応関係インジケータSCIをテキスト比較手段52から受信した後、接続されているテキスト情報CTIのパスP2のテキスト部分を訂正されたテキスト格納手段46から読出しそしてこれらのテキスト部分を評価するように構成されている。
【0071】
各々が、語"order" P2の第四および第六テキスト部分"Dear"、"John"、"I"... "Harry"に割り当てられていて、かつ文脈格納手段39に各語と共に格納されている、頻度計値に対する文脈情報WIの調整に対しては、頻度計値は、ユーザのディクテーションにおける各語の発生の確率を特徴づける。調整に使用されるテキスト部分の語が、初めてユーザにより口述される場合、それは、頻度計の値「1」と共に文脈格納手段39に格納される。
【0072】
スピーチモデル格納手段40に格納されているスピーチモデルデータSMIの調整に対しては、例えば、語シーケンス"I herewith order"に割り当てられている格納された頻度計値は、ユーザのディクテーションにおけるこのような定式化の発生のより高い確率を特徴づけるために値"1"増大させる。
【0073】
音素参照格納手段41に格納されている音素参照情報PRIの調整に対しては、語シークエンスP2の第四および第六テキスト部分のそれらの語のみが、充分に認識されたテキスト情報RTIの語に対応し、かつ灰色部分により調整テーブル53において特徴づけらている、関連する音声情報AIと組み合わせて評価される。加えて、関連音声情報AIを有する可能性のあるテキスト情報PTIの語も、評価させることができる。この目的のために、調整手段50は、第一の型の訂正であるユーザにより置換された語("order"、"Harry")が、音声情報AIのこの部分に対して、可能性のあるテキストの格納手段44に格納されているか否かをチェックする。このような語が可能性のあるテキストの格納手段44に見いだされると、関連する音声情報AIを有するこの語も、音素参照情報PRIを調整するために評価される。
【0074】
これらの調整を含む調整可能な情報NIは、次いで、調整手段50により、スピーチ係数インジケータSKIを調整するスピーチ係数格納手段38に与えられる。同様に、調整手段50は、スピーチ係数格納手段38にすでに格納されているスピーチ係数インジケータSKIが、すでにどれだけ多くの語により訓練されたかを特徴づけているトレーニングインジケータTIを、転送手段54に与える。これは、トレーニングインジケータTIによって、スピーチ認識装置が、すでにユーザに対して良好に調整されているか否かそしてその結果このユーザに対して全ての確立で良好な認識率を有するようになるか否かが、直ちに明白になる利点をもたらす。
【0075】
応用の第二具体例によると、コンピュータ1により形成されるスピーチ認識装置のユーザは、加えて、第二スピーチ認識装置を形成する第二コンピュータも有すると仮定されている。ユーザは、明らかに、彼がすでにコンピュータ1により形成されるスピーチ認識装置(彼は、そのスピーチ認識情報SKIを数ヶ月に渡って訓練して来ている)により達成したものと同程度に良好な認識率を、第二スピーチ認識装置でも達成することを希望するであろう。
【0076】
この目的のために、ユーザはキーボード5のキーを作動させ、転送情報TRIをキーボード5により転送手段54に供給させる。転送手段54が、次いで、スピーチ係数格納手段38に格納されているスピーチ係数インジケータSKIを読出すために使用される。転送手段54は、さらに、読出されたスピーチ係数インジケータSKIとスピーチ係数インジケータSKIのトレーニングインジケータTIを、コンピュータ1のディスクドライブに挿入されるディスク55に格納するために使用される。
【0077】
これは、スピーチ係数格納手段38に格納されていてかつすでにユーザにより訓練されたスピーチ係数インジケータSKIをコンピュータ1からエクスポートすることができる利点をもたらす。さらに、スピーチ係数インジケータSKIを、ユーザの第二コンピュータにインポートすることができる。この結果、ユーザは、さらに、図1に示されるスピーチ認識装置に対応するスピーチ認識装置を形成する、彼が好む数の他のコンピュータにおいて彼により訓練されたスピーチ係数インジケータSKIを使用し、そしてこの態様でこれらのコンピュータによってもスピーチ認識装置の良好な認識率を得ることが出来る。
【0078】
スピーチ係数インジケータSKIがエクスポートされると、スピーチ係数インジケータSKIのトレーニングインジケータTIも一緒にエクスポートされる。一方、スピーチ係数インジケータSKIが、転送手段54からインポートされると、インポートされるスピーチ係数インジケータSKIが、インジケータSKIがスピーチ係数格納手段38に格納されているスピーチ係数よりすでにより良好に訓練されたか否かを、当面、検証させることができる。インポートされるスピーチ係数インジケータSKIが、スピーチ係数格納手段38に格納されているスピーチ係数インジケータSKIより、すでにより良好に訓練されたことを、テストが証明する場合のみ、転送手段54は、スピーチ係数インジケータSKIをインポートする。
【0079】
応用の第三具体例によると、コンピュータ1は、インターネットに接続されているインターネットサーバを形成し、かつコンピュータ1の接続56によりインターネットに接続されていると仮定する。さらに、ディクテーションマシンを形成する別のコンピュータのユーザは、コンピュータ1のホームページ格納手段57に格納されているインターネットサーバのホームページからテキスト情報を問い合わせ、そしてこのテキスト情報は、コンピュータ1の接続56により別のコンピュータに供給されたものと仮定されている。ホームページからのこのテキスト情報は、リンク情報を含み、これにより一般に行われているように、ホームページ格納手段57に格納されている別のテキスト情報を問い合わせることができる。図1に示されるインターネットサーバのスピーチ認識装置は、別のコンピュータのユーザが、別のコンピュータにより供給されるボイス情報によりホームページに示されるリンク情報を起動させることを可能にする。
【0080】
応用の第三具体例のもとで、ユーザは、さらに、ホームページに示されるリンク情報"hotels"を起動させたいと考えていると仮定する。この目的のために、ユーザは別のコンピュータのディクテーションマイクのレコードキーを作動させそしてディクテーションマイクのマイクに、ボイス情報「ホテル("hotel")」と発音する。このボイス情報に含まれる音声情報AIは、その接続56を介してコンピュータ1に与えられ、そして音声情報AIは音声格納手段37に格納される。このボイス情報により活性化されたコンピュータ1のスピーチ認識装置のスピーチ認識モードにおいて、語「ホテル("hotels")」は、認められたテキスト情報RTIとしてスピーチ認識手段42により認識され、そして、このリンク情報に割り当てられたテキスト情報は、コンピュータ1の接続56を介してホームページ格納手段57からユーザの別のコンピュータに転送される。スピーチ認識モードが活性化される前に、別のコンピュータによりエクスポートされそしてインターネットにより接続56に与えられたスピーチ係数インジケータSKIは、今や、転送手段54によりコンピュータ1にインポートされる。この結果、コンピュータ1により形成されるインターネットサーバは、各ユーザに対し調整される。これが、極めて高い認識率が達成される理由である。
【0081】
ユーザのスピーチ係数インジケータSKIを、インターネットサーバに転送される各音声情報AIと共に転送することが出来ることは理解できるであろう。しかしながら、インターネットサーバのホームページが初めて問い合わせらたれたときのみ、ユーザのスピーチ係数インジケータSKIをインターネットサーバに転送し、そしてこのユーザのためにインターネットサーバにスピーチ係数インジケータSKIを格納することは、特に有利である。このユーザの別のコンピュータからの音声情報AIの各別の受信により、インターネットサーバは、スピーチ認識のためにすでに格納されているスピーチ係数インジケータSKIを使用することができる。
【0082】
スピーチ係数インジケータSKIを調整する調整モードは、訂正されたテキスト情報CTIが格納されたあと、自動的に、またはコンピュータ1のキーボード5のキーによりユーザにより活性化させることが出来ることも、理解できるであろう。
【0083】
テキスト部分の対応関係値または実施例の具体例を参照して記載された可能性以外のパスのテキスト部分の合計された対応関係値を決定する他の可能性もあることは、理解できるであろう。さらに、3連続罰則ポイントが与えられる場合、最小値MWに達しないと言う結論は、一例に過ぎないものと理解すべきである。同様に、テキスト部分のある数の語における罰則ポイントのある数を超える罰則ポイントの数を、最小値MWに達しない場合の数と規定してもよい。
【0084】
スピーチ係数インジケータSKIの調整に対しては、原理的にはスピーチ係数インジケータSKIの調整に適するテキスト部分のあるセクションのみを使用すること(テキスト部分の決定は、スピーチ係数インジケータSKIを調整するための実施例の第一具体例を参照して説明された)も、有利であることは、理解できるであろう。例えば、罰則ポイントがテキスト比較手段52により与えられかつ調整テーブル53においてこれらの語に隣接する灰色部分により特徴づけられた語のみが使用される。
【0085】
これは、スピーチ認識動作の間に誤って認識されそしてユーザにより訂正(置換)された語("order"、"Harry")、およびこれらの語に隣接する語が、調整のために使用されると言う利点をもたらす。認識されたテキスト情報RTIに充分対応する、原理的には調整に適するテキスト部分の訂正されたテキスト情報CTIのセクションは、ここでは調整に対して使用されない。何故ならば、これらのセクションがユーザにより訂正されることがまったくできなかったからである。
【0086】
ハンドヘルドの入力ユニットの入力手段を、省電力モードから活性モードにコンピュータを変えるためにコンピュータに制御情報を与えるように構成させることも理解出来るであろう。
【0087】
コンピュータのオペレーティングモードを起動させるために、足で操作する入力装置を、一般に使用することができることも理解出来るであろう。コンピュータに、テレビジョン受信機を形成させることも出来、そしてテレビチャンネルを、フットスイッチにより選択させ、受信されたテレビ放送をモニタに表示させることも出来る。
【0088】
マイクもスピーカもUSB接続手段を有する場合、入力装置のUSB接続手段に接続することができるマイクまたはスピーカも、足で操作する入力装置に接続することができることも、理解できるであろう。この場合、アナログ音声信号の供給に対し、マイクおよびスピーカには音声処理手段が設けられているので、足で操作する入力装置は音声処理手段を有する必要はない。
【0089】
ディジタルデータバスリンクを、例えば、Bluetooth Specification(1998年5月、Bluetooth Special Interest Group)のような、無線周波数無線リンクにより形成することもできることは、理解出来るであろう。これは、入力装置とコンピュータとの間に何のケーブルリンクも必要としない利点をもたらす。
【0090】
また、スピーカを、フットスイッチ3の第一接続33に接続することができることも、理解できるであろう。
【図面の簡単な説明】
【図1】手で保持することができる入力ユニットと足により作動させることができる入力ユニットとが接続されていて、認識されたテキスト情報と訂正されたテキスト情報を比較するテキスト比較手段を含み、そしてスピーチ係数インジケータをインポートしかつエクスポートする転送手段を含むスピーチ認識装置をブロックダイヤグラムの形態で示す。
【図2】手で保持することができ、アナログ音声信号を処理しかつデジタル音声データを供給する音声処理手段を有する図1に示される入力ユニットを、ブロックダイヤグラムの形態で示す。
【図3】足により作動させることができ、ヘッドホンを接続することができ、かつ内蔵スピーカを含む図1に示される入力ユニットをブロックダイヤグラムの形態で示す。
【図4】認識されたテキスト情報と訂正されたテキスト情報とが記入されている、スピーチ認識装置のテキスト比較手段により確立される調整テーブルを示す。
【符号の説明】
2 ディクテーションマイク
3 フットスイッチ
4 モニタ
7 音声処理手段
12 USB接続手段
13 スピーカ
16 トラックボール
17 入力処理手段
12 USB接続手段
23 USB接続手段
24 入力手段
27 入力処理手段
28 USB接続手段
38 スピーチ-係数格納手段
39 文脈格納手段
40 スピーチモデル格納手段
41 音素参照格納手段
42 スピーチ認識手段
43 テキスト格納手段
49 訂正手段
50 調整手段
51 トレーニング手段
AI 音声情報
AS1 第一アナログ音声信号
AS2 第二アナログ音声信号
PRI 音素参照情報
PTI テキスト情報
SI 制御情報
SCI スイッチ情報
SKI スピーチ係数インジケータ
SI 制御情報
SK スピーチ係数インジケータ
SMI スピーチモデルデータ
TBI トラックボール情報
TSI キー情報
TTI トレーニング-テキスト情報
UD 送信データ
WI 文脈情報
Claims (12)
- スピーチ認識装置であって、
話者によって発声されるボイス情報を受信する受信手段と、
スピーチ係数インジケータを格納するスピーチ係数格納手段と、
前記スピーチ係数インジケータを使って前記受信されたボイス情報に対応するテキスト情報を認識するように構成されているスピーチ認識手段と、
ユーザに適応するよう調整されたスピーチ係数インジケータをインポートし、そして前記インポートされたスピーチ係数インジケータを前記スピーチ係数格納手段に格納することを可能にする転送手段とを有しており、
前記スピーチ係数格納手段に格納されているスピーチ係数インジケータおよびユーザーに適応するよう調整されたインポートされたスピーチ係数インジケータがそれぞれ、スピーチ係数インジケータの調整の程度を表すトレーニングインジケータを有しており、
前記転送手段が、インポートされたスピーチ係数インジケータのトレーニングインジケータと格納されているスピーチ係数インジケータのトレーニングインジケータとを比較し、前記トレーニングインジケータの前記比較が、前記インポートされたスピーチ係数インジケータが、前記格納されているスピーチ係数インジケータより大きい程度に調整されていることを示すときにのみ、前記スピーチ係数格納手段に前記インポートされたスピーチ係数インジケータを格納するよう構成されていることを特徴とするスピーチ認識装置。 - 少なくとも記憶装置に格納された既知のトレーニングテキスト情報および該トレーニングテキスト情報に対応するボイス情報を評価することによってユーザーに適応するよう前記格納されたスピーチ係数インジケータを調整する調整手段を含むトレーニング手段をさらに有しており、前記転送手段が、前記スピーチ係数格納手段に格納されている前記スピーチ係数インジケータをエクスポートすることを可能にすることを特徴とする請求項1に記載のスピーチ認識装置。
- 前記トレーニング手段が、ユーザーが前記認識されたテキスト情報を補正できるようにしそして補正されたテキスト情報を供給する補正手段を含んでおり、前記調整手段が、少なくとも前記認識されたテキスト情報および前記認識されたテキスト情報のユーザーによる補正によって作られた補正されたテキスト情報を評価することによって、前記格納されたスピーチ係数インジケータを調整するよう構成されていることを特徴とする請求項2に記載のスピーチ認識装置。
- 前記トレーニング手段が、前記スピーチ係数格納手段に格納されている前記スピーチ係数インジケータの、前記調整手段によってなされた調整の程度を示すトレーニングインジケータを生成するように構成されていることを特徴とする請求項2に記載のスピーチ認識装置。
- 前記スピーチ認識格納手段に格納されているスピーチ係数インジケータがエクスポートされるときに、前記転送手段が、加えて、前記エクスポートされたスピーチ係数インジケータの前記トレーニングインジケータもエクスポートするように構成されていることを特徴とする請求項4に記載のスピーチ認識装置。
- 前記転送手段が、コンピュータネットワークに接続することができることを特徴とする請求項1ないし5のうちいずれか一項に記載のスピーチ認識装置。
- 格納手段に格納されているスピーチ係数インジケータを使ってボイス情報に対応するテキスト情報を認識するスピーチ認識装置によって実行される方法であって、前記方法が、
ユーザーに適応するよう調整されたスピーチ係数インジケータを転送手段によってインポートする段階、
インポートされたスピーチ係数インジケータを前記格納手段に格納する段階とを有しており、
前記格納手段に格納されているスピーチ係数インジケータおよびユーザーに適応するよう調整されたインポートされたスピーチ係数インジケータがそれぞれ、スピーチ係数インジケータの調整の程度を表すトレーニングインジケータを有しており、
当該方法がさらに、インポートされたスピーチ係数インジケータのトレーニングインジケータと格納されているスピーチ係数インジケータのトレーニングインジケータとを比較する段階を有し、
前記トレーニングインジケータの前記比較が、前記インポートされたスピーチ係数インジケータが、前記格納されているスピーチ係数インジケータより大きい程度に調整されていることを示すときにのみ、前記スピーチ係数格納手段に前記インポートされたスピーチ係数インジケータを格納する段階が実行されることを特徴とする、方法。 - 調整手段によって、前記格納されたスピーチ係数インジケータを、少なくとも、記憶装置に格納された既知のトレーニングテキスト情報および該トレーニングテキスト情報に対応するボイス情報を評価することによって調整する段階と、
前記転送手段によって、前記格納されたスピーチ係数インジケータをエクスポートする段階とをさらに有することを特徴とする請求項7に記載の方法。 - ユーザーインターフェースによって、ユーザーが認識されたテキスト情報を補正することを許容して、補正されたテキスト情報を供給する段階と、
少なくとも前記認識されたテキスト情報および該認識されたテキスト情報のユーザーによる補正によって作られた前記補正されたテキスト情報を評価することによって前記格納されたスピーチ係数インジケータを調整する段階とをさらに含むことを特徴とする請求項8に記載の方法。 - 前記格納されたスピーチ係数インジケータの、前記調整手段によってなされた調整の程度を示すトレーニングインジケータを、生成手段によって生成する段階をさらに含むことを特徴とする請求項8に記載の方法。
- 前記生成されたトレーニングインジケータが、前記格納されたスピーチ係数インジケータと共にエクスポートされることを特徴とする請求項10に記載の方法。
- スピーチ係数インジケータが、コンピュータネットワークからインポートされ、そして格納されることができることを特徴とする請求項7ないし11のうちいずれか一項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99890231 | 1999-07-08 | ||
EP99890231.6 | 1999-07-08 | ||
PCT/EP2000/006443 WO2001004875A1 (en) | 1999-07-08 | 2000-07-07 | Speech recognition device with transfer means |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003504675A JP2003504675A (ja) | 2003-02-04 |
JP4659311B2 true JP4659311B2 (ja) | 2011-03-30 |
Family
ID=8243995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001509021A Expired - Fee Related JP4659311B2 (ja) | 1999-07-08 | 2000-07-07 | 転送手段を有するスピーチ認識装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6868379B1 (ja) |
EP (1) | EP1112566B1 (ja) |
JP (1) | JP4659311B2 (ja) |
AT (1) | ATE306116T1 (ja) |
DE (1) | DE60022976T2 (ja) |
WO (1) | WO2001004875A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
CN1204489C (zh) * | 2002-04-03 | 2005-06-01 | 英华达(南京)科技有限公司 | 可同步播放相关联的语音及文字的方法 |
US7263483B2 (en) * | 2003-04-28 | 2007-08-28 | Dictaphone Corporation | USB dictation device |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP5014449B2 (ja) * | 2010-02-26 | 2012-08-29 | シャープ株式会社 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
US9053708B2 (en) * | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
KR102405547B1 (ko) * | 2020-09-15 | 2022-06-07 | 주식회사 퀄슨 | 딥러닝 기반의 발음 평가 시스템 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6191700A (ja) * | 1984-10-11 | 1986-05-09 | 株式会社日立製作所 | 音声入力装置 |
JPS6287993A (ja) * | 1985-10-14 | 1987-04-22 | 松下電器産業株式会社 | 音声認識装置 |
JPH04282699A (ja) * | 1991-03-12 | 1992-10-07 | Ricoh Co Ltd | 音声認識システム |
JPH0695683A (ja) * | 1992-09-10 | 1994-04-08 | Fujitsu Ltd | 音声認識装置 |
JPH07140998A (ja) * | 1992-12-28 | 1995-06-02 | Toshiba Corp | 音声認識インターフェース |
JPH07319494A (ja) * | 1994-05-23 | 1995-12-08 | Nec Robotics Eng Ltd | 大語彙音声認識装置 |
JPH0876785A (ja) * | 1994-09-08 | 1996-03-22 | Nec Corp | 音声認識装置 |
JPH098893A (ja) * | 1995-06-19 | 1997-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識コードレス電話機 |
JPH1152983A (ja) * | 1997-08-07 | 1999-02-26 | Hitachi Eng & Services Co Ltd | 音声認識装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0422121A4 (en) | 1988-06-30 | 1992-05-27 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
AT390685B (de) * | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5684924A (en) * | 1995-05-19 | 1997-11-04 | Kurzweil Applied Intelligence, Inc. | User adaptable speech recognition system |
DE69626115T2 (de) * | 1995-07-27 | 2003-11-20 | British Telecommunications P.L.C., London | Signalqualitätsbewertung |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Ind Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
GB2302199B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
AU4905197A (en) * | 1997-10-20 | 1999-05-10 | Computer Motion, Inc. | General purpose distributed operating room control system |
DE60020504T2 (de) * | 1999-07-08 | 2006-05-04 | Koninklijke Philips Electronics N.V. | Anpassung eines spracherkenners an korrigierte texte |
-
2000
- 2000-07-07 US US09/786,289 patent/US6868379B1/en not_active Expired - Fee Related
- 2000-07-07 EP EP00954445A patent/EP1112566B1/en not_active Expired - Lifetime
- 2000-07-07 JP JP2001509021A patent/JP4659311B2/ja not_active Expired - Fee Related
- 2000-07-07 DE DE60022976T patent/DE60022976T2/de not_active Expired - Lifetime
- 2000-07-07 WO PCT/EP2000/006443 patent/WO2001004875A1/en active IP Right Grant
- 2000-07-07 AT AT00954445T patent/ATE306116T1/de not_active IP Right Cessation
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6191700A (ja) * | 1984-10-11 | 1986-05-09 | 株式会社日立製作所 | 音声入力装置 |
JPS6287993A (ja) * | 1985-10-14 | 1987-04-22 | 松下電器産業株式会社 | 音声認識装置 |
JPH04282699A (ja) * | 1991-03-12 | 1992-10-07 | Ricoh Co Ltd | 音声認識システム |
JPH0695683A (ja) * | 1992-09-10 | 1994-04-08 | Fujitsu Ltd | 音声認識装置 |
JPH07140998A (ja) * | 1992-12-28 | 1995-06-02 | Toshiba Corp | 音声認識インターフェース |
JPH07319494A (ja) * | 1994-05-23 | 1995-12-08 | Nec Robotics Eng Ltd | 大語彙音声認識装置 |
JPH0876785A (ja) * | 1994-09-08 | 1996-03-22 | Nec Corp | 音声認識装置 |
JPH098893A (ja) * | 1995-06-19 | 1997-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識コードレス電話機 |
JPH1152983A (ja) * | 1997-08-07 | 1999-02-26 | Hitachi Eng & Services Co Ltd | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
ATE306116T1 (de) | 2005-10-15 |
US6868379B1 (en) | 2005-03-15 |
DE60022976D1 (de) | 2005-11-10 |
EP1112566B1 (en) | 2005-10-05 |
WO2001004875A1 (en) | 2001-01-18 |
EP1112566A1 (en) | 2001-07-04 |
JP2003504675A (ja) | 2003-02-04 |
DE60022976T2 (de) | 2006-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4145796B2 (ja) | テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム | |
EP1430474B1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
US7155391B2 (en) | Systems and methods for speech recognition and separate dialect identification | |
US6775651B1 (en) | Method of transcribing text from computer voice mail | |
US7490039B1 (en) | Text to speech system and method having interactive spelling capabilities | |
EP0865651B1 (en) | Method of and system for recognizing a spoken text | |
US8447606B2 (en) | Method and system for creating or updating entries in a speech recognition lexicon | |
US20030074195A1 (en) | Speech recognition device to mark parts of a recognized text | |
US6725194B1 (en) | Speech recognition device with text comparing means | |
JP2013152365A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP4659311B2 (ja) | 転送手段を有するスピーチ認識装置 | |
Alapetite | Impact of noise and other factors on speech recognition in anaesthesia | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
JP3936351B2 (ja) | 音声応答サービス装置 | |
JP2003029776A (ja) | 音声認識装置 | |
Ebel et al. | Human speech recognition performance on the 1994 CSR spoke 10 corpus | |
US6856959B1 (en) | Foot switch for a computer | |
JP3614116B2 (ja) | トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体 | |
KR20210142446A (ko) | 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치 | |
JP2005148764A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JPS6032098A (ja) | 音声情報入力装置 | |
JPS59201141A (ja) | 音声情報入力装置 | |
JPH04176244A (ja) | 音声情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070706 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070706 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090519 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100915 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101227 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4659311 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |