JP2003504675A - 転送手段を有するスピーチ認識装置 - Google Patents
転送手段を有するスピーチ認識装置Info
- Publication number
- JP2003504675A JP2003504675A JP2001509021A JP2001509021A JP2003504675A JP 2003504675 A JP2003504675 A JP 2003504675A JP 2001509021 A JP2001509021 A JP 2001509021A JP 2001509021 A JP2001509021 A JP 2001509021A JP 2003504675 A JP2003504675 A JP 2003504675A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- indicator
- speech recognition
- information
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 37
- 238000012937 correction Methods 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims 1
- 230000008676 import Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 35
- 230000008901 benefit Effects 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 210000000056 organ Anatomy 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
、請求項8の於て書き部分において定義したスピーチ認識方法に関する。
031,113号から公知である。この公知のスピーチ認識装置は、マイクの形態の受
信手段と、ディクテーションの間にスピーカが発するスピーチ通信を受けそして
格納する音声メモリーを含む。
必要なスピーチ係数インジケータが格納されるスピーチ係数格納手段を含む。こ
のようなスピーチ係数インジケータは、文脈情報、スピーチモデル情報および音
素参照情報を含む。文脈情報は、スピーチ認識装置が認識することができる全て
の語を含み、スピーチモデル情報は、音声情報における文脈情報の語のシーケン
スに対する確率を含み、そして音素参照情報は、語部分(音素)がスピーカによ
りどのように発音されるかについての情報を含む。
格納手段に格納されているスピーチ係数インジケータにより実行されると、受信
されたボイス情報に対応するテキスト情報を認識し、かつこのテキスト情報を認
識されたテキスト情報として生成するように構成されているスピーチ認識手段を
含む。認識されたテキスト情報は、モニタにより表示される。
テキスト情報を訂正させ、かつ訂正されたテキスト情報として再びモニタにより
表示させることが出来る訂正手段を形成する。
識された語を正しく認識するためのスピーチ係数インジケータを調整する調整手
段を含む。この結果、スピーカとスピーチに対する調整が改善される。文脈情報
とスピーチモデル情報の調整に対しては、訂正されたテキスト情報が評価され、
そして音素参照情報の調整に対しても、音声メモリーに格納されているボイス情
報が、調整されたスピーチ係数インジケータを得そしてそれをスピーチ係数格納
手段に格納するために、評価される。
例えば、スピーチ認識装置とスピーチ認識方法をオフィスのユーザのコンピュー
タと自宅の彼のコンピュータの両方で使用したいと考えるユーザは、両方のスピ
ーチ認識装置のスピーチ係数インジケータを訓練しなければならないことは、明
らかに不便である。したがって、両方のスピーチ認識装置を、ユーザと使用され
る言語に調整させ、かつスピーチ認識方法の認識率を、満足なものとするまでに
は、かなり長い時間がかかる。
認識装置が、例えば、インターネットに接続されているコンピュータサーバの形
態であることは、望ましいことであろう。
を用いてユーザによりすでに訓練されたスピーチ係数インジケータを使用するこ
とができるスピーチ認識装置とスピーチ認識方法を提供することである。この目
的は、請求項1の特徴部の手段を用いた請求項1の於て書き部分において定義され
たスピーチ認識装置と、請求項8の特徴部の手段を用いた請求項8の於て書き部分
において定義されたスピーチ認識方法とにより達成される。
ーザにより訓練されたスピーチ係数インジケータを、例えば、フロッピー(登録 商標)ディスクに写し、そしてそれをこのフロッピーディスクからスピーチ認識 装置も形成する彼の第二コンピュータに移すことが可能になる。スピーチ係数イ ンジケータは、次いで、スピーチ認識装置の最初のトレーニングの間、ユーザが 、所定のテキスト情報をボイス情報としてマイクに発声し、その後、トレーニン グ手段が、スピーチ係数インジケータをユーザとユーザにより話された言語とに 調整するために、発されたボイス情報を所定のテキスト情報に対し集合的に評価 することにより、例えば、ユーザが、訓練することができる。
、このスピーチ認識装置とこのスピーチ認識方法のユーザが、最後に使用したコ
ンピュータから訓練されたスピーチ係数インジケータをエクスポートし、次いで
、これから使用するコンピュータにこの情報をインポートさせることが出来ると
言う利点をもたらす。従って、スピーチ認識方法が一人のユーザにより2つのコ
ンピュータに対し実行される場合、最高の認識率が達成される。
されるコンピュータサーバを、ユーザに適応させて、インターネットにも接続さ
れているユーザのコンピュータが、ボイス情報の転送前にコンピュータに格納さ
れているスピーチ係数インジケータをエクスポートしそしてそれをインターネッ
トによりコンピュータサーバに供給するように、させることができる。コンピュ
ータサーバは、次いで、それに対して供給されたスピーチ係数インジケータをイ
ンポートしそしてそれをスピーチ係数格納手段に格納することができるので、コ
ンピュータサーバの形態のスピーチ認識装置を、ユーザに調整させ、かつより良
い認識率を達成させることが可能となる。
り話されるいかなるボイス情報も利用する。ユーザのテキスト情報は、スピーチ
認識手段により認識され、そのテキスト情報は、ユーザにより訂正され、そして
スピーチ係数インジケータを訓練するかまたは調整するために訂正されたテキス
ト情報として供給された。
ーチに対しより良くかつより速くなるように調整され、そして良好な認識率が、
非常に速い態様で得られると言う利点を提供する。
グインジケータが、ユーザとスピーチに対するスピーチ係数インジケータの調整
の程度を示す利点が得られる。調整の程度は、ここでは、例えば、調整手段によ
りすでに評価された所定のまたは訂正されたテキスト情報の語の合計数により与
えることができるが、調整手段により実行されたスピーチ係数インディケータの
調整動作の数により与えることもできる。
数インジケータと共に、関連するトレーニングインジケータもエクスポートし、
そしてそれを他のスピーチ認識装置で使用させることが出来ると言う利点が得ら
れる。
ンジケータのトレーニングインジケータとスピーチ係数格納手段に格納されてい
るスピーチ係数インジケータとの比較が、インポートされたスピーチ係数インジ
ケータが、格納されているスピーチ係数インジケータに比較してユーザに対しす
でにより良く調整されていることを示すまで、スピーチ係数インジケータがイン
ポートされないと言う利点が得られる。
えば、インターネットに接続されているスピーチ認識装置によってエクスポート
することができ、そしてインターネットに接続されている他のスピーチ認識装置
によってインターネットにインポートさせると言う利点が得られる。
して以下に記載されるが、本発明は、これらに限定されるものではない。
スピーチ認識装置を有するディクテーションマシンを形成するコンピュータ1を
示す。
クテーションマイク2、足により作動させることができる入力ユニットを形成す
るフットスイッチ3、モニタ4およびキーボード5が接続されている。図2は、ブロ
ックダイヤグラムの形態で更に詳細にディクテーションマイク2を示す。
ユーザがマイク6に発声するスピーチ通信を受信し、かつ第一アナログ音声信号A
S1を供給する。ディクテーションマイク2は、さらに、第一アナログ音声信号AS1
を処理し、そして音声情報AIとしてデジタルオーディオデータを供給する音声処
理手段7を含む。
D/A変換器段D/A 11を含む。第一アナログ音声信号AS1は、第一増幅器段8に与え
ることができ、増幅された第一アナログ音声信号は、A/D変換器段A/D 9に与える
ことができる。A/D変換器段A/D 9は、増幅されたアナログ音声信号を16kHzのサ
ンプルレートでサンプリングし、そして16ビットデータブロックを有しかつUSB
接続手段12に音声情報AIとして供給させることができるデジタル音声データで、
サンプル値を供給する。
くデジタル化され、そして増幅器段8を、ディクテーションマイク2の製造段階の
ような早い段階において、マイク6の最大出力電圧に調整することができる利点
をもたらす。このようにして、如何なる音声情報も過大変調された増幅器段8に
より消失することがないので、ディジタル音声データを含むディジタル音声情報
AIは、良好な質を有する。
段7のD/A変換器D/A 11に供給させることができる。ディジタル音声データに対応
するアナログ音声信号は、D/A変換器段D/A 11により第二増幅器段10に供給させ
ることができる。第二増幅器段10により供給される第二アナログ音声信号AS2は
、音響的に再生されるスピーカ13に与えることができる。
び入力処理手段17を含む、手動入力制御情報SIに対する入力手段14を含む。キー
ボード15は、とりわけ、レコードキー18、停止キー19、順早送りボタン20および
逆早送りボタン21を有する。キーボード15を、入力処理手段17にキー情報TSIを
与えるものとすることが出来る。
ためにユーザが回転させることができる、ディクテーションマイク2の開口に埋
め込まれたボールにより形成される。トラックボール16により、入力処理手段17
にトラックボール情報TBIを供給することも、可能である。入力処理手段17は、
キー情報TSIとそれに供給されたトラックボール情報TBIとを処理し、かつ各制御
情報SIをUSB接続手段12に供給する。
声処理手段7と入力手段14に含まれる段に電圧を供給することができる。これは
、ディクテーションマイク2が、1本のケーブルリンクのみによりディクテーショ
ンマイク2の段から情報と供給電圧Uを受信する利点をもたらす。
SB接続手段23に接続されている。ディクテーションマイク2のUSB接続手段12は、
ディジタルデータバスリンクを設定するように、そして加えて、USBデータバス
リンク(Universal Serial Bus:1996年1月15日のSpecificationバージョン1.0
とバージョン2.0)をコンピュータ1のUSB接続手段23に容易に設定するように、
構成されている。
供給される制御情報SIの音声情報AIまたは制御データの音声データに加えられ、
そしてそれらは、送信データUDとしてUSB接続手段23または12に集合的に転送さ
れる。送信データUDを受信するUSB接続手段12または23は、エラー訂正コードを
評価し、かつ必要に応じて、音声データまたは制御データにおける転送中に発生
したエラーを訂正する。USBデータバスリンクにおいて、制御情報SIの制御デー
タは、1.5MBp.s.のデータ転送速度で転送され、音声情報AIの音声データは、12M
Bp.s.のデータ転送速度で転送される。
に示す。フットスイッチ3は、足により制御情報SIを入力する入力手段24を有す
る。入力手段24は、音声再生スイッチ25、停止スイッチ26および入力処理手段27
を含む。音声再生スイッチ25または停止スイッチ26により生成されるスイッチ情
報SCIは、入力処理手段27に供給させることができる。入力処理手段27は、それ
に与えられるスイッチ情報SCIを処理し、およびフットスイッチ3のUSB接続手段2
8に各制御情報SIを与える。
る音声処理手段29を含む。音声データを含む音声情報AIは、USB接続手段28によ
り、第三増幅器段31に音声データに対応するアナログ音声信号を供給するD/A変
換器段D/A 30に与えることができる。第三増幅器段31により供給される第三アナ
ログ音声信号AS3は、フットスイッチ3に設けられたスピーカ32およびフットスイ
ッチの第一接続33に与えることができる。ヘッドホン34は、第一接続33に接続さ
れている。スピーカ32およびヘッドホン34により、以下に詳細に議論されるスピ
ーチ通信を音響再生させることも可能である。
またはスピーカを、フットスイッチ3に直接接続させることができる利点が得ら
れる。この結果、ディクテーションマシンを形成するコンピュータ1は、音声処
理手段を有するサウンドカードを不必要とする。
接続手段28は、入力処理手段24および音声処理手段29の両方に供給電圧Uを与え
、入力処理手段24に含まれる段および音声処理手段29に電力を供給する。これは
、フットスイッチ3が、1本のケーブルリンクのみで通信を受信しかつ供給電圧U
を供給すると言う利点をもたらす。
ピュータ1のUSB接続手段23に接続されている。コンピュータ1は、USB接続手段23
および音声格納手段37を有し、そしてスピーカにより発音されるスピーチ通信を
受信するように構成されている受信手段36を含む。ディクテーションマイク2の
マイク6におけるスピーカにより発されるスピーチ通信は、USB接続手段12からデ
ジタル音声データにより構成された音声情報AIとして、USB接続手段23に、そし
て音声情報AIとして格納させるためにUSB接続手段23から音声格納手段37に転送
させることができる。ディクテーションマイク2のUSB接続手段12から、またはフ
ットスイッチ3のUSB接続手段28からコンピュータ1のUSB接続手段23に与えられる
制御情報SIは、USB接続手段23により受信させることができ、さらに、以下に詳
細に議論されるコンピュータ1の手段に供給させることができる。
ータSKIを格納するために設けられているスピーチ係数格納手段38を含む。スピ
ーチ係数インジケータSKIは、スピーチモデルデータSMI、文脈情報WIおよび音素
参照情報PRIを含む。
、更にスピーチ通信における語の発生確率を示す語頻度計とによりスピーチ通信
において認識させることができる全ての語を含む。スピーチモデルデータSMIは
、スピーチモデル格納手段40に格納されていて、そして語シーケンス、およびス
ピーチ通信におけるこれらの語シーケンスの出現度数を示す語頻度計を含む。音
素参照情報PRIは、音素参照格納手段41に格納されていて、そしてスピーチ認識
装置をスピーカの発音の特性に調整することを可能にする。
スピーチ認識方法を実施するためにスピーチ認識モードを起動させるためのスピ
ーチ認識手段42に、制御情報SIを供給することができる。活性化スピーチ認識モ
ードにより、スピーチ認識手段42は、音声格納手段37に格納されている音声情報
AIを読出し、かつスピーチ係数格納手段38に格納されているスピーチ係数インジ
ケータSKIを読出す。
ーチ係数インジケータSKIを評価する。スピーチ認識手段42は、次いで、音声情
報AIの各部分に対して、音声情報AIの各部分に対応する複数の可能性のある語シ
ーケンスを決定し、これらの可能性のある語シーケンスを可能性のあるテキスト
情報PTIとして音声情報AIの全ての部分に対して承認しかつ生成する。可能性の
あるテキスト情報PTIは、音声情報AIに対し、例えば、20個の可能性のある語シ
ーケンスを含む。さらに、スピーチ認識手段42は、スピーチ認識方法が実行され
ると、音声情報AIの各部分に対して最も見込みがある語シーケンスを毎回決定し
、そして全ての音声情報AIのこれらの最も見込みがある語シーケンスを認識され
たテキスト情報RTIとして生成する。
する。テキスト格納手段43は、可能性のあるテキストの格納手段44、認識された
テキストの格納手段45、訂正されたテキストの格納手段46およびトレーニング-
テキストの格納手段47を含む。スピーチ認識方法の実行中にスピーチ認識手段42
により生成される可能性のあるテキスト情報は、可能性のあるテキストの格納手
段44に格納することができ、そして認識されたテキスト情報RTIは認識されたテ
キストの格納手段45に格納することができる。
認識手段42およびテキスト処理手段48に与えて、スピーチ認識装置の訂正モード
を起動させることが出来る。テキスト処理手段48、モニタ4およびキーボード5は
、ここでは、訂正手段49を構成する。訂正モードが起動すると、ユーザは、キー
ボード5によって、認識されたテキスト情報RTIを訂正し、その訂正されたテキス
ト情報CTIを訂正されたテキストの格納手段46に格納することが出来る。このこ
とは、以下に、さらに議論される。
たは語シーケンスの典型的な語を含むトレーニング-テキスト情報TTIは、トレー
ニング-テキストの格納手段47に格納されている。スピーチ認識手段42およびテ
キスト処理手段48に与えることができ、かつスピーチ認識装置の初期トレーニン
グモードを起動させる制御情報SIは、ディクテーションマイク2の入力手段14に
より入力させることが出来る。
グ-テキスト格納手段47からトレーニング-テキスト情報TTIを読み出し、そして
各画像情報PIをモニタ4に供給するように構成されている。ユーザは、次いで、
スピーチ認識装置をユーザの発音の型に調整するためにモニタ4に表示されるト
レーニングテキストをマイク6に発声することができる。
数インジケータSKを、ユーザの発音の型、更に、ユーザにより一般に使用される
語および語シーケンスに調整する調整手段50を有する。テキスト格納手段43、訂
正手段49および調整手段50は、共に、トレーニング手段51を形成する。スピーチ
係数インジケータSKIのこのような調整は、ユーザにより読まれるトレーニング-
テキスト情報TTIが知られている状態で、初期トレーニングモードが起動すると
、行われる。
れたテキスト情報RTIと認められ、そしてユーザにより訂正されたテキスト情報C
TIに訂正される調整モードにおいても行われる。この目的のために、トレーニン
グ手段51は、認識されたテキスト情報RTIを訂正されたテキスト情報CTIと比較し
て、少なくともインジケータCIを決定するように構成されているテキスト比較手
段52を含む。調整モードがオンとなると、図4に示される調整テーブル53が、テ
キスト比較手段52に確立される。このテーブルは、以下に詳細に説明される。
整の結果は、調整手段50によりスピーチ係数格納手段38に送出させることができ
る。スピーチ係数格納手段38に格納されているスピーチ係数インジケータSKIの
調整の程度を示すトレーニングインジケータTIも、トレーニング手段51の調整手
段50により送出させることができる。トレーニングインジケータTIは、スピーチ
係数格納手段38に格納されているスピーチ係数インジケータSKIが、どの程度頻
繁にかつどれだけ多くの語がユーザにすでに調整されたかについての情報を含む
。スピーチ係数インジケータSKIのユーザに調整された回数が多いほど、このユ
ーザに対するスピーチ認識装置の認識率は、良くなる。
ピーチ係数格納手段38にインポートされたスピーチ係数インジケータSKIを格納
しおよび/またはインジケータSKIがスピーチ係数格納手段38に格納されている
スピーチ係数をエクスポートすることを可能にする転送手段54を含む。この目的
のために、ユーザは、キーボード5により転送情報TRIを入力し、そして転送手段
54にそれを送出することができる。これは、以下にさらに議論される。
およびコンピュータにより形成されるディクテーションマシンおよびスピーチ認
識装置について、その機能がさらに説明される。応用の第一具体例のもとで、コ
ンピュータ1のユーザが、彼の知人「ジョン("John")」に「Quality」型の三つの
コンピュータを注文する手紙を口述したいと考えていると仮定する。この目的の
ために、ユーザは、ディクテーションマイク2のレコードキー18に触れてそして
「親愛なるジョン、私は、ここに私のオフィスハリーに三つのQualityコンピュ
ータを注文する("Dear John I herewith order three Quality computers for m
y office Harry")」と口述する。この音声情報に対応する音声情報AIは、次いで
、ディクテーションマイク2から送信データUDとしてUSB接続手段23に転送され、
そして最後に音声格納手段37に格納される。この動作の間、ディクテーションマ
イク2およびコンピュータ1は、ディクテーションマシンを構成する。
チ認識手段42のスピーチ認識モードを起動させる制御情報SIが、ディクテーショ
ンマイク2により送信データUDとしてスピーチ認識手段42にUSB接続手段23を介し
て与えられる。スピーチ認識手段42の起動されたスピーチ認識モードにおいて、
音声格納手段37に格納されている音声情報AIが、読み出され、そしてスピーチ係
数格納手段38から読出されたスピーチ係数インジケータSKIと共に評価される。
スピーチ認識手段42は、次いで、複数の可能性のある語シーケンスを可能性のあ
るテキスト情報PTIとして決定し、そして可能性のあるテキストの格納手段44に
それらを格納する。音声情報AIの最初の部分に対しては、可能性のあるテキスト
情報PTIは、例えば、「"Hear John why"」、「"Dear John I"」および「"Bear J
ohn hi"」の語シーケンスを含む。
フィスマリーに三つのQulityコンピュータをオルガンする("Dear John I herew
ith organ three Quality computers for my office Mary")」を最も可能性が
あるテキスト情報として決定し、そしてこれを認識されたテキスト情報RTIとし
て認識されたテキスト格納手段45に供給する。発声された語「注文する("order
")」は、語「オルガン("organ") 」と誤って認識され、そして発声された語
「ハリー("Harry")」は、語「メアリー("Mary")」と認識された。
格納された認識されたテキスト情報RTIは、次いで、テキスト処理手段48により
読出されそしてモニタ4に表示される。ユーザは、2つの発された語「注文する(
"order")」および「ハリー("Harry")」は、誤って認識されたことを認識し、
そして彼/彼女は、その認識されたテキスト情報RTIを訂正したいと思うので、
ユーザは、ディクテーションマイク2の入力手段14によりスピーチ認識装置の訂
正モードを起動させる。
5に触れることにより、ヘッドホンまたはスピーカ32によって音声格納手段37に
格納されている音声情報AIを音響的に再生することができる。一方、音声情報AI
から認識されたテキスト情報は、再生された音声情報AIと同期して、モニタ4に
示される。このような同期編集または訂正は、長い間公知であった。
二つの誤って認識された語「オルガン("organ")」と「マリー("Mary")」の
みを、元々発声された二つの語「注文する("order")」と「ハリー("Harry")
」に訂正する。訂正されたテキスト情報CTIは、テキスト処理手段48内で構成さ
れそして訂正されたテキストの格納手段46に格納される。第一訂正ステップの後
、訂正されたテキスト格納手段46に格納されるこの訂正されたテキスト情報CTI
は、スピーチ係数インジケータSKIを調整することに非常に適している。これ以
降のディクテーションにおいてユーザにより発声される語「注文する("order"
)」と「ハリー("Harry")」は、以前に調整されたスピーチ係数インジケータS
KIにより、次回のスピーチ認識動作の場合には正しく認識されるであろう。
用の第一具体例のもとで、ユーザが、キーボード5によってすでに訂正されたテ
キスト情報CTIに、語シーケンス「そして三つの標準コンピュータ("and three
Standard computers")」を挿入するので、ユーザは、現在、彼が三つの「標準
」型コンピュータを注文したいことを覚えていると、仮定されている。さらに、
ユーザは、すでに訂正されたテキスト情報CTIの開始部分の前に、彼の知人「ジ
ョン」への手紙の住所を含むテキストAをコピーする。最後に、ユーザは、訂正
されたテキスト情報CTIのすでに訂正されたテキスト情報CTIの後に、このような
注文に適用される合意された割引パーセントについての脚注を含むテキストBを
コピーする。
何の関係も有しないテキスト部分を認識されたテキスト情報RTIに加える。音声
格納手段37には対応する音声情報AIは全く格納されていなかったので、このよう
なテキスト部分は、音素参照情報PRIを調整するために評価されるべきではない
。さらに、情報WIまたはスピーチモデルデータSMIをこのようなテキスト部分に
調整することは無意味である。何故ならば、テキストAとテキストBは、ユーザの
訂正されたテキスト情報CTIにしばしば含まれているが、ディクテーションにお
いてユーザにより発声されることはほとんど無いからである。
いテキスト部分により訓練されると、ユーザは、しばしばJohnに手紙を書き、そ
して訂正されたテキスト情報CTIに常にアドレスをコピーするので、例えば、知
人JohnのアドレスのテキストAに含まれる街路名"Hell Road"の語シーケンスが発
生する確率は高い。しかしながら、語シーケンス"Hello Rod"はユーザのディク
テーションにおいて相対的に頻繁に発生するが、スピーチモデル格納手段40にお
ける語シーケンス"Hello Rod"が、語シーケンス"Hell road"より発生確率が相対
的に低いので、ディクテーションにおいて発声される語シーケンス"Hello Rod"
は、容易に誤って認識されるであろう。
が、訂正されたテキストの格納手段46に格納された後に、ユーザは、ディクテー
ションマイク2のキーボード15のキーに触れて、スピーチ認識装置の調整モード
を起動させ、そしてスピーチ認識装置のスピーチ係数インジケータSKIを調整す
る。ディクテーションマイク2は、次いで、USB接続手段23を介して各制御情報SI
をスピーチ認識手段42に与える。
るテキストの情報PTI、認識されたテキスト情報RTI、そしてテキスト格納手段43
に格納された訂正されたテキスト情報CTIのような、音声格納手段37に格納され
た音声情報AIを読出すように構成されている。さらに、活性化された調整モード
のテキスト比較手段52は、スピーチ係数インジケータSKIの調整に適している訂
正されたテキスト情報CTIのテキスト部分を決定する、図4に示される調整テーブ
ル53を提供するように構成されている。
情報CTIとが調整テーブル53に書き込まれ、誤って認識された語および訂正され
かつ挿入された語およびテキスト部分が、太字型で表示される。テキスト比較手
段52は、認識されたテキスト情報RTIと訂正されたテキスト情報CTIを比較し、そ
して対応する語については調整テーブル53の各位置を灰色部分により表示する。
認識されたテキスト情報RTIの語「三つのコンピュータ("three computers")」
を有するテキスト部分は、訂正されたテキスト情報CTIにおいて、二回見いださ
れる。
キスト情報CTIを比較する際に、各テキスト部分に対する対応関係インジケータC
Iを決定する。テキスト比較手段52は、次いで、テキスト部分が、どれだけ多く
の灰色部分により表示されたマッチング語を含むかを決定する。さらに、テキス
ト比較手段52は、訂正されたテキスト情報CTIにおいて語の各挿入、削除または
置換ごとに与えられる1罰則ポイントにより、各テキスト部分に対する罰則ポイ
ントを決定する。テキスト部分の対応関係インジケータCIは、テキスト部分の対
応する語および罰則ポイントの数から決定される。
される。ここで、テキスト部分に対して、4以上の罰則ポイントが、訂正された
テキスト情報CTIの隣接する語を訂正するために与えられると、最小値は越えら
れない。スピーチ係数インジケータSKIの調整に対しては、その対応関係インジ
ケータCIが最小値MWを超えているテキスト部分のみが使用される。
の数に対応する罰則ポイントの数を与えるので、テキスト比較手段52は、調整テ
ーブル53を評価し、そしてテキストAとテキストBの全ての語が、訂正されたテキ
スト情報CTIに挿入されたことを認識する。テキスト比較手段52は、したがって
、テキストAとテキストBに対する、最小値MWより小さい値の対応関係インジケー
タCIを調整手段50に与える。これは、訂正されたテキスト情報CTIのテキスト部
分(この部分は、絶対にボイス情報とは何の関係も有しない)が、スピーチ係数
インジケータSKIの調整に使用されない利点をもたらす。
とができるテキスト部分は、訂正されたテキスト情報CTIのパスP1とパスP2の可
能性を有する。
herewith")」を含む。これは、テキスト比較手段52からいかなる罰則ポイント
も得ていないので、この対応関係インジケータは、最小値MWを超えている。パス
P1は、第一テキスト部分の後に、第二テキスト部分「三つのQuality型コンピュ
ータを注文しそして("order three Quality computers and")」を含む。ここ
で、第二テキスト部分には、語"order three Quality computers"の挿入と、語"
and"の語"organ"による置換とに対して、5罰則ポイント(1)〜(5)が与えられてい
るので、この対応関係インジケータは、最小値MWに達しない。パスP1は、第二テ
キスト部分の後に、第三テキスト部分「私のオフィスハリーに対し三つの標準コ
ンピュータ("three Standard computers for my office Harry")」を含む。こ
こで、これは、語"Standard"の挿入に対する1罰則ポイント(6)しか与えられてい
ないので、この対応関係インジケータCIは、最小値MWを超えている。したがって
、パスP1に含まれる第一および第三テキスト部分が、原理的にはスピーチ係数イ
ンジケータSKIの調整に適する。
mputers"を含む。ここで、これは、語"organ"の語"order"による置換に対するテ
キスト比較手段52からの1罰則ポイント(1)しか得ていないので、この対応関係イ
ンジケータCIは、最小値MWを超えている。パスP2は、第四テキスト部分の後に、
第五テキスト部分"and three Standard computers"を含む。ここで、これは、こ
の語の挿入に対して4罰則ポイント(2)〜(5)を得ているので、この対応関係イン
ジケータは、最小値MWに達していない。パスP2は、第五テキスト部分の後に、第
六テキスト部分"for my office Harry"を含む。ここで、これは、語"Harry"の語
"Mary"による置換に対して1罰則ポイント(6)が与えられているので、対応関係イ
ンジケータCIは、最小値MWを超えている。したがって、パスP2に含まれる第四お
よび第六テキスト部分が、原理的には、スピーチ係数インジケータSKIの調整に
適する。
パスP1またはP2のテキスト部分を決定する。この目的のために、テキスト比較手
段52は、パスP1の9語と訂正されたテキスト情報CTIのパスP2の10語が、完全に認
識されたテキスト情報RTIの語に対応し、そして調整テーブル53における灰色部
分として特徴づけられことを決定する。さらに、テキスト比較手段52は、各パス
の罰則ポイントを合計し、パスP1に対して7罰則ポイントが、そしてパスP2に対
して6罰則ポイントが決定される。
ないパスP2のテキスト情報が、認識されたテキスト情報RTIに対しより大きな合
計された対応関係を有していて、そしてパスP2のテキスト部分に対してそれぞれ
合計されたより高い対応関係インジケータSCIを、調整手段50に供給することを
決定する。
よび"Harry"のような第一の型の訂正に対応して訂正された語が、訂正に使用さ
れ、そして例えば、ボイス情報とは何の関係も有しない"and three Standard co
mputers"のような第二の型の訂正にによって訂正されたテキスト部分は、調整に
使用されないと言う、利点をもたらす。この結果、スピーチ係数インジケータSK
Iは、ユーザの発音とユーザの典型的な定式化の特色に対し非常に速くそして良
好に調整され、スピーチ認識装置の特に良好な認識率が、達成される。
関係インジケータSCIをテキスト比較手段52から受信した後、接続されているテ
キスト情報CTIのパスP2のテキスト部分を訂正されたテキスト格納手段46から読
出しそしてこれらのテキスト部分を評価するように構成されている。
"Harry"に割り当てられていて、かつ文脈格納手段39に各語と共に格納されてい
る、頻度計値に対する文脈情報WIの調整に対しては、頻度計値は、ユーザのディ
クテーションにおける各語の発生の確率を特徴づける。調整に使用されるテキス
ト部分の語が、初めてユーザにより口述される場合、それは、頻度計の値「1」
と共に文脈格納手段39に格納される。
に対しては、例えば、語シーケンス"I herewith order"に割り当てられている格
納された頻度計値は、ユーザのディクテーションにおけるこのような定式化の発
生のより高い確率を特徴づけるために値"1"増大させる。
シークエンスP2の第四および第六テキスト部分のそれらの語のみが、充分に認識
されたテキスト情報RTIの語に対応し、かつ灰色部分により調整テーブル53にお
いて特徴づけらている、関連する音声情報AIと組み合わせて評価される。加えて
、関連音声情報AIを有する可能性のあるテキスト情報PTIの語も、評価させるこ
とができる。この目的のために、調整手段50は、第一の型の訂正であるユーザに
より置換された語("order"、"Harry")が、音声情報AIのこの部分に対して、可
能性のあるテキストの格納手段44に格納されているか否かをチェックする。この
ような語が可能性のあるテキストの格納手段44に見いだされると、関連する音声
情報AIを有するこの語も、音素参照情報PRIを調整するために評価される。
チ係数インジケータSKIを調整するスピーチ係数格納手段38に与えられる。同様
に、調整手段50は、スピーチ係数格納手段38にすでに格納されているスピーチ係
数インジケータSKIが、すでにどれだけ多くの語により訓練されたかを特徴づけ
ているトレーニングインジケータTIを、転送手段54に与える。これは、トレーニ
ングインジケータTIによって、スピーチ認識装置が、すでにユーザに対して良好
に調整されているか否かそしてその結果このユーザに対して全ての確立で良好な
認識率を有するようになるか否かが、直ちに明白になる利点をもたらす。
置のユーザは、加えて、第二スピーチ認識装置を形成する第二コンピュータも有
すると仮定されている。ユーザは、明らかに、彼がすでにコンピュータ1により
形成されるスピーチ認識装置(彼は、そのスピーチ認識情報SKIを数ヶ月に渡っ
て訓練して来ている)により達成したものと同程度に良好な認識率を、第二スピ
ーチ認識装置でも達成することを希望するであろう。
ーボード5により転送手段54に供給させる。転送手段54が、次いで、スピーチ係
数格納手段38に格納されているスピーチ係数インジケータSKIを読出すために使
用される。転送手段54は、さらに、読出されたスピーチ係数インジケータSKIと
スピーチ係数インジケータSKIのトレーニングインジケータTIを、コンピュータ1
のディスクドライブに挿入されるディスク55に格納するために使用される。
練されたスピーチ係数インジケータSKIをコンピュータ1からエクスポートするこ
とができる利点をもたらす。さらに、スピーチ係数インジケータSKIを、ユーザ
の第二コンピュータにインポートすることができる。この結果、ユーザは、さら
に、図1に示されるスピーチ認識装置に対応するスピーチ認識装置を形成する、
彼が好む数の他のコンピュータにおいて彼により訓練されたスピーチ係数インジ
ケータSKIを使用し、そしてこの態様でこれらのコンピュータによってもスピー
チ認識装置の良好な認識率を得ることが出来る。
ケータSKIのトレーニングインジケータTIも一緒にエクスポートされる。一方、
スピーチ係数インジケータSKIが、転送手段54からインポートされると、インポ
ートされるスピーチ係数インジケータSKIが、インジケータSKIがスピーチ係数格
納手段38に格納されているスピーチ係数よりすでにより良好に訓練されたか否か
を、当面、検証させることができる。インポートされるスピーチ係数インジケー
タSKIが、スピーチ係数格納手段38に格納されているスピーチ係数インジケータS
KIより、すでにより良好に訓練されたことを、テストが証明する場合のみ、転送
手段54は、スピーチ係数インジケータSKIをインポートする。
いるインターネットサーバを形成し、かつコンピュータ1の接続56によりインタ
ーネットに接続されていると仮定する。さらに、ディクテーションマシンを形成
する別のコンピュータのユーザは、コンピュータ1のホームページ格納手段57に
格納されているインターネットサーバのホームページからテキスト情報を問い合
わせ、そしてこのテキスト情報は、コンピュータ1の接続56により別のコンピュ
ータに供給されたものと仮定されている。ホームページからのこのテキスト情報
は、リンク情報を含み、これにより一般に行われているように、ホームページ格
納手段57に格納されている別のテキスト情報を問い合わせることができる。図1
に示されるインターネットサーバのスピーチ認識装置は、別のコンピュータのユ
ーザが、別のコンピュータにより供給されるボイス情報によりホームページに示
されるリンク情報を起動させることを可能にする。
ク情報"hotels"を起動させたいと考えていると仮定する。この目的のために、ユ
ーザは別のコンピュータのディクテーションマイクのレコードキーを作動させそ
してディクテーションマイクのマイクに、ボイス情報「ホテル("hotel")」と
発音する。このボイス情報に含まれる音声情報AIは、その接続56を介してコンピ
ュータ1に与えられ、そして音声情報AIは音声格納手段37に格納される。このボ
イス情報により活性化されたコンピュータ1のスピーチ認識装置のスピーチ認識
モードにおいて、語「ホテル("hotels")」は、認められたテキスト情報RTIと
してスピーチ認識手段42により認識され、そして、このリンク情報に割り当てら
れたテキスト情報は、コンピュータ1の接続56を介してホームページ格納手段57
からユーザの別のコンピュータに転送される。スピーチ認識モードが活性化され
る前に、別のコンピュータによりエクスポートされそしてインターネットにより
接続56に与えられたスピーチ係数インジケータSKIは、今や、転送手段54により
コンピュータ1にインポートされる。この結果、コンピュータ1により形成される
インターネットサーバは、各ユーザに対し調整される。これが、極めて高い認識
率が達成される理由である。
る各音声情報AIと共に転送することが出来ることは理解できるであろう。しかし
ながら、インターネットサーバのホームページが初めて問い合わせらたれたとき
のみ、ユーザのスピーチ係数インジケータSKIをインターネットサーバに転送し
、そしてこのユーザのためにインターネットサーバにスピーチ係数インジケータ
SKIを格納することは、特に有利である。このユーザの別のコンピュータからの
音声情報AIの各別の受信により、インターネットサーバは、スピーチ認識のため
にすでに格納されているスピーチ係数インジケータSKIを使用することができる
。
情報CTIが格納されたあと、自動的に、またはコンピュータ1のキーボード5のキ
ーによりユーザにより活性化させることが出来ることも、理解できるであろう。
以外のパスのテキスト部分の合計された対応関係値を決定する他の可能性もある
ことは、理解できるであろう。さらに、3連続罰則ポイントが与えられる場合、
最小値MWに達しないと言う結論は、一例に過ぎないものと理解すべきである。同
様に、テキスト部分のある数の語における罰則ポイントのある数を超える罰則ポ
イントの数を、最小値MWに達しない場合の数と規定してもよい。
ンジケータSKIの調整に適するテキスト部分のあるセクションのみを使用するこ
と(テキスト部分の決定は、スピーチ係数インジケータSKIを調整するための実
施例の第一具体例を参照して説明された)も、有利であることは、理解できるで
あろう。例えば、罰則ポイントがテキスト比較手段52により与えられかつ調整テ
ーブル53においてこれらの語に隣接する灰色部分により特徴づけられた語のみが
使用される。
換)された語("order"、"Harry")、およびこれらの語に隣接する語が、調整の
ために使用されると言う利点をもたらす。認識されたテキスト情報RTIに充分対
応する、原理的には調整に適するテキスト部分の訂正されたテキスト情報CTIの
セクションは、ここでは調整に対して使用されない。何故ならば、これらのセク
ションがユーザにより訂正されることがまったくできなかったからである。
ンピュータを変えるためにコンピュータに制御情報を与えるように構成させるこ
とも理解出来るであろう。
力装置を、一般に使用することができることも理解出来るであろう。コンピュー
タに、テレビジョン受信機を形成させることも出来、そしてテレビチャンネルを
、フットスイッチにより選択させ、受信されたテレビ放送をモニタに表示させる
ことも出来る。
することができるマイクまたはスピーカも、足で操作する入力装置に接続するこ
とができることも、理解できるであろう。この場合、アナログ音声信号の供給に
対し、マイクおよびスピーカには音声処理手段が設けられているので、足で操作
する入力装置は音声処理手段を有する必要はない。
月、Bluetooth Special Interest Group)のような、無線周波数無線リンクによ
り形成することもできることは、理解出来るであろう。これは、入力装置とコン
ピュータとの間に何のケーブルリンクも必要としない利点をもたらす。
とも、理解できるであろう。
きる入力ユニットとが接続されていて、認識されたテキスト情報と訂正されたテ
キスト情報を比較するテキスト比較手段を含み、そしてスピーチ係数インジケー
タをインポートしかつエクスポートする転送手段を含むスピーチ認識装置をブロ
ックダイヤグラムの形態で示す。
データを供給する音声処理手段を有する図1に示される入力ユニットを、ブロッ
クダイヤグラムの形態で示す。
つ内蔵スピーカを含む図1に示される入力ユニットをブロックダイヤグラムの形
態で示す。
、スピーチ認識装置のテキスト比較手段により確立される調整テーブルを示す。
Claims (14)
- 【請求項1】 スピーカによって発声されるボイス情報を受信する受信手段を有し、 スピーチ係数インジケータを格納するスピーチ係数格納手段と、 前記ボイス情報と前記スピーチ係数インジケータの評価によって前記受信され
たボイス情報に対応するテキスト情報を認識するように構成されているスピーチ
認識手段とを 含むスピーチ認識装置において、 スピーチ係数インジケータをインポートし、そして前記インポートされたスピ
ーチ係数インジケータを前記スピーチ係数格納手段に格納するように、転送手段
が設けられていることを特徴とするスピーチ認識装置。 - 【請求項2】 少なくともテキスト情報を評価することによって前記格納された言語係数イン
ジケータを訓練するように、トレーニング手段が構成されていて、そして 前記転送手段が、前記スピーチ係数格納手段に格納されている前記スピーチ係
数インジケータをエクスポートすることが可能であることを特徴とする請求項1
に記載のスピーチ認識装置。 - 【請求項3】 前記トレーニング手段が、前記認識されたテキスト情報を補正しそして補正さ
れたテキスト情報を供給する補正手段と、 少なくとも前記補正されたテキスト情報の評価によって、前記格納されたスピー
チ係数インジケータを調整する調整手段とを含むことを特徴とする請求項2に記
載のスピーチ認識装置。 - 【請求項4】 前記トレーニング手段が、前記スピーチ係数格納手段に格納されている前記ス
ピーチ係数インジケータの調整の程度を示すトレーニングインジケータを生成す
るように構成されていることを特徴とする請求項2に記載のスピーチ認識装置。 - 【請求項5】 前記スピーチ認識格納手段に格納されているスピーチ係数インジケータがエク
スポートされるときに、前記転送手段が、加えて、前記エクスポートされたスピ
ーチ係数インジケータの前記トレーニングインジケータもエクスポートするよう
に構成されていることを特徴とする請求項4に記載のスピーチ認識装置。 - 【請求項6】 スピーチ係数インジケータがインポートされるときに、前記転送手段が、イン
ポートされたトレーニングインジケータと前記トレーニング手段によって生成さ
れたトレーニングインジケータとを比較するように構成されていて、そして 前記トレーニングインジケータの前記比較が、前記インポートされたスピーチ
係数インジケータが、前記格納されているスピーチ係数インジケータより、より
大きい程度に訓練されていることを示すときのみ、前記転送手段が、前記スピー
チ係数格納手段に前記インポートされたスピーチ係数インジケータを格納するこ
とができることを特徴とする請求項4に記載のスピーチ認識装置。 - 【請求項7】 前記転送手段が、コンピュータネットワークに接続することができることを特
徴とする請求項1に記載のスピーチ認識装置。 - 【請求項8】 ボイス情報に対応するテキスト情報を認識するスピーチ認識方法であって、 前記方法が、ボイス情報を受信し、前記受信されたボイス情報と格納されたス
ピーチ係数インジケータを評価し、そして認識されたテキスト情報を供給する、
各工程を含む スピーチ認識方法において、 スピーチ係数インジケータが、インポートされ、かつ格納されることを特徴と
するスピーチ認識方法。 - 【請求項9】 前記格納されたスピーチ係数インジケータが、テキスト情報の少なくとも一つ
の部分の評価によって訓練され、そして前記格納されたスピーチ係数インジケー
タが、エクスポートされることを特徴とする請求項8に記載のスピーチ認識方法
。 - 【請求項10】 前記格納されたスピーチ係数インジケータの前記トレーニングが、前記認識さ
れたテキスト情報の補正と、補正されたテキスト情報を供給しかつ少なくとも前
記補正されたテキスト情報を評価することによって前記格納されたスピーチ係数
インジケータを調整することとを含むことを特徴とする請求項9に記載のスピー
チ認識方法。 - 【請求項11】 前記格納されたスピーチ係数インジケータの前記調整の程度を示すトレーニン
グインジケータが、生成されることを特徴とする請求項9に記載のスピーチ認識
方法。 - 【請求項12】 前記生成されたトレーニングインジケータが、前記格納されたスピーチ係数イ
ンジケータと共にエクスポートされることを特徴とする請求項11に記載のスピー
チ認識方法。 - 【請求項13】 スピーチ係数インジケータがインポートされるとき、前記格納されたスピーチ
係数インジケータの前記インポートされたトレーニングインジケータと前記生成
されたトレーニングインジケータが、比較され、そして 前記トレーニングインジケータの前記比較が、前記インポートされたスピーチ
係数インジケータが、前記格納されたスピーチ係数インジケータより、より大き
い程度にまで訓練されたことを示すまで、 前記インポートされたスピーチ係数
インジケータが格納されないことを特徴とする請求項11に記載のスピーチ認識方
法。 - 【請求項14】 スピーチ係数インジケータが、コンピュータネットワークからインポートさせ
、そして格納させることができることを特徴とする請求項8に記載のスピーチ認
識方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99890231 | 1999-07-08 | ||
EP99890231.6 | 1999-07-08 | ||
PCT/EP2000/006443 WO2001004875A1 (en) | 1999-07-08 | 2000-07-07 | Speech recognition device with transfer means |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003504675A true JP2003504675A (ja) | 2003-02-04 |
JP4659311B2 JP4659311B2 (ja) | 2011-03-30 |
Family
ID=8243995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001509021A Expired - Fee Related JP4659311B2 (ja) | 1999-07-08 | 2000-07-07 | 転送手段を有するスピーチ認識装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6868379B1 (ja) |
EP (1) | EP1112566B1 (ja) |
JP (1) | JP4659311B2 (ja) |
AT (1) | ATE306116T1 (ja) |
DE (1) | DE60022976T2 (ja) |
WO (1) | WO2001004875A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
CN1204489C (zh) * | 2002-04-03 | 2005-06-01 | 英华达(南京)科技有限公司 | 可同步播放相关联的语音及文字的方法 |
US7263483B2 (en) * | 2003-04-28 | 2007-08-28 | Dictaphone Corporation | USB dictation device |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP5014449B2 (ja) * | 2010-02-26 | 2012-08-29 | シャープ株式会社 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
US9053708B2 (en) * | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
KR102405547B1 (ko) * | 2020-09-15 | 2022-06-07 | 주식회사 퀄슨 | 딥러닝 기반의 발음 평가 시스템 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6191700A (ja) * | 1984-10-11 | 1986-05-09 | 株式会社日立製作所 | 音声入力装置 |
JPH04282699A (ja) * | 1991-03-12 | 1992-10-07 | Ricoh Co Ltd | 音声認識システム |
JPH0695683A (ja) * | 1992-09-10 | 1994-04-08 | Fujitsu Ltd | 音声認識装置 |
JPH07140998A (ja) * | 1992-12-28 | 1995-06-02 | Toshiba Corp | 音声認識インターフェース |
JPH07319494A (ja) * | 1994-05-23 | 1995-12-08 | Nec Robotics Eng Ltd | 大語彙音声認識装置 |
JPH0876785A (ja) * | 1994-09-08 | 1996-03-22 | Nec Corp | 音声認識装置 |
JPH098893A (ja) * | 1995-06-19 | 1997-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識コードレス電話機 |
JPH1152983A (ja) * | 1997-08-07 | 1999-02-26 | Hitachi Eng & Services Co Ltd | 音声認識装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6287993A (ja) * | 1985-10-14 | 1987-04-22 | 松下電器産業株式会社 | 音声認識装置 |
EP0422121A4 (en) | 1988-06-30 | 1992-05-27 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
AT390685B (de) * | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5684924A (en) * | 1995-05-19 | 1997-11-04 | Kurzweil Applied Intelligence, Inc. | User adaptable speech recognition system |
DE69626115T2 (de) * | 1995-07-27 | 2003-11-20 | British Telecommunications P.L.C., London | Signalqualitätsbewertung |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Ind Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
GB2302199B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
AU4905197A (en) * | 1997-10-20 | 1999-05-10 | Computer Motion, Inc. | General purpose distributed operating room control system |
DE60020504T2 (de) * | 1999-07-08 | 2006-05-04 | Koninklijke Philips Electronics N.V. | Anpassung eines spracherkenners an korrigierte texte |
-
2000
- 2000-07-07 US US09/786,289 patent/US6868379B1/en not_active Expired - Fee Related
- 2000-07-07 EP EP00954445A patent/EP1112566B1/en not_active Expired - Lifetime
- 2000-07-07 JP JP2001509021A patent/JP4659311B2/ja not_active Expired - Fee Related
- 2000-07-07 DE DE60022976T patent/DE60022976T2/de not_active Expired - Lifetime
- 2000-07-07 WO PCT/EP2000/006443 patent/WO2001004875A1/en active IP Right Grant
- 2000-07-07 AT AT00954445T patent/ATE306116T1/de not_active IP Right Cessation
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6191700A (ja) * | 1984-10-11 | 1986-05-09 | 株式会社日立製作所 | 音声入力装置 |
JPH04282699A (ja) * | 1991-03-12 | 1992-10-07 | Ricoh Co Ltd | 音声認識システム |
JPH0695683A (ja) * | 1992-09-10 | 1994-04-08 | Fujitsu Ltd | 音声認識装置 |
JPH07140998A (ja) * | 1992-12-28 | 1995-06-02 | Toshiba Corp | 音声認識インターフェース |
JPH07319494A (ja) * | 1994-05-23 | 1995-12-08 | Nec Robotics Eng Ltd | 大語彙音声認識装置 |
JPH0876785A (ja) * | 1994-09-08 | 1996-03-22 | Nec Corp | 音声認識装置 |
JPH098893A (ja) * | 1995-06-19 | 1997-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識コードレス電話機 |
JPH1152983A (ja) * | 1997-08-07 | 1999-02-26 | Hitachi Eng & Services Co Ltd | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
ATE306116T1 (de) | 2005-10-15 |
US6868379B1 (en) | 2005-03-15 |
DE60022976D1 (de) | 2005-11-10 |
EP1112566B1 (en) | 2005-10-05 |
WO2001004875A1 (en) | 2001-01-18 |
JP4659311B2 (ja) | 2011-03-30 |
EP1112566A1 (en) | 2001-07-04 |
DE60022976T2 (de) | 2006-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7155391B2 (en) | Systems and methods for speech recognition and separate dialect identification | |
JP4241376B2 (ja) | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 | |
US6775651B1 (en) | Method of transcribing text from computer voice mail | |
JP4481972B2 (ja) | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム | |
EP0965978A1 (en) | Non-interactive enrollment in speech recognition | |
KR19990071605A (ko) | 구두텍스트인식방법및시스템 | |
JPH10507536A (ja) | 言語認識 | |
US20090220926A1 (en) | System and Method for Correcting Speech | |
US6725194B1 (en) | Speech recognition device with text comparing means | |
JP4659311B2 (ja) | 転送手段を有するスピーチ認識装置 | |
US20050080626A1 (en) | Voice output device and method | |
Alapetite | Impact of noise and other factors on speech recognition in anaesthesia | |
Ebel et al. | Human speech recognition performance on the 1994 CSR spoke 10 corpus | |
US20030167169A1 (en) | Method of nonvisual enrollment for speech recognition | |
US6856959B1 (en) | Foot switch for a computer | |
JP3614116B2 (ja) | トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体 | |
KR102362815B1 (ko) | 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치 | |
JP2005241767A (ja) | 音声認識装置 | |
WO2001004740A1 (en) | Dictation microphone for a computer | |
JP2022181361A (ja) | 学習支援システム | |
JPS6032098A (ja) | 音声情報入力装置 | |
JP2005148764A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP2001166785A (ja) | 音声対話コーパスの作成装置及び方法 | |
JPS59201141A (ja) | 音声情報入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070706 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070706 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090519 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100915 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101227 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4659311 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |