JP2003504674A - スピーチ認識装置とテキスト比較手段 - Google Patents

スピーチ認識装置とテキスト比較手段

Info

Publication number
JP2003504674A
JP2003504674A JP2001509020A JP2001509020A JP2003504674A JP 2003504674 A JP2003504674 A JP 2003504674A JP 2001509020 A JP2001509020 A JP 2001509020A JP 2001509020 A JP2001509020 A JP 2001509020A JP 2003504674 A JP2003504674 A JP 2003504674A
Authority
JP
Japan
Prior art keywords
information
speech
text
indicator
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001509020A
Other languages
English (en)
Inventor
ヘインリッヒ バルトシク
ウォルタ ミューラ
マーティン シャッツ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2003504674A publication Critical patent/JP2003504674A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 受信されたボイス情報と十分に関係する訂正されたテキスト情報のみが、スピーチ係数インジケータの調整に使用される、スピーチ認識装置とスピーチ認識方法を提供すること。 【解決手段】 スピーチ認識装置(1)であって、話し手によって発声されたボイス情報(AI)を受信するための受信手段(36)を有し、スピーチ係数インジケータ(SKI、PRI、SMI、WI)を格納するためのスピーチ係数メモリ手段(38)を有し、ボイス情報(AI)とスピーチ係数インジケータ(SKI、PRI、SMI、WI)を評価することによって、受信されたボイス情報(AI)に一致するテキスト情報を認識するように構成されているスピーチ認識手段(42)を有し、認識されたテキスト情報(RTI)を訂正し、訂正されたテキスト情報(CTI)を生成するための訂正手段(49)を有し、少なくとも訂正されたテキスト情報(CTI)を評価することによって、格納されたスピーチ係数インジケータ(SKI、PRI、SMI、WI)を調整するための調整手段(50)を有する、スピーチ認識装置において、テキスト比較手段(52)が、認識されたテキスト情報(RTI)と訂正されたテキスト情報(CTI)を比較し、少なくとも1つの一致インジケータ(CI)を決定するために備えられていて、調整手段(50)が、一致インジケータ(CI)が最小値(MW)を有する訂正されたテキスト情報(CTI)の1つのテキストパート(P2)のみを評価することによって、格納されたスピーチ係数インジケータ(SKI、PRI、SMI、WI)を調整するように構成されている、スピーチ認識装置。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】
本発明は、請求項1の於て書きに記載のスピーチ認識装置に関し、また、請求
項6の於て書きに記載のスピーチ認識方法にも関する。
【0002】
【従来の技術】
このようなスピーチ認識装置とこのようなスピーチ認識方法は、US 5,031,113
から公知である。この公知のスピーチ認識装置は、ディクテーションにおいて話
し手によって発声されるスピーチ伝達情報を受信および格納するためのマイクロ
フォンとオーディオメモリによって形成される受信手段を含む。
【0003】 公知のスピーチ認識装置は、さらに、スピーチ認識方法の実行に必要なスピー
チ係数インジケータが格納されるスピーチ係数メモリ手段を含む。このスピーチ
係数インジケータは、コンテキスト情報、音声モデルデータ、音素参照情報を含
む。コンテキスト情報は、スピーチ認識装置によって認識できるワードすべてを
含み、音声モデルデータは、ボイス情報の中のコンテキスト情報のワードのシー
ケンスの確率を含み、音素参照情報は、ワードポーション(word portion)(音
素)が話し手によってどのように発音されるかの情報を含む。
【0004】 公知のスピーチ認識装置は、さらに、スピーチ認識方法の実行中に、スピーチ
係数メモリ手段に格納されているスピーチ係数インジケータを評価することによ
って、受信されたボイス情報に一致するテキスト情報を認識し、そのテキスト情
報を認識されたテキスト情報として送るように配置されたスピーチ認識手段を含
む。認識されたテキスト情報は、モニタによって表示される。
【0005】 テキスト処理プログラムとキーボードは、モニタによって表示された認識され
たテキスト情報を訂正し、訂正されたテキスト情報としてモニタに再び表示する
訂正手段を形成する。基本的に、使用者は、スピーチ認識処理時に誤って認識さ
れたテキスト情報のワードを、実際に話したワードに置き換え、その一方で、別
の訂正も行う。別の訂正とは、例えば、住所など標準的なテキスト部分を例えば
、挿入したり、ディクテーション時に話し忘れたテキスト部分を挿入する、ある
いは認識されたテキスト情報のテキスト部分をキーボードによって入力されるテ
キスト情報に置換するなどである。
【0006】 公知のスピーチ認識装置は、前に誤って認識されたワードを、それ以降にスピ
ーチ認識処理において正しく認識するために、話し手と言語に対するより良好な
調整によってスピーチ係数インジケータを調整するための調整手段を含む。コン
テキスト情報と音声モデルデータを調整するため、訂正されたテキスト情報が評
価され、音素参照情報を調整するため、オーディオメモリに格納されているボイ
ス情報も評価され、調整されたスピーチ係数インジケータを生成し、それをスピ
ーチ係数メモリ手段に格納する。
【0007】 この公知のスピーチ認識装置とこの公知のスピーチ認識方法では、スピーチ係
数インジケータの調整に使われる訂正されたテキスト情報に、ボイス情報とまっ
たく関係ないテキスト部分も含まれてしまうことが欠点であることが判明してい
る。スピーチ係数インジケータの調整にこのようなテキスト部分が使われると、
調整の後に、スピーチ係数インジケータが、話し手と言語にとってより良好では
なく、より悪く調整されているということが起こりうる。
【0008】
【課題を解決するための手段】
本発明の目的は、受信されたボイス情報と十分に関係する訂正されたテキスト
情報のみが、スピーチ係数インジケータの調整に使われる、スピーチ認識装置と
スピーチ認識方法を提供することである。この目的は、請求項1の於て書きに記
載のスピーチ認識装置において、請求項1の特徴記載部の方策によって、および
請求項6の於て書きに記載のスピーチ認識方法において、請求項6の特徴記載部の
方策によって、達成される。
【0009】 このことは、スピーチ係数インジケータの調整の前に、訂正されたテキスト情
報に、大きく訂正されたテキストワード、またはまったく新しく挿入されたワー
ドが含まれるか否かのテストが行われ、そのようなテキストワードがスピーチ係
数インジケータの調整に使われないことを達成する。利点として、スピーチ係数
インジケータが調整されるたびに、スピーチ認識装置とスピーチ認識方法の認識
率がかなり向上する。
【0010】 請求項2と請求項7の方策によって、受信されたボイス情報または認識されたテ
キスト情報にそれぞれ十分に関係する認識されたテキスト情報のテキストワード
が、テキストワードのシーケンスに連結される。最大の合計一致値を有する認識
されたテキスト情報のテキストワードのシーケンスが、調整に使われる。このこ
とは、最大の一致インジケータを有するテキストワード群の中のテキストワード
も調整に使われ、このため、スピーチ係数インジケータの調整のたびに、スピー
チ認識装置とスピーチ認識方法の認識率がさらに向上するという利点を提供する
【0011】 請求項3、4、5の方策によって、スピーチ係数インジケータに含まれる情報す
べてが非常に良好に調整される。
【0012】 図に表されている実施例の3つの応用例を参照しながら、以下に、本発明につ
いてさらに説明する。ただし本発明は、この応用例に限定されない。
【0013】
【発明を実施するための形態】
図1は、スピーチ認識方法によるスピーチ認識プログラムが実行されるコンピ
ュータ1を示し、このコンピュータ1は、二次的なスピーチ認識装置を有するディ
クテーションマシンを形成する。
【0014】 コンピュータ1には、手で持つことができる入力ユニットを形成するディクテ
ーションマイクロフォン2と、足で作動させることができる入力ユニットを形成
するフットスイッチ3と、モニタ4と、キーボード5が接続されている。図2は、デ
ィクテーションマイクロフォン2を、ブロック線図の形式でより詳細に示す。
【0015】 ディクテーションマイクロフォン2は、オーディオ受信手段を形成するマイク
ロフォン6を有し、使用者によってマイクロフォン6に発声されたスピーチ伝達情
報を受信して、第一アナログオーディオ信号AS1を送るように構成されている。
ディクテーションマイクロフォン2は、さらに、第一アナログオーディオ信号AS1
を処理して、オーディオ情報AIとしてデジタルオーディオデータを送るように構
成されているオーディオ処理手段7を含む。
【0016】 オーディオ処理手段7は、第一増幅段8、アナログ-デジタルコンバータ段9、第
二増幅段10、デジタル-アナログコンバータ段11を含む。第一アナログオーディ
オ信号AS1は、第一増幅段8に与えることができ、増幅された第一アナログオーデ
ィオ信号は、アナログ-デジタルコンバータ段9に与えることができる。アナログ
-デジタルコンバータ段9は、増幅されたアナログ音声信号をサンプリングレート
16kHzでサンプリングして、16ビットのデータブロックを有し、かつオーディオ
情報AIとして送ることができるデジタルオーディオデータ形式で、サンプリング
された値をUSB接続手段12に送るように構成されている。
【0017】 このことは、第一アナログオーディオ信号AS1がディクテーションマイクロフ
ォンの中でデジタル化されることと、増幅段8を、ディクテーションマイクロフ
ォン2の製造段階という早い段階においてマイクロフォン6の最大出力電圧に合わ
せて調整できるという利点を提供する。この方法では、増幅段8が過変調された
ことに起因してボイス情報が失われることはなく、このためデジタルオーディオ
データを含むデジタルオーディオ情報AIが良好な品質を有する。
【0018】 デジタルオーディオデータを含むオーディオ情報AIは、USB接続手段12によっ
て、オーディオ処理手段7のデジタル-アナログコンバータ11に送ることができる
。デジタルオーディオデータに対応するアナログオーディオ信号は、デジタル-
アナログコンバータ段11によって、第二増幅段10に送ることができる。第二増幅
段10によって送られる第二アナログオーディオ信号AS2は、スピーカーに与えて
音響的に再現できる。
【0019】 ディクテーションマイクロフォン2は、さらに、制御情報SIを手動で入力する
ための入力手段14を含み、この入力手段は、キーボード15、トラックボール16、
入力処理手段17を含む。キーボード15は、特に、録音キー18、停止キー19、順早
送りボタン20、早送り巻き戻しボタン21を有する。キーボード15は、キー情報TS
Iを入力処理手段17に送るはたらきをする。
【0020】 トラックボール16は、ディクテーションマイクロフォン2の穴の中に埋め込ま
れたボールによって形成され、このボールは、使用者が回転させて、例えば、モ
ニタ4に表示されるカーソルを動かすことができる。トラックボール16を使用す
ることで、トラックボール情報TBIを入力処理手段17に送ることができる。入力
処理手段17は、そこに送られたキー情報TSIとトラックボール情報TBIを処理して
、各制御情報SIをUSB接続手段12に送るように構成されている。
【0021】 USB接続手段12は、オーディオ処理手段7と入力手段14との両方に供給電圧Uを
供給して、オーディオ処理手段7と入力手段14に含まれている段に電力を供給す
ることができる。このことは、ディクテーションマイクロフォン2が、ディクテ
ーションマイクロフォン2の段からの情報と供給電圧Uの両方を1本のケーブルリ
ンクのみを介して受け取るという利点を提供する。
【0022】 USB接続手段12は、ディクテーションマイクロフォン2の第一端子22を介してコ
ンピュータ1のUSB接続手段23に接続される。ディクテーションマイクロフォン2
のUSB接続手段12は、デジタルデータバスリンクを設定するようにされ、さらに
、利点として、コンピュータ1のUSB接続手段23へのUSBデータバスリンク(Univer
sal Serial Bus: Specification version 1.0(1月15日)およびversion 2.0)を設
定するように構成されている。
【0023】 USBデータバスリンク上で、USB接続手段12または23に送られたオーディオ情報
AIのオーディオデータまたは制御情報SIの制御データに、誤り訂正コードが加え
られ、これらのデータは一括して送信データUDとしてUSB接続手段23または12に
送信される。送信されたデータUDが受信されるUSB接続手段12または23は、誤り
訂正コードを評価し、必要に応じ、オーディオデータまたは制御データの中の、
送信時に発生する誤りを訂正するように構成されている。USBデータバスリンク
において、制御情報SIの制御データは、データ送信速度1.5 MB/秒で送信され、
オーディオ情報AIのオーディオデータは、データ送信速度12MB/秒で送信される
【0024】 図3は、図1に示されているフットスイッチ3を、ブロック線図の形式で詳細に
示す。フットスイッチ3は、制御情報SIを足で入力するための入力手段24を有す
る。入力手段24は、オーディオ再生スイッチ25、停止スイッチ26、入力処理手段
27を含む。オーディオ再生スイッチ25または停止スイッチ26によって生成された
スイッチ情報SCIは、入力処理手段27に送ることができる。入力処理手段27は、
そこに与えられたスイッチ情報SCIを処理して、各制御情報SIをフットスイッチ3
のUSB接続手段28に与えるように構成されている。
【0025】 フットスイッチ3は、さらに、デジタル-アナログコンバータ段30と第三増幅段
31を有するオーディオ処理手段29を含む。オーディオデータを含むオーディオ情
報AIは、デジタル-アナログコンバータ段30にUSB接続手段28によって与えること
ができ、デジタル-アナログコンバータ段は、オーディオデータに対応するアナ
ログオーディオ信号を第三増幅段31に送る。第三増幅段31によって送られる第三
アナログオーディオ信号AS3は、フットスイッチ3内に備えられたスピーカ32と第
二端子33の両方に与えることができる。ヘッドフォン34は、第二端子33に接続さ
れている。スピーカ32とヘッドフォン34によって、スピーチ伝達情報を音響的に
再現することが可能であり、これについては後にさらに説明する。
【0026】 オーディオ処理手段29がフットスイッチ3の中に備えられているので、ヘッド
フォン34またはスピーカをフットスイッチ3に直接接続できるという利点が得ら
れる。結果として、ディクテーションマシンも形成するコンピュータ1は、オー
ディオ処理手段を有するサウンドカードを有する必要がない。
【0027】 フットスイッチ3のUSB接続手段28は、USB接続手段12と23に相当する。USB接続
手段28は、入力処理手段24とオーディオ処理手段29の両方に供給電圧Uを供給し
て、入力処理手段24とオーディオ処理手段29に含まれている段に電力を供給でき
る。このことは、フットスイッチ3が伝達情報のみでなく供給電圧Uも1本のケー
ブルリンクのみを介して受け取るという利点を提供する。
【0028】 フットスイッチ3のUSB接続手段28は、コンピュータ1のUSB接続手段23に第三端
子35を介して接続されている。コンピュータ1は、USB接続手段23とオーディオメ
モリ手段37を有する受信手段36を含み、話し手によって発音されたスピーチ伝達
情報を受信するように構成されている。ディクテーションマイクロフォン2のマ
イクロフォン6に話し手によって発声されたスピーチ伝達情報は、デジタルオー
ディオデータによって構成されるオーディオ情報AIとしてUSB接続手段12からUSB
接続手段23に送信させ、また、USB接続手段23からオーディオメモリ手段37にオ
ーディオ情報AIとして送信させて格納させることができる。ディクテーションマ
イクロフォン2のUSB接続手段12またはフットスイッチ3のUSB接続手段28からコン
ピュータ1のUSB接続手段23に与えられる制御情報SIは、USB接続手段23によって
受信して、コンピュータ1のさらなる手段に送ることができ、さらなる手段につ
いては後にさらに説明する。
【0029】 コンピュータ1によって形成されるスピーチ認識装置は、スピーチ係数インジ
ケータSKIを格納するために備えられたスピーチ係数メモリ手段38を含む。スピ
ーチ係数インジケータSKIは、音声モデルデータSMI、コンテキスト情報WI、音素
参照情報PRIを含む。
【0030】 コンテキスト情報WIは、コンテキストのメモリ手段39に格納され、スピーチ伝
達情報の中の、スピーチ認識装置によって認識できるワードすべてと、スピーチ
伝達情報の中のワードの発生確率を示すワード頻度メーターとを含む。音声モデ
ルデータSMIは、音声モデルメモリ手段40に格納され、ワードシーケンスと、ス
ピーチ伝達情報の中のこれらのワードシーケンスの発生の頻度を示すワードシー
ケンス頻度メーターとを含む。音素参照情報PRIは、音素参照メモリ手段41に格
納され、話し手の発音の特性に合わせたスピーチ認識装置の調整を可能にする。
【0031】 スピーチ認識装置は、さらに、スピーチ認識手段42を含む。USB接続手段23は
、スピーチ認識方法を実施するためにスピーチ認識モードをアクティブにするた
めに、制御情報SIをスピーチ認識手段42に送ることができる。スピーチ認識手段
42は、スピーチ認識モードがアクティブにされているときに、オーディオメモリ
手段37に格納されているオーディオ情報AIを読み取り、スピーチ係数メモリ手段
38に格納されているスピーチ係数インジケータSKIを読み取るように構成されて
いる。
【0032】 スピーチ認識方法の実行中に、スピーチ認識手段42は、オーディオ情報AIとス
ピーチ係数インジケータSKIを評価するように構成されている。次いで、スピー
チ認識手段42は、オーディオ情報AIの各パートについて、オーディオ情報AIの各
パートに一致する複数の可能なワードシーケンスを決定し(一致するシーケンス
がある場合)、オーディオ情報AIのすべてのパートについて、これらの可能なワ
ードシーケンスを可能性のあるテキスト情報PTIとして生成する。可能性のある
テキスト情報PTIは、オーディオ情報AIの例えば、20個の可能なワードシーケン
スを含む。さらに、スピーチ認識手段42は、スピーチ認識方法が実行されると、
そのたびに、オーディオ情報AIの各パートについて、もっとも可能性の高いワー
ドシーケンスを決定し、すべてのオーディオ情報AIの、これらのもっとも可能性
の高いワードシーケンスを、認識されたテキスト情報RTIとして生成する。
【0033】 スピーチ認識装置は、テキスト情報を格納するためのテキストのメモリ手段43
を有する。テキストのメモリ手段43は、可能性のあるテキストのメモリ手段44、
認識されたテキストのメモリ手段45、訂正されたテキストのメモリ手段46、トレ
ーニングテキストのメモリ手段47を含む。スピーチ認識方法の実行中にスピーチ
認識手段42によって生成される可能性のあるテキスト情報は、可能性のあるテキ
ストのメモリ手段44に格納でき、認識されたテキスト情報RTIは、認識されたテ
キストのメモリ手段45に格納できる。
【0034】 コンピュータ1は、さらに、例えば、Word For Windows(登録商標) 95などの テキスト処理プログラムを実行するように配置されており、かつ、テキスト処理 手段48を形成する。スピーチ認識方法の実行中にスピーチ認識手段42によって生 成された認識されたテキスト情報RTIは、テキスト処理手段48に送ることができ る。テキスト処理手段48は、認識されたテキスト情報RTIを含むピクチャ情報PI をモニタ4に転送するように構成されている。
【0035】 ディクテーションマイクロフォン2の入力手段14によって、入力制御情報SIを
入力でき、この制御情報SIは、スピーチ認識手段42とテキスト処理手段48に与え
ることができ、スピーチ認識装置の訂正モードをアクティブにする。テキスト処
理手段48、モニタ4、キーボード5は、訂正手段49を構成する。訂正モードがアク
ティブであるとき、使用者は、キーボード5によって、認識されたテキスト情報R
TIを訂正し、訂正されたテキスト情報CTIを訂正されたテキストのメモリ手段46
に格納することができる。このことについては後にさらに説明する。
【0036】 トレーニングテキストのメモリ手段47には、特定の分野(ビジネスレター、学
問分野:放射線医学、学問分野:法律など)の典型的なワードフレーズやワードシ
ーケンスを含むトレーニングテキスト情報TTIが格納されている。制御情報SIは
、ディクテーションマイクロフォン2の入力手段14によって入力でき、この制御
情報は、スピーチ認識手段42とテキスト処理手段48に与えて、スピーチ認識装置
の初期トレーニングモードをアクティブにできる。
【0037】 テキスト処理手段47は、初期トレーニングモードがアクティブのとき、トレー
ニングテキストのメモリ手段47からトレーニングテキスト情報TTIを読み出して
、各ピクチャ情報PIをモニタ4に送るように構成されている。使用者は、これに
よってモニタ4に表示されたトレーニングテキストをマイクロフォン6に話すこと
で、使用者の発音タイプに合わせてスピーチ認識装置を調整することができる。
【0038】 スピーチ認識装置は、スピーチ係数メモリ手段38に格納されているスピーチ係
数インジケータSKIを、使用者の発音のタイプと、使用者によって普通に使われ
るワードおよびワードシーケンスに合わせて調整するための調整手段50を有する
。テキストのメモリ手段43、訂正手段49、調整手段50は、まとめてトレーニング
手段51を形成する。スピーチ係数インジケータSKIのこの調整は、使用者によっ
て読まれるトレーニングテキスト情報TTIが知られている状態で、初期トレーニ
ングモードがアクティブであるときに行われる。
【0039】 しかし、この調整は、ボイス情報に一致するテキスト情報が認識されたテキス
ト情報RTIとして認識され、かつ使用者によって訂正されたテキスト情報CTIに訂
正される、調整モード時にも行われる。この目的のため、トレーニング手段51は
、テキスト比較手段52を有し、このテキスト比較手段52は、認識されたテキスト
情報RTIと訂正されたCTIを比較して、少なくとも1つの一致インジケータCIを決
定するように構成されている。調整モードがオンのとき、テキスト比較手段52に
おいて、図4に示されている調整テーブル53が確立され、このテーブルについて
は後にさらに説明する。
【0040】 調整情報NIである調整の結果は、調整手段50によってスピーチ係数メモリ手段
38に送ることができ、この調整情報は、格納されているスピーチ係数インジケー
タSKIを調整する。さらに、トレーニングインジケータTIは、トレーニング手段5
1の調整手段50によって送ることができ、このトレーニングインジケータTIは、
スピーチ係数メモリ手段38に格納されているスピーチ係数インジケータSKIの調
整の程度を示す。トレーニングインジケータTIは、スピーチ係数メモリ手段38に
格納されているスピーチ係数インジケータSKIが、使用者に合わせてすでに調整
された回数と調整されたワード数についての情報を含む。スピーチ係数インジケ
ータSKIが使用者に合わせて調整される回数が多いほど、その使用者にとっての
スピーチ認識装置の認識率は良好になる。
【0041】 スピーチ認識装置は、スピーチ係数メモリ手段38内にスピーチ係数インジケー
タSKIをインポートするため、および/または、スピーチ係数メモリ手段38に格納
されているスピーチ係数インジケータSKIをエクスポートすることを可能にする
転送手段54を含む。この目的のため、使用者は、キーボード5によって転送情報T
RIを入力して、それを転送手段54に送ることができ、これについては後にさらに
説明する。
【0042】 第一応用例を参照しながら、ディクテーションマイクロフォン2、フットスイ
ッチ3、コンピュータによって形成されるディクテーションマシンとスピーチ認
識装置とについて、さらに説明する。第一応用例では、コンピュータ1の使用者
は、「Quality」タイプの3台のコンピュータを知人「John」に注文するための手
紙をディクテーションしようとしていることを想定する。この目的のため、使用
者は、ディクテーションマイクロフォン2の録音キー18を押し、「Dear John I h
erewith order three Quality computers for my office Harry」とディクテー
ションする。すると、このボイス情報に対応するオーディオ情報AIが、ディクテ
ーションマイクロフォン2から送信データUDとしてUSB接続手段23に送信され、最
終的にオーディオメモリ手段37に格納される。この処理の間、ディクテーション
マイクロフォン2とコンピュータ1は、ディクテーションマシンを構成する。
【0043】 ディクテーションマイクロフォン2の録音キー18を作動させることによって、
スピーチ認識手段42のスピーチ認識モードをアクティブにする制御情報SIが、デ
ィクテーションマイクロフォン2によって、USB接続手段23を通じて送信データUD
としてスピーチ認識手段42に与えられる。スピーチ認識モードがアクティブにさ
れたスピーチ認識手段42内において、オーディオメモリ手段37に格納されている
オーディオ情報AIが、読み出され、スピーチ係数メモリ手段38から読み取られた
スピーチ係数インジケータSKIと共に評価される。次いで、スピーチ認識手段42
は、複数のワードシーケンスを可能性のあるテキスト情報PTIとして決定し、こ
れらを可能性のあるテキストのメモリ手段44に格納する。オーディオ情報AKIの
最初のパートに対して、可能性のあるテキスト情報PTIは、例えば、ワードシー
ケンス「Hear John why」、「Dear John I」、および「Bear John hi」を含むこ
とが出来る。
【0044】 スピーチ認識手段42は、テキスト情報「Dear John I herewith organ three Q
uality computers for my office Mary」を、もっとも可能性の高いテキスト情
報として決定し、これを認識されたテキスト情報RTIとして認識されたテキスト
のメモリ手段45に送る。発声されたワード「order」はワード「organ」と誤って
認識され、発声されたワード「Harry」はワード「Mary」と誤って認識された。
【0045】 スピーチ認識手段42によって認識され、かつ認識されたテキストのメモリ手段
45に格納された認識されたテキスト情報RTIは、次いで、テキスト処理手段48に
よって読み出され、モニタ4に表示される。使用者は、自分が言った2つのワード
「order」と「Harry」が誤って認識されたことを認識し、認識されたテキスト情
報RTIを訂正するために、この使用者は、ディクテーションマイクロフォン2の入
力手段14によってスピーチ認識装置の訂正モードをアクティブにする。
【0046】 訂正モードがアクティブにされると、使用者は、フットスイッチ3のオーディ
オ再生スイッチ25を押すことで、オーディオメモリ手段37に格納されているオー
ディオ情報AIを、ヘッドフォンまたはスピーカ32によって音響的に再生すること
ができ、その一方で、オーディオ情報AIから認識されたテキスト情報は、再生さ
れるオーディオ情報AIと同期してモニタ4に表示される。このような同期的な編
集または訂正は、以前から知られている。
【0047】 認識されたテキスト情報RTIの使用者による第一タイプの訂正において、使用
者は、誤って認識されたワード「organ」と「Mary」のみを、最初に発声された2
つのワード「order」と「Harry」に訂正する。訂正されたテキスト情報CTIが、
テキスト処理手段48内に構築され、訂正されたテキストのメモリ手段46に格納さ
れる。最初の訂正ステップのあとに、訂正されたテキストのメモリ手段46に格納
されたこの訂正されたテキスト情報CTIは、スピーチ係数インジケータSKIを調整
するのに非常に適している。以降のディクテーションにおいて使用者によって発
声されるワード「order」と「Harry」は、すでに調整されたこのスピーチ係数イ
ンジケータSKIによって、次回のスピーチ認識処理においては正しく認識される
【0048】 経験的には、使用者は、訂正モードがアクティブのときに、第二タイプの別の
訂正も行う。第一応用例では、使用者は、「Standard」タイプのコンピュータ3
台も注文したいことを思い出し、このため使用者は、すでに訂正されたテキスト
情報CTIに、キーボード5によって、ワードシーケンス「and three Standard com
puters」を挿入する。さらに、使用者は、知人「John」宛の手紙の住所が含まれ
ているテキストAを、すでに訂正されたテキスト情報CTIの先頭の前にコピーする
。最後に、使用者は、このような注文の通例として合意されている割引率につい
ての脚注を含むテキストBを、訂正されたテキスト情報CTIの中のすでに訂正され
たテキスト情報CTIの後にコピーする。
【0049】 次いで、使用者は、ディクテーション時に使用者によって発声されたボイス情
報とまったく関係ないテキストパートを、認識されたテキスト情報RTIに追加す
る。このようなテキストパートは、音素参照情報PRIを調整するために評価され
てはならない。何故ならば、対応するオーディオ情報AIが、オーディオメモリ手
段37に格納されていないためである。さらに、このようなテキストパートを使っ
て、コンテキスト情報WIまたは音声モデルデータSMIを調整することは無益であ
る。何故ならば、テキストAとテキストBは、使用者の訂正されたテキスト情報CT
Iに頻繁に含まれるが、ディクテーション時に使用者によって発声されることは
殆どないためである。
【0050】 ボイス情報とまったく関係ないテキストパートを使ってコンテキスト情報WIと
音声モデルデータSMIがトレーニングされると、例えば、知人Johnの住所のテキ
ストAに含まれるストリート名「Hell Road」というワードシーケンスは、高い発
生確率を有する。何故ならば、使用者は、Johnに頻繁に手紙を書き、訂正された
テキスト情報CTIに必ず住所をコピーするからである。しかし、ディクテーショ
ン時に発声されるワードシーケンス「Hello Rod」は、容易に誤って認識されて
しまうであろう。何故ならば、ワードシーケンス「Hello Rod」は使用者のディ
クテーションにおいて相対的に頻繁に発生するにもかかわらず、音声モデルメモ
リ手段40におけるワードシーケンス「Hello Rod」の発生の確率は、ワードシー
ケンス「Hell Road」に比べて低くなるためである。
【0051】 使用者が、必要な訂正をすべて行い、訂正されたテキスト情報CTIが訂正され
たテキストのメモリ手段46に格納された後、使用者は、ディクテーションマイク
ロフォン2のキーボードのキーを押して、スピーチ認識装置の調整モードをアク
ティブにして、スピーチ認識装置のスピーチ係数インジケータSKIを調整する。
このとき、ディクテーションマイクロフォン2の各制御情報SIは、USB接続手段23
を介してスピーチ認識手段42に与えられる。
【0052】 調整モードがアクティブにされたスピーチ認識装置において、調整手段50は、
オーディオメモリ手段37に格納されているオーディオ情報AI、つまりテキストの
メモリ手段43に格納されている可能性のあるテキスト情報PTIや認識されたテキ
スト情報RTI、訂正されたテキスト情報CTIなどを読み取るように構成されている
。さらに、アクティブにされた調整モードにおいて、テキスト比較手段52は、ス
ピーチ係数インジケータSKIを調整するのに適した、訂正されたテキスト情報CTI
のテキストパートを決定するために、図4に示されている調整テーブル53を用意
するように構成されている。
【0053】 この目的のため、まず、認識されたテキスト情報RTIと訂正されたテキスト情
報CTIが調整テーブル53に書き込まれ、その一方で、誤って認識されたワードと
、訂正もしくは挿入されたワードとテキストパートが太字で表される。テキスト
比較手段52は、認識されたテキスト情報RTIと訂正されたテキスト情報CTIを比較
し、一致するワードを調整テーブルの各位置における灰色のフィールドによって
表すように構成されている。認識されたテキスト情報RTIのワード群「three com
puters」を有するテキストパートは、訂正されたテキスト情報CTIの中に2回見出
される。
【0054】 さらに、テキスト比較手段52は、認識されたテキスト情報RTIと訂正されたテ
キスト情報CTIを比較するときに、各テキストパートの一致インジケータCIを決
定するように構成されている。このため、テキスト比較手段52は、テキストパー
トに含まれる、灰色のフィールドによって表された一致ワードの数を調べる。さ
らに、テキスト比較手段52は、訂正されたテキスト情報CTIにおけるワードの挿
入、削除、置換それぞれに対して1減点が与えられるものとして、各テキストパ
ートの減点を決定する。テキストパートの一致インジケータCIは、テキストパー
トの中の一致ワードの数と減点の数から決定される。
【0055】 テキスト比較手段52において、一致インジケータCIの最小値MWが決定される。
各テキストパートにおいて、訂正されたテキスト情報CTIの中の隣接するワード
の訂正に対する減点が4個以上与えられたときには、この最小値に達しないもの
とする。スピーチ係数インジケータSKIの調整には、一致インジケータCIが最小
値MWを超えるテキストパートのみが使われる。
【0056】 テキスト比較手段52は、調整テーブル53を評価し、訂正されたテキスト情報CT
IにテキストAのワードすべてとテキストBのワードすべてが挿入されたものと認
識する。何故ならば、テキストAのワード数とテキストBのワード数に一致する数
の減点が、テキスト比較手段52によってテキストAとテキストBに与えられるから
である。従って、テキスト比較手段52は、テキストAとテキストBに対し最小値MW
より小さい値の一致インジケータCIを調整手段50に与える。このことは、ボイス
情報とまったく関係ない、訂正されたテキスト情報CTIのテキストパートが、ス
ピーチ係数インジケータSKIの調整に使われないという利点を提供する。
【0057】 調整テーブル53によると、スピーチ係数インジケータSKIの調整に使うことが
できるテキストパートは、訂正されたテキスト情報CTIの経路P1と経路P2の可能
性を有する。
【0058】 経路P1は、最初のテキストパート「Dear John I herewith」を含み、このパート
は、テキスト比較手段52から減点がまったく与えられず、このためその一致イン
ジケータは最小値MWを超える。経路P1は、最初のテキストパートの後に2番目の
テキストパート「order three Quality computers and」を含み、この2番目のパ
ートは、ワード「order three Quality computers」の挿入と、ワード「and」の
ワード「organ」への置換に対して、5個の減点(1)〜(5)が与えられていて、この
ためその一致インジケータは最小値MWに満たない。経路P1は、2番目のテキスト
パートの後に3番目のテキストパート「three Standard computers for my offic
e Harry」を含み、このパートは、ワード「Standard」の挿入に対して1つの減点
(6)しか与えられていないので、その一致インジケータCIは最小値MWを超える。
従って、経路P1に含まれる第一テキストパートと第三テキストパートが、スピー
チ係数インジケータSKIの調整に原理的には適している。
【0059】 経路P2は、4番目のテキストパート「Dear John I herewith order three Qual
ity computers」を含み、このパートは、ワード「organ」をワード「order」に
置き換えたことに対して、テキスト比較手段52から1個しか減点(1)が与えられて
いないので、その一致インジケータCIは最小値MWを超える。経路P2は、4番目の
テキストパートのあとに5番目のテキストパート「and three Standard computer
s」を含み、このパートは、これらのワードの挿入に対して4個の減点(2)〜(5)が
与えられているので、その一致インジケータは最小値MWに満たない。経路P2は、
5番目のテキストパートのあとに6番目のテキストパート「for my office Harry
」を含み、このパートは、ワード「Mary」を「Harry」に置き換えたことに対し
て1個の減点(6)が与えられているので、その一致インジケータCIは最小値MWを超
える。従って、経路P2に含まれる第4テキストパートと第6テキストパートが、ス
ピーチ係数インジケータSKIの調整に原理的には適している。
【0060】 テキスト比較手段52は、合計一致インジケータSCIが最大値を有する経路P1ま
たはP2のテキストパートを決定するように構成されている。この目的のため、テ
キスト比較手段52は、訂正されたテキスト情報RTIの経路P1の9個のワードと経路
P2の10個のワードが、認識されたテキスト情報RTIのワードに完全に一致し、調
整テーブルにおいて灰色のフィールドとして表されていることを判断する。さら
に、テキスト比較手段52は、各経路の減点を合計し、経路P1については7個の減
点、経路P2については6個の減点と決定する。
【0061】 最終的に、テキスト比較手段52は、10個の一致ワードと6個のみの減点を有す
る経路P2のテキスト情報が、認識されたテキスト情報RTIとのより大きな一致程
度を有すると判断し、経路P2のテキストパート群に対してそれぞれより高い合計
一致インジケータSCIを調整手段50に供給する。
【0062】 このことは、スピーチ係数インジケータSKIの調整において、第一タイプの訂
正によって訂正されたワード(例えば、「order」や「Harry」)が調整に使われ、
第二タイプの訂正によって訂正され、ボイス情報とまったく関係ないテキストパ
ート(例えば、「and three Standard computers」)がスピーチ係数インジケータ
SKIの調整に使われないという利点を提供する。この結果、スピーチ係数インジ
ケータSKIは、使用者の発音の特性と使用者の典型的なワード形成に合わせて非
常に迅速かつ良好に調整され、スピーチ認識装置の特に良好な認識率が達成され
る。
【0063】 調整手段50は、調整モードがアクティブにされたスピーチ認識装置において、
テキスト比較手段52から合計一致インジケータSCIを受信した後、訂正されたテ
キストのメモリ手段46からの訂正されたテキスト情報CTIの経路P2のテキストパ
ートを読み取って、これらのテキストパートを評価するように構成されている。
【0064】 コンテキスト情報WIを調整するために、ワード「order」P2の4番目と6番目の
テキストパートの各ワード「Dear」、「John」、「I」、...、「Harry」には、
コンテキストのメモリ手段39にそれぞれ格納されている頻度メーター(この頻度
メーターは、使用者のディクテーションにおける各ワードの発生の確率を表す)
で値「1」が加えられる。調整に使われるテキストパートのワードが使用者によ
って初めてディクテーションされたときには、そのワードは、頻度メーターの値
「1」とともにコンテキストのメモリ手段39に格納される。
【0065】 音声モデルメモリに格納されている音声モデルデータSMIの調整のため、例え
ば、ワードシーケンス「I herewith order」に割り当てられた格納されている頻
度メーターは、使用者のディクテーションにおいてこのようなワード形成の発生
確率がより高いことを表すために、値「1」だけ大きくされる。
【0066】 音素参照メモリ手段41に格納された音素参照情報PRIの調整のため、ワードシ
ーケンスP2の4番目と6番目のテキストパートのワードのみが、認識されたテキス
ト情報RTIのワードに完全に一致しかつ調整テーブル53で灰色のフィールドとし
て表されている対応オーディオ情報AIとの組み合わせで、評価される。さらに、
対応するオーディオ情報AIをもつ可能性のあるテキスト情報PTIのワードも評価
することができる。この目的のため、調整手段50は、第一タイプの訂正によって
使用者によって置換されたワード(「order」、「Harry」)が、オーディオ情報AI
のこのパートに対して、可能性のあるテキストのメモリ手段44に格納されている
か否かを調べる。このようなテキストが、可能性のあるテキストのメモリ手段44
の中に見出されると、対応するオーディオ情報AIをもつそのワードも、音素参照
情報PRIの調整のために評価される。
【0067】 次いで、これらの調整を含む調整可能な情報NIは、スピーチ係数インジケータ
SKIを調整するために、調整手段50によってスピーチ係数メモリ手段38に与えら
れる。同様に、調整手段50は、スピーチ係数メモリ手段38にすでに格納されてい
るスピーチ係数インジケータSKIがすでにトレーニングされたワードの数を示す
トレーニングインジケータTIを、転送手段54に与える。このことは、スピーチ認
識装置が使用者に合わせてすでに良好に調整されたか否かと、それによってスピ
ーチ認識装置がその使用者にとっておそらく良好な認識率を有するか否かが、ト
レーニングインジケータTIによってただちに明らかになるという利点を提供する
【0068】 第二応用例によると、コンピュータ1によって形成されるスピーチ認識装置の
使用者が、第二スピーチ認識装置を形成する第二コンピュータをさらに有すると
想定されている。この場合、使用者が、コンピュータ1によって形成されるスピ
ーチ認識装置(そのスピーチ認識情報は数ヶ月にわたって使用者によってトレー
ニングされている)で達成された認識率と同等に良好な認識率を第二スピーチ認
識装置上でも達成することを望むことは明らかである。
【0069】 この目的のため、使用者はキーボード5のキーを作動させ、キーボード5によっ
て転送情報TRIを転送手段54に送る。転送手段54は、スピーチ係数メモリ手段38
に格納されているスピーチ係数インジケータSKIを読み取る。転送手段54は、さ
らに、読み取られたスピーチ係数インジケータSKIとスピーチ係数インジケータS
KIのトレーニングインジケータTIを、コンピュータ1のディスクドライブに挿入
されたディスク55に格納する。
【0070】 このことは、スピーチ係数メモリ手段38に格納され、かつ使用者によってすで
にトレーニングされたスピーチ係数インジケータSKIが、コンピュータ1からエク
スポートできるというメリットを提供する。さらに、スピーチ係数インジケータ
SKIは、使用者の第二コンピュータにインポートできる。結果として、使用者は
、さらに、使用者によってトレーニングされたスピーチ係数インジケータSKIを
、任意の台数の別のコンピュータでも使用でき、それらのコンピュータは、図1
に示されているスピーチ認識装置に相当するスピーチ認識装置を形成する。この
方法により、使用者は、複数のコンピュータにおいてもスピーチ認識装置の良好
な認識率を得る。
【0071】 スピーチ係数インジケータSKIがエクスポートされるときには、スピーチ係数
インジケータSKIのトレーニングインジケータTIもエクスポートされる。一方、
転送手段54からスピーチ係数インジケータSKIがインポートされるときには、ス
ピーチ係数メモリ手段38に格納済みのスピーチ係数インジケータSKIよりも、イ
ンポートするスピーチ係数インジケータSKIの方がより良好にトレーニングされ
ているか否かを、さしあたり確認できる。転送手段54は、インポートしようとす
るスピーチ係数インジケータSKIが、スピーチ係数メモリ手段38に格納されてい
るスピーチ係数インジケータSKIよりもすでに良好にトレーニングされているこ
とがテストによって証明された場合にのみ、そのスピーチ係数インジケータSKI
をインポートする。
【0072】 第三応用例によると、コンピュータ1が、インターネットに接続されたインタ
ーネットサーバを形成し、第4端子によってインターネットに接続されていると
想定されている。さらに、ディクテーションマシンを形成するさらなるコンピュ
ータの使用者が、コンピュータ1のホームページメモリ手段57に格納されたイン
ターネットサーバのホームページからテキスト情報を照会し、そのテキスト情報
が第4端子56を介してそのさらなるコンピュータに送られたものと想定する。ホ
ームページからのこのテキスト情報は、通常行われているように、ホームページ
メモリ手段57に格納されているさらなるテキスト情報を照会することができるリ
ンク情報を含む。図1に示されているインターネットサーバのスピーチ認識装置
を使用することにより、さらなるコンピュータの使用者は、ホームページ上に示
されているリンク情報を、さらなるコンピュータによって送られるボイス情報に
よってアクティブにすることができる。
【0073】 第三応用例によると、さらに、使用者が、ホームページに表示されているリン
ク情報「hotels」をアクティブにすることを望んでいるとを想定する。この目的
のため、使用者は、さらなるコンピュータのディクテーションマイクロフォンの
録音キーを作動させ、ディクテーションマイクロフォンのマイクロフォンにボイ
ス情報「hotel」を発音する。このボイス情報に含まれるオーディオ情報AIは、
第4端子56を介してコンピュータ1に与えられ、オーディオ情報AIがオーディオメ
モリ手段37に格納される。このボイス情報によってアクティブにされたコンピュ
ータ1のスピーチ認識装置のスピーチ認識モードにおいて、ワード「hotels」が
、スピーチ認識手段42によって、認識されたテキスト情報RTIとして認識され、
このリンク情報に割り当てられたテキスト情報が、第4端子56を介してホームペ
ージメモリ手段57から使用者のさらなるコンピュータに送られる。
【0074】 スピーチ認識モードがアクティブにされる前に、さらなるコンピュータによっ
てエクスポートされ、かつインターネットを介して第4端子56に与えられたスピ
ーチ係数インジケータSKIは、有利に、転送手段54によってコンピュータ1にイン
ポートされる。この結果、コンピュータ1によって形成されるインターネットサ
ーバは、各使用者に合わせて調整され、これにより、きわめて高い認識率が達成
される。
【0075】 使用者のスピーチ係数インジケータSKIは、インターネットサーバに送信され
る各オーディオ情報AIと共に送信できることも理解されるであろう。しかし、イ
ンターネットサーバのホームページが最初に照会されたときにのみ、使用者のス
ピーチ係数インジケータSKIをインターネットサーバに送信して、その使用者の
ためにスピーチ係数インジケータSKIをインターネットサーバに格納しておくこ
とは、特に有利である。それ以降、その使用者のさらなるコンピュータからオー
ディオ情報AIを受け取るたびに、インターネットサーバは、すでに格納されてい
るスピーチ係数インジケータSKIをスピーチ認識用に使うことができる。
【0076】 訂正されたテキスト情報CTIの格納後、スピーチ係数インジケータSKIを調整す
るための調整モードを自動的にアクティブにできること、またはコンピュータ1
のキーボード5のキーを介して使用者によってアクティブにできることも理解さ
れるであろう。
【0077】 経路のテキストパートの一致値、または経路のテキストパートの合計一致値を
決定する方法として、実施例を参照しながら説明した以外の方法も可能であるこ
とも理解されるであろう。さらに、3回の連続する減点が与えられたときに最小
値MWに達しないと結論することは、一例にすぎないものと理解すべきである。同
様に、最小値MWに達しない条件として、テキストパートの特定のワード数におけ
る特定の減点数を定義することもできる。
【0078】 スピーチ係数インジケータSKIを調整するために原理的には適しているテキス
トパートの特定のセクションのみを、スピーチ係数インジケータSKIの調整に使
用することも有利であることも理解されるであろう。この場合にテキストパート
は、スピーチ係数インジケータSKIを調整するための第一実施例を参照しながら
説明した方法によって決定される。例えば、テキスト比較手段52によって減点が
与えられているワードと、調整テーブル53内でそのワードに隣接する、灰色のフ
ィールドによって表されているワードのみが使われる。
【0079】 このことは、スピーチ認識処理中に誤って認識されて、使用者によって訂正(
置換)されたワード(「order」、「Harry」)と、これらのワードに隣接するワ
ードとが調整に使われるという利点を提供する。この場合に、テキストパートの
訂正されたテキスト情報のうち、認識されたテキスト情報RTIに完全に一致し、
かつ原理的に調整に適したセクションは、使用者によってまったく訂正されてい
ない可能性があるため、調整に使われない。
【0080】 手に持つことができる入力装置の入力手段が、コンピュータに制御情報を与え
て、コンピュータをパワーセーブモードからアクティブモードにするように配置
されてもよいことも理解されるであろう。
【0081】 コンピュータにおける動作モードをアクティブにするために、足で操作する入
力する装置も一般に使用できることも理解されるであろう。コンピュータは、テ
レビ受像機を形成でき、テレビのチャンネルは、フットスイッチで選択でき、そ
のチャンネルにテレビ放送が受信され、モニタに表示される。
【0082】 入力装置のUSB接続手段を接続できるマイクロフォンまたはスピーカも、足で
操作する入力装置に接続でき、その場合にマイクロフォンまたはスピーカはUSB
接続手段も有することも理解されるであろう。この場合、足で操作する入力装置
は、オーディオ処理手段を有する必要はなく、その理由は、マイクロフォンまた
はスピーカ内のオーディオ処理手段がアナログオデ信号を送るように配置される
ためである。
【0083】 デジタルデータバスリンクを、例えば、Bluetooth仕様(Bluetooth Special In
terest Group, May 1998)によるリンクなどの無線周波数リンクによっても形成
できることも理解されるであろう。このことは、入力装置とコンピュータの間に
ケーブルリンクが必要ないという利点を提供する。
【0084】 フットスイッチ3の第二端子33にスピーカも接続できることも理解されるであ
ろう。
【図面の簡単な説明】
【図1】 手に持つことができる入力ユニットと足で作動させることができる
入力ユニットが接続され、かつ、認識されたテキスト情報と訂正されたテキスト
情報とを比較するためのテキスト比較手段を含み、かつ、スピーチ係数インジケ
ータをインポートおよびエクスポートするための転送手段を含む、スピーチ認識
装置をブロック線図の形式で示す。
【図2】 アナログオーディオ信号を処理してデジタルオーディオータを送る
ためのオーディオ処理手段を有する、図1に示されている手に持つことができる
入力ユニットを、ブロック線図の形式で示す。
【図3】 ヘッドフォンを接続でき、かつ内蔵スピーカーを含む、図1に示さ
れている足で作動させることができる入力ユニットを、ブロック線図の形式で示
す。
【図4】 スピーチ認識装置のテキスト比較手段によって確立される調整テー
ブルであり、認識されたテキスト情報と訂正されたテキスト情報が入力されたテ
ーブルを示す。
【符号の説明】
1 コンピュータ 2 ディクテーションマイクロフォン 3 フットスイッチ 4 モニタ 5 キーボード 6 マイクロフォン 7 オーディオ処理手段 8 第一増幅段 9 アナログ-デジタルコンバータ段 10 第二増幅段 11 デジタル-アナログコンバータ段 12 USB接続手段 13 スピーカ 14 入力手段 15 キーボード 16 トラックボール 17 入力処理手段 18 録音キー 19 停止キー 20 早送りボタン 21 巻き戻しボタン 22 第一端子 23 USB接続手段 24 入力手段 25 オーディオ再生スイッチ 26 停止スイッチ 27 入力処理手段 28 USB接続手段 29 オーディオ処理手段 30 デジタル-アナログコンバータ段 31 第三増幅段 32 スピーカ 33 第二端子 34 ヘッドフォン 35 第三端子 36 受信手段 37 オーディオメモリ手段 38 スピーチ係数メモリ手段 39 コンテキストのメモリ手段 40 音声モデルメモリ手段 41 音素参照メモリ手段 42 スピーチ認識手段 43 テキストのメモリ手段 44 可能性のあるテキストのメモリ手段 45 認識されたテキストのメモリ手段 46 訂正されたテキストのメモリ手段 47 トレーニングテキストのメモリ手段 48 テキスト処理手段 49 訂正手段 50 調整手段 51 トレーニング手段 52 テキスト比較手段 53 調整テーブル 54 転送手段 55 ディスク 56 第4端子 57 ホームページメモリ手段 AS1 第一アナログオーディオ信号 AS2 第二アナログオーディオ信号 AS3 第三アナログオーディオ信号 AI オーディオ情報 SI 制御情報 SCI スイッチ情報 TSI キー情報 TBI トラックボール情報 U 供給電圧 SKI スピーチ係数インジケータ SMI 音声モデルデータ WI コンテキスト情報 PRI 音素参照情報 PTI 可能性のあるテキスト情報 CTI 訂正されたテキスト情報 RTI 認識されたテキスト情報 TTI トレーニングテキスト情報 TI トレーニングインジケータ TRI 転送情報 NI 調整情報 PI ピクチャ情報 MW 最小値 SCI 合計一致インジケータ P1 経路 P2 経路
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ミューラ ウォルタ オランダ国 5656 アー アー アインド ーフェン プロフホルストラーン 6 (72)発明者 シャッツ マーティン オランダ国 5656 アー アー アインド ーフェン プロフホルストラーン 6 Fターム(参考) 5D015 AA05 GG01 KK02 KK03 LL05 【要約の続き】 キスト情報(CTI)を比較し、少なくとも1つの一致インジ ケータ(CI)を決定するために備えられていて、調整手段 (50)が、一致インジケータ(CI)が最小値(MW)を有する訂 正されたテキスト情報(CTI)の1つのテキストパート(P2) のみを評価することによって、格納されたスピーチ係数 インジケータ(SKI、PRI、SMI、WI)を調整するように構 成されている、スピーチ認識装置。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 スピーチ認識装置であって、 話し手によって発声されたボイス情報を受信するための受信手段と、 スピーチ係数インジケータを格納するためのスピーチ係数メモリ手段と、 前記ボイス情報と前記スピーチ係数インジケータを評価することによって、前
    記受信されたボイス情報に一致するテキスト情報を認識するように構成されてい
    るスピーチ認識手段と、 前記認識されたテキスト情報を訂正し、かつ訂正されたテキスト情報を生成す
    るための訂正手段と 少なくとも前記訂正されたテキスト情報を評価することによって、前記格納さ
    れたスピーチ係数インジケータを調整するための調整手段を含むスピーチ認識装
    置において、 前記認識されたテキスト情報と前記訂正されたテキスト情報を比較し、少なく
    とも1つの一致インジケータを決定するためのテキスト比較手段が設けられてい
    て、かつ 前記調整手段が、一致インジケータが最小値を有する前記訂正されたテキスト
    情報の1つのテキストパートのみを評価することによって、前記格納されたスピ
    ーチ係数インジケータを調整するように構成されていることを特徴とするスピー
    チ認識装置。
  2. 【請求項2】 前記テキスト比較手段が、評価された一致インジケータが前記最大の合計一致
    インジケータを有する前記訂正されたテキスト情報のテキストパートのシーケン
    スを決定するように構成されていて、かつ前記調整手段が、前記訂正されたテキ
    スト情報の少なくとも前記決定されたテキストパートのシーケンスを評価するこ
    とによって、前記格納されたスピーチ係数インジケータを調整するように構成さ
    れていることを特徴とする請求項1に記載のスピーチ認識装置。
  3. 【請求項3】 音声モデルデータをスピーチ係数インジケータとして前記スピーチ係数メモリ
    手段の中に格納することが可能であって、このスピーチ係数インジケータが、ボ
    イス情報内の少なくとも第一ワードに続く第二ワードの確率を示すことを特徴と
    する請求項1に記載のスピーチ認識装置。
  4. 【請求項4】 コンテキスト情報をスピーチ係数インジケータとして前記スピーチ係数メモリ
    手段に格納することが可能であって、このスピーチ係数インジケータが、ボイス
    情報の中の前記スピーチ認識手段によって認識できるワードすべてを含むことを
    特徴とする請求項1に記載のスピーチ認識装置。
  5. 【請求項5】 音素参照情報をスピーチ係数インジケータとして前記スピーチ係数メモリ手段
    に格納することが可能であって、このスピーチ係数インジケータが、話し手の発
    音の特性に合わせた前記スピーチ認識手段の調整を可能にすることを特徴とする
    請求項1に記載のスピーチ認識装置。
  6. 【請求項6】 ボイス情報に一致するテキスト情報を認識するスピーチ認識方法であって、前
    記方法が、 ボイス情報を受信するステップと、 前記受信したボイス情報と格納されているスピーチ係数インジケータを評価し
    、かつ認識されたテキスト情報を生成するステップと、 認識されたテキスト情報を訂正し、かつ訂正されたテキスト情報を生成するス
    テップと、 少なくとも前記訂正されたテキスト情報を評価することによって、前記格納さ
    れたスピーチ係数インジケータを調整するステップと を有するスピーチ認識方法において、 前記認識されたテキスト情報を、前記訂正されたテキスト情報と比較し、かつ
    一致インジケータを決定し、かつ 前記格納されたスピーチ係数インジケータを調整するために、一致インジケー
    タが最小値を有する、前記訂正されたテキスト情報の1つのテキストパートのみ
    を使用することを特徴とするスピーチ認識方法。
  7. 【請求項7】 一致インジケータが前記最大の合計一致インジケータを有する、前記訂正され
    たテキスト情報のテキストパートのシーケンスを決定し、かつ、前記格納された
    スピーチ係数インジケータを調整するために、少なくとも、前記訂正されたテキ
    スト情報の前記決定されたテキストパートのシーケンスを使用することを特徴と
    する請求項6に記載のスピーチ認識方法。
JP2001509020A 1999-07-08 2000-06-30 スピーチ認識装置とテキスト比較手段 Withdrawn JP2003504674A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99890232.4 1999-07-08
EP99890232 1999-07-08
PCT/EP2000/006167 WO2001004874A1 (en) 1999-07-08 2000-06-30 Adaptation of a speech recognizer from corrected text

Publications (1)

Publication Number Publication Date
JP2003504674A true JP2003504674A (ja) 2003-02-04

Family

ID=8243996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001509020A Withdrawn JP2003504674A (ja) 1999-07-08 2000-06-30 スピーチ認識装置とテキスト比較手段

Country Status (6)

Country Link
US (1) US6725194B1 (ja)
EP (1) EP1110204B1 (ja)
JP (1) JP2003504674A (ja)
AT (1) ATE297046T1 (ja)
DE (1) DE60020504T2 (ja)
WO (1) WO2001004874A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019602B2 (en) 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60022976T2 (de) * 1999-07-08 2006-07-06 Koninklijke Philips Electronics N.V. Spracherkennungseinrichtung mit transfermitteln
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
JP2001100781A (ja) 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
DE60128372T2 (de) * 2000-07-31 2008-01-10 Eliza Corp., Beverly Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
US7418381B2 (en) * 2001-09-07 2008-08-26 Hewlett-Packard Development Company, L.P. Device for automatically translating and presenting voice messages as text messages
EP1341155B1 (en) * 2002-02-15 2007-07-18 Canon Kabushiki Kaisha Information processing apparatus and method with speech synthesis function
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
WO2008008730A2 (en) 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
KR102009423B1 (ko) * 2012-10-08 2019-08-09 삼성전자주식회사 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치
CN107086040B (zh) * 2017-06-23 2021-03-02 歌尔股份有限公司 语音识别能力测试方法和装置
US10943583B1 (en) * 2017-07-20 2021-03-09 Amazon Technologies, Inc. Creation of language models for speech recognition
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11393471B1 (en) * 2020-03-30 2022-07-19 Amazon Technologies, Inc. Multi-device output management based on speech characteristics

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4779209A (en) * 1982-11-03 1988-10-18 Wang Laboratories, Inc. Editing voice data
AT390685B (de) 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
EP0680654B1 (en) * 1993-01-21 1998-09-02 Apple Computer, Inc. Text-to-speech system using vector quantization based speech encoding/decoding
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019602B2 (en) 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
KR101183344B1 (ko) * 2004-01-20 2012-09-14 마이크로소프트 코포레이션 사용자 정정들을 이용한 자동 음성 인식 학습

Also Published As

Publication number Publication date
US6725194B1 (en) 2004-04-20
DE60020504D1 (de) 2005-07-07
EP1110204B1 (en) 2005-06-01
WO2001004874A1 (en) 2001-01-18
ATE297046T1 (de) 2005-06-15
DE60020504T2 (de) 2006-05-04
EP1110204A1 (en) 2001-06-27

Similar Documents

Publication Publication Date Title
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
JP2003504674A (ja) スピーチ認識装置とテキスト比較手段
US7376560B2 (en) Speech recognition device to mark parts of a recognized text
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
US6853971B2 (en) Two-way speech recognition and dialect system
US8447606B2 (en) Method and system for creating or updating entries in a speech recognition lexicon
US6622121B1 (en) Testing speech recognition systems using test data generated by text-to-speech conversion
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
JP5149107B2 (ja) 音響処理装置およびプログラム
JP6430137B2 (ja) 音声書起支援システム、サーバ、装置、方法及びプログラム
US20020133342A1 (en) Speech to text method and system
US20050080626A1 (en) Voice output device and method
JP4659311B2 (ja) 転送手段を有するスピーチ認識装置
JP2014134640A (ja) 文字起こし装置およびプログラム
Ebel et al. Human speech recognition performance on the 1994 CSR spoke 10 corpus
US6856959B1 (en) Foot switch for a computer
US20110165541A1 (en) Reviewing a word in the playback of audio data
WO2001004740A1 (en) Dictation microphone for a computer
JP4949310B2 (ja) 音響処理装置およびプログラム
CN117198266A (zh) 基于用户口语习惯的个性化语音合成方法及相关设备
JPS6032098A (ja) 音声情報入力装置
JP2002049389A (ja) 音声認識方法およびそのプログラム記録媒体
JP2007279644A (ja) 音声情報処理方法および音声情報再生方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070904