JP3627006B2 - 音声を転写するための方法及び装置 - Google Patents

音声を転写するための方法及び装置 Download PDF

Info

Publication number
JP3627006B2
JP3627006B2 JP2000188566A JP2000188566A JP3627006B2 JP 3627006 B2 JP3627006 B2 JP 3627006B2 JP 2000188566 A JP2000188566 A JP 2000188566A JP 2000188566 A JP2000188566 A JP 2000188566A JP 3627006 B2 JP3627006 B2 JP 3627006B2
Authority
JP
Japan
Prior art keywords
user
recognition
speech
accuracy
tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000188566A
Other languages
English (en)
Other versions
JP2001034293A (ja
Inventor
ケリー・エイ・オルテガ
ハンス・エガー
アーサー・ケラー
ロナルド・イー・ヴァンバスカーク
フイファン・ワン
ジェイムズ・アール・ルイス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001034293A publication Critical patent/JP2001034293A/ja
Application granted granted Critical
Publication of JP3627006B2 publication Critical patent/JP3627006B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Description

【0001】
【発明の属する技術分野】
本発明の技術分野は連続的に音声を認識するための方法及び装置である。更に詳しく云えば、本発明は、音声認識の精度に関する制御をユーザに与えるための方法に関するものである。
【0002】
【従来の技術】
現在、ユーザがマイクロフォンに向けて連続的に口述することを可能にする音声認識システムが存在する。この場合、音声はコンピュータによってテキストに変換され、そのテキストがコンピュータのモニタ上に表示される。ワードとワードとの間で一時停止することなく音声をデコードするように設計された連続的音声認識システムでは、デコーディングのエラーが生じること及びそれがユーザによって訂正されなければならないということが期待されるのは当然である。特定のディクテーション・セッション時に特定のタイプのエラーが連続して繰り返されるということは屡々ある。システムが、例えば、”and” のような特定のワードを繰り返し誤認識することがある。
【0003】
従来技術の音声認識システムは、受け取った音声を種々のシステム・パラメータに基づいて、並びに、例えば、オーディオ・レベル、トピック・ライブラリ、及びスピーカ依存のトレーニング・データベースのようなデータベースに基づいて転写する。或るシステムでは、そのシステムに関して訓練されたユーザは、どのようなタイプの認識精度問題が生じようとしているか決定することができ、ユーザの音声の認識精度を改良するために種々のパラメータ又はデータベースを調節又は変更することができるであろう。しかし、多くのユーザは、認識精度の問題を識別する方法又はそれらの問題を改善するためにシステム・パラメータを調節する方法を学習するという傾向又は根気を持ち得ないであろう。更に、或るユーザは、音声認識セッション時に生成されるテキストをモニタすることを望まないし、認識の問題が生じようとしていることを真に理解し得ないであろう。これらのいずれのタイプのユーザも挫折感を持つことになり、そのシステムを使用しないと決めてしまうことになる。
【0004】
【発明が解決しようとする課題】
必要とされるとは、システムの認識精度を改善するために、ユーザが容易にシステム・パラメータ又はユーザの行為を変更することを可能にするような、口述音声を転写するための方法及び装置である。更に必要とされることは、音声認識問題が生じようとしている時を識別することができ、特定のタイプの問題を識別した場合にユーザを支援することができるような口述音声を転写するための方法及び装置である。
【0005】
【課題を解決するための手段】
本発明は音声を転写するための装置及び方法を含み、それは、入力音声を受け取り、その入力音声を、テキスト・フォーマットにおけるワードの順次リストを含む被転写音声の形に転写するものである。転写時に、その方法及び装置は転写音声の精度をモニタし、その転写音声の精度が十分であるかどうかを決定する。その精度が十分でない場合、その方法及び装置は音声認識改良ツールを自動的に起動する。その方法及び装置は、その音声認識改良ツールを使用して、転写プロセスの精度を改良する。
【0006】
その方法は、少なくともコンピュータ、モニタ、及びマイクロフォンを含む転写装置によって遂行される。その方法は、機械読み取り可能な記憶装置に記憶されたコンピュータ・プログラムの複数のコード・セッションを実行する機械によって遂行可能である。
【0007】
本発明の全体的な目的は、システムの認識精度を改良するためにシステム・パラメータ又はユーザの行為を容易に変更する機能及び情報を転写システム・ユーザに提供することである。本発明のもう1つの目的は自動的にこの機能をユーザに提供することである。
【0008】
【発明の実施の形態】
図1は、本発明の望ましい実施例に従って、音声認識システムの簡単なブロック図を示す。音声認識システム100は、パーソナル・コンピュータ又はワークステーションのようなコンピュータ102を含み、そのコンピュータはディスプレイ・モニタ104,マウス106又は他のポインティング装置、及びキーボード108を有する。更に、システム100は、コンピュータ102に対して口述するために使用されるマイクロフォン110、及びユーザへの音響フィードバックを供給するために使用されるスピーカ112を含む。特に、コンピュータ102は、マイクロフォン110から音響情報を得るために必要なインターフェースを具備している。そのような装置は、SOUNDBLASTER(TM Creative Labs)のようなコンピュータ・マザー・ボード又はドータ・カード上に、又は他の手段を通して与えられるものでもよい。
【0009】
モニタ104,マウス106,キーボード108及びスピーカ112は、音声認識システム100のユーザが転写プロセスを開始し、制御し、及びモニタすることができるユーザ・インターフェースを形成する。望ましい実施例では、コンピュータ102は、特定の音声認識システムのセッション時の認識精度に影響を与える種々のパラメータをユーザが調節するのを支援するために、モニタ104を介して種々のスクリーンを提供する。
【0010】
図2乃至図11に関連して、音声認識システム100のオペレーションを詳しく説明する。オペレーション時に、ユーザによってマイクロフォン110を介して音声入力が供給され、コンピュータ102によってインプリメントされたデコーダ・エンジン(図示されていない)がその入力音声を連続的に受け取り、モニタ104上に表示されるテキスト出力を作成する。音声を転写するために、デコーダ・エンジンは、例えば、システム・ボキャブラリ、音響モデル、及び言語ベース・モデルのようなコンピュータのメモリ(図示されていない)内に記憶された情報からデータを呼び出す。そこで、デコーダ・エンジンは、例えば、入力音声のテキスト変換を作成するために、音響入力と音響モデルとのマッチングのようなオペレーションを遂行する。
【0011】
言語ベースのモデルは、どの候補フレーズが適当であるかを決定するように、共通のワード・シーケンスに関するデータを供給する。これは、音声学的には同じワード(例えば、”to”、”two”、及び”too”、或いは、”there”、”their”、及び”they’re” )を含むワード及びフレーズの間の選択には重要である。一旦、デコーダ・エンジンによって種々の要素が考察されてしまうと、テキストがテキスト・データしてそのエンジンによって使用可能にされる。或るユーザ音声入力をデコードしてしまうと、デコーダ・エンジン又は或るアプリケーションがユーザ・インターフェース(例えば、モニタ104又はスピーカ112)を介してユーザにそのテキストを表示してもよい。
【0012】
この時点で、ユーザは音声認識プロセスに関する問題を検出することが可能であり、或いは、望ましい実施例では、システムはその問題を検出してユーザに通知することが可能である。そこで、グラフィカル・ユーザ・インターフェース(GUI)を使用して、ユーザは、音声認識の精度を改善するために、種々のシステム・パラメータを調節すること又はユーザの行為を修正することを通してガイドされる。
【0013】
図2は、本発明の望ましい実施例に従ってユーザが音声認識システムの音声認識精度を改良することを可能にするための方法のフローチャートを示す。望ましくは、その方法はシステム100(図1)のような音声認識システムを使用して遂行される。
【0014】
その方法は、ユーザが音声認識プログラムを開始する時、ステップ202において始まる。一般に、音声認識プログラムの開始は、ユーザがソフトウエア・アプリケーションをダウンロード(必要な場合)し、初期設定し、開始するようにコンピュータにプロンプト指示することによって生じるであろう。そこで、プログラムは、自動的に又はユーザからの種々の入力の結果として、ステップ204において入力音声を受け取り及び転写し始め、その転写された音声をユーザのコンピュータのモニタ上に表示する。転写プロセスはワードの順次リストをテキスト・フォーマットで生じる。
【0015】
望ましい実施例では、ステップ205において、プログラムが音声認識の精度をモニタする。転写された音声の精度をモニタすることは、例えば、転写ワードのうち認識閾値よりも低いワード数又はパーセンテージ、或いはユーザによって訂正されたワードの数又はパーセンテージを追跡することによって行われ得るものである。望ましい実施例では、精度は(例えば、ワード毎を基準にして)連続的にモニタされる。別の実施例では、転写された音声の精度を周期的に又は非周期的にチェックすることによって精度をモニタすることが可能である。
【0016】
転写された音声の精度が受容し得ないものになる時、システムは認識改良ツールを自動的に起動する。そのツールは、後述のように、認識精度を改良するためにユーザがシステム・パラメータを容易に調節することを可能にする。その認識精度改良ツールの自動的な起動は煩わしいものになり得るので、望ましい実施例では、連続モニタリング又は自動開始のフィーチャをユーザがディセーブルすることも可能である。更に、望ましい実施例では、ユーザはいつでも認識改良ツールを手操作で起動することができる。
【0017】
ステップ206乃至210は、認識改良ツールの起動に先行する判断ステップを示す。これらのステップはプログラム・フローの一部分として遂行されてもよく、或いは、例えば、割込み駆動されてもよい。いずれの場合も、コンピュータは、判断ステップ206乃至210の1つがプログラムをステップ212又は214に進めさせるまで、ステップ204において音声を受け取り、及び転写し続ける。
【0018】
ステップ206において、認識改良ツールが起動されることをユーザがリクエストしたかどうかの決定が行われる。望ましい実施例では、ユーザは、音声認識セッション時の任意の時点でこのリクエストを行うことができる。一般に、ユーザは、システムがユーザの音声を正確に転写していないことをテキストが表示されたことに基づいて通知する時、リクエストを行うであろう。認識改良ツールが起動されることをユーザがリクエストした場合、プログラムは後述のステップ214に進む。そのツールが起動されることをユーザがリクエストしなかった場合、プログラムはステップ208に進む。
【0019】
ステップ208において、その自動ツール起動フィーチャがディセーブルされているかどうかの決定が行われる。望ましい実施例では、当初このフィーチャはイネーブルされ、しかる後、ユーザによって手操作でディセーブル又はイネーブル可能である。ユーザは一連のメニュー・オプション(それらのメニュー・オプションの1つがそのフィーチャをイネーブル又はディセーブルする)をアクセスすることができるであろう。別の方法として、そのツールが起動される(後述のステップ214)度に、ユーザは、音声認識セッションの残り部分に対して、或いはユーザが自動起動フィーチャを再イネーブルするまで、その自動起動フィーチャがディセーブルされることを自分が望んでいるかどうかを表示するようにプロンプト指示されるであろう。そのフィーチャがディセーブルされている場合、プログラムは図2に示されるように反復し、システムは音声を受け取り、及び転写し続ける。
【0020】
そのフィーチャがディセーブルされていない場合、ステップ210において、音声認識精度が十分であるかどうかの決定が行われるであろう。この決定は、一般に、音声認識システムが口述システムであるか又はコマンド及び制御システムであるかによって影響されるであろう。コマンド及び制御システムでは、入力音声が比較的小さいのボキャブラリ・ライブラリにおけるエントリと比較される。システムは、発声されたワードがそのライブラリにおけるコマンド・ワードの1つに一致しないという高度の自信をそれが持たない場合、アクションを取らないであろう。例えば、認識レベルが特定の閾値よりも下である場合、システムはそのワードが認識されないことを決定することができるであろう。事前定義されたパーセンテージのワードが閾値よりも低い場合、又は事前定義された数の連続したワードが認識不能である場合、システムは、認識精度が不十分であるということを決定することができるであろう。
【0021】
一方、ディクテーション・システムでは、発声された各ワードがずっと大きいライブラリに比較され、システムは、その発声されたワードに対して最も近い相関関係を持ったライブラリ・ワードを出力する。ディクテーション・システムにおいて認識閾値方法が使用されてもよいけれども、認識精度を決定するために他の方法が更に適していることもある。例えば、システムによって作成されたテキストをユーザが編集することができる場合、そのシステムは何パーセントのワードをユーザが訂正したかを決定することができるであろう。訂正されたワードの数又はパーセンテージが事前定義された数又は事前定義されたパーセンテージよりも大きい場合、そのシステムは、認識精度が不十分であることを決定することができるであろう。
【0022】
音声認識システムのタイプに関係なく、信号対ノイズ測定方法及び本願における記載に基づいて当業者には明らかである他の方法ような、認識精度が不十分であるかどうかを決定する別の方法が使用されてもよい。
【0023】
音声認識の精度が十分である場合、プログラムは図2に示されたように反復し、システムは音声を受け取り、それを転写し続ける。音声認識の精度が十分でない場合、ステップ212において、ユーザは、プログラムが認識改良ツールを起動することを警報される。この警報は、例えば、可聴的警報又は可視的警報を使用することによって与えられる。
【0024】
ユーザ警報と結合された自動ツール起動フィーチャは、表示されたテキストをしっかりとモニタしていないユーザが認識改良ツールと対話するために口述を停止することを知っているであろうという利点を提供する。このフィーチャは、音声認識セッション時に他のタスクに集中するための更なる自由度をユーザに与える。
【0025】
ステップ206及び210において行われた決定に基づいて、ステップ214において音声認識改良ツールが起動される。そのツールの起動は、そのツールを構成するソフトウエア・モジュールのダウンロード(それが必要な場合)、初期設定、及び開始を伴う。望ましい実施例では、プログラムが音声認識改良ツールを起動させたことを表すウインドウがモニタ・スクリーン上に表示される。この後、ユーザは、転写された音声の精度を改良しようとするためにそのツールと対話する。
【0026】
図3は、ユーザと音声認識改良ツールとの間の初期対話を行うための例示的なディスプレイ・スクリーンを示す。望ましい実施例では、図3乃至図11に示された各ディスプレイ・スクリーンがモニタ14(図1)のようなコンピュータ・モニタ上に表示される。ディスプレイ・スクリーン300は、望ましくは、そのツールが起動されたことをユーザに表示する「歓迎(Welcome)」メッセージ等を含む。望ましい実施例では、スクリーン300は、エレメント302乃至310によって例示されたエレメントのような他のエレメントも含む。なお、これらのエレメントの各々に関しては更に詳しく後述する。別の実施例では、更なるエレメント又は別のエレメントがスクリーン300上に含まれることがあり得るし、或いは、エレメント302乃至310のうちのどれか又はすべてが他のスクリーン上に含まれることがあり得る。
【0027】
エレメント302乃至310は、ユーザがそのツールによって与えられた種々のスクリーンを通して先に進むこと、或いはそのツールを取り消して終了することを可能にする。例えば、「戻る(Back)」ボタン302は、現在表示されているスクリーンの直前に表示されたスクリーンをそのツールに表示させる。一方、「次へ(Next)」ボタン304は、そのツールによって次に表示されるスクリーンをそのツールに表示させる。次に表示されるべきスクリーンが、ユーザが現スクリーンにおいて与えなければならない入力に依存し、しかもユーザがその入力を与えなかった(例えば、ユーザがエレメント310における問題のタイプを識別しなかった)場合、ツールは、そのツールが次のスクリーンに進む前にユーザが入力を与えなければならないことを表すエラー・メッセージをユーザに表示することができるであろう。更に、ユーザは、「キャンセル(Cancel)」ボタン306をクリックすることによって又は他の何らかの既存のプロシージャ使用すること(例えば、キーボード上の「エスケープ(Escape)」ボタンを押すこと、又はドロップ・ダウン・メニューから「終了(Exit)」を選択すること)によって、いつでもそのツールを終了させることができる。
【0028】
前述のように、スクリーン300は、ユーザがツールの自動起動フィーチャをディセーブルすることができるエレメント308のような選択可能なエレメントを提供することができるであろう。先ず、エレメント308は、問題のシステム識別時にいつもそのツールを自動的に起動するように設定されるであろう。従って、ユーザは、ユーザがその自動起動フィーチャを再起動しなかった場合、残りの音声認識セッションに対してそのツールを手操作で起動することが必要であろう。
【0029】
図2を再び参照すると、ステップ216において、認識問題のタイプが識別される。その問題のタイプはユーザによって表示されてもよく、或いは、後述のように、最もありそうな問題のタイプとしてそのツールによって自動的に識別されてもよい。ユーザが(例えば、ステップ206において)手操作でそのツールを起動した場合、望ましい実施例では、ツールは多くの起こり得る認識問題のタイプを表示するであろう。これは図3に示される。そこでは、ツールがテキスト・エレメント310において多くの起こり得る認識問題のタイプを表示する。マウスを使用することによって、又はオプション(例えば、アップ/ダウン矢印)を選択するという他の一般的な方法を使用することによって、ユーザは、起こり得る認識問題のタイプのうちのどれが遭遇されるべき問題のタイプとしてユーザが考慮するかを表す入力を供給する。一般に、ユーザは、転写されたテキストをレビューしている時にユーザが知らされた認識問題のタイプに相当する問題のタイプを選択するであろう。
【0030】
そのツールが(例えば、ステップ210において)自動的に起動させられた場合、望ましい実施例では、ツールは、最もありそうな認識問題のタイプを、そのシステムが遭遇した問題として(即ち、認識精度が不十分であったことをシステムに決定させた問題として)可能な限り自動的に識別する。この場合、ツールは、エレメント310を表示するよりも、そのツールが問題を識別したこと及びそのツールが問題を軽減又は排除するようにユーザがシステム・パラメータを調節するのを支援することを表すメッセージを表示することができるであろう。別の方法として、エレメント310は、その識別された問題を強調表示することによって表示されてもよい。最もありそうな問題のタイプをシステムが識別することが可能でない場合、ツールは、エレメント310に示されるように、あるいは、別の実施例において、数多くの起こり得る認識問題のタイプを与えることができるであろう。
【0031】
図2を再び参照すると、一旦、システムによって又はユーザによって問題のタイプが識別されると、ステップ218において、ツールは可能な解決ステップをユーザに提供する。望ましい実施例では、ユーザは、「次へ」ボタン304をクリックすることによってその可能な解決ステップをツールに提供させることができる。ユーザが「次へ」ボタン304をクリックすることによって、ツールは、その選択された問題に対する可能な解決ステップを表す新しいスクリーンを表示する。
【0032】
表1は、多くの起こり得る問題のタイプに対して、その問題を軽減又は排除するために取り得る可能な解決ステップのいくつかをリストした例示的な表を示す。それらの表はユーザには表示されないであろうが、その代わりに、表示すべき次のスクリーンをツールが識別する方法を説明するために示される。
【表1】
Figure 0003627006
【0033】
欄402には、数多くの起こり得る認識問題のタイプがリストされる。これらの問題のタイプは、図3のエレメント310においてリストされた問題のタイプに対応する。欄404には、対応する問題のタイプを軽減又は排除するために取り得る数多くの可能な解決ステップがリストされる。種々の別の実施例では、更に多くの、更に少ない、又は種々の問題のタイプ及び/又は解決ステップがツールによって処理可能である。欄402及び404にリストされた問題のタイプ及び解決ステップは例示的な目的のためだけのものであり、本発明の技術的範囲を限定することを意図するものではない。
【0034】
欄404にリストされているような種々の解決ステップを提供することに加えて、ツールは、後述のように、例えば、システム・パラメータを設定することに関して又は正しく口述することに関してユーザを教育する種々の「ミニ・チュートリアル」をユーザに提供することもできるであろう。説明の目的で、数多くのこれらのミニ・チュートリアルが欄404にもリストされる。
【0035】
ツールのオペレーションを説明するために、図3並びに表1に対する参照が行われる。「システムが個々のワードを認識しない」という認識問題をユーザが図3のエレメント310から選択したと仮定する。この問題のタイプは表1の問題406に対応する。「次へ」ボタン304をクリックした時、ツールは、表1のステップ・リスト408にリストされた可能な解決ステップの1つを表す新しいスクリーンをユーザに提供するであろう。例えば、ツールは解決ステップ:「正しいユーザかどうかをチェックする」に対応するスクリーンを提供するであろう。ユーザがそのスクリーンと対話することによってその解決ステップを実行した後、ツールは解決ステップ:「問題ワードを入力する」に対応する次のスクリーンを表示することができるであろう。このシーケンスは、すべての解決ステップ(及び、利用可能である場合のミニ・チュートリアル)がユーザに提示されてしまうまで、又はユーザが前のステップに戻りたいこと又は「バック」ボタン302又は「キャンセル」ボタン306を使用して、そのツールを終了させたいことをユーザが表すまで継続するであろう。別の実施例では、その特定の問題に関係するすべての解決ステップ(及び、利用可能である場合のミニ・チュートリアル)がリスト形式でユーザに提供可能であろうし、ユーザは、それがツールに実行させたいステップを選択できるであろう。
【0036】
図4乃至図10は、種々の認識問題に対する可能な解決方法をユーザに提供するために及びミニ・チュートリアルをユーザに提供するために使用される例示的なディスプレイ・スクリーンを示す。図4乃至図10に示されたスクリーンのセットは、すべての起こり得る問題に与えられるすべての可能なスクリーンを含むものではなく、その代わりに、共通して遭遇する問題に対するいくつかの解決方法を例示することを意図するものである。
【0037】
図4は、ユーザが「ワードの記録」解決ステップを実行するのを支援するための例示的なディスプレイ・スクリーンを示す。ツールは、例えば、システムが個々のワードを認識しないことが認識問題であるということを(図2のステップ216において)ユーザ又はシステムが認識した場合にスクリーン500を表示するであろう。そのような場合、ユーザは、誤認識されたワードのスペリングを入力するようにエレメント502においてプロンプト指示される。しかる後、ユーザは「記録」ボタン504を押し、しかる後、そのワードをマイクロフォンに向けて発声する。そこで、ツールは、そのワード及び発音法をそのユーザと関連した適切なボキャブラリ又はトピックに記憶し、そのワードに対する前に記憶された発音法にその発音法を加える。
【0038】
ツールは更に付加的な機能を遂行することもできるであろう。例えば、ツールは、それがクリーンな且つノイズのない信号を受け取ったことを確認するために音質測定を行うことができるであろう。ツールは、必要な場合、ユーザがそのワードを再記録すること又は何らかの他のアクションを取ることをプロンプト指示することができるであろう。
【0039】
記録されたワードに関するツールの分析に基づいて、ツールは、ユーザが1つ又は複数の他の解決ステップをインプリメントすることを提案することができるであろう。例えば、ツールは、音声のレコーディング・レベルが適正に調節されてないこと(例えば、それらが低すぎる又は高すぎること)を決定することができるであろうし、ツールは音声レベルの調節を通してユーザをガイドすることができるであろう。
【0040】
別の方法として、ツールは、ユーザがそのシステムでもって完全に登録することを、ユーザが未だそれを行っていない場合、ユーザに提案することができるであろう。登録済みスピーカは、以前にその音声認識エンジンを訓練したスピーカである。トレーニング・プロセス時に、システムは、特定のスピーカにとって独特であるスピーカ依存のモデルを作成する。スピーカ依存のモデルは、音声認識セッション時に、登録済みスピーカの音声を良好に認識するために使用される。未登録のスピーカは、以前にその音声認識エンジンを訓練しなかったスピーカである。従って、未登録のスピーカに対するスピーカ依存のモデルは存在しない。その代わり、未登録のスピーカの音声を転写するために、スピーカに無関係のモデルが使用される。スピーカに無関係のモデルを使用することは、システムがスピーカ依存のモデルを使用して持つ誤認識問題よりも多くの誤認識問題をシステムに持たせることがある。
【0041】
図5は、「問題ワード」解決ステップを実行する場合にユーザを支援するための例示的ディスプレイ・スクリーンを示す。ツールは、例えば、(図2のステップ216において)システムが特定のワードを認識しないことが認識問題であるということを識別した場合、スクリーン600を表示するであろう。「ワードの記録」スクリーン500(図4)と同様に、ユーザは、以前にそのワードが他のスクリーン上で入力されなかった場合、エレメント602においてその誤認識のワードのスペリングを入力するようにプロンプト指示される。そこで、ユーザは、「発音の再生(Play Pronunciation)」ボタン604をクリックすることによってシステムが認識したワードの発音をツールに再生させることができる。そこで、ツールは、そのワードがシステム・ボキャブラリ又はいずれかのアクティブ・トピック・ライブラリ内にあることを確認するであろう。そのワードがシステム内にある場合、ツールは適切なボキャブラリ又はトピック・ライブラリからそのワードを検索し、テキスト・音声変換を行い、スピーカを通してユーザにそのワードを再生するであろう。そのワードに対して複数の発音が存在する場合、ツールはすべての使用可能な発音を再生することができるであろう。そのワードがシステム内にない場合、ユーザはそのワードを記録するようにプロンプト指示されるであろう。
【0042】
ユーザがその発音に満足しない場合、ユーザは「発音の変更(Change Pronunciation)」ボタン606をクリックすることによって発音を変更することができる。そこで、ユーザはマイクロフォンに向かってそのワードを発声するであろう。しかる後、ツールは、そのユーザと関連した適切なボキャブラリ又はトピックにその発音を記憶し、そのワードに対して以前に記憶された発音にその発音を加えることになるであろう。「ワードの記録」プロセスの場合のように、ツールは更に付加的な機能を遂行することができるであろう。
【0043】
図6は、ユーザが「別の発音の作成」解決ステップを実行するのを支援するための例示的ディスプレイ・スクリーンを示す。ツールは、例えば、ユーザが「問題ワード」解決ステップを使用して特定のワードの認識を改良することができない場合のスクリーン700を表示するであろう。「別の発音の作成」ステップは、ボキャブラリ又はトピックに現在存在するワードに対する新しい発音をユーザが指定することを可能にする。このフィーチャは、例えば、ユーザが或る特定のワードを発音するのが難しい場合、又はユーザが或るワードの省略バージョンを使用する場合に有用である。例えば、ユーザが「fridge」を発声する度に「refrigerator」をシステムに出力させたいことがある。ユーザは「refrigerator」を「古い発音」エレメント702に入力し、「fridge」を「新しい発音」エレメント704に入力するであろう。その後は、システムは、ユーザが「fridge」と発声する度に「refrigerator」を出力するであろう。
【0044】
図7は、ユーザが「個人的音声ファイルのチェック(Checking Your Personal Speech File)」解決ステップを実行するのを支援するための例示的ディスプレイ・スクリーンを示す。ツールは、例えば、システムが全体的に不十分な認識を呈することが認識問題であるということをユーザ又はシステムが識別した場合(図2のステップ216において)、スクリーン800を表示するであろう。そのような場合、システムは劣悪なスピーカ依存のモデルを使用していることがあり得る。従って、スクリーン800は、システムが現在使用している音声ファイルをエレメント802において表示するであろう。種々の環境(例えば、オフィス及び自動車)に基づいてエレメント802において識別されたそのユーザに対する複数のスピーカ依存のモデルをそのシステムが有する場合、ツールは、ユーザがどの環境にあるとシステムが見なしているかをエレメント804において表示することができる。更に、システムが種々の言語(例えば、英語及びフランス語)に基づいてエレメント802において識別されたユーザに対する複数のスピーカ依存のモデルを有する場合、ツールは、ユーザがどの言語を発声しているとシステムが見なしているかをエレメント806において表示することができる。そこで、ユーザは、異なるユーザ、環境、及び/又は、言語を選択することによってエレメント802乃至806のうちのいずれも修正することができる。望ましい実施例では、ユーザはエレメント802乃至806のいずれかと関連したドロップ・ダウン・エレメント808をクリックすることができ、利用可能な代替え物のリストが表示されるであろう。
【0045】
図8は、ユーザが「ボキャブラリへの追加(Add to Vocabulary)」解決ステップを実行するのを支援するための例示的なディスプレイ・スクリーンを示す。例えば、ユーザが「問題ワード」解決ステップを使用して新しいワードを入力した後、ツールはスクリーン900を表示するであろう。前述のように、ツールは、その入力されたワードが「問題ワード」解決ステップと関連してシステム・ボキャブラリ又はいずれかのアクティブなトピック・ライブラリ内にあることを確認することができるであろう。記録されたワードがシステム・ボキャブラリにないことをツールが認識する時、スクリーン900はワード902(例えば、”Foo”)を表示し、ユーザがそのワードをボキャブラリに追加することを望んでいるかどうかを表すようにユーザにプロンプト指示する。ユーザが「ワードの追加(Add Word)」ボタン904をクリックする場合、そのワードがボキャブラリに追加される。ユーザが複数のボキャブラリをシステム上に記憶させている場合、ツールは、そのワードを他のボキャブラリに追加するためのオプション、又は、ユーザが望む場合には、その後システム又はユーザによって不起動状態にされなければ、現在の音声認識セッションのバランスのためにそれらのボキャブラリのうちのいずれか1つ又はすべてを起動するためのオプションをユーザに与えるであろう。
【0046】
図9は、ユーザが「トピックの起動(Activate Topic)」解決ステップを実行するのを支援するための例示的なディスプレイ・スクリーンを示す。スクリーン900(図8)と同様に、例えば、ユーザが「問題ワード」解決ステップを使用して新しいワードを入力した後、ツールはスクリーン1000を表示するであろう。記録されたワードがシステム・ボキャブラリ内にないか又はいずれのアクティブなトピック・ライブラリ内にもないが、ユーザのアクティブでないトピック・ライブラリの1つにおいて見つかったことをツールが認識した時、スクリーン1000はワード1002(例えば、”Foo” )を表示し、ユーザがボキャブラリにそのワードを追加することを望んでいるのかどうかを表示するように、或いはそのワードが見つかったトピックを起動するようにユーザにプロンプト指示する。ユーザが「ワードの追加」ボタン1004をクリックする場合、そのワードはボキャブラリに追加される。ユーザが複数のボキャブラリをシステム上に記憶されている場合、ツールはそのワードを他のボキャブラリに追加するためのオプションをユーザに与え、ユーザが望む場合には、現在の音声認識セッションのバランスに関するそれらのボキャブラリのうちのいずれか1つ又はすべてを起動するためのオプションを与えるであろう。ユーザが「トピックの起動」ボタン1006をクリックする場合、その後システム又はユーザによって不起動状態にされないならば、そのワードが見つかった非アクティブのトピックが現在の音声認識セッションのバランスのために起動される。
【0047】
図10は、システム・パラメータを調節する場合又は適切に口述する場合に、ユーザを教育するためのミニ・チュートリアルに対する例示的なディスプレイ・スクリーンを示す。ツールは、例えば、図2のステップ216において識別された特定の問題をユーザが解決するのを助けることができる1つ又は複数のミニ・チュートリアルが利用可能である場合のスクリーン1100を表示するであろう。各ミニ・チュートリアルは、システム・パラメータを設定することに関して、及び/又は、認識問題を軽減するためにユーザの行為を調節することに関してユーザを教育することができるであろう。例えば、ユーザが発声する時に何も起こらないということが認識問題である場合、ツールは、マイクロフォンを使用する方法に関してミニ・チュートリアルを演じるためのオプションをユーザに与えることができる。望ましい実施例では、ユーザのためにエレメント1102においてビデオ・チュートリアルが再生され、ユーザは自分のオプションでそのチュートリアルを一時停止或いは再生し直すことができる。別の実施例では、チュートリアルは、ユーザを教育するように又はユーザに特定の手順(例えば、システム・パラメータを調節する方法)を踏ませるように設計された手書きの命令セットであってもよい。表1の欄404には、例示目的で数多くの可能なミニ・チュートリアルがリストされている。別の実施例では、更に多くのチュートリアル、更に少ないチュートリアル、又は種々のチュートリアルがそのツールによって提供可能である。更に、ユーザは、ドロップ・ダウン・メニュー、ヘルプ・プロシージャ、又は他の方法を通して任意の利用可能なチュートリアルをアクセスすることができるであろう。
【0048】
図4乃至図10に示されたスクリーンは、認識問題を解決する場合にユーザを助けるために使用可能なすべての生じ得るスクリーンを示すものでない。更に多くのスクリーン、更に少ないスクリーン、又は種々のスクリーンが提供可能である。
【0049】
再び図2を参照すると、ユーザはステップ218において可能な解決ステップを与えられ、ツールはユーザ入力を、それが適正な場合に受け取り、ステップ219において必要に応じてシステム・パラメータを調節した後、ステップ220において、ユーザがシステムをテストすることを望んでいるかどうかの決定が行われる。ユーザは、例えば、新しいユーザの行為、そのユーザがシステム・パラメータ(例えば、音声設定)に対して行った変更、或いはユーザがシステムに追加したワードが、そのシステムが遭遇しようとしている認識問題を解決したかどうかを決定するためにシステムをテストすることを望んでもよい。ユーザがそのシステムをテストしたいということをユーザが表す場合、ステップ222においてツールはテストをインプリメントする。望ましい実施例では、そのテストは、ユーザが対話することができるディスプレイ・スクリーンをツールが提供することによってインプリメントされる。
【0050】
図11は、ユーザがシステムの認識機能をテストするのを支援するための例示的なディスプレイ・スクリーンを示す。スクリーン1200は、ステップ220(図2)においてツールに認識テストをインプリメントしてもらいたいことをユーザが表す時に表示される。スクリーン1200は、ワード又はセンテンスを口述するようにユーザにプロンプト指示する。ユーザが「テスト(Test)」ボタン1202をクリックし、発声し始める場合、システムはテスト入力音声を受け取り、その音声を転写し、そのテキストをエレメント1204において表示する。ユーザがその転写に満足しない場合、ユーザはすべての残りの問題を解決するためにツールと対話し続けることができるであろう。例えば、ユーザはスクリーン300(図3)に戻って認識改良プロセスを再び始めることができるであろう。別の方法として、ユーザは、特定に認識問題(例えば、ウェブ・ページ又は無料の電話番号)を解決するための他の使用可能なソースを指摘することもできるであろう。ユーザがその転写に満足する場合、ユーザは「キャンセル」ボタン306をクリックすることによってツールを終了させることができる。
【0051】
図3乃至図11に示されたスクリーンのレイアウト及び内容は単に例示目的のためのものであり、それらのレイアウト及び内容は本発明の技術的範囲を限定することを意図するものではない。種々の代替えの実施例において、更なる又は種々のスクリーン又はエレメントが提供可能であり、或いは、任意の又はすべてのエレメントが他のスクリーン上に含まれるようにしてもよい。更に、ユーザが他の認識問題を軽減又は排除するのを支援するようにスクリーンを提供することも可能である。
【0052】
図2を再び参照すると、ユーザがテストをリクエストしなかった場合、又はテストが行われてしまった後、ユーザがステップ224においてツールを終了させたいということを表しているかどうかの決定が行われる。この決定は、ユーザが終了したいかどうかをユーザ・プロンプトがユーザに尋ねることに基づくことも可能である。例えば、ツールが特定の問題に対するすべての可能な解決ステップを提供した後、そのプロンプトを供給することも可能である。別の方法として、その決定は、ユーザがツールのスクリーンのうちのいずれかにおいて「キャンセル」ボタン306をクリックした場合、いつでも行われ得るものである。ユーザがツールを終了させたいことを表さなかった場合、その方法は、ステップ216のようなそのツールにおける前のステップに戻る。ユーザがツールを終了させたいことを表した場合、ツールはクローズされ、ユーザ音声を受け取り且つ転写するというステップ204に戻る。ユーザは、いつでも、現在の音声認識セッションを終了させたいということを、たとえこのオプションが図2に示されていなくても、表示することができる。
【0053】
従って、従来の方法及び装置に関する特定の問題を克服し、それに関するいくつかの利点を達成する、音声を転写するための方法及び装置が開示された。システムに認識精度を改良するために、ユーザがシステム・パラメータ及びユーザの行為を変更することを可能にする、口述音声を転写するための方法及び装置が提供される。更に、音声認識問題が生じようとしている時を識別することができ、口述音声を転写するための及びユーザが特定のタイプの問題を識別するのを支援するための方法及び装置が提供される。その方法は、システムによって自動的に起動可能であり、望ましい実施例では、その起動をユーザに通知することも可能である。これは、転写セッション時にユーザが転写テキストを近接してモニタする必要をなくする。更に、その方法はミニ・チュートリアルを介してユーザに教育を施すので、更に正確な転写音声を得るために、ユーザは自分の行為を修正し、或いはシステム・パラメータを調節することができる。
【0054】
特定の実施例に関する上記の説明は本発明の一般的な性質を十分に示しているので、他の人が、現在の知識を応用することによって、総体的な概念から逸脱することなく種々の適用分野に対してそれらの実施例を容易に修正し、或いは適応させることができる。従って、そのような適応及び修正は、開示された実施例の均等物の意義及び範囲に包含されなければならず、包含されることを意図するものである。特に、望ましい実施例は種々の認識問題、解決ステップ、及びスクリーンによって説明されたけれども、当業者には、本願における説明に基づいて、本発明の方法が、更に多くの、更に少ない、又は種々の問題、ステップ、及びスクリーンを使用してインプリメント可能であることは明らかであろう。更に、本願において示されたフローチャートが本発明を教示することを意図したものであること、及び必ずしもフローチャート化に向いていないプログラム・フローをインプリメントするための種々のテクニックが考えられることは当業者には明らかであろう。例えば、本願において検討された各タスクは、プログラム・フローがバックグラウンド・タスク又は他のタスクを遂行することを可能にするように割込みされてもよい。更に、特定のタスク順序が変更されてもよく、それらのタスクをインプリメントするために使用される特定のテクニックがシステム毎に異なっていてもよい。音声認識システムの特定のインプリメンテーションが、本願において図示されてない又は説明されてない種々の処理コンポーネント、データ・セット、及びデータ・パスを含んでもよいということも理解されるべきである。
【0055】
本願において使用された語句又は用語は説明の目的のためのものであり、限定のためのものではないことも理解されるべきである。従って、本発明は、特許請求の範囲の項に示された精神及び広い技術的範囲内にあるような代替え、修正、均等物、及び変更をすべて包含することを意図するものである。
【0056】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0057】
(1)転写システムによって遂行される音声を転写するための方法にして、
(a)入力音声を受け取るステップ、
(b)前記入力音声を、テキスト・フォーマットにおける転写ワードの順次リストを含む転写音声の形に転写するステップ、
(c)前記転写音声の精度をモニタするステップ、
(d)前記転写音声の精度が十分であるかどうかを決定するステップ、
(e)前記転写音声の精度が十分でないという決定の時に音声認識改良ツールを自動的に起動するステップ、及び
(f)前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
を含む方法。
(2)前記モニタするステップは認識閾値よりも低いワードの数を追跡するステップを含む上記(1)に記載の方法。
(3)前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義の数よりも高い場合、前記精度が十分でないことを決定するステップを含む上記(2)に記載の方法。
(4)前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む上記(2)に記載の方法。
(5)前記モニタするステップは前記転写システムのユーザによって訂正されたワードの数を追跡するステップを含む上記(1)に記載の方法。
(6)前記決定するステップは、ユーザによって訂正されたワードの数が事前設定の数よりも高い場合、前記精度が十分でないことを決定するステップを含む上記(5)に記載の方法。
(7)前記決定するステップは、ユーザによって訂正されたワードの数が事前設定のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む上記(5)に記載の方法。
(8)前記転写するステップの精度を改良するステップは
(f1)認識問題のタイプを識別するステップと、
(f2)前記認識問題のタイプを解析するための可能な解決ステップを前記音声認識改良ツールのユーザに供給するステップと、
を含む上記(1)に記載の方法。
(9)前記認識問題のタイプを識別するステップは
(f1a)可能な認識問題のタイプの数をユーザに表示するステップと、
(f1b)前記可能な認識問題のタイプのうちのどれを前記認識問題のタイプとしてユーザが識別するかを表す入力をユーザから受け取るステップと、
を含む上記(8)に記載の方法。
(10)前記認識問題のタイプを識別するステップは、前記音声認識改良ツールによって、最もありそうな認識問題のタイプを前記認識問題のタイプとして自動的に識別するステップを含む上記(8)に記載の方法。
(11)(f3)前記転写するステップの精度を改良するために前記音声認識改良ツールがパラメータを調節することを可能にする入力をユーザから受け取るステップ
を更に含む上記(8)に記載の方法。
(12)(f3)ユーザが前記認識問題のタイプを解析するのを支援するためにミニ・チュートリアルをユーザに供給するステップ
を更に含む上記(8)に記載の方法。
(13)(g)前記音声認識改良ツールが自動的に起動する時、前記音声認識改良ツールのユーザに警報するステップ
を更に含む上記(1)に記載の方法。
(14)(g)前記転写システムが前記転写するステップの精度をテストすることをユーザが望んでいるかどうかを決定するステップと、
(h)前記転写システムが前記精度をテストすることをユーザが望んでいる場合、ユーザからのテスト入力音声を受け取り、転写するステップと、
を更に含む上記(1)に記載の方法。
(15)(g)前記音声認識改良ツールを自動的に起動するステップがディセーブルされるかどうかを決定するステップと、
(h)前記音声認識改良ツールを自動的に起動するステップがディセーブルされる場合、前記自動的に起動するステップを遂行させないステップと、
を更に含む上記(1)に記載の方法。
(16)入力音声をテキスト・フォーマットの形に転写するための転写装置にして、
入力音声を受け取り、前記入力音声を転写音声の形に転写し、前記転写音声の精度が十分であるかどうかを決定し、前記精度が十分でない時に音声認識改良ツールを自動的に起動し、前記音声認識改良ツールを使用して転写ステップの精度を改良するコンピュータと、
前記コンピュータに接続され、前記転写音声を表示するディスプレイ・モニタと、
前記コンピュータに接続され、前記入力音声を受け取るマイクロフォンと、
を含む転写装置。
(17)機械により実行可能な複数のコード・セクションを有し、
(a)受け取った入力音声を、テキスト・フォーマットにおけるワードの順次リストを含む転写音声の形に転写するステップ、
(b)前記転写音声の精度をモニタするステップ、
(c)前記転写音声の精度が十分であるかどうかを決定するステップ、
(d)前記転写音声の精度が十分でないという決定の時に音声認識改良ツールを自動的に起動するステップ、及び
(e)前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
を遂行させるためのコンピュータ・プログラムを記憶した機械読み取り可能な記憶装置。
【図面の簡単な説明】
【図1】本発明の望ましい実施例に従って音声認識システムの単純化したブロック図を示す。
【図2】ユーザが本発明の望ましい実施例に従って音声認識システムの音声認識精度を改良することを可能にするための方法のフローチャートを示す。
【図3】ユーザ及び音声認識改良ツールの間の初期対話を与えるために使用される例示的なディスプレイ・スクリーンを示す。
【図4】ユーザの「ワードの記録」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図5】ユーザの「問題ワード」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図6】ユーザの「別の発音の作成」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図7】ユーザの「個人的音声ファイルのチェック」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図8】ユーザの「ボキャブラリへの追加」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図9】ユーザの「トピックの起動」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図10】システム・パラメータを調節するように又は適正に口述するようにユーザを教育するためのミニ・チュートリアルに対する例示的ディスプレイ・スクリーンを示す。
【図11】ユーザがシステムの認識機能をテストするのを支援するための例示的なディスプレイ・スクリーンを示す。

Claims (17)

  1. 転写システムによって遂行される音声を転写するための方法にして、
    (a)入力音声を受け取るステップ、
    (b)前記入力音声を、テキスト・フォーマットにおける転写ワードの順次リストを含む転写音声の形に転写するステップ、
    (c)前記転写音声の精度をモニタするステップ、
    (d)前記転写音声の精度が十分であるかどうかを決定するステップ、
    (e)前記転写音声の精度が十分でないという決定の時にユーザがシステム・パラメータを調節するのを支援するメッセージを表示し、数多くの起こり得る認識問題のタイプを与え、特定の問題に関係するすべての解決ステップをリスト形式で提供する音声認識改良ツールを自動的に起動するステップ、及び
    (f)前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
    を含む方法。
  2. 前記モニタするステップは認識閾値よりも低いワードの数を追跡するステップを含む請求項1に記載の方法。
  3. 前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義の数よりも高い場合、前記精度が十分でないことを決定するステップを含む請求項2に記載の方法。
  4. 前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む請求項2に記載の方法。
  5. 前記モニタするステップは前記転写システムのユーザによって訂正されたワードの数を追跡するステップを含む請求項1に記載の方法。
  6. 前記決定するステップは、ユーザによって訂正されたワードの数が事前設定の数よりも高い場合、前記精度が十分でないことを決定するステップを含む請求項5に記載の方法。
  7. 前記決定するステップは、ユーザによって訂正されたワードの数が事前設定のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む請求項5に記載の方法。
  8. 前記転写するステップの精度を改良するステップは
    (f1)認識問題のタイプを識別するステップと、
    (f2)前記認識問題のタイプを解析するための可能な解決ステップを前記音声認識改良ツールのユーザに供給するステップと、
    を含む請求項1に記載の方法。
  9. 前記認識問題のタイプを識別するステップは
    (f1a)可能な認識問題のタイプの数をユーザに表示するステップと、
    (f1b)前記可能な認識問題のタイプのうちのどれを前 記認識問題のタイプとしてユーザが識別するかを表す入力をユーザから受け取るステップと、
    を含む請求項8に記載の方法。
  10. 前記認識問題のタイプを識別するステップは、前記音声認識改良ツールによって、最もありそうな認識問題のタイプを前記認識問題のタイプとして自動的に識別するステップを含む請求項8に記載の方法。
  11. (f3)前記転写するステップの精度を改良するために前記音声認識改良ツールがパラメータを調節することを可能にする入力をユーザから受け取るステップ
    を更に含む請求項8に記載の方法。
  12. (f3)ユーザが前記認識問題のタイプを解析するのを支援するためにミニ・チュートリアルをユーザに供給するステップ
    を更に含む請求項8に記載の方法。
  13. (g)前記音声認識改良ツールが自動的に起動する時、前記音声認識改良ツールのユーザに警報するステップを更に含む請求項1に記載の方法。
  14. (g)前記転写システムが前記転写するステップの精度をテストすることをユーザが望んでいるかどうかを決定するステップと、
    (h)前記転写システムが前記精度をテストすることをユーザが望んでいる場合、ユーザからのテスト入力音声を受け取り、転写するステップと、
    を更に含む請求項1に記載の方法。
  15. (g)前記音声認識改良ツールを自動的に起動するステップがディセーブルされるかどうかを決定するステップと、
    (h)前記音声認識改良ツールを自動的に起動するステップがディセーブルされる場合、前記自動的に起動するステップを遂行させないステップと、
    を更に含む請求項1に記載の方法。
  16. 入力音声をテキスト・フォーマットの形に転写するための転写装置にして、
    入力音声を受け取り、前記入力音声を転写音声の形に転写し、前記転写音声の精度が十分であるかどうかを決定し、前記精度が十分でない時にユーザがシステム・パラメータを調節するのを支援するメッセージを表示し、数多くの起こり得る認識問題のタイプを与え、特定の問題に関係するすべての解決ステップをリスト形式で提供する音声認識改良ツールを自動的に起動し、前記音声認識改良ツールを使用して転写ステップの精度を改良するコンピュータと、
    前記コンピュータに接続され、前記転写音声を表示するディスプレイ・モニタと、
    前記コンピュータに接続され、前記入力音声を受け取るマイクロフォンと、
    を含む転写装置。
  17. 機械により実行可能な複数のコード・セクションを有し、
    (a)受け取った入力音声を、テキスト・フォーマットにおけるワードの順次リストを含む転写音声の形に転写するステップ、
    (b)前記転写音声の精度をモニタするステップ、
    (c)前記転写音声の精度が十分であるかどうかを決定するステップ、
    (d)前記転写音声の精度が十分でないという決定の時にユーザがシステム・パラメータを調節するのを支援するメッセージを表示し、数多くの起こり得る認識問題のタイプを与え、特定の問題に関係するすべての解決ステップをリスト形式で提供する音声認識改良ツールを自動的に起動するステップ、及び
    (e)前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
    を遂行させるためのコンピュータ・プログラムを記憶した機械読み取り可能な記憶装置。
JP2000188566A 1999-06-30 2000-06-23 音声を転写するための方法及び装置 Expired - Fee Related JP3627006B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/345,071 US6370503B1 (en) 1999-06-30 1999-06-30 Method and apparatus for improving speech recognition accuracy
US09/345071 1999-06-30

Publications (2)

Publication Number Publication Date
JP2001034293A JP2001034293A (ja) 2001-02-09
JP3627006B2 true JP3627006B2 (ja) 2005-03-09

Family

ID=23353372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000188566A Expired - Fee Related JP3627006B2 (ja) 1999-06-30 2000-06-23 音声を転写するための方法及び装置

Country Status (3)

Country Link
US (2) US6370503B1 (ja)
JP (1) JP3627006B2 (ja)
CN (1) CN1145141C (ja)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7631343B1 (en) 1993-03-24 2009-12-08 Endgate LLC Down-line transcription system using automatic tracking and revenue collection
US7249026B1 (en) * 1993-03-24 2007-07-24 Engate Llc Attorney terminal having outline preparation capabilities for managing trial proceedings
US5369704A (en) * 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
US7797730B2 (en) * 1999-06-24 2010-09-14 Engate Llc Downline transcription system using automatic tracking and revenue collection
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US7171365B2 (en) * 2001-02-16 2007-01-30 International Business Machines Corporation Tracking time using portable recorders and speech recognition
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
EP1374225B1 (en) 2001-03-29 2004-12-29 Philips Electronics N.V. Synchronise an audio cursor and a text cursor during editing
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7809574B2 (en) 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7313526B2 (en) 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7054817B2 (en) * 2002-01-25 2006-05-30 Canon Europa N.V. User interface for speech model generation and testing
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
US20040260547A1 (en) * 2003-05-08 2004-12-23 Voice Signal Technologies Signal-to-noise mediated speech recognition algorithm
JP4714694B2 (ja) * 2003-11-05 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声−テキストトランスクリプションシステムの誤り検出
US20050102140A1 (en) * 2003-11-12 2005-05-12 Joel Davne Method and system for real-time transcription and correction using an electronic communication environment
US7440895B1 (en) * 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
US8504369B1 (en) * 2004-06-02 2013-08-06 Nuance Communications, Inc. Multi-cursor transcription editing
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
CN100458913C (zh) * 2005-01-24 2009-02-04 乐金电子(惠州)有限公司 语音识别系统的发音验证方法
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US8260617B2 (en) * 2005-04-18 2012-09-04 Nuance Communications, Inc. Automating input when testing voice-enabled applications
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US8286071B1 (en) * 2006-06-29 2012-10-09 Escription, Inc. Insertion of standard text in transcriptions
US8275613B2 (en) * 2006-08-21 2012-09-25 Unifiedvoice Corporation All voice transaction data capture—dictation system
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
US8949124B1 (en) * 2008-09-11 2015-02-03 Next It Corporation Automated learning for speech-based applications
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US20130124984A1 (en) 2010-04-12 2013-05-16 David A. Kuspa Method and Apparatus for Providing Script Data
US10115392B2 (en) * 2010-06-03 2018-10-30 Visteon Global Technologies, Inc. Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8930189B2 (en) 2011-10-28 2015-01-06 Microsoft Corporation Distributed user input to text generated by a speech to text transcription service
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
AU2014262833B2 (en) * 2013-05-06 2019-10-31 Bio-Rad Laboratories, Inc. Stabilization of labile analytes in reference materials
CN104347081B (zh) * 2013-08-07 2019-07-02 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
EP2866153A1 (en) * 2013-10-22 2015-04-29 Agfa Healthcare Speech recognition method and system with simultaneous text editing
TWI506458B (zh) 2013-12-24 2015-11-01 Ind Tech Res Inst 辨識網路產生裝置及其方法
US9911408B2 (en) * 2014-03-03 2018-03-06 General Motors Llc Dynamic speech system tuning
US10160177B2 (en) * 2014-06-27 2018-12-25 Pregis Intellipack Llc Protective packaging device queue control
US9721564B2 (en) 2014-07-31 2017-08-01 Rovi Guides, Inc. Systems and methods for performing ASR in the presence of heterographs
US9830321B2 (en) 2014-09-30 2017-11-28 Rovi Guides, Inc. Systems and methods for searching for a media asset
US9570074B2 (en) 2014-12-02 2017-02-14 Google Inc. Behavior adjustment using speech recognition system
US11094320B1 (en) * 2014-12-22 2021-08-17 Amazon Technologies, Inc. Dialog visualization
WO2016103809A1 (ja) * 2014-12-25 2016-06-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN105702257A (zh) * 2015-08-12 2016-06-22 乐视致新电子科技(天津)有限公司 语音处理方法与装置
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10319255B2 (en) * 2016-11-08 2019-06-11 Pearson Education, Inc. Measuring language learning using standardized score scales and adaptive assessment engines
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫
US11170774B2 (en) * 2019-05-21 2021-11-09 Qualcomm Incorproated Virtual assistant device

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57105799A (en) * 1980-12-23 1982-07-01 Sanyo Electric Co Device for identifying sound
JPS58149097A (ja) * 1982-03-02 1983-09-05 沖電気工業株式会社 音声標準パタ−ンの作成方法
JPS6063900U (ja) * 1983-10-05 1985-05-04 カシオ計算機株式会社 音声認識装置
JPS6338995A (ja) * 1986-08-04 1988-02-19 松下電器産業株式会社 音声認識ダイアル電話装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JP3725566B2 (ja) * 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
JPH0876784A (ja) * 1994-09-07 1996-03-22 Toshiba Corp 音声認識装置
US5684924A (en) * 1995-05-19 1997-11-04 Kurzweil Applied Intelligence, Inc. User adaptable speech recognition system
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
JPH09292895A (ja) * 1996-04-25 1997-11-11 Matsushita Electric Ind Co Ltd ヒューマン・マシン・インタフェース装置
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
JPH11126092A (ja) * 1997-10-22 1999-05-11 Toyota Motor Corp 音声認識装置および車両用音声認識装置
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6138099A (en) * 1998-10-19 2000-10-24 International Business Machines Corp. Automatically updating language models
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training

Also Published As

Publication number Publication date
US6675142B2 (en) 2004-01-06
CN1145141C (zh) 2004-04-07
CN1279461A (zh) 2001-01-10
JP2001034293A (ja) 2001-02-09
US20020013709A1 (en) 2002-01-31
US6370503B1 (en) 2002-04-09

Similar Documents

Publication Publication Date Title
JP3627006B2 (ja) 音声を転写するための方法及び装置
KR100312060B1 (ko) 음독이 미숙한 자용 및 표시기가 없는 장치용 음성 인식등록 방법 및 장치
US10607611B1 (en) Machine learning-based prediction of transcriber performance on a segment of audio
EP0773532B1 (en) Continuous speech recognition
US6321196B1 (en) Phonetic spelling for speech recognition
US6424935B1 (en) Two-way speech recognition and dialect system
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
USRE37684E1 (en) Computerized system for teaching speech
US5717828A (en) Speech recognition apparatus and method for learning
US6269335B1 (en) Apparatus and methods for identifying homophones among words in a speech recognition system
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US20090258333A1 (en) Spoken language learning systems
KR20060037228A (ko) 음성인식을 위한 방법, 시스템 및 프로그램
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP2010197644A (ja) 音声認識システム
EP4261822A1 (en) Setting up of speech processing engines
JP2002244547A (ja) 発話学習システムのコンピュータプログラムおよびこのプログラムと協働するサーバ装置
Burger et al. Comparison of commercial dictation systems for personal computers

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040914

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041111

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees