JP3627006B2

JP3627006B2 - 音声を転写するための方法及び装置

Info

Publication number: JP3627006B2
Application number: JP2000188566A
Authority: JP
Inventors: ケリー・エイ・オルテガ; ハンス・エガー; アーサー・ケラー; ロナルド・イー・ヴァンバスカーク; フイファン・ワン; ジェイムズ・アール・ルイス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-06-30
Filing date: 2000-06-23
Publication date: 2005-03-09
Anticipated expiration: 2020-06-23
Also published as: US6675142B2; CN1145141C; CN1279461A; JP2001034293A; US20020013709A1; US6370503B1

Description

【０００１】
【発明の属する技術分野】
本発明の技術分野は連続的に音声を認識するための方法及び装置である。更に詳しく云えば、本発明は、音声認識の精度に関する制御をユーザに与えるための方法に関するものである。
【０００２】
【従来の技術】
現在、ユーザがマイクロフォンに向けて連続的に口述することを可能にする音声認識システムが存在する。この場合、音声はコンピュータによってテキストに変換され、そのテキストがコンピュータのモニタ上に表示される。ワードとワードとの間で一時停止することなく音声をデコードするように設計された連続的音声認識システムでは、デコーディングのエラーが生じること及びそれがユーザによって訂正されなければならないということが期待されるのは当然である。特定のディクテーション・セッション時に特定のタイプのエラーが連続して繰り返されるということは屡々ある。システムが、例えば、”ａｎｄ” のような特定のワードを繰り返し誤認識することがある。
【０００３】
従来技術の音声認識システムは、受け取った音声を種々のシステム・パラメータに基づいて、並びに、例えば、オーディオ・レベル、トピック・ライブラリ、及びスピーカ依存のトレーニング・データベースのようなデータベースに基づいて転写する。或るシステムでは、そのシステムに関して訓練されたユーザは、どのようなタイプの認識精度問題が生じようとしているか決定することができ、ユーザの音声の認識精度を改良するために種々のパラメータ又はデータベースを調節又は変更することができるであろう。しかし、多くのユーザは、認識精度の問題を識別する方法又はそれらの問題を改善するためにシステム・パラメータを調節する方法を学習するという傾向又は根気を持ち得ないであろう。更に、或るユーザは、音声認識セッション時に生成されるテキストをモニタすることを望まないし、認識の問題が生じようとしていることを真に理解し得ないであろう。これらのいずれのタイプのユーザも挫折感を持つことになり、そのシステムを使用しないと決めてしまうことになる。
【０００４】
【発明が解決しようとする課題】
必要とされるとは、システムの認識精度を改善するために、ユーザが容易にシステム・パラメータ又はユーザの行為を変更することを可能にするような、口述音声を転写するための方法及び装置である。更に必要とされることは、音声認識問題が生じようとしている時を識別することができ、特定のタイプの問題を識別した場合にユーザを支援することができるような口述音声を転写するための方法及び装置である。
【０００５】
【課題を解決するための手段】
本発明は音声を転写するための装置及び方法を含み、それは、入力音声を受け取り、その入力音声を、テキスト・フォーマットにおけるワードの順次リストを含む被転写音声の形に転写するものである。転写時に、その方法及び装置は転写音声の精度をモニタし、その転写音声の精度が十分であるかどうかを決定する。その精度が十分でない場合、その方法及び装置は音声認識改良ツールを自動的に起動する。その方法及び装置は、その音声認識改良ツールを使用して、転写プロセスの精度を改良する。
【０００６】
その方法は、少なくともコンピュータ、モニタ、及びマイクロフォンを含む転写装置によって遂行される。その方法は、機械読み取り可能な記憶装置に記憶されたコンピュータ・プログラムの複数のコード・セッションを実行する機械によって遂行可能である。
【０００７】
本発明の全体的な目的は、システムの認識精度を改良するためにシステム・パラメータ又はユーザの行為を容易に変更する機能及び情報を転写システム・ユーザに提供することである。本発明のもう１つの目的は自動的にこの機能をユーザに提供することである。
【０００８】
【発明の実施の形態】
図１は、本発明の望ましい実施例に従って、音声認識システムの簡単なブロック図を示す。音声認識システム１００は、パーソナル・コンピュータ又はワークステーションのようなコンピュータ１０２を含み、そのコンピュータはディスプレイ・モニタ１０４，マウス１０６又は他のポインティング装置、及びキーボード１０８を有する。更に、システム１００は、コンピュータ１０２に対して口述するために使用されるマイクロフォン１１０、及びユーザへの音響フィードバックを供給するために使用されるスピーカ１１２を含む。特に、コンピュータ１０２は、マイクロフォン１１０から音響情報を得るために必要なインターフェースを具備している。そのような装置は、ＳＯＵＮＤＢＬＡＳＴＥＲ（ＴＭＣｒｅａｔｉｖｅＬａｂｓ）のようなコンピュータ・マザー・ボード又はドータ・カード上に、又は他の手段を通して与えられるものでもよい。
【０００９】
モニタ１０４，マウス１０６，キーボード１０８及びスピーカ１１２は、音声認識システム１００のユーザが転写プロセスを開始し、制御し、及びモニタすることができるユーザ・インターフェースを形成する。望ましい実施例では、コンピュータ１０２は、特定の音声認識システムのセッション時の認識精度に影響を与える種々のパラメータをユーザが調節するのを支援するために、モニタ１０４を介して種々のスクリーンを提供する。
【００１０】
図２乃至図１１に関連して、音声認識システム１００のオペレーションを詳しく説明する。オペレーション時に、ユーザによってマイクロフォン１１０を介して音声入力が供給され、コンピュータ１０２によってインプリメントされたデコーダ・エンジン（図示されていない）がその入力音声を連続的に受け取り、モニタ１０４上に表示されるテキスト出力を作成する。音声を転写するために、デコーダ・エンジンは、例えば、システム・ボキャブラリ、音響モデル、及び言語ベース・モデルのようなコンピュータのメモリ（図示されていない）内に記憶された情報からデータを呼び出す。そこで、デコーダ・エンジンは、例えば、入力音声のテキスト変換を作成するために、音響入力と音響モデルとのマッチングのようなオペレーションを遂行する。
【００１１】
言語ベースのモデルは、どの候補フレーズが適当であるかを決定するように、共通のワード・シーケンスに関するデータを供給する。これは、音声学的には同じワード（例えば、”ｔｏ”、”ｔｗｏ”、及び”ｔｏｏ”、或いは、”ｔｈｅｒｅ”、”ｔｈｅｉｒ”、及び”ｔｈｅｙ’ｒｅ” ）を含むワード及びフレーズの間の選択には重要である。一旦、デコーダ・エンジンによって種々の要素が考察されてしまうと、テキストがテキスト・データしてそのエンジンによって使用可能にされる。或るユーザ音声入力をデコードしてしまうと、デコーダ・エンジン又は或るアプリケーションがユーザ・インターフェース（例えば、モニタ１０４又はスピーカ１１２）を介してユーザにそのテキストを表示してもよい。
【００１２】
この時点で、ユーザは音声認識プロセスに関する問題を検出することが可能であり、或いは、望ましい実施例では、システムはその問題を検出してユーザに通知することが可能である。そこで、グラフィカル・ユーザ・インターフェース（ＧＵＩ）を使用して、ユーザは、音声認識の精度を改善するために、種々のシステム・パラメータを調節すること又はユーザの行為を修正することを通してガイドされる。
【００１３】
図２は、本発明の望ましい実施例に従ってユーザが音声認識システムの音声認識精度を改良することを可能にするための方法のフローチャートを示す。望ましくは、その方法はシステム１００（図１）のような音声認識システムを使用して遂行される。
【００１４】
その方法は、ユーザが音声認識プログラムを開始する時、ステップ２０２において始まる。一般に、音声認識プログラムの開始は、ユーザがソフトウエア・アプリケーションをダウンロード（必要な場合）し、初期設定し、開始するようにコンピュータにプロンプト指示することによって生じるであろう。そこで、プログラムは、自動的に又はユーザからの種々の入力の結果として、ステップ２０４において入力音声を受け取り及び転写し始め、その転写された音声をユーザのコンピュータのモニタ上に表示する。転写プロセスはワードの順次リストをテキスト・フォーマットで生じる。
【００１５】
望ましい実施例では、ステップ２０５において、プログラムが音声認識の精度をモニタする。転写された音声の精度をモニタすることは、例えば、転写ワードのうち認識閾値よりも低いワード数又はパーセンテージ、或いはユーザによって訂正されたワードの数又はパーセンテージを追跡することによって行われ得るものである。望ましい実施例では、精度は（例えば、ワード毎を基準にして）連続的にモニタされる。別の実施例では、転写された音声の精度を周期的に又は非周期的にチェックすることによって精度をモニタすることが可能である。
【００１６】
転写された音声の精度が受容し得ないものになる時、システムは認識改良ツールを自動的に起動する。そのツールは、後述のように、認識精度を改良するためにユーザがシステム・パラメータを容易に調節することを可能にする。その認識精度改良ツールの自動的な起動は煩わしいものになり得るので、望ましい実施例では、連続モニタリング又は自動開始のフィーチャをユーザがディセーブルすることも可能である。更に、望ましい実施例では、ユーザはいつでも認識改良ツールを手操作で起動することができる。
【００１７】
ステップ２０６乃至２１０は、認識改良ツールの起動に先行する判断ステップを示す。これらのステップはプログラム・フローの一部分として遂行されてもよく、或いは、例えば、割込み駆動されてもよい。いずれの場合も、コンピュータは、判断ステップ２０６乃至２１０の１つがプログラムをステップ２１２又は２１４に進めさせるまで、ステップ２０４において音声を受け取り、及び転写し続ける。
【００１８】
ステップ２０６において、認識改良ツールが起動されることをユーザがリクエストしたかどうかの決定が行われる。望ましい実施例では、ユーザは、音声認識セッション時の任意の時点でこのリクエストを行うことができる。一般に、ユーザは、システムがユーザの音声を正確に転写していないことをテキストが表示されたことに基づいて通知する時、リクエストを行うであろう。認識改良ツールが起動されることをユーザがリクエストした場合、プログラムは後述のステップ２１４に進む。そのツールが起動されることをユーザがリクエストしなかった場合、プログラムはステップ２０８に進む。
【００１９】
ステップ２０８において、その自動ツール起動フィーチャがディセーブルされているかどうかの決定が行われる。望ましい実施例では、当初このフィーチャはイネーブルされ、しかる後、ユーザによって手操作でディセーブル又はイネーブル可能である。ユーザは一連のメニュー・オプション（それらのメニュー・オプションの１つがそのフィーチャをイネーブル又はディセーブルする）をアクセスすることができるであろう。別の方法として、そのツールが起動される（後述のステップ２１４）度に、ユーザは、音声認識セッションの残り部分に対して、或いはユーザが自動起動フィーチャを再イネーブルするまで、その自動起動フィーチャがディセーブルされることを自分が望んでいるかどうかを表示するようにプロンプト指示されるであろう。そのフィーチャがディセーブルされている場合、プログラムは図２に示されるように反復し、システムは音声を受け取り、及び転写し続ける。
【００２０】
そのフィーチャがディセーブルされていない場合、ステップ２１０において、音声認識精度が十分であるかどうかの決定が行われるであろう。この決定は、一般に、音声認識システムが口述システムであるか又はコマンド及び制御システムであるかによって影響されるであろう。コマンド及び制御システムでは、入力音声が比較的小さいのボキャブラリ・ライブラリにおけるエントリと比較される。システムは、発声されたワードがそのライブラリにおけるコマンド・ワードの１つに一致しないという高度の自信をそれが持たない場合、アクションを取らないであろう。例えば、認識レベルが特定の閾値よりも下である場合、システムはそのワードが認識されないことを決定することができるであろう。事前定義されたパーセンテージのワードが閾値よりも低い場合、又は事前定義された数の連続したワードが認識不能である場合、システムは、認識精度が不十分であるということを決定することができるであろう。
【００２１】
一方、ディクテーション・システムでは、発声された各ワードがずっと大きいライブラリに比較され、システムは、その発声されたワードに対して最も近い相関関係を持ったライブラリ・ワードを出力する。ディクテーション・システムにおいて認識閾値方法が使用されてもよいけれども、認識精度を決定するために他の方法が更に適していることもある。例えば、システムによって作成されたテキストをユーザが編集することができる場合、そのシステムは何パーセントのワードをユーザが訂正したかを決定することができるであろう。訂正されたワードの数又はパーセンテージが事前定義された数又は事前定義されたパーセンテージよりも大きい場合、そのシステムは、認識精度が不十分であることを決定することができるであろう。
【００２２】
音声認識システムのタイプに関係なく、信号対ノイズ測定方法及び本願における記載に基づいて当業者には明らかである他の方法ような、認識精度が不十分であるかどうかを決定する別の方法が使用されてもよい。
【００２３】
音声認識の精度が十分である場合、プログラムは図２に示されたように反復し、システムは音声を受け取り、それを転写し続ける。音声認識の精度が十分でない場合、ステップ２１２において、ユーザは、プログラムが認識改良ツールを起動することを警報される。この警報は、例えば、可聴的警報又は可視的警報を使用することによって与えられる。
【００２４】
ユーザ警報と結合された自動ツール起動フィーチャは、表示されたテキストをしっかりとモニタしていないユーザが認識改良ツールと対話するために口述を停止することを知っているであろうという利点を提供する。このフィーチャは、音声認識セッション時に他のタスクに集中するための更なる自由度をユーザに与える。
【００２５】
ステップ２０６及び２１０において行われた決定に基づいて、ステップ２１４において音声認識改良ツールが起動される。そのツールの起動は、そのツールを構成するソフトウエア・モジュールのダウンロード（それが必要な場合）、初期設定、及び開始を伴う。望ましい実施例では、プログラムが音声認識改良ツールを起動させたことを表すウインドウがモニタ・スクリーン上に表示される。この後、ユーザは、転写された音声の精度を改良しようとするためにそのツールと対話する。
【００２６】
図３は、ユーザと音声認識改良ツールとの間の初期対話を行うための例示的なディスプレイ・スクリーンを示す。望ましい実施例では、図３乃至図１１に示された各ディスプレイ・スクリーンがモニタ１４（図１）のようなコンピュータ・モニタ上に表示される。ディスプレイ・スクリーン３００は、望ましくは、そのツールが起動されたことをユーザに表示する「歓迎（Ｗｅｌｃｏｍｅ）」メッセージ等を含む。望ましい実施例では、スクリーン３００は、エレメント３０２乃至３１０によって例示されたエレメントのような他のエレメントも含む。なお、これらのエレメントの各々に関しては更に詳しく後述する。別の実施例では、更なるエレメント又は別のエレメントがスクリーン３００上に含まれることがあり得るし、或いは、エレメント３０２乃至３１０のうちのどれか又はすべてが他のスクリーン上に含まれることがあり得る。
【００２７】
エレメント３０２乃至３１０は、ユーザがそのツールによって与えられた種々のスクリーンを通して先に進むこと、或いはそのツールを取り消して終了することを可能にする。例えば、「戻る（Ｂａｃｋ）」ボタン３０２は、現在表示されているスクリーンの直前に表示されたスクリーンをそのツールに表示させる。一方、「次へ（Ｎｅｘｔ）」ボタン３０４は、そのツールによって次に表示されるスクリーンをそのツールに表示させる。次に表示されるべきスクリーンが、ユーザが現スクリーンにおいて与えなければならない入力に依存し、しかもユーザがその入力を与えなかった（例えば、ユーザがエレメント３１０における問題のタイプを識別しなかった）場合、ツールは、そのツールが次のスクリーンに進む前にユーザが入力を与えなければならないことを表すエラー・メッセージをユーザに表示することができるであろう。更に、ユーザは、「キャンセル（Ｃａｎｃｅｌ）」ボタン３０６をクリックすることによって又は他の何らかの既存のプロシージャ使用すること（例えば、キーボード上の「エスケープ（Ｅｓｃａｐｅ）」ボタンを押すこと、又はドロップ・ダウン・メニューから「終了（Ｅｘｉｔ）」を選択すること）によって、いつでもそのツールを終了させることができる。
【００２８】
前述のように、スクリーン３００は、ユーザがツールの自動起動フィーチャをディセーブルすることができるエレメント３０８のような選択可能なエレメントを提供することができるであろう。先ず、エレメント３０８は、問題のシステム識別時にいつもそのツールを自動的に起動するように設定されるであろう。従って、ユーザは、ユーザがその自動起動フィーチャを再起動しなかった場合、残りの音声認識セッションに対してそのツールを手操作で起動することが必要であろう。
【００２９】
図２を再び参照すると、ステップ２１６において、認識問題のタイプが識別される。その問題のタイプはユーザによって表示されてもよく、或いは、後述のように、最もありそうな問題のタイプとしてそのツールによって自動的に識別されてもよい。ユーザが（例えば、ステップ２０６において）手操作でそのツールを起動した場合、望ましい実施例では、ツールは多くの起こり得る認識問題のタイプを表示するであろう。これは図３に示される。そこでは、ツールがテキスト・エレメント３１０において多くの起こり得る認識問題のタイプを表示する。マウスを使用することによって、又はオプション（例えば、アップ／ダウン矢印）を選択するという他の一般的な方法を使用することによって、ユーザは、起こり得る認識問題のタイプのうちのどれが遭遇されるべき問題のタイプとしてユーザが考慮するかを表す入力を供給する。一般に、ユーザは、転写されたテキストをレビューしている時にユーザが知らされた認識問題のタイプに相当する問題のタイプを選択するであろう。
【００３０】
そのツールが（例えば、ステップ２１０において）自動的に起動させられた場合、望ましい実施例では、ツールは、最もありそうな認識問題のタイプを、そのシステムが遭遇した問題として（即ち、認識精度が不十分であったことをシステムに決定させた問題として）可能な限り自動的に識別する。この場合、ツールは、エレメント３１０を表示するよりも、そのツールが問題を識別したこと及びそのツールが問題を軽減又は排除するようにユーザがシステム・パラメータを調節するのを支援することを表すメッセージを表示することができるであろう。別の方法として、エレメント３１０は、その識別された問題を強調表示することによって表示されてもよい。最もありそうな問題のタイプをシステムが識別することが可能でない場合、ツールは、エレメント３１０に示されるように、あるいは、別の実施例において、数多くの起こり得る認識問題のタイプを与えることができるであろう。
【００３１】
図２を再び参照すると、一旦、システムによって又はユーザによって問題のタイプが識別されると、ステップ２１８において、ツールは可能な解決ステップをユーザに提供する。望ましい実施例では、ユーザは、「次へ」ボタン３０４をクリックすることによってその可能な解決ステップをツールに提供させることができる。ユーザが「次へ」ボタン３０４をクリックすることによって、ツールは、その選択された問題に対する可能な解決ステップを表す新しいスクリーンを表示する。
【００３２】
表１は、多くの起こり得る問題のタイプに対して、その問題を軽減又は排除するために取り得る可能な解決ステップのいくつかをリストした例示的な表を示す。それらの表はユーザには表示されないであろうが、その代わりに、表示すべき次のスクリーンをツールが識別する方法を説明するために示される。
【表１】

【００３３】
欄４０２には、数多くの起こり得る認識問題のタイプがリストされる。これらの問題のタイプは、図３のエレメント３１０においてリストされた問題のタイプに対応する。欄４０４には、対応する問題のタイプを軽減又は排除するために取り得る数多くの可能な解決ステップがリストされる。種々の別の実施例では、更に多くの、更に少ない、又は種々の問題のタイプ及び／又は解決ステップがツールによって処理可能である。欄４０２及び４０４にリストされた問題のタイプ及び解決ステップは例示的な目的のためだけのものであり、本発明の技術的範囲を限定することを意図するものではない。
【００３４】
欄４０４にリストされているような種々の解決ステップを提供することに加えて、ツールは、後述のように、例えば、システム・パラメータを設定することに関して又は正しく口述することに関してユーザを教育する種々の「ミニ・チュートリアル」をユーザに提供することもできるであろう。説明の目的で、数多くのこれらのミニ・チュートリアルが欄４０４にもリストされる。
【００３５】
ツールのオペレーションを説明するために、図３並びに表１に対する参照が行われる。「システムが個々のワードを認識しない」という認識問題をユーザが図３のエレメント３１０から選択したと仮定する。この問題のタイプは表１の問題４０６に対応する。「次へ」ボタン３０４をクリックした時、ツールは、表１のステップ・リスト４０８にリストされた可能な解決ステップの１つを表す新しいスクリーンをユーザに提供するであろう。例えば、ツールは解決ステップ：「正しいユーザかどうかをチェックする」に対応するスクリーンを提供するであろう。ユーザがそのスクリーンと対話することによってその解決ステップを実行した後、ツールは解決ステップ：「問題ワードを入力する」に対応する次のスクリーンを表示することができるであろう。このシーケンスは、すべての解決ステップ（及び、利用可能である場合のミニ・チュートリアル）がユーザに提示されてしまうまで、又はユーザが前のステップに戻りたいこと又は「バック」ボタン３０２又は「キャンセル」ボタン３０６を使用して、そのツールを終了させたいことをユーザが表すまで継続するであろう。別の実施例では、その特定の問題に関係するすべての解決ステップ（及び、利用可能である場合のミニ・チュートリアル）がリスト形式でユーザに提供可能であろうし、ユーザは、それがツールに実行させたいステップを選択できるであろう。
【００３６】
図４乃至図１０は、種々の認識問題に対する可能な解決方法をユーザに提供するために及びミニ・チュートリアルをユーザに提供するために使用される例示的なディスプレイ・スクリーンを示す。図４乃至図１０に示されたスクリーンのセットは、すべての起こり得る問題に与えられるすべての可能なスクリーンを含むものではなく、その代わりに、共通して遭遇する問題に対するいくつかの解決方法を例示することを意図するものである。
【００３７】
図４は、ユーザが「ワードの記録」解決ステップを実行するのを支援するための例示的なディスプレイ・スクリーンを示す。ツールは、例えば、システムが個々のワードを認識しないことが認識問題であるということを（図２のステップ２１６において）ユーザ又はシステムが認識した場合にスクリーン５００を表示するであろう。そのような場合、ユーザは、誤認識されたワードのスペリングを入力するようにエレメント５０２においてプロンプト指示される。しかる後、ユーザは「記録」ボタン５０４を押し、しかる後、そのワードをマイクロフォンに向けて発声する。そこで、ツールは、そのワード及び発音法をそのユーザと関連した適切なボキャブラリ又はトピックに記憶し、そのワードに対する前に記憶された発音法にその発音法を加える。
【００３８】
ツールは更に付加的な機能を遂行することもできるであろう。例えば、ツールは、それがクリーンな且つノイズのない信号を受け取ったことを確認するために音質測定を行うことができるであろう。ツールは、必要な場合、ユーザがそのワードを再記録すること又は何らかの他のアクションを取ることをプロンプト指示することができるであろう。
【００３９】
記録されたワードに関するツールの分析に基づいて、ツールは、ユーザが１つ又は複数の他の解決ステップをインプリメントすることを提案することができるであろう。例えば、ツールは、音声のレコーディング・レベルが適正に調節されてないこと（例えば、それらが低すぎる又は高すぎること）を決定することができるであろうし、ツールは音声レベルの調節を通してユーザをガイドすることができるであろう。
【００４０】
別の方法として、ツールは、ユーザがそのシステムでもって完全に登録することを、ユーザが未だそれを行っていない場合、ユーザに提案することができるであろう。登録済みスピーカは、以前にその音声認識エンジンを訓練したスピーカである。トレーニング・プロセス時に、システムは、特定のスピーカにとって独特であるスピーカ依存のモデルを作成する。スピーカ依存のモデルは、音声認識セッション時に、登録済みスピーカの音声を良好に認識するために使用される。未登録のスピーカは、以前にその音声認識エンジンを訓練しなかったスピーカである。従って、未登録のスピーカに対するスピーカ依存のモデルは存在しない。その代わり、未登録のスピーカの音声を転写するために、スピーカに無関係のモデルが使用される。スピーカに無関係のモデルを使用することは、システムがスピーカ依存のモデルを使用して持つ誤認識問題よりも多くの誤認識問題をシステムに持たせることがある。
【００４１】
図５は、「問題ワード」解決ステップを実行する場合にユーザを支援するための例示的ディスプレイ・スクリーンを示す。ツールは、例えば、（図２のステップ２１６において）システムが特定のワードを認識しないことが認識問題であるということを識別した場合、スクリーン６００を表示するであろう。「ワードの記録」スクリーン５００（図４）と同様に、ユーザは、以前にそのワードが他のスクリーン上で入力されなかった場合、エレメント６０２においてその誤認識のワードのスペリングを入力するようにプロンプト指示される。そこで、ユーザは、「発音の再生（ＰｌａｙＰｒｏｎｕｎｃｉａｔｉｏｎ）」ボタン６０４をクリックすることによってシステムが認識したワードの発音をツールに再生させることができる。そこで、ツールは、そのワードがシステム・ボキャブラリ又はいずれかのアクティブ・トピック・ライブラリ内にあることを確認するであろう。そのワードがシステム内にある場合、ツールは適切なボキャブラリ又はトピック・ライブラリからそのワードを検索し、テキスト・音声変換を行い、スピーカを通してユーザにそのワードを再生するであろう。そのワードに対して複数の発音が存在する場合、ツールはすべての使用可能な発音を再生することができるであろう。そのワードがシステム内にない場合、ユーザはそのワードを記録するようにプロンプト指示されるであろう。
【００４２】
ユーザがその発音に満足しない場合、ユーザは「発音の変更（ＣｈａｎｇｅＰｒｏｎｕｎｃｉａｔｉｏｎ）」ボタン６０６をクリックすることによって発音を変更することができる。そこで、ユーザはマイクロフォンに向かってそのワードを発声するであろう。しかる後、ツールは、そのユーザと関連した適切なボキャブラリ又はトピックにその発音を記憶し、そのワードに対して以前に記憶された発音にその発音を加えることになるであろう。「ワードの記録」プロセスの場合のように、ツールは更に付加的な機能を遂行することができるであろう。
【００４３】
図６は、ユーザが「別の発音の作成」解決ステップを実行するのを支援するための例示的ディスプレイ・スクリーンを示す。ツールは、例えば、ユーザが「問題ワード」解決ステップを使用して特定のワードの認識を改良することができない場合のスクリーン７００を表示するであろう。「別の発音の作成」ステップは、ボキャブラリ又はトピックに現在存在するワードに対する新しい発音をユーザが指定することを可能にする。このフィーチャは、例えば、ユーザが或る特定のワードを発音するのが難しい場合、又はユーザが或るワードの省略バージョンを使用する場合に有用である。例えば、ユーザが「ｆｒｉｄｇｅ」を発声する度に「ｒｅｆｒｉｇｅｒａｔｏｒ」をシステムに出力させたいことがある。ユーザは「ｒｅｆｒｉｇｅｒａｔｏｒ」を「古い発音」エレメント７０２に入力し、「ｆｒｉｄｇｅ」を「新しい発音」エレメント７０４に入力するであろう。その後は、システムは、ユーザが「ｆｒｉｄｇｅ」と発声する度に「ｒｅｆｒｉｇｅｒａｔｏｒ」を出力するであろう。
【００４４】
図７は、ユーザが「個人的音声ファイルのチェック（ＣｈｅｃｋｉｎｇＹｏｕｒＰｅｒｓｏｎａｌＳｐｅｅｃｈＦｉｌｅ）」解決ステップを実行するのを支援するための例示的ディスプレイ・スクリーンを示す。ツールは、例えば、システムが全体的に不十分な認識を呈することが認識問題であるということをユーザ又はシステムが識別した場合（図２のステップ２１６において）、スクリーン８００を表示するであろう。そのような場合、システムは劣悪なスピーカ依存のモデルを使用していることがあり得る。従って、スクリーン８００は、システムが現在使用している音声ファイルをエレメント８０２において表示するであろう。種々の環境（例えば、オフィス及び自動車）に基づいてエレメント８０２において識別されたそのユーザに対する複数のスピーカ依存のモデルをそのシステムが有する場合、ツールは、ユーザがどの環境にあるとシステムが見なしているかをエレメント８０４において表示することができる。更に、システムが種々の言語（例えば、英語及びフランス語）に基づいてエレメント８０２において識別されたユーザに対する複数のスピーカ依存のモデルを有する場合、ツールは、ユーザがどの言語を発声しているとシステムが見なしているかをエレメント８０６において表示することができる。そこで、ユーザは、異なるユーザ、環境、及び／又は、言語を選択することによってエレメント８０２乃至８０６のうちのいずれも修正することができる。望ましい実施例では、ユーザはエレメント８０２乃至８０６のいずれかと関連したドロップ・ダウン・エレメント８０８をクリックすることができ、利用可能な代替え物のリストが表示されるであろう。
【００４５】
図８は、ユーザが「ボキャブラリへの追加（ＡｄｄｔｏＶｏｃａｂｕｌａｒｙ）」解決ステップを実行するのを支援するための例示的なディスプレイ・スクリーンを示す。例えば、ユーザが「問題ワード」解決ステップを使用して新しいワードを入力した後、ツールはスクリーン９００を表示するであろう。前述のように、ツールは、その入力されたワードが「問題ワード」解決ステップと関連してシステム・ボキャブラリ又はいずれかのアクティブなトピック・ライブラリ内にあることを確認することができるであろう。記録されたワードがシステム・ボキャブラリにないことをツールが認識する時、スクリーン９００はワード９０２（例えば、”Ｆｏｏ”）を表示し、ユーザがそのワードをボキャブラリに追加することを望んでいるかどうかを表すようにユーザにプロンプト指示する。ユーザが「ワードの追加（ＡｄｄＷｏｒｄ）」ボタン９０４をクリックする場合、そのワードがボキャブラリに追加される。ユーザが複数のボキャブラリをシステム上に記憶させている場合、ツールは、そのワードを他のボキャブラリに追加するためのオプション、又は、ユーザが望む場合には、その後システム又はユーザによって不起動状態にされなければ、現在の音声認識セッションのバランスのためにそれらのボキャブラリのうちのいずれか１つ又はすべてを起動するためのオプションをユーザに与えるであろう。
【００４６】
図９は、ユーザが「トピックの起動（ＡｃｔｉｖａｔｅＴｏｐｉｃ）」解決ステップを実行するのを支援するための例示的なディスプレイ・スクリーンを示す。スクリーン９００（図８）と同様に、例えば、ユーザが「問題ワード」解決ステップを使用して新しいワードを入力した後、ツールはスクリーン１０００を表示するであろう。記録されたワードがシステム・ボキャブラリ内にないか又はいずれのアクティブなトピック・ライブラリ内にもないが、ユーザのアクティブでないトピック・ライブラリの１つにおいて見つかったことをツールが認識した時、スクリーン１０００はワード１００２（例えば、”Ｆｏｏ” ）を表示し、ユーザがボキャブラリにそのワードを追加することを望んでいるのかどうかを表示するように、或いはそのワードが見つかったトピックを起動するようにユーザにプロンプト指示する。ユーザが「ワードの追加」ボタン１００４をクリックする場合、そのワードはボキャブラリに追加される。ユーザが複数のボキャブラリをシステム上に記憶されている場合、ツールはそのワードを他のボキャブラリに追加するためのオプションをユーザに与え、ユーザが望む場合には、現在の音声認識セッションのバランスに関するそれらのボキャブラリのうちのいずれか１つ又はすべてを起動するためのオプションを与えるであろう。ユーザが「トピックの起動」ボタン１００６をクリックする場合、その後システム又はユーザによって不起動状態にされないならば、そのワードが見つかった非アクティブのトピックが現在の音声認識セッションのバランスのために起動される。
【００４７】
図１０は、システム・パラメータを調節する場合又は適切に口述する場合に、ユーザを教育するためのミニ・チュートリアルに対する例示的なディスプレイ・スクリーンを示す。ツールは、例えば、図２のステップ２１６において識別された特定の問題をユーザが解決するのを助けることができる１つ又は複数のミニ・チュートリアルが利用可能である場合のスクリーン１１００を表示するであろう。各ミニ・チュートリアルは、システム・パラメータを設定することに関して、及び／又は、認識問題を軽減するためにユーザの行為を調節することに関してユーザを教育することができるであろう。例えば、ユーザが発声する時に何も起こらないということが認識問題である場合、ツールは、マイクロフォンを使用する方法に関してミニ・チュートリアルを演じるためのオプションをユーザに与えることができる。望ましい実施例では、ユーザのためにエレメント１１０２においてビデオ・チュートリアルが再生され、ユーザは自分のオプションでそのチュートリアルを一時停止或いは再生し直すことができる。別の実施例では、チュートリアルは、ユーザを教育するように又はユーザに特定の手順（例えば、システム・パラメータを調節する方法）を踏ませるように設計された手書きの命令セットであってもよい。表１の欄４０４には、例示目的で数多くの可能なミニ・チュートリアルがリストされている。別の実施例では、更に多くのチュートリアル、更に少ないチュートリアル、又は種々のチュートリアルがそのツールによって提供可能である。更に、ユーザは、ドロップ・ダウン・メニュー、ヘルプ・プロシージャ、又は他の方法を通して任意の利用可能なチュートリアルをアクセスすることができるであろう。
【００４８】
図４乃至図１０に示されたスクリーンは、認識問題を解決する場合にユーザを助けるために使用可能なすべての生じ得るスクリーンを示すものでない。更に多くのスクリーン、更に少ないスクリーン、又は種々のスクリーンが提供可能である。
【００４９】
再び図２を参照すると、ユーザはステップ２１８において可能な解決ステップを与えられ、ツールはユーザ入力を、それが適正な場合に受け取り、ステップ２１９において必要に応じてシステム・パラメータを調節した後、ステップ２２０において、ユーザがシステムをテストすることを望んでいるかどうかの決定が行われる。ユーザは、例えば、新しいユーザの行為、そのユーザがシステム・パラメータ（例えば、音声設定）に対して行った変更、或いはユーザがシステムに追加したワードが、そのシステムが遭遇しようとしている認識問題を解決したかどうかを決定するためにシステムをテストすることを望んでもよい。ユーザがそのシステムをテストしたいということをユーザが表す場合、ステップ２２２においてツールはテストをインプリメントする。望ましい実施例では、そのテストは、ユーザが対話することができるディスプレイ・スクリーンをツールが提供することによってインプリメントされる。
【００５０】
図１１は、ユーザがシステムの認識機能をテストするのを支援するための例示的なディスプレイ・スクリーンを示す。スクリーン１２００は、ステップ２２０（図２）においてツールに認識テストをインプリメントしてもらいたいことをユーザが表す時に表示される。スクリーン１２００は、ワード又はセンテンスを口述するようにユーザにプロンプト指示する。ユーザが「テスト（Ｔｅｓｔ）」ボタン１２０２をクリックし、発声し始める場合、システムはテスト入力音声を受け取り、その音声を転写し、そのテキストをエレメント１２０４において表示する。ユーザがその転写に満足しない場合、ユーザはすべての残りの問題を解決するためにツールと対話し続けることができるであろう。例えば、ユーザはスクリーン３００（図３）に戻って認識改良プロセスを再び始めることができるであろう。別の方法として、ユーザは、特定に認識問題（例えば、ウェブ・ページ又は無料の電話番号）を解決するための他の使用可能なソースを指摘することもできるであろう。ユーザがその転写に満足する場合、ユーザは「キャンセル」ボタン３０６をクリックすることによってツールを終了させることができる。
【００５１】
図３乃至図１１に示されたスクリーンのレイアウト及び内容は単に例示目的のためのものであり、それらのレイアウト及び内容は本発明の技術的範囲を限定することを意図するものではない。種々の代替えの実施例において、更なる又は種々のスクリーン又はエレメントが提供可能であり、或いは、任意の又はすべてのエレメントが他のスクリーン上に含まれるようにしてもよい。更に、ユーザが他の認識問題を軽減又は排除するのを支援するようにスクリーンを提供することも可能である。
【００５２】
図２を再び参照すると、ユーザがテストをリクエストしなかった場合、又はテストが行われてしまった後、ユーザがステップ２２４においてツールを終了させたいということを表しているかどうかの決定が行われる。この決定は、ユーザが終了したいかどうかをユーザ・プロンプトがユーザに尋ねることに基づくことも可能である。例えば、ツールが特定の問題に対するすべての可能な解決ステップを提供した後、そのプロンプトを供給することも可能である。別の方法として、その決定は、ユーザがツールのスクリーンのうちのいずれかにおいて「キャンセル」ボタン３０６をクリックした場合、いつでも行われ得るものである。ユーザがツールを終了させたいことを表さなかった場合、その方法は、ステップ２１６のようなそのツールにおける前のステップに戻る。ユーザがツールを終了させたいことを表した場合、ツールはクローズされ、ユーザ音声を受け取り且つ転写するというステップ２０４に戻る。ユーザは、いつでも、現在の音声認識セッションを終了させたいということを、たとえこのオプションが図２に示されていなくても、表示することができる。
【００５３】
従って、従来の方法及び装置に関する特定の問題を克服し、それに関するいくつかの利点を達成する、音声を転写するための方法及び装置が開示された。システムに認識精度を改良するために、ユーザがシステム・パラメータ及びユーザの行為を変更することを可能にする、口述音声を転写するための方法及び装置が提供される。更に、音声認識問題が生じようとしている時を識別することができ、口述音声を転写するための及びユーザが特定のタイプの問題を識別するのを支援するための方法及び装置が提供される。その方法は、システムによって自動的に起動可能であり、望ましい実施例では、その起動をユーザに通知することも可能である。これは、転写セッション時にユーザが転写テキストを近接してモニタする必要をなくする。更に、その方法はミニ・チュートリアルを介してユーザに教育を施すので、更に正確な転写音声を得るために、ユーザは自分の行為を修正し、或いはシステム・パラメータを調節することができる。
【００５４】
特定の実施例に関する上記の説明は本発明の一般的な性質を十分に示しているので、他の人が、現在の知識を応用することによって、総体的な概念から逸脱することなく種々の適用分野に対してそれらの実施例を容易に修正し、或いは適応させることができる。従って、そのような適応及び修正は、開示された実施例の均等物の意義及び範囲に包含されなければならず、包含されることを意図するものである。特に、望ましい実施例は種々の認識問題、解決ステップ、及びスクリーンによって説明されたけれども、当業者には、本願における説明に基づいて、本発明の方法が、更に多くの、更に少ない、又は種々の問題、ステップ、及びスクリーンを使用してインプリメント可能であることは明らかであろう。更に、本願において示されたフローチャートが本発明を教示することを意図したものであること、及び必ずしもフローチャート化に向いていないプログラム・フローをインプリメントするための種々のテクニックが考えられることは当業者には明らかであろう。例えば、本願において検討された各タスクは、プログラム・フローがバックグラウンド・タスク又は他のタスクを遂行することを可能にするように割込みされてもよい。更に、特定のタスク順序が変更されてもよく、それらのタスクをインプリメントするために使用される特定のテクニックがシステム毎に異なっていてもよい。音声認識システムの特定のインプリメンテーションが、本願において図示されてない又は説明されてない種々の処理コンポーネント、データ・セット、及びデータ・パスを含んでもよいということも理解されるべきである。
【００５５】
本願において使用された語句又は用語は説明の目的のためのものであり、限定のためのものではないことも理解されるべきである。従って、本発明は、特許請求の範囲の項に示された精神及び広い技術的範囲内にあるような代替え、修正、均等物、及び変更をすべて包含することを意図するものである。
【００５６】
まとめとして、本発明の構成に関して以下の事項を開示する。
【００５７】
（１）転写システムによって遂行される音声を転写するための方法にして、
（ａ）入力音声を受け取るステップ、
（ｂ）前記入力音声を、テキスト・フォーマットにおける転写ワードの順次リストを含む転写音声の形に転写するステップ、
（ｃ）前記転写音声の精度をモニタするステップ、
（ｄ）前記転写音声の精度が十分であるかどうかを決定するステップ、
（ｅ）前記転写音声の精度が十分でないという決定の時に音声認識改良ツールを自動的に起動するステップ、及び
（ｆ）前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
を含む方法。
（２）前記モニタするステップは認識閾値よりも低いワードの数を追跡するステップを含む上記（１）に記載の方法。
（３）前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義の数よりも高い場合、前記精度が十分でないことを決定するステップを含む上記（２）に記載の方法。
（４）前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む上記（２）に記載の方法。
（５）前記モニタするステップは前記転写システムのユーザによって訂正されたワードの数を追跡するステップを含む上記（１）に記載の方法。
（６）前記決定するステップは、ユーザによって訂正されたワードの数が事前設定の数よりも高い場合、前記精度が十分でないことを決定するステップを含む上記（５）に記載の方法。
（７）前記決定するステップは、ユーザによって訂正されたワードの数が事前設定のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む上記（５）に記載の方法。
（８）前記転写するステップの精度を改良するステップは
（ｆ１）認識問題のタイプを識別するステップと、
（ｆ２）前記認識問題のタイプを解析するための可能な解決ステップを前記音声認識改良ツールのユーザに供給するステップと、
を含む上記（１）に記載の方法。
（９）前記認識問題のタイプを識別するステップは
（ｆ１ａ）可能な認識問題のタイプの数をユーザに表示するステップと、
（ｆ１ｂ）前記可能な認識問題のタイプのうちのどれを前記認識問題のタイプとしてユーザが識別するかを表す入力をユーザから受け取るステップと、
を含む上記（８）に記載の方法。
（１０）前記認識問題のタイプを識別するステップは、前記音声認識改良ツールによって、最もありそうな認識問題のタイプを前記認識問題のタイプとして自動的に識別するステップを含む上記（８）に記載の方法。
（１１）（ｆ３）前記転写するステップの精度を改良するために前記音声認識改良ツールがパラメータを調節することを可能にする入力をユーザから受け取るステップ
を更に含む上記（８）に記載の方法。
（１２）（ｆ３）ユーザが前記認識問題のタイプを解析するのを支援するためにミニ・チュートリアルをユーザに供給するステップ
を更に含む上記（８）に記載の方法。
（１３）（ｇ）前記音声認識改良ツールが自動的に起動する時、前記音声認識改良ツールのユーザに警報するステップ
を更に含む上記（１）に記載の方法。
（１４）（ｇ）前記転写システムが前記転写するステップの精度をテストすることをユーザが望んでいるかどうかを決定するステップと、
（ｈ）前記転写システムが前記精度をテストすることをユーザが望んでいる場合、ユーザからのテスト入力音声を受け取り、転写するステップと、
を更に含む上記（１）に記載の方法。
（１５）（ｇ）前記音声認識改良ツールを自動的に起動するステップがディセーブルされるかどうかを決定するステップと、
（ｈ）前記音声認識改良ツールを自動的に起動するステップがディセーブルされる場合、前記自動的に起動するステップを遂行させないステップと、
を更に含む上記（１）に記載の方法。
（１６）入力音声をテキスト・フォーマットの形に転写するための転写装置にして、
入力音声を受け取り、前記入力音声を転写音声の形に転写し、前記転写音声の精度が十分であるかどうかを決定し、前記精度が十分でない時に音声認識改良ツールを自動的に起動し、前記音声認識改良ツールを使用して転写ステップの精度を改良するコンピュータと、
前記コンピュータに接続され、前記転写音声を表示するディスプレイ・モニタと、
前記コンピュータに接続され、前記入力音声を受け取るマイクロフォンと、
を含む転写装置。
（１７）機械により実行可能な複数のコード・セクションを有し、
（ａ）受け取った入力音声を、テキスト・フォーマットにおけるワードの順次リストを含む転写音声の形に転写するステップ、
（ｂ）前記転写音声の精度をモニタするステップ、
（ｃ）前記転写音声の精度が十分であるかどうかを決定するステップ、
（ｄ）前記転写音声の精度が十分でないという決定の時に音声認識改良ツールを自動的に起動するステップ、及び
（ｅ）前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
を遂行させるためのコンピュータ・プログラムを記憶した機械読み取り可能な記憶装置。
【図面の簡単な説明】
【図１】本発明の望ましい実施例に従って音声認識システムの単純化したブロック図を示す。
【図２】ユーザが本発明の望ましい実施例に従って音声認識システムの音声認識精度を改良することを可能にするための方法のフローチャートを示す。
【図３】ユーザ及び音声認識改良ツールの間の初期対話を与えるために使用される例示的なディスプレイ・スクリーンを示す。
【図４】ユーザの「ワードの記録」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図５】ユーザの「問題ワード」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図６】ユーザの「別の発音の作成」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図７】ユーザの「個人的音声ファイルのチェック」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図８】ユーザの「ボキャブラリへの追加」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図９】ユーザの「トピックの起動」解決ステップの実行を支援するための例示的なディスプレイ・スクリーンを示す。
【図１０】システム・パラメータを調節するように又は適正に口述するようにユーザを教育するためのミニ・チュートリアルに対する例示的ディスプレイ・スクリーンを示す。
【図１１】ユーザがシステムの認識機能をテストするのを支援するための例示的なディスプレイ・スクリーンを示す。

Claims

転写システムによって遂行される音声を転写するための方法にして、
（ａ）入力音声を受け取るステップ、
（ｂ）前記入力音声を、テキスト・フォーマットにおける転写ワードの順次リストを含む転写音声の形に転写するステップ、
（ｃ）前記転写音声の精度をモニタするステップ、
（ｄ）前記転写音声の精度が十分であるかどうかを決定するステップ、
（ｅ）前記転写音声の精度が十分でないという決定の時にユーザがシステム・パラメータを調節するのを支援するメッセージを表示し、数多くの起こり得る認識問題のタイプを与え、特定の問題に関係するすべての解決ステップをリスト形式で提供する音声認識改良ツールを自動的に起動するステップ、及び
（ｆ）前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
を含む方法。
前記モニタするステップは認識閾値よりも低いワードの数を追跡するステップを含む請求項１に記載の方法。
前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義の数よりも高い場合、前記精度が十分でないことを決定するステップを含む請求項２に記載の方法。
前記決定するステップは、前記認識閾値よりも低いワードの数が事前定義のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む請求項２に記載の方法。
前記モニタするステップは前記転写システムのユーザによって訂正されたワードの数を追跡するステップを含む請求項１に記載の方法。
前記決定するステップは、ユーザによって訂正されたワードの数が事前設定の数よりも高い場合、前記精度が十分でないことを決定するステップを含む請求項５に記載の方法。
前記決定するステップは、ユーザによって訂正されたワードの数が事前設定のパーセンテージよりも高い場合、前記精度が十分でないことを決定するステップを含む請求項５に記載の方法。
前記転写するステップの精度を改良するステップは
（f1）認識問題のタイプを識別するステップと、
（f2）前記認識問題のタイプを解析するための可能な解決ステップを前記音声認識改良ツールのユーザに供給するステップと、
を含む請求項１に記載の方法。
前記認識問題のタイプを識別するステップは
（f1a）可能な認識問題のタイプの数をユーザに表示するステップと、
（f1b）前記可能な認識問題のタイプのうちのどれを前記認識問題のタイプとしてユーザが識別するかを表す入力をユーザから受け取るステップと、
を含む請求項８に記載の方法。
前記認識問題のタイプを識別するステップは、前記音声認識改良ツールによって、最もありそうな認識問題のタイプを前記認識問題のタイプとして自動的に識別するステップを含む請求項８に記載の方法。
（f3）前記転写するステップの精度を改良するために前記音声認識改良ツールがパラメータを調節することを可能にする入力をユーザから受け取るステップ
を更に含む請求項８に記載の方法。
（f3）ユーザが前記認識問題のタイプを解析するのを支援するためにミニ・チュートリアルをユーザに供給するステップ
を更に含む請求項８に記載の方法。
（ｇ）前記音声認識改良ツールが自動的に起動する時、前記音声認識改良ツールのユーザに警報するステップを更に含む請求項１に記載の方法。
（ｇ）前記転写システムが前記転写するステップの精度をテストすることをユーザが望んでいるかどうかを決定するステップと、
（ｈ）前記転写システムが前記精度をテストすることをユーザが望んでいる場合、ユーザからのテスト入力音声を受け取り、転写するステップと、
を更に含む請求項１に記載の方法。
（ｇ）前記音声認識改良ツールを自動的に起動するステップがディセーブルされるかどうかを決定するステップと、
（ｈ）前記音声認識改良ツールを自動的に起動するステップがディセーブルされる場合、前記自動的に起動するステップを遂行させないステップと、
を更に含む請求項１に記載の方法。
入力音声をテキスト・フォーマットの形に転写するための転写装置にして、
入力音声を受け取り、前記入力音声を転写音声の形に転写し、前記転写音声の精度が十分であるかどうかを決定し、前記精度が十分でない時にユーザがシステム・パラメータを調節するのを支援するメッセージを表示し、数多くの起こり得る認識問題のタイプを与え、特定の問題に関係するすべての解決ステップをリスト形式で提供する音声認識改良ツールを自動的に起動し、前記音声認識改良ツールを使用して転写ステップの精度を改良するコンピュータと、
前記コンピュータに接続され、前記転写音声を表示するディスプレイ・モニタと、
前記コンピュータに接続され、前記入力音声を受け取るマイクロフォンと、
を含む転写装置。
機械により実行可能な複数のコード・セクションを有し、
（ａ）受け取った入力音声を、テキスト・フォーマットにおけるワードの順次リストを含む転写音声の形に転写するステップ、
（ｂ）前記転写音声の精度をモニタするステップ、
（ｃ）前記転写音声の精度が十分であるかどうかを決定するステップ、
（ｄ）前記転写音声の精度が十分でないという決定の時にユーザがシステム・パラメータを調節するのを支援するメッセージを表示し、数多くの起こり得る認識問題のタイプを与え、特定の問題に関係するすべての解決ステップをリスト形式で提供する音声認識改良ツールを自動的に起動するステップ、及び
（ｅ）前記音声認識改良ツールを使用して前記転写するステップの精度を改良するステップと、
を遂行させるためのコンピュータ・プログラムを記憶した機械読み取り可能な記憶装置。