JP2004054270A

JP2004054270A - 音声認識精度を決定する方法

Info

Publication number: JP2004054270A
Application number: JP2003181843A
Authority: JP
Inventors: Shailesh B Gandhi; シャイレッシュ・ビー・ガンディ; Peeyush Jaiswal; ピーユシュ・ジャイスワル; Victor S Moore; ビクター・エス・ムーア; Gregory L Toon; グレゴリー・エル・トゥーン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-07-16
Filing date: 2003-06-25
Publication date: 2004-02-19
Anticipated expiration: 2023-06-25
Also published as: US20040015351A1; US7260534B2; JP3940383B2

Abstract

【課題】音声認識システムの精度を決定するための解決策を提供すること。
【解決手段】第１のグラフィカル・ユーザ・インターフェイス（ＧＵＩ）が、トランザクション・ログを選択するために提供される。トランザクション・ログは少なくとも１つのエントリを有し、これは音声認識テキスト結果を指定する。第２のＧＵＩも、エントリに対応する少なくとも１つのオーディオ・セグメントを選択するために提供される。第２のＧＵＩは、参照音声認識エンジンを通じてオーディオ・セグメントのトランスクリプションを開始して、第２のテキスト結果を生成するための活動化可能なアイコンを含む。
【選択図】　図５

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識の分野に関し、より詳細には、音声認識システムの精度を決定することに関する。
【０００２】
【従来の技術】
音声認識は、マイクロホンによって受信された音響信号が、コンピュータまたはマイクロプロセッサ・ベースのデバイスによって、テキスト・ワード、数字または記号のセットに変換されるプロセスである。これらの認識された語を様々なコンピュータ・ベースのソフトウェア・アプリケーションにおいて、文書のプレゼンテーション、データ入力、およびコマンドおよびコントロールなどのために使用することができる。音声認識システムの改良により、ユーザの生産性を向上させるための重要な方法が提供される。
【０００３】
音声認識システムは、音響信号をモデリングかつ分類して音響モデルを形成することができ、これは音素と呼ばれる基本言語単位の表現である。音響音声信号を受信かつデジタル化すると、音声認識システムはデジタル化された音声信号を解析し、音声信号に対応する一連の音響モデルを識別し、識別された一連の音響モデルに基づいて、可能性のある語候補のリストを導出することができる。音声認識システムはまた、可能性のある語候補が、デジタル化された音声信号に音声的に合致する程度を反映する測定値を決定することもできる。
【０００４】
音声認識システムはさらに、可能性のある語候補を、文脈モデルを参照して解析することができる。この解析では、語候補のうち１つが、受信された音声を正確に反映する確率を、先に認識された語に基づいて決定することができる。音声認識システムは、後に受信された語を確率決定に組み込むこともできる。文脈モデルはしばしば言語モデルと呼ばれ、これを、長時間の人の音声の解析を通じて開発することができる。通常、言語モデルの開発を領域特有のものにすることができる。たとえば、言語モデルを、テレフォニの文脈、法的文脈、医療的文脈内で、あるいは一般ユーザの文脈についての言語使用を反映して構築することができる。
【０００５】
音声認識システムの精度は、要素の数に依存する可能性がある。１つのこのような要素を、音声が検出されるオーディオ環境にすることができる。オーディオ環境は、結果として生じる音声オーディオ信号の品質に著しく影響を及ぼす可能性がある。たとえば自動車、または人が公衆電話を使用して音声認識システムと通信するような公共の場所など、高雑音環境から得られたユーザの音声は、かなりの量の環境雑音を含む可能性がある。これは、不十分な音声認識を導く可能性がある。さらに、テレフォニー・システムはしばしば低品質のオーディオ信号を利用して音声を表現する。低品質のオーディオ信号を音声処理システム内で使用することは前述の問題を悪化させる可能性があり、これは低品質のオーディオ・チャネルが結果として、ユーザの音声を圧倒する雑音となる可能性があるからである。
【０００６】
音声認識システムの精度に著しく影響を及ぼす可能性のあるもう１つの要素は、音声認識システム自体の構成である。システム構成は、多様なオーディオ環境またはかなりの量の雑音を有するオーディオ環境あるいはその両方において動作する音声認識システムに関して、特に関連する可能性がある。
【０００７】
【発明が解決しようとする課題】
本明細書に開示する本発明は、一連のグラフィカル・ユーザ・インターフェイス（ＧＵＩ）を通じてユーザをガイドして、音声認識システムの精度を決定するための解決策を提供する。本発明によれば、トランザクション・ログに関連付けられたオーディオ・セグメントに加えて、音声認識システムのトランザクション・ログを検査することができる。オーディオを、第２の音声認識システムによって処理して、第２の認識結果のセットを、記録されたオーディオ・セグメントから決定することができる。したがって、２つの音声認識システムの出力を比較して、様々な統計的な精度のメトリクスを決定することができる。
【０００８】
【課題を解決するための手段】
本発明は、トランザクション・ログを選択するための第１のＧＵＩを提供する。トランザクション・ログは少なくとも１つのエントリを有し、これは音声認識テキスト結果を指定する。第２のＧＵＩも、エントリに対応する少なくとも１つのオーディオ・セグメントを選択するために提供されることができる。第２のＧＵＩは自動的に、選択中のトランザクション・ログの上に提示され、これは、参照音声認識エンジンを通じてオーディオ・セグメントのトランスクリプションを開始して第２のテキスト結果を生成するための活動化可能なアイコンを含む。ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部も、第２のＧＵＩにおいて提供されることができる。
【０００９】
オーディオ・セグメントを少なくとも１つの状態に関連付けることを容易にするための１つまたは複数のフィールドを提供する、第３のＧＵＩも提供することができる。状態をトランザクション・ログに格納し、エントリに関連付けることができる。具体的には、フィールドは、オーディオ・セグメントを生成する人物、オーディオ・セグメントを生成する人物の性別、および、オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を識別することができる。たとえば、識別された周囲音を、天候により生じたものまたは背景雑音あるいはその両方によるものとすることができる。
【００１０】
第４のＧＵＩも提供されることができ、これは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための１つまたは複数のインディケータを含む。最後に、第５のＧＵＩを、テキスト結果および第２のテキスト結果、ならびに統計データを表示するために提供することができる。
【００１１】
図面において、現在好ましい実施形態を示すが、本発明が図示の正確な構成および手段に限定されないことを理解されたい。
【００１２】
【発明の実施の形態】
本明細書に開示する本発明は、音声認識システムの精度を決定するための解決策を提供する。本発明によれば、トランザクション・ログに関連付けられたオーディオ・セグメントに加えて、音声認識システムのトランザクション・ログを検査することができる。オーディオを、第２の音声認識システムによって処理して、第２の認識結果のセットを、記録されたオーディオ・セグメントから決定することができる。したがって、２つの音声認識システムの出力を比較して、様々な統計的な精度のメトリクスを決定することができる。一連のＧＵＩを使用したこのプロセスを通じて、ユーザをガイドすることができる。
【００１３】
図１は、音声認識システムの音声認識エンジン１００の典型的なコンポーネントを示すブロック図である。当業者には理解されるように、音声認識システムは、音声認識エンジン１００と対話するように構成された１つまたは複数の他のアプリケーション（図示せず）を含むことができる。たとえば、アプリケーションは、認識済テキストを編集するためのグラフィカル・インターフェイスを提供し、ユーザとのダイアログを生成し、あるいは、ユーザからの通話に応答し、これを管理することができる。いずれの場合も、音声認識エンジン１００を、デスクトップ音声認識システム、対話式音声応答（ＩＶＲ；ｉｎｔｅｒａｃｔｉｖｅ　ｖｏｉｃｅ　ｒｅｓｐｏｎｓｅ）ユニットまたは分散コンピューティング環境内に含めることができる。
【００１４】
図１のように、音声認識エンジン１００は、デジタル化された音声信号を受信する。この信号を続いて表現ブロック１１０で有用なデータのセットに変換することができ、これは、通常は１０〜２０ミリ秒毎である、ある固定レートで信号をサンプリングすることによって行われる。表現ブロック１１０を、オーディオ信号の新しい表現を生成するように構成することができ、この表現を音声認識プロセスの後続のステージで使用して、解析されたばかりの波形の部分が特定の音声イベントに対応する確率を決定することができる。このプロセスは、オペレーティング・システムから受信された音声信号の特徴に無関係に重要な話者に知覚的に強調するように意図される。モデリング／分類ブロック１２０では、音声信号をさらに処理して、話者に無関係の音響モデルを、入手可能である場合は現在の話者のものに適合させることができる。最後に、探索ブロック１３０で探索アルゴリズムを使用して、探索エンジンを、音声信号に対応するもっとも可能性の高い語にガイドすることができる。ブロック１３０の探索機能性を、音響モデル１４０、語彙モデル１５０および言語モデル１６０を用いて促進することができる。
【００１５】
図２は、本明細書に開示する本発明の構成による、音声認識システムの精度を決定するためのシステム２００を例示する概略図である。図２のように、システム２００は、音声認識システム２０５および音声認識エンジン２１０を含むことができる。音声認識システム２０５を、デスクトップ・システム、たとえば通常は通信ネットワークを介して音声サーバ内で実行する種類のバックエンド処理システムまたはＩＶＲシステムあるいはその両方など、様々な音声認識システムのいずれにすることもできる。特に、音声認識システム２０５を、本明細書でより詳細に記載するトランザクション・ログを生成することができるいかなる音声認識システムにすることもできる。
【００１６】
音声認識システム２０５を、データ・ストア２１５に通信的にリンクさせることができる。データ・ストア２１５はトランザクション・ログを含むことができ、これは音声認識システム２０５の様々な音声認識タスクおよび出力を詳述するものである。たとえば、音声認識システム２０５がテキストを音声に変換するとき、音声認識システム２０５はデータ・ストア２１５内でエントリを作成することができる。エントリは、テキスト認識結果、ならびに、認識結果を記載する属性を指定することができる。たとえば、属性は、ユーザが発話した発声の受信または記録あるいはその両方が行われたときに関係する日付および時間情報、および、テレフォニ音声認識システム内で実施された場合、ユーザが発話した発声がそれを介して受信された電話回線または音声チャネルあるいはその両方を指定することができる。ユーザが特定の音声プロンプトに応答中である場合、この情報も格納することができる。
【００１７】
音声認識システム２０５が各認識タスクを実行するとき、いかなる検出された問題もエントリ内に示すこともできる。たとえば、ユーザがプロンプトの上で発話した場合、システムはその問題を示すことができる。トランザクション・ログはさらに、受信されたオーディオの品質が正確な認識のために不十分であるかどうか、または、いかなる音声もユーザの応答期間中に検出されたかどうかを示すことができる。トランザクション・ログはまた、音声認識システム２０５の構成を詳述する情報も含むことができる。たとえば、いずれかの選択されたオプション、音響または言語のモデルまたは音処理フィルタなどの特定の参照モデル、特定のオーディオ環境に適合するように変更することができるいずれのものも、トランザクション・ログ内で詳述することができる。
【００１８】
音声認識システム２０５はユーザが発話した発声を受信するので、音声システム２０５自体、または別のアプリケーション・プログラムはオーディオ・セグメントをオーディオ・データ・ストア２２５内に格納することができる。すなわち、オーディオ・セグメントまたは実際のユーザの音声を、オーディオ・データ・ストア２２５内に記録かつ格納することができる。たとえば、オーディオ・セグメントを一連の個々のオーディオ・ファイルとして指定することができる。したがって、各オーディオ・セグメントは、トランザクション・ログに格納された情報を指定すること、あるいは各オーディオ・セグメントをこれに関連付けて、トランザクション・ログにおけるエントリを対応するオーディオ・セグメントと相関させることができるようにすることができる。たとえば、本発明の一実施形態によれば、オーディオ・ファイルを、データ情報に対応するディレクトリ構造内に格納することができる。別法として、オーディオ・セグメントの名前を、トランザクション・ログのエントリ内に明示的に格納することができる。
【００１９】
音声認識エンジン２１０は参照システムとしての機能を果たすことができ、これを、音声認識システム２０５に実質的に類似に機能するように構成することができる。音声認識エンジン２１０は構成パラメータを含むことができ、これを、音声認識システム２０５の構成パラメータを反映するように設定することができる。たとえば、音声認識システム２０５が、雑音のあるオーディオ環境内の使用のために構成され、したがって特定の音響モデル、しきい値レベルおよびフィルタリングを使用するように意図される場合、音声認識エンジン２１０を類似の方法で、音声認識システム２０５がどのような挙動を示しているかについての指示を提供するように構成することもできる。なお、音声認識エンジン２１０の構成およびパラメータを、代替構成がよりよい認識結果を提供するかどうかを決定するように変更することができる。
【００２０】
音声認識エンジン２１０をオーディオ・データ・ストア２２５に通信的にリンクさせて、オーディオ・データ・ストア２２５内に記録された音声を、音声認識エンジン２１０が処理および認識のために使用可能にすることができる。音声認識エンジン２１０からの認識結果を音声認識エンジン２１０が通信的にリンクされるデータ・ストア２２０内に格納することができる。したがって、データ・ストア２２０は、音声認識エンジン２１０のためのトランザクション・ログを含むことができる。しかし、エントリの様々な属性を、オーディオ・セグメント自体から決定することができ、あるいは、音声認識システム２０５のトランザクション・ログを構文解析し、いずれかのこのようなパラメータをインポートすることによって得ることができる。よって、音声認識エンジン２１０を、破線によって、データ・ストア２１５へのアクセスを有し、したがって音声認識システム２０５のトランザクション・ログへのアクセスを有するものとして示す。いずれの場合も、認識結果および対応する属性を使用して、音声認識エンジン２１０の認識結果を音声認識システム２０５の認識結果と、比較のために相関させることができる。
【００２１】
統計プロセッサ２３０はデータ・ストア２１５および２２０にアクセスでき、したがって音声認識システム２０５および音声認識エンジン２１０のトランザクション・ログにアクセスすることができる。たとえば、統計プロセッサは、トランザクション・ログを構文解析して認識結果および様々な属性を抽出するために必要ないかなるスクリプトも含むことができる。統計プロセッサ２３０を、統計データ２３５によって示された様々な統計メトリクスを生成するように構成することができる。
【００２２】
たとえば、統計データ２３５は、成功した認識と認識の総数の比、成功した認識とコントロール不可能な環境要素により失敗した認識を除いた認識の総数の比、失敗した認識と認識の総数の比、失敗した認識と認識の総数からコントロール不可能な環境要素により失敗した認識の数を差し引いたものの比、および、コントロール不可能な環境要素により失敗した認識と認識の総数の比を含むことができる。統計プロセッサ２３０はまた、一意の語の試みられた認識の数、一意の語の成功および不成功の認識の数、および、コントロール不可能な環境要素により失敗した認識の数を決定することもできる。
【００２３】
特に、音声認識システム２０５によって生成されたトランザクション・ログを、オプショナルかつ手動の検証手順を通じて編集することができ、これを項目２４０として参照する。詳細には、本発明により、テスト担当者が手動で音声認識システム２０５の認識結果を検証することができ、これはオーディオ・セグメントを開くことによって行われる。テスト担当者は手動でトランザクション・ログを編集して、テキスト結果が対応するオーディオ・セグメントの正確な表現であるかどうかを指示することができる。さらに、テスト担当者は、特定のオーディオ・セグメントについての正しいテキスト結果を、最初にセグメントを開いた後に入力することができる。したがって、本発明は、現場の音声認識システムを参照システムと比較することから統計情報を生成できるだけでなく、本発明はさらに、手動のプロセスを通じて決定された正しいテキスト認識結果に対する両方の精度を測定することができる。
【００２４】
図３は、本明細書に開示する本発明の構成による、図２のシステムによってコンパイルされることができるサンプル・データを示す表３００である。図３に示すように、この表は「Ｍａｎｕａｌ　Ｌｉｓｔｅｎ」列を含み、これは、オーディオ・セグメントを手動で開いて、ユーザによって発話された語または句あるいはその両方を識別することから決定されたテキストを指示する。第２の列には「ＡｐｐｌｉｃａｔｉｏｎＶｏｉｃｅ　Ｓｅｒｖｅｒ　１」というタイトルが付いており、これは、たとえば現場において動作中であるものなど、音声認識システムによって決定された認識結果をリストする。第３の列には「Ｒｅｓｕｌｔ１」というタイトルが付いており、これは、「Ａｐｐｌｉｃａｔｉｏｎ　Ｖｏｉｃｅ　Ｓｅｒｖｅｒ　１」の下にリストされたテキスト結果が、手動で検証されたテキストと比較されるときに正しいかどうかを指示する。第４の列には「ＡｐｐｌｉｃａｔｉｏｎＶｏｉｃｅ　Ｓｅｒｖｅｒ　２」というタイトルが付いており、これは、たとえば、研究室などのコントロールされた環境内で動作するものなど、参照音声認識エンジンから決定された認識済テキストをリストする。第５の列には「Ｒｅｓｕｌｔ２」というタイトルが付いており、これは、「Ａｐｐｌｉｃａｔｉｏｎ　Ｖｏｉｃｅ　Ｓｅｒｖｅｒ　２」の下にリストされた認識結果が、手動で導出されたテキストと比較されるときに正しいかどうかを指示する。
【００２５】
図示しないが、この表は追加の情報を含むことができ、これは、「ＡｐｐｌｉｃａｔｉｏｎＶｏｉｃｅ　Ｓｅｒｖｅｒ　１」の下にリストされた認識結果が、「Ａｐｐｌｉｃａｔｉｏｎ　Ｖｏｉｃｅ　Ｓｅｒｖｅｒ　２」の下にリストされた認識結果と比較されるときに正しいかどうかなどである。特に、表３００はまた、音声が検出されなかったとき、「ＡｐｐｌｉｃａｔｉｏｎＶｏｉｃｅＳｅｒｖｅｒ　１」の列で「［ｔｉｍｅｏｕｔ］」によって示すように、かつ「Ａｐｐｌｉｃａｔｉｏｎ　Ｖｏｉｃｅ　Ｓｅｒｖｅｒ　２」の列で「［］」によって示すように指定する。たとえば、これは、現場の音声認識システムによって決定されたとき、オーディオ信号が、信頼性のある認識が生じるためには多すぎる雑音を含むなどの場合である可能性がある。他のエラー状態もまた示すことができ、これは、「［ｓｐｏｋｅｔｏｏ　ｓｏｏｎ］」によって示すように、ユーザが音声プロンプトの上で発話する場合、および、「［ｓｉｌｅｎｃｅ］」によって示すように、沈黙のみが検出される場合などである。
【００２６】
図４は、本明細書に開示する本発明の構成により決定されたサンプルの統計メトリック計算を示す表４００である。図のように、統計情報は、特定の句が受信された回数の総数、その句が正確に認識された回数、その句が不正確に認識された回数、および、結果が入手不可能または適用不可能であった回数を指定するカウントを含むことができる。
【００２７】
図５は、本明細書に開示する本発明の構成による、音声認識精度の統計を決定するための例示的方法５００を示す流れ図である。この方法は、現場の音声認識システムが、テキスト結果、および、日付および時間情報などのパラメータ、および、他のいかなる構成パラメータ、および、音声認識システムがロギング可能である失敗状態を指定する、トランザクション・ログをコンパイルしている状況で開始することができる。様々な認識結果についてのオーディオ・セグメントも格納することができる。
【００２８】
ステップ５０５で、トランザクション・ログからのデータおよびオーディオ・セグメントにアクセスすることができる。ステップ５１０で、トランザクション・ログを構文解析して、認識結果および属性を抽出することができる。たとえば、情報を抽出し、この情報を使用可能なフォーマットに変換することができる１つまたは複数のスクリプトを使用して、トランザクション・ログを構文解析することができる。このデータをフォーマットして、ソフトウェアのユーザ、たとえばテスト担当者が認識結果の手動の検証中により容易に情報を閲覧かつ編集できるようにすることができる。加えて、データを、参照音声認識エンジンによって決定された認識結果と比較するために、調節することができる。上に述べたように、トランザクション・ログから、認識結果、認識結果についての日付および時間情報、オーディオ・セグメント情報、ならびに、オーディオ・セグメントにおける過度の雑音（低信号対雑音比）またはプロンプトの上で発話するユーザを含む、音声認識システムによって検出されたエラー状態を決定することができる。加えて、オーディオ・セグメントを、対応するトランザクション・ログ・エントリに関連付けることができる。
【００２９】
ステップ５１５で、オーディオ・セグメントを、コントロールされたコンピューティングまたはオーディオあるいはその両方の環境内の参照音声認識エンジンへの入力として提供することができる。参照音声認識エンジンはオーディオ・セグメントを処理して、認識済テキストをオーディオ・セグメント入力から決定することができる。ステップ５２０で、テスト担当者は手動で、解析中のオーディオ・セグメントの実際に発話された語を検証することができる。上に述べたように、テスト担当者はオーディオ・セグメントを開き、ユーザが発話した発声をトランスクライブすることができる。手動でトランスクライブされたテキストを、ステップ５１０で抽出された情報と共に含めることができる。特に、手動の検証プロセス中に、テスト担当者はさらに、オーディオ記録から認識可能な追加の詳細を示すことができる。
【００３０】
テスト担当者は、現場の音声認識システムが検出できない可能性のある状態を示すことができ、これは、記録が行われた特定のオーディオ環境などである。たとえば、自動車におけるタイヤおよび風など、雑音源を示すことができる。さらに、いかなる周囲状態をも示すことができ、これは、天候に関連した雑音源、および、たとえば公衆電話を介して検出された雑音など、他の背景雑音源などである。
【００３１】
テスト担当者はまた、ユーザの性別、および、ユーザが顕著なアクセントを有したかどうかを示すこともできる。オーディオ・セグメントにおいて特定のユーザの音声にしばしば遭遇する構成では、テスト担当者は、オーディオ・セグメントをその特定のユーザに関連付けるための識別子を示すことができる。テスト担当者によって示された情報をコードとして指定して、たとえば、統計処理が、手動のトランスクリプション・プロセスを通じて決定されたいかなる示された要素の影響も反映できるようにすることができる。
【００３２】
ステップ５２５で、現場の音声認識システムによって決定された認識済テキストを、参照音声認識エンジンによって決定された認識済テキストと比較することができる。ステップ５３０で、現場の音声認識システムおよび参照音声認識エンジンからの認識済テキストを、手動で導出されたテキストと比較することができる。したがって、ステップ５３５で、音声認識システムの認識性能を詳述する統計メトリクスを決定することができる。
【００３３】
統計メトリクスの解析を通じて、現場の音声認識システムが、音声認識システムが音声を受信する元のオーディオ環境のために適切に構成されたかどうかについての決定を行うことができる。参照音声認識エンジンを、現場の音声認識システムと類似に、あるいは同じものに構成することができるので、認識エラーが不適切なシステム構成の結果として生じたか、コントロール不可能な環境要素の結果として生じたか、あるいはユーザのエラーの結果として生じたかについての決定を行うことができる。特に、オーディオ・セグメントを処理して、現場の音声認識システムおよび参照音声認識エンジンのテストおよび比較のために、特定のオーディオ成果物またはオーディオ特性の挿入または除去あるいはその両方を行うこともできる。
【００３４】
図６ないし９は、一連のグラフィカル・ユーザ・インターフェース（ＧＵＩ）を通じてユーザをガイドする、自動化された方法を例示し、これは一般にウィザードと呼ばれる。ＧＵＩは、テキスト・フィールド、活動化可能アイコン、ボタンなど、情報をナビゲートしてファイルに入力するための複数のコントロールを組み込むことができる。図６を参照して、本発明の構成によるトランザクション・ログのユーザ選択のためのＧＵＩ６００の図を示す。たとえば、トランザクション・ログのディレクトリ構造を日付によって分類することができる。したがって、ＧＵＩ６００は、「月」選択フィールド６０５、「日」選択フィールド６１０、および「年」選択フィールド６１５を提示することができる。テスト担当者など、ＧＵＩ６００のユーザは、特定のトランザクション・ログを、トランザクション・ログが生成された日付に基づいて選択することができる。別の構成では、ディレクトリ構造をファイル名によって分類することができる。したがって、「ファイル名」選択フィールドを、トランザクション・ログを検索するために設けることができる。ファイル名、または月、日および年が各選択フィールドに入力された後、テスト担当者は「次」活動化可能アイコン６２０を選択してオペレーションを進行するか、あるいは「キャンセル」活動化可能アイコン６２５を選択してオペレーションをキャンセルすることができる。
【００３５】
「次」活動化可能アイコン６２０が選択されるとき、トランザクション選択ＧＵＩ７００を図７のように、特定のトランザクション・ログ・エントリのユーザ選択のために提示することができる。たとえば、「ブラウズ」活動化可能アイコン７０５を選択して、選択されたトランザクション・ログ内のトランザクション・ログ・エントリのリストを提示することができる。ＧＵＩ７００のユーザが、たとえばポインタにより特定のエントリを選択すると、選択されたエントリのための識別子を識別子フィールド７１０に表示することができる。さらに、参照音声認識エンジンによって処理中のオーディオ・セグメントの結果として生じる認識済テキストを、「トランスクライブ済テキスト」フィールド７１５に入れることができる。先に手動の検証プロセスについて記載したプロセスに従って、テスト担当者は「再生」活動化可能アイコン７２０を選択してオーディオ・セグメントを再生することができる。再生されたオーディオ・セグメントの記録された音声が認識済テキストに合致しない場合、テスト担当者は「トランスクライブ済テキスト」フィールド７１５における結果を手動で訂正することができる。
【００３６】
テスト担当者は「次」および「戻る」活動化可能アイコン７２５および７３０をそれぞれ使用して、トランザクション・ログ・エントリ中を順方向および逆方向にナビゲートすることができる。さらに、テスト担当者は「キャンセル」活動化可能アイコン７３５により、オペレーションをキャンセルすることができる。「次」活動化可能アイコン７２５が選択されるとき、図８のようなファイル関連付けＧＵＩ８００を提示することができる。
【００３７】
図８のファイル関連付けＧＵＩ８００を使用して、特定のオーディオ・セグメントを、オーディオ品質に影響を及ぼす状態に関連付けることができる。先に述べたように、この状態を、記録が行われた特定のオーディオ環境、ならびに、特定のオーディオ環境内に固有である可能性のある過度の雑音など、いずれかのコントロール不可能な環境要素にすることができる。たとえば、特定のユーザを「人物」フィールド８０５に示すことができ、性別を性別選択ボックス８１０に示すことができ、天候状態を「天候」フィールド８１５に示すことができる。
【００３８】
各オーディオ・セグメントに関係付けられた状態を、オーディオ・セグメントのトランスクリプションの直後に示すことができる。別法として、個々のオーディオ・セグメントについての状態を、特定のトランザクション・ログにおけるオーディオ・セグメントのすべてのトランスクリプションが完了した後に示すことができる。この実施形態では、「ブラウズ」活動化可能アイコン８２０を使用して、特定のオーディオ・セグメントを選択することができる。さらに、ＧＵＩをナビゲートするために「次」および「戻る」活動化可能アイコン８３０および８３５をそれぞれ使用して、オーディオ・セグメントをナビゲートして選択を行うことができる。オーディオ・セグメントが選択された後、「再生」活動化可能アイコン８２５を選択して、選択されたオーディオ・セグメントのオーディオ再生を開始することができ、テスト担当者はオーディオ・セグメントを開いて解釈して、対応する状態を決定することができる。テスト担当者は「キャンセル」活動化可能アイコン８４０を選択して、オペレーションをキャンセルすることができる。
【００３９】
最後に、状況ＧＵＩ９００を提示して、テスト担当者に、音声認識システムの精度決定において使用されたソフトウェア・アプリケーションの動作状況を提供することができる。たとえば、オーディオ・セグメント・ファイルが再生されているかどうか、および、音声ファイルが状態に関連付けられているかどうかの状況を指示することができる。状況ＧＵＩ９００はさらにユーザに、前のＧＵＩに戻るようにナビゲートするための「戻る」活動化可能アイコン９０５、オペレーションをキャンセルするための「キャンセル」活動化可能アイコン９１０、および、プロセスを完了するための「終了」活動化可能アイコン９１５を提供することができる。加えて、ＧＵＩを提供して図３および４の情報を、たとえばスプレッドシートのフォーマット、テーブル、リストなどにおいて表示することができる。たとえば、認識済テキスト結果、第２の認識済テキスト結果、および手動で訂正されたテキスト結果の比較、ならびに統計データを示すためのＧＵＩである。本明細書に開示したＧＵＩにおいて示す様々なコントロールは例示のためのものにすぎないことは、当業者には理解されよう。したがって、異なる構成のテキスト・フィールド、活動化可能アイコン、ラジオ・ボタン、ドロップ・ダウン・ボックスなどを使用することができ、本発明は、提供した特定のコントロールによって限定されない。
【００４０】
本発明を、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組み合わせにおいて実現することができる。本発明を、１つのコンピュータ・システムにおける集中型の方法において、あるいは、異なる要素がいくつかの相互接続されたコンピュータ・システムに渡って分散されている分散型の方法において実現することができる。本明細書に記載した方法を実行するために適合されたいかなる種類のコンピュータ・システムまたは他の装置も適切である。通常のハードウェアおよびソフトウェアの組み合わせを、ロードされ実行されるときに、本明細書に記載した方法を実行するようにコンピュータ・システムをコントロールするコンピュータ・プログラムを有する汎用コンピュータ・システムにすることができる。
【００４１】
また本発明をコンピュータ・プログラム製品に埋め込むこともでき、これは、本明細書に記載した方法の実施を可能にするすべての機能を含み、コンピュータ・システムにロードされるときにこれらの方法を実行することができるものである。これに関連したコンピュータ・プログラムは、情報処理機能を有するシステムに特定の機能を直接、あるいは、ａ）別の言語、コードまたは表記法への変換、ｂ）異なる物質的形式における再生のうちいずれかまたはその両方の後に実行させるように意図された命令のセットの、いかなる言語、コードまたは表記法におけるいかなる表現をも意味する。
【００４２】
本発明を、その精神または本質的属性から逸脱することなく、他の形式において実施することができる。したがって、前述の明細書ではなく特許請求の範囲が、本発明の範囲を示すものとして参照されるべきである。
【００４３】
まとめとして、本発明の構成に関して以下の事項を開示する。
【００４４】
（１）音声認識システムの精度を決定する方法であって、
少なくとも１つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第１のグラフィカル・ユーザ・インターフェイス（ＧＵＩ）を提供するステップと、
前記エントリに対応する少なくとも１つのオーディオ・セグメントを選択するための第２のＧＵＩを提供するステップとを含み、
前記第２のＧＵＩは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第２のテキスト結果を生成するための活動化可能なアイコンを含む、
方法。
（２）前記第２のＧＵＩは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、上記（１）に記載の方法。
（３）第３のＧＵＩを提供するステップをさらに含み、
前記第３のＧＵＩは、前記オーディオ・セグメントを少なくとも１つの状態に関連付けるための１つまたは複数のコントロールを含む、
上記（１）に記載の方法。
（４）前記状態は、前記オーディオ・セグメントを生成している少なくとも１人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、上記（３）に記載の方法。
（５）前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、上記（３）に記載の方法。
（６）前記周囲音は、天候により生じた音および背景雑音のうち少なくとも１つである、上記（４）に記載の方法。
（７）前記第２のＧＵＩが自動的に、選択中のトランザクション・ログの上に示される、上記（１）に記載の方法。
（８）第４のＧＵＩを提供するステップをさらに含み、
前記第４のＧＵＩは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための１つまたは複数のインディケータを含む、
上記（１）に記載の方法。
（９）前記テキスト結果および前記第２のテキスト結果を表示する第５のＧＵＩを提供するステップをさらに含む、上記（１）に記載の方法。
（１０）前記第５のＧＵＩはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、上記（９）に記載の方法。
（１１）前記第５のＧＵＩはさらにデータを表示する、上記（９）に記載の方法。
（１２）前記データは統計データである、上記（１１）に記載の方法。
（１３）マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムをその上に格納しているマシン可読記憶装置であって、前記コード・セクションは前記マシンに、
少なくとも１つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第１のグラフィカル・ユーザ・インターフェイス（ＧＵＩ）を提供するステップと、
前記エントリに対応する少なくとも１つのオーディオ・セグメントを選択するための第２のＧＵＩを提供するステップとを実行させ、
前記第２のＧＵＩは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第２のテキスト結果を生成するための活動化可能なアイコンを含む、
マシン可読記憶装置。
（１４）前記第２のＧＵＩは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、上記（１３）に記載のマシン可読記憶装置。
（１５）第３のＧＵＩを提供するステップをさらに含み、
前記第３のＧＵＩは、前記オーディオ・セグメントを少なくとも１つの状態に関連付けるための１つまたは複数のコントロールを含む、
上記（１３）に記載のマシン可読記憶装置。
（１６）前記状態は、前記オーディオ・セグメントを生成している少なくとも１人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、上記（１５）に記載のマシン可読記憶装置。
（１７）前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、上記（１５）に記載のマシン可読記憶装置。
（１８）前記周囲音は、天候により生じた音および背景雑音のうち少なくとも１つである、上記（１６）に記載のマシン可読記憶装置。
（１９）前記第２のＧＵＩが自動的に、選択中のトランザクション・ログの上に提示される、上記（１３）に記載のマシン可読記憶装置。
（２０）第４のＧＵＩを提供するステップをさらに含み、
前記第４のＧＵＩは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための１つまたは複数のインディケータを含む、
上記（１３）に記載のマシン可読記憶装置。
（２１）前記テキスト結果および前記第２のテキスト結果を表示する第５のＧＵＩを提供するステップをさらに含む、上記（１３）に記載のマシン可読記憶装置。
（２２）前記第５のＧＵＩはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、上記（２１）に記載のマシン可読記憶装置。
（２３）前記第５のＧＵＩはさらにデータを表示する、上記（２１）に記載のマシン可読記憶装置。
（２４）前記データは統計データである、上記（２３）に記載のマシン可読記憶装置。
【図面の簡単な説明】
【図１】音声認識エンジン内に含めることができる典型的なコンポーネントを示すブロック図である。
【図２】本明細書に開示する本発明の構成による、音声認識システムの精度を決定するためのシステムを示す概略図である。
【図３】本明細書に開示する本発明の構成による、図２のシステムによってコンパイルされることができるサンプル・データを示す表の図である。
【図４】本明細書に開示する本発明の構成により決定された、サンプルの統計メトリック計算を示す表の図である。
【図５】本明細書に開示する本発明の構成による、音声認識精度の統計を決定するための例示的方法を示す流れ図である。
【図６】本明細書に開示する本発明の構成による、トランザクション・ログを選択するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図７】本明細書に開示する本発明の構成による、オーディオ・セグメントを選択するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図８】本明細書に開示する本発明の構成による、特性をオーディオ・セグメントに関連付けるための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図９】本明細書に開示する本発明の構成によって実行されたオペレーションの状況を指示するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【符号の説明】
２００　システム
２０５　音声認識システム
２１０　音声認識エンジン
２１５　データ・ストア
２２０　データ・ストア
２２５　オーディオ・データ・ストア
２３０　統計プロセッサ
２３５　統計データ
２４０　オプショナルの検証
６００　ＧＵＩ
７００　トランザクション選択ＧＵＩ
８００　ファイル関連付けＧＵＩ
９００　状況ＧＵＩ

Claims

音声認識システムの精度を決定する方法であって、
少なくとも１つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第１のグラフィカル・ユーザ・インターフェイス（ＧＵＩ）を提供するステップと、
前記エントリに対応する少なくとも１つのオーディオ・セグメントを選択するための第２のＧＵＩを提供するステップとを含み、
前記第２のＧＵＩは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第２のテキスト結果を生成するための活動化可能なアイコンを含む、
方法。
前記第２のＧＵＩは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、請求項１に記載の方法。
第３のＧＵＩを提供するステップをさらに含み、
前記第３のＧＵＩは、前記オーディオ・セグメントを少なくとも１つの状態に関連付けるための１つまたは複数のコントロールを含む、
請求項１に記載の方法。
前記状態は、前記オーディオ・セグメントを生成している少なくとも１人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、請求項３に記載の方法。
前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、請求項３に記載の方法。
前記周囲音は、天候により生じた音および背景雑音のうち少なくとも１つである、請求項４に記載の方法。
前記第２のＧＵＩが自動的に、選択中のトランザクション・ログの上に示される、請求項１に記載の方法。
第４のＧＵＩを提供するステップをさらに含み、
前記第４のＧＵＩは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための１つまたは複数のインディケータを含む、
請求項１に記載の方法。
前記テキスト結果および前記第２のテキスト結果を表示する第５のＧＵＩを提供するステップをさらに含む、請求項１に記載の方法。
前記第５のＧＵＩはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、請求項９に記載の方法。
前記第５のＧＵＩはさらにデータを表示する、請求項９に記載の方法。
前記データは統計データである、請求項１１に記載の方法。
マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムをその上に格納しているマシン可読記憶装置であって、前記コード・セクションは前記マシンに、
少なくとも１つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第１のグラフィカル・ユーザ・インターフェイス（ＧＵＩ）を提供するステップと、
前記エントリに対応する少なくとも１つのオーディオ・セグメントを選択するための第２のＧＵＩを提供するステップとを実行させ、
前記第２のＧＵＩは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第２のテキスト結果を生成するための活動化可能なアイコンを含む、
マシン可読記憶装置。
前記第２のＧＵＩは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、請求項１３に記載のマシン可読記憶装置。
第３のＧＵＩを提供するステップをさらに含み、
前記第３のＧＵＩは、前記オーディオ・セグメントを少なくとも１つの状態に関連付けるための１つまたは複数のコントロールを含む、
請求項１３に記載のマシン可読記憶装置。
前記状態は、前記オーディオ・セグメントを生成している少なくとも１人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、請求項１５に記載のマシン可読記憶装置。
前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、請求項１５に記載のマシン可読記憶装置。
前記周囲音は、天候により生じた音および背景雑音のうち少なくとも１つである、請求項１６に記載のマシン可読記憶装置。
前記第２のＧＵＩが自動的に、選択中のトランザクション・ログの上に提示される、請求項１３に記載のマシン可読記憶装置。
第４のＧＵＩを提供するステップをさらに含み、
前記第４のＧＵＩは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための１つまたは複数のインディケータを含む、
請求項１３に記載のマシン可読記憶装置。
前記テキスト結果および前記第２のテキスト結果を表示する第５のＧＵＩを提供するステップをさらに含む、請求項１３に記載のマシン可読記憶装置。
前記第５のＧＵＩはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、請求項２１に記載のマシン可読記憶装置。
前記第５のＧＵＩはさらにデータを表示する、請求項２１に記載のマシン可読記憶装置。
前記データは統計データである、請求項２３に記載のマシン可読記憶装置。