JP2004054270A - 音声認識精度を決定する方法 - Google Patents

音声認識精度を決定する方法 Download PDF

Info

Publication number
JP2004054270A
JP2004054270A JP2003181843A JP2003181843A JP2004054270A JP 2004054270 A JP2004054270 A JP 2004054270A JP 2003181843 A JP2003181843 A JP 2003181843A JP 2003181843 A JP2003181843 A JP 2003181843A JP 2004054270 A JP2004054270 A JP 2004054270A
Authority
JP
Japan
Prior art keywords
gui
speech recognition
audio segment
readable storage
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003181843A
Other languages
English (en)
Other versions
JP3940383B2 (ja
Inventor
Shailesh B Gandhi
シャイレッシュ・ビー・ガンディ
Peeyush Jaiswal
ピーユシュ・ジャイスワル
Victor S Moore
ビクター・エス・ムーア
Gregory L Toon
グレゴリー・エル・トゥーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004054270A publication Critical patent/JP2004054270A/ja
Application granted granted Critical
Publication of JP3940383B2 publication Critical patent/JP3940383B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識システムの精度を決定するための解決策を提供すること。
【解決手段】第1のグラフィカル・ユーザ・インターフェイス(GUI)が、トランザクション・ログを選択するために提供される。トランザクション・ログは少なくとも1つのエントリを有し、これは音声認識テキスト結果を指定する。第2のGUIも、エントリに対応する少なくとも1つのオーディオ・セグメントを選択するために提供される。第2のGUIは、参照音声認識エンジンを通じてオーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む。
【選択図】 図5

Description

【0001】
【発明の属する技術分野】
本発明は音声認識の分野に関し、より詳細には、音声認識システムの精度を決定することに関する。
【0002】
【従来の技術】
音声認識は、マイクロホンによって受信された音響信号が、コンピュータまたはマイクロプロセッサ・ベースのデバイスによって、テキスト・ワード、数字または記号のセットに変換されるプロセスである。これらの認識された語を様々なコンピュータ・ベースのソフトウェア・アプリケーションにおいて、文書のプレゼンテーション、データ入力、およびコマンドおよびコントロールなどのために使用することができる。音声認識システムの改良により、ユーザの生産性を向上させるための重要な方法が提供される。
【0003】
音声認識システムは、音響信号をモデリングかつ分類して音響モデルを形成することができ、これは音素と呼ばれる基本言語単位の表現である。音響音声信号を受信かつデジタル化すると、音声認識システムはデジタル化された音声信号を解析し、音声信号に対応する一連の音響モデルを識別し、識別された一連の音響モデルに基づいて、可能性のある語候補のリストを導出することができる。音声認識システムはまた、可能性のある語候補が、デジタル化された音声信号に音声的に合致する程度を反映する測定値を決定することもできる。
【0004】
音声認識システムはさらに、可能性のある語候補を、文脈モデルを参照して解析することができる。この解析では、語候補のうち1つが、受信された音声を正確に反映する確率を、先に認識された語に基づいて決定することができる。音声認識システムは、後に受信された語を確率決定に組み込むこともできる。文脈モデルはしばしば言語モデルと呼ばれ、これを、長時間の人の音声の解析を通じて開発することができる。通常、言語モデルの開発を領域特有のものにすることができる。たとえば、言語モデルを、テレフォニの文脈、法的文脈、医療的文脈内で、あるいは一般ユーザの文脈についての言語使用を反映して構築することができる。
【0005】
音声認識システムの精度は、要素の数に依存する可能性がある。1つのこのような要素を、音声が検出されるオーディオ環境にすることができる。オーディオ環境は、結果として生じる音声オーディオ信号の品質に著しく影響を及ぼす可能性がある。たとえば自動車、または人が公衆電話を使用して音声認識システムと通信するような公共の場所など、高雑音環境から得られたユーザの音声は、かなりの量の環境雑音を含む可能性がある。これは、不十分な音声認識を導く可能性がある。さらに、テレフォニー・システムはしばしば低品質のオーディオ信号を利用して音声を表現する。低品質のオーディオ信号を音声処理システム内で使用することは前述の問題を悪化させる可能性があり、これは低品質のオーディオ・チャネルが結果として、ユーザの音声を圧倒する雑音となる可能性があるからである。
【0006】
音声認識システムの精度に著しく影響を及ぼす可能性のあるもう1つの要素は、音声認識システム自体の構成である。システム構成は、多様なオーディオ環境またはかなりの量の雑音を有するオーディオ環境あるいはその両方において動作する音声認識システムに関して、特に関連する可能性がある。
【0007】
【発明が解決しようとする課題】
本明細書に開示する本発明は、一連のグラフィカル・ユーザ・インターフェイス(GUI)を通じてユーザをガイドして、音声認識システムの精度を決定するための解決策を提供する。本発明によれば、トランザクション・ログに関連付けられたオーディオ・セグメントに加えて、音声認識システムのトランザクション・ログを検査することができる。オーディオを、第2の音声認識システムによって処理して、第2の認識結果のセットを、記録されたオーディオ・セグメントから決定することができる。したがって、2つの音声認識システムの出力を比較して、様々な統計的な精度のメトリクスを決定することができる。
【0008】
【課題を解決するための手段】
本発明は、トランザクション・ログを選択するための第1のGUIを提供する。トランザクション・ログは少なくとも1つのエントリを有し、これは音声認識テキスト結果を指定する。第2のGUIも、エントリに対応する少なくとも1つのオーディオ・セグメントを選択するために提供されることができる。第2のGUIは自動的に、選択中のトランザクション・ログの上に提示され、これは、参照音声認識エンジンを通じてオーディオ・セグメントのトランスクリプションを開始して第2のテキスト結果を生成するための活動化可能なアイコンを含む。ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部も、第2のGUIにおいて提供されることができる。
【0009】
オーディオ・セグメントを少なくとも1つの状態に関連付けることを容易にするための1つまたは複数のフィールドを提供する、第3のGUIも提供することができる。状態をトランザクション・ログに格納し、エントリに関連付けることができる。具体的には、フィールドは、オーディオ・セグメントを生成する人物、オーディオ・セグメントを生成する人物の性別、および、オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を識別することができる。たとえば、識別された周囲音を、天候により生じたものまたは背景雑音あるいはその両方によるものとすることができる。
【0010】
第4のGUIも提供されることができ、これは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む。最後に、第5のGUIを、テキスト結果および第2のテキスト結果、ならびに統計データを表示するために提供することができる。
【0011】
図面において、現在好ましい実施形態を示すが、本発明が図示の正確な構成および手段に限定されないことを理解されたい。
【0012】
【発明の実施の形態】
本明細書に開示する本発明は、音声認識システムの精度を決定するための解決策を提供する。本発明によれば、トランザクション・ログに関連付けられたオーディオ・セグメントに加えて、音声認識システムのトランザクション・ログを検査することができる。オーディオを、第2の音声認識システムによって処理して、第2の認識結果のセットを、記録されたオーディオ・セグメントから決定することができる。したがって、2つの音声認識システムの出力を比較して、様々な統計的な精度のメトリクスを決定することができる。一連のGUIを使用したこのプロセスを通じて、ユーザをガイドすることができる。
【0013】
図1は、音声認識システムの音声認識エンジン100の典型的なコンポーネントを示すブロック図である。当業者には理解されるように、音声認識システムは、音声認識エンジン100と対話するように構成された1つまたは複数の他のアプリケーション(図示せず)を含むことができる。たとえば、アプリケーションは、認識済テキストを編集するためのグラフィカル・インターフェイスを提供し、ユーザとのダイアログを生成し、あるいは、ユーザからの通話に応答し、これを管理することができる。いずれの場合も、音声認識エンジン100を、デスクトップ音声認識システム、対話式音声応答(IVR;interactive voice response)ユニットまたは分散コンピューティング環境内に含めることができる。
【0014】
図1のように、音声認識エンジン100は、デジタル化された音声信号を受信する。この信号を続いて表現ブロック110で有用なデータのセットに変換することができ、これは、通常は10〜20ミリ秒毎である、ある固定レートで信号をサンプリングすることによって行われる。表現ブロック110を、オーディオ信号の新しい表現を生成するように構成することができ、この表現を音声認識プロセスの後続のステージで使用して、解析されたばかりの波形の部分が特定の音声イベントに対応する確率を決定することができる。このプロセスは、オペレーティング・システムから受信された音声信号の特徴に無関係に重要な話者に知覚的に強調するように意図される。モデリング/分類ブロック120では、音声信号をさらに処理して、話者に無関係の音響モデルを、入手可能である場合は現在の話者のものに適合させることができる。最後に、探索ブロック130で探索アルゴリズムを使用して、探索エンジンを、音声信号に対応するもっとも可能性の高い語にガイドすることができる。ブロック130の探索機能性を、音響モデル140、語彙モデル150および言語モデル160を用いて促進することができる。
【0015】
図2は、本明細書に開示する本発明の構成による、音声認識システムの精度を決定するためのシステム200を例示する概略図である。図2のように、システム200は、音声認識システム205および音声認識エンジン210を含むことができる。音声認識システム205を、デスクトップ・システム、たとえば通常は通信ネットワークを介して音声サーバ内で実行する種類のバックエンド処理システムまたはIVRシステムあるいはその両方など、様々な音声認識システムのいずれにすることもできる。特に、音声認識システム205を、本明細書でより詳細に記載するトランザクション・ログを生成することができるいかなる音声認識システムにすることもできる。
【0016】
音声認識システム205を、データ・ストア215に通信的にリンクさせることができる。データ・ストア215はトランザクション・ログを含むことができ、これは音声認識システム205の様々な音声認識タスクおよび出力を詳述するものである。たとえば、音声認識システム205がテキストを音声に変換するとき、音声認識システム205はデータ・ストア215内でエントリを作成することができる。エントリは、テキスト認識結果、ならびに、認識結果を記載する属性を指定することができる。たとえば、属性は、ユーザが発話した発声の受信または記録あるいはその両方が行われたときに関係する日付および時間情報、および、テレフォニ音声認識システム内で実施された場合、ユーザが発話した発声がそれを介して受信された電話回線または音声チャネルあるいはその両方を指定することができる。ユーザが特定の音声プロンプトに応答中である場合、この情報も格納することができる。
【0017】
音声認識システム205が各認識タスクを実行するとき、いかなる検出された問題もエントリ内に示すこともできる。たとえば、ユーザがプロンプトの上で発話した場合、システムはその問題を示すことができる。トランザクション・ログはさらに、受信されたオーディオの品質が正確な認識のために不十分であるかどうか、または、いかなる音声もユーザの応答期間中に検出されたかどうかを示すことができる。トランザクション・ログはまた、音声認識システム205の構成を詳述する情報も含むことができる。たとえば、いずれかの選択されたオプション、音響または言語のモデルまたは音処理フィルタなどの特定の参照モデル、特定のオーディオ環境に適合するように変更することができるいずれのものも、トランザクション・ログ内で詳述することができる。
【0018】
音声認識システム205はユーザが発話した発声を受信するので、音声システム205自体、または別のアプリケーション・プログラムはオーディオ・セグメントをオーディオ・データ・ストア225内に格納することができる。すなわち、オーディオ・セグメントまたは実際のユーザの音声を、オーディオ・データ・ストア225内に記録かつ格納することができる。たとえば、オーディオ・セグメントを一連の個々のオーディオ・ファイルとして指定することができる。したがって、各オーディオ・セグメントは、トランザクション・ログに格納された情報を指定すること、あるいは各オーディオ・セグメントをこれに関連付けて、トランザクション・ログにおけるエントリを対応するオーディオ・セグメントと相関させることができるようにすることができる。たとえば、本発明の一実施形態によれば、オーディオ・ファイルを、データ情報に対応するディレクトリ構造内に格納することができる。別法として、オーディオ・セグメントの名前を、トランザクション・ログのエントリ内に明示的に格納することができる。
【0019】
音声認識エンジン210は参照システムとしての機能を果たすことができ、これを、音声認識システム205に実質的に類似に機能するように構成することができる。音声認識エンジン210は構成パラメータを含むことができ、これを、音声認識システム205の構成パラメータを反映するように設定することができる。たとえば、音声認識システム205が、雑音のあるオーディオ環境内の使用のために構成され、したがって特定の音響モデル、しきい値レベルおよびフィルタリングを使用するように意図される場合、音声認識エンジン210を類似の方法で、音声認識システム205がどのような挙動を示しているかについての指示を提供するように構成することもできる。なお、音声認識エンジン210の構成およびパラメータを、代替構成がよりよい認識結果を提供するかどうかを決定するように変更することができる。
【0020】
音声認識エンジン210をオーディオ・データ・ストア225に通信的にリンクさせて、オーディオ・データ・ストア225内に記録された音声を、音声認識エンジン210が処理および認識のために使用可能にすることができる。音声認識エンジン210からの認識結果を音声認識エンジン210が通信的にリンクされるデータ・ストア220内に格納することができる。したがって、データ・ストア220は、音声認識エンジン210のためのトランザクション・ログを含むことができる。しかし、エントリの様々な属性を、オーディオ・セグメント自体から決定することができ、あるいは、音声認識システム205のトランザクション・ログを構文解析し、いずれかのこのようなパラメータをインポートすることによって得ることができる。よって、音声認識エンジン210を、破線によって、データ・ストア215へのアクセスを有し、したがって音声認識システム205のトランザクション・ログへのアクセスを有するものとして示す。いずれの場合も、認識結果および対応する属性を使用して、音声認識エンジン210の認識結果を音声認識システム205の認識結果と、比較のために相関させることができる。
【0021】
統計プロセッサ230はデータ・ストア215および220にアクセスでき、したがって音声認識システム205および音声認識エンジン210のトランザクション・ログにアクセスすることができる。たとえば、統計プロセッサは、トランザクション・ログを構文解析して認識結果および様々な属性を抽出するために必要ないかなるスクリプトも含むことができる。統計プロセッサ230を、統計データ235によって示された様々な統計メトリクスを生成するように構成することができる。
【0022】
たとえば、統計データ235は、成功した認識と認識の総数の比、成功した認識とコントロール不可能な環境要素により失敗した認識を除いた認識の総数の比、失敗した認識と認識の総数の比、失敗した認識と認識の総数からコントロール不可能な環境要素により失敗した認識の数を差し引いたものの比、および、コントロール不可能な環境要素により失敗した認識と認識の総数の比を含むことができる。統計プロセッサ230はまた、一意の語の試みられた認識の数、一意の語の成功および不成功の認識の数、および、コントロール不可能な環境要素により失敗した認識の数を決定することもできる。
【0023】
特に、音声認識システム205によって生成されたトランザクション・ログを、オプショナルかつ手動の検証手順を通じて編集することができ、これを項目240として参照する。詳細には、本発明により、テスト担当者が手動で音声認識システム205の認識結果を検証することができ、これはオーディオ・セグメントを開くことによって行われる。テスト担当者は手動でトランザクション・ログを編集して、テキスト結果が対応するオーディオ・セグメントの正確な表現であるかどうかを指示することができる。さらに、テスト担当者は、特定のオーディオ・セグメントについての正しいテキスト結果を、最初にセグメントを開いた後に入力することができる。したがって、本発明は、現場の音声認識システムを参照システムと比較することから統計情報を生成できるだけでなく、本発明はさらに、手動のプロセスを通じて決定された正しいテキスト認識結果に対する両方の精度を測定することができる。
【0024】
図3は、本明細書に開示する本発明の構成による、図2のシステムによってコンパイルされることができるサンプル・データを示す表300である。図3に示すように、この表は「Manual Listen」列を含み、これは、オーディオ・セグメントを手動で開いて、ユーザによって発話された語または句あるいはその両方を識別することから決定されたテキストを指示する。第2の列には「ApplicationVoice Server 1」というタイトルが付いており、これは、たとえば現場において動作中であるものなど、音声認識システムによって決定された認識結果をリストする。第3の列には「Result1」というタイトルが付いており、これは、「Application Voice Server 1」の下にリストされたテキスト結果が、手動で検証されたテキストと比較されるときに正しいかどうかを指示する。第4の列には「ApplicationVoice Server 2」というタイトルが付いており、これは、たとえば、研究室などのコントロールされた環境内で動作するものなど、参照音声認識エンジンから決定された認識済テキストをリストする。第5の列には「Result2」というタイトルが付いており、これは、「Application Voice Server 2」の下にリストされた認識結果が、手動で導出されたテキストと比較されるときに正しいかどうかを指示する。
【0025】
図示しないが、この表は追加の情報を含むことができ、これは、「ApplicationVoice Server 1」の下にリストされた認識結果が、「Application Voice Server 2」の下にリストされた認識結果と比較されるときに正しいかどうかなどである。特に、表300はまた、音声が検出されなかったとき、「ApplicationVoiceServer 1」の列で「[timeout]」によって示すように、かつ「Application Voice Server 2」の列で「[]」によって示すように指定する。たとえば、これは、現場の音声認識システムによって決定されたとき、オーディオ信号が、信頼性のある認識が生じるためには多すぎる雑音を含むなどの場合である可能性がある。他のエラー状態もまた示すことができ、これは、「[spoketoo soon]」によって示すように、ユーザが音声プロンプトの上で発話する場合、および、「[silence]」によって示すように、沈黙のみが検出される場合などである。
【0026】
図4は、本明細書に開示する本発明の構成により決定されたサンプルの統計メトリック計算を示す表400である。図のように、統計情報は、特定の句が受信された回数の総数、その句が正確に認識された回数、その句が不正確に認識された回数、および、結果が入手不可能または適用不可能であった回数を指定するカウントを含むことができる。
【0027】
図5は、本明細書に開示する本発明の構成による、音声認識精度の統計を決定するための例示的方法500を示す流れ図である。この方法は、現場の音声認識システムが、テキスト結果、および、日付および時間情報などのパラメータ、および、他のいかなる構成パラメータ、および、音声認識システムがロギング可能である失敗状態を指定する、トランザクション・ログをコンパイルしている状況で開始することができる。様々な認識結果についてのオーディオ・セグメントも格納することができる。
【0028】
ステップ505で、トランザクション・ログからのデータおよびオーディオ・セグメントにアクセスすることができる。ステップ510で、トランザクション・ログを構文解析して、認識結果および属性を抽出することができる。たとえば、情報を抽出し、この情報を使用可能なフォーマットに変換することができる1つまたは複数のスクリプトを使用して、トランザクション・ログを構文解析することができる。このデータをフォーマットして、ソフトウェアのユーザ、たとえばテスト担当者が認識結果の手動の検証中により容易に情報を閲覧かつ編集できるようにすることができる。加えて、データを、参照音声認識エンジンによって決定された認識結果と比較するために、調節することができる。上に述べたように、トランザクション・ログから、認識結果、認識結果についての日付および時間情報、オーディオ・セグメント情報、ならびに、オーディオ・セグメントにおける過度の雑音(低信号対雑音比)またはプロンプトの上で発話するユーザを含む、音声認識システムによって検出されたエラー状態を決定することができる。加えて、オーディオ・セグメントを、対応するトランザクション・ログ・エントリに関連付けることができる。
【0029】
ステップ515で、オーディオ・セグメントを、コントロールされたコンピューティングまたはオーディオあるいはその両方の環境内の参照音声認識エンジンへの入力として提供することができる。参照音声認識エンジンはオーディオ・セグメントを処理して、認識済テキストをオーディオ・セグメント入力から決定することができる。ステップ520で、テスト担当者は手動で、解析中のオーディオ・セグメントの実際に発話された語を検証することができる。上に述べたように、テスト担当者はオーディオ・セグメントを開き、ユーザが発話した発声をトランスクライブすることができる。手動でトランスクライブされたテキストを、ステップ510で抽出された情報と共に含めることができる。特に、手動の検証プロセス中に、テスト担当者はさらに、オーディオ記録から認識可能な追加の詳細を示すことができる。
【0030】
テスト担当者は、現場の音声認識システムが検出できない可能性のある状態を示すことができ、これは、記録が行われた特定のオーディオ環境などである。たとえば、自動車におけるタイヤおよび風など、雑音源を示すことができる。さらに、いかなる周囲状態をも示すことができ、これは、天候に関連した雑音源、および、たとえば公衆電話を介して検出された雑音など、他の背景雑音源などである。
【0031】
テスト担当者はまた、ユーザの性別、および、ユーザが顕著なアクセントを有したかどうかを示すこともできる。オーディオ・セグメントにおいて特定のユーザの音声にしばしば遭遇する構成では、テスト担当者は、オーディオ・セグメントをその特定のユーザに関連付けるための識別子を示すことができる。テスト担当者によって示された情報をコードとして指定して、たとえば、統計処理が、手動のトランスクリプション・プロセスを通じて決定されたいかなる示された要素の影響も反映できるようにすることができる。
【0032】
ステップ525で、現場の音声認識システムによって決定された認識済テキストを、参照音声認識エンジンによって決定された認識済テキストと比較することができる。ステップ530で、現場の音声認識システムおよび参照音声認識エンジンからの認識済テキストを、手動で導出されたテキストと比較することができる。したがって、ステップ535で、音声認識システムの認識性能を詳述する統計メトリクスを決定することができる。
【0033】
統計メトリクスの解析を通じて、現場の音声認識システムが、音声認識システムが音声を受信する元のオーディオ環境のために適切に構成されたかどうかについての決定を行うことができる。参照音声認識エンジンを、現場の音声認識システムと類似に、あるいは同じものに構成することができるので、認識エラーが不適切なシステム構成の結果として生じたか、コントロール不可能な環境要素の結果として生じたか、あるいはユーザのエラーの結果として生じたかについての決定を行うことができる。特に、オーディオ・セグメントを処理して、現場の音声認識システムおよび参照音声認識エンジンのテストおよび比較のために、特定のオーディオ成果物またはオーディオ特性の挿入または除去あるいはその両方を行うこともできる。
【0034】
図6ないし9は、一連のグラフィカル・ユーザ・インターフェース(GUI)を通じてユーザをガイドする、自動化された方法を例示し、これは一般にウィザードと呼ばれる。GUIは、テキスト・フィールド、活動化可能アイコン、ボタンなど、情報をナビゲートしてファイルに入力するための複数のコントロールを組み込むことができる。図6を参照して、本発明の構成によるトランザクション・ログのユーザ選択のためのGUI600の図を示す。たとえば、トランザクション・ログのディレクトリ構造を日付によって分類することができる。したがって、GUI600は、「月」選択フィールド605、「日」選択フィールド610、および「年」選択フィールド615を提示することができる。テスト担当者など、GUI600のユーザは、特定のトランザクション・ログを、トランザクション・ログが生成された日付に基づいて選択することができる。別の構成では、ディレクトリ構造をファイル名によって分類することができる。したがって、「ファイル名」選択フィールドを、トランザクション・ログを検索するために設けることができる。ファイル名、または月、日および年が各選択フィールドに入力された後、テスト担当者は「次」活動化可能アイコン620を選択してオペレーションを進行するか、あるいは「キャンセル」活動化可能アイコン625を選択してオペレーションをキャンセルすることができる。
【0035】
「次」活動化可能アイコン620が選択されるとき、トランザクション選択GUI700を図7のように、特定のトランザクション・ログ・エントリのユーザ選択のために提示することができる。たとえば、「ブラウズ」活動化可能アイコン705を選択して、選択されたトランザクション・ログ内のトランザクション・ログ・エントリのリストを提示することができる。GUI700のユーザが、たとえばポインタにより特定のエントリを選択すると、選択されたエントリのための識別子を識別子フィールド710に表示することができる。さらに、参照音声認識エンジンによって処理中のオーディオ・セグメントの結果として生じる認識済テキストを、「トランスクライブ済テキスト」フィールド715に入れることができる。先に手動の検証プロセスについて記載したプロセスに従って、テスト担当者は「再生」活動化可能アイコン720を選択してオーディオ・セグメントを再生することができる。再生されたオーディオ・セグメントの記録された音声が認識済テキストに合致しない場合、テスト担当者は「トランスクライブ済テキスト」フィールド715における結果を手動で訂正することができる。
【0036】
テスト担当者は「次」および「戻る」活動化可能アイコン725および730をそれぞれ使用して、トランザクション・ログ・エントリ中を順方向および逆方向にナビゲートすることができる。さらに、テスト担当者は「キャンセル」活動化可能アイコン735により、オペレーションをキャンセルすることができる。「次」活動化可能アイコン725が選択されるとき、図8のようなファイル関連付けGUI800を提示することができる。
【0037】
図8のファイル関連付けGUI800を使用して、特定のオーディオ・セグメントを、オーディオ品質に影響を及ぼす状態に関連付けることができる。先に述べたように、この状態を、記録が行われた特定のオーディオ環境、ならびに、特定のオーディオ環境内に固有である可能性のある過度の雑音など、いずれかのコントロール不可能な環境要素にすることができる。たとえば、特定のユーザを「人物」フィールド805に示すことができ、性別を性別選択ボックス810に示すことができ、天候状態を「天候」フィールド815に示すことができる。
【0038】
各オーディオ・セグメントに関係付けられた状態を、オーディオ・セグメントのトランスクリプションの直後に示すことができる。別法として、個々のオーディオ・セグメントについての状態を、特定のトランザクション・ログにおけるオーディオ・セグメントのすべてのトランスクリプションが完了した後に示すことができる。この実施形態では、「ブラウズ」活動化可能アイコン820を使用して、特定のオーディオ・セグメントを選択することができる。さらに、GUIをナビゲートするために「次」および「戻る」活動化可能アイコン830および835をそれぞれ使用して、オーディオ・セグメントをナビゲートして選択を行うことができる。オーディオ・セグメントが選択された後、「再生」活動化可能アイコン825を選択して、選択されたオーディオ・セグメントのオーディオ再生を開始することができ、テスト担当者はオーディオ・セグメントを開いて解釈して、対応する状態を決定することができる。テスト担当者は「キャンセル」活動化可能アイコン840を選択して、オペレーションをキャンセルすることができる。
【0039】
最後に、状況GUI900を提示して、テスト担当者に、音声認識システムの精度決定において使用されたソフトウェア・アプリケーションの動作状況を提供することができる。たとえば、オーディオ・セグメント・ファイルが再生されているかどうか、および、音声ファイルが状態に関連付けられているかどうかの状況を指示することができる。状況GUI900はさらにユーザに、前のGUIに戻るようにナビゲートするための「戻る」活動化可能アイコン905、オペレーションをキャンセルするための「キャンセル」活動化可能アイコン910、および、プロセスを完了するための「終了」活動化可能アイコン915を提供することができる。加えて、GUIを提供して図3および4の情報を、たとえばスプレッドシートのフォーマット、テーブル、リストなどにおいて表示することができる。たとえば、認識済テキスト結果、第2の認識済テキスト結果、および手動で訂正されたテキスト結果の比較、ならびに統計データを示すためのGUIである。本明細書に開示したGUIにおいて示す様々なコントロールは例示のためのものにすぎないことは、当業者には理解されよう。したがって、異なる構成のテキスト・フィールド、活動化可能アイコン、ラジオ・ボタン、ドロップ・ダウン・ボックスなどを使用することができ、本発明は、提供した特定のコントロールによって限定されない。
【0040】
本発明を、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組み合わせにおいて実現することができる。本発明を、1つのコンピュータ・システムにおける集中型の方法において、あるいは、異なる要素がいくつかの相互接続されたコンピュータ・システムに渡って分散されている分散型の方法において実現することができる。本明細書に記載した方法を実行するために適合されたいかなる種類のコンピュータ・システムまたは他の装置も適切である。通常のハードウェアおよびソフトウェアの組み合わせを、ロードされ実行されるときに、本明細書に記載した方法を実行するようにコンピュータ・システムをコントロールするコンピュータ・プログラムを有する汎用コンピュータ・システムにすることができる。
【0041】
また本発明をコンピュータ・プログラム製品に埋め込むこともでき、これは、本明細書に記載した方法の実施を可能にするすべての機能を含み、コンピュータ・システムにロードされるときにこれらの方法を実行することができるものである。これに関連したコンピュータ・プログラムは、情報処理機能を有するシステムに特定の機能を直接、あるいは、a)別の言語、コードまたは表記法への変換、b)異なる物質的形式における再生のうちいずれかまたはその両方の後に実行させるように意図された命令のセットの、いかなる言語、コードまたは表記法におけるいかなる表現をも意味する。
【0042】
本発明を、その精神または本質的属性から逸脱することなく、他の形式において実施することができる。したがって、前述の明細書ではなく特許請求の範囲が、本発明の範囲を示すものとして参照されるべきである。
【0043】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0044】
(1)音声認識システムの精度を決定する方法であって、
少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを含み、
前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
方法。
(2)前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、上記(1)に記載の方法。
(3)第3のGUIを提供するステップをさらに含み、
前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
上記(1)に記載の方法。
(4)前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、上記(3)に記載の方法。
(5)前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、上記(3)に記載の方法。
(6)前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、上記(4)に記載の方法。
(7)前記第2のGUIが自動的に、選択中のトランザクション・ログの上に示される、上記(1)に記載の方法。
(8)第4のGUIを提供するステップをさらに含み、
前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
上記(1)に記載の方法。
(9)前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、上記(1)に記載の方法。
(10)前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、上記(9)に記載の方法。
(11)前記第5のGUIはさらにデータを表示する、上記(9)に記載の方法。
(12)前記データは統計データである、上記(11)に記載の方法。
(13)マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムをその上に格納しているマシン可読記憶装置であって、前記コード・セクションは前記マシンに、
少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを実行させ、
前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
マシン可読記憶装置。
(14)前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、上記(13)に記載のマシン可読記憶装置。
(15)第3のGUIを提供するステップをさらに含み、
前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
上記(13)に記載のマシン可読記憶装置。
(16)前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、上記(15)に記載のマシン可読記憶装置。
(17)前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、上記(15)に記載のマシン可読記憶装置。
(18)前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、上記(16)に記載のマシン可読記憶装置。
(19)前記第2のGUIが自動的に、選択中のトランザクション・ログの上に提示される、上記(13)に記載のマシン可読記憶装置。
(20)第4のGUIを提供するステップをさらに含み、
前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
上記(13)に記載のマシン可読記憶装置。
(21)前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、上記(13)に記載のマシン可読記憶装置。
(22)前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、上記(21)に記載のマシン可読記憶装置。
(23)前記第5のGUIはさらにデータを表示する、上記(21)に記載のマシン可読記憶装置。
(24)前記データは統計データである、上記(23)に記載のマシン可読記憶装置。
【図面の簡単な説明】
【図1】音声認識エンジン内に含めることができる典型的なコンポーネントを示すブロック図である。
【図2】本明細書に開示する本発明の構成による、音声認識システムの精度を決定するためのシステムを示す概略図である。
【図3】本明細書に開示する本発明の構成による、図2のシステムによってコンパイルされることができるサンプル・データを示す表の図である。
【図4】本明細書に開示する本発明の構成により決定された、サンプルの統計メトリック計算を示す表の図である。
【図5】本明細書に開示する本発明の構成による、音声認識精度の統計を決定するための例示的方法を示す流れ図である。
【図6】本明細書に開示する本発明の構成による、トランザクション・ログを選択するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図7】本明細書に開示する本発明の構成による、オーディオ・セグメントを選択するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図8】本明細書に開示する本発明の構成による、特性をオーディオ・セグメントに関連付けるための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図9】本明細書に開示する本発明の構成によって実行されたオペレーションの状況を指示するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【符号の説明】
200 システム
205 音声認識システム
210 音声認識エンジン
215 データ・ストア
220 データ・ストア
225 オーディオ・データ・ストア
230 統計プロセッサ
235 統計データ
240 オプショナルの検証
600 GUI
700 トランザクション選択GUI
800 ファイル関連付けGUI
900 状況GUI

Claims (24)

  1. 音声認識システムの精度を決定する方法であって、
    少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
    前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを含み、
    前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
    方法。
  2. 前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、請求項1に記載の方法。
  3. 第3のGUIを提供するステップをさらに含み、
    前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
    請求項1に記載の方法。
  4. 前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、請求項3に記載の方法。
  5. 前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、請求項3に記載の方法。
  6. 前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、請求項4に記載の方法。
  7. 前記第2のGUIが自動的に、選択中のトランザクション・ログの上に示される、請求項1に記載の方法。
  8. 第4のGUIを提供するステップをさらに含み、
    前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
    請求項1に記載の方法。
  9. 前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、請求項1に記載の方法。
  10. 前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、請求項9に記載の方法。
  11. 前記第5のGUIはさらにデータを表示する、請求項9に記載の方法。
  12. 前記データは統計データである、請求項11に記載の方法。
  13. マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムをその上に格納しているマシン可読記憶装置であって、前記コード・セクションは前記マシンに、
    少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
    前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを実行させ、
    前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
    マシン可読記憶装置。
  14. 前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、請求項13に記載のマシン可読記憶装置。
  15. 第3のGUIを提供するステップをさらに含み、
    前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
    請求項13に記載のマシン可読記憶装置。
  16. 前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、請求項15に記載のマシン可読記憶装置。
  17. 前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、請求項15に記載のマシン可読記憶装置。
  18. 前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、請求項16に記載のマシン可読記憶装置。
  19. 前記第2のGUIが自動的に、選択中のトランザクション・ログの上に提示される、請求項13に記載のマシン可読記憶装置。
  20. 第4のGUIを提供するステップをさらに含み、
    前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
    請求項13に記載のマシン可読記憶装置。
  21. 前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、請求項13に記載のマシン可読記憶装置。
  22. 前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、請求項21に記載のマシン可読記憶装置。
  23. 前記第5のGUIはさらにデータを表示する、請求項21に記載のマシン可読記憶装置。
  24. 前記データは統計データである、請求項23に記載のマシン可読記憶装置。
JP2003181843A 2002-07-16 2003-06-25 音声認識精度を決定する方法 Expired - Fee Related JP3940383B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/196,017 US7260534B2 (en) 2002-07-16 2002-07-16 Graphical user interface for determining speech recognition accuracy

Publications (2)

Publication Number Publication Date
JP2004054270A true JP2004054270A (ja) 2004-02-19
JP3940383B2 JP3940383B2 (ja) 2007-07-04

Family

ID=30442757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003181843A Expired - Fee Related JP3940383B2 (ja) 2002-07-16 2003-06-25 音声認識精度を決定する方法

Country Status (2)

Country Link
US (1) US7260534B2 (ja)
JP (1) JP3940383B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180918A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
WO2003102920A1 (en) * 2002-05-30 2003-12-11 Custom Speech Usa, Inc. A method for locating an audio segment within an audio file
DE10251112A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung
US7346151B2 (en) * 2003-06-24 2008-03-18 Avaya Technology Corp. Method and apparatus for validating agreement between textual and spoken representations of words
US7206387B2 (en) * 2003-08-21 2007-04-17 International Business Machines Corporation Resource allocation for voice processing applications
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20080255837A1 (en) * 2004-11-30 2008-10-16 Jonathan Kahn Method for locating an audio segment within an audio file
US8260617B2 (en) * 2005-04-18 2012-09-04 Nuance Communications, Inc. Automating input when testing voice-enabled applications
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
US20070239430A1 (en) * 2006-03-28 2007-10-11 Microsoft Corporation Correcting semantic classification of log data
US20090124272A1 (en) 2006-04-05 2009-05-14 Marc White Filtering transcriptions of utterances
US8117268B2 (en) 2006-04-05 2012-02-14 Jablokov Victor R Hosted voice recognition system for wireless devices
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9436951B1 (en) 2007-08-22 2016-09-06 Amazon Technologies, Inc. Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
US8121838B2 (en) 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
FR2902542B1 (fr) * 2006-06-16 2012-12-21 Gilles Vessiere Consultants Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
US20090063148A1 (en) * 2007-03-01 2009-03-05 Christopher Nelson Straut Calibration of word spots system, method, and computer program product
US7599475B2 (en) * 2007-03-12 2009-10-06 Nice Systems, Ltd. Method and apparatus for generic analytics
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US9053489B2 (en) 2007-08-22 2015-06-09 Canyon Ip Holdings Llc Facilitating presentation of ads relating to words of a message
US8374316B2 (en) * 2007-08-28 2013-02-12 International Business Machines Corporation System for recording spoken phone numbers during a voice call
US8412522B2 (en) 2007-12-21 2013-04-02 Nvoq Incorporated Apparatus and method for queuing jobs in a distributed dictation /transcription system
CA2710310A1 (en) * 2007-12-21 2009-07-02 Nvoq Incorporated Distributed dictation/transcription system
US8639505B2 (en) 2008-04-23 2014-01-28 Nvoq Incorporated Method and systems for simplifying copying and pasting transcriptions generated from a dictation based speech-to-text system
US8639512B2 (en) * 2008-04-23 2014-01-28 Nvoq Incorporated Method and systems for measuring user performance with speech-to-text conversion for dictation systems
WO2010096191A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Automatically capturing information, such as capturing information using a document-aware device
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
EP2406767A4 (en) 2009-03-12 2016-03-16 Google Inc AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9576498B1 (en) * 2013-03-15 2017-02-21 3Play Media, Inc. Systems and methods for automated transcription training
US10468016B2 (en) * 2015-11-24 2019-11-05 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
US20190147870A1 (en) * 2016-07-19 2019-05-16 Sony Corporation Information processing apparatus and information processing method
US10518607B2 (en) * 2017-08-28 2019-12-31 Ford Global Technologies, Llc Pollution event detection
KR20190087353A (ko) * 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
US11810558B2 (en) * 2021-05-26 2023-11-07 International Business Machines Corporation Explaining anomalous phonetic translations

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914704A (en) 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US6064959A (en) 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6094476A (en) 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method
US6173259B1 (en) 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6064957A (en) 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
US6122614A (en) 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US20020095290A1 (en) * 1999-02-05 2002-07-18 Jonathan Kahn Speech recognition program mapping tool to align an audio file to verbatim text
US6253177B1 (en) 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6418410B1 (en) 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
US20020077833A1 (en) * 2000-12-20 2002-06-20 Arons Barry M. Transcription and reporting system
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
JP3967952B2 (ja) 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180918A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム

Also Published As

Publication number Publication date
US20040015351A1 (en) 2004-01-22
US7260534B2 (en) 2007-08-21
JP3940383B2 (ja) 2007-07-04

Similar Documents

Publication Publication Date Title
JP3940383B2 (ja) 音声認識精度を決定する方法
US7181392B2 (en) Determining speech recognition accuracy
US7440895B1 (en) System and method for tuning and testing in a speech recognition system
US11227603B2 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
US10147418B2 (en) System and method of automated evaluation of transcription quality
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US9123337B2 (en) Indexing digitized speech with words represented in the digitized speech
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
US7496510B2 (en) Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US20060235699A1 (en) Automating input when testing voice-enabled applications
US8812314B2 (en) Method of and system for improving accuracy in a speech recognition system
EP1936606A1 (en) Multi-stage speech recognition
US20080270129A1 (en) Method and System for Automatically Providing Linguistic Formulations that are Outside a Recognition Domain of an Automatic Speech Recognition System
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
US11632345B1 (en) Message management for communal account
Chen et al. A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems
US20240071367A1 (en) Automatic Speech Generation and Intelligent and Robust Bias Detection in Automatic Speech Recognition Model
KR100506662B1 (ko) 온라인 음성검증 기반의 음성 데이터베이스 구축방법
JP2001166785A (ja) 音声対話コーパスの作成装置及び方法
Gibbon et al. Consumer off-the-shelf (COTS) speech technology product and service evaluation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20060428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070327

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070330

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100406

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100406

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140406

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees