JP2004054270A - 音声認識精度を決定する方法 - Google Patents
音声認識精度を決定する方法 Download PDFInfo
- Publication number
- JP2004054270A JP2004054270A JP2003181843A JP2003181843A JP2004054270A JP 2004054270 A JP2004054270 A JP 2004054270A JP 2003181843 A JP2003181843 A JP 2003181843A JP 2003181843 A JP2003181843 A JP 2003181843A JP 2004054270 A JP2004054270 A JP 2004054270A
- Authority
- JP
- Japan
- Prior art keywords
- gui
- speech recognition
- audio segment
- readable storage
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000013518 transcription Methods 0.000 claims abstract description 9
- 230000035897 transcription Effects 0.000 claims abstract description 9
- 230000000977 initiatory effect Effects 0.000 claims abstract description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000007613 environmental effect Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】第1のグラフィカル・ユーザ・インターフェイス(GUI)が、トランザクション・ログを選択するために提供される。トランザクション・ログは少なくとも1つのエントリを有し、これは音声認識テキスト結果を指定する。第2のGUIも、エントリに対応する少なくとも1つのオーディオ・セグメントを選択するために提供される。第2のGUIは、参照音声認識エンジンを通じてオーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む。
【選択図】 図5
Description
【発明の属する技術分野】
本発明は音声認識の分野に関し、より詳細には、音声認識システムの精度を決定することに関する。
【0002】
【従来の技術】
音声認識は、マイクロホンによって受信された音響信号が、コンピュータまたはマイクロプロセッサ・ベースのデバイスによって、テキスト・ワード、数字または記号のセットに変換されるプロセスである。これらの認識された語を様々なコンピュータ・ベースのソフトウェア・アプリケーションにおいて、文書のプレゼンテーション、データ入力、およびコマンドおよびコントロールなどのために使用することができる。音声認識システムの改良により、ユーザの生産性を向上させるための重要な方法が提供される。
【0003】
音声認識システムは、音響信号をモデリングかつ分類して音響モデルを形成することができ、これは音素と呼ばれる基本言語単位の表現である。音響音声信号を受信かつデジタル化すると、音声認識システムはデジタル化された音声信号を解析し、音声信号に対応する一連の音響モデルを識別し、識別された一連の音響モデルに基づいて、可能性のある語候補のリストを導出することができる。音声認識システムはまた、可能性のある語候補が、デジタル化された音声信号に音声的に合致する程度を反映する測定値を決定することもできる。
【0004】
音声認識システムはさらに、可能性のある語候補を、文脈モデルを参照して解析することができる。この解析では、語候補のうち1つが、受信された音声を正確に反映する確率を、先に認識された語に基づいて決定することができる。音声認識システムは、後に受信された語を確率決定に組み込むこともできる。文脈モデルはしばしば言語モデルと呼ばれ、これを、長時間の人の音声の解析を通じて開発することができる。通常、言語モデルの開発を領域特有のものにすることができる。たとえば、言語モデルを、テレフォニの文脈、法的文脈、医療的文脈内で、あるいは一般ユーザの文脈についての言語使用を反映して構築することができる。
【0005】
音声認識システムの精度は、要素の数に依存する可能性がある。1つのこのような要素を、音声が検出されるオーディオ環境にすることができる。オーディオ環境は、結果として生じる音声オーディオ信号の品質に著しく影響を及ぼす可能性がある。たとえば自動車、または人が公衆電話を使用して音声認識システムと通信するような公共の場所など、高雑音環境から得られたユーザの音声は、かなりの量の環境雑音を含む可能性がある。これは、不十分な音声認識を導く可能性がある。さらに、テレフォニー・システムはしばしば低品質のオーディオ信号を利用して音声を表現する。低品質のオーディオ信号を音声処理システム内で使用することは前述の問題を悪化させる可能性があり、これは低品質のオーディオ・チャネルが結果として、ユーザの音声を圧倒する雑音となる可能性があるからである。
【0006】
音声認識システムの精度に著しく影響を及ぼす可能性のあるもう1つの要素は、音声認識システム自体の構成である。システム構成は、多様なオーディオ環境またはかなりの量の雑音を有するオーディオ環境あるいはその両方において動作する音声認識システムに関して、特に関連する可能性がある。
【0007】
【発明が解決しようとする課題】
本明細書に開示する本発明は、一連のグラフィカル・ユーザ・インターフェイス(GUI)を通じてユーザをガイドして、音声認識システムの精度を決定するための解決策を提供する。本発明によれば、トランザクション・ログに関連付けられたオーディオ・セグメントに加えて、音声認識システムのトランザクション・ログを検査することができる。オーディオを、第2の音声認識システムによって処理して、第2の認識結果のセットを、記録されたオーディオ・セグメントから決定することができる。したがって、2つの音声認識システムの出力を比較して、様々な統計的な精度のメトリクスを決定することができる。
【0008】
【課題を解決するための手段】
本発明は、トランザクション・ログを選択するための第1のGUIを提供する。トランザクション・ログは少なくとも1つのエントリを有し、これは音声認識テキスト結果を指定する。第2のGUIも、エントリに対応する少なくとも1つのオーディオ・セグメントを選択するために提供されることができる。第2のGUIは自動的に、選択中のトランザクション・ログの上に提示され、これは、参照音声認識エンジンを通じてオーディオ・セグメントのトランスクリプションを開始して第2のテキスト結果を生成するための活動化可能なアイコンを含む。ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部も、第2のGUIにおいて提供されることができる。
【0009】
オーディオ・セグメントを少なくとも1つの状態に関連付けることを容易にするための1つまたは複数のフィールドを提供する、第3のGUIも提供することができる。状態をトランザクション・ログに格納し、エントリに関連付けることができる。具体的には、フィールドは、オーディオ・セグメントを生成する人物、オーディオ・セグメントを生成する人物の性別、および、オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を識別することができる。たとえば、識別された周囲音を、天候により生じたものまたは背景雑音あるいはその両方によるものとすることができる。
【0010】
第4のGUIも提供されることができ、これは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む。最後に、第5のGUIを、テキスト結果および第2のテキスト結果、ならびに統計データを表示するために提供することができる。
【0011】
図面において、現在好ましい実施形態を示すが、本発明が図示の正確な構成および手段に限定されないことを理解されたい。
【0012】
【発明の実施の形態】
本明細書に開示する本発明は、音声認識システムの精度を決定するための解決策を提供する。本発明によれば、トランザクション・ログに関連付けられたオーディオ・セグメントに加えて、音声認識システムのトランザクション・ログを検査することができる。オーディオを、第2の音声認識システムによって処理して、第2の認識結果のセットを、記録されたオーディオ・セグメントから決定することができる。したがって、2つの音声認識システムの出力を比較して、様々な統計的な精度のメトリクスを決定することができる。一連のGUIを使用したこのプロセスを通じて、ユーザをガイドすることができる。
【0013】
図1は、音声認識システムの音声認識エンジン100の典型的なコンポーネントを示すブロック図である。当業者には理解されるように、音声認識システムは、音声認識エンジン100と対話するように構成された1つまたは複数の他のアプリケーション(図示せず)を含むことができる。たとえば、アプリケーションは、認識済テキストを編集するためのグラフィカル・インターフェイスを提供し、ユーザとのダイアログを生成し、あるいは、ユーザからの通話に応答し、これを管理することができる。いずれの場合も、音声認識エンジン100を、デスクトップ音声認識システム、対話式音声応答(IVR;interactive voice response)ユニットまたは分散コンピューティング環境内に含めることができる。
【0014】
図1のように、音声認識エンジン100は、デジタル化された音声信号を受信する。この信号を続いて表現ブロック110で有用なデータのセットに変換することができ、これは、通常は10〜20ミリ秒毎である、ある固定レートで信号をサンプリングすることによって行われる。表現ブロック110を、オーディオ信号の新しい表現を生成するように構成することができ、この表現を音声認識プロセスの後続のステージで使用して、解析されたばかりの波形の部分が特定の音声イベントに対応する確率を決定することができる。このプロセスは、オペレーティング・システムから受信された音声信号の特徴に無関係に重要な話者に知覚的に強調するように意図される。モデリング/分類ブロック120では、音声信号をさらに処理して、話者に無関係の音響モデルを、入手可能である場合は現在の話者のものに適合させることができる。最後に、探索ブロック130で探索アルゴリズムを使用して、探索エンジンを、音声信号に対応するもっとも可能性の高い語にガイドすることができる。ブロック130の探索機能性を、音響モデル140、語彙モデル150および言語モデル160を用いて促進することができる。
【0015】
図2は、本明細書に開示する本発明の構成による、音声認識システムの精度を決定するためのシステム200を例示する概略図である。図2のように、システム200は、音声認識システム205および音声認識エンジン210を含むことができる。音声認識システム205を、デスクトップ・システム、たとえば通常は通信ネットワークを介して音声サーバ内で実行する種類のバックエンド処理システムまたはIVRシステムあるいはその両方など、様々な音声認識システムのいずれにすることもできる。特に、音声認識システム205を、本明細書でより詳細に記載するトランザクション・ログを生成することができるいかなる音声認識システムにすることもできる。
【0016】
音声認識システム205を、データ・ストア215に通信的にリンクさせることができる。データ・ストア215はトランザクション・ログを含むことができ、これは音声認識システム205の様々な音声認識タスクおよび出力を詳述するものである。たとえば、音声認識システム205がテキストを音声に変換するとき、音声認識システム205はデータ・ストア215内でエントリを作成することができる。エントリは、テキスト認識結果、ならびに、認識結果を記載する属性を指定することができる。たとえば、属性は、ユーザが発話した発声の受信または記録あるいはその両方が行われたときに関係する日付および時間情報、および、テレフォニ音声認識システム内で実施された場合、ユーザが発話した発声がそれを介して受信された電話回線または音声チャネルあるいはその両方を指定することができる。ユーザが特定の音声プロンプトに応答中である場合、この情報も格納することができる。
【0017】
音声認識システム205が各認識タスクを実行するとき、いかなる検出された問題もエントリ内に示すこともできる。たとえば、ユーザがプロンプトの上で発話した場合、システムはその問題を示すことができる。トランザクション・ログはさらに、受信されたオーディオの品質が正確な認識のために不十分であるかどうか、または、いかなる音声もユーザの応答期間中に検出されたかどうかを示すことができる。トランザクション・ログはまた、音声認識システム205の構成を詳述する情報も含むことができる。たとえば、いずれかの選択されたオプション、音響または言語のモデルまたは音処理フィルタなどの特定の参照モデル、特定のオーディオ環境に適合するように変更することができるいずれのものも、トランザクション・ログ内で詳述することができる。
【0018】
音声認識システム205はユーザが発話した発声を受信するので、音声システム205自体、または別のアプリケーション・プログラムはオーディオ・セグメントをオーディオ・データ・ストア225内に格納することができる。すなわち、オーディオ・セグメントまたは実際のユーザの音声を、オーディオ・データ・ストア225内に記録かつ格納することができる。たとえば、オーディオ・セグメントを一連の個々のオーディオ・ファイルとして指定することができる。したがって、各オーディオ・セグメントは、トランザクション・ログに格納された情報を指定すること、あるいは各オーディオ・セグメントをこれに関連付けて、トランザクション・ログにおけるエントリを対応するオーディオ・セグメントと相関させることができるようにすることができる。たとえば、本発明の一実施形態によれば、オーディオ・ファイルを、データ情報に対応するディレクトリ構造内に格納することができる。別法として、オーディオ・セグメントの名前を、トランザクション・ログのエントリ内に明示的に格納することができる。
【0019】
音声認識エンジン210は参照システムとしての機能を果たすことができ、これを、音声認識システム205に実質的に類似に機能するように構成することができる。音声認識エンジン210は構成パラメータを含むことができ、これを、音声認識システム205の構成パラメータを反映するように設定することができる。たとえば、音声認識システム205が、雑音のあるオーディオ環境内の使用のために構成され、したがって特定の音響モデル、しきい値レベルおよびフィルタリングを使用するように意図される場合、音声認識エンジン210を類似の方法で、音声認識システム205がどのような挙動を示しているかについての指示を提供するように構成することもできる。なお、音声認識エンジン210の構成およびパラメータを、代替構成がよりよい認識結果を提供するかどうかを決定するように変更することができる。
【0020】
音声認識エンジン210をオーディオ・データ・ストア225に通信的にリンクさせて、オーディオ・データ・ストア225内に記録された音声を、音声認識エンジン210が処理および認識のために使用可能にすることができる。音声認識エンジン210からの認識結果を音声認識エンジン210が通信的にリンクされるデータ・ストア220内に格納することができる。したがって、データ・ストア220は、音声認識エンジン210のためのトランザクション・ログを含むことができる。しかし、エントリの様々な属性を、オーディオ・セグメント自体から決定することができ、あるいは、音声認識システム205のトランザクション・ログを構文解析し、いずれかのこのようなパラメータをインポートすることによって得ることができる。よって、音声認識エンジン210を、破線によって、データ・ストア215へのアクセスを有し、したがって音声認識システム205のトランザクション・ログへのアクセスを有するものとして示す。いずれの場合も、認識結果および対応する属性を使用して、音声認識エンジン210の認識結果を音声認識システム205の認識結果と、比較のために相関させることができる。
【0021】
統計プロセッサ230はデータ・ストア215および220にアクセスでき、したがって音声認識システム205および音声認識エンジン210のトランザクション・ログにアクセスすることができる。たとえば、統計プロセッサは、トランザクション・ログを構文解析して認識結果および様々な属性を抽出するために必要ないかなるスクリプトも含むことができる。統計プロセッサ230を、統計データ235によって示された様々な統計メトリクスを生成するように構成することができる。
【0022】
たとえば、統計データ235は、成功した認識と認識の総数の比、成功した認識とコントロール不可能な環境要素により失敗した認識を除いた認識の総数の比、失敗した認識と認識の総数の比、失敗した認識と認識の総数からコントロール不可能な環境要素により失敗した認識の数を差し引いたものの比、および、コントロール不可能な環境要素により失敗した認識と認識の総数の比を含むことができる。統計プロセッサ230はまた、一意の語の試みられた認識の数、一意の語の成功および不成功の認識の数、および、コントロール不可能な環境要素により失敗した認識の数を決定することもできる。
【0023】
特に、音声認識システム205によって生成されたトランザクション・ログを、オプショナルかつ手動の検証手順を通じて編集することができ、これを項目240として参照する。詳細には、本発明により、テスト担当者が手動で音声認識システム205の認識結果を検証することができ、これはオーディオ・セグメントを開くことによって行われる。テスト担当者は手動でトランザクション・ログを編集して、テキスト結果が対応するオーディオ・セグメントの正確な表現であるかどうかを指示することができる。さらに、テスト担当者は、特定のオーディオ・セグメントについての正しいテキスト結果を、最初にセグメントを開いた後に入力することができる。したがって、本発明は、現場の音声認識システムを参照システムと比較することから統計情報を生成できるだけでなく、本発明はさらに、手動のプロセスを通じて決定された正しいテキスト認識結果に対する両方の精度を測定することができる。
【0024】
図3は、本明細書に開示する本発明の構成による、図2のシステムによってコンパイルされることができるサンプル・データを示す表300である。図3に示すように、この表は「Manual Listen」列を含み、これは、オーディオ・セグメントを手動で開いて、ユーザによって発話された語または句あるいはその両方を識別することから決定されたテキストを指示する。第2の列には「ApplicationVoice Server 1」というタイトルが付いており、これは、たとえば現場において動作中であるものなど、音声認識システムによって決定された認識結果をリストする。第3の列には「Result1」というタイトルが付いており、これは、「Application Voice Server 1」の下にリストされたテキスト結果が、手動で検証されたテキストと比較されるときに正しいかどうかを指示する。第4の列には「ApplicationVoice Server 2」というタイトルが付いており、これは、たとえば、研究室などのコントロールされた環境内で動作するものなど、参照音声認識エンジンから決定された認識済テキストをリストする。第5の列には「Result2」というタイトルが付いており、これは、「Application Voice Server 2」の下にリストされた認識結果が、手動で導出されたテキストと比較されるときに正しいかどうかを指示する。
【0025】
図示しないが、この表は追加の情報を含むことができ、これは、「ApplicationVoice Server 1」の下にリストされた認識結果が、「Application Voice Server 2」の下にリストされた認識結果と比較されるときに正しいかどうかなどである。特に、表300はまた、音声が検出されなかったとき、「ApplicationVoiceServer 1」の列で「[timeout]」によって示すように、かつ「Application Voice Server 2」の列で「[]」によって示すように指定する。たとえば、これは、現場の音声認識システムによって決定されたとき、オーディオ信号が、信頼性のある認識が生じるためには多すぎる雑音を含むなどの場合である可能性がある。他のエラー状態もまた示すことができ、これは、「[spoketoo soon]」によって示すように、ユーザが音声プロンプトの上で発話する場合、および、「[silence]」によって示すように、沈黙のみが検出される場合などである。
【0026】
図4は、本明細書に開示する本発明の構成により決定されたサンプルの統計メトリック計算を示す表400である。図のように、統計情報は、特定の句が受信された回数の総数、その句が正確に認識された回数、その句が不正確に認識された回数、および、結果が入手不可能または適用不可能であった回数を指定するカウントを含むことができる。
【0027】
図5は、本明細書に開示する本発明の構成による、音声認識精度の統計を決定するための例示的方法500を示す流れ図である。この方法は、現場の音声認識システムが、テキスト結果、および、日付および時間情報などのパラメータ、および、他のいかなる構成パラメータ、および、音声認識システムがロギング可能である失敗状態を指定する、トランザクション・ログをコンパイルしている状況で開始することができる。様々な認識結果についてのオーディオ・セグメントも格納することができる。
【0028】
ステップ505で、トランザクション・ログからのデータおよびオーディオ・セグメントにアクセスすることができる。ステップ510で、トランザクション・ログを構文解析して、認識結果および属性を抽出することができる。たとえば、情報を抽出し、この情報を使用可能なフォーマットに変換することができる1つまたは複数のスクリプトを使用して、トランザクション・ログを構文解析することができる。このデータをフォーマットして、ソフトウェアのユーザ、たとえばテスト担当者が認識結果の手動の検証中により容易に情報を閲覧かつ編集できるようにすることができる。加えて、データを、参照音声認識エンジンによって決定された認識結果と比較するために、調節することができる。上に述べたように、トランザクション・ログから、認識結果、認識結果についての日付および時間情報、オーディオ・セグメント情報、ならびに、オーディオ・セグメントにおける過度の雑音(低信号対雑音比)またはプロンプトの上で発話するユーザを含む、音声認識システムによって検出されたエラー状態を決定することができる。加えて、オーディオ・セグメントを、対応するトランザクション・ログ・エントリに関連付けることができる。
【0029】
ステップ515で、オーディオ・セグメントを、コントロールされたコンピューティングまたはオーディオあるいはその両方の環境内の参照音声認識エンジンへの入力として提供することができる。参照音声認識エンジンはオーディオ・セグメントを処理して、認識済テキストをオーディオ・セグメント入力から決定することができる。ステップ520で、テスト担当者は手動で、解析中のオーディオ・セグメントの実際に発話された語を検証することができる。上に述べたように、テスト担当者はオーディオ・セグメントを開き、ユーザが発話した発声をトランスクライブすることができる。手動でトランスクライブされたテキストを、ステップ510で抽出された情報と共に含めることができる。特に、手動の検証プロセス中に、テスト担当者はさらに、オーディオ記録から認識可能な追加の詳細を示すことができる。
【0030】
テスト担当者は、現場の音声認識システムが検出できない可能性のある状態を示すことができ、これは、記録が行われた特定のオーディオ環境などである。たとえば、自動車におけるタイヤおよび風など、雑音源を示すことができる。さらに、いかなる周囲状態をも示すことができ、これは、天候に関連した雑音源、および、たとえば公衆電話を介して検出された雑音など、他の背景雑音源などである。
【0031】
テスト担当者はまた、ユーザの性別、および、ユーザが顕著なアクセントを有したかどうかを示すこともできる。オーディオ・セグメントにおいて特定のユーザの音声にしばしば遭遇する構成では、テスト担当者は、オーディオ・セグメントをその特定のユーザに関連付けるための識別子を示すことができる。テスト担当者によって示された情報をコードとして指定して、たとえば、統計処理が、手動のトランスクリプション・プロセスを通じて決定されたいかなる示された要素の影響も反映できるようにすることができる。
【0032】
ステップ525で、現場の音声認識システムによって決定された認識済テキストを、参照音声認識エンジンによって決定された認識済テキストと比較することができる。ステップ530で、現場の音声認識システムおよび参照音声認識エンジンからの認識済テキストを、手動で導出されたテキストと比較することができる。したがって、ステップ535で、音声認識システムの認識性能を詳述する統計メトリクスを決定することができる。
【0033】
統計メトリクスの解析を通じて、現場の音声認識システムが、音声認識システムが音声を受信する元のオーディオ環境のために適切に構成されたかどうかについての決定を行うことができる。参照音声認識エンジンを、現場の音声認識システムと類似に、あるいは同じものに構成することができるので、認識エラーが不適切なシステム構成の結果として生じたか、コントロール不可能な環境要素の結果として生じたか、あるいはユーザのエラーの結果として生じたかについての決定を行うことができる。特に、オーディオ・セグメントを処理して、現場の音声認識システムおよび参照音声認識エンジンのテストおよび比較のために、特定のオーディオ成果物またはオーディオ特性の挿入または除去あるいはその両方を行うこともできる。
【0034】
図6ないし9は、一連のグラフィカル・ユーザ・インターフェース(GUI)を通じてユーザをガイドする、自動化された方法を例示し、これは一般にウィザードと呼ばれる。GUIは、テキスト・フィールド、活動化可能アイコン、ボタンなど、情報をナビゲートしてファイルに入力するための複数のコントロールを組み込むことができる。図6を参照して、本発明の構成によるトランザクション・ログのユーザ選択のためのGUI600の図を示す。たとえば、トランザクション・ログのディレクトリ構造を日付によって分類することができる。したがって、GUI600は、「月」選択フィールド605、「日」選択フィールド610、および「年」選択フィールド615を提示することができる。テスト担当者など、GUI600のユーザは、特定のトランザクション・ログを、トランザクション・ログが生成された日付に基づいて選択することができる。別の構成では、ディレクトリ構造をファイル名によって分類することができる。したがって、「ファイル名」選択フィールドを、トランザクション・ログを検索するために設けることができる。ファイル名、または月、日および年が各選択フィールドに入力された後、テスト担当者は「次」活動化可能アイコン620を選択してオペレーションを進行するか、あるいは「キャンセル」活動化可能アイコン625を選択してオペレーションをキャンセルすることができる。
【0035】
「次」活動化可能アイコン620が選択されるとき、トランザクション選択GUI700を図7のように、特定のトランザクション・ログ・エントリのユーザ選択のために提示することができる。たとえば、「ブラウズ」活動化可能アイコン705を選択して、選択されたトランザクション・ログ内のトランザクション・ログ・エントリのリストを提示することができる。GUI700のユーザが、たとえばポインタにより特定のエントリを選択すると、選択されたエントリのための識別子を識別子フィールド710に表示することができる。さらに、参照音声認識エンジンによって処理中のオーディオ・セグメントの結果として生じる認識済テキストを、「トランスクライブ済テキスト」フィールド715に入れることができる。先に手動の検証プロセスについて記載したプロセスに従って、テスト担当者は「再生」活動化可能アイコン720を選択してオーディオ・セグメントを再生することができる。再生されたオーディオ・セグメントの記録された音声が認識済テキストに合致しない場合、テスト担当者は「トランスクライブ済テキスト」フィールド715における結果を手動で訂正することができる。
【0036】
テスト担当者は「次」および「戻る」活動化可能アイコン725および730をそれぞれ使用して、トランザクション・ログ・エントリ中を順方向および逆方向にナビゲートすることができる。さらに、テスト担当者は「キャンセル」活動化可能アイコン735により、オペレーションをキャンセルすることができる。「次」活動化可能アイコン725が選択されるとき、図8のようなファイル関連付けGUI800を提示することができる。
【0037】
図8のファイル関連付けGUI800を使用して、特定のオーディオ・セグメントを、オーディオ品質に影響を及ぼす状態に関連付けることができる。先に述べたように、この状態を、記録が行われた特定のオーディオ環境、ならびに、特定のオーディオ環境内に固有である可能性のある過度の雑音など、いずれかのコントロール不可能な環境要素にすることができる。たとえば、特定のユーザを「人物」フィールド805に示すことができ、性別を性別選択ボックス810に示すことができ、天候状態を「天候」フィールド815に示すことができる。
【0038】
各オーディオ・セグメントに関係付けられた状態を、オーディオ・セグメントのトランスクリプションの直後に示すことができる。別法として、個々のオーディオ・セグメントについての状態を、特定のトランザクション・ログにおけるオーディオ・セグメントのすべてのトランスクリプションが完了した後に示すことができる。この実施形態では、「ブラウズ」活動化可能アイコン820を使用して、特定のオーディオ・セグメントを選択することができる。さらに、GUIをナビゲートするために「次」および「戻る」活動化可能アイコン830および835をそれぞれ使用して、オーディオ・セグメントをナビゲートして選択を行うことができる。オーディオ・セグメントが選択された後、「再生」活動化可能アイコン825を選択して、選択されたオーディオ・セグメントのオーディオ再生を開始することができ、テスト担当者はオーディオ・セグメントを開いて解釈して、対応する状態を決定することができる。テスト担当者は「キャンセル」活動化可能アイコン840を選択して、オペレーションをキャンセルすることができる。
【0039】
最後に、状況GUI900を提示して、テスト担当者に、音声認識システムの精度決定において使用されたソフトウェア・アプリケーションの動作状況を提供することができる。たとえば、オーディオ・セグメント・ファイルが再生されているかどうか、および、音声ファイルが状態に関連付けられているかどうかの状況を指示することができる。状況GUI900はさらにユーザに、前のGUIに戻るようにナビゲートするための「戻る」活動化可能アイコン905、オペレーションをキャンセルするための「キャンセル」活動化可能アイコン910、および、プロセスを完了するための「終了」活動化可能アイコン915を提供することができる。加えて、GUIを提供して図3および4の情報を、たとえばスプレッドシートのフォーマット、テーブル、リストなどにおいて表示することができる。たとえば、認識済テキスト結果、第2の認識済テキスト結果、および手動で訂正されたテキスト結果の比較、ならびに統計データを示すためのGUIである。本明細書に開示したGUIにおいて示す様々なコントロールは例示のためのものにすぎないことは、当業者には理解されよう。したがって、異なる構成のテキスト・フィールド、活動化可能アイコン、ラジオ・ボタン、ドロップ・ダウン・ボックスなどを使用することができ、本発明は、提供した特定のコントロールによって限定されない。
【0040】
本発明を、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組み合わせにおいて実現することができる。本発明を、1つのコンピュータ・システムにおける集中型の方法において、あるいは、異なる要素がいくつかの相互接続されたコンピュータ・システムに渡って分散されている分散型の方法において実現することができる。本明細書に記載した方法を実行するために適合されたいかなる種類のコンピュータ・システムまたは他の装置も適切である。通常のハードウェアおよびソフトウェアの組み合わせを、ロードされ実行されるときに、本明細書に記載した方法を実行するようにコンピュータ・システムをコントロールするコンピュータ・プログラムを有する汎用コンピュータ・システムにすることができる。
【0041】
また本発明をコンピュータ・プログラム製品に埋め込むこともでき、これは、本明細書に記載した方法の実施を可能にするすべての機能を含み、コンピュータ・システムにロードされるときにこれらの方法を実行することができるものである。これに関連したコンピュータ・プログラムは、情報処理機能を有するシステムに特定の機能を直接、あるいは、a)別の言語、コードまたは表記法への変換、b)異なる物質的形式における再生のうちいずれかまたはその両方の後に実行させるように意図された命令のセットの、いかなる言語、コードまたは表記法におけるいかなる表現をも意味する。
【0042】
本発明を、その精神または本質的属性から逸脱することなく、他の形式において実施することができる。したがって、前述の明細書ではなく特許請求の範囲が、本発明の範囲を示すものとして参照されるべきである。
【0043】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0044】
(1)音声認識システムの精度を決定する方法であって、
少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを含み、
前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
方法。
(2)前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、上記(1)に記載の方法。
(3)第3のGUIを提供するステップをさらに含み、
前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
上記(1)に記載の方法。
(4)前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、上記(3)に記載の方法。
(5)前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、上記(3)に記載の方法。
(6)前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、上記(4)に記載の方法。
(7)前記第2のGUIが自動的に、選択中のトランザクション・ログの上に示される、上記(1)に記載の方法。
(8)第4のGUIを提供するステップをさらに含み、
前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
上記(1)に記載の方法。
(9)前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、上記(1)に記載の方法。
(10)前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、上記(9)に記載の方法。
(11)前記第5のGUIはさらにデータを表示する、上記(9)に記載の方法。
(12)前記データは統計データである、上記(11)に記載の方法。
(13)マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムをその上に格納しているマシン可読記憶装置であって、前記コード・セクションは前記マシンに、
少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを実行させ、
前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
マシン可読記憶装置。
(14)前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、上記(13)に記載のマシン可読記憶装置。
(15)第3のGUIを提供するステップをさらに含み、
前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
上記(13)に記載のマシン可読記憶装置。
(16)前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、上記(15)に記載のマシン可読記憶装置。
(17)前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、上記(15)に記載のマシン可読記憶装置。
(18)前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、上記(16)に記載のマシン可読記憶装置。
(19)前記第2のGUIが自動的に、選択中のトランザクション・ログの上に提示される、上記(13)に記載のマシン可読記憶装置。
(20)第4のGUIを提供するステップをさらに含み、
前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
上記(13)に記載のマシン可読記憶装置。
(21)前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、上記(13)に記載のマシン可読記憶装置。
(22)前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、上記(21)に記載のマシン可読記憶装置。
(23)前記第5のGUIはさらにデータを表示する、上記(21)に記載のマシン可読記憶装置。
(24)前記データは統計データである、上記(23)に記載のマシン可読記憶装置。
【図面の簡単な説明】
【図1】音声認識エンジン内に含めることができる典型的なコンポーネントを示すブロック図である。
【図2】本明細書に開示する本発明の構成による、音声認識システムの精度を決定するためのシステムを示す概略図である。
【図3】本明細書に開示する本発明の構成による、図2のシステムによってコンパイルされることができるサンプル・データを示す表の図である。
【図4】本明細書に開示する本発明の構成により決定された、サンプルの統計メトリック計算を示す表の図である。
【図5】本明細書に開示する本発明の構成による、音声認識精度の統計を決定するための例示的方法を示す流れ図である。
【図6】本明細書に開示する本発明の構成による、トランザクション・ログを選択するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図7】本明細書に開示する本発明の構成による、オーディオ・セグメントを選択するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図8】本明細書に開示する本発明の構成による、特性をオーディオ・セグメントに関連付けるための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【図9】本明細書に開示する本発明の構成によって実行されたオペレーションの状況を指示するための一実施例のグラフィカル・ユーザ・インターフェイスを示す概略図である。
【符号の説明】
200 システム
205 音声認識システム
210 音声認識エンジン
215 データ・ストア
220 データ・ストア
225 オーディオ・データ・ストア
230 統計プロセッサ
235 統計データ
240 オプショナルの検証
600 GUI
700 トランザクション選択GUI
800 ファイル関連付けGUI
900 状況GUI
Claims (24)
- 音声認識システムの精度を決定する方法であって、
少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを含み、
前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
方法。 - 前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、請求項1に記載の方法。
- 第3のGUIを提供するステップをさらに含み、
前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
請求項1に記載の方法。 - 前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、請求項3に記載の方法。
- 前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、請求項3に記載の方法。
- 前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、請求項4に記載の方法。
- 前記第2のGUIが自動的に、選択中のトランザクション・ログの上に示される、請求項1に記載の方法。
- 第4のGUIを提供するステップをさらに含み、
前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
請求項1に記載の方法。 - 前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、請求項1に記載の方法。
- 前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、請求項9に記載の方法。
- 前記第5のGUIはさらにデータを表示する、請求項9に記載の方法。
- 前記データは統計データである、請求項11に記載の方法。
- マシンによって実行可能な複数のコード・セクションを有するコンピュータ・プログラムをその上に格納しているマシン可読記憶装置であって、前記コード・セクションは前記マシンに、
少なくとも1つのエントリを有し、前記エントリは音声認識テキスト結果を指定するトランザクション・ログを選択するための第1のグラフィカル・ユーザ・インターフェイス(GUI)を提供するステップと、
前記エントリに対応する少なくとも1つのオーディオ・セグメントを選択するための第2のGUIを提供するステップとを実行させ、
前記第2のGUIは、参照音声認識エンジンを通じて前記オーディオ・セグメントのトランスクリプションを開始して、第2のテキスト結果を生成するための活動化可能なアイコンを含む、
マシン可読記憶装置。 - 前記第2のGUIは、ユーザにより訂正されたトランスクライブ済テキストを受信するための入力部を含む、請求項13に記載のマシン可読記憶装置。
- 第3のGUIを提供するステップをさらに含み、
前記第3のGUIは、前記オーディオ・セグメントを少なくとも1つの状態に関連付けるための1つまたは複数のコントロールを含む、
請求項13に記載のマシン可読記憶装置。 - 前記状態は、前記オーディオ・セグメントを生成している少なくとも1人の人物、前記人物の性別、および、前記オーディオ・セグメントの認識可能性に影響を及ぼす周囲音を指定する、請求項15に記載のマシン可読記憶装置。
- 前記状態が前記トランザクション・ログに格納され、前記エントリに関連付けられる、請求項15に記載のマシン可読記憶装置。
- 前記周囲音は、天候により生じた音および背景雑音のうち少なくとも1つである、請求項16に記載のマシン可読記憶装置。
- 前記第2のGUIが自動的に、選択中のトランザクション・ログの上に提示される、請求項13に記載のマシン可読記憶装置。
- 第4のGUIを提供するステップをさらに含み、
前記第4のGUIは、音声認識システムの精度の決定において使用されたソフトウェア・アプリケーションの動作状況を示すための1つまたは複数のインディケータを含む、
請求項13に記載のマシン可読記憶装置。 - 前記テキスト結果および前記第2のテキスト結果を表示する第5のGUIを提供するステップをさらに含む、請求項13に記載のマシン可読記憶装置。
- 前記第5のGUIはさらに、前記オーディオ・セグメントに対応する、手動で入力されたテキストを表示する、請求項21に記載のマシン可読記憶装置。
- 前記第5のGUIはさらにデータを表示する、請求項21に記載のマシン可読記憶装置。
- 前記データは統計データである、請求項23に記載のマシン可読記憶装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/196,017 US7260534B2 (en) | 2002-07-16 | 2002-07-16 | Graphical user interface for determining speech recognition accuracy |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004054270A true JP2004054270A (ja) | 2004-02-19 |
JP3940383B2 JP3940383B2 (ja) | 2007-07-04 |
Family
ID=30442757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003181843A Expired - Fee Related JP3940383B2 (ja) | 2002-07-16 | 2003-06-25 | 音声認識精度を決定する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7260534B2 (ja) |
JP (1) | JP3940383B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016180918A (ja) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
WO2003102920A1 (en) * | 2002-05-30 | 2003-12-11 | Custom Speech Usa, Inc. | A method for locating an audio segment within an audio file |
DE10251112A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren und System zur Spracherkennung |
US7346151B2 (en) * | 2003-06-24 | 2008-03-18 | Avaya Technology Corp. | Method and apparatus for validating agreement between textual and spoken representations of words |
US7206387B2 (en) * | 2003-08-21 | 2007-04-17 | International Business Machines Corporation | Resource allocation for voice processing applications |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US20060041484A1 (en) | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US20080255837A1 (en) * | 2004-11-30 | 2008-10-16 | Jonathan Kahn | Method for locating an audio segment within an audio file |
US8260617B2 (en) * | 2005-04-18 | 2012-09-04 | Nuance Communications, Inc. | Automating input when testing voice-enabled applications |
US20070078806A1 (en) * | 2005-10-05 | 2007-04-05 | Hinickle Judith A | Method and apparatus for evaluating the accuracy of transcribed documents and other documents |
US7783488B2 (en) * | 2005-12-19 | 2010-08-24 | Nuance Communications, Inc. | Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information |
US20070239430A1 (en) * | 2006-03-28 | 2007-10-11 | Microsoft Corporation | Correcting semantic classification of log data |
US20090124272A1 (en) | 2006-04-05 | 2009-05-14 | Marc White | Filtering transcriptions of utterances |
US8117268B2 (en) | 2006-04-05 | 2012-02-14 | Jablokov Victor R | Hosted voice recognition system for wireless devices |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9436951B1 (en) | 2007-08-22 | 2016-09-06 | Amazon Technologies, Inc. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US8121838B2 (en) | 2006-04-11 | 2012-02-21 | Nuance Communications, Inc. | Method and system for automatic transcription prioritization |
FR2902542B1 (fr) * | 2006-06-16 | 2012-12-21 | Gilles Vessiere Consultants | Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
US20090063148A1 (en) * | 2007-03-01 | 2009-03-05 | Christopher Nelson Straut | Calibration of word spots system, method, and computer program product |
US7599475B2 (en) * | 2007-03-12 | 2009-10-06 | Nice Systems, Ltd. | Method and apparatus for generic analytics |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US9053489B2 (en) | 2007-08-22 | 2015-06-09 | Canyon Ip Holdings Llc | Facilitating presentation of ads relating to words of a message |
US8374316B2 (en) * | 2007-08-28 | 2013-02-12 | International Business Machines Corporation | System for recording spoken phone numbers during a voice call |
US8412522B2 (en) | 2007-12-21 | 2013-04-02 | Nvoq Incorporated | Apparatus and method for queuing jobs in a distributed dictation /transcription system |
CA2710310A1 (en) * | 2007-12-21 | 2009-07-02 | Nvoq Incorporated | Distributed dictation/transcription system |
US8639505B2 (en) | 2008-04-23 | 2014-01-28 | Nvoq Incorporated | Method and systems for simplifying copying and pasting transcriptions generated from a dictation based speech-to-text system |
US8639512B2 (en) * | 2008-04-23 | 2014-01-28 | Nvoq Incorporated | Method and systems for measuring user performance with speech-to-text conversion for dictation systems |
WO2010096191A2 (en) | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Automatically capturing information, such as capturing information using a document-aware device |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
EP2406767A4 (en) | 2009-03-12 | 2016-03-16 | Google Inc | AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US9576498B1 (en) * | 2013-03-15 | 2017-02-21 | 3Play Media, Inc. | Systems and methods for automated transcription training |
US10468016B2 (en) * | 2015-11-24 | 2019-11-05 | International Business Machines Corporation | System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections |
US20190147870A1 (en) * | 2016-07-19 | 2019-05-16 | Sony Corporation | Information processing apparatus and information processing method |
US10518607B2 (en) * | 2017-08-28 | 2019-12-31 | Ford Global Technologies, Llc | Pollution event detection |
KR20190087353A (ko) * | 2019-07-05 | 2019-07-24 | 엘지전자 주식회사 | 음성 인식 검증 장치 및 방법 |
US11810558B2 (en) * | 2021-05-26 | 2023-11-07 | International Business Machines Corporation | Explaining anomalous phonetic translations |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4914704A (en) | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US6064959A (en) | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US6122613A (en) | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6094476A (en) | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
US6173259B1 (en) | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US6064957A (en) | 1997-08-15 | 2000-05-16 | General Electric Company | Improving speech recognition through text-based linguistic post-processing |
US6122614A (en) | 1998-11-20 | 2000-09-19 | Custom Speech Usa, Inc. | System and method for automating transcription services |
US20020095290A1 (en) * | 1999-02-05 | 2002-07-18 | Jonathan Kahn | Speech recognition program mapping tool to align an audio file to verbatim text |
US6253177B1 (en) | 1999-03-08 | 2001-06-26 | International Business Machines Corp. | Method and system for automatically determining whether to update a language model based upon user amendments to dictated text |
US6418410B1 (en) | 1999-09-27 | 2002-07-09 | International Business Machines Corporation | Smart correction of dictated speech |
US20020077833A1 (en) * | 2000-12-20 | 2002-06-20 | Arons Barry M. | Transcription and reporting system |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
JP3967952B2 (ja) | 2002-04-16 | 2007-08-29 | 富士通株式会社 | 文法更新システム及び方法 |
-
2002
- 2002-07-16 US US10/196,017 patent/US7260534B2/en not_active Expired - Fee Related
-
2003
- 2003-06-25 JP JP2003181843A patent/JP3940383B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016180918A (ja) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20040015351A1 (en) | 2004-01-22 |
US7260534B2 (en) | 2007-08-21 |
JP3940383B2 (ja) | 2007-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3940383B2 (ja) | 音声認識精度を決定する方法 | |
US7181392B2 (en) | Determining speech recognition accuracy | |
US7440895B1 (en) | System and method for tuning and testing in a speech recognition system | |
US11227603B2 (en) | System and method of video capture and search optimization for creating an acoustic voiceprint | |
US10147418B2 (en) | System and method of automated evaluation of transcription quality | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US9123337B2 (en) | Indexing digitized speech with words represented in the digitized speech | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
US7496510B2 (en) | Method and apparatus for the automatic separating and indexing of multi-speaker conversations | |
US20060235699A1 (en) | Automating input when testing voice-enabled applications | |
US8812314B2 (en) | Method of and system for improving accuracy in a speech recognition system | |
EP1936606A1 (en) | Multi-stage speech recognition | |
US20080270129A1 (en) | Method and System for Automatically Providing Linguistic Formulations that are Outside a Recognition Domain of an Automatic Speech Recognition System | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
CN112309406A (zh) | 声纹注册方法、装置和计算机可读存储介质 | |
US20020184019A1 (en) | Method of using empirical substitution data in speech recognition | |
US11632345B1 (en) | Message management for communal account | |
Chen et al. | A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems | |
US20240071367A1 (en) | Automatic Speech Generation and Intelligent and Robust Bias Detection in Automatic Speech Recognition Model | |
KR100506662B1 (ko) | 온라인 음성검증 기반의 음성 데이터베이스 구축방법 | |
JP2001166785A (ja) | 音声対話コーパスの作成装置及び方法 | |
Gibbon et al. | Consumer off-the-shelf (COTS) speech technology product and service evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060428 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20060428 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070327 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20070327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070330 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100406 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100406 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130406 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130406 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140406 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |