JP2005208643A - ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 - Google Patents

ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 Download PDF

Info

Publication number
JP2005208643A
JP2005208643A JP2005010922A JP2005010922A JP2005208643A JP 2005208643 A JP2005208643 A JP 2005208643A JP 2005010922 A JP2005010922 A JP 2005010922A JP 2005010922 A JP2005010922 A JP 2005010922A JP 2005208643 A JP2005208643 A JP 2005208643A
Authority
JP
Japan
Prior art keywords
user
pronunciation
word
correction
lexicon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005010922A
Other languages
English (en)
Other versions
JP4657736B2 (ja
Inventor
Alejandro Acero
アセロ アレハンドロ
Dong Yu
ユ ドン
Mei-Yuh Hwang
ウォン メイ−ユー
Peter Mau
マウ ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005208643A publication Critical patent/JP2005208643A/ja
Application granted granted Critical
Publication of JP4657736B2 publication Critical patent/JP4657736B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • B01D35/30Filter housing constructions
    • B01D35/306Filter mounting adapter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • B01D35/14Safety devices specially adapted for filtration; Devices for indicating clogging
    • B01D35/153Anti-leakage or anti-return valves
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16KVALVES; TAPS; COCKS; ACTUATING-FLOATS; DEVICES FOR VENTING OR AERATING
    • F16K15/00Check valves
    • F16K15/02Check valves with guided rigid valve members
    • F16K15/06Check valves with guided rigid valve members with guided stems
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16KVALVES; TAPS; COCKS; ACTUATING-FLOATS; DEVICES FOR VENTING OR AERATING
    • F16K27/00Construction of housing; Use of materials therefor
    • F16K27/02Construction of housing; Use of materials therefor of lift valves
    • F16K27/0209Check valves or pivoted valves
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D2201/00Details relating to filtering apparatus
    • B01D2201/16Valves
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D2201/00Details relating to filtering apparatus
    • B01D2201/29Filter cartridge constructions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

【課題】 大幅なユーザ介入を必要とすることなく、ユーザから新たなワードおよびワードの発音を容易に学習することができるシステムを提供する。
【解決手段】 自動音声認識システムは、ユーザによる、口述テキストへの変更を認識し、このような変更がユーザの意向の変化から生じたものであるか、それともこのような変更が、認識エラーの結果であるかを推論する。認識エラーが検出された場合、本システムは、ユーザ訂正のタイプを用いて、このような認識エラーが再度起こる見込みを低下させるようにシステム自体を修正する。したがって、本システムおよび方法は、追加的なユーザ対話をほとんどまたはまったく用いずに、音声認識の大幅な学習を可能にする。
【選択図】 図3

Description

本発明は、コンピュータによる音声認識(speech recognition)に関し、より詳細には、コンピュータ音声認識システムのトレーニングに関する。
コンピュータシステムによって、人間の声を高速かつ正確に認識することは、コンピュータシステムの開発者によって長い間目指されてきた目標である。このようなコンピュータ音声認識(CSR:computer speech recognition)システムから得られるであろう利益は多数ある。例えば、コンピュータシステムに文書をタイプ入力するのではなく、人は、文書(document)中のワード(word)を単に話すだけでよく、CSRシステムがワードを認識し、ワードがタイプ入力されたかのように各ワードの文字を格納する。人々は概して、タイプ入力するよりも速く話すことができるので、効率が向上することになる。また、人々は、タイプ入力の方法を学ぶ必要がなくなる。人の手がタイプ入力以外の作業で塞がれているために現時点ではコンピュータの使用が不可能な多くの適用範囲においても、コンピュータを使うことができるであろう。
一般的なCSRシステムは、発声された言葉(spoken utterance)を語彙(vocabulary)中の各ワードのモデルと比較することによってワードを認識する。発話(utterance)とモデルが最も一致するワードが、発声されたワード(spoken word)として認識される。CSRシステムは、ワードを構成する一連の音素(a sequence of phonemes)として各ワードをモデル化することができる。発話(utterance)を認識するために、CSRシステムは、発話と音素が最も一致するワードシーケンスを識別する。ただし、こうした音素は、ワードを構成する音素と正確には対応しない。したがって、CSRシステムは一般に、識別された音素にどのワードが最も厳密に対応するか判定するために、確率分析(probability analysis)を用いる。
発話(utterance)を認識すると、CSRシステムは、発話を表すアナログ信号を、さらに処理するのにより有用な形に変換する。CSRシステムは最初に、アナログ信号をデジタル形式に変換する。CSRシステムは次いで、高速フーリエ変換(FFT)、線形予測コーディング(LPC)、またはフィルタバンクなどの信号処理技術をデジタル形式に適用して、発話の適切なパラメータ表現を抽出する。一般的に用いられる表現は、(「フレーム(frame)」と呼ばれる)様々な間隔で発話の周波数および/またはエネルギー帯を表すFFTまたはLPC係数を有する「特徴ベクトル(feature vector)」である。こうした間隔(interval)は、コンピュータシステムの計算能力および認識プロセスの所望の正確さに基づいて、短くても長くてもよい。一般的な間隔は、10ミリ秒の範囲となり得る。つまり、CSRシステムは、10ミリ秒の発話の度に特徴ベクトルを生成する。各フレームは一般に、25msの長さである。したがって、25msの長さのフレームが、10msごとに生成される。後続フレームの間にはオーバーラップが存在する。
特徴ベクトルの処理を円滑にするために、各特徴ベクトルは、限られた数(例えば256個)の「量子化ベクトル(quantization vector)」の1つに量子化される。つまり、CSRシステムは、一般的または平均的な範囲の特徴ベクトルを表すために選択されるいくつかの量子化ベクトルを定義する。CSRシステムは次いで、各特徴ベクトルを量子化ベクトルそれぞれと比較し、特徴ベクトルを表すために、特徴ベクトルと最もよく似ている量子化ベクトルを選択する。各量子化ベクトルは、「コードワード(codeword)」と呼ばれる(例えば1と256の間の)数によって一意に識別される。特徴ベクトルが量子化ベクトルとして表されると、異なる多くの特徴ベクトルが同じ量子化ベクトルと結びつくので、情報の損失が起こる。この情報損失が認識に深刻な影響を与えないようにするために、CSRシステムは、数千または数百万の量子化ベクトルを定義することができる。このような多数の量子化ベクトルの定義を格納するのに必要とされる記憶域の量は、相当な量になり得る。したがって、必要とされる記憶域の量を削減するために、CSRシステムは、特徴ベクトルをセグメント化し、各セグメントを、少数(例えば256個)の量子化ベクトルの1つに量子化する。したがって、各特徴ベクトルは、各セグメントごとに、(コードワードによって識別される)量子化ベクトルによって表される。説明を簡単にするために、特徴ベクトルをセグメント化せず、したがって特徴ベクトル(またはフレーム)ごとにただ1つのコードワードをもつCSRシステムについて説明する。
上述したように、発声される発話はしばしば、ワードのモデルに正確に対応しない。正確な対応を見つける際に困難なのは、ワードモデルによって完全かつ正確に取り込まれない、音声の変動の大きさによるものである。こうした変動は例えば、話者のアクセント、人が話す速度およびピッチ、話者の現在の健康状態(例えば、風邪を引いている)、話者の年齢および性別などから生じる。確率技術を用いるCSRシステムは、正確な対応を求める技術よりも、音声を正確に認識することに成功している。
音声認識用に一般に用いられるこのような確率技術の1つは、隠れマルコフモデルである。CSRシステムは、語彙中の各ワードに対して隠れマルコフモデル(「HMM」)を用いることができる。ワードに対するHMMは、どの一連のコードワードがそのワードに対応する確率もそこから導出され得る確率情報を含む。したがって、発話を認識するために、CSRシステムは、発話を一連のコードワードに変換し、次いで、ワードが発話に対応する確率を判定するために、各ワードに対してHMMを用いる。CSRシステムは、確率が最も高いワードを発話として認識する。
HMMは、状態図(state diagram)で表される。状態図は従来から、一連の入力を受け取った後にシステムが入る状態を判定するのに用いられる。状態図は、状態ならびに原始状態と目標状態の間の遷移を含む。各遷移は、システムがその入力を受け取り、かつ原始状態にあるとき、システムが目標状態に遷移することを示す入力を関連づけてある。このような状態図は、例えば、語彙中のワードを構成する一連の各コードワードを認識するシステムによって使われ得る。システムは、各コードワードを処理すると、現在の状態および処理されているコードワードに基づいて、次の状態を判定する。この例では、状態図は、各ワードに対応するある特定の最終状態をもつ。しかし、あるワードの複数の発音が表される場合、各ワードは複数の最終状態をもち得る。コードワードを処理した後、システムが、ワードに対応する最終状態にある場合、その一連のコードワードは、最終状態のワードとして認識される。
しかし、HMMは、各コードワードごとに、ある状態から別の状態への各遷移に関連した確率を有する。例えば、HMMが状態2にある場合、ある特定のコードワードが現在の状態から次の状態への遷移を起こす確率は0.1となり、同じコードワードが現在の状態から次の異なる状態への遷移を起こす確率は0.2になり得る。同様に、異なるコードワードが現在の状態から次の状態への遷移を起こす確率は0.01になり得る。HMMは、その状態図に関連した確率を有するので、所与の一連のコードワードに関する最終状態の判定は、確率によってのみ表現されることができる。したがって、一連のコードワードに対して起こり得る各最終状態の確率を判定するために、HMMの状態図に対して起こり得るそれぞれの一連の状態を識別する必要があり、その状態に関連した確率を計算する必要がある。このような一連の各状態は、状態パス(state path)と呼ばれる。
一連のコードワードが音素を表す確率を判定するために、CSRシステムは、確率ラティス(probability lattice)を生成することができる。音素のHMM用の確率ラティスは、一連のコードワードに対して各状態パスが起こり得る確率の計算を表す。確率ラティスは、HMMがシーケンス中の各コードワードに対して入り得る各状態ごとに、1つのノードを含む。各ノードは、それまでに処理されたコードワードがそのノードに関連した状態にあるHMMに帰結する累積確率を含む。ある特定のコードワードに対するノードにおける確率の和は、それまでに処理されたコードワードが音素の接頭辞部分を表す見込みを示す。
CSRシステムの正確さは、各音素に対するHMMの出力および遷移確率の正確さに部分的に依存する。一般的なCSRシステムは、出力および遷移確率が平均的な話者の音声を正確に反映するようにCSRシステムを「トレーニング(training)」する。トレーニングの間、CSRシステムは、多様なワードに関して、様々な話者からコードワードシーケンスを集める。ワードは、各音素が何度も発声されるように選択される。こうしたコードワードシーケンスから、CSRシステムは、各HMMごとに出力および遷移確率を計算する。こうした確率を計算する様々な反復手法は公知である。
しかし、このようなトレーニング技術に伴う問題は、このような平均的HMMが、音声パターンが平均とは異なる人々の音声を正確にモデル化できないことである。概して、どの人も、平均と異なる特定の音声パターンをもつ。したがって、CSRシステムは、話者の音声パターンに適合させるようにHMMを話者がトレーニングすることを可能にする。このようなトレーニングにおいて、CSRシステムは、出力および遷移確率、ならびにコードワードで表される量子化ベクトルなどのHMMパラメータを、システムの実際のユーザによって発声されるトレーニング用の発話を用いて洗練する。適合されたパラメータは、ユーザ供給データならびに話者に依存しない大量のデータから生成される情報およびパラメータ両方を用いて導出される。したがって、確率は、話者依存特性を反映する。
CSRシステムは一般に、予め選択された多様なワードを話者に提示することによってトレーニングされる。こうしたワードは、各音素に対応する音声の代表的なサンプルが集められ得るように選択される。この代表的なサンプルを用いて、CSRシステムは、その音素の話者の発音を正確に反映しないどのHMMも適切に適合することができる。CSRシステムは確率によって機能するので、行われるトレーニングが多い程、その後の音声認識はより正確になる。ただし、トレーニングがより多く行われるに従って、所与の量の追加トレーニングに対して認識の正確さが向上していく程度は低下し始める。さらに、ユーザがトレーニングにかなりの時間をかける必要があるので、ユーザの経験量を減らす可能性がある。
したがって、ユーザがシステムをトレーニングするよう要求される程度と、ユーザがシステムを効果的に使うことができる程度との間には一定の均衡がある。自然言語の複雑さを考慮すると、過度のトレーニングの後でさえも、システムが時にはエラーを生成することが十分に考えられる。発声された発話が、対応するワードのモデルと一致しないことになる別の原因は、ワードが未知の場合である。可能な解決法には、語彙サイズを大きくすることがあるが、これは認識の正確さを低下させ得る。別の解決法は、ユーザが新たなワードを追加するユーザトレーニングによるものである。現在のシステムでは、ワード追加/削除ダイアログボックスのような、ユーザにワードを追加または削除させるユーザインターフェースを用いることによって、システムレキシコン(語彙目録,辞書 :lexicon)、ベンダまたはアプリケーションレキシコン(語彙目録,辞書)、あるいはユーザ特有(user-specific)のレキシコン(語彙目録,辞書)でよい適切なレキシコン(語彙目録,辞書)に、新たなワードをユーザに自分の発音で手作業によって追加させる。しかし、この方法は、ユーザが多数のワードを追加する必要がある場合は手間がかかる。ユーザによって作成された文書およびeメールを使って言語モデル(LM)を適合させることも公知である。この手法は、発音がレキシコン(語彙目録,辞書)に追加されず、言語モデル適合の品質がソース文書のフィルタリングに大きく依存する点において制約を受ける。
したがって、大幅なユーザ介入を必要とすることなく、ユーザから新たなワードおよびワードの発音を容易に学習することができるシステムが必要である。この目的を達成することにより、過度のトレーニング作業を要求することによってユーザの経験量を減らすことなく、自動音声認識システムの高度な学習が可能になる。
本発明を適用した自動音声認識システムは、ユーザによる、口述テキスト(dictated text)への変更(change)を認識(recognize)し、このような変更がユーザの意向(mind)の変化から生じたものであるか、それともこのような変更が、認識エラー(recognition error)を訂正(correct)した結果(result)であるかを推論(infer)する。認識エラー(recognition error)からの訂正(correction)が検出(detect)された場合、本発明を適用した自動音声認識システムは、ユーザ訂正のタイプ(type of user correction)を用いて、このような認識エラーが再度起こる見込み(chance)を低下(reduce)させるようにシステム自体を修正(modify)する。したがって、本発明を適用したシステムおよび方法は、追加的なユーザ対話(additional user interaction)をほとんどまたはまったく用いずに、音声認識の大幅な学習を可能にする。
図1は、本発明を実施するのに適切なコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲に対するどのような限定を示唆することも意図していない。コンピューティング環境100は、例示的な動作環境100に示されるどのコンポーネントまたはその組合せに関するどのような依存も要件も有していると解釈すべきではない。
本発明は、他の数多くの汎用または専用のコンピューティング環境または構成と共に動作する。本発明と共に使用するのに適切であり得る他の公知の計算システム、環境、および/または構成の例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記のシステムまたはデバイスのいずれをも含む分散型コンピューティング環境などを含むが、それに限定されない。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令という一般的な状況において説明することができる。概して、プログラムモジュールは、特定のタスクを実施しまたは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介してリンクされるリモート処理ユニットによってタスクが実施される分散型コンピューティング環境においても実施することができる。分散型コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートコンピュータ記憶媒体両方に置かれ得る。
図1を参照すると、本発明を実施する例示的なシステムは、汎用計算装置をコンピュータ110の形で含む。コンピュータ110のコンポーネントは、中央処理ユニット120と、システムメモリ130と、システムメモリなど様々なシステムコンポーネントを処理ユニット120に結合するシステムバス121とを含むことができるが、それに限定されない。
システムバス121は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスなどいくつかのタイプのバス構造のいずれでもよい。限定ではなく例として、このようなアーキテクチャは、ISA(業界標準アーキテクチャ)バス、MCA(マイクロチャネルアーキテクチャ)バス、EISA(拡張ISA)バス、VESA(米国ビデオ電子装置規格化協会)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるPCI(周辺装置相互接続)バスを含む。
コンピュータ110は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスされ得ると共に揮発性媒体および不揮発性媒体両方、取り外し可能な媒体および取り外し不可の媒体を含む、市販のどの媒体でもよい。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するためのどの方法でも技術でも実施される揮発性媒体および不揮発性媒体両方、取り外し可能な媒体および取り外し不可の媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、DVD(デジタル多用途ディスク)または他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは、所望の情報を格納するのに使われ得ると共にコンピュータ110によってアクセスされ得る他のどの媒体も含むが、それに限定されない。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、例えば搬送波や他の移送機構などの変調データ信号にまとめ、どの情報配信媒体も含む。「変調データ信号」という用語は、信号に情報を符号化するようにその信号特性の1つまたは複数が設定または変更された信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークや直接有線接続などの有線媒体、ならびに音響、RF、赤外線、および他の無線媒体などの無線媒体を含む。上記のどの組合せも、やはりコンピュータ可読媒体の範囲に含まれる。
システムメモリ130は、コンピュータ記憶媒体を、ROM(読み出し専用メモリ)131およびRAM(ランダムアクセスメモリ)132など、揮発性および/または不揮発性メモリの形で含む。BIOS(基本入出力システム)133は、例えば起動中にコンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含み、通常はROM131に格納される。RAM132は一般に、処理ユニット120に対してただちにアクセス可能な、かつ/または処理ユニット120によって現在操作されているデータおよび/またはプログラムモジュールを含む。限定ではなく例として、図1では、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110は、他の取り外し可能な/取り外し不可の、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。単なる例として、図1では、取り外し不可の不揮発性磁気媒体からの読み出しまたはそこへの書込みを行うハードディスクドライブ141、取り外し可能な不揮発性磁気ディスク152からの読み出しまたはそこへの書き込みを行う磁気ディスクドライブ151、および、CD ROMや他の光学媒体など取り外し可能な不揮発性光ディスク156からの読み出しまたはそこへの書き込みを行う光ディスクドライブ155を示す。例示的な動作環境で使われ得る、他の取り外し可能な/取り外し不可の、揮発性/不揮発性コンピュータ記憶媒体は、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどを含むが、それに限定されない。ハードディスクドライブ141は通常、インターフェース140などの取り外し不可のメモリインターフェースによって、システムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インターフェース150などの取り外し可能なメモリインターフェースによって、システムバス121に接続される。
上述し、かつ図1に示されているディスクドライブおよびそれに関連するコンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ110用の他のデータの格納を可能にする。図1では、例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。こうしたコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じでも、異なってもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、少なくとも異なるものであることを示すために、ここでは異なる番号が与えられている。
ユーザは、入力デバイス、例えばキーボード162、マイクロホン163、およびマウス、トラックボール、またはタッチパッドなどのポインティングデバイス161を介して、コマンドおよび情報をコンピュータ110に入力することができる。他の入力デバイス(図示せず)は、ジョイスティック、ゲーム用パッド、衛星パラボラアンテナ、スキャナなどを含み得る。こうしたおよび他の入力デバイスはしばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されるが、他のインターフェースおよびバス構造、例えば並列ポート、ゲームポート、USB(ユニバーサルシリアルバス)によって接続することもできる。モニタ191または他のタイプの表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加え、コンピュータは、出力周辺インターフェース195を介して接続され得るスピーカ197およびプリンタ196など、他の周辺出力デバイスも含むことができる。
コンピュータ110は、リモートコンピュータ180など、1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続された環境において動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の共通ネットワークノードでよく、通常、コンピュータ110に関連して上述した要素の多くまたはすべてを含む。図1に示される論理接続は、LAN(ローカルエリアネットワーク)171およびWAN(ワイドエリアネットワーク)173を含むが、他のネットワークを含むこともできる。このようなネットワーク環境は、会社、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいてよく見られる。
LANネットワーク環境において使われる場合、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境において使われる場合、コンピュータ110は通常、モデム172、または、例えばインターネットなどのWAN173を介して通信を確立する他の手段を含む。モデム172は、内部にあっても外部にあってもよく、ユーザ入力インターフェース160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク接続された環境では、コンピュータ110に関連して図示したプログラムモジュールまたはその一部は、リモートメモリ記憶装置に格納することができる。限定ではなく例として、図1は、リモートアプリケーションプログラム185を、リモートコンピュータ180に常駐するものとして示す。図示したネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段も使用し得ることが理解されよう。
図2は、例示的なコンピューティング環境であるモバイルデバイス200のブロック図である。モバイルデバイス200は、キャッシュメモリ203を含むマイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、およびリモートコンピュータまたは他のモバイルデバイスと通信するための通信インターフェース208を含む。一実施形態では、上述したコンポーネントは、適切なバス210を介して互いに通信するために結合される。
メモリ204は、モバイルデバイス200全体の電源がシャットダウンされたときにメモリ204に格納された情報が失われないように、不揮発性電子メモリ、例えばバッテリバックアップモジュール(図示せず)を有するRAM(ランダムアクセスメモリ)として実装される。メモリ204の一部分は、好ましくはプログラム実行用にアドレス指定可能なメモリとして割り振られ、メモリ204の別の部分は、好ましくは記憶用に、例えばディスクドライブ上で記憶をシミュレートするのに用いられる。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は、好ましくは、メモリ204から、プロセッサ202によって実行される。オペレーティングシステム212は、好ましい一実施形態では、マイクロソフトコーポレーションから販売されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は好ましくは、モバイルデバイス用に設計され、公開されている1組のアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーション214によって利用され得るデータベース機能を実施する。オブジェクトストア216内のオブジェクトは、公開されているアプリケーションプログラミングインターフェースおよびメソッドに対する呼出しに少なくとも部分的に応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェース208は、モバイルデバイス200が情報を送受信するのを可能にする多数のデバイスおよび技術を表す。こうしたデバイスは、いくつか例を挙げると、有線モデムおよび無線モデム、衛星受信機、ならびに放送チューナを含む。モバイルデバイス200は、データ交換を行うコンピュータに直接接続することもできる。このような場合、通信インターフェース208は、赤外線送受信機でも、直列または並列通信接続でもよく、これらはすべて、ストリーム情報を伝送することができる。
入力/出力コンポーネント206は、タッチスクリーン、ボタン、ローラ、およびマイクロホンなどの様々な入力デバイス、ならびに音声ジェネレータ、振動デバイス、およびディスプレイを含む様々な出力デバイスを含む。上に列挙したデバイスは例であり、すべてがモバイルデバイス200上になくてもよい。さらに、他の入力/出力デバイスが、本発明の範囲内において、モバイルデバイス200に取り付けられてもよく、モバイルデバイス200に備わっていてもよい。
本発明の態様は概して、自然なユーザ対話を利用して、新たなワード、発音、およびワード対を自動的に学習する。概してこうした学習は、ユーザが考え直したためにテキストを修正しているのか、それともシステムがユーザの音声を認識することができないためにユーザが訂正を行っているのか推論することによって遂行される。
図3は、本発明の実施形態によるシステムを用いて、ユーザ対話から自動的に学習を行う方法のフローチャートである。本方法は、ブロック300で始まり、ユーザによる口述テキストの変更がシステムによって認識される。この変更は概して、ユーザが代替リストから新たなワードを選択し、ユーザがワードまたはフレーズを再口述させ、ユーザがいくつかのワードを削除し、ユーザが既存のワードを修正し、あるいはユーザがいくつかの新たなワードをタイプ入力する形式で行われる。変更が認識されると、制御はブロック302に移り、ここでシステムは、ユーザが実際に訂正を行っているのか、それとも単に考え直しているのか推論する。推論を行わせるために、いくつかのヒントまたは指示を使うことができる。例えば、ユーザが代替リストから選択を行っているとき、ユーザは訂正を行っている。別の例では、元のディクテーションと訂正されたワードの間の音響特性が類似しているとき、ユーザは訂正を行っている。反対に、テキストが口述されてから比較的長い時間の後でユーザが訂正を行っている場合、ユーザは、おそらく意向の変化によって編集を行っている。さらに、ユーザが、口述された文の中の多数のワードを変更している場合、ユーザは、おそらく意向の変化によって編集を行っている。任意選択として、システムは、ユーザの意図について確認するためにユーザに単に質問してもよい。
訂正(correction)が生じるセグメント(群)を識別するために、動的時間伸縮(DTW:dynamic time warping)を例示的に用いている。次いで、口述テキスト(dictated text)および訂正されたテキスト(corrected text)の音声認識エンジンスコア(speech recognition engine score)が比較される。こうすることによって、システムは、ユーザが、発音が類似しているワードに対して訂正を行っているのか、あるいは意向の変化によって新たなワードを編集しているのかを判定できるようになる。追加的な信頼性スコア(confidence score)または測定基準(metric)も、訂正(correction)かそれとも編集(editing)かという推論(inference)を向上させるために、要望に応じて用いることができる。結果として、ユーザが単に考え直しただけであると本システムが判定した場合、制御は、ライン303を介してブロック300に戻る。
ブロック304において、本システムは、レキシコン(語彙目録,辞書)を照会して、訂正されたワードがレキシコン(語彙目録,辞書)にあるか否かを判定する。訂正されたワードがユーザレキシコン(語彙目録,辞書)にない場合、制御はブロック306に移り、ここでワードがレキシコン(語彙目録,辞書)に追加され、選択的に新たな発音を追加し、言語モデルがそれに応じて適合される。新たな発音を追加するか否かを判定する処理は、図4も参照してより詳細に説明する。ブロック306の後、制御はブロック300に戻る。
しかし、訂正されたワードがユーザレキシコン(語彙目録,辞書)にある場合、制御はブロック308に移り、ここで本システムは、発音が新たなものか否かを判定する。新たな発音は、新規ワードの発音、または既存のワードのユーザ特有の発音によってもたらされ得る。発音が新たなか否かを判定する処理は、図4を参照してより詳細に説明する。発音が新たな発音である場合、制御はブロック310に移り、ここで、新たな発音が選択的に学習される。ブロック310の後、制御はブロック300に戻る。
発音が新しくない場合、制御はブロック308からブロック312に移る。これは、訂正されたワード(corrected word)がユーザのレキシコン(語彙目録,辞書:lexicon)にあり、かつ訂正されたワードの発音も既知である状況(situation)である。この場合、ワードが関連づけられる見込みを増すために、ワード対および/またはフレーズがレキシコン(語彙目録,辞書)に追加され、または訂正されたテキストに関連した言語モデルのスコアがアップデートされる。ほとんどの場合、これは、例えば1から2日間継続する一時的な変更である。したがって、「wave two」が「wave too」と誤認識され、ユーザによって訂正された場合、システムは自動的に、ユーザレキシコン(語彙目録,辞書)に「wave two」を一時的に追加する。「一時的に(temporarily)」というのは、ワード対が観察される最も近い時間、およびその対が過去に観察された相対頻度に基づいて、ある程度動的である。ワード対および/またはフレーズの追加に加え、本システムがサポートする場合は、新たに観察された既知の発音の確率も増大され得る。図3に示したステップはすべて、最良の結果を生じるために単一システムで実施することができるが、本発明の実施形態は、このようなステップが必ずしも単一システムに共存しなくてもより。ブロック312の後、制御はブロック300に戻る。
図4は、図3を参照して説明した方法の一部を示す。すなわち図4は、ブロック308および310をより詳細に示す。ブロック308において、ブロック400は最初に、文脈語に基づいて、波形(デジタル化された音)の整列を強制するように作用する。文脈語は概して、訂正されたワードの前後両方にある単一のワードである。例えば、口述された文が「This is a text .\period」であり、かつユーザが「text」を「test」となるように変更した場合、フレーズ「a test .\period」および対応する波形は、各ワードの正しい境界を判定するための整列を行うのに用いられる。この強制整列(forced alignment)が完了(complete)し、境界(boundary)が判定(determine)されると、制御はブロック402に移り、ここで、訂正されたワードの発音は、好ましくはラティス(lattice)を用いて識別される。このラティスは、LTS(Letter to Speech)コンポーネントによって生成され得る発音に基づいて構築される。LTSコンポーネントは、テキスト入力に基づいて一連の音素を生成することができる、適切などのコンポーネントでもよい。ラティスは、認識結果中の、または基本音素認識装置からの音素シーケンスを用いても構成される。そのように構成された音素ラティス(phoneme lattice)は、正しい発音(correct pronunciation)として、ラティス中の最良音素パス(best phoneme path)を本システムが選ぶことを可能にする。最良音素が選ばれると、制御はブロック404に移り、ここで、新たに識別された発音と既存の発音の間の相違(距離:distance)が計算される。
ブロック404で、新たに識別された発音と既存の発音の間の相違(距離)を計算するために、音の混同マトリックスおよび動的時間伸縮が用いられる。代替的な相違(距離)計算方法も使うことができる。例えば、相違(距離)は、新たな発音および既存の発音についての音響モデルスコアに基づいて計算することができる。相違(距離)は好ましくは、予め選択された閾値または動的な閾値と比較され、発音が学習されるべきか否かを判定する。したがって、相違(距離)がある程度の閾値を超える発音のみが学習される。
ブロック406において、本システムは、新たな発音を追加すべきか否かを判定する。この判定は好ましくは、ブロック404から計算された相違(距離)、最も近い既存の発音、音響モデル(AM)信頼性、および新たな発音がユーザのディクテーションに現れた際の周波数に基づく。こうした要因に選択的に基づいた、発音を追加するか否かの判定は、誤整列によるエラーおよび/またはユーザが訂正を行っているか否かについての間違った推論によって、本システムの有効性を低下させる学習が引き起こされないようにするのを助ける。発音信頼性計算(pronunciation confidence calculation)の一例は、以下の計算を含む。
C(pron)=1−(1−p(d,AM))f、および
C(pron)=1/[d/f/log(len1+len2)]
上式において、dは、レキシコン(語彙目録,辞書)における認識された発音と最良一致の間の相違(距離)であり、fは、認識された同じ発音が発音される周波数であり、p(d,AM)は、このような相違(距離)dおよびAMスコアを有する発音が正しい発音である確率である。len1およびlen2は、それぞれ新たな発音および最も近い発音における音素の長さである。P(d,AM)は、トレーニングによって学習される。
ブロック408において、本システムは、新たな発音を選択的に追加する。好ましくは、ブロック406で計算された信頼性スコア(confidence score)が十分に高く、かつユーザのディクテーションにおいて新たな発音が、選択された回数(N回)生じた場合に発音が追加される。
計算された信頼性スコアに閾値(threshold)を適用することによって、本実施形態によるシステムは、単なるユーザの意向の変化による編集からの学習によってシステムが過度に影響されないようにするために、最少量のみを学習する。
これまでは特定の実施形態を参照して本発明を説明してきたが、本発明の精神(spirit)および範囲(scope)から逸脱することなく、形体および細部において変更を行い得ることが当業者には理解されよう。例えば、上記の説明のほとんどは、正確さを向上するための、システムへの情報の追加に焦点を当てているが、本発明の実施形態は、システムからのワードの削除も含む。
本発明を実施するためのコンピューティング環境を例示したブロック図である。 本発明を実施するための代替コンピューティング環境を示すブロック図である。 本発明の一実施形態による音声認識システムを用いた学習方法を示す流れ図である。 本発明の一実施形態による音声認識システムを用いた学習方法の一部分を詳細に示す流れ図である。
符号の説明
120 処理ユニット
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 取り外し不可の不揮発性メモリインターフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 取り外し可能な不揮発性メモリインターフェース
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
202 プロセッサ
204 メモリ
208 通信インターフェース
214 アプリケーション(群)
216 オブジェクトストア

Claims (22)

  1. ユーザ音声を受け取るマイクロホンと、
    前記マイクロホンに結合されており、前記ユーザ音声を認識してユーザインターフェース上でテキスト出力を提供する音声認識エンジンと
    を備え、
    ユーザが前記テキスト出力を変更するのを認識し、当該変更から学習を行うように前記音声認識エンジンを自動的に選択的に適合させる、ことを特徴とする、コンピュータに装備可能な音声認識システム。
  2. 前記システムは、前記ユーザが、認識エラーにより前記テキスト出力を変更しているのか否かを推論するようさらに適合されている、ことを特徴とする請求項1に記載のシステム。
  3. 前記認識エンジンはユーザレキシコンを含み、前記ユーザレキシコンは、訂正が前記ユーザのレキシコンにないワードである場合にアップデートされる、ことを特徴とする請求項1に記載のシステム。
  4. 前記認識エンジンは、前記ユーザの発音がエラーを起こしたか否かを判定し、新たな発音を選択的に学習する、ことを特徴とする請求項1に記載のシステム。
  5. 前記認識エンジンは、前記ユーザの発音がエラーを起こしたか否かを判定し、既存の発音に関連した確率を選択的に修正する、ことを特徴とする請求項1に記載のシステム。
  6. 訂正が新たなワードまたは新たな発音によるものでない場合、ユーザレキシコンに少なくとも1つのワード対を追加するように適合されている、ことを特徴とする請求項1に記載のシステム。
  7. 自動音声認識システムを用いて学習を行う方法であって、
    口述テキストに対する変更を検出するステップと、
    前記変更が訂正であるか又は編集であるかを推論するステップと、
    前記変更が訂正であると推論される場合、追加的なユーザ対話なしで前記訂正の性質から選択的に学習するステップと、
    を含むことを特徴とする方法。
  8. 前記変更が訂正であるか又は編集であるかを推論するステップは、前記ユーザが前記変更を行うために代替リストから選択を行ったか否か検出するステップを含む、ことを特徴とする請求項7に記載の方法。
  9. 前記変更が訂正であるか又は編集であるかを推論するステップは、ディクテーションと前記変更との間の時間を測定するステップを含む、ことを特徴とする請求項7に記載の方法。
  10. 前記変更が訂正であるか又は編集であるかを推論するステップは、前記口述テキストの音声認識エンジンスコアおよび前記変更されたテキストの音声認識エンジンスコアを比較するステップを含む、ことを特徴とする請求項7に記載の方法。
  11. 前記変更が訂正であるか又は編集であるかを推論するステップは、変更されたワードの数を検出するステップを含む、ことを特徴とする請求項7に記載の方法。
  12. 前記訂正の性質から選択的に学習するステップは、前記訂正されたワードが前記ユーザのレキシコンに存在するか否かを判定し、存在しない場合は、前記レキシコンに前記訂正されたワードを追加するステップを含む、ことを特徴とする請求項7に記載の方法。
  13. 前記訂正されたワードが前記ユーザレキシコンに存在する場合、前記訂正の性質から選択的に学習するステップは、
    前記システムが知っている既存の発音から前記ユーザの発音が逸脱していたか否かを判定するステップと、
    選択的に発音を学習するステップと、
    をさらに含むことを特徴とする請求項12に記載の方法。
  14. 前記ユーザの発音が既存の発音から逸脱していたか否かを判定するステップは、文脈語が存在する場合は少なくとも1つの文脈語に基づいて波形の強制整列を行うステップを含む、ことを特徴とする請求項13に記載の方法。
  15. 前記ユーザの発音が既存の発音から逸脱していたか否かを判定するステップは、前記訂正されたワードの前記発音を波形の中で識別するステップを含む、ことを特徴とする請求項13に記載の方法。
  16. 前記訂正されたワードの可能性のある発音および認識結果に基づいてラティスを構築するステップをさらに含む、ことを特徴とする請求項15に記載の方法。
  17. 既存の発音と、新たに識別された発音との相違に少なくとも部分的に基づいて、信頼性スコアを生成するステップをさらに含む、ことを特徴とする請求項16に記載の方法。
  18. 既存の発音と、新たに識別された発音との音響モデルスコアに少なくとも部分的に基づいて、信頼性スコアを生成するステップをさらに含む、ことを特徴とする請求項16に記載の方法。
  19. 前記選択的に発音を学習するステップは、前記信頼性スコアを閾値と比較するステップを含む、ことを特徴とする請求項17に記載の方法。
  20. 前記選択的に発音を学習するステップは、新たな発音が、予め選択された回数だけ生じたか否かを判定するステップをさらに含む、ことを特徴とする請求項19に記載の方法。
  21. 前記訂正の性質から選択的に学習するステップは、前記ユーザのレキシコンに少なくとも1つのワード対を追加するステップを含む、ことを特徴とする請求項7に記載の方法。
  22. 前記ユーザのレキシコンに、少なくとも1つのワード対が一時的に追加される、ことを特徴とする請求項21に記載の方法。
JP2005010922A 2004-01-20 2005-01-18 ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 Expired - Fee Related JP4657736B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/761,451 US8019602B2 (en) 2004-01-20 2004-01-20 Automatic speech recognition learning using user corrections

Publications (2)

Publication Number Publication Date
JP2005208643A true JP2005208643A (ja) 2005-08-04
JP4657736B2 JP4657736B2 (ja) 2011-03-23

Family

ID=34634575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005010922A Expired - Fee Related JP4657736B2 (ja) 2004-01-20 2005-01-18 ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法

Country Status (6)

Country Link
US (2) US8019602B2 (ja)
EP (1) EP1557822B1 (ja)
JP (1) JP4657736B2 (ja)
KR (1) KR101183344B1 (ja)
CN (1) CN1645477B (ja)
AT (1) ATE511177T1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010175765A (ja) * 2009-01-29 2010-08-12 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2012522278A (ja) * 2009-03-30 2012-09-20 マイクロソフト コーポレーション 統計的言語モデルへの適応
JP2014067062A (ja) * 2007-04-26 2014-04-17 Microsoft Corp アジア文字を生成するための認識アーキテクチャ
WO2022085296A1 (ja) * 2020-10-19 2022-04-28 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1721429A1 (en) * 2004-03-02 2006-11-15 Cloudmark, Inc. A method and apparatus to use a statistical model to classify electronic communications
JP2007528544A (ja) * 2004-03-02 2007-10-11 クラウドマーク インコーポレイテッド 遺伝的アルゴリズムを使用して改良された統計学的モデルを作成する方法及び装置
KR100717385B1 (ko) 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
CA2644666A1 (en) * 2006-04-17 2007-10-25 Vovision Llc Methods and systems for correcting transcribed audio files
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US8719027B2 (en) * 2007-02-28 2014-05-06 Microsoft Corporation Name synthesis
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20080221880A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile music environment speech processing facility
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
WO2009136440A1 (ja) * 2008-05-09 2009-11-12 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US8725510B2 (en) * 2009-07-09 2014-05-13 Sony Corporation HMM learning device and method, program, and recording medium
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US8738375B2 (en) 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US9396725B2 (en) * 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
CN103000052A (zh) * 2011-09-16 2013-03-27 上海先先信息科技有限公司 人机互动的口语对话系统及其实现方法
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
US9640175B2 (en) 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
CN103165129B (zh) * 2011-12-13 2015-07-01 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及系统
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
KR101971513B1 (ko) * 2012-07-05 2019-04-23 삼성전자주식회사 전자 장치 및 이의 음성 인식 오류 수정 방법
US9093072B2 (en) 2012-07-20 2015-07-28 Microsoft Technology Licensing, Llc Speech and gesture recognition enhancement
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
CN104871240A (zh) * 2012-12-28 2015-08-26 索尼公司 信息处理设备、信息处理方法、以及程序
CN103903618B (zh) * 2012-12-28 2017-08-29 联想(北京)有限公司 一种语音输入方法及电子设备
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US20140317467A1 (en) * 2013-04-22 2014-10-23 Storart Technology Co., Ltd. Method of detecting and correcting errors with bch engines for flash storage system
US10394442B2 (en) * 2013-11-13 2019-08-27 International Business Machines Corporation Adjustment of user interface elements based on user accuracy and content consumption
WO2015102127A1 (ko) * 2013-12-31 2015-07-09 엘지전자 주식회사 음성 인식 시스템 및 방법
CN103941868B (zh) * 2014-04-14 2017-08-18 美的集团股份有限公司 语音控制准确率调整方法和系统
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CA2962636A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
US10048934B2 (en) 2015-02-16 2018-08-14 International Business Machines Corporation Learning intended user actions
US10410629B2 (en) * 2015-08-19 2019-09-10 Hand Held Products, Inc. Auto-complete methods for spoken complete value entries
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US10769189B2 (en) 2015-11-13 2020-09-08 Microsoft Technology Licensing, Llc Computer speech recognition and semantic understanding from activity patterns
US11429883B2 (en) 2015-11-13 2022-08-30 Microsoft Technology Licensing, Llc Enhanced computer experience from activity prediction
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
EP3469519A4 (en) 2016-06-14 2020-07-01 Omry Netzer AUTOMATIC VOICE RECOGNITION
US10468015B2 (en) * 2017-01-12 2019-11-05 Vocollect, Inc. Automated TTS self correction system
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
CN107463601B (zh) * 2017-06-13 2021-02-12 北京百度网讯科技有限公司 基于人工智能的对话理解系统构建方法、装置、设备及计算机可读存储介质
CN107291867B (zh) * 2017-06-13 2021-07-20 北京百度网讯科技有限公司 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN107909995B (zh) * 2017-11-16 2021-08-17 北京小米移动软件有限公司 语音交互方法和装置
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
CN108417205B (zh) * 2018-01-19 2020-12-18 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN108733649B (zh) * 2018-04-25 2022-05-06 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
KR102114064B1 (ko) * 2018-06-11 2020-05-22 엘지전자 주식회사 이동 단말기
CN108984529B (zh) * 2018-07-16 2022-06-03 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
KR20210064928A (ko) 2019-11-26 2021-06-03 삼성전자주식회사 전자장치와 그의 제어방법, 및 기록매체
CN113744718A (zh) * 2020-05-27 2021-12-03 海尔优家智能科技(北京)有限公司 语音文本的输出方法及装置、存储介质、电子装置
KR20220013732A (ko) * 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
US20230267918A1 (en) * 2022-02-24 2023-08-24 Cisco Technology, Inc. Automatic out of vocabulary word detection in speech recognition
CN115083437B (zh) * 2022-05-17 2023-04-07 北京语言大学 一种确定学习者发音的不确定性的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122687A (ja) * 1998-10-19 2000-04-28 Internatl Business Mach Corp <Ibm> 言語モデルを更新する方法
JP2001092493A (ja) * 1999-09-24 2001-04-06 Alpine Electronics Inc 音声認識修正方式

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029406A (en) * 1990-05-15 1991-07-09 Eldon Industries Sign structures
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5794189A (en) 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US6490555B1 (en) * 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6377921B1 (en) * 1998-06-26 2002-04-23 International Business Machines Corporation Identifying mismatches between assumed and actual pronunciations of words
US6195635B1 (en) * 1998-08-13 2001-02-27 Dragon Systems, Inc. User-cued speech recognition
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US6507816B2 (en) * 1999-05-04 2003-01-14 International Business Machines Corporation Method and apparatus for evaluating the accuracy of a speech recognition system
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
JP2003504674A (ja) 1999-07-08 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーチ認識装置とテキスト比較手段
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US6859774B2 (en) * 2001-05-02 2005-02-22 International Business Machines Corporation Error corrective mechanisms for consensus decoding of speech
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
ES2228739T3 (es) * 2001-12-12 2005-04-16 Siemens Aktiengesellschaft Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi.
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
US7389228B2 (en) * 2002-12-16 2008-06-17 International Business Machines Corporation Speaker adaptation of vocabulary for speech recognition
US7409345B2 (en) * 2003-04-04 2008-08-05 International Business Machines Corporation Methods for reducing spurious insertions in speech recognition
JP4390248B2 (ja) 2003-06-17 2009-12-24 キヤノン株式会社 データ管理装置及びその制御方法並びにプログラム
US7266795B2 (en) * 2005-03-17 2007-09-04 International Business Machines Corporation System and method for engine-controlled case splitting within multiple-engine based verification framework

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122687A (ja) * 1998-10-19 2000-04-28 Internatl Business Mach Corp <Ibm> 言語モデルを更新する方法
JP2001092493A (ja) * 1999-09-24 2001-04-06 Alpine Electronics Inc 音声認識修正方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014067062A (ja) * 2007-04-26 2014-04-17 Microsoft Corp アジア文字を生成するための認識アーキテクチャ
JP2010175765A (ja) * 2009-01-29 2010-08-12 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2012522278A (ja) * 2009-03-30 2012-09-20 マイクロソフト コーポレーション 統計的言語モデルへの適応
WO2022085296A1 (ja) * 2020-10-19 2022-04-28 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置

Also Published As

Publication number Publication date
JP4657736B2 (ja) 2011-03-23
US8280733B2 (en) 2012-10-02
KR20050076697A (ko) 2005-07-26
US20110015927A1 (en) 2011-01-20
CN1645477B (zh) 2012-01-11
US8019602B2 (en) 2011-09-13
US20050159949A1 (en) 2005-07-21
EP1557822A1 (en) 2005-07-27
ATE511177T1 (de) 2011-06-15
EP1557822B1 (en) 2011-05-25
KR101183344B1 (ko) 2012-09-14
CN1645477A (zh) 2005-07-27

Similar Documents

Publication Publication Date Title
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
US8346553B2 (en) Speech recognition system and method for speech recognition
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2006038895A (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US20060206326A1 (en) Speech recognition method
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US20020184016A1 (en) Method of speech recognition using empirically determined word candidates
JP2014074732A (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
KR101283271B1 (ko) 어학 학습 장치 및 어학 학습 방법
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP2003345388A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JPH08211891A (ja) ヒドン・マルコフ・モデルの学習方法
JPH11161292A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4657736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees