JP3834169B2 - 連続音声認識装置および記録媒体 - Google Patents

連続音声認識装置および記録媒体 Download PDF

Info

Publication number
JP3834169B2
JP3834169B2 JP26945799A JP26945799A JP3834169B2 JP 3834169 B2 JP3834169 B2 JP 3834169B2 JP 26945799 A JP26945799 A JP 26945799A JP 26945799 A JP26945799 A JP 26945799A JP 3834169 B2 JP3834169 B2 JP 3834169B2
Authority
JP
Japan
Prior art keywords
speech recognition
word
word string
recording medium
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP26945799A
Other languages
English (en)
Other versions
JP2001092496A (ja
Inventor
亨 今井
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP26945799A priority Critical patent/JP3834169B2/ja
Priority to US09/447,391 priority patent/US6393398B1/en
Publication of JP2001092496A publication Critical patent/JP2001092496A/ja
Application granted granted Critical
Publication of JP3834169B2 publication Critical patent/JP3834169B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、連続音声を認識する連続音声認識装置、特に、確率的言語モデルを使用して音声認識を行う連続音声認識装置および記録媒体に関する。
【0002】
【従来の技術】
従来、確率的言語モデルを使用して音声認識を行う連続音声認識装置の中でマルチパスデコーダを使用して連続音声を認識を行う装置が知られている。この装置では1パスの回路で簡易なモデルを使用して時間同期サーチを行い、認識対象の音声に対する単語候補を絞り込む。そして、発話終了後に詳細なモデルを使用して2パス目の回路で1パス目で得られた単語候補を確定する(今井他、情処研報、SLP-23-11(1998.10)。本願発明者も1パス目でバイグラムを使用して時間同期Viterbiビームサーチを行う連続音声認識装置(今井他、音講論集3−1−12(1998,9))を提案している。
【0003】
この連続音声認識装置では、木構造音素ネットワークを単語依存N−best探索する(R.Schwarz,et al.,ICASSP−91、pp701−704(1991.5)参照)。
【0004】
この際、各単語候補の終了時刻、スコア,直前単語へのポインタで構成される単語ラティスを再帰的にトレースバックして(R.Schwarz,et al.,ICASSP−91、pp701−704(1991.5)参照)、N−best文を得る。そしてN−best文をトライグラムでリスコアリングし、尤度最大の単語列を認識結果として確定している。
【0005】
【発明が解決しようとする課題】
このようなマルチパスの連続音声認識装置では、連続音声に対して1パス処理を行うと、その時点の音声認識候補の最後尾の単語列については、次回に音声認識候補として得られ、上記最後尾の単語列と対応する位置の単語列が前回得られたものと異なることが多いという傾向がある。このため、1文の入力音声の入力が終了しないと、1文の音声認識候補が安定せず、2パス目の回路で音声認識結果を確定できない。したがって、入力音声が入力された時点と音声認識結果が連続音声認識装置から出力されるまでの間に大きなタイムラグ(遅延)が生じてしまう。
【0006】
このようなタイムラグはニュース番組で放送される音声を音声認識してリアルタイムで字幕をつくるためには問題となってしまう。
【0007】
そこで、本発明の目的は、上述の点に鑑みて、マルチパスの音声認識装置において、音声が入力されてから音声認識結果を出力するまでのタイムラグを短縮することが可能な連続音声認識装置および記録媒体を提供することにある。
【0008】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、入力した連続音声を第1パス処理部で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第2パス処理部で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定する連続音声認識装置において、前記第1パス処理部は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得し、第2パス処理部は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択手段と、当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定手段とを具えたことを特徴とする。
【0009】
請求項2の発明は、請求項1に記載の連続音声認識装置において、前記音声認識結果確定手段は、前記単語列検出手段により現時点において検出された単語列から最後部の単語列を除いた第1の単語列と、前時点において前記単語列検出手段により取得された音声の認識候補の第2の単語列とを比較する比較部と、当該比較において前記第2の単語列と同じ単語列が前記第1の単語列の中に含まれているとの判定結果が前記比較部により得られた場合には、前記第2の単語列を音声認識結果として確定する確定部とを具えたことを特徴とする。
【0010】
請求項3の発明は、請求項1に記載の連続音声認識装置において、前記第1パス処理部では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする。
【0011】
請求項4の発明は、請求項3に記載の連続音声認識装置において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする。
【0012】
請求項5の発明は、請求項3に記載の連続音声認識装置において、前記第1パス処理部では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする。
【0013】
請求項6の発明は、入力した連続音声を第1パス処理で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第2パス処理で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定するプログラムであって、コンピュータにより実行可能なプログラムを記録した記録媒体において、前記第1パス処理は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得するステップと、第2パス処理は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択ステップと、当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定ステップとを具えたことを特徴とする。
【0014】
請求項7の発明は、請求項6に記載の記録媒体において、前記音声認識結果確定ステップは、前記単語列検出ステップにより現時点において検出された単語列から最後部の単語列を除いた第1の単語列と、前時点において前記単語列検出ステップにより取得された音声の認識候補の第2の単語列とを比較する比較ステップと、当該比較において前記第2の単語列と同じ単語列が前記第1の単語列の中に含まれているとの判定結果が前記比較ステップにより得られた場合には、前記第2の単語列を音声認識結果として確定する確定ステップとを具えたことを特徴とする。
【0015】
請求項8の発明は、請求項6に記載の記録媒体において、前記第1パス処理では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする。
【0016】
請求項9の発明は、請求項8に記載の記録媒体において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする記録媒体。
【0017】
請求項10の発明は、請求項8に記載の記録媒体において、前記第1パス処理では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0019】
図1は本発明を適用した連続音声認識装置の機能構成を示す。図2は図1の第1パス処理部2の詳細を示し、図3は図1の第2のパス処理部3の詳細を示す。
【0020】
音響分析部1はマイクロホン等の音声入力部から入力された音声信号をアナログ/デジタル変換(A/D)変換した後、音響分析を行って、音声の特徴を表すパラメータを出力する。音響分析回路1は従来と同様の回路を使用することができる。
【0021】
第1パス処理部1では簡易な確率的言語モデル、たとえば、単語バイグラムを使用して、各単語候補の終了時刻,スコア,直前単語へのポインタで構成される単語ラティス4を単語ラディス生成部21により逐次に生成する。そして入力音声のΔtフレーム(たとえば、30フレーム(1フレームは10ミリ秒))おきに、現時点の最高スコアの音素を出発点として単語ラティス4をトレースバック部22によりトレースバックし、N通り(たとえば200通り)の単語列候補(以下N−best単語列と称する)を取得する。第1のパス処理部1も従来(たとえば、今井他、音講論集3−1−12(1998,9)参照)とほぼ同一のハードウェアの回路構成とすることができるが、従来は1文の入力音声が入力された後、1文についてのN−best単語列候補が出力されるのに対し、本実施形態では、入力音声が入力されると、入力音声の途中でも、それまでに生成された1文途中のN−best単語系列がΔtフレームおきに出力される点が従来と異なる点である。なお、本明細書および上記文献に記載されている内容が難解と思われる場合には、「確率モデルによる音声認識,中川誠一著電子情報通信学会」を参照されたい。
【0022】
第2パス処理部3では、Δtフレームおきに作成されるN−best単語列をより詳細な確率的言語モデル6(図3参照)、たとえば、単語トライグラムを使用して、リスコアリング部31によりリスコアリングし、スコアが最大となる最良の単語列(1−best単語列)をN−best単語列の中から選択する。
【0023】
単語比較・確定部32では現時点の1−bestの中の安定部を検出するために、Δtフレーム前(前時点)に得られた1−best単語列と現時点で得られた1−best単語列とを比較し、現時点の1−best単語列の中にΔtフレーム前に得られた1−best単語列と一致する単語列が含まれている場合には、一致する単語列を音声認識結果として確定する(図4参照)。
【0024】
なお、現時点で得られた1−best単語列の最終のM個の単語(たとえば、1個)は確定の対象としない。また、すでに確定されている区間で、現時点で得られた1−best単語列に変化が生じていても、それは無視するものとする。
【0025】
このような入力音声が入力されている間、第2パス処理部3では入力音声の途中でもその途中までの1−best単語列がΔtフレームおきに確定されていくので、1文の入力音声が入力された場合の音声認識結果の出力タイムラグはほぼΔtフレームであるのに対し、従来例では1文の入力音声の入力時間であるので、タイムラグが大幅に短縮される。
【0026】
上述の連続音声認識装置は、デジタル回路でも実現できるが、後述のプログラムをコンピュータが実行することでも実現できる。このためのコンピュータのシステム構成を図5に示す。図5において、CPU100は後述のプログラムを実行して,連続音声認識処理を行う。システムメモリ110は、CPU100が行う情報処理に対する入出力データを一時記憶する。ハードディスク記憶装置(HDDと略記する)130は、上述の簡易モデル5や詳細モデル6を保存記憶する。
【0027】
また、HDD130には後述の連続音声認識用のプログラムが保存され、不図示のキーボードやマウス等の実行の指示で、HDD130からシステムメモリ110に上記プログラムがローディングされた後、CPU100によりプログラムが実行される。
【0028】
入力インターフェース(I/O)120はマイクロホンから入力された音声信号をA/D変換して、デジタル形態の音声信号をCPU100に引き渡す。
【0029】
本実施形態では、コンピュータとしてパーソナルコンピュータを使用する形態を説明するが、コンピュータはチップ化されたデジタルプロセッサの形態とすることもできる。この場合には、HDD130の変わりにROM等の不揮発メモリを使用するとよい。
【0030】
以上のシステム構成を有する連続音声認識装置の動作を図6〜図8を参照して説明する。図6は連続音声認識処理のためのプログラムのメイン処理内容を示す。図7は図1の第1パス処理の詳細を示す。図8は第2パス処理の詳細を示す。
【0031】
上記プログラムはCPU100が実行可能なプログラム言語で作成され、HDD130に保存記憶されるが、説明の便宜上、図6〜図8では、個々の処理内容を機能表現している。
【0032】
図6において、たとえば、「A(エイ),B(ビー),C(シー),D(ディー),E(イー)....」についての入力音声がマイクロホンから入力されると、CPU100はデジタルの音声信号をI/Oを介して逐次システムメモリ110に一時記憶される。CPU100は一時記憶された音声信号を従来と同様、たとえば、音素単位で音響分析して、音響分析結果をシステムメモリ110に記憶する(ステップS100)。
【0033】
CPU100は「A」の入力音声が入力された際には、ステップS20の第1パス処理でHDD130に保存の簡易モデル(単語バイアグラム)および音響分析結果を使用して単語音声認識を行い、「A」、「えい」、「英」等の単語列候補(この場合、単語文字列数は1)を取得し、各候補について単語候補の終了時刻、スコア(認識結果としての確からしさを示す得点),直前単語へのポインタで構成する単語ラティスを生成する(図7のステップS100)。作成された単語ラティスはシステムメモリ110に一時記憶される(ステップS120)。この時点で、入力音声の開始がΔt時間が経過している場合には、現在の最高スコアの音素を出発点としたシステムメモリ110上の単語ラティスをトレースバックして、初期的に「A」、「えい」、「英」等N通りの単語列候補、すなわち、N−best単語列をステップS30の第2パス処理に引き渡す。
【0034】
CPU100は図8の処理手順に従って、N−best単語列について詳細モデルを使用してリスコアリング(スコアの再計算)を行う。、N−best単語列の中で最もスコアの高い単語列候補、この場合「A」を1−best単語列として選択し、システムメモリ110に一時記憶する(ステップS210)。
【0035】
この時点では、「A」の前に音声が入力されていないので、図8の手順はステップS220→リターンへと進み、CPU100の実行手順は図6のステップS40の終了判定に移行する。この時点ではプログラムの終了の指示がユーザから与えられていないので、手順はステップS40→S10→S20へと進み、次の入力音声「B」についての音響分析処理および第1パス処理が行われる。なお、図7の第1パス処理において、前回のトレースバック処理からΔtフレーム時間が経過しない間は手順は図7のステップS120→図6のステップS10→S20→図7のステップS100→S120の処理が繰り返されて、生成された単語ラティスがシステムメモリ110に蓄積される。
【0036】
Δtフレーム時間が経過すると図7のステップS120の判定処理がYES判定となるので、手順はステップS130のトレースバック処理に移行する。トレースバック処理では確定されていない単語列がトレースバックされるので、この場合、入力音声「A」についての単語列候補と入力音声「B」についての単語列候補を組み合わせたN−best単語列を作成し、図6のステップS30の第2パス処理に引き渡す。
【0037】
第2パス処理ではCPU100は引き渡された2単語について詳細モデルを使用してスコアを再計算する(図8のステップS200)。ここでの入力音声は「A,B」なので、当然のことながら、2つの単語の候補の中で「「A,B」がスコアが最も高く、1−best単語列として選択される。選択された1−best単語列はシステムメモリ110に記憶される。
【0038】
この時点で、システムメモリ110に記憶された1−best単語列は、「A」と「A,B」の2つなので、現時点で得られた1−best単語列「A,B」と前回(Δtフレーム前)得られた1−best単語列「A」とを比較する。
【0039】
前回得られた1−best単語列「A」と一致する単語列が現時点で得られた1−best単語列「A,B」の中に含まれているので、図8のステップS220の判定処理はYES判定処理となる。CPU100はこのYES判定に応じて、一致の単語列「A」を連続音声の中の部分的な音声認識結果として確定する。
【0040】
一方、ステップS220でNO判定が得られた場合には、ステップS230の確定処理は行わず図6のステップS40にリターンした後、、入力音声の音響分析処理を続行する(ステップS10)。
【0041】
以下、上述の処理手順を繰り返し実行すると次の入力音声「C」が入力されると,1−best単語列の確定文字列以降の単語列として「B,C」が得られる。また、前回の1−best単語列の確定文字列以降の単語列は「B」であったので、図8のステップS210の判定処理において、「B」が一致の判定が得られて、一致の単語列「B」が次の部分音声認識結果として確定される。確定された音声認識結果はシステムメモリ110に累積的に記憶される(ステップS230)。ちなみにこの時点で累積記憶される音声認識結果は「A,B」である。
【0042】
以上の説明した処理手順を実行することにより、入力音声が入力されるごとに、2パス処理を実行しても、本実施形態では、2パス処理で得られる1−best単語列の中の安定部を検出し、確定すべき音声認識候補として逐次的に出力する。これにより音声の入力に追従する形で、音声認識結果をリアルタイムでたとえば、表示することができる。
【0043】
ユーザがCPU10に対して不図示のキーボードやマウスにより終了の指示を与えると,図6のステップS40の終了判定処理がYES判定となって、図6の処理手順が終了する。
【0044】
上述の実施形態の他に次の形態を実施できる。
【0045】
1)連続音声認識用のプログラムを記録する記録媒体は、上述の実施形態では、ハードディスク記憶装置であったが、ROMやRAMなどのICメモリや、フロッピーディスクや光磁気ディスクなどの携帯用記録であってもよい。また、通信線により外部装置から上記プログラムをダウンロードする場合には、外部装置側のプログラムを記憶した記憶装置が本発明の記録媒体に該当する。
【0046】
2)上述の実施形態では、1−best単語列の中の安定部を検出するために2つの隣接する時点で得られた1−best単語列を比較したが、さらにさらに上述のトレースバックの間隔を非一定間隔にしてもよいし、現時点のアクティブな複数の音素からトレースバックするとさらに安定した単語列を得ることができる。
【0047】
3)上述の実施形態では簡易な確率的言語モデルには単語バイグラム(確率を2つの単語列について求めること)、詳細な確率的言語モデルには単語トライグラム(確率を3つ単語列について求めること)を使用したが、これに限定されるわけではない。
【0048】
4)上述した実施形態は本発明を説明するための1実施形態であり、特許請求の範囲において示される技術思想にしたがって、上述の実施形態に対して種々の変形が可能である。このように変形された実施形態は、すべて、本願の特許の権利範囲となる。
【0049】
【発明の効果】
以上、説明したように、本発明によれば、逐次的に2パス処理を実行して得られる最も高い確からしさを有する単語列(実施形態の1−best単語列)の中の安定部分を検出して、部分的な音声認識結果とするので、連続音声を入力しながら、その音声認識結果を逐次的に確定することができる。また、これによりたとえば、テレビニュースの音声を音声認識して自動的に字幕を作成する場合でも音声の認識精度を保ちつつ、音声からの字幕の遅れ時間を最小に抑えることができる。
【図面の簡単な説明】
【図1】本発明実施形態の機能構成を示すブロック図である。
【図2】第1パス処理部の機能構成を示すブロック図である。
【図3】第2パス処理部の構成を示すブロック図である。
【図4】本発明実施形態の処理内容を示す説明図である。
【図5】本発明実施形態のハードウェアの構成を示すブロック図である。
【図6】CPUが実行する処理内容を示すフローチャートである。
【図7】CPUが実行する第1パス処理の内容を示すフローチャートである。
【図8】CPUが実行する第2パス処理の内容を示すフローチャートである。
【符号の説明】
1 音響分析部
2 第1パス処理部
3 第2パス処理部
5 簡易モデル
6 詳細モデル
21 単語ラティス生成部
22 トレースバック部
31 リスコアリング部
32 単語比較・確定部

Claims (10)

  1. 入力した連続音声を第1パス処理部で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第2パス処理部で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定する連続音声認識装置において、
    前記第1パス処理部は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得し、
    第2パス処理部は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択手段と、
    当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定手段と
    を具えたことを特徴とする連続音声認識装置。
  2. 請求項1に記載の連続音声認識装置において、前記音声認識結果確定手段は、
    前記単語列検出手段により現時点において検出された単語列から最後部の単語列を除いた第1の単語列と、前時点において前記単語列検出手段により取得された音声の認識候補の第2の単語列とを比較する比較部と、
    当該比較において前記第2の単語列と同じ単語列が前記第1の単語列の中に含まれているとの判定結果が前記比較部により得られた場合には、前記第2の単語列を音声認識結果として確定する確定部と
    を具えたことを特徴とする連続音声認識装置。
  3. 請求項1に記載の連続音声認識装置において、前記第1パス処理部では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする連続音声認識装置。
  4. 請求項3に記載の連続音声認識装置において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする連続音声認識装置。
  5. 請求項3に記載の連続音声認識装置において、前記第1パス処理部では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする連続音声認識装置。
  6. 入力した連続音声を第1パス処理で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第2パス処理で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定するプログラムであって、コンピュータにより実行可能なプログラムを記録した記録媒体において、
    前記第1パス処理は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得するステップと、
    第2パス処理は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択ステップと、
    当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定ステップと
    を具えたことを特徴とする記録媒体。
  7. 請求項6に記載の記録媒体において、前記音声認識結果確定ステップは、
    前記単語列検出ステップにより現時点において検出された単語列から最後部の単語列を除いた第1の単語列と、前時点において前記単語列検出ステップにより取得された音声の認識候補の第2の単語列とを比較する比較ステップと、
    当該比較において前記第2の単語列と同じ単語列が前記第1の単語列の中に含まれているとの判定結果が前記比較ステップにより得られた場合には、前記第2の単語列を音声認識結果として確定する確定ステップと
    を具えたことを特徴とする記録媒体。
  8. 請求項6に記載の記録媒体において、前記第1パス処理では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする記録媒体。
  9. 請求項8に記載の記録媒体において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする記録媒体。
  10. 請求項8に記載の記録媒体において、前記第1パス処理では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする記録媒体。
JP26945799A 1999-09-22 1999-09-22 連続音声認識装置および記録媒体 Expired - Lifetime JP3834169B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP26945799A JP3834169B2 (ja) 1999-09-22 1999-09-22 連続音声認識装置および記録媒体
US09/447,391 US6393398B1 (en) 1999-09-22 1999-11-22 Continuous speech recognizing apparatus and a recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26945799A JP3834169B2 (ja) 1999-09-22 1999-09-22 連続音声認識装置および記録媒体

Publications (2)

Publication Number Publication Date
JP2001092496A JP2001092496A (ja) 2001-04-06
JP3834169B2 true JP3834169B2 (ja) 2006-10-18

Family

ID=17472712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26945799A Expired - Lifetime JP3834169B2 (ja) 1999-09-22 1999-09-22 連続音声認識装置および記録媒体

Country Status (2)

Country Link
US (1) US6393398B1 (ja)
JP (1) JP3834169B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US6802717B2 (en) * 2001-04-26 2004-10-12 Felix Castro Teaching method and device
US20030023439A1 (en) * 2001-05-02 2003-01-30 Gregory Ciurpita Method and apparatus for automatic recognition of long sequences of spoken digits
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
JP4158937B2 (ja) 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
KR101415534B1 (ko) * 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
US9405823B2 (en) 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
JPWO2010128560A1 (ja) * 2009-05-08 2012-11-01 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US8965545B2 (en) 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US8909512B2 (en) 2011-11-01 2014-12-09 Google Inc. Enhanced stability prediction for incrementally generated speech recognition hypotheses based on an age of a hypothesis
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
JP6245846B2 (ja) * 2013-05-30 2017-12-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP6508808B2 (ja) * 2014-10-16 2019-05-08 日本放送協会 音声認識誤り修正装置
JP6562698B2 (ja) 2015-04-28 2019-08-21 株式会社東芝 ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US5953701A (en) * 1998-01-22 1999-09-14 International Business Machines Corporation Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium

Also Published As

Publication number Publication date
JP2001092496A (ja) 2001-04-06
US6393398B1 (en) 2002-05-21

Similar Documents

Publication Publication Date Title
JP3834169B2 (ja) 連続音声認識装置および記録媒体
US10074363B2 (en) Method and apparatus for keyword speech recognition
US7805304B2 (en) Speech recognition apparatus for determining final word from recognition candidate word sequence corresponding to voice data
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
CN101326572B (zh) 具有巨大词汇量的语音识别系统
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US6792409B2 (en) Synchronous reproduction in a speech recognition system
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JPH11191000A (ja) テキストを音声信号と整列する方法
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
US20170270923A1 (en) Voice processing device and voice processing method
US6345249B1 (en) Automatic analysis of a speech dictated document
JP2002215187A (ja) 音声認識方法及びその装置
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP3440840B2 (ja) 音声認識方法及びその装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2000056795A (ja) 音声認識装置
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP2003241787A (ja) 音声認識装置および方法、並びにプログラム
JP3908878B2 (ja) 連続音声認識装置の音素認識性能測定装置
JP2019095526A (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
JP2005091504A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060721

R150 Certificate of patent or registration of utility model

Ref document number: 3834169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100728

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130728

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140728

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term