JP2004133003A - Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus - Google Patents
Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus Download PDFInfo
- Publication number
- JP2004133003A JP2004133003A JP2002294402A JP2002294402A JP2004133003A JP 2004133003 A JP2004133003 A JP 2004133003A JP 2002294402 A JP2002294402 A JP 2002294402A JP 2002294402 A JP2002294402 A JP 2002294402A JP 2004133003 A JP2004133003 A JP 2004133003A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- speech recognition
- dictionary
- paraphrase expression
- paraphrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、言い換えを自動登録可能な音声認識のための認識辞書作成方法及びその装置とこの方式で作成した辞書を用いた音声認識装置に関するものである。
【0002】
【従来の技術】
従来の音声認識システムは、認識辞書に登録されている語彙に基づいて認識を行うため、認識辞書に登録されていない語彙を認識することはできない。しかし、ユーザは認識辞書に登録されている語彙通りの発声を行うとは限らない。例えばユーザが発声対象となる名称を正確に知っているとは限らないし、正確な名称を知っていても省略可能と判断した部位を適宜省略して発声するのが実情である。そこで、音声認識に用いる認識辞書には、同じ単語や概念について、ユーザが異なる言い方をしても認識できるように、あらかじめ複数の言い換えが登録されている必要がある。例えば、特許文献1には、カーナビゲーションの音声による操作コマンドの言い換え表現を予め登録しておき、ユーザが複数通りの発声をしても正しく認識するための手法が開示されている。
【0003】
ここで、例えば、認識対象語の表記が「大阪大学菅平高原実験センター」で、その音声的な表記を表す読みが(オオサカダイガクスガダイラコウゲンジッケンセンター)である場合、ユーザは、「阪大菅平実験センター」(ハンダイスガダイラジッケンセンター)や「阪大菅平実験所」(ハンダイスガダイラジッケンジョ)、「大阪大学菅平実験センター」(オオサカダイガクスガダイラジッケンセンター)、「菅平実験センター」(スガダイラジッケンセンター)、「菅平阪大実験センター」(スガダイラハンダイジッケンセンター)などと言い換えて発声することが考えられるが、従来は、想定される言い方のバリエーションを全て人手で辞書に追加していた。
【0004】
しかし、対象の単語数が多い場合や、認識対象の語彙が逐次更新される場合、これらを全て人手で登録することは困難であり、自動処理が必須である。
【0005】
この問題に対して、限定されたテキストを対象として言い換えを自動生成する手法として、対象範囲のテキストから形態素解析や読み付与のあいまい性、部分的な省略を考慮した言い換えを辞書へ自動追加する方法が特許文献2に開示されている。
【0006】
図18は、特許文献2に開示された手法による音声認識辞書作成装置の動作を説明する機能ブロック図である。図18において、10は言い換え表現を求める対象となる文字列情報である。11は本文献で開示された辞書作成装置であって、12は文字列情報10をテキスト分割し、その読みを付与する解析処理手段である。また13は解析処理手段12がテキスト分割し、その読みを付与するために参照記憶する言語解析辞書であり、1001はテキスト分割および読み付与手段12の出力に基づいて言い換え表現を生成する語彙作成手段であって、16は語彙作成手段1001が生成した言い換え表現を記憶する語彙記憶手段である。
【0007】
解析処理手段12は、文字列情報10で示される表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する。分割方法や読み方にあいまい性がある場合は、それらを全て含むような複数の候補へ分割することができる。言語解析辞書13は、解析処理部がテキスト分割し読み付与するために参照する辞書である。
【0008】
語彙作成手段1001は、解析処理手段12で分割されて読みを付与されたテキストを読み込み、分割した候補から任意の部分文字列の組み合わせを生成して、出力する。
【0009】
語彙記憶手段16は、音声認識用の辞書であり、語彙作成手段1001で作成された部分文字列の組み合わせとその読みを認識語彙として記憶する。
【0010】
図19は、特許文献2で開示された手法による音声認識辞書作成の例である。「大阪大学菅平実験センター」という認識対象語は、形態素解析されて形態素へ分割される。分割した形態素それぞれに読みを付与し、これらの任意の組み合わせを辞書へ登録する。さらに、形態素分割のあいまい性、読み付与のあいまい性が考慮され、組み合わせのそれぞれに出現確率を付与することも可能である。この場合であれば、図19に示す6つの形態素がそれぞれ一通りの読みを持つため、 63通りの組み合わせが生成される。
【0011】
また、認識対象語を、この語よりも短い言語単位の組み合わせとして表すことにより、任意の言い換えを大語彙連続音声認識の枠組みでも扱うことができる。一般的な大語彙の連続音声を対象とした音声認識方法として、大量のテキストから単語の連鎖確率を統計的に学習した言語モデルを認識辞書として用いる方法がある。例えば、特許文献3では、読みを考慮して日本語の大語彙を扱う言語モデルを作成する方法が開示されている。
【0012】
これらの手法により認識辞書を作成することにより、音声認識を実施可能である。その典型的な手法は、非特許文献1に詳しく記されている。
【0013】
【特許文献1】
特開2000−029490(段落0051)
【0014】
【特許文献2】
特開2002−41081(第1図)
【0015】
【特許文献3】
特開平11−259088(段落0011−0046、第2図)
【0016】
【非特許文献1】
「音声認識の基礎(上、下)」L.R.RABINER、B.H.JUANG(古井監訳)、1995年、11月、NTTアドバンステクノロジ
【0017】
【非特許文献2】
「音声認識システム」鹿野・伊藤・河原・武田・山本、2001年、オーム社、p108
【0018】
【発明が解決しようとする課題】
しかし、特許文献2で開示された手法は、主に認識対象とするテキストの一部を組み合わせることにより言い換え表現を生成するものである。したがって認識対象となるテキスト表記には現れない表現を組み合わせて得られるような言い換え表現を生成することができない。また与えられたテキストの部分の順序が入れ替わる言い換え表現を生成することもできないという問題がある。
【0019】
また、特許文献3で開示された手法は、高精度な言語モデルの学習には認識対象とするユーザ発声を大量に収集し、テキスト化する必要がある。これは、非常に高コストであり、データ収集を含めると開発に長い時間を要する。また、認識単語数が増加すると、全ての単語の十分な言い回しを集めること自体が困難という問題がある。さらに、認識結果と認識対象となる語の関係が明確でないという問題がある。
【0020】
そこで、本発明の目的は、認識語彙を低コストかつ効率的に追加することにより、高い認識精度を得る音声認識用辞書作成装置、作成された辞書を用いた音声認識装置、および音声認識用辞書作成方法、作成された辞書を用いた音声認識方法を提供することである。
【0021】
【課題を解決するための手段】
本発明に係る音声認識用辞書作成方法は、見出し語を入力する入力ステップと、不揮発性記憶装置が記憶し入力語と出力語との関係を表現する語置換規則に基づいて、上記見出し語を上記入力語とする上記出力語を上記言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成ステップと、上記言い換え表現とその読みを音声認識用辞書に記憶させる出力ステップを有するものである。
【0022】
【発明の実施の形態】
実施の形態1.
図1は、第1の実施の形態に係る音声認識用辞書の作成方法と、これを用いた音声認識方法の動作を説明するブロック図である。図1において、10は認識対象となる文字列表記を含む文字列情報である。文字列情報10は、ハードディスク装置が記憶するファイルやRAMが記憶する文字列、インターネット上のHTMLファイルなどでよく、処理の都度キーボードより入力することで与えてもよい。11はユーザが発声するバリエーション表現を文字列情報10にマッチング可能とする言い換え表現を生成する辞書作成装置である。辞書作成装置11において、12は文字列情報10で示される表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する解析手段である。13は解析処理手段12が文字列情報10をテキスト分割し、各部分文字列に読み付与するために参照する言語解析辞書である。14は言い換え表現を生成する言い換え生成手段であって、15は言い換え表現手段14が言い換え表現を生成するために参照する言い換え辞書である。また110は認識処理の対象となる入力音声であって、111は入力音声110の音声認識を行う音声認識装置である。音声認識装置111において、112は入力音声110の分析を行う音響分析手段であり、113は音響分析手段112の出力結果と音響標準パタンとの尤度を求める尤度計算手段である。114は尤度計算手段113が参照する音響標準パタンであって、115は語彙記憶手段16と尤度計算手段113との出力を照合して音声認識を行う照合手段である。なお、上記において、言語解析辞書13、言い換え辞書15、音響標準パタン114は、主としてハードディスク装置が記憶するファイルにより構成されるが、ROM(Read Only Memory)や磁気カードに記憶させたものを用いてもよく、また他の情報処理装置が動的に生成する結果をプロセス間通信などにより読み込んでこれらの構成要素としてもよい。
【0023】
本実施の形態による辞書作成装置11の動作について説明する。文字列情報10が入力されると、解析処理手段12は文字列情報10をその形態素や文字などの単位に基づいて、部分文字列に分割する。次に解析処理手段12は部分文字列に対応する読みを言語解析辞書13より読み込む。言語解析辞書13は、文字列表記ごとに少なくとも読み情報を記憶している。図2は、分割単位を形態素とした場合の、言語解析辞書13が記憶する文字列表記と読みの例を示すものである。言語解析辞書13は、文字列表記と対応する読みの他に、解析のための言語情報として、品詞や部分文字列間の接続確率などの情報を保持していてもよい。
【0024】
次に言い換え生成手段14は、解析処理手段12の出力に対して、言い換え辞書15が記憶する規則を適用して言い換えを生成し、言い換えと入力した元のテキストとの対応付けを付与して語彙記憶手段16へ出力する。図3は、言い換え生成手段14が言い換え表現を生成するために参照する言い換え辞書15の構成例である。この例では、言い換え辞書15は入力の形態素列、その読みと、出力する言い換えの形態素列と読みの対応付けを記憶している。図において、出力側の欄内に「NIL」と記載されている場合は、入力側に指定された表現が省略可能であることを示している。
【0025】
言い換え生成手段14の出力結果は、語彙記憶手段16によって音声認識用辞書として保管される。ここに格納される内容は、認識語彙の音響標準パタンの並びを表す読みと、読みと対応する元の入力テキストである。さらに、元のテキストおよび読みに付与された、付加情報があれば、それらも保持することもできる。付加情報とは、例えば、出現尤度、認識語彙間の接続情報である。
【0026】
次に本実施の形態における音声認識装置111の動作について説明する。ユーザが入力音声110を発声すると図示せぬマイクロフォンなどによりこれを取り込み、音響分析手段112は、入力音声10を一定時間間隔で分析して、音声の特徴をよく表す音響特徴量を計算する。例えば、16kHzで標本化された音声信号を10ms間隔で窓長25msのHamming 窓で切り出して、14次のLPC分析から10次のメルケプストラム、10次のデルタメルケプストラムを求め、1次のデルタパワーと合わせた合計21次元の音響特徴量ベクトルを計算する。
【0027】
このようにして求められた音響特徴量に対し、尤度計算手段113は、音響標準パタン114の記憶する音響標準パタンを照合して、照合の度合いを示す尤度を求める。音響標準パタン114とは、音声の断片について音響特徴量の性質を表す標準モデルであって、例えば音素を単位として、HMM(隠れマルコフモデル)等によりモデル化されたものである。また、それぞれのモデルの構造はLeft−to−right型3状態、出力確率密度関数が16混合の対角共分散行列からなるガウス分布とすることができる。
【0028】
さらに照合手段115は、語彙記憶部から読み込んだ認識語彙の音響標準パタン系列に従い、例えばビタビアルゴリズムを使って認識候補の尤度を加算した累積尤度を計算する。入力音声の終端に到達したら、尤度の大きさを比較して認識結果を決定する。
【0029】
次に図4の動作フローを用いて、本実施の形態による辞書の作成手順を説明する。ここでは、例として、「大阪大学菅平実験センター」という語を形態素単位の部分文字列へ分割して言い換えを生成する処理の過程を示すこととする。
【0030】
まずステップS11において、解析処理手段12は、文字列情報10の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する。部分文字列への分割は、一般的な仮名漢字変換や形態素解析と同一の手法を用いることができる。例えば、文字列の左側から辞書と一致する最長部分を逐次切り出す方法や、分割したテキストの組み合わせの中から読み付与辞書13の部分文字列と読みに付与されたスコアが高くなる部分文字列の組み合わせを選択する方法を用いてもよい。
【0031】
部分文字列への分割や読みの付与にあいまい性がある場合は、可能な部分文字列の組み合わせを包含した形式で出力する。出力形式は、例えば、あいまい性を展開して列挙したものや、ラティスやトレリスを用いたより効率的な表現を用いる。ラティスやトレリスによる表現方法は、非特許文献2に詳しく説明されている。図2に示した辞書は、形態素を単位とした、部分文字列と対応する読みの組み合わせを示している。「大阪大学菅平実験センター」という入力は、形態素・読み付与のあいまい性を考慮すると、図5に示す3通りの解析候補が得られる。ただし、図中、スラッシュ(/)は部分文字列区切り、括弧内はカタカナ表記で当該部分文字列の読みを示す。
【0032】
なお、解析処理手段12は、文字列情報10として、表記テキストの他にその読みを受け取ってもよい。この場合には、部分文字列に付与される読みは、文字列情報10の有する読みと整合するものとする。図5の例では読み「オオサカダイガクスガダイラコウゲンジッケンセンター」という読みが付与されていれば、[1]の候補のみを選択されることになる。
【0033】
次にステップS12において言い換え生成手段14は、解析処理手段12の出力を言い換え辞書15と照合する。その結果、言い換え生成手段14は、部分文字列のうち言い換え辞書15との照合に成功したものを言い換え辞書中の表現に置換することで、言い換え表記とその読みを作成する。ここで、言い換え辞書15との照合は、解析処理手段12が出力した部分文字列の複数の部分を範囲としても良い。また照合にあいまい性が生じる場合、すなわち、照合結果として複数の候補が選択できる場合には、それらの組み合わせを全て展開する。図3に示した例では、「大阪/大学」は「阪大」、「菅平/高原」は「菅平」、「実験/センター」は「実験/場」と置き換え可能であることがわかる。この結果、図5に示した分割・読み付与候補から、図6に示す16通りの言い換え文字列を生成する。
【0034】
最後にステップS13において、生成した言い換え文字列を語彙記憶手段16へ追加する。
【0035】
次に図7の動作フローを参照し、本実施の形態による音声認識の手順を説明する。まず、ステップS1101において音響分析手段112は、入力音声110を1時刻フレーム分読み込み、音響分析して音響特徴量を得る。続いてステップS1102において、その音響特徴量と各音響標準パタン間の尤度を計算する。次にステップS1103において、認識語彙ごとに読みが指定する音響標準パタンの尤度を加算し、それまでの累積尤度へ加算する。次にS1104において、入力音声が終端に到達しているか判定し、到達していなければステップS1101へ戻る。最後にステップS1105において、入力音声の終端に到達したら、累積尤度が大きい認識候補を求め認識結果として出力する。
【0036】
以上のように、本実施の形態によれば、文字列を分割し、分割された部分文字列に読み付与辞書を用いて読みを付与して、言い換え辞書に従って言い換え表現を生成可能である。言い換え表現は、辞書を用いて生成するので、元の文字列が含まない表現を生成することができる。また、単に一部の部分文字列をスキップして言い換え表現を生成する方法に比べると、不要な言い換えの生成を少なくすることができる。
【0037】
なお、本実施の形態による辞書作成方法は、部分文字列への分割を行っているが、言い換え辞書は部分文字列だけでなく入力文字列全体に対しても適用可能であることはいうまでもなく、したがって部分文字列への分割処理を省略しても、言い換え表現を生成することが可能である。
【0038】
また、本実施の形態による辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、図1の辞書作成装置11に対応する辞書作成プログラムと、音声認識装置111に対応する音声認識プログラムから構成される。辞書作成プログラムは、テキスト分割および読み付与手段12と同様の処理を行う解析処理機能、言い換え生成手段14と同様の処理を行う言い換え生成機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。また、音声認識プログラムは、音響分析手段112と同様の処理を行う音響分析機能、尤度計算手段113と同様の処理を行う尤度計算機能、照合手段115と同様の処理を行う照合機能から構成されるソフトウェアである。
【0039】
実施の形態2.
図8は、実施の形態2に係る音声認識用辞書の作成方法を説明するブロック図である。図8において、21は本実施の形態による辞書作成装置であり、辞書作成装置21において、22は文字列を部分文字列に分割し、それぞれの部分文字列にその読みと読み以外の言語情報を付与する言語解析手段である。また23は文字列についての読み情報と言語情報を記憶する言語解析辞書である。24は言語解析手段22の出力結果に基づいて、言い換え表現を生成する言語情報付き言い換え生成手段であって、25は、言語情報付き言い換え生成手段24が参照する言語情報付き言い換え辞書である。なお本実施の形態において、実施の形態1と同じ符号を付した構成要素については、実施の形態1と同様であるため説明を省略する。
【0040】
次に図9の動作フローを用いて、本実施の形態に示す辞書の作成手順を説明する。ここでは、実施の形態1の場合と同様に、「大阪大学菅平実験センター」という入力例について、形態素単位の部分文字列へ分割して言い換えを生成する処理の過程を示す。
【0041】
初めにステップS21において、言語解析手段22は、文字列情報10の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読み・言語情報を付与する。典型的な言語解析部の処理は、次のようなものである。
【0042】
入力の表記文字列を形態素解析し、分割された形態素を単位として読みと品詞情報を得る。次に、形態素に付与された情報から言い換え生成に必要な形態素ごとの意味情報を言語解析辞書23より得る。意味情報とは、地名・人名などの固有名詞のさらに詳細な情報や、業種・職種を表す語、修飾語などの分類である。さらに形態素を単位として、表記・品詞・意味を参照して、形態素間の係り受け関係や、並列関係などの統語情報を求める。部分文字列への分割や付与する言語情報にあいまい性がある場合、言語解析手段22は可能な組み合わせをすべて包含した形式で出力する。
【0043】
図10は、解析結果の一例である。分割したそれぞれの部分文字列には読み、品詞、意味の言語情報が付与されている。また、複数の部分文字列にまたがる係り受けや並列関係の統語情報が付与されている。解析の結果、入力例は6形態素からなり、さらに3つの複合名詞から構成されていること、先頭の二つの複合名詞はそれぞれ最後の複合名詞にかかる並列構造を持つことがわかる。
【0044】
なお、言語解析手段22の入力は、テキスト表記と部分的な言語解析結果としてもよい。部分的な言語解析結果とは、例えば、図10で示した解析結果の一部である。あらかじめ部分的な言語解析結果を与えることにより、言語解析の誤りを防ぐ効果がある。この場合、部分文字列の分割結果と付与される言語情報は、入力の言語情報と整合するものとする。
【0045】
次にステップS22において、言語情報付き言い換え生成手段24は、言語解析手段22の出力を、言語情報付き言い換え辞書23と照合する。この照合処理においては、部分文字列の表記、読みのほか、部分文字列の品詞、意味、統語情報を利用することができる。辞書との照合にあいまい性がある場合は、それらの組み合わせを全て展開する。
【0046】
図11は、言語情報付き言い換え辞書25の内容の例を示したものである。本実施の形態では、言語情報付き言い換え辞書は図のように、入力値の条件とそれに対応する出力値の組み合わせを、規則という形で与え、この規則が複数集合したものとなっている。各規則には、2−1、2−2のように規則番号が付与されている。この例では、入力値の条件として、表記の他、意味・構文による構造情報が表されている。ここで、図中の「*」は、照合の際に無視できる項目であることを示す。また、出力値に「<n>(nは数字)」と記載されている場合は、照合結果のn番目の部分文字列を出力とすることを示す。規則番号「2−1」「2−2」は、表記のみと対応する言い換えの例である。一方、規則「2−3」は地名の接尾語が省略可能であることを示す規則である。この規則により、表記上で「菅平/高原」を「菅平」と言い換える場合があることを表している。また、規則「2−4」では、2つの項(2つの部分文字列)からなる並列関係を検出したとき、それらの順番を入れ替えた言い換えを生成する規則の例を示している。このような規則の表現を許すことにより、語順の入れ替えや、隣接する部分文字列の言語情報に依存した言い換えの生成を処理できる。複数の部分文字列の照合は、統語情報を利用する。このため、「大学/菅平」「高原/実験」のように隣接しても、直接の統語関係がない場合は照合しない。
【0047】
ステップS23において言語情報付き言い換え生成手段24が照合に成功した場合は、該当部分を言い換え辞書の出力表現に置換した表記・読みを作成する。図3に示した辞書では、実施の形態1について図6に示した言い換えの生成のほかに、省略や語順の入れ替えを許すため、図12に示す16通りの言い換えが生成可能である。
【0048】
最後にステップS24において、生成した文字列を辞書へ追加する。
【0049】
本実施の形態によれば、言語情報付き言い換え辞書25に従って表記と読みに加えて、意味や統語情報などの言語情報を利用することにより、言い換え表現を生成できる。ここで生成する言い換え表現は、言語情報を考慮したものであるため、不適切な言い換えを廃し、実際の発声を広範囲にカバーする結果、このような認識辞書を用いることで、従来より音声認識の精度を向上することができる。
【0050】
なお、本実施の形態における辞書作成方法は、プログラムとして記憶媒体に記憶することもできる。このプログラムは、言語解析手段22と同様の処理を行う言語解析機能、言語情報付き言い換え生成手段24と同様の処理を行う言語情報付き言い換え生成機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【0051】
実施の形態3.
図13は、実施の形態3に係る音声認識用辞書の作成方法を説明するブロック図である。図13において、30は言い換え表現の生成対象となる文字列情報である。本実施の形態においては、文字列情報30は出現頻度情報も有するものとする。31は本実施の形態における辞書作成装置である。辞書作成装置31において、32は文字列情報30のテキスト表記を部分文字列に分割するとともに、各部分文字列に出現頻度尤度を付与する言語解析・尤度付与手段である。33は言語解析・尤度付与手段32が参照する言語解析用尤度付き辞書である。34は言語解析・尤度付与手段32の出力結果に基づいて、各部分文字列に規則を適用し、言い換え表現を生成する一方で、言い換え生成尤度を付与する言語情報・尤度付き言い換え生成手段である。35は言語情報・尤度付き言い換え生成手段34が参照する言語情報・尤度付き言い換え辞書である。36は言語情報・尤度付き言い換え生成手段34の出力結果に基づいて、各言い換え表現の発声尤度を計算する言い換え生成尤度計算手段である。なお本実施の形態において、実施の形態1と同じ符号を付した構成要素については、実施の形態1と同様の動作を行うものであるため説明を省略する。
【0052】
本実施の形態の特徴的な部分は、辞書作成装置31が、出現頻度情報と、テキスト分割および言語情報付与における解析の尤もらしさと、生成した言い換えが出現する確率を考慮した尤度を生成した言い換えに付与する点にある。以下、図13の機能ブロックについて説明する。
【0053】
言語解析・尤度付与手段32は、文字列情報30から表記テキストを読み込み、可能な全ての分割候補による部分文字列へ分割する一方で、言語解析用尤度付き辞書33を参照して、それぞれの部分文字列へ言語情報、出現頻度尤度および言語解析尤度を付与する。ここで言語情報には、部分文字列の読みと、品詞、意味、統語情報などを含み、出現頻度尤度には、文字列情報30が有する出現頻度情報から求められる出現のしやすさを表す数値を含む。また言語解析尤度とは、表記テキストから分割された各部分文字列に付与された言語情報の尤もらしさを表す数値である。言語解析・尤度付与手段32の解析結果は、分割された各部分文字列とその言語情報、出現頻度尤度、言語解析尤度の組、あるいは等価な出力形式で出力する。例えば図5で示した3つの分割・言語情報付与候補に対して、それぞれL0(1)、L0(2)、L0(3)、L0(4)という出現頻度尤度と、L1(1)、L1(2)、L1(3)、L1(4)という言語解析尤度を付与する。
【0054】
次に、言語情報・尤度付き言い換え生成手段34は、言語解析・尤度付与手段32の出力結果を読み込み、言語情報・尤度付き言い換え辞書35の記憶する規則の中から適用可能なものを選択して、言い換え表現を生成する。その一方で、言語情報・尤度付き言い換え生成手段34は、それぞれの言い換えが生成される出現確率を表す言い換え尤度を付与する。例えば、図6で示した言い換え生成結果について、それぞれL2(1−1)、L2(1−2)…というように、言い換え生成尤度を付与する。
【0055】
最後に、言い換え生成尤度計算手段36は、言語情報・尤度付き言い換え生成手段34の出力を読み込み、上記で説明した出現頻度尤度L0、言語解析尤度L1、言い換え尤度L2と、次に説明する読み配列尤度L3のうち、少なくとも一つを用いて対象語の発声尤度を計算し、認識語彙、その読みとともに語彙記憶手段16へ格納する。この読み配列尤度L3とは、生成した読みの発声のしやすさや一般性を考慮して算出される尤度である。例えば、生成された認識語彙の読みYがm個のモーラによりY=[y1...ym] と表わすことができるとき、読み付与尤度L3を発声される確率をP(Y)とする。さらに、P(Y)は、語彙のモーラ数に関して定義される確率分布 とモーラ単位のN−gram確率Pseq(Y)の重み付き線形和として、P(Y)=α1Plen(m)+α2Pseq(Y)、あるいは両者の積であるP(Y)=α1Plen(m)×α2Pseq(Y) とする。ここでα1、α2は重み付けパラメータである。Pseq(Y)は、式1に基づいて算出する。
【0056】
【数1】
【0057】
次に図14を用いて参照し、実施の形態3にかかるシステムの動作フローを説明する。まずステップS31において、言語解析・尤度付与手段32は、文字列情報および出現頻度情報30の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ言語情報と言語解析尤度を付与する。言語解析尤度は、例えば、解析時に適用したそれぞれの規則にあらかじめ尤度を付与しておき、それらの重み付き加重和や積として算出する。
【0058】
次にステップS32において、言語情報・尤度付き言い換え生成手段34は、言語情報・尤度付き言い換え辞書35を参照し、言語解析・尤度付与手段32の出力である表記の部分文字列あるいは付与した言語情報と照合する辞書エントリを検索する。
【0059】
続いてステップS33において、言い換え生成尤度計算手段36は、テキスト分割および読み付与尤度L1、言い換え尤度L2、生成された認識語彙の読み配列に基づく読み配列尤度L3の少なくとも一つを用いて、例えばそれらを重み付き加算して、それぞれの言い換えごとに尤度を付与する。
【0060】
最後にステップS34において、生成した文字列と尤度を認識辞書へ追加する。
【0061】
本実施の形態によれば、言語情報・尤度付き言い換え辞書の記憶する言語情報を参照して照合処理を行うことにより、もとの文字列表記にはない表記を用いた言い換え表現を生成可能である。このため、不要な言い換えを生成することが少なく、効率的に言い換えを自動で生成することができる。さらに、それぞれの認識語彙に言語解析の信頼性、言い換えられる表現の出現確率を考慮した尤度を付与しており、この尤度は、言い換え候補の尤もらしさを表しているため、音声認識時に計算する累積尤度と合わせて、認識結果に反映することにより、精度の高い音声認識処理を実現することができる。
【0062】
なお、本実施の形態による辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段32と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段34と同様の処理を行う言語情報・尤度付き言い換え生成機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【0063】
実施の形態4.
図15は、実施の形態4に係る音声認識用辞書の作成方法を説明するブロック図である。本実施の形態において、41は生成した言い換え表現のうち尤度の低いものを削除する語彙候補枝刈り手段である。なお、本実施の形態において実施の形態3と同一の符号を付した構成要素については、実施の形態3と同様の動作を行うものであるため、説明を省略する。
【0064】
語彙候補枝刈り手段41は、認識語彙の表記・読みと、言い換え生成尤度計算手段36にて計算された言い換え生成尤度を入力として読み込み、入力された文字列情報一つごとに生成される認識語彙とその尤度のうち、尤度値の相対順位、尤度値としきい値との比較の少なくとも一条件により選んだ認識語彙のみ語彙記録部へ登録する。
【0065】
次に図16を用いて、本実施の形態に係るシステムの動作フローを説明する。ただし、ステップS31、S32、S33については実施の形態3と同様の動作を行うものであるため、同一の記号を付し、説明を省略する。
【0066】
ステップS41において、語彙候補枝狩り手段41は、ステップS33により生成された認識語彙のうち、同一の語から生成された言い換えの中の相対的な尤度差、しきい値の少なくとも一条件を用いて、尤度が小さい言い換えを認識候補から削除する。
【0067】
次に、ステップS42において、ステップS41の結果残存している言い換え候補を認識語彙として語彙記憶手段16へ記憶する。
【0068】
本実施の形態によれば、尤度が低く、出現する見込みが少ない言い換えを認識語彙から削除するため、この結果得られる認識辞書を用いて音声認識を行うことにより、語彙候補枝刈りを実施しない場合に比べて認識辞書サイズを削減することができ、限られた計算量・メモリで言い換えを処理可能とする効果がある。
【0069】
なお、本実施の形態における辞書作成方法、音声認識方法はプログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段32と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段34と同様の処理を行う言語情報・尤度付き言い換え生成機能、語彙候補枝刈り手段41と同様の処理を行う語彙候補枝刈り機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【0070】
実施の形態5.
図17は、実施の形態5に係る音声認識用辞書の作成方法を説明するブロック図である。図において、51は一以上の言い換え表現から所定の制約に適合する言い換え表現を選択する言い換え検証手段である。52は言い換え検証手段51に対して制約条件を与えるシステム知識データベースである。なお、本実施の形態において実施の形態3と同一の符号を付した構成要素については、実施の形態3と同様の動作を行うものであるため、説明を省略する。
【0071】
次に本実施の形態による処理について説明する。言い換え検証手段51は、言い換え生成尤度計算手段36の出力する登録対象語彙の言い換え表現を全て読み込む。次に、システム知識データベース52に与えられた制約に従い、認識語彙に用いる言い換え表現を選択する。システム知識データベース52による制約とは、例えば音声認識システムの計算速度、メモリ量など、現実に実時間処理するために課せられる制約であり、これを満たすために生成された言い換え全体から尤度の低いものを順次削除する。具体的には、認識語彙から計算量と必要なメモリ量を求め、システムの条件を超える場合は、尤度の低い言い換えから順に認識語彙から削除する。ただし、全ての語について少なくとも一つの認識語彙は残す。
【0072】
システム知識データベース52による別の制約は、音声認識の性質から認識困難な語彙を削除するものである。例えば、認識語彙の読みの長さが非常に短い場合、十分な認識精度が確保できないという音声認識の制約がある。これを避けて十分な精度を得るために、例えば2音節以下の短い言い換えを削除する。あるいは、言い換え表現として同音異義語が多数生成されることによる選択範囲の制約も考えられる。同音、あるいは非常に類似した認識語彙がある場合は、正しく認識できたとしても、さらに認識語彙の候補から同定する必要が生じる。この候補数が増加すると、認識しても同定の処理が困難となる。そこで、このような制約条件をシステム知識データベース52に定義することにより、尤度が低い同音あるいは類似した言い換えを削除する。
【0073】
またその他の制約として、対象とするユーザ目的に応じた語彙の設定を行うことが考えられる。例えば、ある施設名がユーザ発話の認識対象であっても、ユーザが施設の電話番号を尋ねる場合と、施設近辺の天気を尋ねる場合では、それぞれ言い換えの傾向が異なる。これは、電話番号を尋ねる場合は、対象施設のチェーン名など、他の施設と識別する情報が強調される一方、天気を尋ねる場合は場所の情報こそが重要と考えられるためである。このような目的を達成するためにタスク知識による言い換え型の制約を条件としてシステム知識データベースに記述する。
【0074】
このような言い換え検証部51による処理を通じて、システムが実用的に稼動可能な認識語彙を選択する。最後に選択された言い換えとその尤度を認識対象語彙として語彙記憶手段16へ出力する。
【0075】
本実施の形態によれば、システムの言い換え検証手段51によって、システムの制約を考慮した認識語彙を設定可能となり、全体の認識精度を改善させる効果がある。また、限られた計算量・メモリでの実施のために、認識辞書サイズを削減する効果がある。この結果、音声認識に用いた場合は、コンパクトで高精度の音声認識エンジンが構築可能となる。
【0076】
なお、本実施の形態における辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段32と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段34と同様の処理を行う言語情報・尤度付き言い換え生成機能、言い換え検証手段51と同様の処理を行う言い換え検証機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【0077】
【発明の効果】
本発明は、入力語と出力語の関係を記述した語置換規則に基づいて見出し語の言い換え表現とその読みを作成することとしたので、見出し語の表記上出現しない表現を組み合わせた表現を含む音声認識用辞書を自動生成することが可能となる。
【図面の簡単な説明】
【図1】実施の形態1による辞書作成装置と音声認識装置のブロック図である。
【図2】実施の形態1における言語解析辞書の記憶内容例を示す図である。
【図3】実施の形態1における語置換規則の例を示す図である。
【図4】実施の形態1における辞書作成処理を表すフローチャートである。
【図5】実施の形態1における形態素解析を用いた文字列分割結果の例を示す図である。
【図6】実施の形態1における言い換え表現生成結果の例を示す図である。
【図7】実施の形態1における音声認識処理を表すフローチャートである。
【図8】実施の形態2における辞書作成装置のブロック図である。
【図9】実施の形態2における辞書作成処理のフローチャートである。
【図10】実施の形態2における言語的意味の付与例を示す図である。
【図11】実施の形態2における語置換規則の例を示す図である。
【図12】実施の形態2における言い換え表現生成結果の例を示す図である。
【図13】実施の形態3における辞書作成装置のブロック図である。
【図14】実施の形態3における辞書作成処理のフローチャートである。
【図15】実施の形態4における辞書作成装置のブロック図である。
【図16】実施の形態4における辞書作成処理のフローチャートである。
【図17】実施の形態5における辞書作成装置のブロック図である。
【図18】従来技術による辞書作成装置のブロック図である。
【図19】従来技術の動作例を示す図である。
【符号の説明】
10:文字列情報 11:辞書作成装置 12:解析処理手段
13:言語解析辞書 14:言い換え生成手段 15:言い換え辞書
16:語彙記憶手段 21:辞書作成装置 22:解析処理手段
23:言語解析辞書 24:言語情報付き言い換え生成手段
25:言い換え辞書 31:辞書作成装置 32:言語解析・尤度付与手段
33:言語解析用尤度付き辞書 34:言語情報・尤度付き言い換え生成手段
35:言語情報・尤度付き言い換え辞書 36:言い換え生成尤度計算手段
41:語彙候補枝刈り手段 51:言い換え検証手段
52:システム知識データベース 110:入力音声 111:音声認識装置
112:音響分析手段 113:尤度計算手段 114:音響標準パタン
115:照合手段 1001:語彙作成手段[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method and apparatus for creating a recognition dictionary for speech recognition capable of automatically registering paraphrases, and a speech recognition apparatus using a dictionary created by this method.
[0002]
[Prior art]
Since the conventional speech recognition system performs recognition based on the vocabulary registered in the recognition dictionary, it cannot recognize a vocabulary not registered in the recognition dictionary. However, the user does not always utter the vocabulary registered in the recognition dictionary. For example, the user does not always know the name to be uttered accurately, and actually utters while omitting a part determined to be omissible even if he knows the correct name. Therefore, in a recognition dictionary used for speech recognition, a plurality of paraphrases must be registered in advance so that a user can recognize the same word or concept even if the user speaks differently. For example,
[0003]
Here, for example, when the notation of the word to be recognized is “Sugadaira Kogen Experiment Center, Osaka University” and the pronunciation indicating the phonetic notation is (Osaka Daiga Kusadaira Kogengenkenken Center), the user can select “Osakadai Sugadaira "Experiment Center" (Handais Gadadai Ricken Center), "Osaka University Sugadaira Experiment Center" (Handais Gadadai Rickenjo), "Osaka University Sugadaira Experiment Center" (Osaka Daigaku Sugadaira Ricken Center), "Sugadaira Experiment Center" ( Sugadai Rajiken Center), “Sugahira Osaka University Experimental Center” (Sugadaira Handi Jikken Center), etc. can be uttered in other words. Conventionally, however, all possible variations of the wording are manually added to the dictionary. Was.
[0004]
However, when the number of target words is large or when the vocabulary to be recognized is sequentially updated, it is difficult to manually register all of them, and automatic processing is essential.
[0005]
In order to solve this problem, as a method of automatically generating paraphrases for limited text, a method of automatically adding paraphrases to the dictionary taking into account morphological analysis and ambiguity of reading addition and partial omission from text in the target range Is disclosed in
[0006]
FIG. 18 is a functional block diagram for explaining the operation of the speech recognition dictionary creation device according to the technique disclosed in
[0007]
The
[0008]
The
[0009]
The
[0010]
FIG. 19 is an example of creating a speech recognition dictionary by the method disclosed in
[0011]
Also, by expressing the recognition target word as a combination of linguistic units shorter than this word, any paraphrase can be handled in the framework of large vocabulary continuous speech recognition. As a speech recognition method for continuous speech of a general large vocabulary, there is a method of using a language model obtained by statistically learning a chain probability of words from a large amount of text as a recognition dictionary. For example,
[0012]
By creating a recognition dictionary using these methods, speech recognition can be performed. The typical method is described in detail in
[0013]
[Patent Document 1]
JP-A-2000-29490 (paragraph 0051)
[0014]
[Patent Document 2]
JP-A-2002-41081 (FIG. 1)
[0015]
[Patent Document 3]
JP-A-11-259088 (paragraphs 0011-0046, FIG. 2)
[0016]
[Non-patent document 1]
"Basics of speech recognition (upper, lower)" L. R. RABINER, B.A. H. JUANG (translated by Furui), November 1995, November, NTT Advanced Technology
[0017]
[Non-patent document 2]
"Speech Recognition System", Kano, Ito, Kawahara, Takeda, Yamamoto, 2001, Ohmsha, p108
[0018]
[Problems to be solved by the invention]
However, the technique disclosed in
[0019]
Further, in the method disclosed in
[0020]
Accordingly, it is an object of the present invention to provide a speech recognition dictionary creation device that obtains high recognition accuracy by efficiently adding a recognition vocabulary at low cost, a speech recognition device using the created dictionary, and a speech recognition dictionary. An object of the present invention is to provide a creation method and a speech recognition method using the created dictionary.
[0021]
[Means for Solving the Problems]
In the method for creating a dictionary for speech recognition according to the present invention, based on an input step of inputting a headword and a word replacement rule that is stored in a non-volatile storage device and expresses a relationship between an input word and an output word, Having a paraphrase expression creating step of acquiring the output word as the input word as the paraphrase expression, and further acquiring a reading of the paraphrase expression, and an output step of storing the paraphrase expression and the pronunciation in a speech recognition dictionary It is.
[0022]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 is a block diagram illustrating a method for creating a dictionary for speech recognition according to the first embodiment and an operation of the speech recognition method using the dictionary. In FIG. 1,
[0023]
The operation of the
[0024]
Next, the paraphrase
[0025]
The output result of the paraphrase
[0026]
Next, the operation of the speech recognition device 111 according to the present embodiment will be described. When the user utters the
[0027]
The likelihood calculating means 113 collates the sound standard pattern stored in the sound
[0028]
Further, the matching unit 115 calculates the cumulative likelihood by adding the likelihood of the recognition candidate using, for example, a Viterbi algorithm according to the acoustic standard pattern sequence of the recognized vocabulary read from the vocabulary storage unit. When the end of the input speech is reached, the magnitude of the likelihood is compared to determine the recognition result.
[0029]
Next, a dictionary creation procedure according to the present embodiment will be described with reference to the operation flow of FIG. Here, as an example, a process of generating a paraphrase by dividing the word “Sugadaira Experimental Center in Osaka University” into partial character strings in morpheme units will be described.
[0030]
First, in step S11, the analysis processing means 12 divides the notation text of the
[0031]
If there is an ambiguity in the division into sub-character strings and the addition of readings, output is performed in a format that includes possible combinations of sub-character strings. As the output format, for example, an enumeration obtained by developing ambiguity or a more efficient expression using a lattice or trellis is used. The expression method using lattices and trellis is described in detail in
[0032]
Note that the
[0033]
Next, in step S12, the paraphrase
[0034]
Finally, in step S13, the generated paraphrase string is added to the
[0035]
Next, the procedure of voice recognition according to the present embodiment will be described with reference to the operation flow of FIG. First, in step S1101, the
[0036]
As described above, according to the present embodiment, it is possible to generate a paraphrase expression in accordance with a paraphrase dictionary by dividing a character string, giving a reading to the divided partial character string by using a reading dictionary. Since the paraphrase expression is generated using the dictionary, an expression that does not include the original character string can be generated. Also, compared to a method of generating a paraphrase expression by simply skipping some partial character strings, generation of unnecessary paraphrases can be reduced.
[0037]
Although the dictionary creation method according to the present embodiment divides a character string into partial character strings, it goes without saying that the paraphrase dictionary can be applied to not only partial character strings but also entire input character strings. Therefore, it is possible to generate a paraphrase expression even if the division into partial character strings is omitted.
[0038]
Further, the dictionary creation method and the speech recognition method according to the present embodiment can be stored in a storage medium as a program. In this case, this program includes a dictionary creation program corresponding to the
[0039]
FIG. 8 is a block diagram illustrating a method for creating a dictionary for speech recognition according to the second embodiment. In FIG. 8,
[0040]
Next, a procedure for creating a dictionary according to the present embodiment will be described using the operation flow of FIG. Here, as in the case of the first embodiment, the process of generating a paraphrase by dividing an input example of “Sugadaira Experimental Center in Osaka University” into partial character strings in morpheme units will be described.
[0041]
First, in step S21, the
[0042]
The input notation character string is subjected to morphological analysis, and reading and part of speech information are obtained in units of the divided morphemes. Next, semantic information for each morpheme required for paraphrase generation is obtained from the
[0043]
FIG. 10 is an example of the analysis result. Each of the divided partial character strings is provided with linguistic information of reading, part of speech, and meaning. In addition, syntactic information of dependency and parallel relation over a plurality of partial character strings is provided. As a result of the analysis, it can be seen that the input example is composed of six morphemes and is further composed of three compound nouns, and that the first two compound nouns each have a parallel structure related to the last compound noun.
[0044]
Note that the input of the
[0045]
Next, in step S22, the paraphrase-with-language
[0046]
FIG. 11 shows an example of the contents of the paraphrase dictionary 25 with linguistic information. In the present embodiment, as shown in the figure, the paraphrase dictionary with linguistic information gives a combination of an input value condition and an output value corresponding thereto in the form of a rule, and a plurality of these rules are collected. Each rule is provided with a rule number such as 2-1 and 2-2. In this example, as the condition of the input value, in addition to the notation, structural information based on the meaning / syntax is shown. Here, “*” in the figure indicates that the item can be ignored in the collation. Further, when “<n> (n is a number)” is described in the output value, it indicates that the nth partial character string of the collation result is to be output. The rule numbers “2-1” and “2-2” are examples of paraphrase corresponding to only the notation. On the other hand, rule “2-3” is a rule indicating that the suffix of the place name can be omitted. This rule indicates that “Sugadaira / Kogen” may be paraphrased as “Sugadaira” in notation. Further, the rule “2-4” shows an example of a rule that, when a parallel relationship consisting of two terms (two partial character strings) is detected, a paraphrase in which the order is changed is generated. By allowing the expression of such rules, it is possible to process replacement of word order and generation of paraphrase depending on linguistic information of adjacent partial character strings. The collation of a plurality of partial character strings uses syntactic information. For this reason, if there is no direct syntactic relationship even if adjacent, such as “university / Sugadaira” or “Kogen / experiment”, no collation is performed.
[0047]
If the paraphrase generation unit with
[0048]
Finally, in step S24, the generated character string is added to the dictionary.
[0049]
According to the present embodiment, a paraphrase expression can be generated by using linguistic information such as meaning and syntactic information in addition to notation and reading according to the paraphrase dictionary 25 with linguistic information. Since the paraphrase expression generated here takes into account linguistic information, it eliminates inappropriate paraphrases and covers a wide range of actual utterances. Accuracy can be improved.
[0050]
Note that the dictionary creation method according to the present embodiment can be stored in a storage medium as a program. This program includes a language analysis function for performing the same processing as the language analysis means 22, a paraphrase generation function with language information for performing the same processing as the language information-based paraphrase generation means 24, and a vocabulary storage for performing the same processing as the vocabulary storage means 16. Software composed of functions.
[0051]
FIG. 13 is a block diagram illustrating a method for creating a dictionary for speech recognition according to the third embodiment. In FIG. 13, reference numeral 30 denotes character string information for which a paraphrase expression is to be generated. In the present embodiment, it is assumed that character string information 30 also has appearance frequency information.
[0052]
A characteristic part of the present embodiment is that the
[0053]
The linguistic analysis / likelihood assigning means 32 reads the notation text from the character string information 30 and divides the notation text into partial character strings by all possible division candidates, while referring to the linguistic
[0054]
Next, the paraphrase
[0055]
Finally, the paraphrase generation likelihood calculation means 36 reads the output of the paraphrase generation means 34 with linguistic information and likelihood, and outputs the above-described occurrence frequency likelihood L0, language analysis likelihood L1, paraphrase likelihood L2, The utterance likelihood of the target word is calculated using at least one of the reading arrangement likelihoods L3 described in (1), and is stored in the vocabulary storage means 16 together with the recognized vocabulary and its reading. The reading arrangement likelihood L3 is a likelihood calculated in consideration of easiness of utterance and generality of the generated reading. For example, the read Y of the generated recognition vocabulary is Y = [y 1 . . . y m ], Let P (Y) be the probability of uttering the reading addition likelihood L3. Further, P (Y) is a probability distribution defined with respect to the number of mora in the vocabulary, and an N-gram probability P in mora units. seq P (Y) = α as a weighted linear sum of (Y) 1 P len (M) + α 2 P seq (Y) or P (Y) = α which is the product of the two 1 P len (M) × α 2 P seq (Y). Where α 1 , Α 2 Is a weighting parameter. P seq (Y) is calculated based on
[0056]
(Equation 1)
[0057]
Next, an operation flow of the system according to the third embodiment will be described with reference to FIG. First, in step S31, the linguistic analysis / likelihood assigning unit 32 divides the notation text of the character string information and the appearance frequency information 30 into partial character strings, and assigns linguistic information and linguistic analysis likelihood to each partial character string. . The linguistic analysis likelihood is calculated, for example, by assigning a likelihood to each rule applied at the time of analysis in advance, and calculating a weighted weighted sum or a product thereof.
[0058]
Next, in step S32, the linguistic information / likelihood paraphrase generating means 34 refers to the linguistic information / likelihood paraphrase
[0059]
Subsequently, in step S33, the paraphrase generation likelihood calculation means 36 uses at least one of the text segmentation and reading provision likelihood L1, the paraphrase likelihood L2, and the reading array likelihood L3 based on the reading array of the generated recognition vocabulary. Then, for example, they are weighted and added, and likelihood is given to each paraphrase.
[0060]
Finally, in step S34, the generated character string and likelihood are added to the recognition dictionary.
[0061]
According to the present embodiment, it is possible to generate a paraphrase expression using a notation that is not in the original character string notation by referring to the linguistic information stored in the paraphrase dictionary with linguistic information and likelihood. It is. For this reason, unnecessary paraphrases are rarely generated, and paraphrases can be efficiently and automatically generated. Furthermore, each recognition vocabulary is given a likelihood that takes into account the reliability of the linguistic analysis and the appearance probability of the paraphrased expression. By reflecting the accumulated likelihood on the recognition result together with the accumulated likelihood, highly accurate speech recognition processing can be realized.
[0062]
Note that the dictionary creation method and the voice recognition method according to the present embodiment can be stored in a storage medium as a program. In this case, the program includes a language analysis / likelihood providing function for performing the same processing as the language analysis / likelihood providing means 32, and a language information / likelihood processing for performing the same processing as the language information / likelihood paraphrase generating
[0063]
Embodiment 4 FIG.
FIG. 15 is a block diagram illustrating a method for creating a speech recognition dictionary according to the fourth embodiment. In the present embodiment,
[0064]
The vocabulary
[0065]
Next, an operation flow of the system according to the present embodiment will be described with reference to FIG. However, since steps S31, S32, and S33 perform the same operations as those in the third embodiment, the same symbols are given and the description is omitted.
[0066]
In step S41, the vocabulary candidate
[0067]
Next, in step S42, the paraphrase candidates remaining as a result of step S41 are stored in the vocabulary storage means 16 as recognized vocabulary.
[0068]
According to the present embodiment, in order to delete paraphrases having a low likelihood and having a low probability of appearing from the recognized vocabulary, vocabulary candidate pruning is not performed by performing speech recognition using the resulting recognition dictionary. As compared with the case, the size of the recognition dictionary can be reduced, and there is an effect that paraphrasing can be processed with a limited amount of calculation and memory.
[0069]
The dictionary creation method and the speech recognition method in the present embodiment can be stored in a storage medium as a program. In this case, the program includes a language analysis / likelihood providing function for performing the same processing as the language analysis / likelihood providing means 32, and a language information / likelihood processing for performing the same processing as the language information / likelihood paraphrase generating
[0070]
Embodiment 5 FIG.
FIG. 17 is a block diagram illustrating a method for creating a speech recognition dictionary according to the fifth embodiment. In the figure, reference numeral 51 denotes a paraphrase verification unit that selects a paraphrase expression that satisfies a predetermined constraint from one or more paraphrase expressions. Reference numeral 52 denotes a system knowledge database that gives a constraint to the paraphrase verification unit 51. Note that, in the present embodiment, components denoted by the same reference numerals as those in
[0071]
Next, processing according to the present embodiment will be described. The paraphrase verification unit 51 reads all the paraphrase expressions of the registration target vocabulary output from the paraphrase generation
[0072]
Another limitation imposed by the system knowledge database 52 is that vocabularies that are difficult to recognize due to the nature of speech recognition are deleted. For example, if the length of reading of the recognized vocabulary is very short, there is a restriction on speech recognition that sufficient recognition accuracy cannot be secured. In order to avoid this and obtain sufficient accuracy, short paraphrases of, for example, two syllables or less are deleted. Alternatively, the selection range may be restricted by generating a large number of homonyms as paraphrasing expressions. If there is a homophone or a very similar recognition vocabulary, even if it can be correctly recognized, it is necessary to further identify from the candidates of the recognition vocabulary. When the number of candidates increases, the identification process becomes difficult even if the recognition is performed. Therefore, by defining such a constraint condition in the system knowledge database 52, the same sound or a similar paraphrase having a low likelihood is deleted.
[0073]
As another restriction, it is conceivable to set a vocabulary according to a target user purpose. For example, even if a certain facility name is a recognition target of the user's utterance, the paraphrasing tendency is different when the user asks for the phone number of the facility and when he asks for the weather near the facility. This is because, when asking for a telephone number, information for identifying the facility, such as the chain name of the target facility, is emphasized, while when asking for the weather, information about the location is considered to be important. In order to achieve such an object, a paraphrase type constraint based on task knowledge is described in a system knowledge database as a condition.
[0074]
Through such processing by the paraphrase verification unit 51, the recognition vocabulary that allows the system to operate practically is selected. The finally selected paraphrase and its likelihood are output to the vocabulary storage means 16 as the recognition target vocabulary.
[0075]
According to the present embodiment, the paraphrase verification means 51 of the system makes it possible to set a recognition vocabulary in consideration of system restrictions, and has the effect of improving the overall recognition accuracy. In addition, there is an effect of reducing the size of the recognition dictionary due to the implementation with a limited amount of calculation and memory. As a result, when used for speech recognition, a compact and high-accuracy speech recognition engine can be constructed.
[0076]
Note that the dictionary creation method and the voice recognition method in the present embodiment can be stored in a storage medium as a program. In this case, the program includes a language analysis / likelihood providing function for performing the same processing as the language analysis / likelihood providing means 32, and a language information / likelihood processing for performing the same processing as the language information / likelihood paraphrase generating
[0077]
【The invention's effect】
Since the present invention creates a paraphrase expression of a headword and its reading based on a word replacement rule that describes a relationship between an input word and an output word, it includes an expression combining expressions that do not appear in the notation of a headword. It is possible to automatically generate a speech recognition dictionary.
[Brief description of the drawings]
FIG. 1 is a block diagram of a dictionary creation device and a speech recognition device according to a first embodiment.
FIG. 2 is a diagram showing an example of stored contents of a language analysis dictionary according to the first embodiment.
FIG. 3 is a diagram showing an example of a word replacement rule according to the first embodiment.
FIG. 4 is a flowchart illustrating a dictionary creation process according to the first embodiment.
FIG. 5 is a diagram illustrating an example of a character string division result using morphological analysis according to the first embodiment.
FIG. 6 is a diagram showing an example of a paraphrase expression generation result in the first embodiment.
FIG. 7 is a flowchart illustrating a voice recognition process according to the first embodiment.
FIG. 8 is a block diagram of a dictionary creation device according to a second embodiment.
FIG. 9 is a flowchart of a dictionary creation process according to the second embodiment.
FIG. 10 is a diagram showing an example of assigning a linguistic meaning in the second embodiment.
FIG. 11 is a diagram showing an example of a word replacement rule according to the second embodiment.
FIG. 12 is a diagram illustrating an example of a paraphrase expression generation result according to the second embodiment.
FIG. 13 is a block diagram of a dictionary creation device according to a third embodiment.
FIG. 14 is a flowchart of a dictionary creation process according to the third embodiment.
FIG. 15 is a block diagram of a dictionary creation device according to a fourth embodiment.
FIG. 16 is a flowchart of a dictionary creation process according to the fourth embodiment.
FIG. 17 is a block diagram of a dictionary creation device according to a fifth embodiment.
FIG. 18 is a block diagram of a dictionary creation device according to the related art.
FIG. 19 is a diagram showing an operation example of a conventional technique.
[Explanation of symbols]
10: Character string information 11: Dictionary creation device 12: Analysis processing means
13: Linguistic analysis dictionary 14: Paraphrase generation means 15: Paraphrase dictionary
16: Vocabulary storage means 21: Dictionary creation device 22: Analysis processing means
23: Linguistic analysis dictionary 24: Paraphrase generation means with linguistic information
25: Paraphrase dictionary 31: Dictionary creation device 32: Language analysis and likelihood providing means
33: Dictionary with likelihood for language analysis 34: Paraphrase generation means with language information and likelihood
35: Paraphrase dictionary with linguistic information and likelihood 36: Paraphrase generation likelihood calculating means
41: vocabulary candidate pruning means 51: paraphrase verification means
52: System knowledge database 110: Input speech 111: Speech recognition device
112: sound analysis means 113: likelihood calculation means 114: sound standard pattern
115: collation means 1001: vocabulary creation means
Claims (18)
不揮発性記憶装置に記憶され入力語と出力語との関係を表現する語置換規則に基づいて、上記見出し語を上記入力語とする上記出力語を上記言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成ステップと、
上記言い換え表現とその読みを音声認識用辞書に記憶させる出力ステップを有することを特徴とする音声認識用辞書作成方法。An input step of inputting a headword,
Based on a word substitution rule that is stored in a non-volatile storage device and that expresses the relationship between an input word and an output word, the output word having the headword as the input word is obtained as the paraphrase expression, and the paraphrase expression is further obtained. A paraphrase expression creation step of obtaining the reading;
A method for creating a speech recognition dictionary, comprising an output step of storing the paraphrase expression and its reading in a speech recognition dictionary.
前記言い換え表現作成ステップは、上記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得することを特徴とする請求項1に記載された音声認識用辞書作成方法。The voice recognition dictionary creating method has a character string dividing step of dividing the headword input by the input step into partial character strings,
The paraphrase expression creating step acquires a paraphrase expression of the partial character string and its reading based on the output word of the word replacement rule using the partial character string as the input word. The dictionary creation method for voice recognition described in.
前記言い換え表現作成ステップは、上記部分文字列の言語的意味に応じてその部分文字列の省略を指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得することを特徴とする請求項2に記載された音声認識用辞書作成方法。The character string dividing step is to give a linguistic meaning to each partial character string divided from the headword,
The paraphrase expression creating step includes, based on the word replacement rule instructing the omission of the partial character string in accordance with the linguistic meaning of the partial character string, changes the linguistic meaning of the partial character string divided from the headword. 3. The method for creating a speech recognition dictionary according to claim 2, wherein the paraphrase expression of the headword and its reading are acquired by referring to the dictionary.
前記言い換え表現作成ステップは、上記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得することを特徴とする請求項2に記載された音声認識用辞書作成方法。The character string dividing step is to give a linguistic meaning to each partial character string divided from the headword,
The paraphrase expression creating step includes a step of, based on the word replacement rule instructing replacement of the partial character string and the preceding and succeeding partial character strings according to the linguistic meaning of the partial character string, a part divided from the headword. 3. The method for creating a dictionary for speech recognition according to claim 2, wherein the paraphrase expression of the headword and its reading are acquired by referring to the linguistic meaning of the character string.
前記言い換え表現作成ステップは、前記部分文字列の上記出現頻度尤度と上記言語解析尤度から前記言い換え表現の発声尤度を算出し、
前記出力ステップは、この言い換え表現の発声尤度を音声認識用辞書に記憶させることを特徴とする請求項2乃至請求項4のいずれか一に記載された音声認識用辞書作成方法。The character string dividing step is to give an appearance frequency likelihood and a language analysis likelihood for each of the partial character strings,
The paraphrase expression creating step calculates an utterance likelihood of the paraphrase expression from the occurrence frequency likelihood and the language analysis likelihood of the partial character string,
5. The speech recognition dictionary creating method according to claim 2, wherein the output step stores the utterance likelihood of the paraphrase expression in a speech recognition dictionary.
前記出力ステップは、前記言い換え表現作成ステップが選択した言い換え表現とその読みを音声認識用辞書に記憶させることを特徴とする請求項5に記載された音声認識用辞書作成方法。The paraphrase expression creation step is to select a paraphrase expression from which the paraphrase expression utterance likelihood satisfies a predetermined condition,
The speech recognition dictionary creating method according to claim 5, wherein the output step stores the paraphrase expression selected by the paraphrase expression creation step and its reading in a speech recognition dictionary.
前記出力ステップは、前記言い換え表現作成ステップが選択した言い換え表現とその読みを音声認識用辞書に記憶させることを特徴とする請求項1乃至請求項6のいずれか一に記載された音声認識用辞書作成方法。The paraphrase expression creation step, according to a predetermined condition based on the system knowledge database stored in the nonvolatile storage device, select a paraphrase expression of the headword and its reading,
The speech recognition dictionary according to any one of claims 1 to 6, wherein the output step stores the paraphrase expression selected by the paraphrase expression creation step and its reading in a speech recognition dictionary. How to make.
不揮発性記憶装置が記憶し入力語と出力語との関係を表現する語置換規則に基づいて、上記見出し語を上記入力語とする上記出力語を上記言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成手段と、
上記言い換え表現とその読みを音声認識用辞書に記憶させる出力手段を有する構成とされたことを特徴とする音声認識用辞書作成装置。An input means for inputting a headword,
The non-volatile storage device stores the output word having the headword as the input word as the paraphrase expression based on the word replacement rule expressing the relationship between the input word and the output word, and further obtains the paraphrase expression. A paraphrase expression creating means for acquiring the reading,
An apparatus for creating a dictionary for speech recognition, characterized by comprising output means for storing said paraphrase expression and its reading in a dictionary for speech recognition.
前記言い換え表現作成手段は、上記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得する構成とされたことを特徴とする請求項8に記載された音声認識用辞書作成装置。The voice recognition dictionary creating device includes a character string dividing unit that divides the headword input by the input unit into partial character strings,
The paraphrase expression creating means is configured to acquire a paraphrase expression of the partial character string and its reading based on the output word of the word replacement rule using the partial character string as the input word. The dictionary creation device for speech recognition according to claim 8.
前記言い換え表現作成手段は、上記部分文字列の言語的意味に応じてその部分文字列の省略を指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得する構成とされたことを特徴とする請求項9に記載された音声認識用辞書作成装置。The character string dividing means assigns a linguistic meaning to each partial character string divided from the headword,
The paraphrase expression creating means, based on the word replacement rule instructing the omission of the partial character string according to the linguistic meaning of the partial character string, converts the linguistic meaning of the partial character string divided from the headword. The apparatus for creating a dictionary for speech recognition according to claim 9, wherein the paraphrase expression of the headword and its reading are acquired by referring to the dictionary.
前記言い換え表現作成手段は、上記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得する構成とされたことを特徴とする請求項9に記載された音声認識用辞書作成装置。The character string dividing means assigns a linguistic meaning to each partial character string divided from the headword,
The paraphrase expression creating means, based on the word replacement rule that instructs replacement of the partial character string with the preceding and following partial character strings in accordance with the linguistic meaning of the partial character string, a part divided from the headword. 10. The apparatus for creating a dictionary for speech recognition according to claim 9, wherein a paraphrase expression of the headword and its reading are acquired by referring to a linguistic meaning of a character string.
前記言い換え表現作成手段は、前記部分文字列の上記出現頻度尤度と上記言語解析尤度から前記言い換え表現の発声尤度を算出し、
前記出力手段は、この言い換え表現の発声尤度を音声認識用辞書に記憶させる構成とされたことを特徴とする請求項9乃至請求項11の一に記載された音声認識用辞書作成装置。The character string dividing means assigns an appearance frequency likelihood and a language analysis likelihood to each of the partial character strings,
The paraphrase expression creating means calculates the utterance likelihood of the paraphrase expression from the appearance frequency likelihood of the partial character string and the linguistic analysis likelihood,
12. The speech recognition dictionary creating apparatus according to claim 9, wherein the output unit is configured to store the utterance likelihood of the paraphrase expression in a speech recognition dictionary.
前記出力手段は、前記言い換え表現作成手段が選択した言い換え表現とその読みを音声認識用辞書に記憶させる構成とされたことを特徴とする請求項12に記載された音声認識用辞書作成装置。The paraphrase expression creating means selects a paraphrase expression in which the utterance likelihood of the paraphrase expression satisfies a predetermined condition from the created paraphrase expression,
13. The speech recognition dictionary creating apparatus according to claim 12, wherein the output unit is configured to store the paraphrase expression selected by the paraphrase expression creation unit and its reading in a speech recognition dictionary.
前記出力手段は、前記言い換え表現作成手段が選択した言い換え表現とその読みを音声認識用辞書に記憶させる構成とされたことを特徴とする請求項8乃至請求項13のいずれか一に記載された音声認識用辞書作成装置。The paraphrase expression creating means selects a paraphrase expression of the headword and its reading according to a predetermined condition based on a system knowledge database stored in the nonvolatile storage device,
14. The apparatus according to claim 8, wherein the output unit is configured to store the paraphrase expression selected by the paraphrase expression creation unit and its reading in a speech recognition dictionary. A dictionary creation device for speech recognition.
上記音響特徴量と音響標準パタンとを照合し、尤度を算出する尤度計算手段と、上記尤度から音声認識用辞書が記憶する語彙についての尤度を算出し、尤度の高い語彙を認識語彙として出力する照合手段とを有する音声認識装置において、
上記音声認識用辞書は、請求項8乃至請求項17のいずれか一に記載された音声認識辞書作成装置により作成されたことを特徴とする音声認識装置。An acoustic analysis unit that analyzes an input voice according to a time series and calculates an acoustic feature amount;
A likelihood calculating means for comparing the acoustic feature amount with an acoustic standard pattern and calculating a likelihood, and calculating a likelihood of a vocabulary stored in the speech recognition dictionary from the likelihood, and calculating a vocabulary having a high likelihood. A voice recognition device having a matching means for outputting as a recognition vocabulary,
18. A speech recognition device, wherein the speech recognition dictionary is created by the speech recognition dictionary creation device according to any one of claims 8 to 17.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002294402A JP4269625B2 (en) | 2002-10-08 | 2002-10-08 | Voice recognition dictionary creation method and apparatus and voice recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002294402A JP4269625B2 (en) | 2002-10-08 | 2002-10-08 | Voice recognition dictionary creation method and apparatus and voice recognition apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004133003A true JP2004133003A (en) | 2004-04-30 |
JP4269625B2 JP4269625B2 (en) | 2009-05-27 |
Family
ID=32284949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002294402A Expired - Fee Related JP4269625B2 (en) | 2002-10-08 | 2002-10-08 | Voice recognition dictionary creation method and apparatus and voice recognition apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4269625B2 (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006011271A (en) * | 2004-06-29 | 2006-01-12 | Canon Inc | Speech recognition grammar creating device and control method therefor |
JP2008268571A (en) * | 2007-04-20 | 2008-11-06 | Xanavi Informatics Corp | Speech recognition device and speech recognition method therefor |
JP2009258293A (en) * | 2008-04-15 | 2009-11-05 | Mitsubishi Electric Corp | Speech recognition vocabulary dictionary creator |
WO2011030817A1 (en) | 2009-09-09 | 2011-03-17 | クラリオン株式会社 | Information retrieving apparatus, information retrieving method and navigation system |
JP2011064969A (en) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | Device and method of speech recognition |
US8271280B2 (en) | 2007-12-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus and memory product |
JP2015106361A (en) * | 2013-12-02 | 2015-06-08 | 株式会社日立製作所 | Data retrieval system and data retrieval method |
CN108140019A (en) * | 2015-10-09 | 2018-06-08 | 三菱电机株式会社 | Language model generating means, language model generation method and its program, speech recognition equipment and audio recognition method and its program |
JP2019507362A (en) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | Speech re-recognition using an external data source |
CN115329767A (en) * | 2022-10-11 | 2022-11-11 | 北京云迹科技股份有限公司 | Method and device for extracting text entity, electronic equipment and storage medium |
-
2002
- 2002-10-08 JP JP2002294402A patent/JP4269625B2/en not_active Expired - Fee Related
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7603269B2 (en) | 2004-06-29 | 2009-10-13 | Canon Kabushiki Kaisha | Speech recognition grammar creating apparatus, control method therefor, program for implementing the method, and storage medium storing the program |
JP4579595B2 (en) * | 2004-06-29 | 2010-11-10 | キヤノン株式会社 | Speech recognition grammar creation device, speech recognition grammar creation method, program, and storage medium |
JP2006011271A (en) * | 2004-06-29 | 2006-01-12 | Canon Inc | Speech recognition grammar creating device and control method therefor |
JP2008268571A (en) * | 2007-04-20 | 2008-11-06 | Xanavi Informatics Corp | Speech recognition device and speech recognition method therefor |
US8271280B2 (en) | 2007-12-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus and memory product |
JP2009258293A (en) * | 2008-04-15 | 2009-11-05 | Mitsubishi Electric Corp | Speech recognition vocabulary dictionary creator |
US8949133B2 (en) | 2009-09-09 | 2015-02-03 | Clarion Co., Ltd. | Information retrieving apparatus |
WO2011030817A1 (en) | 2009-09-09 | 2011-03-17 | クラリオン株式会社 | Information retrieving apparatus, information retrieving method and navigation system |
JP2011064969A (en) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | Device and method of speech recognition |
JP2015106361A (en) * | 2013-12-02 | 2015-06-08 | 株式会社日立製作所 | Data retrieval system and data retrieval method |
CN108140019A (en) * | 2015-10-09 | 2018-06-08 | 三菱电机株式会社 | Language model generating means, language model generation method and its program, speech recognition equipment and audio recognition method and its program |
EP3349125A4 (en) * | 2015-10-09 | 2018-08-29 | Mitsubishi Electric Corporation | Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor |
US10748528B2 (en) | 2015-10-09 | 2020-08-18 | Mitsubishi Electric Corporation | Language model generating device, language model generating method, and recording medium |
CN108140019B (en) * | 2015-10-09 | 2021-05-11 | 三菱电机株式会社 | Language model generation device, language model generation method, and recording medium |
JP2019507362A (en) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | Speech re-recognition using an external data source |
CN115329767A (en) * | 2022-10-11 | 2022-11-11 | 北京云迹科技股份有限公司 | Method and device for extracting text entity, electronic equipment and storage medium |
CN115329767B (en) * | 2022-10-11 | 2023-01-06 | 北京云迹科技股份有限公司 | Method and device for extracting text entity, electronic equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4269625B2 (en) | 2009-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3716870B2 (en) | Speech recognition apparatus and speech recognition method | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
JP5040909B2 (en) | Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
US6163768A (en) | Non-interactive enrollment in speech recognition | |
US8321218B2 (en) | Searching in audio speech | |
JPH08278794A (en) | Speech recognition device and its method and phonetic translation device | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
JP2005227686A (en) | Speech recognizer, speech recognition program and recording medium | |
Raval et al. | Improving deep learning based automatic speech recognition for Gujarati | |
JP4269625B2 (en) | Voice recognition dictionary creation method and apparatus and voice recognition apparatus | |
KR100930714B1 (en) | Voice recognition device and method | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
Baig et al. | Discriminative training for phonetic recognition of the Holy Quran | |
JP2006012179A (en) | Natural language processor and natural language processing method | |
JP4764203B2 (en) | Speech recognition apparatus and speech recognition program | |
KR20130126570A (en) | Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof | |
JP3911178B2 (en) | Speech recognition dictionary creation device and speech recognition dictionary creation method, speech recognition device, portable terminal, speech recognition system, speech recognition dictionary creation program, and program recording medium | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
JP4528540B2 (en) | Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program | |
JP2011007862A (en) | Voice recognition device, voice recognition program and voice recognition method | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
JP4987530B2 (en) | Speech recognition dictionary creation device and speech recognition device | |
JP2006031278A (en) | Voice retrieval system, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040708 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080702 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090216 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120306 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4269625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120306 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120306 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130306 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130306 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140306 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |