JP3696231B2 - 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 - Google Patents
言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 Download PDFInfo
- Publication number
- JP3696231B2 JP3696231B2 JP2005501015A JP2005501015A JP3696231B2 JP 3696231 B2 JP3696231 B2 JP 3696231B2 JP 2005501015 A JP2005501015 A JP 2005501015A JP 2005501015 A JP2005501015 A JP 2005501015A JP 3696231 B2 JP3696231 B2 JP 3696231B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- class
- gram
- gram language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000001419 dependent effect Effects 0.000 claims description 153
- 238000009825 accumulation Methods 0.000 claims description 63
- 238000004458 analytical method Methods 0.000 claims description 47
- 230000000877 morphologic effect Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 23
- 239000000470 constituent Substances 0.000 claims description 9
- 101100274346 Drosophila melanogaster mora gene Proteins 0.000 description 72
- 230000014509 gene expression Effects 0.000 description 63
- 238000010586 diagram Methods 0.000 description 36
- 238000004364 calculation method Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000010749 BS 2869 Class C1 Substances 0.000 description 1
- 239000010750 BS 2869 Class C2 Substances 0.000 description 1
- 241000252229 Carassius auratus Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 240000003473 Grevillea banksii Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
【0001】
本発明は、言語モデル生成蓄積装置、音声認識装置等に関し、特に、統計的言語モデルを用いた音声認識装置および音声認識方法等に関するものである。
【背景技術】
【0002】
近年、音声認識装置において、その性能を高めるために言語モデルを用いる方法が研究されている。
【0003】
言語モデルとしては、基本的な単語2グラム又は単語3グラムの単語Nグラムモデルが広く用いられている(例えば、非特許文献1参照)。
【0004】
ここで、単語Nグラムを用いた言語尤度の計算について説明する。
まず、単語列W1,W2,…,WLの言語尤度logP(W1,W2,…,WL)は、条件付き確率を用いて下記に示される式(1)で表される。
【0005】
【数1】
【0006】
式(1)右辺の条件付き確率P{Wi|W1,W2,…,W(i−1)}は、先行単語列W1,W2,…,W(i−1)の後に当該単語Wiが生起する確率であり、この先行単語列をN−1個で近似するのが単語Nグラムモデルである。そして、先行単語列を1個で近似する単語2グラムでは、下記に示される式(2)の近似式で表される。
【0007】
【数2】
【0008】
同様に、先行単語列を2個で近似する単語3グラムでは、下記に示される式(3)の近似式で表される。
【0009】
【数3】
【0010】
音声認識の際には、認識途中の単語列候補に対して、単語音声の確率モデルであるHMM(Hidden Markov Model)等の音響モデルを用いて音響尤度を求め、さらに上記のようにして言語尤度を求め、それらを重み付き加算した総合尤度で単語列候補に序列をつけて、音声認識を行う。
【0011】
ところで、Nグラムモデルには多種のバリエーションがあるが、ここでは、特に本件と関連性のある3つの従来技術を以下に説明する。
【0012】
Nグラムモデルの第1バリエーションとして、単語集団の中で、共通の性質を持つものをクラス化して確率を計算するものがある(例えば、特許文献1参照)。なお、この技術を、以下「第1の従来例」とも記す。この第1の従来例のクラスNグラムモデルでは、単語Nグラムがクラスを用いて式(4)のように近似される(N=2の場合)。ここで、Ciはクラス化した単語を示す。
【0013】
【数4】
【0014】
クラスを介して言語尤度を求めることで、学習データの少ない単語列に対して言語尤度の精度が悪いというデータ量が不十分による問題に対して効果がある。
【0015】
次に、Nグラムモデルの第2バリエーションとして、頻度の高い単語列を接続した新しい可変長単位を作り、可変長単位間のNグラムを用いるものがある(例えば、特許文献2参照)。なお、この技術を、以下「第2の従来例」とも記す。この第2の従来例のクラスNグラムモデルは、単位に関する工夫であり、式(2)および式(4)に従う。この第2の従来例によれば、1単語よりも長い単位を用いることで、より長い文脈を考慮した言語尤度を求めることができる。
【0016】
さらに、Nグラムモデルの第3バリエーションとして、クラスNグラムにおける名前等の一部のクラスを単語ではなく、音節等のより細かい単位の列として、別のNグラムで表したものがある(例えば特許文献3参照)。なお、この技術を、以下「第3の従来例」とも記す。つまり、この第3の従来例は、式(4)の右辺第2項を下記に示される式(5)のように近似するものである。
【0017】
【数5】
【0018】
ここで、P1,P2,…,Pjは、単語の発音を表す単位の列を示す。
式(5)の右辺は、さらに、音節の並びに関する確率と、単語内の音節数に関する確率の積として表すことで、高精度化され、名前等の数が多いクラスを効率的に表すことができる。
【0019】
以上の全ての場合について、確率値は、学習用のテキストコーパスを処理して、機械的に求めることができる。
【0020】
図1は、第3の従来例による音声認識装置の機能構成を示すブロック図である。
図1に示されるように、音声認識装置900は、入力音声を取り込んで特徴パラメータを抽出する音響処理部901と、特徴パラメータと単語とを照合する音響尤度計算部910と、話者の音響的特徴をモデル化した音響モデル部911と、認識単語の発音を記述した単語辞書部912と、クラスNグラムおよびクラス依存音節Nグラムを参照して単語列仮説を生成する単語列仮説生成部920と、単語の文脈を評価するクラスNグラム蓄積部9215と、音節の文脈を評価するクラス依存音節Nグラム蓄積部9223と、認識対象となる文表現を多数蓄積した文表現コーパス蓄積部9211と、文表現を形態素解析する形態素解析部9212と、単語又は単語クラスの連鎖の統計量からクラスNグラムを生成するクラスNグラム生成部9213と、共通の性質を持つ単語をクラスとして定義した単語クラス定義部9214と、名前を蓄積した名前辞書部9221と、音節の連鎖の統計量を求めてクラス依存音節Nグラムを生成するクラス依存音節Nグラム生成部9222とから構成される。
【0021】
次に、動作について説明する。この動作は、言語モデルを作成する事前処理と、入力された音声を逐次認識する認識処理とに大別される。
【0022】
まず、言語モデルを作成する事前処理について説明する。
文表現コーパス蓄積部9211は、文表現を予め蓄積している。形態素解析部9212は、文表現コーパス蓄積部9211に蓄積されている文表現を形態素解析し、形態素である単語単位に分割する。クラスNグラム生成部9213は、単語クラス定義部9214を参照して、形態素解析済みのコーパス中の単語を単語クラスに置き換え、単語又は単語クラスの連鎖の統計量を求めてクラスNグラムを生成する。クラスNグラム蓄積部9215は、単語又は単語クラスの連鎖の統計量を蓄積する。
【0023】
一方、名前辞書部9221は、名前の読みである音節列を予め蓄積する。クラス依存音節Nグラム生成部9222は、名前辞書部9221に蓄積されている名前の読みである音節列から音節の連鎖の統計量を求めてクラス依存音節Nグラムを生成する。クラス依存音節Nグラム蓄積部9223は、音節の連鎖の統計量を蓄積する。
【0024】
次いで、入力された音声を逐次認識する認識処理について、以下に説明する。
入力された音声は、音響処理部901で処理され、特徴パラメータに変換される。特徴パラメータは、音響尤度計算部910により、音響モデル部911と単語辞書部912とを参照して、単語辞書内の各単語とマッチングされ、単語の発声区間と単語の音響尤度とからなる単語仮説群が出力される。単語仮説群は、単語列仮説生成部920において、単語列仮説に組み上げられ、クラスNグラムとクラス依存音節Nグラムとを参照して、式(1)〜式(5)により計算される言語尤度を加えられる。
【0025】
このようにして、音響尤度と言語尤度の一次式により評価された尺度で序列をつけ単語列候補が認識結果となる。
【非特許文献1】
大附、森、松岡、古井、白井:“新聞記事を用いた大語彙音声認識の検討”信学技報、SP95−90(1995−12)
【特許文献1】
特開2000−259175号公報(第5−9頁、第1図)
【特許文献2】
特許第3004254号公報(第4−19頁、第1図)
【特許文献3】
特開2001−236089号公報(第4−11頁、第1図)
【0026】
音声認識装置は、認識精度を高くするための言語的推定精度の向上が要求されている。
【0027】
しかし、従来の方法は、テレビ番組や、映画のタイトル、例えば、「月に向かって飛べ」や、「太陽を撃て」などのように、前後の単語に対しては1単語としての第1の性質と、内部の表現としては複数の単語としての第2の性質との二つの性質を有するものの処理については言語的推定精度の向上が困難であるという問題があった。
【0028】
すなわち、タイトル=1単語として扱うと、単語の種類が多いために認識辞書が大きくなってしまう。一方、タイトル=単語列として扱うと、タイトルの前後を含む文脈は2グラムや3グラムの範疇外であるため、制約が緩慢になる。より具体的には、第1の従来例および第2の従来例においては、単位を決めた後は、その単位の2、3個分の文脈を考慮するので、単位の長さに応じて制約が緩慢又は辞書の増加という問題のどちらかに直面する。また、第3の従来例においては、タイトルを前後の単語に対しては1単語として扱うが、タイトル内の処理は発音列としてモデル化するという二重構造であるために、長いタイトルの発音に対する推定精度に限界がある。
【0029】
そこで、本発明は、テレビ番組のタイトルのように1単語と複数単語の二重の性質を持つものを扱え、言語尤度の推定精度と、認識辞書のコンパクト性とを両立し、認識精度を高めることができる言語モデル生成蓄積装置および音声認識装置等を提供することを目的とする。
【発明の開示】
【0030】
上記目的を達成するために、本発明に係る言語モデル生成蓄積装置においては、音声認識用の言語モデルを生成し、蓄積する言語モデル生成蓄積装置であって、複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルを生成し、蓄積する上位Nグラム言語モデル生成蓄積手段と、前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルを生成し、蓄積する下位Nグラム言語モデル生成蓄積手段とを備えることを特徴とする。
【0031】
このため、言語尤度を計算する際に、共通の性質を持つ単語列を単語列クラスとして扱い、入れ子構造を持ったNグラムを用いて、前後の単語に対しては上位階層のクラスNグラムにより1単位として扱い、クラス内は下位階層の単語Nグラムにより単語列として扱うことができる。これにより、長い文脈、単語列クラスを構成する単語列に対する言語尤度の推定精度と、認識辞書のコンパクト性を両立した言語モデル生成蓄積装置ひいては音声認識装置を得ることができる。
【0032】
また、本発明に係る言語モデル生成蓄積装置においては、前記上位Nグラム言語モデル生成蓄積手段と、前記下位Nグラム言語モデル生成蓄積手段とは、異なるコーパスを用いて言語モデルをそれぞれ生成することを特徴とすることもできる。
【0033】
これにより、上位の言語モデルと下位の言語モデルをそれぞれ独立に構築することが可能となるため、コーパス収集が容易となる。また語彙の変化等による言語モデルの再構築が必要な場合においても、関連する上位又は下位の言語モデルのみの再構築でよいことになり、言語モデルのメンテナンスが容易となるという効果を有する。
【0034】
また、前記下位Nグラム言語モデル生成蓄積手段は、下位Nグラム言語モデル用のコーパスを更新するコーパス更新手段を有し、下位Nグラム言語モデル生成蓄積手段は、更新されたコーパスに基づいて下位Nグラム言語モデルを更新生成することを特徴とする構成としてもよい。
【0035】
これにより、コーパスに新番組のタイトルの自動登録等が可能となり、言語モデルのメンテナンスがさらに容易となるという効果を有する。
【0036】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスの単語の系列を意味を有する最小の言語単位である2以上の形態素に解析し、当該単語列クラスに依存して当該形態素の系列をモデル化することにより前記下位Nグラム言語モデルを生成することを特徴とする構成とすることもできる。
【0037】
これにより、単語列クラスを構成する単語列からクラス依存単語Nグラムを求めることができるため、十分な学習データ量を確保でき、高い認識精度が得られるという作用を有する。
【0038】
また、本発明に係る言語モデル生成蓄積装置においては、前記上位Nグラム言語モデル生成蓄積手段は、形態素に解析されたテキストに含まれる前記単語列クラスを仮想的な仮想単語に置き換え、当該仮想単語および各単語からなる系列をモデル化することにより前記上位Nグラム言語モデルを生成することを特徴としてもよい。
【0039】
これにより、単語列クラスの定義を合わせた単語列クラスを含むテキストと、単語列クラスを構成する単語列との両方を考慮し、クラスNグラムを求めるため、高い認識精度が得られるという作用を有する。
【0040】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスに出現する単語のうち、特定の単語を単語列クラスの構成単語に含めない除外単語とするか否かをその言語的特性に基づいて判断し、判断の結果前記除外単語について単語の読みに対応するモーラおよびモーラを結合した単位に切り分ける除外単語判断手段を有し、前記言語モデル生成蓄積装置は、さらに前記モーラおよびモーラを結合した単位の系列をモデル化して、確率の対数値である言語尤度を前記単語列クラス又は該除外単語の言語的特性に依存して付与することによりクラス依存モーラNグラムを生成し、蓄積するクラス依存モーラNグラム生成蓄積手段を備えることを特徴とすることもできる。
【0041】
これにより、単語列クラスに含まれる単語の一部をより細かな単位で表現することが可能であるため、音声認識辞書の語彙数の肥大化を避けてあらゆる種類の単語列クラスを高い精度で認識できるという作用を有する。
【0042】
また、本発明に係る言語モデル生成蓄積装置においては、前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、前記上位Nグラム言語モデル生成蓄積手段は、前記着目したノードから上層を構成する第1の部分木を用いて構文木用の前記上位Nグラム言語モデルを生成し、前記下位Nグラム言語モデル生成蓄積手段は、前記着目したノードから下層を構成する第2の部分木を用いて生成された構文木用の下位Nグラム言語モデルを生成することを特徴としてもよい。
【0043】
これにより、特定のノードに着目することで、構文木を容易に分割することができ、クラスNグラムによる長い文脈の評価と、クラス依存単語Nグラムによる単語列クラスを構成する単語列の評価との両方を考慮することで高い認識精度が得られるという作用を有する。
【0044】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Nグラム言語モデル生成蓄積手段は、前記第2の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、前記下位Nグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Nグラム言語モデルを生成することを特徴としてもよい。
【0045】
また、本発明に係る言語モデル生成蓄積装置においては、前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、前記上位Nグラム言語モデル生成蓄積手段は、前記構文木の最上位層を構成する第1の部分木を用いて前記上位Nグラム言語モデルを生成し、前記下位Nグラム言語モデル生成蓄積手段は、第2より下位の層を構成する各部分木を、より上位の層における該部分木の位置付けに基づいて分類し、夫々の分類ごとの部分木を用いて前記下位Nグラム言語モデルを生成することを特徴としてもよい。
【0046】
これにより、構文木生成部における構文解析結果に基づいて、大量のテキストから自動的にクラスNグラムとクラス依存単語Nグラムの両方を生成することができるという作用を有する。
【0047】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Nグラム言語モデル生成蓄積手段は、前記第2の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、前記下位Nグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Nグラム言語モデルを生成することを特徴とすることもできる。
【0048】
これにより、構文中の特定の関係に基づく一部の単語を、単語より小さい単位で表現して認識することが可能となり、また、大量のテキストを構文解析した結果から、該構文中の特定の関係に基づいて、クラス依存モーラNグラムを自動構築することができるという作用を有する。
【0049】
また、本発明に係る言語モデル生成蓄積装置においては、前記上位Nグラム言語モデル生成蓄積手段は、前記単語列クラスを含む長さNの単語連鎖とその単語連鎖が生起する確率とを対応付けて上位Nグラム言語モデルを生成することを特徴としてもよい。
【0050】
これにより、単語列クラスの生起確率による長い文脈の評価を考慮することで高い認識精度が得られるという作用を有する。
【0051】
さらに、本発明に係る言語モデル生成蓄積装置においては、下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスを構成する単語の長さNの連鎖とその単語連鎖が生起する確率とを対応付けて下位Nグラム言語モデルを生成することを特徴としてもよい。
【0052】
これにより、単語列クラスを構成する単語列の生起確率による単語列クラスを構成する単語列の評価を考慮することで高い認識精度が得られるという作用を有する。
【0053】
なお、本発明は、このような言語モデル生成蓄積装置として実現することができるだけでなく、このような言語モデル生成蓄積装置を備える音声認識装置として実現したり、言語モデル生成蓄積装置および音声認識装置が備える特徴的な手段をステップとする言語モデル生成方法および音声認識方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
【0054】
以上の説明から明らかなように、本発明に係る言語モデル生成蓄積装置および音声認識装置によれば、言語尤度を計算する際に、共通の性質を持つ単語列を単語列クラスとして扱い、入れ子構造を持ったNグラムを用いて、前後の単語に対しては上位階層のクラスNグラムにより1単位として扱い、クラス内は下位階層の単語Nグラムにより単語列として扱うことが可能となり、これにより、長い文脈、単語列クラスを構成する単語列に対する言語尤度の推定精度と、認識辞書のコンパクト性を両立した言語モデル生成蓄積装置ひいては音声認識装置を得ることが可能になるという効果が奏される。
【0055】
よって、本発明により、認識精度が高くなり、音声認識対応の家電製品が普及してきた今日における本願発明の実用的価値は極めて高い。
【発明を実施するための最良の形態】
【0056】
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図2は、本発明の実施の形態1に係る音声認識装置の構成を示す機能ブロック図である。
【0057】
図2に示されるように、音声認識装置1は、言語モデル生成蓄積装置10と、入力音声を取り込んで特徴パラメータを抽出する音響処理部40と、特定又は不特定の話者の音響的特徴をモデル化した音響モデル部60と、認識単語の発音を記述した単語辞書部70と、音響モデルおよび単語辞書を参照して特徴パラメータおよび単語を照合する単語照合部50と、言語モデル生成蓄積装置10のクラスNグラムとクラス依存単語Nグラムとを参照して単語照合結果から単語列仮説を生成し、認識結果を得る単語列仮説生成部80とを備える。
【0058】
言語モデル生成蓄積装置10は、言語的な確率の対数値である言語尤度を単語列クラスを含む文脈に付与するためのクラスNグラムを生成し、生成したクラスNグラムを蓄積するクラスNグラム生成蓄積部11と、言語的な確率の対数値である言語尤度を単語列クラス内の単語系列に付与するためのクラス依存単語Nグラムを生成し、生成したクラス依存単語Nグラムを蓄積するクラス依存単語Nグラム生成蓄積部12とから構成される。
【0059】
次いで、音声認識動作について説明する。この音声認識動作は、言語モデルを作成する事前処理と、入力された音声を逐次認識する認識処理とに大別される。
【0060】
まず、言語モデル生成蓄積装置10のクラスNグラム生成蓄積部11およびクラス依存単語Nグラム生成蓄積部12の構成を順次説明する。
【0061】
なお、言語モデルは、単語および単語列クラスの系列を評価するクラスNグラムと、単語列クラスを構成する単語列を評価するクラス依存単語Nグラムとから構成され、音声認識処理を実行する前に予め作成される。
【0062】
まず、クラスNグラムの生成について、図3を用いて詳細に説明する。
図3は、クラスNグラム生成蓄積部11の機能構成を示すブロック図である。
【0063】
図3に示されるように、クラスNグラム生成蓄積部11は、認識対象となる文表現がテキストとして予め多数蓄積された文表現コーパス蓄積部111と、文表現を形態素解析する文表現用形態素解析部112と、単語列クラス定義を参照して形態素結果から、単語や単語列クラスの連鎖の統計量を求めてクラスNグラムを生成するクラスNグラム生成部113と、クラスNグラムを蓄積し、単語列仮説生成部80に出力するクラスNグラム蓄積部114とから構成される。
【0064】
クラスNグラム生成蓄積部11の文表現コーパス蓄積部111は、認識対象となる文表現のデータライブラリを予め多数蓄積する。
【0065】
より詳しくは、文表現コーパス蓄積部111は、図4に示されるように、「明日の天気予報を録画して」、「明日の太陽を撃てを録画」、「知床の神秘を見る」などの比較的長い文表現であるテキストを予め蓄積する。
【0066】
文表現用形態素解析部112は、文表現コーパス蓄積部111が蓄積している「明日の天気予報を録画して」などの比較的長い文表現であるテキストから、意味を有する最小の言語単位である形態素を解析する。例えば、上記文表現の「明日の天気予報を録画して」は、形態素解析により「<SS>−明日−の−天気−予報−を−録画−して−<SE>」となる。同様に、「明日の太陽を撃てを録画」、「知床の神秘を見る」は、「<SS>−明日−の−太陽−を−撃て−を−録画−<SE>」、「<SS>−知床−の−神秘−を−見る−<SE>」となる。ここで、<SS>、<SE>はそれぞれ、文頭、文末を意味する仮想的な単語である。
【0067】
次に、クラスNグラム生成部113は、形態素に解析されたテキストに含まれる単語列を抽出し、後述するクラス依存単語Nグラム生成蓄積部12から入力される単語列クラスを参照し、該当する単語列クラスが存在する場合は、テキストに含まれる単語列クラスを仮想的な単語に置き換え、単語又は単語列クラスの連鎖の統計量を求めることで単語又は単語列クラスの連鎖とその確率とを対応付けたクラスNグラムを生成する。形態素単位に分割された文表現は、クラスNグラム生成部113において、単語列クラス定義を参照して、単語列クラス定義にある単語列はクラスを示す仮想的な単語に置き換えた上で、1〜N個の単語連鎖ごとに頻度を計測し、確率モデルが生成される。このクラスを単語列クラスと呼ぶ。クラスNグラム生成部113によって生成されたクラスNグラムは、クラスNグラム蓄積部114に蓄積される。
【0068】
例えば、<title>という単語列クラスに「天気−予報」が定義されている場合は、形態素解析結果は、「<SS>−明日−の−<title>−を−録画−して−<SE>」と置き換えられる。同様に、<title>という単語列クラスに「太陽−を−撃て」、「知床−の−神秘」が定義されている場合は、形態素解析結果は、<SS>−明日−の−<title>−を−録画<SE>、<SS>−<title>−を−見る−<SE>にそれぞれ置き換えられる。また、条件付き確率は、単語3グラムモデルの場合、W3がW1−W2の連鎖に後続する確率は、W1−W2−W3の3つの組の連鎖の頻度を、W1−W2の2つの組の連鎖の頻度で割り算するP(W3|W1,W2)=(W1,W2,W3の連鎖頻度)/(W1,W2の連鎖頻度)で求められ、単語2グラムモデルの場合も同様に、P(W2|W1)=(W1,W2の連鎖頻度)/(W1の頻度)で求められる。
【0069】
より詳しくは、単語2グラムモデルの場合、クラスNグラム生成部113は、<SS>−明日、明日−の、の−<title>、<title>−を、を−録画、録画−して、して−<SE>、<SS>−明日、明日−の、の−<title>、<title>−を、を−録画、録画−<SE>、<SS>−<title>、<title>−を、を−見る、見る−<SE>、…の頻度をそれぞれ求め、(W1,W2の連鎖頻度)/(W1の頻度)を計算することにより、それぞれの確率P(W2|W1)を求める。そして、クラスNグラム生成部113は、図5に示されるように単語の連鎖とその確率を対応付けてクラスNグラム蓄積部114に蓄積する。
【0070】
これより、各単語連鎖の頻度を計測しておくことで、条件付き確率を計算でき、また、単語列クラスは単語と同様に扱うことができ、単語ごとに条件付き確率が付加された言語モデルとなる。結果として、クラスNグラムの役割は、「<SS>−明日−の−<title>−を−録画−して−<SE>」と置き換えることにより、各単語に条件付き確率を付加することができる。
【0071】
次に、クラス依存単語Nグラムの生成について、図6を用いて詳細に説明する。
図6は、クラス依存単語Nグラム生成蓄積部12の機能構成を示すブロック図である。
【0072】
図6に示されるように、クラス依存単語Nグラム生成蓄積部12は、クラスコーパス蓄積部121と、クラス用形態素解析部122と、クラス依存単語Nグラム生成部123と、クラス依存単語Nグラム蓄積部124と、単語列クラス定義生成部125と、単語列クラス定義蓄積部126とから構成される。
【0073】
クラスコーパス蓄積部121は、意味的な性質や、構文的な性質が同一である単語列(例えば、テレビ番組のタイトルや、人名等)のデータライブラリを予め蓄積する。
【0074】
より詳しくは、クラスコーパス蓄積部121は、図7に示されるように、「天気予報」、「太陽を撃て」、「知床の神秘」などのタイトルや、「チャーリー海」、「池乃キンギョ」等の単語列を予め蓄積する。このような単語列は、例えばこれから放送される番組表に基づいて予め入力される。
【0075】
クラス用形態素解析部122は、クラスコーパスを形態素解析する。具体的には、クラス用形態素解析部122は、クラスコーパス蓄積部121が蓄積している「天気予報」の様なテレビ番組名などの比較的短く、共通の性質を持つ単語列を、形態素単位に解析する。例えば、単語列「天気予報」は、形態素解析により「<CS>−天気−予報−<CE>」となる。ここで、<CS>、<CE>はそれぞれ、単語列クラスの始め、単語列クラスの終わりを表す仮想的な単語である。
【0076】
クラス依存単語Nグラム生成部123は、形態素解析結果を処理し、単語の連鎖の統計量を求めて、単語列とその確率とを対応付けた情報であるクラス依存単語Nグラムを生成する。つまり、クラス依存単語Nグラム生成部123は、入力された形態素単位の単語列における単語連鎖の頻度を計測し、確率モデル化し、クラス依存単語Nグラムを生成し、生成したクラス依存単語Nグラムをクラス依存単語Nグラム蓄積部124に蓄積する。
【0077】
より詳しくは、単語2グラムモデルの場合、クラス依存単語Nグラム生成部123は、タイトルについて、<CS>−天気、天気−予報、予報−<CE>、<CS>−太陽、太陽−を、を−撃て、撃て−<CE>、<CS>−知床、知床−の、の−神秘、神秘−<CE>、…の頻度をそれぞれ求め、(W1,W2の連鎖頻度)/(W1の頻度)を計算することにより、それぞれの確率P(W2|W1)を求める。人名の場合についても、同様である。そして、クラス依存単語Nグラム生成部123は、図8に示されるように単語列とその確率を対応付けてクラス依存単語Nグラム蓄積部124に蓄積する。この結果、クラス依存単語Nグラム生成部123により、形態素に分割された単語列は、単語連鎖の頻度をクラスNグラムと同様に計測することで、確率モデル化された言語モデルとなる。
【0078】
クラス依存単語Nグラム蓄積部124は、クラス依存単語Nグラム生成部123が生成したクラス依存単語Nグラムを蓄積する。このクラス依存単語Nグラム蓄積部124に蓄積されたクラス依存単語Nグラムは、音声認識の際に単語列仮説生成部80に参照される。
【0079】
単語列クラス定義生成部125は、クラスコーパスの形態素解析結果から共通の性質を持つ単語列をクラスとして定義した単語列クラスの定義を生成する。具体的には、単語列クラス定義生成部125は、形態素単位に解析された単語列から、共通の性質を持つ単語列をクラスとする単語列クラスの定義を生成する。ここで、単語列クラスには、titleを集めた単語列であるコーパスに「天気予報」、「太陽を撃て」等があり、「天気−予報」、「太陽−を−撃て」などの単語列は<title>クラスであると定義する。
【0080】
単語列クラス定義蓄積部126は、単語列クラス定義生成部125が生成した単語列クラス定義を蓄積する。この単語列クラス定義は、上記クラスNグラムの生成の際にクラスNグラム生成蓄積部11のクラスNグラム生成部113によって参照される。
【0081】
つまり、単語列クラス定義生成部125は、<CS>−天気、天気−予報、予報−<CE>、<CS>−太陽、太陽−を、を−撃て、撃て−<CE>、<CS>−知床、知床−の、の−神秘、神秘−<CE>、…については、「title」であると定義し、<CS>−チャーリー−海−<CE>、<CS>−池乃−キンギョ−<CE>…については、人名であると定義する。そして、単語列クラス定義生成部125は、図9に示されるように単語列とその単語列クラスを対応付けて単語列クラス定義蓄積部126に蓄積する。これによって、クラスNグラム生成部113は、適切な単語列クラスを取得することができる。
【0082】
次に、入力された音声を逐次認識する認識処理について説明する。
図10は、音声認識処理の動作を示すフローチャートである。
【0083】
音響処理部40は、マイクロフォン等から入力された音声を取得すると(S11)、その音声を特徴パラメータに変換する(S12)。ここで、特徴パラメータには、線形予測分析から得られるLPCケプストラムや、MFCC(Mel Filtered Cepstrum Coefficient)がある。特徴パラメータに変換されると、単語照合部50は、音響モデル部60および単語辞書部70を参照して、単語辞書内の各単語とマッチングし、単語の発声区間と単語の音響尤度とからなる単語仮説群に変換する(S13)。ここで、音響モデルには単語音声の確率モデルであるHMM(Hidden Markov Model)などがあり、入力音声の特徴パラメータが音節等の音響的な単位である音響尤度を与える。また、マッチングのアルゴリズムにはビタビアルゴリズムなどがある。
【0084】
次に、単語列仮説生成部80は、全ての単語仮説群について(S14)、単語区間を考慮して接続された単語列仮説に組み上げられ、クラスNグラムおよびクラス依存単語Nグラムを参照して、後述する言語尤度を付与する。このようにして、単語照合部50は、音響尤度および単語列仮説生成部80による言語尤度から求まる一次式により評価された尺度(得点)を用いて、序列をつけた単語列候補を評価する(S15,16)。より詳しくは、ある単語列仮説がa,b,c,dである場合、単語列仮説生成部80は、図11に示されるように、クラスを含まない単語列<SS>−a−b−c−d−<SE>の確率P(a,b,c,d)、aがクラスCであるとした単語列<SS>−C−b−c−d−<SE>の確率P(C,b,c,d)・P(a|C)、a,bがクラスCであるとした単語列P(C,c,d)・P(a,b|C)、…、a,b,c,dがクラスCであるとした単語列<SS>−C−<SE>の確率P(a,b,c,d|C)を総当たり的に評価する。そして、単語列仮説生成部80は、音声認識結果として得点の最大値maxを選び出し、音声認識処理を終了する。
【0085】
なお、この実施の形態1では単語照合が終わってから単語列仮説の生成を行うように説明をしたが、単語照合と単語列仮説の生成とを同時進行的に進めることが可能である。
【0086】
次いで、言語尤度の計算方法について述べる。
なお、ここでは先行単語を1単語用いる場合で説明するが、先行単語を2単語用いる場合についても同様に実施可能である。
【0087】
まず、任意の単語列W1,W2,…,WLの言語尤度は、下記に示される式(6)によって計算する。
【0088】
【数6】
【0089】
上式(6)右辺の確率は、下記に示される式(7)で求める。
【0090】
【数7】
【0091】
ここで、P1はクラスNグラムによる確率、P2はクラス依存単語Nグラムによる確率である。また、共通の性質を持つ単語列に対して同じクラス記号を与えたものである単語列クラスに含まれる単語をクラス単語、それ以外の単語を一般単語とした。ただし、一般的には、特定の単語が、クラス単語であるか一般単語であるかの判断が困難であるため、式(7)の4つの確率を足したものを左辺の値としてもよい。
【0092】
以上のように求められた言語尤度が、組み上げられた単語列仮説に付加され、単語列候補に序列をつけ、認識結果として出力される。
【0093】
以下に、テレビ番組名である「太陽を撃て」を録画する場合の「明日の太陽を撃てを録画」という発声を例に、従来の計算例と、本発明の計算式とを示すことで違いを明確にするとともに、本発明の効果を示す。
【0094】
まず、例文を単語の列に分割する3つの方法を説明する。
第1に、テレビ番組名を1単語として扱う場合の「明日−の−太陽を撃て−を−録画」と、
第2に、テレビ番組名を3単語に分割して扱う場合の「明日−の−太陽−を−撃て−を−録画」とがあり、
まず、単語2グラムモデルにより、
第1の場合について、式(8)により計算する。
【0095】
【数8】
【0096】
このモデルでは、「太陽を撃て」と同様に複数の単語の組み合わせからなるテレビ番組名の数が多くなり、認識辞書が大きくなってしまう。
【0097】
次に、第2の場合の単語2グラムモデルについて、式(9)により計算する。
【0098】
【数9】
【0099】
これらの各確率は、テレビ番組名を含んだ文表現コーパス蓄積部111から学習することになるが、学習データを十分に準備することは困難であるから、データ量が不十分な学習データとなり、一部の単語系列に対して音響的な確率ではなく、言語的な確率、単語の連鎖に関する確率の精度が劣化する。
【0100】
式(9)では特に、テレビ番組名と前の単語の文脈P(太陽|の)、テレビ番組名と後の単語の文脈P(を|撃て)、テレビ番組名の中の文脈P(を|太陽)、P(撃て|を)の確率は信頼性が低い。
【0101】
このようなデータ量が不十分による問題に対処するために、単語をクラス化して用いることができる。
【0102】
第1の場合について、テレビ番組名部分をクラスとして扱うと、下記に示される式(10)が得られる。
【0103】
【数10】
【0104】
これは、テレビ番組名の前後の文脈が、P(<title>|の)とP(を|<title>)で表されるために、データ量が不十分による問題に対処できるが、やはり「太陽を撃て」と同様のテレビ番組名の数が多くなり、認識辞書が大きくなってしまう。
【0105】
さらに、第3の方法として、従来例3を用いると、下記に示される式(11)が得られる。
【0106】
【数11】
【0107】
これは、テレビ番組名の前後の文脈が、P(<title>|の)とP(を|<title>)で表されるために、データ量が不十分による問題に対処できて、かつ、テレビ番組名が音節列で表されるために認識辞書も小さい。
【0108】
しかし、テレビ番組名を音節列で表すために、制約がゆるく、認識精度が得られない。特に、テレビ番組名が長い場合に、全ての音節を正しく認識することは困難である。
【0109】
従来例3は数音節を1単位として用いることもできるが、形態素である単語等の単位であれば、意味的な役割や構文的な役割と結びつくが、発音を表す音節の列は、結びつかなかったり、同音異義語が共有されたりするなどの問題がある。
【0110】
これらに対して、本発明の実施の形態1では、下記に示される式(12)として計算する。
【0111】
【数12】
【0112】
これは、テレビ番組名の前後の文脈が、P(<title>|の)と、P(を|<title>)とで表されるために、データ量が不十分による問題に対処できて、かつ、テレビ番組名が形態素列で表されるために認識辞書(クラスNグラム蓄積部114およびクラス依存単語Nグラム蓄積部124)も小さい。しかも、テレビ番組名を形態素列で表すために、音節列で表す場合と比較して高い認識性能を確保できる。
【0113】
さらに、テレビ番組名部分の確率は、他の部分と比較して確率が低く、認識され難いという問題に対しては、クラスNグラムによる確率の代表的な値と、クラス依存単語Nグラムによる確率の代表的な値の差分を、クラス依存単語Nグラムによる確率に対してオフセットとして加え、発声区間全体において音声認識の尤度計算終了後、オフセット分を差し引くことで、他の音声認識結果候補の尤度との調節ができ、認識精度が上昇する。
【0114】
(実施の形態2)
図12は、本発明の実施の形態2に係る音声認識装置の機能構成を示すブロック図である。なお、実施の形態1の言語モデル生成蓄積装置10および音声認識装置1の構成と対応する部分に同じ番号を付し、その説明を省略する。
【0115】
図12に示されるように、音声認識装置2は、上記した音声認識装置1の言語モデル生成蓄積装置10に代えて用いられる言語モデル生成蓄積装置20と、音響処理部40と、単語照合部50と、音響モデル部60と、単語辞書部70と、単語列仮説生成部80とを備える。
【0116】
言語モデル生成蓄積装置20は、言語モデルを作成する事前処理において、構文解析アルゴリズムを用いて文表現の構文を解析することにより、クラスNグラムおよびクラス依存単語Nグラムを作成するものであり、テキストである文表現を構文解析し、文章の構造を階層的に表した構文木とする構文木生成部21と、入力された文表現から、クラスNグラムを生成、蓄積する構文木用クラスNグラム生成蓄積部22と、入力された文表現から、クラス依存単語Nグラムを生成、蓄積する構文木用クラス依存単語Nグラム生成蓄積部23とを備えて構成される。なお、構文木用クラスNグラム生成蓄積部22と、構文木用クラス依存単語Nグラム生成蓄積部23とは、単語列仮説生成部80の要求に応じて、クラスNグラムおよびクラス依存単語Nグラムを単語列仮説生成部80に出力する。
【0117】
次に、構文木生成部21について詳細に説明する。
図13は、構文木生成部21の機能構成を示すブロック図である。
【0118】
図13に示されるように、構文木生成部21は、上述した文表現コーパス蓄積部111、文表現用形態素解析部112の他、構文解析部211と、構文木分割部212とを備えて構成される。
【0119】
構文解析部211は、形態素解析された文の構文を解析する。
構文木分割部212は、構文木中のノードを選択するノード選択部を示し、選択されたノードから上層を構成する第1の部分木と下層を構成する第2の部分木とに構文木を分割する。
【0120】
例えば、文表現コーパス蓄積部111に「彼は駅まで歩くと言った」が蓄積されている場合、文表現用形態素解析部112は、「彼−は−駅−まで−歩く−と−言っ−た」と解析する。構文解析部211は、CYK法などの公知の構文解析アルゴリズムにより解析し、図16(a)に示されるように、文章の構造を表した構文解析結果である構文木を取得する。なお、図16(a)において、S801は文、SS807はサブ文、PP802は後置句、VP803は動詞句、NP804は名詞句、P805は後置詞、V808は動詞、N806は名詞、T809は時制を表す。
【0121】
ここで、構文木分割部212においてノード「SS807」を選択するように予め設定されており、構文木分割部212は、ノード「SS807」に相当する部分を仮想的な単語として、「SS」と置き換え、図16(b)に示されるように、2階層の構文木に変換する。なお、図16(b)において、810は選択されたSSノードから上層を構成する第1の部分木を示し、811は選択されたSSノードから下層を構成する第2の部分木を示す。
【0122】
次に、構文木分割部212は、第1の部分木810である「彼−は−SS−と−言っ−た」を構文木用クラスNグラム生成蓄積部22に出力し、第2の部分木811である「駅−まで−歩く」を構文木用クラス依存単語Nグラム生成蓄積部23に出力する。
【0123】
次いで、構文木用クラスNグラム生成蓄積部22について詳細に説明する。
図14は、構文木用クラスNグラム生成蓄積部22の機能構成を示すブロック図である。
【0124】
図14に示されるように構文木用クラスNグラム生成蓄積部22は、構文木用クラスNグラム生成部221と、構文木用クラスNグラム蓄積部222とから構成される。
【0125】
構文木用クラスNグラム生成部221は、構文木分割部212が単語とみなした「SS」を含む各単語に条件付き確率を付加することによりクラスNグラムを生成する。構文木用クラスNグラム蓄積部222は、構文木用クラスNグラム生成部221が生成したクラスNグラムを蓄積する。
【0126】
次いで構文木用クラス依存単語Nグラム生成蓄積部23について説明する。
図15は、構文木用クラス依存単語Nグラム生成蓄積部23の機能構成を示すブロック図である。
【0127】
図15に示されるように、構文木用クラス依存単語Nグラム生成蓄積部23は、構文木用クラス依存単語Nグラム生成部231と、構文木用クラス依存単語Nグラム蓄積部232とから構成される。
【0128】
構文木用クラス依存単語Nグラム生成部231は、構文木分割部212が単語とみなした「SS」を構成する単語に条件付き確率を付加することによりクラス依存単語Nグラムを生成する。構文木用クラス依存単語Nグラム蓄積部232は、構文木用クラス依存単語Nグラム生成部231が生成したクラス依存単語Nグラムを蓄積する。
【0129】
このようにして得られるクラスNグラムとクラス依存単語Nグラムとにより、実施の形態1の場合と同様に、SSを含む長い文脈と、SSの中の短い文脈とを同時に扱うことができる。しかも、構文木分割部212でSSの中の短い文脈を分割するので、実施の形態1の場合のようにクラスコーパス蓄積部121を用意する必要がなくなる。
【0130】
なお、図16に示した2階層の「基本的な単語Nグラム」に入れ子構造を導入した例で説明したが、従来の他のNグラムのバリエーションとの組み合わせも実施可能である。
【0131】
例えば、タイトルクラス内を表す単語Nグラムを、似た性質を持つ単語集合でクラス化したクラスNグラムで表し、よくある単語連鎖を接続した可変長単位で表すことも可能である。
【0132】
また、上位階層および下位階層の2階層に限らず、より多くの階層や再起的な入れ子構造、例えば、「彼は駅まで歩いたと思ったと言った」は、「彼は「「駅まで歩いた」と思った」と言った」と分割することも可能である。
【0133】
また、クラスNグラムとクラス依存単語Nグラムとを分けずに、共通の一つの言語モデルで表すことも可能である。
【0134】
(実施の形態3)
図17は、本発明の実施の形態3に係る音声認識装置の機能構成を示すブロック図である。なお、図2と同じ番号を付しているブロックの認識処理は、実施の形態1の音声認識装置1と同様の動作であるのため、ここでの説明は省略する。
【0135】
図17に示されるように、音声認識装置3は、音響処理部40や、単語照合部50、音響モデル部60、単語辞書部70、単語列仮説生成部80の他、言語モデル装置30および単語が単語列クラスの構成単語であるか否かを判定する認識用除外単語判定部90を備えて構成される。
【0136】
認識用除外単語判定部90は、単語列クラスの生起確率に基づく言語尤度の計算において、クラス依存単語Nグラムのみによる計算を行うか、クラス依存モーラNグラムも参照して計算を行うかを判定するものである。
【0137】
言語モデル装置30は、クラスNグラムを生成し、生成したクラスNグラムを蓄積するクラスNグラム生成蓄積部31と、クラス依存単語Nグラムを生成し、生成したクラス依存単語Nグラムを蓄積するクラス依存単語Nグラム生成蓄積部32と、クラス依存モーラNグラムを生成し、生成したクラス依存モーラNグラムを蓄積するクラス依存モーラNグラム生成蓄積部33とから構成される。
【0138】
実施の形態3による音声認識装置3は、音声認識装置1と同様に、言語モデルを作成する事前処理と、入力された音声を逐次認識する認識処理とに大別される。
【0139】
次に、言語モデルを作成する事前処理について説明する。
言語モデルは、単語列クラスを含む文脈であるテキストを評価するクラスNグラムと、単語列クラスを構成する単語列を処理するクラス依存単語Nグラムおよびクラス依存モーラNグラムとがあり、認識処理を実行する前に作成する。
【0140】
まず、クラスNグラムの生成について、詳細に説明する。
図18は、クラスNグラム生成蓄積部31の機能構成を示すブロック図である。なお、図18において図3と同じ番号の付されているブロックは、実施の形態1に示したものと同様のものである。
【0141】
図18に示されるように、クラスNグラム生成蓄積部31は、文表現コーパス蓄積部111や、文表現用形態素解析部112の他、クラス依存単語Nグラム生成蓄積部32において予め取得された単語列クラス定義を参照して、形態素解析結果から単語列クラスおよび一般の単語の属するクラスの連鎖の統計量を求めて、クラス連鎖確率を求めるクラス連鎖モデル生成部311と、単語のクラスから各々の単語が出力される確率を求める単語出力モデル生成部312と、クラス連鎖モデル生成部311によるモデルと、単語出力モデル生成部312によるモデルを合わせてクラスNグラムとして蓄積するクラスNグラム蓄積部313とから構成される。
【0142】
クラスNグラム生成蓄積部31における処理は、実施の形態1において図3に示したものと同様であり、文表現コーパス蓄積部111が蓄積している「明日の天気予報を録画して」などの比較的長い文表現であるテキストを、文表現用形態素解析部112に入力し、テキストから意味を有する最小の言語単位である形態素を解析し、この結果をクラス連鎖モデル生成部311および単語出力モデル生成部312に出力する。
【0143】
クラス連鎖モデル生成部311は、後述するクラス依存単語Nグラム生成蓄積部32に蓄積された単語列クラスに属する単語列が存在する場合には、これを単語列クラスを示す仮想的なシンボルに変換し、また、そうでない通常の単語については、各単語の属するクラスを示すシンボルに変換する。このようにして得られたクラスシンボルの系列に対して、これらの連鎖の統計量を求めることで、クラス連鎖モデルを生成する。
【0144】
また、単語出力モデル生成部312は、形態素解析結果の単語列から、単語列クラスに属する単語を除いた全ての単語について、単語の出現数と、それぞれの単語の属するクラスの出現数の統計量を求め、クラスに対して単語が出現する確率を求めて、単語出力モデルとする。
【0145】
これら2つのモデルは、クラスNグラム蓄積部313に格納されて、単語列仮説生成部80において、式(13)に示した言語尤度の計算において参照される。
【0146】
例えば、文表現の「明日の天気予報を録画して」は、形態素解析により「<SS>−明日−の−天気−予報−を−録画−して−<SE>」となる。今仮に、<title>という単語列クラスに「天気−予報」が定義されているとすると、クラス連鎖モデル生成部311において、形態素単位に分割された文表現は、「<SS>−明日−の−<title>−を−録画−して−<SE>」と置き換えられる。さらに、通常の単語についてもクラスへの書き換えが行われて、「<SS>−<名詞>−<格助詞>−<title>−<格助詞>−<サ変名詞>−<動詞>−<SE>」などに置き換えられる。クラス連鎖モデル生成部311は、文表現コーパスからこのような系列を生成し、クラスC1の後にクラスC2の続く確率などを求めることのできるクラス連鎖モデルを生成する。
【0147】
単語出力モデル生成部312においては、文表現コーパスの形態素解析結果の単語系列と、クラスシンボルに置き換えたクラス系列を元に、単語列クラスを除く単語について、クラスの出現回数とそれに該当する単語の出現回数の統計を取る。例えば、上記例であれば、<格助詞>の出現回数は2回であり、このクラスに属する具体的な単語の出現回数は、「の」が1回、「を」が1回といったカウントを行う。この結果から、クラスCにおいて単語Wが出現する確率などを求めることのできる、単語出力モデルが生成される。
【0148】
なお、上記例においては、一般の単語の属するクラスとして文法的な知識に基づくクラスを用いる場合を示したが、統計的に自動分類されたクラスを用いることも有効である。また、クラス連鎖モデルの例では、1つ前を先行するクラスを条件とする確率モデルの例を示したが、2つ前、3つ前のクラスを条件とする確率モデルとすることも可能である。
【0149】
次に、クラス依存単語Nグラムの生成について、説明する。
図19は、クラス依存単語Nグラム生成蓄積部32の内部機能構成を示すブロック図である。なお、図6と同一の番号を付されたブロックは実施の形態1において図6と共に示したものと同様であり、これらについては説明を割愛する。
【0150】
図19に示されるように、クラス依存単語Nグラム生成蓄積部32は、クラスコーパス蓄積部121や、クラス用形態素解析部122、単語列クラス定義生成部125、単語列クラス定義蓄積部126の他、単語列クラスの除外単語をモデル作成の際に判定するモデル作成用除外単語判定部321と、クラス依存単語Nグラムを生成するクラス依存単語Nグラム生成部322とから構成される。
【0151】
クラス依存単語Nグラム生成蓄積部32における処理は、実施の形態1に示したものと同様、まず、クラス用形態素解析部122において、クラスコーパス蓄積部121が蓄積している単語列を形態素解析し、単語に切り分ける。そして単語列クラス定義生成部125において、切り分けられた単語をもとに単語列クラス定義を生成して、単語列クラス定義蓄積部126に格納する。同時に、モデル作成用除外単語判定部321において、形態素に解析された単語について、単語のまま用いるか、除外単語とするかを判定する。そして、モデル作成用除外単語判定部321において除外単語と判定した場合、その除外単語の置き換えと、その除外単語を発音に対応するモーラに切り分ける置き換えとが行われる。
【0152】
例えば「知床−の−神秘」なる単語列において、モデル作成用除外単語判定部321における除外条件が<地名>であった場合、「<地名>−の−神秘」と書き換えられる一方、「<MS>−シ−レ−ト−コ−<ME>」とモーラの列に書き換えられる。ただし<MS>、<ME>は、除外単語のモーラ列の開始と終了を示す、仮想的なシンボルである。
【0153】
なお、「モーラ」(ここでは、日本語のモーラ、英語においては類似する音響単位として「シラブル」が存在する。)とは、日本語で1音(1拍)と考えられている音韻のことであり、日本語をひらかな表記した時のひらかな1文字1文字に概ね対応する。また、俳句の 5・7・5をカウントする時の1音に対応する。ただし、拗音(小さいゃゅょの付く音)、促音(小さい っ/つまった音)、撥音(ん) については、1音(1拍)として発音されるか否かによって、独立した1つのモーラとして取り扱われたり、そうでなかったりする。例えば、「東京」であれば、4つのモーラ「と」、「う」、「きょ」、「う」から構成され、「札幌」であれば、4つのモーラ「さ」、「っ」、「ぽ」、「ろ」から構成され、「群馬」であれば、3つのモーラ「ぐ」、「ん」、「ま」から構成される。
【0154】
クラス依存単語Nグラム生成部322は、除外単語部分を別の仮想的なシンボルに置き換えた単語の系列を、クラスコーパス中の多数のデータから求め、これを元に、それら単語列クラスにおける単語連鎖の頻度を確率モデル化し、クラス依存単語Nグラムを生成する。クラス依存単語Nグラム蓄積部124は、このクラス依存単語Nグラムが蓄積され、単語列仮説生成部80において、単語列クラスの生起確率の計算のために参照される。なお本実施の形態では、クラス依存単語Nグラムは単語列クラス内の単語の連鎖確率をモデル化するものとして示したが、前記のクラスNグラムのモデル生成でも示したように、一旦、単語を単語の属するクラスに置き換えて、クラスの連鎖確率とクラス−単語の出力確率の2種類の確率によってモデル化してもよい。
【0155】
次に、クラス依存モーラNグラムの生成について説明する。
図20は、クラス依存モーラNグラム生成蓄積部33の内部機能構成を示すブロック図である。
【0156】
図20に示されるように、クラス依存モーラNグラム生成蓄積部33は、
クラス依存単語Nグラム生成蓄積部32のモデル作成用除外単語判定部321から出力された除外単語の読みに相当するモーラの系列に基づいて、かかるモーラ列から除外単語におけるモーラの連鎖をモデル化するクラス依存モーラNグラム生成部331と、生成されたクラス依存モーラNグラムを蓄積するクラス依存モーラNグラム蓄積部332とから構成される。
【0157】
クラス依存モーラNグラム生成蓄積部33における処理は、まず、クラス依存単語Nグラム生成蓄積部32におけるモデル作成用除外単語判定部321において、除外単語と判定された単語の読みに相当するモーラの系列(例えば、「<MS>−シ−レ−ト−コ−<ME>」)がクラス依存モーラNグラム生成部331に入力されると、クラス依存モーラNグラム生成部331では、モーラ列に書き換えられたコーパス中の多数の除外単語が入力されて、モーラの連鎖の統計量が計算され、モーラ連鎖確率を示すモデルが生成される。具体的には、クラス依存モーラNグラム生成部331は、単語2グラムモデルの場合、モーラについて、<MS>−シ、シ−レ、レ−ト、ト−コ、コ−<ME>、…の頻度をそれぞれ求め、(M1,M2の連鎖頻度)/(M1の頻度)を計算することにより、それぞれの確率P(M2|M1)を求める。ただし、M1,M2は、それぞれのモーラを示す。そして、クラス依存モーラNグラム生成部331は、図21に示されるようにモーラ連鎖とその確率を対応付けてクラス依存モーラNグラム蓄積部332に蓄積する。
【0158】
クラス依存モーラNグラム蓄積部332では、生成されたクラス依存モーラNグラムが蓄積され、単語列仮説生成部80において、単語列クラスの生起確率の計算のために参照される。
【0159】
なお、本実施の形態3では、クラス依存単語Nグラムの生成とクラス依存モーラNグラムの生成に、実施の形態1と同一のクラスコーパス蓄積部121を利用するものとしたが、両者のモデルの生成のために、それぞれ異なるコーパスを用いてモデルを生成することも可能である。
【0160】
認識処理における動作は、音声認識装置1の場合と同様に、音声入力に対して単語照合部50において単語照合がなされて単語仮説が生成され、単語列仮説生成部80において、単語区間を考慮した単語候補の接続と、単語系列に基づいた言語尤度の加算が行われて、単語列候補に対するスコアが計算される。ここにおいて、特定の単語列クラスに属する単語列に対しては、認識用除外単語判定部90における除外単語の判断がなされ、クラス依存単語Nグラム生成蓄積部32に蓄積されたクラス依存単語Nグラム又は、クラス依存モーラNグラム生成蓄積部33に蓄積されたクラス依存モーラNグラムが参照されて言語尤度の計算が行われる。
【0161】
ここで、本実施の形態3における言語尤度の計算方法を述べる。
単語列クラスを含む任意の単語列W1,W2,…,Wi,…,Wnに対して、それぞれの単語の属するクラスを、C1,C2,…,Cu,…,Cmとする。ただし、クラスCは単語列クラスである場合も含むものとする。単語列W1〜Wnの中に単語列クラスに対応する系列が含まれており、これが部分列Wj,…,Wkに対応するものとする。この時、単語列W1〜Wnの言語尤度は、下記に示される式(13)により計算される。
【0162】
【数13】
【0163】
ただし、P(Cu|Cu−1)およびP(Wi|Cu)は、クラスNグラムにより計算される確率である。Pc()は単語列クラスの生起確率であり、下記に示される式(14)により計算される。
【0164】
【数14】
【0165】
ただし、P(Wi|Wi−1,Cu)およびP(<除外単語>|Wi−1,Cu)は、クラス依存単語Nグラムによって計算される確率である。
【0166】
また、Ma・・・MbはWiの発音に対応するモーラ列を示しており、Pm()はクラス依存モーラNグラムにより計算される確率である。
【0167】
認識用除外単語判定部90は、上記確率計算式(14)を第1形式において行うか、第2形式において行うかを判断する。この場合の判断基準は単語列クラスCuおよび当該単語Wiの言語的属性などの情報を用いる。ここで言う言語的属性とは、例えばWiが地名を示す固有名詞であるか否かといったものをさす。このように除外単語の判定を行って、除外単語であると判定されたものについては、モーラのごとく単語よりも短い単位に切り分けることで単語列クラスを表現するために、全ての単語を辞書に登録しておく必要がなく、またクラス依存単語Nグラムも、あらゆる単語についての連鎖を考慮する必要がなくなるので、単語列クラスのコンパクトで高性能なモデル化が可能となる。
【0168】
次に、具体的な例によって上記言語尤度の計算の例を示す。
例えば、単語列クラスとしてのタイトルクラスが含まれる例として、「太陽−を−撃て−を−見る」では、次のように言語尤度が、下記に示される式(15)により計算される。
【0169】
【数15】
【0170】
ただし、<SS>および<SE>は、文頭および文末を意味する仮想的なシンボルである。また、<CS>および<CE>は単語列クラスの開始および終了を示す仮想的なシンボルである。ここで、タイトルクラス「太陽−を−撃て」の生起確率に基づく言語尤度は下記に示される式(16)によって計算される。
【0171】
【数16】
【0172】
上記例においては単語列クラスであるタイトルクラス中に除外単語が含まれていないと仮定しており、クラス依存モーラNグラムは参照されていない。
【0173】
次に単語列クラス中に除外単語が含まれる例として、「知床−の−神秘−を−見る」の場合について、言語尤度の計算法を下記に示される式(17)によって示す。
【0174】
【数17】
【0175】
ここで、タイトルクラスにおいて、地名を示す固有名詞は除外単語であるとすると、「知床−の−神秘」の生起確率に基づく言語尤度は下記に示される式(18)によって計算される。
【0176】
【数18】
【0177】
ただし、<MS>および<ME>は、除外単語におけるモーラ系列の開始および終了を意味する仮想的なシンボルである。さら除外単語の生起確率Pm()は、クラス依存モーラNグラムに基づいて、言語尤度が下記に示される式(19)によって計算される。
【0178】
【数19】
【0179】
つまり、「知床−の−神秘−を−見る」の場合、図22に示されるように、<SS>−<title>−を−見る−<SE>の単語列について尤度が求められる。そして、<title>については、除外単語−の−神秘の単語列について尤度が求められる。さらに、除外単語については、<MS>−シ−レ−ト−コ−<ME>のモーラ列について尤度が求められる。このように言語尤度を計算することで、タイトルクラスに含まれうる全ての地名に基づいてクラス依存単語Nグラムを構築しなくとも、タイトルに含まれる地名を認識することが可能となる。
【0180】
なお、本実施の形態3では、クラスNグラム、クラス依存単語Nグラム、クラス依存モーラNグラムの全てにおいて、直前の単語(モーラ)から当該単語(モーラ)へ連接する確率を用いる例を示したが、より長い履歴(例えば、2つ前まで、3つ前までなど)を考慮した確率モデルであってもよい。また上記言語モデルの言語単位は、単語(モーラ)を用いた例を示したが、連結単語(連結モーラ)を言語単位に含むモデルであってもよい。
【0181】
また、単語クラスの例として、ここではタイトルクラスを示したが、この他、「総務省行政管理局」といった組織名クラス、「東名高速道路 海老名サービスエリア」といった施設名クラスなどを用いることも可能である。
【0182】
さらに、単語列クラス中の除外単語として上記例では、「知床」のような地名を示したが、その他、「一郎」のような人名、「塩爺」のような流行語・新語、その他、種類数が多いなどの理由により、認識辞書に登録されていない単語や、統計的に除外単語としてモデル化することの効果が高いと判断された単語を対象とすることも有効である。
【0183】
最後に、認識用除外単語判定部90について述べる。
認識用除外単語判定部90は、単語列クラスの生起確率に基づく言語尤度の計算において、クラス依存単語Nグラムのみによる計算を行うか、クラス依存モーラNグラムも参照して計算を行うかを判定するものである。認識用除外単語判定部90での判定規則は、各種言語モデルの生成と同様、事前に決定されているべきものである。判定規則の例としては、本実施の形態の例で示したように、単語列クラス内における、地名単語であるか否かといった規則が挙げられる。これについては、前述した通り、「一郎」のような人名、「塩爺」のような流行語・新語、その他、種類数が多いなどの理由により、認識辞書に登録されていない単語や、統計的に除外単語としてモデル化することの効果が高いと判断された単語を対象とすることも有効である。また、クラス依存単語Nグラム生成蓄積部32に含まれるモデル作成用除外単語判定部321は、前記の認識用除外単語判定部90と同一か又は同一の規則を蓄えるブロックであることが望ましい。しかし、言語モデルの構築時と認識時で意図的に除外単語の判定規則を異なるものにするという利用法も可能である。
【0184】
なお、本実施の形態では、クラスNグラム言語モデル、クラス依存単語Nグラム言語モデル、クラス依存モーラNグラムの構築に、テキストコーパスを形態素解析した結果を利用する例を示したが、実施の形態2に示したように、テキストコーパスを形態素解析し、さらに構文解析した結果から、クラスNグラム構築用の構文木と、クラス依存単語Nグラム構築用の構文木を求め、さらに構文的な条件を加味して除外単語判定ルールを設けて、これを元に、クラス依存モーラNグラム構築用のデータを抽出して、各々言語モデルを構築することも有効である。この場合、構文木の上位層の構文木が構文木用クラスNグラム生成蓄積部に入力され、下位層の構文木のうち、除外単語判定部によって除外単語と判定された単語を、判定理由に関連する仮想シンボルに置き換えた構文木が、構文木用クラス依存単語Nグラム生成構築部に入力され、除外単語判定部によって除外された単語が判定理由ごとにまとめられて、構文木用クラス依存モーラNグラム生成蓄積部に入力されて、夫々の言語モデルが構築される。
【0185】
(実施の形態4)
次に、本発明の実施の形態4について説明する。本実施の形態4による音声認識装置は、
実施の形態1(図2)に示した、クラスNグラム生成蓄積部に蓄積されたクラスNグラムおよびクラス依存単語Nグラム生成蓄積部に蓄積されたクラス依存単語Nグラムを用いて、単語仮説を生成し認識結果を出力する点では、全く同様である。実施の形態1との相違点は、クラス依存単語Nグラム生成蓄積部がクラスコーパスの動的な変更に対応可能となっている点にある。
【0186】
本実施の形態4におけるクラス依存単語Nグラム生成蓄積部の構成図を図23に示す。その他の図6と同じ番号を付与したブロックは、実施の形態1に示した処理と同じ処理を行うものとする。
【0187】
図23に示されるように、クラス依存単語Nグラム生成蓄積部13は、電話回線やインターネットなどの通信手段によってクラス依存単語Nグラム構築に必要なコーパスを取得するクラスコーパス取得部131をさらに備える。
【0188】
次に、本実施の形態4におけるクラス依存単語Nグラムの構築について説明する。
クラス依存単語Nグラム生成蓄積部は、予め定められた時間間隔に基づくトリガや、ユーザ操作に基づくトリガなどのトリガ信号によって、クラスコーパス取得部131によってクラスコーパスを取得する。取得されたクラスコーパスは実施の形態1に示したものと同様に、クラス用形態素解析部122およびクラス依存単語Nグラム生成部123によって、クラス依存単語Nグラムが生成される。
【0189】
このように、クラス依存Nグラムを動的に更新できるようにすることの効果は、本実施の形態による音声認識装置を、例えばテレビ番組案内システムに用いた場合に顕著である。例えばテレビ番組案内システムへのユーザの発話、「明日−の−太陽を撃て−を−録画−して」という文に対して、クラスNグラムモデルが「明日−の−<番組名>−を−録画−して」という言い回しをモデル化しており、クラス依存単語Nグラムが「太陽−を−撃て」という番組名クラスをモデル化しているとする。この時、言い回し文型自体は時間による変化が少ないのに対して、番組名は日々放映される番組が変化するため大きく変化する。よって、必要に応じて番組名コーパスを再取得し、番組名に対応するクラス依存単語Nグラムを再構築することにより、番組名を認識するためのモデルが最新のものに最適化されることになる。一方、言い回し文型に対応するクラスNグラムは、時間による変化が少ないため更新する必要はなく、事前にオフラインで構築しておいたクラスNグラムを蓄積するだけでよいため、計算リソースとハードウェアリソースの削減を可能とする。
【0190】
なお本実施の形態4では、効果を示す例としてテレビ番組案内システムへの適用を示したが、その他、Webサイトの案内システム、図書の案内システム、カーナビゲーションシステムなどへの適用も効果的である。
【0191】
また、本実施の形態では、下位のNグラムモデルである、クラス依存単語Nグラム言語モデルのみを更新する例を示したが、上位Nグラム言語モデルのみを更新する、あるいは、上位と下位Nグラム言語モデルを夫々に応じたタイミングで更新するという方法も可能である。
【0192】
さらに、本実施の形態では、クラスNグラム言語モデルおよびクラス依存単語Nグラム言語モデルを、夫々のモデル構築用のコーパスを用いてオンラインで構築する例を示したが、別途オフラインで構築した夫々の言語モデルを、最適なタイミングで取得し、これを用いる方法も可能である。
【産業上の利用可能性】
【0193】
本発明は、機器への入力手段として音声認識技術を利用する種々の電子機器、例えばテレビ、ビデオなどのAV機器、カーナビゲーションシステムなどの車載機器、PDAや携帯電話機などの携帯情報端末などに利用することができ、その産業用の利用可能性は非常に広くかつ大きい。
【図面の簡単な説明】
【0194】
【図1】図1は、従来の音声認識装置を示す図である。
【図2】図2は、本発明第1の実施の形態による音声認識装置の構成を示す図である。
【図3】図3は、本発明第1の実施の形態によるクラスNグラム生成蓄積部の構成を示す図である。
【図4】図4は、文表現コーパス蓄積部111の構成例を示す図である。
【図5】図5は、クラスNグラム蓄積部114の構成例を示す図である。
【図6】図6は、本発明第1の実施の形態によるクラス依存単語Nグラム生成蓄積部の構成を示す図である。
【図7】図7は、クラスコーパス蓄積部121の構成例を示す図である。
【図8】図8は、クラス依存単語Nグラム蓄積部124の構成例を示す図である。
【図9】図9は、単語列クラス定義蓄積部126の構成例を示す図である。
【図10】図10は、音声認識処理の動作を示すフローチャートである。
【図11】図11は、単語列仮説生成部80における単語列仮説の評価を示す図である。
【図12】図12は、第2の実施の形態による音声認識装置の構成を示す図である。
【図13】図13は、第2の実施の形態による構文木生成部の構成を示す図である。
【図14】図14は、第2の実施の形態による構文木用クラスNグラム生成蓄積部の構成を示す図である。
【図15】図15は、第2の実施の形態による構文木用クラス依存単語Nグラム生成蓄積部の構成を示す図である。
【図16】図16(a)は、第2の実施の形態による構文解析結果を示す図である。図16(b)は、第2の実施の形態による構文木の分割を示す図である。
【図17】図17は、第3の実施の形態における音声認識装置の構成を示す図である。
【図18】図18は、第3の実施の形態によるクラスNグラム生成蓄積部の構成を示す図である。
【図19】図19は、第3の実施の形態によるクラス依存単語Nグラム生成蓄積部の構成を示す図である。
【図20】図20は、第3の実施の形態によるクラス依存モーラNグラム生成蓄積部の構成を示す図である。
【図21】図21は、クラス依存モーラNグラム蓄積部332の構成例を示す図である。
【図22】図22は、単語列仮説生成部80における単語列の評価の様子を示す図である。
【図23】図23は、第4の実施の形態によるクラス依存単語Nグラム生成蓄積部の構成を示す図である。
Claims (30)
- 音声認識用の言語モデルを生成し、蓄積する言語モデル生成蓄積装置であって、
複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルを生成し、蓄積する上位Nグラム言語モデル生成蓄積手段と、
前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルを生成し、蓄積する下位Nグラム言語モデル生成蓄積手段と
を備えることを特徴とする言語モデル生成蓄積装置。 - 前記上位Nグラム言語モデル生成蓄積手段と、前記下位Nグラム言語モデル生成蓄積手段とは、異なるコーパスを用いて言語モデルをそれぞれ生成する
ことを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、下位Nグラム言語モデル用のコーパスを更新するコーパス更新手段を有し、
下位Nグラム言語モデル生成蓄積手段は、更新されたコーパスに基づいて下位Nグラム言語モデルを更新生成する
ことを特徴とする請求の範囲第2項記載の言語モデル生成蓄積装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスの単語の系列を意味を有する最小の言語単位である2以上の形態素に解析し、当該単語列クラスに依存して当該形態素の系列をモデル化することにより前記下位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 前記上位Nグラム言語モデル生成蓄積手段は、形態素に解析されたテキストに含まれる前記単語列クラスを仮想的な仮想単語に置き換え、当該仮想単語および各単語からなる系列をモデル化することにより前記上位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスに出現する単語のうち、特定の単語を単語列クラスの構成単語に含めない除外単語とするか否かをその言語的特性に基づいて判断し、判断の結果前記除外単語について単語の読みに対応するモーラおよびモーラを結合した単位に切り分ける除外単語判断手段を有し、
前記言語モデル生成蓄積装置は、さらに
前記モーラおよびモーラを結合した単位の系列をモデル化して、確率の対数値である言語尤度を前記単語列クラス又は該除外単語の言語的特性に依存して付与することによりクラス依存モーラNグラムを生成し、蓄積するクラス依存モーラNグラム生成蓄積手段
を備えることを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Nグラム言語モデル生成蓄積手段は、前記着目したノードから上層を構成する第1の部分木を用いて構文木用の前記上位Nグラム言語モデルを生成し、
前記下位Nグラム言語モデル生成蓄積手段は、前記着目したノードから下層を構成する第2の部分木を用いて生成された構文木用の下位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記第2の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Nグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第7項記載の言語モデル生成蓄積装置。 - 前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Nグラム言語モデル生成蓄積手段は、前記構文木の最上位層を構成する第1の部分木を用いて前記上位Nグラム言語モデルを生成し、
前記下位Nグラム言語モデル生成蓄積手段は、第2より下位の層を構成する各部分木を、より上位の層における該部分木の位置付けに基づいて分類し、夫々の分類ごとの部分木を用いて前記下位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記第2の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Nグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第9項記載の言語モデル生成蓄積装置。 - 前記上位Nグラム言語モデル生成蓄積手段は、前記単語列クラスを含むN個の単語列とその単語の系列が生起する確率とを対応付けて上位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスを構成する単語の長さNの連鎖とその単語連鎖が生起する確率とを対応付けて下位Nグラム言語モデルを生成する
ことを特徴とする請求の範囲第1項記載の言語モデル生成蓄積装置。 - 発声された単語の系列を認識する音声認識装置であって、
複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルと、
前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルと
を用いて音声を認識することを特徴とする音声認識装置。 - 発声された単語の系列を認識する音声認識装置であって、
音声認識用の言語モデルを生成し、蓄積する言語モデル生成蓄積装置を備え、
前記言語モデル生成蓄積装置は、
複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルを生成し、蓄積する上位Nグラム言語モデル生成蓄積手段と、
前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルを生成し、蓄積する下位Nグラム言語モデル生成蓄積手段とを有し、
前記上位Nグラム言語モデル生成蓄積手段によって蓄積される上位Nグラム言語モデルと、前記下位Nグラム言語モデル生成蓄積手段によって蓄積される下位Nグラム言語モデルとを用いて音声を認識することを特徴とする音声認識装置。 - 前記上位Nグラム言語モデルと、前記下位Nグラム言語モデルとは、異なるコーパスを用いてそれぞれ生成され、
前記音声認識装置は、異なるコーパスを用いてそれぞれ構築された前記上位Nグラム言語モデルと、前記下位Nグラム言語モデルとを用いて音声を認識する
ことを特徴とする請求の範囲第14項記載の音声認識装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、下位Nグラム言語モデル用のコーパスを更新するコーパス更新手段を有し、
下位Nグラム言語モデル生成蓄積手段は、更新されたコーパスに基づいて下位Nグラム言語モデルを更新生成し、
前記音声認識装置は、更新された前記下位Nグラム言語モデルを用いて音声を認識する
ことを特徴とする請求の範囲第15項記載の音声認識装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスの単語の系列を意味を有する最小の言語単位である2以上の形態素に解析し、当該単語列クラスに依存して当該形態素の系列をモデル化することにより前記下位Nグラム言語モデルを生成し、
前記音声認識装置は、前記形態素の系列にモデル化された前記下位Nグラム言語モデルを用いて音声を認識する
ことを特徴とする請求の範囲第14項記載の音声認識装置。 - 前記上位Nグラム言語モデル生成蓄積手段は、形態素に解析されたテキストに含まれる前記単語列クラスを仮想的な仮想単語に置き換え、当該仮想単語および各単語からなる系列をモデル化することにより前記上位Nグラム言語モデルを生成し、
前記音声認識装置は、前記仮想単語および各単語からなる系列にモデル化された前記上位Nグラム言語モデルを用いて音声を認識する
ことを特徴とする請求の範囲第14項記載の音声認識装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスに出現する単語のうち、特定の単語を単語列クラスの構成単語に含めない除外単語とするか否かをその言語的特性に基づいて判断し、判断の結果前記除外単語について単語の読みに対応するモーラおよびモーラを結合した単位に切り分ける除外単語判断手段を有し、
前記言語モデル生成蓄積装置は、さらに
前記モーラおよびモーラを結合した単位の系列をモデル化して、確率の対数値である言語尤度を前記単語列クラス又は該除外単語の言語的特性に依存して付与することによりクラス依存モーラNグラムを生成し、蓄積するクラス依存モーラNグラム生成蓄積手段を備え、
前記音声認識装置は、前記クラス依存モーラNグラムを用いて音声を認識する
ことを特徴とする請求の範囲第18項記載の音声認識装置。 - 前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Nグラム言語モデル生成蓄積手段は、前記着目したノードから上層を構成する第1の部分木を用いて構文木用の前記上位Nグラム言語モデルを生成し、
前記下位Nグラム言語モデル生成蓄積手段は、前記着目したノードから下層を構成する第2の部分木を用いて生成された構文木用の下位Nグラム言語モデルを生成し、
前記音声認識装置は、
音声から特徴パラメータを生成する音響処理手段と、
単語の発音および音響的特徴を照合し、単語の発声区間および単語の音響尤度を含む単語仮説群を生成する単語照合手段と、
構文木用の前記上位Nグラム言語モデルと構文木用の下位Nグラム言語モデルとを参照し、前記単語仮設群から単語列仮説を生成し、音声の認識結果を生成する単語列仮説生成手段と
を備えることを特徴とする請求の範囲第19項記載の音声認識装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記第2の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Nグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Nグラム言語モデルを生成し、
前記単語列仮説生成手段は、音声の認識結果を生成する
ことを特徴とする請求の範囲第20項記載の音声認識装置。 - 前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Nグラム言語モデル生成蓄積手段は、前記構文木の最上位層を構成する第1の部分木を用いて前記上位Nグラム言語モデルを生成し、
前記下位Nグラム言語モデル生成蓄積手段は、第2より下位の層を構成する各部分木を、より上位の層における該部分木の位置付けに基づいて分類し、夫々の分類ごとの部分木を用いて前記下位Nグラム言語モデルを生成し、
前記音声認識装置は、第1の部分木を用いて生成された前記上位Nグラム言語モデルと第2より下位の層を構成する各部分木を用いて生成された前記下位Nグラム言語モデルとを用いて音声を認識する
ことを特徴とする請求の範囲第14項記載の音声認識装置。 - 前記下位Nグラム言語モデル生成蓄積手段は、前記第2の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Nグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、当該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Nグラム言語モデルを生成し、
前記音声認識装置は、前記除外単語を含めない前記上位Nグラム言語モデルと前記除外単語を含めた前記下位Nグラム言語モデルとを用いて音声を認識する
ことを特徴とする請求の範囲第22項記載の音声認識装置。 - 前記上位Nグラム言語モデル生成蓄積手段は、前記単語列クラスを含む長さNの単語連鎖とその単語連鎖が生起する確率とを対応付けて上位Nグラム言語モデルを生成し、
前記音声認識装置は、前記単語列クラスを含むN個の単語列が生起する確率を乗算することにより単語列仮説を評価する単語列仮説生成手段を有する
ことを特徴とする請求の範囲第14項記載の音声認識装置。 - 下位Nグラム言語モデル生成蓄積手段は、前記単語列クラスを構成する単語の長さNの単語連鎖とその単語連鎖が生起する確率とを対応付けて下位Nグラム言語モデルを生成し、
前記音声認識装置は、前記単語列クラス内のN個の単語列が生起する確率を乗算することにより単語列仮説を評価する単語列仮説生成手段を有する
ことを特徴とする請求の範囲第14項記載の音声認識装置。 - 音声認識用の言語モデルを生成する言語モデル生成方法であって、
複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルを生成する上位Nグラム言語モデル生成ステップと、
前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルを生成する下位Nグラム言語モデル生成ステップと
を含むことを特徴とする言語モデル生成方法。 - 発声された単語の系列を認識する音声認識方法であって、
複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルと、前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルとを用いて音声を認識することを特徴とする音声認識装方法。 - 発声された単語の系列を認識する音声認識方法であって、
前記音声認識方法は、
2以上の単語からなる単語列の言語的特性を示す単語列を単語列クラスとしてまとめ、該単語列クラスを、構成単語間の言語的な関係に基づき該単語列クラスに依存してモデル化したクラス依存単語Nグラムによって、確率の対数値である言語尤度を付与するステップと、
テキストを単語および上記単語列クラスに解析し、該単語および単語列クラスの系列を言語的な関係に基づきモデル化したクラスNグラムによって、確率の対数値である言語尤度を付与するステップと、
連続した音声から抽出された特徴パラメータに、単語の発音および音響的特徴を照合し、単語の発声区間および単語の音響尤度を含む単語仮説群を生成し、前記クラスNグラムおよび前記クラス依存単語Nグラムを参照し、前記単語仮設群から単語列仮説を生成し、音声の認識結果を出力するステップと
を含むことを特徴とする音声認識方法。 - 音声認識用の言語モデルを生成する言語モデル生成方法を実行するためのプログラムであって、
複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルを生成する上位Nグラム言語モデル生成ステップと、
前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルを生成する下位Nグラム言語モデル生成ステップと
をコンピュータに実行させることを特徴とするプログラム。 - 発声された単語の系列を認識する音声認識方法を実行するためのプログラムであって、
複数のテキストを、2以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Nグラム言語モデルと、前記単語列クラス内の2以上の単語の系列をモデル化した下位Nグラム言語モデルとを用いて音声を認識するステップをコンピュータに実行させることを特徴とするプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002294500 | 2002-10-08 | ||
JP2002294500 | 2002-10-08 | ||
JP2003276844 | 2003-07-18 | ||
JP2003276844 | 2003-07-18 | ||
PCT/JP2003/012701 WO2004034378A1 (ja) | 2002-10-08 | 2003-10-03 | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3696231B2 true JP3696231B2 (ja) | 2005-09-14 |
JPWO2004034378A1 JPWO2004034378A1 (ja) | 2006-02-09 |
Family
ID=32095402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005501015A Expired - Lifetime JP3696231B2 (ja) | 2002-10-08 | 2003-10-03 | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20050256715A1 (ja) |
EP (1) | EP1551007A4 (ja) |
JP (1) | JP3696231B2 (ja) |
AU (1) | AU2003271083A1 (ja) |
WO (1) | WO2004034378A1 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3768205B2 (ja) * | 2003-05-30 | 2006-04-19 | 沖電気工業株式会社 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
US20080077870A1 (en) * | 2004-01-09 | 2008-03-27 | Suzanne Napoleon | Method and apparatus for producing structured sgml/xml student compositions |
US7693715B2 (en) * | 2004-03-10 | 2010-04-06 | Microsoft Corporation | Generating large units of graphonemes with mutual information criterion for letter to sound conversion |
JP4732030B2 (ja) * | 2005-06-30 | 2011-07-27 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
US7912716B2 (en) * | 2005-10-06 | 2011-03-22 | Sony Online Entertainment Llc | Generating words and names using N-grams of phonemes |
US7729901B2 (en) * | 2005-12-13 | 2010-06-01 | Yahoo! Inc. | System for classifying words |
US9025890B2 (en) * | 2006-05-26 | 2015-05-05 | Nec Corporation | Information classification device, information classification method, and information classification program |
WO2007138875A1 (ja) * | 2006-05-31 | 2007-12-06 | Nec Corporation | 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム |
US9299345B1 (en) * | 2006-06-20 | 2016-03-29 | At&T Intellectual Property Ii, L.P. | Bootstrapping language models for spoken dialog systems using the world wide web |
US7774197B1 (en) | 2006-09-27 | 2010-08-10 | Raytheon Bbn Technologies Corp. | Modular approach to building large language models |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
US8639509B2 (en) * | 2007-07-27 | 2014-01-28 | Robert Bosch Gmbh | Method and system for computing or determining confidence scores for parse trees at all levels |
KR100925479B1 (ko) | 2007-09-19 | 2009-11-06 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
US8301446B2 (en) * | 2009-03-30 | 2012-10-30 | Adacel Systems, Inc. | System and method for training an acoustic model with reduced feature space variation |
EP2851895A3 (en) | 2011-06-30 | 2015-05-06 | Google, Inc. | Speech recognition using variable-length context |
US20130086059A1 (en) * | 2011-10-03 | 2013-04-04 | Nuance Communications, Inc. | Method for Discovering Key Entities and Concepts in Data |
US9009025B1 (en) | 2011-12-27 | 2015-04-14 | Amazon Technologies, Inc. | Context-based utterance recognition |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
CN103631771A (zh) * | 2012-08-28 | 2014-03-12 | 株式会社东芝 | 改进语言模型的方法及装置 |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
CN103971677B (zh) * | 2013-02-01 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
JP2015084047A (ja) * | 2013-10-25 | 2015-04-30 | 株式会社東芝 | 文集合作成装置、文集合作成方法および文集合作成プログラム |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
EP2950306A1 (en) * | 2014-05-29 | 2015-12-02 | Samsung Electronics Polska Spolka z organiczona odpowiedzialnoscia | A method and system for building a language model |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
JP6004452B2 (ja) * | 2014-07-24 | 2016-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9703394B2 (en) * | 2015-03-24 | 2017-07-11 | Google Inc. | Unlearning techniques for adaptive language models in text entry |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
CN108885617B (zh) * | 2016-03-23 | 2022-05-31 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
US9594741B1 (en) * | 2016-06-12 | 2017-03-14 | Apple Inc. | Learning new words |
CN107861937B (zh) * | 2016-09-21 | 2023-02-03 | 松下知识产权经营株式会社 | 对译语料库的更新方法、更新装置以及记录介质 |
EP3451330A1 (en) | 2017-08-31 | 2019-03-06 | Thomson Licensing | Apparatus and method for residential speaker recognition |
US10362409B1 (en) * | 2018-03-06 | 2019-07-23 | Qualcomm Incorporated | Adjustable laser microphone |
KR20220010259A (ko) * | 2020-07-17 | 2022-01-25 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4797930A (en) * | 1983-11-03 | 1989-01-10 | Texas Instruments Incorporated | constructed syllable pitch patterns from phonological linguistic unit string data |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
JP3875357B2 (ja) * | 1996-08-02 | 2007-01-31 | 富士通株式会社 | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 |
IL119948A (en) * | 1996-12-31 | 2004-09-27 | News Datacom Ltd | Voice activated communication system and program guide |
US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
JP3004254B2 (ja) * | 1998-06-12 | 2000-01-31 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
US6839669B1 (en) * | 1998-11-05 | 2005-01-04 | Scansoft, Inc. | Performing actions identified in recognized speech |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6584458B1 (en) * | 1999-02-19 | 2003-06-24 | Novell, Inc. | Method and apparatuses for creating a full text index accommodating child words |
JP2000259175A (ja) * | 1999-03-08 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置 |
US6311152B1 (en) * | 1999-04-08 | 2001-10-30 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
EP1224569A4 (en) * | 1999-05-28 | 2005-08-10 | Sehda Inc | PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
JP3415585B2 (ja) * | 1999-12-17 | 2003-06-09 | 株式会社国際電気通信基礎技術研究所 | 統計的言語モデル生成装置、音声認識装置及び情報検索処理装置 |
US20020042707A1 (en) * | 2000-06-19 | 2002-04-11 | Gang Zhao | Grammar-packaged parsing |
US7092871B2 (en) * | 2000-07-20 | 2006-08-15 | Microsoft Corporation | Tokenizer for a natural language processing system |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
-
2003
- 2003-10-03 JP JP2005501015A patent/JP3696231B2/ja not_active Expired - Lifetime
- 2003-10-03 WO PCT/JP2003/012701 patent/WO2004034378A1/ja active Application Filing
- 2003-10-03 US US10/520,922 patent/US20050256715A1/en not_active Abandoned
- 2003-10-03 EP EP03751317A patent/EP1551007A4/en not_active Withdrawn
- 2003-10-03 AU AU2003271083A patent/AU2003271083A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP1551007A1 (en) | 2005-07-06 |
AU2003271083A1 (en) | 2004-05-04 |
US20050256715A1 (en) | 2005-11-17 |
WO2004034378A1 (ja) | 2004-04-22 |
JPWO2004034378A1 (ja) | 2006-02-09 |
EP1551007A4 (en) | 2008-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3696231B2 (ja) | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US9934777B1 (en) | Customized speech processing language models | |
US10134388B1 (en) | Word generation for speech recognition | |
US7634407B2 (en) | Method and apparatus for indexing speech | |
US7831425B2 (en) | Time-anchored posterior indexing of speech | |
EP1949260B1 (en) | Speech index pruning | |
US7809568B2 (en) | Indexing and searching speech with text meta-data | |
US7634406B2 (en) | System and method for identifying semantic intent from acoustic information | |
JP3716870B2 (ja) | 音声認識装置および音声認識方法 | |
JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
US10381000B1 (en) | Compressed finite state transducers for automatic speech recognition | |
EP1575030A1 (en) | New-word pronunciation learning using a pronunciation graph | |
JPH06318096A (ja) | 言語モデリング・システム及び言語モデルを形成する方法 | |
WO2005122144A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP2008293019A (ja) | 言語理解装置 | |
US7401019B2 (en) | Phonetic fragment search in speech data | |
JP2011164336A (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
Daines | An Architecture for Scalable, Universal Speech Recognition | |
Zitouni et al. | Statistical language modeling based on variable-length sequences | |
Ravi et al. | Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals | |
Zhang | Strategies for Handling Out-of-Vocabulary Words in Automatic Speech Recognition | |
Hasegawa-Johnson et al. | Fast transcription of speech in low-resource languages | |
JP2002149188A (ja) | 自然言語処理装置および自然言語処理方法、並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050628 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3696231 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090708 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090708 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100708 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110708 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120708 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120708 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130708 Year of fee payment: 8 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |