JP3696231B2

JP3696231B2 - 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法

Info

Publication number: JP3696231B2
Application number: JP2005501015A
Authority: JP
Inventors: 純幸沖本; 充遠藤; 誠西▲ざき▼
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2002-10-08
Filing date: 2003-10-03
Publication date: 2005-09-14
Anticipated expiration: 2023-10-03
Also published as: EP1551007A1; AU2003271083A1; US20050256715A1; WO2004034378A1; JPWO2004034378A1; EP1551007A4

Description

【技術分野】
【０００１】
本発明は、言語モデル生成蓄積装置、音声認識装置等に関し、特に、統計的言語モデルを用いた音声認識装置および音声認識方法等に関するものである。
【背景技術】
【０００２】
近年、音声認識装置において、その性能を高めるために言語モデルを用いる方法が研究されている。
【０００３】
言語モデルとしては、基本的な単語２グラム又は単語３グラムの単語Ｎグラムモデルが広く用いられている（例えば、非特許文献１参照）。
【０００４】
ここで、単語Ｎグラムを用いた言語尤度の計算について説明する。
まず、単語列Ｗ１，Ｗ２，…，ＷＬの言語尤度ｌｏｇＰ（Ｗ１，Ｗ２，…，ＷＬ）は、条件付き確率を用いて下記に示される式（１）で表される。
【０００５】
【数１】

【０００６】
式（１）右辺の条件付き確率Ｐ｛Ｗｉ｜Ｗ１，Ｗ２，…，Ｗ（ｉ−１）｝は、先行単語列Ｗ１，Ｗ２，…，Ｗ（ｉ−１）の後に当該単語Ｗｉが生起する確率であり、この先行単語列をＮ−１個で近似するのが単語Ｎグラムモデルである。そして、先行単語列を１個で近似する単語２グラムでは、下記に示される式（２）の近似式で表される。
【０００７】
【数２】

【０００８】
同様に、先行単語列を２個で近似する単語３グラムでは、下記に示される式（３）の近似式で表される。
【０００９】
【数３】

【００１０】
音声認識の際には、認識途中の単語列候補に対して、単語音声の確率モデルであるＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）等の音響モデルを用いて音響尤度を求め、さらに上記のようにして言語尤度を求め、それらを重み付き加算した総合尤度で単語列候補に序列をつけて、音声認識を行う。
【００１１】
ところで、Ｎグラムモデルには多種のバリエーションがあるが、ここでは、特に本件と関連性のある３つの従来技術を以下に説明する。
【００１２】
Ｎグラムモデルの第１バリエーションとして、単語集団の中で、共通の性質を持つものをクラス化して確率を計算するものがある（例えば、特許文献１参照）。なお、この技術を、以下「第１の従来例」とも記す。この第１の従来例のクラスＮグラムモデルでは、単語Ｎグラムがクラスを用いて式（４）のように近似される（Ｎ＝２の場合）。ここで、Ｃｉはクラス化した単語を示す。
【００１３】
【数４】

【００１４】
クラスを介して言語尤度を求めることで、学習データの少ない単語列に対して言語尤度の精度が悪いというデータ量が不十分による問題に対して効果がある。
【００１５】
次に、Ｎグラムモデルの第２バリエーションとして、頻度の高い単語列を接続した新しい可変長単位を作り、可変長単位間のＮグラムを用いるものがある（例えば、特許文献２参照）。なお、この技術を、以下「第２の従来例」とも記す。この第２の従来例のクラスＮグラムモデルは、単位に関する工夫であり、式（２）および式（４）に従う。この第２の従来例によれば、１単語よりも長い単位を用いることで、より長い文脈を考慮した言語尤度を求めることができる。
【００１６】
さらに、Ｎグラムモデルの第３バリエーションとして、クラスＮグラムにおける名前等の一部のクラスを単語ではなく、音節等のより細かい単位の列として、別のＮグラムで表したものがある（例えば特許文献３参照）。なお、この技術を、以下「第３の従来例」とも記す。つまり、この第３の従来例は、式（４）の右辺第２項を下記に示される式（５）のように近似するものである。
【００１７】
【数５】

【００１８】
ここで、Ｐ１，Ｐ２，…，Ｐｊは、単語の発音を表す単位の列を示す。
式（５）の右辺は、さらに、音節の並びに関する確率と、単語内の音節数に関する確率の積として表すことで、高精度化され、名前等の数が多いクラスを効率的に表すことができる。
【００１９】
以上の全ての場合について、確率値は、学習用のテキストコーパスを処理して、機械的に求めることができる。
【００２０】
図１は、第３の従来例による音声認識装置の機能構成を示すブロック図である。
図１に示されるように、音声認識装置９００は、入力音声を取り込んで特徴パラメータを抽出する音響処理部９０１と、特徴パラメータと単語とを照合する音響尤度計算部９１０と、話者の音響的特徴をモデル化した音響モデル部９１１と、認識単語の発音を記述した単語辞書部９１２と、クラスＮグラムおよびクラス依存音節Ｎグラムを参照して単語列仮説を生成する単語列仮説生成部９２０と、単語の文脈を評価するクラスＮグラム蓄積部９２１５と、音節の文脈を評価するクラス依存音節Ｎグラム蓄積部９２２３と、認識対象となる文表現を多数蓄積した文表現コーパス蓄積部９２１１と、文表現を形態素解析する形態素解析部９２１２と、単語又は単語クラスの連鎖の統計量からクラスＮグラムを生成するクラスＮグラム生成部９２１３と、共通の性質を持つ単語をクラスとして定義した単語クラス定義部９２１４と、名前を蓄積した名前辞書部９２２１と、音節の連鎖の統計量を求めてクラス依存音節Ｎグラムを生成するクラス依存音節Ｎグラム生成部９２２２とから構成される。
【００２１】
次に、動作について説明する。この動作は、言語モデルを作成する事前処理と、入力された音声を逐次認識する認識処理とに大別される。
【００２２】
まず、言語モデルを作成する事前処理について説明する。
文表現コーパス蓄積部９２１１は、文表現を予め蓄積している。形態素解析部９２１２は、文表現コーパス蓄積部９２１１に蓄積されている文表現を形態素解析し、形態素である単語単位に分割する。クラスＮグラム生成部９２１３は、単語クラス定義部９２１４を参照して、形態素解析済みのコーパス中の単語を単語クラスに置き換え、単語又は単語クラスの連鎖の統計量を求めてクラスＮグラムを生成する。クラスＮグラム蓄積部９２１５は、単語又は単語クラスの連鎖の統計量を蓄積する。
【００２３】
一方、名前辞書部９２２１は、名前の読みである音節列を予め蓄積する。クラス依存音節Ｎグラム生成部９２２２は、名前辞書部９２２１に蓄積されている名前の読みである音節列から音節の連鎖の統計量を求めてクラス依存音節Ｎグラムを生成する。クラス依存音節Ｎグラム蓄積部９２２３は、音節の連鎖の統計量を蓄積する。
【００２４】
次いで、入力された音声を逐次認識する認識処理について、以下に説明する。
入力された音声は、音響処理部９０１で処理され、特徴パラメータに変換される。特徴パラメータは、音響尤度計算部９１０により、音響モデル部９１１と単語辞書部９１２とを参照して、単語辞書内の各単語とマッチングされ、単語の発声区間と単語の音響尤度とからなる単語仮説群が出力される。単語仮説群は、単語列仮説生成部９２０において、単語列仮説に組み上げられ、クラスＮグラムとクラス依存音節Ｎグラムとを参照して、式（１）〜式（５）により計算される言語尤度を加えられる。
【００２５】
このようにして、音響尤度と言語尤度の一次式により評価された尺度で序列をつけ単語列候補が認識結果となる。
【非特許文献１】
大附、森、松岡、古井、白井：“新聞記事を用いた大語彙音声認識の検討”信学技報、ＳＰ９５−９０（１９９５−１２）
【特許文献１】
特開２０００−２５９１７５号公報（第５−９頁、第１図）
【特許文献２】
特許第３００４２５４号公報（第４−１９頁、第１図）
【特許文献３】
特開２００１−２３６０８９号公報（第４−１１頁、第１図）
【００２６】
音声認識装置は、認識精度を高くするための言語的推定精度の向上が要求されている。
【００２７】
しかし、従来の方法は、テレビ番組や、映画のタイトル、例えば、「月に向かって飛べ」や、「太陽を撃て」などのように、前後の単語に対しては１単語としての第１の性質と、内部の表現としては複数の単語としての第２の性質との二つの性質を有するものの処理については言語的推定精度の向上が困難であるという問題があった。
【００２８】
すなわち、タイトル＝１単語として扱うと、単語の種類が多いために認識辞書が大きくなってしまう。一方、タイトル＝単語列として扱うと、タイトルの前後を含む文脈は２グラムや３グラムの範疇外であるため、制約が緩慢になる。より具体的には、第１の従来例および第２の従来例においては、単位を決めた後は、その単位の２、３個分の文脈を考慮するので、単位の長さに応じて制約が緩慢又は辞書の増加という問題のどちらかに直面する。また、第３の従来例においては、タイトルを前後の単語に対しては１単語として扱うが、タイトル内の処理は発音列としてモデル化するという二重構造であるために、長いタイトルの発音に対する推定精度に限界がある。
【００２９】
そこで、本発明は、テレビ番組のタイトルのように１単語と複数単語の二重の性質を持つものを扱え、言語尤度の推定精度と、認識辞書のコンパクト性とを両立し、認識精度を高めることができる言語モデル生成蓄積装置および音声認識装置等を提供することを目的とする。
【発明の開示】
【００３０】
上記目的を達成するために、本発明に係る言語モデル生成蓄積装置においては、音声認識用の言語モデルを生成し、蓄積する言語モデル生成蓄積装置であって、複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルを生成し、蓄積する上位Ｎグラム言語モデル生成蓄積手段と、前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルを生成し、蓄積する下位Ｎグラム言語モデル生成蓄積手段とを備えることを特徴とする。
【００３１】
このため、言語尤度を計算する際に、共通の性質を持つ単語列を単語列クラスとして扱い、入れ子構造を持ったＮグラムを用いて、前後の単語に対しては上位階層のクラスＮグラムにより１単位として扱い、クラス内は下位階層の単語Ｎグラムにより単語列として扱うことができる。これにより、長い文脈、単語列クラスを構成する単語列に対する言語尤度の推定精度と、認識辞書のコンパクト性を両立した言語モデル生成蓄積装置ひいては音声認識装置を得ることができる。
【００３２】
また、本発明に係る言語モデル生成蓄積装置においては、前記上位Ｎグラム言語モデル生成蓄積手段と、前記下位Ｎグラム言語モデル生成蓄積手段とは、異なるコーパスを用いて言語モデルをそれぞれ生成することを特徴とすることもできる。
【００３３】
これにより、上位の言語モデルと下位の言語モデルをそれぞれ独立に構築することが可能となるため、コーパス収集が容易となる。また語彙の変化等による言語モデルの再構築が必要な場合においても、関連する上位又は下位の言語モデルのみの再構築でよいことになり、言語モデルのメンテナンスが容易となるという効果を有する。
【００３４】
また、前記下位Ｎグラム言語モデル生成蓄積手段は、下位Ｎグラム言語モデル用のコーパスを更新するコーパス更新手段を有し、下位Ｎグラム言語モデル生成蓄積手段は、更新されたコーパスに基づいて下位Ｎグラム言語モデルを更新生成することを特徴とする構成としてもよい。
【００３５】
これにより、コーパスに新番組のタイトルの自動登録等が可能となり、言語モデルのメンテナンスがさらに容易となるという効果を有する。
【００３６】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスの単語の系列を意味を有する最小の言語単位である２以上の形態素に解析し、当該単語列クラスに依存して当該形態素の系列をモデル化することにより前記下位Ｎグラム言語モデルを生成することを特徴とする構成とすることもできる。
【００３７】
これにより、単語列クラスを構成する単語列からクラス依存単語Ｎグラムを求めることができるため、十分な学習データ量を確保でき、高い認識精度が得られるという作用を有する。
【００３８】
また、本発明に係る言語モデル生成蓄積装置においては、前記上位Ｎグラム言語モデル生成蓄積手段は、形態素に解析されたテキストに含まれる前記単語列クラスを仮想的な仮想単語に置き換え、当該仮想単語および各単語からなる系列をモデル化することにより前記上位Ｎグラム言語モデルを生成することを特徴としてもよい。
【００３９】
これにより、単語列クラスの定義を合わせた単語列クラスを含むテキストと、単語列クラスを構成する単語列との両方を考慮し、クラスＮグラムを求めるため、高い認識精度が得られるという作用を有する。
【００４０】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスに出現する単語のうち、特定の単語を単語列クラスの構成単語に含めない除外単語とするか否かをその言語的特性に基づいて判断し、判断の結果前記除外単語について単語の読みに対応するモーラおよびモーラを結合した単位に切り分ける除外単語判断手段を有し、前記言語モデル生成蓄積装置は、さらに前記モーラおよびモーラを結合した単位の系列をモデル化して、確率の対数値である言語尤度を前記単語列クラス又は該除外単語の言語的特性に依存して付与することによりクラス依存モーラＮグラムを生成し、蓄積するクラス依存モーラＮグラム生成蓄積手段を備えることを特徴とすることもできる。
【００４１】
これにより、単語列クラスに含まれる単語の一部をより細かな単位で表現することが可能であるため、音声認識辞書の語彙数の肥大化を避けてあらゆる種類の単語列クラスを高い精度で認識できるという作用を有する。
【００４２】
また、本発明に係る言語モデル生成蓄積装置においては、前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、前記上位Ｎグラム言語モデル生成蓄積手段は、前記着目したノードから上層を構成する第１の部分木を用いて構文木用の前記上位Ｎグラム言語モデルを生成し、前記下位Ｎグラム言語モデル生成蓄積手段は、前記着目したノードから下層を構成する第２の部分木を用いて生成された構文木用の下位Ｎグラム言語モデルを生成することを特徴としてもよい。
【００４３】
これにより、特定のノードに着目することで、構文木を容易に分割することができ、クラスＮグラムによる長い文脈の評価と、クラス依存単語Ｎグラムによる単語列クラスを構成する単語列の評価との両方を考慮することで高い認識精度が得られるという作用を有する。
【００４４】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Ｎグラム言語モデル生成蓄積手段は、前記第２の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、前記下位Ｎグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Ｎグラム言語モデルを生成することを特徴としてもよい。
【００４５】
また、本発明に係る言語モデル生成蓄積装置においては、前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、前記上位Ｎグラム言語モデル生成蓄積手段は、前記構文木の最上位層を構成する第１の部分木を用いて前記上位Ｎグラム言語モデルを生成し、前記下位Ｎグラム言語モデル生成蓄積手段は、第２より下位の層を構成する各部分木を、より上位の層における該部分木の位置付けに基づいて分類し、夫々の分類ごとの部分木を用いて前記下位Ｎグラム言語モデルを生成することを特徴としてもよい。
【００４６】
これにより、構文木生成部における構文解析結果に基づいて、大量のテキストから自動的にクラスＮグラムとクラス依存単語Ｎグラムの両方を生成することができるという作用を有する。
【００４７】
また、本発明に係る言語モデル生成蓄積装置においては、前記下位Ｎグラム言語モデル生成蓄積手段は、前記第２の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、前記下位Ｎグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Ｎグラム言語モデルを生成することを特徴とすることもできる。
【００４８】
これにより、構文中の特定の関係に基づく一部の単語を、単語より小さい単位で表現して認識することが可能となり、また、大量のテキストを構文解析した結果から、該構文中の特定の関係に基づいて、クラス依存モーラＮグラムを自動構築することができるという作用を有する。
【００４９】
また、本発明に係る言語モデル生成蓄積装置においては、前記上位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスを含む長さＮの単語連鎖とその単語連鎖が生起する確率とを対応付けて上位Ｎグラム言語モデルを生成することを特徴としてもよい。
【００５０】
これにより、単語列クラスの生起確率による長い文脈の評価を考慮することで高い認識精度が得られるという作用を有する。
【００５１】
さらに、本発明に係る言語モデル生成蓄積装置においては、下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスを構成する単語の長さＮの連鎖とその単語連鎖が生起する確率とを対応付けて下位Ｎグラム言語モデルを生成することを特徴としてもよい。
【００５２】
これにより、単語列クラスを構成する単語列の生起確率による単語列クラスを構成する単語列の評価を考慮することで高い認識精度が得られるという作用を有する。
【００５３】
なお、本発明は、このような言語モデル生成蓄積装置として実現することができるだけでなく、このような言語モデル生成蓄積装置を備える音声認識装置として実現したり、言語モデル生成蓄積装置および音声認識装置が備える特徴的な手段をステップとする言語モデル生成方法および音声認識方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
【００５４】
以上の説明から明らかなように、本発明に係る言語モデル生成蓄積装置および音声認識装置によれば、言語尤度を計算する際に、共通の性質を持つ単語列を単語列クラスとして扱い、入れ子構造を持ったＮグラムを用いて、前後の単語に対しては上位階層のクラスＮグラムにより１単位として扱い、クラス内は下位階層の単語Ｎグラムにより単語列として扱うことが可能となり、これにより、長い文脈、単語列クラスを構成する単語列に対する言語尤度の推定精度と、認識辞書のコンパクト性を両立した言語モデル生成蓄積装置ひいては音声認識装置を得ることが可能になるという効果が奏される。
【００５５】
よって、本発明により、認識精度が高くなり、音声認識対応の家電製品が普及してきた今日における本願発明の実用的価値は極めて高い。
【発明を実施するための最良の形態】
【００５６】
以下、本発明の実施の形態について、図面を参照しながら説明する。
（実施の形態１）
図２は、本発明の実施の形態１に係る音声認識装置の構成を示す機能ブロック図である。
【００５７】
図２に示されるように、音声認識装置１は、言語モデル生成蓄積装置１０と、入力音声を取り込んで特徴パラメータを抽出する音響処理部４０と、特定又は不特定の話者の音響的特徴をモデル化した音響モデル部６０と、認識単語の発音を記述した単語辞書部７０と、音響モデルおよび単語辞書を参照して特徴パラメータおよび単語を照合する単語照合部５０と、言語モデル生成蓄積装置１０のクラスＮグラムとクラス依存単語Ｎグラムとを参照して単語照合結果から単語列仮説を生成し、認識結果を得る単語列仮説生成部８０とを備える。
【００５８】
言語モデル生成蓄積装置１０は、言語的な確率の対数値である言語尤度を単語列クラスを含む文脈に付与するためのクラスＮグラムを生成し、生成したクラスＮグラムを蓄積するクラスＮグラム生成蓄積部１１と、言語的な確率の対数値である言語尤度を単語列クラス内の単語系列に付与するためのクラス依存単語Ｎグラムを生成し、生成したクラス依存単語Ｎグラムを蓄積するクラス依存単語Ｎグラム生成蓄積部１２とから構成される。
【００５９】
次いで、音声認識動作について説明する。この音声認識動作は、言語モデルを作成する事前処理と、入力された音声を逐次認識する認識処理とに大別される。
【００６０】
まず、言語モデル生成蓄積装置１０のクラスＮグラム生成蓄積部１１およびクラス依存単語Ｎグラム生成蓄積部１２の構成を順次説明する。
【００６１】
なお、言語モデルは、単語および単語列クラスの系列を評価するクラスＮグラムと、単語列クラスを構成する単語列を評価するクラス依存単語Ｎグラムとから構成され、音声認識処理を実行する前に予め作成される。
【００６２】
まず、クラスＮグラムの生成について、図３を用いて詳細に説明する。
図３は、クラスＮグラム生成蓄積部１１の機能構成を示すブロック図である。
【００６３】
図３に示されるように、クラスＮグラム生成蓄積部１１は、認識対象となる文表現がテキストとして予め多数蓄積された文表現コーパス蓄積部１１１と、文表現を形態素解析する文表現用形態素解析部１１２と、単語列クラス定義を参照して形態素結果から、単語や単語列クラスの連鎖の統計量を求めてクラスＮグラムを生成するクラスＮグラム生成部１１３と、クラスＮグラムを蓄積し、単語列仮説生成部８０に出力するクラスＮグラム蓄積部１１４とから構成される。
【００６４】
クラスＮグラム生成蓄積部１１の文表現コーパス蓄積部１１１は、認識対象となる文表現のデータライブラリを予め多数蓄積する。
【００６５】
より詳しくは、文表現コーパス蓄積部１１１は、図４に示されるように、「明日の天気予報を録画して」、「明日の太陽を撃てを録画」、「知床の神秘を見る」などの比較的長い文表現であるテキストを予め蓄積する。
【００６６】
文表現用形態素解析部１１２は、文表現コーパス蓄積部１１１が蓄積している「明日の天気予報を録画して」などの比較的長い文表現であるテキストから、意味を有する最小の言語単位である形態素を解析する。例えば、上記文表現の「明日の天気予報を録画して」は、形態素解析により「＜ＳＳ＞−明日−の−天気−予報−を−録画−して−＜ＳＥ＞」となる。同様に、「明日の太陽を撃てを録画」、「知床の神秘を見る」は、「＜ＳＳ＞−明日−の−太陽−を−撃て−を−録画−＜ＳＥ＞」、「＜ＳＳ＞−知床−の−神秘−を−見る−＜ＳＥ＞」となる。ここで、＜ＳＳ＞、＜ＳＥ＞はそれぞれ、文頭、文末を意味する仮想的な単語である。
【００６７】
次に、クラスＮグラム生成部１１３は、形態素に解析されたテキストに含まれる単語列を抽出し、後述するクラス依存単語Ｎグラム生成蓄積部１２から入力される単語列クラスを参照し、該当する単語列クラスが存在する場合は、テキストに含まれる単語列クラスを仮想的な単語に置き換え、単語又は単語列クラスの連鎖の統計量を求めることで単語又は単語列クラスの連鎖とその確率とを対応付けたクラスＮグラムを生成する。形態素単位に分割された文表現は、クラスＮグラム生成部１１３において、単語列クラス定義を参照して、単語列クラス定義にある単語列はクラスを示す仮想的な単語に置き換えた上で、１〜Ｎ個の単語連鎖ごとに頻度を計測し、確率モデルが生成される。このクラスを単語列クラスと呼ぶ。クラスＮグラム生成部１１３によって生成されたクラスＮグラムは、クラスＮグラム蓄積部１１４に蓄積される。
【００６８】
例えば、＜ｔｉｔｌｅ＞という単語列クラスに「天気−予報」が定義されている場合は、形態素解析結果は、「＜ＳＳ＞−明日−の−＜ｔｉｔｌｅ＞−を−録画−して−＜ＳＥ＞」と置き換えられる。同様に、＜ｔｉｔｌｅ＞という単語列クラスに「太陽−を−撃て」、「知床−の−神秘」が定義されている場合は、形態素解析結果は、＜ＳＳ＞−明日−の−＜ｔｉｔｌｅ＞−を−録画＜ＳＥ＞、＜ＳＳ＞−＜ｔｉｔｌｅ＞−を−見る−＜ＳＥ＞にそれぞれ置き換えられる。また、条件付き確率は、単語３グラムモデルの場合、Ｗ３がＷ１−Ｗ２の連鎖に後続する確率は、Ｗ１−Ｗ２−Ｗ３の３つの組の連鎖の頻度を、Ｗ１−Ｗ２の２つの組の連鎖の頻度で割り算するＰ（Ｗ３｜Ｗ１，Ｗ２）＝（Ｗ１，Ｗ２，Ｗ３の連鎖頻度）／（Ｗ１，Ｗ２の連鎖頻度）で求められ、単語２グラムモデルの場合も同様に、Ｐ（Ｗ２｜Ｗ１）＝（Ｗ１，Ｗ２の連鎖頻度）／（Ｗ１の頻度）で求められる。
【００６９】
より詳しくは、単語２グラムモデルの場合、クラスＮグラム生成部１１３は、＜ＳＳ＞−明日、明日−の、の−＜ｔｉｔｌｅ＞、＜ｔｉｔｌｅ＞−を、を−録画、録画−して、して−＜ＳＥ＞、＜ＳＳ＞−明日、明日−の、の−＜ｔｉｔｌｅ＞、＜ｔｉｔｌｅ＞−を、を−録画、録画−＜ＳＥ＞、＜ＳＳ＞−＜ｔｉｔｌｅ＞、＜ｔｉｔｌｅ＞−を、を−見る、見る−＜ＳＥ＞、…の頻度をそれぞれ求め、（Ｗ１，Ｗ２の連鎖頻度）／（Ｗ１の頻度）を計算することにより、それぞれの確率Ｐ（Ｗ２｜Ｗ１）を求める。そして、クラスＮグラム生成部１１３は、図５に示されるように単語の連鎖とその確率を対応付けてクラスＮグラム蓄積部１１４に蓄積する。
【００７０】
これより、各単語連鎖の頻度を計測しておくことで、条件付き確率を計算でき、また、単語列クラスは単語と同様に扱うことができ、単語ごとに条件付き確率が付加された言語モデルとなる。結果として、クラスＮグラムの役割は、「＜ＳＳ＞−明日−の−＜ｔｉｔｌｅ＞−を−録画−して−＜ＳＥ＞」と置き換えることにより、各単語に条件付き確率を付加することができる。
【００７１】
次に、クラス依存単語Ｎグラムの生成について、図６を用いて詳細に説明する。
図６は、クラス依存単語Ｎグラム生成蓄積部１２の機能構成を示すブロック図である。
【００７２】
図６に示されるように、クラス依存単語Ｎグラム生成蓄積部１２は、クラスコーパス蓄積部１２１と、クラス用形態素解析部１２２と、クラス依存単語Ｎグラム生成部１２３と、クラス依存単語Ｎグラム蓄積部１２４と、単語列クラス定義生成部１２５と、単語列クラス定義蓄積部１２６とから構成される。
【００７３】
クラスコーパス蓄積部１２１は、意味的な性質や、構文的な性質が同一である単語列（例えば、テレビ番組のタイトルや、人名等）のデータライブラリを予め蓄積する。
【００７４】
より詳しくは、クラスコーパス蓄積部１２１は、図７に示されるように、「天気予報」、「太陽を撃て」、「知床の神秘」などのタイトルや、「チャーリー海」、「池乃キンギョ」等の単語列を予め蓄積する。このような単語列は、例えばこれから放送される番組表に基づいて予め入力される。
【００７５】
クラス用形態素解析部１２２は、クラスコーパスを形態素解析する。具体的には、クラス用形態素解析部１２２は、クラスコーパス蓄積部１２１が蓄積している「天気予報」の様なテレビ番組名などの比較的短く、共通の性質を持つ単語列を、形態素単位に解析する。例えば、単語列「天気予報」は、形態素解析により「＜ＣＳ＞−天気−予報−＜ＣＥ＞」となる。ここで、＜ＣＳ＞、＜ＣＥ＞はそれぞれ、単語列クラスの始め、単語列クラスの終わりを表す仮想的な単語である。
【００７６】
クラス依存単語Ｎグラム生成部１２３は、形態素解析結果を処理し、単語の連鎖の統計量を求めて、単語列とその確率とを対応付けた情報であるクラス依存単語Ｎグラムを生成する。つまり、クラス依存単語Ｎグラム生成部１２３は、入力された形態素単位の単語列における単語連鎖の頻度を計測し、確率モデル化し、クラス依存単語Ｎグラムを生成し、生成したクラス依存単語Ｎグラムをクラス依存単語Ｎグラム蓄積部１２４に蓄積する。
【００７７】
より詳しくは、単語２グラムモデルの場合、クラス依存単語Ｎグラム生成部１２３は、タイトルについて、＜ＣＳ＞−天気、天気−予報、予報−＜ＣＥ＞、＜ＣＳ＞−太陽、太陽−を、を−撃て、撃て−＜ＣＥ＞、＜ＣＳ＞−知床、知床−の、の−神秘、神秘−＜ＣＥ＞、…の頻度をそれぞれ求め、（Ｗ１，Ｗ２の連鎖頻度）／（Ｗ１の頻度）を計算することにより、それぞれの確率Ｐ（Ｗ２｜Ｗ１）を求める。人名の場合についても、同様である。そして、クラス依存単語Ｎグラム生成部１２３は、図８に示されるように単語列とその確率を対応付けてクラス依存単語Ｎグラム蓄積部１２４に蓄積する。この結果、クラス依存単語Ｎグラム生成部１２３により、形態素に分割された単語列は、単語連鎖の頻度をクラスＮグラムと同様に計測することで、確率モデル化された言語モデルとなる。
【００７８】
クラス依存単語Ｎグラム蓄積部１２４は、クラス依存単語Ｎグラム生成部１２３が生成したクラス依存単語Ｎグラムを蓄積する。このクラス依存単語Ｎグラム蓄積部１２４に蓄積されたクラス依存単語Ｎグラムは、音声認識の際に単語列仮説生成部８０に参照される。
【００７９】
単語列クラス定義生成部１２５は、クラスコーパスの形態素解析結果から共通の性質を持つ単語列をクラスとして定義した単語列クラスの定義を生成する。具体的には、単語列クラス定義生成部１２５は、形態素単位に解析された単語列から、共通の性質を持つ単語列をクラスとする単語列クラスの定義を生成する。ここで、単語列クラスには、ｔｉｔｌｅを集めた単語列であるコーパスに「天気予報」、「太陽を撃て」等があり、「天気−予報」、「太陽−を−撃て」などの単語列は＜ｔｉｔｌｅ＞クラスであると定義する。
【００８０】
単語列クラス定義蓄積部１２６は、単語列クラス定義生成部１２５が生成した単語列クラス定義を蓄積する。この単語列クラス定義は、上記クラスＮグラムの生成の際にクラスＮグラム生成蓄積部１１のクラスＮグラム生成部１１３によって参照される。
【００８１】
つまり、単語列クラス定義生成部１２５は、＜ＣＳ＞−天気、天気−予報、予報−＜ＣＥ＞、＜ＣＳ＞−太陽、太陽−を、を−撃て、撃て−＜ＣＥ＞、＜ＣＳ＞−知床、知床−の、の−神秘、神秘−＜ＣＥ＞、…については、「ｔｉｔｌｅ」であると定義し、＜ＣＳ＞−チャーリー−海−＜ＣＥ＞、＜ＣＳ＞−池乃−キンギョ−＜ＣＥ＞…については、人名であると定義する。そして、単語列クラス定義生成部１２５は、図９に示されるように単語列とその単語列クラスを対応付けて単語列クラス定義蓄積部１２６に蓄積する。これによって、クラスＮグラム生成部１１３は、適切な単語列クラスを取得することができる。
【００８２】
次に、入力された音声を逐次認識する認識処理について説明する。
図１０は、音声認識処理の動作を示すフローチャートである。
【００８３】
音響処理部４０は、マイクロフォン等から入力された音声を取得すると（Ｓ１１）、その音声を特徴パラメータに変換する（Ｓ１２）。ここで、特徴パラメータには、線形予測分析から得られるＬＰＣケプストラムや、ＭＦＣＣ（ＭｅｌＦｉｌｔｅｒｅｄＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）がある。特徴パラメータに変換されると、単語照合部５０は、音響モデル部６０および単語辞書部７０を参照して、単語辞書内の各単語とマッチングし、単語の発声区間と単語の音響尤度とからなる単語仮説群に変換する（Ｓ１３）。ここで、音響モデルには単語音声の確率モデルであるＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などがあり、入力音声の特徴パラメータが音節等の音響的な単位である音響尤度を与える。また、マッチングのアルゴリズムにはビタビアルゴリズムなどがある。
【００８４】
次に、単語列仮説生成部８０は、全ての単語仮説群について（Ｓ１４）、単語区間を考慮して接続された単語列仮説に組み上げられ、クラスＮグラムおよびクラス依存単語Ｎグラムを参照して、後述する言語尤度を付与する。このようにして、単語照合部５０は、音響尤度および単語列仮説生成部８０による言語尤度から求まる一次式により評価された尺度（得点）を用いて、序列をつけた単語列候補を評価する（Ｓ１５，１６）。より詳しくは、ある単語列仮説がａ，ｂ，ｃ，ｄである場合、単語列仮説生成部８０は、図１１に示されるように、クラスを含まない単語列＜ＳＳ＞−ａ−ｂ−ｃ−ｄ−＜ＳＥ＞の確率Ｐ（ａ，ｂ，ｃ，ｄ）、ａがクラスＣであるとした単語列＜ＳＳ＞−Ｃ−ｂ−ｃ−ｄ−＜ＳＥ＞の確率Ｐ（Ｃ，ｂ，ｃ，ｄ）・Ｐ（ａ｜Ｃ）、ａ，ｂがクラスＣであるとした単語列Ｐ（Ｃ，ｃ，ｄ）・Ｐ（ａ，ｂ｜Ｃ）、…、ａ，ｂ，ｃ，ｄがクラスＣであるとした単語列＜ＳＳ＞−Ｃ−＜ＳＥ＞の確率Ｐ（ａ，ｂ，ｃ，ｄ｜Ｃ）を総当たり的に評価する。そして、単語列仮説生成部８０は、音声認識結果として得点の最大値ｍａｘを選び出し、音声認識処理を終了する。
【００８５】
なお、この実施の形態１では単語照合が終わってから単語列仮説の生成を行うように説明をしたが、単語照合と単語列仮説の生成とを同時進行的に進めることが可能である。
【００８６】
次いで、言語尤度の計算方法について述べる。
なお、ここでは先行単語を１単語用いる場合で説明するが、先行単語を２単語用いる場合についても同様に実施可能である。
【００８７】
まず、任意の単語列Ｗ１，Ｗ２，…，ＷＬの言語尤度は、下記に示される式（６）によって計算する。
【００８８】
【数６】

【００８９】
上式（６）右辺の確率は、下記に示される式（７）で求める。
【００９０】
【数７】

【００９１】
ここで、Ｐ１はクラスＮグラムによる確率、Ｐ２はクラス依存単語Ｎグラムによる確率である。また、共通の性質を持つ単語列に対して同じクラス記号を与えたものである単語列クラスに含まれる単語をクラス単語、それ以外の単語を一般単語とした。ただし、一般的には、特定の単語が、クラス単語であるか一般単語であるかの判断が困難であるため、式（７）の４つの確率を足したものを左辺の値としてもよい。
【００９２】
以上のように求められた言語尤度が、組み上げられた単語列仮説に付加され、単語列候補に序列をつけ、認識結果として出力される。
【００９３】
以下に、テレビ番組名である「太陽を撃て」を録画する場合の「明日の太陽を撃てを録画」という発声を例に、従来の計算例と、本発明の計算式とを示すことで違いを明確にするとともに、本発明の効果を示す。
【００９４】
まず、例文を単語の列に分割する３つの方法を説明する。
第１に、テレビ番組名を１単語として扱う場合の「明日−の−太陽を撃て−を−録画」と、
第２に、テレビ番組名を３単語に分割して扱う場合の「明日−の−太陽−を−撃て−を−録画」とがあり、
まず、単語２グラムモデルにより、
第１の場合について、式（８）により計算する。
【００９５】
【数８】

【００９６】
このモデルでは、「太陽を撃て」と同様に複数の単語の組み合わせからなるテレビ番組名の数が多くなり、認識辞書が大きくなってしまう。
【００９７】
次に、第２の場合の単語２グラムモデルについて、式（９）により計算する。
【００９８】
【数９】

【００９９】
これらの各確率は、テレビ番組名を含んだ文表現コーパス蓄積部１１１から学習することになるが、学習データを十分に準備することは困難であるから、データ量が不十分な学習データとなり、一部の単語系列に対して音響的な確率ではなく、言語的な確率、単語の連鎖に関する確率の精度が劣化する。
【０１００】
式（９）では特に、テレビ番組名と前の単語の文脈Ｐ（太陽｜の）、テレビ番組名と後の単語の文脈Ｐ（を｜撃て）、テレビ番組名の中の文脈Ｐ（を｜太陽）、Ｐ（撃て｜を）の確率は信頼性が低い。
【０１０１】
このようなデータ量が不十分による問題に対処するために、単語をクラス化して用いることができる。
【０１０２】
第１の場合について、テレビ番組名部分をクラスとして扱うと、下記に示される式（１０）が得られる。
【０１０３】
【数１０】

【０１０４】
これは、テレビ番組名の前後の文脈が、Ｐ（＜ｔｉｔｌｅ＞｜の）とＰ（を｜＜ｔｉｔｌｅ＞）で表されるために、データ量が不十分による問題に対処できるが、やはり「太陽を撃て」と同様のテレビ番組名の数が多くなり、認識辞書が大きくなってしまう。
【０１０５】
さらに、第３の方法として、従来例３を用いると、下記に示される式（１１）が得られる。
【０１０６】
【数１１】

【０１０７】
これは、テレビ番組名の前後の文脈が、Ｐ（＜ｔｉｔｌｅ＞｜の）とＰ（を｜＜ｔｉｔｌｅ＞）で表されるために、データ量が不十分による問題に対処できて、かつ、テレビ番組名が音節列で表されるために認識辞書も小さい。
【０１０８】
しかし、テレビ番組名を音節列で表すために、制約がゆるく、認識精度が得られない。特に、テレビ番組名が長い場合に、全ての音節を正しく認識することは困難である。
【０１０９】
従来例３は数音節を１単位として用いることもできるが、形態素である単語等の単位であれば、意味的な役割や構文的な役割と結びつくが、発音を表す音節の列は、結びつかなかったり、同音異義語が共有されたりするなどの問題がある。
【０１１０】
これらに対して、本発明の実施の形態１では、下記に示される式（１２）として計算する。
【０１１１】
【数１２】

【０１１２】
これは、テレビ番組名の前後の文脈が、Ｐ（＜ｔｉｔｌｅ＞｜の）と、Ｐ（を｜＜ｔｉｔｌｅ＞）とで表されるために、データ量が不十分による問題に対処できて、かつ、テレビ番組名が形態素列で表されるために認識辞書（クラスＮグラム蓄積部１１４およびクラス依存単語Ｎグラム蓄積部１２４）も小さい。しかも、テレビ番組名を形態素列で表すために、音節列で表す場合と比較して高い認識性能を確保できる。
【０１１３】
さらに、テレビ番組名部分の確率は、他の部分と比較して確率が低く、認識され難いという問題に対しては、クラスＮグラムによる確率の代表的な値と、クラス依存単語Ｎグラムによる確率の代表的な値の差分を、クラス依存単語Ｎグラムによる確率に対してオフセットとして加え、発声区間全体において音声認識の尤度計算終了後、オフセット分を差し引くことで、他の音声認識結果候補の尤度との調節ができ、認識精度が上昇する。
【０１１４】
（実施の形態２）
図１２は、本発明の実施の形態２に係る音声認識装置の機能構成を示すブロック図である。なお、実施の形態１の言語モデル生成蓄積装置１０および音声認識装置１の構成と対応する部分に同じ番号を付し、その説明を省略する。
【０１１５】
図１２に示されるように、音声認識装置２は、上記した音声認識装置１の言語モデル生成蓄積装置１０に代えて用いられる言語モデル生成蓄積装置２０と、音響処理部４０と、単語照合部５０と、音響モデル部６０と、単語辞書部７０と、単語列仮説生成部８０とを備える。
【０１１６】
言語モデル生成蓄積装置２０は、言語モデルを作成する事前処理において、構文解析アルゴリズムを用いて文表現の構文を解析することにより、クラスＮグラムおよびクラス依存単語Ｎグラムを作成するものであり、テキストである文表現を構文解析し、文章の構造を階層的に表した構文木とする構文木生成部２１と、入力された文表現から、クラスＮグラムを生成、蓄積する構文木用クラスＮグラム生成蓄積部２２と、入力された文表現から、クラス依存単語Ｎグラムを生成、蓄積する構文木用クラス依存単語Ｎグラム生成蓄積部２３とを備えて構成される。なお、構文木用クラスＮグラム生成蓄積部２２と、構文木用クラス依存単語Ｎグラム生成蓄積部２３とは、単語列仮説生成部８０の要求に応じて、クラスＮグラムおよびクラス依存単語Ｎグラムを単語列仮説生成部８０に出力する。
【０１１７】
次に、構文木生成部２１について詳細に説明する。
図１３は、構文木生成部２１の機能構成を示すブロック図である。
【０１１８】
図１３に示されるように、構文木生成部２１は、上述した文表現コーパス蓄積部１１１、文表現用形態素解析部１１２の他、構文解析部２１１と、構文木分割部２１２とを備えて構成される。
【０１１９】
構文解析部２１１は、形態素解析された文の構文を解析する。
構文木分割部２１２は、構文木中のノードを選択するノード選択部を示し、選択されたノードから上層を構成する第１の部分木と下層を構成する第２の部分木とに構文木を分割する。
【０１２０】
例えば、文表現コーパス蓄積部１１１に「彼は駅まで歩くと言った」が蓄積されている場合、文表現用形態素解析部１１２は、「彼−は−駅−まで−歩く−と−言っ−た」と解析する。構文解析部２１１は、ＣＹＫ法などの公知の構文解析アルゴリズムにより解析し、図１６（ａ）に示されるように、文章の構造を表した構文解析結果である構文木を取得する。なお、図１６（ａ）において、Ｓ８０１は文、ＳＳ８０７はサブ文、ＰＰ８０２は後置句、ＶＰ８０３は動詞句、ＮＰ８０４は名詞句、Ｐ８０５は後置詞、Ｖ８０８は動詞、Ｎ８０６は名詞、Ｔ８０９は時制を表す。
【０１２１】
ここで、構文木分割部２１２においてノード「ＳＳ８０７」を選択するように予め設定されており、構文木分割部２１２は、ノード「ＳＳ８０７」に相当する部分を仮想的な単語として、「ＳＳ」と置き換え、図１６（ｂ）に示されるように、２階層の構文木に変換する。なお、図１６（ｂ）において、８１０は選択されたＳＳノードから上層を構成する第１の部分木を示し、８１１は選択されたＳＳノードから下層を構成する第２の部分木を示す。
【０１２２】
次に、構文木分割部２１２は、第１の部分木８１０である「彼−は−ＳＳ−と−言っ−た」を構文木用クラスＮグラム生成蓄積部２２に出力し、第２の部分木８１１である「駅−まで−歩く」を構文木用クラス依存単語Ｎグラム生成蓄積部２３に出力する。
【０１２３】
次いで、構文木用クラスＮグラム生成蓄積部２２について詳細に説明する。
図１４は、構文木用クラスＮグラム生成蓄積部２２の機能構成を示すブロック図である。
【０１２４】
図１４に示されるように構文木用クラスＮグラム生成蓄積部２２は、構文木用クラスＮグラム生成部２２１と、構文木用クラスＮグラム蓄積部２２２とから構成される。
【０１２５】
構文木用クラスＮグラム生成部２２１は、構文木分割部２１２が単語とみなした「ＳＳ」を含む各単語に条件付き確率を付加することによりクラスＮグラムを生成する。構文木用クラスＮグラム蓄積部２２２は、構文木用クラスＮグラム生成部２２１が生成したクラスＮグラムを蓄積する。
【０１２６】
次いで構文木用クラス依存単語Ｎグラム生成蓄積部２３について説明する。
図１５は、構文木用クラス依存単語Ｎグラム生成蓄積部２３の機能構成を示すブロック図である。
【０１２７】
図１５に示されるように、構文木用クラス依存単語Ｎグラム生成蓄積部２３は、構文木用クラス依存単語Ｎグラム生成部２３１と、構文木用クラス依存単語Ｎグラム蓄積部２３２とから構成される。
【０１２８】
構文木用クラス依存単語Ｎグラム生成部２３１は、構文木分割部２１２が単語とみなした「ＳＳ」を構成する単語に条件付き確率を付加することによりクラス依存単語Ｎグラムを生成する。構文木用クラス依存単語Ｎグラム蓄積部２３２は、構文木用クラス依存単語Ｎグラム生成部２３１が生成したクラス依存単語Ｎグラムを蓄積する。
【０１２９】
このようにして得られるクラスＮグラムとクラス依存単語Ｎグラムとにより、実施の形態１の場合と同様に、ＳＳを含む長い文脈と、ＳＳの中の短い文脈とを同時に扱うことができる。しかも、構文木分割部２１２でＳＳの中の短い文脈を分割するので、実施の形態１の場合のようにクラスコーパス蓄積部１２１を用意する必要がなくなる。
【０１３０】
なお、図１６に示した２階層の「基本的な単語Ｎグラム」に入れ子構造を導入した例で説明したが、従来の他のＮグラムのバリエーションとの組み合わせも実施可能である。
【０１３１】
例えば、タイトルクラス内を表す単語Ｎグラムを、似た性質を持つ単語集合でクラス化したクラスＮグラムで表し、よくある単語連鎖を接続した可変長単位で表すことも可能である。
【０１３２】
また、上位階層および下位階層の２階層に限らず、より多くの階層や再起的な入れ子構造、例えば、「彼は駅まで歩いたと思ったと言った」は、「彼は「「駅まで歩いた」と思った」と言った」と分割することも可能である。
【０１３３】
また、クラスＮグラムとクラス依存単語Ｎグラムとを分けずに、共通の一つの言語モデルで表すことも可能である。
【０１３４】
（実施の形態３）
図１７は、本発明の実施の形態３に係る音声認識装置の機能構成を示すブロック図である。なお、図２と同じ番号を付しているブロックの認識処理は、実施の形態１の音声認識装置１と同様の動作であるのため、ここでの説明は省略する。
【０１３５】
図１７に示されるように、音声認識装置３は、音響処理部４０や、単語照合部５０、音響モデル部６０、単語辞書部７０、単語列仮説生成部８０の他、言語モデル装置３０および単語が単語列クラスの構成単語であるか否かを判定する認識用除外単語判定部９０を備えて構成される。
【０１３６】
認識用除外単語判定部９０は、単語列クラスの生起確率に基づく言語尤度の計算において、クラス依存単語Ｎグラムのみによる計算を行うか、クラス依存モーラＮグラムも参照して計算を行うかを判定するものである。
【０１３７】
言語モデル装置３０は、クラスＮグラムを生成し、生成したクラスＮグラムを蓄積するクラスＮグラム生成蓄積部３１と、クラス依存単語Ｎグラムを生成し、生成したクラス依存単語Ｎグラムを蓄積するクラス依存単語Ｎグラム生成蓄積部３２と、クラス依存モーラＮグラムを生成し、生成したクラス依存モーラＮグラムを蓄積するクラス依存モーラＮグラム生成蓄積部３３とから構成される。
【０１３８】
実施の形態３による音声認識装置３は、音声認識装置１と同様に、言語モデルを作成する事前処理と、入力された音声を逐次認識する認識処理とに大別される。
【０１３９】
次に、言語モデルを作成する事前処理について説明する。
言語モデルは、単語列クラスを含む文脈であるテキストを評価するクラスＮグラムと、単語列クラスを構成する単語列を処理するクラス依存単語Ｎグラムおよびクラス依存モーラＮグラムとがあり、認識処理を実行する前に作成する。
【０１４０】
まず、クラスＮグラムの生成について、詳細に説明する。
図１８は、クラスＮグラム生成蓄積部３１の機能構成を示すブロック図である。なお、図１８において図３と同じ番号の付されているブロックは、実施の形態１に示したものと同様のものである。
【０１４１】
図１８に示されるように、クラスＮグラム生成蓄積部３１は、文表現コーパス蓄積部１１１や、文表現用形態素解析部１１２の他、クラス依存単語Ｎグラム生成蓄積部３２において予め取得された単語列クラス定義を参照して、形態素解析結果から単語列クラスおよび一般の単語の属するクラスの連鎖の統計量を求めて、クラス連鎖確率を求めるクラス連鎖モデル生成部３１１と、単語のクラスから各々の単語が出力される確率を求める単語出力モデル生成部３１２と、クラス連鎖モデル生成部３１１によるモデルと、単語出力モデル生成部３１２によるモデルを合わせてクラスＮグラムとして蓄積するクラスＮグラム蓄積部３１３とから構成される。
【０１４２】
クラスＮグラム生成蓄積部３１における処理は、実施の形態１において図３に示したものと同様であり、文表現コーパス蓄積部１１１が蓄積している「明日の天気予報を録画して」などの比較的長い文表現であるテキストを、文表現用形態素解析部１１２に入力し、テキストから意味を有する最小の言語単位である形態素を解析し、この結果をクラス連鎖モデル生成部３１１および単語出力モデル生成部３１２に出力する。
【０１４３】
クラス連鎖モデル生成部３１１は、後述するクラス依存単語Ｎグラム生成蓄積部３２に蓄積された単語列クラスに属する単語列が存在する場合には、これを単語列クラスを示す仮想的なシンボルに変換し、また、そうでない通常の単語については、各単語の属するクラスを示すシンボルに変換する。このようにして得られたクラスシンボルの系列に対して、これらの連鎖の統計量を求めることで、クラス連鎖モデルを生成する。
【０１４４】
また、単語出力モデル生成部３１２は、形態素解析結果の単語列から、単語列クラスに属する単語を除いた全ての単語について、単語の出現数と、それぞれの単語の属するクラスの出現数の統計量を求め、クラスに対して単語が出現する確率を求めて、単語出力モデルとする。
【０１４５】
これら２つのモデルは、クラスＮグラム蓄積部３１３に格納されて、単語列仮説生成部８０において、式（１３）に示した言語尤度の計算において参照される。
【０１４６】
例えば、文表現の「明日の天気予報を録画して」は、形態素解析により「＜ＳＳ＞−明日−の−天気−予報−を−録画−して−＜ＳＥ＞」となる。今仮に、＜ｔｉｔｌｅ＞という単語列クラスに「天気−予報」が定義されているとすると、クラス連鎖モデル生成部３１１において、形態素単位に分割された文表現は、「＜ＳＳ＞−明日−の−＜ｔｉｔｌｅ＞−を−録画−して−＜ＳＥ＞」と置き換えられる。さらに、通常の単語についてもクラスへの書き換えが行われて、「＜ＳＳ＞−＜名詞＞−＜格助詞＞−＜ｔｉｔｌｅ＞−＜格助詞＞−＜サ変名詞＞−＜動詞＞−＜ＳＥ＞」などに置き換えられる。クラス連鎖モデル生成部３１１は、文表現コーパスからこのような系列を生成し、クラスＣ１の後にクラスＣ２の続く確率などを求めることのできるクラス連鎖モデルを生成する。
【０１４７】
単語出力モデル生成部３１２においては、文表現コーパスの形態素解析結果の単語系列と、クラスシンボルに置き換えたクラス系列を元に、単語列クラスを除く単語について、クラスの出現回数とそれに該当する単語の出現回数の統計を取る。例えば、上記例であれば、＜格助詞＞の出現回数は２回であり、このクラスに属する具体的な単語の出現回数は、「の」が１回、「を」が１回といったカウントを行う。この結果から、クラスＣにおいて単語Ｗが出現する確率などを求めることのできる、単語出力モデルが生成される。
【０１４８】
なお、上記例においては、一般の単語の属するクラスとして文法的な知識に基づくクラスを用いる場合を示したが、統計的に自動分類されたクラスを用いることも有効である。また、クラス連鎖モデルの例では、１つ前を先行するクラスを条件とする確率モデルの例を示したが、２つ前、３つ前のクラスを条件とする確率モデルとすることも可能である。
【０１４９】
次に、クラス依存単語Ｎグラムの生成について、説明する。
図１９は、クラス依存単語Ｎグラム生成蓄積部３２の内部機能構成を示すブロック図である。なお、図６と同一の番号を付されたブロックは実施の形態１において図６と共に示したものと同様であり、これらについては説明を割愛する。
【０１５０】
図１９に示されるように、クラス依存単語Ｎグラム生成蓄積部３２は、クラスコーパス蓄積部１２１や、クラス用形態素解析部１２２、単語列クラス定義生成部１２５、単語列クラス定義蓄積部１２６の他、単語列クラスの除外単語をモデル作成の際に判定するモデル作成用除外単語判定部３２１と、クラス依存単語Ｎグラムを生成するクラス依存単語Ｎグラム生成部３２２とから構成される。
【０１５１】
クラス依存単語Ｎグラム生成蓄積部３２における処理は、実施の形態１に示したものと同様、まず、クラス用形態素解析部１２２において、クラスコーパス蓄積部１２１が蓄積している単語列を形態素解析し、単語に切り分ける。そして単語列クラス定義生成部１２５において、切り分けられた単語をもとに単語列クラス定義を生成して、単語列クラス定義蓄積部１２６に格納する。同時に、モデル作成用除外単語判定部３２１において、形態素に解析された単語について、単語のまま用いるか、除外単語とするかを判定する。そして、モデル作成用除外単語判定部３２１において除外単語と判定した場合、その除外単語の置き換えと、その除外単語を発音に対応するモーラに切り分ける置き換えとが行われる。
【０１５２】
例えば「知床−の−神秘」なる単語列において、モデル作成用除外単語判定部３２１における除外条件が＜地名＞であった場合、「＜地名＞−の−神秘」と書き換えられる一方、「＜ＭＳ＞−シ−レ−ト−コ−＜ＭＥ＞」とモーラの列に書き換えられる。ただし＜ＭＳ＞、＜ＭＥ＞は、除外単語のモーラ列の開始と終了を示す、仮想的なシンボルである。
【０１５３】
なお、「モーラ」（ここでは、日本語のモーラ、英語においては類似する音響単位として「シラブル」が存在する。）とは、日本語で１音(１拍)と考えられている音韻のことであり、日本語をひらかな表記した時のひらかな１文字１文字に概ね対応する。また、俳句の５・７・５をカウントする時の１音に対応する。ただし、拗音(小さいゃゅょの付く音)、促音(小さいっ/つまった音)、撥音（ん) については、１音（１拍）として発音されるか否かによって、独立した１つのモーラとして取り扱われたり、そうでなかったりする。例えば、「東京」であれば、４つのモーラ「と」、「う」、「きょ」、「う」から構成され、「札幌」であれば、４つのモーラ「さ」、「っ」、「ぽ」、「ろ」から構成され、「群馬」であれば、３つのモーラ「ぐ」、「ん」、「ま」から構成される。
【０１５４】
クラス依存単語Ｎグラム生成部３２２は、除外単語部分を別の仮想的なシンボルに置き換えた単語の系列を、クラスコーパス中の多数のデータから求め、これを元に、それら単語列クラスにおける単語連鎖の頻度を確率モデル化し、クラス依存単語Ｎグラムを生成する。クラス依存単語Ｎグラム蓄積部１２４は、このクラス依存単語Ｎグラムが蓄積され、単語列仮説生成部８０において、単語列クラスの生起確率の計算のために参照される。なお本実施の形態では、クラス依存単語Ｎグラムは単語列クラス内の単語の連鎖確率をモデル化するものとして示したが、前記のクラスＮグラムのモデル生成でも示したように、一旦、単語を単語の属するクラスに置き換えて、クラスの連鎖確率とクラス−単語の出力確率の２種類の確率によってモデル化してもよい。
【０１５５】
次に、クラス依存モーラＮグラムの生成について説明する。
図２０は、クラス依存モーラＮグラム生成蓄積部３３の内部機能構成を示すブロック図である。
【０１５６】
図２０に示されるように、クラス依存モーラＮグラム生成蓄積部３３は、
クラス依存単語Ｎグラム生成蓄積部３２のモデル作成用除外単語判定部３２１から出力された除外単語の読みに相当するモーラの系列に基づいて、かかるモーラ列から除外単語におけるモーラの連鎖をモデル化するクラス依存モーラＮグラム生成部３３１と、生成されたクラス依存モーラＮグラムを蓄積するクラス依存モーラＮグラム蓄積部３３２とから構成される。
【０１５７】
クラス依存モーラＮグラム生成蓄積部３３における処理は、まず、クラス依存単語Ｎグラム生成蓄積部３２におけるモデル作成用除外単語判定部３２１において、除外単語と判定された単語の読みに相当するモーラの系列（例えば、「＜ＭＳ＞−シ−レ−ト−コ−＜ＭＥ＞」）がクラス依存モーラＮグラム生成部３３１に入力されると、クラス依存モーラＮグラム生成部３３１では、モーラ列に書き換えられたコーパス中の多数の除外単語が入力されて、モーラの連鎖の統計量が計算され、モーラ連鎖確率を示すモデルが生成される。具体的には、クラス依存モーラＮグラム生成部３３１は、単語２グラムモデルの場合、モーラについて、＜ＭＳ＞−シ、シ−レ、レ−ト、ト−コ、コ−＜ＭＥ＞、…の頻度をそれぞれ求め、（Ｍ１，Ｍ２の連鎖頻度）／（Ｍ１の頻度）を計算することにより、それぞれの確率Ｐ（Ｍ２｜Ｍ１）を求める。ただし、Ｍ１，Ｍ２は、それぞれのモーラを示す。そして、クラス依存モーラＮグラム生成部３３１は、図２１に示されるようにモーラ連鎖とその確率を対応付けてクラス依存モーラＮグラム蓄積部３３２に蓄積する。
【０１５８】
クラス依存モーラＮグラム蓄積部３３２では、生成されたクラス依存モーラＮグラムが蓄積され、単語列仮説生成部８０において、単語列クラスの生起確率の計算のために参照される。
【０１５９】
なお、本実施の形態３では、クラス依存単語Ｎグラムの生成とクラス依存モーラＮグラムの生成に、実施の形態１と同一のクラスコーパス蓄積部１２１を利用するものとしたが、両者のモデルの生成のために、それぞれ異なるコーパスを用いてモデルを生成することも可能である。
【０１６０】
認識処理における動作は、音声認識装置１の場合と同様に、音声入力に対して単語照合部５０において単語照合がなされて単語仮説が生成され、単語列仮説生成部８０において、単語区間を考慮した単語候補の接続と、単語系列に基づいた言語尤度の加算が行われて、単語列候補に対するスコアが計算される。ここにおいて、特定の単語列クラスに属する単語列に対しては、認識用除外単語判定部９０における除外単語の判断がなされ、クラス依存単語Ｎグラム生成蓄積部３２に蓄積されたクラス依存単語Ｎグラム又は、クラス依存モーラＮグラム生成蓄積部３３に蓄積されたクラス依存モーラＮグラムが参照されて言語尤度の計算が行われる。
【０１６１】
ここで、本実施の形態３における言語尤度の計算方法を述べる。
単語列クラスを含む任意の単語列Ｗ１，Ｗ２，…，Ｗｉ，…，Ｗｎに対して、それぞれの単語の属するクラスを、Ｃ１，Ｃ２，…，Ｃｕ，…，Ｃｍとする。ただし、クラスＣは単語列クラスである場合も含むものとする。単語列Ｗ１〜Ｗｎの中に単語列クラスに対応する系列が含まれており、これが部分列Ｗｊ，…，Ｗｋに対応するものとする。この時、単語列Ｗ１〜Ｗｎの言語尤度は、下記に示される式（１３）により計算される。
【０１６２】
【数１３】

【０１６３】
ただし、Ｐ（Ｃｕ｜Ｃｕ−１）およびＰ（Ｗｉ｜Ｃｕ）は、クラスＮグラムにより計算される確率である。Ｐｃ（）は単語列クラスの生起確率であり、下記に示される式(１４)により計算される。
【０１６４】
【数１４】

【０１６５】
ただし、Ｐ（Ｗｉ｜Ｗｉ−１，Ｃｕ）およびＰ（＜除外単語＞｜Ｗｉ−１，Ｃｕ）は、クラス依存単語Ｎグラムによって計算される確率である。
【０１６６】
また、Ｍａ・・・ＭｂはＷｉの発音に対応するモーラ列を示しており、Ｐｍ（）はクラス依存モーラＮグラムにより計算される確率である。
【０１６７】
認識用除外単語判定部９０は、上記確率計算式（１４）を第１形式において行うか、第２形式において行うかを判断する。この場合の判断基準は単語列クラスＣｕおよび当該単語Ｗｉの言語的属性などの情報を用いる。ここで言う言語的属性とは、例えばＷｉが地名を示す固有名詞であるか否かといったものをさす。このように除外単語の判定を行って、除外単語であると判定されたものについては、モーラのごとく単語よりも短い単位に切り分けることで単語列クラスを表現するために、全ての単語を辞書に登録しておく必要がなく、またクラス依存単語Ｎグラムも、あらゆる単語についての連鎖を考慮する必要がなくなるので、単語列クラスのコンパクトで高性能なモデル化が可能となる。
【０１６８】
次に、具体的な例によって上記言語尤度の計算の例を示す。
例えば、単語列クラスとしてのタイトルクラスが含まれる例として、「太陽−を−撃て−を−見る」では、次のように言語尤度が、下記に示される式(１５）により計算される。
【０１６９】
【数１５】

【０１７０】
ただし、＜ＳＳ＞および＜ＳＥ＞は、文頭および文末を意味する仮想的なシンボルである。また、＜ＣＳ＞および＜ＣＥ＞は単語列クラスの開始および終了を示す仮想的なシンボルである。ここで、タイトルクラス「太陽−を−撃て」の生起確率に基づく言語尤度は下記に示される式（16）によって計算される。
【０１７１】
【数１６】

【０１７２】
上記例においては単語列クラスであるタイトルクラス中に除外単語が含まれていないと仮定しており、クラス依存モーラＮグラムは参照されていない。
【０１７３】
次に単語列クラス中に除外単語が含まれる例として、「知床−の−神秘−を−見る」の場合について、言語尤度の計算法を下記に示される式（１７）によって示す。
【０１７４】
【数１７】

【０１７５】
ここで、タイトルクラスにおいて、地名を示す固有名詞は除外単語であるとすると、「知床−の−神秘」の生起確率に基づく言語尤度は下記に示される式（１８）によって計算される。
【０１７６】
【数１８】

【０１７７】
ただし、＜ＭＳ＞および＜ＭＥ＞は、除外単語におけるモーラ系列の開始および終了を意味する仮想的なシンボルである。さら除外単語の生起確率Ｐｍ（）は、クラス依存モーラＮグラムに基づいて、言語尤度が下記に示される式（１９）によって計算される。
【０１７８】
【数１９】

【０１７９】
つまり、「知床−の−神秘−を−見る」の場合、図２２に示されるように、＜ＳＳ＞−＜ｔｉｔｌｅ＞−を−見る−＜ＳＥ＞の単語列について尤度が求められる。そして、＜ｔｉｔｌｅ＞については、除外単語−の−神秘の単語列について尤度が求められる。さらに、除外単語については、＜ＭＳ＞−シ−レ−ト−コ−＜ＭＥ＞のモーラ列について尤度が求められる。このように言語尤度を計算することで、タイトルクラスに含まれうる全ての地名に基づいてクラス依存単語Ｎグラムを構築しなくとも、タイトルに含まれる地名を認識することが可能となる。
【０１８０】
なお、本実施の形態３では、クラスＮグラム、クラス依存単語Ｎグラム、クラス依存モーラＮグラムの全てにおいて、直前の単語(モーラ)から当該単語(モーラ)へ連接する確率を用いる例を示したが、より長い履歴（例えば、２つ前まで、３つ前までなど）を考慮した確率モデルであってもよい。また上記言語モデルの言語単位は、単語(モーラ)を用いた例を示したが、連結単語(連結モーラ)を言語単位に含むモデルであってもよい。
【０１８１】
また、単語クラスの例として、ここではタイトルクラスを示したが、この他、「総務省行政管理局」といった組織名クラス、「東名高速道路海老名サービスエリア」といった施設名クラスなどを用いることも可能である。
【０１８２】
さらに、単語列クラス中の除外単語として上記例では、「知床」のような地名を示したが、その他、「一郎」のような人名、「塩爺」のような流行語・新語、その他、種類数が多いなどの理由により、認識辞書に登録されていない単語や、統計的に除外単語としてモデル化することの効果が高いと判断された単語を対象とすることも有効である。
【０１８３】
最後に、認識用除外単語判定部９０について述べる。
認識用除外単語判定部９０は、単語列クラスの生起確率に基づく言語尤度の計算において、クラス依存単語Ｎグラムのみによる計算を行うか、クラス依存モーラＮグラムも参照して計算を行うかを判定するものである。認識用除外単語判定部９０での判定規則は、各種言語モデルの生成と同様、事前に決定されているべきものである。判定規則の例としては、本実施の形態の例で示したように、単語列クラス内における、地名単語であるか否かといった規則が挙げられる。これについては、前述した通り、「一郎」のような人名、「塩爺」のような流行語・新語、その他、種類数が多いなどの理由により、認識辞書に登録されていない単語や、統計的に除外単語としてモデル化することの効果が高いと判断された単語を対象とすることも有効である。また、クラス依存単語Ｎグラム生成蓄積部３２に含まれるモデル作成用除外単語判定部３２１は、前記の認識用除外単語判定部９０と同一か又は同一の規則を蓄えるブロックであることが望ましい。しかし、言語モデルの構築時と認識時で意図的に除外単語の判定規則を異なるものにするという利用法も可能である。
【０１８４】
なお、本実施の形態では、クラスＮグラム言語モデル、クラス依存単語Ｎグラム言語モデル、クラス依存モーラＮグラムの構築に、テキストコーパスを形態素解析した結果を利用する例を示したが、実施の形態２に示したように、テキストコーパスを形態素解析し、さらに構文解析した結果から、クラスＮグラム構築用の構文木と、クラス依存単語Ｎグラム構築用の構文木を求め、さらに構文的な条件を加味して除外単語判定ルールを設けて、これを元に、クラス依存モーラＮグラム構築用のデータを抽出して、各々言語モデルを構築することも有効である。この場合、構文木の上位層の構文木が構文木用クラスＮグラム生成蓄積部に入力され、下位層の構文木のうち、除外単語判定部によって除外単語と判定された単語を、判定理由に関連する仮想シンボルに置き換えた構文木が、構文木用クラス依存単語Ｎグラム生成構築部に入力され、除外単語判定部によって除外された単語が判定理由ごとにまとめられて、構文木用クラス依存モーラＮグラム生成蓄積部に入力されて、夫々の言語モデルが構築される。
【０１８５】
（実施の形態４）
次に、本発明の実施の形態４について説明する。本実施の形態４による音声認識装置は、
実施の形態１（図２）に示した、クラスＮグラム生成蓄積部に蓄積されたクラスＮグラムおよびクラス依存単語Ｎグラム生成蓄積部に蓄積されたクラス依存単語Ｎグラムを用いて、単語仮説を生成し認識結果を出力する点では、全く同様である。実施の形態１との相違点は、クラス依存単語Ｎグラム生成蓄積部がクラスコーパスの動的な変更に対応可能となっている点にある。
【０１８６】
本実施の形態４におけるクラス依存単語Ｎグラム生成蓄積部の構成図を図２３に示す。その他の図６と同じ番号を付与したブロックは、実施の形態１に示した処理と同じ処理を行うものとする。
【０１８７】
図２３に示されるように、クラス依存単語Ｎグラム生成蓄積部１３は、電話回線やインターネットなどの通信手段によってクラス依存単語Ｎグラム構築に必要なコーパスを取得するクラスコーパス取得部１３１をさらに備える。
【０１８８】
次に、本実施の形態４におけるクラス依存単語Ｎグラムの構築について説明する。
クラス依存単語Ｎグラム生成蓄積部は、予め定められた時間間隔に基づくトリガや、ユーザ操作に基づくトリガなどのトリガ信号によって、クラスコーパス取得部１３１によってクラスコーパスを取得する。取得されたクラスコーパスは実施の形態１に示したものと同様に、クラス用形態素解析部１２２およびクラス依存単語Ｎグラム生成部１２３によって、クラス依存単語Ｎグラムが生成される。
【０１８９】
このように、クラス依存Ｎグラムを動的に更新できるようにすることの効果は、本実施の形態による音声認識装置を、例えばテレビ番組案内システムに用いた場合に顕著である。例えばテレビ番組案内システムへのユーザの発話、「明日−の−太陽を撃て−を−録画−して」という文に対して、クラスＮグラムモデルが「明日−の−＜番組名＞−を−録画−して」という言い回しをモデル化しており、クラス依存単語Ｎグラムが「太陽−を−撃て」という番組名クラスをモデル化しているとする。この時、言い回し文型自体は時間による変化が少ないのに対して、番組名は日々放映される番組が変化するため大きく変化する。よって、必要に応じて番組名コーパスを再取得し、番組名に対応するクラス依存単語Ｎグラムを再構築することにより、番組名を認識するためのモデルが最新のものに最適化されることになる。一方、言い回し文型に対応するクラスＮグラムは、時間による変化が少ないため更新する必要はなく、事前にオフラインで構築しておいたクラスＮグラムを蓄積するだけでよいため、計算リソースとハードウェアリソースの削減を可能とする。
【０１９０】
なお本実施の形態４では、効果を示す例としてテレビ番組案内システムへの適用を示したが、その他、Webサイトの案内システム、図書の案内システム、カーナビゲーションシステムなどへの適用も効果的である。
【０１９１】
また、本実施の形態では、下位のＮグラムモデルである、クラス依存単語Ｎグラム言語モデルのみを更新する例を示したが、上位Ｎグラム言語モデルのみを更新する、あるいは、上位と下位Ｎグラム言語モデルを夫々に応じたタイミングで更新するという方法も可能である。
【０１９２】
さらに、本実施の形態では、クラスＮグラム言語モデルおよびクラス依存単語Ｎグラム言語モデルを、夫々のモデル構築用のコーパスを用いてオンラインで構築する例を示したが、別途オフラインで構築した夫々の言語モデルを、最適なタイミングで取得し、これを用いる方法も可能である。
【産業上の利用可能性】
【０１９３】
本発明は、機器への入力手段として音声認識技術を利用する種々の電子機器、例えばテレビ、ビデオなどのＡＶ機器、カーナビゲーションシステムなどの車載機器、ＰＤＡや携帯電話機などの携帯情報端末などに利用することができ、その産業用の利用可能性は非常に広くかつ大きい。
【図面の簡単な説明】
【０１９４】
【図１】図１は、従来の音声認識装置を示す図である。
【図２】図２は、本発明第１の実施の形態による音声認識装置の構成を示す図である。
【図３】図３は、本発明第１の実施の形態によるクラスＮグラム生成蓄積部の構成を示す図である。
【図４】図４は、文表現コーパス蓄積部１１１の構成例を示す図である。
【図５】図５は、クラスＮグラム蓄積部１１４の構成例を示す図である。
【図６】図６は、本発明第１の実施の形態によるクラス依存単語Ｎグラム生成蓄積部の構成を示す図である。
【図７】図７は、クラスコーパス蓄積部１２１の構成例を示す図である。
【図８】図８は、クラス依存単語Ｎグラム蓄積部１２４の構成例を示す図である。
【図９】図９は、単語列クラス定義蓄積部１２６の構成例を示す図である。
【図１０】図１０は、音声認識処理の動作を示すフローチャートである。
【図１１】図１１は、単語列仮説生成部８０における単語列仮説の評価を示す図である。
【図１２】図１２は、第２の実施の形態による音声認識装置の構成を示す図である。
【図１３】図１３は、第２の実施の形態による構文木生成部の構成を示す図である。
【図１４】図１４は、第２の実施の形態による構文木用クラスＮグラム生成蓄積部の構成を示す図である。
【図１５】図１５は、第２の実施の形態による構文木用クラス依存単語Ｎグラム生成蓄積部の構成を示す図である。
【図１６】図１６（ａ）は、第２の実施の形態による構文解析結果を示す図である。図１６（ｂ）は、第２の実施の形態による構文木の分割を示す図である。
【図１７】図１７は、第３の実施の形態における音声認識装置の構成を示す図である。
【図１８】図１８は、第３の実施の形態によるクラスＮグラム生成蓄積部の構成を示す図である。
【図１９】図１９は、第３の実施の形態によるクラス依存単語Ｎグラム生成蓄積部の構成を示す図である。
【図２０】図２０は、第３の実施の形態によるクラス依存モーラＮグラム生成蓄積部の構成を示す図である。
【図２１】図２１は、クラス依存モーラＮグラム蓄積部３３２の構成例を示す図である。
【図２２】図２２は、単語列仮説生成部８０における単語列の評価の様子を示す図である。
【図２３】図２３は、第４の実施の形態によるクラス依存単語Ｎグラム生成蓄積部の構成を示す図である。

Claims

音声認識用の言語モデルを生成し、蓄積する言語モデル生成蓄積装置であって、
複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルを生成し、蓄積する上位Ｎグラム言語モデル生成蓄積手段と、
前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルを生成し、蓄積する下位Ｎグラム言語モデル生成蓄積手段と
を備えることを特徴とする言語モデル生成蓄積装置。
前記上位Ｎグラム言語モデル生成蓄積手段と、前記下位Ｎグラム言語モデル生成蓄積手段とは、異なるコーパスを用いて言語モデルをそれぞれ生成する
ことを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、下位Ｎグラム言語モデル用のコーパスを更新するコーパス更新手段を有し、
下位Ｎグラム言語モデル生成蓄積手段は、更新されたコーパスに基づいて下位Ｎグラム言語モデルを更新生成する
ことを特徴とする請求の範囲第２項記載の言語モデル生成蓄積装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスの単語の系列を意味を有する最小の言語単位である２以上の形態素に解析し、当該単語列クラスに依存して当該形態素の系列をモデル化することにより前記下位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
前記上位Ｎグラム言語モデル生成蓄積手段は、形態素に解析されたテキストに含まれる前記単語列クラスを仮想的な仮想単語に置き換え、当該仮想単語および各単語からなる系列をモデル化することにより前記上位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスに出現する単語のうち、特定の単語を単語列クラスの構成単語に含めない除外単語とするか否かをその言語的特性に基づいて判断し、判断の結果前記除外単語について単語の読みに対応するモーラおよびモーラを結合した単位に切り分ける除外単語判断手段を有し、
前記言語モデル生成蓄積装置は、さらに
前記モーラおよびモーラを結合した単位の系列をモデル化して、確率の対数値である言語尤度を前記単語列クラス又は該除外単語の言語的特性に依存して付与することによりクラス依存モーラＮグラムを生成し、蓄積するクラス依存モーラＮグラム生成蓄積手段
を備えることを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Ｎグラム言語モデル生成蓄積手段は、前記着目したノードから上層を構成する第１の部分木を用いて構文木用の前記上位Ｎグラム言語モデルを生成し、
前記下位Ｎグラム言語モデル生成蓄積手段は、前記着目したノードから下層を構成する第２の部分木を用いて生成された構文木用の下位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記第２の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Ｎグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第７項記載の言語モデル生成蓄積装置。
前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Ｎグラム言語モデル生成蓄積手段は、前記構文木の最上位層を構成する第１の部分木を用いて前記上位Ｎグラム言語モデルを生成し、
前記下位Ｎグラム言語モデル生成蓄積手段は、第２より下位の層を構成する各部分木を、より上位の層における該部分木の位置付けに基づいて分類し、夫々の分類ごとの部分木を用いて前記下位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記第２の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Ｎグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第９項記載の言語モデル生成蓄積装置。
前記上位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスを含むＮ個の単語列とその単語の系列が生起する確率とを対応付けて上位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスを構成する単語の長さＮの連鎖とその単語連鎖が生起する確率とを対応付けて下位Ｎグラム言語モデルを生成する
ことを特徴とする請求の範囲第１項記載の言語モデル生成蓄積装置。
発声された単語の系列を認識する音声認識装置であって、
複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルと、
前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルと
を用いて音声を認識することを特徴とする音声認識装置。
発声された単語の系列を認識する音声認識装置であって、
音声認識用の言語モデルを生成し、蓄積する言語モデル生成蓄積装置を備え、
前記言語モデル生成蓄積装置は、
複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルを生成し、蓄積する上位Ｎグラム言語モデル生成蓄積手段と、
前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルを生成し、蓄積する下位Ｎグラム言語モデル生成蓄積手段とを有し、
前記上位Ｎグラム言語モデル生成蓄積手段によって蓄積される上位Ｎグラム言語モデルと、前記下位Ｎグラム言語モデル生成蓄積手段によって蓄積される下位Ｎグラム言語モデルとを用いて音声を認識することを特徴とする音声認識装置。
前記上位Ｎグラム言語モデルと、前記下位Ｎグラム言語モデルとは、異なるコーパスを用いてそれぞれ生成され、
前記音声認識装置は、異なるコーパスを用いてそれぞれ構築された前記上位Ｎグラム言語モデルと、前記下位Ｎグラム言語モデルとを用いて音声を認識する
ことを特徴とする請求の範囲第１４項記載の音声認識装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、下位Ｎグラム言語モデル用のコーパスを更新するコーパス更新手段を有し、
下位Ｎグラム言語モデル生成蓄積手段は、更新されたコーパスに基づいて下位Ｎグラム言語モデルを更新生成し、
前記音声認識装置は、更新された前記下位Ｎグラム言語モデルを用いて音声を認識する
ことを特徴とする請求の範囲第１５項記載の音声認識装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスの単語の系列を意味を有する最小の言語単位である２以上の形態素に解析し、当該単語列クラスに依存して当該形態素の系列をモデル化することにより前記下位Ｎグラム言語モデルを生成し、
前記音声認識装置は、前記形態素の系列にモデル化された前記下位Ｎグラム言語モデルを用いて音声を認識する
ことを特徴とする請求の範囲第１４項記載の音声認識装置。
前記上位Ｎグラム言語モデル生成蓄積手段は、形態素に解析されたテキストに含まれる前記単語列クラスを仮想的な仮想単語に置き換え、当該仮想単語および各単語からなる系列をモデル化することにより前記上位Ｎグラム言語モデルを生成し、
前記音声認識装置は、前記仮想単語および各単語からなる系列にモデル化された前記上位Ｎグラム言語モデルを用いて音声を認識する
ことを特徴とする請求の範囲第１４項記載の音声認識装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスに出現する単語のうち、特定の単語を単語列クラスの構成単語に含めない除外単語とするか否かをその言語的特性に基づいて判断し、判断の結果前記除外単語について単語の読みに対応するモーラおよびモーラを結合した単位に切り分ける除外単語判断手段を有し、
前記言語モデル生成蓄積装置は、さらに
前記モーラおよびモーラを結合した単位の系列をモデル化して、確率の対数値である言語尤度を前記単語列クラス又は該除外単語の言語的特性に依存して付与することによりクラス依存モーラＮグラムを生成し、蓄積するクラス依存モーラＮグラム生成蓄積手段を備え、
前記音声認識装置は、前記クラス依存モーラＮグラムを用いて音声を認識する
ことを特徴とする請求の範囲第１８項記載の音声認識装置。
前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Ｎグラム言語モデル生成蓄積手段は、前記着目したノードから上層を構成する第１の部分木を用いて構文木用の前記上位Ｎグラム言語モデルを生成し、
前記下位Ｎグラム言語モデル生成蓄積手段は、前記着目したノードから下層を構成する第２の部分木を用いて生成された構文木用の下位Ｎグラム言語モデルを生成し、
前記音声認識装置は、
音声から特徴パラメータを生成する音響処理手段と、
単語の発音および音響的特徴を照合し、単語の発声区間および単語の音響尤度を含む単語仮説群を生成する単語照合手段と、
構文木用の前記上位Ｎグラム言語モデルと構文木用の下位Ｎグラム言語モデルとを参照し、前記単語仮設群から単語列仮説を生成し、音声の認識結果を生成する単語列仮説生成手段と
を備えることを特徴とする請求の範囲第１９項記載の音声認識装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記第２の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Ｎグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Ｎグラム言語モデルを生成し、
前記単語列仮説生成手段は、音声の認識結果を生成する
ことを特徴とする請求の範囲第２０項記載の音声認識装置。
前記言語モデル生成蓄積装置は、さらに、テキストを形態素解析し、さらに構文解析し、予め決められた基準により選択された構文木上のノードに着目して、前記テキストを複数の階層構造とする構文木を生成する構文木生成手段を備え、
前記上位Ｎグラム言語モデル生成蓄積手段は、前記構文木の最上位層を構成する第１の部分木を用いて前記上位Ｎグラム言語モデルを生成し、
前記下位Ｎグラム言語モデル生成蓄積手段は、第２より下位の層を構成する各部分木を、より上位の層における該部分木の位置付けに基づいて分類し、夫々の分類ごとの部分木を用いて前記下位Ｎグラム言語モデルを生成し、
前記音声認識装置は、第１の部分木を用いて生成された前記上位Ｎグラム言語モデルと第２より下位の層を構成する各部分木を用いて生成された前記下位Ｎグラム言語モデルとを用いて音声を認識する
ことを特徴とする請求の範囲第１４項記載の音声認識装置。
前記下位Ｎグラム言語モデル生成蓄積手段は、前記第２の層より下層の部分木に出現する特定の単語を、予め決められた言語的特性に基づいて部分木の構成単語に含めない除外単語と判断する言語モデル生成用除外単語判断手段を有し、
前記下位Ｎグラム言語モデル生成蓄積手段は、前記除外単語については単語の読みに対応するモーラおよびモーラを結合した単位に分解し、当該モーラおよび結合モーラの系列を該除外単語の構文木上での位置および該除外単語の言語的特性に依存してモデル化することにより下位Ｎグラム言語モデルを生成し、
前記音声認識装置は、前記除外単語を含めない前記上位Ｎグラム言語モデルと前記除外単語を含めた前記下位Ｎグラム言語モデルとを用いて音声を認識する
ことを特徴とする請求の範囲第２２項記載の音声認識装置。
前記上位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスを含む長さＮの単語連鎖とその単語連鎖が生起する確率とを対応付けて上位Ｎグラム言語モデルを生成し、
前記音声認識装置は、前記単語列クラスを含むＮ個の単語列が生起する確率を乗算することにより単語列仮説を評価する単語列仮説生成手段を有する
ことを特徴とする請求の範囲第１４項記載の音声認識装置。
下位Ｎグラム言語モデル生成蓄積手段は、前記単語列クラスを構成する単語の長さＮの単語連鎖とその単語連鎖が生起する確率とを対応付けて下位Ｎグラム言語モデルを生成し、
前記音声認識装置は、前記単語列クラス内のＮ個の単語列が生起する確率を乗算することにより単語列仮説を評価する単語列仮説生成手段を有する
ことを特徴とする請求の範囲第１４項記載の音声認識装置。
音声認識用の言語モデルを生成する言語モデル生成方法であって、
複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルを生成する上位Ｎグラム言語モデル生成ステップと、
前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルを生成する下位Ｎグラム言語モデル生成ステップと
を含むことを特徴とする言語モデル生成方法。
発声された単語の系列を認識する音声認識方法であって、
複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルと、前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルとを用いて音声を認識することを特徴とする音声認識装方法。
発声された単語の系列を認識する音声認識方法であって、
前記音声認識方法は、
２以上の単語からなる単語列の言語的特性を示す単語列を単語列クラスとしてまとめ、該単語列クラスを、構成単語間の言語的な関係に基づき該単語列クラスに依存してモデル化したクラス依存単語Ｎグラムによって、確率の対数値である言語尤度を付与するステップと、
テキストを単語および上記単語列クラスに解析し、該単語および単語列クラスの系列を言語的な関係に基づきモデル化したクラスＮグラムによって、確率の対数値である言語尤度を付与するステップと、
連続した音声から抽出された特徴パラメータに、単語の発音および音響的特徴を照合し、単語の発声区間および単語の音響尤度を含む単語仮説群を生成し、前記クラスＮグラムおよび前記クラス依存単語Ｎグラムを参照し、前記単語仮設群から単語列仮説を生成し、音声の認識結果を出力するステップと
を含むことを特徴とする音声認識方法。
音声認識用の言語モデルを生成する言語モデル生成方法を実行するためのプログラムであって、
複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルを生成する上位Ｎグラム言語モデル生成ステップと、
前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルを生成する下位Ｎグラム言語モデル生成ステップと
をコンピュータに実行させることを特徴とするプログラム。
発声された単語の系列を認識する音声認識方法を実行するためのプログラムであって、
複数のテキストを、２以上の単語からなる単語列の言語的特性を示す単語列クラスを含む単語の系列としてモデル化した上位Ｎグラム言語モデルと、前記単語列クラス内の２以上の単語の系列をモデル化した下位Ｎグラム言語モデルとを用いて音声を認識するステップをコンピュータに実行させることを特徴とするプログラム。