JP2004069858A

JP2004069858A - 言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラム

Info

Publication number: JP2004069858A
Application number: JP2002226575A
Authority: JP
Inventors: Takaaki Hori; 堀　貴明; Katsutoshi Ofu; 大附　克年; Shoichi Matsunaga; 松永　昭一
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-08-02
Filing date: 2002-08-02
Publication date: 2004-03-04
Anticipated expiration: 2022-08-02
Also published as: JP4024614B2

Abstract

【課題】一つの記号に対して可能性のあるすべてのクラスを割り当てて記号連鎖確率（言語モデル）を推定する。
【解決手段】テキストデータを記憶媒体に格納したテキストデータベース１４０より読み出された記号列の個々の記号について、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表１５０を参照して対応する複数のクラスを求めてそのクラスリストを生成して記憶媒体に格納し、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラム。
【選択図】　図４

Description

【０００１】
【発明の属する技術分野】
この発明は、言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラムに関し、特に、人間が発声した音声を入力信号とし、その音声を音声標準パターン（音響モデル）および記号連鎖確率（言語モデル）を使用して認識し、認識結果を記号列として出力する言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラムに関する。
【０００２】
【従来の技術】
音声入力を音声認識して記号列に変換する場合、多数の文章より成る大規模なテキストデータベースを使用して記号の出現連鎖に関する記号連鎖確率（言語モデル）を生成しておき、これを利用することにより音声認識の性能を向上させる手法が従来から知られている。
ここで、記号とは、文章を表現するテキストデータを任意の方法で区分することにより得られる文字または文字列とし、文字、単語、文節その他の文章を表わす。記号列とは複数の記号が一列に並んだものを表わす。
【０００３】
記号連鎖確率は、Ｎ個の記号に対する連鎖確率を扱う場合はＮグラムモデルと呼ばれており、特にＮが２の場合をバイグラム、Ｎが３の場合をトライグラムと呼ぶ。Ｎグラムモデルについては、例えば、東京大学出版、北研二著「確率的言語モデル」Ｐ．５７〜Ｐ．９９に開示されている。また、Ｎグラムモデルを使用した音声認識の方法は、社団法人電子情報通信学会編、中川聖一著「確率モデルによる音声認識」Ｐ．１０９〜Ｐ．１２８に開示されている。
Ｎグラムモデルはテキストデータベースに含まれるＮ個の記号より成る記号連鎖の出現回数を数えることにより求めることができる。例えば、２個の記号Ａ、Ｂが連鎖する確率であるバイグラムの場合、記号Ａに続いて記号Ｂが出現する回数をＦ（Ａ、Ｂ）、記号Ａが出現する回数をＦ（Ａ）とすると、Ｆ（Ａ、Ｂ）をＦ（Ａ）で割った
Ｐ（Ｂ｜Ａ）＝Ｆ（Ａ、Ｂ）／Ｆ（Ａ）
を記号Ａの次に記号Ｂが生じるバイグラム確率として求めることができる。
【０００４】
また、３個の記号Ａ、Ｂ、Ｃが連鎖する確率であるトライグラムの場合、記号列Ａ、Ｂに続いて記号Ｃが出現する回数をＦ（Ａ、Ｂ、Ｃ）、記号Ａに続いて記号Ｂが出現する回数をＦ（Ａ、Ｂ）とすると、Ｆ（Ａ、Ｂ、Ｃ）をＦ（Ａ、Ｂ）で割った
Ｐ（Ｃ｜Ａ、Ｂ）＝Ｆ（Ａ、Ｂ、Ｃ）／Ｆ（Ａ、Ｂ）
を記号列Ａ、Ｂの次に記号Ｃが生じるトライグラム確率として求めることができる。
【０００５】
しかし、記号連鎖確率を生成するには、認識タスク（発声内容）と同じまたは類似した大規模なテキストデータベースを用意する必要がある。このテキストデータの分量が不充分な場合、一般的な記号連鎖が出現しないことがあり、その記号連鎖に対する連鎖確率が０になるという問題（ゼロ頻度問題）、記号連鎖の頻度が小さいために連鎖確率の推定精度が低下する問題が生ずる。
この問題を解決するに、テキストデータベースから読み出した記号列に含まれる個々の記号を、その記号の分類属性（クラス）を表す記号に変換することによりクラス連鎖確率を求め、求めた記号属性連鎖確率をもって記号連鎖確率とするクラスモデル法がある。このクラスモデル法は、例えば、東京大学出版、北研二著「確率的言語モデル」Ｐ．７２〜Ｐ．７４に開示されている。
【０００６】
クラスモデル法は、２個の記号Ａ、Ｂが連鎖する確率であるバイグラムの場合、記号Ａに続いて記号Ｂが出現する回数Ｆ（Ａ、Ｂ）の代わりに、記号Ａのクラスｃ（Ａ）に続いて記号Ｂのクラスｃ（Ｂ）が出現する回数であるＦ（ｃ（Ａ）、ｃ（Ｂ））、記号Ａの出現する回数Ｆ（Ａ）の代わりに記号Ａのクラスｃ（Ａ）が出現する回数Ｆ（ｃ（Ａ））を使用して、クラス連鎖確率
Ｐ（ｃ（Ｂ）｜Ｉｃ（Ａ））＝Ｆ（ｃ（Ａ）、ｃ（Ｂ））／Ｆ（ｃ（Ａ））
を求め、更に、記号Ｂがクラスｃ（Ｂ）に属する確率Ｐ（Ｂ｜ｃ（Ｂ））を掛けた
Ｐ（Ｂ｜Ａ）＝Ｐ（Ｂ｜ｃ（Ｂ））×Ｐ（ｃ（Ｂ）｜ｃ（Ａ））
を記号Ａの次に記号Ｂが生じるバイグラム確率として求めることができる。
【０００７】
記号Ｂがクラスｃ（Ｂ）に属する確率Ｐ（Ｂ｜ｃ（Ｂ））は、例えばテキストデータベース中の記号Ｂの頻度Ｆ（Ｂ）をクラスｃ（Ｂ）の頻度Ｆ（ｃ（Ｂ））で割って
Ｐ（Ｂ｜ｃ（Ｂ））＝Ｆ（Ｂ）／Ｆ（ｃ（Ｂ））
として求めることができる。
また、同じクラスに属する記号はすべて均等に出現するものと仮定して、クラスｃ（Ｂ）に属する記号の種類数Ｒ（ｃ（Ｂ））を使用して
Ｐ（Ｂ｜ｃ（Ｂ））＝１／Ｒ（ｃ（Ｂ））
として求めることもできる。同一クラスに属する記号が均等に出現することを仮定すると、コーパスに一度も出現しない記号に対しても、その記号のクラスが判かれば０ではない確率を与えることができるというメリットがある。
【０００８】
クラスモデル法は、記号の種類数と比較してクラスの種類数を少なく設定することにより、テキストデータベース中に殆ど出現せずに精度良く推定することができない記号連鎖確率であっても、対応するクラス連鎖であればより多く出現してクラス連鎖確率を精度良く推定することができる場合があるので、記号連鎖確率の代わりにクラス連鎖確率を使用すると先のゼロ頻度問題、推定精度低下の影響を緩和することができる。
クラスモデル法に基づいて記号連鎖確率を求める手順を図１を参照して説明する。クラス連鎖カウント部１３０に、テキストデータベース１４０から記号列を読み込み、読み込まれた個々の記号について、属するクラスを記号・クラス対応表１５０を参照して求め、読み込まれた記号連鎖に対応するクラス連鎖の出現回数を数える。ここで、記号・クラス対応表１５０におけるデータの対応関係について説明するに、記号・クラス対応表１５０はテキストデータベース１４０に出現する個々の記号が何れのクラスに属するかを定義した、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納したデータベースである。記号・クラス対応表１５０には、テキストデータベース１４０に出現する記号が列挙され記録されており、その列挙された個々の記号に対してその個々の記号が対応する単一或いは複数のクラスを格納している。データの格納形式としては、例えば、各記号のテキストデータを使用して表Ａ１に示される如く格納する。
（表Ａ１）
東京：［都市名］，［駅名］
西部新宿：［駅名］
ラーメン屋：［店舗］，［レストラン］
・・・・・・・・
ＮＴＴ：［会社］，［組織］
【０００９】
表Ａ１の各行は、個々の記号（左端からコロン：の前迄の文字列が）カンマ，により区切られた複数のクラスに対応することを示している。また、事前に個々の記号、クラスにそれらを特定するコード番号を割り当てておいて、記号、クラスのテキストデータを、それらを指し示すコード番号に置き換えて記憶してもよい。記号とクラスの対応関係は、また、後で説明される図示説明においては、便宜上矢印→により表現している。この記号・クラス対応表は予めテキストデータベースに出現する記号を調べて列挙し、その個々の記号に対して、予め用意しておいたクラスの集合の中から一つ或いは複数のクラスを選び、その記号に割り当てることにより作成する。この記号・クラス対応表を使用することにより、テキストデータベース１４０から読み出した記号に対する単一或いは複数のクラスを求めることができ、後で説明される図５、図６の手順に従って、クラスの出現連鎖回数を数えあげることができる。
【００１０】
記号連鎖確率生成部１２０においては、クラス連鎖カウント部１３０においてクラス出現連鎖を数えることにより得られたクラス出現連鎖頻度を使用してクラスモデル法に基づいて記号連鎖確率を求め、記号連鎖確率（言語モデル）データベース１１０に格納する。ここで、記号連鎖確率データベース１１０のデータの種別について説明するに、記号連鎖確率データベース１１０は、記号、クラスの単独或いは連鎖して出現する確率を格納するデータベースである。例えば、記号の２回出現連鎖までを考慮するバイグラムの場合、以下の表Ａ２に示される如く個々の記号およびクラス、或いは、記号およびクラスの連鎖を表すテキストデータとその出現確率を対にして記録したものである。また、事前に個々の記号、クラスにそれらを特定するコード番号を割り当てておいて、記号、クラスのテキストデータを、それらを指し示すコード番号に置き換えて記憶してもよい。この記号連鎖確率データベース１１０に記録される記号連鎖確率は、後で説明される図５、図６の手順に従って、個々の出現連鎖回数を数えあげた後に、ｐ２７ないし１２、２８の計算式に基づいて計算することができ、表Ａ２の如く記録する。
（表Ａ２）
［都道府県］　　　　　　　　　　０．３
［店舗］　　　　　　　　　　　　　　０．３
の　　　　　　　　　　　　　　　　　　　　０．２
で　　　　　　　　　　　　　　　　　　　　０．１
です　　　　　　　　　　　　　　　　　　０．１
の，［都道府県］　　　０．６７
で，［都道府県］　　　　　　０．３３
［店舗］，の　　　　　　　　　　１．０
［店舗］，で　　　　　　　　　　１．０
です，［店舗］　　　　　　　　０．３３
【００１１】
図１のクラス連鎖カウント部１３０において読み込まれた記号列からクラス連鎖の出現回数を求める手順を図２と図３を参照して説明する。図２はバイグラムの場合を説明する図であり、図３はトライグラムの場合を説明する図である。図２、図３において、ＣＬＡＳＳ（ｗ）という関数は、記号ｗに対して、記号ｗが属するクラスを図１の記号・クラス対応表を使用して求める関数とする。また、テキストデータベースから記号を読み込む際に、既にテキストデータベースからすべての記号を読み終えている場合は、その読み込まれる記号はＥＯＦになるものとする。
【００１２】
図２の手順は、Ｓ１から始まり、Ｓ２において最初の記号を読み込みｘに代入し、Ｓ３において記号ｘのクラスＣＬＡＳＳ（ｘ）を求めてｃ_１に代入する。Ｓ４において記号を読み込みｗに代入し、Ｓ５においてｗがＥＯＦになる迄Ｓ７、Ｓ８、Ｓ９、Ｓ４を繰り返す。Ｓ５においてｗがＥＯＦである（テキストデータを全て読み終えた）ならＳ６に移り終了する。Ｓ７において、記号ｗのクラスＣＬＡＳＳ（ｗ）を求め、ｃ_２に代入し、Ｓ８においてクラスの連鎖ｃ_１、ｃ_２の出現回数Ｆ（ｃ_１、ｃ_２）を１増やす。ここで、ｃ_２は現在読み込んだ記号のクラス、ｃ_１は一つ前に読み込んだ記号のクラスを表わしている。Ｓ９においてはｃ_２をｃ_１に代入し、Ｓ４に戻る。
【００１３】
図３の手順も同様に、Ｓ１から始まり、Ｓ２において最初の記号とその次の記号を読み込みそれぞれｘ、ｙに代入し、Ｓ３において記号ｘのクラスＣＬＡＳＳ（ｘ）と記号ｙのクラスＣＬＡＳＳ（ｙ）を求めてそれぞれｃ_１、ｃ_２に代入する。Ｓ４においては、次の記号を読み込みｗに代入し、Ｓ５においてｗがＥＯＦになる（テキストデータを全て読み終える）までＳ７、Ｓ８、Ｓ９、Ｓ４を繰り返す。Ｓ５においてｗがＥＯＦならＳ６に移り終了する。Ｓ７においては、記号ｗのクラスＣＬＡＳＳ（ｗ）を求めてｃ_３に代入し、Ｓ８においては、クラスの連鎖ｃ_１、ｃ_２、ｃ_３の出現回数Ｆ（ｃ_１、ｃ_２、ｃ_３）を１増やす。ここで、ｃ_３は現在読み込んだ記号のクラス、ｃ_２は一つ前に読み込んだ記号のクラス、ｃ_１は二つ前に読み込んだ記号のクラスを表わしている。Ｓ_９においては、ｃ_２をｃ_１に、ｃ_３をｃ_２に代入し、Ｓ４に戻る。
【００１４】
【発明が解決しようとする課題】
一般に、利用場面、対話の文脈その他の違いにより一つの記号に対して複数のクラスが考えられるケースがある。例えば、記号「東京」のクラスとして「都市名」、「駅名」が考えられるケースがある。
従来、この様に一つの記号に複数のクラスが割り当てられる場合、複数の可能性があっても何れか一つのクラスに決める。例えば、「東京」という記号のクラスはすべて「都市名」とする。或いは、テキストデータベース中の個々の記号が何れのクラスに属するかを明示的に記す。例えば、「東京（駅名）／から／大阪／まで／の／新幹線／です」とするか、「東京（都市名）／の／大久保／あたり／です」の様に括弧（）でクラス名を併記しておく、という方法がある。
【００１５】
しかし、或る記号に対して複数の可能性があるクラスを何れか一つのクラスに決めると、この決められたクラス以外のクラスを含むクラス連鎖が充分に出現しないことがあり、クラス連鎖確率に関するゼロ頻度問題、推定精度低下の可能性が生じる。
一方、テキストデータベース中の個々の記号が何れのクラスに属するか明示的に示すには、何らかの知識、例えば、前後の記号、その記号列がどの様な内容を表わしているかという知識を利用して一つ一つの記号が何れのクラスに属するかを分析しなければならない。
【００１６】
この発明は、一つの記号に対して何れか一つのクラスを割り当てるのではなくして、記号連鎖確率（言語モデル）を推定することにより、個々のクラス出現連鎖の確率を推定するに使用するクラス出現連鎖の数を増加して、クラス連鎖確率に関するゼロ頻度問題、推定精度低下の可能性を軽減することができ、何らかの知識を利用してテキストデータベース中の個々の記号が何れのクラスに属するかを判断する手間を省くことができるという上述の問題を解消した言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラムを提供するものである。
【００１７】
【課題を解決するための手段】
テキストデータを記憶媒体に格納したテキストデータベース１４０より読み出された記号列の個々の記号について、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表１５０を参照して対応する複数のクラスを求めてそのクラスリストを生成して記憶媒体に格納し、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する言語モデル生成方法を構成した。
【００１８】
記号列を表すテキストデータを記憶媒体に格納したテキストデータベース１４０と、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表１５０と、この記号・クラス対応表を参照して一つの記号に対応する複数のクラスを求めてそのリストを生成記憶するするクラスリスト生成部４６０と、テキストデータベースより記号列を読み出してその個々の記号をクラスリスト生成部に送り、その個々の記号に対応するクラスリストを得て、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数えるクラス連鎖組合せカウント部４３０と、クラス連鎖組合せカウント部において数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する記号連鎖確率生成部１２０とを有する言語モデル生成装置を構成した。
【００１９】
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースより読み出された記号列の個々の記号について、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表を参照して対応する複数のクラスを求めてそのクラスリストを生成記憶し、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成し、記号連鎖確率データベースに格納し、次いで、記号連鎖確率データベースから読み出した記号連鎖確率を使用して、入力テキストデータに最も適合する記号列を選び出すテキスト分析方法を構成した。
【００２０】
先のテキスト分析方法において、入力テキストデータを音声入力とし、音声標準パターンデータベースから読み出した音声標準パターンを使用して入力音声に最も適合する記号列を選び出すテキスト分析方法を構成した。
記号列を表すテキストデータを記憶媒体に格納したテキストデータベース１４０と、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表１５０と、この記号・クラス対応表を参照して一つの記号に対応する複数のクラスを求めてそのリストを生成記憶するするクラスリスト生成部４６０と、テキストデータベースより記号列を読み出してその個々の記号をクラスリスト生成部に送り、その個々の記号に対応するクラスリストを得て、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数えるクラス連鎖組合せカウント部４３０と、クラス連鎖組合せカウント部４３０において数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する記号連鎖確率生成部１２０と、求められた言語モデルである記号連鎖確率を格納する記号連鎖確率データベース１１０と、音声標準パターンを格納している音声標準パターンデータベース５６と、テキストデータ入力部５１と、記号連鎖確率データベースから読み出した記号連鎖確率を使用して、入力音声に最も適合する記号列を選び出してこれをテキスト分析結果とするテキスト分析部とを有するテキスト分析装置を構成した。
【００２１】
先のテキスト分析装置において、入力テキストデータを音声入力とし、音声標準パターンデータベースから読み出した音声標準パターンを使用して入力音声に最も適合する記号列を選び出すテキスト分析装置を構成した。
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースより記号列を読み出し、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表を参照して対応する複数のクラスを求めてそのクラスリストを生成し、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する指令をコンピュータに対して実行する言語モデル生成プログラムを構成した。
【００２２】
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースより記号列を読み出し、読み出された記号列の個々の記号について記号・クラス対応表を参照して対応する複数のクラスを求めてそのクラスリストを生成し、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成して記号連鎖確率データベースに格納し、記号連鎖確率データベースから記号連鎖確率を読み出し、音声標準パターンデータベースから音声標準パターンを読み出し、記号連鎖確率および音声標準パターンを使用して入力音声に最も適合する記号列を選び出す指令をコンピュータに対して実行するテキスト分析プログラムを構成した。
【００２３】
【発明の実施の形態】
この発明の実施の形態を図４の実施例を参照して説明する。図４は言語モデル生成方法の実施例を説明する図である。
テキストデータを格納したテキストデータベース１４０より読み出された個々の記号は、クラス連鎖組合せカウント部４３０を介して、一つの記号に対応する複数のクラスから成るリストを生成するクラスリスト生成部４６０に送り込まれる。このクラスリスト生成部４６０においては、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表１５０を使用し、送り込まれた形態素解析を行った結果の記号に対応するクラスリストを生成して記憶媒体に格納し、クラス連鎖組合せカウント部４３０に返す。複数クラス連鎖組合せカウント部４３０は、クラスリスト生成部４６０から返されたクラスリストに含まれる各々のクラスが同じ文脈で１回づつ出現したものとした時に生ずるすべてのクラス連鎖の組み合わせについて、出現回数をカウントする。ここで、同じ文脈とは、当該記号よりも前に読み込まれた記号とそのクラスが同一であることを意味する。
【００２４】
記号連鎖確率生成部１２０は、クラス連鎖組合せカウント部４３０において得られたクラス連鎖の出現回数を使用して記号連鎖確率（言語モデル）を推定し、その結果を記号連鎖確率（言語モデル）データベース１１０として記憶装置に格納しておく。この記号連鎖確率（言語モデル）は、後で具体的に説明されるが、記号とクラスより成る変換テキストから得られる記号の連鎖とこの連鎖に対応する確率の値の組として格納されている。
クラス連鎖組合せカウント部４３０におけるクラス連鎖の出現回数をカウントする手順を図５と図６を参照して説明する。図５はバイグラムの場合を説明する図であり、図６はトライグラムの場合を説明する図である。
【００２５】
図５および図６において、ＣＬＩＳＴ（ｗ）という関数は、記号ｗに対して、記号ｗが属するクラスのリストを記号・クラス対応表１５０を使用して求める関数とする。また、図２、図３の例と同様に、テキストデータベースから記号を読み込む際に、既にテキストデータベースからすべての記号を読み終えている場合は、その読み込まれる記号はＥＯＦになるものとする。
図５の手順は、Ｓ１から始まり、Ｓ２において最初の記号を読み込みｘに代入し、Ｓ３において記号ｘのクラスリストＣＬＩＳＴ（ｘ）を求めＣ_１に代入する。Ｓ４において記号を読み込みｗに代入し、Ｓ５においてｗがＥＯＦになるまでＳ７からＳ４に戻るまでの手続きを繰り返す。Ｓ７においてはｗのクラスリストＣＬＩＳＴ（ｗ）を求めてＣ_２に代入する。Ｓ８からＳ１３の手続きは、クラスリストＣ_１とＣ_２に含まれるすべての２クラス連鎖の組合せをそれぞれ１回出現したものとしてカウントする手続きを表わしている。ここで、Ｓ１０におけるＣ_１［ｉ］とＣ_２［ｊ］は、それぞれクラスリストＣ_１のｉ番目のクラス、クラスリストＣ_２のｊ番目のクラスを表わす。また、クラスリストＣ_１とＣ_２に含まれるクラスの数をそれぞれＬ_１とＬ_２として、ｉとｊを増加させながらすべての２クラス連鎖の組合せに対する出現回数のカウントを行っている。Ｓ５においてｗがＥＯＦである（テキストデータを全て読み終えた）ならＳ６に移り終了する。
【００２６】
図６の手順も同様に、Ｓ１から始まり、Ｓ２において最初の記号とその次の記号を読み込みそれぞれｘ、ｙに代入し、Ｓ３において記号ｘのクラスリストＣＬＩＳＴ（ｘ）とクラスリストＣＬＩＳＴ（ｙ）を求めてそれぞれＣ_１、Ｃ_２に代入する。Ｓ４において記号を読み込みｗに代入し、Ｓ５においてｗがＥＯＦになるまでＳ７からＳ４に戻るまでの手続きを繰り返す。Ｓ７ではｗのクラスリストＣＬＩＳＴ（ｗ）を求めてＣ_３に代入する。Ｓ８からＳ１６の手続きは、クラスリストＣ_１、Ｃ_２、Ｃ_３に含まれるすべての３クラス連鎖の組合せをそれぞれ１回出現したものとしてカウントする手続きを表わしている。ここで、Ｓ１０におけるＣ_１［ｉ］、Ｃ_２［ｊ］、Ｃ_３［ｋ］は、それぞれ、クラスリストＣ_１のｉ番目のクラス、クラスリストＣ_２のｊ番目のクラス、クラスリストＣ_３のｋ番目のクラスを表わす。また、クラスリストＣ_１、Ｃ_２、Ｃ_３に含まれるクラスの数を、それぞれＬ_１、Ｌ_２、Ｌ_３として、ｉ、ｊ、ｋを増加させながらすべての３クラス連鎖の組合せに対する出現回数のカウントを行っている。Ｓ５においてｗがＥＯＦである（テキストデータを全て読み終えた）ならＳ６に移り終了する。
【００２７】
次に、従来のクラス出現連鎖のカウント方法と、この発明の一実施のクラス出現連鎖のカウント方法の間の相違を、入力記号列の例を使用して説明する。
図７は、図３に示されるクラス出現連鎖のカウント手順の従来例において、入力記号列「東京／の／ラーメン屋／です」の記号が順に読み込まれた際にカウントされるクラス連鎖を表す図である。図７の７１０は記号・クラス対応表の一例を表わしており、従来の方法は表の左側の記号が表の右側の一つのクラスに対応することを「→」を使用して表わしている。例えば、第１行目は、記号「東京」のクラスが「都市名」であることを表わしている。
【００２８】
図７の７２０は、図３の手順において、入力記号列「東京／の／ラーメン屋／です」を順に読み込んで、初めてＳ８に到達した際のクラスｃ_１、ｃ_２、ｃ_３のそれぞれの値を表わしている。このとき、図３のＳ８においてカウントされるのは、図７の７３０に示すＦ（［都市名］、の、［店舗］）のみである。更に、次の記号を読み込んでＳ８に到達した際のクラスｃ_１、ｃ_２、ｃ_３のそれぞれの値は図７の７４０となり、同様に、Ｆ（の、［店舗］、です）だけがカウントされる。一方、図８は、図６に示されるこの発明のクラス出現連鎖のカウント手順の実施例において、入力記号列「東京／の／ラーメン屋／です」の記号が順に読み込まれた際にカウントされるクラス連鎖を表わす図である。
【００２９】
図８の８１０は記号・クラス対応表の一例を表わしており、表の左側の一つの記号が表右側の一つ或いは複数のクラスに対応することを「→」を使用して表わしている。例えば、第１行目は、記号「東京」のクラスが「都市名」と「駅名」であることを表わしている。
図６の手順において、入力記号列「東京／の／ラーメン屋／です」を順に読み込んで、初めてＳ８に到達した際のリストＣ_１、Ｃ_２、Ｃ_３のそれぞれの内容を表すのが図８の８２０である。このとき、図６のＳ８からＳ１６の繰り返しにおいてカウントされるのは、図８の８３０に示すＦ（［都市名］、の、［店］）、Ｆ（［都市名］、の、［レストラン］）、Ｆ（［駅名］、の、［店舗］）、Ｆ（［駅名］、の、［レストラン］）の４つである。更に、次の記号を読み込んでＳ８に到達した際のリストＣ_１、Ｃ_２、Ｃ_３のそれぞれの内容は図８の８４０となり、同様にＦ（の、［店舗］、です）とＦ（の、［レストラン］、です）がカウントされる。
【００３０】
図７の７３０ではＦ（［都市名］）、の、［店舗］）と７５０のＦ（の、［店舗］、です）がそれぞれカウントされるのに対して、図８の８３０ではＦ（［都市名］、の、［店舗］）、Ｆ（［都市名］、の、［レストラン］）、Ｆ（［駅名］、の、［店舗］）、Ｆ（［駅名］、の、［レストラン］）と、８５０のＦ（の、［店舗］、です）、Ｆ（の、［レストラン］、です）を比べるものであることから分かるように、カウントされるクラス出現連鎖の種類は、この発明を使用した図８の方が多く、個々のクラス連鎖確率を推定するために、従来の方法よりも多くのクラス出現連鎖を利用することができる。
【００３１】
また、読み込んだ記号の属するクラスが明確であれば、例えば、「東京／駅／の／西口」という入力記号列において記号「東京」のクラスは「駅名」であることが明確であれば、従来の方法により一つのクラスに限定する。記号のクラスが不明確であれば、例えば、「東京／の／北側／です」という入力記号列において記号「東京」のクラスが「駅名」であるのか或は「都市名」であるのかが不明確であれば、この発明による複数のクラス出現連鎖をカウントすることができる。ところで、以上の言語モデル生成方法を音声認識方法と組合せて使用することができる。これを図９を参照して説明する。
【００３２】
先に図４を参照して図示説明したこの発明による言語モデル生成方法に従って言語モデルを生成し、記号連鎖確率（言語モデル）データベース１１０に格納する。次いで、音声認識部９２０において、入力音声９１０が入力されたときに、記号連鎖確率（言語モデル）データベース１１０から読み出した記号連鎖確率と、音声標準パターンデータベース９４０から読み出した音声標準パターンとを使用し、入力音声に最も適合する記号列９３０を選び出し、音声認識の結果とする。
【００３３】
ここで、入力音声Ｏおよび音声モデルについて説明するに、入力音声Ｏは、実際は、入力音声を１０ｍ秒程度の一定時間毎に分析した音声特徴量である。この一定時間毎の音声特徴量は、入力変換された音声信号波形データに対してフィルタバンク分析、或いは線形予測分析を施すことにより得られる。音声モデルとしては、例えば、確率統計理論に基づいてモデル化された隠れマルコフモデル（ＨＭＭ）が使用される。ＨＭＭについては、例えば、社団法人　電子通信学会編
中川　聖　著　「確率モデルによる音声認識」において詳細に説明されている。ＨＭＭは音素、単語の如き音声単位毎に用意しておいて、その対応する音素、単語の標準的な（平均的な）音声特徴量を記憶したモデルである。その標準的な或いは平均的な音声特徴量は、音声データを使用して予め推定しておく。そして、音声認識の処理過程においては、一定時間毎に分析された音声特徴量の系列、ｏ_ｔ、・・・・、ｏ_ｓに対して、それが単語ｗらしいか否かを与える音響確率、Ｐ（ｏ_ｔ、・・・・、ｏ_ｓ｜ｗ）を単語ｗに対するＨＭＭを使用して計算することができる。但し、ｏ_ｔは入力音声を時間に従って分析した際のｔ番目の音声特徴量を表し、ｔ＜ｓとする。なお、この音響確率と言語確率を使用した音声認識においては、音響確率Ｐ（Ｏ｜Ｗ）と言語確率Ｐ（Ｗ）の積Ｐ（Ｏ｜Ｗ）Ｐ（Ｗ）を最大とする単語列と、その各単語の境界を求める計算を行う。
【００３４】
音声認識部９２０は、例えば、入力音声９１０に対して、その内容が記号Ｗ＝ｗ_１、ｗ_２、．．．、ｗ_Ｍである確率Ｐ（Ｗ｜Ｏ）を計算する。ここでＯは入力音声を表す。そして、Ｐ（Ｗ｜Ｏ）が最大となるＷを求めて音声認識の結果とする．このＰ（Ｗ｜Ｏ）は、ベイズの定理を使用して
Ｐ（Ｗ｜Ｏ）＝Ｐ（Ｏ｜Ｗ）Ｐ（Ｗ）Ｐ（Ｏ）
と書き直すことができ、Ｐ（Ｏ｜Ｗ）は音響確率として音声標準パターン（音響モデル）を使用して計算し、Ｐ（Ｗ）は言語確率として記号連鎖確率（言語モデル）を使用して計算する。
【００３５】
例えば、トライグラムの場合、言語確率は
Ｐ（Ｗ）＝Ｐ（ｗ_１）Ｐ（ｗ_２｜ｗ_１）Ｐ（ｗ_３｜ｗ_１ｗ_２）Ｐ（ｗ_４｜ｗ_２ｗ_３）・・・・・Ｐ（Ｗ_Ｍ｜Ｗ_Ｍ−２Ｗ_Ｍ−１）
として計算する。
Ｐ（Ｏ）はＰ（Ｗ｜Ｏ）の大小に無関係であるため無視することができ、実際には、Ｐ（Ｏ｜Ｗ）Ｐ（Ｗ）を最大とするＷを求める。
また、この発明の方法をコンピュータによりプログラムを実行させて達成させることもできる。これを図１０の実施例を参照して説明する。各部はバス６０を介して相互接続され、言語モデル生成プログラムがＣＤ・ＲＯＭ、磁気ディスクその他の記憶媒体、或いは通信回線を介してメモリ５７にインストールされており、ＣＰＵ５９がこの言語モデル生成プログラムを実行することにより、テキストデータベース５４から読み出された記号列が、記号列変換規則６１を使用して複数記号列に変換され、その複数記号列から記号連鎖確率（言語モデル）が生成され、記号連鎖確率（言語モデル）データベース５５に格納する。
【００３６】
その後、音声認識を行うが、メモリ５８に音声認識プログラムを同様にインストールしておき、入力部５１に音声が入力されると、ＣＰＵ５９が音声認識プログラムを実行して、記号連鎖確率データベース５５、音声標準パターンデータベース５６を参照して音声認識を行い、その結果の記号列を出力部５２から出力する。記憶部５３は言語モデル生成、音声認識時に一時的にデータを記憶するに使用される。
次に、情報検索を目的とする音声対話システムの音声認識部に使用される言語モデルを例としてこの発明の実施例を従来のクラスモデル法と比較しながら具体的に説明する。言語モデルとしてユニグラムとバイグラムを使用して説明する。
【００３７】
都道府県と店舗の種類を音声で指定することにより店舗の情報を検索して提供する音声対話システムにおいて、音声認識部に使用される言語モデルを作成する。言語モデルの学習には、ユーザがシステムに対して都道府県と店舗の種類を指定する以下の（例文１−１）〜（例文３−１）の如きテキストデータベースを利用する。
（例文１−１）「東京のラーメン屋です」
（例文２−１）「千葉で家具屋」
（例文３−１）「埼玉の居酒屋」
一般に、言語モデルの学習には数百文以上のテキストデータを使用するが、この実施例においては、これらの３つの文を使用してこの発明の言語モデルを作この発明の言語モデル成する場合について説明する。
【００３８】
この発明の言語モデルの作成の説明に先立って、これらのテキストデータから従来のクラスモデル法によりクラス言語モデルを作成する仕方を説明しておく。これには、次の（記号・クラス対応表１）の如き記号クラス対応表を使用してテキストを変換する。
（記号・クラス対応表１）
東京→都道府県　　　ラーメン屋→店舗
千葉→都道府県　　　家具屋→店舗
埼玉→都道府県　　　居酒屋→店舗
変換の結果得られるテキストは以下の通りとなる。
（例文１−２）「［都道府県］の［店舗］です」
（例文２−２）「［都道府県］で［店舗］」
（例文３−３）「［都道府県］の［店舗］」
【００３９】
これらの変換テキストから得られる記号連鎖確率は以下の通りになる。なお、Ｐ（［都道府県］）とは、［都道府県］が単独で現れる確率Ｐであり、この例文においては、［都道府県］の頻度の合計は３、記号およびクラスの頻度の合計は１０である。
Ｐ（［都道府県］）＝３／１０＝０．３
Ｐ（の｜［都道府県］）＝２／３＝０．６７
Ｐ（で｜［都道府県］）＝１／３＝０．３３
Ｐ（［店舗］｜の）＝２／２＝１．０
Ｐ（［店舗］｜で）＝１／１＝１．０
Ｐ（です｜［店舗］）＝１／３＝０．３３
一方、この発明の言語モデル作成法によれば、次の（記号・クラス対応表２）の如き記号・クラス対応表を使用してテキストを変換する。
（記号クラス対応表２）
東京→都道府県　　　ラーメン屋→店舗
東京→駅名　　　　　ラーメン屋→飲食店
千葉→都道府県　　　家具屋→店舗
千葉→駅名　　　　　居酒屋→店舗
埼玉→都道府県　　　　　　居酒屋→飲食店
【００４０】
変換の結果得られるテキストは以下の通りとなる。
（例文１−３−１）「［都道府県］の［店舗］です」
（例文１−３−２）「［都道府県］の［飲食店］です」
（例文１−３−３）「［駅名］の［店舗］です」
（例文１−３−４）「［駅名］の［飲食店］です」
（例文２−３−１）「［都道府県］で［店舗］」
（例文２−３−２）「［駅名］で［店舗］」
（例文３−３−１）「［都道府県］の［店舗］」
（例文３−３−２）「［都道府県］の［飲食店］」
これらの変換テキストから得られる記号連鎖確率は、以下の通りになる。
Ｐ（［都道府県］）＝５／２８＝０．１８
Ｐ（［駅名］）＝３／２８＝０．１１
Ｐ（の｜［都道府県］）＝４／５＝０．８
Ｐ（で｜［都道府県］）＝１／５＝０．２
Ｐ（の｜［駅名］）＝２／３＝０．６７
Ｐ（で｜［駅名］）＝１／３＝０．３３
Ｐ（［店舗］｜の）＝３／６＝０．５
Ｐ（［飲食店］｜の）＝３／６＝０．５
Ｐ（［店舗］｜で）＝２／２＝１．Ｏ
Ｐ（です｜［店舗］）＝２／５＝０．４
Ｐ（です｜［飲食店］）＝２／３＝０．６７
【００４１】
上述した、２つの言語モデルを都道府県の店舗案内タスクへ適用する。「神奈川の自転車屋」という発話が入力されたとする。音声認識時にはタスクが都道府県の店舗案内であることは既知であるので入力文に都道府県の店舗案内タスク用の記号・クラス対応表を適用する。その結果、入力文は「［都道府県］の［店舗］」という記号列に変換される。この記号列の評価値（記号列の出現確率）を従来のクラスモデル法による言語モデルによって求めると

となる、一方、この発明による言語モデルによって求めると、

となり、何れの言語モデルでも入力の記号列に対する評価値を求めることができる。以上の例においては、従来のクラスモデル法による言語モデルの方がこの発明による言語モデルよりも高い評価値を与えているが、音声認識処理は様々な記号列に対して同じ言語モデルを適用した場合の評価値に基づいて記号列を認識するので、以上の例の如く複数の言語モデルの同じ記号列に対する評価値の差は認識精度にはさほど影響することはない。
【００４２】
更に、これらの言語モデルを未知のタスクである鉄道の駅近辺の飲食店案内タスクに適用する。「新宿のそば屋」という発話が入力されたとする。入力文に駅近辺の飲食店案内タスク用の記号・クラス対応表を適用すると「［駅名］の［飲食店］」という記号列に変換される。
これを従来のクラスモデル法による言語モデルで評価すると

となり、学習データに表われなかった記号列として評価値が０或いは非常に小さい値（スムージングを行った場合）になる。一方、この発明による言語モデルで評価すると

と入力の記号列に対する評価値を求めることができる。
【００４３】
また、「東京のラーメン屋」という学習データに現れる文とまったく同じ文を入力とした場合でも、駅近辺の飲食店案内タスク用の記号クラス対応表によって変換すると「［駅名］の［飲食店］」という記号列になるので、従来のクラスモデル法による言語モデルは、評価値が０或いは非常に小さい値となり、入力文を音声認識することは難しい。従来のクラスモデル法で駅近辺の飲食店案内タスク用の言語モデルを作成するには、駅近辺の飲食店案内タスク用の記号クラス対応表を使用して新たに言語モデルを作成し直す必要がある。
【００４４】
以上の実施例は、言語モデルのＮグラムとしてＮ≦２、即ち、ユニグラムとバイグラムを使用しているが、Ｎ≧３であるトライグラム以上の言語モデルを使用してもよい。また、入力文を言語モデルにより評価する際に文頭、文末のシンボルを使用してもよい。
ところで、この発明により生成された言語モデルは、図９の音響モデル９４０を使用せずに、テキスト解析にに使用することができる。例えば、複数の記号列から、文として最も誤りの少ない妥当な記号列を選択することができる。これは与えられた複数の記号列の中から、言語確率が最大になる記号列を選択すればよい。例えば、二つの記号列（Ｓ１、Ｓ２）
Ｓ１：「東京／の／ラーメン屋／です」
Ｓ２：「ラーメン屋／の／です／東京」
に対して、言語確率を計算すると、
Ｐ（Ｓ１）＝Ｐ（東京）×Ｐ（の｜東京）×Ｐ（ラーメン屋｜の）×Ｐ（です｜ラーメン屋）
Ｐ（Ｓ２）＝Ｐ（ラーメン屋）×Ｐ（の｜ラーメン屋）×Ｐ（です｜の）×Ｐ（東京｜です）
となる。
「の／です」、「です／東京」という記号連鎖はテキストデータベースにおける頻度が相対的に少ないので、Ｐ（です｜の）、Ｐ（東京｜です）の確率が他の確率より小さくなる。結果として、Ｐ（Ｓ１）＞Ｐ（Ｓ２）となり、文としてもっともらしい入力Ｓ１を選択することができる。
【００４５】
【発明の効果】
以上の通りであって、この発明によれば、テキストコーパス中の個々の記号に複数のクラスが割り当てられる可能性があっても、何れか一つのクラスに限定することなく、可能性のあるすべてのクラスを割り当て、その記号に割り当てられる可能性のある複数のクラスの各々が同じ文脈で１回づつ出現したものとしてクラス連鎖の出現回数をカウントし、記号連鎖確率（言語モデル）を推定する構成を採用したことにより、次の３つの効果を奏する。
【００４６】
（１）　事前に個々の記号にただ一つのクラスを割り当てなければならないという必要がなくなり、何らかの知識を利用してテキストデータベース中の個々の記号が何れのクラスに属するかを判断する手間を省くことができる。
（２）　クラス連鎖確率に関するゼロ頻度問題、推定頻度低下を軽減することができ、より信頼性の高い言語モデルを生成することができる。
（３）　この発明による言語モデルを音声認識に使用することにより、特に未知のタスクに対して従来の方法により生成した言語モデルを使用した場合よりも高い音声認識の精度を得ることができる。
【図面の簡単な説明】
【図１】
言語モデル生成方法の従来例を説明する図。
【図２】
言語モデル生成方法の従来例によるバイグラムの生成手順を説明する図。
【図３】
言語モデル生成方法の従来例によるトライグラムの生成手順を説明する図。
【図４】
言語モデル生成方法の実施例を説明する図。
【図５】実施例によるバイグラムの生成手順を説明する図。
【図６】実施例によるトライグラムの生成手順を説明する図。
【図７】従来例における記号列の読み込みからクラス出現連鎖をカウントする過程を説明する図。
【図８】実施例における記号列の読み込みからクラス出現連鎖をカウントする過程を説明する図。
【図９】この発明による言語モデル生成方法および音声認識方法を説明する図。
【図１０】この発明による言語モデル生成方法および音声認識方法がコンピュータにより実行される場合の構成を説明する図。
【符号の説明】
１１０　記号連鎖確率（言語モデル）データベース
１２０　記号連鎖確率生成部
１４０　テキストデータベース
１５０　記号・クラス対応表
４３０　クラス連鎖組合せカウント部
４６０　クラスリスト生成部

Claims

テキストデータを記憶媒体に格納したテキストデータベースより読み出された記号列の個々の記号について、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表を参照して対応する複数のクラスを求めてそのクラスリストを生成して記憶媒体に格納し、
読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、
数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成することを特徴とする言語モデル生成方法。
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースと、
記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表と、
この記号・クラス対応表を参照して一つの記号に対応する複数のクラスを求めてそのリストを生成記憶するするクラスリスト生成部と、
テキストデータベースより記号列を読み出してその個々の記号をクラスリスト生成部に送り、その個々の記号に対応するクラスリストを得て、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数えるクラス連鎖組合せカウント部と、
クラス連鎖組合せカウント部において数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する記号連鎖確率生成部とを有することを特徴とする言語モデル生成装置。
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースより読み出された記号列の個々の記号について、記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表を参照して対応する複数のクラスを求めてそのクラスリストを生成記憶し、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成し、記号連鎖確率データベースに格納し、
次いで、記号連鎖確率データベースから読み出した記号連鎖確率を使用して、入力テキストデータに最も適合する記号列を選び出すことを特徴とするテキスト分析方法。
請求項３に記載されるテキスト分析方法において、
入力テキストデータを音声入力とし、音声標準パターンデータベースから読み出した音声標準パターンを使用して入力音声に最も適合する記号列を選び出すことを特徴とするテキスト分析方法。
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースと、
記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表と、
この記号・クラス対応表を参照して一つの記号に対応する複数のクラスを求めてそのリストを生成記憶するするクラスリスト生成部と、
テキストデータベースより記号列を読み出してその個々の記号をクラスリスト生成部に送り、その個々の記号に対応するクラスリストを得て、読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数えるクラス連鎖組合せカウント部と、
クラス連鎖組合せカウント部において数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する記号連鎖確率生成部と、
求められた言語モデルである記号連鎖確率を格納する記号連鎖確率データベースと、
音声標準パターンを格納している音声標準パターンデータベースと、
テキストデータ入力部と、
記号連鎖確率データベースから読み出した記号連鎖確率を使用して、入力音声に最も適合する記号列を選び出してこれをテキスト分析結果とするテキスト分析部とを有することを特徴とするテキスト分析装置。
請求項５に記載されるテキスト分析装置において、
入力テキストデータを音声入力とし、音声標準パターンデータベースから読み出した音声標準パターンを使用して入力音声に最も適合する記号列を選び出すことを特徴とするテキスト分析装置。
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースより記号列を読み出し、
記号およびこれに対応する単一或いは複数のクラスを記憶媒体に格納した記号・クラス対応表を参照して対応する複数のクラスを求めてそのクラスリストを生成し、
読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、
数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成する指令をコンピュータに対して実行する言語モデル生成プログラム。
記号列を表すテキストデータを記憶媒体に格納したテキストデータベースより記号列を読み出し、
読み出された記号列の個々の記号について記号・クラス対応表を参照して対応する複数のクラスを求めてそのクラスリストを生成し、
読み出した記号列の上で隣接するＮ個（Ｎは２以上の整数）の記号に対応するＮ個のクラスリストからクラスを一つづつ選択するすべての組合せに対してクラス連鎖の出現頻度を数え、
数え上げた結果得られるクラス出現連鎖の頻度情報から言語モデルである記号連鎖確率を生成して記号連鎖確率データベースに格納し、
記号連鎖確率データベースから記号連鎖確率を読み出し、
音声標準パターンデータベースから音声標準パターンを読み出し、
記号連鎖確率および音声標準パターンを使用して入力音声に最も適合する記号列を選び出す指令をコンピュータに対して実行するテキスト分析プログラム。