JP6003127B2

JP6003127B2 - 言語モデル作成プログラム及び言語モデル作成装置

Info

Publication number: JP6003127B2
Application number: JP2012062373A
Authority: JP
Inventors: 昌嗣外池
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2012-03-19
Filing date: 2012-03-19
Publication date: 2016-10-05
Anticipated expiration: 2032-03-19
Also published as: JP2013195685A

Description

本発明は、言語モデル作成プログラム、言語モデル作成装置及び音声認識装置に関する。

従来の音声認識装置として、入力される音声信号に対して音節の区切りに関する情報を付加するものが知られている（例えば、特許文献１参照）。

特許文献１の音声認識装置は、利用者が入力した音声信号を任意の音節に区切るための音節の区切りに関する情報としてのブレスコードを生成するブレスコード生成部と、利用者の操作のタイミングに応じてブレスコードを生成するために操作信号をブレスコード生成部に送信する操作部と、ブレスコードが付加された音声信号をブレスコードに応じて音節ごとにデジタルデータに変換する変換部と、変換部において変換されたデジタルデータを音節ライブラリと比較して一致する文字データを出力する出力部とを有し、利用者が音節区切りに関する情報を付加するため、比較するデジタルデータについて次音節との混同を抑制する。

特開平１１−２１９１９４号公報

本発明の目的は、母音の発声に伴う言語の曖昧性を考慮した言語モデルを作成する言語モデル作成プログラム、言語モデル作成装置及びこれらにより作成された言語モデルを用いた音声認識装置を提供することにある。

［１］コンピュータを、
形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素から、前記第１の読みと読みが完全一致する第３の形態素を抽出する読み一致形態素抽出手段と、
前記第１の形態素と前記第３の形態素に対し共通に左側に接続できる第４の形態素を抽出する左接続形態素抽出手段と、
前記第４の形態素及び前記第１の形態素を順に並べたものと前記第４の形態素及び前記第３の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成プログラム。

［２］コンピュータを、
形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素のうち、当該第２の形態素の読みの先頭から、前記第１の読みを削除したものが前記第１の形態素に接続できる形態素を第５の形態素として抽出する右接続形態素抽出手段と、
前記第１の形態素と前記第５の形態素に対し共通に左側に接続できる第６の形態素を抽出する左接続形態素抽出手段と、
前記第６の形態素、前記第１の形態素、前記第５の形態素の読みの先頭から前記第１の読みを削除したものを順に並べたものと前記第６の形態素及び前記第５の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成プログラム。

［３］形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素から、前記第１の読みと読みが完全一致する第３の形態素を抽出する読み一致形態素抽出手段と、
前記第１の形態素と前記第３の形態素に対し共通に左側に接続できる第４の形態素を抽出する左接続形態素抽出手段と、
前記第４の形態素及び前記第１の形態素を順に並べたものと前記第４の形態素及び前記第３の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成装置。

［４］形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素のうち、当該第２の形態素の読みから、前記第１の読みを削除したものが前記第１の形態素に接続できる形態素を第５の形態素として抽出する右接続形態素抽出手段と、
前記第１の形態素と前記第５の形態素に対し共通に左側に接続できる第６の形態素を抽出する左接続形態素抽出手段と、
前記第６の形態素、前記第１の形態素、前記第５の形態素の読みの先頭から前記第１の読みを削除したものを順に並べたものと前記第６の形態素及び前記第５の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成装置。

請求項１又は３に係る発明によれば、母音が連続することにより、母音の発声に伴う言語の曖昧性を考慮した言語モデルを作成することができる。

請求項２又は４に係る発明によれば、母音が認識されないことにより、母音の発声に伴う言語の曖昧性を考慮した言語モデルを作成することができる。

図１は、本発明の実施の形態に係る言語モデル作成装置の構成例を示す概略ブロック図である。図２（ａ）〜（ｄ）は、言語モデル作成装置のパターン１の動作例を説明するための図である。図３（ａ）〜（ｆ）は、言語モデル作成装置のパターン２の動作例を説明するための図である。図４は、言語モデル作成装置のパターン１の動作例を示すフローチャートである。図５は、言語モデル作成装置のパターン２の動作例を示すフローチャートである。図６は、音声認識装置の構成の一例を示すための概略ブロック図である。

（言語モデル作成装置の構成）
図１は、本発明の実施の形態に係る言語モデル作成装置の構成例を示す概略ブロック図である。

この言語モデル作成装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等から構成され各部を制御するとともに各種のプログラムを実行する制御部１０と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリ等の記憶媒体から構成され情報を記憶する記憶部１１と、外部と通信する通信部１２とを有する。なお、言語モデル作成装置１は、例えば、サーバ等のコンピュータであり、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）又は携帯電話機等でもよい。また、さらに、文や図形等を表示する液晶ディスプレイ等の表示部、操作入力用のキーボードやマウス等の操作部を有する構成であってもよい。

制御部１０は、後述する言語モデル作成プログラム１１０を実行することで、母音形態素抽出手段１００、読み形態素抽出手段１０１、読み一致形態素抽出手段１０２、右接続形態素抽出手段１０３、左接続形態素抽出手段１０４及び曖昧性含有形態素抽出手段１０５等として機能する。

母音形態素抽出手段１００は、後述する形態素解析辞書１１１から母音で始まる形態素Ａ（第１の形態素）を抽出する。

読み形態素抽出手段１０１は、母音形態素抽出手段１００が抽出した母音で始まる形態素Ａの読みから先頭の母音を削除し、形態素Ａの読みから先頭の母音を削除した読みを「読みａ」（第１の読み）として、読みａで始まる形態素Ｂ（第２の形態素）を形態素解析辞書１１１から抽出する。

読み一致形態素抽出手段１０２は、読み形態素抽出手段１０１が抽出した形態素Ｂから、読みａと読みが完全一致する形態素Ｃ（第３の形態素）を抽出する。

右接続形態素抽出手段１０３は、読み形態素抽出手段１０１が抽出した形態素Ｂのうち、その読みの先頭から読みａを削除したものが形態素Ａの右側に接続できる形態素を、形態素Ｄ（第５の形態素）として抽出する。

左接続形態素抽出手段１０４は、形態素Ａと形態素Ｃに対し共通に左側に接続できる形態素Ｅ（第４の形態素）、又は形態素Ａと形態素Ｄに対し共通に左側に接続できる形態素Ｆ（第６の形態素）を抽出する。

曖昧性含有形態素抽出手段１０５は、形態素Ｅ＋Ａと形態素Ｅ＋Ｃの組み合わせ、又は形態素Ｆ＋Ａ＋（Ｄ−ａ）と形態素Ｆ＋Ｄの組み合わせを曖昧性を含有する形態素の並びとして抽出し、曖昧性含有形態素リスト１１２に追加する。なお、ここで「＋」は、「＋」の前の形態素の後に「＋」の後の形態素を続けることを意味し、「Ｄ−ａ」は、「−」の後に続く読みａを「−」の前の形態素Ｄの読みの先頭から削除して得られる読みを持つ形態素を意味する。

記憶部１１は、制御部１０を上述した各手段１００〜１０５として動作させる言語モデル作成プログラム１１０、品詞等の情報が付加された形態素の辞書である形態素解析辞書１１１、曖昧性含有形態素抽出手段１０５が抽出した曖昧性を含有する形態素の並びが追加される曖昧性含有形態素リスト１１２等を記憶する。

通信部１２は、コーパス２に接続される。コーパス２は、文書の集合であり、一例として、ウェブサイト上の文書や新聞等の文書の集合を用いる。なお、コーパス２は記憶部１１に格納したものを用いてもよいし、ＣＤ−ＲＯＭ等の記憶媒体から読み込んだものを用いてもよい。

（言語モデル作成装置の動作）
以下に、言語モデル作成装置１の動作を図１〜５を参照しつつ、（１）パターン１、（２）パターン２に分けて説明する。

（１）パターン１
図２（ａ）〜（ｄ）は、言語モデル作成装置１のパターン１の動作例を説明するための図である。また、図４は、言語モデル作成装置１のパターン１の動作例を示すフローチャートである。

まず、母音形態素抽出手段１００は、形態素解析辞書１１１から母音で始まる形態素Ａの一例として、図２（ａ）に示すように、「行き」という形態素２００（母音は「い」）を抽出する（Ｓ１０）。

次に、読み形態素抽出手段１０１は、図２（ｂ）に示すように、読みａを得るために、母音形態素抽出手段１００が抽出した母音で始まる形態素Ａである形態素２００の読みから先頭の母音「い」を削除して「き」（２０１）とする（Ｓ１１）。

次に、読みａ、つまり、先頭の母音「い」を削除した形態素Ａ（２０１）の読み「き」で始まる形態素Ｂを形態素解析辞書１１１から抽出し、図２（ｃ）に示す一又は複数の形態素Ｂのリスト２０２を得る（Ｓ１２）。

次に、読み一致形態素抽出手段１０２は、読み形態素抽出手段１０１が抽出した形態素Ｂのリスト２０２から、先頭の母音「い」を削除した形態素Ａ（２０１）の読みａ、つまり「き」と読みが完全一致する「来」という形態素２０３を形態素Ｃとして抽出する（Ｓ１３）。

次に、左接続形態素抽出手段１０４は、形態素Ａ（「行き」形態素２００）と形態素Ｃ（「来」形態素２０３）に対し共通に左側に接続できる「に」という形態素２０４を形態素解析辞書１１１から形態素Ｅとして抽出する（Ｓ１４）。ここで、形態素Ｅとして「に」という形態素２０４を抽出した理由は、「に」の母音が「い」であるため、形態素Ａの先頭の母音「い」と連続することで言語の曖昧性が生じる蓋然性が高いためである。なお、「に」以外にも曖昧性が生じる場合は「へ」等を形態素Ｅとして抽出してもよい。

なお、上記形態素Ｅの抽出は、形態素Ａ＋Ｅ及び形態素Ｃ＋Ｅの連接頻度をコーパス２を用いて調べることで行う。また、コーパス２を用いる代わりに、連接可能性辞書を用いて調べてもよい。

次に、曖昧性含有形態素抽出手段１０５は、図２（ｄ）に示す形態素Ｅ＋Ａ（「に行き」）と形態素Ｅ＋Ｃ（「に来」）の組み合わせ１１２ａを曖昧性を含有形する態素の並びとして抽出し、曖昧性含有形態素リスト１１２に追加する（Ｓ１５）。

（２）パターン２
図３（ａ）〜（ｆ）は、言語モデル作成装置１のパターン２の動作例を説明するための図である。また、図５は、言語モデル作成装置１のパターン２の動作例を示すフローチャートである。

まず、母音形態素抽出手段１００は、形態素解析辞書１１１から母音で始まる形態素Ａの一例として、図３（ａ）に示すように、「行き」という形態素２００（先頭の母音は「い」）を抽出する（Ｓ２０）。

次に、読み形態素抽出手段１０１は、図３（ｂ）に示すように、読みａを得るために、母音形態素抽出手段１００が抽出した母音で始まる形態素Ａである形態素２００の読みから先頭の母音「い」を削除して「き」（２０１）とする（Ｓ２１）。

次に、読みａ、つまり、先頭の母音「い」を削除した形態素Ａ（２０１）の読み「き」で始まる形態素Ｂを形態素解析辞書１１１から抽出し、図３（ｃ）に示す形態素Ｂのリスト２０２を得る（Ｓ２２）。

次に、右接続形態素抽出手段１０３は、読み形態素抽出手段１０１が抽出した形態素Ｂのリスト２０２の各形態素のうち、その読みの先頭から、先頭の母音を削除した形態素Ａの読みａ、つまり「き」を削除したもの（例えば「きたい」に対して「たい」）が形態素Ａに接続できる形態素（例えば「期待」）を形態素Ｄとして抽出する（Ｓ２３）。

なお、形態素２０５を形態素Ｄとして抽出する際に、「たい」が形態素Ａに接続できるか否かは以下の方法により判断する。

まず、読み形態素抽出手段１０１が抽出した形態素Ｂのリスト２０２の各形態素の読みから、先頭の母音を削除した形態素Ａの読みａ「き」を削除し、削除したもの「たい」、「ぼう」、「かん」…の品詞を判断する。一例として、形態素２０６である「たい」は、図３（ｄ）に示すように、助動詞であることがわかる。

次に、形態素２０６である「たい」が形態素Ａである形態素２００の右に接続される連接頻度をコーパス２を用いて調べる。連接頻度が予め定めた閾値以上であれば形態素２０６が形態素Ａに接続できるものと判断される。なお、右接続形態素抽出手段１０３は、形態素２０６である「たい」が形態素Ａである形態素２００の右に接続される可能性を連接可能性辞書を用いて調べてもよい。

次に、左接続形態素抽出手段１０４は、形態素Ａ（「行き」形態素２００）と形態素Ｄ（「期待」形態素２０６）に対し共通に左側に接続できる「に」という形態素２０７を形態素解析辞書１１１から形態素Ｆとして抽出する（Ｓ２４）。ここで、形態素Ｆとして「に」という形態素２０７を抽出した理由は、「に」の母音が「い」であるため、形態素Ａの先頭の母音「い」と連続することで言語の曖昧性が生じる蓋然性が高いためである。なお、「に」以外にも曖昧性が生じる場合は「へ」等を形態素Ｆとして抽出してもよい。また、左接続形態素抽出手段１０４は、形態素Ａと形態素Ｄに対し共通に左側に接続できる形態素Ｆを連接可能性辞書を用いて抽出してもよい。

次に、曖昧性含有形態素抽出手段１０５は、図３（ｆ）に示す形態素Ｆ＋Ａ＋（Ｄ−ａ）（「に行きたい」）と形態素Ｆ＋Ｄ（「に期待」）の組み合わせ１１２ｂを曖昧性を含有する形態素の並びとして抽出し、曖昧性含有形態素リスト１１２に追加する（Ｓ２５）。

（音声認識装置の構成）
以下、上に説明した言語モデル作成装置１によって得られた曖昧性含有形態素リスト１１２を用いて音声認識を行うための構成及び動作について説明する。

図６は、音声認識装置の構成の一例を示すための概略ブロック図である。

音声認識装置３は、ＷＡＶファイル等の音声情報を受け付ける音声情報受付手段４と、音声情報受付手段４が受け付けた音声情報からフーリエ変換等の手法を用いてメル周波数ケプストラム係数（ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ；ＭＦＣＣ）等の特徴量を抽出する特徴量抽出手段５と、特徴量抽出手段５が抽出した特徴量をテキスト情報へ変換するデコーダ６と、デコーダ６が変換したテキスト情報中に曖昧性が含まれる場合に曖昧性がある旨を出力する曖昧性出力手段７と、デコーダ６が変換したテキスト情報を出力するテキスト情報出力手段８とを有する。

デコーダ６は、特徴量と音素との対応を定義する音響モデル６０と、音素の並びと単語との対応を定義する単語辞書６１と、単語（形態素）の並びの確率を定義する言語モデル６２とを有する。

曖昧性出力手段７は、言語モデル作成装置１によって得られた曖昧性含有形態素リスト１１２を有し、曖昧性含有形態素リスト１１２に該当する形態素の並びが入力された場合に曖昧性がある旨を利用者等に提示できる形式で出力する。

（音声認識装置の動作）
まず、音声認識装置３の音声情報受付手段４は、ＷＡＶファイル等の音声情報を受け付ける。

次に、特徴量抽出手段５は、音声情報受付手段４が受け付けた音声情報からフーリエ変換等の手法を用いてメル周波数ケプストラム係数（ＭＦＣＣ）等の特徴量を抽出する。

次に、デコーダ６は、特徴量抽出手段５が抽出した特徴量をテキスト情報へ変換する。この際、まず、デコーダ６は、音響モデル６０を用いて特徴量を音素へ変換する。次に、デコーダ６は、単語辞書６１を用いて連続する音素の並びを単語に変換する。この際、変換可能な単語を候補として複数出力する。最後に、デコーダ６は、複数の単語（形態素）の候補の並びを、言語モデル６２を用いて単語（形態素）の並びの確率の高い順に出力する。

次に、テキスト情報出力手段８は、デコーダ６が出力した単語の並びの候補から、例えば、最上位の単語の並びをテキスト情報としたものを出力する。

ここで、曖昧性出力手段７は、デコーダ６が出力した単語の並びの候補を扱う際、言語モデル作成装置１によって得られた曖昧性含有形態素リスト１１２を用いて、曖昧性含有形態素リスト１１２に該当する単語（形態素）の並びが入力された場合、当該単語の並びに曖昧性があると判断する。次に、曖昧性出力手段７は、当該単語の並びに曖昧性がある旨を利用者等に提示できる形式、例えば、表示部に警告を表示する等の形式で出力する。また、曖昧性出力手段７は、曖昧性含有形態素リスト１１２に該当する単語（形態素）の並びが入力されない場合、警告等を出力せず、単語の並びの候補をテキスト情報出力手段８に出力する。

（実施の形態の効果）
上記したパターン１又はパターン２により形態素の並びを抽出することで、母音が連続した場合に生じる曖昧性や、母音が認識されない場合に生じる曖昧性等を含有する形態素の並びを抽出することができ、これらを含む文を言語モデルに追加することで、母音の発声に伴う言語の曖昧性を考慮した言語モデルを作成することができる。

また、デコーダ６により、作成した言語モデル６２を用いて音声情報をテキスト情報に変換した後、当該テキスト情報中に曖昧性含有形態素リスト１１２に該当する形態素の並びが入力されたと曖昧性出力手段７が検出した場合に、当該単語の並びに曖昧性があると判断し、曖昧性出力手段７がその判断結果を利用者に出力するようにしたため、当該単語の並びに曖昧性がある旨を利用者等に提示することができる。

［他の実施の形態］
なお、本発明は、上記実施の形態に限定されず、本発明の要旨を逸脱しない範囲で種々な変形が可能である。例えば、単語の結合によって母音の結合が起こる場合としては、「パターン１」及び「パターン２」で説明した、助詞＋動詞の組み合わせの他、名詞＋助詞（「三重へ」と「三重」の曖昧性）、名詞＋名詞、副詞＋動詞、副詞＋名詞、用言連用形＋動詞、助詞＋副詞、助詞＋名詞（「を沖田」と「を北」の曖昧性）、助詞＋形容詞等が挙げられる。

また、上記言語モデル作成プログラム１１０をＣＤ−ＲＯＭ等の記憶媒体に格納して提供することも可能であり、インターネット等のネットワークに接続されているサーバ装置等から装置内の記憶部にダウンロードしてもよい。また、母音形態素抽出手段１００、読み形態素抽出手段１０１、読み一致形態素抽出手段１０２、右接続形態素抽出手段１０３、左接続形態素抽出手段１０４及び曖昧性含有形態素抽出手段１０５等の一部又は全部をＡＳＩＣ等のハードウェアによって実現してもよい。なお、上記実施の形態の動作説明で示した各ステップは、順序の変更、ステップの省略、追加が可能である。

１言語モデル作成装置
２コーパス
３音声認識装置
４音声情報受付手段
５特徴量抽出手段
６デコーダ
７曖昧性出力手段
８テキスト情報出力手段
１０制御部
１１記憶部
１２通信部
６０音響モデル
６１単語辞書
６２言語モデル
１００母音形態素抽出手段
１０１読み形態素抽出手段
１０２一致形態素抽出手段
１０３右接続形態素抽出手段
１０４左接続形態素抽出手段
１０５曖昧性含有形態素抽出手段
１１０言語モデル作成プログラム
１１１形態素解析辞書
１１２曖昧性含有形態素リスト

Claims

コンピュータを、
形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素から、前記第１の読みと読みが完全一致する第３の形態素を抽出する読み一致形態素抽出手段と、
前記第１の形態素と前記第３の形態素に対し共通に左側に接続できる第４の形態素を抽出する左接続形態素抽出手段と、
前記第４の形態素及び前記第１の形態素を順に並べたものと前記第４の形態素及び前記第３の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成プログラム。
コンピュータを、
形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素のうち、当該第２の形態素の読みの先頭から、前記第１の読みを削除したものが前記第１の形態素に接続できる形態素を第５の形態素として抽出する右接続形態素抽出手段と、
前記第１の形態素と前記第５の形態素に対し共通に左側に接続できる第６の形態素を抽出する左接続形態素抽出手段と、
前記第６の形態素、前記第１の形態素、前記第５の形態素の読みの先頭から前記第１の読みを削除したものを順に並べたものと前記第６の形態素及び前記第５の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成プログラム。
形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素から、前記第１の読みと読みが完全一致する第３の形態素を抽出する読み一致形態素抽出手段と、
前記第１の形態素と前記第３の形態素に対し共通に左側に接続できる第４の形態素を抽出する左接続形態素抽出手段と、
前記第４の形態素及び前記第１の形態素を順に並べたものと前記第４の形態素及び前記第３の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成装置。
形態素解析辞書から母音で始まる第１の形態素を抽出する母音形態素抽出手段と、
前記第１の形態素の読みから前記第１の形態素の先頭の母音を削除した読みである第１の読みで読みが始まる第２の形態素を前記形態素解析辞書から抽出する読み形態素抽出手段と、
前記読み形態素抽出手段が抽出した前記第２の形態素のうち、当該第２の形態素の読みから、前記第１の読みを削除したものが前記第１の形態素に接続できる形態素を第５の形態素として抽出する右接続形態素抽出手段と、
前記第１の形態素と前記第５の形態素に対し共通に左側に接続できる第６の形態素を抽出する左接続形態素抽出手段と、
前記第６の形態素、前記第１の形態素、前記第５の形態素の読みの先頭から前記第１の読みを削除したものを順に並べたものと前記第６の形態素及び前記第５の形態素を順に並べたものの組み合わせを曖昧性を含有する形態素の並びとして抽出する曖昧性含有形態素抽出手段として機能させるための言語モデル作成装置。