JP2003296323A

JP2003296323A - 形態素解析装置

Info

Publication number: JP2003296323A
Application number: JP2003080537A
Authority: JP
Inventors: Hideki Yamamoto; 秀樹山本; Sayori Shimohata; さより下畑; Mihoko Kitamura; 美穂子北村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-03-24
Filing date: 2003-03-24
Publication date: 2003-10-17
Anticipated expiration: 2018-03-04
Also published as: JP3939264B2

Abstract

(57)【要約】【課題】利用者に負担をかけることなく、形態素解析
結果の精度向上や、解析処理時間の短縮化を期待できる
形態素解析装置を提供する。【解決手段】本発明は、自然言語文に現れる所定文字
数でなる部分文字列とその絶対的又は相対的な頻度情報
とを少なくとも含む組データである解析実行時データを
多数格納している解析実行時データ格納手段と、未知文
章に対して、解析実行時データ格納手段の格納内容を参
照して形態素解析を実行する形態素解析手段とを有する
形態素解析装置に関する。そして、形態素解析手段から
の形態素解析結果の精度を推測する精度判定手段を有す
ることを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された自然言
語文を形態素（例えば単語）に分割する形態素解析装置
に関し、特に、解析処理時間及び又は解析精度を従来よ
り向上させようとしたものである。

【０００２】

【従来の技術】

【０００３】

【特許文献１】特開平５−５２５４３号公報

【０００４】

【非特許文献１】山本幹雄、増山正和著、「品詞・区
切り情報を含む拡張文字の連鎖確率を用いた日本語形態
素解析」、言語処理学会第３回年次大会発表論文集、１
９９７年３月ワードプロセッサによるテキスト作成機会
の増大や、インターネット対応機器の普及により、大量
の電子化された自然言語文が容易に入手可能となってき
た。文字認識システム、機械翻訳システム、情報検索シ
ステム、情報抽出システム等の大量の自然言語文を扱う
自然言語処理システムにとって、形態素解析処理は、各
種システムが目的とする専門処理を実施する前に共通し
て実施され、単語や句等の文中の意味単位である形態素
を確定する極めて重要な処理である。

【０００５】このような形態素解析処理においては、単
語分割（形態素分割）の精度の高さが要求されるととも
に、大量の自然言語文を高速に処理するという処理速度
も要求される。

【０００６】従来の形態素解析方法としては、形態素辞
書（単語辞書）や活用語尾テーブルや品詞別接続テーブ
ル等を備え、これら各種の記憶部をアクセスしながら形
態素解析を行うのが一般的であった（特許文献１参
照）。

【０００７】また、最近になって、文字をベースとした
確率モデルを利用した形態素解析方法も提案されている
（非特許文献１、並びに、特願平９−６８３００号明細
書及び図面参照）。

【０００８】この形態素解析方法は、自然言語テキスト
が入力文として与えられたときに、この入力文を構成す
る形態素列として、各文字の直後が形態素境界であるか
否かのあらゆる組み合わせの中から最も確からしい形態
素列の並びを出力させるものである。

【０００９】そして、最も確からしい形態素列の並びか
否かを判断させるために、大量のテキストデータ（コー
パス；学習データ）から学習させた確率モデル（統計デ
ータベース；解析実行時データのデータベース）を用い
る。統計データベースに格納されている１組の解析実行
時データは、例えば、文字数Ｎの拡張文字列、及び、そ
の拡張文字列がコーパス上にどの程度の割合で出現する
かを表す連鎖確率のデータである。なお、拡張文字と
は、「私」、「は」等の通常の文字とは異なり、このよ
うな文字に対して、少なくとも形態素区切り情報（この
文字の直後が形態素区切りか否か）を含む拡張情報を付
加したものである。

【００１０】

【発明が解決しようとする課題】（１）形態素辞書を用
いる従来では一般的であった形態素解析方法は、入力段
階では長さが不明な形態素を定めるように形態素辞書を
引くものであるので、形態素辞書を引く回数が非常に多
くなって辞書引きにかなりの時間がかかり、大量の文書
を短い時間で処理することはできなかった。すなわち、
利用者は、形態素解析結果を迅速には得ることができな
い。以下、場合によっては、この種の形態素解析を低速
形態素解析と呼ぶこととする。

【００１１】（２）これに対して、文字をベースとした
確率モデル（統計データベース）を利用した形態素解析
方法は、入力文から定まる所定文字数（Ｎ）の拡張文字
列を統計データベースの格納内容と照合して形態素解析
を行うことを基本とするので、上記の形態素解析方法
（低速形態素解析方法）に比較して形態素解析結果を高
速に得ることができる。

【００１２】しかし、この形態素解析方法においては、
事前にパラメータ（統計データ；解析実行時データ）を
学習して作成しておく必要があり、そのための学習デー
タ（コーパス）を用意するのが大変であった。以下、場
合によっては、この種の形態素解析を高速形態素解析と
呼ぶこととする。

【００１３】必要な学習データ（コーパス）は、上述し
た拡張文字列及びその連鎖確率でなる統計データを算出
できるものであるので、形態素の区切り箇所の情報（及
びその形態素の品詞情報）等をテキストファイルに付加
したものである。テキストファイルは入手し易いが、そ
れに上述した情報を付加したファイルは、現状ではほと
んどなく、テキストファイルに人間が上述した情報を一
つ一つ付加して学習に用いられる学習データ（コーパ
ス）を作成していた。又は、低速形態素解析の結果に対
して、人手で修正を加えて、学習に用いられる学習デー
タ（コーパス）を作成していた。

【００１４】高速形態素解析において、以上のような学
習データを用意して統計データベースを作成しても、事
前に用意した学習データにない文字列に対しては、正し
く解析することはできない。低速形態素解析において
も、勿論、辞書に入っていない形態素（未知語）からな
る文字列に対しては、正しく解析できないが、通常形態
素解析用の辞書には、数万から数十万語の辞書を用いて
いるので、正しく解析できない文字列（未知語）に出会
うことは少ない。仮に、低速形態素解析の辞書にある形
態素を全て適当な頻度で含んだ学習データを用意するこ
とができて、それを用いて高速形態素解析を学習するこ
とができれば原理的には、低速形態素解析と高速形態素
解析は、ほぼ同じ精度で解析できる。すなわち、正しく
解析できない文字列は同じになるといえる。

【００１５】しかしながら、低速形態素解析の辞書にあ
る形態素を全て適当な頻度で含んだ学習データを用意す
ることは現実的に不可能である。その結果、高速形態素
解析においては、学習データになかった形態素が出現す
る文章の解析精度は、低速形態素解析よりも劣ってしま
う。

【００１６】（３）高速形態素解析の利用者が、その形
態素解析方法が採用している学習データがどのような形
態素から構成されていたかを知る方法がない場合は、利
用者としては一つ一つの文章の解析結果を見て、高速解
析結果の精度が悪いと判断したときには、その文章にだ
け低速形態素解析を使うようにするか、あるいはその文
章だけ人手で修正するかどちらかの方法をとらざるを得
ない。

【００１７】形態素解析したい文章が様々な分野にわた
っている場合は、一つ一つ解析結果をチェックするのは
面倒な作業であり、もし、チェックをしないとすると、
高速形態素解析を利用した場合の全体としての精度は悪
くなってしまう。

【００１８】形態素解析したい文章が様々な分野にわた
っている例としては、インターネット上の様々なＷＷＷ
サーバ上の文書ファイルを形態素解析して出現する形態
素の頻度を調べて、検索サービス用のインデックスファ
イルを作るために形態素解析を利用する場合などがあ
る。

【００１９】（４）ところで、精度の悪かった高速形態
素解析の結果に対して、人手でチェックした後、そのデ
ータを統計データベースに反映させる（フィードバック
させる）ことも考えられる。

【００２０】このようにすると、反映処理後は、その分
野と同じ分野の文章に対しては同程度の精度で解析する
ことが可能になるが、人手によるチェックという作業は
なくなる訳ではないので、面倒である。

【００２１】そのため、平均的に見て、高精度の形態素
解析結果を得られるまでの時間が短い形態素解析装置が
求められている。

【００２２】

【課題を解決しようとする手段】かかる課題を解決する
ため、本発明は、自然言語文に現れる所定文字数でなる
部分文字列とその絶対的又は相対的な頻度情報とを少な
くとも含む組データである解析実行時データを多数格納
している解析実行時データ格納手段と、未知文章に対し
て、上記解析実行時データ格納手段の格納内容を参照し
て形態素解析を実行する第１の形態素解析手段とを有す
る形態素解析装置において、上記第１の形態素解析手段
からの形態素解析結果の精度を推測する精度判定手段を
有することを特徴とする。

【００２３】

【発明の実施の形態】（Ａ）第１の実施形態以下、本発明による形態素解析装置の第１の実施形態を
図面を参照しながら詳述する。

【００２４】この第１の実施形態の形態素解析装置は、
基本的には、入力文を高速形態素解析方法で解析するも
のであり、低速な形態素解析の結果を高速な形態素解析
の学習データに自動的に変換する学習機能を持つことに
よって、これまで学習データとしていなかった文章を容
易に学習データとして使用することができるようにした
ことを大きな特徴としているものである。

【００２５】図１は、第１の実施形態の形態素解析装置
の構成を示す機能ブロック図である。すなわち、第１の
実施形態の形態素解析装置は、実際上、入出力装置や処
理装置や記憶装置（や通信装置）等を有するワークステ
ーションやパソコン等の情報処理装置上に実現されるも
のであるが、機能的には、図１に示す構成を有するもの
である。

【００２６】図１において、この第１の実施形態の形態
素解析装置１０は、低速形態素解析手段１１、低速形態
素解析結果格納手段１２、変換手段１３、学習データ格
納手段１４、学習手段１５、解析実行時データ格納手段
１６及び高速形態素解析手段１７を有している。これら
の構成要素のうち、低速形態素解析手段１１、低速形態
素解析結果格納手段１２、変換手段１３、学習データ格
納手段１４及び学習手段１５が、第１の実施形態の解析
実行時データ作成装置を構成している。

【００２７】低速形態素解析手段１１は、詳細構成の図
示は省略するが、内蔵する形態素辞書を利用して形態素
解析を行う従来の低速形態素解析装置と同様な構成を有
するものである。すなわち、上述した特許文献１に記載
されている形態素解析装置やそれに類似した装置と同様
な詳細構成を有する。この第１の実施形態の場合、低速
形態素解析手段１１は、未知文書中の各文を形態素解析
するものとして設けられているのではなく、解析実行時
データ格納手段１６に格納させる解析実行時データを作
成する構成中の一要素として設けられている。この低速
形態素解析手段１１には、学習用文書が入力される。な
お、図１において、学習用文書と記載されているブロッ
クは、学習用文書の入力手段をも意味している。

【００２８】低速形態素解析結果格納手段１２は、低速
形態素解析手段１１が学習用文書の各文に対して実行し
た低速形態素解析結果を格納するものである。

【００２９】変換手段１３は、低速形態素解析結果格納
手段１２に格納されている低速形態素解析結果のデータ
形式を、高速形態素解析装置が必要とする学習データと
してのデータ形式に変換するものである。

【００３０】学習データ格納手段１４は、変換手段１３
が変換して得た学習データ（コーパス）を格納するもの
である。

【００３１】学習手段１５は、学習データ格納手段１４
に格納されている学習データから、高速形態素解析手段
１７が未知文章の形態素解析時に参照する解析実行時デ
ータを作成するものである。すなわち、例えば、学習デ
ータ上に現れる所定文字数Ｎの拡張文字列、及び、その
拡張文字列が学習データ上にどの程度の割合で出現する
かを表す連鎖確率でなる解析実行時データ（統計デー
タ）を、学習データから作成するものである。学習デー
タから解析実行時データを作成する方法としては、非特
許文献２、並びに、特願平９−３５０６５１号明細書及
び図面に記載の方法を適用できる。

【００３２】

【非特許文献２】長尾眞、森信介著、「大規模日本語
テキストのｎグラム統計の作り方と語句の自動抽出」、
情報処理学会研究報告自然言語処理９６−１、１９９３
年７月解析実行時データ格納手段（統計データベース）
１６は、学習手段１５によって作成された解析実行時デ
ータを格納するものである。後述する図１１は、解析実
行時データ格納手段（統計データベース）１６に格納さ
れた一部の解析実行時データ（Ｎが３の場合）を示して
いる。なお、解析実行時データの連鎖確率は、例えば、
先頭側のＮ−１文字が同一の複数の文字数Ｎの拡張文字
列の連鎖確率の総和が１になるように定められる。

【００３３】高速形態素解析手段１７は、形態素解析対
象の未知文書又は未知文章が与えられたときに、各文章
に対して、解析実行時データ格納手段１６の格納内容を
参照して形態素解析を実行し、得られた形態素解析結果
を出力するものである。高速形態素解析手段１７は、例
えば、上述した非特許文献１や、特願平９−６８３００
号明細書及び図面に記載された構成、又はそれに類似し
た構成により実現される。

【００３４】図示は省略するが、高速形態素解析手段１
７の詳細構成例を挙げると以下の通りである。すなわ
ち、高速形態素解析手段１７は、スコアテーブル１７
ａ、拡張文字列生成部１７ｂ、連鎖確率計算部１７ｃ、
及び、最適経路探索部１７ｄを有する。

【００３５】スコアテーブル１７ａは、解析対象の未知
文章の文頭から文末までの全ての拡張文字列の経路と、
解析実行時データ格納手段１６に格納されている所定文
字数の拡張文字列の連鎖確率とに基づき、求められた拡
張文字列の経路に対応する連鎖確率を格納するものであ
る。拡張文字列生成部１７ｂは、解析対象の未知文章に
ついての拡張文字を生成し、当該拡張文字の組み合わせ
（経路）の全てをスコアテーブル１７ａに格納させるも
のである。連鎖確率計算部１７ｃは、解析実行時データ
格納手段１６に格納されている連鎖確率に基づき、スコ
アテーブル１７ａに格納されている拡張文字列の各経路
に対する連鎖確率を計算するものである。最適経路探索
部１７ｄは、連鎖確率計算部１７ｃにより計算された連
鎖確率の中から、最適な条件（例えば最大値の連鎖確率
を与えるなど）を満たす拡張文字列を、最適拡張文字列
（形態素解析結果）として選択するものである。

【００３６】なお、図１において、未知文書と記載され
ているブロックは、未知文書の入力手段をも意味してお
り、形態素解析結果と記載されているブロックは、形態
素解析結果の出力手段をも意味している。

【００３７】次に、この第１の実施形態の形態素解析装
置１０の処理の概要を図２のフローチャートを参照しな
がら詳述する。なお、第１の実施形態の形態素解析装置
１０の処理は、未知文書の形態素解析を実行させるため
の準備段階の処理と、未知文書の形態素解析を実行する
処理とに分かれ、図２におけるステップ１００〜１０２
が前者の処理に対応し、ステップ１０３が後者の処理に
対応している。

【００３８】学習用文書が当該形態素解析装置１０に入
力されると、形態素辞書を利用する低速形態素解析手段
１１によって入力された学習用文書が形態素解析され、
その形態素解析結果が低速形態素解析結果格納手段１２
に書き込まれる（ステップ１００）。

【００３９】このとき、格納される形態素解析結果のデ
ータ形式は、当然に、低速形態素解析手段１１による出
力データ形式である。このような低速形態素解析結果
が、変換手段１３によって、高速形態素解析手段１７が
利用する解析実行時データを作成させる元となる学習デ
ータのデータ形式に変換され、学習データ格納手段１４
に格納される（ステップ１０１）。

【００４０】そして、この学習データが、学習手段１５
によって処理されて解析実行時データが作成され、作成
された解析実行時データが解析実行時データ格納手段１
６に格納される（ステップ１０２）。

【００４１】以上のような高速形態素解析処理の準備段
階の処理が終了した後において、未知文書が入力される
と、その未知文書の各文章に対し、高速形態素解析手段
１７が、解析実行時データ格納手段１６の格納内容を参
照しながら形態素解析し、得られた形態素解析結果を出
力する（ステップ１０３）。

【００４２】図３は、低速形態素解析手段１１に入力さ
れる学習用文書の一例を示している。図３に示すよう
に、学習用文書は、拡張情報やタグを伴うことがない自
然言語テキストデータになっている。

【００４３】適用している低速形態素解析手段１１の内
部構成にもよってその出力データ形式（形態素解析結果
データ形式）は異なる。図４は、図３の第１文目を低速
形態素解析した結果の出力例（出力データ形式例）を示
している。図４の各行は一つの単語の情報を示してい
る。1つの単語の情報は空白で区切られた３つの情報か
らなり、それぞれ品詞、標準形、出現形である。活用し
ない名詞などの場合は標準形と活用形は同じになる。

【００４４】図５は、図３に対応した学習データの例を
示している。図４に例示したような低速形態素解析結果
のデータを、この図５に示すような学習データに変換手
段１３は変換する。

【００４５】図５に示した例は、解析実行時データが、
文字数Ｎの拡張文字列と、その拡張文字列がコーパス上
にどの程度の割合で出現するかを表す連鎖確率のデータ
とでなり、しかも、拡張文字が、「私」、「は」等の通
常の文字に対して形態素区切り情報を拡張情報として付
加したものである場合に対応した例である。なお、拡張
情報として、形態素区切り情報に加えて品詞情報を含む
ものは、図５の形式とは異なるものとなる。

【００４６】図５（Ａ）は、前接する文字との間が形態
素の区切りになる場合を「１」で、そうでない場合を
「０」で表した拡張文字列で、形態素の境界（区切り）
を表した例を示している。図５（Ｂ）は、図５（Ａ）と
同じ内容を、形態素区切りをスラッシュ（／）で表した
例である。

【００４７】図６は、変換手段１３による変換処理の流
れの一例を示すフローチャートである。なお、図６は、
変換後のデータ形式が図５（Ａ）に示すような場合に対
応したものである。

【００４８】まず、低速形態素解析結果格納手段１２
に、変換処理が終了していない低速形態素解析結果が残
っているか否かを確認する（ステップ２００）。残って
いないならば、一連の変換処理を終了する。

【００４９】これに対して、低速形態素解析結果格納手
段１２に、未処理の低速形態素解析結果が残っているな
らば、未処理の低速形態素解析結果を１文分だけ読み出
す（ステップ２０１）。そして、読み出した低速形態素
解析結果から、出現形の項目を抜き出し（ステップ２０
２）、各出現形の文字をそれぞれ拡張文字に変換して拡
張文字列を作成する（ステップ２０３）。そして、得ら
れた拡張文字列を、学習データ格納手段１４に格納して
上述したステップ２００に戻る（ステップ２０４）。

【００５０】ここで、拡張文字への変換は、出現形の最
後の文字だけに形態素区切りであることを表す「１」を
付与し、それ以外の文字には、形態素区切りでないこと
を表す「０」を付与する。例えば、図７に示すように、
出現形が「機械翻訳」であれば、それに対する拡張文字
列として、＜機，０＞＜械，０＞＜翻，０＞＜訳，１＞
が得られる。

【００５１】上記第１の実施形態によれば、低速形態素
解析結果を、高速形態素解析方法が解析時に用いる解析
実行時データの作成用学習データに自動的に変換する学
習機能を持たせたので、これまで学習データとしていな
かった文章を容易に学習データとして使用することがで
きる、基本的に高速形態素解析方法に従っている形態素
解析装置を実現できる。その結果、学習データの充実を
計ることができ、未知文書に対する高速形態素解析結果
の精度向上も期待できる。

【００５２】また、低速形態素解析結果を学習データに
自動的に変換する学習機能を持たせたので、利用者は学
習用文書を当該装置に入力する操作を行うだけで良く、
学習用文書から学習データを作成したり、低速形態素解
析結果から学習データを作成したりすることを不要にす
ることができる。

【００５３】（Ｂ）第２の実施形態次に、本発明による形態素解析装置の第２の実施形態を
図面を参照しながら詳述する。

【００５４】この第２の実施形態の形態素解析装置は、
高速形態素解析結果の精度の良否を弁別し、良くない場
合には、そのことを明らかにした結果を利用者に提示
し、利用者に精度が低い場合の判断を委ねるようにした
ことを大きな特徴としているものである。

【００５５】図８は、この第２の実施形態の形態素解析
装置１０Ａの機能的構成を示すブロック図であり、上述
した第１の実施形態に係る図１との同一、対応部分には
同一符号を付して示している。

【００５６】図８において、第２の実施形態の形態素解
析装置１０Ａは、解析実行時データ格納手段１６、高速
形態素解析手段１７、精度判定手段１８及び精度・解析
結果合成手段１９を備える。

【００５７】なお、解析実行時データ格納手段１６に格
納する解析実行時データの作成方法が第１の実施形態と
同様である場合には、図示は省略しているが、低速形態
素解析手段１１、低速形態素解析結果格納手段１２、変
換手段１３、学習データ格納手段１４及び学習手段１５
も備える（図１参照）。これら構成要素についての説明
は省略する。

【００５８】また、解析実行時データ格納手段１６及び
高速形態素解析手段１７は、第１の実施形態のものと同
様であるので、その機能説明は省略する。

【００５９】この第２の実施形態で新たに設けられた精
度判定手段１８は、高速形態素解析手段１７が解析実行
時データ格納手段１６に所望する解析実行時データを検
索した際の検索結果に基づいて、高速形態素解析手段１
７から得られる形態素解析結果における精度が低いと思
われる文字列を判定するものである。このような精度判
定結果は、精度・解析結果合成手段１９に与えられる。

【００６０】解析実行時データは、非特許文献１や、特
願平９−６８３００号明細書及び図面にも記載されてい
るように、また、第１の実施形態で説明したように、学
習データから作成される。学習データに現れた文字列に
対応した解析実行時データは存在するが、当然に、学習
データに現れない文字列に対応した解析実行時データは
存在しない。学習データに現れた文字列に対応した解析
実行時データであっても、その出現頻度によって、連鎖
確率の値は変化する。

【００６１】従って、未知文書を高速形態素解析しよう
として解析実行時データ格納手段１６をアクセスした場
合において、該当文字列が存在しない部分や存在しても
その連鎖確率が低い部分等は、高速形態素解析結果にお
けるその部分の精度は、他の部分より低いということが
できる。精度判定手段１８は、解析実行時データ格納手
段１６に対するアクセスを通じて、このような低精度部
分の判定を行うものである。

【００６２】精度・解析結果合成手段１９には、精度判
定手段１８から精度判定結果が与えられると共に、高速
形態素解析手段１７から形態素解析結果が与えられる。
精度・解析結果合成手段１９は、これらの入力情報を合
成し、精度判定手段１８が精度が不十分であると判断し
た文字列を明示して形態素解析結果を利用者に提示する
ものである。

【００６３】以上のように機能ブロック化できる、第２
の実施形態の形態素解析装置１０Ａの全体処理の流れの
一例を、図９のフローチャートを参照しながら詳述す
る。

【００６４】なお、図９は、未知文書中のある１文に対
する処理を示している。また、図９の処理例では、低精
度文字列部分の特定を、解析実行時データ格納手段１６
に該当文字列が存在しないことを１要件としている。さ
らに、精度カウンタを装置１０Ａ（精度判定手段１８）
が内蔵しているとして説明する。この精度カウンタは、
初期値が０である一時メモリである。さらにまた、装置
１０Ａ（精度判定手段１８）が、低精度文字列のバッフ
ァメモリも内蔵しているとして説明する。

【００６５】入力文における文字位置ポインタを備え、
このポインタが示す文字位置から始まるＮ文字の文字列
を読み込む（ステップ３００）。そして、この読み込み
処理で文字列が読み込めなかったか否かに基づいて、最
終番目の文字列の読み込み、それに続く処理が既に終了
しているか否かを判定する（ステップ３０１）。

【００６６】終了していない場合には、読み込んだ文字
列に基づいて検索文字列を作成して解析実行時データ格
納手段１６を検索し、検索文字列が解析実行時データ格
納手段１６に存在したか否かを判定する（ステップ３０
２、３０３）。

【００６７】ここで、作成される検索文字列は一般に複
数組である。例えば、解析実行時データ格納手段１６に
図１１に示すような拡張文字列の解析実行時データが格
納されているので、Ｎ（例えば３）文字の読み込み文字
列のそれぞれの文字を２種類の拡張文字に置き換え、入
力文字列の各文字についての２種類の拡張文字の全ての
組み合わせがそれぞれ、検索文字列となるので、作成さ
れる検索文字列は一般には、２のＮ乗組だけ存在する。
ステップ３０３の判定で検索文字列が存在しないとする
場合は、「全て」の検索文字列が存在しない場合であ
り、２のＮ乗組のうちの１組の検索文字列でも解析実行
時データ格納手段１６に存在する場合には、ステップ３
０３の判定では存在するとする。

【００６８】ステップ３０３の判定結果、検索文字列が
存在しないという結果を得たときには、精度カウンタの
値を１インクリメントし、今回の読み込み文字列を低精
度文字列格納領域に格納して後述するステップ３０９に
移行する（ステップ３０４、３０５）。

【００６９】一方、ステップ３０３の判定結果、検索文
字列が解析実行時データ格納手段１６に存在していた場
合には、その時点での精度カウンタの値が閾値以下であ
るか否かを判定する（ステップ３０６）。なお、閾値
は、Ｎの値に応じて定められるものであるが、例えば、
Ｎが３であれば１ぐらいが適当である。

【００７０】ここで、肯定結果が得られたときには、精
度カウンタの値を０クリアすると共に、低精度文字列格
納領域に格納されていた低精度文字列もクリアして後述
するステップ３０９に移行する（ステップ３０７）。こ
れに対して、検索文字列が解析実行時データ格納手段１
６に存在しており、しかも、その時点での精度カウンタ
の値が閾値より大きいときには、その時点で低精度文字
列格納領域に格納されていた低精度文字列を、形態素解
析結果で明示する部分として認識して、後述するステッ
プ３０９に移行する（ステップ３０８）。

【００７１】ステップ３０９においては、解析実行時デ
ータ格納手段１６に存在した１又は複数組の検索文字列
についての連鎖確率に基づいて、今回読み込んだ文字列
までの入力文の文字列についての複数の形態素解析結果
候補の評価値（連鎖確率の積）を更新する。なお、検索
文字列が存在しない場合での取り扱いは任意であるが、
既存の高速形態素解析手段の方法をそのまま採用すれば
良い。例えば、解析実行時データ格納手段１６に格納さ
れている解析実行時データが文字数Ｎの拡張文字列に係
るものである場合に、それらから文字数Ｎ−１や文字数
Ｎ−２の拡張文字列に係る解析実行時データを形成して
処理する。一般に、文字数が長ければ存在しない文字列
でも、それより短い文字数の部分ごとに見た場合には、
存在することが多い。

【００７２】このようなステップ３０９の処理が終了す
ると、文字位置ポインタを１大きくして上述したステッ
プ３００に戻り、入力文中の文字数Ｎの文字列の読み込
みを行う。

【００７３】ステップ３００〜３０９でなる処理ループ
を繰り返すことにより、入力文中の文末側の文字数Ｎの
文字列の読み込み、それに続くステップ３０２からステ
ップ３０９に至る処理も終了し、その後、ステップ３０
１に移行してきたときには、最終文字列の処理も終了し
たと判定される。

【００７４】このとき、入力文中の各文字を拡張文字に
置き換えた組み合わせの中で最も連鎖確率が高いものを
形態素解析結果とし、この形態素解析結果を低精度文字
列を明示して利用者に提示し、一連の処理を終了する
（ステップ３１０）。

【００７５】以上のような第２の実施形態の形態素解析
装置１０Ａの処理を、図１０に示す文「給与計算システ
ム蜃気楼の構成を図１に示す。」が入力されたとして具
体的に説明する。なお、解析実行時データ格納手段１６
には、学習データに連続して現れた３文字を一つの単位
として値（連鎖確率）が割り当てられているものとし、
図１１に示す内容が格納されているものとする。図１１
に示されていない文字列は値が割り当てられていない存
在しないものとする。また、説明を簡単にするために、
文頭、文末の処理、及び、解析実行時データには３文字
未満の文字列の値はないものとして説明する。さらに、
精度カウンタの値に対する閾値を１として説明する。

【００７６】精度カウンタと低精度文字列格納領域を初
期化してから図９の処理を開始する。

【００７７】まず、ステップ３００で最初の３文字「給
与計」を読み込み、読み込み終了でないことがステップ
３０１で確認され、その文字列「給与計」について、ス
テップ３０２で解析実行時データ格納手段１６を検索す
ると、存在が確認され（連鎖確率０．７１が出力される
ことが存在を表す）、ステップ３０３、３０６、３０７
を経てステップ３０９に至り、その文字列までの拡張文
字列候補の評価値（スコア）が計算される。従って、文
字列「給与計」に対する処理が終了しても、精度カウン
タの値は０であり、低精度文字列格納領域にも何らの文
字も格納されない。

【００７８】文字列「与計算」、「計算シ」、「算シ
ス」、「システ」及び「ステム」についても同様な経路
の処理が実行される。従って、文字列「ステム」に対す
る処理が終了した時点では、精度カウンタの値は０であ
り、低精度文字列格納領域にも何らの文字も格納されな
い。

【００７９】次に、文字列「テム蜃」が読み込まれる
と、解析実行時データ格納手段１６には対応する解析実
行時データがないので、ステップ３０４で精度カウンタ
の値が１加算され（これにより「１」となる）、ステッ
プ３０５で低精度文字列格納領域に「テム蜃」が格納さ
れ、その後、ステップ３０９に移行する。

【００８０】以下、文字列「ム蜃気」、「蜃気楼」、
「気楼の」及び「楼の構」についても同様な処理が実行
される。その結果、文字列「楼の構」に対する処理が終
了したときには、低精度文字列格納領域には文字列「テ
ム蜃気楼の構」が格納され、精度カウンタの値は「５」
となっている。

【００８１】次の文字列「の構成」は、解析実行時デー
タ格納手段１６に対応する解析実行時データが存在する
ので、ステップ３０３からステップ３０６に移行する。
このときの精度カウンタの値「５」は、閾値「1」より
も大きいので、ステップ３０８で、低精度文字列格納領
域に格納されている低精度文字列「テム蜃気楼の構」が
精度・解析結果合成手段１９に与えられ、その後、ステ
ップ３０９に移行する。文字列「の構成」に対する処理
が終了したときには、その前の文字列「楼の構」に対す
る処理が終了したときと同様に、低精度文字列格納領域
には文字列「テム蜃気楼の構」が格納され、精度カウン
タの値は「５」となっている。

【００８２】その次の文字列「構成を」から最終文字列
「示す。」までについてはそれぞれ、ステップ３０３、
３０６、３０７、３０９という、対応する解析実行時デ
ータが解析実行時データ格納手段１６に存在する場合の
一般的な経路での処理が実行される。

【００８３】最終文字列「示す。」に対する処理が終了
すると、次には文字列がないので、ステップ３１０に移
行し、図１２に例示するように、形態素解析結果「給与
／計算／システム／蜃気楼の／構成／を／図／１／に／
示／す／。」と、システムが精度に自信がない低精度文
字列「テム蜃気楼の構」とを対比しやすいように利用者
に提示する。

【００８４】上記第２の実施形態によれば、高速形態素
解析の精度が良くないと判断された部分文字列に対して
は、その結果を利用者に提示するようにしたので、利用
者が必要に応じて正しい形態素解析結果を入力すること
ができる形態素解析装置を実現できる。

【００８５】形態素解析装置の解析結果は、次の構文解
析装置などの入力になるので、その精度が重要であり、
正しくない解析結果を次の装置に渡した場合の悪影響の
度合は大きい。正しいか正しくないかが明らかでない部
分に対しては、利用者に判断させるので、その結果、正
しい形態素解析結果を次の装置に入力させることができ
る。

【００８６】ここで、精度判定を解析実行時データ格納
手段に存在するか否かで行っているので、精度判定機能
が処理時間をほとんど長期化させることはない。

【００８７】（Ｃ）第３の実施形態次に、本発明による形態素解析装置の第３の実施形態を
図面を参照しながら詳述する。

【００８８】この第３の実施形態の形態素解析装置は、
高速形態素解析結果の精度の良否を弁別し、良くない部
分に対しては、自動的に低速形態素解析を実行し、常に
精度が高い形態素解析結果を出力するようにしたことを
大きな特徴としているものである。

【００８９】図１３は、この第３の実施形態の形態素解
析装置１０Ｂの機能的構成を示すブロック図であり、上
述した第１の実施形態に係る図１や第２の実施形態に係
る図８との同一、対応部分には同一符号を付して示して
いる。

【００９０】図１３において、第３の実施形態の形態素
解析装置１０Ｂは、低速形態素解析手段１１、解析実行
時データ格納手段１６、高速形態素解析手段１７、精度
判定手段１８及び解析結果合成手段２０を備える。

【００９１】なお、解析実行時データ格納手段１６に格
納する解析実行時データの作成方法が第１の実施形態と
同様である場合には、図示は省略しているが、低速形態
素解析手段１１、低速形態素解析結果格納手段１２、変
換手段１３、学習データ格納手段１４及び学習手段１５
も備える（図１参照）。これら構成要素についての説明
は省略する。この第３の実施形態の場合、解析実行時デ
ータ格納手段１６に格納する解析実行時データの作成方
法が第１の実施形態と同様である場合には、低速形態素
解析手段１１は、解析実行時データの作成処理のため
と、後述する低精度文字列を含む文字列の形態素解析の
ための双方に利用される。

【００９２】また、低速形態素解析手段１１、解析実行
時データ格納手段１６及び高速形態素解析手段１７の機
能自体は、第１の実施形態のものと同様であるので、そ
の機能説明は省略する。さらに、精度判定手段１８の機
能自体は、第２の実施形態のものと同様であるので、そ
の機能説明は省略する。

【００９３】しかし、この第３の実施形態の場合、精度
判定手段１８が、高速形態素解析方法では精度に自信が
ないと判定した、入力文中の低精度文字列は低速形態素
解析手段１１に与えられるようになされている。低速形
態素解析手段１１は、このような低精度文字列を含む文
字列部分に対して低速形態素解析処理を実行する。

【００９４】この第３の実施形態で新たに設けられた解
析結果合成手段２０は、高速形態素解析手段１７からの
形態素解析結果における低精度文字列に対応した部分
を、低速形態素解析手段１１による低速形態素解析結果
に置き換えるものである。

【００９５】図１４は、第３の実施形態の形態素解析装
置１０Ｂの全体処理の流れの一例を示すフローチャート
であり、第２の実施形態に係る図９との同一処理ステッ
プには、同一符号を付して示している。

【００９６】第２の実施形態の場合、確定された低精度
文字列はステップ３０８で利用者への提示対象として認
識されるが、この第３の実施形態の場合には、確定され
た低精度文字列は、ステップ３０８ａで低速形態素解析
手段１１に与えられる。

【００９７】また、第２の実施形態の場合、ステップ３
１０で、低精度文字列を明示した形で高速形態素解析結
果を利用者に提示していたが、この第３の実施形態の場
合には、高速形態素解析結果における低精度文字列に対
応した部分を、低速形態素解析結果に置き換え、置き換
え後の形態素解析結果を利用者に提示する。なお、低速
形態素解析は、高速形態素解析結果における、低精度文
字列の先頭文字より前の形態素区切り位置と、低精度文
字列の最終文字より後の形態素区切り位置とに挟まれた
文字列に対して実行される。

【００９８】以上の２点を除けば、他の処理は第２の実
施形態と同様であり、その説明は省略する。

【００９９】上述した図１０に示す文「給与計算システ
ム蜃気楼の構成を図１に示す。」が、この第３の実施形
態の形態素解析装置１０Ｂに入力された場合にも、文字
列「テム蜃気楼の構」が低精度文字列として認識される
のは、第２の実施形態と同様である。

【０１００】今、低速形態素解析手段１１が内蔵する形
態素辞書には、「蜃気楼」が一つの形態素（名詞）とし
て登録されているものとする。低速形態素解析手段１１
は、低精度文字列「テム蜃気楼の構」と、高速形態素解
析結果「給与／計算／システム／蜃気楼の／構成／を／
図／１／に／示／す／。」とが与えられると、低精度文
字列「テム蜃気楼の構」の先頭文字より前の形態素区切
り位置と、低精度文字列の最終文字より後の形態素区切
り位置とに挟まれた文字列「システム蜃気楼の構成」が
低速形態素解析対象部分として解析を実行する。

【０１０１】そして、低速形態素解析手段１１は、図１
５に示すように、「システム」、「蜃気楼」、「の」、
及び「構成」を別々の形態素として解析結果を出力す
る。高速形態素解析結果「給与／計算／システム／蜃気
楼の／構成／を／図／１／に／示／す／。」の該当部分
がこの低速形態素解析結果に置き換えられるので、最終
的な形態素解析結果は、図１６に示すように、「給与／
計算／システム／蜃気楼／の／構成／を／図／１／に／
示／す／。」となる。

【０１０２】この第３の実施形態での解析結果は、第２
の実施形態の解析結果に比べて、「蜃気楼」と「の」を
別の形態素として解析しており、精度が向上している。

【０１０３】上記第３の実施形態によれば、高速形態素
解析の精度が良くないと判断された部分文字列又はその
近傍に対しては、自動的に低速形態素解析を実行し、低
速形態素解析結果に置き換えるようにしたので、常に精
度が良い形態素解析結果を出力する形態素解析装置を実
現できる。

【０１０４】この第３の実施形態においても、高速形態
素解析を基本解析処理としているので、入力文を全て低
速形態素解析するよりも短い時間で解析を実行できる。

【０１０５】（Ｄ）第４の実施形態次に、本発明による形態素解析装置の第４の実施形態を
図面を参照しながら詳述する。

【０１０６】この第４の実施形態の形態素解析装置は、
高速形態素解析結果の精度の良否を弁別し、良くない部
分に対しては、自動的に低速形態素解析を実行し、常に
精度が高い形態素解析結果を出力すると共に、低速形態
素解析結果を高速形態素解析の解析実行時データに学
習、反映させ、学習後には、精度が良くなかった文章と
同じ形態素が含まれる文章に対して精度良くかつ高速に
形態素解析できるようにしたことを大きな特徴としてい
るものである。

【０１０７】図１７は、この第４の実施形態の形態素解
析装置１０Ｃの機能的構成を示すブロック図であり、既
述した各実施形態に係る図１、図８及び図１３との同
一、対応部分には同一符号を付して示している。

【０１０８】図１７において、第４の実施形態の形態素
解析装置１０Ｃは、低速形態素解析手段１１、変換手段
１３、学習データ格納手段１４、学習手段１５、解析実
行時データ格納手段１６、高速形態素解析手段１７、精
度判定手段１８及び解析結果合成手段２０を備える。

【０１０９】第４の実施形態の形態素解析装置１０Ｃの
全ての構成要素はそれぞれ、既述した各実施形態の対応
する要素と同一機能を果たすものである。

【０１１０】しかし、この第４の実施形態の形態素解析
装置１０Ｃにおいては、低精度文字列を含む文字列に対
して低速形態素解析手段１１が解析して得た結果を、変
換手段１３に与えている点が第１や第３の実施形態と異
なっている。変換手段１３から解析実行時データ格納手
段１６への処理経路上での各手段の機能は、第１の実施
形態と同様である。

【０１１１】なお、低速形態素解析手段１１、変換手段
１３、学習データ格納手段１４、学習手段１５及び解析
実行時データ格納手段１６が、第１の実施形態と同様な
外部から入力された学習用文書に対する処理をも担うも
のであっても良いことは勿論である。

【０１１２】図１８は、第４の実施形態の形態素解析装
置１０Ｃの全体処理の流れの一例を示すフローチャート
であり、第３の実施形態に係る図１４との同一処理ステ
ップには、同一符号を付して示している。

【０１１３】第４の実施形態の形態素解析装置１０Ｃで
は、第３の実施形態の最終処理ステップ３１０ａより後
にステップ３１１及び３１２の処理を設けている。

【０１１４】ステップ３１１は、低速形態素解析結果
を、高速形態素解析の学習手段１５への入力用データ
（学習データ）に変換して追加格納する処理である。ス
テップ３１２は、その時点での全ての学習データを用い
て、解析実行時データを作成する処理である。

【０１１５】低精度文字列を含む文字列に対して、例え
ば、上述した図１５に示すような低速形態素解析結果が
得られた場合に、変換手段１３が上述した図６に示すよ
うな変換方法で学習データを変換すると、図１９に示す
ような拡張文字列（学習データ）が得られる。

【０１１６】このような学習データが、既存の学習デー
タに追加され、追加後の学習データ全体に対して、学習
手段１５が学習すると、低速形態素解析結果に対応した
部分の解析実行時データとして図２０に示すようなデー
タが得られて（他の解析実行時データも当然に得られ
る）、解析実行時データ格納手段１６に格納される。す
なわち、図１１に示すようなデータ（連鎖確率は変化す
る）に加えて、図２０に示すようなデータが新たに加わ
ることになる。

【０１１７】その結果、学習したデータによって解析可
能な文が解析対象として入力された場合には、例えば、
「給与計算システム蜃気楼の値段は２０００円です。」
が入力された場合には、前回低精度文字列と認定された
部分も精度判定手段１８で低精度と判定されなくなり、
第３の実施形態と同程度の精度の高速形態素解析結果
を、毎回、低速形態素解析手段１１を起動しないで得ら
れるようになる。

【０１１８】上記第４の実施形態によれば、高速形態素
解析の精度が良くない場合には自動的に低速形態素解析
を実行し、さらにその結果を高速形態素解析の学習のた
めのデータとして使用し、学習後には、精度が良くなか
った文章と同じ形態素が含まれる文章に対して精度良く
かつ高速に形態素解析できる形態素解析装置を実現でき
る。

【０１１９】（Ｅ）他の実施形態上記各実施形態においては、解析実行時データが１カテ
ゴリーのものを示したが、分野別などの複数カテゴリー
のものを用意し、未知文書の入力時にカテゴリーを指定
させるようにしても良い。この場合、第１の実施形態で
は、学習用文書を入力させる際に、その学習用文書のカ
テゴリーも指定することを要する。また、第３や第４の
実施形態では、低速形態素解析手段が適用する専門辞書
があれば、そのカテゴリーのものとなる。さらに、第４
の実施形態では、低速形態素解析結果を、未知文書の入
力時に指定されたカテゴリーの解析実行時データに反映
させることとなる。

【０１２０】また、第１の実施形態の説明では、学習デ
ータ格納手段１４への格納が追加格納か新規格納（前の
ものをクリアしての格納）かを明確に示さなかったが、
いずれであっても良い。また、外部から、格納方法を変
換手段１３にその都度指示できるようにしても良い。

【０１２１】さらに、第１及び第４の実施形態におい
て、学習手段１５を以下のようにしても良い。学習デー
タ格納手段１４に追加された学習データについてのみ、
文字列の出現頻度を計数して解析実行時データを作成す
る。この場合、解析実行時データ格納手段１６には、連
鎖確率だけでなく出現頻度も格納しておき、今回の集計
結果と、解析実行時データ格納手段１６に既に格納され
ている出現頻度とから、学習手段１５は、既存の解析時
学習データの文字列や、新規発生の文字列の連鎖確率を
決定するようにしても良い。

【０１２２】さらにまた、第２〜第４の実施形態におい
ては、解析実行時データ格納手段１６に存在しないこと
を低精度文字列の認定条件にしているものを示したが、
存在しても、その値（連鎖確率）が所定閾値より小さい
ことを低精度文字列の認定条件にするようにしても良
い。

【０１２３】また、第２〜第４の実施形態において、低
精度文字列の範囲を上記のように１文の部分文字列とす
るのではなく、判定文字列を含む１文全てを低精度文字
列として扱うようにしても良い。第２の実施形態であれ
ば、文単位に低精度か否かの情報が付随される。第３の
実施形態であれば、低精度認定時にその文全体が低速形
態素解析手段１１で解析されることになる。第４の実施
形態で有れば、文全体の低速形態素解析結果が、解析実
行時データ格納手段１６の格納内容に反映される。この
ように文全体で精度推測を行う場合には、最適な高速形
態素解析結果での連鎖確率を、入力文の文字数などで正
規化し、その値を閾値と比較することなどによって、そ
の文の精度を推測するようにしても良い。

【０１２４】また、解析実行時データ格納手段１６の格
納内容を利用しないで精度を判定する方法を単独で採用
したり、解析実行時データ格納手段１６の格納内容を利
用して精度を判定する方法と併用したりしても良い。例
えば、解析実行時データ格納手段１６の格納内容を利用
しないで精度を判定する方法としては、例えば、ひらが
なや漢字などのある１種類の文字種が連続して所定文字
数以上つながっている部分の中央所定文字数部分を精度
が低いと判定するような方法を挙げることができる。ま
た、第２水準の漢字を所定文字数以上含む文の精度を低
いと判定するようにしても良い。

【０１２５】さらに、第３及び第４の実施形態において
は、低精度文字列に対応した低速形態素解析を１文毎に
実行するものを示したが、文書全体を高速形態素解析し
た後でまとめて精度の悪かった部分に対して低速形態素
解析を実行するようにしても良い。

【０１２６】さらにまた、上記各実施形態の具体的説明
においては、解析実行時データを構成する拡張文字の拡
張情報が、形態素区切り情報だけのものを示したが、こ
れに加えて、品詞情報や単語の発音情報を含むものであ
っても良い。この場合、当然に、変換手段や学習手段も
それに応じたものとなる。解析実行時データをこのよう
にした場合には、単語分割と品詞付与を行なう形態素解
析や、単語の発音を決定する形態素解析を高速化するこ
とができる。

【０１２７】また、上記各実施形態においては、対象と
する自然言語が日本語である形態素解析装置を示した
が、他の言語の形態素解析装置に対しても本発明を適用
することができる。

【０１２８】

【発明の効果】以上のように、本発明の形態素解析装置
によれば、利用者に負担をかけることなく、形態素解析
結果の精度向上や、解析処理時間の短縮化を期待でき
る。

【図面の簡単な説明】

【図１】第１の実施形態の構成を示すブロック図であ
る。

【図２】第１の実施形態の処理の概要を示すフローチャ
ートである。

【図３】第１の実施形態の学習用文書の一例を示す説明
図である。

【図４】図３の第１文目についての低速形態素解析結果
を示す説明図である。

【図５】図３の学習用文書に対応した学習データを示す
説明図である。

【図６】第１の実施形態の変換手段による詳細処理例を
示すフローチャートである。

【図７】図６のステップ２０６の処理の説明図である。

【図８】第２の実施形態の構成を示すブロック図であ
る。

【図９】第２の実施形態の処理を示すフローチャートで
ある。

【図１０】形態素解析対象文を示す説明図である。

【図１１】解析実行時データ格納手段１６の格納内容例
を示す説明図である。

【図１２】第２の実施形態で図１０の文を解析した出力
内容例を示す説明図である。

【図１３】第３の実施形態の構成を示すブロック図であ
る。

【図１４】第３の実施形態の処理を示すフローチャート
である。

【図１５】第３の実施形態の低精度文字列に対する低速
形態素解析結果例を示す説明図である。

【図１６】第３の実施形態で図１０の文を解析した最終
的な解析結果例を示す説明図である。

【図１７】第４の実施形態の構成を示すブロック図であ
る。

【図１８】第４の実施形態の処理を示すフローチャート
である。

【図１９】第４の実施形態での低精度文字列に対する低
速形態素解析結果を学習データに変換した例を示す説明
図である。

【図２０】第４の実施形態での低精度文字列に対応した
学習データから形成された解析実行時データの例を示す
説明図である。

【符号の説明】

１０、１０Ａ、１０Ｂ、１０Ｃ…形態素解析装置、１１…低速形態素解析手段、１３…変換手段、１５…学習手段、１７…高速形態素解析手段、１８…精度判定手段、１９…精度・解析結果合成手段、２０…解析結果合成手段。

フロントページの続き (72)発明者北村美穂子東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内Ｆターム(参考） 5B091 AA15 CA02 CD11 EA01

Claims

【特許請求の範囲】

【請求項１】自然言語文に現れる所定文字数でなる部
分文字列とその絶対的又は相対的な頻度情報とを少なく
とも含む組データである解析実行時データを多数格納し
ている解析実行時データ格納手段と、未知文章に対し
て、上記解析実行時データ格納手段の格納内容を参照し
て形態素解析を実行する第１の形態素解析手段とを有す
る形態素解析装置において、上記第１の形態素解析手段からの形態素解析結果の精度
を推測する精度判定手段を有することを特徴とする形態
素解析装置。
【請求項２】上記精度判定手段が精度が低いと推測し
た文章又は文字列を明示して、上記第１の形態素解析手
段からの形態素解析結果を出力する解析結果出力手段を
有することを特徴とする請求項１に記載の形態素解析装
置。
【請求項３】上記精度判定手段が精度が低いと推測し
た低精度部分又はそれを含む範囲の文章又は文字列に対
し、形態素辞書を利用した形態素解析を行う第２の形態
素解析手段を有することを特徴とする請求項１又は２に
記載の形態素解析装置。
【請求項４】上記第１及び第２の形態素解析手段の形
態素解析結果を１個の形態素解析結果にまとめる解析結
果合成手段を有することを特徴とする請求項３に記載の
形態素解析装置。
【請求項５】上記第２の形態素解析手段の形態素解析
結果のデータ形式を解析実行時データを作成可能なデー
タ形式に変換した学習データを作成する変換手段と、学習データから多数の解析実行時データを作成して上記
解析実行時データ格納手段に格納させる学習手段とを有
することを特徴とする請求項３又は４に記載の形態素解
析装置。