JP5169602B2

JP5169602B2 - 形態素解析装置、形態素解析方法及びコンピュータプログラム

Info

Publication number: JP5169602B2
Application number: JP2008203479A
Authority: JP
Inventors: 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-08-06
Filing date: 2008-08-06
Publication date: 2013-03-27
Anticipated expiration: 2028-08-06
Also published as: JP2010039864A

Description

本発明は、自然言語の文章の形態素解析を行う形態素解析装置、形態素解析方法及び形態素解析装置をコンピュータによって実行するためのコンピュータプログラムに関する。

従来、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割する形態素解析は、音声合成システム、音声照合システム、テキスト検索システム、文書作成システムなどに広く利用されている。形態素とは、意味を持つ最小の言語単位であり、単語は一又は複数の形態素から成る。形態素解析とは、自然言語を形態素に分割することであるが、システムによっては、自然言語を単語に分割することを指す場合もある。また、形態素解析に用いる辞書は正しくは形態素辞書と呼ぶべきであるが、単語辞書と呼ばれることもあり、本明細書では単語辞書と記述している。形態素解析は、その結果がシステムに大きな影響を与えるため高い精度を確保することが要求されている。形態素解析は、通常、単語の表記及び品詞情報が対応づけて登録された単語辞書を用い、単語辞書内の各単語の表記と、文章内の各単語の表記を照合し、一致する単語の候補を抽出し、さらに単語候補のそれぞれの品詞を参照しながら、最適な単語の組み合わせを決定することによって文章を形態素の列（一又は複数の形態素）に分割し、それぞれの品詞を判別する。

図２３は従来の形態素解析装置が用いる単語辞書の登録内容の一例を示す模式図である。単語辞書には、少なくとも単語の表記及び品詞情報が対応して登録されている。また、形態素解析を音声合成システム又は音声照合システムで用いる場合、単語辞書には、単語の読み及びアクセント情報が更に登録されている。

単語の表記は、文字コードに基づいて管理されており、漢字及び仮名（平仮名及び片仮名を含む）からなる「漢字かな混じり表記」が一般的である。また、品詞情報は、単語の文法的な機能及び形態を示すものである。但し、品詞の分類体系は、一意的ではなく、操作者の経験又は統計的に基づいて定義付けがなされる。

また、読み情報は、漢字の読みであり、仮名又はローマ表記で示される。また、アクセント情報は、一定の時間的長さをもった音の分節単位（モーラ）間の高低の変化を示す。例えば、「童話」という語は、３モーラからなり各モーラ間で高低の変化がないので「０型」と登録されている。また、「話術」という語は、３モーラからなり１及び２モーラ間に高低の変化があるので「１型」と登録されている。また、「話」という語は、３モーラからなり「が」とい助詞が続くときに３モーラ及び助詞の間に高低の変化があるので「３型」と登録されている。また、助詞は、単体で発声されないので「−」と登録されている。

形態素解析は、品詞情報を用いて自然言語の文章として不都合がないように尤もらしい単語の組み合わせを選択する。形態素解析を効率的に実行するアルゴリズムとして、ビタビ（Viterbi）アルゴリズムが知られている。形態素解析は、例えば、「童話を読みます。」という自然言語の文章が入力された場合、以下の解析結果を出力する。

童話普通名詞ドーワ
を格助詞オ
読マ行五段動詞語幹ヨ
みマ行五段動詞連用形ミ
ます助動詞終止形マス

ところで小学校低学年の教科書、外国人向けの教科書などにあっては、常用漢字の全てを習得していない児童又は外国人のため、常用漢字の一部又は全部を仮名に置換した交書きにされている。更に、このような漢字の少ない文章は、語の区切りが不明瞭となるため、区切り箇所に空白を挟んで記述する分かち書きにされている。

しかし、従来の形態素解析装置は、分かち書きの文章を正確に解析することができない。即ち、従来の形態素解析装置が用いる一般文章用の単語辞書には、交書きに関する情報が登録されていないため、形態素解析装置は、交書きされた部分をすべて未知語として処理することになってしまう。そのため、正確に解析することができなかった。

そこで、従来、交書きの読みを一般文章用の単語辞書に登録されている単語の読みと照合させることにより、分かち書きの形態素解析を行うようにした装置が提案された（例えば、特許文献１）。
特開平９−１９０４４０号公報

しかしながら、従来の形態素解析装置にあっては、単語の読みとして登録されていれば、本来未知語として処理すべき単語についても、単語辞書に登録されている何らかの単語として解析してしまうという問題を有していた。

この点、交書きに関する情報を単語辞書に追記することで、上述した問題を解決することができる。しかし、形態素解析装置は、１０万語程度が登録された単語辞書を用いることにより一般的な文章の形態素解析を行うように設計されているので、１０万語以上登録された単語辞書は、形態素解析装置に過大な負担を与え、形態素解析処理の遅延を招来させるという問題を有している。

また、従来の形態素解析装置は、例えば、「ふさがない」という単語が「塞がない」であるのか「房がない」であるのかを判断することができないため、正確に形態素解析を実行することができないという問題を有している。

本発明はかかる事情に鑑みてなされたものであり、自然言語の文章が文節毎に分かち書きにされているか否かを判別し、判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第１単語辞書及び／又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書を選択し、選択した単語辞書に基づいて文章の形態素解析を行うようにしてあることにより、分かち書きにされた文章であっても正確な形態素解析を実行することができる形態素解析装置、形態素解析方法及びコンピュータプログラムを提供することを目的とする。

この装置、方法及びコンピュータプログラムは、自然言語の文章が文節毎に分かち書きにされているか否かを判別する判別手段と、単語の表記とその品詞とを対応付けて格納する第１単語辞書記憶手段と、単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書記憶手段と、前記判別手段による判別結果に応じて前記第１単語辞書記憶手段及び／又は第２単語記憶手段を選択する選択手段と、選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段とを備えることを要件とする。

この装置、方法及びコンピュータプログラムは、単語の表記とその品詞とを対応付けて格納する第１単語辞書を記憶すると共に、単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書を記憶することにより、一般的な文章及び分かち書き文章の形態素解析で用いるための単語辞書を予め準備しておく。また、形態素解析すべき文章が分かち書きにされているか否かを判断し、判断結果に応じて第１単語辞書及び／又は第２単語辞書を選択することにより、テキストの属性に最適な単語辞書を選択する。また、選択した単語辞書に基づいて形態素解析を行うことにより、テキストの属性に最適な単語辞書を用いて形態素解析を実行することができる。

開示する装置、方法及びコンピュータプログラムは、一般的な文章のみならず、分かち書きにされた文章であっても正確な形態素解析を実行することができる。

実施の形態１．
以下、実施の形態１における形態素解析装置、形態素解析方法及びコンピュータに形態素解析装置を実行させるためのコンピュータプログラムを実施の形態を示す図面に基づいて説明する。なお、以下、実施の形態では、コンピュータプログラムを汎用のコンピュータに読み取らせ、コンピュータのＣＰＵが所定の処理を実行することにより、形態素解析装置として機能する場合を説明する。しかし、本発明は、これに限定されるものでなく、例えば、等価な働きをする専用のハードウェアを有する形態素解析装置に関するものであってもよい。

図１は本発明の一実施例における形態素解析装置を有する情報処理装置の構成例を示すブロック図である。実施の形態１における情報処理装置は、汎用コンピュータ又は個人向けコンピュータ（Personal Computer）であり、中央処理装置（以下ＣＰＵという）１０、外部記憶装置１１、通信制御部１２、主記憶１３、補助記憶装置１４、入力制御部１５及び出力制御部１６などを有し、各部はバス１７を介して相互に接続されている。

外部記憶装置１１は、記録媒体１１ａが記憶してあるプログラム又はテキストファイルなどを読み取るための駆動装置であり、例えば、フレキシブルディスク、ＣＤーＲＯＭドライブ、ＤＶＤドライブが該当する。外部記憶装置１１は、記録媒体１１ａからプログラム又はテキストファイルを読み出して補助記憶装置１４へ出力する。記録媒体１１ａは、その他、形態素解析装置として機能させるための応用プログラムソフトウェアなどを記憶している。

通信制御部１２は、特定の物理層及びデータリンク層を使用して通信するための電子的な回路を実装しており、通信網に接続して他の汎用コンピュータと通信を行う。通信制御部１２は、例えば、通信網を介してＨＴＭＬで記述された構造化文書又は文章データを含むテキストファイルなどを転送してくる。

主記憶１３は、ＣＰＵ１０が機能するために必要なプログラムを補助記憶装置１４から読み出してＣＰＵ１０へ出力する。また、主記憶１３は、補助記憶装置１４から読み出したテキストファイルをＣＰＵ１０へ出力する。また、主記憶１３は、補助記憶装置１４から読み出したテキスト属性情報をＣＰＵ１０へ出力する。また、主記憶１３は、ＣＰＵ１０が形態素解析を実行することにより生じた形態素解析の結果などを記憶領域に記憶する。また、主記憶１３は、記憶領域に記憶してあるデータを補助記憶装置１４へ出力する。ＣＰＵ１３は、例えば、ＳＤＲＡＭ（Synchronous DRAM）又はＳＲＡＭ（Static RAM）などの半導体が該当する。

補助記憶装置１４は、外部記憶装置１１又は通信制御部１２から受け付けたプログラムを格納し、ＣＰＵ１０の要求に応じて主記憶１３へ適宜出力する。また、補助記憶装置１４は、外部記憶装置１１、通信制御部１２又は入力制御部１５から受け付けたテキストファイルを格納し、ＣＰＵ１０の要求に応じて主記憶１３へ適宜出力する。また、補助記憶装置１４は、入力制御部１５からテキスト属性情報を受け付けた場合、それを格納し、ＣＰＵ１０の要求の応じて主記憶１３へ適宜出力する。また、補助記憶装置１４は、主記憶１３から受け付けた、形態素解析の結果などを格納し、ＣＰＵ１０の要求に応じて出力制御部１６へ出力する。補助記憶装置１４は、例えば、磁気ディスク記録方式のハードディスクドライブなどが該当する。

入力制御部１５は、キーボード及びマウスなどの入力装置１５ａと接続し、入力装置１５ａを介して操作者により入力された文章データ又はテキスト属性情報などを受け付けて主記憶１３へ出力する。

出力制御部１６は、液晶ディスプレイ又はスピーカなどの出力装置１６ａと接続し、ＣＰＵ１０が処理した形態素解析の結果などを出力装置１６ａを介して画面出力又は音声出力する。

ＣＰＵ１０は、上述した各部を制御すると共に、補助記憶装置１４に記憶してあるプログラムに従って所定の処理を実行することにより、形態素解析装置として機能する。具体的には、ＣＰＵ１０及び上述したハードウェアが形態素解析装置を構成している。以下、実施例１乃至６に分けて説明する。

実施例１．
図２は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。形態素解析装置は、ＣＰＵ１０及び補助記憶装置１４が格納する各単語辞書とから成る。

実施例１における補助記憶装置１４は、各単語辞書の記憶手段として、一般文章用となる一般単語辞書Ｄ１及び分かち書き文章用となる特別単語辞書Ｄ２を格納する。図３は単語辞書の登録内容の一例を示す模式図である。一般単語辞書Ｄ１には、各単語の表記、品詞、読み及びアクセントが対応づけて登録されている（図３（ａ））。一般単語辞書Ｄ１は、上述した従来の形態素解析装置が用いる単語辞書と同様であるので、その説明を省略する。

特別単語辞書Ｄ２は、各単語の表記が含む漢字の全部又は一部を仮名に置換した交書きの表記で登録されている（図３（ｂ））。交書きの表記とは、漢字かな混じり表記で「童話」と表す漢字の一部又は全部を仮名に置換して「どうわ」、「どう話」又は「童わ」と表すことをいう。また、特別単語辞書Ｄ２は、交書きの表記に対応づけて品詞、読み及びアクセントが登録されている。
なお、特別単語辞書Ｄ２には、漢字かな混じり表記で「閑話」及び「話術」で表す漢字に対する交書きの表記が登録されていない。かかる漢字は、交書きで表記されることがないからである。

実施例１におけるＣＰＵ１０は、主記憶１３から出力されたテキストファイルを受け付けるテキスト読込部１０１と、主記憶１３から出力されたテキスト属性情報を受け付けるテキスト属性読込部１０２と、受け付けたテキスト属性情報に基づいて、テキストファイルの文章が分かち書きであるか否かを判別するテキスト属性判別部１０３と、テキスト属性判別部１０３が判別したテキスト属性に応じて補助記憶装置１４に格納してある単語辞書のいずれかを選択する単語辞書選択部１０４と、単語辞書選択部１０４が選択した単語辞書を用いて、テキストファイルの文章を形態素解析する形態素解析部１０５と、形態素解析部１０５が実行した形態素解析の結果を生成して主記憶１３へ出力する形態素解析結果出力部１０６として機能する。

このように、実施例１における形態素解析装置は、一般的な漢字かな混じり表記用の一般単語辞書Ｄ１と、交書き表記用の特別単語辞書Ｄ２とを用意しておき、分かち書きであるか否かに応じて単語辞書を選択し、選択した単語辞書を用いて文章の形態素解析を実行する。その結果、実施例１における形態素解析装置は、分かち書き文章の形態素解析の精度を向上させると共に、単語辞書のファイルサイズの膨張を抑えることができる。

最後に実施例１における形態素解析装置が、補助記憶装置１４に格納してあるプログラムに従って実行する形態素解析に処理の手順について説明する。図４は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。

形態解析装置のＣＰＵ１０は、テキスト読込部１０１及びテキスト属性読込部１０２として機能し、主記憶１３からテキストファイル及びテキスト属性を受け付ける（Ｓ１０１）。ＣＰＵ１０は、テキスト属性判別部１０３として機能し、受け付けたテキスト属性が分かち書きを示しているか否かを判別する（Ｓ１０２）。ＣＰＵ１０は、受け付けたテキスト属性が分かち書きを示していないと判別した場合（Ｓ１０２でＮＯ）、単語辞書選択部１０４として機能し、補助記憶装置１４から一般単語辞書Ｄ１を選択し（Ｓ１０３）、ステップＳ１０５へ進む。

一方、ＣＰＵ１０は、受け付けたテキスト属性が分かち書きを示していると判別した場合（Ｓ１０２でＹＥＳ）、単語辞書選択部１０４として機能し、補助記憶装置１４から一般単語辞書Ｄ１及び特別単語辞書Ｄ２を選択し（Ｓ１０４）、ステップＳ１０５へ進む。

ＣＰＵ１０は、一般単語辞書Ｄ１を選択した場合（Ｓ１０３参照）、又は一般単語辞書Ｄ１及び特別単語辞書Ｄ２を選択した場合（Ｓ１０４参照）、形態素解析部１０５として機能し、受け付けたテキストファイルから一文を抽出する（Ｓ１０５）。

ＣＰＵ１０は、選択した単語辞書に基づいて形態素解析を実行する（Ｓ１０６）。ＣＰＵ１０は、形態素解析結果出力部１０６として機能し、形態素解析の結果を主記憶１３へ出力する（Ｓ１０７）。ＣＰＵ１０は、テキストファイル内の全文の処理が完了したか否かを判定し（Ｓ１０８）、全文の処理が完了していないと判定した場合（Ｓ１０８でＮＯ）、ステップＳ１０５へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。

一方、ＣＰＵ１０は、全文の処理が完了したと判定した場合（Ｓ１０８でＹＥＳ）、形態素解析処理を終了する。以上、実施例１について説明した。

実施例２．
上述した実施例１では、操作者により入力されたテキスト属性に基づいて、テキストファイルの文章が分かち書きであるか否かを判別する一例を説明した。しかし、テキストファイルの形態素解析を多数実行する場合には操作者の負担が増大する。そこで、実施の形態１における形態素解析装置は、これに限定されるものでなく、テキストファイルの文章が分かち書きであるか否かを自動的に判別するようにしてもよい。実施例２では、かかる機能を有する形態素解析装置について説明する。

図５は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例２における補助記憶装置１４は、各単語辞書の記憶手段として、一般文章用となる一般単語辞書Ｄ１及び分かち書き文章用となる特別単語辞書Ｄ２を格納する。一般単語辞書Ｄ１及び特別単語辞書Ｄ２の登録内容は、実施例１における各単語辞書と同様であるから、その説明を省略する。

実施例２におけるＣＰＵ１０は、主記憶１３から出力されたテキストファイルを受け付けるテキスト読込部１０１ａと、テキスト読込部１０１ａが受け付けたテキストファイルの属性を自動的に判別するテキスト属性判別部１０３ａと、テキスト属性判別部１０３ａが判別したテキストの属性に応じて補助記憶装置１４に格納してある単語辞書のいずれかを選択する単語辞書選択部１０４ａと、単語辞書選択部１０４ａが選択した単語辞書を用いて、テキスト読込部１０１ａが受け付けたテキストファイルの文章を形態素解析する形態素解析部１０５ａと、形態素解析部１０５ａが実行した形態素解析の結果を生成して主記憶１３へ出力する形態素解析結果出力部１０６ａとして機能する。

実施例２における形態素解析装置は、補助記憶装置１４に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図６は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。

形態素解析装置のＣＰＵ１０は、テキスト読込部１０１ａとして機能し、主記憶１３からテキストファイルを受け付ける（Ｓ２０１）。ＣＰＵ１０は、テキスト属性判別部１０３ａとして機能し、受け付けたテキストファイルの属性が分かち書きを示すか否かを判別するテキスト属性判別処理を実行する（Ｓ２０２）。なお、テキスト属性判別処理の手順については、後述にて説明する。

ＣＰＵ１０は、テキスト属性判別処理の結果、テキスト属性が分かち書きを示しているか否かを判別する（Ｓ２０３）。ＣＰＵ１０は、テキスト属性が分かち書きを示していないと判別した場合（Ｓ２０３でＮＯ）、単語辞書選択部１０４ａとして機能し、補助記憶装置１４から一般単語辞書Ｄ１を選択し（Ｓ２０４）、ステップＳ２０６へ進む。

一方、ＣＰＵ１０は、テキスト属性が分かち書きを示していると判別した場合（Ｓ２０３でＹＥＳ）、単語辞書選択部１０４ａとして機能し、補助記憶装置１４から一般単語辞書Ｄ１及び特別単語辞書Ｄ２を選択し（Ｓ２０５）、ステップＳ２０６へ進む。

ＣＰＵ１０は、一般単語辞書Ｄ１を選択した場合（Ｓ２０４参照）、一般単語辞書Ｄ１及び特別単語辞書Ｄ２を選択した場合（Ｓ２０５参照）、形態素解析部１０５ａとして機能し、受け付けたテキストファイルから一文を抽出する（Ｓ２０６）。

ＣＰＵ１０は、選択した単語辞書に基づいて形態素解析を実行する（Ｓ２０７）。ＣＰＵ１０は、形態素解析結果出力部１０６ａとして機能し、形態素解析の結果を主記憶１３へ出力する（Ｓ２０８）。ＣＰＵ１０は、テキストファイル内の全文の処理が完了したか否かを判定し（Ｓ２０９）、全文の処理が完了していないと判定した場合（Ｓ２０９でＮＯ）、ステップＳ２０６へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。

一方、ＣＰＵ１０は、全文の処理が完了したと判定した場合（Ｓ２０９でＹＥＳ）、形態素解析処理を終了する。

ここで実施例２における形態素解析装置がステップＳ２０２で実行するテキスト属性判別処理の手順について説明する。図７及び８は本発明の一実施例における形態素解析装置が実行するテキスト属性判別処理の手順を示すフローチャートである。形態素解析装置は、テキスト属性判別処理を実行することにより、操作者により入力されたテキスト属性を受け付けることなく、テキストファイルの属性を自動的に判別することができる。

形態素解析装置のＣＰＵ１０は、受け付けたテキストファイルから文章を抽出し、抽出した文章の各文字の位置を取得して主記憶１３に記憶する。また、ＣＰＵ１０は、抽出した文章の空白又は改行の位置を区切りの位置として取得し、２つの区切り位置に挟まれた文字列（以下連続文字列という）の個数ｎと、ｎ番目の連続文字列の長さｌｅｎｇｔｈ〔ｎ〕とを主記憶１３に記憶する。また、ＣＰＵ１０は、現時点で注目している文字の位置を示す変数であるポインタを主記憶１３に記憶する。

ＣＰＵ１０は、主記憶１３に記憶してある、ポインタに文頭位置を設定し（Ｓ３０１）、連続文字列の個数ｎを初期化（ｎ＝０）し（Ｓ３０２）、ｎ番目の連続文字列の長さを初期化（ｌｅｎｇｔｈ〔ｎ〕＝０）する（Ｓ３０３）。

ＣＰＵ１０は、全ての文字列の処理が完了したか否か、即ち、ポインタが文末の位置を示している否かを判定する（Ｓ３０４）。その結果、ＣＰＵ１０は、ポインタが文末の位置を示していないと判定した場合（Ｓ３０４でＮＯ）、更にポインタが空白又は改行の位置を示しているか否かを判定する（Ｓ３０５）。その結果、ＣＰＵ１０は、ポインタが空白又は改行の位置を示していないと判定した場合（Ｓ３０５でＮＯ）、連続文字列の長さを１文字追加、即ち、ｌｅｎｇｔｈ〔ｎ〕＝ｌｅｎｇｔｈ〔ｎ〕＋１とする（Ｓ３０６）。ＣＰＵ１０は、ステップＳ３０９へ進む。

一方、ＣＰＵ１０は、ステップＳ３０５において、ポインタが空白又は改行の位置を示していると判定した場合（Ｓ３０５でＹＥＳ）、連続文字列の個数ｎを１文字列追加、即ち、ｎ＝ｎ＋１とする（Ｓ３０７）。ＣＰＵ１０は、連続文字列の長さを初期化、即ち、ｌｅｎｇｔｈ〔ｎ〕＝０とし（Ｓ３０８）、次の連続文字列の長さの計測に備えつつステップＳ３０９へ進む。

ＣＰＵ１０は、連続文字列の長さを１文字追加した場合（Ｓ３０６参照）、又は連続文字列の長さを初期化した場合（Ｓ３０８参照）、更にポインタを１文字分進め（Ｓ３０９）、ステップＳ３０４へ戻り、処理を繰り返す。

ＣＰＵ１０は、ステップＳ３０４において、ポインタが文末の位置を示していると判定した場合（Ｓ３０４でＹＥＳ）、計測した全ての連続文字列の個数ｎ及び各連続文字列の長さｌｅｎｇｔｈ〔ｎ〕を用いて平均連続文字列長ａｖｅｒａｇｅ＿ｌｅｎｇｔｈを算出（ａｖｅｒａｇｅ＿ｌｅｎｇｔｈ＝Σ（ｌｅｎｇｔｈ〔ｎ〕／ｎ））する（Ｓ３１０）。ＣＰＵ１０は、算出した平均連続文字列長ａｖｅｒａｇｅ＿ｌｅｎｇｔｈが閾値未満であるか否かを判定する（Ｓ３１１）。閾値は、操作者により予め設定されたものであり、例えば、分かち書きとされ易い５〜１０文字程度に設定される。その結果、ＣＰＵ１０は、算出した平均連続文字列長ａｖｅｒａｇｅ＿ｌｅｎｇｔｈが閾値未満である場合（Ｓ３１１でＹＥＳ）、テキストファイルのテキスト属性が分かち書きであると判別する（Ｓ３１２）。ＣＰＵ１０は、テキスト属性判別処理を停止し、異なるテキストファイルを受け付けたときにテキスト属性判別処理を繰り返す。

一方、ＣＰＵ１０は、算出した平均連続文字列長ａｖｅｒａｇｅ＿ｌｅｎｇｔｈが閾値以上である場合（Ｓ３１１でＮＯ）、テキストファイルのテキスト属性が一般的な文章であると判別する（Ｓ３１３）。ＣＰＵ１０は、テキスト属性判別処理を停止し、異なるテキストファイルを受け付けたときにテキスト属性判別処理を繰り返す。

このように、実施例２における形態素解析装置にあっては、テキストファイルの文章が分かち書きであるか否かを自動的に判別するので、操作者がテキスト属性を入力する必要がなく、操作者の操作負担を軽減させることができる。以上、実施例２について説明した。

実施例３．
上述した実施例１及び２では、形態素解析装置が有する補助記憶装置１４に一般的な漢字かな混じり表記が登録された一般単語辞書Ｄ１と、交書き表記が登録された特別単語辞書Ｄ２とを予め格納している一例を説明した。しかし、複数の単語辞書を常に管理する必要があり、大きな記憶領域が必要となる。そこで、実施の形態１における形態素解析装置は、これに限定されるものでなく、補助記憶装置１４に一般単語辞書Ｄ１のみを格納しておき、分かち書きのテキストファイルを受け付ける都度該当する単語の交書き表記を登録した変換単語辞書Ｄ３を動的かつ一時的に生成するようにしてもよい。実施例３では、かかる機能を有する形態素解析装置について説明する。

図９は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例３における補助記憶装置１４は、単語辞書の記憶手段として、一般文章用の一般単語辞書Ｄ１のみを格納し、一般単語辞書Ｄ１に基づいて動的かつ一時的に生成された変換単語辞書Ｄ３を格納する。

図１０は単語辞書の登録内容の一例を示す模式図である。一般単語辞書Ｄ１には、上述した実施例１における一般単語辞書Ｄ１の登録内容の他に、変換可否、漢字かな対応及び平仮名インデックスの情報が対応づけて格納されている（図１０（ａ））。

変換可否は、対応する単語を交書きに変換することができるか否かを示す情報である。例えば、「童話」又は「電話」など、理解され易い単語は、交書きに変換することができる。一方、「閑話」又は「話術」など、理解され難い単語は、交書きに変換することができない。

漢字かな対応は、単語に含まれる漢字の読み仮名を夫々示すものであり、交書きの態様を示す。

平仮名インデックスは、交書きへの変換時機を示すものである。ＣＰＵ１０は、テキストファイルの文章を文頭から検索し、平仮名インデックスを含む漢字が出現したとき、その漢字を平仮名に変換する。例えば、文章中にインデックス「ど」又は「わ」が出現したとき（図１０（ａ）参照）、対応する漢字「童話」を交書きに変換し、変換した交書きの表記、品詞、読み及びアクセントを変換単語辞書Ｄ３に登録する（図１０（ｂ）参照）。また、ＣＰＵ１０は、文章中にインデックス「で」又は「わ」が出現したとき、対応する漢字「電話」を交書きに変換して変換単語辞書Ｄ３に登録する（図１０（ｃ）参照）。

実施例３におけるＣＰＵ１０は、主記憶１３から出力されたテキストファイルを受け付けるテキスト読込部１０１ｂと、主記憶１３から出力されたテキスト属性を受け付けるテキスト属性読込部１０２ｂと、テキスト属性読込部１０２ｂが受け付けたテキスト属性情報に基づいてテキスト読込部１０２ｂが読み込んだテキストファイルの属性を判別するテキスト属性判別部１０３ｂと、テキスト属性判別部１０３ｂが判別したテキストの属性に応じて補助記憶装置１４に格納してある単語辞書のいずれかを選択する単語辞書選択部１０４ｂと、単語辞書選択部１０４ｂが選択した単語辞書を用いて、テキスト読込部１０１ｂが読み込んだテキストファイルの文章を形態素解析する形態素解析部１０５ｂと、形態素解析部１０５ｂが実行した形態素解析の結果を生成して主記憶１３へ出力する形態素解析結果出力部１０６ｂと、一般単語辞書Ｄ１から変換単語辞書Ｄ３を生成する単語辞書変換部１０７として機能する。

実施例３における形態素解析装置は、補助記憶装置１４に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図１１及び図１２は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。

形態素解析装置のＣＰＵ１０は、テキスト読込部１０１ｂ及びテキスト属性読込部１０２ｂとして機能し、主記憶１３からテキストファイル及びテキスト属性を受け付ける（Ｓ４０１）。ＣＰＵ１０は、受け付けたテキストファイルから一文を抽出する（Ｓ４０２）。ＣＰＵ１０は、テキスト属性判別部１０３ｂとして機能し、受け付けたテキスト属性が分かち書きを示しているか否かを判別する（Ｓ４０３）。その結果、ＣＰＵ１０は、受け付けたテキスト属性が分かち書きを示していないと判別した場合（Ｓ４０３でＮＯ）、単語辞書選択部１０４ｂとして機能し、補助記憶装置１４から一般単語辞書Ｄ１を選択し（Ｓ４０４）、選択した単語辞書を受け付ける。ＣＰＵ１０は、形態素解析部１０５ｂとして機能し、受け付けた単語辞書のそれぞれの単語が、抽出した一文と部分一致するか否かを照合する。ＣＰＵ１０は、一致した単語を単語候補として選択し（Ｓ４０５）、ステップＳ４１０へ進む。

一方、ＣＰＵ１０は、受け付けたテキスト属性が分かち書きを示していると判別した場合（Ｓ４０３でＹＥＳ）、単語辞書変換部１０７として機能し、補助記憶装置１４から一般単語辞書Ｄ１を読み出し、読み出した一般単語辞書Ｄ１内のそれぞれの単語の平仮名インデックスが、抽出した一文に存在するか否かを文頭から照合する。ＣＰＵ１０は、平仮名インデックスが抽出した一文に存在する単語について、漢字の全部又は一部を仮名にした交書き表記に変換し（Ｓ４０６）、変換した交書きの表記を変換単語辞書Ｄ３に登録するとともに、対応する単語の品詞、読み及びアクセントを一般単語辞書Ｄ１から抽出して変換単語辞書Ｄ３に登録する（Ｓ４０７）。ＣＰＵ１０は、単語辞書選択部１０４として機能し、一般単語辞書Ｄ１及び変換単語辞書Ｄ３を選択する（Ｓ４０８）。さらに、選択した一般単語辞書Ｄ１及び変換単語辞書Ｄ３から、抽出した一文と部分一致する単語を単語候補として選択し（Ｓ４０９）、ステップＳ４１０へ進む。

ＣＰＵ１０は、一般単語辞書Ｄ１で一致した単語を単語候補とした場合（Ｓ４０５参照）、又は一般単語辞書Ｄ１及び変換単語辞書Ｄ３で一致した単語を選択した場合（Ｓ４０９参照）、形態素解析部１０５ｂとして機能し、選択した単語候補の最適な組み合わせを決定する形態素解析を実行する（Ｓ４１０）。ＣＰＵ１０は、形態素解析結果出力部１０６として機能し、実行した形態素解析の結果を主記憶１３へ出力する（Ｓ４１１）。ＣＰＵ１０は、テキストファイル内の全文の処理が完了したか否かを判定し（Ｓ４１２）、全文の処理が完了していないと判定した場合（Ｓ４１２でＮＯ）、ステップＳ４０２へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。

一方、ＣＰＵ１０は、全文の処理が完了したと判定した場合（Ｓ４１２でＹＥＳ）、形態素解析処理を終了する。

このように、実施例３における形態素解析装置にあっては、補助記憶装置１４に一般単語辞書Ｄ１のみを格納しておき、分かち書きのテキストファイルを受け付ける都度該当する単語の表記が含む漢字を交書き表記に変換した変換単語辞書Ｄ３を動的かつ一時的に生成することにより、単語辞書のファイルサイズの膨張を抑えることができ、記憶領域を節約することができ、形態素解析装置の処理負担を軽減できる。以上、実施例３について説明した。

実施例４．
上述した実施例３では、操作者により入力されたテキスト属性に基づいて、テキストファイルの文章が分かち書きであるか否かを判別する一例を説明した。しかし、テキストファイルの形態素解析を多数実行する場合、操作者の負担が増大する。そこで、実施の形態１における形態素解析装置は、これに限定されるものでなく、テキストファイルの文章が分かち書きであるか否かを自動的に判別するようにしてもよい。実施例４では、かかる機能を有する形態素解析装置について説明する。

図１３は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例４における補助記憶装置１４は、単語辞書の記憶手段として、一般文章用となる一般単語辞書Ｄ１のみを格納し、一般単語辞書Ｄ１に基づいて動的かつ一時的に生成された変換単語辞書Ｄ３を格納する。一般単語辞書Ｄ１及び変換単語辞書Ｄ３の登録内容は、実施例３における各単語辞書と同様であるから、その説明を省略する。

実施例４におけるＣＰＵ１０は、主記憶１３から出力されたテキストファイルを受け付けるテキスト読込部１０１ｃと、テキスト読込部１０１ｃが受け付けたテキストファイルの属性を自動的に判別するテキスト属性判別部１０３ｃと、テキスト属性判別部１０３ｃが判別したテキストの属性に応じて補助記憶装置１４に格納してある単語辞書のいずれかを選択する単語辞書選択部１０４ｃと、単語辞書選択部１０４ｃが選択した単語辞書を用いて、テキスト読込部１０１ｃが読み込んだテキストファイルの文章を形態素解析する形態素解析部１０５ｃと、形態素解析部１０５ｃが実行した形態素解析の結果を生成して主記憶１３へ出力する形態素解析結果出力部１０６ｃと、一般単語辞書Ｄ１から変換単語辞書Ｄ３を生成する単語辞書変換部１０７として機能する。

実施例４における形態素解析装置は、補助記憶装置１４に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図１４及び図１５は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。

形態素解析装置のＣＰＵ１０は、テキスト読込部１０１ｃとして機能し、主記憶１３からテキストファイルを受け付ける（Ｓ５０１）。ＣＰＵ１０は、テキスト属性判別部１０３ｃとして機能し、受け付けたテキストファイルの属性が分かち書きを示すか否かを判別するテキスト属性判別処理を実行する（Ｓ５０２）。なお、テキスト属性判別処理の手順は、実施例２におけるテキスト属性判別処理と同様であるから、対応するステップに同一番号を付してその説明を省略する。

ＣＰＵ１０は、受け付けたテキストファイルから一文を抽出する（Ｓ５０３）。ＣＰＵ１０は、テキスト属性判別処理の結果、テキスト属性が分かち書きを示しているか否かを判別する（Ｓ５０４）。ＣＰＵ１０は、テキスト属性が分かち書きを示していないと判別した場合（Ｓ５０４でＮＯ）、単語辞書選択部１０４ｃとして機能し、補助記憶装置１４から一般単語辞書Ｄ１を選択し（Ｓ５０５）、選択した単語辞書を受け付ける。ＣＰＵ１０は、形態素解析部１０５ｃとして機能し、受け付けた単語辞書のそれぞれの単語が、抽出した一文と部分一致するか否かを照合する。ＣＰＵ１０は、一致した単語を単語候補として選択し（Ｓ５０６）、ステップＳ５１１へ進む。

一方、ＣＰＵ１０は、テキスト属性が分かち書きを示していると判別した場合（Ｓ５０４でＹＥＳ）、単語辞書変換部１０７として機能し、補助記憶装置１４から一般単語辞書Ｄ１を読み出し、読み出した一般単語辞書Ｄ１内のそれぞれの単語の平仮名インデックスが、抽出した一文に存在するか否かを文頭から照合する。ＣＰＵ１０は、平仮名インデックスが抽出した一文に存在する単語について、漢字の全部又は一部を仮名にした交書き表記に変換し（Ｓ５０７）、変換した交書きの表記を変換単語辞書Ｄ３に登録するとともに、対応する単語の品詞、読み及びアクセントを一般単語辞書Ｄ１から抽出して変換単語辞書Ｄ３に登録する（Ｓ５０８）。ＣＰＵ１０は、単語辞書選択部１０４として機能し、一般単語辞書Ｄ１及び変換単語辞書Ｄ３を選択する（Ｓ５０９）。さらに、選択した一般単語辞書Ｄ１及び変換単語辞書Ｄ３から、抽出した一文と部分一致する単語を単語候補として選択し（Ｓ５１０）、ステップＳ５１１へ進む。

ＣＰＵ１０は、一般単語辞書Ｄ１で一致した単語を単語辞書とした場合（Ｓ５０６参照）、又は一般単語辞書Ｄ１及び変換単語辞書Ｄ３で一致した単語を選択した場合（Ｓ５１０参照）、形態素解析部１０５ｃとして機能し、選択した単語の最適な組み合わせを決定する形態素解析を実行する（Ｓ５１１）。ＣＰＵ１０は、形態素解析結果出力部１０６ｃとして機能し、実行した形態素解析の結果を主記憶１３へ出力する（Ｓ５１２）。ＣＰＵ１０は、テキストファイル内の全文の処理が完了したか否かを判定し（Ｓ５１３）、全文の処理が完了していないと判定した場合（Ｓ５１３でＮＯ）、ステップＳ５０２へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。

一方、ＣＰＵ１０は、全文の処理が完了したと判定した場合（Ｓ５１３でＹＥＳ）、形態素解析処理を終了する。

このように、実施例４における形態素解析装置にあっては、補助記憶装置１４に一般単語辞書Ｄ１のみを格納しておき、分かち書きのテキストファイルを受け付ける都度該当する単語の表記が含む漢字を交書き表記に変換した変換単語辞書Ｄ３を動的かつ一時的に生成することにより、単語辞書のファイルサイズの膨張を抑えることができる。また、テキストファイルの文章が分かち書きであるか否かを自動的に判別するので、操作者がテキスト属性を入力する必要がなく、操作者の操作負担を軽減させることができる。以上、実施例４について説明した。

実施例５．
上述した実施例１乃至４では、形態素解析装置が漢字の表記、品詞、読み及びアクセントなどが登録された各単語辞書を用いて形態素解析処理を実行する一例を説明した。形態素解析にあっては、テキストファイルの文章内の文字列と部分一致する単語の全てを単語辞書から検出し、検出した単語の中から、品詞の繋がり、又は文字数の多い単語を優先するなどの法則を用いて尤もらしい単語の組み合わせを決定する。分かち書きを解析する場合には「付属語及び自立語の間に空白が存在する」という特例を設けることにより、解析精度を向上させることができる。そこで、実施の形態１における形態素解析装置は、品詞の繋がり具合を規定した評価値表を、予め一般文書用と分かち書き用の２種類準備し、準備した評価値表を適宜選択して形態素解析を行うようにしてもよい。実施例５では、かかる機能を有する形態素解析装置について説明する。

図１６は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例５における補助記憶装置１４は、評価値表の記憶手段として、一般文章用の単語連結評価値表Ｄ４及び分かち書き用の単語連結評価値表Ｄ５を格納する。また、補助記憶装置１４は、一般単語辞書Ｄ１（図示せず）を格納する。

図１７は単語連結評価値表の登録内容を示す模式図である。一般文章用の単語連結評価値表Ｄ４及び分かち書き用の単語連結評価値表Ｄ５は、前方単語の品詞を縦軸方向に並べ、後方単語の品詞を横軸方向に並べた二次元座標平面からなり、各品詞が交わる欄に、２つの品詞が連結して自然言語をなす確率を示す評価値が登録されている。評価値は、操作者の経験又は統計的に求められたものが採用される。従って、評価値は、一意ではなく異なる値付けがなされる。

一般的な文章にあっては、助詞「を」の後に動詞が続く確率が非常に高いので、一般文章用の単語連結評価値表Ｄ４には、両品詞が交わる欄に高い評価値（例えば、１０００）が登録されている（図１７（ａ）参照）。また、助詞「を」の後に空白が続く確率が低いので、両品詞が交わる欄には、低い評価値（例えば、１０）が登録されている。その他、助詞「は」の後には読点又は次文節が続く確率が高く、且つ文節の先頭に名詞がくる確率が非常に高いので、助詞「は」及び名詞が交わる欄には、高い評価値が登録されている。また、助詞「は」の後に空白が続く確率が低いので、該当欄には、低い評価値が登録されている。

これに対して、分かち書き文章においては、文節毎に空白によって区切られるため、文節の後には空白が続き、文節の終端には助詞「を」がくる。従って、助詞「を」及び空白が交わる欄には、高い評価値（例えば、１００００）が登録されている（図１７（ｂ）参照）。また、助詞「を」及び動詞が交わる欄には、低い評価値（例えば、０）が登録されている。

実施例５におけるＣＰＵ１０は、主記憶１３から出力されたテキストファイルを受け付けるテキスト読込部１０１ｄと、主記憶１３から出力されたテキスト属性情報を受け付けるテキスト属性読込部１０２ｄと、テキスト属性読込部１０２ｄが受け付けたテキスト属性情報に基づいてテキスト読込部１０１ｄが読み込んだテキストファイルの属性を判別するテキスト属性判別部１０３ｄと、テキスト属性判別部１０３ｄが判別したテキストの属性に応じて補助記憶装置１４に格納してある単語連結評価値表のいずれかを選択する単語連結評価値表選択部１０８と、単語連結評価値表選択部１０８が選択した評価値表を用いて、テキスト読込部１０１ｄが読み込んだテキストファイルの文章を形態素解析する形態素解析部１０５ｄと、形態素解析部１０５ｄが実行した形態素解析の結果を生成して主記憶１３へ出力する形態素解析結果出力部１０６ｄとして機能する。

実施例５における形態素解析装置は、補助記憶装置１４に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図１８は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。

形態素解析装置のＣＰＵ１０は、テキスト読込部１０１ｄ及びテキスト属性読込部１０２ｄとして機能し、主記憶１３からテキストファイル及びテキスト属性を受け付ける（Ｓ６０１）。ＣＰＵ１０は、テキスト属性判別部１０３ｄとして機能し、受け付けたテキスト属性が分かち書きを示しているか否かを判別する（Ｓ６０２）。ＣＰＵ１０は、受け付けたテキスト属性が分かち書きを示していないと判別した場合（Ｓ６０２でＮＯ）、単語連結評価値表選択部１０８として機能し、補助記憶装置１４から一般文章用の単語連結評価値表Ｄ４を選択し（Ｓ６０３）、ステップＳ６０５へ進む。

一方、ＣＰＵ１０は、受け付けたテキスト属性が分かち書きと示していると判別した場合（Ｓ６０２でＹＥＳ）、単語連結評価値表選択部１０８として機能し、補助記憶装置１４から分かち書き用の単語連結評価値表Ｄ５を選択し（Ｓ６０４）、選択した単語連結評価値表を受け付け、ステップＳ６０５へ進む。

ＣＰＵ１０は、一般文章用の単語連結評価値表Ｄ４を選択した場合（Ｓ６０３参照）、又は分かち書き用の単語連結評価値表Ｄ５を選択した場合（Ｓ６０４参照）、形態素解析部１０５ｄとして機能し、受け付けたテキストファイルから一文を抽出する（Ｓ６０５）。ＣＰＵ１０は、単語辞書から抽出した一文に部分一致する単語を単語候補として選抜する（Ｓ６０６）。

ＣＰＵ１０は、選択した単語連結評価値表に基づいて形態素解析を実行する（Ｓ６０７）。即ち、ＣＰＵ１０は、単語辞書から抽出した一文に部分一致した単語候補の中から、連結する単語の評価値が最大となるような組み合わせを選択する。なお、ＣＰＵ１０は、一般単語辞書Ｄ１内の単語の表記を用いて単語候補を選抜する。

ＣＰＵ１０は、形態素解析結果出力部１０６ｄとして機能し、実行した形態素解析の結果を主記憶１３へ出力する（Ｓ６０８）。ＣＰＵ１０は、テキストファイル内の全文の処理が完了したか否かを判定し（Ｓ６０９）、全文の処理が完了していないと判定した場合（Ｓ６０９でＮＯ）、ステップＳ６０５へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。

一方、ＣＰＵ１０は、全文の処理が完了したと判定した場合（Ｓ６０９でＹＥＳ）、形態素解析処理を終了する。

このように、実施例５における形態素解析装置にあっては、品詞の繋がり具合を規定した評価値表を、予め一般文書用と分かち書き用の２種類準備し、準備した評価値表を適宜選択して形態素解析を行うことにより、例えば、「付属語及び自立語の間に空白が存在する」という条件のもと、形態素解析の処理を実行することができ、形態素解析の解析精度を向上することができる。以上、実施例５について説明した。

実施例６．
上述した実施例５では、操作者により入力されたテキスト属性に基づいて、テキストファイルの文章が分かち書きであるか否かを判別する一例を説明した。しかし、テキストファイルの形態素解析を多数実行する場合には操作者の負担が増大する。そこで、実施の形態１における形態素解析装置は、これに限定されるものでなく、テキストファイルの文章が分かち書きであるか否かを自動的に判別するようにしてもよい。実施例６では、かかる機能を有する形態素解析装置について説明する。

図１９は本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。実施例６における補助記憶装置１４は、評価値表の記憶手段として、一般文章用の単語連結評価値表Ｄ４及び分かち書き用の単語連結評価値表Ｄ５を格納する。また、補助記憶装置１４は、一般単語辞書Ｄ１（図示せず）を格納する。なお、実施例６における一般文章用の単語連結評価値表Ｄ４及び分かち書き用の単語連結評価値表Ｄ５の登録内容は、実施例５における単語連結評価値表と同様であるから、その説明を省略する。

実施例６におけるＣＰＵ１０は、主記憶１３から出力されたテキストファイルを受け付けるテキスト読込部１０１ｅと、テキスト読込部１０１ｅが受け付けたテキストファイルの属性を自動的に判別するテキスト属性判別部１０３ｅと、テキスト属性判別部１０３ｅが判別したテキストの属性に応じて補助記憶装置１４に格納してある単語連結評価値表のいずれかを選択する単語連結評価値表選択部１０８と、単語連結評価値表選択部１０８が選択した単語連結評価値表を用いて、テキスト読込部１０１ｅが読み込んだテキストファイルの文章を形態素解析する形態素解析部１０５ｅと、形態素解析部１０５ｅが実行した形態素解析の結果を生成して主記憶１３へ出力する形態素解析結果出力部１０６ｅとして機能する。

実施例６における形態素解析装置は、補助記憶装置１４に格納してあるプログラムに従って上述した機能を発揮させることにより、以下の処理を実行する。図２０は本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。

形態素解析装置のＣＰＵ１０は、テキスト読込部１０１ｅとして機能し、主記憶１３からテキストファイルを受け付ける（Ｓ７０１）。ＣＰＵ１０は、テキスト属性判別部１０３ｅとして機能し、受け付けたテキストファイルの属性が分かち書きを示すか否かを判別するテキスト属性判別処理を実行する（Ｓ７０２）。なお、テキスト属性判別処理の手順は、実施例２におけるテキスト属性判別処理と同様であるから、対応するステップに同一番号を付してその説明を省略する。

ＣＰＵ１０は、テキスト属性判別処理の結果、テキスト属性が分かち書きを示しているか否かを判別する（Ｓ７０３）。その結果、ＣＰＵ１０は、テキスト属性が分かち書きを示していないと判別した場合（Ｓ７０３でＮＯ）、単語連結評価値表選択部１０８として機能し、補助記憶装置１４から一般文章用の単語連結評価値表Ｄ４を選択し（Ｓ７０４）、選択した一般文章用の単語連結評価値表Ｄ４を受け付ける。ＣＰＵ１０は、ステップＳ７０６へ進む。

一方、ＣＰＵ１０は、テキスト属性が分かち書きを示していると判別した場合（Ｓ７０３でＹＥＳ）、単語連結評価値表選択部１０８として機能し、補助記憶装置１４から分かち書き用の単語連結評価値表Ｄ５を選択し（Ｓ７０５）、選択した分かち書き用の単語連結用評価値表Ｄ５を受け付ける。ＣＰＵ１０は、ステップＳ７０６へ進む。

ＣＰＵ１０は、一般文章用の単語連結評価値表Ｄ４を選択した場合（Ｓ７０４参照）、又は分かち書き用の単語連結評価値表Ｄ５を選択した場合（Ｓ７０５参照）、形態素解析部１０５ｅとして機能し、受け付けたテキストファイルから一文を抽出する（Ｓ７０６）。ＣＰＵ１０は、単語辞書から抽出した一文に部分一致する単語を単語候補として選抜する（Ｓ７０７）。

ＣＰＵ１０は、選択した単語連結評価値表に基づいて形態素解析を実行する（Ｓ７０８）。即ち、ＣＰＵ１０は、単語辞書から抽出した一文に部分一致した単語候補の中から、連結する単語の評価値が最大となるような組み合わせを選択する。なお、ＣＰＵ１０は、一般単語辞書Ｄ１内の単語の表記を用いて単語候補を選抜する。

ＣＰＵ１０は、形態素解析結果出力部１０６ｅとして機能し、実行した形態素解析の結果を主記憶１３へ出力する（Ｓ７０９）。ＣＰＵ１０は、テキストファイル内の全文の処理が完了したか否かを判定し（Ｓ７１０）、全文の処理が完了していないと判定した場合（Ｓ７１０でＮＯ）、ステップＳ７０６へ戻り、テキストファイルから次の一文を抽出して処理を繰り返す。

一方、ＣＰＵ１０は、全文の処理が完了したと判定した場合（Ｓ７１０でＹＥＳ）、形態素解析処理を終了する。

このように、実施例６における形態素解析装置にあっては、品詞の繋がり具合を規定した評価値表を、予め一般文書用と分かち書き用の２種類準備し、準備した評価値表を適宜選択して形態素解析を行うことにより、例えば、「付属語及び自立語の間に空白が存在する」という条件のもと、形態素解析の処理を実行することができ、形態素解析の解析精度を向上することができる。また、テキストファイルの文章が分かち書きであるか否かを自動的に判別するので、操作者がテキスト属性を入力する必要がなく、操作者の操作負担を軽減させることができる。以上、実施例６について説明した。

実施の形態２．
上述した実施の形態１では、形態素解析装置を有する情報処理装置が汎用コンピュータ又は個人向けコンピュータである一例を説明した。しかし、形態素解析は、音声合成などに広く利用できる。そこで、実施の形態２では、形態素解析装置を有する情報処理装置が利用者の音読練習を支援する装置である場合を説明する。

図２１は本発明の一実施例における形態素解析装置を有する音読練習支援装置の機能構成例を示す機能ブロック図である。音読練習支援装置は、操作及び音読音声などを入力するための入力制御部２１と、生成された合成音声又は指摘事項などを出力するための出力制御部２２と、音読練習に用いる問題用のテキストファイルを格納する読上げテキスト格納部２３と、上述した実施の形態１における形態素解析装置に相当する形態素解析装置２４と、テキストファイルの文章の音素列を生成する音素列生成部２５と、音素列に基づいて合成音声を生成する音声合成部２６と、各音素のパラメータを格納する音響モデル格納部２７と、正解のパラメータとの照合を行う音声照合部２８と、照合結果に応じた指摘事項を作成する指摘事項作成部２９と、これらを制御する主制御部２０とを有する。各部は、バス（図示せず）を介して相互に接続されている。

入力制御部２１は、キーボード、マウス又はマイクなどの入力装置（図示せず）と接続し、入力装置を介して利用者により入力された操作情報、朗読音声などを受け付けて主制御部２０へ出力する。

出力制御部２２は、液晶ディスプレイ、スピーカなどの出力装置（図示せず）と接続し、音読練習支援装置で処理した指摘事項などを出力装置へ出力する。

読上げテキスト格納部２３は、音読練習に用いる問題用のテキストファイルを格納する。読上げテキスト格納部２３は、主制御部２０の指示に従い、格納してあるテキストファイルを読み出して、その文章などを出力装置に画面出力する。図２２は問題表示画面の構成例を示す模式図である。読上げテキスト格納部２３は、例えば、格納してあるテキストファイルから「くまさんはもりにいきました。」という文章を含むテキストファイルを読み出し、図２２のように画面出力する。また、読上げテキスト格納部２３は、主制御部２０の指示に従い、読み出したテキストファイルを形態素解析装置２４へ出力する。なお、音読練習用に用いる問題用のテキストファイルは、新規追加、更新又は削除される。

形態素解析装置２４は、上述した実施の形態１（実施例１乃至６）における形態素解析装置に相当する。なお、形態素解析装置２４の構成及び作用は、実施の形態１における形態素解析装置と同様であるから、「主記憶１３」を「主制御２０」に置換し、「補助記憶装置１４」を「内蔵する記憶領域」に読み替えて、その他の対応する箇所に同一符号を付してその説明を省略する。形態素解析装置２４は、主制御部２０から出力されたテキストファイルを受け付け、受け付けたテキストファイルの属性が分かち書きであるか否かを判別し、判別結果に応じた単語辞書又は単語連結評価値表を読み出し、読み出した単語辞書などを用いて、テキストファイルの文章の形態素解析を実行する。その結果、音読練習支援装置は、分かち書きにされたテキストファイルを問題用に用いる場合であっても、利用者の朗読音声に対して正しい指摘事項を作成して出力することができる。主制御部２０は、形態素解析装置２４から出力された形態素解析の結果を受け付けて音素列生成部２５へ出力する。

音素列生成部２５は、形態素解析の結果に基づいてテキストファイルの文章の音素列情報を生成する。音素列生成部２５は、例えば、上述のテキストファイルについての形態素解析の結果を受け付けた場合、「ｋｕｍａ’ｓａｎｗａ＿ｍｏｒｉｎｉ＿ｉｋｉｍａ’ｓｈｉｔａ」という文字列が生成される。ここで「’」は、アクセントの位置を、「＿」はアクセント句の境界を示している。

音声合成部２６は、音素列生成部２５が生成した音素列情報に従って合成音声を生成する。例えば、利用者が画面（図２２（ａ）参照）上の「せんせいのよみかたをきく」のボタンを押下したとき、音声合成部２６は、主制御部２０の指示に従い、音素列生成部２５が生成した音素列情報を受け付ける。音声合成部２６は、受け付けた音素列情報に基づいて合成音声を生成し、生成した音声合成を出力制御部２２を介して音声出力する。

音響モデル格納部２７は、日本語の各音素の特徴を示す音響パラメータを格納し、主制御部２０の制御に従い、適宜音響パラメータを音声照合部２８へ出力する。

音声照合部２８は、例えば、利用者が画面（図２２（ａ）参照）上の「じぶんでよんでみる」のボタンを押下すると共に、入力装置を介して朗読音声を入力したとき、主制御部２０の制御に従い、朗読音声から音響パラメータを抽出する。また、音声照合部２８は、音素列生成部２５が生成した音素列情報及び音響モデル格納部２７から出力された音響パラメータを受け付け、これらの情報に基づいて正解となる音響パラメータを作成する。また、音声照合部２８は、音読音声の音響パラメータと、作成した正解となる音響パラメータと照合することにより相違点を抽出する。音声照合部２８は、例えば、利用者から「ｋｕｍａ’ｓａｎｈａ」と誤読された朗読音声を受け付けた場合、「ｗａ」とあるべきところ「ｈａ」となっている点を抽出する。また、例えば、利用者により「ｉｋｉ＿ｍａｓｈｉｔａ」と誤読された朗読音声を受け付けた場合、境界が誤っている点を抽出する。音声照合部２８は、照合結果を指摘事項作成部２９へ出力する。

指摘事項作成部２９は、照合結果を受け付け、受け付けた照合結果に基づいて利用者に指摘すべき事項を作成する。指摘事項作成部２９は、例えば、「ｗａ」を「ｈａ」と誤読したことに対して「これは『わ』とよみます。」との指摘事項を作成して画面出力する（図２２（ｂ）参照）。また、指摘事項作成部２９は、例えば、「ｉｋｉ＿ｍａｓｈｉｔａ」と誤読したことに対して「ここできってはいけません。」という指摘事項を作成して画面出力する（図２２（ｂ）参照）。指摘事項の作成は、例えば、多数の指摘事項を予め設定して登録しておき、照合結果に応じた指摘事項を選定するようにしてもよい。また、作成された指摘事項は、画面出力のみならず、音声出力であってもよい。利用者は、指摘事項作成部２９からの指摘事項がなくなるまで、音読練習を繰り返すことができる。

例えば、利用者が画面（図２２（ａ）参照）の「さきにすすむ」のボタンを押下したとき、主制御部２０は、読上げテキスト格納部２３から次の問題用のテキストファイルを読み出して、その文章を画面出力させる。一方、利用者が画面（図２２（ａ）参照）の「まえにもどる」のボタンが押下したとき、主制御部２０は、読上げテキスト格納物２３から前回の問題用のテキストファイルを読み出して、その文章を画面出力させる。以上、実施の形態２について説明した。

上述した実施の形態に関し、更に以下の付記を開示する。

（付記１）自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
単語の表記とその品詞とを対応付けて格納する第１単語辞書記憶手段と、
単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書記憶手段と、
前記判別手段による判別結果に応じて前記第１単語辞書記憶手段及び／又は第２単語記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
を備えることを特徴とする形態素解析装置。

（付記２）前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第１単語辞書記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第１単語辞書記憶手段及び第２単語辞書記憶手段を選択するようにしてあることを特徴とする付記１に記載の形態素解析装置。

（付記３）自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
単語の表記とその品詞とを対応付けて格納する第１単語辞書記憶手段と、
該第１単語辞書記憶手段に記憶してある単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第３単語辞書記憶手段と、
前記判別手段による判別結果に応じて前記第１単語辞書記憶手段及び／又は第３単語辞書記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
を備えることを特徴とする形態素解析装置。

（付記４）前記文章が分かち書きにされていないと前記判別手段が判別した場合、前記選択手段は、第１単語辞書記憶手段を選択し、
前記文章が分かち書きにされていると前記判別手段が判別した場合、
前記第３単語辞書記憶手段は、前記第１単語辞書記憶手段に記憶してある単語の表記を前記交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付け、
前記選択手段は、前記第１単語辞書記憶手段及び第３単語辞書記憶手段を選択するようにしてあることを特徴とする付記３に記載の形態素解析装置。

（付記５）自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率を示す評価値を格納する第１単語連結評価値表記憶手段と、
品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第２単語連結評価値表記憶手段と、
前記判別手段による判別結果に応じて前記第１単語連結評価値表記憶手段及び／又は第２単語連結評価値表記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある評価値に基づいて前記文章の形態素解析を行う解析手段と
を備えることを特徴とする形態素解析装置。

（付記６）前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第１単語連結評価値表記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第１単語連結評価値表記憶手段及び第２単語連結評価値表記憶手段を選択するようにしてあることを特徴とする付記５に記載の形態素解析装置。

（付記７）前記解析手段は、前記第１単語連結評価値表記憶手段及び／又は第２単語連結評価値表記憶手段に記憶してある評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行うようにしてあることを特徴とする付記６に記載の形態素解析装置。

（付記８）前記文章が分かち書きにされているか否かを示す属性情報を受付ける手段を更に備え、
前記判別手段は、受付けた属性情報に基づいて文章が分かち書きにされているか否かを判別するようにしてあることを特徴とする付記１乃至７のいずれかに記載の形態素解析装置。

（付記９）前記判別手段は、
文章において区切られた単語の文字数の平均を算出する手段と、
算出した文字数の平均が所定の閾値未満であるか否かを判定する手段と、
算出した文字数の平均が所定の閾値未満であると判定した場合、前記文章が分かち書きにされていると判別する手段と
を備えることを特徴とする付記１乃至７のいずれかに記載の形態素解析装置。

（付記１０）自然言語の文章を形態素、あるいは一又は複数の形態素からなる単語の列の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第１単語辞書及び／又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書を選択し、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。

（付記１１）前記文章が分かち書きにされていないと判別した場合に前記第１単語辞書を選択し、前記文章が分かち書きにされていると判別した場合に前記第１単語辞書及び第２単語辞書を選択することを特徴とする付記１０に記載の形態素解析方法。

（付記１２）自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第１単語辞書及び／又は前記第１単語辞書内の単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第３単語辞書を選択し、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。

（付記１３）前記文章が分かち書きにされていないと判別した場合に前記第１単語辞書を選択し、前記文章が分かち書きにされていると判別した場合に前記第３単語辞書を作成し、作成した第３単語辞書及び第１単語辞書を選択することを特徴とする付記１２に記載の形態素解析方法。

（付記１４）自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
判別結果に応じて、品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率が示す評価値を格納する第１単語連結評価値表及び／又は品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第２単語連結評価値表を選択し、
選択した単語辞書に格納されている評価値に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。

（付記１５）前記文章が分かち書きにされていないと判別した場合に前記第１単語連結評価値表を選択し、前記文章が分かち書きにされていると判別した場合に前記第１単語連結評価値表及び第２単語連結評価値表を選択することを特徴とする付記１４に記載の形態素解析方法。

（付記１６）前記第１単語連結評価値表及び／又は第２単語連結評価値表に格納されている評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行うことを特徴とする付記１５に記載の形態素解析方法。

（付記１７）前記文章が分かち書きにされているか否かを示す属性情報を受け付け、
受け付けた属性情報に基づいて文章が分かち書きにされているか否かを判別することを特徴とする付記１０乃至１６のいずれかに記載の形態素解析方法。

（付記１８）文章において区切られた単語の文字数の平均を算出し、
算出した文字数の平均が所定の閾値未満であるか否かを判定し、
算出した文字数の平均が所定の閾値未満であると判定した場合、前記文章が分かち書きにされていると判別することを特徴とする付記１０乃至１６のいずれかに記載の形態素解析方法。

（付記１９）コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第１単語辞書及び／又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書を選択させるステップと、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行わせるステップと
をコンピュータに実行させることを特徴とするコンピュータプログラム。

（付記２０）前記文章が分かち書きにされていないと判別した場合に前記第１単語辞書を選択させるステップと、
前記文章が分かち書きにされていると判別した場合に前記第１単語辞書及び第２単語辞書を選択させるステップと
をコンピュータに実行させることを特徴とする付記１９に記載のコンピュータプログラム。

（付記２１）コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第１単語辞書及び／又は前記第１単語辞書内の単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第３単語辞書を選択させるステップと、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行わせるステップと
をコンピュータに実行させることを特徴とするコンピュータプログラム。

（付記２２）前記文章が分かち書きにされていないと判別した場合に前記第１単語辞書を選択させるステップと、
前記文章が分かち書きにされていると判別した場合に前記第３単語辞書を作成し、作成した第３単語辞書及び第１単語辞書を選択させるステップと
をコンピュータに実行させることを特徴とする付記２１に記載のコンピュータプログラム。

（付記２３）コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
判別結果に応じて、品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率が示す評価値を格納する第１単語連結評価値表及び／又は品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第２単語連結評価値表を選択させるステップと、
選択した単語辞書に格納されている評価値に基づいて前記文章の形態素解析を行わせるステップと
をコンピュータに実行させることを特徴とするコンピュータプログラム。

（付記２４）前記文章が分かち書きにされていないと判別した場合に前記第１単語連結評価値表を選択させるステップと、
前記文章が分かち書きにされていると判別した場合に前記第１単語連結評価値表及び第２単語連結評価値表を選択させるステップと
をコンピュータに実行させることを特徴とする付記２３に記載のコンピュータプログラム。

（付記２５）前記第１単語連結評価値表及び／又は第２単語連結評価値表に格納されている評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行わせるステップを
コンピュータに実行させることを特徴とする付記２４に記載のコンピュータプログラム。

（付記２６）前記文章が分かち書きにされているか否かを示す属性情報を受け付け、受け付けた属性情報に基づいて文章が分かち書きにされているか否かを判別させるステップ
をコンピュータに実行させることを特徴とする付記１９乃至２５のいずれかに記載のコンピュータプログラム。

（付記２７）文章において区切られた単語の文字数の平均を算出させるステップと、
算出した文字数の平均が所定の閾値未満であるか否かを判定させるステップと、
算出した文字数の平均が所定の閾値未満であると判定した場合、前記文章が分かち書きにされていると判別させるステップと
をコンピュータに実行させることを特徴とする付記１９乃至２５のいずれかに記載のコンピュータプログラム。

本発明の一実施例における形態素解析装置を有する情報処理装置の構成例を示すブロック図である。本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。単語辞書の登録内容の一例を示す模式図である。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置が実行するテキスト属性判別処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置が実行するテキスト属性判別処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。単語辞書の登録内容の一例を示す模式図である。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。単語連結評価値表の登録内容を示す模式図である。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置の機能構成例を示す機能ブロック図である。本発明の一実施例における形態素解析装置が実行する形態素解析処理の手順を示すフローチャートである。本発明の一実施例における形態素解析装置を有する音読練習支援装置の機能構成例を示す機能ブロック図である。問題表示画面の構成例を示す模式図である。従来の形態素解析装置が用いる単語辞書の登録内容の一例を示す模式図である。

符号の説明

１０ＣＰＵ
１０１テキスト読込部
１０２テキスト属性読込部
１０３テキスト属性判別部
１０４単語辞書選択部
１０５形態素解析部
１０６形態素解析結果出力部
１０７単語辞書変換部
１０８単語連結評価値表選択部
１１外部記憶装置
１２通信制御部
１３主記憶
１４補助記憶装置
１５入力制御部
１６出力制御部
１７バス
２０主制御部
２１入力制御部
２２出力制御部
２３読上げテキスト格納部
２４形態素解析装置
２５音素列生成部
２６音声合成部
２７音響モデル格納部
２８音声照合部
２９指摘事項作成部

Claims

自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
単語の表記とその品詞とを対応付けて格納する第１単語辞書記憶手段と、
単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書記憶手段と、
前記判別手段による判別結果に応じて前記第１単語辞書記憶手段及び／又は第２単語記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
を備えることを特徴とする形態素解析装置。
前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第１単語辞書記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第１単語辞書記憶手段及び第２単語辞書記憶手段を選択するようにしてあることを特徴とする請求項１に記載の形態素解析装置。
自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
単語の表記とその品詞とを対応付けて格納する第１単語辞書記憶手段と、
該第１単語辞書記憶手段に記憶してある単語の表記を、該単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付けて格納する第３単語辞書記憶手段と、
前記判別手段による判別結果に応じて前記第１単語辞書記憶手段及び／又は第３単語辞書記憶手段を選択する選択手段と、
選択した単語辞書記憶手段に記憶してある表記及び品詞に基づいて前記文章の形態素解析を行う手段と
を備えることを特徴とする形態素解析装置。
前記文章が分かち書きにされていないと前記判別手段が判別した場合、前記選択手段は、第１単語辞書記憶手段を選択し、
前記文章が分かち書きにされていると前記判別手段が判別した場合、
前記第３単語辞書記憶手段は、前記第１単語辞書記憶手段に記憶してある単語の表記を前記交書きの表記に変換し、変換した交書きの表記とその品詞とを対応付け、
前記選択手段は、前記第１単語辞書記憶手段及び第３単語辞書記憶手段を選択するようにしてあることを特徴とする請求項３に記載の形態素解析装置。
自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析装置において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別する判別手段と、
品詞毎に分類された単語と該単語と異なる他の単語とが連結して自然言語の文章を成す確率を示す評価値を格納する第１単語連結評価値表記憶手段と、
品詞毎に分類された単語と他の単語とが連結して分かち書きの文章を成す確率を示す評価値を格納する第２単語連結評価値表記憶手段と、
前記判別手段による判別結果に応じて前記第１単語連結評価値表記憶手段及び／又は第２単語連結評価値表記憶手段を選択する選択手段と、
選択した単語連結評価値表記憶手段に記憶してある評価値に基づいて前記文章の形態素解析を行う解析手段と
を備えることを特徴とする形態素解析装置。
前記選択手段は、前記文章が分かち書きにされていないと前記判別手段が判別した場合に前記第１単語連結評価値表記憶手段を選択し、前記文章が分かち書きにされていると前記判別手段が判別した場合に前記第１単語連結評価値表記憶手段及び第２単語連結評価値表記憶手段を選択するようにしてあることを特徴とする請求項５に記載の形態素解析装置。
前記解析手段は、前記第１単語連結評価値表記憶手段及び／又は第２単語連結評価値表記憶手段に記憶してある評価値に基づいて評価値の合計が最大となるよう単語を組み合わせて前記文章の形態素解析を行うようにしてあることを特徴とする請求項６に記載の形態素解析装置。
前記文章が分かち書きにされているか否かを示す属性情報を受付ける手段を更に備え、
前記判別手段は、受付けた属性情報に基づいて文章が分かち書きにされているか否かを判別するようにしてあることを特徴とする請求項１乃至７のいずれかに記載の形態素解析装置。
自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行う形態素解析方法において、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別し、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第１単語辞書及び／又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書を選択し、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行うことを特徴とする形態素解析方法。
コンピュータに、自然言語の文章を形態素の列、あるいは一又は複数の形態素からなる単語の列に分割し、それぞれの品詞を判別する形態素解析を行わせるコンピュータプログラムにおいて、
前記文章が一又は複数の形態素あるいは単語からなる文節毎に分かち書きにされているか否かを判別させるステップと、
判別結果に応じて、単語の表記とその品詞とを対応付けて格納する第１単語辞書及び／又は単語の表記に含まれる漢字の全部又は一部を仮名で表す交書きの表記とその品詞とを対応付けて格納する第２単語辞書を選択させるステップと、
選択した単語辞書に格納されている表記及び品詞に基づいて前記文章の形態素解析を行わせるステップと
をコンピュータに実行させることを特徴とするコンピュータプログラム。