JP2000311168A

JP2000311168A - 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体

Info

Publication number: JP2000311168A
Application number: JP11123178A
Authority: JP
Inventors: Ryuichi Tamano; 隆一玉野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-04-28
Filing date: 1999-04-28
Publication date: 2000-11-07

Abstract

(57)【要約】【課題】単語辞書のすべての単語ネットワークと、分
割される可能性のある単語の全てとを比較することな
く、形態素解析システム用の候補単語ネットワークを高
速に生成する形態素解析システム及びその方法を提供す
る。【解決手段】形態素解析システムは、キーボード等の
入力装置１と、プログラム制御により動作するデータ処
理装置２と、情報を記憶する記憶装置３と、ディスプレ
イ装置や印刷装置等の出力装置４とを含んで構成されて
いる。記憶装置３は、キャッシュ記憶部３１と、辞書記
憶部３２とを備えている。キャッシュ記憶部３１は、単
語ネットワーク生成手段２２で処理された単語ネットワ
ークの中かから、キャッシュ記憶部格納手段２３により
検出された単語ネットワークを逐次格納する。辞書記憶
部３２は、日本語の単語辞書であり、日本語の単語と品
詞情報とをあらかじめ記憶している。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列として入力
された日本語文の形態情報を出力する日本語の形態素解
析システム及びその方法に係わるものである。

【０００２】

【従来の技術】例えば、仮名文字変換や機械翻訳など、
日本語の処理を実行するにあたっては、形態素解析と呼
ばれる処理を行う必要がある。従来、形態素解析は、単
語をキーとしてその語彙情報を記憶した辞書を検索しな
がら、文字列を形態素（意味を持つ最小の単位）に分割
して、個々の形態素に対して形態情報（品詞、活用な
ど）を付加していた。

【０００３】この形態素を解析する形態素解析システム
は、入力の日本語文字列を単語に分解するものである。
この処理において、形態素解析システムは、分割される
可能性のある単語の全ての候補を単語辞書を利用して解
析し、単語間を結んだ単語ネットワークを生成し、その
ネットワークから評価関数を利用して最適な経路を選択
する。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
形態素解析システムは、単語ネットワークを生成する場
合、単語辞書のみを利用していたが、この単語辞書のみ
を利用した解析を行う従来の形態素解析では、単語辞書
のすべての単語ネットワークと、分割される可能性のあ
る単語の全てとを比較するため非常に時間がかかり、解
析性能が遅くなるという問題点がある。

【０００５】本発明はこのような背景の下になされたも
ので、単語辞書のすべての単語ネットワークと、分割さ
れる可能性のある単語の全てとを比較することなく、形
態素解析システム用の候補単語ネットワークを高速に生
成する形態素解析システム及びその方法を提供する事に
ある。

【０００６】

【課題を解決するための手段】請求項１記載の発明は、
入力された文字列を単語に分割する形態素解析システム
において、単語及び品詞情報を記憶している辞書記憶部
と、この単語記憶部を検索し、前記文字列を単語に分割
し、単語ネットワークを生成する単語ネットワーク生成
手段と、この単語ネットワーク生成手段により生成され
た単語ネットワークから、部分単語ネットワークを検出
し、キャッシュ記憶部へ格納するキャッシュ記憶格納手
段とを具備することを特徴とする。

【０００７】請求項２記載の発明は、請求項１記載の形
態素解析システムにおいて、入力される文字列を単語に
分解するとき、既に解析された単語ネットワークが前記
キャッシュ記憶部にある場合、このキャッシュ記憶部か
ら取得し、解析結果の単語とするキャッシュ記憶部検索
手段を具備することを特徴とする。

【０００８】請求項３記載の発明は、請求項１または請
求項２記載の形態素解析システムにおいて、キャッシュ
記憶格納手段が入力された文字列を単語に分解した後、
前記単語ネットワークの１単語に収束する部分を検出
し、この収束する部分で入力文字列を区切り、部分単語
ネットワークを構成し、各部分単語ネットワークを前記
キャッシュ記憶部に格納することを特徴とする。

【０００９】請求項４記載の発明は、において、入力さ
れた文字列を単語に分割する形態素解析方法において、
単語及び品詞情報を辞書記憶部へ記憶させる辞書記憶過
程と、この単語記憶部を検索し、前記文字列を単語に分
割し、単語ネットワークを生成する単語ネットワーク生
成過程と、この単語ネットワーク生成過程により生成さ
れた単語ネットワークから、部分単語ネットワークを検
出し、キャッシュ記憶部へ格納するキャッシュ記憶格納
過程とを有することを特徴とする。

【００１０】請求項５記載の発明は、請求項４記載の形
態素解析方法において、入力される文字列を単語に分解
するとき、既に解析された単語ネットワークが前記キャ
ッシュ記憶部にある場合、このキャッシュ記憶部から取
得し、解析結果の単語とするキャッシュ記憶部検索過程
を有することを特徴とする。

【００１１】請求項６記載の発明は、請求項４または請
求項５記載の形態素解析システムにおいて、キャッシュ
記憶格納過程が入力された文字列を単語に分解した後、
前記単語ネットワークの１単語に収束する部分を検出
し、この収束する部分で入力文字列を区切り、部分単語
ネットワークを構成し、各部分単語ネットワークを前記
キャッシュ記憶部に格納することを特徴とする。

【００１２】請求項７記載の発明は、入力された文字列
を単語に分割する処理をコンピュータに行わせる形態素
解析プログラムを記録した記録媒体において、単語及び
品詞情報を辞書記憶部へ記憶させる辞書記憶処理と、こ
の単語記憶部を検索し、前記文字列を単語に分割し、単
語ネットワークを生成する単語ネットワーク生成処理
と、この単語ネットワーク生成処理により生成された単
語ネットワークから、部分単語ネットワークを検出し、
キャッシュ記憶部へ格納するキャッシュ記憶格納処理と
を有することを特徴とする。

【００１３】請求項８記載の発明は、請求項７記載の形
態解析プログラムを記録した記録媒体において、入力さ
れる文字列を単語に分解するとき、既に解析された単語
ネットワークが前記キャッシュ記憶部にある場合、この
キャッシュ記憶部から取得し、解析結果の単語とするキ
ャッシュ記憶部検索処理を有することを特徴とする。

【００１４】請求項９記載の発明は、請求項７または請
求項８記載の形態解析プログラムを記録した記録媒体に
おいて、キャッシュ記憶格納処理が入力された文字列を
単語に分解した後、前記単語ネットワークの１単語に収
束する部分を検出し、この収束する部分で入力文字列を
区切り、部分単語ネットワークを構成し、各部分単語ネ
ットワークを前記キャッシュ記憶部に格納することを特
徴とする。

【００１５】本発明は、入力された日本語文字列を単語
に分割する形態素解析システムにおいて候補ネットワー
クを生成する場合に、単語に分割する性能を向上する構
成を提供するものである。図１において、キャッシュ記
憶部３１は、以前に単語ネットワーク生成手段２２で処
理された単語ネットワークからキャッシュ記憶部格納手
段２３において検出された部分単語ネットワークを記憶
している。辞書記憶部３２は日本語の単語辞書であり、
日本語の単語と品詞情報を記憶している。

【００１６】キャッシュ記憶部検索手段２１は、入力装
置１から単語ネットワーク生成手段２２を通して日本語
入力文字列を受け取る。例えば "東京都の人口" という
文字列が与えられたとする。キャッシュ記憶部検索手段
２１は、入力文字列の先頭文字で始まり入力文字列に部
分的に一致するキャッシュ記憶部３１の中の文字列から
最も長い文字列を検索し、見つかった場合はその単語ネ
ットワークを取り出し解析結果とする。

【００１７】例えば "東京都"という文字列に対する単
語ネットワーク（各単語の接続関係）がキャッシュ記憶
部３１の中に格納されている場合、単語ネットワーク生
成手段２２で入力文字列を解析する前に、キャッシュ記
憶部検索手段２１は、キャッシュ記憶部３１から入力文
字列に対応する単語ネットワークを取得することがで
き、"東京都"という文字列に対する解析を行わずに済ま
すことができる。

【００１８】一方、キャッシュ記憶部３１に一致する文
字列が存在しない場合は、単語ネットワーク生成手段２
２が辞書記憶部３２を検索して一致する単語を取り出し
解析を行いながら単語ネットワークを生成する。そし
て、キャッシュ記憶部格納手段２３では解析された単語
ネットワークにおいて部分単語ネットワークを検出しキ
ャッシュ記憶部３１に登録する。

【００１９】入力文字列から解析された単語ネットワー
クは、出力装置４に出力される。このようにして、形態
素解析システムの候補ネットワークを構成する処理にお
いて、すでに解析された単語ネットワークをキャッシュ
記憶部３１に格納する。そして、入力文字列に対応する
単語ネットワークとして、キャッシュ記憶部３１に解析
結果が存在する場合は、その解析結果を利用することに
より、入力文字列に対する形態素解析の性能向上を可能
とする。

【００２０】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。図１は本発明の一実施形態に
よる形態素解析システムの構成を示すブロック図であ
る。この図において、一実施形態による形態素解析シス
テムは、キーボード等の入力装置１と、プログラム制御
により動作するデータ処理装置２と、情報を記憶する記
憶装置３と、ディスプレイ装置や印刷装置等の出力装置
４とを含んで構成されている。

【００２１】記憶装置３は、キャッシュ記憶部３１と、
辞書記憶部３２とを備えている。キャッシュ記憶部３１
は、単語ネットワーク生成手段２２で処理された単語ネ
ットワークの中かから、キャッシュ記憶部格納手段２３
により検出された単語ネットワークを逐次格納する。辞
書記憶部３２は、日本語の単語辞書であり、日本語の単
語と品詞情報とをあらかじめ記憶している。

【００２２】データ処理装置２は、キャッシュ記憶部検
索手段２１と、単語ネットワーク生成手段２２と、キャ
ッシュ記憶部格納手段２３とを備えている。キャッシュ
記憶部検索手段２１は、単語ネットワーク生成手段２２
を介して得られた入力文字列と、キャッシュ記憶部３１
に格納された単語ネットワークとを照合し、照合の結果
が一致した場合にキャッシュ記憶部３１から単語ネット
ワークを取り出し単語分割の解析結果とする。

【００２３】単語ネットワーク生成手段２２は、辞書記
憶部３２を検索し、入力手段１から入力される入力文字
列を単語に分割し、単語ネットワークを生成する。キャ
ッシュ記憶部格納手段２３は単語ネットワーク生成手段
２２により生成された単語ネットワークより部分単語ネ
ットワークを検出し、キャッシュ記憶部３１に格納す
る。ここで、部分単語ネットワークとは、単語ネットワ
ークにおいて、ネットワークの枝が一単語に収束する部
分で分割した各単語ネットワークである。

【００２４】次に、図１および図２を参照し、一実施形
態の動作例を説明する。図２は、一実施形態による形態
素解析システムの動作例を示すフローチャートである。
入力装置１は、入力される入力文字列を、単語ネットワ
ーク生成手段２２に供給する。このとき、キャッシュ記
憶部３１には、既に解析された文字列に対する単語ネッ
トワークが格納されているとする。また、辞書記憶部３
２には、日本語の単語と品詞情報とが格納されている。

【００２５】ステップＡ１において、単語ネットワーク
生成手段２２には、Node集合とNew_node集合とが保持さ
れている。ここで、Node集合には、初期状態において
「head」という「Node」を含んでいる。ここで、「hea
d」は、どのような単語とも接続される。

【００２６】次に、ステップＡ２において、単語ネット
ワーク生成手段２２は、Node集合が空かどうかの判定を
行う。そして、単語ネットワーク生成手段２２は、Node
集合が空でないと判定した場合、処理をステップＡ３へ
進める。

【００２７】次に、ステップＡ３において、単語ネット
ワーク生成手段２２は、Node集合を空でないと判定した
場合、New_node集合を空集合に初期化する。そして、単
語ネットワーク生成手段２２は、処理をステップＡ４へ
進める。

【００２８】次に、ステップＡ４において、キャッシュ
記憶部検索手段２１は、Node集合の各「Node」につい
て、後続する入力文字列と一致するキャッシュ記憶部３
１上の単語ネットワークの検索を行う。

【００２９】次に、ステップＡ５において、キャッシュ
記憶部検索手段２１は、後続する入力文字列と、照合の
結果一致する単語ネットワークのデータがキャッシュ記
憶部３１に存在するか否かの判定を行う。そして、キャ
ッシュ記憶部検索手段２１は、照合の結果一致する単語
ネットワークのデータがキャッシュ記憶部３１に存在す
ると判定した場合、処理をステップＡ６へ進める。

【００３０】次に、ステップＡ６において、キャッシュ
記憶部検索手段２１は、照合の結果一致する最も長い単
語ネットワークをキャッシュ記憶部３１から取得し、取
得した単語ネットワークの最左端「Node」と「head」の
「Node」とを接続し、単語ネットワークの最右端「Nod
e」を「New_node集合」に追加する。そして、キャッシ
ュ記憶部検索手段２１は、処理をステップＡ７へ進め
る。

【００３１】次に、ステップＡ７において、単語ネット
ワーク生成手段２２は、取得した単語ネットワークの文
字列と後方一致し、後続する入力文字列に照合の結果一
致する単語を辞書記憶部３２から検索する。

【００３２】次に、ステップＡ８において、単語ネット
ワーク生成手段２２は、後続する入力文字列に照合の結
果一致する単語が辞書記憶部３２に存在するか否かの判
定を行う。そして、単語ネットワーク生成手段２２は、
後続する入力文字列に照合の結果一致する単語が辞書記
憶部３２に存在すると判定した場合、処理をステップＡ
９へ進める。

【００３３】次に、ステップＡ９において、単語ネット
ワーク生成手段２２は、後続する入力文字列に照合の結
果一致する単語が辞書記憶部３２に存在すると判定した
場合、単語ネットワークの後方一致する部分を除いた部
分を「親Node」とし、照合の結果一致した単語を「子No
de」として接続し、「子Node」を「New_node」集合に追
加する。そして、単語ネットワーク生成手段２２は、処
理をステップＡ１５へ進める。

【００３４】一方、ステップＡ７において、後続する入
力文字列に照合の結果一致する単語が辞書記憶部３２に
存在しないと判定した場合、処理をステップＡ１５へ進
める。

【００３５】次に、ステップＡ１５において、単語ネッ
トワーク生成手段２２は、New_node集合をnode集合に置
換する。

【００３６】また、ステップＡ５において、キャッシュ
記憶部検索手段２１は、照合するデータが存在しない場
合、処理をステップＡ１０へ進める。

【００３７】次に、ステップＡ１０において、単語ネッ
トワーク生成手段２２は、各Nodeについて後続する入力
文字列と一致する単語を辞書記憶部３２を検索する。

【００３８】次に、ステップＡ１１において、単語ネッ
トワーク生成手段２２は、各Nodeについて後続する入力
文字列に対して、辞書記憶部３２に照合の結果一致する
単語が存在するか否かの判定を行う。この判定の結果、
単語ネットワーク生成手段２２は、各Nodeについて後続
する入力文字列に対して、辞書記憶部３２に照合の結果
一致する単語が存在しない場合、処理をステップＡ１５
へ進める。一方、単語ネットワーク生成手段２２は、各
Nodeについて後続する入力文字列に対して、辞書記憶部
３２に照合の結果一致する単語が存在する場合、処理を
ステップＡ１２へ進める。

【００３９】次に、ステップＡ１２において、単語ネッ
トワーク生成手段２２は、ステップＡ１１において辞書
記憶部３２に照合の結果一致する単語が存在すると判定
された場合、照合した単語を「子Node」として「head」
の「node」と接続する。

【００４０】次に、ステップＡ１３において、単語ネッ
トワーク生成手段２２は、入力文字列に対して「子nod
e」が他に「親Node」を持つか否かの判定を行う。この
判定の結果、単語ネットワーク生成手段２２は、入力文
字列が他に「親Node」を持っていると判定した場合、処
理をステップＡ１５へ進める。

【００４１】次に、ステップＡ１５において、単語ネッ
トワーク生成手段２２は、入力文字列が他に「親Node」
を持っていると判定した場合、「New_node集合」を「no
de集合」へ置換する。

【００４２】一方、ステップＡ１３において、単語ネッ
トワーク生成手段２２は、入力文字列が他に「親Node」
を持っていないと判定した場合、処理をステップＡ１４
へ進める。

【００４３】次に、ステップＡ１４において、単語ネッ
トワーク生成手段２２は、入力文字列が他に「親Node」
を持っていないと判定した場合、「子Node」を「New_no
de集合」に追加した後、処理をステップＡ１５へ進め
る。

【００４４】また、ステップＡ２において、単語ネット
ワーク生成手段２２は、「Node集合」が空であると判定
した場合、処理をステップＡ１６へ進める。

【００４５】次に、ステップＡ１６において、単語ネッ
トワーク生成手段２２は、解析している入力文字列が文
末か否かの判定を行う。そして、単語ネットワーク生成
手段２２は、解析している入力文字列が文末であると判
定した場合、処理をステップＡ１７へ進める。

【００４６】次に、ステップＡ１７において、キャッシ
ュ記憶格納手段２３は、文末と判定された（一文の解析
終了が検出された）場合、入力文字列を解析した単語ネ
ットワークから、nodeの接続が収束する部分を検出し、
その単語で単語ネットワークを分割し、分割された結果
それぞれを部分単語ネットワークとしてキャッシュ記憶
部３１に格納する。

【００４７】一方、ステップＡ１６において、単語ネッ
トワーク生成手段２２は、解析している入力文字列が文
末でないと判定した場合、処理をステップＡ１８へ進め
る。

【００４８】次に、ステップＡ１８において、単語ネッ
トワーク生成手段２２は、入力文字列の次の文字を未登
録単語とし、「New_node集合」に追加し、処理をステッ
プＡ１５へ進める。

【００４９】次に、図１，図２及び図３を用いて具体的
な応用例を用いて説明する。図３は、入力される"東京
都市計画の書籍" という日本語文字列の単語ネットワー
クを示す図である。キャッシュ記憶部３１には、既に解
析された "東京都"及び"東京"という文字列に対する単
語ネットワークが格納されているとする。また、辞書記
憶部３２には "東京都","東京", "東", "京都", "京",
"都", "都市", "市", "京都市", "都市計画","計画",
"の", "書籍", "書", "籍" が登録されているとする。

【００５０】例えば、入力文字列が"東京都市計画の書
籍" という日本語文字列の場合、キャッシュ記憶部３１
上に既に"東京都", "東京"という２つの文字列に対する
単語ネットワークが存在し、"東京都" は "東京都" ,"
東京-都" ,"東-京-都", "東-京都" という単語の分割で
構成され、"東京" は "東京" , "東-京" という単語の
分割で構成される場合、ステップＡ６において、最も長
い "東京都" という単語ネットワークが照合される。

【００５１】そして、最左端「Node」である "東京都",
"東京", "東" が「親Node」である「head」と接続さ
れ、最右端「Node」である "東京都" "京都", "都" と
が「New_node集合」に追加される。また、単語ネットワ
ーク全体の文字列 "東京都"に後方一致し、後続する入
力文字列に照合する単語が辞書記憶部３２から検索さ
れ、「New_node集合」に登録される。この場合 "京都
市", "都市", "都市計画" が登録される。この時点の
「New_node集合」は、"東京都", "京都", "都", "京都
市", "都市", "都市計画"である。

【００５２】次に、単語ネットワーク生成手段２２は、
この「New_node集合」を「node集合」に置換し、「Node
集合」が空でないため、「New_node集合」を空にして処
理を継続する。この状態では、「Node集合」の各「Nod
e」について後続する入力文字列と一致するキャッシュ
記憶部３１上の単語ネットワークのデータは存在しない
ので、単語ネットワーク生成手段２２は、辞書記憶部３
２から単語を検索することになる。

【００５３】そして、まず、単語ネットワーク生成手段
２２は、"東京都" に接続する "市"が「New_node集合」
に追加され、「親Node」の "東京都" と接続関係でむす
ばれる。そして、単語ネットワーク生成手段２２によ
り、"京都","都", にも "市"が接続される構成である
が、"市" は既に「親Node」を持っているため、「New_n
ode集合」には追加されない。

【００５４】同様に、単語ネットワーク生成手段２２
は、"計画", "の" を「New_node集合」に追加する。こ
れと同様の処理を繰り返し、文末まで到達すると図３に
示すような"東京都市計画の書籍" に対する「Node」ネ
ットワークが作成される。

【００５５】また、"書籍" という単語が辞書記憶部３
２に登録されていない場合は、単語ネットワーク生成手
段２２が未登録語として処理し、"書", "籍" という１
文字単位の単語として解析される。そして、文末まで解
析が終わると、単語ネットワーク生成手段２２は、解析
された単語ネットワークに対して単語間の接続が１つの
単語に収束する部分を検出し、収束する単語間の部分単
語ネットワークをキャッシュ記憶部３１に格納する。

【００５６】このとき、"東京都市計画の書籍"という文
に対しては、単語"の"において接続が収束しており、そ
の前後の "東京都市計画", "書籍" の単語ネットワーク
がキャッシュ記憶部３１に登録される。

【００５７】上述したように、一実施形態の形態素解析
システムによれば、既に解析され単語に分解された情報
を単語ネットワークとしてキャッシュ記憶部３１に格納
し、キャッシュ記憶部３１に解析結果が存在する場合に
は、キャッシュ記憶部３１上の解析結果を用いることに
より、単語分割するときの辞書記憶部３２のアクセス回
数を削減し解析時間を短縮することができるため、日本
語文字列の形態素解析を行うとき、必要な単語の候補ネ
ットワークを生成する場合、解析の性能（速度）が向上
する。

【００５８】以上、本発明の一実施形態を図面を参照し
て詳述してきたが、具体的な構成はこの実施形態に限ら
れるものではなく、本発明の要旨を逸脱しない範囲の設
計変更等があっても本発明に含まれる。例えば、図４に
示す第２の実施形態による形態素解析システムは、デー
タ処理装置５が、図１で示された一実施形態におけるデ
ータ処理装置２の構成に加え、キャッシュ記憶部制御手
段５１を有し、記憶装置３Ａが二次キャッシュ記憶部３
３を有する点で異なる。

【００５９】キャッシュ記憶部３１がメモリで構成され
ている場合、大容量を確保するのが難しいため、ディス
ク装置で構成される二次キャッシュ記憶部３３を搭載す
る。また、キャッシュ記憶部制御手段５１は、キャッシ
ュ記憶部３１上からのデータの取得、格納を制御してお
り、キャッシュ記憶部３１にキャッシュ記憶部格納手段
２３が単語ネットワークを格納する場合、キャッシュ記
憶部３１に空き領域があれば、その空き領域に格納し、
空き領域がない場合、使用頻度の少ない順に単語ネット
ワークを二次キャッシュ記憶部３３へ移動させ、単語ネ
ットワークを格納する。

【００６０】さらに、キャッシュ記憶部検索手段２１が
単語ネットワークを検索する場合、単語ネットワークが
キャッシュ記憶部３１に存在する場合はキャッシュ記憶
部３１から取得し、存在しない場合は二次キャッシュ記
憶部３３を検索し、二次キャッシュ記憶部３３に対応す
る単語ネットワークが存在すると、この単語ネットワー
クをキャッシュ記憶部３１へ移動させ、必要な単語ネッ
トワークを取得する。このとき、キャッシュ記憶部３１
に空き領域がない場合は、使用頻度の少ない順に単語ネ
ットワークを二次キャッシュ記憶部３３へ移動させる。

【００６１】上述したように、第２の実施形態の形態素
解析システムによれば、既に解析され単語に分解された
情報を単語ネットワークとしてキャッシュ記憶部３１ま
たは二次キャッシュ記憶部３３に格納し、キャッシュ記
憶部３１または二次キャッシュ記憶部３３に解析結果が
存在する場合には、キャッシュ記憶部３１または二次キ
ャッシュ記憶部３３上の解析結果を用いることにより、
単語分割するときの辞書記憶部３２のアクセス回数を削
減し、解析時間を短縮することができるため、日本語文
字列の形態素解析を行うとき、必要な単語の候補ネット
ワークを生成する場合、解析の性能（速度）が向上す
る。

【００６２】また、図２に示す各ステップを実現するた
めのプログラムをコンピュータ読み取り可能な記録媒体
に記録して、この記録媒体に記録されたプログラムをコ
ンピュータシステムに読み込ませ、実行することにより
図形表示処理を行ってもよい。なお、ここでいう「コン
ピュータシステム」とは、ＯＳや周辺機器等のハードウ
ェアを含むものとする。また、「コンピュータ読み取り
可能な記録媒体」とは、フロッピーディスク、光磁気デ
ィスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可般媒体、コンピュ
ータシステムに内蔵されるハードディスク等の記憶装置
のことをいう。

【００６３】さらに「コンピュータ読み取り可能な記録
媒体」とは、インターネット等のネットワークや電話回
線等の通信回線を介してプログラムを送信する場合の通
信線のように、短時間の間、動的にプログラムを保持す
るもの、その場合のサーバやクライアントとなるコンピ
ュータシステム内部の揮発性メモリのように、一定時間
プログラムを保持しているものも含むものとする。また
上記プログラムは、前述した機能の一部を実現するため
のものであっても良く、さらに前述した機能をコンピュ
ータシステムにすでに記録されているプログラムとの組
み合わせで実現できるものであっても良い。

【００６４】

【発明の効果】本発明によれば、入力された文字列を単
語に分割する形態素解析システムにおいて、単語及び品
詞情報を記憶している辞書記憶部と、この単語記憶手段
を検索し、前記文字列を単語に分割し、単語ネットワー
クを生成する単語ネットワーク生成手段と、この単語ネ
ットワーク生成手段により生成された単語ネットワーク
から、部分単語ネットワークを検出し、キャッシュ記憶
部へ格納するキャッシュ記憶格納手段とを具備するた
め、既に解析され単語に分解された情報を単語ネットワ
ークとしてキャッシュ記憶部に格納し、キャッシュ記憶
部に解析結果が存在する場合には、キャッシュ記憶部上
の解析結果を用いることにより、単語分割するときの辞
書記憶部のアクセス回数を削減し解析時間を短縮するこ
とができるため、日本語文字列の形態素解析を行うと
き、必要な単語の候補ネットワークを生成する場合、解
析の性能（速度）が向上する。

【図面の簡単な説明】

【図１】本発明の一実施形態による形態素解析システ
ムの構成を示すブロック図である。

【図２】図１に示す形態素解析システムの動作例を説
明するフローチャートである。

【図３】入力される"東京都市計画の書籍" という日
本語文字列の単語ネットワークを示す図である

【図４】本発明の第２の実施形態による形態素解析シ
ステムの構成を示すブロック図である。

【符号の説明】

１入力装置２、５データ処理装置３、３Ａ記憶装置４出力装置２１キャッシュ記憶部検索手段２２単語ネットワーク生成手段２３キャッシュ記憶部格納手段３１キャッシュ記憶部３２辞書記憶部３３二次キャッシュ記憶部

Claims

【特許請求の範囲】

【請求項１】入力された文字列を単語に分割する形態
素解析システムにおいて、単語及び品詞情報を記憶している辞書記憶部と、この単語記憶部を検索し、前記文字列を単語に分割し、
単語ネットワークを生成する単語ネットワーク生成手段
と、この単語ネットワーク生成手段により生成された単語ネ
ットワークから、部分単語ネットワークを検出し、キャ
ッシュ記憶部へ格納するキャッシュ記憶格納手段とを具
備することを特徴とする形態素解析システム。
【請求項２】入力される文字列を単語に分解すると
き、既に解析された単語ネットワークが前記キャッシュ
記憶部にある場合、このキャッシュ記憶部から取得し、
解析結果の単語とするキャッシュ記憶部検索手段を具備
することを特徴とする請求項１記載の形態素解析システ
ム。
【請求項３】キャッシュ記憶格納手段が入力された文
字列を単語に分解した後、前記単語ネットワークの１単
語に収束する部分を検出し、この収束する部分で入力文
字列を区切り、部分単語ネットワークを構成し、各部分
単語ネットワークを前記キャッシュ記憶部に格納するこ
とを特徴とする請求項１または請求項２記載の形態素解
析システム。
【請求項４】入力された文字列を単語に分割する形態
素解析方法において、単語及び品詞情報を辞書記憶部へ記憶させる辞書記憶過
程と、この単語記憶部を検索し、前記文字列を単語に分割し、
単語ネットワークを生成する単語ネットワーク生成過程
と、この単語ネットワーク生成過程により生成された単語ネ
ットワークから、部分単語ネットワークを検出し、キャ
ッシュ記憶部へ格納するキャッシュ記憶格納過程とを有
することを特徴とする形態素解析方法。
【請求項５】入力される文字列を単語に分解すると
き、既に解析された単語ネットワークが前記キャッシュ
記憶部にある場合、このキャッシュ記憶部から取得し、
解析結果の単語とするキャッシュ記憶部検索過程を有す
ることを特徴とする請求項４記載の形態素解析方法。
【請求項６】キャッシュ記憶格納過程が入力された文
字列を単語に分解した後、前記単語ネットワークの１単
語に収束する部分を検出し、この収束する部分で入力文
字列を区切り、部分単語ネットワークを構成し、各部分
単語ネットワークを前記キャッシュ記憶部に格納するこ
とを特徴とする請求項４または請求項５記載の形態素解
析システム。
【請求項７】入力された文字列を単語に分割する処理
をコンピュータに行わせる形態素解析プログラムを記録
した記録媒体において、単語及び品詞情報を辞書記憶部へ記憶させる辞書記憶処
理と、この単語記憶部を検索し、前記文字列を単語に分割し、
単語ネットワークを生成する単語ネットワーク生成処理
と、この単語ネットワーク生成処理により生成された単語ネ
ットワークから、部分単語ネットワークを検出し、キャ
ッシュ記憶部へ格納するキャッシュ記憶格納処理とをコ
ンピュータに行わせることを特徴とする形態解析プログ
ラムを記録した記録媒体。
【請求項８】入力される文字列を単語に分解すると
き、既に解析された単語ネットワークが前記キャッシュ
記憶部にある場合、このキャッシュ記憶部から取得し、
解析結果の単語とするキャッシュ記憶部検索処理を有す
ることを特徴とする請求項７記載の形態解析プログラム
を記録した記録媒体。
【請求項９】キャッシュ記憶格納処理が入力された文
字列を単語に分解した後、前記単語ネットワークの１単
語に収束する部分を検出し、この収束する部分で入力文
字列を区切り、部分単語ネットワークを構成し、各部分
単語ネットワークを前記キャッシュ記憶部に格納するこ
とを特徴とする請求項７または請求項８記載の形態解析
プログラムを記録した記録媒体。