JP2000311168A - 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体 - Google Patents

形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体

Info

Publication number
JP2000311168A
JP2000311168A JP11123178A JP12317899A JP2000311168A JP 2000311168 A JP2000311168 A JP 2000311168A JP 11123178 A JP11123178 A JP 11123178A JP 12317899 A JP12317899 A JP 12317899A JP 2000311168 A JP2000311168 A JP 2000311168A
Authority
JP
Japan
Prior art keywords
word
storage unit
word network
cache storage
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11123178A
Other languages
English (en)
Inventor
Ryuichi Tamano
隆一 玉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11123178A priority Critical patent/JP2000311168A/ja
Publication of JP2000311168A publication Critical patent/JP2000311168A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 単語辞書のすべての単語ネットワークと、分
割される可能性のある単語の全てとを比較することな
く、形態素解析システム用の候補単語ネットワークを高
速に生成する形態素解析システム及びその方法を提供す
る。 【解決手段】 形態素解析システムは、キーボード等の
入力装置1と、プログラム制御により動作するデータ処
理装置2と、情報を記憶する記憶装置3と、ディスプレ
イ装置や印刷装置等の出力装置4とを含んで構成されて
いる。記憶装置3は、キャッシュ記憶部31と、辞書記
憶部32とを備えている。キャッシュ記憶部31は、単
語ネットワーク生成手段22で処理された単語ネットワ
ークの中かから、キャッシュ記憶部格納手段23により
検出された単語ネットワークを逐次格納する。辞書記憶
部32は、日本語の単語辞書であり、日本語の単語と品
詞情報とをあらかじめ記憶している。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列として入力
された日本語文の形態情報を出力する日本語の形態素解
析システム及びその方法に係わるものである。
【0002】
【従来の技術】例えば、仮名文字変換や機械翻訳など、
日本語の処理を実行するにあたっては、形態素解析と呼
ばれる処理を行う必要がある。従来、形態素解析は、単
語をキーとしてその語彙情報を記憶した辞書を検索しな
がら、文字列を形態素(意味を持つ最小の単位)に分割
して、個々の形態素に対して形態情報(品詞、活用な
ど)を付加していた。
【0003】この形態素を解析する形態素解析システム
は、入力の日本語文字列を単語に分解するものである。
この処理において、形態素解析システムは、分割される
可能性のある単語の全ての候補を単語辞書を利用して解
析し、単語間を結んだ単語ネットワークを生成し、その
ネットワークから評価関数を利用して最適な経路を選択
する。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
形態素解析システムは、単語ネットワークを生成する場
合、単語辞書のみを利用していたが、この単語辞書のみ
を利用した解析を行う従来の形態素解析では、単語辞書
のすべての単語ネットワークと、分割される可能性のあ
る単語の全てとを比較するため非常に時間がかかり、解
析性能が遅くなるという問題点がある。
【0005】本発明はこのような背景の下になされたも
ので、単語辞書のすべての単語ネットワークと、分割さ
れる可能性のある単語の全てとを比較することなく、形
態素解析システム用の候補単語ネットワークを高速に生
成する形態素解析システム及びその方法を提供する事に
ある。
【0006】
【課題を解決するための手段】請求項1記載の発明は、
入力された文字列を単語に分割する形態素解析システム
において、単語及び品詞情報を記憶している辞書記憶部
と、この単語記憶部を検索し、前記文字列を単語に分割
し、単語ネットワークを生成する単語ネットワーク生成
手段と、この単語ネットワーク生成手段により生成され
た単語ネットワークから、部分単語ネットワークを検出
し、キャッシュ記憶部へ格納するキャッシュ記憶格納手
段とを具備することを特徴とする。
【0007】請求項2記載の発明は、請求項1記載の形
態素解析システムにおいて、入力される文字列を単語に
分解するとき、既に解析された単語ネットワークが前記
キャッシュ記憶部にある場合、このキャッシュ記憶部か
ら取得し、解析結果の単語とするキャッシュ記憶部検索
手段を具備することを特徴とする。
【0008】請求項3記載の発明は、請求項1または請
求項2記載の形態素解析システムにおいて、キャッシュ
記憶格納手段が入力された文字列を単語に分解した後、
前記単語ネットワークの1単語に収束する部分を検出
し、この収束する部分で入力文字列を区切り、部分単語
ネットワークを構成し、各部分単語ネットワークを前記
キャッシュ記憶部に格納することを特徴とする。
【0009】請求項4記載の発明は、において、入力さ
れた文字列を単語に分割する形態素解析方法において、
単語及び品詞情報を辞書記憶部へ記憶させる辞書記憶過
程と、この単語記憶部を検索し、前記文字列を単語に分
割し、単語ネットワークを生成する単語ネットワーク生
成過程と、この単語ネットワーク生成過程により生成さ
れた単語ネットワークから、部分単語ネットワークを検
出し、キャッシュ記憶部へ格納するキャッシュ記憶格納
過程とを有することを特徴とする。
【0010】請求項5記載の発明は、請求項4記載の形
態素解析方法において、入力される文字列を単語に分解
するとき、既に解析された単語ネットワークが前記キャ
ッシュ記憶部にある場合、このキャッシュ記憶部から取
得し、解析結果の単語とするキャッシュ記憶部検索過程
を有することを特徴とする。
【0011】請求項6記載の発明は、請求項4または請
求項5記載の形態素解析システムにおいて、キャッシュ
記憶格納過程が入力された文字列を単語に分解した後、
前記単語ネットワークの1単語に収束する部分を検出
し、この収束する部分で入力文字列を区切り、部分単語
ネットワークを構成し、各部分単語ネットワークを前記
キャッシュ記憶部に格納することを特徴とする。
【0012】請求項7記載の発明は、入力された文字列
を単語に分割する処理をコンピュータに行わせる形態素
解析プログラムを記録した記録媒体において、単語及び
品詞情報を辞書記憶部へ記憶させる辞書記憶処理と、こ
の単語記憶部を検索し、前記文字列を単語に分割し、単
語ネットワークを生成する単語ネットワーク生成処理
と、この単語ネットワーク生成処理により生成された単
語ネットワークから、部分単語ネットワークを検出し、
キャッシュ記憶部へ格納するキャッシュ記憶格納処理と
を有することを特徴とする。
【0013】請求項8記載の発明は、請求項7記載の形
態解析プログラムを記録した記録媒体において、入力さ
れる文字列を単語に分解するとき、既に解析された単語
ネットワークが前記キャッシュ記憶部にある場合、この
キャッシュ記憶部から取得し、解析結果の単語とするキ
ャッシュ記憶部検索処理を有することを特徴とする。
【0014】請求項9記載の発明は、請求項7または請
求項8記載の形態解析プログラムを記録した記録媒体に
おいて、キャッシュ記憶格納処理が入力された文字列を
単語に分解した後、前記単語ネットワークの1単語に収
束する部分を検出し、この収束する部分で入力文字列を
区切り、部分単語ネットワークを構成し、各部分単語ネ
ットワークを前記キャッシュ記憶部に格納することを特
徴とする。
【0015】本発明は、入力された日本語文字列を単語
に分割する形態素解析システムにおいて候補ネットワー
クを生成する場合に、単語に分割する性能を向上する構
成を提供するものである。図1において、キャッシュ記
憶部31は、以前に単語ネットワーク生成手段22で処
理された単語ネットワークからキャッシュ記憶部格納手
段23において検出された部分単語ネットワークを記憶
している。辞書記憶部32は日本語の単語辞書であり、
日本語の単語と品詞情報を記憶している。
【0016】キャッシュ記憶部検索手段21は、入力装
置1から単語ネットワーク生成手段22を通して日本語
入力文字列を受け取る。例えば "東京都の人口" という
文字列が与えられたとする。キャッシュ記憶部検索手段
21は、入力文字列の先頭文字で始まり入力文字列に部
分的に一致するキャッシュ記憶部31の中の文字列から
最も長い文字列を検索し、見つかった場合はその単語ネ
ットワークを取り出し解析結果とする。
【0017】例えば "東京都"という文字列に対する単
語ネットワーク(各単語の接続関係)がキャッシュ記憶
部31の中に格納されている場合、単語ネットワーク生
成手段22で入力文字列を解析する前に、キャッシュ記
憶部検索手段21は、キャッシュ記憶部31から入力文
字列に対応する単語ネットワークを取得することがで
き、"東京都"という文字列に対する解析を行わずに済ま
すことができる。
【0018】一方、キャッシュ記憶部31に一致する文
字列が存在しない場合は、単語ネットワーク生成手段2
2が辞書記憶部32を検索して一致する単語を取り出し
解析を行いながら単語ネットワークを生成する。そし
て、キャッシュ記憶部格納手段23では解析された単語
ネットワークにおいて部分単語ネットワークを検出しキ
ャッシュ記憶部31に登録する。
【0019】入力文字列から解析された単語ネットワー
クは、出力装置4に出力される。このようにして、形態
素解析システムの候補ネットワークを構成する処理にお
いて、すでに解析された単語ネットワークをキャッシュ
記憶部31に格納する。そして、入力文字列に対応する
単語ネットワークとして、キャッシュ記憶部31に解析
結果が存在する場合は、その解析結果を利用することに
より、入力文字列に対する形態素解析の性能向上を可能
とする。
【0020】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。図1は本発明の一実施形態に
よる形態素解析システムの構成を示すブロック図であ
る。この図において、一実施形態による形態素解析シス
テムは、キーボード等の入力装置1と、プログラム制御
により動作するデータ処理装置2と、情報を記憶する記
憶装置3と、ディスプレイ装置や印刷装置等の出力装置
4とを含んで構成されている。
【0021】記憶装置3は、キャッシュ記憶部31と、
辞書記憶部32とを備えている。キャッシュ記憶部31
は、単語ネットワーク生成手段22で処理された単語ネ
ットワークの中かから、キャッシュ記憶部格納手段23
により検出された単語ネットワークを逐次格納する。辞
書記憶部32は、日本語の単語辞書であり、日本語の単
語と品詞情報とをあらかじめ記憶している。
【0022】データ処理装置2は、キャッシュ記憶部検
索手段21と、単語ネットワーク生成手段22と、キャ
ッシュ記憶部格納手段23とを備えている。キャッシュ
記憶部検索手段21は、単語ネットワーク生成手段22
を介して得られた入力文字列と、キャッシュ記憶部31
に格納された単語ネットワークとを照合し、照合の結果
が一致した場合にキャッシュ記憶部31から単語ネット
ワークを取り出し単語分割の解析結果とする。
【0023】単語ネットワーク生成手段22は、辞書記
憶部32を検索し、入力手段1から入力される入力文字
列を単語に分割し、単語ネットワークを生成する。キャ
ッシュ記憶部格納手段23は単語ネットワーク生成手段
22により生成された単語ネットワークより部分単語ネ
ットワークを検出し、キャッシュ記憶部31に格納す
る。ここで、部分単語ネットワークとは、単語ネットワ
ークにおいて、ネットワークの枝が一単語に収束する部
分で分割した各単語ネットワークである。
【0024】次に、図1および図2を参照し、一実施形
態の動作例を説明する。図2は、一実施形態による形態
素解析システムの動作例を示すフローチャートである。
入力装置1は、入力される入力文字列を、単語ネットワ
ーク生成手段22に供給する。このとき、キャッシュ記
憶部31には、既に解析された文字列に対する単語ネッ
トワークが格納されているとする。また、辞書記憶部3
2には、日本語の単語と品詞情報とが格納されている。
【0025】ステップA1において、単語ネットワーク
生成手段22には、Node集合とNew_node集合とが保持さ
れている。ここで、Node集合には、初期状態において
「head」という「Node」を含んでいる。ここで、「hea
d」は、どのような単語とも接続される。
【0026】次に、ステップA2において、単語ネット
ワーク生成手段22は、Node集合が空かどうかの判定を
行う。そして、単語ネットワーク生成手段22は、Node
集合が空でないと判定した場合、処理をステップA3へ
進める。
【0027】次に、ステップA3において、単語ネット
ワーク生成手段22は、Node集合を空でないと判定した
場合、New_node集合を空集合に初期化する。そして、単
語ネットワーク生成手段22は、処理をステップA4へ
進める。
【0028】次に、ステップA4において、キャッシュ
記憶部検索手段21は、Node集合の各「Node」につい
て、後続する入力文字列と一致するキャッシュ記憶部3
1上の単語ネットワークの検索を行う。
【0029】次に、ステップA5において、キャッシュ
記憶部検索手段21は、後続する入力文字列と、照合の
結果一致する単語ネットワークのデータがキャッシュ記
憶部31に存在するか否かの判定を行う。そして、キャ
ッシュ記憶部検索手段21は、照合の結果一致する単語
ネットワークのデータがキャッシュ記憶部31に存在す
ると判定した場合、処理をステップA6へ進める。
【0030】次に、ステップA6において、キャッシュ
記憶部検索手段21は、照合の結果一致する最も長い単
語ネットワークをキャッシュ記憶部31から取得し、取
得した単語ネットワークの最左端「Node」と「head」の
「Node」とを接続し、単語ネットワークの最右端「Nod
e」を「New_node集合」に追加する。そして、キャッシ
ュ記憶部検索手段21は、処理をステップA7へ進め
る。
【0031】次に、ステップA7において、単語ネット
ワーク生成手段22は、取得した単語ネットワークの文
字列と後方一致し、後続する入力文字列に照合の結果一
致する単語を辞書記憶部32から検索する。
【0032】次に、ステップA8において、単語ネット
ワーク生成手段22は、後続する入力文字列に照合の結
果一致する単語が辞書記憶部32に存在するか否かの判
定を行う。そして、単語ネットワーク生成手段22は、
後続する入力文字列に照合の結果一致する単語が辞書記
憶部32に存在すると判定した場合、処理をステップA
9へ進める。
【0033】次に、ステップA9において、単語ネット
ワーク生成手段22は、後続する入力文字列に照合の結
果一致する単語が辞書記憶部32に存在すると判定した
場合、単語ネットワークの後方一致する部分を除いた部
分を「親Node」とし、照合の結果一致した単語を「子No
de」として接続し、「子Node」を「New_node」集合に追
加する。そして、単語ネットワーク生成手段22は、処
理をステップA15へ進める。
【0034】一方、ステップA7において、後続する入
力文字列に照合の結果一致する単語が辞書記憶部32に
存在しないと判定した場合、処理をステップA15へ進
める。
【0035】次に、ステップA15において、単語ネッ
トワーク生成手段22は、New_node集合をnode集合に置
換する。
【0036】また、ステップA5において、キャッシュ
記憶部検索手段21は、照合するデータが存在しない場
合、処理をステップA10へ進める。
【0037】次に、ステップA10において、単語ネッ
トワーク生成手段22は、各Nodeについて後続する入力
文字列と一致する単語を辞書記憶部32を検索する。
【0038】次に、ステップA11において、単語ネッ
トワーク生成手段22は、各Nodeについて後続する入力
文字列に対して、辞書記憶部32に照合の結果一致する
単語が存在するか否かの判定を行う。この判定の結果、
単語ネットワーク生成手段22は、各Nodeについて後続
する入力文字列に対して、辞書記憶部32に照合の結果
一致する単語が存在しない場合、処理をステップA15
へ進める。一方、単語ネットワーク生成手段22は、各
Nodeについて後続する入力文字列に対して、辞書記憶部
32に照合の結果一致する単語が存在する場合、処理を
ステップA12へ進める。
【0039】次に、ステップA12において、単語ネッ
トワーク生成手段22は、ステップA11において辞書
記憶部32に照合の結果一致する単語が存在すると判定
された場合、照合した単語を「子Node」として「head」
の「node」と接続する。
【0040】次に、ステップA13において、単語ネッ
トワーク生成手段22は、入力文字列に対して「子nod
e」が他に「親Node」を持つか否かの判定を行う。この
判定の結果、単語ネットワーク生成手段22は、入力文
字列が他に「親Node」を持っていると判定した場合、処
理をステップA15へ進める。
【0041】次に、ステップA15において、単語ネッ
トワーク生成手段22は、入力文字列が他に「親Node」
を持っていると判定した場合、「New_node集合」を「no
de集合」へ置換する。
【0042】一方、ステップA13において、単語ネッ
トワーク生成手段22は、入力文字列が他に「親Node」
を持っていないと判定した場合、処理をステップA14
へ進める。
【0043】次に、ステップA14において、単語ネッ
トワーク生成手段22は、入力文字列が他に「親Node」
を持っていないと判定した場合、「子Node」を「New_no
de集合」に追加した後、処理をステップA15へ進め
る。
【0044】また、ステップA2において、単語ネット
ワーク生成手段22は、「Node集合」が空であると判定
した場合、処理をステップA16へ進める。
【0045】次に、ステップA16において、単語ネッ
トワーク生成手段22は、解析している入力文字列が文
末か否かの判定を行う。そして、単語ネットワーク生成
手段22は、解析している入力文字列が文末であると判
定した場合、処理をステップA17へ進める。
【0046】次に、ステップA17において、キャッシ
ュ記憶格納手段23は、文末と判定された(一文の解析
終了が検出された)場合、入力文字列を解析した単語ネ
ットワークから、nodeの接続が収束する部分を検出し、
その単語で単語ネットワークを分割し、分割された結果
それぞれを部分単語ネットワークとしてキャッシュ記憶
部31に格納する。
【0047】一方、ステップA16において、単語ネッ
トワーク生成手段22は、解析している入力文字列が文
末でないと判定した場合、処理をステップA18へ進め
る。
【0048】次に、ステップA18において、単語ネッ
トワーク生成手段22は、入力文字列の次の文字を未登
録単語とし、「New_node集合」に追加し、処理をステッ
プA15へ進める。
【0049】次に、図1,図2及び図3を用いて具体的
な応用例を用いて説明する。図3は、入力される"東京
都市計画の書籍" という日本語文字列の単語ネットワー
クを示す図である。キャッシュ記憶部31には、既に解
析された "東京都"及び"東京"という文字列に対する単
語ネットワークが格納されているとする。また、辞書記
憶部32には "東京都","東京", "東", "京都", "京",
"都", "都市", "市", "京都市", "都市計画","計画",
"の", "書籍", "書", "籍" が登録されているとする。
【0050】例えば、入力文字列が"東京都市計画の書
籍" という日本語文字列の場合、キャッシュ記憶部31
上に既に"東京都", "東京"という2つの文字列に対する
単語ネットワークが存在し、"東京都" は "東京都" ,"
東京-都" ,"東-京-都", "東-京都" という単語の分割で
構成され、"東京" は "東京" , "東-京" という単語の
分割で構成される場合、ステップA6において、最も長
い "東京都" という単語ネットワークが照合される。
【0051】そして、最左端「Node」である "東京都",
"東京", "東" が「親Node」である「head」と接続さ
れ、最右端「Node」である "東京都" "京都", "都" と
が「New_node集合」に追加される。また、単語ネットワ
ーク全体の文字列 "東京都"に後方一致し、後続する入
力文字列に照合する単語が辞書記憶部32から検索さ
れ、「New_node集合」に登録される。この場合 "京都
市", "都市", "都市計画" が登録される。この時点の
「New_node集合」は 、"東京都", "京都", "都", "京都
市", "都市", "都市計画"である。
【0052】次に、単語ネットワーク生成手段22は、
この「New_node集合」を「node集合」に置換し、「Node
集合」が空でないため、「New_node集合」を空にして処
理を継続する。この状態では、「Node集合」の各「Nod
e」について後続する入力文字列と一致するキャッシュ
記憶部31上の単語ネットワークのデータは存在しない
ので、単語ネットワーク生成手段22は、辞書記憶部3
2から単語を検索することになる。
【0053】そして、まず、単語ネットワーク生成手段
22は、"東京都" に接続する "市"が「New_node集合」
に追加され、「親Node」の "東京都" と接続関係でむす
ばれる。そして、単語ネットワーク生成手段22によ
り、"京都","都", にも "市"が接続される構成である
が、"市" は既に「親Node」を持っているため、「New_n
ode集合」には追加されない。
【0054】同様に 、単語ネットワーク生成手段22
は、"計画", "の" を「New_node集合」に追加する。こ
れと同様の処理を繰り返し、文末まで到達すると図3に
示すような"東京都市計画の書籍" に対する「Node」ネ
ットワークが作成される。
【0055】また、"書籍" という単語が辞書記憶部3
2に登録されていない場合は、単語ネットワーク生成手
段22が未登録語として処理し、"書", "籍" という1
文字単位の単語として解析される。そして、文末まで解
析が終わると、単語ネットワーク生成手段22は、解析
された単語ネットワークに対して単語間の接続が1つの
単語に収束する部分を検出し、収束する単語間の部分単
語ネットワークをキャッシュ記憶部31に格納する。
【0056】このとき、"東京都市計画の書籍"という文
に対しては、単語"の"において接続が収束しており、そ
の前後の "東京都市計画", "書籍" の単語ネットワーク
がキャッシュ記憶部31に登録される。
【0057】上述したように、一実施形態の形態素解析
システムによれば、既に解析され単語に分解された情報
を単語ネットワークとしてキャッシュ記憶部31に格納
し、キャッシュ記憶部31に解析結果が存在する場合に
は、キャッシュ記憶部31上の解析結果を用いることに
より、単語分割するときの辞書記憶部32のアクセス回
数を削減し解析時間を短縮することができるため、日本
語文字列の形態素解析を行うとき、必要な単語の候補ネ
ットワークを生成する場合、解析の性能(速度)が向上
する。
【0058】以上、本発明の一実施形態を図面を参照し
て詳述してきたが、具体的な構成はこの実施形態に限ら
れるものではなく、本発明の要旨を逸脱しない範囲の設
計変更等があっても本発明に含まれる。例えば、図4に
示す第2の実施形態による形態素解析システムは、デー
タ処理装置5が、図1で示された一実施形態におけるデ
ータ処理装置2の構成に加え、キャッシュ記憶部制御手
段51を有し、記憶装置3Aが二次キャッシュ記憶部3
3を有する点で異なる。
【0059】キャッシュ記憶部31がメモリで構成され
ている場合、大容量を確保するのが難しいため、ディス
ク装置で構成される二次キャッシュ記憶部33を搭載す
る。また、キャッシュ記憶部制御手段51は、キャッシ
ュ記憶部31上からのデータの取得、格納を制御してお
り、キャッシュ記憶部31にキャッシュ記憶部格納手段
23が単語ネットワークを格納する場合、キャッシュ記
憶部31に空き領域があれば、その空き領域に格納し、
空き領域がない場合、使用頻度の少ない順に単語ネット
ワークを二次キャッシュ記憶部33へ移動させ、単語ネ
ットワークを格納する。
【0060】さらに、キャッシュ記憶部検索手段21が
単語ネットワークを検索する場合、単語ネットワークが
キャッシュ記憶部31に存在する場合はキャッシュ記憶
部31から取得し、存在しない場合は二次キャッシュ記
憶部33を検索し、二次キャッシュ記憶部33に対応す
る単語ネットワークが存在すると、この単語ネットワー
クをキャッシュ記憶部31へ移動させ、必要な単語ネッ
トワークを取得する。このとき、キャッシュ記憶部31
に空き領域がない場合は、使用頻度の少ない順に単語ネ
ットワークを二次キャッシュ記憶部33へ移動させる。
【0061】上述したように、第2の実施形態の形態素
解析システムによれば、既に解析され単語に分解された
情報を単語ネットワークとしてキャッシュ記憶部31ま
たは二次キャッシュ記憶部33に格納し、キャッシュ記
憶部31または二次キャッシュ記憶部33に解析結果が
存在する場合には、キャッシュ記憶部31または二次キ
ャッシュ記憶部33上の解析結果を用いることにより、
単語分割するときの辞書記憶部32のアクセス回数を削
減し、解析時間を短縮することができるため、日本語文
字列の形態素解析を行うとき、必要な単語の候補ネット
ワークを生成する場合、解析の性能(速度)が向上す
る。
【0062】また、図2に示す各ステップを実現するた
めのプログラムをコンピュータ読み取り可能な記録媒体
に記録して、この記録媒体に記録されたプログラムをコ
ンピュータシステムに読み込ませ、実行することにより
図形表示処理を行ってもよい。なお、ここでいう「コン
ピュータシステム」とは、OSや周辺機器等のハードウ
ェアを含むものとする。また、「コンピュータ読み取り
可能な記録媒体」とは、フロッピーディスク、光磁気デ
ィスク、ROM、CD−ROM等の可般媒体、コンピュ
ータシステムに内蔵されるハードディスク等の記憶装置
のことをいう。
【0063】さらに「コンピュータ読み取り可能な記録
媒体」とは、インターネット等のネットワークや電話回
線等の通信回線を介してプログラムを送信する場合の通
信線のように、短時間の間、動的にプログラムを保持す
るもの、その場合のサーバやクライアントとなるコンピ
ュータシステム内部の揮発性メモリのように、一定時間
プログラムを保持しているものも含むものとする。また
上記プログラムは、前述した機能の一部を実現するため
のものであっても良く、さらに前述した機能をコンピュ
ータシステムにすでに記録されているプログラムとの組
み合わせで実現できるものであっても良い。
【0064】
【発明の効果】本発明によれば、入力された文字列を単
語に分割する形態素解析システムにおいて、単語及び品
詞情報を記憶している辞書記憶部と、この単語記憶手段
を検索し、前記文字列を単語に分割し、単語ネットワー
クを生成する単語ネットワーク生成手段と、この単語ネ
ットワーク生成手段により生成された単語ネットワーク
から、部分単語ネットワークを検出し、キャッシュ記憶
部へ格納するキャッシュ記憶格納手段とを具備するた
め、既に解析され単語に分解された情報を単語ネットワ
ークとしてキャッシュ記憶部に格納し、キャッシュ記憶
部に解析結果が存在する場合には、キャッシュ記憶部上
の解析結果を用いることにより、単語分割するときの辞
書記憶部のアクセス回数を削減し解析時間を短縮するこ
とができるため、日本語文字列の形態素解析を行うと
き、必要な単語の候補ネットワークを生成する場合、解
析の性能(速度)が向上する。
【図面の簡単な説明】
【図1】 本発明の一実施形態による形態素解析システ
ムの構成を示すブロック図である。
【図2】 図1に示す形態素解析システムの動作例を説
明するフローチャートである。
【図3】 入力される"東京都市計画の書籍" という日
本語文字列の単語ネットワークを示す図である
【図4】 本発明の第2の実施形態による形態素解析シ
ステムの構成を示すブロック図である。
【符号の説明】
1 入力装置 2、5 データ処理装置 3、3A 記憶装置 4 出力装置 21 キャッシュ記憶部検索手段 22 単語ネットワーク生成手段 23 キャッシュ記憶部格納手段 31 キャッシュ記憶部 32 辞書記憶部 33 二次キャッシュ記憶部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力された文字列を単語に分割する形態
    素解析システムにおいて、 単語及び品詞情報を記憶している辞書記憶部と、 この単語記憶部を検索し、前記文字列を単語に分割し、
    単語ネットワークを生成する単語ネットワーク生成手段
    と、 この単語ネットワーク生成手段により生成された単語ネ
    ットワークから、部分単語ネットワークを検出し、キャ
    ッシュ記憶部へ格納するキャッシュ記憶格納手段とを具
    備することを特徴とする形態素解析システム。
  2. 【請求項2】 入力される文字列を単語に分解すると
    き、既に解析された単語ネットワークが前記キャッシュ
    記憶部にある場合、このキャッシュ記憶部から取得し、
    解析結果の単語とするキャッシュ記憶部検索手段を具備
    することを特徴とする請求項1記載の形態素解析システ
    ム。
  3. 【請求項3】 キャッシュ記憶格納手段が入力された文
    字列を単語に分解した後、前記単語ネットワークの1単
    語に収束する部分を検出し、この収束する部分で入力文
    字列を区切り、部分単語ネットワークを構成し、各部分
    単語ネットワークを前記キャッシュ記憶部に格納するこ
    とを特徴とする請求項1または請求項2記載の形態素解
    析システム。
  4. 【請求項4】 入力された文字列を単語に分割する形態
    素解析方法において、 単語及び品詞情報を辞書記憶部へ記憶させる辞書記憶過
    程と、 この単語記憶部を検索し、前記文字列を単語に分割し、
    単語ネットワークを生成する単語ネットワーク生成過程
    と、 この単語ネットワーク生成過程により生成された単語ネ
    ットワークから、部分単語ネットワークを検出し、キャ
    ッシュ記憶部へ格納するキャッシュ記憶格納過程とを有
    することを特徴とする形態素解析方法。
  5. 【請求項5】 入力される文字列を単語に分解すると
    き、既に解析された単語ネットワークが前記キャッシュ
    記憶部にある場合、このキャッシュ記憶部から取得し、
    解析結果の単語とするキャッシュ記憶部検索過程を有す
    ることを特徴とする請求項4記載の形態素解析方法。
  6. 【請求項6】 キャッシュ記憶格納過程が入力された文
    字列を単語に分解した後、前記単語ネットワークの1単
    語に収束する部分を検出し、この収束する部分で入力文
    字列を区切り、部分単語ネットワークを構成し、各部分
    単語ネットワークを前記キャッシュ記憶部に格納するこ
    とを特徴とする請求項4または請求項5記載の形態素解
    析システム。
  7. 【請求項7】 入力された文字列を単語に分割する処理
    をコンピュータに行わせる形態素解析プログラムを記録
    した記録媒体において、 単語及び品詞情報を辞書記憶部へ記憶させる辞書記憶処
    理と、 この単語記憶部を検索し、前記文字列を単語に分割し、
    単語ネットワークを生成する単語ネットワーク生成処理
    と、 この単語ネットワーク生成処理により生成された単語ネ
    ットワークから、部分単語ネットワークを検出し、キャ
    ッシュ記憶部へ格納するキャッシュ記憶格納処理とをコ
    ンピュータに行わせることを特徴とする形態解析プログ
    ラムを記録した記録媒体。
  8. 【請求項8】 入力される文字列を単語に分解すると
    き、既に解析された単語ネットワークが前記キャッシュ
    記憶部にある場合、このキャッシュ記憶部から取得し、
    解析結果の単語とするキャッシュ記憶部検索処理を有す
    ることを特徴とする請求項7記載の形態解析プログラム
    を記録した記録媒体。
  9. 【請求項9】 キャッシュ記憶格納処理が入力された文
    字列を単語に分解した後、前記単語ネットワークの1単
    語に収束する部分を検出し、この収束する部分で入力文
    字列を区切り、部分単語ネットワークを構成し、各部分
    単語ネットワークを前記キャッシュ記憶部に格納するこ
    とを特徴とする請求項7または請求項8記載の形態解析
    プログラムを記録した記録媒体。
JP11123178A 1999-04-28 1999-04-28 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体 Pending JP2000311168A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11123178A JP2000311168A (ja) 1999-04-28 1999-04-28 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11123178A JP2000311168A (ja) 1999-04-28 1999-04-28 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000311168A true JP2000311168A (ja) 2000-11-07

Family

ID=14854129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11123178A Pending JP2000311168A (ja) 1999-04-28 1999-04-28 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000311168A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167372B2 (en) 2003-08-26 2007-01-23 Belkin Corporation Universal serial bus hub and method of manufacturing same
JP2019016162A (ja) * 2017-07-06 2019-01-31 富士通株式会社 形態素解析プログラム、形態素解析装置、および形態素解析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167372B2 (en) 2003-08-26 2007-01-23 Belkin Corporation Universal serial bus hub and method of manufacturing same
JP2019016162A (ja) * 2017-07-06 2019-01-31 富士通株式会社 形態素解析プログラム、形態素解析装置、および形態素解析方法

Similar Documents

Publication Publication Date Title
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
US20060047500A1 (en) Named entity recognition using compiler methods
US20060047691A1 (en) Creating a document index from a flex- and Yacc-generated named entity recognizer
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0689302A (ja) 辞書メモリ
JP2000132550A (ja) 機械翻訳のための中国語生成装置
JP2011204225A (ja) 属性抽出装置および方法
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US20060047690A1 (en) Integration of Flex and Yacc into a linguistic services platform for named entity recognition
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP3938234B2 (ja) 自然言語処理装置
JP2000311168A (ja) 形態素解析システム及びその方法並びにこの形態素解析プログラムを記録した記録媒体
JPH10162008A (ja) 情報検索方法及び装置
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP3908919B2 (ja) 形態素解析システムと形態素解析方法
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP2002269136A (ja) 文書検索システム及びプログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030121