JPH0460766A

JPH0460766A - 形態素解析装置

Info

Publication number: JPH0460766A
Application number: JP2169771A
Authority: JP
Inventors: Shunichi Fukushima; 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-06-29
Filing date: 1990-06-29
Publication date: 1992-02-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕計算機による入力された文字列の解析は、−ｇに、形態
素解析、構文解析、意味解析という段階で行われる。本
発明は、この第１段階である形態素解析、すなわち入力
された文字列を構成する形態素の認定を行なう装置に関
するものである。

また本発明は、かな漢字変換２機械翻訳、連続音声認識
、キーワード抽出など、入力された文字列を解析するこ
とによって実現されている産業分野に係わるものである
。

〔従来の技術〕

一般に、日本語文の形態素解析は、「盲人用読書器にお
ける文章解析−解析方式−」　（福島・他。

情報処理学会第３１回全国大会、　３Ｎ−７，１９８５
年）、「パソコンによるへ夕書き入力カナ漢字変換コ（
犬山・他、情報処理学会第２９回全国大会、　５Ｊ−３
゜１９８４年）、Ｆべた書き文仮名漢字変換における最
適文選択法」　（何部・他、情報処理学会第２８面金国
大会、　４Ｍ−８，１９８４年）などの文献に示されて
いるように、入力された文字列に対して文節候補を作成
する第１段階と、作成された文節候補のなかから最も確
からしいものを選ぶ第２段階とに分かれる。

第２図は、上で説明した形態素解析過程の流れを表して
おり、第１段階と第２段階の各々の処理結果の例を示し
ている。第２図において、１００は入力された文章（こ
の例ではかな文字列であるが一般的な形態素解析ではか
な文字列に限定されない）、１１０は第１段階１０の処
理結果として出力された文節候補群、１２０は第２段階
１１の処理結果として出力された第１候補文節列である
。１１０と１２０において、「日本７語／のＪ　「文章
／をＪ　「文相／を」などは文節の候補であり、／は文
節内の単語の区切りを表している。文節候補の組み合わ
せが線でつながれて表現されている。

従来、形態素解析の第１段階と第２段階とでは、それぞ
れ、およそ次のような処理が行なわれている（詳細は前
記の文献に述べられている）、。

まず、第１段階１０では、入力された文字列の部分文字
列に一致する形態素を形態素辞書から検索する辞書検索
処理と、辞書検索処理で得られた形態素をつなげて文節
候補を作成する接続検定処理とが行なわれる。接続検定
処理では、文節内で２つの形態素が文法的に隣接し得る
か否か、および、ある形態素が文節の先頭あるいは末尾
になり得るか否かを、記述したテーブルを参照して、形
態素をつなげてゆく。

次に、第２段階１１では、文節数・品詞の並び・意味的
な関係の強さなどをもとに、各文節候補あるいは文節候
補の並びに対して評価値を計算し、最もよい評価値をと
った文節候補の系列を、第１候補として決定することが
行なわれている。

〔発明が解決しようとする課題］従来の形態素解析装置は、逐次処理型の計算機として実
現されている。しかし、より大量の文章を処理したい、
あるいは、より解析精度を高めるために検索する辞書を
大語霊化したいなどの要求も含めて、形態素解析の高速
化が望まれてきている。

この要求をかなえる方法に、形態素解析の並列処理化が
ある。「日本語の並列形態素解析Ｊ　（峯・他、情報処
理学会第４０回合国大会、　４Ｆ−１，１９９０年）や
、「マルチタスク方式によるカナ漢字変換」（犬山・他
、情報処理学会第２５回合国大会、　６Ｊ−２゜１９８
２年）の文献に、従来の形態素解析を素直に並列化する
方法が示されている。

その方法を例を用いて説明する。並列化の本質は、前記
の第１段階にあるので、第２段階に関する説明は省略す
る。

「にほんごのふんしようを・・・・・・・・・」という
文字列が入力されたとすると、まず、その先頭から始ま
る形態素が辞書から検索され、「日本」　（名詞）、「
二」　（数詞）、「煮」　（動詞語幹）、「似」（動詞
語幹）などが得られる。ここで、逐次処理では、「日本
」　「二」　「煮」　「似」の各りについて順次、後接
する形態素の検索が行なわれるわけであるが、それを並
列化すると、次のようになる。

すなわち、「日本」　「二」　「煮」「似」の各々につ
いてプロセスが１個ずつ割り当てられて、各々のプロセ
スで独立に、後接する形態素の検索が行なわれる。「日
本」に後接する形態素を検索するプロセス、「二」に後
接する形態素を検索するプロセス、「孝」に後接する形
態素を検索するプロセス、「似」に後接する形態素を検
索するプロセスなどが、同時に動作することになる。

それらのプロセスのうち、例えば、「日本」に後接する
形態素を検索するプロセスについてみると、「ごのぶん
しようを・・・・・・・・・」の位置で形態素辞書の検
索が行なわれて、「語」　（接尾語）、「後」　（接尾
語）、「基」　（名詞）、「五」　（数詞）などが検索
される。そして、それらと「日本」（名詞）との間の接
続検定が行なわれて、「日本７語」　「日本／後」とい
う形態素列が作成される。

この段階で、「日本７語」と「日本／後」には、新たに
プロセスが割り当てられて、各々独立に、後接する形態
素の検索が並列に行なわれる。

このような並列化方式には、次のような問題点がある。

第３図（ａ）には、「日本」に対するプロセスと、第３
図（ｂ）には、「二／本」に対するプロセスとが示され
ている。点線で囲まれた形態素群３００．３０１は、辞
書から検索された形態素群を表している。

○あるいは×が付加された直線は、接続検定を意味して
いる（○は結ばれた２形態素が接続可、×は結ばれた形
態素が接続不可）。この２つのプロセスでは、辞書から
全く同し形態素群が検索される（３００と３０１とが同
一）。つまり、入力文字列中の同し位置での形態素辞書
の検索を重複して行なっている。

形態素辞書は、通常、敵方から数十方性の形態素を収め
た大容量のものであるから、プロセスごとに、辞書用の
メモリをもつことは現実的でなく、すべてのプロセスで
共有するメモリに置かれる。

そして、共有メモリは、複数のプロセスから独立に同時
にアクセスはできない。しかも、辞書検索処理は、接続
検定処理に比べて、はるかに処理時間を要する。したが
って、このような辞書検索処理において、上述のように
同じ位置で重複して検索を行なうようなことは、処理時
間上、著しい効率の低下をもたらす。

さらに、複数のプロセスから同時に辞書アクセスの要求
がでて、アクセス競合が発生する場合には、その調整機
構を設ける必要があり、実現形態が複雑になってしまう
。

ここで、辞書検索処理の内部に、−度検索された形態素
を保持しておくテーブルを用意しておき、同一位置での
２度目以陣の検索では、辞書を直接検索せずに、テーブ
ルから取り出すだけとする方法が考えられる。この方法
によって、重複による処理時間の無駄を軽減できるが、
依然として無駄は大きい。また、アクセス競合の調整機
構が必要であることにも変わりがない。

本発明の目的は、辞書検索処理を重複して行なうような
無駄を発生させずに、並列処理化された高速な形態素解
析装置を提供することである。

〔課題を解決するための手段〕

本発明は、入力された文字列を構成する形態素を認定す
る形態素解析装置において、形態素を登録した辞書と、
前記辞書を検索して前記入力された文字列の部分文字列
に一致する形態素を前記入力された文字列中の先頭から
の出現順に抽出する辞書検索手段と、前記辞書検索手段
によって形態素が抽出されるのに同期して並列に動作す
るプロセスによって文節候補を作成するマルチプロセス
手段とを備えることを特徴とする形態素解析装置である
。

前記のマルチプロセス手段において並列動作するプロセ
スには２通りのタイプ（タイプＡとタイプＢとする）が
ある。そして、前記マルチプロセス手段の受け取る形態
素は、前記並列動作する全プロセスに同時に渡される。

前記タイプへのプロセスは、常に１個であり、受け取っ
た形態素が文節の先頭になることが可能か否かを判定し
、可能である場合にはその形態素を内部に格納したタイ
プＢのプロセスを発生させる。前記タイプＢのプロセス
は、受け取った形態素が内部に格納した形態素列の末尾
に接続可能か否かを判定し、可能である場合は、該形態
素を末尾に接続したタイプＢのプロセスを発生させる。

また、このタイプＢのプロセスは、内部に格納した形態
素列の末尾位置より後方に離れた位置を先頭とする形態
素を受け取った場合には消滅する。

さらに、新たにタイプＢのプロセスが発生する際には、
内部に格納した形態素列の末尾が文節の末尾になること
が可能か否かが判定され、可能である場合には、その形
態素列が文節候補として出力される。

〔実施例〕

図面を用いて、本発明の詳細な説明する。

第１図は本発明の形態素解析装置の一実施例の構成を示
すブロック図である。この形態素解析装置は、文字列入
力手段１と、辞書２と、辞書検索手段３と、マルチプロ
セス手段４と、文節候補メモリ５と、第１候補決定手段
６とから構成されている。

文字列入力手段１は、文字列を入力するための手段であ
り、キーボード、文字認識装置、磁気ディスク読み取り
装置などで実現できる。

辞書２は、形態素を登録した辞書であり、ＩＣメモリ、
磁気ディスク装置などで実現できる。

辞書検索手段３は、辞書２を検索して、文字列入力手段
１から入力された文字列の部分文字列に一致する形態素
を、入力された文字列中の先頭からの出現順に抽出する
手段である。その実現方法は、例えば、［文章解析アク
セラレータ（１）形態素抽出マシンの試作−」　（福島
・他、情報処理学会自然言語処理研究会報告、　ＮＬ−
７５−９，１９９０年）なとの文献に示されている。

マルチプロセス手段４は、辞書検索手段３によって形態
素が抽出されるのに同期して並列に動作するプロセスに
よって文節候補を作成する手段である。ここでいう並列
動作するプロセスには２通りのタイプ（タイプＡとタイ
プＢとする）がある。

辞書検索手段３からマルチプロセス手段４が受け取る形
態素は、それら並列動作する全プロセスに同時に渡され
る。

タイプＡのプロセスは、常に１個であり、受け取った形
態素が文節の先頭になることが可能か否かを判定し、可
能である場合には、その形態素を内部に格納したタイプ
Ｂのプロセスを発生させる。

タイプＢのプロセスは、受け取った形態素が内部に格納
した形態素列の末尾に接続可能か否かを判定し、可能で
ある場合は、この形態素を末尾に接続したタイプＢのプ
ロセスを発生させる。また、タイプＢのプロセスは、内
部に格納した形態素列の末尾値！より後方に離れた位置
を先頭とする形態素を受け取った場合には消滅する。さ
らに、新たに発生したタイプＢのプロセスは、内部に格
納した形態素列の末尾が文節の末尾になり得る場合には
、この形態素列を文節候補として出力する。

このようなマルチプロセス手段４は、「情報処理学会誌
」第２８巻第１号（１９８７年）や「人工知能学会誌」
第４巻第３号（１９８９年）に示されているような並列
計算機上のプログラムとして容易に実現できる。あるい
は、例えば、第４図に示すような構成により実現できる
。

以下に、第４図に示したマルチプロセス手段４の構成方
法を説明する。

第４図に示したマルチプロセス手段４は、１個のコント
ローラ４０１、（Ｎ＋１　）個の処理ユニット（以下で
はＰＵとする）　４００から構成される。

（Ｎ＋１）個のＰＵのうち、ＰＵ＃Ｏではタイプへのプ
ロセスが常時動作する。ＰＬｌ＃ｌからＰＵ＃Ｎではタ
イプＢのプロセスが生成／消滅しながら動作する。ＰＵ
＃ＯからＰＵ＃Ｎのうち、プロセスが動作しているもの
を活性状態と呼び、プロセスが動作していないものを非
活性状態と呼ぶ。

コントローラ４０１と辞書検索手段３とは、辞書制御線
４０２でつながれ、辞書制御線４０２は、辞書検索手段
３からマルチプロセス手段４へ、検索された形態素のデ
ータを１個ずつ転送するタイミングなどを制御するため
に用いられる。辞書検索手段３から全ＰＵ４００には、
辞書データ線４０３が並列接続されて、１個の形態素デ
ータが辞書検索手段３から全ＰＵ４００に同時に転送で
きるようになっている。

コントローラ４０１から全ＰＵ４００へは、ＰＵ制御線
４０４．ＰＵアドレス線４０５．ＰｔＪデータ線４０６
がつながれている。このうち、ＰＵ制御線４０４とＰＬ
１７ドレス１ａ４０５は、コントローラ４ｏ１カラＰＵ
　４００へのコマンドを伝えるためのものである（ＰＵ
アドレス線４０５がおもに対象ＰＵとコマンド内容を指
定し、ＰＵ制御線４０４はおもにタイミングを与える）
。ＰＵデデー線４０６は、ＰＵ４００間で形態素列デー
タをやり取りするのに用いられる。また、ＰＵ制御線４
０４．ＰＵアドレス線４０５゜ＰＵデデー線４０６は、
文節候補メモリ５へも接続され、マルチプロセス手段４
から文節候補メモリ５への文節候補の書き込みにも用い
られる。

第５図と第６図は、コントローラ４０１の処理内容を表
したフローチャートである。第７図（ａ）、　（ｂ）は
、ＰＵ＃Ｏで動作するタイプＡのプロセスの処理内容を
表したフローチャートである。第８図（ａ）。

（ｂ）、　（Ｃ）は、ＰＵ＃１からＰＵ＃Ｎで、生成／
消滅しながら動作するタイプＢのプロセスの処理内容を
表したフローチャートである。それらを、第５図を中心
として説明する。

コントローラ４０１は、まず、辞書制御線４０２により
、辞書検索手段３のステータスを調べる（ステップ５０
０）。ステータスが終了状態（入力テキストをすべて処
理済み）であればコントローラ４０１も処理を終了し、
ステータスが出力可能状態（形態素が既に検出されてい
る状態）であればステップ５０２以下の処理を行ない、
それ以外（形態素がまた検出されていない状態）であれ
ば検出されるのを待つ（ステップ５０１）。

続いて、出力可能状態の場合には、コントローラ４０１
は辞書データ線４０３より、活性状態の全ＰＵに同時に
形態素１個のデータを取り込ませる（ステップ５０２）
。これは、コントローラ４０１がＰＵにＧＥＴコマンド
を送って制御する。なお、ＰＵは内部に入力バッファを
持ち、形態素データは、その人力バッファに取り込まれ
る（ステ、ツブ７０１゜８０１）。

続いて、コントローラ４０１は、ＲＵＮコマンドで制御
して、活性状態の全ＰＵに同時に形態素の接続検定を行
なわせる（ステップ５０３）。この接続検定は、タイプ
Ａのプロセス（ＰＵ＃Ｏ）と、タイプＢのプロセス（Ｐ
ｔＪ＃１〜ＰＵ＃Ｎ）とでは異なる。

タイプＡのプロセスにおける接続検定は、第７図Φ）の
ような手続きになる。まず、入力バッファ内の形態素の
文節先頭可能性を判定しくステップ７０４）、文節先頭
にならないと判定された（ステップ７０５）ならば、ス
テータスを「不変モード」とする（ステップ７０７）。

文節先頭になり得ると判定された（ステップ７０５）な
らば、続いて、その形態素の文節末尾可能性を判定する
（ステップ７０６）。その結果、文節末尾になり得る（
ステップ７０８）ならば、ステータスを「生成登録モー
ド」としくステップ７０９）、なり得ない（ステップ７
０８）ならば、ステータスを「生成モード」とする（ス
テップ７１０）。

タイプＢのプロセスにおける接続検定は、第８図（ｂ）
、　（Ｃ）のような手続きになる。タイプＢのプロセス
では、大力バッファに加えて、内部にローカルメモリも
持っている。まず、このローカルメモリ内に既に格納さ
れている形態素列の末尾位置りと、入力バッファに格納
された形態素の先頭位置Ｍとの関係を調べる（ステップ
８０５）。その結果、入力バッファの形態素の先頭位置
Ｍが、ローカルメモリ内の形態素列の末尾位置しより後
方に離れている（ステップ８０６；Ｍ＞Ｌ＋１）ならば
、ステータスを「消滅モード」にする（ステップ８０８
）。

入力バッファの形態素の先頭位置が、ロー力ルメそり内
の形態素列の末尾位置の直後である（ステップ８０６；
Ｍ＝Ｌ＋１）ならば、ステップ８０７以下の処理を行な
って、ステータスを決定する。それ以外（ステップ８０
６；Ｍ＜Ｌ＋１）の場合は、ローカルメモリ内の形態素
列と入力ハッファ内の形態素が、位置的に重なっており
、ステータスは「不変モード」とする（ステップ８１０
）。位置的に直後に接続した場合のステップ８０７以下
の処理では、文法的な接続可能性も判定する（ステップ
８０７）。

接続しないと判定された（ステップ８０９）ならば、ス
テータスを「不変モード」とする（ステップ８１０）。

接続すると判定された（ステップ８０９）ならば、続い
て、接続した形態素の文節末尾可能性を判定する（ステ
ップ８１１）。その結果、文節末尾になり得る（ステッ
プ８１２）ならば、ステータスを「生成登録モード」と
しくステップ８１３）、なり得ない（ステップ８１２）
ならば、ステータスを「生成モードＪとする（ステップ
８１４）。

なお、文節先頭可能性９文節末尾可能性、形態素の文法
的接続可能性などの判定方法は、従来と同様で、それら
の可能性を記述したテーブルを参照して行なう。

さて、第５図の流れに戻ると、接続検定を行なわせた（
ステップ５０３）の後、コントローラ４０１は、活性状
態の全ＰＵについて、プロセスの更新＆文節候補の作成
の手続きを実行する（ステップ５ｏ４）。

第６図が、活性状態の各ＰＵに対する、プロセスの更新
＆文節候補の作成の手続きである。

つまり、ＰＵのステータスをチエツクしくステップ６０
０）、ステータスが「消滅モード」、「生成モード」、
「生成登録モード」、「不変モード」のいずれかによっ
て、以下のような処理を行なう（ステップ６０１）。ス
テータスのチエツクの際には、コントローラ４０１から
ＣＨＥ　ＣＫコマンドが発行され、対象のＰＵは、ステ
ータスをＰＵデデー線４０６　ニ出力すル（ステップ７
０２．８０２＞。

コントローラ４０１は、まず、Ｆ不変モード」のＰＵに
は何もしない。ここで、コントローラ４０１は、内部に
ＰＵ管理表を持ち、ＰＵ＃ＯがらＰＵ＃Ｎのいずれが活
性状態にあり、非活性状態のＰＵがどれかがわかるよう
に管理されている。そこで、「消滅モード」のＰＵにつ
いては、ＰＵ管ＦＩ表において、活性状態から非活性状
態に更新される（ステップ６０６）。非活性状態になる
と、ＰＵでは、第８図に示したような処理が停止する。

「生成モード」や「生成登録モード」では、ＰＵ管理表
において、非活性状態であったＰｔＪが１個、活性状態
に変更される（ステップ６０２．６０３）。

活性化されたＰＵでは、第８図のような処理が起動され
る。そして、新たに活性化されたＰＵに形態素列データ
がコピーされる（ステップ６０４．６０５）このコピー
操作は、コントローラ４０１から、５ＥＮＤコマンドと
ＲＥＣＥ　Ｉ　ＶＥコマンドが発行されて制御される（
ステップ７０３．８０３．８０４）。このコピー操作は
、「生成モード」でも「生成登録モードｊでも行なわれ
るが、「生成登録モード」では、それに加えて、文節候
補メモリ５へも同時に、形態素列データが出力される。

コントローラ４０１　は、第５図のステップ５０２から
ステップ５０４の処理を、辞書検索手段３から形態素を
１個読み込むごとに、繰り返して実行させる。

以上、マルチプロセス手段４の実現方法を詳細に説明し
た。

第１図において、文節候補メモリ５は、マルチプロセス
手段４で作成された文節候補を格納する手段であり、Ｉ
Ｃメモリ、磁気ディスク装置などで実現できる。

第１候補決定手段６は、第２図に示したような形態素解
析の第２段階を実行する手段であり、従来の形態素解析
装置で用いられているもの（従来の技術の項を参照）と
同しである。

次に、マルチプロセス手段４を中心に、この実施例の動
作例を説明する。

文字列入力手段１から、例えば、「にぼんごのふんしよ
うを・・・・・・・・・」という文字列が入力されたと
する。

これに対して、辞書検索手段３は、入力文字列の先頭か
らの出現順に、例えば、次のような形態素を抽出する。

［二Ｊ　（数詞）、「煮」　（動詞語幹）、「似」（動
詞語幹）、「日本Ｊ　（名詞）、「本コ　（名詞）「本
」　（助数詞）、「語］　（接尾語）、「後Ｊ（接尾語
）、「基」　（名詞）、「五」　（数詞）「の」　（助
詞）、「のＪ　（動詞語尾）　・・・・・・・・・マル
チプロセス手段４は、これらの形態素を１個ずつ順番に
受け取って、プロセスを生成／消滅させながら処理を進
める。

最初は、タイプＡのプロセスは１個だけが存在する。そ
して、最初の形態素［二Ｊ　（数詞）が、辞書検索手段
３から送られてきたところを示した図が、第９図（ａ）
である。４０はタイプＡのプロセス、４０７はタイプＡ
のプロセス４０内にある入力バッファの内容を示してい
る。

タイプＡのプロセス４０では、「二」　（数詞）が文節
先頭になり得るが否がか判定される。その結果、「二Ｊ
　（数詞）は文節先頭になり得るので、「二Ｊ　（数詞
）を内部に格納したタイプＢのプロセスが生成される。

その段階を示したのが、第９図（ｂ）である。４１はタ
イプＢのプロセス、４０８は夕イブＢのプロセス４１内
にある入力ハッファの内容、４０９はタイプＢのプロセ
ス４１内にあるローカルメモリの内容を示している。ま
た、「二Ｊ　（数詞）を内部に格納したタイプＢのプロ
セス４１が生成される際に、ローカルメモリ４０９内の
形態素列の末尾、すなわち、「二」　（数詞）が文節末
尾になり得ることから、ローカルメモリ４０９内の形態
素列が文節候補として出力される。

続いて、辞書検索手段３から次の形態素：　「煮」（動
詞語幹）が読み込まれ、第９図（Ｃ）に示すように、全
プロセス４０．４１に同時に渡される。すると、プロセ
ス４０では「煮」　（動詞語幹）が文節先頭になり得る
か否かが判定され、プロセス４１では「二ｊ（数詞）と
「煮」　（動詞語幹）が接続可能か否かが判定される。

このプロセス４０とプロセス４１とは同時に動作する。

判定の結果、「煮」　（動詞語幹）は文節先頭になるた
め、「煮」　（動詞語幹）を格納したタイプＢのプロセ
ス４１が生成される。「二」（数詞）と「煮」　（動詞
語幹）とは位置的に接続不可である。この段階が第９図
（ｄ）に示されている。

なお、「煮」　（動詞語幹）は文節末尾にならないので
、「煮」　（動詞語幹）を格納したタイプＢのプロセス
４１が生成されたときに、文節候補は出力されない。

さらに、「似」　（動詞語幹）、［日本Ｊ　（名詞）。

「本」　（名詞）という順に形態素が読み込まれ、プロ
セスの生成が行なわれ、次に、［本Ｊ　（助数詞）が読
み込まれたところを示したのが、第１Ｏ図（ａ）である
。全プロセスの入力ハツファに、同時に１本」　（助数
詞）が取り込まれたところである。

続いて、全プロセスで接続検定が同時に行なわれ、新た
に生成されるプロセスが、第１０図ら）に示したタイプ
Ｂのプロセス４１である。その内部のローカルバッファ
には、「二」　（数詞）／「本」　（助数詞）という形
態素列が格納されている。

続いて、「語」　（接尾語）が読み込まれたところが、
第１１図（ａ）に示されている。各プロセスでの処理の
結果、第１１図（ｂ）のプロセス４１が新たに生成され
る。と同時に、第１１図（ａ）において×印を付加した
プロセスが消滅する。Ｘ印を付加したプロセスでは、ロ
ーカルメモリ４０９内の形態素列の末尾の位置と、入力
バッファ４０８に読み込まれた形態素の先頭位置との間
に、距離が生じたためである。

〔発明の効果〕

以上説明したように、本発明によれば、形態素解析を並
列処理できるため、高速な形態素解析装置が得られる。

その際、辞書検索に同期した処理を行なっているため、
従来の並列処理方式では問題となっていた辞書の重複検
索という無駄が発生していない。

【図面の簡単な説明】

第１図は本発明の一実施例の構成を示すブロック図、第２図は形態素解析過程の例を示す図、第３図は従来の
形態素解析処理の一部分の例を示す図、第４図はマルチプロセス手段の構成例を示したブロック
図、第５図および第６図はコントローラの処理内容を表した
フローチャート、第７図はタイプＡのプロセスの処理内容を表したフロー
チャート、第８図はタイプＢのプロセスの処理内容を表したフロー
チャート、第９図、第１０図、第１１図は実施例の動作例を示す図
である。１・・・・・文字列入力手段２・・・・・辞書３・・・・・辞書検索手段４・・・・・マルチプロセス手段５・・・・・文節候補メモリ６・・・・・第１候補決定手段４０・・・・・タイプＡのプロセス４１・・・・・タイプＢのプロセス４００　　・・・・処理ユニット（ＰＵ）４０１　　・
・・・コントローラ４０２　　・・・・辞書制御線４０３　・・・・辞書データ線４０４　　・・・・ＰＵＩＩＪ御線４０５　　・・・・ＰＵアドレス線ＰＵデデー線

Claims

【特許請求の範囲】

（１）入力された文字列を構成する形態素を認定する形
態素解析装置において、形態素を登録した辞書と、前記辞書を検索して前記入力された文字列の部分文字列
に一致する形態素を前記入力された文字列中の先頭から
の出現順に抽出する辞書検索手段と、前記辞書検索手段によって形態素が抽出されるのに同期
して並列に動作するプロセスによって文節候補を作成す
るマルチプロセス手段とを備えることを特徴とする形態
素解析装置。
（２）前記マルチプロセス手段において並列動作するプ
ロセスにはタイプＡとタイプＢの２通りのタイプがあり
、前記マルチプロセス手段の受け取る形態素は前記並列
動作する全プロセスに同時に渡され、前記タイプＡのプ
ロセスは、常に１個であり、受け取った形態素が文節の
先頭になることが可能か否かを判定し、可能である場合
にはその形態素を内部に格納したタイプＢのプロセスを
新たに発生させ、タイプＢのプロセスは、受け取った形
態素が内部に格納した形態素列の末尾に接続可能か否か
を判定し、可能である場合はその形態素を末尾に接続し
たタイプＢのプロセスを新たに発生させ、内部に格納し
た形態素列の末尾位置より後方に離れた位置を先頭とす
る形態素を受け取った場合には消滅し、前記新たに発生
したタイプＢのプロセスは、内部に格納した形態素列の
末尾が文節の末尾になることが可能か否かを判定し、可
能である場合にはその形態素列を文節候補として出力す
ることを特徴とする請求項１記載の形態素解析装置。