JPH04180169A

JPH04180169A - 形態素解析装置

Info

Publication number: JPH04180169A
Application number: JP2309590A
Authority: JP
Inventors: Shunichi Fukushima; 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-11-15
Filing date: 1990-11-15
Publication date: 1992-06-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）計算機による入力された文字列の解析は、一般に、形態
素解析、構文解析、意味解析という段階で行なわれる。

本発明は、この第１段階である形態素解析を行なう装置
に関するものである。形態素解析では、入力された文字
列を構成する形態素の認定が行なわれる。

本発明は、かな漢字変換、機械翻訳、連続音声認識、キ
ーワード抽出など、入力された文字列を解析することに
よって実現されている産業分野に関わる。

（従来の技術）一般に、日本語文の形態素解析は、「盲人用読書器にお
ける文章解析−解析方式−」（福島・他、情報処理学会
第３１口金国大会、３Ｎ−７，１９８５年）、［パソコ
ンによるベタ書き入力カナ漢字変換」（犬山・他、情報
処理学会第２９口金国大会、５Ｊ−３，１９８４年）、
べた書き文仮名漢字変換における最適文選択法」（国都
・他、情報処理学会第２８口金国大会、４Ｍ−８，１９
８４年）などの文献に示されているように、人力された
文字列に対して文節候補を作成する第１段階と、作成さ
れた文節候補のなかから最も確からしいものを選ぶ第２
段階とに分かれる。

第２図は、上で説明した形態素解析過程の流れを表わし
ており、第１段階と第２段階の各々の処理結果の例を示
している。第２図において、１００は入力された文章（
この例ではかな文字列であるが一般的な形態素解析では
かな文字列に限定されない）、１１０は第１段階１０の
処理結果として出力された文節候補群、１２０は第２段
階１１の処理結果として出力された第１候補文節列であ
る。１１０と１２０において、［日本７語／の］、［文
章ｌを］、［文相／をｊなどは文節の候補であり、ｌは
文節内の単語の区切りを表わしている。文節候補の組み
合わせが線でつながれて表現されている。

従来、形態素解析の第１段階と第２段階とでは、それぞ
れ、およそ次のような処理が行なわれている（詳細は前
記の文献に述べられている）。

まず、第１段階では、人力された文字列の部分文字列に
一致する形態素を形態素辞書から検索する辞書検索処理
と、辞書検索処理で得られた形態素をつなげて文節候補
を作成する接続検定処理とが行なわれる。接続検定処理
では、文節内で２つの形態素が文法的に隣接し得るか否
か、および、ある形態素が文節の先頭あるいは末尾にな
り得るか否かを記述したテーブルを参照して、形態素を
つなげてゆく。

次に、第２段階では、文節数・品詞の並び・意味的な関
係の強さなどをもとに、各文節候補あるいは文節候補の
並びに対して評価値を計算し、最もよい評価値をとった
文節候補の系列を、第１候補として決定することが行な
われている。

従来の形態素解析手段は、逐次処理型の計算機として実
現されている。しかし、より大量の文章を処理したい、
あるいは、より解析精度を高めるために検索する辞書を
犬語索化じたいなどの要求も含めて、形態素解析の高速
化が望まれてきている。

この要求をかなえる方法に、形態素解析の並列処理化が
ある。「日本語の並列形態素解析］（峯・他、情報処理
学会第４０口金国大会、４Ｆ−１，１９９０年）や、「
マルチタスク方式によるカナ漢字変換］（犬山・他、情
報処理学会第２５口金国大会、６Ｊ−２，１９８２年）
の文献に、従来の形態素解析を素直に並列化する方法が
示されている。

その方法を例を用いて説明する。並列化の本質は、前記
の第１段階にあるので、第２段階に関する説明する省略
する。

［にほんごのふんしようを・・・・・」という文字列が
人力されたとすると、まず、その先頭から始まる形態素
が辞書から検索され、「日本」（名詞）、［二］（数詞
）、［煮］（動詞語幹）、「似」（動詞語幹）などが得
られる。ここで、逐次処理では、「日本１　「二」　「
煮」　「似］の各々について順次、後接する形態素の検
索が行なわれるわけであるが、それを並列化すると、次
のようになる。すなわち、「日本」　「二」　「煮」　
［似Ｊの各々についてプロセスが１個ずつ割り当てられ
て、各々のプロセスで独立に、後接する形態素の検索が
行なわれる。「日本」に後接する形態素を検索するプロ
セス、「二」に後接する形態素を検索するプロセス、「
煮Ｊに後接する形態素を検索するプロセス、「似」に後
接する形態素を検索するプロセスなどが、同時に動作す
ることになる。

それらのプロセスのうち、例えば「日本ｊに後接する形
態素を検索するプロセスについてみると、「ごのぶんし
ようを・・・・・」の位置で形態素辞書の検索が行なわ
れて、「語」（接尾語）、［後］（接尾語）、「基」（
名詞）、「五」（数詞）などが検索される。そして、そ
れらと「日本］（名詞）との間の接続検定が行なわれて
、［日本１語］　「日本ｌ後」という形態素列が作成さ
れる。この段階で、［日本１語］と［日本ｌ後］には、
新たにプロセスが割り当てられ、各々独立に、後接する
形態素の検索が並列に行なわれる。

（発明が解決しようとする課題）このような並列化方式には、次のような問題点がある。

第３図には、（ａ）［日本］に対するプロセスと、（ｂ
）［二１本］に対するプロセスとが示されている。

点線で囲まれた形態素群３００・３０１は、辞書から検
索された形態素群を表わしている。○あるいはＸが付加
された直線は、接続検定を意味している（○は結ばれた
２形態素が接続可、×は結ばれた形態素が接続不可）。

この２つのプロセスでは、辞書から全く同じ形態素群が
検索される（３００と３０１とが同一）。つまり、人力
文字列中の同じ位置での形態素辞書の検索を重複して行
なっている。

形態素辞書は、通常、数万から数十万作の形態素を収め
た大容量のものであるから、プロセスごとに、辞書用の
メモリをもつことは現実的でなく、すべてのプロセスで
共有するメモリに置かれる。そして、共有メモリは、複
数のプロセスから独立に同時にアクセスはできない。し
かも、辞書検索処理は、接続検定処理に比べて、はるか
に処理時間を要する。したがって、このような辞書検索
処理において、上述のように同じ位置で重複を行なうよ
うなことは、処理時間上、著しい効率の低下をもたらす
。

さらに、複数のプロセスから同時に辞書アクセスの要求
がでて、アクセス競合が発生する場合には、その調整機
構を設ける必要があり、実現形態が複雑になってしまう
。

ここで、辞書検索処理の内部に、−度検索された形態素
を保持しておくテーブルを用意しておき、同一位置で２
度目以降の検索では、辞書を直接検索せずに、テーブル
から取り出すだけとする方法が考えられる。この方法に
よって、重複による処理時間の無駄を軽減できるが、依
然として無駄は大きい。また、アクセス競合の調整機構
が必要であることにも変わりがない。

本発明の目的は、辞書検索処理を重複して行なうような
無駄を発生させずに、並列処理化された高速な形態素解
析装置を提供することである。

（課題を解決するための手段）本発明は、入力された文字列を構成する形態素を認定す
る形態素解析装置において、形態素を登録した辞書と、
前記辞書を検索して前記入力された文字列の部分文字列
に一致する形態素を前記入力された文字列中の先頭から
の出現順に抽出する辞書検索手段と、前記辞書検索手段
によって形態素が抽出されるのに同期して並列に動作す
るプロセスによって文節候補を作成するマルチプロセス
手段と、前とマルチプロセス手段によって作成された文
節候補を参照して前記プロセスを抑制するプロセス抑制
手段とを備えることを特徴とする形態素解析装置である
。

上記マルチプロセス手段において並列動作するプロセス
には２通りのタイプ（タイプＡとタイプＢとする）があ
る。そして、前記マルチプロセス手段の受け取る形態素
は、前記並列動作する全プロセスに同時に渡される。

前記タイプＡのプロセスは、受け取った形態素が文節の
先頭になることが可能か否かを判定し、可能であり、か
つ、前記プロセス抑制手段による抑制を受けない場合に
は、該形態素を内部に格納したタイプＢのプロセスを発
生させる。前記タイプＢのプロセスは、受け取った形態
素が内部に格納した形態素列の末尾に接続可能か否かを
判定し、可能である場合は、該形態素を末尾に接続した
タイプＢのプロセスを発生させる。また、同タイプＢの
プロセスは、内部に格納した形態素列の末尾位置より後
方に離れた位置を先頭とする形態素を受け取った場合に
は消滅する。さらに、新たにタイプＢのプロセスが発生
する際には、内部に格納した形態素列の末尾が文節の末
尾になることが可能か否かが判定され、可能である場合
には該形態素列が文節候補として出力される。

（実施例）図面を用いて、本発明の構成・作用を説明する。

第１図は本発明の形態素解析装置の一実施例の構成を示
すブロック図である。

第１図において、文字列入力手段１は、文字列を人力す
るための手段であり、キーボード、文字認識装置、磁気
ディスク読み取り装置などで実現できる。

辞書２は、形態素を登録した辞書であり、ＩＣメモリ、
磁気ディスク装置などで実現できる。

辞書検索手段３は、辞書２を検索して、文字列入力手段
１から入力された文字列の部分文字列に一致する形態素
を、入力された文字列中の先頭がらの出現順に抽出する
手段である。その実現方法は、例えば、「文章解析アク
セラレータ（１）−形態素抽出マシンの試作−」（福島
・他、情報処理学会自然言語処理研究会報告、ＮＬ−７
５−９，１９９０年）などの文献に示されている。

マルチプロセス手段４は、辞書検索手段３によって形態
素が抽出されるのに同期して並列に動作するプロセスに
よって文節候補を作成する手段である。ここでいう並列
動作するプロセスには２通りのタイプ（タイプＡとタイ
プＢとする）がある。辞書検索手段３からマルチプロセ
ス手段４が受け取る形態素は、それら並列動作する全プ
ロセスに同時に渡される。

タイプＡのプロセスは、常に１個であり、受け取った形
態素が文節の先頭になることが可能か否かを判定し、可
能である場合には、プロセス抑制手段７による抑制を受
けていないならば、その形態素を内部に格納したタイプ
Ｂのプロセスを発生させる。

タイプＢのプロセスは、受け取った形態素が内部に格納
した形態素列の末尾に接続可能か否かを判定し、可能で
ある場合は、該形態素を末尾に接続したタイプＢのプロ
セスを発生させる。また、タイプＢのプロセスは、内部
に格納した形態素列の末尾位置より後方に離れた位置を
先頭とする形態素を受け取った場合には消滅する。さら
に、新たに発生したタイプＢのプロセスは、内部に格納
した形態素列の末尾が文節の末尾になり得る場合には、
該形態素列を文節候補として出力する。

このようなマルチプロセス手段４は、「情報処理学会誌
」第２８巻第１号（１９８７年）や［人工知能学会誌］
第４巻第３号（１９８９年）に示されているような並列
計算機上のプログラムとして容易に実現できる。

あるいは、例えば、第４図に示すような構成により実現
できる。

以下では、第４図に示したマルチプロセス手段４の構成
方法を説明する。

第４図に示したマルチプロセス手段４は、１個のコント
ローラ４０１、（Ｎ＋１）個の処理ユニット（以下では
ＰＵとする）４００から構成される。（Ｎ＋１）個のＰ
Ｕのうち、ＰＵ＃０ではタイプＡのプロセスが常時動作
する。ＰＵ＃１からＰＵ＃ＮではタイプＢのプロセスが
生成しｌ消滅しながら動作する。ＰＵ＃０からＰＵ＃Ｎ
のうち、プロセスが動作しているものを活性状態と呼び
、プロセスが動作していないものを非活性状態と呼ぶ。

コントローラ４０１と辞書検索手段３とは、辞書制御線
４０２でつながれ、辞書制御線４０２は、辞書検索手段
３からマルチプロセス手段４へ、検索された形態素のデ
ータを１個ずつ転送するタイミングなどを制御するため
に用いられる。辞書検索手段３から全ＰＵ４００には、
辞書データ４０３が並列接続されて、１個の形態素デー
タが辞書検索手段３から全ＰＵ４００に同時に転送でき
るようになっている。コントローラ４０１から全ＰＵ４
００へは、ＰＵ制御線４０４、ＰＵアドレス線４０５、
ＰＵデータ線４０６がつながれている。このうち、ＰＵ
制御線４０４とＰＵアドレス線４０５　ハ、コントロー
ラ４０１からＰＵ４００へのコマンドを伝えるためのも
のである（ＰＵアドレス４０５がおもに対象ＰＵとコマ
ンド内容を指定し、ＰＵ制御線４０４はおもにタイミン
グを与える）。ＰＵデータ線４０６は、ＰＵ４００間で
形態素列データをやり取りするのに用いられる。また、
ＰＵ制御線４０４、ＰＵアドレス線４０５、ＰＵデータ
線４０６は、文節候補メモリ５へも接続され、マルチプ
ロセス手段４から文節候補メモリ５への文節候補の書き
込みにも用いられる。さらに、コントローラ４０１は抑
制指令線４０７によりプロセス制御手段７からの抑制情
報を受け取る。

第５図と第６図は、コントローラ４０１の処理内容を表
わしたフローチャートである。第７図（ａＸｂ）は、Ｐ
Ｕ＃Ｏで動作するタイプＡのプロセスの処理内容を表わ
したフローチャートである。第８図（ａＸｂＸｃ）は、
ＰＵ＃１からＰＵ＃Ｎで、生成／消滅しながら動作する
タイプＢのプロセスの処理内容を表わしたフローチャー
トである。それらを、第５図を中心として説明する。

コントローラ４０１は、まず、辞書制御線４０２により
、辞書検索手段３のステータスを調べる。（ステップ５
００）。ステータスが終了状態（入力テキストをすべて
処理済み）であればコントローラ４０１も処理を終了し
、ステータスが出力可能状態（形態素が既に検出されて
いる状態）であればステップ５０２以下の処理を行ない
、それ以外（形態素がまだ検出されていない状態）であ
れば検出されるのを待つ（ステップ５０１）、続いて、出力可能状態の場合には、コントローラ４０１
は辞書データ線４０３より、活性状態の全ＰＵに同時に
形態素１個のデータを取り込ませる。（ステップ５０２
）。これは、コントローラ４０１がＰＵにＧＥＴコマン
ドを送って制御する。なお、ＰＵは内部に入力バッファ
を持ち、形態素データは、その入カバソファに取りこま
れる（ステップ７０１・８０１）。

続いて、コントローラ４０１は、ＲＵＮコマンドで制御
して、活性状態の全ＰＵに同時に形態素の接続検定を行
なわせる（ステップ５０３）。この接続検定は、タイプ
Ａのプロセス（ＰＵ＃０）と、タイプＢのプロセス（Ｐ
Ｕ＃１〜ＰＵ＃Ｎ）とでは異なる。

タイプＡのプロセスにおける接続検定は、プロセス抑制
手段７による抑制を受けていない場合には、第７図（ｂ
）のような手続きになる。まず、大力バッファ内の形態
素の文節先頭可能性を判定しくステップ７０４）、文節
先頭にならないと判定された（ステップ７０５）ならば
、ステータスをＦ不変モードＪとする。文節先頭になり
得ると判定された（ステップ７０５）ならば、続いて、
その形態素の文節末尾可能性を判定する（ステップ７０
６）。その結果、文節末尾になり得る（ステップ７０８
）ならば、ステータスを「生成登録モード」としくステ
ップ７０９）、なり得ない（ステップ７０８）ならば、
ステータスを「生成モード」とする（ステップ７１０）
。一方、プロセス抑制手段７による抑制を受けた場合に
は、無条件で、ステータスを［不変モード］とする。

タイプＢのプロセスにおける接続検定は、第８図（ｂＸ
ｃ）のような手続きになる。タイプＢのプロセスでは大
力バッファに加えて、内部にローカルメモリも持ってい
る。まず、このローカルメモリ内に既に格納されている
形態素列の末尾位置と、入力バッファに格納された形態
素の先頭位置との関係を調べる（ステップ８０５）。そ
の結果、入力バッファの形態素の先頭位置が、ローカル
メモリ内の形態素列の末尾位置より後方に離れている（
ステップ８０６）ならば、ステータスを「消滅モード」
にする。

大力バッファの形態素の先頭位置が、ローカルメモリ内
の形態素列の末尾位置の直後である（ステップ８０６）
ならば、ステップ８０７以下の処理を行なって、ステー
タスを決定する。それ以外（ステップ８０６）の場合は
、ローカルメモリ内の形態素列と大力バッファ内の形態
素が、位置的に重なっており、ステータスは［不変モー
ド］とする。位置的に直後に接続した場合のステップ８
０７以下の処理では、文法的な接続可能性も判定する（
ステップ８０７）。接続しないと判定された（ステップ
８０９）ならば、ステータスを「不変モード」とする。

接続すると判定された（ステップ８０９）ならば、続い
て、接続した形態素の文節末尾可能性を判定する（ステ
ップ８１１）。その結果、文節末尾になり得る（ステッ
プ８１２）ならば、ステータスを「生成登録モード」と
しくステップ８１３）、なり得ない（ステップ８１２）
ならば、ステータスを「生成モード」とする（ステップ
８１４）。

なお、文節先頭可能性、文節末尾可能性、形態素の文法
的接続可能性などの判定方法は、従来と同様で、それら
の可能性を記述したテーブルを参照して行なう。

さて、第５図の流れに戻ると、接続検定を行なわせた（
ステップ５０３）の後、コントローラ４０１は、活性状
態の全ＰＵについて、プロセスの更新＆文節候補の作成
の手続きを実行する（ステップ５ｏ４）。第６図が、活
性状態の各ＰＵに対する、プロセスの更新＆文節候補の
作成の手続きである。

つまり、ＰＵのステータスをチエツクしくステップ６０
０）、ステータスが［消滅モード］　［生成モードｊＦ
生成登録モード１　「不変モードＪのいずれかによって
、以下のような処理を行なう（ステップ６０１）。ステ
ータスのチエツクの際には、コントローラ４０１からＣ
ＨＥＣＫコマンドが発行され、対象のＰＵは、ステータ
スをＰＵデータ線４０６に出力する（ステップ７０２・
８０２）。

コントローラ４０１は、まず、「不変モード」のＰＵに
は何もしない。ここでコントローラ４０１は、内部にＰ
Ｕ管理表を持ち、ＰＵ＃０からＰＵ＃Ｎのいずれが、活
性状態にあり、非活性状態のＰＵがどれががわかるよう
に管理されている。そこで、［消滅モード］のＰＵにつ
いては、ＰＵ管理表において、活性状態から非活性状態
に更新される（ステップ６０６）。非活性状態になると
、ＰＵでは、第８図に示したような処理が停止する。

「生成モード」や「生成登録モードＪでは、ＰＵ管理表
において、非活性状態であったＰＵが１個、活性状態に
変更される（ステップ６０２・６０３）。活性化された
ＰＵでは、第８図のような処理が起動される。そして、
新たに活性化されたＰＵに形態素列データがコピーされ
る（ステップ６０４・６０５）。このコピー操作は、コ
ントローラ４０１から、５ＥＮＤコマンドとＲＥＣＥｒ
ＶＥコマンドが発行されて制御される（ステップ７０３
−８０３・８０４）。このコピー操作は、「生成モード
」でも「生成登録モード］でも行なわれるが、「生成登
録モード」では、それに加えて、文節候補メモリ５へも
同時に、形態素列データが出力される。

コントローラ４０１は、第５図のステップ５０２から５
０４の処理を、辞書検索手段２から形態素を１個読み込
むごとに、繰り返して実行させる。

以上、マルチプロセス手段４の実現方法を詳細に説明し
た。

文節候補メモリ５は、マルチプロセス手段４で作成され
た文節候補を格納する手段であり、ＩＣメモリ、磁気デ
ィスク装置などで実現できる。

プロセス抑制手段７は、文節候補メモリ５を参照して、
マルチプロセス手段４におけるプロセスの発生を抑制す
る。そして、抑制条件に関する情報を、抑制指令線４０
７を通して、マルチプロセス手段４に送る。これによっ
て抑制されるのは、タイプＡのプロセス（文節の先頭と
なるプロセス）の発生である。例えば、文節候補メモリ
５に格納されている文節候補のテキスト内での末尾位置
が、１文字目、２文字目、５文字目であったとすると、
それらに続く文節候補は２文字目、３文字目、６文字目
のいずれがであって、４文字目や５文字目から始まる文
節候補は適当でない。そこで、プロセス抑制手段７は、
文節候補の末尾位置に関する情報（あるいは、その次の
文節の先頭になり得る位置に関する情報）を、抑制指令
線４０７へ出力する。

第１候補決定手段６は、第２図に示したような形態素解
析の第２手段を実行する手段であり、従来の形態素解析
装置で用いられているもの（従来の技術の欄を参照）と
同じである。

次に、マルチプロセス手段４を中心に、この実施例の動
作例を説明する。

文字列入力手段ｌから、例えば、「にほんごのふんしよ
うを・・・・何という文字列が入力されたとする。

これに対して、辞書検索手段３は、入力文字列の先頭か
らの出現順に、例えば、次のような形態素を抽出する。

「二」（数詞）、［煮］（動詞語幹）、「似」（動詞語
幹）、［日本Ｊ（名詞）、Ｆ本］（名詞）、「本Ｊ（助
数詞）、「語」（接尾語）、「後」（接尾語）、「基」
（名詞）、「五」（数詞）、「の」（助詞）、［の］（
動詞語尾）、・・・・・マルチプロセス手段４は、これらの形態素を１個ずつ順
番に受け取って、プロセスを生成ｌ消滅させながら処理
を進める。

最初は、タイプＡのプロセス１個だけが存在する。そし
て、最初の形態素「二」（数詞）が、辞書検索手段３か
ら送られてきたところを示した図が、第９図（ａ）であ
る。４０はタイプＡのプロセス、４０７はタイプＡのプ
ロセス４０内にある大カバッフナの内容を示している。

タイプＡのプロセス４０では、「二」（数詞）が文節先
頭になり得るか否かが判定される。その結果、「二］（
数詞）は文節先頭になり得るので、「二」（数詞）を内
部に格納したタイプＢのプロセスが生成される。その段
階を示したのが、第９図（ｂ）である。４１はタイプＢ
のプロセス、４０８はタイプＢのプロセス４１内にある
大力バッファの内容、４０９はタイプＢのプロセス４１
内にあるローカルメモリの内容を示している。また、［
二］（数詞）を内部に格納したタイプＢのプロセス４１
が生成される際に、ローカルメモリ４０９内の形態素列
の末尾、すなわち、Ｆ二Ｊ（数詞）が文節末尾になり得
ることから、ローカルメモリ４０９内の形態素列が文節
候補として出力される。

続いて、辞書検索手段３からの次の形態素＝「煮」（動
詞語幹）が読み込まれ、第９図（ｃ）に示すように、全
プロセス４０−４１に同時に渡される。すると、プロセ
ス４０では「煮」（動詞語幹）が文節先頭になり得るか
否かが判定され、プロセス４１ではＵ二］（数詞）と［
煮Ｊ（動詞語幹）が接続可能か否かが判定される。この
プロセス４０とプロセス４１とは同時に動作する。判定
の結果、［煮」（動詞語幹）は文節先頭になるため、［
煮］（動詞語幹）を格納したタイプＢのプロセス４１が
生成される「二」（数詞）と「煮Ｊ（動詞語幹）とは位
置的に接続不可能である。

この段階が第９図（ｄ）に示されている。なお、「煮」
（動詞語幹）は文節末尾にならないので、「煮Ｊ（動詞
語幹）を格納したタイプＢのプロセス４１が生成された
ときに、文節候補は出力されない。

さらに、「似」（動詞語幹）、「日本」（名詞）、「本
」（名詞）、という順に形態素が読み込まれ、プロセス
の生成が行なわれ、次に「本Ｊ（助数詞）が読み込まれ
たところを示したのが、第１０固自）である。全プロセ
スの大力バッファに、同時に［本］（助数詞）が読み込
まれたところである。続いて、全プロセスで接続検定が
同時に行なわれ、新たに生成されるプロセスが、第１０
図（ｂ）に示したタイプＢのプロセス４１である。その
内部のローカルバッファには、「二」（数詞）／［本］
（助数詞）という形態素列が格納されている。

続いて「語］（接尾語）が読み込まれたところが、第１
１図（ａ）に示されている。各プロセスでの処理の結果
、第１１図（ｂ）のプロセス４１が新たに生成される。

と同時に、第１１図（ａ）においてＸ印を付加したプロ
セスが消滅する。Ｘ印を付加したプロセスでは、ローカ
ルメモリ４０９内の形態素列の末尾の位置と、入力バッ
ファ４０８に読み込まれた形態素の先頭位置との間に、
距離が生じたためである。

上記の例では、プロセス抑制手段７により抑制機能は働
いていないが、次のような例では有効になる。例えば、
［スマイルを・・・・・」というテキストを対象にして
いるものとする。まず１文字目から「スマイルＪという
単語が辞書検索手段３から得られ、それに対応するプロ
セスが発生する。そして、続いて得られるのは、ｒマイ
ルＪという単語である。しかし、「ス」　「スマ」　［
スマイＪなとの単語は検索されていないので、テキスト
の２文字目・３文字目・４文字目は文節の先頭にはなら
ない。文節の先頭になり得るのは、５文字目である。そ
の情報がプロセス抑制手段４からマルチプロセス手段７
へ送られる結果、マルチプロセス手段４において、「マ
イルＪに対するプロセスは発生しない。

（発明の効果）以上説明したように、本発明によれば、形態素解析を並
列処理できるため、高速な形態素解析装置が得られる。

その際、辞書検索に同期した処理を行なっているため、
従来の並列方式では問題となっていた辞書の重複検索と
いう無駄が発生していない。

また、文節の先頭になり得ない位置をチエツクし、文節
の形成を抑制する機構（プロセス抑制手段）を備えてい
るため、さらに効率がよい形態素解析装置が実現できる
。

【図面の簡単な説明】

第１図は本発明の実施例の構成を示すブロック図、第２
図は形態素解析過程の例、第３図は従来の形態素解析処
理の一部分の例、第４図はマルチプロセス手段４の構成
例を示しブロック図、第５図と第６図はコントローラ４
０１の処理内容を表わしたフローチャート、第７図はタ
イプＡのプロセスの処理内容を表わしたフローチャート
、第８図はタイプＢのプロセスの処理内容を表わしたフ
ローチャート、第９図・第１０図・第１１図は実施例の
動作例を示す図である。図において、ｌ・・・文字列入力手段、２・・・辞書、
３・・・辞書検索手段、４・・・マルチプロセス手段、
５・・・文節候、補メモリ、６・・・第１候補決定手段
、７・・・プロセス抑制手段、４０・・・タイプＡのプ
ロセス、４１・・・タイプＢのプロセス、４００・・−
処理ユニット（ＰＵ）、４０１・・・コントローラ、４
０２・・・辞書制御線、４０３・・・辞書データ線、４
０４・・・ＰＵ制御線、４０５・・・ＰＵアドレス線、
４０６・・・ＰＵデータ線、４０７・・・抑制制御線で
ある。

Claims

【特許請求の範囲】

（１）入力された文字列を構成する形態素を認定する形
態素解析装置において、形態素を登録した辞書と、前記
辞書を検索して前記入力された文字列の部分文字列に一
致する形態素を前記入力された文字列中の先頭からの出
現順に抽出する辞書検索手段と、前記辞書検索手段によ
って形態素が抽出されるのに同期して並列に動作するプ
ロセスによって文節候補を作成するマルチプロセス手段
と、前記マルチプロセス手段によって作成された文節候
補を参照して前記プロセスを抑制するプロセス抑制手段
とを備えることを特徴とする形態素解析装置。
（２）マルチプロセス手段において並列動作するプロセ
スには２通りのタイプ（タイプＡとタイプＢとする）が
あり、前記マルチプロセス手段の受け取る形態素は前記
並列動作する全プロセスに同時に渡され、前記タイプＡ
のプロセスは受け取った形態素が文節の先頭になること
が可能か否かを判定し可能でありかつ前記プロセス抑制
手段による抑制を受けない場合には該形態素を内部に格
納したタイプＢのプロセスを発生させ、タイプＢのプロ
セスは受け取った形態素が内部に格納した形態素列の末
尾に接続可能か否かを判定し可能である場合は該形態素
を末尾に接続したタイプＢのプロセスを発生させ、同タ
イプＢのプロセスは内部に格納した形態素列の末尾位置
より後方に離れた位置を先頭とする形態素を受け取った
場合には消滅し、新たにタイプＢのプロセスが発生する
際には内部に格納した形態素列の末尾が文節の末尾にな
ることが可能か否かが判定され可能である場合には該形
態素列が文節候補として出力されることを特徴とする請
求項１記載の形態素解析装置。