JPH04180169A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH04180169A
JPH04180169A JP2309590A JP30959090A JPH04180169A JP H04180169 A JPH04180169 A JP H04180169A JP 2309590 A JP2309590 A JP 2309590A JP 30959090 A JP30959090 A JP 30959090A JP H04180169 A JPH04180169 A JP H04180169A
Authority
JP
Japan
Prior art keywords
morpheme
dictionary
type
clause
morphemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2309590A
Other languages
English (en)
Inventor
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2309590A priority Critical patent/JPH04180169A/ja
Publication of JPH04180169A publication Critical patent/JPH04180169A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 計算機による入力された文字列の解析は、一般に、形態
素解析、構文解析、意味解析という段階で行なわれる。
本発明は、この第1段階である形態素解析を行なう装置
に関するものである。形態素解析では、入力された文字
列を構成する形態素の認定が行なわれる。
本発明は、かな漢字変換、機械翻訳、連続音声認識、キ
ーワード抽出など、入力された文字列を解析することに
よって実現されている産業分野に関わる。
(従来の技術) 一般に、日本語文の形態素解析は、「盲人用読書器にお
ける文章解析−解析方式−」(福島・他、情報処理学会
第31口金国大会、3N−7,1985年)、[パソコ
ンによるベタ書き入力カナ漢字変換」(犬山・他、情報
処理学会第29口金国大会、5J−3,1984年)、
べた書き文仮名漢字変換における最適文選択法」(国都
・他、情報処理学会第28口金国大会、4M−8,19
84年)などの文献に示されているように、人力された
文字列に対して文節候補を作成する第1段階と、作成さ
れた文節候補のなかから最も確からしいものを選ぶ第2
段階とに分かれる。
第2図は、上で説明した形態素解析過程の流れを表わし
ており、第1段階と第2段階の各々の処理結果の例を示
している。第2図において、100は入力された文章(
この例ではかな文字列であるが一般的な形態素解析では
かな文字列に限定されない)、110は第1段階10の
処理結果として出力された文節候補群、120は第2段
階11の処理結果として出力された第1候補文節列であ
る。110と120において、[日本7語/の]、[文
章lを]、[文相/をjなどは文節の候補であり、lは
文節内の単語の区切りを表わしている。文節候補の組み
合わせが線でつながれて表現されている。
従来、形態素解析の第1段階と第2段階とでは、それぞ
れ、およそ次のような処理が行なわれている(詳細は前
記の文献に述べられている)。
まず、第1段階では、人力された文字列の部分文字列に
一致する形態素を形態素辞書から検索する辞書検索処理
と、辞書検索処理で得られた形態素をつなげて文節候補
を作成する接続検定処理とが行なわれる。接続検定処理
では、文節内で2つの形態素が文法的に隣接し得るか否
か、および、ある形態素が文節の先頭あるいは末尾にな
り得るか否かを記述したテーブルを参照して、形態素を
つなげてゆく。
次に、第2段階では、文節数・品詞の並び・意味的な関
係の強さなどをもとに、各文節候補あるいは文節候補の
並びに対して評価値を計算し、最もよい評価値をとった
文節候補の系列を、第1候補として決定することが行な
われている。
従来の形態素解析手段は、逐次処理型の計算機として実
現されている。しかし、より大量の文章を処理したい、
あるいは、より解析精度を高めるために検索する辞書を
犬語索化じたいなどの要求も含めて、形態素解析の高速
化が望まれてきている。
この要求をかなえる方法に、形態素解析の並列処理化が
ある。「日本語の並列形態素解析](峯・他、情報処理
学会第40口金国大会、4F−1,1990年)や、「
マルチタスク方式によるカナ漢字変換](犬山・他、情
報処理学会第25口金国大会、6J−2,1982年)
の文献に、従来の形態素解析を素直に並列化する方法が
示されている。
その方法を例を用いて説明する。並列化の本質は、前記
の第1段階にあるので、第2段階に関する説明する省略
する。
[にほんごのふんしようを・・・・・」という文字列が
人力されたとすると、まず、その先頭から始まる形態素
が辞書から検索され、「日本」(名詞)、[二](数詞
)、[煮](動詞語幹)、「似」(動詞語幹)などが得
られる。ここで、逐次処理では、「日本1 「二」 「
煮」 「似]の各々について順次、後接する形態素の検
索が行なわれるわけであるが、それを並列化すると、次
のようになる。すなわち、「日本」 「二」 「煮」 
[似Jの各々についてプロセスが1個ずつ割り当てられ
て、各々のプロセスで独立に、後接する形態素の検索が
行なわれる。「日本」に後接する形態素を検索するプロ
セス、「二」に後接する形態素を検索するプロセス、「
煮Jに後接する形態素を検索するプロセス、「似」に後
接する形態素を検索するプロセスなどが、同時に動作す
ることになる。
それらのプロセスのうち、例えば「日本jに後接する形
態素を検索するプロセスについてみると、「ごのぶんし
ようを・・・・・」の位置で形態素辞書の検索が行なわ
れて、「語」(接尾語)、[後](接尾語)、「基」(
名詞)、「五」(数詞)などが検索される。そして、そ
れらと「日本](名詞)との間の接続検定が行なわれて
、[日本1語] 「日本l後」という形態素列が作成さ
れる。この段階で、[日本1語]と[日本l後]には、
新たにプロセスが割り当てられ、各々独立に、後接する
形態素の検索が並列に行なわれる。
(発明が解決しようとする課題) このような並列化方式には、次のような問題点がある。
第3図には、(a)[日本]に対するプロセスと、(b
)[二1本]に対するプロセスとが示されている。
点線で囲まれた形態素群300・301は、辞書から検
索された形態素群を表わしている。○あるいはXが付加
された直線は、接続検定を意味している(○は結ばれた
2形態素が接続可、×は結ばれた形態素が接続不可)。
この2つのプロセスでは、辞書から全く同じ形態素群が
検索される(300と301とが同一)。つまり、人力
文字列中の同じ位置での形態素辞書の検索を重複して行
なっている。
形態素辞書は、通常、数万から数十万作の形態素を収め
た大容量のものであるから、プロセスごとに、辞書用の
メモリをもつことは現実的でなく、すべてのプロセスで
共有するメモリに置かれる。そして、共有メモリは、複
数のプロセスから独立に同時にアクセスはできない。し
かも、辞書検索処理は、接続検定処理に比べて、はるか
に処理時間を要する。したがって、このような辞書検索
処理において、上述のように同じ位置で重複を行なうよ
うなことは、処理時間上、著しい効率の低下をもたらす
さらに、複数のプロセスから同時に辞書アクセスの要求
がでて、アクセス競合が発生する場合には、その調整機
構を設ける必要があり、実現形態が複雑になってしまう
ここで、辞書検索処理の内部に、−度検索された形態素
を保持しておくテーブルを用意しておき、同一位置で2
度目以降の検索では、辞書を直接検索せずに、テーブル
から取り出すだけとする方法が考えられる。この方法に
よって、重複による処理時間の無駄を軽減できるが、依
然として無駄は大きい。また、アクセス競合の調整機構
が必要であることにも変わりがない。
本発明の目的は、辞書検索処理を重複して行なうような
無駄を発生させずに、並列処理化された高速な形態素解
析装置を提供することである。
(課題を解決するための手段) 本発明は、入力された文字列を構成する形態素を認定す
る形態素解析装置において、形態素を登録した辞書と、
前記辞書を検索して前記入力された文字列の部分文字列
に一致する形態素を前記入力された文字列中の先頭から
の出現順に抽出する辞書検索手段と、前記辞書検索手段
によって形態素が抽出されるのに同期して並列に動作す
るプロセスによって文節候補を作成するマルチプロセス
手段と、前とマルチプロセス手段によって作成された文
節候補を参照して前記プロセスを抑制するプロセス抑制
手段とを備えることを特徴とする形態素解析装置である
上記マルチプロセス手段において並列動作するプロセス
には2通りのタイプ(タイプAとタイプBとする)があ
る。そして、前記マルチプロセス手段の受け取る形態素
は、前記並列動作する全プロセスに同時に渡される。
前記タイプAのプロセスは、受け取った形態素が文節の
先頭になることが可能か否かを判定し、可能であり、か
つ、前記プロセス抑制手段による抑制を受けない場合に
は、該形態素を内部に格納したタイプBのプロセスを発
生させる。前記タイプBのプロセスは、受け取った形態
素が内部に格納した形態素列の末尾に接続可能か否かを
判定し、可能である場合は、該形態素を末尾に接続した
タイプBのプロセスを発生させる。また、同タイプBの
プロセスは、内部に格納した形態素列の末尾位置より後
方に離れた位置を先頭とする形態素を受け取った場合に
は消滅する。さらに、新たにタイプBのプロセスが発生
する際には、内部に格納した形態素列の末尾が文節の末
尾になることが可能か否かが判定され、可能である場合
には該形態素列が文節候補として出力される。
(実施例) 図面を用いて、本発明の構成・作用を説明する。
第1図は本発明の形態素解析装置の一実施例の構成を示
すブロック図である。
第1図において、文字列入力手段1は、文字列を人力す
るための手段であり、キーボード、文字認識装置、磁気
ディスク読み取り装置などで実現できる。
辞書2は、形態素を登録した辞書であり、ICメモリ、
磁気ディスク装置などで実現できる。
辞書検索手段3は、辞書2を検索して、文字列入力手段
1から入力された文字列の部分文字列に一致する形態素
を、入力された文字列中の先頭がらの出現順に抽出する
手段である。その実現方法は、例えば、「文章解析アク
セラレータ(1)−形態素抽出マシンの試作−」(福島
・他、情報処理学会自然言語処理研究会報告、NL−7
5−9,1990年)などの文献に示されている。
マルチプロセス手段4は、辞書検索手段3によって形態
素が抽出されるのに同期して並列に動作するプロセスに
よって文節候補を作成する手段である。ここでいう並列
動作するプロセスには2通りのタイプ(タイプAとタイ
プBとする)がある。辞書検索手段3からマルチプロセ
ス手段4が受け取る形態素は、それら並列動作する全プ
ロセスに同時に渡される。
タイプAのプロセスは、常に1個であり、受け取った形
態素が文節の先頭になることが可能か否かを判定し、可
能である場合には、プロセス抑制手段7による抑制を受
けていないならば、その形態素を内部に格納したタイプ
Bのプロセスを発生させる。
タイプBのプロセスは、受け取った形態素が内部に格納
した形態素列の末尾に接続可能か否かを判定し、可能で
ある場合は、該形態素を末尾に接続したタイプBのプロ
セスを発生させる。また、タイプBのプロセスは、内部
に格納した形態素列の末尾位置より後方に離れた位置を
先頭とする形態素を受け取った場合には消滅する。さら
に、新たに発生したタイプBのプロセスは、内部に格納
した形態素列の末尾が文節の末尾になり得る場合には、
該形態素列を文節候補として出力する。
このようなマルチプロセス手段4は、「情報処理学会誌
」第28巻第1号(1987年)や[人工知能学会誌]
第4巻第3号(1989年)に示されているような並列
計算機上のプログラムとして容易に実現できる。
あるいは、例えば、第4図に示すような構成により実現
できる。
以下では、第4図に示したマルチプロセス手段4の構成
方法を説明する。
第4図に示したマルチプロセス手段4は、1個のコント
ローラ401、(N+1)個の処理ユニット(以下では
PUとする)400から構成される。(N+1)個のP
Uのうち、PU#0ではタイプAのプロセスが常時動作
する。PU#1からPU#NではタイプBのプロセスが
生成しl消滅しながら動作する。PU#0からPU#N
のうち、プロセスが動作しているものを活性状態と呼び
、プロセスが動作していないものを非活性状態と呼ぶ。
コントローラ401と辞書検索手段3とは、辞書制御線
402でつながれ、辞書制御線402は、辞書検索手段
3からマルチプロセス手段4へ、検索された形態素のデ
ータを1個ずつ転送するタイミングなどを制御するため
に用いられる。辞書検索手段3から全PU400には、
辞書データ403が並列接続されて、1個の形態素デー
タが辞書検索手段3から全PU400に同時に転送でき
るようになっている。コントローラ401から全PU4
00へは、PU制御線404、PUアドレス線405、
PUデータ線406がつながれている。このうち、PU
制御線404とPUアドレス線405 ハ、コントロー
ラ401からPU400へのコマンドを伝えるためのも
のである(PUアドレス405がおもに対象PUとコマ
ンド内容を指定し、PU制御線404はおもにタイミン
グを与える)。PUデータ線406は、PU400間で
形態素列データをやり取りするのに用いられる。また、
PU制御線404、PUアドレス線405、PUデータ
線406は、文節候補メモリ5へも接続され、マルチプ
ロセス手段4から文節候補メモリ5への文節候補の書き
込みにも用いられる。さらに、コントローラ401は抑
制指令線407によりプロセス制御手段7からの抑制情
報を受け取る。
第5図と第6図は、コントローラ401の処理内容を表
わしたフローチャートである。第7図(aXb)は、P
U#Oで動作するタイプAのプロセスの処理内容を表わ
したフローチャートである。第8図(aXbXc)は、
PU#1からPU#Nで、生成/消滅しながら動作する
タイプBのプロセスの処理内容を表わしたフローチャー
トである。それらを、第5図を中心として説明する。
コントローラ401は、まず、辞書制御線402により
、辞書検索手段3のステータスを調べる。(ステップ5
00)。ステータスが終了状態(入力テキストをすべて
処理済み)であればコントローラ401も処理を終了し
、ステータスが出力可能状態(形態素が既に検出されて
いる状態)であればステップ502以下の処理を行ない
、それ以外(形態素がまだ検出されていない状態)であ
れば検出されるのを待つ(ステップ501)、 続いて、出力可能状態の場合には、コントローラ401
は辞書データ線403より、活性状態の全PUに同時に
形態素1個のデータを取り込ませる。(ステップ502
)。これは、コントローラ401がPUにGETコマン
ドを送って制御する。なお、PUは内部に入力バッファ
を持ち、形態素データは、その入カバソファに取りこま
れる(ステップ701・801)。
続いて、コントローラ401は、RUNコマンドで制御
して、活性状態の全PUに同時に形態素の接続検定を行
なわせる(ステップ503)。この接続検定は、タイプ
Aのプロセス(PU#0)と、タイプBのプロセス(P
U#1〜PU#N)とでは異なる。
タイプAのプロセスにおける接続検定は、プロセス抑制
手段7による抑制を受けていない場合には、第7図(b
)のような手続きになる。まず、大力バッファ内の形態
素の文節先頭可能性を判定しくステップ704)、文節
先頭にならないと判定された(ステップ705)ならば
、ステータスをF不変モードJとする。文節先頭になり
得ると判定された(ステップ705)ならば、続いて、
その形態素の文節末尾可能性を判定する(ステップ70
6)。その結果、文節末尾になり得る(ステップ708
)ならば、ステータスを「生成登録モード」としくステ
ップ709)、なり得ない(ステップ708)ならば、
ステータスを「生成モード」とする(ステップ710)
。一方、プロセス抑制手段7による抑制を受けた場合に
は、無条件で、ステータスを[不変モード]とする。
タイプBのプロセスにおける接続検定は、第8図(bX
c)のような手続きになる。タイプBのプロセスでは大
力バッファに加えて、内部にローカルメモリも持ってい
る。まず、このローカルメモリ内に既に格納されている
形態素列の末尾位置と、入力バッファに格納された形態
素の先頭位置との関係を調べる(ステップ805)。そ
の結果、入力バッファの形態素の先頭位置が、ローカル
メモリ内の形態素列の末尾位置より後方に離れている(
ステップ806)ならば、ステータスを「消滅モード」
にする。
大力バッファの形態素の先頭位置が、ローカルメモリ内
の形態素列の末尾位置の直後である(ステップ806)
ならば、ステップ807以下の処理を行なって、ステー
タスを決定する。それ以外(ステップ806)の場合は
、ローカルメモリ内の形態素列と大力バッファ内の形態
素が、位置的に重なっており、ステータスは[不変モー
ド]とする。位置的に直後に接続した場合のステップ8
07以下の処理では、文法的な接続可能性も判定する(
ステップ807)。接続しないと判定された(ステップ
809)ならば、ステータスを「不変モード」とする。
接続すると判定された(ステップ809)ならば、続い
て、接続した形態素の文節末尾可能性を判定する(ステ
ップ811)。その結果、文節末尾になり得る(ステッ
プ812)ならば、ステータスを「生成登録モード」と
しくステップ813)、なり得ない(ステップ812)
ならば、ステータスを「生成モード」とする(ステップ
814)。
なお、文節先頭可能性、文節末尾可能性、形態素の文法
的接続可能性などの判定方法は、従来と同様で、それら
の可能性を記述したテーブルを参照して行なう。
さて、第5図の流れに戻ると、接続検定を行なわせた(
ステップ503)の後、コントローラ401は、活性状
態の全PUについて、プロセスの更新&文節候補の作成
の手続きを実行する(ステップ5o4)。第6図が、活
性状態の各PUに対する、プロセスの更新&文節候補の
作成の手続きである。
つまり、PUのステータスをチエツクしくステップ60
0)、ステータスが[消滅モード] [生成モードjF
生成登録モード1 「不変モードJのいずれかによって
、以下のような処理を行なう(ステップ601)。ステ
ータスのチエツクの際には、コントローラ401からC
HECKコマンドが発行され、対象のPUは、ステータ
スをPUデータ線406に出力する(ステップ702・
802)。
コントローラ401は、まず、「不変モード」のPUに
は何もしない。ここでコントローラ401は、内部にP
U管理表を持ち、PU#0からPU#Nのいずれが、活
性状態にあり、非活性状態のPUがどれががわかるよう
に管理されている。そこで、[消滅モード]のPUにつ
いては、PU管理表において、活性状態から非活性状態
に更新される(ステップ606)。非活性状態になると
、PUでは、第8図に示したような処理が停止する。
「生成モード」や「生成登録モードJでは、PU管理表
において、非活性状態であったPUが1個、活性状態に
変更される(ステップ602・603)。活性化された
PUでは、第8図のような処理が起動される。そして、
新たに活性化されたPUに形態素列データがコピーされ
る(ステップ604・605)。このコピー操作は、コ
ントローラ401から、5ENDコマンドとRECEr
VEコマンドが発行されて制御される(ステップ703
−803・804)。このコピー操作は、「生成モード
」でも「生成登録モード]でも行なわれるが、「生成登
録モード」では、それに加えて、文節候補メモリ5へも
同時に、形態素列データが出力される。
コントローラ401は、第5図のステップ502から5
04の処理を、辞書検索手段2から形態素を1個読み込
むごとに、繰り返して実行させる。
以上、マルチプロセス手段4の実現方法を詳細に説明し
た。
文節候補メモリ5は、マルチプロセス手段4で作成され
た文節候補を格納する手段であり、ICメモリ、磁気デ
ィスク装置などで実現できる。
プロセス抑制手段7は、文節候補メモリ5を参照して、
マルチプロセス手段4におけるプロセスの発生を抑制す
る。そして、抑制条件に関する情報を、抑制指令線40
7を通して、マルチプロセス手段4に送る。これによっ
て抑制されるのは、タイプAのプロセス(文節の先頭と
なるプロセス)の発生である。例えば、文節候補メモリ
5に格納されている文節候補のテキスト内での末尾位置
が、1文字目、2文字目、5文字目であったとすると、
それらに続く文節候補は2文字目、3文字目、6文字目
のいずれがであって、4文字目や5文字目から始まる文
節候補は適当でない。そこで、プロセス抑制手段7は、
文節候補の末尾位置に関する情報(あるいは、その次の
文節の先頭になり得る位置に関する情報)を、抑制指令
線407へ出力する。
第1候補決定手段6は、第2図に示したような形態素解
析の第2手段を実行する手段であり、従来の形態素解析
装置で用いられているもの(従来の技術の欄を参照)と
同じである。
次に、マルチプロセス手段4を中心に、この実施例の動
作例を説明する。
文字列入力手段lから、例えば、「にほんごのふんしよ
うを・・・・何という文字列が入力されたとする。
これに対して、辞書検索手段3は、入力文字列の先頭か
らの出現順に、例えば、次のような形態素を抽出する。
「二」(数詞)、[煮](動詞語幹)、「似」(動詞語
幹)、[日本J(名詞)、F本](名詞)、「本J(助
数詞)、「語」(接尾語)、「後」(接尾語)、「基」
(名詞)、「五」(数詞)、「の」(助詞)、[の](
動詞語尾)、・・・・・ マルチプロセス手段4は、これらの形態素を1個ずつ順
番に受け取って、プロセスを生成l消滅させながら処理
を進める。
最初は、タイプAのプロセス1個だけが存在する。そし
て、最初の形態素「二」(数詞)が、辞書検索手段3か
ら送られてきたところを示した図が、第9図(a)であ
る。40はタイプAのプロセス、407はタイプAのプ
ロセス40内にある大カバッフナの内容を示している。
タイプAのプロセス40では、「二」(数詞)が文節先
頭になり得るか否かが判定される。その結果、「二](
数詞)は文節先頭になり得るので、「二」(数詞)を内
部に格納したタイプBのプロセスが生成される。その段
階を示したのが、第9図(b)である。41はタイプB
のプロセス、408はタイプBのプロセス41内にある
大力バッファの内容、409はタイプBのプロセス41
内にあるローカルメモリの内容を示している。また、[
二](数詞)を内部に格納したタイプBのプロセス41
が生成される際に、ローカルメモリ409内の形態素列
の末尾、すなわち、F二J(数詞)が文節末尾になり得
ることから、ローカルメモリ409内の形態素列が文節
候補として出力される。
続いて、辞書検索手段3からの次の形態素=「煮」(動
詞語幹)が読み込まれ、第9図(c)に示すように、全
プロセス40−41に同時に渡される。すると、プロセ
ス40では「煮」(動詞語幹)が文節先頭になり得るか
否かが判定され、プロセス41ではU二](数詞)と[
煮J(動詞語幹)が接続可能か否かが判定される。この
プロセス40とプロセス41とは同時に動作する。判定
の結果、[煮」(動詞語幹)は文節先頭になるため、[
煮](動詞語幹)を格納したタイプBのプロセス41が
生成される「二」(数詞)と「煮J(動詞語幹)とは位
置的に接続不可能である。
この段階が第9図(d)に示されている。なお、「煮」
(動詞語幹)は文節末尾にならないので、「煮J(動詞
語幹)を格納したタイプBのプロセス41が生成された
ときに、文節候補は出力されない。
さらに、「似」(動詞語幹)、「日本」(名詞)、「本
」(名詞)、という順に形態素が読み込まれ、プロセス
の生成が行なわれ、次に「本J(助数詞)が読み込まれ
たところを示したのが、第10固自)である。全プロセ
スの大力バッファに、同時に[本](助数詞)が読み込
まれたところである。続いて、全プロセスで接続検定が
同時に行なわれ、新たに生成されるプロセスが、第10
図(b)に示したタイプBのプロセス41である。その
内部のローカルバッファには、「二」(数詞)/[本]
(助数詞)という形態素列が格納されている。
続いて「語](接尾語)が読み込まれたところが、第1
1図(a)に示されている。各プロセスでの処理の結果
、第11図(b)のプロセス41が新たに生成される。
と同時に、第11図(a)においてX印を付加したプロ
セスが消滅する。X印を付加したプロセスでは、ローカ
ルメモリ409内の形態素列の末尾の位置と、入力バッ
ファ408に読み込まれた形態素の先頭位置との間に、
距離が生じたためである。
上記の例では、プロセス抑制手段7により抑制機能は働
いていないが、次のような例では有効になる。例えば、
[スマイルを・・・・・」というテキストを対象にして
いるものとする。まず1文字目から「スマイルJという
単語が辞書検索手段3から得られ、それに対応するプロ
セスが発生する。そして、続いて得られるのは、rマイ
ルJという単語である。しかし、「ス」 「スマ」 [
スマイJなとの単語は検索されていないので、テキスト
の2文字目・3文字目・4文字目は文節の先頭にはなら
ない。文節の先頭になり得るのは、5文字目である。そ
の情報がプロセス抑制手段4からマルチプロセス手段7
へ送られる結果、マルチプロセス手段4において、「マ
イルJに対するプロセスは発生しない。
(発明の効果) 以上説明したように、本発明によれば、形態素解析を並
列処理できるため、高速な形態素解析装置が得られる。
その際、辞書検索に同期した処理を行なっているため、
従来の並列方式では問題となっていた辞書の重複検索と
いう無駄が発生していない。
また、文節の先頭になり得ない位置をチエツクし、文節
の形成を抑制する機構(プロセス抑制手段)を備えてい
るため、さらに効率がよい形態素解析装置が実現できる
【図面の簡単な説明】
第1図は本発明の実施例の構成を示すブロック図、第2
図は形態素解析過程の例、第3図は従来の形態素解析処
理の一部分の例、第4図はマルチプロセス手段4の構成
例を示しブロック図、第5図と第6図はコントローラ4
01の処理内容を表わしたフローチャート、第7図はタ
イプAのプロセスの処理内容を表わしたフローチャート
、第8図はタイプBのプロセスの処理内容を表わしたフ
ローチャート、第9図・第10図・第11図は実施例の
動作例を示す図である。 図において、l・・・文字列入力手段、2・・・辞書、
3・・・辞書検索手段、4・・・マルチプロセス手段、
5・・・文節候、補メモリ、6・・・第1候補決定手段
、7・・・プロセス抑制手段、40・・・タイプAのプ
ロセス、41・・・タイプBのプロセス、400・・−
処理ユニット(PU)、401・・・コントローラ、4
02・・・辞書制御線、403・・・辞書データ線、4
04・・・PU制御線、405・・・PUアドレス線、
406・・・PUデータ線、407・・・抑制制御線で
ある。

Claims (2)

    【特許請求の範囲】
  1. (1)入力された文字列を構成する形態素を認定する形
    態素解析装置において、形態素を登録した辞書と、前記
    辞書を検索して前記入力された文字列の部分文字列に一
    致する形態素を前記入力された文字列中の先頭からの出
    現順に抽出する辞書検索手段と、前記辞書検索手段によ
    って形態素が抽出されるのに同期して並列に動作するプ
    ロセスによって文節候補を作成するマルチプロセス手段
    と、前記マルチプロセス手段によって作成された文節候
    補を参照して前記プロセスを抑制するプロセス抑制手段
    とを備えることを特徴とする形態素解析装置。
  2. (2)マルチプロセス手段において並列動作するプロセ
    スには2通りのタイプ(タイプAとタイプBとする)が
    あり、前記マルチプロセス手段の受け取る形態素は前記
    並列動作する全プロセスに同時に渡され、前記タイプA
    のプロセスは受け取った形態素が文節の先頭になること
    が可能か否かを判定し可能でありかつ前記プロセス抑制
    手段による抑制を受けない場合には該形態素を内部に格
    納したタイプBのプロセスを発生させ、タイプBのプロ
    セスは受け取った形態素が内部に格納した形態素列の末
    尾に接続可能か否かを判定し可能である場合は該形態素
    を末尾に接続したタイプBのプロセスを発生させ、同タ
    イプBのプロセスは内部に格納した形態素列の末尾位置
    より後方に離れた位置を先頭とする形態素を受け取った
    場合には消滅し、新たにタイプBのプロセスが発生する
    際には内部に格納した形態素列の末尾が文節の末尾にな
    ることが可能か否かが判定され可能である場合には該形
    態素列が文節候補として出力されることを特徴とする請
    求項1記載の形態素解析装置。
JP2309590A 1990-11-15 1990-11-15 形態素解析装置 Pending JPH04180169A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2309590A JPH04180169A (ja) 1990-11-15 1990-11-15 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2309590A JPH04180169A (ja) 1990-11-15 1990-11-15 形態素解析装置

Publications (1)

Publication Number Publication Date
JPH04180169A true JPH04180169A (ja) 1992-06-26

Family

ID=17994867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2309590A Pending JPH04180169A (ja) 1990-11-15 1990-11-15 形態素解析装置

Country Status (1)

Country Link
JP (1) JPH04180169A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
JP2017102771A (ja) * 2015-12-03 2017-06-08 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法

Similar Documents

Publication Publication Date Title
Grishman Information extraction: Techniques and challenges
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JPH02308370A (ja) 機械翻訳システム
US20060031207A1 (en) Content search in complex language, such as Japanese
JP2005507525A (ja) 機械翻訳
JP2005507524A (ja) 機械翻訳
US7197697B1 (en) Apparatus for retrieving information using reference reason of document
JPH0567144A (ja) 前編集支援方法およびその装置
Nirenburg et al. Controlling a Language Generation Planner.
Huang et al. A Chinese corpus for linguistic research
US5283737A (en) Mechanism for generating linguistic expressions based on synonyms and rules derived from examples
Hobbs et al. The automatic transformational analysis of English sentences: An implementation
KR100575495B1 (ko) 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그프로그램을 저장한 기록매체
Minker Information storage and retrieval: a survey and functional description
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JPH04180169A (ja) 形態素解析装置
EP1605371A1 (en) Content search in complex language, such as japanese
KR19990047859A (ko) 도서 문헌 데이터베이스 검색을 위한 자연언어 대화 시스템
Samuelsson Notes on LR parser design
JPH0460766A (ja) 形態素解析装置
Samantaray A Data mining approach for resolving cases of Multiple Parsing in Machine Aided Translation of Indian Languages
JPH1074207A (ja) 情報検索装置及び情報検索方法
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH07244669A (ja) 文書検索方式
Markantonatou et al. Monolingual Corpus-based MT using Chunks