JPH0460766A - 形態素解析装置 - Google Patents
形態素解析装置Info
- Publication number
- JPH0460766A JPH0460766A JP2169771A JP16977190A JPH0460766A JP H0460766 A JPH0460766 A JP H0460766A JP 2169771 A JP2169771 A JP 2169771A JP 16977190 A JP16977190 A JP 16977190A JP H0460766 A JPH0460766 A JP H0460766A
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- type
- morphemes
- character string
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims description 33
- 238000000034 method Methods 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000000877 morphologic effect Effects 0.000 claims description 27
- 239000000872 buffer Substances 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 240000000220 Panda oleosa Species 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 230000008033 biological extinction Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000012464 large buffer Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
計算機による入力された文字列の解析は、−gに、形態
素解析、構文解析、意味解析という段階で行われる。本
発明は、この第1段階である形態素解析、すなわち入力
された文字列を構成する形態素の認定を行なう装置に関
するものである。
素解析、構文解析、意味解析という段階で行われる。本
発明は、この第1段階である形態素解析、すなわち入力
された文字列を構成する形態素の認定を行なう装置に関
するものである。
また本発明は、かな漢字変換2機械翻訳、連続音声認識
、キーワード抽出など、入力された文字列を解析するこ
とによって実現されている産業分野に係わるものである
。
、キーワード抽出など、入力された文字列を解析するこ
とによって実現されている産業分野に係わるものである
。
一般に、日本語文の形態素解析は、「盲人用読書器にお
ける文章解析−解析方式−」 (福島・他。
ける文章解析−解析方式−」 (福島・他。
情報処理学会第31回全国大会、 3N−7,1985
年)、「パソコンによるへ夕書き入力カナ漢字変換コ(
犬山・他、情報処理学会第29回全国大会、 5J−3
゜1984年)、Fべた書き文仮名漢字変換における最
適文選択法」 (何部・他、情報処理学会第28面金国
大会、 4M−8,1984年)などの文献に示されて
いるように、入力された文字列に対して文節候補を作成
する第1段階と、作成された文節候補のなかから最も確
からしいものを選ぶ第2段階とに分かれる。
年)、「パソコンによるへ夕書き入力カナ漢字変換コ(
犬山・他、情報処理学会第29回全国大会、 5J−3
゜1984年)、Fべた書き文仮名漢字変換における最
適文選択法」 (何部・他、情報処理学会第28面金国
大会、 4M−8,1984年)などの文献に示されて
いるように、入力された文字列に対して文節候補を作成
する第1段階と、作成された文節候補のなかから最も確
からしいものを選ぶ第2段階とに分かれる。
第2図は、上で説明した形態素解析過程の流れを表して
おり、第1段階と第2段階の各々の処理結果の例を示し
ている。第2図において、100は入力された文章(こ
の例ではかな文字列であるが一般的な形態素解析ではか
な文字列に限定されない)、110は第1段階10の処
理結果として出力された文節候補群、120は第2段階
11の処理結果として出力された第1候補文節列である
。110と120において、「日本7語/のJ 「文章
/をJ 「文相/を」などは文節の候補であり、/は文
節内の単語の区切りを表している。文節候補の組み合わ
せが線でつながれて表現されている。
おり、第1段階と第2段階の各々の処理結果の例を示し
ている。第2図において、100は入力された文章(こ
の例ではかな文字列であるが一般的な形態素解析ではか
な文字列に限定されない)、110は第1段階10の処
理結果として出力された文節候補群、120は第2段階
11の処理結果として出力された第1候補文節列である
。110と120において、「日本7語/のJ 「文章
/をJ 「文相/を」などは文節の候補であり、/は文
節内の単語の区切りを表している。文節候補の組み合わ
せが線でつながれて表現されている。
従来、形態素解析の第1段階と第2段階とでは、それぞ
れ、およそ次のような処理が行なわれている(詳細は前
記の文献に述べられている)、。
れ、およそ次のような処理が行なわれている(詳細は前
記の文献に述べられている)、。
まず、第1段階10では、入力された文字列の部分文字
列に一致する形態素を形態素辞書から検索する辞書検索
処理と、辞書検索処理で得られた形態素をつなげて文節
候補を作成する接続検定処理とが行なわれる。接続検定
処理では、文節内で2つの形態素が文法的に隣接し得る
か否か、および、ある形態素が文節の先頭あるいは末尾
になり得るか否かを、記述したテーブルを参照して、形
態素をつなげてゆく。
列に一致する形態素を形態素辞書から検索する辞書検索
処理と、辞書検索処理で得られた形態素をつなげて文節
候補を作成する接続検定処理とが行なわれる。接続検定
処理では、文節内で2つの形態素が文法的に隣接し得る
か否か、および、ある形態素が文節の先頭あるいは末尾
になり得るか否かを、記述したテーブルを参照して、形
態素をつなげてゆく。
次に、第2段階11では、文節数・品詞の並び・意味的
な関係の強さなどをもとに、各文節候補あるいは文節候
補の並びに対して評価値を計算し、最もよい評価値をと
った文節候補の系列を、第1候補として決定することが
行なわれている。
な関係の強さなどをもとに、各文節候補あるいは文節候
補の並びに対して評価値を計算し、最もよい評価値をと
った文節候補の系列を、第1候補として決定することが
行なわれている。
〔発明が解決しようとする課題]
従来の形態素解析装置は、逐次処理型の計算機として実
現されている。しかし、より大量の文章を処理したい、
あるいは、より解析精度を高めるために検索する辞書を
大語霊化したいなどの要求も含めて、形態素解析の高速
化が望まれてきている。
現されている。しかし、より大量の文章を処理したい、
あるいは、より解析精度を高めるために検索する辞書を
大語霊化したいなどの要求も含めて、形態素解析の高速
化が望まれてきている。
この要求をかなえる方法に、形態素解析の並列処理化が
ある。「日本語の並列形態素解析J (峯・他、情報処
理学会第40回合国大会、 4F−1,1990年)や
、「マルチタスク方式によるカナ漢字変換」(犬山・他
、情報処理学会第25回合国大会、 6J−2゜198
2年)の文献に、従来の形態素解析を素直に並列化する
方法が示されている。
ある。「日本語の並列形態素解析J (峯・他、情報処
理学会第40回合国大会、 4F−1,1990年)や
、「マルチタスク方式によるカナ漢字変換」(犬山・他
、情報処理学会第25回合国大会、 6J−2゜198
2年)の文献に、従来の形態素解析を素直に並列化する
方法が示されている。
その方法を例を用いて説明する。並列化の本質は、前記
の第1段階にあるので、第2段階に関する説明は省略す
る。
の第1段階にあるので、第2段階に関する説明は省略す
る。
「にほんごのふんしようを・・・・・・・・・」という
文字列が入力されたとすると、まず、その先頭から始ま
る形態素が辞書から検索され、「日本」 (名詞)、「
二」 (数詞)、「煮」 (動詞語幹)、「似」(動詞
語幹)などが得られる。ここで、逐次処理では、「日本
」 「二」 「煮」 「似」の各りについて順次、後接
する形態素の検索が行なわれるわけであるが、それを並
列化すると、次のようになる。
文字列が入力されたとすると、まず、その先頭から始ま
る形態素が辞書から検索され、「日本」 (名詞)、「
二」 (数詞)、「煮」 (動詞語幹)、「似」(動詞
語幹)などが得られる。ここで、逐次処理では、「日本
」 「二」 「煮」 「似」の各りについて順次、後接
する形態素の検索が行なわれるわけであるが、それを並
列化すると、次のようになる。
すなわち、「日本」 「二」 「煮」「似」の各々につ
いてプロセスが1個ずつ割り当てられて、各々のプロセ
スで独立に、後接する形態素の検索が行なわれる。「日
本」に後接する形態素を検索するプロセス、「二」に後
接する形態素を検索するプロセス、「孝」に後接する形
態素を検索するプロセス、「似」に後接する形態素を検
索するプロセスなどが、同時に動作することになる。
いてプロセスが1個ずつ割り当てられて、各々のプロセ
スで独立に、後接する形態素の検索が行なわれる。「日
本」に後接する形態素を検索するプロセス、「二」に後
接する形態素を検索するプロセス、「孝」に後接する形
態素を検索するプロセス、「似」に後接する形態素を検
索するプロセスなどが、同時に動作することになる。
それらのプロセスのうち、例えば、「日本」に後接する
形態素を検索するプロセスについてみると、「ごのぶん
しようを・・・・・・・・・」の位置で形態素辞書の検
索が行なわれて、「語」 (接尾語)、「後」 (接尾
語)、「基」 (名詞)、「五」 (数詞)などが検索
される。そして、それらと「日本」(名詞)との間の接
続検定が行なわれて、「日本7語」 「日本/後」とい
う形態素列が作成される。
形態素を検索するプロセスについてみると、「ごのぶん
しようを・・・・・・・・・」の位置で形態素辞書の検
索が行なわれて、「語」 (接尾語)、「後」 (接尾
語)、「基」 (名詞)、「五」 (数詞)などが検索
される。そして、それらと「日本」(名詞)との間の接
続検定が行なわれて、「日本7語」 「日本/後」とい
う形態素列が作成される。
この段階で、「日本7語」と「日本/後」には、新たに
プロセスが割り当てられて、各々独立に、後接する形態
素の検索が並列に行なわれる。
プロセスが割り当てられて、各々独立に、後接する形態
素の検索が並列に行なわれる。
このような並列化方式には、次のような問題点がある。
第3図(a)には、「日本」に対するプロセスと、第3
図(b)には、「二/本」に対するプロセスとが示され
ている。点線で囲まれた形態素群300.301は、辞
書から検索された形態素群を表している。
図(b)には、「二/本」に対するプロセスとが示され
ている。点線で囲まれた形態素群300.301は、辞
書から検索された形態素群を表している。
○あるいは×が付加された直線は、接続検定を意味して
いる(○は結ばれた2形態素が接続可、×は結ばれた形
態素が接続不可)。この2つのプロセスでは、辞書から
全く同し形態素群が検索される(300と301とが同
一)。つまり、入力文字列中の同し位置での形態素辞書
の検索を重複して行なっている。
いる(○は結ばれた2形態素が接続可、×は結ばれた形
態素が接続不可)。この2つのプロセスでは、辞書から
全く同し形態素群が検索される(300と301とが同
一)。つまり、入力文字列中の同し位置での形態素辞書
の検索を重複して行なっている。
形態素辞書は、通常、敵方から数十方性の形態素を収め
た大容量のものであるから、プロセスごとに、辞書用の
メモリをもつことは現実的でなく、すべてのプロセスで
共有するメモリに置かれる。
た大容量のものであるから、プロセスごとに、辞書用の
メモリをもつことは現実的でなく、すべてのプロセスで
共有するメモリに置かれる。
そして、共有メモリは、複数のプロセスから独立に同時
にアクセスはできない。しかも、辞書検索処理は、接続
検定処理に比べて、はるかに処理時間を要する。したが
って、このような辞書検索処理において、上述のように
同じ位置で重複して検索を行なうようなことは、処理時
間上、著しい効率の低下をもたらす。
にアクセスはできない。しかも、辞書検索処理は、接続
検定処理に比べて、はるかに処理時間を要する。したが
って、このような辞書検索処理において、上述のように
同じ位置で重複して検索を行なうようなことは、処理時
間上、著しい効率の低下をもたらす。
さらに、複数のプロセスから同時に辞書アクセスの要求
がでて、アクセス競合が発生する場合には、その調整機
構を設ける必要があり、実現形態が複雑になってしまう
。
がでて、アクセス競合が発生する場合には、その調整機
構を設ける必要があり、実現形態が複雑になってしまう
。
ここで、辞書検索処理の内部に、−度検索された形態素
を保持しておくテーブルを用意しておき、同一位置での
2度目以陣の検索では、辞書を直接検索せずに、テーブ
ルから取り出すだけとする方法が考えられる。この方法
によって、重複による処理時間の無駄を軽減できるが、
依然として無駄は大きい。また、アクセス競合の調整機
構が必要であることにも変わりがない。
を保持しておくテーブルを用意しておき、同一位置での
2度目以陣の検索では、辞書を直接検索せずに、テーブ
ルから取り出すだけとする方法が考えられる。この方法
によって、重複による処理時間の無駄を軽減できるが、
依然として無駄は大きい。また、アクセス競合の調整機
構が必要であることにも変わりがない。
本発明の目的は、辞書検索処理を重複して行なうような
無駄を発生させずに、並列処理化された高速な形態素解
析装置を提供することである。
無駄を発生させずに、並列処理化された高速な形態素解
析装置を提供することである。
本発明は、入力された文字列を構成する形態素を認定す
る形態素解析装置において、形態素を登録した辞書と、
前記辞書を検索して前記入力された文字列の部分文字列
に一致する形態素を前記入力された文字列中の先頭から
の出現順に抽出する辞書検索手段と、前記辞書検索手段
によって形態素が抽出されるのに同期して並列に動作す
るプロセスによって文節候補を作成するマルチプロセス
手段とを備えることを特徴とする形態素解析装置である
。
る形態素解析装置において、形態素を登録した辞書と、
前記辞書を検索して前記入力された文字列の部分文字列
に一致する形態素を前記入力された文字列中の先頭から
の出現順に抽出する辞書検索手段と、前記辞書検索手段
によって形態素が抽出されるのに同期して並列に動作す
るプロセスによって文節候補を作成するマルチプロセス
手段とを備えることを特徴とする形態素解析装置である
。
前記のマルチプロセス手段において並列動作するプロセ
スには2通りのタイプ(タイプAとタイプBとする)が
ある。そして、前記マルチプロセス手段の受け取る形態
素は、前記並列動作する全プロセスに同時に渡される。
スには2通りのタイプ(タイプAとタイプBとする)が
ある。そして、前記マルチプロセス手段の受け取る形態
素は、前記並列動作する全プロセスに同時に渡される。
前記タイプへのプロセスは、常に1個であり、受け取っ
た形態素が文節の先頭になることが可能か否かを判定し
、可能である場合にはその形態素を内部に格納したタイ
プBのプロセスを発生させる。前記タイプBのプロセス
は、受け取った形態素が内部に格納した形態素列の末尾
に接続可能か否かを判定し、可能である場合は、該形態
素を末尾に接続したタイプBのプロセスを発生させる。
た形態素が文節の先頭になることが可能か否かを判定し
、可能である場合にはその形態素を内部に格納したタイ
プBのプロセスを発生させる。前記タイプBのプロセス
は、受け取った形態素が内部に格納した形態素列の末尾
に接続可能か否かを判定し、可能である場合は、該形態
素を末尾に接続したタイプBのプロセスを発生させる。
また、このタイプBのプロセスは、内部に格納した形態
素列の末尾位置より後方に離れた位置を先頭とする形態
素を受け取った場合には消滅する。
素列の末尾位置より後方に離れた位置を先頭とする形態
素を受け取った場合には消滅する。
さらに、新たにタイプBのプロセスが発生する際には、
内部に格納した形態素列の末尾が文節の末尾になること
が可能か否かが判定され、可能である場合には、その形
態素列が文節候補として出力される。
内部に格納した形態素列の末尾が文節の末尾になること
が可能か否かが判定され、可能である場合には、その形
態素列が文節候補として出力される。
図面を用いて、本発明の詳細な説明する。
第1図は本発明の形態素解析装置の一実施例の構成を示
すブロック図である。この形態素解析装置は、文字列入
力手段1と、辞書2と、辞書検索手段3と、マルチプロ
セス手段4と、文節候補メモリ5と、第1候補決定手段
6とから構成されている。
すブロック図である。この形態素解析装置は、文字列入
力手段1と、辞書2と、辞書検索手段3と、マルチプロ
セス手段4と、文節候補メモリ5と、第1候補決定手段
6とから構成されている。
文字列入力手段1は、文字列を入力するための手段であ
り、キーボード、文字認識装置、磁気ディスク読み取り
装置などで実現できる。
り、キーボード、文字認識装置、磁気ディスク読み取り
装置などで実現できる。
辞書2は、形態素を登録した辞書であり、ICメモリ、
磁気ディスク装置などで実現できる。
磁気ディスク装置などで実現できる。
辞書検索手段3は、辞書2を検索して、文字列入力手段
1から入力された文字列の部分文字列に一致する形態素
を、入力された文字列中の先頭からの出現順に抽出する
手段である。その実現方法は、例えば、[文章解析アク
セラレータ(1)形態素抽出マシンの試作−」 (福島
・他、情報処理学会自然言語処理研究会報告、 NL−
75−9,1990年)なとの文献に示されている。
1から入力された文字列の部分文字列に一致する形態素
を、入力された文字列中の先頭からの出現順に抽出する
手段である。その実現方法は、例えば、[文章解析アク
セラレータ(1)形態素抽出マシンの試作−」 (福島
・他、情報処理学会自然言語処理研究会報告、 NL−
75−9,1990年)なとの文献に示されている。
マルチプロセス手段4は、辞書検索手段3によって形態
素が抽出されるのに同期して並列に動作するプロセスに
よって文節候補を作成する手段である。ここでいう並列
動作するプロセスには2通りのタイプ(タイプAとタイ
プBとする)がある。
素が抽出されるのに同期して並列に動作するプロセスに
よって文節候補を作成する手段である。ここでいう並列
動作するプロセスには2通りのタイプ(タイプAとタイ
プBとする)がある。
辞書検索手段3からマルチプロセス手段4が受け取る形
態素は、それら並列動作する全プロセスに同時に渡され
る。
態素は、それら並列動作する全プロセスに同時に渡され
る。
タイプAのプロセスは、常に1個であり、受け取った形
態素が文節の先頭になることが可能か否かを判定し、可
能である場合には、その形態素を内部に格納したタイプ
Bのプロセスを発生させる。
態素が文節の先頭になることが可能か否かを判定し、可
能である場合には、その形態素を内部に格納したタイプ
Bのプロセスを発生させる。
タイプBのプロセスは、受け取った形態素が内部に格納
した形態素列の末尾に接続可能か否かを判定し、可能で
ある場合は、この形態素を末尾に接続したタイプBのプ
ロセスを発生させる。また、タイプBのプロセスは、内
部に格納した形態素列の末尾値!より後方に離れた位置
を先頭とする形態素を受け取った場合には消滅する。さ
らに、新たに発生したタイプBのプロセスは、内部に格
納した形態素列の末尾が文節の末尾になり得る場合には
、この形態素列を文節候補として出力する。
した形態素列の末尾に接続可能か否かを判定し、可能で
ある場合は、この形態素を末尾に接続したタイプBのプ
ロセスを発生させる。また、タイプBのプロセスは、内
部に格納した形態素列の末尾値!より後方に離れた位置
を先頭とする形態素を受け取った場合には消滅する。さ
らに、新たに発生したタイプBのプロセスは、内部に格
納した形態素列の末尾が文節の末尾になり得る場合には
、この形態素列を文節候補として出力する。
このようなマルチプロセス手段4は、「情報処理学会誌
」第28巻第1号(1987年)や「人工知能学会誌」
第4巻第3号(1989年)に示されているような並列
計算機上のプログラムとして容易に実現できる。あるい
は、例えば、第4図に示すような構成により実現できる
。
」第28巻第1号(1987年)や「人工知能学会誌」
第4巻第3号(1989年)に示されているような並列
計算機上のプログラムとして容易に実現できる。あるい
は、例えば、第4図に示すような構成により実現できる
。
以下に、第4図に示したマルチプロセス手段4の構成方
法を説明する。
法を説明する。
第4図に示したマルチプロセス手段4は、1個のコント
ローラ401、(N+1 )個の処理ユニット(以下で
はPUとする) 400から構成される。
ローラ401、(N+1 )個の処理ユニット(以下で
はPUとする) 400から構成される。
(N+1)個のPUのうち、PU#Oではタイプへのプ
ロセスが常時動作する。PLl#lからPU#Nではタ
イプBのプロセスが生成/消滅しながら動作する。PU
#OからPU#Nのうち、プロセスが動作しているもの
を活性状態と呼び、プロセスが動作していないものを非
活性状態と呼ぶ。
ロセスが常時動作する。PLl#lからPU#Nではタ
イプBのプロセスが生成/消滅しながら動作する。PU
#OからPU#Nのうち、プロセスが動作しているもの
を活性状態と呼び、プロセスが動作していないものを非
活性状態と呼ぶ。
コントローラ401と辞書検索手段3とは、辞書制御線
402でつながれ、辞書制御線402は、辞書検索手段
3からマルチプロセス手段4へ、検索された形態素のデ
ータを1個ずつ転送するタイミングなどを制御するため
に用いられる。辞書検索手段3から全PU400には、
辞書データ線403が並列接続されて、1個の形態素デ
ータが辞書検索手段3から全PU400に同時に転送で
きるようになっている。
402でつながれ、辞書制御線402は、辞書検索手段
3からマルチプロセス手段4へ、検索された形態素のデ
ータを1個ずつ転送するタイミングなどを制御するため
に用いられる。辞書検索手段3から全PU400には、
辞書データ線403が並列接続されて、1個の形態素デ
ータが辞書検索手段3から全PU400に同時に転送で
きるようになっている。
コントローラ401から全PU400へは、PU制御線
404.PUアドレス線405.PtJデータ線406
がつながれている。このうち、PU制御線404とPL
17ドレス1a405は、コントローラ4o1カラPU
400へのコマンドを伝えるためのものである(PU
アドレス線405がおもに対象PUとコマンド内容を指
定し、PU制御線404はおもにタイミングを与える)
。PUデデー線406は、PU400間で形態素列デー
タをやり取りするのに用いられる。また、PU制御線4
04.PUアドレス線405゜PUデデー線406は、
文節候補メモリ5へも接続され、マルチプロセス手段4
から文節候補メモリ5への文節候補の書き込みにも用い
られる。
404.PUアドレス線405.PtJデータ線406
がつながれている。このうち、PU制御線404とPL
17ドレス1a405は、コントローラ4o1カラPU
400へのコマンドを伝えるためのものである(PU
アドレス線405がおもに対象PUとコマンド内容を指
定し、PU制御線404はおもにタイミングを与える)
。PUデデー線406は、PU400間で形態素列デー
タをやり取りするのに用いられる。また、PU制御線4
04.PUアドレス線405゜PUデデー線406は、
文節候補メモリ5へも接続され、マルチプロセス手段4
から文節候補メモリ5への文節候補の書き込みにも用い
られる。
第5図と第6図は、コントローラ401の処理内容を表
したフローチャートである。第7図(a)、 (b)は
、PU#Oで動作するタイプAのプロセスの処理内容を
表したフローチャートである。第8図(a)。
したフローチャートである。第7図(a)、 (b)は
、PU#Oで動作するタイプAのプロセスの処理内容を
表したフローチャートである。第8図(a)。
(b)、 (C)は、PU#1からPU#Nで、生成/
消滅しながら動作するタイプBのプロセスの処理内容を
表したフローチャートである。それらを、第5図を中心
として説明する。
消滅しながら動作するタイプBのプロセスの処理内容を
表したフローチャートである。それらを、第5図を中心
として説明する。
コントローラ401は、まず、辞書制御線402により
、辞書検索手段3のステータスを調べる(ステップ50
0)。ステータスが終了状態(入力テキストをすべて処
理済み)であればコントローラ401も処理を終了し、
ステータスが出力可能状態(形態素が既に検出されてい
る状態)であればステップ502以下の処理を行ない、
それ以外(形態素がまた検出されていない状態)であれ
ば検出されるのを待つ(ステップ501)。
、辞書検索手段3のステータスを調べる(ステップ50
0)。ステータスが終了状態(入力テキストをすべて処
理済み)であればコントローラ401も処理を終了し、
ステータスが出力可能状態(形態素が既に検出されてい
る状態)であればステップ502以下の処理を行ない、
それ以外(形態素がまた検出されていない状態)であれ
ば検出されるのを待つ(ステップ501)。
続いて、出力可能状態の場合には、コントローラ401
は辞書データ線403より、活性状態の全PUに同時に
形態素1個のデータを取り込ませる(ステップ502)
。これは、コントローラ401がPUにGETコマンド
を送って制御する。なお、PUは内部に入力バッファを
持ち、形態素データは、その人力バッファに取り込まれ
る(ステ、ツブ701゜801)。
は辞書データ線403より、活性状態の全PUに同時に
形態素1個のデータを取り込ませる(ステップ502)
。これは、コントローラ401がPUにGETコマンド
を送って制御する。なお、PUは内部に入力バッファを
持ち、形態素データは、その人力バッファに取り込まれ
る(ステ、ツブ701゜801)。
続いて、コントローラ401は、RUNコマンドで制御
して、活性状態の全PUに同時に形態素の接続検定を行
なわせる(ステップ503)。この接続検定は、タイプ
Aのプロセス(PU#O)と、タイプBのプロセス(P
tJ#1〜PU#N)とでは異なる。
して、活性状態の全PUに同時に形態素の接続検定を行
なわせる(ステップ503)。この接続検定は、タイプ
Aのプロセス(PU#O)と、タイプBのプロセス(P
tJ#1〜PU#N)とでは異なる。
タイプAのプロセスにおける接続検定は、第7図Φ)の
ような手続きになる。まず、入力バッファ内の形態素の
文節先頭可能性を判定しくステップ704)、文節先頭
にならないと判定された(ステップ705)ならば、ス
テータスを「不変モード」とする(ステップ707)。
ような手続きになる。まず、入力バッファ内の形態素の
文節先頭可能性を判定しくステップ704)、文節先頭
にならないと判定された(ステップ705)ならば、ス
テータスを「不変モード」とする(ステップ707)。
文節先頭になり得ると判定された(ステップ705)な
らば、続いて、その形態素の文節末尾可能性を判定する
(ステップ706)。その結果、文節末尾になり得る(
ステップ708)ならば、ステータスを「生成登録モー
ド」としくステップ709)、なり得ない(ステップ7
08)ならば、ステータスを「生成モード」とする(ス
テップ710)。
らば、続いて、その形態素の文節末尾可能性を判定する
(ステップ706)。その結果、文節末尾になり得る(
ステップ708)ならば、ステータスを「生成登録モー
ド」としくステップ709)、なり得ない(ステップ7
08)ならば、ステータスを「生成モード」とする(ス
テップ710)。
タイプBのプロセスにおける接続検定は、第8図(b)
、 (C)のような手続きになる。タイプBのプロセス
では、大力バッファに加えて、内部にローカルメモリも
持っている。まず、このローカルメモリ内に既に格納さ
れている形態素列の末尾位置りと、入力バッファに格納
された形態素の先頭位置Mとの関係を調べる(ステップ
805)。その結果、入力バッファの形態素の先頭位置
Mが、ローカルメモリ内の形態素列の末尾位置しより後
方に離れている(ステップ806;M>L+1)ならば
、ステータスを「消滅モード」にする(ステップ808
)。
、 (C)のような手続きになる。タイプBのプロセス
では、大力バッファに加えて、内部にローカルメモリも
持っている。まず、このローカルメモリ内に既に格納さ
れている形態素列の末尾位置りと、入力バッファに格納
された形態素の先頭位置Mとの関係を調べる(ステップ
805)。その結果、入力バッファの形態素の先頭位置
Mが、ローカルメモリ内の形態素列の末尾位置しより後
方に離れている(ステップ806;M>L+1)ならば
、ステータスを「消滅モード」にする(ステップ808
)。
入力バッファの形態素の先頭位置が、ロー力ルメそり内
の形態素列の末尾位置の直後である(ステップ806;
M=L+1)ならば、ステップ807以下の処理を行な
って、ステータスを決定する。それ以外(ステップ80
6;M<L+1)の場合は、ローカルメモリ内の形態素
列と入力ハッファ内の形態素が、位置的に重なっており
、ステータスは「不変モード」とする(ステップ810
)。位置的に直後に接続した場合のステップ807以下
の処理では、文法的な接続可能性も判定する(ステップ
807)。
の形態素列の末尾位置の直後である(ステップ806;
M=L+1)ならば、ステップ807以下の処理を行な
って、ステータスを決定する。それ以外(ステップ80
6;M<L+1)の場合は、ローカルメモリ内の形態素
列と入力ハッファ内の形態素が、位置的に重なっており
、ステータスは「不変モード」とする(ステップ810
)。位置的に直後に接続した場合のステップ807以下
の処理では、文法的な接続可能性も判定する(ステップ
807)。
接続しないと判定された(ステップ809)ならば、ス
テータスを「不変モード」とする(ステップ810)。
テータスを「不変モード」とする(ステップ810)。
接続すると判定された(ステップ809)ならば、続い
て、接続した形態素の文節末尾可能性を判定する(ステ
ップ811)。その結果、文節末尾になり得る(ステッ
プ812)ならば、ステータスを「生成登録モード」と
しくステップ813)、なり得ない(ステップ812)
ならば、ステータスを「生成モードJとする(ステップ
814)。
て、接続した形態素の文節末尾可能性を判定する(ステ
ップ811)。その結果、文節末尾になり得る(ステッ
プ812)ならば、ステータスを「生成登録モード」と
しくステップ813)、なり得ない(ステップ812)
ならば、ステータスを「生成モードJとする(ステップ
814)。
なお、文節先頭可能性9文節末尾可能性、形態素の文法
的接続可能性などの判定方法は、従来と同様で、それら
の可能性を記述したテーブルを参照して行なう。
的接続可能性などの判定方法は、従来と同様で、それら
の可能性を記述したテーブルを参照して行なう。
さて、第5図の流れに戻ると、接続検定を行なわせた(
ステップ503)の後、コントローラ401は、活性状
態の全PUについて、プロセスの更新&文節候補の作成
の手続きを実行する(ステップ5o4)。
ステップ503)の後、コントローラ401は、活性状
態の全PUについて、プロセスの更新&文節候補の作成
の手続きを実行する(ステップ5o4)。
第6図が、活性状態の各PUに対する、プロセスの更新
&文節候補の作成の手続きである。
&文節候補の作成の手続きである。
つまり、PUのステータスをチエツクしくステップ60
0)、ステータスが「消滅モード」、「生成モード」、
「生成登録モード」、「不変モード」のいずれかによっ
て、以下のような処理を行なう(ステップ601)。ス
テータスのチエツクの際には、コントローラ401から
CHE CKコマンドが発行され、対象のPUは、ステ
ータスをPUデデー線406 ニ出力すル(ステップ7
02.802>。
0)、ステータスが「消滅モード」、「生成モード」、
「生成登録モード」、「不変モード」のいずれかによっ
て、以下のような処理を行なう(ステップ601)。ス
テータスのチエツクの際には、コントローラ401から
CHE CKコマンドが発行され、対象のPUは、ステ
ータスをPUデデー線406 ニ出力すル(ステップ7
02.802>。
コントローラ401は、まず、F不変モード」のPUに
は何もしない。ここで、コントローラ401は、内部に
PU管理表を持ち、PU#OがらPU#Nのいずれが活
性状態にあり、非活性状態のPUがどれかがわかるよう
に管理されている。そこで、「消滅モード」のPUにつ
いては、PU管FI表において、活性状態から非活性状
態に更新される(ステップ606)。非活性状態になる
と、PUでは、第8図に示したような処理が停止する。
は何もしない。ここで、コントローラ401は、内部に
PU管理表を持ち、PU#OがらPU#Nのいずれが活
性状態にあり、非活性状態のPUがどれかがわかるよう
に管理されている。そこで、「消滅モード」のPUにつ
いては、PU管FI表において、活性状態から非活性状
態に更新される(ステップ606)。非活性状態になる
と、PUでは、第8図に示したような処理が停止する。
「生成モード」や「生成登録モード」では、PU管理表
において、非活性状態であったPtJが1個、活性状態
に変更される(ステップ602.603)。
において、非活性状態であったPtJが1個、活性状態
に変更される(ステップ602.603)。
活性化されたPUでは、第8図のような処理が起動され
る。そして、新たに活性化されたPUに形態素列データ
がコピーされる(ステップ604.605)このコピー
操作は、コントローラ401から、5ENDコマンドと
RECE I VEコマンドが発行されて制御される(
ステップ703.803.804)。このコピー操作は
、「生成モード」でも「生成登録モードjでも行なわれ
るが、「生成登録モード」では、それに加えて、文節候
補メモリ5へも同時に、形態素列データが出力される。
る。そして、新たに活性化されたPUに形態素列データ
がコピーされる(ステップ604.605)このコピー
操作は、コントローラ401から、5ENDコマンドと
RECE I VEコマンドが発行されて制御される(
ステップ703.803.804)。このコピー操作は
、「生成モード」でも「生成登録モードjでも行なわれ
るが、「生成登録モード」では、それに加えて、文節候
補メモリ5へも同時に、形態素列データが出力される。
コントローラ401 は、第5図のステップ502から
ステップ504の処理を、辞書検索手段3から形態素を
1個読み込むごとに、繰り返して実行させる。
ステップ504の処理を、辞書検索手段3から形態素を
1個読み込むごとに、繰り返して実行させる。
以上、マルチプロセス手段4の実現方法を詳細に説明し
た。
た。
第1図において、文節候補メモリ5は、マルチプロセス
手段4で作成された文節候補を格納する手段であり、I
Cメモリ、磁気ディスク装置などで実現できる。
手段4で作成された文節候補を格納する手段であり、I
Cメモリ、磁気ディスク装置などで実現できる。
第1候補決定手段6は、第2図に示したような形態素解
析の第2段階を実行する手段であり、従来の形態素解析
装置で用いられているもの(従来の技術の項を参照)と
同しである。
析の第2段階を実行する手段であり、従来の形態素解析
装置で用いられているもの(従来の技術の項を参照)と
同しである。
次に、マルチプロセス手段4を中心に、この実施例の動
作例を説明する。
作例を説明する。
文字列入力手段1から、例えば、「にぼんごのふんしよ
うを・・・・・・・・・」という文字列が入力されたと
する。
うを・・・・・・・・・」という文字列が入力されたと
する。
これに対して、辞書検索手段3は、入力文字列の先頭か
らの出現順に、例えば、次のような形態素を抽出する。
らの出現順に、例えば、次のような形態素を抽出する。
[二J (数詞)、「煮」 (動詞語幹)、「似」(動
詞語幹)、「日本J (名詞)、「本コ (名詞)「本
」 (助数詞)、「語] (接尾語)、「後J(接尾語
)、「基」 (名詞)、「五」 (数詞)「の」 (助
詞)、「のJ (動詞語尾) ・・・・・・・・・マル
チプロセス手段4は、これらの形態素を1個ずつ順番に
受け取って、プロセスを生成/消滅させながら処理を進
める。
詞語幹)、「日本J (名詞)、「本コ (名詞)「本
」 (助数詞)、「語] (接尾語)、「後J(接尾語
)、「基」 (名詞)、「五」 (数詞)「の」 (助
詞)、「のJ (動詞語尾) ・・・・・・・・・マル
チプロセス手段4は、これらの形態素を1個ずつ順番に
受け取って、プロセスを生成/消滅させながら処理を進
める。
最初は、タイプAのプロセスは1個だけが存在する。そ
して、最初の形態素[二J (数詞)が、辞書検索手段
3から送られてきたところを示した図が、第9図(a)
である。40はタイプAのプロセス、407はタイプA
のプロセス40内にある入力バッファの内容を示してい
る。
して、最初の形態素[二J (数詞)が、辞書検索手段
3から送られてきたところを示した図が、第9図(a)
である。40はタイプAのプロセス、407はタイプA
のプロセス40内にある入力バッファの内容を示してい
る。
タイプAのプロセス40では、「二」 (数詞)が文節
先頭になり得るが否がか判定される。その結果、「二J
(数詞)は文節先頭になり得るので、「二J (数詞
)を内部に格納したタイプBのプロセスが生成される。
先頭になり得るが否がか判定される。その結果、「二J
(数詞)は文節先頭になり得るので、「二J (数詞
)を内部に格納したタイプBのプロセスが生成される。
その段階を示したのが、第9図(b)である。41はタ
イプBのプロセス、408は夕イブBのプロセス41内
にある入力ハッファの内容、409はタイプBのプロセ
ス41内にあるローカルメモリの内容を示している。ま
た、「二J (数詞)を内部に格納したタイプBのプロ
セス41が生成される際に、ローカルメモリ409内の
形態素列の末尾、すなわち、「二」 (数詞)が文節末
尾になり得ることから、ローカルメモリ409内の形態
素列が文節候補として出力される。
イプBのプロセス、408は夕イブBのプロセス41内
にある入力ハッファの内容、409はタイプBのプロセ
ス41内にあるローカルメモリの内容を示している。ま
た、「二J (数詞)を内部に格納したタイプBのプロ
セス41が生成される際に、ローカルメモリ409内の
形態素列の末尾、すなわち、「二」 (数詞)が文節末
尾になり得ることから、ローカルメモリ409内の形態
素列が文節候補として出力される。
続いて、辞書検索手段3から次の形態素: 「煮」(動
詞語幹)が読み込まれ、第9図(C)に示すように、全
プロセス40.41に同時に渡される。すると、プロセ
ス40では「煮」 (動詞語幹)が文節先頭になり得る
か否かが判定され、プロセス41では「二j(数詞)と
「煮」 (動詞語幹)が接続可能か否かが判定される。
詞語幹)が読み込まれ、第9図(C)に示すように、全
プロセス40.41に同時に渡される。すると、プロセ
ス40では「煮」 (動詞語幹)が文節先頭になり得る
か否かが判定され、プロセス41では「二j(数詞)と
「煮」 (動詞語幹)が接続可能か否かが判定される。
このプロセス40とプロセス41とは同時に動作する。
判定の結果、「煮」 (動詞語幹)は文節先頭になるた
め、「煮」 (動詞語幹)を格納したタイプBのプロセ
ス41が生成される。「二」(数詞)と「煮」 (動詞
語幹)とは位置的に接続不可である。この段階が第9図
(d)に示されている。
め、「煮」 (動詞語幹)を格納したタイプBのプロセ
ス41が生成される。「二」(数詞)と「煮」 (動詞
語幹)とは位置的に接続不可である。この段階が第9図
(d)に示されている。
なお、「煮」 (動詞語幹)は文節末尾にならないので
、「煮」 (動詞語幹)を格納したタイプBのプロセス
41が生成されたときに、文節候補は出力されない。
、「煮」 (動詞語幹)を格納したタイプBのプロセス
41が生成されたときに、文節候補は出力されない。
さらに、「似」 (動詞語幹)、[日本J (名詞)。
「本」 (名詞)という順に形態素が読み込まれ、プロ
セスの生成が行なわれ、次に、[本J (助数詞)が読
み込まれたところを示したのが、第1O図(a)である
。全プロセスの入力ハツファに、同時に1本」 (助数
詞)が取り込まれたところである。
セスの生成が行なわれ、次に、[本J (助数詞)が読
み込まれたところを示したのが、第1O図(a)である
。全プロセスの入力ハツファに、同時に1本」 (助数
詞)が取り込まれたところである。
続いて、全プロセスで接続検定が同時に行なわれ、新た
に生成されるプロセスが、第10図ら)に示したタイプ
Bのプロセス41である。その内部のローカルバッファ
には、「二」 (数詞)/「本」 (助数詞)という形
態素列が格納されている。
に生成されるプロセスが、第10図ら)に示したタイプ
Bのプロセス41である。その内部のローカルバッファ
には、「二」 (数詞)/「本」 (助数詞)という形
態素列が格納されている。
続いて、「語」 (接尾語)が読み込まれたところが、
第11図(a)に示されている。各プロセスでの処理の
結果、第11図(b)のプロセス41が新たに生成され
る。と同時に、第11図(a)において×印を付加した
プロセスが消滅する。X印を付加したプロセスでは、ロ
ーカルメモリ409内の形態素列の末尾の位置と、入力
バッファ408に読み込まれた形態素の先頭位置との間
に、距離が生じたためである。
第11図(a)に示されている。各プロセスでの処理の
結果、第11図(b)のプロセス41が新たに生成され
る。と同時に、第11図(a)において×印を付加した
プロセスが消滅する。X印を付加したプロセスでは、ロ
ーカルメモリ409内の形態素列の末尾の位置と、入力
バッファ408に読み込まれた形態素の先頭位置との間
に、距離が生じたためである。
以上説明したように、本発明によれば、形態素解析を並
列処理できるため、高速な形態素解析装置が得られる。
列処理できるため、高速な形態素解析装置が得られる。
その際、辞書検索に同期した処理を行なっているため、
従来の並列処理方式では問題となっていた辞書の重複検
索という無駄が発生していない。
従来の並列処理方式では問題となっていた辞書の重複検
索という無駄が発生していない。
第1図は本発明の一実施例の構成を示すブロック図、
第2図は形態素解析過程の例を示す図、第3図は従来の
形態素解析処理の一部分の例を示す図、 第4図はマルチプロセス手段の構成例を示したブロック
図、 第5図および第6図はコントローラの処理内容を表した
フローチャート、 第7図はタイプAのプロセスの処理内容を表したフロー
チャート、 第8図はタイプBのプロセスの処理内容を表したフロー
チャート、 第9図、第10図、第11図は実施例の動作例を示す図
である。 1・・・・・文字列入力手段 2・・・・・辞書 3・・・・・辞書検索手段 4・・・・・マルチプロセス手段 5・・・・・文節候補メモリ 6・・・・・第1候補決定手段 40・・・・・タイプAのプロセス 41・・・・・タイプBのプロセス 400 ・・・・処理ユニット(PU)401 ・
・・・コントローラ 402 ・・・・辞書制御線 403 ・・・・辞書データ線 404 ・・・・PUIIJ御線 405 ・・・・PUアドレス線 PUデデー線
形態素解析処理の一部分の例を示す図、 第4図はマルチプロセス手段の構成例を示したブロック
図、 第5図および第6図はコントローラの処理内容を表した
フローチャート、 第7図はタイプAのプロセスの処理内容を表したフロー
チャート、 第8図はタイプBのプロセスの処理内容を表したフロー
チャート、 第9図、第10図、第11図は実施例の動作例を示す図
である。 1・・・・・文字列入力手段 2・・・・・辞書 3・・・・・辞書検索手段 4・・・・・マルチプロセス手段 5・・・・・文節候補メモリ 6・・・・・第1候補決定手段 40・・・・・タイプAのプロセス 41・・・・・タイプBのプロセス 400 ・・・・処理ユニット(PU)401 ・
・・・コントローラ 402 ・・・・辞書制御線 403 ・・・・辞書データ線 404 ・・・・PUIIJ御線 405 ・・・・PUアドレス線 PUデデー線
Claims (2)
- (1)入力された文字列を構成する形態素を認定する形
態素解析装置において、 形態素を登録した辞書と、 前記辞書を検索して前記入力された文字列の部分文字列
に一致する形態素を前記入力された文字列中の先頭から
の出現順に抽出する辞書検索手段と、 前記辞書検索手段によって形態素が抽出されるのに同期
して並列に動作するプロセスによって文節候補を作成す
るマルチプロセス手段とを備えることを特徴とする形態
素解析装置。 - (2)前記マルチプロセス手段において並列動作するプ
ロセスにはタイプAとタイプBの2通りのタイプがあり
、前記マルチプロセス手段の受け取る形態素は前記並列
動作する全プロセスに同時に渡され、前記タイプAのプ
ロセスは、常に1個であり、受け取った形態素が文節の
先頭になることが可能か否かを判定し、可能である場合
にはその形態素を内部に格納したタイプBのプロセスを
新たに発生させ、タイプBのプロセスは、受け取った形
態素が内部に格納した形態素列の末尾に接続可能か否か
を判定し、可能である場合はその形態素を末尾に接続し
たタイプBのプロセスを新たに発生させ、内部に格納し
た形態素列の末尾位置より後方に離れた位置を先頭とす
る形態素を受け取った場合には消滅し、前記新たに発生
したタイプBのプロセスは、内部に格納した形態素列の
末尾が文節の末尾になることが可能か否かを判定し、可
能である場合にはその形態素列を文節候補として出力す
ることを特徴とする請求項1記載の形態素解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2169771A JPH0460766A (ja) | 1990-06-29 | 1990-06-29 | 形態素解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2169771A JPH0460766A (ja) | 1990-06-29 | 1990-06-29 | 形態素解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0460766A true JPH0460766A (ja) | 1992-02-26 |
Family
ID=15892558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2169771A Pending JPH0460766A (ja) | 1990-06-29 | 1990-06-29 | 形態素解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0460766A (ja) |
-
1990
- 1990-06-29 JP JP2169771A patent/JPH0460766A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US5850561A (en) | Glossary construction tool | |
US6212494B1 (en) | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
Grishman | Information extraction: Techniques and challenges | |
JPH02308370A (ja) | 機械翻訳システム | |
JP2005507525A (ja) | 機械翻訳 | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
JP2005507524A (ja) | 機械翻訳 | |
JP2012248210A (ja) | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
Hutchins | Example-based machine translation: a review and commentary | |
JPH03174652A (ja) | データ検索方法および装置 | |
US5283737A (en) | Mechanism for generating linguistic expressions based on synonyms and rules derived from examples | |
Hobbs et al. | The automatic transformational analysis of English sentences: An implementation | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
KR20050060646A (ko) | 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그프로그램을 저장한 기록매체 | |
JPH0460766A (ja) | 形態素解析装置 | |
EP1605371A1 (en) | Content search in complex language, such as japanese | |
JPH04180169A (ja) | 形態素解析装置 | |
JP2880192B2 (ja) | 文字列検索方法及び装置 | |
Meyer | On Sanskrit and information retrieval | |
JPH07244669A (ja) | 文書検索方式 | |
JP3873305B2 (ja) | 仮名漢字変換装置および仮名漢字変換方法 | |
Markantonatou et al. | Monolingual Corpus-based MT using Chunks |