JP2506809B2 - 日本語形態素解析装置 - Google Patents

日本語形態素解析装置

Info

Publication number
JP2506809B2
JP2506809B2 JP62205677A JP20567787A JP2506809B2 JP 2506809 B2 JP2506809 B2 JP 2506809B2 JP 62205677 A JP62205677 A JP 62205677A JP 20567787 A JP20567787 A JP 20567787A JP 2506809 B2 JP2506809 B2 JP 2506809B2
Authority
JP
Japan
Prior art keywords
node
path
cost
goal
minimum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62205677A
Other languages
English (en)
Other versions
JPS6448171A (en
Inventor
健司 長尾
祐司 菅野
謙一 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP62205677A priority Critical patent/JP2506809B2/ja
Publication of JPS6448171A publication Critical patent/JPS6448171A/ja
Application granted granted Critical
Publication of JP2506809B2 publication Critical patent/JP2506809B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、電子計算機システム等に組み込まれ、入力
された日本語文を日本語の電子化辞書の内容を参照して
単語の列に変換する日本語形態素解析装置に関するもの
である。
従来の技術 日本語ワード・プロセッサのカナ漢字変換や、電子計
算機による機械翻訳等で従来より日本語形態素解析に利
用されてきたヒュリスティックスとして、文節最長一致
法や二文節最長一致法がある。前者によるものは先頭の
一つの文節後者によるものは先頭の二つの文節に対し
て、切り出しの長さが長いものを優先するという方法
で、いずれも文の狭い範囲のヒューリスティックスしか
利用しておらず精度が低かった。この反省から提案され
たのが文節数最小法で、これは、1つの文の中の文節の
数が少ない解析を優先するという方法である。文節数最
小法についてはいくつかの報告(例えば吉村、日高、吉
田:「日本語文の形態素解析における最長一致法と文節
数最小法について」情報処理学会自然言語処理研究会研
紙資30−7,1982)がなされており、精度の高いことは知
られている。
この文節数最小法の実現法としては、従来大きく分け
て2つあった。
<方法1> 第3図に示すように、入力文字列から辞書11を参照し
て単語の切り出し部12で切り出した単語を1つのノード
として捉え、ノードのつながりをパスと捉えたときにパ
スのコストはパス・コスト計算手段2がパス上にある文
節の総数を計算することにより与え、ノードの評価値
は、そのノードを新たにパスの端に継ぎ足してできる新
しいパスのコストを評価手段4が計算して与え、この評
価値とα−入力手段9から入力されたパラメータαによ
り、随時、候補絞り込み手段13が解のパスの候補を絞り
込み探索パス保持手段14に保持していく。解析結果は、
パラメータαで指定される範囲までのパスを全て取り出
すことにより与える。
第3図の構成により実際に文が形態素解析される例を
以下に示す。対象とする入力文字列及びそれに対する辞
書引きの結果を(辞書引きは既に行なわれたものとし
て)第4図に示す。第4図において、入力文字列として
は「ナガオガマチニデル」が入力され、位置(i,j)に
は入力文字列のi番目からj番目までの部分より成る単
語を示している。
一方、形態素解析の問題領域である探索グラフを第5
図に示す。第5図の中で、丸で囲まれた漢字或いはひら
がな1文字が単語よりなるノード、このノードを線でつ
ないだものがパス、ノードに添えられた四角で囲まれた
数値がパスのコスト(パスは一般に複数あるので四角内
数値も複数ある)、三角で囲まれた数値がゴールまでの
パスの最小コストの予測値である。又は探索のスター
ト・ノードとする。
<方法1>の構成では、新しく生成されたパスに対し
て候補の絞り込みを行なうだけなので、結局入力文字列
の全ての文字位置に探索の焦点を当てる必要がある(辞
書引きを行なう必要がある)。但し各位置では、同一の
ノードに対しては、α−入力手段より入力されたパラメ
ータαの範囲内のコストを持つパスのみを探索の対象と
すれば十分であるので、結局<方法1>による探索の軌
跡は第5図のようになる。なお第5図はαをパスコスト
が最小値+1以下のパスを全て求めるように設定した場
合を示す。この<方法1>に基づく形態素解析としては
杉村利明、情報処理学会第34回全国大会pp1303〜1304
「形態素解析のための解析グラフの検討」に報告されて
いる。
<方法2> 第6図に示すようにノードやパスの定義、さらにパス
・コストの計算は<方法1>に同じであるが、ノードに
対する評価値は、パス・コスト計算手段2が計算する、
そのノードと祖先ノードよりなるパスのコストと、予測
手段7が計算するそのノードから(ノード含まず)ゴー
ル(文末に相当する)に至るまでのパスの最小コストの
予測値の両方とから評価手段4が計算し、探索候補ノー
ド保持手段3に保持されているノードの中からこの評価
の最小ノードを随時選択処理手段5が選択処理していく
点が異なる。
さらに、解析結果としては、ゴールまでのコストが最
小のパスだけを出力するという点も<方法1>と大きく
異なる。
ここで第5図及び第7図で三角で囲んだ数値によって
示した予測値の算出には、次のような手法を用いる。
(1) 当該のノードに対応する文字列の後続の文字列
の長さと、一つの文節の最大長から、後続文字列中に存
在する文節数の最小数を算出する。
(2) (1)で算出した値が0の場合は、後続の最左
部分列及び直後続位置+1の位置から始まる最左部分列
に対する辞書引きを行なった結果を元に、後続文字列中
の文節数の最小値を算出し、これを予測値とする。
(1)で算出した予測値が0でない場合はそのままそ
の値を予測値とする。
なお、第5図および第7図に示した予測値の算出は、
最大文節長を「4」として計算してある。
又、評価値の算出は、ノードとその祖先ノードよりな
るパスのコストと、予測値の和をとることにより行なう
ことにする。
<方法2>による形態素解析の例を<方法1>の場合
と全く同様に第4図に示すような入力文字列と辞書引き
結果に対して実施した場合の探索の軌跡を第8図に示
す。<方法2>によれば、文節数が最小の解析のみを得
ることになる。
<方法2>に基づいた形態素解析としては、特開昭60
−20234号公報に示されている。
発明が解決しようとする問題点 しかし以上の2つの方法にはそれぞれ次のような問題
があった。
<方法1の問題点> 評価手段4の計算する評価値は、それが既に探索した
文次列の部分からのみ得られる情報により計算するもの
である以上、結局入力文字列中の全ての文字の位置を探
索の対象とする必要があり、最終的にコスト(文節数)
がパラメータαにより指定された範囲内のパスを取り出
すにしても、途中全くこれに無関係のノードを数多く探
索してしまうことがあり無駄が大きく、処理効率の点で
問題がある。
<方法2の問題点> 文節数最小法は、確かに、文中の文節数が最小の解析
に正解が含まれる確立が非常に高いというヒューリステ
ィクであるが、実際は、入力文の100%について文節数
が最小の解析に正解が含まれるということは決してな
く、最小のものから2或いは3番目くらいの範囲まで解
析すればまず100%正解が含まれるというものである。
このことは、文節数最小法の考案者である吉村らによっ
て実験され報告されている(吉村、日高、吉田:「最長
一致法と文節数最小法について」情報処理学会、人工知
能と対話技法研資24−1,1982) <方法2>は、文節数が最小であるもののみを求める
形態素解析であり、上で述べたことにより、正解を逃し
てしまう可能性があり、これは非常に大きい問題であ
る。
そこで、本発明は、従来技術の以上のような問題を解
決するもので、文節数最小法等の文全体に渡るヒューリ
スティックスを形態素解析に利用する最に、あくまで、
正解である解析を逃してしまうことなく、しかも効率よ
く処理することを目的とするものである。
問題点を解決するための手段 本発明は、解析の結果として文全体を覆うパスのコス
トの最小値からどの範囲のものまでを抽出するかを限定
するためのパラメタαを入力するα−入力手段と、この
指定されたコストの範囲のパスを全て取り出すことを保
証するために、選択されたノードの後続ノードのうちど
れを新たに探索候補として探索候補ノード保持手段に保
持するかを判別する保持判別手段と、文全体を覆うパス
のコストの最小値を保持する最小値保持手段と、ノード
とその祖先ノードよりなるパスのコストと、ゴールまで
のパスの最小コストの予測値の両方から計算されるノー
ドの評価値の最も小さいものを選択しそれがゴールノー
ドである場合には、α−入力手段から指定された抽出す
べきパスのコストの条件を満たし、当該ゴールノードを
生成するに至ったパス上のいずれかのノードに合流する
全てのパス(解パス:ゴールからスタートに至るパス)
を取り出し、それと同時に抽出される解パスに含まれる
全てのノードに対してそのノードからゴールまでの真の
最小コストを計算し、その値を予測手段に伝える選択処
理手段を備えることにより、上記の目的を達成するもの
である。
作 用 上記構成において、入力されたべた書き日本語文に対
し、辞書を参照して単語の切出しを行ない、単語に付随
する属性の1つ、又は複数をまとめて1つのノードとす
る。この際、1つの単語に対しては1つのノードが対応
するが、1つのノードは一般には複数の単語に対応する
こともある。切り出した全ての単語を1つのノードに対
応させ、ノードのつながりをパスと捉える。このような
ノードに対し、予測手段はノードからゴールまでのパス
・コストの最小値を予測する。探索する候補のノードは
探索候補ノード保持手段に保持され、その中から次に探
索すべきノードを選択する際には、そのノードとその祖
先ノードよりなるパスのコストと、ゴールまでのパスの
コストの最小値の予測値の両方から評価手段がノードの
評価値を計算し、選択処理手段が評価値の最も小さいも
のを選び、選択されたノードがゴールノードでない場合
は選択されたノードの後続ノードを展開し、保持判別手
段が、後続ノードのうちどれを新たに以降の探索の候補
として探索候補ノード保持手段に保持するかを判別し、
候補として残すもの以外は棄却する。
選択処理手段はさらに、選択したノードがゴールノー
ドである場合には、解パス抽出手段が、α−入力手段か
ら指定された抽出すべきパスのコストの範囲(スタート
からゴールまでの最小コスト+α以下)を満たし、当該
ゴールノードを生成するに至ったパス上のいずれかのノ
ードに合流する全てのパス(解パス:ゴールからスター
トに至るパス)を取り出す。
この解パスの抽出の際には、抽出される解パスに含ま
れる全てのノードにからゴールまでの真の最小コストが
計算できるので、ツルー最小コスト計算手段がこの真の
最小コストを計算し、その値を予測手段に伝えること
で、以降の探索におけるノードの評価を正しく行なえる
ようにする。
実施例 以下本発明の実施例について図面とともに説明する。
なお、以下の説明では形態素解析に用いるヒューリス
ティックスとして、文節数最小法を仮定して説明する
が、ヒューリスティックスとしては文全体に渡るもので
あれば、他のものであっても、又、それらを複合したも
のであってもよく、それによって議論に何ら変更を生じ
ることはない。
第1図は本発明による形態素解析装置の全体構成を示
すブロック図である。
入力されたべた書き日本語文に対し、本発明の形態素
解析装置の外部の装置が日本語辞書11を参照して単語の
切出し部12で単語の切出しを行ない形態素解析装置にこ
の情報を送る。これに対し、形態素解析装置は単語に付
随する属性の一つ又は複数をまとめて1つのノードとし
て捉える。さらに単語とその継続単語のつながりをパス
と捉える。このようなノードに対しコスト付与手段1が
ノードのコストを計算し、パスに対してはパス・コスト
計算手段2がパス上にあるノードのコストの和としてパ
スのコストを計算する。単語の切出しによって新しく生
成されたノードはこれに付随してこれを生成するに至っ
た祖先ノード(このノードが末端にくる)に関する情報
がコストと共に探索候補ノード保持手段3に保持され
る。この探索候補ノード保持手段3に保持されているノ
ードの中から評価手段4の計算する評価値の最小のノー
ドを選択処理手段5が選出する。この選出の作用が解の
パスを見い出す作用に当る。選択処理手段5により選択
されたノードは探索候補ノード保持手段3から探索済ノ
ード保持手段6に移され、これにより探索の「候補ノー
ド」を更新していく。評価手段4はノードの評価値を、
そのノードと祖先ノードよりなるパスのコストと、予測
手段7の算出するノードからゴールまでのパスの最小コ
ストの予測値の両方を参照して計算する。この際、この
最小コストの予測値がいかに実際の値に近いかにより無
駄な探索の多少が決り探索の効率を大きく左右するので
予測手段7の性能は非常に重要となる。この予測値が全
てのノードに渡って一定値0の場合、探索効率が最低と
なり(無駄な探索が最も多い)、どのノードについても
ゴールまでの正確なコストに等しい場合、探索効率は最
高となる。選択されたノードがゴールノードである場合
には、α−入力手段から指定された抽出すべきパスのコ
ストの範囲(スタートからゴールまでの最小コスト+α
以下)を満たし、当該ゴールノードを生成するに至った
パス上のいずれかのノード合流する全てのパス(解パ
ス:ゴールからスタートに至るパス)を取り出す。この
解パスの抽出の際には、抽出される解パスに含まれる全
てのノードからゴールまでの真の最小コストが計算でき
るので、これを計算し、その値を予測手段に伝えること
で、以降の探索におけるノードの評価を正しく行なえる
ようにする。全ての探索が終了するのは、探索候補ノー
ド保持手段3に保持されているノードの中に最小保持手
段8に保持されている、文全体を覆うパスのコストの最
小値とα−入力手段9より入力されたパラメータαによ
り限定された範囲内の評価値を持つノードが存在しなく
なった場合であり(探索候補ノード保持手段3にノード
が全く保持されていなくなった場合も含む)、判定手段
10がこのタイミングを決定する。
次に、従来技術による文節数最小法の実現法の場合と
同様に、第4図に示すような入力文字列と辞書引き結果
に対して、形態素解析の探索グラフを第5図に示すよう
なものとし、最小文節数+1以下の全ての解析結果を得
るようにパラメータαを設定した場合の探索の軌跡を第
2図に示す。このとき、予測手段7及び評価手段4は、
従来技術の<方法2>で述べた手法と全く同じ手法によ
りそれぞれノードのゴールまでの最小コストの予測値及
び、評価値を計算するものとする。
発明の効果 第2図と第8図を比べれば明らかなように、本発明に
よれば従来技術<方法1>に比べ、無駄な探索を少なく
することができる。又、第7図で示されているように従
来技術の<方法2>によれば文節数が最小の解析以外は
得ることができないのに対し、本発明によれば、文節数
が最小値から指定した範囲内の解析を得ることができ
る。
以上のように本発明によれば、文節数最小法等の文全
体に渡るヒューリスティックスを形態素解析に利用する
際に、あくまで、正解である解析を逃すことなく、しか
も効率よく処理することができ、その効果は大きい。
【図面の簡単な説明】
第1図は本発明による日本語形態素解析装置の構成を示
す概念ブロック図、第2図は本発明による形態素解析の
結果を表現したグラフ、第3図は従来技術による日本語
形態素解析装置の構成の一例を示すブロック図、第4図
は、入力文字列とその辞書引き結果を表わす図、第5図
は形態素解析の問題領域を探索グラフで表現した図、第
6図は従来技術の他の日本語形態素解析装置の構成を示
すブロック図、第7図および第8図は第6図の従来技術
による形態素解析の結果を表現したグラフである。 1……コスト付与手段、2……パス・コスト計算手段、
3……探索候補ノード保持手段、4……評価手段、5…
…選択処理手段、6……探索ノード保持手段、7……予
測手段、8……最小値保持手段、9……α−入力手段、
10……判定手段。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭60−20234(JP,A) 特開 昭64−48127(JP,A) 情報処理学会第34回(昭和62年前期) 全国大会講演論文集P1303−1304 情報処理学会第35回(昭和62年後期) 全国大会講演論文集P1317−1320

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】べた書きの日本語入力文から切り出した単
    語に付随する属性の1つ、又は複数をまとめて1つのノ
    ードとし、このノードのつながりをパスととらえると
    き、ノードに対してコストを与えるコスト付与手段と、
    パスのコストをパス上にある全てのノードのコストの和
    として計算するパス・コスト計算手段と、ノードからゴ
    ールまでのパス・コストの最小値を予測する予測手段
    と、探索する候補のノードを保持する探索候補ノード保
    持手段と、前記探索候補ノード保持手段に保持されてい
    るノードに対して前記パス・コスト計算手段により計算
    される。このノードとその祖先ノードよりなるパスのコ
    ストと、前記予測手段により計算されるゴールまでのパ
    スのコストの最小値の予測の両方から評価値を計算する
    評価手段と、前記探索候補ノード保持手段に保持されて
    いるノードの中から、前記評価手段により計算される評
    価値の最小のものを選択し、そのノードがゴールノード
    である場合には、最小値からの範囲として指定された抽
    出すべきパスのコストの条件を満たし、当該ゴールノー
    ドを生成するに至ったパス上のいずれかのノードに合流
    する全てのパスである解パスを取り出し、それと同時
    に、抽出される解パスに含まれる全てのノードに対して
    そのノードからゴールまでの真の最小コストを計算し、
    その値を前記予測手段に伝える選択処理手段と、既に探
    索されたノードを保持する探索済ノード保持手段と、選
    択されたノードの後続ノードのうちどれを新たに探索候
    補として前記探索候補ノード保持手段に保持するかを判
    別する保持判別手段と、文全体を覆うパスのコストの最
    小値を保持する最小値保持手段と、解析の結果として文
    全体を覆うパスのコストが前記最小値保持手段に保持さ
    れている最小値からどの範囲のものまでを出力するかを
    限定するためのパラメタαを入力するα−入力手段と、
    探索候補ノード保持手段に保持されているノードの中
    に、パラメタαにより限定された範囲内の評価値を持つ
    ノードが存在するかどうかを判定する判定手段を具備す
    ることを特徴とする日本語形態素解析装置。
JP62205677A 1987-08-19 1987-08-19 日本語形態素解析装置 Expired - Fee Related JP2506809B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62205677A JP2506809B2 (ja) 1987-08-19 1987-08-19 日本語形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62205677A JP2506809B2 (ja) 1987-08-19 1987-08-19 日本語形態素解析装置

Publications (2)

Publication Number Publication Date
JPS6448171A JPS6448171A (en) 1989-02-22
JP2506809B2 true JP2506809B2 (ja) 1996-06-12

Family

ID=16510865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62205677A Expired - Fee Related JP2506809B2 (ja) 1987-08-19 1987-08-19 日本語形態素解析装置

Country Status (1)

Country Link
JP (1) JP2506809B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0863466A4 (en) * 1996-09-26 2005-07-20 Mitsubishi Electric Corp INTERACTIVE PROCESSOR

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6020234A (ja) * 1983-07-15 1985-02-01 Fujitsu Ltd 日本語形態素解析方式

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
情報処理学会第34回(昭和62年前期)全国大会講演論文集P1303−1304
情報処理学会第35回(昭和62年後期)全国大会講演論文集P1317−1320

Also Published As

Publication number Publication date
JPS6448171A (en) 1989-02-22

Similar Documents

Publication Publication Date Title
US7689588B2 (en) Method of syntactic pattern recognition of sequences
JP6727610B2 (ja) 文脈解析装置及びそのためのコンピュータプログラム
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
US7124073B2 (en) Computer-assisted memory translation scheme based on template automaton and latent semantic index principle
JPH0362000A (ja) 陰マルコフモデル音声認識の効率的簡潔化アルゴリズム
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
JP2010044637A (ja) データ処理装置、方法、及びプログラム
US6278990B1 (en) Sort system for text retrieval
CN108153730A (zh) 一种多义词词向量训练方法及装置
JP2506809B2 (ja) 日本語形態素解析装置
JP2021018442A (ja) 文比較装置、文比較方法、及び文比較プログラム
US20230229683A1 (en) Document search device, document search system, document search program, and document search method
JPS62241026A (ja) 文字列検索方式
CN109710419A (zh) 基于文本分析的mpi代码通信过程解析方法
Reddy et al. Multiplicative speedup of systems
JP2807236B2 (ja) 形態素解析方法
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP7088490B2 (ja) 文比較装置、方法、及びプログラム
Oumarou et al. A Novel Code Completion Strategy
KR100474824B1 (ko) 연어정보를이용한원시언어의목적언어로의언어번역장치및방법
JPH0778171A (ja) 情報検索装置
Fu et al. Towards Interpretable Evaluations: A Case Study of Named Entity Recognition
EP1429257B1 (en) Method and apparatus for recognizing multiword expressions
Sanders et al. Word Prediction Strategies in Program Editing Environments
JPH0320866A (ja) テキストベース検索方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees