JPS6020234A

JPS6020234A - 日本語形態素解析方式

Info

Publication number: JPS6020234A
Application number: JP58129639A
Authority: JP
Inventors: Kenji Sugiyama; 健司杉山; Masayuki Kameda; 雅之亀田; Koji Akiyama; 幸司秋山
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-07-15
Filing date: 1983-07-15
Publication date: 1985-02-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）発明の技術分野本発明は日本語文の形態素（単語）を解析する方式に係
り、特に最小文節数となる形態素列を速やかに見付り出
すことができる方式に関する。

（２）技術の背景日本語ワードプロセッサを作成するために、仮名文字で
べた書した日本語文について、その形態素（単語）を解
析して所定の仮名混じり漢字文章を得る方式（カナ漢字
変換）や、或いは自動翻訳などのために、べた書されて
いる漢字かな混しり日本語文を形態素解析して単語を認
定する力ｊ（とじて、最長一致法、最尤評価法などが使
われてきた。これらの評価法によっては、文全体につい
°（の尤度を十分表し°ζいないとい・）反省から、最
近文節最小法が提案され、その実験から正し２い解（１
ｉ′結果は、殆ど文節数が最小であること力積１°明さ
れた。日本語文の解析に使用する装置の主要部構成につ
いてブロックで示すと第１図のよ・）になる。

まずバーズリスト作成部と文節構造抽出部とを制御する
。前者について、整数ｉ、形態素（中詰構造）α、整数
ｋから成る３項系列を項目と呼び、その有限集合をバー
ズリストという。中詰構造αとは綴り、品詞、活用情報
から成る系列である。

バーズリストを作成するアル−ｌリスＪ・をう５行する
とき、単語辞四を使用する辞書検索部、評価関数計ｑ部
、単語チェック部が動作する。作成されたバーズリスト
を参照して文節構造を抽出する。

（３）従来技術と問題点この解析として文節数最小法について提案された方式を
以下説明する。例えば、情報処理学会論文誌第２４巻第
１号第４０頁〜第４６頁、吉村他「文節数最小法を用い
たべた書き日本語文の形態素解析」（１９８３年１月号
）には、入力記号列接を深さとした場合、横型に状態−
空間を探索することについて説明しである。まずアルゴ
リズムの最初で入力列の左から考え、総ての可能な状態
を作り出し、アルゴリズムの後半でその中から入力列全
体の文節数が最小になるものを選ぶ。

例えば入力記号列として「タンゴマタハブンセツヲ」というべた置板名文字列を考える。第２図において可能
な単語候補を辞書検索により全部作り出す場合を説明す
る。その候補は前述の「項目」として図中先付き数字の
次に表示しである。丸付き数字は生成の順番で、 ■（２，五、２）とあるのは、７番目に生成され、解析構造位置は２で（
「夕」　「ン」の次であるから２）、文節数（次数）が
「タン」の次の２であることを示している。当初「り」
を基準として検索ｌ、次に「ン」を基準として検索して
もこれはないから「ゴ」を基準とし”ζ続ＬＪる。そし
て（４７）まで生成して、その結果全記号列について最
小文節数（次数）のものから並べると、次数３　単語　または　文節を〃　丹後　または　文節を〃　単語　また　は　文節　をのようになり、最初のものが目的のものと判る。

これは文節の少ないものは、係り受けが少なく、したが
ってめるものにより早く行き当たるという経験則に基づ
いている。しかし、上記の方法では候補を数多く作り出
してしまい、生成手順に長時間を要することが大きな欠
点である。

（４）発明の目的本発明の目的は前述の欠点を改善し、従来とは異なるア
ルゴリズムの考えを使用し、高速に最小文節形態素列を
得る方式を提供することにある。

（５）発明の構成前述の目的を達成するための本発明の構成は、べた書さ
れた日本語文を読み込み、単語辞書をアクセスして所定
のｔｌ′Ｌ語列に変換する形！３素解析方式において、
探索アルゴリズムとして節点から節点に至る経路をコス
トが最低となるように、選択処理するアルゴリズムによ
り実行することである。

（６）発明の実施例本発明の実施例においては、均一コスト法とも呼ばれる
Ａｔ　アルゴリズムの一種を使用する。基本的な考え方
は、スタート節点からゴール節点までのコストを最小と
する経路を見い出すことである。その経路を発見するこ
とに役立つ情報をヒユーリスティック情報と云い、それ
は評価関数を使用する形で用いられる。（ヒユーリステ
ィック関数をｈで表す。）節点から節点への順序付けに
用いられる成る関数ｆがあるとして、記号ｆ（ｎ）によ
って節点ｎにおけるこの関数の値を示すときを評価関数
とし、この関数を用いて順序付けした探索アルゴリズム
をＡ′アルゴリズムという。そして　ｈ（ｎ）ヨ０ずなわらヒユーリスティック関数値が恒等的に零のとき
、均一　コストアルゴリズムとなる。このアルゴリズム
は常に最小コストの経路を見付り出して停止することか
保障されている。（参上文献：エルシン「人工知能−問
題解決のシステム給」。

コロナ社）コストの安い経路を見出す意味は次数の少ないもの、文
の終わりの右方により近いものを見出゛］ことで、上記
のｇ（ｒ＋）をそのノードの次数とするごとに相当する
。その結果ゴールを早く発見できる可能性が多く、生成
される状態が少なくてすむから、それだり短時間に終了
できる。

この場合のアルゴリズム実施のフローチャー１・を第３
図に示す。即ちｉ、スタート節点Ｓを０ＰＥＮと呼ばれるリストに置け
。ｆ（ｓ）＝０とせよ。

ｉｉ、若し０ＰＥＮが空ならば、候？ｄｉ無しとして外
に出よ。さもなくば次へ進め。

ｉｉｉ、ｆの値が最小である節点を０ＰＥＮから取出し
、それをＣＬＯ３ＥＤと呼ばれるリストに置け。この節
点を“ｎ”と呼ぶ。

ｉｖ、若しｎが最終節点なら候補が見つかったので外へ
出よ。さもなくば次へ進め。

■９節節点に接続可能な節点を作り出せ。新たに作り出
した節点の各々について計算を繰り返・Ｕ。

そして第４図は本発明の実施例として第２図と同様な文
字列について実行した場合の説明図である。第５図は第
４図についてグラフ表現して比較した図である。第４図
は第２図と対応している。

人力された文字列から単語を見出すとき例えばＵタンゴ
マタハ・・−」に７いて処理するとき辞書アクセスを行
う回数は処理速度におおきな影響を与えるが従来の第２
ｖＡでは１１回に対し、第４図では８回となっている。

次に本発明の第２実施例として均一アルゴリズムよりも
生成状態数が更に少なくなるＡｋアルゴリズムを考える
。文節の最大長をＭ、文節内の付属部分を最大長をｍと
して、（０からｍ）のとき値０、（ｍからｍ＋Ｍ）のと
き値１、（ｒｎ＋Ｍからｍ＋２Ｍ）のとき値２、（ｍ＋
２ＭからＩｎ＋３Ｍ）のとき値３−・となるように関数
５ＴＥＰを考える。ある節点ｎの未解析の入力記号列の
長さをＬとすると、例えば第６図の■の節点（または、
２）のｆは解析済位置が３で、自Ｉの単語の読み長さが
３であるから　゛イ＝１１−（３＋３）＝５となる。１１は入力文字長である。そごでｌ＋　ｎを次
のように定める。

ｈ（ｎ）＝ＳＴＥＰ　（ｆ）ｈは残りの文字列を勇えられる最も少ない文節数で構成
できたと仮定した場合の文節数となっている。従ってｎ
からゴール節点へ至る只のコストｈ（ｎｌ　（即ちｎの
残りの入力文字列中に実際に存在する最小の文節数）よ
りもｈ　（ｎ　ｌは小さくなり、実行可能性が保障され
る。（参考文献：エルシン「人工知能−問題解決のシス
テム論」）第６図は第４図と対応して示す説明図で、第
７図はそのグラフによる説明図である。

（７）発明の効果このようにして本発明によると、比較的簡易な手段で、
目的とする形！ａｓ列を速やかに見付は出すことができ
る。

【図面の簡単な説明】

第１図は解析装置の主要部構成を示すブロック図、第２
図は従来の最小文節法によるアルゴリズム動作説明図、第３図は本発明による動作フｒ：Ｉ−チャート第４図は
第３図によるアルゴリズム動作説明図、第５図は第４図
のグラフ表現図、第６図は本発明の（−の実施例にょる′ｒルゴリズム動
作説明図、第７図は第６図のグラフ表現図である。特許出願人　富士通株式会社代理人　弁理士　鈴木栄祐タ　ン　ゴ　マ　タ　ハ　フ゛　ン第６門（）、：　イｉ、Ｈ

Claims

【特許請求の範囲】

べた書された日本語文を読み込み、中詰辞書をアクセス
して入力文を単語列に変換する形！３素解析方式におい
て、探索アルゴリズムとして節点から節点に至る経路を
コストが最低となるように、選択処理するアルゴリズム
により実行することを特徴とする日本語形態素解析方式
。