JPH01217564A - 自然言語解析装置及びその方法 - Google Patents

自然言語解析装置及びその方法

Info

Publication number
JPH01217564A
JPH01217564A JP63042803A JP4280388A JPH01217564A JP H01217564 A JPH01217564 A JP H01217564A JP 63042803 A JP63042803 A JP 63042803A JP 4280388 A JP4280388 A JP 4280388A JP H01217564 A JPH01217564 A JP H01217564A
Authority
JP
Japan
Prior art keywords
analysis
sentence
case
dictionary
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63042803A
Other languages
English (en)
Inventor
Yasuhiko Kato
加藤 安彦
Hiroshi Yasuhara
宏 安原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63042803A priority Critical patent/JPH01217564A/ja
Publication of JPH01217564A publication Critical patent/JPH01217564A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、自然言語処理分野にあける言語解析装ゴ及
び言語解析方法に関する。
(従来の技術) 通常、日本語文は漢字とがなどが混交した形で表記され
(以下、漢字かな混じり文と称しローマ字、数字等を含
む)、句点までをひと区切りとする文節の連続から成る
文字列である。文節は多く「自立語十付属語」という形
式を持つ。この連続する文字列を文節単位で捉え、更に
は自立語、付1語を辞書との対応から同定する自然言語
解析の手法としては、従来、最長−敗法か多く行われて
来た。
ヱ長−敗法とは、べた書きて入力された漢字かな混じり
文の一連の文字列の先頭から末尾を先ず候補として選択
して自立語辞書の見出し語と比較照合を行う。−敗しな
い場合は末尾から1文字ずつ削除しなから辞書の見出し
語で一敗する最も長い語を選択するまで同様の操作を繰
り返し文中の各単語か辞書の見出し語と一敗した時、文
の単語分割を終わるという方法である。但し、この操作
の効率を向上させるために、読点に注目する、或は漢字
とかなの境界に注目することで文節の目安をつける方法
を併用することも多く、最長−敗法を基本としたシステ
ムも文頭からの解析は共通しているか、処理の細部では
各々に異なったものとなっている。
又、文献・ [自然言語処理研究会資料34−3(19
82年12月7日) PP、+3−+8Jに開示された
自然語処理の方法も文頭から解析する方法である。
(発明が解決しようとする課題) しかし、SOV (主語・目的語・述語)型言語の一つ
である日本語は、その特徴として中心となる用言が文末
に貫かれることが多い。これがため、この最長−敗法を
用いた従来技術では、文字列の先頭から解析するために
、用言を中心とする自然言語解析を行う場合、主用言の
同定を速やかに行うことが出来ず、文末までの解析が終
了しない限り、テンス、ヴオイス、アスペクト等の文解
析情報の抽出が出来ないと共に、文の構造を把握するこ
とか出来ないという問題点かあった。
この出願の発明者等は、日本語文が文意を決定する主用
言を文末近くにゴくことに注目し、解析を文字列の最後
尾から行えば、文意、文構造の把握を容易にし、解析効
率の向上と高速化を図ることか出来るという結論を得た
従って、この発明の目的は、上述したように文末までの
解析を終了しない限り文の構造が把握出来ないという欠
点を除去し、文末から解析をするということで中心とな
る用言をいち早く同定出来、文解析情報の抽出か容易に
行え、しかも、解析を的確に行うことか可能な自然言語
解析装置及びその方法を提供することにある。
(課題を解決するための手段) この目的の達成を図るため、この発明の自然言語解析装
置によれば、 少なくとも逆引き辞書、接続表、活用表、深層格・意味
素性対応表等の自然言語解析に必要な情報か予め格納さ
れている第1メモリ部と、文解析フレーム及び格解析ス
タックか格納される第2メモリ部と、 これら文解析フレーム及び格解析スタックを主成してこ
れらを第2メモリ部に格納し、入力された漢字かな混じ
り文の一文を文末から逆引き辞書等の第1メモリ部に格
納された情報と比較対照して解析を行い、この解析の結
果を文解析フレーム及び格解析スタックに順次に格納す
る解析手段とを具えた構成となっている。
この発明の実施に当って、逆引き辞書は自立語辞書と付
属語辞M%含み、文末から最初の漢字又は片仮名までの
平板名の文字列を付属語或いは用言活用語尾を優先して
解析する構成とするのか効果的である。
さらに、この発明の実施に当って、動詞を解析した時点
で、前記文解析フレームに解析の結果を代入し、然る後
に文中の名詞を、その意叶素′注、表層格から判断して
、解析結果を前記格解析スタックに順次格納する構成と
するのか良い。
この発明の自然言語解析方法によれば、入力ざれた漢字
かな混じり文の一文の文頭からではなく、文末から逆引
き辞書を用いて解析を行い、動詞或いは動詞に準ずる用
言が出現する毎にその辞書記述情報から必要とされる文
解析フレーム及び格解析スタックを生成し、各動詞を解
析した時点て文解析フレームに解析結果を代入し、然る
後に文中の名詞をその意味素性、表層路から判断してそ
の解析結果を格解析スタックに順次格納するものである
(作用) この発明によれば、解析を文字列の最後尾から行う構成
となっており、文末からの解析は転倒した文字列の解析
に等しく、そのため、転倒文字列を見出し語とする逆引
き辞Mを用い、同時に接続表と逆引きの活用表8香照す
る。また、逆引き辞書中には文法情報及び格情報、意味
素性情報等を含む意味情報も現行のシステム同様に持た
せておく。文末から解析を始めることを除いて、辞書、
接続表、活用表の参照の仕方は現行システムと変わらな
いか、文末からの解析により、逼常文の文意を決定しで
いる主となる用言を切り出し易く、用言を決定すること
で、名詞の担う格素性を決定出来る利点を持つ。また、
文末から解析を行うことで、用言活用形に付随する付属
語からテンス、アスペクト、ヴオイス情報を処理の初期
段階で把握することか出来るものである。
また、文末から最初の漢字、片仮名までの平板名の文字
列を付属語或いは用言活用語尾を優先して解析するので
、的確な解析を効果的に行い得る。
また、動詞を解析した時点で、解析の結果を文解析フレ
ームに代入し、然る後、文中の名詞の解析結果を格解析
スタックに格納するので、解析効率の向上と高速化か図
れる。
(実施例) 以下、図面ヲ参照してこの発明の自然言語解析装置及び
方法につき説明する。
第1図は、この発明の説明に供するブロック図、第2図
はこの発明の動作の流れの概要説明図であり、第3図(
A)及び(B)は文解析フレーム及び格解析スタックの
説明図、第4図はこの発明の解析動作の一例の具体的説
明図及び第5図(A)及びCB)は解析結果が文解析フ
レーム及び格解析スタックに格納される様子を説明する
ための説明図である。尚、第4図及び第5図における■
〜[相]は出現の順序を表わす。
i皿凱朋 先ず、この発明の自然言語解析装置及び解析方法の概要
につき説明する。
第1図において、10は入力装置、20は第1メモリ部
、30は解析手段、40は第2メモリ部である。
この入力装置10自体は、従来と同様、原稿等から直接
、或いはコンピュータ等から通常の漢字かな混じり文の
一定の長さの情報を読み取る読取袋=12と、読み取っ
た情報を一旦記録しでおくメモリ部14とを具えている
第1メモリ部20には自然言語解析に必要な情報か予め
格納されている。この情報は例えば逆引き辞書22、接
続表24、活用表26、深層槽・、は昧素゛i対応表2
8、その他所要に応した表として格納しである。この場
合、格情報及び意味素性情報等を含む意味情報や、文法
情報を逆引き辞書中に持たせておいても良いし、別の表
として格納しでおいでもよい。この実施例では、逆引き
辞M22の内部に少なくとも自立語針1と付刑語辞害と
を持たせである。
解析手段30は、解析モジュールとして構成されており
、入力装置10のメモリ部14に格納された漢字かな混
じり文の文字列を読み出してきて(第2図ステップS3
)その文の終端を検出しく第2図ニステップS2)、文
頭から句点までの一文を文末から文頭へ向けて解析を開
始する(第2図ステップS3)。この場合、通常文は普
通、[自立語−付属語−・・・−自立語一付屈語]の形
式を持っでいるので、文末か漢字または片仮名で終了し
ている場合を除き、付属語或は用言活用語尾を優先し、
文末から遡って最初の漢字または片仮名までの平板名の
文字列を逆引きの辞M22及び活用表26を用いて検索
を行う。この場合は付属語辞書を優先する。文末か漢字
または片仮名で終了している場合は、体言止め或いはす
変動詞語幹と判断して、自立語辞書の検索を行う。これ
らの解析又はそれ以後の解析は、解析手段30において
、第1メモリ部20の辞822、その他の表24〜2日
に格納されている情報と比較対照しなから行う。
解析を始めるに当たっては、初期状態として、第3図に
示す法:MOOD(モート)、時制:丁ENSE (テ
ンス)、 態: V○ICE (ヴオイス)、アスペク
ト・ASPECT、格。
CASE (ケース)からなる文解析フレーム(第3図
(△))及び格解析スタック(第3図(B))を生成す
る(第2図・ステップS4)。
これら文解析フレーム及び格解析スタックは、文末から
逆引き辞書を用いて解析を行って、文中に出現する動詞
或いは動詞に準ずる用言の辞書記述情報から、必要とさ
れる項目か決められ、これらの項目数は解析の用途に応
して増やすことか可能である。これら文解析フレーム及
び格解析スタックは第2メモリ部40に作業域(スタッ
ク)としで格納される。
このように文解析フレーム及び格解析スタックか生成さ
れて第2メモリ部40に格納されると、文末から文頭へ
向けての解析が順次に行われ(第2図ニステップS5)
、解析の結果がこれら文解析フレーム及び格解析スタッ
クに順次に格納される(第2図、ステップS6)。この
場合動詞を解析した時点で文解析フレームに解析結果を
「値」として代入し、然る後に文中の名詞をその意味素
性、表層格から判断してその解析結果tS解析スタック
に順次格納する。
1豆点 次に、この発明の自然言語解析装言及び解析方法を、具
体的な例文の解析につき説明する。
先ず、解析手段30は入力表=10のメモリ部I4に格
納された文字列を最初から走査して文の終端である句点
を検出し、文頭から最初の句点までを抽出すなわち切り
出す。この切り出した一文全体を単語とみなし、文末か
らの最長−敗法を用いて単語分割を開始する。この単語
が辞書中になければ文頭の一次を切り落し、残りの一文
全体を新たに一単語として辞書との対比照合を行う。こ
のように辞書中の単語と一敗するまで、文頭側から一文
字ずつ切り落して新たな単語をつくり、対比照合を行い
、両者か一敗したとき、解析処理を行う。
今、第4図(A)に示すように、この例文を「銀行は顧
客情報をコンピュータで処理した。jという一文とし、
この−文を文の終端の句点の検出により抽出したとする
(第4図(B))。この検出のための走査によって、文
中に出現する動詞或いは動詞に準ずる用言の辞書記述情
報から必要とされる文解析フレーム及び格解析スタック
を生成する(第3図(A)及び(B))。勿論、後方か
ら解析しているため、扱い方としては、「。たし理処て
ターユビンコを報情客顧は行止」としで扱うのに等しい
。後述するよう(こ、この文の解析を主として解析手段
30て、第4図に示す処理に従って、処理して、その解
析結果を第2メモリ部4oの作業域に格納していく。
これら一連の処理は解析手段30においで第1メモリ部
20の逆引き辞書22、その他の表24〜28ヲ用いて
行う。以下、これらの解析処理につき説明する。
次に、解析手段30によって、第1メモリ部20の逆引
き辞M22に予め格納されでいる単語と、−文「たし・
・・行止」ヲ「−単語」として比較対照しながら、この
「−単語」があるが無いか検索する。この検索の結果こ
の「−単語」か無ければ一文から「銀」を切ってしまい
、新たに「たし・・・は行」を「−単語」とし、同様な
検索を行う。新たな「−単語」か無ければ、次に残りの
一文から「行」を切ってしまい、別の新たな「−単語」
としての残りの一文「たし・・・顧は」につき同様な模
索を行う。このような検索処理を1順次行って「たし」
か「−単語」として検索される。
この発明の解析方法によれば、文末から最初の漢字又は
片仮名までの平板名の文字列を、付届語或いは用言活用
語尾とみなして優先して、解析するので、先ず、「処理
」の「理」の前までを一区切りとして最長−敗を試みる
。しかし、「した」とマツチする付属語はないので、「
た」か切り出され、逆引き辞書22の付属語辞書中の情
報から過去の助動詞であること、接続表24から用言等
の連用形に接続すること等の情報が得られる。この時点
で解析結果として文解析フレーム上のM○○Dスロ・ン
ト41に平叙■、TENSEスロット42に過去■か、
それぞれ代入される(第4図(C))。続いて、接続表
24から、助動詞「たJの接続情報からす変動詞「する
」の連用形[しJが切り出され、文解析フレーム上のV
OICEスロ・ント43に解析結果である能動■が代入
される(第4図(D))。続いて、活用表26との比較
対照により漢語す変動詞語幹「処理」が切り出されでく
る(第4図(E))。この段階でこの動詞が必要とする
格(CASE)のf!類、ASPECT属性が逆引き辞
M22の動詞辞書記述より得られ、ASPECTスロ・
ント44には解析結果として結果■という値か、CAS
Eスロット45には解析結果として行為者格、対象格、
道具路■といった値が各々代入され、文の形式か決めら
れる(第4図(E))。ここで、取り上げられる格は、
「処理する」に対する必須槽であり、それ以外の格か文
中に現われた場合、それらは任意路として扱われる。
動詞を解析した時点で第3図(B)の格解析スタックの
下側から、この場合〈用言〉の箇所に「処理する」かブ
ツシュされ(菓4図(F)の処理する■、及び第5図(
B) )、次に助詞と名詞から格を決める。文中の名詞
がどの様な格となるかについては、動詞の必要とする格
がどの様な表層路をとるか、また深層格・意味素性対応
表28と各々の名詞の意味素性との比較対照により、ど
の深層格となり得るかを判断し、その解析結果を格解析
スタックの値として順次格納する。例としでは、「て」
と[コンピュータJの対から道具路か決定され、格解析
スタックの格の欄に「道具」及び語棄欄に「コンピュー
タ」かブツシュされる(第4図(G)及び第5図(B)
)。尚、動詞の必要とする格情報及び意味素性の情報は
自立語辞書の動詞の記述項目の中に格納されでいる。
以下、順次同様の処理を進める。すなわち、「ヲ」と「
情報」の対から、対象格が決定され格解析スタックの格
の欄に対象及び語索欄に情報がブツシュされる(第4図
(H)及び第5図(B))。
次に、「顧客」について逆引き辞1iiF22及び深層
格・意味素性対応表28等を用いて解析処理が行われ、
この名詞「顧客」が「情報」と修飾・被修飾関係にある
ことかわかる。従って、格解析スタックの語業欄に「顧
客」かブツシュされる(第5図(B))と共に、係先欄
に「情報」がブツシュされ(第5図(8))、これらの
関係をポインタで明らかにしておく(第4図(■))。
このように、語棄同士か修飾・被修飾の関係にある時に
は、ポインタでその係先関係を明らかにしてあく。
次に、同様な解析処理によって、「は」と「銀行」の対
から、行為者格か決定され、従って、格解析スタックの
格の欄に「行為者」及び語粟欄に「銀行」がブツシュさ
れる(第4図(J)及び第5図(B))。
尚、文中に埋め込み文等かある場合には、新たに文解析
フレーム及び格解析スタックを生成し、上述と同様の処
理を行った後、埋め込み文と本文との修飾関係をポイン
タにより保持しでおく。
このようにして、最初に[漢字かな混じり文Jの文字列
から切り出した一文に関しての解析処理を終了する。続
いて、上述した処理と同様に、次の句点までの一文を一
単語として切り出して、この−文につき文末から文頭へ
向って解析処理を行って行き、順次入力された全文字列
に対する解析処理を行う。
上述したような、この発明の自然言語解析の処理によっ
て、形態素解析、構文解析及び意味解析か行なわれる。
(発明の効果) 文末からの解析により、文の中心となる用言の同定か速
やかに出来、また、格関係の同定、用言活用形とそれに
付随する付属語からテシス・アスペクト等の情報を抽出
し易く、文の構造自体の把握か容易になる。
また、自然言語解析を行う現行釜システムにおいでも容
易に適応可能である。
また、通常の文型1こおいでは、文末に来るものか、用
言活用形または付属語であるという予想から、それらを
優先する解析は、文頭に来る文構成要素として何を優先
するかを考える解析よりも的確な解析を行う率か高い。
【図面の簡単な説明】
第1図は、この発明の自然言語解析方法及び自然言語解
析方法を説明するための解析装置の一例の説明図、 第2図は、この発明の説明に供する、自然言語解析の動
作の流れの概要説明図、 第3図は、この発明の説明に供する文解析フレーム及び
格解析スタックの生成の説明図、第4図は、この発明の
説明に供する自然言語解析の具体例の説明図、 第5図は、文解析フレーム及び格解析スタックに解析結
果を格納する例を説明するための格納説明図である。 10・・・入力装百、    12・・・読取装買14
・・・メモリ部、    20・・・第1メモリ部22
・・・逆引き辞書、   24・−・接続表26・・・
活用表 28・・・深層格・意味素性対応表 30・・・解析手段、    40・・・第2メモリ部
41.42.43.44.45・・・(文解析フレーム
の)スロット。 特許出願人     沖電気工業株式会社動作の流れの
概要説明図 第2図 文解析フレーム及び格解析スタックの生成の説明図第3
図 一

Claims (4)

    【特許請求の範囲】
  1. (1)少なくとも文法情報、格情報及び意味素性情報等
    を含む意味情報をもった逆引き辞書、接続表、活用表等
    の自然言語解析に必要な解析情報が予め格納されている
    第1メモリ部と、 文解析フレーム及び格解析スタックが格納される第2メ
    モリ部と、 これら文解析フレーム及び格解析スタックを生成してこ
    れらを前記第2メモリ部に格納し、入力された漢字かな
    混じり文の一文を文末から逆引き辞書等の前記第1メモ
    リ部に格納された解析情報と比較対照して解析を行い、
    該解析の結果を前記文解析フレーム及び格解析スタック
    に順次に格納する解析手段と を具えることを特徴とする自然言語解析装置。
  2. (2)前記逆引き辞書は自立語辞書と付属語辞書を含み
    、文末から最初の漢字又は片仮名までの平板名の文字列
    を付属語或いは用言活用語尾を優先して解析する請求項
    1に記載の自然言語解析装置。
  3. (3)動詞を解析した時点で、前記文解析フレームに解
    析の結果を代入し、然る後に文中の名詞を、その意味素
    性、表層格から判断して、解析結果を前記格解析スタッ
    クに順次格納する請求項1に記載の自然言語解析装置。
  4. (4)入力された漢字かな混じり文の一文の文頭からで
    はなく、文末から逆引き辞書を用いて解析を行い、文中
    に出現する動詞或は動詞に準ずる用言の辞書記述情報か
    ら必要とされる文解析フレーム及び格解析スタックを生
    成し、動詞を解析した時点で文解析フレームに解析結果
    を代入し、然る後に文中の名詞をその意味素性、表層格
    から判断してその解析結果を格解析スタックに順次格納
    すること を特徴とする自然言語解析方法。
JP63042803A 1988-02-25 1988-02-25 自然言語解析装置及びその方法 Pending JPH01217564A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63042803A JPH01217564A (ja) 1988-02-25 1988-02-25 自然言語解析装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63042803A JPH01217564A (ja) 1988-02-25 1988-02-25 自然言語解析装置及びその方法

Publications (1)

Publication Number Publication Date
JPH01217564A true JPH01217564A (ja) 1989-08-31

Family

ID=12646121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63042803A Pending JPH01217564A (ja) 1988-02-25 1988-02-25 自然言語解析装置及びその方法

Country Status (1)

Country Link
JP (1) JPH01217564A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103264A (ja) * 1991-02-13 1994-04-15 Nec Corp 文書編集装置
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103264A (ja) * 1991-02-13 1994-04-15 Nec Corp 文書編集装置
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
Woliński Morfeusz—a practical tool for the morphological analysis of Polish
Nakagawa et al. Automatic term recognition based on statistics of compound nouns and their components
US5745602A (en) Automatic method of selecting multi-word key phrases from a document
Grefenstette Comparing two language identification schemes
US5946648A (en) Identification of words in Japanese text by a computer system
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
US6115683A (en) Automatic essay scoring system using content-based techniques
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
EP0645720A2 (en) Dictionary creation supporting system
CA2366485C (en) System and method for parsing a document
JP3594701B2 (ja) キーセンテンス抽出装置
JPH06259424A (ja) 文書表示装置及び文書要約装置並びにディジタル複写装置
Lopez et al. Automatic titling of electronic documents with noun phrase extraction
JPH01217564A (ja) 自然言語解析装置及びその方法
ed erique Segond et al. Using a finite-state based formalism to identify and generate multiword expressions'
Sedlácek et al. Automatic Processing of Czech Inflectional and Derivative Morphology
JPH03131960A (ja) 文字処理方法およびその装置
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
Yaari NLP-assisted exploration of texts.
JP3072955B2 (ja) 重複話題語を考慮した話題構造認識方法と装置
JPS6389976A (ja) 言語解析装置
JPH10198681A (ja) 構文的な単語の集まりを明瞭化する方法およびシステム
JP2560224B2 (ja) 文脈構造解析装置
Dierks Automatic stylistic analysis of lyrical texts