JPH0415504B2 - - Google Patents

Info

Publication number
JPH0415504B2
JPH0415504B2 JP58074995A JP7499583A JPH0415504B2 JP H0415504 B2 JPH0415504 B2 JP H0415504B2 JP 58074995 A JP58074995 A JP 58074995A JP 7499583 A JP7499583 A JP 7499583A JP H0415504 B2 JPH0415504 B2 JP H0415504B2
Authority
JP
Japan
Prior art keywords
syntax
syntactic
analysis
local
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58074995A
Other languages
English (en)
Other versions
JPS59201172A (ja
Inventor
Kazushi Muraki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP58074995A priority Critical patent/JPS59201172A/ja
Publication of JPS59201172A publication Critical patent/JPS59201172A/ja
Publication of JPH0415504B2 publication Critical patent/JPH0415504B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 本発明は、言語の構文解析方式において、形態
素解析によつて得られた情報を用い構文的・意味
的曖昧さを高速に解析する曖昧さ解析方式に関す
る。
従来の構文解析方式では、構文解析規則と呼ぶ
書き変え規則を用いて、語の構文範疇をキーに入
力文の構文的係り受けを同定するが、その際語の
形態的特性や局所的な語列パターンなどの情報を
用いることがなかつたため、構文解析時の曖昧さ
が十分に解消できないで、構文解析途中に誤りが
発見された場合の後戻り処理のオーバーヘツドが
大きくなり過ぎるなどの欠点があつた。上述の後
戻り処理をバツクトラツキングと呼ぶが、このバ
ツクトラツキングオーバーヘツドの減少には誤つ
た規則の適用を事前に禁止する手法が有効と考え
られ解析時に意味情報を1部導入する方式等が提
案されているが、構文規則の数や、構文範疇を減
らすことにより潜在的なバツクトラツキング発生
の危険性を減少させ得る。しかし構文規則や、構
文範疇の数を極度に減じると、言語の構文構造に
関する十分な情報が抽出できなくなり、以後の意
味解析のための正しい情報を得ることが困難にな
る。
本発明の目的は、構文解析以降の処理にとつて
十分な量と質の構文情報を抽出し、かつ高速に曖
昧さを解析する効果をもつ曖昧さ解析方式を提供
することである。
すなわち、形態素解析で得られた文字種などの
形態的特性と特殊語の存在情報を用い入力語列を
いくつかにまとめあげ、以後の構文解析時に発生
する、バツクトラツキングポイント(オールター
ナテイブな構文規則の存在場所)の絶対数を減少
することによりバツクトラツキングオーバーヘツ
ドを減少し、より信ぴよう性の高い構文構造を高
速に発見する曖昧さ解析方式を提供することにあ
る。
本発明の曖昧さ解析方式では、日本語における
片仮名、漢字、平仮名の文字種と連体助詞「の」
などをまとめ上げ情報として用いて形態素解析直
後にまとめあげを行なう。
一般に日本語文章中では、片仮名語列はコン
マ、ピリオド等のデリミターを含まない場合1つ
にまとめあげても構文構造は正しく保存される
し、漢字あるいは片仮名だけからなる語列も同様
に多くの場合、構文構造は正しいまままとめあげ
られる。更に片仮名語や漢字語が連体助詞「の」
だけで結合されている場合にも多くの場合正しい
構文構造を保つてまとめあげることができる。こ
れらの情報と、語の品詞情報とを用いて特定の形
態特性をもつ品詞語列をまとめ、当該語列に新し
い品詞(構文範疇と同じ)を割り振ることによ
り、構文解析からは、入力文中の自立品詞の数を
非常に小さいものにし得る。これによつて、通常
構文解析が入力単語数nに対しnK(K;定数)の
ステツプを費すのをmKステツプ(mはまとめ上
げによつて得られた文中で品詞を割り当てられた
ストリングの数:m<<n:通常mはm<n/2
におさえられる)におさえることができる。
本発明によれば、形態素解析直後入力文中の、
特定の形態情報をもつた語列を局所構文変換テー
ブルによつてまとめあげて品詞をまとめあげられ
たストリングに新たに割り振る局所構文処理を行
なつた後、前記局所構文処理の出力であるストリ
ング列に対し構文解析処理を行なうことを特徴と
する曖昧さ解析方式が得られる。
次に本発明の実施例について図面を参照して説
明する。
第1図は、本発明の1実施例を示すブロツク図
であり、第2図は、局所構文変換テーブルの概念
を説明する説明図であり、第3図は第1図中の局
所構文処理モジユールのフローチヤートである。
第1図において形態素処理モジユール1は、情
報線01より入力文を読み込み語の発見を行なつ
た後辞書引きを行ない各々の語に品詞と辞書引き
を行なつた結果得られる語彙情報と文字種を付け
た後、生成された後列を情報線02を通し出力す
る。局所構文処理モジユール2は前記情報線02
より語列を読み込み情報線23を介し局所構文変
換テーブルを参照し、語列のまとめ上げと品詞の
割り振りを行ない、それ以上まとめあげられなく
なつたらば生成されたストリング列を情報線03
を介し出力する。
構文解析処理モジユール4は前記情報線03よ
り読み込んだストリング列をもとにストリングに
付加された品詞と辞書情報をもとに語・句・節の
発見と各々の構文関係を固定した後、当該構文関
係情報を情報線04より出力する。
第2図において、前記局所構文変換テーブル3
はフイールドF1〜F2k(K:正整数)、Gからなる
局所構文変換規則の集合であり、Fi(i:0以上
の偶数)、Fi+1は1つの語に関する情報を記述し
ており、Fiは文字種、Fi+1は品詞と他の語彙情報
を含み、他方Gは品詞と他の語彙情報を含む。第
2図中N,V,D,I,Fは品詞情報で各々各
詞、動詞、デリミター、活用語尾、付属語を示
し、その添字は品詞の下位分類を示す又、K,
C,Hは入力語文字種を示し、各々片仮名、漢
字、平仮名を示す。同図中、「〓」あるいは「・」
のように直接シンボルを記入することも許す。
他、X,Yは各々のフイールド中の定義域上に
導入される変数である。G中の記述は次の意味を
もつ。第1番の数は、F1〜F2kまでで指定された
語列から生成される語の中心語を指定し、第2番
の記号は品詞を、第3番目は当該中心語中にまと
めあげる語(たとえば“1,3”は第1番の語か
ら第3番の語までをひとまとめにする)を示す。
前記局所構文処理モジユールのフローチヤート
第3図では入力された語列中Fi,Fi+1(0=i
K)で指定された条件に合致する語がFi,Fi+1
(0iK)の順序でならんでいたならば、当
刻語列を1つにまとめ上げGで指定された品詞と
他の語彙情報を付加する。当該局所構文処理モジ
ユール2は、前記局所構文変換テーブル3中の前
記局所構文変換規則を適用できなくなるまで重複
を許し適用する。
当該局所構文処理モジユール(第1図中2)は
第3図に示すように次の順で処理が進む。
(1) 局所変換テーブル3を読み1つの規則iを読
み込む。
(2) 入力語列を左端jから規則iと対照し (3) 前記対照が成功したら、規則を適用した後当
該入力後列で注目位置をずらしj+1して(2)へ
行く (4) 前記対照が失敗したら、条件により注目して
いる当該入力語列中の位置をずらしてj+1、
(2)へ行くか、(5)行く。
(5) 全ての規則を参照し終つたら終了、それ以外
は新しい規則i+1を読みに(1)へ行く。
本発明の曖昧さ解析方式は文字種、品詞、特殊
語彙の情報を用いて互いに構文的に確実に結ばれ
た連続語列を予めまとめあげ以後の構文解析処理
をより高速にし、かつより品質のよい構文解析を
行なうことができるという効果がある。
なお文字種情報を用いると、例えば「+」とい
う文字種は、「X+123」のように「アルフアベツ
ト」と「数字」の文字種に囲まれれば足すの意味
に解釈され、+Xのように「アルフアベツト」ま
たは「数字」の文字種の前にあればプラス(正)
の意味に解釈され、単独であれば十字勲章の意味
に解釈される。
更に、本方式は従来の構文情報、形態情報、意
味情報を用いた言語解析方式と共存することがで
き、構文解析処理方式の選択度はそこなわない。
【図面の簡単な説明】
第1図は本発明による曖昧さ解析方式の1実施
例を示すブロツク図、第2図は局所構文処理モジ
ユール及び局所変換テーブルを説明するための説
明図、第3図は局所構文処理モジユールのフロー
チヤートである。 図において、1は形態素解析モジユール、2は
局所構文処理モジユール、3は局所構文変換テー
ブル、4は構文解析モジユールをそれぞれ示す。

Claims (1)

    【特許請求の範囲】
  1. 1 構文的係り受けの曖昧さを解析する曖昧さ解
    析方式において、入力文を受取り、その形態的構
    成を分析して形態素列を生成する形態素解析モジ
    ユールと、特別な文字種情報、構文範疇情報から
    予測される構文的・意味的まとまりをまとめあげ
    るための規則を保持する局所構文変換テーブル
    と、前記形態素解析モジールより得られた形態素
    列に対して前記局所構文変換テーブルを用いて局
    所構文処理を行う局所構文処理モジユールと、前
    記局所構文処理モジユールのより生成された単語
    列から構文解析処理を行う構文解析モジユールと
    を備えることを特徴とする曖昧さ解析方式。
JP58074995A 1983-04-28 1983-04-28 曖味さ解析方式 Granted JPS59201172A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58074995A JPS59201172A (ja) 1983-04-28 1983-04-28 曖味さ解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58074995A JPS59201172A (ja) 1983-04-28 1983-04-28 曖味さ解析方式

Publications (2)

Publication Number Publication Date
JPS59201172A JPS59201172A (ja) 1984-11-14
JPH0415504B2 true JPH0415504B2 (ja) 1992-03-18

Family

ID=13563358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58074995A Granted JPS59201172A (ja) 1983-04-28 1983-04-28 曖味さ解析方式

Country Status (1)

Country Link
JP (1) JPS59201172A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63113668A (ja) * 1986-05-15 1988-05-18 Ricoh Co Ltd 言語解析装置
JPS63113669A (ja) * 1986-05-16 1988-05-18 Ricoh Co Ltd 言語解析装置
JPS62267873A (ja) * 1986-05-16 1987-11-20 Ricoh Co Ltd 言語解析装置
JPS63204462A (ja) * 1987-02-20 1988-08-24 Sanyo Electric Co Ltd 日本語解析処理方式
JPH01114983A (ja) * 1987-10-28 1989-05-08 Nec Corp 品詞推定方式
JPH02242372A (ja) * 1989-03-15 1990-09-26 Toshiba Corp 文生成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS59121574A (ja) * 1982-12-28 1984-07-13 Fujitsu Ltd 翻訳処理方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS59121574A (ja) * 1982-12-28 1984-07-13 Fujitsu Ltd 翻訳処理方式

Also Published As

Publication number Publication date
JPS59201172A (ja) 1984-11-14

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US5966686A (en) Method and system for computing semantic logical forms from syntax trees
US5848385A (en) Machine translation system using well formed substructures
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0351020B2 (ja)
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2005508535A (ja) 本文、特に特殊化された本文、のブロード構文解析法および装置
US5283737A (en) Mechanism for generating linguistic expressions based on synonyms and rules derived from examples
JPH0415504B2 (ja)
JP2960936B2 (ja) 係り受け解析装置
Kitani et al. Pattern matching and discourse processing in information extraction from Japanese text
WO1997048058A1 (en) Automated translation of annotated text
WO1997048058A9 (en) Automated translation of annotated text
Diewald Matrix and double-array representations for efficient finite state tokenization
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
KR20010057763A (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
Uchida Atlas
JPS63221475A (ja) 構文解析方法
JP3222173B2 (ja) 日本語構文解析システム
Murthy Parsing Telugu in the UCSG formalism
JPS63136260A (ja) 機械翻訳システムにおける文生成処理方式
JP2655711B2 (ja) 同形語読み分け方式
JPS6368972A (ja) 未登録語処理方式