JPH05250405A - 構文解析装置 - Google Patents

構文解析装置

Info

Publication number
JPH05250405A
JPH05250405A JP3135455A JP13545591A JPH05250405A JP H05250405 A JPH05250405 A JP H05250405A JP 3135455 A JP3135455 A JP 3135455A JP 13545591 A JP13545591 A JP 13545591A JP H05250405 A JPH05250405 A JP H05250405A
Authority
JP
Japan
Prior art keywords
speech
sentence
word
candidate
speech sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3135455A
Other languages
English (en)
Inventor
Hideo Ito
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3135455A priority Critical patent/JPH05250405A/ja
Publication of JPH05250405A publication Critical patent/JPH05250405A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 多品詞解消を、低コストで得られる領域特性
を利用して効率よい構文解析を行う。 【構成】 入力部1は文を入力するためのものであ
る。辞書部2は語に関して語形及び品詞を記憶する。文
法部3は文法を記憶するためのものである。品詞列部4
は、一定長の品詞列の優先度を記憶するためのものであ
る。品詞列生成部5は語列に関して品詞列候補を生成す
るためのものである。構文解析部6は品詞列に関して構
文解析を行うためのものである。出力部7は、前記構文
解析部6による構文解析の結果を出力するためのもので
ある。入力文を文頭から文末方向に構文解析する際に、
語毎に、Nグラムの生起確率を基にした品詞列候補の生
成とその構文解析を行う。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、構文解析装置に関する。例え
ば、原文の解析のために用いられる機械翻訳装置に適用
されるものである。
【0002】
【従来技術】構文解析処理では、入力文に対して複数の
品詞列が可能である場合、その内から正しい品詞列を選
択すること(多品詞解消と呼ぶ)が必要となる。例え
ば、入力文「Time flies.」に対して命令文/平叙文と
して構文解析することができ 命令文:Time(動詞)flies(名詞) 平叙文:Time(名詞)flies(動詞) のように、「Time」,「flies」が多品詞語であるため2
つの品詞列が可能である。そこで、これらの内から正し
い品詞列を選択することが必要となる。ところが、言語
現象の多様性から、任意の入力文に対して実用的な精度
をもって多品詞解消を行うことは難しい。そこで、入力
文が属する領域を限定し、その領域に属する文が持つ特
性(領域特性と呼ぶ)を求めて利用することが考えられ
る。これに関連して、領域特性を構文規則の精緻化や優
先度設定の形で利用することが行われている。例えば、
特開昭63−28991号公報のものである。この公報
のものは、各種分野の文章が入力されたときに分野独特
の表現を処理できるようにするために、翻訳開始時にシ
ステムの構成を分野に応じて動的に変更し、より適切な
表現が出力できるようにしたものである。
【0003】ところが一般に構文規則の数は数百以上で
あり、それらの組み合わせも考慮すると莫大な数にな
る。これらに対して個別に精緻化や優先度設定を行うに
は多大なコストがかかり実質的には不可能である。一
方、領域特性をN個の品詞からなる品詞列(Nグラムと
呼ぶ)の生起確率の形で利用して品詞列を選択すること
が考えられる。一般に、Nグラムの生起確率を求める方
が、上記のように個々の構文規別に対して精緻化や優先
度設定を行うより低コストで行うことができる。しか
し、Nグラムだけを用いて品詞列を選択しても、それが
構文的に正しい(文として成立する)保証はない。した
がって、構文的に正しくない品詞列を選択した場合、そ
の処理は無駄になり、新たに別の品詞列を選択する必要
がある。その場合は、処理効率が悪化する。
【0004】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、多品詞解消を、低コストで得られる領域特性を
利用して効率よく行うようにした構文解析装置を提供す
ることを目的としてなされたものである。
【0005】
【構成】本発明は、上記目的を達成するために、(1)
文を入力するための入力部と、語に関して語形及び品詞
を記憶するための辞書部と、文法を記憶するための文法
部と、一定長の品詞列の優先度を記憶するための品詞列
部と、語列に関して品詞列候補を生成するための品詞列
生成部と、品詞列に関して構文解析を行うための構文解
析部と、該構文解析部による構文解析の結果を出力する
ための出力部とを備え、入力文を文頭から文末方向に構
文解析する際に、語毎に文頭からその語までの品詞列候
補の生成とその構文解析を行うことを特徴としたもので
ある。以下、本発明の実施例に基づいて説明する。
【0006】図1は、本発明による構文解析装置の一実
施例を説明するための構成図で、図中、1は入力部、2
は辞書部、3は文法部、4は品詞列部、5は品詞列生成
部、6は構文解析部、7は出力部、8は解析部である。
入力部1は文を入力するためのものである。辞書部2は
語に関して語形及び品詞を記憶する。文法部3は文法を
記憶するためのものである。品詞列部4は、一定長の品
詞列の優先度を記憶するためのものである。品詞列生成
部5は語列に関して品詞列候補を生成するためのもので
ある。構文解析部6は品詞列に関して構文解析を行うた
めのものである。出力部7は、前記構文解析部6による
構文解析の結果を出力するためのものである。入力文を
文頭から文末方向に構文解析する際に、語毎に、Nグラ
ムの生起確率を基にした品詞列候補の生成とその構文解
析を行う。すなわち、Nグラムの生起確率を用いるの
で、低コストで領域特性を求めることができ、また語毎
に品詞列候補を生成する度に構文的正しさを構文解析に
よって検査するので、構文的に正しくない品詞列は早期
に除かれ、無駄な品詞列選択処理を行うことがない。
【0007】図2〜図6は、本発明による構文解析装置
の動作を説明するためのフローチャートである。以下、
各ステップに従って順に説明する。step1 ;まず、入力文を単語に分割する。step2 ;語毎に辞書部を検索して品詞候補を得る。step3 ;品詞列候補バッファを用意する。step4 ;Sの品詞列候補バッファに「S」をセットす
る。step5 ;N←1とする。step6 ;後述する処理2を行う。step7 ;最後の語であるかどうかを調べる。最後語であ
れば、後述するstep9へ行く。step8 ;前記step7において、最後の語でなければ、N
←N+1とし、前記step6へ戻る。step9 ;前記step7において、最後の語であれば、結果
を出力する。
【0008】次に、図3に基づき、前記step6の処理2
について説明する。step10 ;N番目の品詞バッファから品詞C1を取り出
す。step11 ;後述する処理3を行う。step12 ;最後の品詞かどうかを調べる。最後の品詞であ
れば終了する。step13 ;前記step12において、最後の品詞でなけれ
ば、次の品詞を取り出し、前記step11へ戻る。
【0009】次に、図4に基づき前記step11の処理3
について説明する。step14 ;N−1番目の品詞列候補バッファからの品詞列
候補[…C2](P1)を取り出す。step15 ;後述する処理4を行う。step16 ;最後の品詞列候補であるかどうかを調べる。最
後の品詞列候補であれば、後述する処理5を行う。step17 ;前記step16において、最後の品詞列候補でな
ければ、次に品詞列候補を取り出し、前記step15に戻
る。step18 ;前記step16により、最後の品詞列候補であれ
ば、後述する図6に示す処理5を行う。
【0010】次に、図5に基づき前記step15の処理4
について説明する。step19 ;品詞部を参照して品詞列[C2,C1]の生起
確率P2を求める。step20 ;p3←p1*p2とする。step21 ;テンポラリの品詞列バッファに品詞列候補[…
C2,C1](P3)を入れる。
【0011】次に、図6に基づき前記step18の処理5
について説明する。step22 ;テンポラリの品詞列バッファから最も優先度の
高い品詞列候補を取り出す。step23 ;構文解析を行う。step24 ;構文解析が成功したかどうかを調べる。成功し
ていれば、後述するstep27へ行く。step25 ;前記step24へおいて、構文解析が成功してい
なければ、最後の品詞列候補かどうかを調べる。最後の
品詞列候補であれば、解析失敗として終了する。 step26 ;前記step25において、最後の品詞列候補でな
ければ、次に優先度が高い品詞列候補を取り出し、前記
step23へ戻る。step27 ;前記step24において、構文解析が成功であれ
ば、N−1番目の品詞列バッファにその品詞列候補を入
れる。
【0012】次に、具体例について説明する。ここでは
2グラムの場合について説明する。文は入力部1を通し
て入力される。解析部8において入力文は語毎に分割さ
れる。一方、辞書部2には図7のように語形と取り得る
品詞が格納されている。解析部8では、語毎に語形によ
り辞書部2を検索して、その語が取り得る品詞を得て語
毎に設けた品詞バッファに保持する。その際、文頭と文
末を表す仮想的な語SとEを付加する。それぞれは特別
な品詞SとEを持っていることにする。例えば、図8の
ような文が入力された場合、この時点までの結果は、次
のように表すことができる。
【0013】
【表1】
【0014】以下で、品詞C1,C2…からなる品詞列
候補を[C1,C2…](P)で表す。ここでPは、そ
の品詞列候補に付与される優先度である。まず、語毎
に、文頭からその語までの品詞列候補を保持するための
品詞列バッファを設けて空にしておく。また、これとは
別に1つのテンポラリな品詞列バッファを設けて空にす
る。次にSの品詞列バッファに空の品詞列候補〔S〕
(1.0)を入れる。次に、以下の語毎の処理を、文頭
から文末に向かって行う。
【0015】以下の処理を文頭の語Time(N=1とす
る)から文末の語Eまで繰り返す。 N番目の品詞バッファから品詞C1を1つづつ取り出
し、品詞がなくなるまで以下のを行う。 N−1番目の品詞列バッファから品詞列候補[…C
2](P1)を1つづつ取り出し、品詞候補がなくなる
まで以下のを行う。その後を行う。 2グラム[C1,C2]の生起確率P2を図9に示す
品詞列部を参照して得て、テンポラリな品詞列バッファ
に[…C2,C1](P3)を入れる。ただし、 P3=P1×P2 である。 テンポラリな品詞列バッファに保持された品詞列候補
を優先度順に取り出して、構文解析を行う。成功したな
らば、その品詞列候補をN番目の品詞列バッファに入れ
る。成功しなければ次の品詞列候補に関してこれを行
う。
【0016】上記において、構文解析が成功するとは
以下のことを意味する。すなわち、例えば、図10に示
す2つの文法を用いて構文解析を行う場合、品詞列候補
[S,形容詞]は、マッチする構文解析規則はなく、ど
のような品詞列が後続しても文として成立しない。この
ような場合構文解析は失敗する。一方、品詞列[S,名
詞]は、もし、品詞列[動詞,E]が後続すれば、文→
S,名詞,動詞,Eという構文規則にマッチして文とし
て成立する。このような場合構文解析は成功する。一般
に、文脈自由文法を用いた下降型構文解析方式等では、
文頭からその語までの品詞列を与えると、その品詞列が
文として成立する可能性の有無を判定できる。その場
合、可能性の有無を構文解析の成功失敗に対応させれば
よい。
【0017】さらに、上記において、構文解析の際
に、その構文解析の中間結果を品詞候補列と供に保持す
れば、次に語に処理が移ってその品詞列候補に新たな品
詞が後続した品詞列候補を構文解析する際、以前に保持
された中間結果を基に新たに付加された品詞に関しての
み構文解析を行えばよいので効率が向上する。また、上
記において、優先度順に構文解析が成功した品詞候補
列を選ぶ際、1つではなく複数(例えばK個)の候補を
選んでも良い。その場合、最終的に得られる入力文の品
詞列は優先度付きでK個となる。以上までの処理で、文
末Eに対応する品詞列バッファに入っている品詞列か
ら、SとEを除去したものが入力文の品詞列である。こ
の品詞列は構文的に文として成立することが上記の処
理により保証されていることになる。これを出力部より
出力する。
【0018】
【効果】以上の説明から明らかなように、本発明による
と、Nグラムの生起確率を用いるので、低コストで領域
特性を求めることができる。また、語毎に品詞列候補を
生成する度に構文的正しさを構文解析によって検査する
ので、構文的に正しくない品詞列は早期に除かれ、無駄
な品詞列選択処理を行うことがない。
【図面の簡単な説明】
【図1】 本発明による構文解析装置の一実施例を説明
するための構成図である。
【図2】 本発明による構文解析装置の動作を説明する
ためのフローチャートである。
【図3】 図2における処理2を示すフローチャートで
ある。
【図4】 図3における処理3を示すフローチャートで
ある。
【図5】 図4における処理4を示すフローチャートで
ある。
【図6】 図4における処理5を示すフローチャートで
ある。
【図7】 辞書の例を示す図である。
【図8】 原文を示す図である。
【図9】 品詞列の生起確率の例を示す図である。
【図10】 構文規則の例を示す図である。
【符号の説明】
1…入力部、2…辞書部、3…文法部、4…品詞列部、
5…品詞列生成部、6…構文解析部、7…出力部、8…
解析部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文を入力するための入力部と、語に関し
    て語形及び品詞を記憶するための辞書部と、文法を記憶
    するための文法部と、一定長の品詞列の優先度を記憶す
    るための品詞列部と、語列に関して品詞列候補を生成す
    るための品詞列生成部と、品詞列に関して構文解析を行
    うための構文解析部と、該構文解析部による構文解析の
    結果を出力するための出力部とを備え、入力文を文頭か
    ら文末方向に構文解析する際に、語毎に文頭からその語
    までの品詞列候補の生成とその構文解析を行うことを特
    徴とする構文解析装置。
JP3135455A 1991-05-10 1991-05-10 構文解析装置 Pending JPH05250405A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3135455A JPH05250405A (ja) 1991-05-10 1991-05-10 構文解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3135455A JPH05250405A (ja) 1991-05-10 1991-05-10 構文解析装置

Publications (1)

Publication Number Publication Date
JPH05250405A true JPH05250405A (ja) 1993-09-28

Family

ID=15152116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3135455A Pending JPH05250405A (ja) 1991-05-10 1991-05-10 構文解析装置

Country Status (1)

Country Link
JP (1) JPH05250405A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816596A (ja) * 1994-06-29 1996-01-19 Nec Corp 機械翻訳装置
JPH0836575A (ja) * 1994-07-22 1996-02-06 Nec Corp 統語解析装置
JP2022540784A (ja) * 2019-07-02 2022-09-20 サービスナウ, インコーポレイテッド 自然言語理解フレームワークでの発言についての複数意味表現の導出

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816596A (ja) * 1994-06-29 1996-01-19 Nec Corp 機械翻訳装置
JPH0836575A (ja) * 1994-07-22 1996-02-06 Nec Corp 統語解析装置
JP2022540784A (ja) * 2019-07-02 2022-09-20 サービスナウ, インコーポレイテッド 自然言語理解フレームワークでの発言についての複数意味表現の導出
US11720756B2 (en) 2019-07-02 2023-08-08 Servicenow, Inc. Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework

Similar Documents

Publication Publication Date Title
US6879951B1 (en) Chinese word segmentation apparatus
EP0176858B1 (en) Translation system
JP3339741B2 (ja) 言語解析装置
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
JP2005521952A (ja) 統計的機械翻訳用の句間結合確率モデル
JPH07295986A (ja) イディオム処理機能を持つ機械翻訳装置
Watanabe et al. Left-to-right target generation for hierarchical phrase-based translation
US20030110023A1 (en) Systems and methods for translating languages
Tillmann et al. Word re-ordering and DP-based search in statistical machine translation
JP2006506692A (ja) テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム
CN104375988A (zh) 一种词语对齐方法及装置
JPS638864A (ja) 翻訳装置
JPH08292955A (ja) 言語処理方法及びそれを適用するデータ処理装置
JPH04235672A (ja) 翻訳装置
Durrani et al. Munich-Edinburgh-Stuttgart submissions of OSM systems at WMT13
Lavie et al. A trainable transfer-based MT approach for languages with limited resources
JPH05250405A (ja) 構文解析装置
Brocki et al. Multiple model text normalization for the polish language
KR20200072593A (ko) 신경망 네트워크에 기반한 의존 구문 분석 제어 방법 및 그것을 이용하는 의존 구문 분석 장치
Dhar et al. A hybrid dependency parser for Bangla
JP2632806B2 (ja) 言語解析装置
Hatzivassiloglou et al. Unification-based glossing
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JPS6229796B2 (ja)
JP3919732B2 (ja) 機械翻訳装置及び機械翻訳プログラム