JP2002297585A - 英文名詞句の区分方法,英文構文情報生成方法および装置 - Google Patents

英文名詞句の区分方法,英文構文情報生成方法および装置

Info

Publication number
JP2002297585A
JP2002297585A JP2001098153A JP2001098153A JP2002297585A JP 2002297585 A JP2002297585 A JP 2002297585A JP 2001098153 A JP2001098153 A JP 2001098153A JP 2001098153 A JP2001098153 A JP 2001098153A JP 2002297585 A JP2002297585 A JP 2002297585A
Authority
JP
Japan
Prior art keywords
speech
information
phrase
noun
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001098153A
Other languages
English (en)
Inventor
Atsuyuki Goto
藤 淳 之 後
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001098153A priority Critical patent/JP2002297585A/ja
Publication of JP2002297585A publication Critical patent/JP2002297585A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 英文構文解析において、名詞句の連接すなわ
ち誤区分を検出する。名詞句の誤った連接を正しく分断
する。 【解決手段】 英文を品詞句単位に分解して各品詞句に
品詞句符号を与えた、英文上の位置宛ての品詞句符号の
集合でなる英文情報に、品詞句および状態情報の組合せ
宛てに処置方情報および適用文法情報を有するパース情
報ならびに文脈自由文法を定義した文法情報を用いる構
文解析を適用して、文法エラーとなる箇所の名詞句を検
出し;検出した名詞句を分割する;ことを特徴とする英
文名詞句の区分方法。文法エラーとなる箇所の名詞句に
2以上の名詞が含まれるときは、名詞の間で該名詞句を
分割する。大文字がある名詞が含まれるときは、その直
前で該名詞句を分割する。他の箇所の正常名詞句と同一
の名詞句が含まれるときは、その直前又は直後で分割す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータによ
る英語の構文解析に関し、特に、英文を、品詞句単位に
区分した構成情報に変換するにおいて、目的格関係代名
詞や関係副詞の省略があることにより、本来は別個の名
詞句に区分される2つの名詞句が1つの名詞句として切
り出されてしまう構文解析エラーの検出および修復に関
する。
【0002】
【従来技術】従来、自然言語処理においては、形態素解
析,構文解析という順に処理を行い、文の構造を解析し
ていた。しかし、形態素レベルで構文解析を行うと、文
が長くなるにつれ、文を構成する形態素が多くなり、構
文の曖昧性が飛躍的に増大する。構文の曖昧性は、形態
素の品詞の bigram に注目して、形態素を句レベルまで
にまとめあげ、構文解析をすることで大幅に軽減でき
る。
【0003】特開平7−210555号公報は、例え
ば、「文化が北から伝わった。」という文章を、 と構成素に分解して位置番号を与えて、各語を次のよう
に品詞符号に変換した形態素データを、 品詞符号: N P N P V $ 位置番号:0 1 2 3 4 5 6 一形態のLR法を用いて、品詞句単位の、文章上の位置
をあらわす位置番号を伴った品詞句符号群に変換する、
言語解析方法およびその装置、を開示している。
【0004】
【発明が解決しようとする課題】ところで一般的に、目
的格代名詞が省略された文を形態素から句にまとめあげ
ると、すなわち、単語(品詞)単位から句(品詞句)単
位の符号群に変換すると、本来、分離されるべき名詞句
が結合されるという副作用をもたらす。例として例文
1,2を示す。
【0005】例文1)The digital nervous system vis
ion is a transformation in the way business is don
e. 例文2)Bill is a president people can depend on.
【0006】例文1,2に対して、形態素解析と句合成
処理を行った後に、名詞句を抽出すると、それぞれ、 例文1) [名詞句] The digital nervous system vision *1 [名詞句] a transformation *2 [名詞句] the way business *3 例文2) [名詞句] Bill *4 [名詞句] a president people *5 となり、*3,*5の名詞句が間違って切り出される。
すなわち正しくは2つの別個の名詞句として切り出され
なければならないが、連接して1つに切り出される。す
なわち1つ名詞句と誤認される。目的格関係代名詞、関
係副詞が省略されるとこのような現象が生じる。
【0007】本発明は、このような名詞句の連接すなわ
ち誤区分を検出することを第1の目的とし、名詞句の連
接を正しく分断することを第2の目的とする。
【0008】
【課題を解決するための手段】(1)英文を品詞句単位
に分解して各品詞句に品詞句符号を与えた、英文上の位
置宛ての品詞句符号(NP,VP,P)の集合でなる英文情報
に、品詞句および状態情報の組合せ宛てに処置方情報お
よび適用文法情報を有するパース情報(4a)ならびに文脈
自由文法を定義した文法情報(3)を用いる構文解析(SRP)
を適用して、文法エラーとなる箇所の名詞句を検出し;
検出した名詞句を分割する;ことを特徴とする英文名詞
句の区分方法(図1-5)。
【0009】なお、理解を容易にするために、カッコ内
には、図面に示し後述する実施例の対応要素または相当
要素もしくは対応事項の符号を、参考までに付記した。
以下も同様である。
【0010】パース情報(4a)および文脈自由文法を用い
る構文解析、例えば前記特開平7−210555号公報
に開示の、一形態のLR法による、形態素の句レベルへ
の変換においては、前述の名詞句の連接すなわち誤区分
があると、その次に動詞がくるので、名詞句の推移先が
ないエラーとなる。したがって、構文解析でエラーが発
生すると、エラー箇所が名詞句であり、次が動詞である
と、該名詞句が誤区分である可能性が高い。そこで本発
明では、このような構文解析によって、誤区分の名詞句
を検出する。
【0011】これによれば、目的格関係代名詞,関係副
詞が省略されたことにより2以上が1つに連接した名詞
句が検出される。この結果、構文の曖昧性の爆発を避け
るために句レベルで文解析あるいは解読を行っても、そ
れに成功する確率が高くなり、また文解析又は解読結果
の信頼性が向上する。
【0012】なお、このような名詞句の誤区分の検出
は、文を形態素に変換しそしてLR法あるいはその他の
方法で句合成を行って英文上の位置宛ての品詞句符号(N
P,VP,P)を生成してから実施できるのは勿論、例えば前
記特開平7−210555号公報に開示のような、構文
解析による形態素の句レベルへの変換過程で実施しても
よい。例えば、形態素の句レベルへの変換過程で変換不
成功(エラー)となったときに実施する。
【0013】
【発明の実施の形態】(2)文法エラーとなる箇所の名
詞句に2以上の名詞が含まれるときは、名詞の間で該名
詞句を分割する、上記(1)の英文名詞句の区分方法。
【0014】目的格関係代名詞,関係副詞が省略された
場合には、この分割により、分割部より前側と後側が、
それぞれ文法にかなう文章となるので、構文解析エラー
が消える。すなわち、正しい名詞句に修正される。
【0015】(3)文法エラーとなる箇所の名詞句に大
文字がある名詞が含まれるときは、その直前で該名詞句
を分割する、上記(1)の英文名詞句の区分方法。
【0016】この場合は、大文字がある名詞の直前に、
本来は、ピリオド,目的格関係代名詞あるいは関係副詞
があるべき可能性が高い。ここで分割するので、分割部
より前側と後側が、それぞれ文法にかなう文章となるの
で、構文解析エラーが消える。すなわち、正しい名詞句
に修正される。
【0017】(4)文法エラーとなる箇所の名詞句に、
文法エラーなしの箇所の名詞句と同一の名詞句が含まれ
るときは、その直前又は直後で分割する、上記(1)の
英文名詞句の区分方法。これによれば、結果として正し
い名詞句に再区分される可能性が高い。
【0018】(5)英文を、単語単位に分解して各単語
にその品詞名をあらわす品詞符号を与えた、英文上の位
置宛ての品詞符号(形態素)の集合でなる英文情報に変
換し、品詞および状態情報の組合せ宛てに処置方情報お
よび適用文法情報を有するパース情報ならびに文脈自由
文法を定義した文法情報を用いる構文解析を適用して、
前記英文情報を品詞句単位で各品詞句に品詞句符号を与
えた、英文上の位置宛ての品詞句符号(NP,VP,P)の集合
に変換し、この変換で文法エラーとなる名詞句があると
きは、該名詞句を分割する、ことを特徴とする英文構文
情報生成方法(図6-8)。
【0019】これによれば、構文解析による形態素の句
レベルへの変換過程で、目的格関係代名詞,関係副詞が
省略されたことにより2以上が1つに連接した名詞句が
検出される。この結果、構文の曖昧性の爆発を避けるた
めに句レベルで文解析あるいは解読を行っても、それに
成功する確率が高くなり、また文解析又は解読結果の信
頼性が向上する。
【0020】(6)品詞符号と2つの位置番号からなる
構成素を記憶するための入力部(1);品詞句単位で各品
詞句に品詞句符号を与えた、英文上の位置宛ての品詞句
符号を記憶するためのチャート部(2);文脈自由文法を
定義した文法情報を記憶する文法部(3);品詞および状
態情報の組合せ宛てに処置方情報および適用文法情報を
有するパース情報を記憶する解析表部(4);および、前
記解析表部(4)のパース情報ならびに前記解析表部(4)の
文法情報を用いる構文解析により前記構成素を品詞句単
位で各品詞句に品詞句符号を与えた英文上の位置宛ての
品詞句符号(NP,VP,P)の集合に変換し、この変換で文法
エラーとなる名詞句があるときは該名詞句を分割し、変
換した英文上の位置宛ての品詞句符号を前記チャート部
に書込む、構文解析手段(6);を備える英文構文情報生
成装置(図6-8)。
【0021】これによれば、上記(5)の英文構文情報
生成が行われ、上記(5)に記載の作用効果が同様に得
られる。
【0022】(7)品詞句符号と2つの位置番号からな
る英文情報を記憶するための入力部(1);文脈自由文法
を定義した文法情報を記憶する文法部(3);品詞句およ
び状態情報の組合せ宛てに処置方情報および適用文法情
報を有するパース情報を記憶する解析表部(4);およ
び、前記解析表部(4)のパース情報ならびに前記解析表
部(4)の文法情報を用いる構文解析(SRP)により文法エラ
ーとなる箇所の名詞句を検出し、検出した名詞句を分割
する、構文解析手段(6);を備える英文構文情報生成装
置(図2-5)。
【0023】これによれば、上記(1)の英文構文情報
生成が行われ、上記(1)に記載の作用効果が同様に得
られる。
【0024】(8)英文入力とした自然言語解析処理装
置で、形態素解析,句合成処理および構文解析を順に行
い、句合成処理において誤って名詞句を結合した場合で
も、構文解析フェーズでその誤りを自動的に検出し、補
正することを特徴とした処理装置。
【0025】形態素解析、句合成処理の後で、構文解析
を行うことで、目的格関係代名詞、関係副詞の省略され
た位置を推定し、その情報をヒントに、句合成処理で誤
って合成された名詞句を分離する。この結果、構文の曖
昧性の爆発を避けるために句レベルで構文解析を行って
も、正しく名詞句を切り出すことが可能になる。
【0026】(9)上記(8)において、単語の属性、
慣用句などを辞書に登録する必要がないことを特徴とし
ている。
【0027】(10)上記(8)において、誤って合成
された名詞句に含まれる単語が他所に存在するか照合
し、存在するとそこで名詞句を分割することを特徴とし
ている。
【0028】本発明の他の目的および特徴は図面を参照
した以下の実施例の説明により明らかになろう。
【0029】
【実施例】−第1実施例− 図1に、第1実施例の処理の概要フローを示す。この第
1実施例では、英文を入力として、形態素解析WDPを
行う。次の句合成処理PDPにおいて、形態素を合成し
て、名詞句、動詞句というふうに英単語すなわち形態素
を句レベルにまとめあげる。まとめあげた句に対して、
文脈自由文法に基づき、LR法などを使用して構文解析
SRPを行う。
【0030】入力英文に目的格関係代名詞、関係副詞が
省略されている場合は、構文解析フェーズでエラーにな
る。ここで、構文解析を中止しないで、句合成処理で、
名詞句が誤って結合された可能性を疑ってみる。名詞句
が誤って結合された場合は、名詞句を分離して、エラー
の発生した位置から構文解析を再開する。構文解析が正
常終了したならば、句合成処理で誤って結合された名詞
句は、正しく分離できたことになる。構文解析理装置で
は、形態素解析,構文解析に使用する辞書には、単語の
属性、慣用句などを登録する必要がない。
【0031】例文1を使用して、名詞句を正しく切り出
す方法について詳細な説明をする。まず、形態素解析を
して、次のように品詞を付与した単語列を得る。 The 限定詞 digital 形容詞 nervous 形容詞 system 名詞 vision 名詞 is be動詞 a 限定詞 transformation 名詞 in 前置詞 the 限定詞 way 名詞 business 名詞 is be動詞 done 過去分詞 この品詞付きの単語列を入力として品詞のbigramにより
句合成を行う。次のような句が得られる。NP:名詞句,V
P:動詞句,P :前置詞、である。
【0032】 [NP] The digital nervous system vision [VP] is [NP] a transformation [P ] in [NP] the way business * [VP] is done 名詞は、非活用語なので、句合成処理において個々の名
詞の属性を調べて、接続性を検査することは必ずしもで
きない。従って、例文1のように目的格関係代名詞、関
係副詞が省略されている文は、上記のように、*で2つ
の名詞句が結合されて1つの名詞句になってしまう。
【0033】辞書に登録されている名詞句に対して属性
を登録して、名詞句の属性に関する接続性を数値で持つ
ことにより、名詞句を分離したり、慣用句などを辞書に
登録して、名詞句を分離することは上記の例の場合は、
可能であるが(たとえば、 in the way などを慣用句と
して登録しておく)、辞書の作成、保守の労力が高くつ
く。
【0034】構文解析は、句合成処理の出力である句品
詞を入力として行う:0 NP1 VP2 NP3 P4 NP5 VP6 ・・・ 例文1’ (0,1,・・・,6は、位置を表すための添え字) 英文に対する文脈自由文法を次にように与えて、 S = NP VP | VP NP = N | NP PP PP = P NP VP = V | VP NP | VP PP たとえばLP法で構文解析すると、例文1’を構文解析
している途中で、状態推移先が無いというエラーが4NP5
で起こる。
【0035】これは、入力文が与えられた文脈自由文法
の範囲外の構文であるという意味になる。そこで目的格
関係代名詞、関係副詞が省略されていることを疑ってみ
る。
【0036】目的格関係代名詞、関係副詞が省略される
と次のパターンで構文解析エラーが発生する: パターン 0NP1VP2NP3NP4VP5 パターン 0NP1VP2NP3VP4 パターンでは、2NP33NP4の間に目的格関係代名
詞、関係副詞が省略されており、パターンでは、2NP3
内に目的格関係代名詞、関係副詞が省略されている。
【0037】パターンは、2NP33NP4 の間に目的
格関係代名詞、関係副詞が省略されていると仮定して、
2NP3 の位置から構文解析を再開することで、構文解析
が正常終了する。また、パターンでは、名詞句切り出
しに問題はない。
【0038】パターンは、例文1、例文2の場合に相
当する。すなわち、句合成処理が目的格関係代名詞、関
係副詞の省略に気づかずに名詞を連結してしまう。
【0039】句合成の結果、パターンの文が生成され
たと仮定して、2NP3を2つの名詞句に分離する方法を示
す。
【0040】CASE 1. Capital文字で始まるかどうか例
文3で説明する: 例文3 Read a top-level summary of the benefits Office 20
00 can bring to yourorganization. これは、句合成を行うと次のようになる; [VP] Read [NP] a top-level summary [P] of [NP] the benefits Office 2000 [VP] can bring [P] to [NP] your organization 構文解析を行うと、 the benefits Office 2000 でエラ
ーが発生する。そこで、この名詞句を2つに分離する必
要がある。Capital(大文字)で始まる名詞に着目して、
そこで2つに分離すると、次のようになり、 [VP] Read [NP] a top-level summary [P] of [NP] the benefits [NP] Office 2000 [VP] can bring [P] to [NP] your organization the benefitsの位置から構文解析を再開すると、構文解
析が正常に終了する。
【0041】CASE 2. 名詞句に含まれる単語数が2つの
場合は、最初の単語の終わりで分離。
【0042】CASE 3. 冠詞+名詞 + 名詞: 冠詞+名詞 と 名詞 に分ける。例文2がこれに相当す
る; a president people a president と people に分かれる。
【0043】CASE 4. (冠詞)+ 形容詞 + 名詞 +
名詞: CASE 3.の処理に準ずる。
【0044】CASE 5. その他:文書に含まれるすべての
名詞句抽出が終了するまで、この単語の分離処理をペン
ディングする。文書に含まれる名詞句の抽出の後、CASE
5の単語の分離処理を再開する。CASE 5では、単語中に
すでに抽出した名詞句が含まれるかどうかを検査する。
もし含まれれば、単語を分離できる。分離前の単語が、
W1 W2 W3 ... W nのように構成されているとすると、W
1 ... Wi がすでに名詞句として文書中に存在する場合
は、単語は、W1 ... Wi と Wi ... Wn と2つに分離で
きる。既出の名詞句の始まりが、W1に一致しないか、終
わりがWnに一致しない場合は、単語の分離エラーとな
る。
【0045】同じく、分離する単語中に名詞句が存在し
ない場合は、単語分離エラーとする。また、CASE 5の処
理は、CASE 1 、CASE 3 、CASE 4 の方法で求めた名詞
句の照合修正(Verification)として、CASE 1 、CASE 3
、CASE 4に対しても適用する。
【0046】図2に、第1実施例において、構文解析S
RPを行う機能構成を示す。なお、これは、コンピュー
タとそれにロードしたプログラムによって実現する機能
構成を示す。1は入力部、2はチャート部、3は文法
部、4は解析表部、5は状態リスト部、6は解析部であ
る。入力部1は、文章を構成する品詞句をあらわす品詞
句符号とその前後の2つの位置番号からなる品詞句情報
の群(構文木)を記憶する。チャート部2は、構文解析
によりエラーチェックを終え、エラー部に修正を加えた
出力用の品詞句情報群(構文木)を格納する。文法部3
は上述の文脈自由文法を記憶し、解析表部4はLR表4
aを記憶する。また、状態リスト部5は、構文解析過程
で位置番号毎に状態番号を記憶する。解析部6は、入力
されたに対して文脈自由文法で規定された文法構造であ
るか否(エラー)かのチエックと、エラー検出の場合に
は、修正のための処理を行う。
【0047】入力部1には、品詞句情報群例えば、前記 パターン 0NP1VP2NP3NP4VP5 パターン 0NP1VP2NP3VP45 のように名詞句符号に文章上の位置番号を与えた品詞句
情報の、1文単位の集合、が与えられる。ここで、最初
のNPの直前の位置番号0および直後の1が、該Nの開
始位置番号および終了位置番号である。$は文の最後を
表す終端符号で、1文章の最後の位置に設定される。
【0048】文脈自由文法を規定する文法情報 S = NP VP | VP NP = N | NP PP PP = P NP VP = V | VP NP | VP PP が、文法部3に記憶されている。この文法から得られる
LR表4aが、解析表部4に記憶される。LR表4a
は、形態素を品詞句符号としたLR表である。形態素を
品詞符号としたLR表と同様に、解析の状態に応じて、
次にどのような動作を取るべきかを記録したもので、状
態は状態番号によって識別される。処置方すなわち取る
べき動作には、ACTION部に規定した(1)状態の
遷移、GOTO部に規定した(2)文法の適用、および
ACTION部に規定した(3)受理の3種類がある。
そして、状態番号nに対応する状態から、品詞句符号に
よって、状態番号mに対応する状態に状態遷移すること
は、状態番号nの行のACTION部の品詞句符号の列に sh
m と記憶することで表される。状態番号nに対応する状
態から、次の品詞句符号によって、状態番号mに対応す
る状態に状態遷移することは、状態番号nの行のGOTO部
の品詞句符号の列PP,Sにmと記憶することで表され
る。状態番号nに対応する状態で、次の品詞句符号の場
合に、文法番号gの文法を適用することは、状態番号n
の行のACTION部の品詞句符号列に re g と記憶すること
で表される。状態番号nに対応する状態で、次の品詞句
符号が終端符号$の場合に、この文を受理する場合は、
状態番号nの行のACTION部の$の列に受理と記憶するこ
とで表される。
【0049】図4に、解析部6のLRパーサ(LR pa
rser)6aの構文解析SRPaの内容を示す。LRパー
サ6aは、1文章の品詞句符号群を受けて入力部1に格
納すると(ステップ1)、位置番号レジスタFnおよび
状態リスト部5の、1文章宛の状態リストを初期化し、
位置番号Fn=0とする(ステップ2)。そして、入力
部1に記憶されている品詞句符号を先頭から1つずつ取
り出して、1つに付き、ステップ4〜8の構文解析を行
う。なお、以下においては、カッコ内には、ステツプと
いう語を省略して、ステツプNo.数字のみを記す。
【0050】この構文解析の概要を説明すると、まず、
取り出した品詞句符号の開始位置番号に宛てられた、状
態リスト上の状態番号(最初は初期化により0)と該品
詞符号との組合せに宛てられた状態遷移先を、LR表4
aのACTION部から読み出す。状態遷移先がshi
であれば、適として品詞符号を位置情報とともにチャー
ト部2に書込み、次の開始位置番号に状態番号iを宛
て、該開始位置番号の品詞句符号と該状態番号iの組合
せに宛てられた状態遷移先をLR表4aのACTION
部から読み出す。LR表4aから読み出した状態遷移先
がrejであるときには、文法部3から文法番号jの文
法情報を取りだし、すでにチャート部にチエック済とし
て格納した名詞句符号と文頭方向に照合して文法に適合
するか否(エラー)かをチェックする。照合すれば、す
なわち適合であると、品詞符号を位置情報とともにチャ
ート部2に書込む。文法に適合しないと、エラーとな
る。
【0051】エラーになると、LPサーバ6aは、エラ
ー箇所データすなわちエラーと検出した品詞句の開始位
置番号と終了位置番号を、品詞句情報の送出元に送信す
る(9)。品詞句情報の送出元すなわち英文処理ホスト
(例えば翻訳プログラム,英文チエックプログラム,英
文音声認識プログラムなどのアプリケーションプログラ
ム)は、ディスプレイに表示した処理対象英文の該当箇
所(開始位置番号から終了位置番号までの単語)を、警
告表示に切換える。これによりオペレータは、エラー箇
所を認識できる。
【0052】次にLPサーバ6aは、エラー箇所が、名
詞句NPから動詞句VPへの切換りがある該名詞句かを
チェックする。すなわち、ピリオドの欠落もしくは目的
格関係代名詞又は関係副詞の欠落による、2つの名詞句
の連接の可能性がある名詞句かをチェックする(1
0)。これに該当しないと、英文処理ホストの指示を待
つ。
【0053】該当する名詞句であると、LPサーバ6a
は、名詞句の形態素群すなわち名詞句に含まれる単語群
の各単語の、大文字/小文字識別子付きの品詞符号の転
送を英文処理ホストに要求して、それらの転送を受ける
と、名詞句内の単語配列を分析する。その結果、名詞句
内の名詞の数が2であると、両名詞間の位置番号を、そ
れに単語挿入コマンドを付けて英文処理ホストに与える
(12,13/16〜18)。英文処理ホストはディス
プレイ上の該当位置に、入力処理を促す催告表示(エラ
ー表示カーソルの点滅)を行う。そこにピリオド又は単
語の入力があると、英文処理ホストは現在問題の文章の
名詞句符号群の書替え(廃棄)をLPサーバ6aに指示
し、更新された文章の名詞句符号群を入力部1に転送す
る。これに応答してLPサーバ6aは、新たに「構文解
析」SRPを開始する。
【0054】2以上の名詞が含まれる場合でも、大文字
で始まる名詞があった時には、LPサーバ6aは、その
開始位置番号を、それに単語挿入コマンドを付けて英文
処理ホストに与える(14,15)。
【0055】名詞の数が2以上であるが、大文字で始ま
る名詞はなく、また、名詞+名詞,冠詞+名詞+名詞,
冠詞+形容詞+名詞+名詞のいずれにも該当しないと、
LPサーバ6aは、問題の名詞句符号に、エラー指標F
vrを付けて、チャート部2に書込み、そして入力部1に
ある、その名詞句以降の名詞句符号群をチャート部2に
追記して、チャート部2のチェック完了の名詞句符号群
を英文処理ホストに転送し(19,8)、このとき英文
処理ホストにエラー指標Fvrありを報知する。英文処理
ホストは、自己に、現在処理中の文書(Σ各文章)にエ
ラー情報が含まれていることを表す情報(Verification
要求情報)を設定する。
【0056】英文処理ホストは、現在処理中の文書(Σ
各文章)の、すべての文章(センテンス)の、LPサー
バ6aによる構文解析が完了すると、Verification 要
求情報がある場合には、該文書にたいして「照合補償」
VePを実行する。
【0057】図5に、「照合補償」VePの内容を示
す。これに進むと英文処理ホストは、文書全体につい
て、文頭から、エラー指標Fvrが付いた名詞句符号を探
索して(21,22)、エラー指標Fvrが付いた名詞句
毎に、次の処理を行う。すなわち、名詞句を、まず第1
番の分割では、名詞句の先頭から第1番の名詞の直後で
名詞句を2区分に分割して、各部分の名詞又は名詞句に
同一のものが、エラー指標Fvrなしで他所に存在するか
を、対象文書全体に対して検索する(24,25)。
【0058】見つかれば、問題の名詞句を該分割位置で
2区分し、分割位置への単語挿入要求をディスプレイに
表示し(28)、そこに単語入力があるのを待つ。単語
入力があると、表示を更新し文書情報を更新して、また
「照合補償」VePに復帰する。第1番の分割では検索
が不成功に終わると、問題の名詞句の分割位置を次の単
語の直後として、同様な検索を繰り返す(26,29,
24,25)。このようにして、2分割が付加になるま
で検索が失敗であると、問題の名詞句符号はエラー指標
Fvr付けたままとして、次のFvr付き名詞句符号を検索
する(30)。対象文書全体に対してこのような処理を
行う。
【0059】なお、図4に示す処理では、含まれる名詞
の数が2以上で、大文字で始まる名詞がある,名詞+名
詞,冠詞+名詞+名詞,又は、冠詞+形容詞+名詞+名
詞のいずれかに該当すると、分割位置を定めて、そこへ
の単語入力を促し(13,15,17)、単語入力を待
つようにしているが、他のもう1つの処理態様では、ス
テツプ12〜18を省略して、それらに該当する場合は
すべて、名詞句符号にエラー指標Fvrを付けて、構文解
析を速く終えてしまうようにする。この場合には、構文
解析SRPでは、エラー名詞句の分割は行われず、「照
合補償」VePが、エラー指標Fvr付きの名詞句を分割
することになる。この態様では、「照合補償」VePの
ステツプ29と30の間に、図4のステップ12〜18
を介挿して、ステップ18のNOのラインの行き先をス
テップ30としておくのが好ましい。
【0060】−第2実施例− 図6の(a)に、第2実施例の処理の概要フローを示
す。この第2実施例では、英文を入力として、形態素解
析WDPを行う。次の構文解析SRPaにおいて、文脈
自由文法に基づきLR法などを使用して構文解析によっ
て形態素を合成して、名詞句、動詞句というふうに英単
語すなわち形態素を句レベルにまとめあげる。
【0061】図6の(b)は、第2実施例を説明するた
めの構成図で、図中、1は入力部、2はチャート部、3
は文法部、4は解析表部、5は状態リスト部、6は解析
部である。第2実施例の入力部1は、単語の品詞をあら
わす品詞符号とその前後の2つの位置番号からなる形態
素を記憶する。チャート部2は、まとめあげた出力用
の、品詞句符号とその前後の2つの位置番号からなる品
詞句情報の群(構文木)を格納する。文法部3は文脈自
由文法を記憶し、解析表部4はLR表4a(図7)を記
憶する。また、状態リスト部5は、構文解析過程で位置
番号毎に状態番号を記憶する。解析部6は、形態素群に
対して文脈自由文法で規定された句構造を抽出する。
【0062】入力部1には、形態素群例えば、 品詞符号: N P N P V $ 位置番号:0 1 2 3 4 5 6 が与えられる。
【0063】ここで、最初のNの直前の位置番号0およ
び直後の1が、該Nの開始位置番号および終了位置番号
である。$は文の最後を表す終端符号で、1文章の最後
の位置に設定される。
【0064】文脈自由文法を規定する文法情報は、文法
の識別子である文法番号と共に左辺と右辺に分けて 文法番号 左辺 右辺 1 S PP S 2 S V 3 PP N P 4 PP S P と記憶されている。この文法Jから得られるLR表4a
が、図7に示すように、解析表部4に記憶される。表の
内容は通常のLR表と同じである。すなわち、LR表は
解析の状態に応じて、次にどのような動作を取るべきか
を記録したもので、状態は状態番号によって識別され
る。
【0065】処置方すなわち取るべき動作には、(1)
状態の遷移、 (2)文法の適用、(3)受理の3種類
がある。そして、状態番号nに対応する状態から、品詞
符号によって、状態番号mに対応する状態に状態遷移す
ることは、状態番号nの行のACTION部の品詞符号の列に
sh m と記憶することで表される。状態番号nに対応す
る状態から、非終端符号Nによって、状態番号mに対応
する状態に状態遷移することは、状態番号nの行のGOTO
部のNの列にmと記憶することで表される。状態番号n
に対応する状態で、次の品詞符号の場合に、文法番号g
の文法を適用することは、状態番号nの行のACTION部の
品詞符号列に re g と記憶することで表される。状態番
号nに対応する状態で、次の品詞符号が終端符号$の場
合に、この文を受理する場合は、状態番号nの行のACTI
ON部の$の列に受理と記憶することで表される。
【0066】図8に、解析部6のLRパーサ(LR pa
rser)6aの構文解析SRPaの内容を示す。LRパー
サ6aは、1文章の品詞符号群を受けて入力部1に格納
すると(1a)、位置番号レジスタFnおよび状態リス
ト部5の、1文章宛の状態リストを初期化し、位置番号
Fn=0とする(2)。そして、入力部1に記憶されて
いる品詞符号(形態素)を先頭から1つずつ取り出し
て、1つに付き、ステップ4a〜8の構文解析を行う。
【0067】この構文解析の内容は、前記特開平7−2
10555号公報に開示のものと同様である。概要を説
明すると、まず、取り出した品詞符号の開始位置番号に
宛てられた、状態リスト上の状態番号(最初は初期化に
より0)と該品詞符号との組合せに宛てられた状態遷移
を、LR表4aから読み出す。例えば、最初の品詞符号
Nの場合には、Nと、その開始位置番号0宛ての、状態
リスト上の状態番号=0から、LR表4a上のsh4が得
られる。つまり4が遷移先状態番号であることがわか
る。そこで、最初の品詞符号Nの構文分析に成功したの
で、それをあらわす(N,0,1)をチャート部2に書
き込む。そして、4を状態リスト上の、開始位置番号1
の行に加える。すなわち、次の位置番号1に、状態番号
4を割り当てる。
【0068】なお、LR表4a上に、該当の組合せに対
してデータがない時には、状態番号の割付などせず、次
の品詞符号の取出しに進む。
【0069】 上述の 品詞符号: N P N P V $ 位置番号:0 1 2 3 4 5 6 の例では、先頭から2番目の品詞符号Pの開始位置番号
は1であり、これには状態番号4が割り当てられている
ので、品詞符号Pと状態番号4の組合せに対する遷移先
情報sh7を読出す。そこで、7を状態リストの位置番号
2の行に加える。すなわち、次の位置番号2に、状態番
号7を割り当てる。
【0070】次の品詞符号Nの開始位置番号は2であ
り、これには状態番号7が割り当てられているので、品
詞符号Nと状態番号7の組合せに対する遷移先情報re3
を読出す。そこで文法部3から、文法No.3の文法
(PP,[N,P])を取り出す。右辺[N,P]の最右要
素Pを除いてできるRh′=[N]を位置番号1から文
頭方向に順にチャート部2の句構造と照合すると、
[N]と(N,1,2)が照合する。最左要素に照合され
た文法符号、ここではNの開始位置番号は0とわかる。
ここで状態リストから位置番号0の状態番号0を取り出
す。次に、LR表4aから状態番号0あての非終端符号
PPのデータを読出すと、それが2(遷移先状態番号)
であることがわかる。そこで、状態リストの開始位置2
に状態番号2を割り当てる。ここで、最初の品詞符号N
から次のPまでの構文分析に成功したので、それをあら
わす句情報(PP,0,2)をチャート部2に書き込
む。
【0071】次の、開始位置2の品詞符号Nと、状態リ
ストの開始位置2の状態番号2との組合せには、LR表
4aにおいてsh4があるので、状態遷移が可能であ
る。そこで、状態リストの開始位置3に状態番号4を割
り当てる。ここで、2番目の品詞符号Pの構文分析に成
功したので、それをあらわす句情報(P,1,2)をチ
ャート部2に書き込む。以下、同様に処理を進め、構文
エラーがない場合には、「受理」がLR表4aが読み出
され、1文章の構文解析が終了し、チャート部2の、解
析情報が、形態素データ送信元に転送される。
【0072】ところが、文章の終わりのピリオドが欠落
したとか、目的格関係代名詞あるいは関係副詞の省略に
より、2つの名詞句が1つの名詞句として連接して解読
されると、次の動詞句への推移がないので、構文解析不
成功になる。すなわち文法エラーとなる。
【0073】するとLPパーサ6aは、エラー箇所デー
タすなわちエラーと検出した句の開始位置番号と終了位
置番号を、形態素データ(品詞符号と位置番号)の送出
元に送信する(9)。その後の処理(10〜19)は前
述の、第1実施例の処理(図4の10〜19)と同様で
ある。また、「照合補償」VePも、第1実施例と同様
に実施される。
【0074】
【発明の効果】以上のように本発明によれば、目的格関
係代名詞,関係副詞あるいはピリオドが省略されたこと
により2以上が1つに連接した名詞句が検出される。こ
の結果、構文の曖昧性の爆発を避けるために句レベルで
文解析あるいは解読を行っても、それに成功する確率が
高くなり、また文解析又は解読結果の信頼性が向上す
る。
【図面の簡単な説明】
【図1】 本発明の第1実施例の英文の品詞句単位の構
文解析の処理過程の概要を示すフローチャートである。
【図2】 図1に示す構文解析SRPを実行する機能構
成を示すブロック図である。
【図3】 図2に示す解析部6の構成と解析表部4のL
R表4aの、読出しデータを特定するパラメータの項目
を示すブロック図である。
【図4】 図3に示すLRパーサ6aの、LR表4aと
文脈自由文法を用いる構造解析の概要と、エラー名詞句
の修正のためのアクションを示すフローチャートであ
る。
【図5】 図2に示す入出力部に品詞句符号群をあたえ
る英文処理ホストが行う「照合補償」VePの内容を示
すフローチャートである。
【図6】 (a)は、本発明の第2実施例の、英文の形
態素に基づいた、品詞句符号の生成を含む構文解析の処
理過程の概要を示すフローチャートであり、(b)は、
(a)に示す構文解析SRPを実行する機能構成を示す
ブロック図である。
【図7】 図6の(b)に示す解析部6の構成と解析表
部4のLR表4aの、読出しデータおよびそれを特定す
るパラメータの項目を示すブロック図である。
【図8】 図7に示すLRパーサ6aの、LR表4aと
文脈自由文法を用いる、品詞句符号の生成を含む構造解
析の概要と、エラー名詞句の修正のためのアクションを
示すフローチャートである。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】英文を品詞句単位に分解して各品詞句に品
    詞句符号を与えた、英文上の位置宛ての品詞句符号の集
    合でなる英文情報に、品詞句および状態情報の組合せ宛
    てに処置方情報および適用文法情報を有するパース情報
    ならびに文脈自由文法を定義した文法情報を用いる構文
    解析を適用して、文法エラーとなる箇所の名詞句を検出
    し;検出した名詞句を分割する;ことを特徴とする英文
    名詞句の区分方法。
  2. 【請求項2】文法エラーとなる箇所の名詞句に2以上の
    名詞が含まれるときは、名詞の間で該名詞句を分割す
    る、請求項1記載の英文名詞句の区分方法。
  3. 【請求項3】文法エラーとなる箇所の名詞句に大文字が
    ある名詞が含まれるときは、その直前で該名詞句を分割
    する、請求項1記載の英文名詞句の区分方法。
  4. 【請求項4】文法エラーとなる箇所の名詞句に、文法エ
    ラーなしの箇所の名詞句と同一の名詞句が含まれるとき
    は、その直前又は直後で分割する、請求項1記載の英文
    名詞句の区分方法。
  5. 【請求項5】英文を、単語単位に分解して各単語にその
    品詞名をあらわす品詞符号を与えた、英文上の位置宛て
    の品詞符号の集合でなる英文情報に変換し、 品詞および状態情報の組合せ宛てに処置方情報および適
    用文法情報を有するパース情報ならびに文脈自由文法を
    定義した文法情報を用いる構文解析を適用して、前記英
    文情報を品詞句単位で各品詞句に品詞句符号を与えた、
    英文上の位置宛ての品詞句符号の集合に変換し、 この変換で文法エラーとなる名詞句があるときは、該名
    詞句を分割する、ことを特徴とする英文構文情報生成方
    法。
  6. 【請求項6】品詞符号と2つの位置番号からなる構成素
    を記憶するための入力部;品詞句単位で各品詞句に品詞
    句符号を与えた、英文上の位置宛ての品詞句符号を記憶
    するためのチャート部;文脈自由文法を定義した文法情
    報を記憶する文法部;品詞および状態情報の組合せ宛て
    に処置方情報および適用文法情報を有するパース情報を
    記憶する解析表部;および、前記解析表部のパース情報
    ならびに前記解析表部の文法情報を用いる構文解析によ
    り前記構成素を品詞句単位で各品詞句に品詞句符号を与
    えた英文上の位置宛ての品詞句符号の集合に変換し、こ
    の変換で文法エラーとなる名詞句があるときは該名詞句
    を分割し、変換した英文上の位置宛ての品詞句符号を前
    記チャート部に書込む、構文解析手段;を備える英文構
    文情報生成装置。
JP2001098153A 2001-03-30 2001-03-30 英文名詞句の区分方法,英文構文情報生成方法および装置 Pending JP2002297585A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001098153A JP2002297585A (ja) 2001-03-30 2001-03-30 英文名詞句の区分方法,英文構文情報生成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001098153A JP2002297585A (ja) 2001-03-30 2001-03-30 英文名詞句の区分方法,英文構文情報生成方法および装置

Publications (1)

Publication Number Publication Date
JP2002297585A true JP2002297585A (ja) 2002-10-11

Family

ID=18951831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001098153A Pending JP2002297585A (ja) 2001-03-30 2001-03-30 英文名詞句の区分方法,英文構文情報生成方法および装置

Country Status (1)

Country Link
JP (1) JP2002297585A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218318A (ja) * 2009-03-17 2010-09-30 Japan Institute For Educational Measurement Inc 文末句読点の欠落検出装置及び欠落検出プログラム
CN103493041A (zh) * 2011-11-29 2014-01-01 Sk电信有限公司 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法
JP2014110026A (ja) * 2012-12-04 2014-06-12 Fujitsu Ltd 言語処理装置、言語処理方法、及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218318A (ja) * 2009-03-17 2010-09-30 Japan Institute For Educational Measurement Inc 文末句読点の欠落検出装置及び欠落検出プログラム
CN103493041A (zh) * 2011-11-29 2014-01-01 Sk电信有限公司 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法
KR101475284B1 (ko) * 2011-11-29 2014-12-23 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법
US9336199B2 (en) 2011-11-29 2016-05-10 Sk Telecom Co., Ltd. Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method of the same
JP2014110026A (ja) * 2012-12-04 2014-06-12 Fujitsu Ltd 言語処理装置、言語処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US6424983B1 (en) Spelling and grammar checking system
JP3220560B2 (ja) 機械翻訳装置
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP2002215617A (ja) 品詞タグ付けをする方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US5299124A (en) Translation machine capable of analyzing syntactic of sentence
JPH07282055A (ja) 文解析方法および装置
US7620541B2 (en) Critiquing clitic pronoun ordering in french
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP4039635B2 (ja) 言語情報処理装置
JPH07325825A (ja) 英文法チェックシステム装置
JP2719453B2 (ja) 機械翻訳装置
JP3244286B2 (ja) 翻訳処理装置
JPH087046A (ja) 文書認識装置
JPH1166068A (ja) 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
JP2595043B2 (ja) 日本文誤り自動検定装置
JP2650099B2 (ja) ドキュメント抽出装置
JPH05342260A (ja) 単語綴りチェック装置
JPH07141382A (ja) 外国語文書作成支援装置
JP2003256415A (ja) 辞書構築支援方法、装置及びプログラム
JPH1063664A (ja) 自然言語の翻訳方法及び装置
JPH06243163A (ja) 文書解析装置
JPH10105552A (ja) 機械翻訳システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050719

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050913

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051128