JPH0519186B2 - - Google Patents

Info

Publication number
JPH0519186B2
JPH0519186B2 JP63259630A JP25963088A JPH0519186B2 JP H0519186 B2 JPH0519186 B2 JP H0519186B2 JP 63259630 A JP63259630 A JP 63259630A JP 25963088 A JP25963088 A JP 25963088A JP H0519186 B2 JPH0519186 B2 JP H0519186B2
Authority
JP
Japan
Prior art keywords
prefix
word
verb
ending
prefixes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63259630A
Other languages
English (en)
Other versions
JPH01142866A (ja
Inventor
Zamora Antonio
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH01142866A publication Critical patent/JPH01142866A/ja
Publication of JPH0519186B2 publication Critical patent/JPH0519186B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
A 産業上の利用分野 本発明は一般にはデータ処理手法、更に詳細に
説明すれば、ロマンス語(スペイン語、ポルトガ
ル語、イタリヤ語、フランス語、ルーマニヤ語な
どのラテン語系の言語)で動詞から前接語の語尾
を除去する装置に関する。 B 従来技術 テキスト処理ワード処理システムは独立型並び
に分散型の用法の双方が開発されている。用語テ
キスト処理及びワード処理は本明細書では同義で
あり、基本的に、文書に書かれたテキストを構成
する英数字の文字ストリングの生成、編集、伝
達、及び印刷に用いられるデータ処理システムを
指す。特開昭63−36420号公報にワード処理のた
めの特定の分散処理システムが開示されている。
その特許出願の図面及び明細書は本発明を適用し
うるホストシステムの例として本明細書で引用さ
れる。 B−1 スペイン語 スペイン語では、一定の動詞形に代名詞が付
いて新しいワードをつくることはよく知られて
いる。例えば、“dame”(英語の“give me”)
は動詞の命令形“da”と代名詞“me”からつ
くられる。これらの代名詞は先行するワードに
付着して新しいワードをつくるため“前接語”
と呼ばれる。 前接語の形式で使用できるスペイン語の代名
詞は11あり、その用法は下記のように分類され
る。 (1) se:再帰代名詞又は非人称代名詞 (2) me、nos:第1人称(単数、複数) (3) te、os:第2人称(単数、複数) (4) lo、la、lo、los第3人称(対格) le、les:第3人称(与格) 1つのワードにいくつかの前接語の代名詞が
付加されることがある。従つて、“da´melo”
(英語の“give it to me”)は第2の前接語を
含むだけではなく、基本的なアクセントのつけ
方に適合するように新しいワードにアクセント
が付けられる。 スペイン語には基本的なアクセントのつけ方
の規則が3つある: (1) 最後のシラブルに強勢が付けられ、しかも
母音または“n”ないし“s”で終る全ての
ワードは明瞭なアクセント記号を有する。 (2) 語尾から2番目のシラブルに強勢が付けら
れるワードは、もし“n”または“s”以外
の子音で終るなら、明瞭なアクセント記号を
有する。 (3) 語尾から2番目のシラブルの前に強勢が付
けられたワードは常に明瞭なアクセントを有
する。 強勢が付けられたシラブルの母音の上にアクセ
ント記号が書かれるほか、厄介な発音を避けるた
めに、一定の動詞と代名詞の組合わせに音調をよ
くする規則が適用される。第1人称複数の命令形
“vamos”(英語の“we go”)に前接語“nos”が
付くと最後の“s”が削除される。従つて、
“vamos”+“nos”は“va´monos”(英語の“let's
go”)となる。第1人称複数の前接語“se”が付
くと重なる“s”は省略されるので、
“hagamos”+“se”+“lo”は“haga´moselo”(英
語の“Let's do it for them!”)を生ずる。前
接語“os”があとに来ると、第2人称複数の命令
形の最後の“d”は省略されるので、“comed”+
“os”は“comeos”(英語の“you eat!”)を生
ずる。 スペイン語の前接形成の1つの特色は動詞の形
式が全て前接形式をつくるとは限らないことであ
る。不定形、動名詞(現在分詞)及び命令形の5
つの形式だけが前接代名詞をとることができる。
下記に示す動詞の形式“amar”(英語の“love”)
は幾つかの有効な前接形式を表わす:
【表】 表中の1、2、3はそれぞれ第1人称、第2
人称、第3人称を指し、“S”及び“p”はそ
れぞれ単数形及び複数形を指す。 スペイン語の文法は前接語の代名詞に対し厳
格な優先順位を要求する。“se”は常に最初に
来ては次に第2人称、続いて第1人称、最後に
第3人称の代名詞が来る。もちろん、これらの
各々の任意であるが、3つ以上の代名詞が1つ
の動詞に付けられることは希である。 B−2 イタリヤ語 イタリヤ語の属性は代名詞が一定の動詞形式
に付けられると新しいワードがつくられること
である。例えば、“dammi”(英語の“give
me”)は動詞の命令形“da”+代名詞“mi”か
らつくられる(この場合、代名詞の最初の文字
は二重になる)。これらの代名詞は先行するワ
ードに付けられて新しいワードをつくるため
“前接語”と呼ばれる。しかしながら、動詞の
全ての形式が前接語をとるとは限らないい。不
定形、動名詞及び5つの命令形だけが前接代名
詞をとることができる。 前接語で使用可能なイタリヤ語の代名詞及び
小辞は17あり、それらの用法は下記のように分
類される:
【表】 幾つかの前接語の代名詞がワードに付けられ
るが、特定の膠着語形の規則に従わなければな
らない。動詞形は規則形または不規則形で終ら
なければならない。もし2つ以上の代名詞があ
るなら、“mici”、“tici”及び“vici”の組合せ
の場合(この場合には“ci”は指示詞であつて
人称代名詞ではないので一様に処理するため規
則形に含まれている)のほかは、あとに相補形
が来る代名詞の不規則形が用いられる。 更に、スペリングを変更する2つの規則が用
いられる: (1) 動詞の不定形は、その不定形が“rre”で
終る場合(この場合には最後の“re”が削除
される)のほかは、前接語の代名詞が付加さ
れると、最後の“e”が削除される。 (2) もし動詞の命令形で最後のシラブルに強勢
が付けられれば、その動詞に最も近い前接語
の子音は重ねられる(“gli”、“glie”の場合
を除く)。 下記はこれらの場合の例を示す:
【表】
【表】 規則の複雑さ及び前接語をとることができる
動詞形の数が多いため、前接語のある動詞形を
分解する強力な辞書及び分析手順が必要であ
る。語形論に基づいて、前接語、例えば
“Oslo”、“cola”を有すると思われるが、実際
には全く前接語尾ではない多くのワードがあ
る。イタリヤ語では未完了時制仮定法のような
動詞形には“si”の語尾を持つものがあり、適
切に分析されないと再帰代名詞と混同されるこ
ともある。コンピユータに基づいた辞書−前接
語の語尾を持つ動詞を含む―も幾つかあるが、
従来技術のものはどれも、多くのアプリケーシ
ヨンに必要な動詞の基本形を得るための自動的
に前接語を除去する問題には取組んでいない。 C 発明が解決しようとする問題点 本発明の目的はロマンス語で動詞から前接語の
語尾を除去する方法を提供することである。 更に、本発明の目的はスペイン語、イタリヤ
語、ポルトガル語、フランス語及びその他のロマ
ンス語で動詞から前接語の語尾を除去する方法を
提供することである。 D 問題点を解決するための手段 本発明は前接形式を生成するのに使用された動
詞を識別するため前接語の語尾を除去するプロセ
スを含む。このプロセスは前接形成規則とは逆の
語形論的な変換、アクセントのつけ方とは逆の規
則、及び妥当な動詞形及び両義にとれる語句を識
別できる辞書索引の組合せである。 本発明のアプリケーシヨン (1) ワード処理システムにおけるワード検査: 前接代名詞は非常に豊富な組合せがあるため
徹底したリステイングによつても動詞形を完全
にカバーするのは困難である。ゆえに、前接語
のない動詞形を識別し生成する手順がワードリ
を検査する有効な方法として用いられる。 (2) データベースによる自然言語のアクセスのよ
うな言語分析アプリケーシヨンではどれも、疑
問符で用いられた動詞形を分離して質問を解釈
する必要がある。前接語の標準化によりロマン
ス語の動詞形の処理が可能となる。 (3) 計算機翻訳は前接語の形式の識別及び前接代
名詞のない動詞形の生成を必要とする。本発明
は計算機翻訳アプリケーシヨンによるロマンス
語の動詞の処理を可能にする。 E 実施例 E−1 スペイン語 この実施例は前接形式を生成するのに使用さ
れた動詞を識別するために前接語の語尾を除去
するための、スペイン語に適用される反復プロ
セスから成る。反復プロセスは: (1) 前接形成及びアクセントのつけ方の規則と
は逆の語形論的な変換と、 (2) 妥当な動詞形を識別することができる辞書
の索引との組合せである。 第1図はこのプロセスの流れを示す。 ステツプ20は前接語を除去するプロセスで
入力ワードを得るプロセスを示す。入力ワード
は辞書索引の共通フオントを保証するため必要
なら小文字に変換される。ステツプ22で、ワ
ードの語尾は11の前接代名詞のリストについて
検査される。もしワードが前接語の語尾を持た
ないか、前接が間違つた順序で生じているか、
または3つ以上の前接語が見つかるなら、ワー
ドは妥当な前接語の語尾を持たないのでプロセ
スは終了する。 ステツプ24で、両義にとれるワードのリス
トが検査される。例えば、ワード“salte”は
“sal”+“te”(英語の“(thou)get out”)とみ
なすか、又は、もしそのワードに前接語がない
と解釈すれば、そのワードは英語の“(you)
jump”を意味する。ワードが該リストで見つ
かると、出力ワードの形式は該リスト中の入力
ワードに関連して配置される。 ステツプ26は辞書索引プロセスである。こ
れはそのワードが動詞であるかどうかを決める
ため辞書中でそのワードの形式を見つける必要
がある。もしそれが動詞なら、それに対応する
語形変化表(表1)がアクセスされ、それがど
の動詞形であるかを決める。語形変化表一致手
順は該ワード形式の語尾と語形変化表で指定さ
れた語尾との一致
【表】 ′
futu5 areis

futu6 aran
【表】 を含む。一致する語尾は表中の対応する文法形
に関連する。この一致手順は動詞形が前接語の
語尾をとる動詞形と一致するかどうかを決める
ことを可能にする。もし一致すれば、一致した
語尾と不定形の語尾とを置換えることにより動
詞の見出し語形式(一般に不定形)が得らえ
る。一致が成功すればこの手順は終了する。 前接語の語尾はステツプ27で除去される
が、前接語はステツプ28及びステツプ30で
参照するため保管される。 ステツプ28は前接語代名詞“os”が除去さ
れるときに適用されるプロセスである。一般
に、前接語“os”は単に除去されるだけである
が、もし“os”に先行する文字が母音“a”、
“e”、“i”又は(アクセンと記号付きの)
“i”のうちの1つであるなら、前接語“os”
は除去されて“d”に置換えられる。例えば、
“rei´os”は“reid”になり、“burlaos”は
“burlad”になる。それに対し、“obedeceros”
は単に“obedecer”となる。 ステツプ30は前接語“nos”又は“se”が
除去されるときに適用されるプロセスである。
これらの前接語は発見されると除去され、もし
(動詞の複数形を表わす)文字“mo”が先行し
ていれば、除去された前接語は“s”に置換え
られる。例えば、“prepare´monos”は
“prepare´mos”になるが、“ri´anse”は“ri´an”
になる。このステツプはアクセントの除去とは
無関係であり、このステツプでつくられたワー
ド形の中には間違つたアクセントを有するため
辞書と一致しないものがある。 ステツプ32は正しいスペリングを有する辞
書との一致を再度試みるためアクセント(もし
あれば)除去する。 ステツプ34は“frei´dmelo”(英語の
“(you)fry it for me”!)のような複数の
前接語を有しアクセントが付けられたワードと
の一致を試みる際に除去されていることがある
アクセントを復元する。最初の試みでは、最初
の前接語だけが除去されて“frei´dme”を生す
るが、これは辞書とは一致しないので、ステツ
プ32でアクセントが除去される。ステツプ3
4でアクセントが復元されてからワードステツ
プ22に戻され、付加されている前接語の語尾
が検出され、あとで除去される。 表2は前記プロセスの良好な実施例の擬似コ
ードを示す。本発明のこの実施例は特定のステ
ツプ列に関して説明されているが、これらのス
テツプの幾つかの順序はやや任意である。前接
語の除去及びアクセントの除去のような幾つか
の動作を組合せて、入力ワードのシラブルを考
慮する単一の動作にすることにより、プロセス
を簡素化することが可能である。 E−2 イタリヤ語 この実施例は前接形式を生成するのに使用さ
れた動詞を識別するために前接語の語尾を除去
するための、イタリヤ語に適用するプロセスか
ら成る。このプロセスは(1)前接形式及びアクセ
ントのつけ方の規則とは逆の語形論的な変換と
(2)妥当な動詞形を識別できる辞書の索引との組
合せである。第2図はこのプロセスの流れを示
す。 ステツプ120は前接語を除去するプロセス
で入力ワードを得るプロセスを示す。入力ワー
ドは
【表】
【表】
【表】 辞書索引の共通フオントを保証するため必要な
ら小文字に変換される。 ステツプ122で、入力ワードの語尾は規則
的且つ相補的な代名詞のリストについて検査さ
れる。もしワードが前接語の語尾を持たなけれ
ば、プロセスはワードが妥当な前接語の語尾を
もたないので終了する。 ステツプ124で、両義にとれるワードのリ
ストについてワードが検査される。これは、も
し前接語の代名詞を持つワードも妥当な動詞形
なら、前接形式もそのように認識されることを
保証する。両義にとれるワードのリストは両義
にとれるワード、前接語のない対応する動詞
形、及び動詞の見出し語形式(オプシヨン)か
ら成る。このリストとの一致により手順は終了
する。例えば、ワード“segnalo”は動詞
“segnalare”(対応する英語:“to signal”)の
第1人称単数現在形とするか又は“segnare”
(対応する英語:“to mark”の第3人称単数命
令形+前接語“lo”とすることがある。 ステツプ126は辞書索引プロセスである。
これはそのワードが動詞であるかどうかを決め
るため辞書中でそのワードの形式を見つける必
要がある。もしそれが動詞なら、それに対応す
る語形変化表(表3)がアクセスされ、それが
どの動詞形であるかを決める。語形変化表一致
手順は該ワード形式の語尾と語形変化表で指定
された語尾との一致を含む。一致する語尾は表
中の対応する文法形に関連する。この一致手順
により動詞形が前接語尾をとる動詞形と一致す
るかどうかを決めることが可能になる。もし一
致するなら、一致した語尾と不定形の語尾とを
置換えることにより動詞の見出し語形式(不定
形)が得られる。一致が成功すればこの手順は
終了する。 前接語の語尾はステツプ128で除去され、
ステツプ134での検査のため保管される。最
初に0にセツトされたカウンタはこの時点で増
分され、除去された前接語の語尾数をカウンタ
に記憶し、ステツプ132でカウンタを参照す
る。 ステツプ130は前接形成中に適用されるス
ペリングの変更修正を逆にする。即ち、もし除
去さ
【表】
【表】
【表】 たれた前接代名詞に先行する文字が“r”な
ら、動詞形は不定詞でなければならないので、
“e”又は“re”が付加される。そうではなく、
もし除去された前接語に先行する文字が前接語
の最初の文字と同じならこの重なつた文字も除
去される。これはたぶん最後のシラブルが強勢
を付けられた命令形の動詞であるからである。
“gli”及び“glie”については例外として考慮
される。 ステツプ132で、ステツプ128で増分さ
れたカウンタを検査し、ワードから除去された
前接語の語尾数を調べる。もし2つの語尾が除
去されていて、辞書アクセスがワードの残りの
部分を動詞として確認するのにこれまで失敗し
ているなら、前接語を識別せずにプロセスは終
了する。 ステツプ134は除去された語尾の相補形の
語尾であつたかどうかを検査する。その理由
は、もしそうなら、複数の前接代名詞の可能性
の検査を必要とするからである。しかしなが
ら、もし前接語の語尾が相補形ではなかつたな
ら、先行する辞書アクセスは動詞形を見つける
のが失敗したので、前接語の語尾を見つけるこ
となく出口へ出る。よつて、識別された前接語
の語尾は誤つた前接語である。 ステツプ136で、相補的な前接語を持たな
いワードの語尾が不規則代名詞のリストにより
検査される。もしなにも見つからなければ、プ
ロセスは終了する。そして前の辞書アクセスで
は動詞が見つからなかつたので、前に見つかつ
た相補形の前接語は誤つた前接語とみなされ
る。しかしながら、もし不規則代名詞が見つか
れば、処理はステツプ128に戻り、語尾が除
去され、スペリングが正規化され、再び辞書が
アクセスされる。 表4はこのプロセスの良好な実施例の擬似コ
ードを示す。この実施例は特定のステツプ列に
関連して説明されているが、これらのステツプ
の順序には任意な部分がある。前接語の除去及
びスペリング変更修正のような幾つかの動作の
組合せにより、プロセスを簡素化することが可
能である。
【表】
【表】
【表】 E−3 ポルトガル語 ポルトガル語の前接代名詞の構造 ポルトガル語の前接代名詞は、スペイン語又
はイタリヤ語の前接語とは異なり、動詞形の中
に埋め込むことができる。これらの前接語を形
成する規則を下記に示す。次いで、これらの情
報は前接代名詞が付加された動詞の最初の形式
を生成するため動詞形から前接語を除去するア
ルゴリズムの設計に用いられる。 表5は代名詞及び短縮形の分類を示す。 ブラジルのポルトガル語は省略記号による短
縮形を使用することができ、前接語が動詞、例
えば、dar−lhs'emosの未来形又は条件文形式
でそれ自身に埋め込まれるとき、−lhe−の代り
に特別な短縮形−lh'も使用することができる。 一般的な前接形成規則 どの動詞形も1〜3の前接語を持つことがで
きる。各々の前接語は動詞形にハイフンで分離
されて付加されるか埋め込まれる。もし前接語
が1つ使用されるなら、それはRP、PP、IO、
IP、PPIPC、
【表】
【表】 又はIOIPCのいずれかである。もし前接語が2
つ使用されるなら、それらはPP+IP、RP+
PP、RP+IO、RP+PPIPC、またはRP+
IOIPCのいずれかである。RP+IPの組合せは
決して使用されない。もし前接語が3つ使用さ
れるなら、RP+PP+IPだけが有効である。こ
の場合、PPは変換規則によつて“nos”または
“vos”である。 各前接代名詞はハイフンにより動詞形又は前
の代名詞から分離される。短縮形は、それ自身
による−lh'のほかは、2つの代名詞とみなさ
れ、前述の組合せで使用される。“l”または
“n”で始まるIP形式は下記の変換規則があて
はまる時にだけ使用される。 埋込み規則: 未来形及び仮定法の動詞形は、前接語を埋め
込む前に、語幹と語尾に分解され、語尾は前接
語の後に付加され、ハイフンによつて前接語か
ら分離される。動詞の語幹または前接語自身は
下記の規則により変換を受けることがある。 未来形の語尾は:−ei、−a´s、−a´、−emos、−
eis、−a〓である。 仮定法の語尾は:−ia、−ias、−ia、−i´amos、
−i´eis、−iamである。 例:dar−lhe−emos dar−lho−emos 動詞“fazer”、“dizer”及び“trazer”の未
来形及び仮定法は、それらがラテン語の“far
(e)”、“dir(e)”、“trar(e)”の短縮した不定形か
ら引出されるので不規則であるが、埋め込みの
規則は上記と同じであり、変換規則、例えば、
farei+o=>f a´−lo−eiにも従う。 変換規則: IP形式−lo、los、la及び−la、sは下記の
2つの条件に従つて形式−o、−os、−a、及び
−asの形式の変換としてのみ存在する: (1) 不定形(ないしは未来形、または不定形+
語尾から成る条件法)の動詞形が前接語−
o、−os、−a、または−asをとる必要がある
ときは、不定形の語幹の“r”は落され、前
接語はそれぞれ−lo、−los、−la、または−
lasに変換される。もし“r”に先行する母
音が“a”なら、それは“a´”に変り、もし
それが、“e”であるが、“o〓e”ではないか
ら、それは、“e^”に変り、そしてそれが
“o”なら、“o^”に変る。 (2) 形式が動詞“trazer”、“fazer”、“dizer”

及びそれらの派生語―“afazer”、
“satisfazer”、“bendizer”等のような―の
“z”で終る形式が前接語−o、−os、−a、
または−asをとる必要があるときは、“z”
は落され、前接語はそれぞれ−lo、−los、−
la、または−lasに変換される。もし“z”
に先行する母音が“a”なら、それは“a´”
に変り、もしそれが“e”なら、それは、
“e^”に変る。 (3) “s”で終る動詞形が前接語−o、−os、−
a、または−asをとる必要があるときは、
“s”は落され、前接語は−lo、−los、−laま
たは−lasにそれぞれ変換される。 (4) “mos”で終る第1人称複数の動詞形の最
後の“s”は、前接語“−nos”があとに続
くと削除し、“mo−nos”を生成する。この
規則は前接語を埋め込む未来及び条件法の形
式にあてはまらない。 (5) 代名詞“nos”および“vos”のあとに−
o、−os、−aまたは−asが続くことになつて
いるときは、“nos”または“vos”の“s”
は削除し、あとに続く前接語はそれぞれ−
lo、−los、−laないしは−lasに変換される。 これらの規則は前接語の語尾が埋め込まれる
とこきもあてはまる。 例:dar+o =>d a´−lo traz+o =>tr a´−lo p o〓es+o =>p o〓e−lo darei+o =>d a´−lo−ei daria+as =>d a´−las−ia viveriam+o =>viv e^−lo−iam trazes+nos+o =>trazes+no−lo trazem+nos+o =>trazem−vo−lo dispor+o =>dispo−o−lo IP形式−no、−nos、−na、および−nasはそ
れらが文字“m”で終る動詞形のあとか又は鼻
母音の組合せ“a〓o”および“o〓e”のあとに生
ずるときは形式−o、−os、−aおよび−asの変
換である。語尾−nosも人称代名詞であること
は両義にとられる可能性がある。 例:lavavam+os =>lavavam−nos trazem+o =>trazem−no 表6はポルトガル語の前接語処理の擬似コー
ドを示す。 第3図はポルトカル語の前接語を除去する手
順の流れを示す。 ステツプ220は前接語を除去するプロセス
において入力ワードを得るプロセスを示す。 ステツプ222で、ワードを検査し、それが
ハイフンを有することを確認する。もしワード
にハイフンがなければ、そのワードがポルトガ
ル語の前接語の語尾を持つことはありえず、プ
ロセスは終了する。 ステツプ224で、ワードの最後にハイフン
で結ばれたストリングを検査し、それが条件法
又は未来形の動詞の語尾であるかどうかを調べ
る。もしそうなら、その語尾は将来の使用のた
め保管される。
【表】
【表】 ステツプ226で、ワードの最初のストリン
グ(最初のハイフンまでの部分)が分離され
る。これは動詞の語幹、即ちヘツド(主要部)
に相当する。この動詞の語幹を検査して次の処
理を決める。 ステツプ228で、動詞の語幹の最後の文字
を検査し、それにアクセントが付いているかど
うかを調べる。もしアクセントが付いていれ
ば、次の処理がステツプ230で行われる。ア
クセントが付いていない動詞の語幹の処理はス
テツプ236で行われる。 ステツプ230は“z”プロセスを適用す
る。このプロセスはリストを索引することによ
りアクセントのある(“r”よりも“z”に復
元すべき)動詞の語幹を識別することを含む。
このリストには、“contrafaz”から来る
“contraf a´”のような項目及び、動詞
“fazer”、“dizer”及び“trazer”から引出さ
れる他の動詞形式から成る。“z”プロセスは
条件法又は未来形の語尾がないときにだけあて
はまる。 ステツプ232では、動詞の語幹に続く語尾
を検査して、それが“−la”、“−las”、“−lo”
または“−los”であるかどうかを調べる。も
しそうなら、アクセントのある文字をアクセン
トのない文字と取替え、動詞の語幹に“r”を
復元する。 ステツプ234では、未来形又は条件法の語
尾を、もしあれば、動詞の語幹に付加して該復
元された動詞を生成し、プロセスを終了する。 ステツプ236では、アクセントのない動詞
の語幹に“z”プロセスを適用する。このプロ
セスは、検査されるワードのリストが、
“contrafiz”から来る“contrafi”のようなア
クセントのない項目から成るほかは、ステツプ
230のプロセスと同じである。 ステツプ238は“mo”プロセスを適用す
る。このプロセスは“mo”で終る動詞の語幹
を検査し、“s”が削除されているかどうかを
調べる。もし動詞の語幹に続く前接語が“−
la”、“−las”、“−lo”、“−los”ないしは“−
nos”、又はもう1つの前接語があとに来る
“−no”であれば、動詞の語幹に、“s”が付
加され、プロセスは終了する。 ステツプ240では、動詞の語幹に続く前接
語を検査し、それが“−la”、“−las”、“−lo”
または“−los”であるかどうかを調べる。も
しそうなら、そして未来形又は条件法の語尾が
ないなら、動詞の語幹の“s”が復元され、プ
ロセスは終了する。 ステツプ242で、“r”+未来形又は条件法
の語尾を、もしあれば、動詞の語幹に付加して
その動詞を復元し、プロセスは終了する。 E−4 フランス語 フランス語の前接語 フランス語の前接語は動詞の末尾に付加さ
れ、ハイフンで分離される。前接語の存在は先
行する動詞のスペリング又はアクセントのつけ
方には影響しない。従つて、フランス語の前接
語は動詞をその最初の状態に復元するために識
別し除去するのが最も容易である。前接語のほ
かに、フランス語のワードの中には前接語から
識別しなければならない副詞の小辞を付加する
ものがある。 フランス語で使用される前接語の代名詞とし
て、ce、ces、cet、cette、elle、elles、en、
eux、il、ils、je、la、le、les、leur、lui、
me、moi、nous、on、te、toi、tu、vous及び
yがある。時には、代名詞は“a−t−il”の
ように、“音調のよい”小辞“t”により動詞
から分離される。“t”は音調をよくする目的
に使用されるだけであり、代名詞を表わすもの
ではない。代名詞“me”及び“te”は一定の
他の代名詞があとに来るときには短縮される。
従つて、“me”のあとに“en”が来るときは、
montrez−o'en”(英語の“show it to me”)
のように“m'en”に短縮される。これらの快
音調及び短縮の慣習のほかは、例えば、
“donnez−le−moi”のように、フランス語で
は動詞の末尾に少なくとも1つの前接代名詞を
付加し、ハイフンで分離することができる。 前接代名詞のほかに、フランス語のワードは
ハイフンで分離した副詞の小辞“di”及び“l
a´”をとることができる(例、“fille−ci”)。 F 発明の効果 前述にように、本発明によれば、スペイン語、
イタリヤ語、ポルトガル語、フランス語、及びそ
の他のロマンス語で動詞から前接語の語尾を除去
する装置が提供される。
【図面の簡単な説明】
第1図はスペイン語の動詞から前接語の語尾を
除去する方法の流れ図、第2図はイタリヤ語の動
詞から前接語の語尾を除去する方法の流れ図、第
3図はポルトガル語の動詞から前接語の語尾を除
去する方法の流れ図である。 22……前接語の語尾を検査するステツプ、2
7……前接語を除去するステツプ。

Claims (1)

  1. 【特許請求の範囲】 1 ホスト・データ・プロセツサと、該ホスト・
    データ・プロセツサに接続された記憶装置と、端
    末制御装置を介して該ホスト・データ・プロセツ
    サに接続された出力装置および入力装置とを備え
    たロマンス語処理装置において、 有効な1以上の前接語を、その各々の前接語の
    発生可能性を示す優先順位値とともに記憶する手
    段と、 ワードを入力する入力手段と、 上記入力ワードと上記1以上の前接語とを比較
    し、上記入力ワードの語尾の一致を判別する手段
    と、 上記語尾の前接語に該当する第1の優先順位値
    を記憶する手段と、 上記入力ワードから上記語尾を除去する手段
    と、 上記語尾を除去した残余ワードと上記1以上の
    前接語とを比較し、上記入力ワードの第2の前接
    語を識別する手段と、 上記第1の優先順位値と上記第2の前接語に対
    応する第2の優先順位値とを比較する手段と、 上記第2の優先順位値が上記第1の優先順位値
    よりも大でないとき、上記残余ワードを出力する
    手段と、 上記第2の優先順位値が上記第1の優先順位値
    よりも大であるとき、上記残余ワードから上記第
    2の前接語を除去し残りのワード部を出力する手
    段と、 を有することを特徴とするロマンス語処理装置。
JP63259630A 1987-11-18 1988-10-17 ロマンス語処理装置 Granted JPH01142866A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/122,305 US4852003A (en) 1987-11-18 1987-11-18 Method for removing enclitic endings from verbs in romance languages
US122305 1987-11-18

Publications (2)

Publication Number Publication Date
JPH01142866A JPH01142866A (ja) 1989-06-05
JPH0519186B2 true JPH0519186B2 (ja) 1993-03-16

Family

ID=22401926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63259630A Granted JPH01142866A (ja) 1987-11-18 1988-10-17 ロマンス語処理装置

Country Status (4)

Country Link
US (1) US4852003A (ja)
EP (1) EP0316743B1 (ja)
JP (1) JPH01142866A (ja)
DE (1) DE3853045T2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5410475A (en) * 1993-04-19 1995-04-25 Mead Data Central, Inc. Short case name generating method and apparatus
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5737617A (en) * 1995-06-06 1998-04-07 International Business Machines Corporation Method and system for English text analysis
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
US6341372B1 (en) * 1997-05-01 2002-01-22 William E. Datig Universal machine translator of arbitrary languages
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
JP3353651B2 (ja) * 1997-06-23 2002-12-03 松下電器産業株式会社 エージェントインタフェース装置
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
WO2013123384A2 (en) 2012-02-16 2013-08-22 Standingdeer John C Deconstruction and construction of words of a polysynthetic language for translation purposes

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5816371A (ja) * 1982-07-05 1983-01-31 Casio Comput Co Ltd 電子式翻訳機
JPS6165361A (ja) * 1984-09-05 1986-04-03 Sharp Corp 電子式仏単語辞書

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5853787B2 (ja) * 1979-08-30 1983-12-01 シャープ株式会社 電子辞典
JPS59868B2 (ja) * 1979-10-24 1984-01-09 シャープ株式会社 単語の基本形認識装置およびこれを用いた翻訳装置
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPS61214051A (ja) * 1985-03-20 1986-09-22 Brother Ind Ltd 電子辞書
US4758955A (en) * 1985-07-19 1988-07-19 Carson Chen Hand-held spelling checker and method for reducing redundant information in the storage of textural material
US4760528A (en) * 1985-09-18 1988-07-26 Levin Leonid D Method for entering text using abbreviated word forms
JPS62251876A (ja) * 1986-04-18 1987-11-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 言語処理システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5816371A (ja) * 1982-07-05 1983-01-31 Casio Comput Co Ltd 電子式翻訳機
JPS6165361A (ja) * 1984-09-05 1986-04-03 Sharp Corp 電子式仏単語辞書

Also Published As

Publication number Publication date
EP0316743B1 (en) 1995-02-15
US4852003A (en) 1989-07-25
JPH01142866A (ja) 1989-06-05
EP0316743A2 (en) 1989-05-24
DE3853045D1 (de) 1995-03-23
DE3853045T2 (de) 1995-08-10
EP0316743A3 (en) 1991-02-06

Similar Documents

Publication Publication Date Title
US8788262B2 (en) Incorporation of variables into textual content
EP0907924B1 (en) Identification of words in japanese text by a computer system
US20030233235A1 (en) System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
JPH07325829A (ja) 文法チェックシステム
Nicolai et al. Leveraging Inflection Tables for Stemming and Lemmatization.
JPH0519186B2 (ja)
Aliwy Arabic morphosyntactic raw text part of speech tagging system
US7328404B2 (en) Method for predicting the readings of japanese ideographs
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Tufiş et al. DIAC+: A professional diacritics recovering system
Argaw et al. An Amharic stemmer: Reducing words to their citation forms
Ganfure et al. Design and implementation of morphology based spell checker
Hamdi et al. Automatically building a Tunisian lexicon for deverbal nouns
US6385569B1 (en) Translator, translating method and recording medium having translating program recorded thereon
JP2002503849A (ja) 漢字文における単語区分方法
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
KR100650393B1 (ko) 한국어 발음 기호열 생성 시스템 및 그 방법 및 상기방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을수 있는 기록매체
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
Cheng et al. MAG-Tagalog: A rule-based Tagalog morphological analyzer and generator
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
McNeil Tunisian Arabic morphological parser
KR102604758B1 (ko) 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법
Bonus The Tagalog Stemming Algorithms (TagSA)
Tufiş et al. Diacritics restoration in romanian texts
Tolentino et al. An Exhaustive Rule-Based Affix Extraction for Stemming in Tagalog