JPH0477962A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH0477962A
JPH0477962A JP2192512A JP19251290A JPH0477962A JP H0477962 A JPH0477962 A JP H0477962A JP 2192512 A JP2192512 A JP 2192512A JP 19251290 A JP19251290 A JP 19251290A JP H0477962 A JPH0477962 A JP H0477962A
Authority
JP
Japan
Prior art keywords
construction
unit
sentence
units
construction analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2192512A
Other languages
English (en)
Inventor
Naoyuki Yoda
直之 余田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2192512A priority Critical patent/JPH0477962A/ja
Publication of JPH0477962A publication Critical patent/JPH0477962A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 C産業上の利用分野〕 本発明は、自然言語で書かれた原文を単文等の所定単位
で切り出して構文解析し、目的言語の文章に翻訳する機
械翻訳装置に関する。
〔従来の技術及び発明が解決しようとする課題〕自然言
語で書かれた原文を目的言語の文章に翻訳する場合、原
文を単語等の形態素に分解し、形態素間の係り受け、各
形態素の品詞等を正しく判定して正しい翻訳を得るには
原文を適切に構文解析しなければならない。
ところが、文頭が大文字で始まる英語等の場合、各語が
大文字で始まるタイトル文等が含まれている場合、構文
解析の単位となる単文等の切り出しを誤ってしまい、非
文を文と判定してしまう危険性がある。
このような欠点を解消すべく、大文字で始まる形態素に
注目し、大文字で始まる形態素の後にスペースが続き、
しかもピリオド、疑問符が存在しない場合、この形態素
までの大文字で始まる形態素群をタイトル文とみなすべ
くなした機械翻訳装置が考案されている(特開平1−1
66258号)。
しかし、文章においては、構文解析の単位となる単文が
文章内容において果たす役割はタイトル文を始めとして
、例えばトビツク文、数式を含む平除文等多様であって
、多くの場合その表記の形態が独特である。従って、上
述のように形態素間のスペース、ピリオド、疑問符の有
無といったわずかの判定条件で構文解析の単位を決定す
る従来の機械翻訳装置では、行の後半部にスペースを設
けて表記する数式を含む平除文等が混在する文から適切
な構文解析単位の単文を切り出すことが困難であるとい
う問題がある。
また、文の内容上の区分を多く設ければ、切り出した単
文を翻訳する際に適切な訳語を選択することができるが
、従来装置ではこの区分の数が少ないという問題がある
本発明はこのような問題点を解決するためになされたも
のであって、構文解析の単位を多くの判定条件に基づい
て切り出し、切り出した各構文解析単位に構文解析単位
の意味上の特性データを与えることにより、構文解析単
位を適切に切り出せ、高精度な構文解析が可能な機械翻
訳装置の提供を目的とする。
〔課題を解決するための手段〕
本発明の機械翻訳装置は、所定量の語を1単位として原
文を構文解析して目的言語の文章に翻訳する機械翻訳装
置において、構文解析単位とする文の内容上の特性と該
単位の形態の特徴とを対応付けて記憶しておく手段と、
記憶してある形態の特徴に従って原文を構文解析の単位
に分割する手段と、分割した各構文解析単位の形態の特
徴に対応する内容上の特性に基づいて原文を構文解析す
る手段とを備えたことを特徴とする。
〔作用〕
本発明の機械翻訳装置は、予め記憶してある構文解析単
位の形態の特徴に基づいて原文を構文解析単位に分割し
、分割した各単位に対応する内容上の特性に基づいて原
文を構文解析する。さらに、構文解析した原文を目的言
語の文章に翻訳する。
〔実施例〕
以下、本発明をその実施例を示す図面に基づいて説明す
る。
第1図は本発明に係る機械翻訳装置の主要部である構文
解析に関わる部位の構成を示すブロック図である。図中
1は原文を入力する入力部であって、入力した原文を1
行ずつ構文解析単位認識部2に与える。構文解析単位認
識部2は、1行又は複数行からなる構文解析単位の形態
の条件とその構文上の特性により仕分けされた種別とを
対応付けて記憶してある構文解析単位認識条件テーブル
3及び機能語を記憶してある機能語りスト4を参照して
原文の各構文解析単位の種別を判定し、各構文解析単位
の種別データを構文解析部5に送る。
構文解析部5は原言語の文法等を記憶してある構文解析
辞書6及び与えられた各構文解析単位の種別データに基
づいて構文を決定する。
第2図は、英文を構文解析する場合における構文解析単
位認識条件テーブル3の記憶状態を示す概念図である。
構文解析単位認識条件テーブル3はテーブルAとテーブ
ルBとからなり、テーブルA2テーブルBの順に適用さ
れる。各テーブルの条件は以下のことを表す、なお、図
中、Xは任意のアルファベットの大文字、Xは任意のア
ルファベットの小文字、Nは任意の数字、↓は改行、S
は最初の単語が大文字で始まる単語列からなる行、Sは
最初の単語が小文字で始まる単語列からなる行、LEは
数式・論理式を含む文字列行を示す。
各テーブルに記述されている条件はその適用範囲が広い
ものほど適用の優先順位が高いものとする。
また、機能語りスト4には前置詞が記憶されている。
条件A1は、大文字で始まりピリオドで終わる4文字以
内の単語の次にスペースを挟んで小文字で始まる単語が
続く場合、このピリオドは省略のピリオドであることを
表す。条件A2は、ピリオドで終わる任意の単語の次に
スペース2文字分を挾んで大文字で始まる単語が続く場
合、このピリオドは文の終端のピリオドであることを表
す。条件B1は、語頭が大文字である語(但し、機能語
は小文字で始まってもよい)のみによって成り立ってい
る行はタイトル文であることを表す0条件B2は、数字
とピリオドで始まり、スペースを挟んで大文字で始まる
単語がある行に空行が続く場合はトビツク文であること
を表す0条件B3は、最初の単語が大文字で始まる単語
である単語列の行(S)と、最初の単語が小文字で始ま
る単語であるとともに最後の単語がピリオドで終わる単
語からなる単語列の行(s)との間の行が、数式又は論
理式表現を含む行である場合は、S −sまでを1文と
みなすことを表す。
次に、構文解析の手順を、第3図の画面表示例に示す英
文を例にして説明する。第4図は原文の各構文解析単位
とその種別データとして構文解析単位認識部2から構文
解析部5へ送られるデータの状態を示す概念図である。
a行″The Tragedyof King Hog
”が入力部lから構文解析単位認識部2へ送られる。構
文解析単位認識部2は、a行を文字単位で、構文解析単
位認識条件テーブル3の各条件と比較するが、a行には
終端記号が含まれていないので、テーブルAを適用せず
、テーブルBを適用する。構文解析単位認識部2は条件
B1を適用してa行の各単語が大文字で始まっているか
否かを判定し、また小文字で始まっている場合には機能
語りスト4を参照して機能語であるか否かを判定する。
その結果、“of”は小文字で始まっているが機能語で
あるのでa行は条件B1を満たしており、タイトル文と
判定して第4図αに示すデータを構文解析部5へ送る。
b行もa行と同様の手順を経てタイトル文であると判定
し、第4図βに示すデータを構文解析部5へ送る。
e行“1. Journey to the West
”は、ピリオドが数字に続いているのでテーブルAは適
用せず、テーブルBを適用するが数字が含まれているの
で条件B1は適用しない。構文解析単位認識部2は、複
数行を判定基準とする条件B2.B3を適用するため入
力部1から次のf行を入力しef行を1単位として判定
する。条件AI、A2.B1は前述と同様の理由で適用
しない。また、条件B3は判定基準として3行以上を必
要とするので適用しない0条件B2をef行に適用した
結果、条件を満たすのでe行をトビツク文と判定し、第
4図Tに示すデータを構文解析部5へ送る。
h行 ’Goldw+an  Bros、  is  
a  large  trading  compan
y。
The”に含まれる2個のピリオドの内、第1のピリオ
ドに対して条件^1を適用して文の終端でないと判定し
、第2のピリオドに対して条件A2を適用し、h行の一
部”Goldn+an Bros、 is a lar
ge tradingco+++pany、”を平除文
と判定する。その結果、第4図δに示すデータを構文解
析部5へ送る。
h行の残り“The”にテーブルA、Bを適用するが、
いずれの条件も満たさないので、入力部1から新しい行
を順次入力して判定を繰り返す。その結果、0行までの
“The median−(中略) ・=thresh
oldvalue、“が条件B3を満たしているので、
これらを数式・論理式が間に入る文と判定し、第4図ε
に示すデータを構文解析部5へ送る。
以上のようにして、構文解析単位の構文上の種別データ
を送られた構文解析部5は、これらの種別データに基づ
いて原文の構文を解析する。
なお、本実施例では英文を構文解析する場合について説
明したが、英文に限らず他の自然言語を構文解析する場
合にも適用可能である。
〔発明の効果〕
以上のように、本発明の機械翻訳装置は原文から構文解
析単位を切り出す際の判定条件を広範囲に多数設け、適
切な構文解析単位の切り出しを可能とし、また構文解析
に際して、各構文解析単位の文の内容における特性デー
タを与えることにより構文解析の精度が高いという優れ
た効果を奏する。
【図面の簡単な説明】
第1図は本発明に係る機械翻訳装置の主要部の構成を示
すブロック図、第2図は構文解析単位認識条件テーブル
の記憶状態を示す概念図、第3図は入力文の画面表示例
を示す図、第4図は構文判定結果のデータの状態を示す
概念図である。 1・・・入力部 2・・・構文解析単位認識部3・・・
構文解析単位認識条件テーブル 4・・・機能語りスト
 5・・・構文解析部 6・・・構文解析辞書時 許 
出願人  三洋電機株式会社 代理人 弁理士  河 野  登 夫

Claims (1)

    【特許請求の範囲】
  1. (1)所定量の語を1単位として原文を構文解析して目
    的言語の文章に翻訳する機械翻訳装置において、 構文解析単位とする文の内容上の特性と該単位の形態の
    特徴とを対応付けて記憶しておく手段と、 記憶してある形態の特徴に従って原文を構文解析の単位
    に分割する手段と、 分割した各構文解析単位の形態の特徴に対応する内容上
    の特性に基づいて原文を構文解析する手段と を備えたことを特徴とする機械翻訳装置。
JP2192512A 1990-07-19 1990-07-19 機械翻訳装置 Pending JPH0477962A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2192512A JPH0477962A (ja) 1990-07-19 1990-07-19 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2192512A JPH0477962A (ja) 1990-07-19 1990-07-19 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH0477962A true JPH0477962A (ja) 1992-03-12

Family

ID=16292522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2192512A Pending JPH0477962A (ja) 1990-07-19 1990-07-19 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH0477962A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757653B2 (en) * 2000-06-30 2004-06-29 Nokia Mobile Phones, Ltd. Reassembling speech sentence fragments using associated phonetic property

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757653B2 (en) * 2000-06-30 2004-06-29 Nokia Mobile Phones, Ltd. Reassembling speech sentence fragments using associated phonetic property

Similar Documents

Publication Publication Date Title
Woliński Morfeusz—a practical tool for the morphological analysis of Polish
US6539348B1 (en) Systems and methods for parsing a natural language sentence
EP0907924B1 (en) Identification of words in japanese text by a computer system
US6760695B1 (en) Automated natural language processing
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
JPH0411906B2 (ja)
Cherry Writing tools
US7328404B2 (en) Method for predicting the readings of japanese ideographs
Kaalep An Estonian morphological analyser and the impact of a corpus on its development
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
Chungku et al. Building NLP resources for Dzongkha: a tagset and a tagged corpus
WO1997040453A1 (en) Automated natural language processing
Corston-Oliver et al. Normalizing German and English inflectional morphology to improve statistical word alignment
Buckwalter Issues in Arabic morphological analysis
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
KR101052004B1 (ko) 번역서비스 제공방법 및 그 시스템
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
JPH0477962A (ja) 機械翻訳装置
Güngör Lexical and morphological statistics for Turkish
Mahlow et al. Linguistic support for revising and editing
KR100434526B1 (ko) 문맥정보및지역적문서형태를이용한문장추출방법
Petran Studies for Segmentation of Historical Texts: Sentences or Chunks?
El-Kahlout et al. Initial explorations in two-phase Turkish dependency parsing by incorporating constituents
Thurmair Linguistic problems in multilingual morphological decomposition