JPH04282764A - 非文訳出装置 - Google Patents

非文訳出装置

Info

Publication number
JPH04282764A
JPH04282764A JP3070487A JP7048791A JPH04282764A JP H04282764 A JPH04282764 A JP H04282764A JP 3070487 A JP3070487 A JP 3070487A JP 7048791 A JP7048791 A JP 7048791A JP H04282764 A JPH04282764 A JP H04282764A
Authority
JP
Japan
Prior art keywords
sentence
translation
input
character string
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3070487A
Other languages
English (en)
Inventor
Akio Matsubara
章雄 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3070487A priority Critical patent/JPH04282764A/ja
Publication of JPH04282764A publication Critical patent/JPH04282764A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、非文訳出装置に関し、より詳細
には、入力文として非文を許容する機械翻訳装置におけ
る非文訳出装置に関する。例えば、自然言語処理装置に
適用されるものである。
【0002】
【従来技術】機械翻訳技術の発達に伴い、翻訳業務を少
しづつ機械翻訳(MT)が肩変わりするようになってき
た。その中でもマニュアルや技術文書など簡潔に書かれ
た文書に対してMTの適応性が高いことがわかってきた
。こうしたマニュアルや技術文書の請負翻訳は一部の文
だけを翻訳するのではなく、一冊すべてを最初から最後
まで翻訳するのが一般的業務形態である。ところが、こ
うしたマニュアルや技術文書では特に、版権表示、部品
リスト、仕様一覧など、一覧表やリストなどの表示形式
になっていて、文の形にはなっていない部分がかなりあ
る。しかも、これらの表示は、原文に対する予備知識が
ある者なら原非文のまま、あるいは非文を構成する形態
素の訳語のみを置換し、文生成をしないで訳出された方
がわかり易く、また一般的である。
【0003】一方、機械翻訳装置では予め完全な文が入
力されることを前提として構築されているため、こうし
た非文が入力されたときには、形態素解析フェーズは従
来通り処理できたとしても、次の構文解析フェーズでル
ート(根)が1つに定まる完全な構文木を1つも作成で
きなくなってしまい、解析失敗に陥る。そのため、当然
、訳文生成フェーズも失敗し、訳文が作成できなくなっ
てしまう。
【0004】図4〜図6は、解析失敗の例を示す図であ
る。図4は機械翻訳装置Aによる翻訳結果で「‖」が解
析失敗マークである。図5は機械翻訳装置Bによる翻訳
結果で、「◇」と「‖」が解析失敗マークである。図6
は、機械翻訳装置Cによる翻訳結果で「※」と「|」が
解析失敗マークである。
【0005】図4〜図6において、文番号1を見ても明
らかなように、各形態素およびそれらで構成される非文
の意図する内容は、人間が見ると原文に対する予備知識
があるためか、同様な表現を読みなれているためか的確
に理解できるにもかかわらず、機械翻訳装置で処理をす
ると、的確な訳文が全く生成されてこないという問題点
がある。
【0006】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、形態素解析フェーズの後半において、その文が
完全な文か非文かを動詞成分の有無によって判断し、動
詞成分があるときは、従来通り次に構文解析フェーズを
行い、また、動詞成分が一つもないときには、その文を
非文と判断し、次の構文解析フェーズをバイパスし、訳
文生成フェーズで適切な訳を生成するか、または訳文生
成しないで、構文解析できないことをメッセージや記号
で表示することにより、ユーザが行なう後処理を簡単に
するようにした非文訳出装置を提供することを目的とし
てなされたものである。
【0007】
【構成】本発明は、上記目的を達成するために、(1)
文字列を構成するファイルを入力する入力手段と、該入
力手段により入力された一連の文字列から文末記号を認
識することによる文末認定手段と、入力された文を構成
する文字列を、予め定められた単語、記号等(形態素)
に分離する形態素分離手段と、前記形態素分離手段で定
められた単語、記号分類に従って、品詞分類、訳語、活
用型などが各見出し語毎にあらかじめ蓄積されている辞
書情報データベースと、該辞書情報データベースから、
前記形態素分離手段で分離された各形態素の見出し語と
一致する情報を抽出する抽出手段と、該抽出手段により
抽出されたデータの品詞の中に動詞が存在するかどうか
を判定する判定手段と、処理結果を表示する表示手段と
を有し、非文(文でない文字列)が入力されたときに、
該非文の中に動詞成分が全く含まれていないときに、そ
の文を非文として抽出すること、或いは、(2)文字列
を構成するファイルを入力する入力手段と、該入力手段
により入力された文字列から非文部分を抽出する非文抽
出手段と、訳文を生成する訳文生成手段と、翻訳結果を
表示する表示手段とを有し、非文が原文として入力され
たときに、該非文の訳として原文のままの文字列を出力
すること、更には、(3)前記抽出された非文に対する
訳として、解析できないことを示す記号またはメッセー
ジのみを出力すること、更には、(4)前記抽出された
非文に対する訳として、各単語を原語と訳語のペアで羅
列すること、更には、(5)自立語のみの原語と訳語の
ペアを羅列することを特徴としたものである。
【0008】図1は、本発明による非文訳出装置の非文
抽出部の一実施例(請求項1)を説明するための構成図
で、図中、1は文字列入力手段、2は形態素分離手段、
3は文末認定手段、4は辞書情報データベース(DB)
、5は抽出手段、6は動詞存在判定手段、7は翻訳結果
表示手段である。本発明は、文認定フェーズで1文と判
断された形態素列の範囲において動詞成分をもつ形態素
が1つも発見できない文を非文として訳出する装置であ
り、その構成を図1に、また説明を行う別文として図4
〜図6における文番号1の英文を用いて以下説明する。
【0009】なお、本発明において非文とは、文認定フ
ェーズで1文と判断された形態素列の範囲内において、
動詞成分をもつ形態素が1つも発見できない文をいう。 図4〜図6に示す文番号1だけがこれに該当する。動詞
は不定詞、現在分詞、過去分詞、動名詞として文に現れ
ることもあり、文番号2〜7はこれらの例であるが、こ
れらは本発明の対象としない。これらは、別の方法によ
って適切な機械翻訳結果を得ることが可能である。例え
ば、文番号4は、文番号5(=4′)のように一定のア
ルゴリズムで原文に動詞を補うことにより容易に完全な
文とすることができ、適切な機械翻訳結果を得ることが
可能である。
【0010】文字列入力手段1は、K/Bやフロッピー
、通信など、原文として文字列を入力する機能を有する
。形態素分離手段2は、文字列入力手段1で入力された
文字列から予め定められたルール(空白記号やハイフネ
ーションなど)に従って、英単語や記号等(形態素)に
分離する機能を有する。文末認定手段3は、「.」「?
」「!」「;」「:」「↓」(キャリッジリターン)を
文末認定記号とし、形態素分離手段2の結果得られた形
態素を前から順に検索し、文末認定記号と一致したとこ
ろまでを一文の範囲として認定する機能を有する。辞書
情報データベース(DB)4は、英単語を見出し語とし
てもち、その訳語、品詞分類、活用型などを情報として
有する。
【0011】抽出手段5は文末認定手段3で判定された
1文の範囲において、形態素分離手段2で分離された英
単語、記号のうち、英単語のみについて、その英単語を
見出し語として辞書情報データベース4の辞書情報から
情報を抽出する抽出手段である。動詞存在判定手段6は
抽出手段5の結果抽出されたデータの品詞成分において
動詞が存在するかどうかを判定する判定手段である。さ
らに翻訳結果表示手段7は以上の処理結果を表示する表
示手段である。
【0012】例文は、マニュアル、雑誌などに頻出する
表現であるが、まず文字列入力手段1から文字列が入力
され、その結果は
【0013】
【表1】
【0014】となる。次にこの形態素分離手段で分離さ
れた結果
【0015】
【表2】
【0016】となる。次に文末認定手段3による文末認
定記号(「.」,「↓」)により1文の範囲を決定する
【0017】
【表3】
【0018】次に辞書情報データベース(DB)4から
、前記文末認定手段3で示した1文の範囲内の記号以外
の形態素について抽出手段5を用いて各英単語の情報を
抽出する。
【0019】
【表4】
【0020】動詞存在判定手段6では表1における品詞
成分を見て、その文の中には動詞がないことからこの文
は非文であると判定し、翻訳結果表示手段7でその結果
を表示し、以降のフェーズへ非文であることを伝達する
。以上の説明は英文を具体例として示したが、同様なル
ールにより形態素分離、文認定できる言語であれば、独
語、仏語など言語を問わず、本発明の適用が可能である
【0021】図2は、本発明による非文訳出装置の一実
施例(請求項2〜5)を示す図で、図中、11は文字列
入力手段、12は非文抽出手段、13は訳文生成手段、
14は翻訳結果表示手段である。図2の実線部分は通常
の文の翻訳を行う機械翻訳装置と比較し、この実施例の
構成要件を示す。構文変換方式を採用する一般の機械翻
訳装置は本発明の構成要件に加えて破線で囲まれた構文
解析と変換フェーズをもっている。
【0022】文字列入力手段11は、K/Bやフロッピ
ー、通信なで、原文として文字列を入力する機能を有す
る。非文抽出手段12は、原文から正しい文と非文とを
分離抽出する機能を有する。訳文生成手段13は、通常
、正しい文が入力された時は構文解析と変換フェーズで
作成された構文木に従い訳文を生成する機能をもつが、
非文抽出手段12から非文が抽出されたときは、その結
果が直接訳文生成手段13に入力されるため構文木が存
在せず、このときはいくつかのパターンの訳を生成する
機能を有する。さらに翻訳結果表示手段14は以上の処
理結果を表示する機能を有する。
【0023】例文として図1におけるものと同じ例文を
用いる。訳文生成手段13には、
【0024】
【表5】
【0025】■抽出された英単語:表4■構文木:なし の3つの情報が入力される。そして、訳文生成手段は図
3に示すような4通りの訳文のうちいずれか1つを訳文
として出力し、翻訳結果表示手段で表示する。
【0026】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1の非文訳出装置においては、機械翻訳装
置における形態素解析、構文解析、変換、訳文生成の全
工程のうち、スタート段階の形態素解析において、入力
された文字列の中から、非文の部分を自動的に抽出して
いるので、構文解析部には予め文(単一のルートをもつ
構文木)が生成できるとわかっている文のみを解析させ
ることができるため、構文解析部の負担を軽減し、正確
な解析をすることができる。また、解析失敗する回数を
減少することができる。さらに非文に対しては、構文解
析部をバイパスするため、原文入力から結果表示までの
時間を大幅に短縮できる。 (2)請求項2では、原文をそのまま訳文としているの
で、無理に訳出するよりもむしろ原文のままで十分意図
が通じる。あるいはこのままでかまわないというユーザ
に対して、既に訳文が入力されており、ユーザは読んで
、このままで良いかどうか判定するだけで良いため、訳
文作成が速い。また、その後自由編集を行なうとしても
、原文が既に訳文に入力されているため、自由編集の負
担が軽い。 (3)請求項3では、解析できないことを示す記号また
は定型メッセージのみが出力されているので、自由編集
を行なうべき位置をエディタやWPが持つ文字列検索機
能を使い、迅速にかつとりこぼしなく発見することがで
きる。 (4)請求項4では、原語と訳語のペアで訳文が表示さ
れているので、ユーザが自由編集をする時には、既に辞
書が引かれて、各単語の意味がわかっているため、的確
かつ速く訳文を自由編集することができる。 (5)請求項5では、自立語のみの原語を訳語のペアと
羅列しているため、特に長文のときに訳文を作る上で辞
書引きされた原語と訳語のペアが多くなりすぎて、文意
を把握するのにユーザがとまどうことを防ぎ、的確かつ
速く訳文を作成することができる。
【図面の簡単な説明】
【図1】  本発明による非文訳出装置の非文抽出部の
一実施例を説明するための構成図である。
【図2】  本発明による非文訳出装置の一実施例を示
す図である。
【図3】  非文訳出結果を示す図である。
【図4】  機械翻訳装置Aによる翻訳結果を示す図で
ある。
【図5】  機械翻訳装置Bによる翻訳結果を示す図で
ある。
【図6】  機械翻訳装置Cによる翻訳結果を示す図で
ある。
【符号の説明】
1…文字列入力手段、2…形態素分離手段、3…文末認
定手段、4…辞書情報データベース(DB)、5…抽出
手段、6…動詞存在判定手段、7…翻訳結果表示手段。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】  文字列を構成するファイルを入力する
    入力手段と、該入力手段により入力された一連の文字列
    から文末記号を認識することによる文末認定手段と、入
    力された文を構成する文字列を、予め定められた形態素
    に分離する形態素分離手段と、前記形態素分離手段で定
    められた単語、記号分類に従って、品詞分類、訳語、活
    用型などが各見出し語毎にあらかじめ蓄積されている辞
    書情報データベースと、該辞書情報データベースから、
    前記形態素分離手段で分離された各形態素の見出し語と
    一致する情報を抽出する抽出手段と、該抽出手段により
    抽出されたデータの品詞の中に動詞が存在するかどうか
    を判定する判定手段と、処理結果を表示する表示手段と
    を有し、非文が入力されたときに、該非文の中に動詞成
    分が全く含まれていないときに、その文を非文として抽
    出することを特徴とする非文訳出装置。
  2. 【請求項2】  文字列を構成するファイルを入力する
    入力手段と、該入力手段により入力された文字列から非
    文部分を抽出する非文抽出手段と、訳文を生成する訳文
    生成手段と、翻訳結果を表示する表示手段とを有し、非
    文が原文として入力されたときに、該非文の訳として原
    文のままの文字列を出力することを特徴とする非文訳出
    装置。
  3. 【請求項3】  前記抽出された非文に対する訳として
    、解析できないことを示す記号またはメッセージのみを
    出力することを特徴とする請求項1記載の非文訳出装置
  4. 【請求項4】  前記抽出された非文に対する訳として
    、各単語を原語と訳語のペアで羅列することを特徴とす
    る請求項1記載の非文訳出装置。
  5. 【請求項5】  自立語のみの原語と訳語のペアを羅列
    することを特徴とする請求項1記載の非文訳出装置。
JP3070487A 1991-03-11 1991-03-11 非文訳出装置 Pending JPH04282764A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3070487A JPH04282764A (ja) 1991-03-11 1991-03-11 非文訳出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3070487A JPH04282764A (ja) 1991-03-11 1991-03-11 非文訳出装置

Publications (1)

Publication Number Publication Date
JPH04282764A true JPH04282764A (ja) 1992-10-07

Family

ID=13432929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3070487A Pending JPH04282764A (ja) 1991-03-11 1991-03-11 非文訳出装置

Country Status (1)

Country Link
JP (1) JPH04282764A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316761A (ja) * 2006-05-23 2007-12-06 Toshiba Corp データ処理装置
JP2014222401A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 発話文抽出装置、方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316761A (ja) * 2006-05-23 2007-12-06 Toshiba Corp データ処理装置
JP2014222401A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 発話文抽出装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
JPH02112068A (ja) テキスト簡略表示方式
JPH04282764A (ja) 非文訳出装置
JP2626722B2 (ja) 日本語生成装置
JP2688020B2 (ja) 派生語処理方式
KR100434526B1 (ko) 문맥정보및지역적문서형태를이용한문장추출방법
JP2000250913A (ja) 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JP2521435B2 (ja) 日本語生成装置
JP2723886B2 (ja) 機械翻訳装置及びその翻訳規則作成方法
KR100204068B1 (ko) 개념기반 다국어 번역시스템의 문법 자동수정 방법
JP2817497B2 (ja) 辞書編集装置
Fahmy et al. Towards Structuring an Arabic-English Machine-Readable Dictionary Using Parsing Expression Grammars
Tanev et al. LINGUA: a robust architecture for text processing and anaphora resolution in Bulgarian
JP2004310170A (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JP2994539B2 (ja) 機械翻訳装置
JP2947554B2 (ja) 機械翻訳装置
Skadiņa et al. Comprehension Assistant for Languages of Baltic States
JPH0332105B2 (ja)
JPH1063664A (ja) 自然言語の翻訳方法及び装置
JPS6389975A (ja) 言語解析装置
JP2002032369A (ja) 辞書作成装置
JPS63180172A (ja) 機械翻訳装置
JPH05225232A (ja) テキスト自動前編集装置
JP2001202365A (ja) 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体