JPH05282361A - データベース作成支援装置及び機械翻訳装置 - Google Patents

データベース作成支援装置及び機械翻訳装置

Info

Publication number
JPH05282361A
JPH05282361A JP4074721A JP7472192A JPH05282361A JP H05282361 A JPH05282361 A JP H05282361A JP 4074721 A JP4074721 A JP 4074721A JP 7472192 A JP7472192 A JP 7472192A JP H05282361 A JPH05282361 A JP H05282361A
Authority
JP
Japan
Prior art keywords
language
sentence
translation
dictionary
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4074721A
Other languages
English (en)
Inventor
Miwako Shimazu
美和子 島津
Hideki Hirakawa
秀樹 平川
Kimito Takeda
公人 武田
Hisahiro Adachi
久博 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4074721A priority Critical patent/JPH05282361A/ja
Publication of JPH05282361A publication Critical patent/JPH05282361A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本発明は簡単に操作で、ある文書とある文書
の対応関係を抽出し、見やすく表示し、この結果を用い
てデータベースを作成することを目的とする。 【構成】 少なくとも形態素解析手段と辞書を備え、文
書同士の関係を抽出・表示し、そこで得られた情報を利
用してデータベースをほぼ自動的に作成し、必要に応じ
て人間の修正も可能とする。 【効果】 文書修正・編集の労力が削減され、また、翻
訳作業を代表とする言語処理が正確に行えるようにな
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然言語処理技術に関
わり、特に1つまたは複数の言語を扱う文章を解析の対
象とする技術、例えば自動翻訳や知識データベース作
成、辞書構築に好適な、データベース作成支援装置及び
機械翻訳装置に関する。
【0002】
【従来の技術】近年、第1言語を第2言語に翻訳する機
械翻訳装置の開発が進められている。従来における翻訳
編集方式としては、例えば特願昭57-205663 号公報に記
載されているように、既にシステム内で対応関係のとれ
ている2か国語エディタにおいて、単語、句、節、文の
対応を自動的にとるというものはあった。しかし、シス
テム内で対応関係のとれていないものについては単語、
句、節、文の対応を自動的にとることはできなかった。
【0003】また、技術文献やマニュアル文書などの産
業翻訳では、翻訳者が絶対的に不足していることが大き
な一因となり、近年企業の翻訳部のみならず大学などの
研究機関においても機械翻訳の利用がますます盛んにな
ってきている。ただし、現在の自然言語処理技術レベル
では、人間による翻訳とは異なり、万能な翻訳はできな
い。つまり、機械翻訳用にリライトされていない生の原
文をそのまま機械翻訳に用いたり、機械翻訳の出力結果
を正式の文書としてそのまま用いることはできない。し
たがって、前編集・後編集と呼ばれる手直し・修正が必
須となっている。原文、翻訳結果、目標文を照合し、目
標文と翻訳結果の違いを抽出し、その訳出表現を反映さ
せるといった一連の作業は今のところ人間の手で行われ
ている。これにあたっては、特に日本語と英語のように
語順など基本的な言語構造が異なる言語間においては多
大な労力と時間を要している。また、最近の傾向とし
て、長尾のtranslation by analogyの提案以来、データ
ベース中の翻訳例を積極的に利用することによって、機
械翻訳を実現しようという、実例に基づく翻訳(exampl
e-based translation )が注目されている。だが、これ
を支援するシステムはまだ具体化には至っていない。
【0004】一方、政治・経済・工学などの分野では技
術の進歩や時代の流れに即応しているため、日々新語が
作られている。このため、市販の辞書はもちろんのこ
と、年鑑でもその訳語に対応できないことが多い。人
名、地名など固有名詞に関しても同様のことがいえる。
さらに問題なのは、このように体系的な辞書がない分野
において、大量でしかも即時の翻訳が要求されている。
ニュース英語、時事英語などでは個々の翻訳家が国内の
新聞と外信を照らし合わせ、日本語の新語とその訳語を
探しだし、それらを書き溜めておき、後の翻訳に利用す
るという原始的な方法をとっている。例えば、人名のシ
ュワルナゼはShevardnadzeというように個々人の知識と
して蓄えておく。以上のことは人間が行っているため、
すべての単語を網羅することは困難であり、漏れが出て
くる可能性がある。また、このような分野に限らず、一
般的に日本語−他言語の辞書の訳語は不適であることが
プロの翻訳家からしばしば指摘される。このため、原文
から適切な表現を借り、自分で表現集を作る作業は重要
な翻訳作業の一部となっている。このように、各々の翻
訳家が自分のための辞書を作っていくといった作業の重
複を避ける上で役立つ、辞書に単語とその訳語を自動的
に蓄積していく装置が必要となっているが、まだそれは
実現されていない。
【0005】また、日本語と英語のように系統が異なる
言語では、片方の言語で用いられている語がもう一方の
言語では削除されたり、片方の言語では用いられていな
い語がもう一方の言語では追加されていたり、さらには
片方の言語では名詞となっているものが一方の言語では
名詞以外の品詞になっていることがある。このように一
対一対応していない箇所のデータは翻訳のテクニックと
して個々の翻訳家が蓄積していくものである。文より大
きなレベルにおいても同様のことがいえる。言語によっ
て段落の各構成要件は異なっている。同一のことを述べ
るにしても、述べる順序が異なっていることがある。ま
た、一方の言語では一段落で述べられていても、もう一
方の言語では複数の段落に分割されており、それがそれ
ぞれの言語において自然な文章となっている。これも翻
訳の技術として通常作業を通して学んでいくものであっ
た。
【0006】また、従来においては、データベース作成
支援装置に関しては、文章そのものを構文解析し、必要
に応じてシソーラスなどによる意味解析を行い、その結
果に基づき共起関係などを抽出しデータベースを蓄積し
ていくというものはあった。しかし、文章それ自体から
は得られない文字や数字以外の言語外情報を並行利用し
て、データベースを蓄積することは自動的にはできず、
人間が個々に指定する以外なかった。
【0007】数式や化学式など特殊なケースを除き、通
常の文章では各種の括弧や引用符(( )、[ ]、
{ }、< >、「 」、『 』、” ”、´ ´)の
中身は、直前または直後の文の構成要素(文、文節、
句、単語)と密接な関係を持っている。また、括弧内の
文字(列)の字種、すなわち、すべてひらがな、カタカ
ナ、漢字、英文字、数字か、あるいはその混合かという
特徴も、単なる異形表記とはみなされず、重要な情報を
提供していることがある。また、英文字が使用されてい
る場合、それがローマ字表記か、外国語の単語(列)か
にも注意を払う必要がある。さらに、文章内の文字
(列)の下線、斜体・太字・強調・白抜きなどの文字属
性の付与もその文字(列)が該当文章の内容や主題に関
して、重要度が高いことを示している。しかし、それら
の対応関係が体系的にはまだ分析されていないこともあ
り、人間が気付いた範囲で関係付けが行われていたにと
どまっていた。すなわち、漏れも起こりうり、網羅的な
関係付与はできず、これらの有用な情報が十分活用され
ることはなかった。
【0008】一方、機械翻訳装置に関しては、第1言語
と第2言語と複数の言語が関与しているわけであるが、
それぞれの言語で全般に見られる字句や記号の使い方が
ある程度固まっている。しかし、第1言語での用法に相
当するものが第2言語にあるのかないのか、あるとすれ
ばどのようなものに相当するかが、それが現れる環境に
よって決まっているにもかかわらず、そういった対応関
係が規則化されていない。従って、適切な訳文が得られ
なかったり、翻訳後余計な後編集を施さねばならなかっ
た。日本語など分かち書きしない言語では、訳文生成以
前に文節切りを誤ることも多かった。
【0009】例えば、以上のような字句や記号の使い方
から得られるデータ(具体的には、括弧内の要素など)
が、既に装置に備えられている翻訳辞書に蓄えられてい
る情報よりも、少なくとも処理中の文書に対しては適合
しており、優先されるべきであるが、そのようなことは
なされていなかったか、またはその実現方法が適切とは
いえなった。また、該当する単語が翻訳辞書の見出しに
挙げられていない場合は、訳出不可能なためそのままを
出力する以外に方法はなかった。特開平2-110771号公報
記載のように、第1言語の文章中に第2言語で綴った単
語が含まれている場合、対訳せずにそのまま出力すると
いうものはあったが、第1言語の文章の地の文に現れる
第2言語で綴った単語は、第1言語で既に定着している
ものがほとんどである。したがって、翻訳辞書の第1訳
語となっている可能性が非常に強く、余り有効とは言え
ない。実際には、地の文の外(つまり、括弧内の要素な
ど)に適切な情報が含まれていることが多いが、この方
法ではそれが利用されない。また、特開平2-130672号記
載のように、別訳語の一つとして、指示された訳語に対
応する第1言語の文中の表現をその綴りのまま表示する
ことを自動的に認めるものがあったが、機械が最初に出
力した訳語を見ながら、元の第1言語の単語のままにし
ておきたいものはどれかを判断するのは繁雑である。ま
た、このような訳語の入れ替えは後編集段階でなされて
いるが、むしろ前編集で行ったほうが効率的である。
【0010】さらに、これらの情報はユーザ辞書作成に
おいて最適な訳語を示していることが多いが、従来はそ
の訳語の取り込みが自動化されていなかった。政治・経
済・工学などの分野では技術の進歩や時代の流れに即応
しているため、日々新語が作られている。このため、市
販の辞書はもちろんのこと、年鑑でもその訳語に対応で
きないことが多い。人名、地名など固有名詞に関しても
同様のことがいえる。このように訳語が定着していない
場合、対象指示物を明確化するために、第1言語の文章
に括弧を用いて言語の用語が挿入されていることが多
い。これをユーザ辞書の訳語として辞書に自動的に蓄積
していく装置が必要となっているが、まだ、それは実現
されていない。
【0011】
【発明が解決しようとする課題】このように、上記従来
技術においては、文対応抽出表示方式に関して、原文
書、目標文書、言語処理を施した後の文書を照合し、赤
字訂正するという作業は人間の手により、紙の上でなさ
れ、対応関係が一目瞭然ではないため、見易さの点で問
題があった。また、作業者はそれぞれの言語に通じてい
なければならず、各々の3文を解釈・比較しながら一語
一語入念なチェックを行うことが求められていた。この
ように、作業者に対する負担は重かった。特に、編集対
象の文書が数十頁またはそれ以上の長文にわたるときに
は、修正作業に多大な時間とエネルギーを要することに
なり、作業の能率を著しく低下させる欠点があった。
【0012】データベース作成支援装置に関しては、翻
訳に必要または有用な知識やノウハウは人手により集め
られており、網羅的ではなく、またその知識やノウハウ
の共有がなかなかなされていなかった。このため、品質
向上や作業効率の点で問題があった。
【0013】また、文字や数字以外の言語外情報が利用
されていなかったために、データベース作成支援装置に
関して、原文書を丹念に読み返し、関連する項目を結び
付け、機械媒体に入力するという作業は人間の手により
行わなければならず、作業者に対する負担は重かった。
特に、抽出対象の文書が数十頁またはそれ以上の長文に
わたるときには、修正・修正作業に多大な時間とエネル
ギーを要することにり、作業の能率を著しく低下させる
欠点があった。
【0014】また、機械翻訳装置に関して、文章それ自
体からは得られない文字や数字以外の言語外情報とその
規則性が十分活用されていなかったために、翻訳の前編
集と後編集で作業者に余計な負荷を課しており、作業の
効率の点で問題があった。
【0015】この発明はこのような従来の課題を解決す
るためになされたもので、その第1の目的は、第1言語
の文章と第2言語の文章との対応関係を容易に見出すこ
とのできるデーターベース作成支援装置を提供すること
である。
【0016】また、第2の目的は、文章情報を最大限に
利用し、作業者の負担を著しく軽減し得る機械翻訳装置
を提供することである。
【0017】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、複数言語の文章を入力する入力手段と、
各言語の入力文章の形態素を解析する解析手段と、該解
析手段における形態素解析処理に利用する辞書とを具備
し、各言語の対応を記述するデータベースの作成を支援
するデータベース作成支援装置において、前記複数言語
の文章の対応関係を文、文節、句、単語等の構成単位で
自動的に作成し、作成された対応関係を対話的に修正す
る機能を備えたことを特徴とする。
【0018】また、第1言語を第2言語に翻訳する機械
翻訳装置において、第1言語の文章及び指示情報を入力
する入力手段と、入力された第1言語の文章を形態素解
析し第2言語へ翻訳する翻訳処理手段と、該翻訳処理を
行なうために利用する知識を格納する翻訳辞書と、翻訳
された第2言語で記述された文章及び指示情報を表示す
る表示手段を具備し、文字・数字以外の記号に基づいて
翻訳を行なうことを特徴とする。
【0019】
【作用】上述の如く構成すれば、ある文書とある文書の
対応関係が即時に抽出され、かつ見やすい形で表示され
るので、文書修正・編集に人間が関与する割合と人間に
課せられる労力を大幅に削減でき、また、データを蓄積
しながら、言語処理の際に必要不可欠な辞書を初めとす
るデータベースを作成する支援を行うことから、一般の
翻訳、機械翻訳の後編集、機械翻訳の訳文品質向上のた
めの使い込みといった作業の効率を格段に上げ、より正
確な言語処理が実現できるようになる。
【0020】また、本発明によれば、文書内の要素の対
応関係が即時に抽出されるので、文書修正・編集に人間
が関与する割合と人間に課せられる労力を大幅に削減で
き、また、データを蓄積しながら、言語処理の際に必要
不可欠な辞書を初めとするデータベースを作成する支援
を行うことから、機械翻訳の前編集・後編集、機械翻訳
で用いる辞書の品質向上のための辞書の見直しといった
作業の効率を格段に上げ、より正確な言語処理が実現で
きるようになる。
【0021】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明の第1実施例に係るデータベース作
成支援装置の一実施例の構成を示すブロック図である。
同図において、101 はキーボードやマウス、OCR、磁
気テープ装置、磁気フロッピーディスク装置などからな
る入力部で、この入力部101 は、言語処理の対象となる
文書(例えば日本語文、英文、中国文)を入力し、か
つ、各種編集・修正のためのコマンドを入力するための
ものである。2も1と同じようにキーボードなどからな
る入力部で、この入力部102 は、101 で入力するのとは
異なる言語の言語処理の対象となる文書を入力するのを
始め、各種編集・修正のためのコマンドを入力するため
のものである。
【0022】そして、この入力部101 より入力される言
語処理の対象文は言語1文書記憶部103 に、この入力部
102 より入力される言語処理の対象文は言語2文書記憶
部104 にそれぞれ記憶されるとともに、形態素解析を行
う言語1形態素解析部105 、言語2形態素解析部106 に
それぞれ送られる。ここで、形態素とは、意味をもった
最小の単位のことである。これは1個の又は数個の音素
によって表わされ、それ以下の有意味単位に分割するこ
とを許さない。
【0023】この形態素解析部 105,106 には、それぞ
れの言語に応じて、形態素解析に利用する単語辞書 10
7,108 が接続されている。なお、この単語辞書 107,1
08 には、それぞれの言語に応じて活用変化辞書107a,1
08a、変換辞書107b,108bが含まれている。
【0024】そして、形態素解析部 105,106 からの出
力を形態素解析処理の結果として言語1文書解析データ
バッファ109 、言語2文書解析データバッファ110 にそ
れぞれ格納する。
【0025】言語1論理構造抽出部111 は、言語1文書
記憶部103 に記憶した文書の論理構造を、言語2論理構
造抽出部112 は、言語2文書記憶部104 に記憶した文書
の論理構造を抽出するためのもので、表題、文、段落な
どの論理構造単位を抽出するようにしている。
【0026】言語1論理構造記憶部113 は、言語1論理
構造抽出部111 で抽出された文書の論理構造情報を、言
語2論理構造記憶部114 は、言語2論理構造抽出部112
で抽出された文書の論理構造情報を記憶するためのもの
である。
【0027】対応関係抽出部115 は言語1文書解析デー
タバッファ109 、言語1論理構造記憶部113 、言語2文
書解析データバッファ110 、言語2論理構造記憶部114
の情報をもとに言語1の文書と言語2の文書の対応関係
を抽出するためのものである。
【0028】対応関係記憶部116 は、対応関係抽出部11
5 で抽出された言語1の文書と言語2の文書の対応関係
を記憶するためのものである。この対応関係記憶部は11
6 の内容はプリンタなどからなる出力部117 に出力する
ようにしている。
【0029】表示部118 は、例えばCRTディスプレイ
からなり、入力された文書や、その他の各種編集・修正
作業情報の表示を行うようにしている。
【0030】次に、以上のように構成した第1実施例の
動作を説明する。まず、入力部101,102 からの入力文
書に対する文対応付け処理の流れを図2のフローチャー
トに従い説明する。
【0031】いま、入力部 101,102 より言語処理対象
の文書が入力されると、ステップA1で形態素解析が実
行される。ここでは、単語辞書 107,108 を検索するこ
とにより、入力文書中の単語の品詞、原形、活用情報が
求められる。日本語のように文が分かち書きされない言
語についてはさらに文字系列から語を切り出す処理が加
わるそして、ステップA2に進み、それぞれの言語の文
書の論理構造を抽出する。このステップA2では、ステ
ップA1の形態素解析で得られた情報を用いて表題、
文、パラグラフなどの論理構造単位を切り出す。
【0032】次いで、ステップA3で、対応関係付与が
行われる。ここでは、ステップA1、ステップA2で得
られた情報をもとに2言語文書間での類似度が抽出され
る。
【0033】次に、具体例として「当社は新しいシステ
ムを導入した。このシステムはガスの温度を検知す
る。」の日本文の'We have introduced a new system.
This system senses gas temperature.' の英文を日本
語の単語辞書107 と英語の単語辞書108 を利用して、対
応関係をとる場合を説明する。
【0034】この場合、上述した活用変化辞書107aには
表1に示すような「見出し語」「品詞」「語幹」「活用
情報」の関係の情報が、変換辞書107bには表2に示すよ
うな「日本語」「英語」の関係の情報がそれぞれ収容さ
れているものとする。同様に、活用変化辞書108aには表
3に示すような「見出し語」「品詞」「活用情報」の関
係の情報が、変換辞書108bには表4に示すような「英
語」「日本語」の関係の情報がそれぞれ収容されている
ものとする。
【0035】
【表1】
【表2】
【表3】
【表4】 この状態で、ステップA1の形態素解析処理が先の日本
語文、英語文に対して行われる。
【0036】そして、適切な比較範囲を決定するため
に、ステップA2により文書の論理構造を抽出する。論
理構造の単位の種類は表題、文、パラグラフ(段落)、
注、図表に大別される。ここで、英数字ひらがな、カタ
カナ一文字+ピリオドで始まっていたり、改行コードの
みで終了している文字列は表題、終端文字で終了する文
字列は文、終端文字の次に改行コードがきている一塊は
パラグラフ(段落)、英数字+ピリオドで始まり、一つ
または複数の文からなるものは注、罫線が含まれるもの
は表とそれぞれ見なす。こういった特徴は言語により異
なるので、随時設定変更が可能である。例えば、日本語
では句点の有無から文を判定し、英語ではピリオドの有
無から文を判定する。日本語では段落開始は一文字下げ
るのが通常であるが、英語では5文字分インデントする
のが通常で、時にはブロック体のように全くインデント
しない場合もある。本例の日本語文は句点の数から、2
文と判定し、英語文はピリオドの数から2文と判定す
る。
【0037】次に、以上の形態素解析情報と論理構造情
報をもとに、ステップA3で「当社は新しいシステムを
導入した。のこシステムはガスの温度を検知する。」
と'Wehave introduced a new system. This system se
nses gas temperature.' とのパターン照合を行う。こ
こで重要視されるのはマッチする単語(とくに、日本語
の自立語、英語の内容語)の総数とキーワードを含んで
いるか否かである。ここで、日本語文の第1文をJ1、第
2文をJ2、英語文の第1文をE1、第1文をE2とすると、
表5のような結果が得られる。そして、その照合の割合
は表6のようになる。
【0038】
【表5】
【表6】 これによると、J1はE1と、J2はE2とそれぞれ結び付きが
強いと分かる。さらに、J1とJ2に共通していない単語、
つまりsystem以外の単語、をキーワードと見なし、それ
を含めば、その対応関係はさらに強いと判断する。例え
ば、J1のみに現われるintroduction,introduceはE1に含
まれており、E2には含まれていないため、J1とE1が対応
していることが分かる。
【0039】次に、これと同様のことを言語2の側から
行う。つまり、言語2を構成する単語を言語1の単語に
置き換えて、パターン照合を行う。すると、表7,表8
のような結果が得られる。
【0040】
【表7】
【表8】 このように双方向から照合を行うことにより、「当社は
新しいシステムを導入した。」の日本語文に相当する英
語文として、'We have introduced a news system.'
を、「このシステムはガスの温度を検知する。」の日本
語文に相当する英語文として、'This system senses ga
s temperature.' をそれぞれ得る。
【0041】さらに、文の内部の構成要素同士の対応関
係を見ていき、最も妥当性の高いものを候補として挙げ
ていく。例えば、「検知する」という動詞に対しては、
英語では動詞'sense' という訳語が当てられていると認
識する。そして、同様に、句レベルでも「新しいシステ
ム」という名詞句には'new system'が対応すると判断す
る。こうした結果を、例えば表9のようにオペレータに
見やすい形で表示し、情報を提供する。なお、ここで挙
げた反転以外にも下線、太字、斜体、網塗り等の表示が
可能である。
【0042】
【表9】 次に、以下の(a)、(b)に示すように文章が長く、
かつ論旨の展開順序が異なる場合について考える。
【0043】(a)多くの大学生は効果的な勉強方法を
知っていない。教科書を注意深く読まずに、ただざっと
眺めるだけである。勉強に役立つノートの取り方も知ら
ない。つまり、勉強の仕方が身に付いていない。ただ楽
しむためだけに大学に行っている学生もいるようだ。そ
して授業は真面目に受けない。また、多くの学生は時間
の切りこなし方を知らない。健康の問題、金銭の問題、
家族の問題など自分ではどうにもできない問題もあるだ
ろうが、時間を上手に使っていないのが最大の問題であ
る。このように、大学生の学力の低下には通常いくつか
の原因がある。
【0044】(b)There are usually several reason
s why college students' achievementis low. One reason is poor study habits. Many college stud
ents do not knowhow to study effectively. They wil
l just glance at their books instead of reading th
em carefully. They do not know how to take notes t
hat will help them to learn. Other students seem to be going to college only to
have fun. They do not take their classes seriousl
y. Also, many do not know how to budget their time. There may be other causes that students cannot hel
p, such as healthproblems, money problems, or fami
ly problems, but not using time wiselyis certainly
a major cause of failure. この例での、日本語文書と英語文書の最大の相違点は、
日本語では1段落で述べられていることが、英語では4
つのパラグラフで述べられていることと、前者ではトピ
ックセンテンスが最後にきているのに対し、後者では冒
頭にきていることの2点である。先の「当社は新しいシ
ステムを導入した。このシステムはガスの温度を検知す
る。」の日本語文と'We have introduced a new syste
m. This system senses gas temperature.'の英語文の
具体例と同様、(a),(b)の文書に対しても、ステ
ップA1,A2,A3を踏んだ後、対応関係がリンク付
けされる。この場合、対応している文同士が離れてお
り、したがって、前者の方法では対応関係が把握しにく
いため、片方の言語の文書に連動して、もう片方の言語
の文書が表示されているウィンドウは自動的にスクロー
ルする。また、必要に応じて、全体の文書で指定されて
いる文がどこに位置しているかを見やすい形で提供する
こともできる。このような操作を行っている画面の様子
の一例を示すと図3〜図5のようになる。例えば、図3
で日本語側の第9文を指定すると、図4のように、指定
した文が画面のトップに現れ、それと連動して日本語側
の第9文に相当する英語側の第1文もトップに現われ
る。また、オペレータの要求により、図5に示す補助画
面にこの対応関係を表示したりすることができる。
【0045】さらに、次の(c),(d)に示す例を説
明する。
【0046】(c)「テクノロジー依存」がはらむ問題
は、コストだけではない。逆に環境破壊を進めてしまう
可能性もある。いい例が、農業だ。大量に散布しても、
害虫による被害はなくなっていない。むしろ地下水が汚
染され、作物の表面に農薬が残留しているのが現状では
ないか。
【0047】(b)Besides cost, the trouble with t
echnological fixes is that they canleave a problem
worse than before. Despite pervasive use of pesti
cides, more crops than ever are lost to fungus and insect
s. The chemicals pollute ground water and leave re
sidues on produce. この場合、日本語の第一文と第二文は、英語では一文に
まとめられており、また、日本語の第三文に対応する英
語文は存在していない。先の2例(a) ,(b) と同様に、
この文書においてもステップA1,A2,A3か実行さ
れ、対応関係がリンク付けされる。この際、システムは
片方の言語の文書中の文、文節、句、単語がもう一方の
言語の文書では削除されている、片方の言語の文書の中
の複数の文がもう一方の言語の文書では一つに結合して
いる、片方の言語の文書の中の一文が複数の文に分割さ
れている、などの有益な情報をオペレータに知らせるこ
とができる。このような操作を行っている画面の様子の
一例を示すと図6〜図9のようになる。図6と図7は日
本語の第1文と第2文が英語側では1文に結合している
ことを示し、図8は日本語の第3文が英語側では削除さ
れていることを示している。また、図9のように補助画
面で文番号の対応を見ることができる。ここで<< >>は
段落番号を、( )は文番号を示している。
【0048】このような一連の操作においてシステムが
付与した対応関係が誤っているとオペレータが判断した
場合、オペレータは次のようにシステムに対して種々の
コマンドを用いてその都度修正・編集を施すことができ
る。図10はそのコマンド画面である。まず、言語1の
画面と言語2の画面に共通する機能ボタンを説明する。
ここでは連動・非連動ボタン1601、文変更ボタン1602、
単語変更ボタン1603、段落変更ボタン1604、入替ボタン
1605、確認ボタン1606、取消ボタン1607、終了ボタン16
08、の8つの機能ボタンを設けている。連動・非連動ボ
タン1601を押すと、連動モードと非連動モードが入れ替
わる。連動モードとは片方の言語の画面を頁移動などで
移動させたり、または別の文を呼び出したりした場合、
それと呼応してもう片方の言語の画面も移動する状態を
いう。一方、非連動モードとはそういった移動などはも
う一方の言語の画面には変更を及ぼすことはない状態で
ある。文変更ボタン1602はシステムが判断して付与した
文対応関係を変更し、別の言語2の文に対応関係を付与
するためのものである。ここで、変更したい言語1の文
の文番号と新たに関係付けたい言語2の文番号を指定す
ることにより、変更が行われる。単語変更ボタン1603
は、文より小さい単位の単語、句などの対応関係を変更
するためのもので、文の対応関係が正しく修正された後
用いる。ここで、変更したい単語、句が存在する言語1
の文番号とその単語、句を指定する。すると、それに対
応する言語2の文が現われるので、そこから先の単語、
句に対応させたい言語2の単語、句を指定する。段落変
更ボタン1604は文変更ボタン1602と同様、段落同士の対
応関係を変更するためのものである。また、入替ボタン
1605は言語1の2文の位置とその対応関係を入れ替える
ためのものである。入れ替えを希望する言語1の文番号
を2つ指定することにより、入れ替えが行われる。確認
ボタン1606は以上の修正・編集を実行するためのもの
で、取消ボタン1607は以上の修正を取り消すためのもの
である。また、終了ボタン1608は以上の修正・編集作業
を終了するためのもので、終了ボタン1608を押した後、
確認ボタン1606を押すと、言語1ファイルと言語2ファ
イルが作成され、修正・編集作業は終了する。
【0049】次にそれぞれの言語側に一組ずつ用意され
ている機能ボタンについて説明する。図11に示す通
り、言語1表示画面118aと言語2表示画面118bにおい
て、前文ボタン1701、次文ボタン1702、前段落ボタン17
03、次段落ボタン1704、前頁ボタン1705、次頁ボタン17
06、文頭ボタン1707、文末ボタン1708、検索ボタン170
9、呼出しボタン1710、アイコン化ボタン1711がある。
全文ボタン1701は一文前の文を、次文ボタン1702は次の
文を、前段落ボタン1703は前の段落の先頭の文を、次段
落ボタン1704は次の段落の先頭の文を、前頁ボタン1705
は一頁前の文を、次頁ボタン1706は次の頁の文を、文頭
ボタン1707は一頁目の最初の文を、文末ボタン1708は最
後の頁の最後の文を、それぞれ表示するためのものであ
る。なお、先の連動・非連動ボタン1601を併用すること
により、これらの機能は連動モードと非連動モードの両
方で働く。また、検索ボタン1709を押すと、検索モード
となり、検索したい文の構成要素(文、句、文節、単
語)を指定することにより、それを含む文を順次表示す
る。さらに、呼出しボタン1710を押し、表示したい文の
文番号、そして必要に応じて段落番号を指定することに
より、その文の内容を表示させることができる。アイコ
ン化ボタン1711は、作業を容易にするため、画面をアイ
コン化させるためのものである。
【0050】次に、図12のように本文対応関係抽出方
式に言語1を言語2に変換する翻訳部を組み込んだ場合
を例に説明する。
【0051】まず、翻訳処理の手順を説明する。この翻
訳部は形態素解析部1801、構文解析部1802、構造変換部
1803、構文生成部1804、形態素生成部1805よりなり、形
態素解析部1801では文対応抽出方式の言語1形態素解析
部105 と同様の処理が行われる。ただし、翻訳部の形態
素解析部1801では、単語辞書107 のうち、言語1活用変
化辞書107aのみが使用される。そして、形態素解析を実
行した後、構文解析が行われる。ここでは、形態素解析
部1801で得られた品詞情報を用いて言語1の部書の構文
解析が行われ、構造変換部1802で、その構文構造が生成
される。次に、構造変換が行われる。ここでは、単語辞
書の言語1変換辞書107bを使用して言語1の構文構造が
言語2の構文構造に変換される。次に、構文生成部1804
で、構文生成が行われる。ここで、言語2の構造から、
言語2の語順が決定され、単語列に変換される。最後
に、形態素解生成1805で、必要な活用変化を行い、翻訳
文が完成する。
【0052】この翻訳文は例えば図13のように翻訳部
での翻訳結果と、言語1表示画面118aや言語2表示画面
118bと合わせて表示することができる。この画面はオペ
レーターが見易いように自由に移動したり、大きさを変
更することができる。さらに、この翻訳結果と入力済み
の言語2の文書との比較を行い、異なる箇所を出力する
こともできる。
【0053】次に、入力部 101,102 からの入力文書に
対する文対応付けを行った結果を用いてデータベースを
作成する過程につい述べる。ここでは、様々なデータベ
ースのうち、類例文抽出、ユーザ辞書作成、言語規則蓄
積の3つを具体例に挙げて説明する。
【0054】最初に類例文抽出について説明する。これ
は、ある文字列を含む類例をまとめて表示し、データベ
ースとして蓄積するものである。例えば、日本語の「発
生」をキーワードとして指定すると、その訳語を含む英
語文を表10,表11のようにオペレータにわかりやすい
ようにKWICやKWOKを用いて表示する。
【0055】
【表10】
【表11】 動詞のように活用する単語は、活用変化辞書を参照し、
指定の文字と全く同じでなくても類例文として挙げてい
く。なお、一行に文全体を表示し切れないときは、カー
ソルを左右に移動させることにより、その前後を見るこ
とができる。また、訳語をアルファベット順に並び代え
たり、その訳語の品詞や前後の文脈によって分類するこ
とも可能でる。候補の文が多すぎる場合は、文内で使わ
れている品詞、文内での機能(主語、目的語など)、文
内で「発生」と一緒に現れるべき他の語を指定すること
により、条件付けを強くし、候補の絞り込みを行う。
【0056】次に、ユーザ辞書を作成する処理の流れを
図14に示すフローチャートに沿って説明する。いま、
対応関係がリンクされた言語1の文書ファイルと言語2
の文書ファイルが送られると、ステップB1で単語辞書
107,108 、言語1のユーザ辞書2101、言語2のユーザ
辞書2102との照合が実行される。そして、オペレータの
要求に応じて、単語辞書の見出し語として挙げられてい
ない単語や、変換辞書に存在しないもう一方の言語の単
語(訳語)や存在はしていても単語辞書と入力文書で優
先準位が違う単語をリストアップすることができる。ま
た、「乱れ:turbulence, disorder, confusion, disto
rtion, irregularity, derangement」のように対象とな
っている文書の中で用いられているある単語の対応する
すべての単語を検索・リストアップしたり、その単語の
出現頻度や品詞を表示したり、その単語の前後の文脈を
表示したりなど、ユーザが辞書を構築する際に必要な様
々な機能を提供することができる。
【0057】次に、もともと辞書に入っていなかった単
語については、システムは訳語の確認をユーザに求め、
確認後その単語はステップB2で自動的にユーザ辞書の
登録される。また、その他の単語についても、以上の機
能によって得られた情報を活用し、ユーザが登録したい
単語とその訳語を指定すると、ステップB2でその指示
通りにそれらの単語とともに品詞、活用情報、意味素成
などがユーザ辞書に登録される。
【0058】また、翻訳部を接続した場合は、先に述べ
た翻訳結果と入力済みの言語2の文書との相違点を利用
して、訳語が異なる部分を言語1のユーザ辞書2101、言
語2のユーザ辞書2102に辞書登録したり、翻訳部に学習
させたりすることができる。
【0059】第3に、共起規則や(パターン)翻訳規則
などの言語規則を蓄積する際の仕組みを図15に沿って
説明する。図1に示した文対応抽出方式では、形態素解
析にとどまっていたが、ここでは構文解析までを行う。
形態素解析を行った後、翻訳部と同じ構文解析を言語1
構文解析部2201、言語2構文解析部2202で行う。この結
果、深層格に基づいた構文木が、それぞれの言語に対し
て出力される。この段階で2つの構文木を比較する。例
えば、日本語文「布にしわが寄る。」と英語文'The fab
ric crinkles.'の構文木が図16のようになった場合、
形態素解析での結果も援用することにより、日本語文の
NPとVPは英語文ではVPに相当し、日本語文のPPは英語文
のNPに当たることが分かる。この事実をもとに、日本語
と英語の間の変換規則を作ることができる。さらに進ん
で、言語1意味解析部2203、言語2意味解析部2204で意
味解析が行われ、その結果が比較される。例えば、表1
2にある日本語文と英語文のペアがあったとき、目的語
の格要素の意味素性を調べることにより、日本語の動詞
「借りる」の共起規則を生成することができる。
【表12】 次に、言語1文脈解析部2205、言語2文脈解析部2206で
文脈解析を行う。これは文レベルを越えた接続関係、照
応関係、省略などを扱う。ここでも、解析結果を比較
し、言語1と言語2に特徴的な相違点を抽出し、可能で
あれば規則化するか、またはユーザ・カスタマイズ用に
変数化する。なお、機械が行う構文解析、意味解析、文
脈解析は誤っている可能性があるので、機械は解析結果
を提示し、それが正しいか否かの確認をオペレータに求
め、誤っていればオペレータが修正した後、機械は情報
を蓄積することができる。
【0060】したがって、このようにすれば、ある文書
とある文書の対応関係が即時に抽出され、かつ見やすい
形式で表示されるので、文書修正・編集に人間が関与す
る割合と人間に課せられる負担を大幅に軽減できるとと
もに、対応関係を漏れのないように網羅的に検出するた
め、作業の能率を高めることができる。そして、人間は
最終的な判断をする作業に専念することができる。ま
た、翻訳部を接続し、その翻訳の結果、解析結果と模範
の訳文との解析結果の比較を行うことにより、機械翻訳
システムそのものの質の向上を計ることが期待できる。
このように、人間の能力と機械の能力を最大限に発揮す
ることができることから、相乗効果が働き、言語分析・
言語処理が円滑に行われるようになる。
【0061】また、上述の処理を行った結果から有益な
情報を抽出・表示するので、オペレータはこれを見て適
切な判断を下し、言語処理に必要不可欠な類似文集、辞
書、言語規則を始めとするデータベースを容易に作成す
ることが可能となる。
【0062】なお、本発明は、上記実施例に限定され
ず、要旨を変更しない範囲で適宜変形して実施できる。
例えば、同実施例では2つの言語の対応関係について述
べたが、3つ以上の言語の対応関係を抽出する際にも応
用が可能である。言語の種類についても、必ずしも異な
る言語である必要はなく、同一言語内で文体の異なるも
の例えば、口語体/文語体、標準語/方言、現代語/古
語といったペアにも適用できる。また、上述した図2に
示す実施例では構文解析、意味解析、文脈解析を行わな
いようになっているが、この処理を形態素解析を行った
後の段階で行ってもよい。また、同実施例では、辞書と
して単語辞書107,108 の2つの辞書が存在する場合を述
べたが、各種の専門用語辞書を複数併用してもよい。さ
らに、データベース作成の箇所では、類似文抽出、ユー
ザ辞書登録、言語規則蓄積を例に述べたが、この他に
も、類語辞書、語法・用法辞書を構築するのをはじめ、
対象言語学に必要な様々な言語データを蓄積し、データ
ベースを作成することができる。
【0063】次に、本発明の第2実施例について説明す
る。図17は、該第2実施例に係わるデータベース作成
支援装置の構成を示すブロック図である。同図におい
て、51はキーボードやマウス、OCR、磁気テープ装
置、磁気フロッピーディスク装置などからなる入力部
で、この入力部51は、言語処理の対象となる文書(例え
ば日本語文、英文、中国語文)を入力するのを始め、各
種編集・修正のためのコマンドを入力するためのもので
ある。
【0064】そして、この入力部51より入力される言語
処理の対象文は言語記憶部52に記憶されるとともに、形
態素解析を行う形態素解析部53に送られる。この形態素
解析部53には、形態素解析に利用する単語辞書54が接続
されている。そして、形態素解析部53からの出力を形態
素解析処理の結果として文書解析データバッファ55に格
納する。言語文書情報抽出部56は各種の括弧や引用符、
字種、文字属性などを抽出するためのものであり、言語
文書情報抽出バッファ57はその結果と文書との関係を記
憶するためのものである。この言語文書情報抽出バッフ
ァ57の内容などからなる出力部58に出力するようにして
いる。
【0065】表示部59は、例えばCRTディスプレイか
らなり、入力された文書や、その他の各種編集・修正作
業情報の表示を行うようにしている。
【0066】次に、以上のように構成した実施例の動作
の流れを図18に示すフローチャートに沿って説明す
る。ここでは様々なデータベースのうち、日本語文書か
らの類語抽出を具体的に挙げて説明する。
【0067】まず、ステップC1で単語辞書54を用い
て、形態素解析を行った後、次のステップA2で言語文
書情報抽出部56を用いて括弧内の要素を抽出する。ここ
で、文書内に”リクルートコスモス未公開株譲渡関係資
料(「三点セット」)”、”「ゴルビスタン」(ゴルビ
ーの国)”、”診療報酬請求明細書(レセプト)”、”
大陸間弾道ミサイル(ICBM)”といった文字列があ
ったとする。このように、ある文字列に( )のような
括弧が後続していた場合、その文字列と括弧内の要素が
類語関係にあると見なす。そこで、括弧内の要素を抽出
した後、その前の文字列を切り出し、例えば表13のよ
うに括弧を除いた見やすい形で表示する。
【0068】
【表13】 ただし、括弧の中の要素と結び付けられるべき文字列は
1番目の例のように「」や『』があれば明確であるが、
3番目や4番目の例ではどこが対象範囲かが明確でな
い。そこで、文書解析データバッファ54を基に、表14
のようにいくつかの候補を提示することができる。
【0069】
【表14】 さらに、この括弧内が”全部使ってしまったと(検事調
書で)説明している。”ように名詞句+格助詞である時
や、”平坦(へいたん)”のように全部ひらがなである
時や、”岡本太郎(80)”のように全部が数字である
時は、特に指定がない限り類語関係があるとは見なされ
ない。なぜなら、最初の形式をとる場合、括弧内は補足
事項を示し、2番目では読みがなを示し、3番目では年
齢といった属性情報を示しているためである。
【0070】次に、システムはこれらの2つの項目の間
に類語関係があるか否かの確認をオペレータに求め、必
要があれば修正を行い、確認後それらのペアはステップ
C3で自動的に類語辞書に登録される。ここで確認が必
要なのは他にも類語関係ではなく、”マーストリヒト
(オランダ)”のように全体−部分を表したり、”新井
弘−大使(大坂担当)”のように所属を表したりするケ
ースがあるためである。また、”「神の子の海流」(ス
ペイン語でエル・ニーニョ)”のような場合は「スペイ
ン語で」の部分を削除して登録すればよい。なお、この
辞書はペアのうちどちらをキーにしても検索することが
できるように構成されている。
【0071】図19は本発明を実施する機械翻訳装置の
回路構成の一例を示す図である。同図において51はキー
ボードやマウス、OCR、磁気テープ装置、磁気フロッ
ピーディスク装置などからなる入力部で、この入力部51
は、言語処理の対象となる文書(例えば日本語文、英
文、中国文)を入力するのを始め、各種編集・修正のた
めのコマンドを入力するためのものである。
【0072】そして、この入力部51より入力される言語
処理の対象文は第1言語記憶部61に記憶されるととも
に、形態素解析を行う形態素解析部62に送られる。
【0073】この形態素解析部62には、第1言語の形態
素解析に利用する単語辞書63が接続されている。なお、
この単語辞書63には、活用変化辞書63a 、変換辞書63b
が含まれている。そして、形態素解析部62からの出力を
形態素解析処理の結果として第1言語文書解析データバ
ッファ64に格納する。次に各種の括弧や引用符、字種、
文字属性などを抽出する第1言語文書情報抽出部70に送
られ、抽出結果は文書情報抽出バッファ71に格納する。
次に、形態素解析処理の結果は構文解析部65、構造変換
部66、構文生成部67、形態素生成部68の順に送られる。
最終的な翻訳結果の内容は、プリンタなどからなる出力
部69に出力している。
【0074】表示部72は、例えばCRTディスプレイか
らなり、入力された文書や、その他の各種編集・修正作
業情報の表示を行うようにしている。
【0075】次に、上述のように構成した実施例の動作
を説明する。まず、入力部51からの入力文書に対する翻
訳処理の流れを図20のフローチャートに従い説明す
る。
【0076】いま、入力部51より言語処理対象の文書が
入力されると、ステップD1で形態素解析が実行され
る。ここでは、単語辞書63の活用変化辞書63a を検索す
ることにより、入力文書中の単語の品詞、原形、活用情
報が求められる。日本語のように文が分かち書きされな
い言語についてはさらに文字系列から語を切り出す処理
が加わる。そして、ステップD2に進み、入力文書で用
いられている特殊記号(すなわち各種の括弧、引用
符)、字種、特殊な文字属性を抽出する。このステップ
D2では、括弧や引用符を検出した場合、ステップD1
の形態素解析で得られた情報を用いてさらにその間にあ
る要素と関連する単語、文節、文などの文の構成単位を
切り出す。
【0077】そして、ステップD3に進み、構文解析が
行われる。このステップD3では、ステップD1の形態
素解析で得られてた品詞情報を用いて入力文の構文解析
が行われ、第1言語の構文構成が生成される。
【0078】次いで、ステップD4で、構造変換が行わ
れる。ここでは、単語辞書63の変換辞書63b を使って、
第1言語の構文構成が第2言語の構文構成に変換され
る。同時に、ステップD2で検出されたものについて、
ステップD1、ステップD3で得られた情報をもとにそ
れぞれにふさわしい特殊処理を行う。
【0079】次にステップD5に進み、構文生成が行わ
れる。ここでは、第1言語の構造から第1言語の語順が
決定され、続いて単語列に変換される。
【0080】そして、ステップD6に進み、形態素解析
が行われ、単語の語尾などを変化させて翻訳文が完成す
る。
【0081】次に、日本語を英語に翻訳する場合を図2
1のフローチャートに従い説明する。具体例としては、
丸括弧を含む文、「イルカは船の舳先(へさき)が作る
波に乗って船と共に泳ぐ。」、「彼らは矩(く)形の帆
を備えている。」、「静岡県は山葵(わさび)の産地で
ある。」、「水虎尾(みずとらのお)は夏に花を咲かせ
る」の4つを用いる。これらに共通しているのは、漢字
の連鎖があり、その後に”(、ひらがな、またはカタカ
ナの連鎖、)”となっている点である。このように字種
がすべてひらがな、またはカタカナの時、これは多くの
場合読みがなであるので、英語に翻訳する際には一般に
不要で、丸括弧と共に削除する必要がある。そこで、シ
ステムは自動的にこれらを翻訳不要句と認識する。
【0082】この場合、表15に示すように、上述した
単語辞書63からの見出し語に「舳先」、「矩形」、「山
葵」はあるが、「水虎尾」は未登録語であるとする。
【0083】
【表15】 この状態で、ステップD1の形態素解析処理が先の日本
語文に対して行われる。
【0084】そしてステップD2により( )を検索
し、その中がひらがな、またはカタカナになっているも
のを選び出す。さらに、その「(」の前が漢字の連鎖に
なっているかを見て、なっている場合は「(」か
ら「)」までが翻訳不要句に設定される。そして、漢字
と読みがなの組は文書情報抽出バッファ71に保存され
る。
【0085】次に、ステップD3に進み、構文解析が行
われる。このステップD3では、ステップD1の形態素
解析で得られた品詞情報を用いて入力文の構文解析が行
われ、日本語の古文構造が生成される。ここで、「矩
(く)形」、「禀(りん)議」のように単語の途中に括
弧が挿入されていても、「矩形」、「禀議」に変換され
ているので途中で分断されることなく、正しく解析され
る。
【0086】次いで、ステップD4で、構造変換が行わ
れる。ここでは、単語辞書63の変換辞書63b を使って、
日本語の構文構造が英語の構文構造に変換される。ここ
で、「水虎尾」は辞書にないため、文書情報抽出バッフ
ァ71から()内のひらがな列を取りだし、それを「mizu
toranoo 」のようにローマ字変換し、第1訳語とする。
【0087】ここで、オペレータは次のようにしてシス
テムに対して種々のコマンドを用いてその都度修正・編
集を施すことができる。図22はそのコマンド画面であ
る。ここでは、文字修飾ボタン901 、文字種変更ボタン
902 、確認ボタン903 、取消ボタン904 、終了ボタン90
5 の5つの機能ボタンを設けている。文字修飾ボタン90
1 は、文字に下線、太字、斜体、反転、網塗り等の表示
にするためのものである。文字種変更ボタン902 はひら
がな・カタカナ・ローマ字表記の変換を行う。つまり、
ひらがなからカタカナ、カタカナからひらがな、カタカ
ナからローマ字、ローマ字からカタカナ、ひらがなから
ローマ字、ローマ字からひらがなの6通りが可能であ
る。確認ボタンは903 は修正・編集を実行するためのも
ので、取消ボタン904 は以上の修正・編集を取り消すた
めのものである。また、終了ボタン905 は以上の修正・
編集を終了するためのものである。
【0088】このような機能ボタンを使って、「水虎
尾」の第1訳語となった「mizutoranoo 」が外国語であ
ることを明示するために、斜体や太字にしたり、引用符
で囲んだりすることもできる。こうすれば、英語の正規
の表記方法に従うことになる。また、「山葵」のように
辞書に登録されていても、オペレータがその日本語読み
を英文に反映させたい場合は、そのように指示すると、
()内のひらがな列が取りだされ、「水虎尾」と同様に
「wasabi」とローマ字変換され、”wasabi”には単語辞
書63の変換辞書63b の訳語”horseradish ”と同格とい
う属性が付与される。次にステップD5に進み、構文生
成が行われる。ここでは、英語の構造から英語の語順が
決定され、続いて単語列に変換される。
【0089】そして、ステップD6に進み、形態素生成
が行われ、単語の語尾などを変化させて翻訳文が完成
し、表示部72に表示される。図23は表示部の画面レイ
アウトを示すもので、入力された原文を表示する画面左
側の原文表示領域1001、翻訳処理の結果得られた訳文を
表示する画面右側の訳文表示領域1002、各種編集に必要
な情報を表示する画面上部の編集領域1003を有してい
る。なお、「山葵」の訳語として「wasabi」を優先させ
たい場合は、例えば”wasabi, or horseradish”のよう
に出力される。
【0090】次に、同じく日本語を英語に翻訳する別の
場合を、図24に示すフローチャートに従い説明する。
ここでは、具体例として、「E−Rモデル(Entity-Rel
ationship model )は、データベース化の対象とする実
世界を主体集合(entity set)、主体集合間の関連(re
lationship)、主体集合から印字可能(printable )な
値への写像として定義される属性(attribute )の三つ
の基本要素によってモデル化する。」を用いる。この文
では、括弧内がローマ字列ではなく、すべて英単語とな
っている。このような文を英語に翻訳する場合、括弧内
の単語が最優先されるべきである。
【0091】最初に、ステップD1の形態素解析処理が
先の日本語文に対して行われる。そして、ステップD2
により( )を検索し、その中が英字のみ(ハイフン、
アポストロフィも含む)からなっているものを検索す
る。さらに、おのおのの「(」の前にある文字列から文
字属性や他の記号の使用(例えば、「」など)を手掛り
に、その英単語に相当する文字列を切り出す。この例で
は、「関連」、「主体集合」、「属性」が斜体になって
いるので、それらが対応する語であることが判断でき
る。そのような手掛りが皆無の時は、システムは可能な
候補を指示し、オペレータはそこから正しい対応訳語を
選択することができる。ここで、「(」から「)」まで
が翻訳不要句に設定され、日本語の単語と英単語(また
は、仏語、独語など)の組は文書情報抽出バッファ71に
保存される。
【0092】次に、ステップD3に進み、構文解析が行
われる。このステップD3では、ステップD1の形態素
解析が得られた品詞情報を用いて入力文の構文解析が行
われ、日本語の構文構造が生成される。先に対応付けた
単語のペアのうち名詞(句)以外のものは、「印字可能
(printable )な」のように文節の途中で丸括弧が挿入
されることがあるが、このように暫定的に「(」か
ら「)」までを翻訳不要句に設定することにより「な」
が分断されることなく正しく解析できる。
【0093】次いで、ステップD4で、構造変換が行わ
れる。ここでは、単語辞書63の変換辞書63b を使って、
日本語の構文構造が英語の構文構造に変換される。ここ
で、「モデル」、「主体」、「集合」、「関連」、「印
字可能な」、「属性」がすべて単語辞書63b の見出し語
に入っていて、そこで与えられている訳語が丸括弧内の
訳語と一致すれば、単語辞書63の変換辞書63b に記述さ
れている品詞や活用情報を利用することができる。とこ
ろが、これらの語が登録されておらず、また登録されて
いても丸括弧の訳語は単語辞書63には挙げられていない
ときは、オペレータはここで欠けている品詞や活用に関
する情報をシステムに対して提供する。次に、ステップ
D5に進み、構文構成が行われる。ここでは、英語の構
造から英語の語順が決定され、続いて単語列に変換され
る。ここで、文書情報抽出バッファ71に保存されている
ものに関しては、丸括弧内の単語が用いられる。最後
に、ステップD6に進み、形態素生成が行われ単語の語
尾などを変化させて翻訳文が完成する。
【0094】尚、訳語の品詞や活用情報が欠けている場
合、ここではオペレータが指示するようになっている
が、日本語を英語に変換するための単語辞書の他に英語
の単語辞書を機械翻訳装置に接続すれば、そのような指
示を省くことができる。
【0095】最後に、英語を日本語に翻訳する場合を、
図25のフローチャートに従い、説明する。
【0096】英語の文章、特に論文では、新出語句やキ
ーワードは斜体、太字になっているか、引用符で囲まれ
ていることが多い。また、書名は下線を引くか、引用符
で囲むことになっている。こういった新出語句、キーワ
ード、書名は日本語訳も必要だが、言語も括弧などを用
いて併記されていると便利である。また、一般の文書で
は、地名や人命、組織名などの固有名詞は元の英語が分
かったほうが便利である。これらは、それぞれの単語が
大文字で表記されている。従って、このように特殊な記
号や字種が用いられていれば、元の英単語を参照したい
と仮定する。ただし、固有名詞に関しては大文字という
条件のみでは識別に不十分である。固有名詞以外にも、
文頭の文字、月、曜日、惑星名、神は大文字で表記され
るためである。この前提の下に「The term coherence r
elations' refers to the relations between sentence
s that contribute to their making sense.」、「An a
irline like British Airways has real competition.
」、「Syrian President Hafez Assad unconditionall
y accepted a compromise formula for Mideast peace
talks. 」を具体例として考える。ただし、この文中の
単語はすべて単語辞書63に登録されているものとする。
【0097】最初に、ステップD1の形態素解析処理が
先の英語文に対して行われる。そして、ステップD2に
より特殊な記号や字種、文字属性を検索する。この例で
は、大文字と引用符が相当する。ただし、固有名詞に関
しては、先の前提より、文中の月、曜日、惑星名、神を
表す語句と一文字の語句(例えばI )は検索対象から外
し、文頭に関しては過剰に抽出するのを防ぐため、文頭
の文字を小文字に直したものは辞書の見出し語になって
いないもだけを抽出する。また、「BritishAirways 」
や「Syrian President Hafez Assad」のように大文字で
始まる語が連続している場合、ひとまとまりとして抽出
する。そして、これに該当するものは文書情報抽出バッ
ファ71に保存される。
【0098】次に、ステップD3に進み、構文解析が行
われる。このステップD3では、ステップD1の形態素
解析で得られた品詞情報を用いて入力文の構文解析が行
われ、英語の構文構造が生成される。次いで、ステップ
D4で、構造変換が行われる。ここでは表16に示すよ
うな単語辞書63の変換辞書63b を使って、英語の構文構
造が日本語の構文構造に変換される。
【0099】
【表16】 次に、ステップD5に進み、構文生成が行われる。ここ
では、日本語の構造から日本語の語順が決定され、続い
て単語列に変換される。このとき、文書情報抽出バッフ
ァ71に保存されていたものが取り出され、'coherence r
elations' とBritish Airways とSyrian President Haf
ez Assadの訳の後に丸括弧などを用いて見やすい形で元
の英語の語句を挿入する。ここで、動詞のように活用す
る語句は原形に直し、名詞は単数形に直したり、冠詞や
不要な語句を削除したりなどの必要な修正を行い、その
結果を表示することができる。例えば、'coherence rel
ations' は'coherenece relation' と単数にしたり、Sy
rian President HafezAssad はHafez Assad のみにする
ことができる。Mideast もまた文書情報抽出バッファ71
に保存されているが、形容詞として用いられているの
で、オペレータは編集の対象から排除するよう指定する
ことができる。
【0100】そして、ステップD6に進み、形態素生成
が行われ、単語の語尾などを変化させて翻訳文が完成
し、それぞれ「「一貫性の関係」(coherence relatio
n)という語は、文の意味を通じさせる一助となる文の
間の関係を指す。」、「英国航空(British Airways )
は本当の競争に直面している。」、「シリアのアサド大
統領は中東平和会談の妥協案を無条件に受け入れた。」
のような訳文を生成する。なお、ここで対応する英語と
日本語の順序を逆にして、「'coherence relation'(一
貫性の関係)という語は、文の意味を通じさせる一助と
なる文の間の関係を指す。」、「British Airways (英
国航空)は本当の競争に直面している。」のようにする
こともできる。また、このような括弧による補足は図1
4(a)のように通常初出の時のみ行われるが、特に指
定すれば、次の(e),(f)のように文章全体にわた
って挿入することも可能である。
【0101】(e)「一貫性の関係」(coherence rela
tion)という語は、文の意味を通じさせる一助となる文
の間の関係を指す。一貫性の関係と結合の関係は次のよ
うに区別できる。一貫性の関係は説明、原因、例示とい
った節や文の間の関係である。それに対し、結合の関係
はテキスト内の要素の間の関係である。
【0102】(f)「一貫性の関係」(coherence rela
tion)という語は、文の意味を通じさせる一助となる文
の間の関係を指す。一貫性の関係(coherence relatio
n)と結合の関係は次のように区別できる。一貫性の関
係(coherence relation)は説明、原因、例示といった
節や文の間の関係である。それに対し、結合の関係はテ
キスト内の要素の間の関係である。
【0103】次に、ユーザ辞書を作成する機能を設けた
機械翻訳装置について説明する。ここでは、日本語から
英語に変換する場合について考える。漢字の連鎖があ
り、その後に”(、ひらがな、またはカタカナの連
鎖、)”となっているものと日本語(英単語)となって
いるものを検索する。そして、前者のひらがな、または
カタカナの連鎖はローマ字に直す。そして、括弧の外の
語と内の語の組を作り、それらを表17のようにオペレ
ータに見やすい形で表示する。
【0104】
【表17】 なお、どこまでが括弧内の語に対応するのか境界が不明
確なものは、可能な候補を示し、オペレータがそのうち
ふさわしいものを選択する。次に、システムはユーザに
訳語の確認を求め、このうち、ユーザ辞書に登録したい
ものをユーザが指定する。すると、システムは英語の品
詞、活用情報、意味素成などを表18のような画面で問
い合わせてくるので、それに沿って応答すると、辞書登
録される。
【0105】
【表18】 従って、このように、従来十分利用されていなかった各
種の括弧や引用符(()、[ ]、{ }、< >、
「 」、『 』、” ”、´ ´))、字種、使用言
語、下線、斜体・太字・強調・白抜きなどの文字属性に
目を向けることにより、文書から最大限の情報を漏れの
ないように抽出し、データベースを蓄積することができ
る。
【0106】一方、機械翻訳装置では、これらの用法の
言語間のおける違いとそれぞれの言語における対応物を
考慮し、可能なところは規則化している。このため、前
編集なしでは今まで解析に失敗していたものが自動的に
正しく解析されるようになったり、今まで必要であった
繁雑な後編集の手間が省けたり、また、読みがななどの
括弧内、引用符内の情報が第2言語の訳文にも十分反映
されるようになったりなどのメリットを持っている。ま
たユーザの要望に応じて記号、字種、文字属性などの細
かな用い方は随時変更できるようになっている。さら
に、翻訳文には現れない第1言語の原語そのものが重要
である場合、簡単な操作でそれを訳文に挿入できるよう
になっている点で、読み手の求める訳文を生成すること
が可能となる。さらに、括弧内や引用符内の語句で、訳
語として適切なものがある場合、品詞、活用情報、意味
素成などを補足するだけで、容易にユーザ辞書に登録す
ることができる。
【0107】なお、ここでは2つの言語間の翻訳を扱っ
たが、1つの言語内での編集にも応用が可能である。日
本語を例にとると、読みがながふってある部分を一気に
削除したり、逆に日本語辞書を用いて指定した語句に対
して自動的に読みがなをふることもできる。また、同実
施例では、辞書として単語辞書54,63の1つの辞書が存
在する場合を述べたが、各種の専門用語辞書を複数併用
してもよい。
【0108】
【発明の効果】以上説明したように、本発明のデータベ
ース作成支援装置によれば、複数の言語の文書の対応関
係が迅速に抽出され。更にこれを利用して種々のタイプ
のデータベースを容易に作成することが可能となる。ま
た、本発明の機械翻訳装置によれば、文の構成要素
(文、文節、句、単語)を最大限に利用しているので、
作業者の負担を著しく軽減することができるという効果
が得られる。
【図面の簡単な説明】
【図1】本発明の第1実施例に係るデータベース作成支
援装置の構成を示すブロック図である。
【図2】第1実施例の対応関係付与の処理を示すフロー
チャートである。
【図3】第1実施例に用いられる表示部の画面のレイア
ウトの一例を示す図である。
【図4】第1実施例に用いられる表示部の画面のレイア
ウトの一例を示す図である。
【図5】第1実施例に用いられる表示部の画面のレイア
ウトの一例を示す図である。
【図6】第1実施例に用いられる表示部の画面のレイア
ウトの一例を示す図である。
【図7】第1実施例に用いられる表示部の画面のレイア
ウトの一例を示す図である。
【図8】第1実施例に用いられる表示部の画面のレイア
ウトの一例を示す図である。
【図9】第1実施例に用いられる表示部の画面のレイア
ウトの一例を示す図である。
【図10】第1実施例に用いられる表示部のコマンド画
面のレイアウトの一例を示す説明図である。
【図11】第1実施例に用いられる表示部の画面のレイ
アウトの一例を示す図である。
【図12】第1実施例のデータベース作成支援装置に翻
訳部を接続した場合の構成を示すブロック図である。
【図13】第1実施例に用いられる表示部の画面のレイ
アウトの一例を示す図である。
【図14】第1実施例におけるユーザ辞書作成の処理の
流れを示すフローチャートである。
【図15】第1実施例のデータベース作成支援装置に言
語規則を蓄積する機能を付加した際の構成図である。
【図16】第1実施例における構文木の一例を示す説明
図である。
【図17】本発明の第2実施例に係るデータベース作成
支援装置の構成を示すブロック図である。
【図18】第2実施例のデータベース作成の処理を示す
フローチャートである。
【図19】第1実施例のデータベース作成支援装置を付
加した機械翻訳装置の構成を示すブロック図である。
【図20】第2実施例の翻訳処理を示すフローチャート
である。
【図21】第2実施例の日英翻訳処理を示すフローチャ
ートである。
【図22】第2実施例に用いられる表示部のコマンド画
面のレイアウトの一例を示す説明図である。
【図23】第2実施例に用いられる表示部の画面のレイ
アウトの一例を示す説明図である。
【図24】第2実施例の日英翻訳処理を示すフローチャ
ートである。
【図25】第2実施例の日英翻訳処理を示すフローチャ
ートである。
【符号の説明】
51 入力部 52 言語記憶部 53 形態素解析部 54 単語辞書 55 文書解析データバッファ 56 言語文書情報抽出部 57 言語文書情報抽出バッファ 58 出力部 59 表示部 101,102 入力部 103,104 文書記憶部 105,106 形態素解析部 107,108 単語辞書 109,110 文書解析データバッファ 111,112 論理構造抽出部 113,114 論理構造記憶部 115 対応関係抽出部 116 対応関係記憶部 117 出力部 118 表示部
フロントページの続き (72)発明者 安達 久博 神奈川県川崎市幸区小向東芝町1 株式会 社東芝総合研究所内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数言語の文章を入力する入力手段と、
    各言語の入力文章の形態素を解析する解析手段と、該解
    析手段における形態素解析処理に利用する辞書とを具備
    し、各言語の対応を記述するデータベースの作成を支援
    するデータベース作成支援装置において、 前記複数言語の文章の対応関係を文、文節、句、単語等
    の構成単位で自動的に作成し、作成された対応関係を対
    話的に修正する機能を備えたことを特徴とするデータベ
    ース作成支援装置。
  2. 【請求項2】 複数言語の文章を入力する入力手段と、
    各言語の入力文章の形態素を解析する解析手段と、該解
    析手段における形態素解析処理に利用する辞書とを具備
    し、各言語の対応を記述するデータベースの作成を支援
    するデータベース作成支援装置において、 前記複数言語の文章の対応関係を、段落、パラグラフの
    構成単位で自動的に作成し、作成された対応関係を対話
    的に修正する機能を備えたことを特徴とするデータベー
    ス作成支援装置。
  3. 【請求項3】 第1言語を第2言語に翻訳する機械翻訳
    装置において、 第1言語の文章及び指示情報を入力する入力手段と、入
    力された第1言語の文章を形態素解析し第2言語へ翻訳
    する翻訳処理手段と、該翻訳処理を行なうために利用す
    る知識を格納する翻訳辞書と、翻訳された第2言語で記
    述された文章及び指示情報を表示する表示手段を具備
    し、文字・数字以外の記号に基づいて翻訳を行なうこと
    を特徴とする機械翻訳装置。
JP4074721A 1992-03-30 1992-03-30 データベース作成支援装置及び機械翻訳装置 Pending JPH05282361A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4074721A JPH05282361A (ja) 1992-03-30 1992-03-30 データベース作成支援装置及び機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4074721A JPH05282361A (ja) 1992-03-30 1992-03-30 データベース作成支援装置及び機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH05282361A true JPH05282361A (ja) 1993-10-29

Family

ID=13555375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4074721A Pending JPH05282361A (ja) 1992-03-30 1992-03-30 データベース作成支援装置及び機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH05282361A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004107203A1 (ja) * 2003-05-30 2004-12-09 Fujitsu Limited 対訳文対応付け装置
JP2009157900A (ja) * 2007-12-25 2009-07-16 Fuji Xerox Co Ltd 対訳文抽出装置及び対訳文抽出方法
JP2017058760A (ja) * 2015-09-14 2017-03-23 株式会社東芝 コミュニケーション支援装置、方法及びプログラム
JP2018026098A (ja) * 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 識別制御方法及び識別制御装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004107203A1 (ja) * 2003-05-30 2004-12-09 Fujitsu Limited 対訳文対応付け装置
US7308398B2 (en) 2003-05-30 2007-12-11 Fujitsu Limited Translation correlation device
JP2009157900A (ja) * 2007-12-25 2009-07-16 Fuji Xerox Co Ltd 対訳文抽出装置及び対訳文抽出方法
JP2017058760A (ja) * 2015-09-14 2017-03-23 株式会社東芝 コミュニケーション支援装置、方法及びプログラム
JP2018026098A (ja) * 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 識別制御方法及び識別制御装置

Similar Documents

Publication Publication Date Title
US5311429A (en) Maintenance support method and apparatus for natural language processing system
US5200893A (en) Computer aided text generation method and system
US5721938A (en) Method and device for parsing and analyzing natural language sentences and text
EP0645720B1 (en) Dictionary creation supporting system
JPS6140673A (ja) 外国語作文用翻訳方法、および翻訳機
JPS62203273A (ja) 機械翻訳システム
JPH07295986A (ja) イディオム処理機能を持つ機械翻訳装置
US5384700A (en) Method and system for storing multiple, modifiable Yomi and Kanji strings in a structured document
Kazman Structuring the text of the Oxford English Dictionary through finite state transduction
Van Halteren et al. Linguistic Exploitation of Syntactic Databases: The Use of the Nijmegen LDB Program
JPH05120324A (ja) 言語処理方式
JPH05282361A (ja) データベース作成支援装置及び機械翻訳装置
JPH04160473A (ja) 事例再利用型翻訳方法および装置
JP5982162B2 (ja) 校閲支援システムおよびプログラム
JPH0561902A (ja) 機械翻訳システム
JPH1021242A (ja) 機械翻訳装置及び機械翻訳後編集方法
JPH04174069A (ja) 言語理解支援装置
JP3316884B2 (ja) 言語翻訳装置
JPH0550778B2 (ja)
JPH02140873A (ja) 機械翻訳システム
JPH0778166A (ja) 翻訳方法及び機械翻訳装置
JPS6320570A (ja) 機械翻訳システム
JPH1063665A (ja) テキスト翻訳方法および装置
JPH01129355A (ja) 文書作成・校正支援装置
Segal Machine translation of natural languages: the TOVNA MTS solution