JPH0267679A - 辞書作成支援機能付き翻訳処理方式および装置 - Google Patents

辞書作成支援機能付き翻訳処理方式および装置

Info

Publication number
JPH0267679A
JPH0267679A JP63218317A JP21831788A JPH0267679A JP H0267679 A JPH0267679 A JP H0267679A JP 63218317 A JP63218317 A JP 63218317A JP 21831788 A JP21831788 A JP 21831788A JP H0267679 A JPH0267679 A JP H0267679A
Authority
JP
Japan
Prior art keywords
information
dictionary
word
user
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63218317A
Other languages
English (en)
Inventor
Masasuke Tominaga
冨永 雅介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63218317A priority Critical patent/JPH0267679A/ja
Publication of JPH0267679A publication Critical patent/JPH0267679A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、言語間の翻訳処理装置に関し、特にユーザー
が指示した情報に基づいて翻訳対象領域に応じた辞書を
容易にかつ、効率的に作成し、その辞書を用いて翻訳処
理を行うことを特徴とする辞書作成支援機能付き翻訳処
理方式および装置に関する。
〔従来の技術〕
従来より、第1言語を第2言語に変換する翻訳処理装置
が提案されているが、特に自然言語間の翻訳処理におい
ては、第1言語や第2i′語の持つ多速性を解消し、適
確な訳文を生成する必要がある。
例えば、ある種の0′L語は、それが用いられる環境に
応じて複数の意味で使われることがあるが。
翻訳処理でこの種の単語の訳語を決定する際には、実際
のテキスト上でどのような文脈で用いられているかをチ
エツクし、その文脈に最適な訳語を選択しなければなら
ない。したがって、あらかじめ辞書情報として、訳語と
それが選択されるための条件を設定しておき、その情報
を参照することによって訳語を選択するという方法がと
られていた。
また、それ以外の方法としては、訳語などの違いを、翻
訳対象テキストの分野の違いと見なし、分野別に多義を
絞り込んだ専門辞書を用意したり、ユーザー自身が、汎
用辞書の情報を参照し、翻訳する文書対応に多義を絞り
込んだ辞書を作成するという方法がとられている。
なお、この種の多義性の解消と辞書の関係については、
情報処理第26巻第10号(1985)の第1174頁
から第1183頁において論じられている。
また、この種の装置として関連するものとして、特願昭
61−179940号あるいは同62−6107]7号
等が挙げられる。
〔発明が解決しようとする課題〕
上記従来技術において、各単語の持つ多義性をすべて考
慮し、それぞれの成立条件をすべて検証し、多義を解消
するという方法は、計算機の処理欧が極めて大きくなる
という問題がある。また、多義を解消するための条件を
、すべての場合について厳密に定義できるとは限らず、
完全に多義を解消することは不可能である。特に、広範
な分野の文書を翻訳対象とすべく、網羅的な辞書を作成
すると、個々の単語の様々な用いられ方が登録され、多
義が増大するため、その識別ができずに、翻訳精度が低
下するといった問題点もある。
分野別の専門辞書を作成する方法は、訳語などの多義を
大まかな分野の違いとして分けることが困難な場合もあ
るという問題がある。
また、ユーザーが、翻訳する文書対応に多義を絞り込ん
だ辞書を作成する方法においても、エンドユーザーにと
って簡単に辞書作成を行う方法については、提案されて
いなかった。
したがって、翻訳処理において適切な訳文を生成するた
めには、多義を解消するための情報を厳密に設定し、そ
れを用いた高度な処理を行うとともに、翻訳するテキス
トに応じて、あらかじめ多義を絞り込んだ辞書を作成す
る方法を組合せ、効率的かつ精度の高い翻訳処理を行わ
なければならない。したがって、詳細な言語情報を含む
#害をユーザーにとって簡便な方法で作成することを可
能にするような手段を提供することが重要な課題となる
また、この辞書作成においては、エンドユーザーでも品
質の高い辞書情報を作成することが可能となるような工
夫が必要である。特に、限られたサンプルテキストから
、対象とする文書固有の言語表現を抽出し、辞書情報を
作成する場合、どのような分野のテキストにおいても用
いられる基本的な言語表現に対応するような辞書情報が
抜けてしまうといった問題や、辞書を作成するユーザー
ごとの辞書作成作業の慣れの違いや主観的な解釈のバラ
ツキが、辞書情報の品質に影響を及ぼすといった問題を
解決しなければならない。
そこで本発明では、上記問題点の解決を図るために、エ
ンドユーザーが、翻訳するテキスト対応の品質の高い辞
書を簡便に構築し、それを用いて精度の高い効率的な翻
訳処理を行うことを可能とする、辞書作成支援機能付き
翻訳処理方式および装置を提供することを目的としてい
る。
〔課題を解決するための手段〕
上記目的は、単語の出現頻度等を抽出する手段と、該手
段によって抽出された頻度情報等に基づいて、翻訳対象
に依存して、多義をあらかじめ絞り込めると判断した第
1言語の単語に対して、その単語と第2β語の訳語との
ペアリストなど、汎用辞書の情報のうち有効な情報を示
す情報をユーザーが指示する手段を備え、その手段によ
って指示された情報を基に、汎用辞書の情報の中から、
翻訳対象テキストに適した情報を自動的に抽出し、ユー
ザー辞書を作成する手段を備えることにより、達成され
る。
また上記目的は、分野や文書の違いにかかわらず用いら
れるような基本情報については、汎用辞書の中で基本情
報である部分をマーキングしておき、ユーザー辞書を作
成する際に、その基本情報もユーザー辞書に含めかどう
か選択可能とする手段を備えることによって、達成され
る。
また上記目的は、概念術に対応する辞書情報を用意して
おき、特定の単語の辞書情報を作成する際には、その単
語の抽象的な意味に対応する(上位概念の)概念術の辞
書情報を参照し、該辞書情報に単語固有の情報を追加す
る手段を備えることにより、達成される。
〔作用〕
本発明の翻訳処理装置においては、翻訳対象テキストに
出現する第18′語の単語のうち、出現頻度が高く多義
の多い11言語に対して、その単語と第2i′語の訳語
のペアリストや、汎用辞書の情報の一部の情報など、汎
用辞外の情報のうち有効な情報を示す情報を指示するこ
とによって、翻訳対象テキストに適した情報を自動的に
抽出し、ユーザー辞書を作成する。
それによって、汎用辞書の膨大な情報のうち。
予め、#JI訳対象テキストに適した辞書情報だけでユ
ーザー辞書を作成することが可能となり、個々のB語の
持つ多義もある程度限定することができるので、多義解
消の失敗による翻訳精度の低下を防止し、かつ、無駄な
情報を参照することなく効率的に翻訳処理を行うことが
できる。
また、ユーザーは、汎用辞書の詳細な情報を見ることな
く、簡単な情報の指示だけで、容易にユーザー辞書を作
成することができる。
また、分野や文書の違いによらず用いられる可能性の高
い、汎用辞書中の基本情報については、予めマーキング
されているので、ユーザーが直接指示した分野や文書固
有の表現に対応する情報だけでなく、基本情報も合わせ
て抽出するかどうか選択することが可能であり、ユーザ
ー辞書の情報を抜けなく設定することができる。
また、概念前に対応する辞書を用意することによって、
特定の単語の辞書情報を作成する際に。
その単語の上位概念に相当する概念術の辞書情報をテン
プレートとして用いて、その情報に単語固有の情報を追
加したり、概念術の辞書情報を修正したりするだけで所
望の辞書情報を容易に作成することが可能であり、かつ
、ユーザーごとの主観的な解釈の違いによる辞書情報の
バラツキや情報の抜けを極力おさえることが可能である
〔実施例〕
以下、本発明の実施例を図面に基づいて詳細に説明する
第1図は本発明の一実施例を示す翻訳処理装置のブロッ
ク図である。図において、1はCP U、2は内部処理
用テーブルや処理プログラムを有するメインメモリ、3
は翻訳対象のテキストを蓄えるファイル、4は翻訳対象
テキストに含まれる単語の出現頻度情報やその単語につ
いて汎用辞書に登録されている品詞や訳語等の多義の種
類に関する情報を蓄える統計情報ファイル、5は汎用辞
書ファイル、6は類語辞書ファイル、7はユーザー辞書
ファイル、8は文法規則を蓄えるファイル。
9はユーザーが処理するテキストやユーザー辞書を作成
する際に情報を入力するためのキーボード等の人力装置
、10は統計情報や翻訳結果、汎用辞書やユーザー辞書
の情報を確認するための表示装置を示している。
第2図は、第1図に示したメインメモリ2の割付は構成
図である。同図において、抽出項目テーブル21は、ユ
ーザーが汎用辞書から必要な情報を抽出するために指定
する。第1−言語の単語とそれに対応する第2′□、言
語の訳語のペアリスト等の汎用辞書の情報のうち有効と
なる部分を示す情報を入れる。フォーマット情報テーブ
ル22は汎用辞+’Fやユーザー辞書の情報の並びを示
すフォーマット情報を入れる。検索用単語テーブル23
は検索する単語を記憶しておく。単語情報テーブル24
は汎用辞書やユーザー辞書から検索した単語の辞〃情報
を入れる。抽出情報テーブル25は汎用辞書から検索し
た単語の辞書情報のうち、抽出項目情報テーブル21の
情報について抽出した情報を入れる。統計情報テーブル
26は、標訳対象テキストに含まれる単d、の出現頻度
や、その単dbについて汎用辞書に登録されている品詞
や訳語等の多義の種類に関する情報や、KWICリスト
を入れる。処理プログラム用記憶領域27は処理するテ
キストを単語に分割し、検索用単語テーブル23に格納
するためのプログラム、汎用辞書やユーザー辞書から辞
書情報を検索するためのプログラム、抽出項目情報テー
ブル21の情報に基づいて単語情報テーブル24の情報
から必要な情報を抽出し、抽出情報テーブル25に入れ
、抽出情報テーブル25に入った情報をユーザー辞書7
に蓄積するためのプログラム。翻訳対象テキストに含ま
れる単語の出現頻度や、その単語について汎用辞書に登
録されている品詞や訳語等の多義の数を算出したりKW
ICリストを生成するためのプログラムそして、文法規
則ファイル8.ユーザー辞書ファイル7、汎用辞書ファ
イル5の情報を基にテキストファイル3のテキストや、
ユーザーがキーボード9から入力したテキストを翻訳処
理するためのプログラム等を格納する記憶領域を示して
いる。
次に5本実施例の処理動作について説明する。
第4図は本実施例の処理プログラムのうち、統計情報を
抽出するプログラムの処理動作を示すフローチャートで
ある。以下、第4図に従って、処理動作を説明する。
オペレータによって、統計情報を抽出するプログラムが
起動されると、指定されたテキストファイル3から1文
ずつ読み込まれ、CPUIによりQ′J、語に分割され
、検索単語テーブル23に設定される(ステップ41.
42)。次に、各単語についての統計情報が統計情報フ
ァイルに設定されているか確認される(ステップ43a
)、統計情報ファイルに設定されていなければ、CPU
Iはその単語を検索キーとして汎用辞書の情報を検索す
る(ステップ43b)。次にCPUIはその単語情報テ
ーブル24に設定された辞書情報から、品詞の種類と数
や訳語の数等を抽出し、出現@度。
その単語を中心としたKWICリストとともに、該単語
をキーとして統計情報ファイル4に書き込む(ステップ
43c)。この場合、出現頻度は1に設定される。また
、該単語に関する統計情報が統計情報ファイル4に設定
されている場合は、該統計情報のうち出現頻度をインク
リメントし、該単語を中心とするKWICリストを追加
する(ステップ43d)。そして、以上の処理をテキス
トファイル3のすべての文について繰返す(ステップ4
4)。
上記処理によって、テキストファイル3に関する統計情
報が、統計情報ファイル4に設定される。
第3図は9本実施例の主要部を成す、ユーザー辞書を作
成するプログラムの処理動作を示すフローチャートであ
る。以下、第3図に従って、処理動作を説明する。
まずオペレータは、統計情報ファイル4からリストアツ
ブすべき単語の出現頻度や品詞の種類や数または訳語の
多義の数に関する条件をキーボード9によって指定する
。CPUIは、その条件を満す単語に関する情報を統計
情報ファイル4から読込み1M計情報テーブル26に設
定し表示装置10に出力する(ステップ301)。
次に、オペレータは出力された統計情報に基づき、翻訳
対象テキストに適した訳語が決定できれば、該第1言語
の単語とそれに対応する第2i′語の訳語のペアリスト
を、抽出項目情報テーブル21に設定する(ステップ3
02)。このペアリストは、すべての単語に対して作成
する必要はなく、オペレータが、KWICリストや翻訳
対象領域に関する知識などに基づき、限定できると判断
した単語に対してのみ行えば良い。また、1つの単語に
対して複数の訳語とのペアリストを設定することも可能
である。
次に、抽出項目情報テーブル21への該ペアリストの設
定が完了すると、汎用辞書から情報を抽出するためのプ
ログラムが起動される。
まず、CP U 1は抽出項目情報テーブル21に設定
されたペアリストのうち、第1−言語の単語を検索単語
テーブル23に設定する。この際、同じ単語は重複して
設定しない(ステップ303)。
次に、CPUIは検索単語テーブル内の単語を検索キー
して、汎用辞書5を検索し、検索データをメインメモリ
3の単語情報テーブル24に取込む(ステップ304)
次に、抽出項目情報テーブル21内のすべての第1言語
の単語と検索した単語のマツチングを行い、マツチした
場合についてのみ、抽出処理を行う(ステップ305,
305a、305b)。
次に、この抽出処理について説明する。辞書情報は、第
6図に示すように木構造を成している。
この辞書情報に対して、第5図に示すような、第1i°
語の単語とそれに対応する第2言語の訳語のペアリスト
が与えられると、辞書情報の枝のうち。
見い出し語と訳語がこのペアリストにマツチした部分に
対応する枝のフラグが対応される。第6図では、このフ
ラグが設定された枝を波線で表している。したがって、
すべてのペアリストとのマツチングが完了すると、この
辞書情報のうち抽出すべき情報に対応する枝のみにフラ
グが設定されることになる。また、ペアリストの訳語と
、辞書情報のすべての訳語とのマツチングが失敗した場
合には、第2B語における類語辞書ファイル6を参照す
ることにより、ペアリストの訳語と辞書情報の訳語が類
語関係にあるものを、再度探索することも可能である。
この場合、類語関係でマツチングに成功した辞書情報の
訳語は、ペアリストの訳語で置換えられる。第6図では
、辞書情報の訳語dとペアリストの訳語ddが類語関係
でマツチしたことを示している。
以上の抽出処理が完了すると、第6図に示すように、C
PUIは、単語情報テーブル24の辞書情報のうち、フ
ラグが設定された部分木に対応する情報を抽出情報テー
ブル25にコピーする(ステップ306)。
次に、この抽出された辞書情報を表示装置10に表示す
るかどうかが確認される(ステップ307)。
表示する場合には、オペレータによって抽出情報が確認
され、OKであれば、ユーザー辞書ファイル7に書き込
まれる。この際、汎用辞書5とユーザー辞書7のフォー
マットが異なれば、フォーマット情報テーブル22に設
定されているフォーマット情報を参照することにより、
フォーマットを変換することも可能である(ステップ3
08゜309.310)、不可であれば、抽出された情
報はキャンセルされ次の単語の処理に移る(ステップ3
08,309)。
このステップ307,308,309の処理は。
省略することも可能である。
次に、上記ステップ304から310の処理を、検索単
語テーブル23のすべての単語に対して行う(ステップ
311)。
以上の処理によって、オペレータが指示した第1言語の
単語とそれに対応する第2言語の訳語のペアリストに基
づいて、汎用辞書の情報から、翻訳対象テキストに応じ
た情報のみを抽出し、ユーザー辞書を作成することが可
能である。
また、オペレータが翻訳対象領域の専門家である場合に
は、ステップ301,302のように統計情報を参照し
なくても、一部の単語については直接ペアリストを指定
することも可能である。
また、本実施例では、第1i″語の単語とそれに対応す
る第2言語の訳語のペアリストによって抽出項目情報を
構成したが、汎用辞書の他の情報項目によって、抽出項
目情報を構成し、ユーザー辞書に登録すべき情報を抽出
することも可能である。
第7図は本発明の他の実施例による、ユーザー辞書を作
成するプログラムの処理動作を示すフローチャートであ
る。以下、第7図に従って、処理動作を説明する。
まずオペレータは、統計情報ファイル4からリストアツ
ブすべき単語の出現頻度や品詞の種類や数、または訳語
の多義の数に関する条件を、キーボード9によって指定
する。CPUIは、その条件を満す単語に関する情報を
統計情報ファイル4から読込み、統計情報テーブル26
に設定し1表示装置10に出力する(ステップ71)。
次にオペレータは、出力された統計情報に基づき、翻訳
対象テキストに応じて多義が絞込めそうな単語を選択し
、品詞や訳語などの汎用辞書5の情報項目のうち1表示
装置10に出力すべき項目を指示する(ステップ72)
。CPUIは、オペレータによって選択された単語を検
索キーとじて汎用辞書5を検索し、検索データをメイン
メモリ3の単語情報テーブル24に取込み、オペレータ
が指示した情報項目に関する情報を表示袋Fi10に出
力する(ステップ73)・ 次にオペレータは、表示装置10に出力された汎用辞書
の情報のうちユーザー辞書に登録さべき情報を指示する
。このオペレータによって指示された情報は、抽出項目
情報テーブル21に第9図に示すように設定される(ス
テップ74)。第9図には抽出項目として品詞と第2 
S’語の訳語を指定しているが、これは、汎用辞書の他
の情報項目であってもかまわない。第8図において“−
″記号は、その情報は考慮しない(特に限定しない)こ
とを意味する。
次にCI) U 1は、単語情報テーブル24に設定し
た情報のうち、抽出項目情報テーブル21に指定された
情報にマツチする枝のフラグを設定する。
第9図は、この処理によってフラグが設定された枝を波
線で示している(ステップ75)。
次にCPUIは、単語情報テーブル24の辞書情報のう
ち、フラグが設定された部分木に対応する情報を抽出情
報テーブル25にコピーし、さらにこの情報をユーザー
辞書ファイル7に書込む(ステップ76.77)。さら
に、他の単語についてユーザー辞書を作成する必要があ
るかが確認され、あれば、ステップ72にもどり、上記
ユーザー辞書作成処理が繰返される(ステップ78)。
第10図は、本発明の他の実施例による、抽出項目情報
テーブル21に抽出項目情報を設定・蓄積するプログラ
ムの処理動作を示すフローチャートである。抽出項目情
報テーブル21に情報を設定したあとのユーザー辞書作
成処理は、他の実施例と同様にして行うことが可能であ
る。
以r、第10図に従って、処理動作を説明する。
まず、CPUIはテキストファイル3から1文を読込み
、汎用辞書5と文法規則ファイル8の情報を用いて翻訳
処理を行い、その結果を表示装置10に出力する。なお
、与えられた文を翻訳するというIfJ]訳処理方式に
ついては、例えば、特開昭56−138586号(自然
i′話語間自動翻訳方式)に開示された方式を用いるこ
とが可能であり詳細説明は省略する(ステップ101)
次に、オペレータは翻訳結果が正しいかどうか確認しく
ステップ102)、翻訳成功であれば、さらに翻訳した
文の中に、ユーザー辞書としてべ↑録すべき単語および
その辞書情報があるかどうか確認する(ステップ103
)。この際、統計情報ファイル4の情報を参照できるよ
うにすることも可能である。
次にオペレータは、ユーザー辞書7に登録すべき単語が
あればキーボード9によって単語と、それに対応する品
詞や訳語などの情報項目を指定する。この指定された情
報は、CPUIによって抽出項目情報テーブル21に設
定・蓄積される(ステップ104)。
さらに、翻訳すべき文があれば、上記抽出項目情報設定
・蓄積処理を繰返す(ステップ105)。
また、上記処理は、統計情報ファイル4の情報を参照し
、ユーザー辞書7に登録すべき単語を選び出した後に、
それらの単語を含む文を、テキストファイル3から抽出
し、抽出された文だけを翻訳処理するようにすることに
よって、さらに効率的に行うことも可能である。
上記処理によって蓄積された抽出項目情報は、他の実施
例と同様に、ユーザー辞書作成処理に用いることが可能
である。
また上記実施例によると、サンプルテキストを実際に翻
訳し、有効であった汎用辞書の情報を、ユーザーの翻訳
すべき文書対応に確実に蓄積することが可能であるので
、ユーザーにとってより容易に、かつ、誤りなくユーザ
ー辞書を作成することが可能である。
また、上記ユーザー辞書作成処理によって作成されたユ
ーザー辞書と汎用辞書を用いて翻訳処理する際には、あ
らかじめ多義を限定したユーザー辞書の情報を優先して
用いることによって、精度の高い翻訳処理を行うことが
できる。
第11図は、本発明の他の実施例による。ユーザー辞書
を作成するプログラムの処理動作を示すフローチャート
である。以下、第11図に従って。
処理動作を説明する。
まずオペレータは、汎用辞書の情報のうちユーザー辞書
の情報として登録すべき情報を表す、抽出項目情報を抽
出項目情報テーブル21に設定する(ステップ111)
。この処理は1本発明の他の実施例に示したように、第
1言語の単語とそれに対応する第2言語の訳語のペアリ
ストを直接指定する方法や、サンプルテキストを実際に
翻訳し。
有効であった辞書情報を指定する方法などが可能である
。本実施例では、第12図にに示すがごとき抽出項目情
報が設定されている例を考える。
次にCPUIは、抽出項目情報テーブル21に設定され
た第12図に示すペアリストのうち、第1盾語の単語を
検索テーブル23に設定する。この際、同じ単語は重複
して設定しない(ステップ112)。
次に、CPUIは検索単語テーブル内の単語を検索キー
として汎用辞書5を検索し、検索データをメインメモリ
3の単語情報テーブル24に取込み抽出処理を行う(ス
テップ113)。この辞書検索と抽出処理については、
第3図で説明した他の実施例のステップ304と305
の処理に対応する。
第12図に示した抽出項目情報のうち、単語Aについて
抽出処理を行った結果は、第13図の波線によって示さ
れる。また、汎用辞書の情報のうち1分野や文書の違い
にかかわらず用いられる可能性の高い基本情報について
は、あらかじめ汎用辞書においてマーキングされている
。第13図では、この基本情報に対応する部分木を2重
棒線によって示している。
次に、抽出処理を行った該単語に対して、ユーザー辞書
に基本情報も登録すべきか否かがオペレータによって確
認される(ステップ114)。
基本情報も登録する場合には、抽出処理によってフラグ
が設定された部分木に対応する情報と、基本情報である
とマーキングされた部分木に対応する情報を抽出情報テ
ーブル25にコピーする(ステップ115)。基本情報
を登録しない場合には、抽出処理によってフラグが設定
された部分木に対応する情報のみを抽出情報テーブル2
5にコピーする(ステップ116)、第13図には、基
本情報も登録した場合についての結果を示している。
次に、抽出情報テーブル25にコピーされた情報をユー
ザー辞書ファイル7に書込む(ステップ117)。
そして、以上の処理を、検索単語テーブル23のすべて
の単語に対して組返す(ステップ118)。
以上の処理によって、ユーザーが指定した抽出項目情報
によって抽出された情報だけでなく、あらかじめ汎用辞
書においてマーキングしていた基本情報についてもユー
ザー辞書に抜けなく設定することが可能であり5ユーザ
ー辞書の情報の品質を保つことができる。
第14図は1本発明の他の実施例による、ユーザー辞書
を作成するプログラムの処理動作を示すフローチャート
である。以下、第14図に従って、処理動作を説明する
まずオペレータは、ユーザー辞書に登録する単語と、そ
の単語の上位概念に相当する概念コードをキーボード9
から人力する(ステップ1401)。
次にCPUIは、概念コードを検索キーとして汎用辞書
5を検索し、検索データをメインメモリ3の単語情報テ
ーブル24に取込む(ステップ1402)。この場合、
概念コードに対応する辞非情報は、他の通常の単語を見
出し語とする辞書情報と区別するために、見出し語に特
殊記号を付加し、例えば「@概念コード」という見出し
語の形式で登録しておくことが可能であるし、また、概
念コードに対応する辞書情報は汎用辞書5ではなく、別
の辞書ファイルに蓄積しておくことも可能である。
次にCPUIは、検索したデータを表示装置10に表示
する(ステップ1403)。
概念コードに対応する辞書情報の例を、第15図に示す
が、基本的には、通常の単語の辞書情報の仕様と同一で
ある。但し、表示装置10に表示する際には、ユーザー
に理解しやすい形式で表示するのが望ましい。第15図
では、各概念に対応して、品詞、共起パターンと意味(
単語の訳語に相当)下位概念や実例を例として示してい
るが。
他の一般の辞書情報を追加することも可能である・この
辞書内容については、下位概念が実例についての情報な
どを概念固有の情報以外については、通常の単語の辞書
情報の内容に準するとするだけで、本実施例では特に指
定しない。
第15図では、例えば、概念コードPO8T(位置変化
を表す概念)に対して、対応する単語の品詞が■(動詞
)であれば、その動詞の主語Sは、一般に「動物や乗り
物)であり、かつ、rFROM+場所を表す名詞J、r
T○十場所を表す名詞」という前置詞句と共起しやすく
、その意味や日本語における訳出のパターンは、「〜が
〜から〜へ移動する」であるという情報を示している。
また、下位概念や実例に関する情報としては、下位概念
のコードを大文字で、実例(その概念コードを上位概念
とするm語の例)を小文字で示している。
他の概念コードに対応する情報についても同様の解釈が
可能である。
次に、オペレータは、表示装置10に表示された情報を
確認し、下位概念や実例の情報を参照するかどうか判断
する(ステップ1404)。
下位概念や実例をたどる場合は、その下位概念の概念コ
ードや実例の単語を指定し、その概念コードや単語を検
索キーとして辞書検索する(ステップ1405.140
6)。
次に、オペレータは、検索した概念コードや実例の単語
の辞書情報に対して、ユーザー辞書に登録すべき単語の
固有の゛ゴ語情報を追加したり、検索情報を修正したり
して、所望の辞書情報を作成する。この際、統計情報フ
ァイル4の情報で、例えばKWICリストなどを参照可
能なようにすることも可能である。この辞書情報の追加
・修正作業としては、例えば、訳語を修正したり、共起
関係の制約条件をより限定したり、他の訳し分けの条件
を追加したりすることが可能である。この修正内容に関
しては、個々の辞書情報の仕様に依存するので、本発明
では限定しない。本発明では、類似の意味を持つ単語に
共起の辞書情報は、それらの単語に共通の上位概念に相
当する概念コードに対する辞書情報として登録しておき
、単語ごとの辞書情報を作成する際には、その情報を利
用するという点に特徴がある。
次に、オペレータは、ユーザー辞書に登録する単語に別
の語義を持たせて、多義とするかどうか判断する。多義
を追加する際には、さらに概念コードを指定し、その概
念コードを検索キーとして辞書を検索し、検索した辞書
情報を、すでに設定済みのユーザー辞書登録単語の辞書
情報にマージする(ステップ1409.1410)。こ
の多義設定の際には、ステップ1406において下位概
念や実例の辞書情報を検索する場合にも、すでに設定済
みのユーザー辞書登録単語の辞書情報に多義という形で
マージすることとする。
次にこの検索した多義に対応する辞書情報に対して、ス
テップ1407において、単語固有の情報の追加および
修正を行う。
次に、他に設定する多義がない場合には、上記処理によ
って作成した辞書データを、ステップ14o1で指定し
た単語を見出し語としてユーザー辞書に登録する(ステ
ップ1411)。
さらに、ユーザー辞書に登録したい単語があれば、上記
処理を繰返す(ステップ1412)。
上記実施例によると、複数の単語に共通のあるいは類似
の辞書情報は、そ胆らの単語の上位概念に相当する概念
コードを見出し語とする辞書情報として、あらかじめ登
録しているので、ユーザーが、新たにユーザー辞書に特
定の単語の辞書データを登録したい場合には、その単語
の上位概念に相当する概念コードの辞書データをテンプ
レートとして用い、その辞書情報にその単語固有の情報
を追加・修正するだけで所望の辞書情報を作成すること
が可能である。したがって、ユーザーごとの主観的な解
釈のバラツキや辞書作成作業に対する慣れの違いなどが
辞書情報の品質に影響を及ぼすといった現象を極力おさ
えることができる。また、ユーザーが作成する単語の基
本的な辞書情報・7体、この単語の上位概念の辞書情報
をコピーすれば、はぼ得ることができるので、辞書作成
効率が高いというメリットもある。
〔発明の効果〕
以上説明したごとく本発明によれば、大量の均質な限定
された分野のテキストを翻訳する際に、該テキストに含
まれる単語の出現頻度や品詞や訳語などの多義の数、さ
らにKWICリスト等を抽出・作成する手段と、該手段
によって抽出された統計情報に基づいて、翻訳対象テキ
ス1−に依存して、多義をあらかしめ絞り込めると判断
した第1M uの単語に対して、その単語と第2−語の
訳語とのペアリストなど、汎用辞書の情報のうち有効な
情報を示す情報をユーザーが指示する手段を備え、その
手段によって指示された情報を基に、汎用辞書の情報の
中から、翻訳対象テキストに適した情報を自動的に抽出
し、ユーザー辞書を作成する手段を備えることにより、
まず、エンドユーザーにとって簡便なh法で、あらかじ
め多義の絞込まれた翻訳対象テキストに適したユーザー
辞書を効率的に作成することが可能となった。
さらに、このユーザー辞書を用いて翻訳処理を行う手段
を備えることにより、精度の高い翻訳処理がiJ能とな
った。また、ユーザー辞書では、あらかじめ多義が絞り
込まれているので、無駄な情報を参照することなく、効
率的な翻訳処理を行うことが可能である。
また、上記ペアリスト等によって汎用辞書の情報のうち
必要な部分を抽出し、ユーザー辞書を作成することがで
きない場合にも、所望する単語の辞書情報を、その単語
の上位概念や類似の単語の辞書情報を参考にして作成す
る手段を備えたことにより、効率的でかつ誤りの少ない
辞書作成が可能である。
【図面の簡単な説明】
第1図は本発明の一実施例の翻訳処理装置のブロック図
、第2図は第1図におけるメインメモリの割付は構成図
、第3図、第4図は本発明の一実施例を説明するための
処理フロー図、第5図、第6図は本発明の一実施例を説
明するための説明図。 第7図は本発明の他の実施例を説明するための処理フロ
ー図、第8図、第9図は本発明の他の実施例を説明する
ための説明図、第10図は本発明の他の実施例を説明す
るための処理フロー図、第11図は本発明の他の実施例
を説明するための処理フロー図、第12図、第13図は
本発明の他の実施例を説明するための説明図、第14図
は本発明の他の実施例を説明するための処理フロー図、
第15図は本発明の他の実施例を説明するための説明図
である。 1・・・CPU、2・・・メインメモリ、3・・・テキ
ストファイル、6・・・統計情報ファイル、5・・・汎
用辞書ファイル、6・・・類語辞書ファイル、7・・・
ユーザー辞書ファイル、8・・・文法ファイル、9・・
・キーボード等の入力装置、10・・・表示装置、21
・・・抽出項目情報テーブル、22・・・フォーマット
情報テーブル、23・・・検出単語テーブル、24・・
・単語情報テーブル、25・・・抽出情報テーブル、2
6・・・統計情報テーブル、27・・・処理プログラム
。 高 図 ノ ら シ団用辞書7アイル 図 Z ヌイシヌモーリ 21  Nl出−1目朽緊宿反テーフ・ル22  h−
フッV・績目及テープ°ルZ3 硬専ゴ1岩テーフ゛ル z4 草語悄帛反テーフ・ツレ z5 オ由占1フト省反テーフ゛′ル Z6  a計情幸にテーフ゛ル z7 久シ記L70ロア′ラシへ 図 拓 図 /θ 図 で 図 図 第 図 1Z 図 光 図 遍 図

Claims (1)

  1. 【特許請求の範囲】 1、第1言語で記述されたテキストを、第2言語で記述
    されたテキストに変換する翻訳処理装置において、翻訳
    対象である第1言語で記述されたサンプルテキストから
    、単語の出現頻度等の統計情報を抽出する手段と、該手
    段によつて抽出された頻度情報に基づいて、汎用辞書か
    ら抽出すべき情報をユーザーが指示するための手段を有
    し、該手段によつて指示された情報に基づいて、汎用辞
    書の情報の中から翻訳対象テキストに適した情報を抽出
    し、ユーザー辞書を作成する手段を有することを特徴と
    する辞書作成支援機能付き翻訳処理装置。 2、前記ユーザーが指示する情報が、第1言語の単語と
    それに対応する第2言語の訳語のペアリストであり、こ
    の情報を用いて、汎用辞書から翻訳に必要な情報を自動
    的に抽出し、ユーザー辞書を作成する手段を有すること
    を特徴とする特許請求の範囲第1項記載の辞書作成支援
    機能付き翻訳処理装置。 3、前記ユーザーが指示する情報が、第1言語の単語と
    それに対応する第2言語の訳語のペアリストであり、こ
    の情報を用いて、汎用辞書から翻訳に必要な情報を自動
    的に抽出し、かつ、そのペアに対応した情報が見つから
    ない場合は、第2言語における類語辞書を用いて、該第
    2言語の訳語に最も近い別の単語に置換えることによつ
    て同様の情報抽出を行い、ユーザー辞書を作成する手段
    を有することを特徴とする特許請求の範囲第1項記載の
    辞書作成支援機能付き翻訳処理装置。 4、前記第1言語の単語の出現頻度等の統計情報を抽出
    する手段によつて選ばれた出現頻度が高く、多義の多い
    単語について、汎用辞書の情報のうちユーザーの指定し
    た一部の情報を表示する装置を有し、該表示装置に出力
    された情報の中から、ユーザー辞書に登録すべき情報を
    ユーザーが指示することによつて、該ユーザー辞書を作
    成する手段を有することを特徴とする特許請求の範囲第
    1項記載の辞書作成支援機能付き翻訳処理装置。 5、前記第1言語によつて記述された翻訳対象領域のサ
    ンプルテキストを、汎用辞書を用いて翻訳し、前記第1
    言語の単語の出現頻度等の統計情報を抽出する手段によ
    つて選ばれた出現頻度が高く、多義の多い単語について
    、該サンプルテキストの翻訳で有効となつた辞書情報を
    抽出・蓄積する手段を有し、該手段によつて抽出・蓄積
    された情報に対応する辞書情報を汎用辞書から抽出し、
    ユーザー辞書を作成する手段を有することを特徴とする
    特許請求の範囲第1項記載の辞書作成支援機能付き翻訳
    処理装置。 6、第1言語で記述されたテキストを、第2言語で記述
    されたテキストに変換する翻訳処理装置において、翻訳
    対象である第1言語で記述されたサンプルテキストから
    、単語の出現頻度を抽出する手段と、該手段によつて抽
    出された頻度情報に基づいて、汎用辞書から抽出すべき
    情報をユーザーが指示するための手段を有し、該手段に
    よつて指示された情報に基づいて、汎用辞書の情報の中
    から、翻訳対象に適した情報を抽出し、ユーザー辞書を
    作成することを特徴とする辞書作成支援装置。 7、第1言語で記述されたテキストを、第2言語で記述
    されたテキストに変換する翻訳処理装置において、翻訳
    対象である第1言語で記述されたサンプルテキストから
    、単語の出現頻度を抽出する手段と、該手段によつて抽
    出された頻度情報に基づいて、汎用辞書から抽出すべき
    情報をユーザーが指示するための手段を有し、該手段に
    よつて指示された情報に基づいて、汎用辞書の情報の中
    から、翻訳対象に適した情報を抽出し、ユーザー辞書を
    作成する手段を有し、前記ユーザー辞書を用いて翻訳対
    象に適した効率の良い翻訳を行うことを特徴とする辞書
    作成支援機能付き翻訳処理装置。 8、均質な大量文書を翻訳する方式であり、特許請求の
    範囲第6項記載の辞書作成支援装置を用いて、翻訳対象
    文書に適したユーザー辞書を作成し前記ユーザー辞書を
    用いて効率的に翻訳を行うことを可能とする翻訳処理方
    式。 9、汎用辞書の各単語の情報のうち、出現頻度が高く、
    どの分野のテキストにおいても用いられうる基本的な情
    報については、それが基本情報であることを意味するマ
    ーシングをしておき、ユーザーが指示した汎用辞書から
    抽出すべき情報の他に、前記基本情報も抽出し、ユーザ
    ー辞書を作成することを可能とする手段を有することを
    特徴とする、特許請求の範囲第1項記載の辞書作成支援
    機能付き翻訳処理装置。 10、概念素に対応する辞書情報を用意しておき、特定
    の単語の辞書情報を作成する際には、その単語の抽象的
    な意味に対応する概念素の辞書情報を参照し、該辞書情
    報に単語固有の情報を追加することによつて、該単語の
    辞書情報を作成する手段を有することを特徴とする、辞
    書作成支援装置。 11、第1言語で記述されたテキストを、第2言語で記
    述されたテキストに変換する翻訳処理装置において、特
    許請求の範囲第10項記載の辞書作成支援装置をその機
    能の一部として有することを特徴とする特許請求の範囲
    第1項記載の辞書作成支援機能付き翻訳処理装置。
JP63218317A 1988-09-02 1988-09-02 辞書作成支援機能付き翻訳処理方式および装置 Pending JPH0267679A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63218317A JPH0267679A (ja) 1988-09-02 1988-09-02 辞書作成支援機能付き翻訳処理方式および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63218317A JPH0267679A (ja) 1988-09-02 1988-09-02 辞書作成支援機能付き翻訳処理方式および装置

Publications (1)

Publication Number Publication Date
JPH0267679A true JPH0267679A (ja) 1990-03-07

Family

ID=16717956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63218317A Pending JPH0267679A (ja) 1988-09-02 1988-09-02 辞書作成支援機能付き翻訳処理方式および装置

Country Status (1)

Country Link
JP (1) JPH0267679A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9146587B2 (en) 2011-09-01 2015-09-29 Kabushiki Kaisha Toshiba Broadcast wave receiver and electronic device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9146587B2 (en) 2011-09-01 2015-09-29 Kabushiki Kaisha Toshiba Broadcast wave receiver and electronic device

Similar Documents

Publication Publication Date Title
US5640575A (en) Method and apparatus of translation based on patterns
US5895446A (en) Pattern-based translation method and system
EP0282721B1 (en) Paradigm-based morphological text analysis for natural languages
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US5200893A (en) Computer aided text generation method and system
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
Wu Grammarless extraction of phrasal translation examples from parallel texts
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
Ofazer et al. Bootstrapping morphological analyzers by combining human elicitation and machine learning
US5289376A (en) Apparatus for displaying dictionary information in dictionary and apparatus for editing the dictionary by using the above apparatus
Vilares et al. Managing misspelled queries in IR applications
JPS6170660A (ja) 機械翻訳システムにおける多義表示・選択方法
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JPH0267679A (ja) 辞書作成支援機能付き翻訳処理方式および装置
JP2771976B2 (ja) 言語解析装置
JP3483585B2 (ja) 文書検索装置及び文書検索方法
JPS59140582A (ja) 自然言語翻訳援助方式
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JPH07244665A (ja) 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置
Walker Computational linguistic techniques in an on-line system for textual analysis
JPH0561902A (ja) 機械翻訳システム
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages