JPH0267679A

JPH0267679A - 辞書作成支援機能付き翻訳処理方式および装置

Info

Publication number: JPH0267679A
Application number: JP63218317A
Authority: JP
Inventors: Masasuke Tominaga; 冨永　雅介
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-09-02
Filing date: 1988-09-02
Publication date: 1990-03-07

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、言語間の翻訳処理装置に関し、特にユーザー
が指示した情報に基づいて翻訳対象領域に応じた辞書を
容易にかつ、効率的に作成し、その辞書を用いて翻訳処
理を行うことを特徴とする辞書作成支援機能付き翻訳処
理方式および装置に関する。

〔従来の技術〕

従来より、第１言語を第２言語に変換する翻訳処理装置
が提案されているが、特に自然言語間の翻訳処理におい
ては、第１言語や第２ｉ′語の持つ多速性を解消し、適
確な訳文を生成する必要がある。

例えば、ある種の０′Ｌ語は、それが用いられる環境に
応じて複数の意味で使われることがあるが。

翻訳処理でこの種の単語の訳語を決定する際には、実際
のテキスト上でどのような文脈で用いられているかをチ
エツクし、その文脈に最適な訳語を選択しなければなら
ない。したがって、あらかじめ辞書情報として、訳語と
それが選択されるための条件を設定しておき、その情報
を参照することによって訳語を選択するという方法がと
られていた。

また、それ以外の方法としては、訳語などの違いを、翻
訳対象テキストの分野の違いと見なし、分野別に多義を
絞り込んだ専門辞書を用意したり、ユーザー自身が、汎
用辞書の情報を参照し、翻訳する文書対応に多義を絞り
込んだ辞書を作成するという方法がとられている。

なお、この種の多義性の解消と辞書の関係については、
情報処理第２６巻第１０号（１９８５）の第１１７４頁
から第１１８３頁において論じられている。

また、この種の装置として関連するものとして、特願昭
６１−１７９９４０号あるいは同６２−６１０７］７号
等が挙げられる。

〔発明が解決しようとする課題〕

上記従来技術において、各単語の持つ多義性をすべて考
慮し、それぞれの成立条件をすべて検証し、多義を解消
するという方法は、計算機の処理欧が極めて大きくなる
という問題がある。また、多義を解消するための条件を
、すべての場合について厳密に定義できるとは限らず、
完全に多義を解消することは不可能である。特に、広範
な分野の文書を翻訳対象とすべく、網羅的な辞書を作成
すると、個々の単語の様々な用いられ方が登録され、多
義が増大するため、その識別ができずに、翻訳精度が低
下するといった問題点もある。

分野別の専門辞書を作成する方法は、訳語などの多義を
大まかな分野の違いとして分けることが困難な場合もあ
るという問題がある。

また、ユーザーが、翻訳する文書対応に多義を絞り込ん
だ辞書を作成する方法においても、エンドユーザーにと
って簡単に辞書作成を行う方法については、提案されて
いなかった。

したがって、翻訳処理において適切な訳文を生成するた
めには、多義を解消するための情報を厳密に設定し、そ
れを用いた高度な処理を行うとともに、翻訳するテキス
トに応じて、あらかじめ多義を絞り込んだ辞書を作成す
る方法を組合せ、効率的かつ精度の高い翻訳処理を行わ
なければならない。したがって、詳細な言語情報を含む
＃害をユーザーにとって簡便な方法で作成することを可
能にするような手段を提供することが重要な課題となる
。

また、この辞書作成においては、エンドユーザーでも品
質の高い辞書情報を作成することが可能となるような工
夫が必要である。特に、限られたサンプルテキストから
、対象とする文書固有の言語表現を抽出し、辞書情報を
作成する場合、どのような分野のテキストにおいても用
いられる基本的な言語表現に対応するような辞書情報が
抜けてしまうといった問題や、辞書を作成するユーザー
ごとの辞書作成作業の慣れの違いや主観的な解釈のバラ
ツキが、辞書情報の品質に影響を及ぼすといった問題を
解決しなければならない。

そこで本発明では、上記問題点の解決を図るために、エ
ンドユーザーが、翻訳するテキスト対応の品質の高い辞
書を簡便に構築し、それを用いて精度の高い効率的な翻
訳処理を行うことを可能とする、辞書作成支援機能付き
翻訳処理方式および装置を提供することを目的としてい
る。

〔課題を解決するための手段〕

上記目的は、単語の出現頻度等を抽出する手段と、該手
段によって抽出された頻度情報等に基づいて、翻訳対象
に依存して、多義をあらかじめ絞り込めると判断した第
１言語の単語に対して、その単語と第２β語の訳語との
ペアリストなど、汎用辞書の情報のうち有効な情報を示
す情報をユーザーが指示する手段を備え、その手段によ
って指示された情報を基に、汎用辞書の情報の中から、
翻訳対象テキストに適した情報を自動的に抽出し、ユー
ザー辞書を作成する手段を備えることにより、達成され
る。

また上記目的は、分野や文書の違いにかかわらず用いら
れるような基本情報については、汎用辞書の中で基本情
報である部分をマーキングしておき、ユーザー辞書を作
成する際に、その基本情報もユーザー辞書に含めかどう
か選択可能とする手段を備えることによって、達成され
る。

また上記目的は、概念術に対応する辞書情報を用意して
おき、特定の単語の辞書情報を作成する際には、その単
語の抽象的な意味に対応する（上位概念の）概念術の辞
書情報を参照し、該辞書情報に単語固有の情報を追加す
る手段を備えることにより、達成される。

〔作用〕

本発明の翻訳処理装置においては、翻訳対象テキストに
出現する第１８′語の単語のうち、出現頻度が高く多義
の多い１１言語に対して、その単語と第２ｉ′語の訳語
のペアリストや、汎用辞書の情報の一部の情報など、汎
用辞外の情報のうち有効な情報を示す情報を指示するこ
とによって、翻訳対象テキストに適した情報を自動的に
抽出し、ユーザー辞書を作成する。

それによって、汎用辞書の膨大な情報のうち。

予め、＃ＪＩ訳対象テキストに適した辞書情報だけでユ
ーザー辞書を作成することが可能となり、個々のＢ語の
持つ多義もある程度限定することができるので、多義解
消の失敗による翻訳精度の低下を防止し、かつ、無駄な
情報を参照することなく効率的に翻訳処理を行うことが
できる。

また、ユーザーは、汎用辞書の詳細な情報を見ることな
く、簡単な情報の指示だけで、容易にユーザー辞書を作
成することができる。

また、分野や文書の違いによらず用いられる可能性の高
い、汎用辞書中の基本情報については、予めマーキング
されているので、ユーザーが直接指示した分野や文書固
有の表現に対応する情報だけでなく、基本情報も合わせ
て抽出するかどうか選択することが可能であり、ユーザ
ー辞書の情報を抜けなく設定することができる。

また、概念前に対応する辞書を用意することによって、
特定の単語の辞書情報を作成する際に。

その単語の上位概念に相当する概念術の辞書情報をテン
プレートとして用いて、その情報に単語固有の情報を追
加したり、概念術の辞書情報を修正したりするだけで所
望の辞書情報を容易に作成することが可能であり、かつ
、ユーザーごとの主観的な解釈の違いによる辞書情報の
バラツキや情報の抜けを極力おさえることが可能である
。

〔実施例〕

以下、本発明の実施例を図面に基づいて詳細に説明する
。

第１図は本発明の一実施例を示す翻訳処理装置のブロッ
ク図である。図において、１はＣＰ　Ｕ、２は内部処理
用テーブルや処理プログラムを有するメインメモリ、３
は翻訳対象のテキストを蓄えるファイル、４は翻訳対象
テキストに含まれる単語の出現頻度情報やその単語につ
いて汎用辞書に登録されている品詞や訳語等の多義の種
類に関する情報を蓄える統計情報ファイル、５は汎用辞
書ファイル、６は類語辞書ファイル、７はユーザー辞書
ファイル、８は文法規則を蓄えるファイル。

９はユーザーが処理するテキストやユーザー辞書を作成
する際に情報を入力するためのキーボード等の人力装置
、１０は統計情報や翻訳結果、汎用辞書やユーザー辞書
の情報を確認するための表示装置を示している。

第２図は、第１図に示したメインメモリ２の割付は構成
図である。同図において、抽出項目テーブル２１は、ユ
ーザーが汎用辞書から必要な情報を抽出するために指定
する。第１−言語の単語とそれに対応する第２′□、言
語の訳語のペアリスト等の汎用辞書の情報のうち有効と
なる部分を示す情報を入れる。フォーマット情報テーブ
ル２２は汎用辞＋’Ｆやユーザー辞書の情報の並びを示
すフォーマット情報を入れる。検索用単語テーブル２３
は検索する単語を記憶しておく。単語情報テーブル２４
は汎用辞書やユーザー辞書から検索した単語の辞〃情報
を入れる。抽出情報テーブル２５は汎用辞書から検索し
た単語の辞書情報のうち、抽出項目情報テーブル２１の
情報について抽出した情報を入れる。統計情報テーブル
２６は、標訳対象テキストに含まれる単ｄ、の出現頻度
や、その単ｄｂについて汎用辞書に登録されている品詞
や訳語等の多義の種類に関する情報や、ＫＷＩＣリスト
を入れる。処理プログラム用記憶領域２７は処理するテ
キストを単語に分割し、検索用単語テーブル２３に格納
するためのプログラム、汎用辞書やユーザー辞書から辞
書情報を検索するためのプログラム、抽出項目情報テー
ブル２１の情報に基づいて単語情報テーブル２４の情報
から必要な情報を抽出し、抽出情報テーブル２５に入れ
、抽出情報テーブル２５に入った情報をユーザー辞書７
に蓄積するためのプログラム。翻訳対象テキストに含ま
れる単語の出現頻度や、その単語について汎用辞書に登
録されている品詞や訳語等の多義の数を算出したりＫＷ
ＩＣリストを生成するためのプログラムそして、文法規
則ファイル８．ユーザー辞書ファイル７、汎用辞書ファ
イル５の情報を基にテキストファイル３のテキストや、
ユーザーがキーボード９から入力したテキストを翻訳処
理するためのプログラム等を格納する記憶領域を示して
いる。

次に５本実施例の処理動作について説明する。

第４図は本実施例の処理プログラムのうち、統計情報を
抽出するプログラムの処理動作を示すフローチャートで
ある。以下、第４図に従って、処理動作を説明する。

オペレータによって、統計情報を抽出するプログラムが
起動されると、指定されたテキストファイル３から１文
ずつ読み込まれ、ＣＰＵＩによりＱ′Ｊ、語に分割され
、検索単語テーブル２３に設定される（ステップ４１．
４２）。次に、各単語についての統計情報が統計情報フ
ァイルに設定されているか確認される（ステップ４３ａ
）、統計情報ファイルに設定されていなければ、ＣＰＵ
Ｉはその単語を検索キーとして汎用辞書の情報を検索す
る（ステップ４３ｂ）。次にＣＰＵＩはその単語情報テ
ーブル２４に設定された辞書情報から、品詞の種類と数
や訳語の数等を抽出し、出現＠度。

その単語を中心としたＫＷＩＣリストとともに、該単語
をキーとして統計情報ファイル４に書き込む（ステップ
４３ｃ）。この場合、出現頻度は１に設定される。また
、該単語に関する統計情報が統計情報ファイル４に設定
されている場合は、該統計情報のうち出現頻度をインク
リメントし、該単語を中心とするＫＷＩＣリストを追加
する（ステップ４３ｄ）。そして、以上の処理をテキス
トファイル３のすべての文について繰返す（ステップ４
４）。

上記処理によって、テキストファイル３に関する統計情
報が、統計情報ファイル４に設定される。

第３図は９本実施例の主要部を成す、ユーザー辞書を作
成するプログラムの処理動作を示すフローチャートであ
る。以下、第３図に従って、処理動作を説明する。

まずオペレータは、統計情報ファイル４からリストアツ
ブすべき単語の出現頻度や品詞の種類や数または訳語の
多義の数に関する条件をキーボード９によって指定する
。ＣＰＵＩは、その条件を満す単語に関する情報を統計
情報ファイル４から読込み１Ｍ計情報テーブル２６に設
定し表示装置１０に出力する（ステップ３０１）。

次に、オペレータは出力された統計情報に基づき、翻訳
対象テキストに適した訳語が決定できれば、該第１言語
の単語とそれに対応する第２ｉ′語の訳語のペアリスト
を、抽出項目情報テーブル２１に設定する（ステップ３
０２）。このペアリストは、すべての単語に対して作成
する必要はなく、オペレータが、ＫＷＩＣリストや翻訳
対象領域に関する知識などに基づき、限定できると判断
した単語に対してのみ行えば良い。また、１つの単語に
対して複数の訳語とのペアリストを設定することも可能
である。

次に、抽出項目情報テーブル２１への該ペアリストの設
定が完了すると、汎用辞書から情報を抽出するためのプ
ログラムが起動される。

まず、ＣＰ　Ｕ　１は抽出項目情報テーブル２１に設定
されたペアリストのうち、第１−言語の単語を検索単語
テーブル２３に設定する。この際、同じ単語は重複して
設定しない（ステップ３０３）。

次に、ＣＰＵＩは検索単語テーブル内の単語を検索キー
して、汎用辞書５を検索し、検索データをメインメモリ
３の単語情報テーブル２４に取込む（ステップ３０４）
。

次に、抽出項目情報テーブル２１内のすべての第１言語
の単語と検索した単語のマツチングを行い、マツチした
場合についてのみ、抽出処理を行う（ステップ３０５，
３０５ａ、３０５ｂ）。

次に、この抽出処理について説明する。辞書情報は、第
６図に示すように木構造を成している。

この辞書情報に対して、第５図に示すような、第１ｉ°
語の単語とそれに対応する第２言語の訳語のペアリスト
が与えられると、辞書情報の枝のうち。

見い出し語と訳語がこのペアリストにマツチした部分に
対応する枝のフラグが対応される。第６図では、このフ
ラグが設定された枝を波線で表している。したがって、
すべてのペアリストとのマツチングが完了すると、この
辞書情報のうち抽出すべき情報に対応する枝のみにフラ
グが設定されることになる。また、ペアリストの訳語と
、辞書情報のすべての訳語とのマツチングが失敗した場
合には、第２Ｂ語における類語辞書ファイル６を参照す
ることにより、ペアリストの訳語と辞書情報の訳語が類
語関係にあるものを、再度探索することも可能である。

この場合、類語関係でマツチングに成功した辞書情報の
訳語は、ペアリストの訳語で置換えられる。第６図では
、辞書情報の訳語ｄとペアリストの訳語ｄｄが類語関係
でマツチしたことを示している。

以上の抽出処理が完了すると、第６図に示すように、Ｃ
ＰＵＩは、単語情報テーブル２４の辞書情報のうち、フ
ラグが設定された部分木に対応する情報を抽出情報テー
ブル２５にコピーする（ステップ３０６）。

次に、この抽出された辞書情報を表示装置１０に表示す
るかどうかが確認される（ステップ３０７）。

表示する場合には、オペレータによって抽出情報が確認
され、ＯＫであれば、ユーザー辞書ファイル７に書き込
まれる。この際、汎用辞書５とユーザー辞書７のフォー
マットが異なれば、フォーマット情報テーブル２２に設
定されているフォーマット情報を参照することにより、
フォーマットを変換することも可能である（ステップ３
０８゜３０９．３１０）、不可であれば、抽出された情
報はキャンセルされ次の単語の処理に移る（ステップ３
０８，３０９）。

このステップ３０７，３０８，３０９の処理は。

省略することも可能である。

次に、上記ステップ３０４から３１０の処理を、検索単
語テーブル２３のすべての単語に対して行う（ステップ
３１１）。

以上の処理によって、オペレータが指示した第１言語の
単語とそれに対応する第２言語の訳語のペアリストに基
づいて、汎用辞書の情報から、翻訳対象テキストに応じ
た情報のみを抽出し、ユーザー辞書を作成することが可
能である。

また、オペレータが翻訳対象領域の専門家である場合に
は、ステップ３０１，３０２のように統計情報を参照し
なくても、一部の単語については直接ペアリストを指定
することも可能である。

また、本実施例では、第１ｉ″語の単語とそれに対応す
る第２言語の訳語のペアリストによって抽出項目情報を
構成したが、汎用辞書の他の情報項目によって、抽出項
目情報を構成し、ユーザー辞書に登録すべき情報を抽出
することも可能である。

第７図は本発明の他の実施例による、ユーザー辞書を作
成するプログラムの処理動作を示すフローチャートであ
る。以下、第７図に従って、処理動作を説明する。

まずオペレータは、統計情報ファイル４からリストアツ
ブすべき単語の出現頻度や品詞の種類や数、または訳語
の多義の数に関する条件を、キーボード９によって指定
する。ＣＰＵＩは、その条件を満す単語に関する情報を
統計情報ファイル４から読込み、統計情報テーブル２６
に設定し１表示装置１０に出力する（ステップ７１）。

次にオペレータは、出力された統計情報に基づき、翻訳
対象テキストに応じて多義が絞込めそうな単語を選択し
、品詞や訳語などの汎用辞書５の情報項目のうち１表示
装置１０に出力すべき項目を指示する（ステップ７２）
。ＣＰＵＩは、オペレータによって選択された単語を検
索キーとじて汎用辞書５を検索し、検索データをメイン
メモリ３の単語情報テーブル２４に取込み、オペレータ
が指示した情報項目に関する情報を表示袋Ｆｉ１０に出
力する（ステップ７３）・次にオペレータは、表示装置１０に出力された汎用辞書
の情報のうちユーザー辞書に登録さべき情報を指示する
。このオペレータによって指示された情報は、抽出項目
情報テーブル２１に第９図に示すように設定される（ス
テップ７４）。第９図には抽出項目として品詞と第２　
Ｓ’語の訳語を指定しているが、これは、汎用辞書の他
の情報項目であってもかまわない。第８図において“−
″記号は、その情報は考慮しない（特に限定しない）こ
とを意味する。

次にＣＩ）　Ｕ　１は、単語情報テーブル２４に設定し
た情報のうち、抽出項目情報テーブル２１に指定された
情報にマツチする枝のフラグを設定する。

第９図は、この処理によってフラグが設定された枝を波
線で示している（ステップ７５）。

次にＣＰＵＩは、単語情報テーブル２４の辞書情報のう
ち、フラグが設定された部分木に対応する情報を抽出情
報テーブル２５にコピーし、さらにこの情報をユーザー
辞書ファイル７に書込む（ステップ７６．７７）。さら
に、他の単語についてユーザー辞書を作成する必要があ
るかが確認され、あれば、ステップ７２にもどり、上記
ユーザー辞書作成処理が繰返される（ステップ７８）。

第１０図は、本発明の他の実施例による、抽出項目情報
テーブル２１に抽出項目情報を設定・蓄積するプログラ
ムの処理動作を示すフローチャートである。抽出項目情
報テーブル２１に情報を設定したあとのユーザー辞書作
成処理は、他の実施例と同様にして行うことが可能であ
る。

以ｒ、第１０図に従って、処理動作を説明する。

まず、ＣＰＵＩはテキストファイル３から１文を読込み
、汎用辞書５と文法規則ファイル８の情報を用いて翻訳
処理を行い、その結果を表示装置１０に出力する。なお
、与えられた文を翻訳するというＩｆＪ］訳処理方式に
ついては、例えば、特開昭５６−１３８５８６号（自然
ｉ′話語間自動翻訳方式）に開示された方式を用いるこ
とが可能であり詳細説明は省略する（ステップ１０１）
。

次に、オペレータは翻訳結果が正しいかどうか確認しく
ステップ１０２）、翻訳成功であれば、さらに翻訳した
文の中に、ユーザー辞書としてべ↑録すべき単語および
その辞書情報があるかどうか確認する（ステップ１０３
）。この際、統計情報ファイル４の情報を参照できるよ
うにすることも可能である。

次にオペレータは、ユーザー辞書７に登録すべき単語が
あればキーボード９によって単語と、それに対応する品
詞や訳語などの情報項目を指定する。この指定された情
報は、ＣＰＵＩによって抽出項目情報テーブル２１に設
定・蓄積される（ステップ１０４）。

さらに、翻訳すべき文があれば、上記抽出項目情報設定
・蓄積処理を繰返す（ステップ１０５）。

また、上記処理は、統計情報ファイル４の情報を参照し
、ユーザー辞書７に登録すべき単語を選び出した後に、
それらの単語を含む文を、テキストファイル３から抽出
し、抽出された文だけを翻訳処理するようにすることに
よって、さらに効率的に行うことも可能である。

上記処理によって蓄積された抽出項目情報は、他の実施
例と同様に、ユーザー辞書作成処理に用いることが可能
である。

また上記実施例によると、サンプルテキストを実際に翻
訳し、有効であった汎用辞書の情報を、ユーザーの翻訳
すべき文書対応に確実に蓄積することが可能であるので
、ユーザーにとってより容易に、かつ、誤りなくユーザ
ー辞書を作成することが可能である。

また、上記ユーザー辞書作成処理によって作成されたユ
ーザー辞書と汎用辞書を用いて翻訳処理する際には、あ
らかじめ多義を限定したユーザー辞書の情報を優先して
用いることによって、精度の高い翻訳処理を行うことが
できる。

第１１図は、本発明の他の実施例による。ユーザー辞書
を作成するプログラムの処理動作を示すフローチャート
である。以下、第１１図に従って。

処理動作を説明する。

まずオペレータは、汎用辞書の情報のうちユーザー辞書
の情報として登録すべき情報を表す、抽出項目情報を抽
出項目情報テーブル２１に設定する（ステップ１１１）
。この処理は１本発明の他の実施例に示したように、第
１言語の単語とそれに対応する第２言語の訳語のペアリ
ストを直接指定する方法や、サンプルテキストを実際に
翻訳し。

有効であった辞書情報を指定する方法などが可能である
。本実施例では、第１２図にに示すがごとき抽出項目情
報が設定されている例を考える。

次にＣＰＵＩは、抽出項目情報テーブル２１に設定され
た第１２図に示すペアリストのうち、第１盾語の単語を
検索テーブル２３に設定する。この際、同じ単語は重複
して設定しない（ステップ１１２）。

次に、ＣＰＵＩは検索単語テーブル内の単語を検索キー
として汎用辞書５を検索し、検索データをメインメモリ
３の単語情報テーブル２４に取込み抽出処理を行う（ス
テップ１１３）。この辞書検索と抽出処理については、
第３図で説明した他の実施例のステップ３０４と３０５
の処理に対応する。

第１２図に示した抽出項目情報のうち、単語Ａについて
抽出処理を行った結果は、第１３図の波線によって示さ
れる。また、汎用辞書の情報のうち１分野や文書の違い
にかかわらず用いられる可能性の高い基本情報について
は、あらかじめ汎用辞書においてマーキングされている
。第１３図では、この基本情報に対応する部分木を２重
棒線によって示している。

次に、抽出処理を行った該単語に対して、ユーザー辞書
に基本情報も登録すべきか否かがオペレータによって確
認される（ステップ１１４）。

基本情報も登録する場合には、抽出処理によってフラグ
が設定された部分木に対応する情報と、基本情報である
とマーキングされた部分木に対応する情報を抽出情報テ
ーブル２５にコピーする（ステップ１１５）。基本情報
を登録しない場合には、抽出処理によってフラグが設定
された部分木に対応する情報のみを抽出情報テーブル２
５にコピーする（ステップ１１６）、第１３図には、基
本情報も登録した場合についての結果を示している。

次に、抽出情報テーブル２５にコピーされた情報をユー
ザー辞書ファイル７に書込む（ステップ１１７）。

そして、以上の処理を、検索単語テーブル２３のすべて
の単語に対して組返す（ステップ１１８）。

以上の処理によって、ユーザーが指定した抽出項目情報
によって抽出された情報だけでなく、あらかじめ汎用辞
書においてマーキングしていた基本情報についてもユー
ザー辞書に抜けなく設定することが可能であり５ユーザ
ー辞書の情報の品質を保つことができる。

第１４図は１本発明の他の実施例による、ユーザー辞書
を作成するプログラムの処理動作を示すフローチャート
である。以下、第１４図に従って、処理動作を説明する
。

まずオペレータは、ユーザー辞書に登録する単語と、そ
の単語の上位概念に相当する概念コードをキーボード９
から人力する（ステップ１４０１）。

次にＣＰＵＩは、概念コードを検索キーとして汎用辞書
５を検索し、検索データをメインメモリ３の単語情報テ
ーブル２４に取込む（ステップ１４０２）。この場合、
概念コードに対応する辞非情報は、他の通常の単語を見
出し語とする辞書情報と区別するために、見出し語に特
殊記号を付加し、例えば「＠概念コード」という見出し
語の形式で登録しておくことが可能であるし、また、概
念コードに対応する辞書情報は汎用辞書５ではなく、別
の辞書ファイルに蓄積しておくことも可能である。

次にＣＰＵＩは、検索したデータを表示装置１０に表示
する（ステップ１４０３）。

概念コードに対応する辞書情報の例を、第１５図に示す
が、基本的には、通常の単語の辞書情報の仕様と同一で
ある。但し、表示装置１０に表示する際には、ユーザー
に理解しやすい形式で表示するのが望ましい。第１５図
では、各概念に対応して、品詞、共起パターンと意味（
単語の訳語に相当）下位概念や実例を例として示してい
るが。

他の一般の辞書情報を追加することも可能である・この
辞書内容については、下位概念が実例についての情報な
どを概念固有の情報以外については、通常の単語の辞書
情報の内容に準するとするだけで、本実施例では特に指
定しない。

第１５図では、例えば、概念コードＰＯ８Ｔ（位置変化
を表す概念）に対して、対応する単語の品詞が■（動詞
）であれば、その動詞の主語Ｓは、一般に「動物や乗り
物）であり、かつ、ｒＦＲＯＭ＋場所を表す名詞Ｊ、ｒ
Ｔ○十場所を表す名詞」という前置詞句と共起しやすく
、その意味や日本語における訳出のパターンは、「〜が
〜から〜へ移動する」であるという情報を示している。

また、下位概念や実例に関する情報としては、下位概念
のコードを大文字で、実例（その概念コードを上位概念
とするｍ語の例）を小文字で示している。

他の概念コードに対応する情報についても同様の解釈が
可能である。

次に、オペレータは、表示装置１０に表示された情報を
確認し、下位概念や実例の情報を参照するかどうか判断
する（ステップ１４０４）。

下位概念や実例をたどる場合は、その下位概念の概念コ
ードや実例の単語を指定し、その概念コードや単語を検
索キーとして辞書検索する（ステップ１４０５．１４０
６）。

次に、オペレータは、検索した概念コードや実例の単語
の辞書情報に対して、ユーザー辞書に登録すべき単語の
固有の゛ゴ語情報を追加したり、検索情報を修正したり
して、所望の辞書情報を作成する。この際、統計情報フ
ァイル４の情報で、例えばＫＷＩＣリストなどを参照可
能なようにすることも可能である。この辞書情報の追加
・修正作業としては、例えば、訳語を修正したり、共起
関係の制約条件をより限定したり、他の訳し分けの条件
を追加したりすることが可能である。この修正内容に関
しては、個々の辞書情報の仕様に依存するので、本発明
では限定しない。本発明では、類似の意味を持つ単語に
共起の辞書情報は、それらの単語に共通の上位概念に相
当する概念コードに対する辞書情報として登録しておき
、単語ごとの辞書情報を作成する際には、その情報を利
用するという点に特徴がある。

次に、オペレータは、ユーザー辞書に登録する単語に別
の語義を持たせて、多義とするかどうか判断する。多義
を追加する際には、さらに概念コードを指定し、その概
念コードを検索キーとして辞書を検索し、検索した辞書
情報を、すでに設定済みのユーザー辞書登録単語の辞書
情報にマージする（ステップ１４０９．１４１０）。こ
の多義設定の際には、ステップ１４０６において下位概
念や実例の辞書情報を検索する場合にも、すでに設定済
みのユーザー辞書登録単語の辞書情報に多義という形で
マージすることとする。

次にこの検索した多義に対応する辞書情報に対して、ス
テップ１４０７において、単語固有の情報の追加および
修正を行う。

次に、他に設定する多義がない場合には、上記処理によ
って作成した辞書データを、ステップ１４ｏ１で指定し
た単語を見出し語としてユーザー辞書に登録する（ステ
ップ１４１１）。

さらに、ユーザー辞書に登録したい単語があれば、上記
処理を繰返す（ステップ１４１２）。

上記実施例によると、複数の単語に共通のあるいは類似
の辞書情報は、そ胆らの単語の上位概念に相当する概念
コードを見出し語とする辞書情報として、あらかじめ登
録しているので、ユーザーが、新たにユーザー辞書に特
定の単語の辞書データを登録したい場合には、その単語
の上位概念に相当する概念コードの辞書データをテンプ
レートとして用い、その辞書情報にその単語固有の情報
を追加・修正するだけで所望の辞書情報を作成すること
が可能である。したがって、ユーザーごとの主観的な解
釈のバラツキや辞書作成作業に対する慣れの違いなどが
辞書情報の品質に影響を及ぼすといった現象を極力おさ
えることができる。また、ユーザーが作成する単語の基
本的な辞書情報・７体、この単語の上位概念の辞書情報
をコピーすれば、はぼ得ることができるので、辞書作成
効率が高いというメリットもある。

〔発明の効果〕

以上説明したごとく本発明によれば、大量の均質な限定
された分野のテキストを翻訳する際に、該テキストに含
まれる単語の出現頻度や品詞や訳語などの多義の数、さ
らにＫＷＩＣリスト等を抽出・作成する手段と、該手段
によって抽出された統計情報に基づいて、翻訳対象テキ
ス１−に依存して、多義をあらかしめ絞り込めると判断
した第１Ｍ　ｕの単語に対して、その単語と第２−語の
訳語とのペアリストなど、汎用辞書の情報のうち有効な
情報を示す情報をユーザーが指示する手段を備え、その
手段によって指示された情報を基に、汎用辞書の情報の
中から、翻訳対象テキストに適した情報を自動的に抽出
し、ユーザー辞書を作成する手段を備えることにより、
まず、エンドユーザーにとって簡便なｈ法で、あらかじ
め多義の絞込まれた翻訳対象テキストに適したユーザー
辞書を効率的に作成することが可能となった。

さらに、このユーザー辞書を用いて翻訳処理を行う手段
を備えることにより、精度の高い翻訳処理がｉＪ能とな
った。また、ユーザー辞書では、あらかじめ多義が絞り
込まれているので、無駄な情報を参照することなく、効
率的な翻訳処理を行うことが可能である。

また、上記ペアリスト等によって汎用辞書の情報のうち
必要な部分を抽出し、ユーザー辞書を作成することがで
きない場合にも、所望する単語の辞書情報を、その単語
の上位概念や類似の単語の辞書情報を参考にして作成す
る手段を備えたことにより、効率的でかつ誤りの少ない
辞書作成が可能である。

【図面の簡単な説明】

第１図は本発明の一実施例の翻訳処理装置のブロック図
、第２図は第１図におけるメインメモリの割付は構成図
、第３図、第４図は本発明の一実施例を説明するための
処理フロー図、第５図、第６図は本発明の一実施例を説
明するための説明図。第７図は本発明の他の実施例を説明するための処理フロ
ー図、第８図、第９図は本発明の他の実施例を説明する
ための説明図、第１０図は本発明の他の実施例を説明す
るための処理フロー図、第１１図は本発明の他の実施例
を説明するための処理フロー図、第１２図、第１３図は
本発明の他の実施例を説明するための説明図、第１４図
は本発明の他の実施例を説明するための処理フロー図、
第１５図は本発明の他の実施例を説明するための説明図
である。１・・・ＣＰＵ、２・・・メインメモリ、３・・・テキ
ストファイル、６・・・統計情報ファイル、５・・・汎
用辞書ファイル、６・・・類語辞書ファイル、７・・・
ユーザー辞書ファイル、８・・・文法ファイル、９・・
・キーボード等の入力装置、１０・・・表示装置、２１
・・・抽出項目情報テーブル、２２・・・フォーマット
情報テーブル、２３・・・検出単語テーブル、２４・・
・単語情報テーブル、２５・・・抽出情報テーブル、２
６・・・統計情報テーブル、２７・・・処理プログラム
。高図ノら　シ団用辞書７アイル図Ｚ　ヌイシヌモーリ２１　　Ｎｌ出−１目朽緊宿反テーフ・ル２２　　ｈ−
フッＶ・績目及テープ°ルＺ３　硬専ゴ１岩テーフ゛ルｚ４　草語悄帛反テーフ・ツレｚ５　オ由占１フト省反テーフ゛′ルＺ６　　ａ計情幸にテーフ゛ルｚ７　久シ記Ｌ７０ロア′ラシへ図拓図／θ 図で図図第図１Ｚ図光図遍図

Claims

【特許請求の範囲】１、第１言語で記述されたテキストを、第２言語で記述
されたテキストに変換する翻訳処理装置において、翻訳
対象である第１言語で記述されたサンプルテキストから
、単語の出現頻度等の統計情報を抽出する手段と、該手
段によつて抽出された頻度情報に基づいて、汎用辞書か
ら抽出すべき情報をユーザーが指示するための手段を有
し、該手段によつて指示された情報に基づいて、汎用辞
書の情報の中から翻訳対象テキストに適した情報を抽出
し、ユーザー辞書を作成する手段を有することを特徴と
する辞書作成支援機能付き翻訳処理装置。２、前記ユーザーが指示する情報が、第１言語の単語と
それに対応する第２言語の訳語のペアリストであり、こ
の情報を用いて、汎用辞書から翻訳に必要な情報を自動
的に抽出し、ユーザー辞書を作成する手段を有すること
を特徴とする特許請求の範囲第１項記載の辞書作成支援
機能付き翻訳処理装置。３、前記ユーザーが指示する情報が、第１言語の単語と
それに対応する第２言語の訳語のペアリストであり、こ
の情報を用いて、汎用辞書から翻訳に必要な情報を自動
的に抽出し、かつ、そのペアに対応した情報が見つから
ない場合は、第２言語における類語辞書を用いて、該第
２言語の訳語に最も近い別の単語に置換えることによつ
て同様の情報抽出を行い、ユーザー辞書を作成する手段
を有することを特徴とする特許請求の範囲第１項記載の
辞書作成支援機能付き翻訳処理装置。４、前記第１言語の単語の出現頻度等の統計情報を抽出
する手段によつて選ばれた出現頻度が高く、多義の多い
単語について、汎用辞書の情報のうちユーザーの指定し
た一部の情報を表示する装置を有し、該表示装置に出力
された情報の中から、ユーザー辞書に登録すべき情報を
ユーザーが指示することによつて、該ユーザー辞書を作
成する手段を有することを特徴とする特許請求の範囲第
１項記載の辞書作成支援機能付き翻訳処理装置。５、前記第１言語によつて記述された翻訳対象領域のサ
ンプルテキストを、汎用辞書を用いて翻訳し、前記第１
言語の単語の出現頻度等の統計情報を抽出する手段によ
つて選ばれた出現頻度が高く、多義の多い単語について
、該サンプルテキストの翻訳で有効となつた辞書情報を
抽出・蓄積する手段を有し、該手段によつて抽出・蓄積
された情報に対応する辞書情報を汎用辞書から抽出し、
ユーザー辞書を作成する手段を有することを特徴とする
特許請求の範囲第１項記載の辞書作成支援機能付き翻訳
処理装置。６、第１言語で記述されたテキストを、第２言語で記述
されたテキストに変換する翻訳処理装置において、翻訳
対象である第１言語で記述されたサンプルテキストから
、単語の出現頻度を抽出する手段と、該手段によつて抽
出された頻度情報に基づいて、汎用辞書から抽出すべき
情報をユーザーが指示するための手段を有し、該手段に
よつて指示された情報に基づいて、汎用辞書の情報の中
から、翻訳対象に適した情報を抽出し、ユーザー辞書を
作成することを特徴とする辞書作成支援装置。７、第１言語で記述されたテキストを、第２言語で記述
されたテキストに変換する翻訳処理装置において、翻訳
対象である第１言語で記述されたサンプルテキストから
、単語の出現頻度を抽出する手段と、該手段によつて抽
出された頻度情報に基づいて、汎用辞書から抽出すべき
情報をユーザーが指示するための手段を有し、該手段に
よつて指示された情報に基づいて、汎用辞書の情報の中
から、翻訳対象に適した情報を抽出し、ユーザー辞書を
作成する手段を有し、前記ユーザー辞書を用いて翻訳対
象に適した効率の良い翻訳を行うことを特徴とする辞書
作成支援機能付き翻訳処理装置。８、均質な大量文書を翻訳する方式であり、特許請求の
範囲第６項記載の辞書作成支援装置を用いて、翻訳対象
文書に適したユーザー辞書を作成し前記ユーザー辞書を
用いて効率的に翻訳を行うことを可能とする翻訳処理方
式。９、汎用辞書の各単語の情報のうち、出現頻度が高く、
どの分野のテキストにおいても用いられうる基本的な情
報については、それが基本情報であることを意味するマ
ーシングをしておき、ユーザーが指示した汎用辞書から
抽出すべき情報の他に、前記基本情報も抽出し、ユーザ
ー辞書を作成することを可能とする手段を有することを
特徴とする、特許請求の範囲第１項記載の辞書作成支援
機能付き翻訳処理装置。１０、概念素に対応する辞書情報を用意しておき、特定
の単語の辞書情報を作成する際には、その単語の抽象的
な意味に対応する概念素の辞書情報を参照し、該辞書情
報に単語固有の情報を追加することによつて、該単語の
辞書情報を作成する手段を有することを特徴とする、辞
書作成支援装置。１１、第１言語で記述されたテキストを、第２言語で記
述されたテキストに変換する翻訳処理装置において、特
許請求の範囲第１０項記載の辞書作成支援装置をその機
能の一部として有することを特徴とする特許請求の範囲
第１項記載の辞書作成支援機能付き翻訳処理装置。