JP2588522B2 - 機械翻訳辞書アクセス方法 - Google Patents

機械翻訳辞書アクセス方法

Info

Publication number
JP2588522B2
JP2588522B2 JP62070012A JP7001287A JP2588522B2 JP 2588522 B2 JP2588522 B2 JP 2588522B2 JP 62070012 A JP62070012 A JP 62070012A JP 7001287 A JP7001287 A JP 7001287A JP 2588522 B2 JP2588522 B2 JP 2588522B2
Authority
JP
Japan
Prior art keywords
dictionary
data
speech
dictionaries
idiom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62070012A
Other languages
English (en)
Other versions
JPS63236168A (ja
Inventor
政浩 大高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62070012A priority Critical patent/JP2588522B2/ja
Publication of JPS63236168A publication Critical patent/JPS63236168A/ja
Application granted granted Critical
Publication of JP2588522B2 publication Critical patent/JP2588522B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は機械翻訳システムの辞書アクセス方法に係
り、特に多段辞書をアクセスするときに、品詞レベルで
のマージをするのに好適な機械翻訳辞書アクセス方法に
関する。
〔従来の技術〕
機械翻訳システムでは、基本用語辞書、専門用辞書、
ユーザ辞書等、多種類の翻訳辞書が使用され、それらの
間に異なる優先順位を持たせている。このように、複数
種類の翻訳辞書を多段構成とした場合、従来はアクセス
の優先順位の高い辞書で単語が見つかると、他の辞書は
無視(アクセスしない)していた。
第2図は多段構成辞書の従来のアクセス方式を説明す
る図であり、アクセスの優先順位は辞書1,2,3の順序で
低くなるとする。図中、Nは名詞データ、Vは動詞デー
タ、ADVは副詞データ、ADJは形容詞データ、IDは熟語デ
ータを示す。例えば単語「express」を検索しようとす
るとき、まず辞書1をアクセスする。こゝで、単語「ex
press」が存在するから、このデータを品詞テーブル8
にロードする。そして、処理を終りとする。即ち、辞書
2,辞書3のデータは無視される。
なお、多段構成辞書のアクセスに関連するものには、
例えば、特開昭55−134477号公報が挙げられる。
〔発明が解決しようとする問題点〕
上記従来技術では、多段構成辞書のアクセス時、優先
順位の高い辞書で単語が見つかると、他の辞書をアクセ
スしないため、他の辞書に含まれる有効な情報を得られ
ず、機械翻訳システムにおいて、例えば英文解析に失敗
し、良い翻訳が得られないという問題があった。この対
策として、ユーザ辞書のデータを十分なものにすること
が考えられるが、その作成は難しく、保守も難しくな
り、コストが非常にかゝる問題がある。また、逆にすべ
ての辞書のデータを品詞レベルでマージすることも考え
られる。この場合には不要なデータも含まれることにな
る。
本発明の目的は、ユーザの負担、コストを軽減して、
翻訳辞書からよりよいデータを取り出して、質のよい翻
訳結果を得ることにある。
〔問題点を解決するための手段〕
上記目的は、多段構成の辞書をアクセスする時、該複
数の辞書を優先順位の高いものから順次アクセスして、
熟語データについては、複数の辞書のそれぞれの熟語デ
ータを取り込んで全てマージし、品詞データについて
は、アクセス優先順位の高い辞書から順に、他の辞書に
存在しない品詞データのみを取り込んでマージし、さら
に、該品詞レベルでのマージをするかどうか判別するフ
ラグを辞書対応に設定し、該フラグがオフの辞書のデー
タについては無視することにより達成される。
〔作 用〕
ある単語による辞書アクセス時に、優先順位の高い順
序で、まず辞書1から例えば熟語データと品詞データを
取込み、次に辞書2から熟語データと辞書1にない品詞
データを取込み、更に辞書3から熟語データと辞書1,辞
書2にない品詞データを取込むというマージ操作をし
て、メモリ内に単語データを構成する。また、翻訳対象
テキストによっては、はじめから例えば辞書2のデータ
を必要としない場合があるので、その場合には辞書2の
品詞マージクラブをオフとしておき、該辞書2のデータ
は取込まないようにする。
〔実施例〕
以下、本発明の一実施例について図面により詳細に説
明する。
第2図の従来例に対応し、本発明による多段構成辞書
アクセス方法の具体例を第3図に示す。こゝで、辞書1,
2,3には、この順序のアクセスの優先度がついていると
する。また、熟語データに必ず取込むとする。例えば単
語「clear」で、辞書をアクセスするとき、まず辞書1
より名詞データN1、動詞データV1、熟語データID1を取
込む。次に、辞書2より副詞データADV2、熟語データID
2を取込む。最後に、辞書3より形容詞データADJ3、熟
語ID3を取込む。こゝで、副詞データADV3、及び動詞デ
ータV3は、既にあるので取込まない。このようにして、
取込んでマージした結果が品詞テーブル4である。
第3図の例によれば、単語「clear」の可能性のある
品詞データを、全て取込むことが可能になる。これに対
し、第2図の従来例では、辞書2,3に存在する単語「exp
ress」の他の可能性のある副詞データADV2、形容詞デー
タADJ3、熟語データID2,ID3は無視される。
第1図は本発明で対象とする機械翻訳システムの一実
施例で、中央処理装置(CPU)9、主メモリ10、原文テ
キストファイル12、辞書ファイル13〜15、訳文テキスト
ファイル16より成る。
メモリ10には翻訳プログラム11や翻訳規則の他に、辞
書をアクセスして得られる各単語の品詞テーブル4や翻
訳途中データなどが随時格納される。ファイル13の辞書
1は例えばユーザ辞書であり、ユーザが自由に単語情報
を作成したり、修正したりすることが可能である。ファ
イル14,15の辞書2、辞書3はシステム提供辞書であ
る。辞書2は例えば専門用語辞書であり、経済分野、法
学分野、コンピュータ分野等、ユーザに対応した辞書で
ある。辞書3は例えば基本用語辞書であり、基本的な文
章を翻訳するときに、最低限必要な辞書である。こゝ
で、辞書1,2,3のアクセスの優先順位は、辞書1が最高
で、次が辞書2、辞書3が最低とするのが普通である。
第4図は辞書の構造例を示したもので、辞書1,辞書2,
辞書3ともに同じ構造をしている。辞書内にある各単語
の基本テーブル部17には、その単語のもつ品詞とその品
詞情報の存在するアドレスを示すポインタ、及び熟語
(イディオム)の存在を示すフラグとイディオム情報の
存在するアドレスを示すポインタとをもつ。各ポインタ
の示すアドレスには、各品詞の品詞情報18,18′、及び
イディオム情報19が入っている。
さて、第1図において、中央処理装置9は、翻訳プロ
グラム11の制御のもとに機械翻訳を実行する。第5図は
その処理フローを示したものである。まず、ファイル12
より原文テキスを入力し、単語分割を行う(ステップ10
1)。次に、辞書ファイル13,14,15をアクセスして、各
単語の情報を辞書1,辞書2,辞書3より取込み、それらを
マージして単語毎に品詞テーブル4をメモリ10内に形成
する(ステップ102)。次に、これらの単語情報とメモ
リ10に予め用意された翻訳規則に従って翻訳を行う(ス
テップ103)。そして、生成された訳文をファイル16に
出力する(ステップ104)。
第6図は本発明による辞書アクセス処理の基本フロー
を示したものである。
一つの単語を読取り(ステップ201)、まず、ファイ
ル13の辞書1をアクセスして(ステップ202)、該辞書
1に存在する当該単語の全品詞データと熟語データをメ
モリ10に取込む(ステップ203)。次にファイル14の辞
書2をアクセスし(ステップ204)、品詞データについ
ては、辞書1に存在するものと異なる品詞データのみを
取込んで辞書1の品詞データとマージし(ステップ205,
206)、熟語データはそのまゝ取込んでマージする(ス
テップ207)。次にファイル15の辞書3をアクセスし
(ステップ208)、品詞データについては、辞書1,2に存
在するものと異なる品詞データのみを取込んで、既に取
込んであるものとマージし(ステップ209,210)、熟語
データをそのまゝ取込んでマージする(ステップ21
1)。第6図の処理の具体例は第1図に示した通りであ
る。
ここで、翻訳対象テキストによっては多段構成のすべ
ての辞書をアクセスする必要がない場合がある。第7図
はこのような場合の実施例を示したもので、品詞レベル
でのマージをするかどうかを判別するフラグ(品詞マー
ジフラグ)20を付加し(0はオフ、1はオン)、該フラ
グ20がオフの場合、その辞書の情報は無視するというも
のである。第7図の例では、辞書2の品詞マージフラグ
20がオフになっている。この場合、辞書1と辞書3で品
詞レベルのマージをすれば、辞書2ではマージをしな
い。これによって、辞書アクセスの時間の無駄を省くと
ゝもに、辞書アクセスを柔軟に処理することが可能にな
る。
〔発明の効果〕
以上の説明から明らかな如く、本発明によれば、多段
構成辞書をアクセスする時、可能性のある品詞データや
熟語データが基本的に全て取り込める。そのため、ユー
ザ辞書は、必要最小限のデータを記述すればよく、人的
負担、メモリの負荷ともに大幅に軽減される。また、ユ
ーザ辞書で定義された単語のデータを、その定義されな
い品詞については、システム提供辞書からマージしてく
るため、当該単語のデータが十分になり、翻訳の精度が
著しく向上する。さらに、翻訳対象テキストによって
は、すべての辞書をアクセスする必要がない場合があ
り、これは品詞レベルでのマージをするかどうかを判別
するフラグを辞書対応に設けることにより可能になり、
品詞レベルでのマージ処理の柔軟性も向上する。
【図面の簡単な説明】
第1図は本発明で対象とする機械翻訳システムの一実施
例を示す図、第2図は従来の辞書アクセスを説明する
図、第3図は本発明による辞書アクセスの具体例を示す
図、第4図は辞書の形式例を示す図、第5図は翻訳プロ
グラムの概略処理フローを示す図、第6図は翻訳プログ
ラム中の辞書アクセス処理の詳細フローを示す図、第7
図は辞書構成の他の実施例を示す図である。 1,2,3……辞書、 4……マージされた辞書(品詞テーブル)。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】それぞれ品詞データ、熟語データを格納し
    た複数の辞書を備える機械翻訳システムにおいて、各単
    語について、前記複数の辞書をあらかじめ定めた優先順
    位の高い順にアクセスしてそれぞれの品詞データ、熟語
    データを取り込み、該取り込んだ品詞データ、熟語デー
    タをマージして単語データを構成する機械翻訳辞書アク
    セス方法であって、 熟語データについては、前記複数の辞書のそれぞれの熟
    語データを取り込んで全てマージし、品詞データについ
    ては、アクセス優先順位の高い辞書から順に、他の辞書
    に存在しない品詞データのみを取り込んでマージすると
    ともに、 品詞レベルでのマージをするかどうかを判別するフラグ
    を辞書対応に設定し、該フラグがオフの辞書のデータに
    ついては無視することを特徴とする機械翻訳辞書アクセ
    ス方法。
JP62070012A 1987-03-24 1987-03-24 機械翻訳辞書アクセス方法 Expired - Fee Related JP2588522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62070012A JP2588522B2 (ja) 1987-03-24 1987-03-24 機械翻訳辞書アクセス方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62070012A JP2588522B2 (ja) 1987-03-24 1987-03-24 機械翻訳辞書アクセス方法

Publications (2)

Publication Number Publication Date
JPS63236168A JPS63236168A (ja) 1988-10-03
JP2588522B2 true JP2588522B2 (ja) 1997-03-05

Family

ID=13419263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62070012A Expired - Fee Related JP2588522B2 (ja) 1987-03-24 1987-03-24 機械翻訳辞書アクセス方法

Country Status (1)

Country Link
JP (1) JP2588522B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991455A (ja) * 1982-11-18 1984-05-26 Ricoh Co Ltd 複写機

Also Published As

Publication number Publication date
JPS63236168A (ja) 1988-10-03

Similar Documents

Publication Publication Date Title
US6965857B1 (en) Method and apparatus for deriving information from written text
JPH02238516A (ja) データ処理装置における多国語変換処理方式
US20010029442A1 (en) Translation system, translation processing method and computer readable recording medium
JPH0567144A (ja) 前編集支援方法およびその装置
JPH0351022B2 (ja)
JP2588522B2 (ja) 機械翻訳辞書アクセス方法
JP4010589B2 (ja) 文書検索システムおよび同システムに適用される検索文書提示方法
JP3450598B2 (ja) 専門用語辞書選択装置
JP3136973B2 (ja) 言語解析システムおよび方法
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP3236027B2 (ja) 機械翻訳装置
JP2002132764A (ja) 機械翻訳前処理装置
JP3884001B2 (ja) 言語解析システムおよび方法
Bostad Machine translation in the usaf
JPH09185629A (ja) 機械翻訳方法
JPS6324458A (ja) 自然言語処理装置
JPS61253577A (ja) 日本語処理フイルタ
JPH04158477A (ja) 機械翻訳装置
JPH11259473A (ja) 機械翻訳装置及び機械翻訳方法
JPH08137883A (ja) 辞書装置
JPH0444981B2 (ja)
JPH10301930A (ja) 文書処理装置
JPH08235180A (ja) 機械翻訳装置
JPH11259474A (ja) 機械翻訳装置及び機械翻訳方法
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees