JP3429612B2 - 辞書登録装置及び機械翻訳装置 - Google Patents

辞書登録装置及び機械翻訳装置

Info

Publication number
JP3429612B2
JP3429612B2 JP25126395A JP25126395A JP3429612B2 JP 3429612 B2 JP3429612 B2 JP 3429612B2 JP 25126395 A JP25126395 A JP 25126395A JP 25126395 A JP25126395 A JP 25126395A JP 3429612 B2 JP3429612 B2 JP 3429612B2
Authority
JP
Japan
Prior art keywords
dictionary
document
feature
feature information
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25126395A
Other languages
English (en)
Other versions
JPH0997256A (ja
Inventor
美穂子 北村
秀樹 山本
光夫 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP25126395A priority Critical patent/JP3429612B2/ja
Publication of JPH0997256A publication Critical patent/JPH0997256A/ja
Application granted granted Critical
Publication of JP3429612B2 publication Critical patent/JP3429612B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、辞書作成装置及び
機械翻訳装置に関し、特に、複数の個別辞書を作成した
りそれらを使用したりする機能を持った装置に関する。
【0002】
【従来の技術】機械翻訳装置において、高い訳質(訳文
の品質)を維持するためには、ユーザが個別に作成する
辞書や専門用語辞書の利用が欠かせず、従来、複数の異
なる種類の辞書を備えた装置が種々提案されている。ま
た、機械翻訳装置が複数の個別辞書や専門用語辞書を保
持している場合であっても、より高い訳質を達成するた
めには、複数種類の辞書の中から入力文書にとって最適
な辞書を選択し、その辞書を使用することが必要であ
る。
【0003】従来においては、辞書の選択は、機械翻訳
装置の使用者が自ら行なっていた。しかし、機械翻訳装
置が入力文書に最適な辞書を自動的に選択する機能があ
れば、翻訳作業の効率化が図られ、かつ高品質な翻訳結
果を得ることができる。
【0004】文献1『特開平6−332946号公報』 文献1に記載の機械翻訳装置では、複数種類の辞書の中
から翻訳対象となる文書に最適な辞書を自動的に選択す
る方法として、入力文書中から、基本語辞書に記述され
ている文脈ベクトルを抽出し、その文脈ベクトルから入
力文書の専門分野を判断して行なう方法が提案されてい
る。すなわち、各辞書には、その辞書に係る文脈ベクト
ルの専門分野のコードが付与されており、入力文書から
判断された専門分野(文脈ベクトル)と同じ専門分野コ
ードを持つ辞書を選択するという方法をとっている。
【0005】
【発明が解決しようとする課題】しかしながら、上記文
献1に記載の辞書選択方法は、専門辞書の分野コードは
辞書作成時に固定されるため、固定された専門分野内で
の辞書の選択しかできない。
【0006】すなわち、入力文書から得た文脈ベクトル
から推定できるのは、個別辞書作成時に予め辞書に与え
られた専門用語の分野コード(例えば、「化学」、「情
報処理」)だけであり、この分野コード以外の入力文書
の特徴による辞書の分類及び選択はできない。例えば、
「構造」という単語の訳語を考えると、「情報処理」の
分野でも、その文書の作成者や内容によって“structur
e ”と翻訳される場合と“construction”と翻訳される
場合が考えられ、これらは「情報処理」という分類では
訳し分けをすることができない。
【0007】一般に、使用者が辞書を作成する場合、翻
訳の対象となる文書が存在し、その文書又はその文書と
同類の文書の翻訳品質を高めるために、翻訳処理に必要
な辞書を作成する。このため、辞書は、専門分野等とい
う固定された分類で用意されるのではなく、翻訳対象と
なる文書の種類や特徴を単位とした分類で辞書が用意さ
れ、選択されることが望ましい。
【0008】そのため、専門分野コードを付すことな
く、翻訳対象文書に最適な辞書を選択できるように辞書
を作成、登録できる辞書登録装置が求められていると共
に、そのような辞書を翻訳に有効に利用できる機械翻訳
装置が求められている。
【0009】
【課題を解決するための手段】かかる課題を解決するた
め、第1の本発明においては、機械翻訳装置で使用され
る辞書の作成、登録を行なう辞書登録装置において、以
下の各手段を有することを特徴とする。
【0010】すなわち、第1の本発明による辞書登録装
置は、(A)1以上の文書対応辞書と、(B)自然言語で記述
された、いずれの文書対応辞書との関係も指定されてい
ない今回の入力文書から、その入力文書内の単語やイデ
ィオムの出現頻度情報を少なくとも含む文書特徴情報を
抽出する文書特徴抽出手段と、(C)各文書対応辞書のそ
れぞれについて、文書特徴情報と同様な形式を有する辞
書特徴情報を格納している辞書特徴格納手段と、(D)
書特徴抽出手段で抽出された文書特徴情報と、辞書特徴
格納手段に格納されている各辞書特徴情報との類似度を
得、得られた各類似度に基づいて、登録に供する既存の
文書対応辞書を決定すると共に、抽出された文書特徴情
報に応じて、辞書特徴格納手段に格納されている辞書特
徴情報を更新する類似度判定手段と、(E)この類似度判
定手段によって決定された上記文書対応辞書に対して、
今回の入力文書に関係する内容を追加登録する辞書登録
手段とを有することを特徴とする。
【0011】この第1の本発明の辞書登録装置により、
固定的な分野単位ではなく、入力文書の特徴に応じた単
位で文書対応辞書の自動作成や自動設定が可能となる。
【0012】第2の本発明においては、辞書登録構成を
備えた機械翻訳装置において、上記(A) 〜(E) の手段を
備えると共に、さらに、以下の手段を有することを特徴
とする。
【0013】すなわち、第2の本発明の機械翻訳装置
は、(F) 翻訳対象入力文書から、その翻訳対象入力文書
内の単語やイディオムの出現頻度情報を少なくとも含む
文書特徴情報を抽出する第2の文書特徴抽出手段と、
(G) 第2の文書特徴抽出手段で抽出された文書特徴情報
と、辞書特徴格納手段に格納されている各辞書特徴情報
との類似度を得、得られた各類似度に基づいて、翻訳処
理に用いる1又は2以上の文書対応辞書を決定する第2
の類似度判定手段と、(H) 翻訳対象入力文書を、翻訳処
理に用いると決定された文書対応辞書の内容を利用して
翻訳する翻訳実行手段とをさらに有している。
【0014】この第2の本発明の機械翻訳装置は、翻訳
対象文書から文書特徴を抽出し、文書の特徴に応じた単
位の複数の文書対応辞書から最適なものを選択するよう
にしているので、同一単語であっても入力された翻訳対
象文書によって訳し分けを行なうことができ、固定的な
分野単位で辞書を用意している従来装置に比較して、一
段と訳質を高められる。
【0015】
【発明の実施の形態】以下、本発明を日英機械翻訳装置
に適用した一実施形態を図面を参照しながら詳述する。
【0016】なお、この実施形態の日英機械翻訳装置は
辞書作成、登録機能を具備しており、その実現構成は、
本発明による辞書作成装置の一実施形態を構成してい
る。すなわち、この実施形態の機械翻訳装置は、動作モ
ードとして、辞書登録モードと翻訳モードとを有してい
る。
【0017】(A)第1の実施形態 第1の実施形態の機械翻訳装置は、実際上、キーボード
やマウス等の入力装置や、CRTディスプレイや液晶デ
ィスプレイやプリンタ等の出力装置や、ハードディスク
装置等の補助記憶装置を備えたワークステーションやミ
ニコンやパソコン等の情報処理装置で構成されている
が、この実施形態の特徴から、要部構成を機能部に分け
ると、図1に示す機能ブロック図に示す構成を有する。
【0018】図1において、第1の実施形態の機械翻訳
装置は、使用者が翻訳したい文書を入力したり翻訳結果
を使用者に表示したりするためのユーザインターフェイ
ス部1、辞書作成用入力文書や翻訳対象文書の特徴を抽
出し、辞書の作成有無や使用辞書を判定したりする辞書
判定部2、辞書判定部2で判定された辞書に登録等の要
求を出したり辞書判定部2で判定された辞書から翻訳処
理に使用する辞書内容を取出したりする辞書インターフ
ェイス部4、翻訳処理を実行する翻訳実行部3、及び、
複数の辞書が格納されている辞書格納部5から構成され
る。
【0019】ユーザインターフェイス部1は、使用者が
辞書を登録、作成したりする際のユーザインターフェイ
スを担う辞書作成部6、辞書の作成や翻訳の対象となる
文書を取込む文書入力部7、及び、翻訳結果を使用者に
提示、出力するための翻訳結果出力部8から構成され
る。なお、辞書登録モードか翻訳モードかの情報は、例
えば、文書入力部7が入力文書を取込む前に取込むよう
になされている。また、この第1の実施形態の場合に
は、文書入力部7は、辞書登録モードにおいても、原言
語である日本語の文書だけを取込むようになされてお
り、また、翻訳モードにおいては、翻訳対象の日本語文
書を取込むようになされている。
【0020】辞書判定部2は、文書特徴抽出部9、辞書
特徴データベース(辞書特徴DB)10、及び、文書対
応辞書判定部11から構成される。
【0021】文書特徴抽出部9は、辞書登録モードにお
いては、原言語に係る日本語文書から、その文書特徴を
抽出するものである。また、文書特徴抽出部9は、翻訳
モードにおいては、翻訳対象である日本語文書から、そ
の文書特徴情報を抽出するものである。
【0022】文書特徴抽出部9は、文書特徴情報の抽出
のために、形態素解析等を実行している。この解析等に
は辞書内容が必要となるが、例えば、少なくとも後述す
る汎用辞書19の格納内容を利用する。辞書格納部5に
格納されている全ての格納内容を、形態素解析等を利用
するようにしても良い。また、文書特徴抽出部9は、こ
のような処理のために必要となる辞書格納部5から転送
されてきた辞書内容を、かかる処理のために直接アクセ
スできるように格納する辞書部を内蔵していても良い。
【0023】辞書特徴データベース10は、辞書格納部
5に格納されている各文書対応辞書についての特徴情報
(以下、辞書特徴情報と呼ぶ)をそれぞれ格納している
ものである。
【0024】文書対応辞書判定部11は、辞書登録モー
ド及び翻訳モードの両モードにおいて、辞書特徴データ
ベース10内の辞書特徴情報の中から、文書特徴抽出部
9で抽出された文書特徴情報に最も類似する辞書特徴情
報を持つ既存の後述する文書対応辞書を判定するもので
ある。文書対応辞書判定部11は、辞書登録モードにお
いては、その判定結果に従って、今回の入力文書に係る
文書対応辞書の作成の必要性等をさらに判定するもので
ある。また、文書対応辞書判定部11は、辞書登録モー
ドにおいては、類似度判定結果等に基づいて、辞書特徴
データベース10に対する更新動作を適宜実行するもの
である。
【0025】図2は、文書特徴情報の一例の説明図であ
る。この例の文書特徴情報202は、辞書登録モード又
は翻訳モードを問わず、基本的には、図2(B)に示す
ように、図2(A)に示すような入力された日本語文書
(原言語文書)201において、所定回数以上(例えば
5回以上)出現した所定品詞(例えば名詞)の単語の頻
度分布2024である。なお、この例では、入力文書に
付随して入力されたファイル名(filename)2021、編
集者情報(editor)2022、使用者情報(user)2023
等も書誌情報も文書特徴情報を構成しているものとして
いる。
【0026】図3は、辞書特徴データベース10に格納
されている辞書特徴情報の一例の説明図である。図3
は、辞書格納部5内の後述する3種類の文書対応辞書1
6、17、18についての情報例301、302、30
3を示しており、その構成は、図2との比較から明らか
なように、文書特徴情報と同様である。
【0027】上述した文書対応辞書判定部11は、例え
ば、文書特徴情報と辞書特徴情報との類似度を、両特徴
情報に共通の単語(名詞)の個数とし、文書特徴情報に
属する単語を最も多く含む文書対応辞書を最も類似して
いると判定する。
【0028】翻訳実行部3は、翻訳モードでのみ機能す
るものであり、翻訳処理を実行する翻訳処理部12、翻
訳処理に用いる辞書内容を格納する辞書部13から構成
される。
【0029】翻訳処理部12は、既存の機械翻訳装置に
搭載されているものと同様であるので、その詳細説明は
省略する。なお、翻訳処理部12は、より細かく見た場
合、原言語文書(日本語文書)に対する形態素解析部や
構文解析部等を内蔵しているが、これらについては、文
書特徴抽出部9における形態素解析部や構文解析部等と
共通に用いることができる。辞書部13は、辞書格納部
5から、後述するような所定の辞書内容が転送されてき
てそれを格納するものである。
【0030】辞書インターフェイス部4は、辞書登録部
14、及び、翻訳インターフェイス部15とからなる。
【0031】辞書登録部14は、辞書登録モードで機能
するものであり、文書対応辞書判定部11の辞書登録用
文書に対する判定結果に基づいて、既存の文書対応辞書
に内容を追加登録させたり、文書対応辞書を新規作成さ
せてその新規作成の文書対応辞書に内容を登録させたり
するものである。
【0032】翻訳インターフェイス部15は、翻訳モー
ドで機能するものであり、文書対応辞書判定部11が翻
訳用文書に対して決定した辞書の格納内容を、翻訳実行
部3内の辞書部13に転送させるものである。
【0033】辞書格納部5には、特徴が異なった複数の
文書対応辞書16、17、18、…と、汎用辞書19と
が格納されている。各文書対応辞書16、17、18、
…は、日本語文書及び英語文書でなるある辞書登録用文
書から形成された辞書内容を格納するものである。一
方、汎用辞書19は、多くの翻訳対象文書に汎用的な辞
書内容を格納しているものである。
【0034】図4は、第1の実施形態の機械翻訳装置に
おける辞書登録モードの動作を示すフローチャートであ
る。
【0035】辞書登録モードの処理に入ると、使用者が
入力した辞書作成の対象となる日本語文書を文書入力部
7が取込む(ステップ402)。そして、文書特徴抽出
部9は、入力された日本語文書から文書特徴情報(20
2)を抽出する(ステップ403)。
【0036】文書対応辞書判定部11は、抽出された文
書特徴情報(202)と、辞書特徴データベース10内
の各文書対応辞書16、17、18、…に対応する辞書
特徴情報(301、302、303、…)との類似度を
計算し、辞書特徴データベース10から最大の類似度を
持つ辞書特徴情報の文書対応辞書を判定する(ステップ
404)。
【0037】ここでは、説明を簡単にするため、文書特
徴情報の類似度計算方法が以下のものであるとする。な
お、上述したように、文書特徴情報及び辞書特徴情報
は、5回以上出現した単語の組(頻度分布)を中心情報
としているものである。
【0038】まず、文書特徴情報中のファイル名と同じ
ファイル名を有する辞書特徴情報がある場合には、その
類似度は無限大とする。同じファイル名を有する辞書特
徴情報がなければ、文書特徴情報及び辞書特徴情報の双
方に記述されている単語(出現回数が5回以上の単語)
の数を類似度とする。但し、文書特徴情報及び辞書特徴
情報の双方に記述されている単語数が所定個数(0でも
良い)以下の場合は、類似度を0とする。
【0039】なお、図2及び図3に示した情報の範囲で
みれば、辞書特徴情報301は文書特徴情報202に対
する類似度が2(「情報」、「技術」が重複)であり、
辞書特徴情報302は文書特徴情報202に対する類似
度が3(「情報」、「研究」、「技術」が重複)であ
り、辞書特徴情報303は文書特徴情報202に対する
類似度が1(「技術」が重複)であり、辞書特徴情報3
02を持つ文書対応辞書17が最大の類似度を持つ辞書
として判定される。
【0040】入力文書に係る文書特徴情報に類似する辞
書特徴情報を持つ文書対応辞書が1個も存在しない場合
には、新しい文書対応辞書を辞書格納部5に作成させる
(ステップ406)。なお、この段階では、辞書の枠組
(ファイル)が形成されるだけであり、内容の登録は後
述するように後で行なわれる。
【0041】一方、類似度最大の文書対応辞書が複数存
在する場合には、自動的に1個を選択するのではなく、
辞書作成部6を介してその全ての候補辞書を使用者に提
示し、使用者に選択させる(ステップ407)。
【0042】以上のようにして、作成される場合を含
め、登録対象の文書対応辞書が決定されると、文書対応
辞書判定部11で決定された辞書名が、辞書インターフ
ェイス部4の辞書登録部14に設定され、使用者が登録
したい単語を入力すると(ステップ408)、この辞書
名を持つ文書対応辞書に対して単語登録が行なわれる
(ステップ409)。
【0043】具体的な登録方法は、いかなる方法でも良
い。例えば、出現回数が5回以上の文書特徴情報に含ま
れている単語が、登録対象の文書対応辞書に記述されて
いるか否かを判断し、記述されていなければその単語を
使用者に提示して登録するか否かを確認し、登録する場
合にはその英語情報を取込んで登録する。この場合、出
現回数が5回未満のものも対象とするようにしても良
い。また、特徴抽出に関係なく、単語を辞書登録させて
も良い。従って、登録単語は、特徴抽出に係る品詞の単
語以外であっても良い。例えば、対訳文書から辞書に格
納し得る内容を文献2に記載の方法等によって予め得て
おき、かかる登録動作で登録するようにしても良い。
【0044】文献2『北村美穂子、松本裕治共著、「二
言語対訳コーパスからの翻訳知識の自動獲得」、電子情
報通信学会NLC研究会報告、信学技報Vol.94 No.32
(2)、pp.9-16 』 ここで、文書対応辞書17が辞書インターフェイス部4
の辞書登録部14に設定された場合において、使用者が
文書201中の「構造」について、「構造:structure
」を登録すると、かかる内容が文書対応辞書17に登
録される。
【0045】使用者が登録終了を指示すると、辞書特徴
データベース10が更新され(ステップ410)、一連
の辞書登録モードでの処理は終了する。文書対応辞書が
新規作成された場合には、文書特徴情報の全てが、新規
作成された文書対応辞書の辞書特徴情報として辞書特徴
データベース10に新規登録される。また、文書対応辞
書が新規作成されなかった場合には、辞書特徴データベ
ース10内の登録に供した文書対応辞書についての既存
の辞書特徴情報に、文書特徴情報中の両者に重複しない
単語情報が追加される。例えば、登録対象として文書対
応辞書17が判定された場合であれば、図3(B)に示
す辞書特徴情報302に、図2(B)に示す文書特徴情
報202中の「研究」、「技術」、「情報]以外の単語
の情報が追加される。
【0046】以上のような辞書登録モードでの動作によ
り、使用者が専門分野を意識しなくても、文書の特徴対
応で辞書を作成して登録したり、既存辞書に追加登録し
たりすることができ、同一単語に対する訳語をそのよう
な文書対応辞書毎に任意に登録することができる。例え
ば、「構造」の訳語として、文書対応辞書16に“cons
truction”、文書対応辞書17に“structure ”、文書
対応辞書18に“organization”を登録できる。
【0047】図5は、第1の実施形態の機械翻訳装置に
おける翻訳モードの動作を示すフローチャートである。
なお、図6には、翻訳対象の文書601の一例と、その
文書601の特徴情報602と、その文書601を翻訳
した翻訳結果603とを示している。
【0048】翻訳モードの処理に入ると、使用者が入力
した翻訳対象の文書(601)を文書入力部7が取込む
(ステップ502)。そして、文書特徴抽出部9は、そ
の翻訳対象文書から、文書特徴情報(602)を抽出す
る(ステップ503)。
【0049】その後、文書対応辞書判定部11におい
て、抽出された文書特徴情報(402)と、辞書特徴デ
ータベース10内の辞書特徴情報(301、302、3
03…)との類似度が計算されると共に、辞書特徴デー
タベース10から最大の類似度を持つ辞書特徴情報が選
択される(ステップ504)。
【0050】文書対応辞書判定部11で決定された辞書
名は、辞書インターフェイス部4の翻訳インターフェイ
ス部15に渡され、翻訳インターフェイス部15は翻訳
実行部3内の辞書部13にその辞書名を持つ文書対応辞
書の格納内容を読み込む(ステップ505)。なお、類
似する文書対応辞書が存在しない場合には、特別な特徴
を持たない汎用辞書19の格納内容を辞書部13に読み
込む。
【0051】例えば、図3及び図6に示した情報の範囲
でみれば、辞書特徴情報301は文書特徴情報602に
対する類似度が1(「計算機」が重複)であり、辞書特
徴情報302は文書特徴情報602に対する類似度が4
(「情報」、「人工知能」、「研究」、「処理」が重
複)であり、辞書特徴情報303は文書特徴情報602
に対する類似度が0であり、この場合には、文書対応辞
書17が選択されることになる。すなわち、文書対応辞
書17の格納内容が辞書部13に読み込まれることにな
る。
【0052】なお、文書対応辞書が、助詞や接続詞等の
文書特徴には関係しない情報を格納していないものであ
れば、決定された文書対応辞書の格納内容だけでなく、
汎用辞書19の格納内容辞書部13に転送されること
になる。
【0053】辞書部13に辞書内容が転送されると、翻
訳処理部12は、この辞書部13を使用して、翻訳対象
文書(601)の翻訳処理を実行し(ステップ50
6)、得られた翻訳結果(603)を翻訳結果出力部8
から出力させ(ステップ507)、一連の翻訳モードで
の処理を終了する。なお、辞書部13に、決定された文
書対応辞書の格納内容と、汎用辞書19の格納内容とが
転送された場合において、原言語単語が重複記述されて
いるときには、決定された文書対応辞書の格納内容が優
先される。
【0054】ここで、各文書対応辞書16、17、18
には、「構造」の訳語として、それぞれ“constructio
n”、“structure ”、“organization”が登録されて
いるとする。このような状況において、図6(A)に示
す翻訳対象文書601が入力されると、その文書特徴情
報602に基づいて、最も類似した辞書特徴情報を持つ
文書対応辞書17が自動選択され、それを翻訳処理する
ことによって、「構造」の訳語に最適な“structure ”
という訳語に翻訳される。
【0055】以上のように、第1の実施形態によれば、
文脈ベクトルにしたがった固定的な分野単位ではなく、
文書の特徴に応じた単位で文書対応辞書の自動作成及び
自動設定が可能となる。
【0056】また、第1の実施形態によれば、翻訳対象
文書から文書特徴を抽出し、文書の特徴に応じた単位の
複数の文書対応辞書から最適なものを選択するようにし
たので、同一単語であっても入力された翻訳対象文書に
よって訳し分けを行なうことができ、固定的な分野単位
で辞書を用意している従来装置に比較して、一段と訳質
を高めることができる。
【0057】例えば、分野単位による辞書選択方法で
は、「構造:construction」、「構造:structure 」は
いずれも「情報処理」という同一分野に含まれるため、
同一辞書内に登録され、辞書選択による訳し分けをする
ことができないが、第1の実施形態によれば、文書の特
徴単位に文書対応辞書を作成できるため、それぞれを別
の文書対応辞書に登録することができ、辞書選択による
訳し分けを行なうことができる。
【0058】(B)第2の実施形態 次に、本発明を日英機械翻訳装置に適用した第2の実施
形態を図面を参照しながら詳述する。ここで、図7が、
この第2の実施形態の機械翻訳装置を示す機能ブロック
図であり、上述した図1との同一、対応部分には同一符
号を付して示している。
【0059】図7において、第2の実施形態の機械翻訳
装置は、辞書判定部2内に登録内容抽出部20が設けら
れている。この第2の実施形態では、辞書登録モードで
は、原言語である日本語の文書とその英語文書との対訳
文書が文書入力部7を介して入力されるようになされて
いる。このように入力された対訳文書が、登録内容抽出
部20に与えられるようになされており、入力された対
訳文書の内、日本語文書だけが文書特徴抽出部9に与え
られるようになされている。
【0060】登録内容抽出部20は、辞書登録モードに
おいてのみ機能するものであり、日本語文書及び英語文
書でなる対訳文書から、辞書に登録し得る内容を自動的
に抽出するものである。なお、対訳文書から、辞書に登
録し得る内容を自動的に得る方法としては、例えば、上
記文献2に記載の方法を適用できる。
【0061】登録内容抽出部20以外の各部は、第1の
実施形態とほぼ同様に機能する。但し、辞書作成部6
は、例えば、登録内容抽出部20が抽出した登録可能な
内容(単語の対語情報)の内、登録しようとする文書対
応辞書に格納されていない内容を使用者に提示して、登
録の有無や内容修正を受け付けたりし、辞書登録部14
は、このようにして辞書作成部6を介して使用者から指
示された登録内容抽出部20が抽出した内容を所定の文
書対応辞書に登録させるものである。
【0062】従って、この第2の実施形態によっても、
固定的な分野単位ではなく、(1) 文書の特徴に応じた単
位での文書対応辞書の自動作成及び自動設定が可能とな
る、(2) 翻訳対象文書から文書特徴を抽出し、文書の特
徴に応じた単位の複数の文書対応辞書から最適なものを
選択するようにしたので、同一単語であっても入力され
た翻訳対象文書によって訳し分けを行なうことができ、
固定的な分野単位で辞書を用意している従来装置に比較
して、一段と訳質を高めることができる、という効果を
奏することができる。
【0063】また、第2の実施形態によれば、辞書に登
録し得る内容を装置側が自動的に得るので、使用者の負
担を少なくすることができる有用な装置を提供できる。
【0064】(C)他の実施形態 上記各実施形態の説明においても、種々変形可能なこと
を説明したが、さらに、上記実施形態を以下のように変
形した他の実施形態も本発明を構成するものである。
【0065】(1) 上記各実施形態においては、文書特徴
情報及び辞書特徴情報が、主として、文書中に所定回数
以上出現した単語の組情報であるものを示したが、これ
以外の情報であっても良い。例えば、入力文書の長さを
反映させるため、文書の単語総数で出現回数を割った出
現率が所定の出現率以上の単語の組情報を、文書特徴情
報及び辞書特徴情報とするようにしても良い。また、単
語だけでなく、イディオムをも特徴を構成する要素とす
るようにしても良い。
【0066】(2) 同様に、文書特徴情報及び辞書特徴情
報の類似度も、双方に属する単語数に限定されるもので
はない。例えば、文書作成者の一致不一致を値に換算し
て類似度の値に含めるようにしても良い。また、出現回
数や出現率が大きい単語(重要語)については、類似度
への加算値を大きくするようにしても良い。
【0067】(3) また、上記各実施形態においては、日
英機械翻訳装置に本発明を適用したものを示したが、原
言語又は目的言語がこれ以外の機械翻訳装置に、本発明
を適用できることは勿論である。この場合であっても、
原言語側の文書から、文書特徴情報及び辞書特徴情報を
得ることを要する。
【0068】(4) さらに、上記各実施形態においては、
翻訳方向が1方向の機械翻訳装置に本発明を適用したも
のを示したが、翻訳方向が2方向以上の機械翻訳装置に
本発明を適用することができる。この場合、辞書特徴デ
ータベース10には、各言語での辞書特徴を格納してお
くことを要し、翻訳モードにおいては、そのときの原言
語の文書から文書特徴情報を得ることを要する。
【0069】(5) さらにまた、上記各実施形態において
は、辞書特徴情報を辞書特徴データベース10に格納し
ておくものを示したが、それぞれ対応する文書対応辞書
に特徴情報の格納エリアを設けて格納しておくようにし
ても良い。
【0070】(6) また、上記各実施形態においては、翻
訳処理に供する文書対応辞書が1個のものを示したが、
2個以上の文書対応辞書を翻訳処理に供するものとして
決定するようにしても良い。この場合、翻訳対象文書の
文書特徴との類似度に応じて、使用の優先順位を設定す
るようにしても良い。
【0071】
【発明の効果】以上のように、第1の本発明による辞書
登録装置によれば、入力文書の特徴を抽出して文書対応
辞書の作成必要性を判定して、必要ならば文書対応辞書
を作成して登録動作するようにしたので、文脈ベクトル
にしたがった固定的な分野単位ではなく、文書の特徴に
応じた単位で文書対応辞書の自動作成及び自動設定が可
能となる。
【0072】また、第2の本発明による機械翻訳装置に
よれば、翻訳対象文書から文書特徴を抽出し、文書の特
徴に応じた単位の複数の文書対応辞書から最適なものを
選択するようにしたので、第1の本発明による辞書登録
装置が奏する効果だけでなく、同一単語であっても入力
された翻訳対象文書によって訳し分けをでき、固定的な
分野単位で辞書を用意している従来装置に比較して一段
と訳質を高めることができるという効果をも奏する。
【図面の簡単な説明】
【図1】第1の実施形態の機械翻訳装置の機能ブロック
図である。
【図2】文書特徴情報の説明図である。
【図3】辞書特徴情報の説明図である。
【図4】第1の実施形態の辞書登録モードでの動作フロ
ーチャートである。
【図5】第1の実施形態の翻訳モードでの動作フローチ
ャートである。
【図6】第1の実施形態の翻訳処理例の説明図である。
【図7】第2の実施形態の機械翻訳装置の機能ブロック
図である。
【符号の説明】
1…ユーザインターフェイス部、2…辞書判定部、3…
翻訳実行部、4…辞書インターフェイス部、5…辞書格
納部、6…辞書作成部、9…文書特徴抽出部、10…辞
書特徴データベース、11…文書対応辞書判定部、14
…辞書登録部、15…翻訳インターフェイス部、16〜
18…文書対応辞書、19…汎用辞書。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−321174(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/28

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 機械翻訳装置で使用される辞書の作成、
    登録を行なう辞書登録装置において、1以上の文書対応辞書と、 自然言語で記述された、いずれの文書対応辞書との関係
    も指定されていない今回の入力文書から、その入力文書
    内の単語やイディオムの出現頻度情報を少なくとも含む
    文書特徴情報を抽出する文書特徴抽出手段と、上記各 文書対応辞書のそれぞれについて、上記文書特徴
    情報と同様な形式を有する辞書特徴情報を格納している
    辞書特徴格納手段と、 上記文書特徴抽出手段で抽出された文書特徴情報と、上
    記辞書特徴格納手段に格納されている各辞書特徴情報と
    の類似度を得、得られた各類似度に基づいて、登録に供
    する既存の上記文書対応辞書を決定すると共に、抽出さ
    れた文書特徴情報に応じて、上記辞書特徴格納手段に格
    納されている辞書特徴情報を更新する類似度判定手段
    と、 この類似度判定手段によって決定された上記文書対応辞
    書に対して、今回の入力文書に関係する内容を追加登録
    する辞書登録手段とを有することを特徴とする辞書登録
    装置。
  2. 【請求項2】 上記類似度判定手段は、登録に供する既
    存の上記文書対応辞書を決定できないときに、上記各類
    似度に基づいて、新たな文書対応辞書を作成するか否か
    を判定し、新たな文書対応辞書を作成する場合には、抽
    出された文書特徴情報を、その辞書特徴情報として上記
    辞書特徴格納手段に格納させ、かつ、上記辞書登録手段
    に、新たな文書対応辞書を作成させて、辞書登録を実行
    させることを特徴とする請求項1に記載の辞書登録装
    置。
  3. 【請求項3】 辞書登録構成を備えた機械翻訳装置にお
    いて、1以上の文書対応辞書と、 原言語で記述された、いずれの文書対応辞書との関係も
    指定されていない今回の入力文書から、その入力文書内
    の単語やイディオムの出現頻度情報を少なくとも含む文
    書特徴情報を抽出する第1の文書特徴抽出手段と、上記各 文書対応辞書のそれぞれについて、上記文書特徴
    情報と同様な形式を有する辞書特徴情報を格納している
    辞書特徴格納手段と、 上記第1の文書特徴抽出手段で抽出された文書特徴情報
    と、上記辞書特徴格納手段に格納されている各辞書特徴
    情報との類似度を得、得られた各類似度に基づいて、登
    録に供する既存の上記文書対応辞書を決定すると共に
    出された文書特徴情報に応じて、上記辞書特徴格納手
    段に格納されている辞書特徴情報を更新する第1の類似
    度判定手段と、 この第1の類似度判定手段によって決定された上記文書
    対応辞書に対して、今回の入力文書に関係する内容を追
    加登録する辞書登録手段と、 翻訳対象入力文書から、その翻訳対象入力文書内の単語
    やイディオムの出現頻度情報を少なくとも含む文書特徴
    情報を抽出する第2の文書特徴抽出手段と、 上記第2の文書特徴抽出手段で抽出された文書特徴情報
    と、上記辞書特徴格納手段に格納されている各辞書特徴
    情報との類似度を得、得られた各類似度に基づいて、翻
    訳処理に用いる1又は2以上の上記文書対応辞書を決定
    する第2の類似度判定手段と、 上記翻訳対象入力文書を、翻訳処理に用いると決定され
    た上記文書対応辞書の内容を利用して翻訳する翻訳実行
    手段とを有することを特徴とする機械翻訳装置。
  4. 【請求項4】 上記第1の類似度判定手段は、登録に供
    する既存の上記文書対応辞書を決定できないときに、上
    記各類似度に基づいて、新たな文書対応辞書を作成する
    か否かを判定し、新たな文書対応辞書を作成する場合に
    は、抽出された文書特徴情報を、その辞書特徴情報とし
    て上記辞書特徴格納手段に格納させ、かつ、上記辞書登
    録手段に、新たな文書対応辞書を作成させて、辞書登録
    を実行させることを特徴とする請求項3に記載の機械翻
    訳装置。
  5. 【請求項5】 上記第1及び第2の文書特徴抽出手段と
    して同じ文書特徴抽出手段を使い分けると共に、上記第
    1及び第2の類似度判定手段として同じ類似度判定手段
    を使い分けることを特徴とする請求項3又は4に記載の
    機械翻訳装置。
JP25126395A 1995-09-28 1995-09-28 辞書登録装置及び機械翻訳装置 Expired - Fee Related JP3429612B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25126395A JP3429612B2 (ja) 1995-09-28 1995-09-28 辞書登録装置及び機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25126395A JP3429612B2 (ja) 1995-09-28 1995-09-28 辞書登録装置及び機械翻訳装置

Publications (2)

Publication Number Publication Date
JPH0997256A JPH0997256A (ja) 1997-04-08
JP3429612B2 true JP3429612B2 (ja) 2003-07-22

Family

ID=17220185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25126395A Expired - Fee Related JP3429612B2 (ja) 1995-09-28 1995-09-28 辞書登録装置及び機械翻訳装置

Country Status (1)

Country Link
JP (1) JP3429612B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
US11574135B2 (en) * 2019-12-19 2023-02-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and readable storage medium for translation

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046390A1 (ja) 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置
US20100076749A1 (en) * 2007-03-01 2010-03-25 Nec Corporation Language processing system, language processing method, language processing program, and recording medium
JP5304389B2 (ja) * 2009-03-30 2013-10-02 日本電気株式会社 会議管理システム、会議管理方法、プログラム
JP6519131B2 (ja) * 2014-09-24 2019-05-29 富士ゼロックス株式会社 辞書選択装置、文書変換システム、プログラム及び文書変換方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
US11574135B2 (en) * 2019-12-19 2023-02-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and readable storage medium for translation

Also Published As

Publication number Publication date
JPH0997256A (ja) 1997-04-08

Similar Documents

Publication Publication Date Title
JP4504555B2 (ja) 翻訳支援システム
JP3666004B2 (ja) 多言語対応文書検索システム
US5311429A (en) Maintenance support method and apparatus for natural language processing system
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
JPS6140673A (ja) 外国語作文用翻訳方法、および翻訳機
JP3429612B2 (ja) 辞書登録装置及び機械翻訳装置
JPH10312382A (ja) 類似用例翻訳システム
Komen Cesax: Coreference editor for syntactically annotated XML corpora
JP2000163441A (ja) 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JPH04160473A (ja) 事例再利用型翻訳方法および装置
JP2778025B2 (ja) 共起関係辞書の学習方法
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP4368550B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
Richy A hypertext electronic index based on the Grif structured document editor
JPH0561902A (ja) 機械翻訳システム
JPH05282361A (ja) データベース作成支援装置及び機械翻訳装置
JPH0844743A (ja) 形態素解析装置
JP3294966B2 (ja) 機械翻訳装置
JP3388393B2 (ja) データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置
JPH03273360A (ja) 機械翻訳方法及び装置
JPH1145280A (ja) 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法
JPH08137883A (ja) 辞書装置
JPH05233714A (ja) 関連語情報作成支援方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080516

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees