JP3921904B2 - 翻訳文検索装置 - Google Patents

翻訳文検索装置 Download PDF

Info

Publication number
JP3921904B2
JP3921904B2 JP36829799A JP36829799A JP3921904B2 JP 3921904 B2 JP3921904 B2 JP 3921904B2 JP 36829799 A JP36829799 A JP 36829799A JP 36829799 A JP36829799 A JP 36829799A JP 3921904 B2 JP3921904 B2 JP 3921904B2
Authority
JP
Japan
Prior art keywords
translated
sentence
translated sentence
search
subtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36829799A
Other languages
English (en)
Other versions
JP2001184362A (ja
Inventor
清司 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP36829799A priority Critical patent/JP3921904B2/ja
Publication of JP2001184362A publication Critical patent/JP2001184362A/ja
Application granted granted Critical
Publication of JP3921904B2 publication Critical patent/JP3921904B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、対訳文に近い翻訳文を効率的に検索出力する翻訳文検索装置に関する。
【0002】
技術の進歩に伴い、経済,社会その他あらゆる面でグローバル化が進み、国内ばかりでなく外国に対しても情報を開示する必要が出ている。
【0003】
国内を対象とした場合、開示する情報は日本語を原文として作成するが、外国をも開示の対象とする場合には日本語で記述された原文を対象国で利用される言語に翻訳した翻訳文を作成する必要がある。
【0004】
翻訳者は、日本語で書かれた原文をもとに翻訳を行い原文に対応した翻訳文(以下、「対訳文」という。)を作製するが、人手で翻訳するため原文が多量の場合は翻訳に長期間を要し、誤りが生じ易くなるという問題がある。
【0005】
そこで、多量の翻訳を正確に且つ効率よく行うため、多用される文章表現については翻訳文をデータペースに蓄積し、対訳文或いは対訳文に近い翻訳文を翻訳文データベースから検索して翻訳者がそのまま、或いは若干の手直しで利用出来る様にして、翻訳者の翻訳作業の効率向上を図ることが短期間で正確に多量の翻訳を行うために必要である。
【0006】
【従来の技術】
従来、この種の翻訳文検索装置には、定型文(或いは/及び)翻訳者自身が過去に翻訳した文章を原文と対訳文と対比させて登録した翻訳文データベースと、原文を検索キーとして翻訳文データベースに登録されている対訳文を検索する検索手段とを備え、原文の対訳文を検索出力する翻訳文検索装置があった。(従来技術1)
また、原文から単語単位で検索キーを抽出する手段と、例えば日本文を原文として英文を翻訳文とする場合の和英辞書のように単語同士を対比させて登録した翻訳辞書と、翻訳文を蓄積した翻訳文データベースと、翻訳辞書を参照して検索キーに対応する訳語を抽出し、その訳語を検索キーとして翻訳文データベースから翻訳文を検索出力する手段とを備え、原文の対訳文を登録された翻訳文の中から検索出力する翻訳文検索装置があった。(従来技術2)
【0007】
【発明が解決しようとする課題】
翻訳者には技術分野毎に得手不得手があり、また翻訳文の表現方法にも個性が反映されるため、翻訳文検索装置を利用する翻訳者以外、例えば技術分野の異なる翻訳者の作製した翻訳文や技術分野が同じでも個性の異なる翻訳者の作製した翻訳文は翻訳文データベースに登録しても本人以外は利用出来ない。
【0008】
そのため、従来技術1で説明した技術の場合は定型文として蓄積した文章以外は翻訳者自身が翻訳した対訳文のみを翻訳文データベースに蓄積することになり、翻訳者自身が営々と長期間かけて翻訳文データベースに対訳文を蓄積しないと翻訳文を検索することが出来ないという問題があった。
【0009】
また、原文とほとんど或いは完全に一致する文が翻訳文データベースに登録されていなければ翻訳文データベースから対訳文を検索することが出来ず、翻訳効率を上げるためには翻訳文データベースに膨大な量の対訳文を登録しなければならないという問題があった。
【0010】
更に、翻訳文データベースに対訳文を蓄積するためには時間がかかるため、流行語のように使用され始めて日の浅い言葉が使用されている場合には対訳文が登録されておらず、検索出来ないという問題があった。
【0011】
また、従来技術2で説明した技術の場合には、例えば、「ジョンはメアリーが好きだ」という文章の翻訳文を検索しようとした時、翻訳文データベースに
「John likes Mary」
「Mary likes John」
という2つの文が登録されているとすると、翻訳辞書を参照して、
「ジョン」を「John」
「メアリー」を「Mary」
「好きだ」を「like」
と翻訳し、「John」,「Mary」,「like」の使用されている翻訳文を翻訳文データベースから検索して、
「John likes Mary」
「Mary likes John」
という、全く異なる2つの文を検索出力するという問題があった。
【0012】
また、原文が複雑な場合には対訳文が検索出来ないという問題があった。
【0013】
即ち、本発明は、対訳文を蓄積することなしに原文の対訳文或いは対訳文に近い翻訳文を検索出力する翻訳文検索装置を提供することを目的とする。
【0014】
【課題を解決するための手段】
本発明の翻訳文検索装置は、原文を解析して解析結果を出力する解析部1と、解析結果から原文の特徴を抽出する特徴抽出部2と、その特徴を構文的にも対応する翻訳言語の特徴に変換して検索キーとして出力するキー生成部3と、翻訳文を蓄積する翻訳文データベース5と、検索キーと一致する文字列を有する翻訳文を翻訳文データベース5から検索する検索部4と、検索出力された翻訳文を原文に近い方から順にソート出力するソート部6と、を有する。
【0015】
原文が入力されると、解析部1は、例えば、形態素解析→構文解析→意味解析という機械翻訳装置では周知の解析処理を行って解析結果を出力する。
【0016】
解析結果が出力されると、特徴抽出部2は解析結果の中から原文の構成上重要な箇所を特徴として抽出し、キー生成部3は抽出した特徴を基に意味や文法上の性質が特徴と類似した、ターゲット言語で表現された検索キーを生成する。
【0017】
検索部4は検索キーを用いて翻訳文データベース5から翻訳文を検索出力し、ソート部6は、例えば検索キーの適合率の高い翻訳文から順に翻訳文をソート出力する。
【0018】
【発明の実施の形態】
本発明の実施の形態について図2〜図10を参照しながら説明する。
【0019】
初めに、翻訳文検索装置の構成を図2を参照しながら説明する。
【0020】
翻訳文検索装置は、言葉の意味や文法上の性質を登録した言語辞書11と、言葉の文法的な用法を登録した文法辞書12と、言語辞書11と文法辞書12とを参照して原文の構成と意味とを解析する解析処理部13とからなる解析部と、
原文の特徴を探索する範囲が指定された場合には指定を受け付け、解析結果を基に原文を特徴づける語句や文節を原文の特徴として抽出する特徴抽出部2と、同じ意味を表すソース言語とターゲット言語とを対比させて登録した変換辞書32と、文法上の性質の類似するソース言語で書かれた語句や文節とターゲット言語で書かれた語句や文節を対応づけて登録した構文辞書31と、変換辞書32と構文辞書31とを参照してターゲット言語で書かれた検索キーを生成するキー生成処理部33とからなるキー生成部3と、
ターゲット言語で書かれた文章を登録した翻訳文データベース5と、
検索キーを用いて翻訳文データベース5に登録されている翻訳文を検索する検索部4と、
検索した結果得られた文章を一時保存するバッファ部61と、バッファ部61に一時保存された文章を検索キーの適合率の高い方からソート出力する翻訳文ソート部62と、からなるソート部6と、
を有する。
【0021】
次に、図11を用い、図3〜図9を参照しながら翻訳文検索処理の流れについて説明する。
【0022】
本説明では、原文を日本語文(即ち、ソース言語を日本語)とし翻訳文を英文(即ち、ターゲット言語を英語)とした場合を例とする。
【0023】
原文が翻訳文検索装置に入力されると、解析処理部13は言語辞書11を参照して入力文を解析し形態素に分解する。
【0024】
言語辞書11は図3に示される様に意味のある文字列を形態素として登録した辞書であって、例えば、「あなた」という文字列は「名詞」であって、特に使い分ける上で区別が必要な「人称代名詞」であるということが登録されている辞書である。(ステップS01〜S02)
次に、解析処理部13は文法辞書12を参照し、形態素に分解された原文が文法的にどのように構成されているのか構文解析する。
【0025】
文法辞書12は図4に示される様に語句を構成する形態素の組合せを登録した辞書であって、例えば、「名詞」と「助詞」の組合せで「名詞句(Noun Phrase )」を構成するということが登録されている辞書である。
【0026】
解析結果は、例えば図5に示される様に、「あなた」という「名詞」と「の」という「助詞」の組合せで「あなたの」という「名詞句」に構文解析され、更に、「あなたの」という「名詞句」と「右手」という「名詞」の組合せで「あなたの右手」という「名詞句」に生成される。(ステップS03)
構文解析結果(以下、「構文木」という。)が生成されると、特徴抽出部は構文木から動詞を中心とした一つの思想の完結を表す「部分木」を原文の特徴として抽出する。(ステップS04)
【0027】
原文が「あなたの右手のレントゲン写真をとる必要がある。」という文章の場合、図6に示される様に、「レントゲン写真をとる」という「部分木2」と「必要がある。」という「部分木3」とが抽出され、更に、残った「あなたの右手の」という部分が「部分木1」として抽出される。(ステップS05)
キー生成処理部33は、構文辞書31を参照して原文の構成に対応する翻訳文の構成を求める。
【0028】
構文辞書31は図7に示される様に原文の構成に対応する翻訳文の構成を登録した辞書であって、例えば、「あなたの右手」という「あなた」という「名詞1」と「の」という助詞と「右手」という「名詞2」からなる原文は翻訳文が「名詞2」と「of」と「名詞1」という構成になるということが登録されている辞書である。
【0029】
キー生成処理部33は、変換辞書32を参照してソース言語に対応するターゲット言語の言葉を求め、構文辞書31を参照して求めた翻訳文の対応する箇所に当てはめて構文木に対応する翻訳文を検索キーとして生成する。
【0030】
変換辞書32は図8に示される様に同じ意味を持つソース言語とターゲット言語とを対比させて登録した辞書であって、例えば、「あなたの」には「your」が、「右手」には「right hand」が対応する言葉として登録されている辞書である。
【0031】
キー生成処理が終了すると、図9に示される様に、「あなたの右手の」という部分木1を例とすると、「of your right hand」という検索キーに変換される。(ステップS06)
検索部4は、翻訳文データべース5に登録されている翻訳文の中から次に説明するようにして、検索キーと構文が一致し且つ文字列も一致する翻訳文を検索してバッファ部61に出力する。
【0032】
翻訳文データベース5は図10に示される様に翻訳文を構文情報と共に登録したデータベースであって、例えば、「患者の頭のレントゲン写真をとる」という原文の対訳文「do an X−ray of the patient’s head」や「すぐに行う必要がある」というを原文の対訳文「we mustdo it right away」を構文情報と共に登録しているデータベースである。
【0033】
例えば、「レントゲン写真をとる必要がある」という部分木2と部分木3とに分割した文の場合、部分木2の「レントゲン写真をとる」に対応する「do an X−ray」を検索キーとして翻訳文データベース5を検索し、
「do an X−ray of the patient’s head」を検出してバッファ部61に蓄積し、
次いで部分木3の「必要がある」に対応する「must」を検索キーとして翻訳文データぺース5を検索し、
「we must do it right away」
を検出してバッファ部61に蓄積するというようにして全ての部分木についての検索を終了させる。(ステップS07)
その後、翻訳文ソート部62はバッファ部61に記録された翻訳文の出現頻度を計数し、翻訳文を出現頻度の高い方から順にソート出力する。(ステップS08)
以上、検索キーのみを用いて翻訳文を検索する場合を説明したが、翻訳文データベース5に翻訳文に対応する原文をも登録し、特徴抽出部2の抽出した特徴とキー生成処理部33の生成した検索キーの双方を用いて検索部4が翻訳文データベース5を検索して重複して検索された結果を求め翻訳文として出力する様に構成すれば、検索精度がより向上されることは明らかである。
【0034】
【発明の効果】
以上説明した様に、本発明によれば原文の対訳文が翻訳文データベースに登録されていない場合であっても翻訳文を原文の対訳に近い方から順にソート出力する事が出来るため、翻訳者自身が翻訳した対訳文以外の翻訳文を検索対象として利用出来る(即ち、翻訳者が対訳文を事前に蓄積しなくとも検索対象範囲を広げることが出来る)という効果があり、
流行語のように使用され始めて日の浅い言葉が使用されている場合であっても、翻訳文データベースに登録しておけば容易に検索できるという効果があり、
原文が複雑な場合であっても翻訳文を検索出来るという工業的効果がある。
【図面の簡単な説明】
【図1】 本発明の原理図
【図2】 本発明の翻訳文検索装置の構成図
【図3】 本発明の言語辞書の構成例を示す図
【図4】 本発明の文法辞書の構成例を示す図
【図5】 本発明の構文解析結果の例を示す図
【図6】 本発明の生成された部分木の例を示す図
【図7】 本発明の構文辞書の構成例を示す図
【図8】 本発明の変換辞書の構成例を示す図
【図9】 本発明の生成された検索キーの例を示す図
【図10】 本発明のデータベースの構成例を示す図
【図11】 本発明のフローチャート図
【符号の説明】
1 解析部
2 特徴抽出部
3 キー生成部
4 検索部
5 翻訳文データベース
6 ソート部
11 言語辞書
12 文法辞書
13 解析処理部
31 構文辞書
32 変換辞書
33 キー生成処理部
61 バッファ部
62 翻訳文ソート部

Claims (3)

  1. 原文の構成を表す部分木と翻訳対象言語の構成を表す部分木とを対応付けた構文辞書と、
    翻訳文と該翻訳文の部分木を登録した翻訳文データベースと、
    原文を形態素解析して構文木を得る解析部と、
    前記構文木から部分木を抽出する特徴抽出部と、
    前記構文辞書を参照して、抽出した部分木を翻訳対象言語の部分木に変換して検索キーを生成するキー生成部と、
    前記検索キーの部分木の構成が一致し、かつ、該部分木の文字列が一致する翻訳文を、前記翻訳文データベースの中から検索する検索部と、
    を有することを特徴とする翻訳文検索装置。
  2. 前記翻訳文データベースから検索した翻訳文を蓄積するバッファ部と、
    同一翻訳文の蓄積数を計数して蓄積数の多い翻訳文からソート出力する翻訳文ソート部と、
    を有することを特徴とする請求項1に記載の翻訳文検索装置。
  3. 前記特徴抽出部が原文の抽出する範囲を指定する指定データを受け付け、指定された範囲の中から部分木を抽出することを特徴とする請求項1または請求項2に記載の翻訳文検索装置。
JP36829799A 1999-12-24 1999-12-24 翻訳文検索装置 Expired - Fee Related JP3921904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36829799A JP3921904B2 (ja) 1999-12-24 1999-12-24 翻訳文検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36829799A JP3921904B2 (ja) 1999-12-24 1999-12-24 翻訳文検索装置

Publications (2)

Publication Number Publication Date
JP2001184362A JP2001184362A (ja) 2001-07-06
JP3921904B2 true JP3921904B2 (ja) 2007-05-30

Family

ID=18491469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36829799A Expired - Fee Related JP3921904B2 (ja) 1999-12-24 1999-12-24 翻訳文検索装置

Country Status (1)

Country Link
JP (1) JP3921904B2 (ja)

Also Published As

Publication number Publication date
JP2001184362A (ja) 2001-07-06

Similar Documents

Publication Publication Date Title
KR101099177B1 (ko) 기계 번역기를 훈련하기 위한 방법 및 시스템
US8185377B2 (en) Diagnostic evaluation of machine translators
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
McKeown et al. Translating collocations for bilingual lexicons: A statistical approach
US20050086047A1 (en) Syntax analysis method and apparatus
US20060206304A1 (en) Multilingual translation memory, translation method, and translation program
JPH0644296A (ja) 機械翻訳装置
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP3921904B2 (ja) 翻訳文検索装置
WO1997048058A1 (en) Automated translation of annotated text
WO1997048058A9 (en) Automated translation of annotated text
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP2521435B2 (ja) 日本語生成装置
JP2626722B2 (ja) 日本語生成装置
JP2719453B2 (ja) 機械翻訳装置
JP2901977B2 (ja) 翻訳装置
KR19990079824A (ko) 하이픈으로 연결된 복합어 처리에 적합한 형태소 해석장치와 방법 및 그 장치를 구비한 언어 번역장치
JP2947554B2 (ja) 機械翻訳装置
Ouersighni Towards developing a robust large-scale parser for arabic sentences
JPH02156376A (ja) 機械翻訳方法
KR20130042822A (ko) 패턴 기반 번역과 번역 예문 기반 번역을 사용한 번역 장치 및 방법
JP2002117028A (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100302

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110302

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110302

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120302

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130302

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130302

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140302

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees