JP4473702B2 - 機械翻訳システム、機械翻訳方法及びプログラム - Google Patents

機械翻訳システム、機械翻訳方法及びプログラム Download PDF

Info

Publication number
JP4473702B2
JP4473702B2 JP2004319708A JP2004319708A JP4473702B2 JP 4473702 B2 JP4473702 B2 JP 4473702B2 JP 2004319708 A JP2004319708 A JP 2004319708A JP 2004319708 A JP2004319708 A JP 2004319708A JP 4473702 B2 JP4473702 B2 JP 4473702B2
Authority
JP
Japan
Prior art keywords
word
sentence
sentences
sentence set
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004319708A
Other languages
English (en)
Other versions
JP2006133900A (ja
Inventor
博和 鈴木
明 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004319708A priority Critical patent/JP4473702B2/ja
Priority to US11/262,919 priority patent/US7979265B2/en
Priority to CNB2005101193553A priority patent/CN100418087C/zh
Publication of JP2006133900A publication Critical patent/JP2006133900A/ja
Application granted granted Critical
Publication of JP4473702B2 publication Critical patent/JP4473702B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、機械翻訳システムに関する。
コンピュータを利用して第1言語(原言語)の文章を第2言語(目的言語)の文章に自動的に翻訳する機械翻訳システムにおいては、先ず、入力原文を形態素解析および構文解析によって、語(句)等の所定の翻訳単位に区分する。次に処理単位ごとに翻訳辞書を検索して適用する翻訳規則を決定し、対応する訳語(訳語句)等を決定する。決定した訳語を所定の訳文生成規則に従って結合して、入力原文に対する訳文を得るようになっている。
語・文を規則的に配置した表や箇条書きなどの構造を含む文書において、表や箇条書きなどを翻訳する際には、表中の各セル内の語・文や箇条書きされた語・文を抽出して、それを前述のような機械翻訳システムに入力し翻訳を行っていた。
表中の各セル内の文や箇条書きされた文など、構造上の要素として規則的に配置された文は、文法上の文構造を成していない場合や、非常に短文である場合などが多い。そのため、前述のように表や箇条書きなどの構造内の文を1文ずつ取り出して機械翻訳を行う方法では、翻訳の際の解析や訳し分けの手掛かりとなる情報が少なく、翻訳精度の悪化を招いていた。
通常文の翻訳では、このような場合に文内の共起情報や文脈の共起情報を用いていた(例えば、特許文献1参照)。しかし、この手法をそのまま表や箇条書きなどの構造内の文の翻訳に適用した場合、構造内の各文の配置によって共起の仕方も変わってくるので、安定した翻訳結果を出すことは難しい。
例えば、日本語で記述された(イ)月、(ロ)火、(ハ)水、…という箇条書き構造の場合、「イ」「ロ」「ハ」…という語は、「順序」というカテゴリに属するから、これらに対応する訳語は、順序を示す番号(1)(2)(3)…や、アルファベット(a)(b)(c)…であることが望ましい。一方、同様に順序のカテゴリに属するものとして(ア)月、(イ)火、(ウ)水、…という箇条書き構造も存在する。従って上記(イ)のように箇条書きで順序を表すものには曖昧性を有するものが存在し、さらに箇条書きが入れ子構造になり、これらの曖昧性を有するものが同時に出現する場合すらある。従来の共起情報を用いた翻訳では、このような箇条書き構造で規則的に配置された語の集合に基づき訳すことができないため、上記の例の(イ)のように順序に曖昧性が存在する場合は、正しくない訳語が選定されることによる翻訳品質の悪化が見受けられた。また、上記の例で箇条書き本文が「月」、「火」、「水」…となっているので、これらの語の集合から「月」や「火」は「曜日」というカテゴリに属すから、英語の「Monday」「Tuesday」と訳すべきところ、従来はこのような箇条書き構造で規則的に配置された語の集合に基づき訳すことができないため、標準的な訳語(デフォルト訳語)が選択され「moon」「fire」などと訳されてしまっていた。
表構造においても同様に問題を捉えることができる。即ち、表構造上で各列(列)のインデックス行(列)に「月」、「火」、「水」…という語をそれぞれ含むセルがあれば、この行(列)の語の集合から「月」や「火」は「曜日」というカテゴリに属すから、英語の「Monday」「Tuesday」と訳すべきところ、従来は、表構造での行(列)方向に配置された語の集合に基づき訳すことができないため、前述の箇条書きのときと同様に標準的な訳語(デフォルト訳語)が選択され「moon」「fire」などと訳されてしまっていた。共起情報を用いた翻訳を表の翻訳に適用した場合、表において関係が薄い他のセル(例えば斜め上下など)の影響を受ける可能性があるため、やはり安定した訳出は難しい。
特開平3−175573号公報
このように、従来は、語・文を規則的に配置した表、箇条書きなどの構造を有する文書を高精度に翻訳することができないという問題点があった。
そこで、本発明はこのような問題点を鑑み、表や箇条書きなどの構造を有する文書の翻訳において、高精度かつ安定した機械翻訳システムおよびプログラムを提供することを目的とする。
本発明の機械翻訳システムは、任意のカテゴリに属する第1の言語の語・文集合に属する各語・文に対応し、当該各語・文を第2の言語の当該カテゴリに属する語・文に翻訳するための、当該語・文集合をそれぞれ含む複数の解釈データを記憶する記憶手段と、前記複数の解釈データから、構造を有する翻訳対象の文書中に当該構造上で同一の属性あるいは等価な配置関係を有する第1の言語の第1の語・文集合の各語・文に対応する各解釈データを検索する第1の検索手段と、検索された各解釈データに含まれる語・文集合が、前記第1の語・文集合と同一か否かを判定する判定手段と、前記第1の語・文集合と同一と判定された語・文集合を含む各解釈データを用いて前記第1の語・文集合の各語・文を翻訳する翻訳手段とを含む。
表や箇条書きなどの構造を有する文書を、高精度かつ安定に翻訳することができる。
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は本発明の一実施形態に係る機械翻訳システムを示すブロック図である。
図1において、入力部1は、翻訳対象となる文書(原文)の電子データ(以下単に文書という)を取り込んで制御部2に出力する。入力部1は、例えばキーボード、マウス等によって構成されており、ユーザの入力操作に基づく文書の入力が可能である。また、入力部1としては、OCR(光学式文字読み取り装置)や、フロッピー(登録商標)ディスク、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能であり、入力部1はこれらの装置によって取り込んだ文書を制御部2に供給することができるようになっている。また、入力部1は、制御部2に対して各種コマンドを与える。
出力部3は、制御部2を介して供給された翻訳結果を出力する。また、出力部3は制御部2に制御されて翻訳結果等を図示しない表示装置の表示画面上に画面表示させる。また、出力部3は翻訳結果を音声出力する。さらに、出力部3は制御部2への各種コマンドに対する制御部2からの応答を表示する。
なお、出力部3としては、各種ディスプレイ等の表示装置だけでなく、印字機等の印刷装置、フロッピー(登録商標)ディスク、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。
翻訳部4は、制御部2からの指示に従って、後述する翻訳辞書部5を用いて入力部1によって入力された原文に対する翻訳処理を行い、翻訳結果を制御部2へ出力する。
翻訳辞書部5は、図示しない語彙辞書および翻訳処理に必要な各種規則を記憶している。例えば、翻訳辞書部5は単語・熟語辞書、形態素解析規則、構文・意味解析規則、翻訳の変換規則、翻訳文生成規則等を記憶している。
制御部2は翻訳対象の文書内の表構造、箇条書きや章・節などの階層構造など、語・文が規則的に配置された構造を検出する。例えば、翻訳対象の文書内から章・節を検出する際には、文書内から、章・節のタイトル文に一般的に含まれている文字列(例えば、「第1章」、「第2章」…、「Ch」、「Sec」など)を含む文字列を、章・節のタイトル文と判定して、章・節を検出する。同様にして表を検出する際には、文書内から罫線データを検出してその罫線が矩形を構成し、かつその矩形内で罫線によって分割される領域があるかどうかで検出することができる。箇条書きを検出する際には、インデントや各文の先頭に置かれる記号で判定することができる。翻訳対象の文書がHTMLやXMLなどのタグ付構造化文書である場合はタグを識別することによってこれら構造の検出はさらに容易に行うことができる。
制御部2は、表構造や階層構造などの構造を検出した場合には、翻訳対象の文書のうち、検出した構造全体を文書内構造解析部6に送信する。文書内構造解析部6は、当該構造を解析して当該構造内の(当該構造の要素として配置されている)文・語集合(以下、簡単に文集合と呼ぶ)を抽出する。
構造内データ格納部7は、文書内構造解析部6によって抽出された当該構造内の文集合を記憶する。記憶された情報は然るべき時期、例えば当該構造全体の翻訳が終了したときなどに消去される。
翻訳対象の構造が入れ子構造になっている場合は、文書内構造解析部6において、構造全体を検索して全ての文集合を構造内データ格納部7に格納することも可能であるし、文書内構造解析部6で例えば再帰的に構造解析処理を行うことにより、構造を構成する小構造単位での処理を行っても良い。その場合は、構造内データ格納部7はスタックなどのデータ構造を利用すれば、構造内の文集合を再帰的に格納することができる。このとき格納された情報の消去は処理スコープを抜け出したタイミング毎に行えばよい。
構造内解釈データベース8には、構造内の語・文の翻訳で失敗しやすいものと、その語・文と同じ種類(ドメイン)に属する文集合と、それらの文集合が構造内に翻訳対象の語・文と同一の属性や構造上で等価な(同等な)配置関係を有する場合に、どう翻訳するか(解釈するか)という処理内容とを含む複数の解釈データが記憶されている。この解釈データには、さらに、当該解釈データに含まれる文集合とのマッチングを行う際の条件が含まれている場合もある。例えば必要な最低マッチ数を設けたり、当該文集号の各文の出現する順序に関する制限を設けたり、マッチングを完全一致で行うのか部分一致も可能なのか、などの条件である。
翻訳部4は、翻訳時には構造内データ格納部7に格納されている構造内の文集合を用いて、構造内解釈データベース8に適用可能な解釈データがないかどうかの問い合わせを行う。この場合、構造内解釈データベース8は、解釈データに上記条件が含まれている場合には、当該条件を用いて、当該構造内の文集合と当該解釈データ内の文集号とが同一か否かを判定する。適用可能な解釈データがなかった場合には、その旨を翻訳部4に通知し、以降は通常の翻訳処理が行われる。適用可能な解釈データが見つかった場合には、翻訳部4にその解釈データを通知し、翻訳対象文に対する解釈を当該解釈データの解釈に置き換えて翻訳処理を行う。
次に、図2に示す表構造の文書の翻訳を行う場合を例にとり、図1に示した機械翻訳システムの処理動作について、図5に示すフローチャートを参照して、より具体的に説明する。
原文として図2に示す表構造を有する文書が入力部1に入力されると、入力部はその原文データを制御部2に送信する。制御部2では入力された原文が通常の文であるか、あるいは構造を有するものなのか、構造であった場合にはその種類(例えば、表構造、箇条書き構造、章・節構造など)を判定する。この場合は、原文が表なので図2の表全体を、文書内構造解析部6に送信する(ステップS1)。
文書内構造解析部6では、送られた表構造のデータを解析する。この場合、図2より7行3列の表であることを解析し、各セルに入っている語・文の集合(以下、簡単に文集合と呼ぶ)を抽出し、これらの情報を構造内データ格納部7に送る。(ステップS2)
構造内データ格納部7では、文書内構造解析部6で抽出した表のデータを格納する。このとき、表の列、行の情報が分かるように格納する。例えば1次元形式で格納しておき、7行3列であることを考慮してどの文がどの位置のセルなのかを分かるようにしてもよい。図3は、図2の表が7行3列であることを示す情報と共に、1行1列目のセルから1行2列目、1行3列目、2行1列目、…と順番に7行3列目までの文をセパレータ「/」でつないで1次元形式で格納した例である。参照するときはセパレータで区切られた各文を格納の順番と同じ順番でたどってゆけば、それぞれの文が何行何列目のセルの文かがわかる。その他にも、例えばm行n列のセルの文に関してはその文に座標(m,n)などの情報を付けて、一文ごとに格納してもよい。
制御部2では、図2の表の中から各セル中の文を順番に一文ずつ取り出し、そのセルの座標情報などと共に翻訳部4へ送る(ステップS3)。翻訳部4では、制御部2から送られた原文に対して、翻訳辞書部5に格納されている知識(単語・語彙辞書、形態素解析規則、構文・意味解析規則、変換規則、生成規則)を利用し目的言語への翻訳処理を始める。その際、翻訳部2は構造内解釈データベース8に、現在翻訳処理中の原文の情報と制御部から送られてきた座標情報とを送信し、適用できる解釈データがないかどうかの問い合わせを行う。
以降では原文が図2の表の1列2行目の文「月」である場合を想定して説明する。この場合、原文としては、見出し語の「月」だけでも良いが、形態素解析を行ってその解析結果と併せて送信しても良く、同様にして構文解析結果・意味解析結果・変換結果・生成結果など様々な処理段階の結果を併せてもよい。座標情報としては原文が2行1列目なので(2,1)という情報を送る。
図4は構造内解釈データベース8における解釈データの記憶例を示したものである。解釈データは、第1の言語(例えば日本語)の曜日や日本の地方の名称などの任意のカテゴリに属する語・文の集合に属する各語・文に対応し、当該各語・文を第2の言語(例えば、英語)の当該カテゴリに属する語・文に翻訳するためのものである。各解釈データには、「見出し語;品詞;訳語;当該見出し語を含む任意のカテゴリに属する語・文の集合(以下、簡単に文集合)」が含まれている。ここでは、当該文集合の各文の間をセパレータ「/」で連結して示している。解釈データに含まれる文集合の各文の出現する順番が予め定められている場合には、この出現順に各文が記述されている。このような文集合の他に、解釈データには、原文中から抽出された文集合と当該解釈データに含まれる文集合とが同一か否かを判定するための条件が含まれている場合もある。この条件とは、例えば、原文中から抽出された文集合が、当該解釈データ内の文集合のうち、一致している文の数の最小値や、英語の文集号の場合には大文字・小文字の区別をするか否かという条件や、出現(配置)の順番を考慮するのかランダムな出現(配置)でもよいのか、といった条件である。これらの条件の具体的な効果については後述する。
翻訳部4から翻訳原文の情報と座標情報を受信した構造内解釈データベース8は、構造内データ格納部7にアクセスして、取得した座標位置から現在処理中の表で同一の列または行に出現(配置)されている文集合を取得する(ステップS4)。この場合、座標は(2,1)であるので、2行目中の各セルの文集合と、1列目中の各セルの文集合とを、図3で示す構造内データ格納部7に記憶されているデータから取得する。図3より、2行目に存在するセルの文集合は{月、月、関東}(文集合A)になる。同様にして1列目に存在するセル中の文集合は{曜日、月、火、水、木、金、土}(文集合B)となる。
構造内データ格納部7から上記文集合A及び文集合Bに示す文集合を取得した構造内解釈データベース8は、翻訳部4から受け取った原文を基に解釈データの検索を行う。例えば見出し語「月」をキーにして図4で示す解釈データを検索する(ステップS5)。ここでは下記の2件:
「月;名詞;Monday;月/火/水/木/金/土/日」
「月;名詞;Moon;月/地球/火星/水星/木星/金星/土星/太陽」
が得られたとする。この2件の解釈データのそれぞれに含まれる文集合{月、火、水、木、金、土、日}(文集合C)と{月、地球、火星、水星、木星、金星、土星、太陽}(文集合D)と、構造内データ格納部7から得られた原文中の文集合Aと文集合Bとのマッチングを行う(ステップS6)。このマッチングを行う際に、前述した条件を効果的に用いることも可能である。例えばある原文中の文集合と、ある解釈データ内の文集合と同一であると判定するために、当該原文中の文集合が当該解釈データ内の文集合のうちk個以上の文と一致する必要があるという条件、当該原文中の文集合と当該解釈データ内の文集合とが完全一致する必要があるという条件、完全一致でなくとも部分的に一致すればよいという条件、当該原文中の文集合と当該解釈データ内の文集合とがその出現順も一致する必要があるという条件などである。これらの条件を用いることによりマッチングの動作を自由に制御することが可能となる。
この場合は、文集合Bと文集合Cとが一致し(適合度が高いので)、構造内解釈データベース8は、これらを同一と判定する。従って、解釈データは前者の「月;名詞;Monday;月/火/水/木/金/土/日」が選択される(ステップS7)。各解釈データには、品詞や訳語などの翻訳に必要な情報も登録されており、ここでは、原文の表構造中の1列2行目の「月」の訳語として「Monday」が選定され、この旨の解釈が翻訳部4に送信される。
構造内解釈データベース8から解釈を受け取った翻訳部4は、翻訳処理の変更を行い翻訳結果を制御部2に送信する。ここでは翻訳部4は訳語「Monday」を制御部2へ送信する。
翻訳結果を受信した制御部2は、出力部3へ翻訳結果を送信する(ステップS8)。
こうして、図1の機械翻訳システムは、正しい翻訳結果を出力することができる。上記同様にして、図2の表の2行2列目のセルの文「月」は、「Moon」と翻訳される。すなわち、同一の行に存在する同一の文でありながら、列中の各文を参照することにより正確な訳しわけが可能となる。また図2の表の5行3列目のセルの文「中国」も、これ単体では訳しわけが困難であるが、図1の機械翻訳システムでは表の当該セルを含む3列目の各文を参照することにより、(例えば、「China」ではなく)日本の地方名の1つである「Chugoku」と正確に翻訳することが可能である。
翻訳対象が箇条書き構造や章・節構造の場合は、上記説明の処理フローにおいて、各章のタイトル及び各節のタイトルをそれぞれn行1列の表の各セルの文とし、上記表構造の各セルの文翻訳の処理フローと全く同様な処理フローによって翻訳することが可能である。またそれ以外の階層構造を有する構造に関しても同様に拡張可能である。
以上説明したように、上記実施形態では、文書内構造解析部6に、表構造、箇条書き構造や章・節構造のような階層構造などの構造(例えば、図2に示すような表構造)を有する文書が入力されると、当該文書の構造内の語・文集合を抽出し、構造内データ格納部7に格納する(図3参照)。当該語・文集合のうちの1つの語・文を翻訳する際には、構造内解釈データベース8は、構造内データ格納部7から、当該構造上で当該選択された語・文と同一属性あるいは等価な配置関係を有する第1の語・文集合、すなわち、当該構造の要素として当該選択された語・文とともに規則的に配置された第1の語・文集合(例えば、選択された語・文が図2の2行1列目の「月」である場合には、図2の2行目の語・文集合、1列目の語・文集合)を取得する。そして、当該選択された語・文を見出し語として含む解釈データを検索し、そのなかから、さらに第1の文集合と同一の(解釈データに含まれる条件から同一と見なされる)文集合を含む解釈データを選択する。翻訳部4は、この選択された解釈データを用いて当該選択された語・文を翻訳する。
このように、上記実施形態によれば、表や箇条書き、章・節などの構造を有する文書を、その構造の階層関係、属性、位置関係を考慮して翻訳を行うことにより正確・かつ安定した翻訳結果が得られる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
また、図1の機械翻訳システムの図5に示した処理動作は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
本発明の実施形態にかかる機械翻訳システムの構成例を示すブロック図。 構造を有する文書の一例を示した図で、表構造の文書を示した図。 構造内データ格納部における、図2の表の各セル内のデータの記憶例を示した図。 構造内解釈データベースに格納される解釈データの具体例を示した図。 図1の機械翻訳システムの処理動作を説明するためのフローチャート。
符号の説明
1…入力部、2…制御部、3…出力部、4…翻訳部、5…翻訳辞書部、6…文書内構造解析部、7…構造内データ格納部、8…構造内解釈データベース。

Claims (9)

  1. 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
    複数の語・文が規則的に配置される構造を有する前記第1の言語の文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
    前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つ語・文を見出し語として含む複数の解釈データを検索する検索手段と、
    検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定する判定手段と、
    前記検索された複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合中のうちの1つの語・文を当該解釈データ中の前記第2の言語の語・文に翻訳する翻訳手段と、
    を含む機械翻訳システム。
  2. 前記検索された各解釈データには、前記見出し語を含む語・文集合とともに、当該語・文集合と前記抽出された語・文集合とが同一であると判定するための条件を含み、
    前記判定手段は、前記抽出された語・文集合が、前記検索された解釈データに含まれる前記条件を満たすとき、当該解釈データ中の語・文集合と当該抽出された語・文集合とが同一であると判定することを特徴とする請求項1記載の機械翻訳システム。
  3. 前記抽出された語・文集合は、表構造の列あるいは行に配置されていることを特徴とする請求項1記載の機械翻訳システム。
  4. 前記抽出された語・文集合は、箇条書き構造の箇条書きされた語・文であることを特徴とする請求項1記載の機械翻訳システム。
  5. 前記抽出された語・文集合は、章・節構造の各章のタイトルあるいは各節のタイトルであることを特徴とする請求項1記載の機械翻訳システム。
  6. 前記記憶手段に記憶された各解釈データは、その見出し語の品詞を含むことを特徴とする請求項1記載の機械翻訳システム。
  7. 前記条件は、前記検索された各解釈データ中の語・文集合と前記抽出された語・文集合との間で一致する語・文の数及び順序のうちの少なくとも1つに関する条件であることを特徴とする請求項2記載の機械翻訳システム。
  8. 見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
    複数の語・文が規則的に配置される構造を有する前記第1の言語の文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
    前記複数の解釈データのなかから、抽出された語・文集合と同一の語・文集合を含む解釈データを求める解釈手段と、
    前記抽出された語・文集合中の各語・文を前記第2の言語に翻訳する翻訳手段と、
    を備えた機械翻訳システムにおける機械翻訳方法であって、
    前記抽出手段が、前記文書から前記構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出するステップと、
    前記解釈手段が、前記記憶手段に記憶された前記複数の解釈データの中から、前記抽出された語・文集合のうちの1の語・文を見出し語として含む複数の解釈データ検索するステップと、
    前記解釈手段が、検索された解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定するステップと、
    前記翻訳手段が、前記複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合のうちの1つの語・文を当該解釈データ中の前記第2の言語の語・文に翻訳するステップと、
    を含む機械翻訳方法。
  9. コンピュータを、
    見出し語としての第1の言語の語・文と、第1の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの1つである場合の該見出し語に対応する第2の言語での語・文とを含む複数の解釈データを記憶する記憶手段、
    複数の語・文が規則的に配置される構造を有する前記第1の言語の文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段、
    前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの1つ語・文を見出し語として含む複数の解釈データを検索する検索手段、
    検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定する判定手段、
    前記検索された複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合中のうちの1つの語・文を当該解釈データ中の前記第2の言語の語・文に翻訳する翻訳手段、
    として機能させるためのプログラム。
JP2004319708A 2004-11-02 2004-11-02 機械翻訳システム、機械翻訳方法及びプログラム Active JP4473702B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004319708A JP4473702B2 (ja) 2004-11-02 2004-11-02 機械翻訳システム、機械翻訳方法及びプログラム
US11/262,919 US7979265B2 (en) 2004-11-02 2005-11-01 Machine translation system, method and program for translating text having a structure
CNB2005101193553A CN100418087C (zh) 2004-11-02 2005-11-02 机器翻译系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004319708A JP4473702B2 (ja) 2004-11-02 2004-11-02 機械翻訳システム、機械翻訳方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007303308A Division JP4220570B2 (ja) 2007-11-22 2007-11-22 機械翻訳システム、機械翻訳方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006133900A JP2006133900A (ja) 2006-05-25
JP4473702B2 true JP4473702B2 (ja) 2010-06-02

Family

ID=36568344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004319708A Active JP4473702B2 (ja) 2004-11-02 2004-11-02 機械翻訳システム、機械翻訳方法及びプログラム

Country Status (3)

Country Link
US (1) US7979265B2 (ja)
JP (1) JP4473702B2 (ja)
CN (1) CN100418087C (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US20060149528A1 (en) * 2005-01-05 2006-07-06 Inventec Corporation System and method of automatic Japanese kanji labeling
US8280719B2 (en) 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US8121261B2 (en) * 2005-08-24 2012-02-21 Verizon Business Global Llc Systems and methods for providing interpretation services
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
CN101286094A (zh) 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP5150344B2 (ja) * 2008-04-14 2013-02-20 株式会社東芝 機械翻訳装置および機械翻訳プログラム
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US8306807B2 (en) * 2009-08-17 2012-11-06 N T repid Corporation Structured data translation apparatus, system and method
GB2474839A (en) * 2009-10-27 2011-05-04 Sdl Plc In-context exact matching of lookup segment to translation memory source text
CN101706810A (zh) * 2009-11-23 2010-05-12 北京中创信测科技股份有限公司 一种数据库查询方法及装置
CA2803861C (en) * 2010-06-25 2016-01-12 Rakuten, Inc. Machine translation system and method of machine translation
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US9367539B2 (en) 2011-11-03 2016-06-14 Microsoft Technology Licensing, Llc Techniques for automated document translation
US9715625B2 (en) 2012-01-27 2017-07-25 Recommind, Inc. Hierarchical information extraction using document segmentation and optical character recognition correction
US9189476B2 (en) * 2012-04-04 2015-11-17 Electronics And Telecommunications Research Institute Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated
JP2013218424A (ja) * 2012-04-05 2013-10-24 Zero Four Co Ltd 翻訳装置および翻訳方法
US10693962B1 (en) * 2015-12-18 2020-06-23 EMC IP Holding Company LLC Language and mechanism for modeling and exporting storage platform topologies, attributes, and behaviors
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
WO2021184249A1 (en) * 2020-03-18 2021-09-23 Citrix Systems, Inc. Machine translation of digital content

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
JP2848593B2 (ja) * 1985-05-07 1999-01-20 株式会社東芝 翻訳処理方法
JPH03175573A (ja) 1989-12-04 1991-07-30 Ricoh Co Ltd 機械翻訳処理方式
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
JP3066274B2 (ja) * 1995-01-12 2000-07-17 シャープ株式会社 機械翻訳装置
CN1067784C (zh) * 1997-07-02 2001-06-27 华建机器翻译有限公司 特殊语言现象处理方法
CN1067783C (zh) * 1997-07-02 2001-06-27 华建机器翻译有限公司 基于sc文法的转换生成方法
CN1067781C (zh) * 1997-07-02 2001-06-27 华建机器翻译有限公司 机器翻译中的复杂上下文相关处理方法
US6526426B1 (en) * 1998-02-23 2003-02-25 David Lakritz Translation management system
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US7516063B1 (en) * 2001-04-17 2009-04-07 Personalized Mass Media Corporation System and method for storing data using a machine readable vocabulary
US20030004704A1 (en) * 2001-07-02 2003-01-02 Baron John M. System and method of spreadsheet-based string localization
FI114347B (fi) * 2002-03-20 2004-09-30 Master S Innovations Ltd Oy Menetelmä ja laitteisto datan kääntämiseksi
EP1351158A1 (en) * 2002-03-28 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
JP3813911B2 (ja) * 2002-08-22 2006-08-23 株式会社東芝 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム
US7711548B2 (en) * 2003-12-23 2010-05-04 International Business Machines Corporation Method and structures to enable national language support for dynamic data

Also Published As

Publication number Publication date
JP2006133900A (ja) 2006-05-25
US7979265B2 (en) 2011-07-12
CN1770144A (zh) 2006-05-10
US20060116866A1 (en) 2006-06-01
CN100418087C (zh) 2008-09-10

Similar Documents

Publication Publication Date Title
JP4473702B2 (ja) 機械翻訳システム、機械翻訳方法及びプログラム
JP4960461B2 (ja) ウェブベースのコロケーション誤りの校正
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
JP2004516527A (ja) クロス言語ライティングウィザードを伴うコンピュータ支援ライティングのシステムおよび方法
Vilares et al. Studying the effect and treatment of misspelled queries in Cross-Language Information Retrieval
Vilares et al. Managing misspelled queries in IR applications
JP2002132791A (ja) 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置
Arnold et al. Beyond lexical frequencies: using R for text analysis in the digital humanities
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JP4220570B2 (ja) 機械翻訳システム、機械翻訳方法及びプログラム
Hollingsworth et al. Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining
Ebeling et al. Comparing n-gram-based functional categories in original versus translated texts
JP5115631B2 (ja) 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Alkhazi et al. BAAC: Bangor Arabic Annotated Corpus
Alansary Basma: Bibalex standard arabic morphological analyzer
Simon et al. Languages under the influence: Building a database of Uralic languages
Syed et al. Quantifying the Use of English Words in Urdu News-Stories
JP4933741B2 (ja) 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体
Szpektor et al. Cross lingual and semantic retrieval for cultural heritage appreciation
Vasuki et al. English to Tamil machine translation system using parallel corpus
Abbès et al. AraConc, an Arabic concordance software based on the DIINAR. 1 language resource
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
Altunyurt et al. Part of Speech tagger for Turkish

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070905

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071122

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071205

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20071214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4473702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140312

Year of fee payment: 4