JP4220570B2

JP4220570B2 - 機械翻訳システム、機械翻訳方法及びプログラム

Info

Publication number: JP4220570B2
Application number: JP2007303308A
Authority: JP
Inventors: 博和鈴木; 明熊野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-11-22
Filing date: 2007-11-22
Publication date: 2009-02-04
Anticipated expiration: 2024-11-02
Also published as: JP2008108267A

Description

本発明は、機械翻訳システムに関する。

コンピュータを利用して第１言語（原言語）の文章を第２言語（目的言語）の文章に自動的に翻訳する機械翻訳システムにおいては、先ず、入力原文を形態素解析および構文解析によって、語（句）等の所定の翻訳単位に区分する。次に処理単位ごとに翻訳辞書を検索して適用する翻訳規則を決定し、対応する訳語（訳語句）等を決定する。決定した訳語を所定の訳文生成規則に従って結合して、入力原文に対する訳文を得るようになっている。

語・文を規則的に配置した表や箇条書きなどの構造を含む文書において、表や箇条書きなどを翻訳する際には、表中の各セル内の語・文や箇条書きされた語・文を抽出して、それを前述のような機械翻訳システムに入力し翻訳を行っていた。

表中の各セル内の文や箇条書きされた文など、構造上の要素として規則的に配置された文は、文法上の文構造を成していない場合や、非常に短文である場合などが多い。そのため、前述のように表や箇条書きなどの構造内の文を１文ずつ取り出して機械翻訳を行う方法では、翻訳の際の解析や訳し分けの手掛かりとなる情報が少なく、翻訳精度の悪化を招いていた。

通常文の翻訳では、このような場合に文内の共起情報や文脈の共起情報を用いていた（例えば、特許文献１参照）。しかし、この手法をそのまま表や箇条書きなどの構造内の文の翻訳に適用した場合、構造内の各文の配置によって共起の仕方も変わってくるので、安定した翻訳結果を出すことは難しい。

例えば、日本語で記述された（イ）月、（ロ）火、（ハ）水、…という箇条書き構造の場合、「イ」「ロ」「ハ」…という語は、「順序」というカテゴリに属するから、これらに対応する訳語は、順序を示す番号（１）（２）（３）…や、アルファベット（ａ）（ｂ）（ｃ）…であることが望ましい。一方、同様に順序のカテゴリに属するものとして（ア）月、（イ）火、（ウ）水、…という箇条書き構造も存在する。従って上記（イ）のように箇条書きで順序を表すものには曖昧性を有するものが存在し、さらに箇条書きが入れ子構造になり、これらの曖昧性を有するものが同時に出現する場合すらある。従来の共起情報を用いた翻訳では、このような箇条書き構造で規則的に配置された語の集合に基づき訳すことができないため、上記の例の（イ）のように順序に曖昧性が存在する場合は、正しくない訳語が選定されることによる翻訳品質の悪化が見受けられた。また、上記の例で箇条書き本文が「月」、「火」、「水」…となっているので、これらの語の集合から「月」や「火」は「曜日」というカテゴリに属すから、英語の「Ｍｏｎｄａｙ」「Ｔｕｅｓｄａｙ」と訳すべきところ、従来はこのような箇条書き構造で規則的に配置された語の集合に基づき訳すことができないため、標準的な訳語（デフォルト訳語）が選択され「ｍｏｏｎ」「ｆｉｒｅ」などと訳されてしまっていた。

表構造においても同様に問題を捉えることができる。即ち、表構造上で各列（列）のインデックス行（列）に「月」、「火」、「水」…という語をそれぞれ含むセルがあれば、この行（列）の語の集合から「月」や「火」は「曜日」というカテゴリに属すから、英語の「Ｍｏｎｄａｙ」「Ｔｕｅｓｄａｙ」と訳すべきところ、従来は、表構造での行（列）方向に配置された語の集合に基づき訳すことができないため、前述の箇条書きのときと同様に標準的な訳語（デフォルト訳語）が選択され「ｍｏｏｎ」「ｆｉｒｅ」などと訳されてしまっていた。共起情報を用いた翻訳を表の翻訳に適用した場合、表において関係が薄い他のセル（例えば斜め上下など）の影響を受ける可能性があるため、やはり安定した訳出は難しい。
特開平３−１７５５７３号公報

このように、従来は、語・文を規則的に配置した表、箇条書きなどの構造を有する文書を高精度に翻訳することができないという問題点があった。

そこで、本発明はこのような問題点を鑑み、表や箇条書きなどの構造を有する文書の翻訳において、高精度かつ安定した機械翻訳システムおよびプログラムを提供することを目的とする。

本発明の機械翻訳システムは、
見出し語としての第１の言語の語・文と、第１の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの１つである場合の該見出し語に対応する第２の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第１の言語の文書内から、複数の語・文が規則的に配置される構造を認識する認識手段と、
前記構造が認識された文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの１つ語・文を見出し語として含む複数の解釈データを検索する検索手段と、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合と同一か否かを判定する判定手段と、
前記検索された複数の解釈データのうち、前記抽出された語・文集合と同一と判定された語・文集合を含む解釈データを用いて、前記抽出された語・文集合中のうちの１つの語・文を当該解釈データ中の前記第２の言語の語・文に翻訳する翻訳手段と、
を含む。

表や箇条書きなどの構造を有する文書を、高精度かつ安定に翻訳することができる。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

図１は本発明の一実施形態に係る機械翻訳システムを示すブロック図である。

図１において、入力部１は、翻訳対象となる文書（原文）の電子データ（以下単に文書という）を取り込んで制御部２に出力する。入力部１は、例えばキーボード、マウス等によって構成されており、ユーザの入力操作に基づく文書の入力が可能である。また、入力部１としては、ＯＣＲ（光学式文字読み取り装置）や、フロッピー（登録商標）ディスク、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能であり、入力部１はこれらの装置によって取り込んだ文書を制御部２に供給することができるようになっている。また、入力部１は、制御部２に対して各種コマンドを与える。

出力部３は、制御部２を介して供給された翻訳結果を出力する。また、出力部３は制御部２に制御されて翻訳結果等を図示しない表示装置の表示画面上に画面表示させる。また、出力部３は翻訳結果を音声出力する。さらに、出力部３は制御部２への各種コマンドに対する制御部２からの応答を表示する。

なお、出力部３としては、各種ディスプレイ等の表示装置だけでなく、印字機等の印刷装置、フロッピーディスク、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。

翻訳部４は、制御部２からの指示に従って、後述する翻訳辞書部５を用いて入力部１によって入力された原文に対する翻訳処理を行い、翻訳結果を制御部２へ出力する。

翻訳辞書部５は、図示しない語彙辞書および翻訳処理に必要な各種規則を記憶している。例えば、翻訳辞書部５は単語・熟語辞書、形態素解析規則、構文・意味解析規則、翻訳の変換規則、翻訳文生成規則等を記憶している。

制御部２は翻訳対象の文書内の表構造、箇条書きや章・節などの階層構造など、語・文が規則的に配置された構造を検出する。例えば、翻訳対象の文書内から章・節を検出する際には、文書内から、章・節のタイトル文に一般的に含まれている文字列（例えば、「第１章」、「第２章」…、「Ｃｈ」、「Ｓｅｃ」など）を含む文字列を、章・節のタイトル文と判定して、章・節を検出する。同様にして表を検出する際には、文書内から罫線データを検出してその罫線が矩形を構成し、かつその矩形内で罫線によって分割される領域があるかどうかで検出することができる。箇条書きを検出する際には、インデントや各文の先頭に置かれる記号で判定することができる。翻訳対象の文書がＨＴＭＬやＸＭＬなどのタグ付構造化文書である場合はタグを識別することによってこれら構造の検出はさらに容易に行うことができる。

制御部２は、表構造や階層構造などの構造を検出した場合には、翻訳対象の文書のうち、検出した構造全体を文書内構造解析部６に送信する。文書内構造解析部６は、当該構造を解析して当該構造内の（当該構造の要素として配置されている）文・語集合（以下、簡単に文集合と呼ぶ）を抽出する。

構造内データ格納部７は、文書内構造解析部６によって抽出された当該構造内の文集合を記憶する。記憶された情報は然るべき時期、例えば当該構造全体の翻訳が終了したときなどに消去される。

翻訳対象の構造が入れ子構造になっている場合は、文書内構造解析部６において、構造全体を検索して全ての文集合を構造内データ格納部７に格納することも可能であるし、文書内構造解析部６で例えば再帰的に構造解析処理を行うことにより、構造を構成する小構造単位での処理を行っても良い。その場合は、構造内データ格納部７はスタックなどのデータ構造を利用すれば、構造内の文集合を再帰的に格納することができる。このとき格納された情報の消去は処理スコープを抜け出したタイミング毎に行えばよい。

構造内解釈データベース８には、構造内の語・文の翻訳で失敗しやすいものと、その語・文と同じ種類（ドメイン）に属する文集合と、それらの文集合が構造内に翻訳対象の語・文と同一の属性や構造上で等価な（同等な）配置関係を有する場合に、どう翻訳するか（解釈するか）という処理内容とを含む複数の解釈データが記憶されている。この解釈データには、さらに、当該解釈データに含まれる文集合とのマッチングを行う際の条件が含まれている場合もある。例えば必要な最低マッチ数を設けたり、当該文集合の各文の出現する順序に関する制限を設けたり、マッチングを完全一致で行うのか部分一致も可能なのか、などの条件である。

翻訳部４は、翻訳時には構造内データ格納部７に格納されている構造内の文集合を用いて、構造内解釈データベース８に適用可能な解釈データがないかどうかの問い合わせを行う。この場合、構造内解釈データベース８は、解釈データに上記条件が含まれている場合には、当該条件を用いて、当該構造内の文集合と当該解釈データ内の文集合とが同一か否かを判定する。適用可能な解釈データがなかった場合には、その旨を翻訳部４に通知し、以降は通常の翻訳処理が行われる。適用可能な解釈データが見つかった場合には、翻訳部４にその解釈データを通知し、翻訳対象文に対する解釈を当該解釈データの解釈に置き換えて翻訳処理を行う。

次に、図２に示す表構造の文書の翻訳を行う場合を例にとり、図１に示した機械翻訳システムの処理動作について、図５に示すフローチャートを参照して、より具体的に説明する。

原文として図２に示す表構造を有する文書が入力部１に入力されると、入力部はその原文データを制御部２に送信する。制御部２では入力された原文が通常の文であるか、あるいは構造を有するものなのか、構造であった場合にはその種類（例えば、表構造、箇条書き構造、章・節構造など）を判定する。この場合は、原文が表なので図２の表全体を、文書内構造解析部６に送信する（ステップＳ１）。

文書内構造解析部６では、送られた表構造のデータを解析する。この場合、図２より７行３列の表であることを解析し、各セルに入っている語・文の集合（以下、簡単に文集合と呼ぶ）を抽出し、これらの情報を構造内データ格納部７に送る。（ステップＳ２）
構造内データ格納部７では、文書内構造解析部６で抽出した表のデータを格納する。このとき、表の列、行の情報が分かるように格納する。例えば１次元形式で格納しておき、７行３列であることを考慮してどの文がどの位置のセルなのかを分かるようにしてもよい。図３は、図２の表が７行３列であることを示す情報と共に、１行１列目のセルから１行２列目、１行３列目、２行１列目、…と順番に７行３列目までの文をセパレータ「／」でつないで１次元形式で格納した例である。参照するときはセパレータで区切られた各文を格納の順番と同じ順番でたどってゆけば、それぞれの文が何行何列目のセルの文かがわかる。その他にも、例えばｍ行ｎ列のセルの文に関してはその文に座標（ｍ，ｎ）などの情報を付けて、一文ごとに格納してもよい。

制御部２では、図２の表の中から各セル中の文を順番に一文ずつ取り出し、そのセルの座標情報などと共に翻訳部４へ送る（ステップＳ３）。翻訳部４では、制御部２から送られた原文に対して、翻訳辞書部５に格納されている知識（単語・語彙辞書、形態素解析規則、構文・意味解析規則、変換規則、生成規則）を利用し目的言語への翻訳処理を始める。その際、翻訳部２は構造内解釈データベース８に、現在翻訳処理中の原文の情報と制御部から送られてきた座標情報とを送信し、適用できる解釈データがないかどうかの問い合わせを行う。

以降では原文が図２の表の１列２行目の文「月」である場合を想定して説明する。この場合、原文としては、見出し語の「月」だけでも良いが、形態素解析を行ってその解析結果と併せて送信しても良く、同様にして構文解析結果・意味解析結果・変換結果・生成結果など様々な処理段階の結果を併せてもよい。座標情報としては原文が２行１列目なので（２，１）という情報を送る。

図４は構造内解釈データベース８における解釈データの記憶例を示したものである。解釈データは、第１の言語（例えば日本語）の曜日や日本の地方の名称などの任意のカテゴリに属する語・文の集合に属する各語・文に対応し、当該各語・文を第２の言語（例えば、英語）の当該カテゴリに属する語・文に翻訳するためのものである。各解釈データには、「見出し語；品詞；訳語；当該見出し語を含む任意のカテゴリに属する語・文の集合（以下、簡単に文集合）」が含まれている。ここでは、当該文集合の各文の間をセパレータ「／」で連結して示している。解釈データに含まれる文集合の各文の出現する順番が予め定められている場合には、この出現順に各文が記述されている。このような文集合の他に、解釈データには、原文中から抽出された文集合と当該解釈データに含まれる文集合とが同一か否かを判定するための条件が含まれている場合もある。この条件とは、例えば、原文中から抽出された文集合が、当該解釈データ内の文集合のうち、一致している文の数の最小値や、英語の文集合の場合には大文字・小文字の区別をするか否かという条件や、出現（配置）の順番を考慮するのかランダムな出現（配置）でもよいのか、といった条件である。これらの条件の具体的な効果については後述する。

翻訳部４から翻訳原文の情報と座標情報を受信した構造内解釈データベース８は、構造内データ格納部７にアクセスして、取得した座標位置から現在処理中の表で同一の列または行に出現（配置）されている文集合を取得する（ステップＳ４）。この場合、座標は（２，１）であるので、２行目中の各セルの文集合と、１列目中の各セルの文集合とを、図３で示す構造内データ格納部７に記憶されているデータから取得する。図３より、２行目に存在するセルの文集合は｛月、月、関東｝（文集合Ａ）になる。同様にして１列目に存在するセル中の文集合は｛曜日、月、火、水、木、金、土｝（文集合Ｂ）となる。

構造内データ格納部７から上記文集合Ａ及び文集合Ｂに示す文集合を取得した構造内解釈データベース８は、翻訳部４から受け取った原文を基に解釈データの検索を行う。例えば見出し語「月」をキーにして図４で示す解釈データを検索する（ステップＳ５）。ここでは下記の２件：
「月；名詞；Ｍｏｎｄａｙ；月／火／水／木／金／土／日」
「月；名詞；Ｍｏｏｎ；月／地球／火星／水星／木星／金星／土星／太陽」
が得られたとする。この２件の解釈データのそれぞれに含まれる文集合｛月、火、水、木、金、土、日｝（文集合Ｃ）と｛月、地球、火星、水星、木星、金星、土星、太陽｝（文集合Ｄ）と、構造内データ格納部７から得られた原文中の文集合Ａと文集合Ｂとのマッチングを行う（ステップＳ６）。このマッチングを行う際に、前述した条件を効果的に用いることも可能である。例えばある原文中の文集合と、ある解釈データ内の文集合と同一であると判定するために、当該原文中の文集合が当該解釈データ内の文集合のうちｋ個以上の文と一致する必要があるという条件、当該原文中の文集合と当該解釈データ内の文集合とが完全一致する必要があるという条件、完全一致でなくとも部分的に一致すればよいという条件、当該原文中の文集合と当該解釈データ内の文集合とがその出現順も一致する必要があるという条件などである。これらの条件を用いることによりマッチングの動作を自由に制御することが可能となる。

この場合は、文集合Ｂと文集合Ｃとが一致し（適合度が高いので）、構造内解釈データベース８は、これらを同一と判定する。従って、解釈データは前者の「月；名詞；Ｍｏｎｄａｙ；月／火／水／木／金／土／日」が選択される（ステップＳ７）。各解釈データには、品詞や訳語などの翻訳に必要な情報も登録されており、ここでは、原文の表構造中の１列２行目の「月」の訳語として「Ｍｏｎｄａｙ」が選定され、この旨の解釈が翻訳部４に送信される。

構造内解釈データベース８から解釈を受け取った翻訳部４は、翻訳処理の変更を行い翻訳結果を制御部２に送信する。ここでは翻訳部４は訳語「Ｍｏｎｄａｙ」を制御部２へ送信する。

翻訳結果を受信した制御部２は、出力部３へ翻訳結果を送信する（ステップＳ８）。

こうして、図１の機械翻訳システムは、正しい翻訳結果を出力することができる。上記同様にして、図２の表の２行２列目のセルの文「月」は、「Ｍｏｏｎ」と翻訳される。すなわち、同一の行に存在する同一の文でありながら、列中の各文を参照することにより正確な訳しわけが可能となる。また図２の表の５行３列目のセルの文「中国」も、これ単体では訳しわけが困難であるが、図１の機械翻訳システムでは表の当該セルを含む３列目の各文を参照することにより、（例えば、「Ｃｈｉｎａ」ではなく）日本の地方名の１つである「Ｃｈｕｇｏｋｕ」と正確に翻訳することが可能である。

翻訳対象が箇条書き構造や章・節構造の場合は、上記説明の処理フローにおいて、各章のタイトル及び各節のタイトルをそれぞれｎ行１列の表の各セルの文とし、上記表構造の各セルの文翻訳の処理フローと全く同様な処理フローによって翻訳することが可能である。またそれ以外の階層構造を有する構造に関しても同様に拡張可能である。

以上説明したように、上記実施形態では、文書内構造解析部６に、表構造、箇条書き構造や章・節構造のような階層構造などの構造（例えば、図２に示すような表構造）を有する文書が入力されると、当該文書の構造内の語・文集合を抽出し、構造内データ格納部７に格納する（図３参照）。当該語・文集合のうちの１つの語・文を翻訳する際には、構造内解釈データベース８は、構造内データ格納部７から、当該構造上で当該選択された語・文と同一属性あるいは等価な配置関係を有する第１の語・文集合、すなわち、当該構造の要素として当該選択された語・文とともに規則的に配置された第１の語・文集合（例えば、選択された語・文が図２の２行１列目の「月」である場合には、図２の２行目の語・文集合、１列目の語・文集合）を取得する。そして、当該選択された語・文を見出し語として含む解釈データを検索し、そのなかから、さらに第１の文集合と同一の（解釈データに含まれる条件から同一と見なされる）文集合を含む解釈データを選択する。翻訳部４は、この選択された解釈データを用いて当該選択された語・文を翻訳する。

このように、上記実施形態によれば、表や箇条書き、章・節などの構造を有する文書を、その構造の階層関係、属性、位置関係を考慮して翻訳を行うことにより正確・かつ安定した翻訳結果が得られる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

また、図１の機械翻訳システムの図５に示した処理動作は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできる。

本発明の実施形態にかかる機械翻訳システムの構成例を示すブロック図。構造を有する文書の一例を示した図で、表構造の文書を示した図。構造内データ格納部における、図２の表の各セル内のデータの記憶例を示した図。構造内解釈データベースに格納される解釈データの具体例を示した図。図１の機械翻訳システムの処理動作を説明するためのフローチャート。

符号の説明

１…入力部、２…制御部、３…出力部、４…翻訳部、５…翻訳辞書部、６…文書内構造解析部、７…構造内データ格納部、８…構造内解釈データベース。

Claims

見出し語としての第１の言語の語・文と、第１の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの１つである場合の該見出し語に対応する第２の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第１の言語の文書内から、複数の語・文が規則的に配置される、表構造、箇条書き構造、章・節構造を含む複数の構造のうちのいずれか１つの構造を認識する認識手段と、
（ａ）前記認識手段で表構造が認識された場合には、前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出し、（ｂ）前記認識手段で箇条書き構造が認識された場合には、前記箇条書き構造が認識された文書から、該箇条書き構造の箇条書きされた語・文集合を抽出し、（ｃ）前記認識手段で章・節構造が認識された場合には、前記章・節構造が認識された文書から、該章・節構造の各章のタイトルあるいは各節のタイトルである語・文集合を抽出する抽出手段と、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの１つの語・文を見出し語として含む複数の解釈データを検索する検索手段と、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段と、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第２の言語の語・文を、前記抽出された語・文集合中のうちの１つの語・文の訳語として選定する手段と、
を含む機械翻訳システム。
前記検索された各解釈データには、前記見出し語を含む語・文集合とともに、当該語・文集合と前記抽出された語・文集合とがマッチングすると判定するための条件を含み、
前記判定手段は、前記抽出された語・文集合が、前記検索された解釈データに含まれる前記条件を満たすとき、当該解釈データ中の語・文集合と当該抽出された語・文集合とがマッチングすると判定することを特徴とする請求項１記載の機械翻訳システム。
前記条件は、前記検索された各解釈データ中の語・文集合と前記抽出された語・文集合との間で一致する語・文の数及び順序のうちの少なくとも１つに関する条件であることを特徴とする請求項２記載の機械翻訳システム。
見出し語としての第１の言語の語・文と、第１の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの１つである場合の該見出し語に対応する第２の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第１の言語の文書内から、複数の語・文が規則的に配置される構造を認識する認識手段と、
前記構造が認識された文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記複数の解釈データのうち、抽出された語・文集合とマッチングする語・文集合を含む解釈データを用いて、前記抽出された語・文集合中の各語・文の訳語を選定する解釈手段と、
を含む機械翻訳システムにおける機械翻訳方法であって、
前記認識手段が、前記入力された前記文書内から、表構造、または箇条書き構造、または章・節構造を認識するステップと、
前記抽出手段が、（ａ）前記表構造が認識された場合には、該表構造の列あるいは行に配置されている語・文集合を抽出し、（ｂ）前記箇条書き構造が認識された場合には、該箇条書き構造の箇条書きされた各語・文を抽出し、（ｃ）前記章・節構造が認識された場合には、該章・節構造の各章のタイトルあるいは各節のタイトルを抽出するステップと、
前記解釈手段が、前記記憶手段に記憶された前記複数の解釈データの中から、前記抽出された語・文集合のうちの１の語・文を見出し語として含む複数の解釈データ検索するステップと、
前記解釈手段が、検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定するステップと、
前記解釈手段が、前記複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第２の言語の語・文を、前記抽出された語・文集合のうちの１つの語・文の訳語として選定するステップと、
を含む機械翻訳方法。
コンピュータを、
見出し語としての第１の言語の語・文と、第１の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの１つである場合の該見出し語に対応する第２の言語での語・文とを含む複数の解釈データを記憶する記憶手段、
入力された前記第１の言語の文書内から、複数の語・文が規則的に配置される、表構造、箇条書き構造、章・節構造を含む複数の構造のうちのいずれか１つの構造を認識する認識手段、
（ａ）前記認識手段で表構造が認識された場合には、前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出し、（ｂ）前記認識手段で箇条書き構造が認識された場合には、前記箇条書き構造が認識された文書から、該箇条書き構造の箇条書きされた語・文集合を抽出し、（ｃ）前記認識手段で章・節構造が認識された場合には、前記章・節構造が認識された文書から、該章・節構造の各章のタイトルあるいは各節のタイトルである語・文集合を抽出する抽出手段、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの１つの語・文を見出し語として含む複数の解釈データを検索する検索手段、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第２の言語の語・文を、前記抽出された語・文集合中のうちの１つの語・文の訳語として選定する手段、
として機能させるためのプログラム。
見出し語としての第１の言語の語・文と、第１の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの１つである場合の該見出し語に対応する第２の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第１の言語の文書内から、複数の語・文が規則的に配置される表構造を認識する認識手段と、
前記認識手段で前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出する抽出手段と、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの１つの語・文を見出し語として含む複数の解釈データを検索する検索手段と、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段と、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第２の言語の語・文を、前記抽出された語・文集合中のうちの１つの語・文の訳語として選定する手段と、
を含む機械翻訳システム。
見出し語としての第１の言語の語・文と、第１の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの１つである場合の該見出し語に対応する第２の言語での語・文とを含む複数の解釈データを記憶する記憶手段と、
入力された前記第１の言語の文書内から、複数の語・文が規則的に配置される構造を認識する認識手段と、
前記構造が認識された文書から、当該構造上で同一の属性あるいは等価な配置関係を有する語・文集合を抽出する抽出手段と、
前記複数の解釈データのうち、抽出された語・文集合とマッチングする語・文集合を含む解釈データを用いて、前記抽出された語・文集合中の各語・文の訳語を選定する解釈手段と、
を含む機械翻訳システムにおける機械翻訳方法であって、
前記認識手段が、前記入力された前記文書内から、表構造を認識するステップと、
前記抽出手段が、前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出するステップと、
前記解釈手段が、前記記憶手段に記憶された前記複数の解釈データの中から、前記抽出された語・文集合のうちの１の語・文を見出し語として含む複数の解釈データ検索するステップと、
前記解釈手段が、検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定するステップと、
前記解釈手段が、前記複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第２の言語の語・文を、前記抽出された語・文集合のうちの１つの語・文の訳語として選定するステップと、
を含む機械翻訳方法。
コンピュータを、
見出し語としての第１の言語の語・文と、第１の言語の文書中で規則的に配置される該見出し語を含む複数の語・文からなる語・文集合と、該見出し語が該語・文集合のうちの１つである場合の該見出し語に対応する第２の言語での語・文とを含む複数の解釈データを記憶する記憶手段、
入力された前記第１の言語の文書内から、複数の語・文が規則的に配置される、表構造を認識する認識手段、
前記認識手段で前記表構造が認識された文書から、該表構造の列あるいは行に配置されている語・文集合を抽出する抽出手段、
前記記憶手段に記憶された前記複数の解釈データの中から、抽出された語・文集合のうちの１つの語・文を見出し語として含む複数の解釈データを検索する検索手段、
検索された各解釈データに含まれる語・文集合が、前記抽出された語・文集合とマッチングするか否かを判定する判定手段、
前記検索された複数の解釈データのうち、前記抽出された語・文集合とマッチングすると判定された語・文集合を含む解釈データ中の前記第２の言語の語・文を、前記抽出された語・文集合中のうちの１つの語・文の訳語として選定する手段、
として機能させるためのプログラム。