JP3896341B2 - 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体 - Google Patents

翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体 Download PDF

Info

Publication number
JP3896341B2
JP3896341B2 JP2003102664A JP2003102664A JP3896341B2 JP 3896341 B2 JP3896341 B2 JP 3896341B2 JP 2003102664 A JP2003102664 A JP 2003102664A JP 2003102664 A JP2003102664 A JP 2003102664A JP 3896341 B2 JP3896341 B2 JP 3896341B2
Authority
JP
Japan
Prior art keywords
translation
designated
document
designation information
display format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003102664A
Other languages
English (en)
Other versions
JP2004310411A (ja
Inventor
晴美 伊藤
知博 宮平
淑朗 神山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2003102664A priority Critical patent/JP3896341B2/ja
Priority to US10/819,033 priority patent/US20040199378A1/en
Publication of JP2004310411A publication Critical patent/JP2004310411A/ja
Application granted granted Critical
Publication of JP3896341B2 publication Critical patent/JP3896341B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体に関する。特に本発明は、ドキュメントの翻訳において、ドキュメント中に指定された表示形式に応じて翻訳方法を切り替える翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体に関する。
【0002】
【従来の技術】
従来、ドキュメントを翻訳する翻訳システムにおいて、翻訳の精度を向上するため、特許文献1に記載された技術が開示されている。特許文献1においては、翻訳対象の言語(英語)で記載された英語記事と、翻訳先の言語(日本語)で記載された記事とを収集する。次に、英語記事を日本語に翻訳する場合に、当該英語記事に対応する日本語記事を検出する。そして、英語記事及び日本語記事のヘッドライン部分及び本文部分をそれぞれ抽出し、英語記事を翻訳した結果におけるヘッドライン部分に、日本語記事のヘッドライン部分を埋め込む。
【0003】
【特許文献1】
特開2002−259374号公報
【0004】
【発明が解決しようとする課題】
上記の特許文献1においては、対応する日本語記事が収集されている場合に、機械翻訳が困難なヘッドライン部分を、日本語記事のヘッドライン部分に置き換えることができる。しかし、上記の処理は、対応する日本語記事が存在する場合にのみ有効であり、また、本文部分の翻訳精度を向上する点については考慮されていなかった。
【0005】
そこで本発明は、上記の課題を解決することのできる翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
【0006】
【課題を解決するための手段】
即ち、本発明の第1の形態によると、ドキュメントを翻訳する翻訳システムであって、前記ドキュメントのうち、複数の項目からなるリスト又は複数の要素を含む表により表示すべきことを指定された指定部分を抽出する指定部分抽出部と、前記指定部分に含まれる内容を、前記ドキュメントにおける前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳する翻訳処理部と、前記複数の項目又は前記複数の要素のそれぞれに対応する訳語が、最も多く属する分類である最多分類を検出する最多分類検出部と、前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、前記最多分類に属する訳語を当該語句の訳語として選択する最多訳語選択部とを備え、前記翻訳処理部は、前記複数の項目又は前記複数の要素のそれぞれを、前記訳語選択部により選択された訳語を用いて翻訳する翻訳システム、及び、これを実現する翻訳方法、プログラム、記録媒体を提供する。
【0007】
なお上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションも又発明となりうる。
【0008】
【発明の実施の形態】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、又実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0009】
図1は、本実施形態に係る翻訳システム10の構成を示す。本実施形態に係る翻訳システム10は、利用者のPC、PDA、及び携帯電話等、又は、利用者がネットワークを介してアクセスするサーバシステム等に実現されるコンピュータシステムであり、翻訳対象のドキュメント中に、例えばリストや表等の予め定められた表示形式により表示すべきことを指定された部分を、他の部分と比較し名詞句としてより優先的に翻訳する。また、翻訳システム10は、例えば主語に続けてリスト等により複数の動詞句が記述されている場合に、これらの動詞句の主語を適切に補って翻訳する。これらの処理により、翻訳システム10は、より適切な翻訳を行なうことができ、翻訳の精度を向上させる。
【0010】
翻訳システム10は、ドキュメント入力部100と、指定部分抽出部110と、翻訳処理部120と、翻訳辞書格納部130と、翻訳辞書管理部140と、表示制御情報格納部150と、表示制御情報管理部160と、訳語選択部170と、共通部分検出部180と、ドキュメント出力部190とを備える。
【0011】
ドキュメント入力部100は、翻訳対象のドキュメントを入力する。指定部分抽出部110は、入力された翻訳対象のドキュメントのうち、例えばリストや表等の予め定められた表示形式により表示すべきことを指定された指定部分を抽出する。翻訳処理部120は、指定部分抽出部110を介して翻訳対象のドキュメントを取得し、指定部分に対応した翻訳モードで翻訳する。
【0012】
翻訳辞書格納部130は、翻訳処理部120が翻訳に用いる翻訳辞書133及び名詞句翻訳辞書136等の翻訳辞書を格納する。翻訳辞書格納部130が格納する翻訳辞書133は、語句等の訳を記録した訳語辞書や、翻訳に用いる文法規則を記録した文法辞書を含んでよい。また、名詞句翻訳辞書136は、名詞句としてより優先的に翻訳をする名詞句翻訳モードにおいて翻訳処理部120が使用する翻訳辞書である。翻訳辞書管理部140は、翻訳辞書格納部130に格納された翻訳辞書を管理し、翻訳処理部120又は訳語選択部170からの要求を受けて翻訳辞書の内容を供給する。
【0013】
表示制御情報格納部150は、ドキュメント中に含まれる情報であって、指定部分の指定に用いられる情報である表示形式指定情報を格納する。表示制御情報管理部160は、表示制御情報格納部150に格納された表示形式指定情報を管理し、指定部分抽出部110又は翻訳処理部120からの要求を受けて表示形式指定情報を指定部分抽出部110又は翻訳処理部120に供給する。ここで、表示形式指定情報は、例えばリスト表示形式で用いられる行頭文字(例えば“・”、“+”、“−”、“*”、“>”、“1.”等)や、ドキュメントの指定部分の表示方法を指定するために用いられる制御情報(例えばHTMLのタグ等)等であってよい。
【0014】
訳語選択部170は、指定部分のリストに含まれる複数の項目、又は指定部分の表に含まれる複数の要素のそれぞれについて、この項目又は要素に対応する複数の訳語のうち、適切な訳語を選択する。
より具体的には、項目・要素に含まれる語句は、例えば人、言語、場所、動物等の分類(素性:feature)のいずれか又は複数に属する1又は複数の訳語を持つ。例えば、名詞の「Japanese」は、人又は国民の素性に属する「日本人」、及び、言語の素性に属する「日本語」の2つの訳語を持つ。訳語選択部170は、複数の項目・要素に含まれる語句のそれぞれに対応する1又は複数の訳語のうち、どの分類に属する訳語を用いるかを選択する。
【0015】
訳語選択部170は、最多分類検出部173と、最多訳語選択部176とを有する。最多分類検出部173は、複数の項目又は要素のそれぞれに対応する訳語が、最も多く属する分類である最多分類を検出する。最多訳語選択部176は、複数の項目又は要素のそれぞれに対応する訳語として、最多分類検出部173が検出した最多分類に属する訳語を選択する。
【0016】
共通部分検出部180は、指定部分のリスト等に含まれる複数の項目のそれぞれが、指定部分より前に記述された一の共通部分との組み合わせにより文を構成するか否かを検出する。すなわち例えば、共通部分検出部180は、複数の項目のそれぞれが、指定部分以前の語句を共通の主語とする文(以下「主語無し文」という。)であるか否かを検出する。複数の項目のそれぞれが、一の共通部分との組み合わせにより文を構成することが検出されると、翻訳処理部120は、複数の項目のそれぞれを、一の共通部分と組み合わせた文として翻訳する。すなわち例えば、共通部分検出部180により指定部分が主語無し文であることが検出されると、翻訳処理部120は、複数の項目のそれぞれを、指定部分以前に記載された語句を主語とする文として翻訳する。
【0017】
ドキュメント出力部190は、翻訳処理部120により翻訳された翻訳結果のドキュメントを出力する。
【0018】
図2は、本実施形態に係る翻訳システム10の処理フローを示す。
まず、ドキュメント入力部100は、翻訳対象のドキュメントを入力する(S200)。ここで、翻訳システム10が利用者の情報処理装置上に実現される場合、ドキュメント入力部100は、利用者により入力又は指定されたドキュメントを、翻訳対象のドキュメントとしてよい。一方、翻訳システム10がサーバシステム上に実現される場合、ドキュメント入力部100は、利用者の端末からネットワークを介して入力又は指定されたドキュメントを、翻訳対象のドキュメントとしてよい。
【0019】
次に、指定部分抽出部110は、翻訳対象のドキュメントのうち、予め指定された表示形式により表示すべきことを指定された指定部分を抽出する(S205)。ここで、指定部分抽出部110は、表示制御情報管理部160を介して表示制御情報格納部150に格納された表示形式指定情報を取得し、ドキュメント中に表示形式指定情報を検出した場合に、表示形式指定情報によって予め指定された表示形式により表示すべきことを指定された部分を指定部分として抽出する。本実施形態に係る指定部分抽出部110は、予め指定された表示形式として、ドキュメントの少なくとも一部を複数の項目からなるリストとして表示するリスト表示形式と、ドキュメントの少なくとも一部を複数の要素(セル要素)からなる表として表示する表表示形式とを含む。
【0020】
翻訳対象の部分が指定部分でない場合(S210)、翻訳処理部120は、翻訳辞書格納部130内の翻訳辞書133を参照し、通常の翻訳モードにより翻訳対象の部分を翻訳する(S220)。一方、翻訳対象の部分が指定部分である場合(S210)、指定部分抽出部110は、処理をS230に進める。
【0021】
次に、共通部分検出部180は、リスト表示形式により表示すべきことを指定された指定部分において、リストに含まれる複数の項目のそれぞれが、ドキュメントにおける指定部分より前に記述された一の共通部分との組合せにより文を構成するか否かを検出する(S230)。例えば、共通部分検出部180は、当該複数の項目のそれぞれが、ドキュメントにおける指定部分より前に記述された一の共通部分を共通して主語とする主語無し文であるか否かを検出する。また、共通部分検出部180は、当該複数の項目のそれぞれが目的語であり、ドキュメントにおける指定部分より前に記述された一の共通部分を共通して主語及び動詞として用いることによって、一の共通部分と当該項目との組み合わせにより文を構成するか否かを検出してもよく、一の共通部分と当該項目として、組み合わせにより文を構成する他の品詞の組を検出してもよい。
【0022】
次に、複数の項目のそれぞれが、一の共通部分との組合せにより文を構成することが検出された場合(S240)、翻訳処理部120は、これらの複数の項目のそれぞれを、一の共通部分と組み合わせた文として翻訳し、翻訳結果のうち一の共通部分を除いた部分を当該項目の翻訳結果として出力する(S270)。例えば、複数の項目のそれぞれが一の語句を共通して主語とする主語無し文であることが検出された場合、翻訳処理部120は、これらの複数の項目のそれぞれを、当該一の語句を主語とする文として翻訳し、翻訳結果の主語を除いた部分を当該項目の翻訳結果として出力する。
【0023】
一方、S240において、指定部分が一の共通部分との組合せにより文を構成しないことが検出された場合(S240)、翻訳処理部120は、指定部分のリストに含まれる項目又は指定部分の表に含まれる要素が、句点を有するか否かを検出する(S245)。項目又は要素が句点を有する場合、名詞及び動詞を含む文である可能性が高いため、翻訳処理部120は、この項目又は要素を、翻訳辞書格納部130内の翻訳辞書133を用いて通常翻訳モードにより翻訳する(S220)。
【0024】
S245において項目又は要素が句点を有しない場合、この項目又は要素は名詞句である可能性が高く、また、指定部分のリスト又は表に含まれる複数の項目又は要素は、互いに同一の素性に分類される訳語に対応する可能性が高い。そこで、訳語選択部170は、指定部分のリストに含まれる複数の項目、又は指定部分の表に含まれる複数の要素のそれぞれについて、この項目又は要素に対応する複数の訳語のうち、適切な素性の訳語を選択する(S250)。そして、翻訳処理部120は、S250により選択された訳語に基づいて、指定部分に含まれる内容を名詞句翻訳モードにより翻訳する(S260)。ここで、名詞句翻訳モードとは、例えば、翻訳対象のドキュメントにおける指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する翻訳モードであり、名詞句翻訳モード用の名詞句翻訳辞書136を用いてよい。
【0025】
翻訳システム10は、上記のS205からS270の処理を、翻訳が終了するまで繰り返す(S280)。そして、翻訳が終了すると、ドキュメント出力部190は、ドキュメントの翻訳結果を出力する。ここで、翻訳システム10がサーバシステム上に実現される場合、ドキュメント出力部190は、ドキュメントの翻訳結果をネットワークを介して利用者の端末へ出力してもよい。
【0026】
以上に代えて、翻訳処理部120は、S245において、指定部分のリストに含まれる項目又は指定部分の表に含まれる要素が、利用者又は翻訳システム10の製造業者等により予め設定された単語数を超えるかどうか、すなわち例えば当該項目又は当該要素が予め設定された単語数の一例として2語を超えるかどうかを検出してもよい。ここで、項目又は要素が予め設定された単語数を超える場合、名詞及び動詞を含む文である可能性が高いため、翻訳処理部120は、S220において、この項目又は要素を、翻訳辞書格納部130内の翻訳辞書133を用いて通常モードにより翻訳する。一方、S245において、項目又は要素が予め設定された単語数以下である場合、この項目又は要素は名詞句である可能性が高い。そこで、訳語選択部170は、S250及びS260の処理を行い、予め設定された単語数以下の項目又は要素を、名詞句モードにより翻訳する。
【0027】
以上に示した翻訳システム10によれば、翻訳対象のドキュメントに指定された表示形式に基づいて、通常翻訳モード及び名詞句翻訳モードのいずれにより翻訳するかを選択することができる。これにより、翻訳システム10は、ドキュメントにおいて、名詞句として翻訳するのが適切なリストや表等の部分を、名詞句翻訳モードにより適切に翻訳することができる。
【0028】
図3は、本実施形態に係る翻訳システム10が翻訳するドキュメントの一例を示す。
図3(a)は、順序付けの無い行頭文字を用いたリスト表示形式により記述されたドキュメントの一例を示す。図3(a)のドキュメントは、それぞれがドキュメントの各行の行頭に表示される複数の行頭文字310と、複数の行頭文字310にそれぞれが対応する複数の項目320からなるリスト300を含む。
【0029】
指定部分抽出部110は、図2のS205において、ドキュメント中に行頭文字310を検出した場合に、行頭文字310に対応する行の内容である項目320を指定部分として抽出する。これに代えて、指定部分抽出部110は、複数の行頭文字310と、ドキュメント中に複数の行頭文字310に対応する複数の項目320を検出した場合に、複数の行頭文字310及び複数の項目320を含むリスト300を指定部分として抽出してよい。ここで、行頭文字310は、指定部分の指定に用いられる表示形式指定情報として、表示制御情報格納部150に格納されてよい。
そして、翻訳処理部120は、図2のS260において、リストにより表示すべきことを指定された項目320を、名詞句翻訳モードにより翻訳する。
【0030】
図3(b)は、順序付けのある行頭文字を用いたリスト表示形式により記述されたドキュメントの一例を示す。図3(b)のドキュメントは、表示される複数の行頭文字310と、複数の行頭文字310にそれぞれが対応する複数の項目320からなるリスト300を含む。
【0031】
図3(a)の場合と同様に、指定部分抽出部110は、図2のS205において、ドキュメント中に行頭文字310を検出した場合に、行頭文字310に対応する行の内容である項目320を指定部分として抽出する。これに代えて、指定部分抽出部110は、複数の行頭文字310と、ドキュメント中に複数の行頭文字310に対応する複数の項目320を検出した場合に、複数の行頭文字310及び複数の項目320を含むリスト300を指定部分として抽出してよい。
【0032】
そして、翻訳処理部120は、図2のS260において、リストにより表示すべきことを指定された項目320を、名詞句モードにより翻訳する。ここで、翻訳処理部120は、表示形式指定情報である行頭文字310によってリストとして表示すべきことを指定された複数の項目のうち、句点(例えば英語においては“.”、日本語においては“。”)を含まない項目を、句点を含む項目と比較し名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳してもよい。また、翻訳処理部120は、当該複数の項目のうち、予め設定された単語数以下の項目を、予め設定された単語数を超える項目と比較し名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳してもよい。
【0033】
例えば、図3(b)において、翻訳処理部120は、句点330を含まない項目である「Cristal Cruises」及び「Orient Lines」を、句点330を含む項目である「It takes 1−2 hours for these cruises.」と比較し名詞句としてより優先的に翻訳してもよい。
【0034】
以上において、翻訳システム10は、例えば“・”、“+”、“−”、*”、及び“>”等の、リストによって列挙される各項目の先頭に記述される文字を、行頭文字310として用いてよい。また、翻訳システム10は、例えば“**”、“1.、2.、3.、…”、“i)、ii)、iii)、”、“▲1▼、▲2▼、▲3▼、…”、及び“a>、b>、c>、…”等の、リストによって列挙される各項目の先頭に記述される文字列や、各項目を順序付ける文字列等を、行頭文字310として用いてよい。更に、翻訳システム10は、例えばタブ又はインデント等の、リストによって列挙される各項目の先頭に記述される制御コードを、行頭文字310として用いてよい。
【0035】
以上に示した処理の結果、翻訳処理部120は、リストにより表示すべきことを指定された部分を、名詞句翻訳モードにより翻訳する。これにより、翻訳処理部120は、通常翻訳モードにおいて「Crystal cruises」を例えば「水晶は航海する」と翻訳するのに対し、名詞句としてより優先的に翻訳し、例えば「クリスタル・クルーズ」と翻訳することができる。これにより、翻訳システム10は、リストにより列挙された各項目の翻訳精度を高めることができる。
【0036】
また、翻訳処理部120は、句点330を含む項目であり、例えば2語等の予め設定された単語数を超える項目でもある「It takes 1−2 hours for these cruises.」を、通常翻訳モードにより翻訳することにより、項目のうち名詞及び動詞を含む文として記述された部分の翻訳精度を高めることができる。
【0037】
図4は、本実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。本例におけるドキュメントは、例えばHTML等により記述されたドキュメントであり、ドキュメントの表示方法の指定に用いられ、利用者に対して直接表示されない制御情報であるリスト開始指定情報400、項目開始指定情報410、項目終了指定情報420及びリスト終了指定情報430等の表示形式指定情報と、リスト開始指定情報400及びリスト終了指定情報430により指定された表示方法に基づき表示される内容である項目440とを含む。
【0038】
リスト開始指定情報400及びリスト終了指定情報430は、ドキュメント中に含まれる内容情報の少なくとも一部である1又は複数の項目440を、1又は複数の項目からなるリストとして表示すべきことを指定する表示形式指定情報である。より具体的には、リスト開始指定情報400は、ドキュメントに記述されたリストの開始位置を示し、リスト終了指定情報430は、リストの終了位置を示す。リスト開始指定情報400及びリスト終了指定情報430により指定されるリストは、例えばHTMLにおいて、“<UL>”と“</UL>”の組により記述される順不同リスト、“<OL>”と“</OL>”の組により記述される順序付リスト、及び、“<DL>”と“</DL>”の組により記述される定義付リスト等であってよい。
【0039】
項目開始指定情報410及び項目終了指定情報420は、リストとして表示すべき複数の項目のそれぞれを指定する項目指定情報である。より具体的には、項目開始指定情報410は、ドキュメント中における項目の開始位置を示し、項目終了指定情報420は、項目の終了位置を示す。項目開始指定情報410及び項目終了指定情報420により指定される項目は、例えばHTMLにおいて、“<LI>”と“</LI>”の組により記述される項目、“<DT>”と“</DT>”の組により記述される、定義付リストにおいて定義すべき語句を指定する項目、及び、“<DD>”と“</DD>”の組により記述される、定義付リストにおいて語句の定義を記述する項目等であってよい。また、項目終了指定情報420の記述を省略した場合等において項目開始指定情報410により指定される項目は、例えばHTMLにおいて、“<LI>”により記述される項目、“<DT>”により記述される項目、及び、“<DD>”により記述される項目等であってよい。
【0040】
翻訳処理部120は、図2のS260において、リスト開始指定情報400及びリスト終了指定情報430によりリストとして表示すべきことを指定された部分に含まれる複数の項目のそれぞれを、名詞句翻訳モードにより翻訳する。これに代えて、翻訳処理部120は、リスト開始指定情報400及びリスト終了指定情報430によりリストとして表示すべきことを指定された部分に含まれる、項目開始指定情報410及び項目終了指定情報420により指定される複数の項目のそれぞれを、名詞句翻訳モードにより翻訳してもよい。
【0041】
図5は、本実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。
図5(a)は、表表示形式により記述されたドキュメントの一例を示す。図5(a)のドキュメントは、各セルのそれぞれに要素510が記述された表500を含む。
指定部分抽出部110は、図2のS205において、翻訳対象のドキュメントのうち、表表示形式により表示すべきことを指定された表500を指定部分として抽出する。これに代えて、指定部分抽出部110は、複数の要素510のそれぞれを指定部分として抽出してもよい。
【0042】
そして、翻訳処理部120は、図2のS260において、表により表示すべきことを指定された表500内の複数の要素510を、名詞句翻訳モードにより翻訳する。
【0043】
図5(b)は、表表示形式により表示することを指定する制御情報を含むドキュメントの一例を示す。図5(b)のドキュメントは、例えばHTML等により記述されたドキュメントであり、ドキュメントの表示方法の指定に用いられ、利用者に対して直接表示されない制御情報である表開始指定情報560、表終了指定情報565、行開始指定情報570、行終了指定情報575、見出し要素開始指定情報580、見出し要素終了指定情報585、データ要素開始指定情報590、およびデータ要素終了指定情報595等の表示形式指定情報と、表開始指定情報560及び表終了指定情報565により指定された表示方法に基づき表示される内容である要素540とを含む。
【0044】
表開始指定情報560及び表終了指定情報565は、ドキュメント中に含まれる内容情報の少なくとも一部である要素540を、複数の要素からなる表として表示すべきことを指定する表示形式指定情報である。より具体的には、本実施形態において、表開始指定情報560は、ドキュメントに記述された表の開始位置を示し、表終了指定情報565は、表の終了位置を示す。表開始指定情報560及び表終了指定情報565により指定される表は、例えばHTMLにおいて、“<TABLE>”と“</TABLE>”の組により記述されてよい。
【0045】
行開始指定情報570及び行終了指定情報575は、表として表示すべき複数の要素のうち、各行に表示すべき要素の組を指定する表示形式指定情報である。
【0046】
見出し要素開始指定情報580、見出し要素終了指定情報585、データ要素開始指定情報590、及びデータ要素終了指定情報595は、表として表示すべき複数の要素のそれぞれを指定する要素指定情報である。より具体的には、見出し要素開始指定情報580及びデータ要素開始指定情報590は、ドキュメント中における表の要素の開始位置を示し、見出し要素終了指定情報585及びデータ要素終了指定情報595は、要素の終了位置を示す。見出し要素開始指定情報580及び見出し要素終了指定情報585により指定される要素は、例えばHTMLにおいて、“<TH>”及び“</TH>”の組により記述される、表中の見出しとなる要素である。一方、データ要素開始指定情報590及びデータ要素終了指定情報595により指定される要素は、例えばHTMLにおいて“<TD>”及び“</TD>”の組により記述される、表中のデータとなる要素である。また、見出し要素終了指定情報585又はデータ要素終了指定情報595の記述を省略した場合等において見出し要素開始指定情報580又はデータ要素開始指定情報590により指定される要素は、例えばHTMLにおいて、“<TH>”により記述される要素、又は“<TD>”により記述される要素等であってよい。
【0047】
翻訳処理部120は、図2のS260において、表開始指定情報560及び表終了指定情報565、又は、行開始指定情報570及び行終了指定情報575により表として表示すべきことを指定された部分に含まれる複数の要素のそれぞれを、名詞句翻訳モードにより翻訳する。これに代えて、翻訳処理部120は、表開始指定情報560及び表終了指定情報565により表として表示すべきことを指定された部分に含まれる、見出し要素開始指定情報580及び見出し要素終了指定情報585、又は、データ要素開始指定情報590及びデータ要素終了指定情報595により指定される複数の要素のそれぞれを、名詞句翻訳モードにより翻訳してもよい。
【0048】
また、翻訳処理部120は、図2のS260において、複数の要素のうち、句点520を含まない要素510を、句点520を含む要素510と比較し名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳してもよい。あるいは、翻訳処理部120は、図2のS260において、複数の要素のうち、予め設定された単語数以下の要素510を、予め設定された単語数を超える要素510と比較し名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳してもよい。
【0049】
以上に示した処理の結果、翻訳処理部120は、表により表示すべきことを指定された部分を、名詞句翻訳モードにより翻訳する。これにより、翻訳処理部120は、通常翻訳モードにおいて「Visitor comments」を例えば「訪問者はコメントする」と翻訳するのに対し、名詞句としてより優先的に翻訳し、例えば「訪問者コメント」と翻訳することができる。これにより、翻訳システム10は、表により列挙された各要素の翻訳精度を高めることができる。
【0050】
図6は、本実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。図6(a)から図6(e)は、リストボックス、ドロップダウンリスト、ラジオボタン、チェックボックス、及び、複数の項目の列挙によりそれぞれ表示されたドキュメントの一例を示す。
【0051】
指定部分抽出部110は、リストにより表示すべきことを指定された指定部分として、翻訳対象のドキュメントにおけるリストボックス(図6(a))、ドロップダウンリスト(図6(b))、ラジオボタン(図6(c))に対応付けられた記述、チェックボックス(図6(d))に対応付けられた記述、及び、列挙された複数の項目(図6(e))を抽出してもよい。
【0052】
そして、訳語選択部170、共通部分検出部180、及び翻訳処理部120は、図6(a)に示したリストボックス中の項目320、図6(b)に示したドロップダウンリスト中の項目320、図6(c)に示したラジオボタンに対応付けられた項目320、図6(d)に示したチェックボックスに対応付けられた項目320、及び、列挙された項目320に対して図2に示したS230、S240、S245、S250、S260、及びS270の処理を行なってよい。
【0053】
図7は、本実施形態に係る翻訳システム10のS250における処理フローを示す。本処理フローにより、訳語選択部170は、指定部分の複数の項目又は複数の要素のそれぞれについて、当該項目又は要素に対応する複数の訳語のうち、所定の分類に属する訳語を当該語句の訳語として選択する。
【0054】
まず、訳語選択部170は、複数の項目又は複数の要素のそれぞれに対応する訳語が属すべき所定の分類として、最多分類を優先して選択するか否かを判断する(S700)。最多分類を優先して選択しない場合、訳語選択部170は、複数の項目又は複数の要素の少なくとも一部のそれぞれに対応する訳語が属する分類に基づいて、複数の項目又は複数の要素のそれぞれに対応する訳語が属すべき所定の分類を選択する(S705)。これにより、訳語選択部170は、複数の項目又は複数の要素の少なくとも一部に対応する訳語に特徴的な素性の分類に基づいて、所定の分類を選択する。
【0055】
所定の分類の選択において、訳語選択部170は、複数の項目又は複数の要素の少なくとも一部のそれぞれについて、当該項目又は当該要素により指定される国の国民の素性に分類される訳語、及び、当該項目又は当該要素により指定される国の言語の素性に分類される訳語が存在するか否かを判断する(S710)。
【0056】
当該項目又は当該要素により指定される国の国民に分類される訳語、及び、当該項目又は当該要素により指定される国の言語に分類される訳語が存在する場合、訳語選択部170は、所定の分類として、当該項目又は当該要素により指定される国の言語の素性を選択し、国の言語の素性に分類される訳語を当該語句の訳語として選択する(S720)。すなわち、訳語が国の国民の素性及び国の言語の素性を有する場合に、国の言語の素性を有する訳語を当該項目又は当該要素の訳語として選択する。また、この場合において、訳語選択部170は、複数の項目又は複数の要素の全てについて、国の言語の素性を有する訳語を選択してよい。
【0057】
一方、当該項目又は当該要素により指定される国の国民に分類される訳語、及び、当該項目又は当該要素により指定される国の言語に分類される訳語が存在しない場合(S710)、訳語選択部170は、翻訳システム10の製造者又は利用者等によって定められた分類に基づいて、当該項目又は当該要素の訳語を選択する(S730及びS735)。すなわち、訳語選択部170は、製造業者又は利用者等によって設定された条件と一致する場合(S730)に、当該条件に対応して設定された素性を有する訳語を、当該項目又は当該要素の訳語として選択する(S735)。この場合において、訳語選択部170は、訳語選択部170は、複数の項目又は複数の要素の全てについて、当該条件に対応して設定された素性を有する訳語を選択してよい。
【0058】
また、S700において最多分類を優先して選択すると判断した場合、訳語選択部170は、複数の項目又は複数の要素のそれぞれに対応する訳語が属する分類に基づいて、最多の分類を所定の分類として選択する。
【0059】
より具体的には、訳語選択部170内の最多分類検出部173は、複数の項目又は複数の要素のそれぞれに対応する訳語が、最も多く属する分類である最多分類を検出する(S740)。そして、訳語選択部170内の最多訳語選択部176は、所定の分類として最多分類を選択し、複数の項目又は複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、最多分類に属する訳語を当該項目又は当該要素の訳語として選択する(S750)。この結果を受けて、翻訳処理部120は、複数の項目又は複数の要素のそれぞれを、訳語選択部170により選択された訳語を用いて翻訳する。
【0060】
以上において、訳語選択部170は、最多分類を優先して選択するか否かを判断し、判断結果に基づいて、S705の処理、又は、S740及びS750の処理のいずれを行うかを選択するのに代えて、まずS705の処理を行った後、S720及びS735で素性を選択しなかった場合にS740及びS750の処理を行ってもよい。
また、上記のS705において、訳語選択部170は、複数の項目又は複数の要素のうち、いずれかの項目又は要素が優先すべき素性を有する場合に、この素性に基づく分類を前記所定の分類として選択してよい。ここで、訳語選択部170は、優先すべき素性として、予め翻訳システム10の製造者又は利用者により定められた素性や、翻訳対象のドキュメントに基づき選択された素性を用いてよい。また、翻訳システム10が翻訳対象のドキュメントに基づいて当該ドキュメントの分野を選択し、当該分野に対応する分野別辞書を用いて翻訳を行なう場合においては、訳語選択部170は、翻訳に用いる分野別辞書に登録された語句の素性に基づいて、優先すべき素性を定めてもよい。
【0061】
図8は、本実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。本ドキュメントは、アプリケーション・サービス・プロバイダにより提供される、インターネット上の指定されたページを翻訳するサービスの画面の例である。本ドキュメントにおいて、リスト800は、翻訳結果として出力すべき言語を利用者に指定させるための複数の項目からなる。
【0062】
リスト800の項目である「Chinese」は、当該項目に対応して「中国人」及び「中国語」の複数の訳語を有する。同様に、「French」は「フランス人」及び「フランス語」、「Japanese」は「日本人」及び「日本語」の複数の訳語をそれぞれ有する。ここで、「中国人」、「フランス人」、及び「日本人」は、それぞれの項目により指定される国の国民に分類される訳語である。一方、「中国語」、「フランス語」、及び「日本語」は、それぞれの項目より指定される国の言語に分類される訳語である。
【0063】
上記の様に当該項目により指定される国の国民に分類される訳語、及び、当該項目より指定される国の言語に分類される訳語が存在する場合、訳語選択部170は、S720において、国の言語の素性を所定の分類として選択し、国の言語に分類される訳語、すなわち上記の例において「中国語」、「フランス語」、及び「日本語」を当該項目の訳語として選択する。
【0064】
以上により、訳語選択部170は、特にインターネット上に多く見られる、言語の選択を行なわせるページ等を正確に翻訳することができる。
【0065】
以上において、訳語選択部170は、翻訳対象のドキュメントの種類に基づいて、国の国民に分類される訳語、及び、国の言語に分類される訳語のいずれを選択するかを変更してもよい。すなわち例えば、訳語選択部170は、翻訳対象のドキュメントがインターネット上のページである場合に、国の言語に分類される訳語を選択し、翻訳対象のドキュメントがインターネット上のページでない場合に、国の国民に分類される訳語を選択する等の処理を行ってもよい。
【0066】
また、訳語選択部170は、例えばS730及びS735において、国の国民に分類される訳語、及び、国の言語に分類される訳語の選択に代えて、予め設定された条件に基づき、他の分類の組合せのうち一方の分類を所定の分類として選択してもよい。
【0067】
図9は、本実施形態に係る翻訳システム10による、図7のS740及びS750における素性選択の一例を示す。
【0068】
図9(a)は、図7のS740及びS750において、最多分類に基づき所定の分類を選択した結果、言語の素性が選択される例を示す。本例において、指定部分のリストに含まれる4つの項目は、順に「Spanish」、「Simplified Chinese」、「French」、「Japanese」の語句を含む。ここで、「Spanish」、「Simplified Chinese」、「French」、「Japanese」は、当該項目により指定される国の言語の分類に属する訳語を有する。一方、「Spanish」、「French」、「Japanese」は、当該項目により指定される国の国民の分類に属する訳語を有する。
【0069】
この場合、図7のS740において、最多分類検出部173は、これらの4つ項目に対応する訳語が最も多く属する分類である最多分類として、これらの語句により指定される国の言語の分類に属する訳語を選択する。そして、図7のS750において、最多訳語選択部176は、指定部分のリストに含まれる4つの項目のそれぞれについて、当該項目に対応する複数の訳語のうち、最多分類である国の言語の分類に属する訳語を、当該項目の訳語として選択する。この結果、最多訳語選択部176は、4つの項目の訳語として、「スペイン語」、「簡体字中国語」、「フランス語」、及び「日本語」を生成する。
【0070】
図9(b)は、図7のS740及びS750において国民の素性が選択される例を示す。本例において、指定部分のリストに含まれる4つの項目は、順に「Spanish」、「Canadian」、「French」、「Japanese」の語句を含む。ここで、「Spanish」、「Canadian」、「French」、「Japanese」は、当該項目により指定される国の国民の分類に属する訳語を有する。一方、「Spanish」、「French」、「Japanese」は、当該項目により指定される国の言語の分類に属する訳語を有する。
【0071】
この場合、図7のS740において、最多分類検出部173は、これらの4つ項目に対応する訳語が最も多く属する分類である最多分類として、これらの項目により指定される国の国民の分類に属する訳語を選択する。そして、図7のS750において、最多訳語選択部176は、指定部分のリストに含まれる4つの項目のそれぞれについて、当該項目に対応する複数の訳語のうち、最多分類である国の国民の分類に属する訳語を当該項目の訳語として選択する。この結果、最多訳語選択部176は、4つの項目の訳語として、「スペイン人」、「カナダ人」、「フランス人」、及び「日本人」を生成する。
【0072】
以上に示した通り、最多分類検出部173及び最多訳語選択部176を用いることにより、翻訳システム10は、指定部分のリスト又は表等に含まれる複数の項目又は複数の要素のそれぞれに対応する訳語のうち、最も多くの訳語が属する分類である最多分類を検出し、最多分類に属する訳語を用いて全ての項目又は要素を翻訳することができる。これにより、翻訳システム10は、リスト又は表等に含まれる複数の項目又は複数の要素の素性を、最も多くの項目又は要素が属する分類に対応する素性に統一して翻訳し、翻訳の精度を高めることができる。
【0073】
なお、以上の処理において、最多分類検出部173は、複数の項目または複数の要素のそれぞれに対応する訳語の分類として、当該訳語として使用される頻度に基づいて選択した1又は複数の分類を用いてもよい。すなわち、最多分類検出部173は、当該項目又は当該要素が複数の訳語を有する場合、それぞれの訳語として使用される頻度が、例えば予め定められた頻度以上である訳語、又は頻度が高い順に選択した1若しくは複数の訳語の分類を、当該項目又は当該要素の分類として用いてよい。例えば、「American」は、「アメリカ英語」及び「アメリカ人」の訳語を有するが、一般的には「アメリカ人」として使用される頻度が高く、「アメリカ英語」として訳出するコストが高く設定される。この場合、最多分類検出部173は、「American」の素性として、国の国民の素性のみを選択し、最多訳語選択部176に選択させてもよい。
【0074】
また、最多分類に基づく訳語の選択は、国の国民及び言語の素性以外の場合においても有効である。例えば、指定部分の複数の項目が、「White」、「Green」、「Yellow」、及び「Brown」である場合に、これらの複数の項目はいずれも色の素性に分類される訳語を有する一方、「Yellow」を除く項目は人名の素性に分類される訳語を有する。このため、最多訳語選択部176は、これらの項目に対応する訳語が最も多く属する分類である最多分類として、これらの項目により指定される色の素性に分類される訳語を選択する。これに対し、指定部分の複数の項目が、「White」、「Green」、「Smith」、「Brown」である場合に、これらの複数の項目はいずれも人名の素性に分類される訳語を有する一方、「Smith」を除く項目は色の素性に分類される訳語を有する。このため、最多訳語選択部176は、これらの項目に対応する訳語が最も多く属する分類である最多分類として、これらの項目により指定される人名の素性に分類される訳語を選択する。
【0075】
図10は、本実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。図10(a)のドキュメントは、リスト850と、リスト850の各項目に共通する主語である共通部分860とを含む。
【0076】
本ドキュメントを翻訳する場合、共通部分検出部180は、図2のS240において、リスト850に含まれる「enables…」、「supports…」、「takes…」等の各項目が、本ドキュメントにおけるリスト850より前に記述された共通部分860を共通して主語とする主語無し文であるか否かを検出する。すなわち例えば、共通部分検出部180は、リスト850に含まれる複数の項目が動詞句であり、リスト850の前に記載された一の共通部分が名詞句である場合に、リスト850に含まれる複数の項目が主語無し文であると検出してよい。
【0077】
そして、図2のS270において、翻訳処理部120は、リスト850に含まれる各項目を、共通部分860を主語とする文として翻訳する。例えば、翻訳処理部120は、リスト850のそれぞれを、「この機能は、…を可能とする。」「この機能は、…をサポートする。」「この機能は、…をとる。」の様に翻訳する。そして、翻訳処理部120は、翻訳結果の主語を除いた部分を、各項目の翻訳結果として出力する。
【0078】
図10(b)のドキュメントは、リスト870と、リスト870の各項目に共通する主語及び述語動詞を有する共通部分880とを含む。
【0079】
本ドキュメントを翻訳する場合、共通部分検出部180は、図2のS240において、リスト870に含まれる「Information…」、「how to…」、「cautions…」等の各項目が、本ドキュメントにおけるリスト870より前に記述された共通部分880を共通して主語及び述語動詞とする文であるか否かを検出する。すなわち例えば、共通部分検出部180は、リスト870に含まれる複数の項目が目的語であり、リスト870の前に記載された一の共通部分が名詞及び動詞の組を有する場合に、リスト870に含まれる複数の項目が共通部分との組み合わせにより文を構成すると検出してよい。
【0080】
そして、図2のS270において、翻訳処理部120は、リスト870に含まれる各項目を、共通部分880と組み合わせた文として翻訳する。例えば、翻訳処理部120は、リスト870のそれぞれを、「このドキュメントは、…の情報を含む。」「このドキュメントは、どの様にして…するかを含む。」「このドキュメントは、…注意を含む。」の様に翻訳する。そして、翻訳処理部120は、翻訳結果の共通部分を除いた部分を、各項目の翻訳結果として出力する。
【0081】
以上の例に示した様に、複数の項目が一の共通部分との組み合わせにより文を構成することを共通部分検出部180が検出すると、翻訳処理部120は、複数の項目のそれぞれを、共通部分と組み合わせた文として翻訳する。
【0082】
図11は、本実施形態に係る翻訳処理部120において、翻訳対象の項目又は要素が名詞句「Visitor reviews」であった場合における翻訳結果の一例を示す。
図11(a)は、翻訳処理部120がドキュメントにおける指定部分以外の部分を通常翻訳モードにより翻訳する場合において、文を優先して翻訳した場合における翻訳結果を示す。
【0083】
まず、翻訳処理部120は、対象の名詞句の形態素解析を行い、それぞれの語の品詞等を解析する。次に、翻訳処理部120は、翻訳辞書格納部130内の文法辞書に登録された文法に基づいて、構文解析を行なう。
【0084】
構文解析において、翻訳処理部120は、各英単語に対応付けて、当該英単語の品詞毎に、当該品詞として使用される頻度の低さを示すコストを割り当てる。例えば、英単語「Visitor」が名詞として用いられるコストは、()内に図示した通り5である。
【0085】
次に、翻訳処理部120は、翻訳辞書格納部130内の文法辞書に登録された文法に記述された組合せを用いて句を生成し、当該句のコストを割り当てる。本例において、名詞句+名詞句として用いられる場合のコストは80であり、名詞単体で名詞句として用いられる場合のコストは18であり、動詞単体で動詞句として用いられるコストは15である。
【0086】
次に、翻訳処理部120は、句を組み合わせて完成文を生成し、完成文のコストを割り当てる。本例において、名詞句+動詞句で文を構成するコストは18であり、名詞句単体の完成文990a、及び名詞句+動詞句による完成文990bのコストは共に200である。
【0087】
次に、翻訳処理部120は、以上により解析されたそれぞれの完成文990a〜bについて、コストの合計値を算出する。例えば、完成文990aのコストの合計値は、「名詞(5)+名詞(5)+名詞句(80)+完成文(200)=290」である。一方、完成文990bのコストの合計値は261である。
【0088】
以上の構文解析の結果、翻訳処理部120は、コスト合計値が最も小さい文法、すなわち「Visitor reviews」を完成文990bに翻訳する文法を、「Visitor reviews」の構文解析結果として翻訳を行なう。この結果、ドキュメント出力部190は、翻訳結果「訪問者はレビューする」を出力する。
【0089】
図11(b)は、翻訳処理部120が名詞句翻訳モードにより翻訳する場合における翻訳結果を示す。翻訳処理部120は、名詞句翻訳モードにおいて、翻訳処理部120がドキュメントにおける指定部分以外の部分を翻訳する場合と比較し、名詞句として翻訳する文法規則を使用する優先度をより高く設定する。すなわち、図11(b)に示した様に、図11(a)における名詞句のみからなる完成文のコストを、完成文990bにおける完成文のコストより所定の値、例えば150減じる。これにより、翻訳処理部120は、「Visitor reviews」を完成文990aに翻訳する文法を、「Visitor reviews」の構文解析結果として翻訳を行なう。この結果、ドキュメント出力部190は、翻訳結果「訪問者レビュー」を出力する。
【0090】
以上に示した様に、翻訳処理部120は、名詞句翻訳モードにおいて、指定部分以外の部分を翻訳する場合と比較し、名詞句として優先して翻訳する文法規則を優先する。より具体的には、翻訳処理部120は、名詞句翻訳モードにおいて、名詞句として優先して翻訳する文法規則を、名詞と動詞の組からなる文に翻訳する文法規則に対して相対的に優先度を高める。
【0091】
以上の処理において、翻訳処理部120は、指定部分に含まれる内容を、名詞句翻訳辞書136を用いて翻訳してよい。ここで、名詞句翻訳辞書136は、指定部分の他の部分を翻訳する場合と比較し、指定部分を名詞句としてより優先的に翻訳するために用いられる文法規則を格納する翻訳辞書である。
また、名詞句翻訳辞書136は、指定部分の他の部分を翻訳する場合と比較し、指定部分を名詞句としてより優先的に翻訳するために用いられる訳語を格納する訳語辞書を含んでもよい。
【0092】
以上に示したフレーズ翻訳部180によれば、対象のドキュメントから抽出された名詞句の名詞句訳を生成する場合において、ドキュメントにおける名詞句以外の部分を翻訳する場合と比較し、名詞句として翻訳する文法規則を使用する優先度をより高く設定する。これにより、フレーズ翻訳部180は、抽出した名詞句に適した翻訳を行なうことができ、翻訳の精度を高めることができる。
【0093】
図12は、本実施形態に係るコンピュータ1000のハードウェア構成の一例を示す。本実施形態に係る翻訳システム10は、ホスト・コントローラ1182により相互に接続されるCPU1100、RAM1120、グラフィック・コントローラ1175、及び表示装置1180を有するCPU周辺部と、入出力コントローラ1184によりホスト・コントローラ1182に接続される通信インターフェイス1130、ハードディスク・ドライブ1140、及びCD−ROMドライブ1160を有する入出力部と、入出力コントローラ1184に接続されるROM1110、フレキシブルディスク・ドライブ1150、及び入出力チップ1170を有するレガシー入出力部とを備えるコンピュータ1000により実現される。
【0094】
ホスト・コントローラ1182は、RAM1120と、高い転送レートでRAM1120をアクセスするCPU1100及びグラフィック・コントローラ1175とを接続する。CPU1100は、ROM1110及びRAM1120に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ1175は、CPU1100等がRAM1120内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置1180上に表示させる。これに代えて、グラフィック・コントローラ1175は、CPU1100等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
【0095】
入出力コントローラ1184は、ホスト・コントローラ1182と、比較的高速な入出力装置である通信インターフェイス1130、ハードディスク・ドライブ1140、CD−ROMドライブ1160を接続する。通信インターフェイス1130は、ネットワークを介して他の装置と通信する。ハードディスク・ドライブ1140は、コンピュータ1000が使用するプログラム及びデータを格納する。CD−ROMドライブ1160は、CD−ROM1195からプログラム又はデータを読み取り、RAM1120及び/又はハードディスク・ドライブ1140に提供する。
【0096】
また、入出力コントローラ1184には、ROM1110と、フレキシブルディスク・ドライブ1150や入出力チップ1170等の比較的低速な入出力装置とが接続される。ROM1110は、コンピュータ1000が起動時に実行するブート・プログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ1150は、フレキシブルディスク1190からプログラム又はデータを読み取り、入出力コントローラ1184を介してCPU1100及び/又はハードディスク・ドライブ1140に提供する。入出力チップ1170は、フレキシブルディスク1190や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。
【0097】
RAM1120を介してCPU1100に提供されるプログラムは、フレキシブルディスク1190、CD−ROM1195、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、入出力コントローラ1184及びRAM1120を介してコンピュータ1000にインストールされ、CPU1100において実行される。
【0098】
コンピュータ1000にインストールされて実行され、コンピュータ1000を翻訳システム10として機能させるプログラムは、ドキュメント入力モジュールと、指定モジュール分抽出モジュールと、翻訳処理モジュールと、翻訳辞書管理モジュールと、表示制御情報管理モジュールと、最多分類検出モジュール及び最多訳語選択モジュールを含む訳語選択モジュールと、共通部分検出モジュールと、ドキュメント出力モジュールとを備える。これらのプログラム又はモジュールは、コンピュータ1000を、ドキュメント入力部100と、指定部分抽出部110と、翻訳処理部120と、翻訳辞書管理部140と、表示制御情報管理部160と、最多分類検出部173及び最多訳語選択部176を含む訳語選択部170と、共通部分検出部180と、ドキュメント出力部190としてそれぞれ機能させる。また、ハードディスク・ドライブ1140又はCD−ROM1195は、翻訳辞書格納部130及び/又は表示制御情報格納部150として機能してもよく、これに代えて翻訳辞書133及び名詞句翻訳辞書136は、ネットワークに接続されたサーバ上の記録媒体として実現されてもよい。
【0099】
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1190、CD−ROM1195の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1000に提供してもよい。
【0100】
以上、本発明を実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更または改良を加えることができる。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0101】
以上に説明した実施形態によれば、以下の各項目に示す翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体が実現される。
【0102】
(項目1) ドキュメントを翻訳する翻訳システムであって、前記ドキュメントのうち、予め定められた表示形式により表示すべきことを指定された指定部分を抽出する指定部分抽出部と、前記指定部分に含まれる内容を、前記ドキュメントにおける前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳する翻訳処理部とを備える翻訳システム。
(項目2) 前記ドキュメント中に含まれる、前記指定部分の指定に用いられる表示形式指定情報を管理する表示制御情報管理部を更に備え、前記指定部分抽出部は、前記ドキュメント中に前記表示形式指定情報を検出した場合に、前記表示形式指定情報によって前記予め定められた表示形式により表示すべきことを指定された部分を前記指定部分として抽出する項目1記載の翻訳システム。
【0103】
(項目3) 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、前記指定部分抽出部は、前記内容情報の少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリストとして表示すべきことを指定された部分を前記指定部分として抽出し、前記翻訳処理部は、前記表示形式指定情報によりリストとして表示すべきことを指定された部分に含まれる前記複数の項目のそれぞれを、前記名詞句翻訳モードにより翻訳する項目2記載の翻訳システム。
【0104】
(項目4) 前記ドキュメントは、前記複数の項目のそれぞれを指定する前記表示形式指定情報である項目指定情報を更に含み、前記翻訳処理部は、前記表示形式指定情報によりリストとして表示すべきことを指定された部分に含まれる、前記項目指定情報により指定される前記複数の項目のそれぞれを、前記名詞句翻訳モードにより翻訳する項目3記載の翻訳システム。
(項目5) 前記翻訳処理部は、前記表示指定情報によりリストとして表示すべきことを指定された前記複数の項目のうち、句点を含まない項目を、句点を含む項目と比較し名詞句としてより優先的に翻訳する前記名詞句翻訳モードにより翻訳する項目2記載の翻訳システム。
【0105】
(項目6) 前記翻訳処理部は、前記表示指定情報によりリストとして表示すべきことを指定された前記複数の項目のうち、予め設定された単語数以下の項目を、前記予め設定された単語数を超える項目と比較し名詞句としてより優先的に翻訳する前記名詞句翻訳モードにより翻訳する項目2記載の翻訳システム。
(項目7) 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、前記指定部分抽出部は、前記内容情報の少なくとも一部を複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によって前記表として表示すべきことを指定された部分を前記指定部分として抽出し、前記翻訳処理部は、前記表示形式指定情報により前記表として表示すべきことを指定された部分に含まれる前記複数の要素のそれぞれを、前記名詞句翻訳モードにより翻訳する項目2記載の翻訳システム。
【0106】
(項目8) 前記ドキュメントは、前記制御情報として、前記複数の要素のそれぞれを指定する表要素指定情報を更に含み、前記翻訳処理部は、前記表示形式指定情報により表として表示すべきことを指定された部分に含まれる、前記表要素指定情報により指定される前記複数の要素のそれぞれを、前記名詞句翻訳モードにより翻訳する項目7記載の翻訳システム。
(項目9) 前記表示形式指定情報は、前記ドキュメントの各行の行頭に表示される行頭文字であり、前記指定部分抽出部は、前記ドキュメント中に前記行頭文字を検出した場合に、前記行頭文字に対応する行の内容を前記指定部分として抽出する項目2記載の翻訳システム。
【0107】
(項目10) 前記指定部分抽出部は、前記ドキュメントの少なくとも一部を複数の項目からなるリスト又は複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリスト又は表により表示すべきことを指定された部分を前記指定部分として抽出し、当該翻訳システムは、前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、所定の分類に属する訳語を当該項目又は当該要素の訳語として選択する訳語選択部を更に備え、前記翻訳処理部は、前記複数の項目又は前記複数の要素のそれぞれを、前記訳語選択部により選択された訳語を用いて翻訳する項目2記載の翻訳システム。
【0108】
(項目11) 前記訳語選択部は、前記複数の項目又は前記複数の要素の少なくとも一部のそれぞれについて、当該項目又は当該要素により指定される国の国民に分類される訳語、及び、当該項目又は当該要素により指定される国の言語に分類される訳語が存在する場合に、当該項目又は当該要素により指定される国の言語に分類される訳語を、当該項目又は当該要素の訳語として選択する項目10記載の翻訳システム。
(項目12) 前記訳語選択部は、前記複数の項目又は前記複数の要素の少なくとも一部のそれぞれに対応する訳語が属する分類に基づいて、前記所定の分類を選択する項目10記載の翻訳システム。
【0109】
(項目13) 前記訳語選択部は、前記複数の項目又は前記複数の要素のそれぞれに対応する訳語が、最も多く属する分類である最多分類を検出する最多分類検出部と、前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、前記最多分類に属する訳語を当該語句の訳語として選択する最多訳語選択部とを有する項目12記載の翻訳システム。
(項目14) 前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳するために用いられる文法規則を格納した名詞句翻訳辞書を管理する翻訳辞書管理部を更に備え、前記翻訳処理部は、前記指定部分に含まれる内容を、前記名詞句翻訳辞書を用いて翻訳する項目1記載の翻訳システム。
【0110】
(項目15) ドキュメントを翻訳する翻訳システムであって、前記ドキュメントの少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する表示形式指定情報を検出した場合に、前記表示形式指定情報によってリストにより表示すべきことを指定された部分である指定部分を抽出する指定部分抽出部と、前記複数の項目のそれぞれが、前記ドキュメントにおける前記指定部分より前に記述された一の共通部分との組み合わせにより文を構成するか否かを検出する共通部分検出部と、前記複数の項目のそれぞれが前記一の共通部分との組み合わせにより文を構成することが検出された場合に、前記複数の項目のそれぞれを、前記一の共通部分と組み合わせた文として翻訳する翻訳処理部とを備える翻訳システム。
【0111】
(項目16) 前記共通部分検出部は、前記複数の項目のそれぞれが、前記一の共通部分を共通して主語とするか否かを検出し、前記翻訳処理部は、前記複数の項目のそれぞれが前記一の語句を共通して主語とすることが検出された場合に、前記複数の項目のそれぞれを、前記一の語句を主語とする文として翻訳する項目15記載の翻訳システム。
(項目17) コンピュータによりドキュメントを翻訳させる翻訳方法であって、前記ドキュメントのうち、予め定められた表示形式により表示すべきことを指定された指定部分を前記コンピュータに抽出させる指定部分抽出段階と、前記指定部分に含まれる内容を、前記ドキュメントにおける前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する名詞句翻訳モードにより前記コンピュータに翻訳させる翻訳処理段階とを備える翻訳方法。
【0112】
(項目18) 前記ドキュメント中に含まれる、前記指定部分の指定に用いられる表示形式指定情報を前記コンピュータに管理させる表示制御情報管理段階を更に備え、前記指定部分抽出段階において、前記ドキュメント中に前記表示形式指定情報を検出した場合に、前記表示形式指定情報によって前記予め定められた表示形式により表示すべきことを指定された部分を前記指定部分として前記コンピュータに抽出させる項目17記載の翻訳方法。
(項目19) 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、前記指定部分抽出段階において、前記内容情報の少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリストとして表示すべきことを指定された部分を前記指定部分として前記コンピュータに抽出させ、前記翻訳処理段階において、前記表示形式指定情報によりリストとして表示すべきことを指定された部分に含まれる前記複数の項目のそれぞれを、前記名詞句翻訳モードにより前記コンピュータに翻訳させる項目18記載の翻訳方法。
【0113】
(項目20) 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、前記指定部分抽出段階は、前記内容情報の少なくとも一部を複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によって前記表として表示すべきことを指定された部分を前記指定部分として前記コンピュータにより抽出させ、前記翻訳処理段階は、前記表示形式指定情報により前記表として表示すべきことを指定された部分に含まれる前記複数の要素のそれぞれを、前記名詞句翻訳モードにより前記コンピュータに翻訳させる項目18記載の翻訳方法。
【0114】
(項目21) 前記指定部分抽出段階において、前記ドキュメントの少なくとも一部を複数の項目からなるリスト又は複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリスト又は表により表示すべきことを指定された部分を前記指定部分として前記コンピュータに抽出させ、前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、所定の分類に属する訳語を当該項目又は当該要素の訳語として前記コンピュータに選択させる訳語選択段階を更に備え、前記翻訳処理段階は、前記複数の項目又は前記複数の要素のそれぞれを、前記訳語選択段階により選択された訳語を用いて前記コンピュータにより翻訳させる項目18記載の翻訳方法。
【0115】
(項目22) コンピュータによりドキュメントを翻訳させる翻訳方法であって、前記ドキュメントの少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する表示形式指定情報を検出した場合に、前記表示形式指定情報によってリストにより表示すべきことを指定された部分である指定部分を前記コンピュータに抽出させる指定部分抽出段階と、前記複数の項目のそれぞれが、前記ドキュメントにおける前記指定部分より前に記述された一の共通部分との組み合わせにより文を構成するか否かを前記コンピュータに検出させる共通部分検出段階と、前記複数の項目のそれぞれが前記一の共通部分との組み合わせにより文を構成することが検出された場合に、前記複数の項目のそれぞれを、前記一の共通部分と組み合わせた文として前記コンピュータに翻訳させる翻訳処理段階とを備える翻訳方法。
【0116】
(項目23) コンピュータを、ドキュメントを翻訳する翻訳システムとして機能させるプログラムであって、前記コンピュータを、前記ドキュメントのうち、予め定められた表示形式により表示すべきことを指定された指定部分を抽出する指定部分抽出部と、前記指定部分に含まれる内容を、前記ドキュメントにおける前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳する翻訳処理部として機能させるプログラム。
(項目24) 前記コンピュータを、前記ドキュメント中に含まれる、前記指定部分の指定に用いられる表示形式指定情報を管理する表示制御情報管理部として更に機能させ、前記指定部分抽出部は、前記ドキュメント中に前記表示形式指定情報を検出した場合に、前記表示形式指定情報によって前記予め定められた表示形式により表示すべきことを指定された部分を前記指定部分として抽出する項目23記載のプログラム。
【0117】
(項目25) 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、前記指定部分抽出部は、前記内容情報の少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリストとして表示すべきことを指定された部分を前記指定部分として抽出し、前記翻訳処理部は、前記表示形式指定情報によりリストとして表示すべきことを指定された部分に含まれる前記複数の項目のそれぞれを、前記名詞句翻訳モードにより翻訳する項目24記載のプログラム。
【0118】
(項目26) 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、前記指定部分抽出部は、前記内容情報の少なくとも一部を複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によって前記表として表示すべきことを指定された部分を前記指定部分として抽出し、前記翻訳処理部は、前記表示形式指定情報により前記表として表示すべきことを指定された部分に含まれる前記複数の要素のそれぞれを、前記名詞句翻訳モードにより翻訳する項目24記載のプログラム。
【0119】
(項目27) 前記指定部分抽出部は、前記ドキュメントの少なくとも一部を複数の項目からなるリスト又は複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリスト又は表により表示すべきことを指定された部分を前記指定部分として抽出し、当該プログラムは、前記コンピュータを、前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、所定の分類に属する訳語を当該項目又は当該要素の訳語として選択する訳語選択部として更に機能させ、前記翻訳処理部は、前記複数の項目又は前記複数の要素のそれぞれを、前記訳語選択部により選択された訳語を用いて翻訳する項目24記載のプログラム。
【0120】
(項目28) コンピュータを、ドキュメントを翻訳する翻訳システムとして機能させるプログラムであって、前記コンピュータを、前記ドキュメントの少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する表示形式指定情報を検出した場合に、前記表示形式指定情報によってリストにより表示すべきことを指定された部分である指定部分を抽出する指定部分抽出部と、前記複数の項目のそれぞれが、前記ドキュメントにおける前記指定部分より前に記述された一の共通部分との組み合わせにより文を構成するか否かを検出する共通部分検出部と、前記複数の項目のそれぞれが前記一の共通部分との組み合わせにより文を構成することが検出された場合に、前記複数の項目のそれぞれを、前記一の共通部分と組み合わせた文として翻訳する翻訳処理部として機能させるプログラム。
(項目29) 項目23から項目28に記載のプログラムを記録した記録媒体。
【0121】
【発明の効果】
上記説明から明らかなように、本発明によれば、ドキュメントの表示形式に応じて他の部分と比較し名詞句として優先的に翻訳することにより、名詞句で記載されることが多いリストや表等の部分を適切に翻訳する翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体を提供することができる。
【図面の簡単な説明】
【図1】 本発明の実施形態に係る翻訳システム10の構成を示す。
【図2】 本発明の実施形態に係る翻訳システム10の処理フローを示す。
【図3】 本発明の実施形態に係る翻訳システム10が翻訳するドキュメントの一例を示す。図3(a)は、順序付けの無い行頭文字を用いたリスト表示形式により記述されたドキュメントの一例を示す。図3(b)は、順序付けのある行頭文字を用いたリスト表示形式により記述されたドキュメントの一例を示す。
【図4】 本発明の実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。
【図5】 本発明の実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。図5(a)は、表表示形式により記述されたドキュメントの一例を示す。図5(b)は、表表示形式により表示することを指定する制御情報を含むドキュメントの一例を示す。
【図6】 本発明の実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。図6(a)は、リストボックスにより表示されたドキュメントの一例を示す。図6(b)は、ドロップダウンリストにより表示されたドキュメントの一例を示す。図6(c)は、ラジオボタンにより表示されたドキュメントの一例を示す。図6(d)は、チェックボックスにより表示されたドキュメントの一例を示す。図6(e)は、複数の項目が列挙されたドキュメントの一例を示す。
【図7】 本発明の実施形態に係る翻訳システム10のS250における処理フローを示す。
【図8】 本発明の実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。
【図9】 本発明の実施形態に係る翻訳システム10による素性選択の一例を示す。図9(a)は、言語の素性が選択される例を示す。図9(b)は、国民の素性が選択される例を示す。
【図10】 本発明の実施形態に係る翻訳システム10が翻訳するドキュメントの他の例を示す。図10(a)は、リストの各項目に共通する主語を共通部分として含むドキュメントを示す。図10(b)は、リストの各項目に共通する主語及び述語動詞を有する共通部分を含むドキュメントを示す。
【図11】 本発明の実施形態に係る翻訳処理部120における翻訳結果の一例を示す。図11(a)は、文を優先して翻訳する場合における翻訳結果を示す。図11(b)は、名詞句を優先して翻訳する場合における翻訳結果を示す。
【図12】 本発明の実施形態に係るコンピュータ1000のハードウェア構成の一例を示す。
【符号の説明】
10 翻訳システム
100 ドキュメント入力部
110 指定部分抽出部
120 翻訳処理部
130 翻訳辞書格納部
133 翻訳辞書
136 名詞句翻訳辞書
140 翻訳辞書管理部
150 表示制御情報格納部
160 表示制御情報管理部
170 訳語選択部
173 最多分類検出部
176 最多訳語選択部
180 共通部分検出部
190 ドキュメント出力部
300 リスト
310 行頭文字
320 項目
330 句点
400 リスト開始指定情報
410 項目開始指定情報
420 項目終了指定情報
430 リスト終了指定情報
440 項目
500 表
510 要素
520 句点
540 要素
560 表開始指定情報
565 表終了指定情報
570 行開始指定情報
575 行終了指定情報
580 見出し要素開始指定情報
585 見出し要素終了指定情報
590 データ要素開始指定情報
595 データ要素終了指定情報
800 リスト
850 リスト
860 共通部分
870 リスト
880 共通部分
990a〜b 完成文
1000 コンピュータ
1100 CPU
1110 ROM
1120 RAM
1130 通信インターフェイス
1140 ハードディスク・ドライブ
1150 フレキシブルディスク・ドライブ
1160 CD−ROMドライブ
1170 入出力チップ
1175 グラフィック・コントローラ
1180 表示装置
1182 ホスト・コントローラ
1184 入出力コントローラ
1190 フレキシブルディスク
1195 CD−ROM

Claims (19)

  1. ドキュメントを翻訳する翻訳システムであって、
    前記ドキュメントのうち、複数の項目からなるリスト又は複数の要素を含む表により表示すべきことを指定された指定部分を抽出する指定部分抽出部と、
    前記指定部分に含まれる内容を、前記ドキュメントにおける前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳する翻訳処理部と
    前記複数の項目又は前記複数の要素のそれぞれに対応する訳語が、最も多く属する分類である最多分類を検出する最多分類検出部と、
    前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、前記最多分類に属する訳語を当該語句の訳語として選択する最多訳語選択部と
    を備え、
    前記翻訳処理部は、前記複数の項目又は前記複数の要素のそれぞれを、前記訳語選択部により選択された訳語を用いて翻訳する、翻訳システム。
  2. 前記ドキュメント中に含まれる、前記指定部分の指定に用いられる表示形式指定情報を管理する表示制御情報管理部を更に備え、
    前記指定部分抽出部は、複数の項目からなるリスト又は複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリスト又は表により表示すべきことを指定された部分を前記指定部分として抽出する
    請求項1記載の翻訳システム。
  3. 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、
    前記指定部分抽出部は、前記内容情報の少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリストとして表示すべきことを指定された部分を前記指定部分として抽出し、
    前記翻訳処理部は、前記表示形式指定情報によりリストとして表示すべきことを指定された部分に含まれる前記複数の項目のそれぞれを、前記名詞句翻訳モードにより翻訳する
    請求項2記載の翻訳システム。
  4. 前記ドキュメントは、前記複数の項目のそれぞれを指定する前記表示形式指定情報である項目指定情報を更に含み、
    前記翻訳処理部は、前記表示形式指定情報によりリストとして表示すべきことを指定された部分に含まれる、前記項目指定情報により指定される前記複数の項目のそれぞれを、前記名詞句翻訳モードにより翻訳する
    請求項3記載の翻訳システム。
  5. 前記翻訳処理部は、前記表示形式指定情報によりリストとして表示すべきことを指定された前記複数の項目のうち、句点を含まない項目を、句点を含む項目と比較し名詞句としてより優先的に翻訳する前記名詞句翻訳モードにより翻訳する
    請求項2記載の翻訳システム。
  6. 前記翻訳処理部は、前記表示形式指定情報によりリストとして表示すべきことを指定された前記複数の項目のうち、予め設定された単語数以下の項目を、前記予め設定された単語数を超える項目と比較し名詞句としてより優先的に翻訳する前記名詞句翻訳モードにより翻訳する
    請求項2記載の翻訳システム。
  7. 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、
    前記指定部分抽出部は、前記内容情報の少なくとも一部を複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によって前記表として表示すべきことを指定された部分を前記指定部分として抽出し、
    前記翻訳処理部は、前記表示形式指定情報により前記表として表示すべきことを指定された部分に含まれる前記複数の要素のそれぞれを、前記名詞句翻訳モードにより翻訳する
    請求項2記載の翻訳システム。
  8. 前記ドキュメントは、前記制御情報として、前記複数の要素のそれぞれを指定する表要素指定情報を更に含み、
    前記翻訳処理部は、前記表示形式指定情報により表として表示すべきことを指定された部分に含まれる、前記表要素指定情報により指定される前記複数の要素のそれぞれを、前記名詞句翻訳モードにより翻訳する
    請求項7記載の翻訳システム。
  9. 前記表示形式指定情報は、前記ドキュメントの各行の行頭に表示される行頭文字であり、
    前記指定部分抽出部は、前記ドキュメント中に前記行頭文字を検出した場合に、前記行頭文字に対応する行の内容を前記指定部分として抽出する
    請求項2記載の翻訳システム。
  10. 前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳するために用いられる文法規則を格納した名詞句翻訳辞書を管理する翻訳辞書管理部を更に備え、
    前記翻訳処理部は、前記指定部分に含まれる内容を、前記名詞句翻訳辞書を用いて翻訳する
    請求項1記載の翻訳システム。
  11. コンピュータによりドキュメントを翻訳させる翻訳方法であって、
    前記ドキュメントのうち複数の項目からなるリスト又は複数の要素を含む表により表示すべきことを指定された指定部分を、前記コンピュータの指定部分抽出部に抽出させる指定部分抽出段階と、
    前記指定部分抽出部が抽出した前記指定部分に含まれる内容を、前記ドキュメントにおける前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する名詞句翻訳モードにより、前記コンピュータの翻訳処理部に翻訳させる翻訳処理段階と、
    前記指定部分抽出部が抽出した前記指定部分の前記複数の項目又は前記複数の要素のそれぞれに対応する訳語が、最も多く属する分類である最多分類を、前記コンピュータの最多分類検出部に検出させる最多分類検出段階と、
    前記指定部分抽出部が抽出した前記指定部分の前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、前記最多分類に属する訳語を、前記コンピュータの最多訳語選択部に当該語句の訳語として選択させる最多訳語選択段階と
    を備え、
    前記翻訳処理段階において、前記指定部分抽出部が抽出した前記指定部分の前記複数の項目又は前記複数の要素のそれぞれを、前記訳語選択部により選択された訳語を用いて、前期翻訳処理部に翻訳させる翻訳方法。
  12. 前記コンピュータは、前記ドキュメント中に含まれる、前記指定部分の指定に用いられる表示形式指定情報を管理する表示制御情報管理部を備え、
    前記指定部分抽出段階において、前記指定部分抽出部に、前記表示制御情報管理部から前記表示形式指定情報を取得させ、前記指定部分抽出部が、複数の項目からなるリスト又は複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリスト又は表により表示す べきことを指定された部分を前記指定部分として前記指定部分抽出部に抽出させる
    請求項11記載の翻訳方法。
  13. 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、
    前記指定部分抽出段階において、前記指定部分抽出部が前記内容情報の少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリストとして表示すべきことを指定された部分を前記指定部分として前記指定部分抽出部に抽出させ、
    前記翻訳処理段階において、前記指定部分抽出部が抽出した前記指定部分に含まれる前記複数の項目のそれぞれを、前記名詞句翻訳モードにより前記翻訳処理部に翻訳させる
    請求項12記載の翻訳方法。
  14. 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、
    前記指定部分抽出段階において、前記指定部分抽出部が前記内容情報の少なくとも一部を複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によって前記表として表示すべきことを指定された部分を前記指定部分として前記指定部分抽出部に抽出させ、
    前記翻訳処理段階において、前記指定部分抽出部が抽出した前記指定部分に含まれる前記複数の要素のそれぞれを、前記名詞句翻訳モードにより前記翻訳処理部に翻訳させる
    請求項12記載の翻訳方法。
  15. コンピュータを、ドキュメントを翻訳する翻訳システムとして機能させるプログラムであって、
    前記コンピュータを、
    前記コンピュータのCPUの動作により、前記ドキュメントのうち、複数の項目からなるリスト又は複数の要素を含む表により表示すべきことを指定された指定部分を抽出する指定部分抽出部と、
    前記コンピュータのCPUの動作により、前記指定部分抽出部が抽出した前記指定部分に含まれる内容を前記ドキュメントにおける前記指定部分の他の部分を翻訳する場合と比較し、名詞句としてより優先的に翻訳する名詞句翻訳モードにより翻訳する翻訳処理部と、
    前記コンピュータのCPUの動作により、前記指定部分抽出部が抽出した前記指定部分に含まれる前記複数の項目又は前記複数の要素のそれぞれに対応する訳語が、最も多く属する分類である最多分類を検出する最多分類検出部と、
    前記コンピュータのCPUの動作により、前記指定部分抽出部が抽出した前記指定部分に含まれる前記複数の項目又は前記複数の要素のそれぞれについて、当該項目又は当該要素に対応する複数の訳語のうち、前記最多分類に属する訳語を当該語句の訳語として選択する最多訳語選択部と
    して機能させ、
    前記コンピュータのCPUの動作により、前記翻訳処理部に、前記指定部分抽出部が抽出した前記指定部分に含まれる前記複数の項目又は前記複数の要素のそれぞれを、前記訳語選択部により選択された訳語を用いて翻訳させるプログラム。
  16. 前記コンピュータを、前記コンピュータの記憶装置により、前記ドキュメント中に含まれる、前記指定部分の指定に用いられる表示形式指定情報を管理する表示制御情報管理部として更に機能させ、
    前記コンピュータのCPUの動作により、前記指定部分抽出部に前記表示制御情報管理部から前記表示形式指定情報を取得させ、前記指定部分抽出部が複数の項目からなるリスト又は複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリスト又は表により表 示すべきことを指定された部分を前記指定部分として前記指定部分抽出部に抽出させる
    請求項15記載のプログラム。
  17. 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、
    前記コンピュータのCPUの動作により、前記指定部分抽出部に、前記指定部分抽出部が前記内容情報の少なくとも一部を複数の項目からなるリストとして表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によってリストとして表示すべきことを指定された部分を前記指定部分として抽出させ、
    前記コンピュータのCPUの動作により、前記翻訳処理部に、前記指定部分抽出部が抽出した前記指定部分に含まれる前記複数の項目のそれぞれを、前記名詞句翻訳モードにより翻訳させる
    請求項16記載のプログラム。
  18. 前記ドキュメントは、前記ドキュメントの表示方法の指定に用いられる制御情報である前記表示形式指定情報と、前記表示形式指定情報により指定された表示方法に基づき表示される内容である内容情報とを含み、
    前記コンピュータのCPUの動作により、前記指定部分抽出部に、前記指定部分抽出部が前記内容情報の少なくとも一部を複数の要素を含む表として表示すべきことを指定する前記表示形式指定情報を前記ドキュメント中に検出した場合に、前記表示形式指定情報によって前記表として表示すべきことを指定された部分を前記指定部分として抽出させ、
    前記コンピュータのCPUの動作により、前記翻訳処理部に、前記指定部分抽出部が抽出した前記指定部分に含まれる前記複数の要素のそれぞれを、前記名詞句翻訳モードにより翻訳させる
    請求項16記載のプログラム。
  19. 請求項15から請求項18のいずれかに記載のプログラムを記録した記録媒体。
JP2003102664A 2003-04-07 2003-04-07 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体 Expired - Fee Related JP3896341B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003102664A JP3896341B2 (ja) 2003-04-07 2003-04-07 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
US10/819,033 US20040199378A1 (en) 2003-04-07 2004-04-06 Translation system, translation method, and program and recording medium for use in realizing them

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003102664A JP3896341B2 (ja) 2003-04-07 2003-04-07 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2004310411A JP2004310411A (ja) 2004-11-04
JP3896341B2 true JP3896341B2 (ja) 2007-03-22

Family

ID=33095305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003102664A Expired - Fee Related JP3896341B2 (ja) 2003-04-07 2003-04-07 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体

Country Status (2)

Country Link
US (1) US20040199378A1 (ja)
JP (1) JP3896341B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201020816A (en) * 2008-11-25 2010-06-01 Univ Nat Taiwan Information retrieval oriented translation apparatus and methods, and storage media
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
CN102298578A (zh) * 2011-08-25 2011-12-28 盛乐信息技术(上海)有限公司 基于手持设备的翻译方法及系统
JP5372110B2 (ja) * 2011-10-28 2013-12-18 シャープ株式会社 情報出力装置、情報出力方法、及びコンピュータプログラム
CN103235775B (zh) * 2013-04-25 2016-06-29 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN103744834B (zh) * 2013-12-23 2016-08-17 武汉传神信息技术有限公司 一种翻译任务准确分配的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0823864B2 (ja) * 1986-03-29 1996-03-06 株式会社東芝 見出し判定方法
JPH07175813A (ja) * 1993-10-27 1995-07-14 Ricoh Co Ltd 複合通信処理装置
JPH09259128A (ja) * 1996-03-22 1997-10-03 Sharp Corp データ処理装置
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム

Also Published As

Publication number Publication date
US20040199378A1 (en) 2004-10-07
JP2004310411A (ja) 2004-11-04

Similar Documents

Publication Publication Date Title
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US8600930B2 (en) Information processing device and information processing method
US8126698B2 (en) Technique for improving accuracy of machine translation
US9075793B2 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
US9043339B2 (en) Extracting terms from document data including text segment
US20110119046A1 (en) Information processing device and information processing method
JP2004280574A (ja) 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US20150363381A1 (en) Template management apparatus, non-transitory computer readable medium, and template management method
US20160103915A1 (en) Linking thumbnail of image to web page
CN101876975A (zh) 汉语地名的识别方法
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
JP3896341B2 (ja) 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
US20150039985A1 (en) Associating mentioned items between documents
JP2007323238A (ja) 強調表示装置及びプログラム
JP5423282B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4298771B2 (ja) 機械翻訳装置及びプログラム
JP3635230B2 (ja) 音声合成装置および方法、情報処理装置、並びに、プログラム記録媒体
US20150309991A1 (en) Input support device, input support method, and input support program
JP2015022406A (ja) テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム
WO2023061020A1 (zh) 网页内容翻译方法、计算机设备、存储介质及程序产品
JP7418761B2 (ja) 画像と文字との混在文章を生成する装置
US20240281489A1 (en) System, method, and application for embedded internet searching and result display for personalized language and vocabulary learning
JP2001101207A (ja) 文書要約装置
JP2002297592A (ja) 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
JP6934621B2 (ja) 方法、装置、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061212

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20061212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees